論文の概要: SEKE: Specialised Experts for Keyword Extraction
- arxiv url: http://arxiv.org/abs/2412.14087v1
- Date: Wed, 18 Dec 2024 17:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:18.301926
- Title: SEKE: Specialised Experts for Keyword Extraction
- Title(参考訳): SEKE:キーワード抽出の専門家
- Authors: Matej Martinc, Hanh Thi Hong Tran, Senja Pollak, Boshko Koloski,
- Abstract要約: キーワード抽出は、文書の中で最も記述的な単語を特定することを含む。
本稿では,専門家(MoE)の手法を併用した新しい教師付きキーワード抽出手法を提案する。
MoEは学習可能なルーティングサブネットワークを使用して、専門家に情報を指示し、入力空間の異なる領域を専門化することができる。
- 参考スコア(独自算出の注目度): 5.8908163351315075
- License:
- Abstract: Keyword extraction involves identifying the most descriptive words in a document, allowing automatic categorisation and summarisation of large quantities of diverse textual data. Relying on the insight that real-world keyword detection often requires handling of diverse content, we propose a novel supervised keyword extraction approach based on the mixture of experts (MoE) technique. MoE uses a learnable routing sub-network to direct information to specialised experts, allowing them to specialize in distinct regions of the input space. SEKE, a mixture of Specialised Experts for supervised Keyword Extraction, uses DeBERTa as the backbone model and builds on the MoE framework, where experts attend to each token, by integrating it with a recurrent neural network (RNN), to allow successful extraction even on smaller corpora, where specialisation is harder due to lack of training data. The MoE framework also provides an insight into inner workings of individual experts, enhancing the explainability of the approach. We benchmark SEKE on multiple English datasets, achieving state-of-the-art performance compared to strong supervised and unsupervised baselines. Our analysis reveals that depending on data size and type, experts specialize in distinct syntactic and semantic components, such as punctuation, stopwords, parts-of-speech, or named entities. Code is available at: https://github.com/matejMartinc/SEKE_keyword_extraction
- Abstract(参考訳): キーワード抽出は文書の中で最も記述的な単語を識別することを含み、多種多様なテキストデータの自動分類と要約を可能にする。
実世界のキーワード検出は、多種多様なコンテンツを扱う必要があるという知見に基づいて、専門家(MoE)の混在に基づく新しい教師付きキーワード抽出手法を提案する。
MoEは学習可能なルーティングサブネットワークを使用して、専門家に情報を指示し、入力空間の異なる領域を専門化することができる。
教師付きキーワード抽出のための特別専門家の混合物であるSEKEは、DeBERTaをバックボーンモデルとして使用し、トレーニングデータの欠如により特殊化が困難な小さなコーパス上でも、専門家がそれぞれのトークンに参加することができるMoEフレームワーク上に構築する。
MoEフレームワークはまた、個々の専門家の内部動作に関する洞察を提供し、アプローチの説明可能性を高める。
複数の英語データセット上でSEKEをベンチマークし、教師なしベースラインや教師なしベースラインと比較して最先端のパフォーマンスを実現した。
分析の結果,データサイズやタイプによっては,句読点,停止語,パート・オブ・音声,名前付きエンティティなど,特定の構文的・意味的要素を専門に扱うことが明らかとなった。
https://github.com/matejMartinc/SEKE_keyword_extraction
関連論文リスト
- Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - DiscoverPath: A Knowledge Refinement and Retrieval System for
Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。
本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文 参考訳(メタデータ) (2023-09-04T20:52:33Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - Multi-Round Parsing-based Multiword Rules for Scientific OpenIE [18.163915930906693]
OpenIEは、被写体とオブジェクトの関係を記述するリレーショナルなフレーズを識別する。
本稿では,依存関係解析に基づく構造化情報抽出のルールについて述べる。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-04T14:17:48Z) - TNT-KID: Transformer-based Neural Tagger for Keyword Identification [7.91883337742071]
本稿では,キーワード識別のための Transformer-based Neural Tagger (TNT-KID) というキーワード識別アルゴリズムを提案する。
特定のタスクにトランスフォーマーアーキテクチャを適用し、ドメイン固有のコーパスで事前学習する言語モデルを活用することにより、キーワード抽出に対する教師なしと教師なしの両方のアプローチの欠陥を克服することができる。
論文 参考訳(メタデータ) (2020-03-20T09:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。