論文の概要: How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2406.11162v2
- Date: Wed, 26 Jun 2024 01:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 18:06:11.962061
- Title: How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation
- Title(参考訳): 低資源シナリオ下でのLLMはどの程度優れているか? 総合的評価
- Authors: Dawulie Jinensibieke, Mieradilijiang Maimaiti, Wentao Xiao, Yuanhang Zheng, Xiaobo Wang,
- Abstract要約: 本稿では,3地域(中央アジア,東南アジア,中東)の低リソース言語10言語(LRL)における低リソース関係抽出データセットを構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
- 参考スコア(独自算出の注目度): 7.151108031568037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relation Extraction (RE) serves as a crucial technology for transforming unstructured text into structured information, especially within the framework of Knowledge Graph development. Its importance is emphasized by its essential role in various downstream tasks. Besides the conventional RE methods which are based on neural networks and pre-trained language models, large language models (LLMs) are also utilized in the research field of RE. However, on low-resource languages (LRLs), both conventional RE methods and LLM-based methods perform poorly on RE due to the data scarcity issues. To this end, this paper constructs low-resource relation extraction datasets in 10 LRLs in three regions (Central Asia, Southeast Asia and Middle East). The corpora are constructed by translating the original publicly available English RE datasets (NYT10, FewRel and CrossRE) using an effective multilingual machine translation. Then, we use the language perplexity (PPL) to filter out the low-quality data from the translated datasets. Finally, we conduct an empirical study and validate the performance of several open-source LLMs on these generated LRL RE datasets.
- Abstract(参考訳): 関係抽出(RE)は、構造化されていないテキストを構造化情報に変換する重要な技術として、特に知識グラフ開発における枠組みの中で機能する。
その重要性は、下流の様々なタスクにおける重要な役割によって強調されている。
ニューラルネットワークと事前学習言語モデルに基づく従来のRE法に加えて、大規模な言語モデル(LLM)もREの研究分野で活用されている。
しかし、低リソース言語(LRL)では、データ不足の問題により、従来のRE法とLLMベースの手法の両方がReに対して不十分に動作する。
そこで本研究では,3つの地域(中央アジア,東南アジア,中東)において,低リソース関係抽出データセットを10LRLで構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
最後に、これらの生成されたLRL REデータセット上で、実験的な研究を行い、複数のオープンソースLLMの性能を検証した。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors [9.881102419679673]
textscMicre (textbfMeta textbfIn-textbfContext learning of LLMs for textbfRelation textbfExtraction)は、ゼロおよび少数ショット関係抽出のための新しいメタトレーニングフレームワークである。
textscMicreは、ターゲットREデータセットの推論中に関係ラベル名を介して関係意味知識を転送可能であることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:06:39Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - In-Context Retrieval-Augmented Language Models [28.23702459322163]
In-Context RALMは市販の汎用検索機を利用して、モデルサイズや多様なコーパスに対して驚くほど大きなLMゲインを提供する。
In-Context RALM は LM の接地頻度を増大させる可能性があると結論付けている。
論文 参考訳(メタデータ) (2023-01-31T20:26:16Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Cross-Lingual Relation Extraction with Transformers [10.03287972980716]
本稿では,言語間関係抽出(RE)手法を提案する。
我々は、エンティティ位置とエンティティタイプ情報を効果的にエンコードできる新しい符号化方式を用いて、ディープトランスフォーマーベースのREモデルを開発する。
私たちのモデルは、英語データでトレーニングされた場合、ディープニューラルネットワークベースの英語REモデルよりも優れています。
論文 参考訳(メタデータ) (2020-10-16T22:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。