論文の概要: Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction
- arxiv url: http://arxiv.org/abs/2401.13598v1
- Date: Wed, 24 Jan 2024 17:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 13:53:43.123141
- Title: Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction
- Title(参考訳): ゼロショット文書レベル関係三重項抽出のためのllmsにおける一貫性のある知識検索と特徴付け
- Authors: Qi Sun and Kun Huang and Xiaocui Yang and Rong Tong and Kun Zhang and
Soujanya Poria
- Abstract要約: 文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
- 参考スコア(独自算出の注目度): 43.50683283748675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level Relation Triplet Extraction (DocRTE) is a fundamental task in
information systems that aims to simultaneously extract entities with semantic
relations from a document. Existing methods heavily rely on a substantial
amount of fully labeled data. However, collecting and annotating data for newly
emerging relations is time-consuming and labor-intensive. Recent advanced Large
Language Models (LLMs), such as ChatGPT and LLaMA, exhibit impressive long-text
generation capabilities, inspiring us to explore an alternative approach for
obtaining auto-labeled documents with new relations. In this paper, we propose
a Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) framework,
which generates labeled data by retrieval and denoising knowledge from LLMs,
called GenRDK. Specifically, we propose a chain-of-retrieval prompt to guide
ChatGPT to generate labeled long-text data step by step. To improve the quality
of synthetic data, we propose a denoising strategy based on the consistency of
cross-document knowledge. Leveraging our denoised synthetic data, we proceed to
fine-tune the LLaMA2-13B-Chat for extracting document-level relation triplets.
We perform experiments for both zero-shot document-level relation and triplet
extraction on two public datasets. The experimental results illustrate that our
GenRDK framework outperforms strong baselines.
- Abstract(参考訳): 文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
しかし、新たな関係のためのデータの収集と注釈付けには時間と労力がかかる。
近年,ChatGPT や LLaMA などの先進言語モデル (LLM) は,優れた長文生成能力を示し,新たな関係を持つ自動ラベル付き文書を得るための代替手法を探究するきっかけとなった。
本稿では,llmsから知識を検索・削除することでラベル付きデータを生成するゼロショット文書レベル関係三重項抽出(zerodocrte)フレームワークを提案する。
具体的には、ChatGPTをガイドしてラベル付き長文データを生成するチェーン・オブ・検索プロンプトを提案する。
合成データの品質を向上させるために,クロスドキュメント知識の一貫性に基づく分別戦略を提案する。
有意な合成データを利用して,llama2-13b-chatを微調整し,文書レベルの関係三重項を抽出する。
2つの公開データセット上でゼロショット文書レベル関係とトリプレット抽出の両方について実験を行う。
実験の結果,我々のGenRDKフレームワークは強いベースラインを上回っていることがわかった。
関連論文リスト
- BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction [0.3208888890455612]
識別・音声認識パラダイム DiVA を導入する。
私たちの革新はDocREを差別的なタスクに変換することです。
Re-DocREDおよびDocREDデータセットの実験では、DocRTEタスクの最先端の結果が示されている。
論文 参考訳(メタデータ) (2024-09-07T18:47:38Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - PromptRE: Weakly-Supervised Document-Level Relation Extraction via
Prompting-Based Data Programming [30.597623178206874]
本稿では,文書レベルの関係抽出手法であるPromptREを提案する。
PromptREは、ラベルの配布とエンティティタイプを事前知識として組み込んでパフォーマンスを向上させる。
文書レベルの関係抽出のためのベンチマークデータセットであるReDocREDの実験結果は、ベースラインアプローチよりもPromptREの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-10-13T17:23:17Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - RelationPrompt: Leveraging Prompts to Generate Synthetic Data for
Zero-Shot Relation Triplet Extraction [65.4337085607711]
ゼロショット関係トリプルト抽出(ZeroRTE)のタスク設定について紹介する。
入力文が与えられた後、抽出された各三重項は、トレーニング段階で関係ラベルが見えないヘッドエンティティ、リレーションラベル、テールエンティティから構成される。
本稿では、言語モデルに構造化テキストを生成するよう促すことで、関係例を合成する。
論文 参考訳(メタデータ) (2022-03-17T05:55:14Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Reasoning with Latent Structure Refinement for Document-Level Relation
Extraction [20.308845516900426]
本稿では,潜在文書レベルグラフを自動的に誘導することにより,文間の関係推論を促進する新しいモデルを提案する。
具体的には、大規模文書レベルデータセット(DocRED)上でF1スコア59.05を達成する。
論文 参考訳(メタデータ) (2020-05-13T13:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。