論文の概要: Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction
- arxiv url: http://arxiv.org/abs/2401.13598v1
- Date: Wed, 24 Jan 2024 17:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 13:53:43.123141
- Title: Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction
- Title(参考訳): ゼロショット文書レベル関係三重項抽出のためのllmsにおける一貫性のある知識検索と特徴付け
- Authors: Qi Sun and Kun Huang and Xiaocui Yang and Rong Tong and Kun Zhang and
Soujanya Poria
- Abstract要約: 文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
- 参考スコア(独自算出の注目度): 43.50683283748675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level Relation Triplet Extraction (DocRTE) is a fundamental task in
information systems that aims to simultaneously extract entities with semantic
relations from a document. Existing methods heavily rely on a substantial
amount of fully labeled data. However, collecting and annotating data for newly
emerging relations is time-consuming and labor-intensive. Recent advanced Large
Language Models (LLMs), such as ChatGPT and LLaMA, exhibit impressive long-text
generation capabilities, inspiring us to explore an alternative approach for
obtaining auto-labeled documents with new relations. In this paper, we propose
a Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) framework,
which generates labeled data by retrieval and denoising knowledge from LLMs,
called GenRDK. Specifically, we propose a chain-of-retrieval prompt to guide
ChatGPT to generate labeled long-text data step by step. To improve the quality
of synthetic data, we propose a denoising strategy based on the consistency of
cross-document knowledge. Leveraging our denoised synthetic data, we proceed to
fine-tune the LLaMA2-13B-Chat for extracting document-level relation triplets.
We perform experiments for both zero-shot document-level relation and triplet
extraction on two public datasets. The experimental results illustrate that our
GenRDK framework outperforms strong baselines.
- Abstract(参考訳): 文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
しかし、新たな関係のためのデータの収集と注釈付けには時間と労力がかかる。
近年,ChatGPT や LLaMA などの先進言語モデル (LLM) は,優れた長文生成能力を示し,新たな関係を持つ自動ラベル付き文書を得るための代替手法を探究するきっかけとなった。
本稿では,llmsから知識を検索・削除することでラベル付きデータを生成するゼロショット文書レベル関係三重項抽出(zerodocrte)フレームワークを提案する。
具体的には、ChatGPTをガイドしてラベル付き長文データを生成するチェーン・オブ・検索プロンプトを提案する。
合成データの品質を向上させるために,クロスドキュメント知識の一貫性に基づく分別戦略を提案する。
有意な合成データを利用して,llama2-13b-chatを微調整し,文書レベルの関係三重項を抽出する。
2つの公開データセット上でゼロショット文書レベル関係とトリプレット抽出の両方について実験を行う。
実験の結果,我々のGenRDKフレームワークは強いベースラインを上回っていることがわかった。
関連論文リスト
- Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - PromptRE: Weakly-Supervised Document-Level Relation Extraction via
Prompting-Based Data Programming [30.597623178206874]
本稿では,文書レベルの関係抽出手法であるPromptREを提案する。
PromptREは、ラベルの配布とエンティティタイプを事前知識として組み込んでパフォーマンスを向上させる。
文書レベルの関係抽出のためのベンチマークデータセットであるReDocREDの実験結果は、ベースラインアプローチよりもPromptREの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-10-13T17:23:17Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - RelationPrompt: Leveraging Prompts to Generate Synthetic Data for
Zero-Shot Relation Triplet Extraction [65.4337085607711]
ゼロショット関係トリプルト抽出(ZeroRTE)のタスク設定について紹介する。
入力文が与えられた後、抽出された各三重項は、トレーニング段階で関係ラベルが見えないヘッドエンティティ、リレーションラベル、テールエンティティから構成される。
本稿では、言語モデルに構造化テキストを生成するよう促すことで、関係例を合成する。
論文 参考訳(メタデータ) (2022-03-17T05:55:14Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Document-level Entity-based Extraction as Template Generation [13.110360825201044]
本稿では2つの文書レベルEEタスクのための生成フレームワークを提案する: 役割充足者エンティティ抽出(REE)と関係抽出(RE)である。
まず、テンプレート生成問題として定式化し、モデルが依存性を効率的にキャプチャできるようにする。
キー情報の識別能力を高めるために、新しいクロスアテンションガイド付きコピー機構であるTopK Copyを事前訓練されたシーケンス・ツー・シーケンスモデルに組み込む。
論文 参考訳(メタデータ) (2021-09-10T14:18:22Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Reasoning with Latent Structure Refinement for Document-Level Relation
Extraction [20.308845516900426]
本稿では,潜在文書レベルグラフを自動的に誘導することにより,文間の関係推論を促進する新しいモデルを提案する。
具体的には、大規模文書レベルデータセット(DocRED)上でF1スコア59.05を達成する。
論文 参考訳(メタデータ) (2020-05-13T13:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。