論文の概要: ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links
- arxiv url: http://arxiv.org/abs/2509.01387v1
- Date: Mon, 01 Sep 2025 11:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.663395
- Title: ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links
- Title(参考訳): ABCD-LINK:クロスドキュメントファイングラインドリンク用アノテーションブートストラップ
- Authors: Serwar Basch, Ilia Kuznetsov, Tom Hope, Iryna Gurevych,
- Abstract要約: 我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
- 参考スコア(独自算出の注目度): 57.514511353084565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding fine-grained relations between documents is crucial for many application domains. However, the study of automated assistance is limited by the lack of efficient methods to create training and evaluation datasets of cross-document links. To address this, we introduce a new domain-agnostic framework for selecting a best-performing approach and annotating cross-document links in a new domain from scratch. We first generate and validate semi-synthetic datasets of interconnected documents. This data is used to perform automatic evaluation, producing a shortlist of best-performing linking approaches. These approaches are then used in an extensive human evaluation study, yielding performance estimates on natural text pairs. We apply our framework in two distinct domains -- peer review and news -- and show that combining retrieval models with LLMs achieves 78\% link approval from human raters, more than doubling the precision of strong retrievers alone. Our framework enables systematic study of cross-document understanding across application scenarios, and the resulting novel datasets lay foundation for numerous cross-document tasks like media framing and peer review. We make the code, data, and annotation protocols openly available.
- Abstract(参考訳): ドキュメント間のきめ細かい関係を理解することは、多くのアプリケーションドメインにとって非常に重要です。
しかし、自動支援の研究は、クロスドキュメントリンクのトレーニングと評価データセットを作成するための効率的な方法が欠如しているため、制限されている。
これを解決するために、私たちは、最高のパフォーマンスのアプローチを選択し、新しいドメインの文書間リンクをスクラッチから注釈付けするための、新しいドメインに依存しないフレームワークを導入します。
まず、相互接続された文書の半合成データセットを生成し、検証する。
このデータは自動評価に使われ、最高のパフォーマンスのリンク手法のショートリストを生成する。
これらのアプローチは、人間の評価研究に広く使われ、自然なテキストペアの性能評価が得られます。
我々は、我々のフレームワークをピアレビューとニュースという2つの異なる領域に適用し、検索モデルとLLMを組み合わせることで、強いレトリバーの精度を2倍にするのではなく、人間のラテンダーによる78.5%のリンク承認が得られることを示した。
我々のフレームワークは、アプリケーションシナリオ全体にわたるクロスドキュメント理解の体系的な研究を可能にし、結果として得られた新しいデータセットは、メディアフレーミングやピアレビューのような多数のクロスドキュメントタスクの基礎となる。
コード、データ、アノテーションのプロトコルを公開しています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Entity-centered Cross-document Relation Extraction [34.38369224008656]
関係抽出(RE)は情報抽出の基本的な課題であり,多くの研究が注目されている。
従来の研究は文や文書内の関係の抽出に重点を置いていたが、現在研究者はクロスドキュメントREを探求している。
本稿では,これらの不足に対処し,クロスドキュメントREの最先端を推し進めることを目的としている。
論文 参考訳(メタデータ) (2022-10-29T09:27:15Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。