論文の概要: TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification
- arxiv url: http://arxiv.org/abs/2503.15289v1
- Date: Wed, 19 Mar 2025 15:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:08.510615
- Title: TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification
- Title(参考訳): TROVE:源文追跡と関係分類による細粒度テキスト表現の課題
- Authors: Junnan Zhu, Min Xiao, Yining Wang, Feifei Zhai, Yu Zhou, Chengqing Zong,
- Abstract要約: 医療、法律、ニュースなどの高度な領域では、コンテンツがどこでどのように作られるかを理解することが不可欠である。
テキストpROVEnance(テキストpROVEnance)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
- 参考スコア(独自算出の注目度): 32.958143806547234
- License:
- Abstract: LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains such as healthcare, law, and news, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation.
- Abstract(参考訳): LLMはテキスト生成において顕著な流布とコヒーレンスを実現しているが、その普及によってコンテンツの信頼性と説明責任に対する懸念が高まっている。
医療、法律、ニュースなどの高度な領域では、コンテンツがどこでどのように作られるかを理解することが不可欠である。
そこで本研究では,テキストpROVEnance(Text pROVEnance, TROVE)チャレンジを導入する。
情報源の特定以外にも、TROVEは微粒な関係(引用、圧縮、推論など)を注釈し、それぞれの文がどのように形成されるのかを深く理解している。
TROVEをベンチマークするために、英語と中国語の11の多様なシナリオ(例えば、QA、要約)をカバーする3つの公開データセットを活用し、異なる長さ(0-5k、5-10k、10k+)のソーステキストにまたがるデータセットを構築し、証明に不可欠な複数文書と長期文書の設定を強調した。
高品質なデータを保証するため,文検索,GPT証明,人為的証明という3段階のアノテーションプロセスを採用している。
我々は、直接的プロンプトおよび検索強化パラダイムの下で11個のLCMを評価し、検索が堅牢な性能に不可欠であること、大規模モデルは複雑な関係分類においてより良い性能を示すこと、そしてクローズドソースモデルはしばしば導かれるが、オープンソースモデルは、特に検索強化において有望であることを示す。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scoring of Texts with Large Language Models [3.656114607436271]
既存のテキストスコアリング手法では、大きなコーパス、短いテキストとの競合、手書きのデータが必要である。
生成的大言語モデル(LLM)を利用したテキストスコアリングフレームワークを開発した。
本稿では、Twitter上の特定の政党への反感を反映したスピーチをよりよく理解するために、このアプローチを適用する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Contextualized Representations Using Textual Encyclopedic Knowledge [23.49437524363581]
背景知識をテキストから統合することは,事実推論に焦点をあてたタスクに有効であることを示す。
TriviaQAでは,RoBERTaモデルに比較して1.6から3.1F1の改善が得られた。
論文 参考訳(メタデータ) (2020-04-24T22:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。