論文の概要: TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification
- arxiv url: http://arxiv.org/abs/2503.15289v3
- Date: Fri, 30 May 2025 08:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.441847
- Title: TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification
- Title(参考訳): TROVE:源文追跡と関係分類による細粒度テキスト表現の課題
- Authors: Junnan Zhu, Min Xiao, Yining Wang, Feifei Zhai, Yu Zhou, Chengqing Zong,
- Abstract要約: テキストpROVEnance(TROVE)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
TROVEをベンチマークするために、11の多様なシナリオをカバーする3つの公開データセットを活用してデータセットを構築します。
我々は、直接的プロンプトおよび検索拡張パラダイムの下で11個のLLMを評価する。
- 参考スコア(独自算出の注目度): 32.958143806547234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have achieved remarkable fluency and coherence in text generation, yet their widespread adoption has raised concerns about content reliability and accountability. In high-stakes domains, it is crucial to understand where and how the content is created. To address this, we introduce the Text pROVEnance (TROVE) challenge, designed to trace each sentence of a target text back to specific source sentences within potentially lengthy or multi-document inputs. Beyond identifying sources, TROVE annotates the fine-grained relationships (quotation, compression, inference, and others), providing a deep understanding of how each target sentence is formed. To benchmark TROVE, we construct our dataset by leveraging three public datasets covering 11 diverse scenarios (e.g., QA and summarization) in English and Chinese, spanning source texts of varying lengths (0-5k, 5-10k, 10k+), emphasizing the multi-document and long-document settings essential for provenance. To ensure high-quality data, we employ a three-stage annotation process: sentence retrieval, GPT-4o provenance, and human provenance. We evaluate 11 LLMs under direct prompting and retrieval-augmented paradigms, revealing that retrieval is essential for robust performance, larger models perform better in complex relationship classification, and closed-source models often lead, yet open-source models show significant promise, particularly with retrieval augmentation. We make our dataset available here: https://github.com/ZNLP/ZNLP-Dataset.
- Abstract(参考訳): LLMはテキスト生成において顕著な流布とコヒーレンスを実現しているが、その普及によってコンテンツの信頼性と説明責任に対する懸念が高まっている。
ハイテイクなドメインでは、コンテンツがどこでどのように作成されるかを理解することが重要です。
そこで本研究では,テキストpROVEnance(Text pROVEnance, TROVE)チャレンジを導入する。
情報源の特定以外にも、TROVEは微粒な関係(引用、圧縮、推論など)を注釈し、それぞれの文がどのように形成されるのかを深く理解している。
TROVEをベンチマークするために、英語と中国語の11の多様なシナリオ(例えば、QA、要約)をカバーする3つの公開データセットを活用し、異なる長さ(0-5k、5-10k、10k+)のソーステキストにまたがるデータセットを構築し、証明に不可欠な複数文書と長期文書の設定を強調した。
高品質なデータを保証するために,文検索,GPT-4o証明,人的証明という3段階のアノテーションプロセスを用いる。
我々は、直接的プロンプトおよび検索強化パラダイムの下で11個のLCMを評価し、検索が堅牢な性能に不可欠であること、大規模モデルは複雑な関係分類においてより良い性能を示すこと、そしてクローズドソースモデルはしばしば導かれるが、オープンソースモデルは、特に検索強化において有望であることを示す。
データセットは、https://github.com/ZNLP/ZNLP-Dataset.com/で利用可能です。
関連論文リスト
- RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-03-02T06:11:29Z) - Evaluating LLMs and Pre-trained Models for Text Summarization Across Diverse Datasets [2.6966823536477436]
本研究では,BART,FLAN-T5,LLaMA-3-8B,Gemma-7Bの4大言語モデルについて,徹底的に評価する。
評価はROUGE-1, ROUGE-2, ROUGE-L, BERTScore, METEORなどの広く知られている自動測定値を用いて、一貫性のある情報的な要約を生成する際のモデルの能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T17:32:07Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scoring of Texts with Large Language Models [3.656114607436271]
既存のテキストスコアリング手法では、大きなコーパス、短いテキストとの競合、手書きのデータが必要である。
生成的大言語モデル(LLM)を利用したテキストスコアリングフレームワークを開発した。
本稿では、Twitter上の特定の政党への反感を反映したスピーチをよりよく理解するために、このアプローチを適用する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。