論文の概要: Precise Information Control in Long-Form Text Generation
- arxiv url: http://arxiv.org/abs/2506.06589v1
- Date: Fri, 06 Jun 2025 23:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.346131
- Title: Precise Information Control in Long-Form Text Generation
- Title(参考訳): 長文テキスト生成における高精度情報制御
- Authors: Jacqueline He, Howard Yen, Margaret Li, Shuyue Stella Li, Zhiyuan Zeng, Weijia Shi, Yulia Tsvetkov, Danqi Chen, Pang Wei Koh, Luke Zettlemoyer,
- Abstract要約: 現代言語モデル(LM)における中心的な課題は、固有の幻覚である。
提案手法は,短時間の自己完結文のセットで与えられた長文の出力をモデルで生成することを必要とするタスクの定式化である。
提案するPIC-Benchは,PIC設定に適合する8つの長文生成タスクのベンチマークである。
PIC-Bench 上でのオープンかつプロプライエタリな LM の評価は、驚くべきことに、最先端の LM が 70% 以上も内在的に幻覚していることを示している。
- 参考スコア(独自算出の注目度): 92.88653652694838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central challenge in modern language models (LMs) is intrinsic hallucination: the generation of information that is plausible but unsubstantiated relative to input context. To study this problem, we propose Precise Information Control (PIC), a new task formulation that requires models to generate long-form outputs grounded in a provided set of short self-contained statements, known as verifiable claims, without adding any unsupported ones. For comprehensiveness, PIC includes a full setting that tests a model's ability to include exactly all input claims, and a partial setting that requires the model to selectively incorporate only relevant claims. We present PIC-Bench, a benchmark of eight long-form generation tasks (e.g., summarization, biography generation) adapted to the PIC setting, where LMs are supplied with well-formed, verifiable input claims. Our evaluation of a range of open and proprietary LMs on PIC-Bench reveals that, surprisingly, state-of-the-art LMs still intrinsically hallucinate in over 70% of outputs. To alleviate this lack of faithfulness, we introduce a post-training framework, using a weakly supervised preference data construction method, to train an 8B PIC-LM with stronger PIC ability--improving from 69.1% to 91.0% F1 in the full PIC setting. When integrated into end-to-end factual generation pipelines, PIC-LM improves exact match recall by 17.1% on ambiguous QA with retrieval, and factual precision by 30.5% on a birthplace verification task, underscoring the potential of precisely grounded generation.
- Abstract(参考訳): 現代言語モデル (LM) における中心的な課題は内在幻覚 (intrinsic hallucination) である。
そこで本研究では,提案する課題の1つとして,検証可能なクレームと呼ばれる短い自己完結文のセットに,モデルに長文の出力を付加することなく生成するタスクの定式化を提案する。
包括性のために、PICはモデルが完全に全てのインプットクレームを含む能力をテストする完全な設定と、関連するクレームのみを選択的に組み込む必要がある部分的な設定を含む。
PIC設定に適応した8つの長文生成タスク(例えば、要約、伝記生成)のベンチマークであるPIC-Benchについて述べる。
PIC-Bench 上でのオープンかつプロプライエタリな LM の評価では、驚くべきことに、最先端の LM は出力の70% 以上を内在的に幻覚させる。
このような忠実さの欠如を緩和するために、弱い教師付き嗜好データ構築法を用いて、PIC能力の強い8B PIC-LMをフルPIC設定で69.1%から91.0%F1に改善するポストトレーニングフレームワークを導入する。
PIC-LMは、エンドツーエンドのファクト・ツー・エンドのファクト・ジェネレーション・パイプラインに統合されると、検索を伴うあいまいなQAでは17.1%、出生地検証では30.5%の精度で正確なマッチング・リコールを改善し、正確なグラウンドド・ジェネレーションの可能性を示している。
関連論文リスト
- Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model [1.124958340749622]
本研究では,最も適切なフィルタリング手法を適応的に選択する,アンサンブルに基づく新しい前処理フレームワークを提案する。
この手法は、自然言語推論(NLI)スコアによって測定された幻覚率を44.3%削減する。
この結果は、幻覚を緩和し、より信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-05-29T21:09:34Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Language Models with Conformal Factuality Guarantees [44.767328168194815]
コンフォーマルな事実性(conformal factuality)は、言語モデル(LM)出力に対する高い確率の正確性を保証するフレームワークである。
言語モデルにおける共形予測は,高い確率精度保証を提供するバックオフアルゴリズムに対応することを示す。
論文 参考訳(メタデータ) (2024-02-15T18:31:53Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Small Language Model Can Self-correct [42.76612128849389]
本稿では,自己トリガー方式でLMの初期出力を補正することを目的として,生成言語モデルに内在的アンダーライン・アンダーライン・コレクション(ISC)を導入する。
我々は,60億から13億のパラメータサイズを持つLMを用いて,常識推論と事実知識推論を含む2つのタスクで実験を行う。
論文 参考訳(メタデータ) (2024-01-14T14:29:07Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。