論文の概要: Toward Faithful and Complete Answer Construction from a Single Document
- arxiv url: http://arxiv.org/abs/2602.06103v1
- Date: Thu, 05 Feb 2026 18:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.050251
- Title: Toward Faithful and Complete Answer Construction from a Single Document
- Title(参考訳): 単一文書からの忠実で完全な回答構築に向けて
- Authors: Zhaoyang Chen, Cody Fleming,
- Abstract要約: EVEは文書基底推論のための構造化されたフレームワークである。
自由形式のプロンプトとは異なり、EVEは、高厳密な推論を抽出、検証、列挙に分解する構造化された検証可能なパイプラインに、生成を制約する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) are powerful generators driven by statistical next-token prediction. While effective at producing fluent text, this design biases models toward high-probability continuations rather than exhaustive and faithful answers grounded in source content. As a result, directly applying LLMs lacks systematic mechanisms to ensure both completeness (avoiding omissions) and faithfulness (avoiding unsupported content), which fundamentally conflicts with core AI safety principles. To address this limitation, we present EVE, a structured framework for document-grounded reasoning. Unlike free-form prompting, EVE constrains generation to a structured, verifiable pipeline that decomposes high-rigor reasoning into extraction, validation, and enumeration. Empirically, this design enables consistent and simultaneous improvements in recall, precision, and F1-score: recall and precision increase by up to 24\% and 29\%, respectively, with a corresponding 31\% gain in F1-score. This effectively breaks the long-standing trade-off between coverage and accuracy typical of single-pass LLM generation, while also mitigating generation truncation caused by length limitations. At the same time, we emphasize that EVE exhibits performance saturation due to the inherent ambiguity of natural language, reflecting fundamental limits of language-based reasoning.
- Abstract(参考訳): 現代の大規模言語モデル (LLM) は統計的次世代予測によって駆動される強力なジェネレータである。
このデザインは、流動的なテキストを生成するのに効果的であるが、ソースコンテンツに根ざした徹底的で忠実な回答よりも、高確率な継続に向けたモデルに偏っている。
その結果、LSMを直接適用するには、完全な(省略)と忠実(サポートなしコンテンツ)の両方を保証するための体系的なメカニズムが欠如しており、基本的にコアAI安全原則と矛盾する。
この制限に対処するために、文書基底推論のための構造化されたフレームワークであるEVEを提案する。
自由形式のプロンプトとは異なり、EVEは、高厳密な推論を抽出、検証、列挙に分解する構造化された検証可能なパイプラインに、生成を制約する。
実験的に、この設計はリコール、精度、F1スコアの一貫性と同時改善を可能にし、リコールと精度はそれぞれ24\%と29\%増加し、F1スコアは31\%上昇した。
これにより、単一パスLLM生成の典型的なカバレッジと精度の長年のトレードオフを効果的に破り、また、長さ制限による生成トランケーションを軽減できる。
同時に、EVEは言語に基づく推論の基本的限界を反映して、自然言語固有のあいまいさにより、性能飽和を示すことを強調した。
関連論文リスト
- Lookahead-then-Verify: Reliable Constrained Decoding for Diffusion LLMs under Context-Free Grammars [17.13122301190815]
本稿では,dLLMに特化して設計された制約付き復号法であるLAVEを提案する。
提案手法は,dLLMの鍵となる特性,すなわち前方通過時の全位置のトークン分布を予測する能力を利用する。
広く使用されている4つのdLLMと3つの代表的なベンチマークによる大規模な実験は、LAVEが既存のベースラインを一貫して上回り、構文的正確性を大幅に改善し、無視可能なランタイムオーバーヘッドを発生させることを示した。
論文 参考訳(メタデータ) (2026-01-31T08:58:15Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Thinking Before Constraining: A Unified Decoding Framework for Large Language Models [1.2468700211588883]
自然生成と構造生成の両方の利点を組み合わせた簡単なアプローチを提案する。
提案手法は,構造化された出力の信頼性を確保しつつ,自然言語推論の表現力を維持する。
論文 参考訳(メタデータ) (2026-01-12T13:25:28Z) - VIGOR+: Iterative Confounder Generation and Validation via LLM-CEVAE Feedback Loop [14.309475903975441]
近年の進歩は、大規模言語モデルを活用して、ドメイン知識に基づいて、もっともらしい隠れた共同設立者を生成する。
我々は,LLMベースの共同創設者生成とCEVAEベースの統計的検証のループを閉じる新しいフレームワークであるVIGOR+を提案する。
フィードバック機構を定式化し、軽微な仮定の下で収束特性を証明し、完全なアルゴリズムの枠組みを提供する。
論文 参考訳(メタデータ) (2025-12-22T12:48:29Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。