論文の概要: The Future of Facts: Tracing the Factual Generation-Verification Gap
- arxiv url: http://arxiv.org/abs/2605.27564v1
- Date: Tue, 26 May 2026 18:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.456395
- Title: The Future of Facts: Tracing the Factual Generation-Verification Gap
- Title(参考訳): ファクトの未来:Factual Generation-Verification Gapの追跡
- Authors: Tim R. Davidson, Anja Surina, Caglar Gulcehre,
- Abstract要約: 言語モデルは事実的知識のデフォルトインターフェースになりつつあるが、しばしばそれらを生成するよりも確実に出力を検証する。
この生成検証ギャップ(GV-gap)は、近年の自己改善と推論の進歩の根底にある。
我々は,現実的なGVギャップの根底にあるトレーニングメカニズムに注目し,それらと計算的および美学的な相違点を区別する。
- 参考スコア(独自算出の注目度): 8.564557101519455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are becoming the default interface to factual knowledge, yet they often verify outputs more reliably than they generate them. This generation-verification gap (GV-gap) underlies many recent advances in self-improvement and reasoning, but its dynamics on factual knowledge specifically remain poorly understood. We focus on the training mechanisms underlying factual GV-gaps, distinguishing them from their computational and aesthetic counterparts. We trace generation and verification capabilities through three training phases (acquisition, continual learning, and updating) across four open-source model families at two scales each. Three findings recur across models: (i) verification is consistently learned before generation; (ii) verification is more robust to continual learning than generation; and (iii) factual updates can leave models in a "multi-verse" state, simultaneously verifying both old and new answers as correct. Natural experiments on frontier models reproduce these dynamics at scale and reveal residual verification biases on well-covered facts.
- Abstract(参考訳): 言語モデルは事実的知識のデフォルトインターフェースになりつつあるが、しばしばそれらを生成するよりも確実に出力を検証する。
この生成検証ギャップ(GV-gap)は、近年の自己改善と推論の進歩の根底にあるが、事実知識に対するそのダイナミクスは、特に理解されていないままである。
我々は,現実的なGVギャップの根底にあるトレーニングメカニズムに注目し,それらと計算的および美学的な相違点を区別する。
3つのトレーニングフェーズ(取得、継続学習、更新)を通じて、オープンソースの4つのモデルファミリを2つのスケールでトレースします。
モデル間での3つの発見。
i) 検証は,生成前に一貫して学習される。
(二)検証は、世代よりも連続的な学習に頑健である。
状態にし、古いと新しいの両方の回答が正しいことを同時に検証することができる。
フロンティアモデルに関する自然実験は、これらの力学を大規模に再現し、よく発見された事実に対する残差の検証バイアスを明らかにする。
関連論文リスト
- V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models [1.424507155580441]
現実の事実は本質的に時間に敏感であり、不規則かつ周期的な変化にさらされている。
V-DyKnowは、視覚言語モデルにおいて、時間に敏感な事実知識を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-17T14:33:08Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - How do language models learn facts? Dynamics, curricula and hallucinations [22.693703460345873]
大規模言語モデルは事前学習中に膨大な知識を蓄積するが、この買収を統括する力学はいまだに理解されていない。
本研究は,人工的事実記憶課題における言語モデルの学習力学について検討する。
論文 参考訳(メタデータ) (2025-03-27T16:43:45Z) - Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown [68.33486915047014]
様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文の事実性は低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T22:06:26Z) - Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? [33.702498916775426]
既存の知識を活用するための微調整モデルの能力に及ぼす新しい知識の影響について検討する。
大規模な言語モデルは、微調整によって新しい事実知識を取得するのに苦労していることを実証する。
新たな知識のサンプルが最終的に学習されるにつれて、モデルが幻覚化する傾向がリニアに増加する。
論文 参考訳(メタデータ) (2024-05-09T17:00:22Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Language Generation with Multi-Hop Reasoning on Commonsense Knowledge
Graph [124.45799297285083]
知識グラフの構造的情報と意味的情報の両方を活用することで、コモンセンスを意識したテキスト生成が促進されると主張している。
本稿では,外部コモンセンス知識グラフから抽出したマルチリレーショナルパスに基づいて,動的マルチホップ推論を用いた事前学習モデルを実現するマルチホップ推論フロー(GRF)の生成を提案する。
論文 参考訳(メタデータ) (2020-09-24T13:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。