論文の概要: Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information
- arxiv url: http://arxiv.org/abs/2603.11749v1
- Date: Thu, 12 Mar 2026 09:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.005684
- Title: Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information
- Title(参考訳): Compression Favors Consistency, not Truth: When and why Language Models Preferrect Information
- Authors: Konstantin Krestnikov,
- Abstract要約: 混合品質データを用いて訓練しても、言語モデルが正しい文を好むことがある理由を考察する。
真実バイアスは、誤った代替品が構造的に圧縮しにくい場合にのみ現れる。
以上の結果から,「真実バイアス」として現れるものは,圧縮圧力と内部整合性の嗜好の副作用であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.
- Abstract(参考訳): 混合品質のデータでトレーニングしても、なぜ言語モデルは正しいステートメントを好むのか?
圧縮-一貫性原理(Compression-Consistency Principle: next-token prediction)は、トレーニングデータのより短く、より内部的に一貫した記述を可能にする仮説を支持する。
真実バイアスは、偽の代替品が構造的に圧縮が困難である場合にのみ現れる。
合成数学コーパスにおけるGPT-2スタイルの文字レベル変換器(3.5M--86Mパラメータ)を用いて、正しい規則と間違った規則の混合を制御してこれを検証した。
ランダムエラー設定では、モデルがペア評価における正しい完了を強く推奨する: バランスデータにおける83.1%の精度と、コーパスの10%に正しい規則が現れる場合でも67.0%である。
コヒーレントだが数学的に正しくない規則システムでランダムエラーをリプレースすることは、好み(近精度)を大幅に排除する。
より自然言語的な合成の世界では、効果は弱いが57.7%である。
さらなる実験により、埋め込み検証ステップは小規模でも精度を回復できる一方で、一貫したルールの数を増やすことで精度が格段に向上することが示された。
以上の結果から,「真実バイアス」として現れるものは,本質的な真理への推進ではなく,圧縮圧力と内部整合性の優先による副作用であることが示唆された。
完全なコードとデータはhttps://github.com/Rai220/compression-drives-truthで公開されている。
関連論文リスト
- Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability [35.743903178120895]
BaRDaデータセットには3000のエンターメントが含まれている(1787年有効、1213年無効)
実際の精度(真実)は74.1/80.6/82.6/87.1で、推論精度は63.1/78.0/71.8/79.2である。
このことは、事実の正確さと細部推論を改善するためのモデルの明確な進歩を示している。
論文 参考訳(メタデータ) (2023-12-12T18:55:43Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。
少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。
また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文 参考訳(メタデータ) (2022-11-07T05:49:19Z) - The Interplay between Distribution Parameters and the
Accuracy-Robustness Tradeoff in Classification [0.0]
アドリラルトレーニングは、通常のモデルに比べて自然(未成熟)の例では正確でないモデルをもたらす傾向にある。
これは、アルゴリズムの欠点か、トレーニングデータ分散の基本的な性質によるものとみなすことができる。
本研究では,二進ガウス混合分類問題の下で後者のケースに焦点をあてる。
論文 参考訳(メタデータ) (2021-07-01T06:57:50Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。