論文の概要: Truth as a Compression Artifact in Language Model Training
- arxiv url: http://arxiv.org/abs/2603.11749v2
- Date: Mon, 16 Mar 2026 14:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.68237
- Title: Truth as a Compression Artifact in Language Model Training
- Title(参考訳): 言語モデル学習における圧縮アーティファクトとしての真実
- Authors: Konstantin Krestnikov,
- Abstract要約: 矛盾したデータに基づいて訓練された言語モデルは正しい答えを好むことを示す。
正解と誤解の両方で各数学的問題が現れるコーパス上で GPT-2 スタイルのモデルを訓練する。
エラーがランダムな場合、モデルは正しい信号を65%から85%の精度で抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do language models trained on contradictory data prefer correct answers? In controlled experiments with small transformers (3.5M--86M parameters), we show that this preference tracks the compressibility structure of errors rather than truth per se. We train GPT-2 style models on corpora where each mathematical problem appears with both correct and incorrect solutions -- a denoising design that directly models conflicting information about the same fact. When errors are random, models extract the correct signal with accuracy scaling from 65% to 85% with model size. When errors follow a coherent alternative rule system, accuracy drops to chance (~45--51%): the model cannot distinguish the false system from truth. A multi-rule experiment reveals a sharp crossover: a single coherent alternative rule eliminates truth bias entirely, but adding a second competing rule restores most of it (47%->78%), with continued growth through N=10 (88%). The same pattern reproduces on real Wikipedia text (71% vs 46%). We propose the Compression--Consistency Principle as an explanatory hypothesis: in these settings, gradient descent favors the most compressible answer cluster, not truth per se. Truth bias emerges only when falsehood is structurally incoherent. Whether this principle extends to large-scale pretraining remains an open question.
- Abstract(参考訳): 矛盾するデータに基づいてトレーニングされた言語モデルは、なぜ正しい答えを好むのか?
小型変圧器を用いた制御実験(3.5M--86Mパラメータ)において、この選好が真理ではなく誤差の圧縮性構造を追跡することを示した。
我々は,各数学的問題が正解と誤解の両方で現れるコーパスでGPT-2スタイルのモデルを訓練する -- 同じ事実に関する情報と直接矛盾する情報をモデル化する装飾設計。エラーがランダムである場合,モデルが正しい信号を65%から85%の精度で抽出する。エラーが一貫性のある代替ルールシステムに従えば,精度は偶然に低下する(約45~51%)。モデルは偽のシステムと真理を区別できない。
単一コヒーレントな代替規則は真理偏見を完全に排除するが、2番目の競合する規則を加えると、そのほとんど(47%->78%)が復活し、N=10(88%)が続く。
同じパターンが実際のウィキペディアのテキストで再現されている(71%対46%)。
説明的仮説として圧縮-一貫性原理(Compression-Consistency Principle)を提案する。
真理バイアスは、虚偽が構造的に不整合である場合にのみ現れる。
この原則が大規模な事前訓練にまで拡張されるかどうかは、未解決の問題である。
関連論文リスト
- Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability [35.743903178120895]
BaRDaデータセットには3000のエンターメントが含まれている(1787年有効、1213年無効)
実際の精度(真実)は74.1/80.6/82.6/87.1で、推論精度は63.1/78.0/71.8/79.2である。
このことは、事実の正確さと細部推論を改善するためのモデルの明確な進歩を示している。
論文 参考訳(メタデータ) (2023-12-12T18:55:43Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。
少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。
また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文 参考訳(メタデータ) (2022-11-07T05:49:19Z) - The Interplay between Distribution Parameters and the
Accuracy-Robustness Tradeoff in Classification [0.0]
アドリラルトレーニングは、通常のモデルに比べて自然(未成熟)の例では正確でないモデルをもたらす傾向にある。
これは、アルゴリズムの欠点か、トレーニングデータ分散の基本的な性質によるものとみなすことができる。
本研究では,二進ガウス混合分類問題の下で後者のケースに焦点をあてる。
論文 参考訳(メタデータ) (2021-07-01T06:57:50Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。