論文の概要: Predictable Compression Failures: Why Language Models Actually Hallucinate
- arxiv url: http://arxiv.org/abs/2509.11208v1
- Date: Sun, 14 Sep 2025 10:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.975931
- Title: Predictable Compression Failures: Why Language Models Actually Hallucinate
- Title(参考訳): 予測可能な圧縮の失敗:言語モデルが実際に幻滅する理由
- Authors: Leon Chlon, Ahmed Karim, Maggie Chlon,
- Abstract要約: 大規模言語モデルは、交換可能なデータに対する置換不変性に反するほぼベイズ的推論を実行する。
我々は, 予測条件記述長 (クロスエントロピー) を順序付きで最小化することにより, この問題を解消する。
我々は、位数による偏差を示す量子化マルティンゲール振動を定数を持つ$O(log n)$として導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models perform near-Bayesian inference yet violate permutation invariance on exchangeable data. We resolve this by showing transformers minimize expected conditional description length (cross-entropy) over orderings, $\mathbb{E}_\pi[\ell(Y \mid \Gamma_\pi(X))]$, which admits a Kolmogorov-complexity interpretation up to additive constants, rather than the permutation-invariant description length $\ell(Y \mid X)$. This makes them Bayesian in expectation, not in realization. We derive (i) a Quantified Martingale Violation bound showing order-induced deviations scale as $O(\log n)$ with constants; (ii) the Expectation-level Decompression Law linking information budgets to reliability for Bernoulli predicates; and (iii) deployable planners (B2T/RoH/ISR) for answer/abstain decisions. Empirically, permutation dispersion follows $a+b\ln n$ (Qwen2-7B $b \approx 0.377$, Llama-3.1-8B $b \approx 0.147$); permutation mixtures improve ground-truth likelihood/accuracy; and randomized dose-response shows hallucinations drop by $\sim 0.13$ per additional nat. A pre-specified audit with a fixed ISR=1.0 achieves near-0\% hallucinations via calibrated refusal at 24\% abstention. The framework turns hallucinations into predictable compression failures and enables principled information budgeting.
- Abstract(参考訳): 大規模言語モデルは、交換可能なデータに対する置換不変性に反するほぼベイズ的推論を実行する。
この問題は、変換器が順序付けよりも期待条件記述長(クロスエントロピー)を最小にすることで解決される。 $\mathbb{E}_\pi[\ell(Y \mid \Gamma_\pi(X))]$ は、置換不変記述長$\ell(Y \mid X)$ではなく、コルモゴロフ複素性解釈を加法的定数まで認める。
これにより、ベイジアンは現実化ではなく期待するようになる。
由来
(i)定値付きO(\log n)$の順序誘導偏差を示す量子化マルティンゲール振動
2 ベルヌーイ述語における情報予算と信頼性をリンクする期待レベル圧縮法
(iii)対応型意思決定のためのデプロイ可能なプランナー(B2T/RoH/ISR)
経験的に、置換分散は、$a+b\ln n$ (Qwen2-7B $b \approx 0.377$, Llama-3.1-8B $b \approx 0.147$); 置換混合物は、接地確率/精度を向上させる。
ISR=1.0 を固定した事前検査では,24 % の棄権で校正された拒絶によって約0 % の幻覚が達成される。
このフレームワークは幻覚を予測可能な圧縮障害に変え、原則化された情報予算化を可能にする。
関連論文リスト
- Sign Operator for Coping with Heavy-Tailed Noise in Non-Convex Optimization: High Probability Bounds Under $(L_0, L_1)$-Smoothness [74.18546828528298]
SignSGD with Majority Votingは,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappaka ppakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa -1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappappapa-1right,Kappaを用いて,複雑性の全範囲で堅牢に動作することを示す。
論文 参考訳(メタデータ) (2025-02-11T19:54:11Z) - Convergence of Unadjusted Langevin in High Dimensions: Delocalization of Bias [21.64772960240025]
問題の次元が$d$になるにつれて、所望の誤差内で収束を保証するのに必要なイテレーションの数が増加することを示す。
私たちが取り組んだ重要な技術的課題は、収束を測定するための$W_2,ellinfty$メートル法に一段階の縮約性がないことである。
論文 参考訳(メタデータ) (2024-08-20T01:24:54Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Tight bounds for maximum $\ell_1$-margin classifiers [10.055143995729415]
適応性は、標準的な識別的設定に対する最大$ell_$-margin分類器には適用されないことを示す。
ノイズを補間すると、誤差は次数$frac1sqrtlog(d/n)$で消滅する。
論文 参考訳(メタデータ) (2022-12-07T17:05:31Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - $\delta$-CLUE: Diverse Sets of Explanations for Uncertainty Estimates [31.241489953967694]
オリジナルCLUEアプローチを拡張して、$delta$-CLUEと呼ぶものを提供します。
代わりに、実行可能な CLUE の $itset$ を返します。複数の多様な入力は、潜時空間の元の入力の $delta$ ボール内にあります。
論文 参考訳(メタデータ) (2021-04-13T16:03:27Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。