論文の概要: Quantisation Reshapes the Metacognitive Geometry of Language Models
- arxiv url: http://arxiv.org/abs/2604.08976v1
- Date: Fri, 10 Apr 2026 05:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.700329
- Title: Quantisation Reshapes the Metacognitive Geometry of Language Models
- Title(参考訳): 量子化は言語モデルのメタ認知幾何学に影響を及ぼす
- Authors: Jon-Paul Cacioli,
- Abstract要約: 我々は、Q5_K_Mとf16の精度で、同じ3000の質問に対してLlama-3-8B命令を評価する。
4つの知識領域にまたがるM比プロファイルは,形式間には関連性がないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report that model quantisation restructures domain-level metacognitive efficiency in LLMs rather than degrading it uniformly. Evaluating Llama-3-8B-Instruct on the same 3,000 questions at Q5_K_M and f16 precision, we find that M-ratio profiles across four knowledge domains are uncorrelated between formats (Spearman rho = 0.00). Arts & Literature moves from worst-monitored (M-ratio = 0.606 at Q5_K_M) to best-monitored (1.542 at f16). Geography moves from well-monitored (1.210) to under-monitored (0.798). However, Type-2 AUROC profiles are perfectly stable across formats (rho = 1.00), localising the restructuring to the M-ratio normalisation rather than the underlying discrimination signal. This finding emerged from a pre-registered attempt to improve metacognition through domain-conditional training. We prescribed confidence-amplification SFT for the diagnosed weak domain, with matched-budget agnostic and wrong-prescription controls. All four confirmatory hypotheses were null (10,000 bootstrap resamples, seed = 42). The training successfully reshaped confidence distributions, doubling the NLP gap in Science from 0.076 to 0.152, but did not improve meta-d' because the diagnostic profile did not transfer across formats. Any system relying on domain-level M-ratio profiles has an unexamined dependency on inference format. Systems using AUROC_2 are safer. We release all code, pre-registrations, and trial-level data.
- Abstract(参考訳): モデル量子化はLLMのドメインレベルのメタ認知効率を一様に劣化させるのではなく、再構成する。
Q5_K_M と f16 の精度で同じ3,000 の質問に対して Llama-3-8B-Instruct を評価すると、4 つの知識領域にわたる M-ratio プロファイルは形式(Spearman rho = 0.00)とは無関係であることが分かる。
芸術と文学は、最悪の監視対象 (M-ratio = 0.606 at Q5_K_M) から最高の監視対象 (1.542 at f16) へと移行している。
地理は、よくモニターされた (1.210) からアンダーモニターされた (0.798) へ移動する。
しかし、Type-2 AUROCプロファイルはフォーマット(rho = 1.00)で完全に安定しており、下層の識別信号よりもM比正規化に局所化されている。
この発見は、ドメイン条件のトレーニングを通じてメタ認知を改善するための事前登録の試みから生まれた。
診断された弱ドメインに対して信頼度を向上するSFTを規定した。
4つの仮説はいずれもヌル(10,000のブートストラップ再サンプル、シード=42)であった。
トレーニングは信頼性分布を再形成し、科学のNLPギャップを0.076から0.152に倍増させたが、診断プロファイルがフォーマット間で転送されないため、メタdは改善されなかった。
ドメインレベルのM比プロファイルに依存するシステムは、推論形式に依存しない。
AUROC_2を用いたシステムはより安全である。
すべてのコード、事前登録、トライアルレベルのデータをリリースします。
関連論文リスト
- Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning [18.69627681731888]
オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
論文 参考訳(メタデータ) (2026-04-01T17:21:50Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems [0.0]
「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。
信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。
推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
論文 参考訳(メタデータ) (2026-02-10T21:53:02Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Tune it the Right Way: Unsupervised Validation of Domain Adaptation via
Soft Neighborhood Density [125.64297244986552]
本稿では,点間の類似度分布のエントロピーを計算し,ソフト近傍の密度を測定する教師なし検証基準を提案する。
私たちの基準は、競合する検証方法よりもシンプルですが、より効果的です。
論文 参考訳(メタデータ) (2021-08-24T17:41:45Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。