論文の概要: The Confidence Manifold: Geometric Structure of Correctness Representations in Language Models
- arxiv url: http://arxiv.org/abs/2602.08159v1
- Date: Sun, 08 Feb 2026 23:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.003843
- Title: The Confidence Manifold: Geometric Structure of Correctness Representations in Language Models
- Title(参考訳): 信頼マニフォールド:言語モデルにおける正確性表現の幾何学的構造
- Authors: Seonglae Cho, Zekun Wu, Kleyton Da Costa, Adriano Koshiyama,
- Abstract要約: 5つのアーキテクチャファミリから9つのモデルにまたがる正しさの表現を特徴付ける。
我々はアクティベーションステアリングによる因果性評価を行った。
正確性信号は内部に存在するが、出力では表現されない。
- 参考スコア(独自算出の注目度): 1.45309944076563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a language model asserts that "the capital of Australia is Sydney," does it know this is wrong? We characterize the geometry of correctness representations across 9 models from 5 architecture families. The structure is simple: the discriminative signal occupies 3-8 dimensions, performance degrades with additional dimensions, and no nonlinear classifier improves over linear separation. Centroid distance in the low-dimensional subspace matches trained probe performance (0.90 AUC), enabling few-shot detection: on GPT-2, 25 labeled examples achieve 89% of full-data accuracy. We validate causally through activation steering: the learned direction produces 10.9 percentage point changes in error rates while random directions show no effect. Internal probes achieve 0.80-0.97 AUC; output-based methods (P(True), semantic entropy) achieve only 0.44-0.64 AUC. The correctness signal exists internally but is not expressed in outputs. That centroid distance matches probe performance indicates class separation is a mean shift, making detection geometric rather than learned.
- Abstract(参考訳): 言語モデルが「オーストラリアの首都はシドニーだ」と主張する時、それは間違っていることを知っていますか。
5つのアーキテクチャファミリから9つのモデルにまたがる正当性表現の幾何学を特徴付ける。
この構造は単純で、識別信号は3-8次元を占有し、さらなる次元で性能が低下し、非線形分類器は線形分離よりも改善しない。
低次元の部分空間におけるセントロイド距離は、訓練されたプローブ性能 (0.90 AUC) と一致し、GPT-2では、25個のラベル付きサンプルが全データの精度の89%を達成している。
我々は、アクティベーションステアリングにより因果性を検証する:学習方向は10.9ポイントの誤り率変化を発生させるが、ランダムな方向は効果を示さない。
内部プローブは 0.80-0.97 AUC を達成するが、出力ベースの手法(P(True), 意味エントロピー)は 0.44-0.64 AUC しか得られない。
正確性信号は内部に存在するが、出力では表現されない。
遠心距離がプローブ性能と一致することは、クラス分離が平均シフトであることを示し、学習するよりも検出を幾何学的にする。
関連論文リスト
- On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks [0.0]
教師なし幾何学的計量である有効次元が精度を強く予測することを示す。
ノイズによる幾何劣化は精度損失(r=-0.94, $p 10(9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体にわたる精度(95%のばらつきで-0.03pp)を維持する。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
論文 参考訳(メタデータ) (2026-01-28T04:33:41Z) - Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。
我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。
本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文 参考訳(メタデータ) (2025-10-20T08:40:16Z) - Data-Driven Loss Functions for Inference-Time Optimization in Text-to-Image Generation [36.29736220125951]
テキストから画像への拡散モデルはしばしば、子どもが自明な仕事を見つけるときに失敗する。
我々は、手作りではなく、テスト時間最適化のためのデータ駆動の目的を学習する新しいフレームワークであるLearning-to-Steerを紹介した。
FLUX.1-devでは0.20から0.61、標準ベンチマークでは0.07から0.54まで、空間精度が劇的に向上する。
論文 参考訳(メタデータ) (2025-09-02T13:17:11Z) - Improving Out-of-Distribution Detection via Dynamic Covariance Calibration [12.001290283557466]
アウト・オブ・ディストリビューション(OOD)検出は、AIシステムの信頼性に不可欠である。
我々は, 従来の形状を動的に調整することにより, 分散されていない試料の影響を補正することができると論じる。
提案手法は, 各種モデル間のOOD検出を著しく向上させる。
論文 参考訳(メタデータ) (2025-06-11T05:05:26Z) - Robustness of Nonlinear Representation Learning [60.15898117103069]
本研究では,教師なし表現学習の問題を,わずかに不特定な環境で研究する。
混合は線形変換と小さな誤差で識別可能であることを示す。
これらの結果は、実世界のデータに対する教師なし表現学習における識別可能性向上へのステップである。
論文 参考訳(メタデータ) (2025-03-19T15:57:03Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。