論文の概要: Aletheia: Quantifying Cognitive Conviction in Reasoning Models via Regularized Inverse Confusion Matrix
- arxiv url: http://arxiv.org/abs/2601.01532v1
- Date: Sun, 04 Jan 2026 13:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.468987
- Title: Aletheia: Quantifying Cognitive Conviction in Reasoning Models via Regularized Inverse Confusion Matrix
- Title(参考訳): Aletheia:正規化逆拡散行列を用いた推論モデルにおける認知的信念の定量化
- Authors: Fanzhe Fu,
- Abstract要約: 我々はシムヒのCHOKE現象を拡張し、システム2推論モデルにおける「認知信念」の定量化を行う。
我々は,Tikhonov正則化を用いた認知物理学フレームワークであるProject Aletheiaを提案し,裁判官の混乱行列を逆転させる。
この研究は、AIの科学的完全性を測定するための青写真として機能する。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the progressive journey toward Artificial General Intelligence (AGI), current evaluation paradigms face an epistemological crisis. Static benchmarks measure knowledge breadth but fail to quantify the depth of belief. While Simhi et al. (2025) defined the CHOKE phenomenon in standard QA, we extend this framework to quantify "Cognitive Conviction" in System 2 reasoning models. We propose Project Aletheia, a cognitive physics framework that employs Tikhonov Regularization to invert the judge's confusion matrix. To validate this methodology without relying on opaque private data, we implement a Synthetic Proxy Protocol. Our preliminary pilot study on 2025 baselines (e.g., DeepSeek-R1, OpenAI o1) suggests that while reasoning models act as a "cognitive buffer," they may exhibit "Defensive OverThinking" under adversarial pressure. Furthermore, we introduce the Aligned Conviction Score (S_aligned) to verify that conviction does not compromise safety. This work serves as a blueprint for measuring AI scientific integrity.
- Abstract(参考訳): 人工知能(AGI)への進歩的な旅の中で、現在の評価パラダイムは認識論的危機に直面している。
静的ベンチマークは知識の幅を測るが、信念の深さを定量化できない。
Simhi et al (2025) はCHOKE現象を標準QAで定義する一方で、システム2推論モデルにおいて「認知信念」を定量化するためにこの枠組みを拡張した。
我々は,Tikhonov正則化を用いた認知物理学フレームワークであるProject Aletheiaを提案し,裁判官の混乱行列を逆転させる。
不透明なプライベートデータに頼ることなく、この方法論を検証するために、Synthetic Proxy Protocolを実装した。
2025のベースライン(例えばDeepSeek-R1,OpenAI o1)に関する予備実験では、推論モデルが「認知バッファ」として機能する一方で、敵の圧力下では「Defensive OverThinking」を示す可能性が示唆された。
さらに,安全性を損なわないことを確認するために,アラインド・コンヴィクション・スコア(S_aligned)を導入する。
この研究は、AIの科学的完全性を測定するための青写真として機能する。
関連論文リスト
- More Than Irrational: Modeling Belief-Biased Agents [25.274115351731325]
本稿では,認知的拘束力のあるエージェントに対して,偏見的信念の下で最適に作用する計算合理的(CR)ユーザモデルについて紹介する。
受動的観察から、潜伏するユーザ固有の境界を識別し、バイアスのある信念状態を推定するという課題に対処する。
CRモデルはメモリ容量の異なるレベルに対応する直感的に妥当な振る舞いを生成する。
論文 参考訳(メタデータ) (2025-11-15T21:14:37Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - MPC in the Quantum Head (or: Superposition-Secure (Quantum) Zero-Knowledge) [19.71357898702801]
本稿では,MPC-in-the-headパラダイムの量子設定への一般化について述べる。
本稿では,書面の重ね合わせが可能である検証者に対して,セキュリティが保たれるゼロ知識プロトコルを構築するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-28T17:43:32Z) - A Conjecture on a Fundamental Trade-Off between Certainty and Scope in Symbolic and Generative AI [0.0]
論文では、AIシステムにおける証明可能な正しさと広範なデータマッピング能力の基本的なトレードオフを定式化する予想を紹介している。
この暗黙のトレードオフを明確化し、厳密な検証にオープンにすることで、この予想は、エンジニアリングの野望とAIに対する哲学的な期待の両方を大きく変えた。
論文 参考訳(メタデータ) (2025-06-11T19:18:13Z) - Towards A Litmus Test for Common Sense [5.280511830552275]
この論文は、安全で有益な人工知能への道を構想するシリーズの第2弾となる。
我々は,最小の事前知識制約と対角的あるいはゴドネル的な議論を組み合わせた公理的アプローチを用いて,より形式的なリトマステストを提案する。
論文 参考訳(メタデータ) (2025-01-17T02:02:12Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Mathematical Algorithm Design for Deep Learning under Societal and
Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。
以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:32:38Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。