論文の概要: Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding
- arxiv url: http://arxiv.org/abs/2604.21286v1
- Date: Thu, 23 Apr 2026 05:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.312266
- Title: Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding
- Title(参考訳): クロスエントロピーはロードベアリング:双方向予測符号化によるK-Wayエネルギープローブの事前登録試験
- Authors: Jon-Paul Cacioli,
- Abstract要約: カシオリは2026年に、標準的な識別的予測符号ネットワーク上のKウェイエネルギープローブが対数-ソフトマックスマージンの単調関数にほぼ一致することを示した。
本研究は,CE の代わりに MSE で訓練された標準 PC と双方向 PC の2つの条件を用いて,CE 除去に対する低減感度を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cacioli (2026) showed that the K-way energy probe on standard discriminative predictive coding networks reduces approximately to a monotone function of the log-softmax margin. The reduction rests on five assumptions, including cross-entropy (CE) at the output and effectively feedforward inference dynamics. This pre-registered study tests the reduction's sensitivity to CE removal using two conditions: standard PC trained with MSE instead of CE, and bidirectional PC (bPC; Oliviers, Tang & Bogacz, 2025). Across 10 seeds on CIFAR-10 with a matched 2.1M-parameter backbone, we find three results. The negative result replicates on standard PC: the probe sits below softmax (Delta = -0.082, p < 10^-6). On bPC the probe exceeds softmax across all 10 seeds (Delta = +0.008, p = 0.000027), though a pre-registered manipulation check shows that bPC does not produce materially greater latent movement than standard PC at this scale (ratio 1.6, threshold 10). Removing CE alone without changing inference dynamics halves the probe-softmax gap (Delta_MSE = -0.037 vs Delta_stdPC = -0.082). CE is a major empirically load-bearing component of the decomposition at this scale. CE training produces output logit norms approximately 15x larger than MSE or bPC training. A post-hoc temperature scaling ablation decomposes the probe-softmax gap into two components: approximately 66% is attributable to logit-scale effects removable by temperature rescaling, and approximately 34% reflects a scale-invariant ranking advantage of CE-trained representations. We use "metacognitive" operationally to denote Type-2 discrimination of a readout over its own Type-1 correctness, not to imply human-like introspective access.
- Abstract(参考訳): Cacioli (2026) は、標準的な識別的予測符号ネットワーク上のKウェイエネルギープローブが対数-ソフトマックスマージンの単調関数にほぼ一致することを示した。
この還元は、出力におけるクロスエントロピー(CE)や、効果的にフィードフォワード推論ダイナミクスを含む5つの仮定に依存している。
本研究は、CEの代わりにMSEで訓練された標準PCと双方向PC(bPC, Oliviers, Tang & Bogacz, 2025)の2つの条件を用いて、CE除去に対する感度の低下を検証した。
CIFAR-10の10種中2.1Mのバックボーンが一致し、3つの結果が得られた。
負の結果は標準的なPC上で複製され、プローブはソフトマックスより下に位置する(Delta = -0.082, p < 10^-6)。
bPCでは、プローブは10種すべて(Delta = +0.008, p = 0.000027)のソフトマックスを超えるが、事前登録された操作チェックでは、このスケールでは、bPCは標準PCよりも実質的に大きな潜伏運動を発生しない(比1.6, 閾値10)。
推論ダイナミクスを変えずにCEだけを除去することは、プローブ-ソフトマックスギャップを半減する(Delta_MSE = -0.037 vs Delta_stdPC = -0.082)。
CEは、このスケールでの分解において、経験的に負荷を持つ主要なコンポーネントである。
CEトレーニングは、MSEやbPCトレーニングの約15倍の出力ロジットノルムを生成する。
熱後温度スケーリングアブレーションはプローブ-ソフトマックスギャップを2つの成分に分解する: 約66%は温度再スケーリングによって除去可能なロジットスケール効果に起因し、約34%はCE訓練された表現のスケール不変ランキングの利点を反映している。
我々は「メタ認知」を操作的に使用し、人間のようなイントロスペクティブアクセスを暗示するのではなく、自身のType-1の正確性よりも、Type-2の読み出しを識別する。
関連論文リスト
- K-Way Energy Probes for Metacognition Reduce to Softmax in Discriminative Predictive Coding Networks [0.0]
本研究は,CE-エネルギーを目標とし,K-ウェイエネルギーマージンを対数-マックスマージンマージンのモノトン関数に分解し,正しさと相関しない残差を推定した。
CIFAR-10では,拡張決定性トレーニング,推論中の潜伏運動の直接測定,バックプロパゲーションネットワーク上のポストホックデコーダフェアネス制御,マッチング予算PCとBP比較,5点ランゲヴィン温度掃除,軌道積分MCPCトレーニングの6つの条件でこれを検証した。
ギャップは安定していた
論文 参考訳(メタデータ) (2026-04-13T05:24:44Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning [0.0]
コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
比較損失における正対辺のマージンは、類似度クランプの飽和により適用される。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
論文 参考訳(メタデータ) (2026-03-01T07:00:38Z) - Environment-Aware Indoor LoRaWAN Path Loss: Parametric Regression Comparisons, Shadow Fading, and Calibrated Fade Margins [3.776919981139063]
内部のLoRaWAN伝播は、構造的および時間的変化の文脈因子によって形成される。
リークセーフなクロスバリデーションを用いて評価した,環境に配慮した統計的に規律のある経路損失フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:14:48Z) - Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair [0.0]
トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、異なる境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こす可能性がある。
固定された第2モーメントベータ2がレイヤワイドな値に置き換えられるAdamスタイルの割引であるKourkoutas-Betaを紹介します。
論文 参考訳(メタデータ) (2025-08-18T15:16:54Z) - Learning Equivariant Non-Local Electron Density Functionals [51.721844709174206]
等変グラフニューラルネットワーク(GNN)に基づく新しい非局所XC関数であるEquivariant Graph Exchange correlation (EG-XC)を導入する。
この点の雲に同変GNNを適用することにより、スケーラブルで正確な分子レンジ相互作用をキャプチャする。
EG-XCは、QM9上のデータ効率と分子サイズの外挿に優れ、5倍以上の分子で訓練された整合力場である。
論文 参考訳(メタデータ) (2024-10-10T14:31:45Z) - DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation [68.55191764622525]
拡散モデル(DPM)は、視覚合成において顕著な性能を示すが、サンプリング中に複数の評価を必要とするため、計算コストが高い。
最近の予測器合成・拡散サンプリング装置は,要求される評価回数を大幅に削減したが,本質的には誤調整の問題に悩まされている。
我々はDC-CPRrと呼ばれる新しい高速DPMサンプリング装置を導入する。
論文 参考訳(メタデータ) (2024-09-05T17:59:46Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。