論文の概要: Speed is Confidence
- arxiv url: http://arxiv.org/abs/2601.19085v2
- Date: Thu, 29 Jan 2026 00:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:19.931953
- Title: Speed is Confidence
- Title(参考訳): Speed is Confidence
- Authors: Joshua V. Dillon,
- Abstract要約: 入賞回路とタイム・ツー・ファースト・スパイク・コーディングは、ニューロンが自信の表現として発火する時に暗黙的に扱う。
この原理をTiny Recursive Models (TRM) のアンサンブルに適用する。
Sudoku-Extremeでは、ストップファーストの選択は、確率平均化の91%に対して97%の精度を達成する。
- 参考スコア(独自算出の注目度): 1.2720220587982818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological neural systems must be fast but are energy-constrained. Evolution's solution: act on the first signal. Winner-take-all circuits and time-to-first-spike coding implicitly treat when a neuron fires as an expression of confidence. We apply this principle to ensembles of Tiny Recursive Models (TRM) [Jolicoeur-Martineau et al., 2025]. On Sudoku-Extreme, halt-first selection achieves 97% accuracy vs. 91% for probability averaging--while requiring 10x fewer reasoning steps. A single baseline model achieves 85.5% +/- 1.3%. Can we internalize this as a training-only cost? Yes: by maintaining K=4 parallel latent states but backpropping only through the lowest-loss "winner," we achieve 96.9% +/- 0.6% accuracy--matching ensemble performance at 1x inference cost, with less than half the variance of the baseline. A key diagnostic: 89% of baseline failures are selection problems, revealing a 99% accuracy ceiling. As in nature, this work was also resource constrained: all experiments used a single RTX 5090. A modified SwiGLU [Shazeer, 2020] made Muon [Jordan et al., 2024] and high LR viable, enabling baseline training in 48 minutes and full WTA (K=4) in 6 hours on consumer hardware.
- Abstract(参考訳): 生体神経系は高速でなければならないが、エネルギーに制約がある。
進化の解法:最初のシグナルに作用する。
入賞回路とタイム・ツー・ファースト・スパイク・コーディングは、ニューロンが自信の表現として発火する時に暗黙的に扱う。
この原理をTiny Recursive Models (TRM) [Jolicoeur-Martineau et al , 2025] のアンサンブルに適用する。
Sudoku-Extremeでは、ストップファーストの選択は、確率平均化の91%に対して97%の精度を達成する。
単一ベースラインモデルは85.5%+/-1.3%に達する。
これをトレーニングのみのコストとして内部化できますか?
そう、K=4の並列遅延状態を維持することで、低損失の「勝者」のみをバックプロッピングすることで、1倍の推論コストで96.9%+/-0.6%の精度でアンサンブル性能を得ることができ、ベースラインのばらつきは半分以下になる。
重要な診断: ベースライン障害の89%は選択の問題であり、99%の精度の天井が示される。
全ての実験では単一のRTX 5090を使用していた。
修正されたSwiGLU[Shazeer, 2020]はMuon [Jordan et al , 2024]と高LRを実現し,48分でベースライントレーニング,6時間でフルWTA(K=4)を実現した。
関連論文リスト
- LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文 参考訳(メタデータ) (2025-12-05T00:04:42Z) - Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations [0.14504054468850663]
Proto-PINV+Hは、閉形式重み計算と少数の合成入力の最適化を組み合わせた高速な訓練パラダイムである。
MNIST(60k列車、10kテスト)とFashion-MNIST(60k列車、10kテスト)では、公式の10kテストセットでそれぞれ97.8%、89.3%のテスト精度に達した。
論文 参考訳(メタデータ) (2025-08-13T13:13:32Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Efficiently Training Time-to-First-Spike Spiking Neural Networks from Scratch [39.05124192217359]
スパイキングニューラルネットワーク(SNN)はエネルギー効率の良いニューロモルフィックハードウェアに適している。
Time-to-First-Spike(TTFS)コーディングは、ニューロン毎の1回のスパイクを使用し、極端に間隔とエネルギー効率を提供するが、スパース発射による不安定なトレーニングと低い精度に悩まされている。
本稿では,パラメータ正規化,トレーニング正規化,時間出力復号化,プール層再評価を取り入れたトレーニングフレームワークを提案する。
実験では、M上のTTFS SNNのトレーニングを安定化し、加速し、レイテンシを低減し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-10-31T04:14:47Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。