論文の概要: Speed is Confidence
- arxiv url: http://arxiv.org/abs/2601.19085v1
- Date: Tue, 27 Jan 2026 01:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.118374
- Title: Speed is Confidence
- Title(参考訳): Speed is Confidence
- Authors: Joshua V. Dillon,
- Abstract要約: 入賞回路とタイム・ツー・ファースト・スパイク・コーディングは、ニューロンが自信の表現として発火する時に暗黙的に扱う。
この原理をTiny Recursive Models (TRM) のアンサンブルに適用する。
テスト時間拡張よりも10倍少ない計算を用いて,Sudoku-Extremeのパズル精度97.2%を実現した。
- 参考スコア(独自算出の注目度): 1.2720220587982818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological neural systems must be fast but are energy-constrained. Evolution's solution: act on the first signal. Winner-take-all circuits and time-to-first-spike coding implicitly treat when a neuron fires as an expression of confidence. We apply this principle to ensembles of Tiny Recursive Models (TRM). By basing the ensemble prediction solely on the first to halt rather than averaging predictions, we achieve 97.2% puzzle accuracy on Sudoku-Extreme while using 10x less compute than test-time augmentation (the baseline achieves 86.1% single-pass, 97.3% with TTA). Inference speed is an implicit indication of confidence. But can this capability be manifested as a training-only cost? Evidently yes: by maintaining K = 4 parallel latent states during training but backpropping only through the lowest-loss "winner," a single model achieves 96.9% +/- 0.6% puzzle accuracy with a single forward pass-matching TTA performance without any test-time augmentation. As in nature, this work was also resource constrained: all experimentation used a single RTX 5090. This necessitated efficiency and compelled our invention of a modified SwiGLU which made Muon viable. With Muon and K = 1 training, we exceed TRM baseline performance in 7k steps (40 min). Higher accuracy requires 36k steps: 1.5 hours for K = 1, 6 hours for K = 4.
- Abstract(参考訳): 生体神経系は高速でなければならないが、エネルギーに制約がある。
進化の解法:最初のシグナルに作用する。
入賞回路とタイム・ツー・ファースト・スパイク・コーディングは、ニューロンが自信の表現として発火する時に暗黙的に扱う。
この原理をTiny Recursive Models (TRM) のアンサンブルに適用する。
平均的な予測よりも最初に停止するアンサンブル予測のみを基礎にすることで、テスト時間拡張よりも10倍少ない計算(ベースラインは86.1%、TTAは97.3%)で、Sudoku-Extremeのパズル精度97.2%を実現した。
推論速度は自信の暗示である。
しかし、この能力はトレーニングのみのコストとして表せるだろうか?
トレーニング中にK = 4の並列遅延状態を維持することで、低損失の「勝者」を通してのみバックプロップすることで、1つのモデルが96.9% +/- 0.6%のパズル精度を達成し、1つの前方パスマッチングTTAパフォーマンスをテスト時間拡張なしで達成する。
全ての実験では単一のRTX 5090を使用していた。
これにより効率が向上し、Muon が実現可能な改良 SwiGLU を発明せざるを得なかった。
Muon と K = 1 のトレーニングでは、7k ステップ (40 分) で TRM のベースライン性能を上回る。
K = 1 の 1.5 時間 K = 4 の 6 時間。
関連論文リスト
- LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning [15.597220136913258]
LYNXはオンラインのアーリーエグジットメカニズムで、モデル自身の隠れ状態の認識を信頼性制御による停止決定に変換する。
一般的な数学的コーパスで一度このプローブをトレーニングして校正し、ベンチマーク、復号化温度、さらには非数学的なタスクで再利用します。
論文 参考訳(メタデータ) (2025-12-05T00:04:42Z) - Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations [0.14504054468850663]
Proto-PINV+Hは、閉形式重み計算と少数の合成入力の最適化を組み合わせた高速な訓練パラダイムである。
MNIST(60k列車、10kテスト)とFashion-MNIST(60k列車、10kテスト)では、公式の10kテストセットでそれぞれ97.8%、89.3%のテスト精度に達した。
論文 参考訳(メタデータ) (2025-08-13T13:13:32Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Efficiently Training Time-to-First-Spike Spiking Neural Networks from Scratch [39.05124192217359]
スパイキングニューラルネットワーク(SNN)はエネルギー効率の良いニューロモルフィックハードウェアに適している。
Time-to-First-Spike(TTFS)コーディングは、ニューロン毎の1回のスパイクを使用し、極端に間隔とエネルギー効率を提供するが、スパース発射による不安定なトレーニングと低い精度に悩まされている。
本稿では,パラメータ正規化,トレーニング正規化,時間出力復号化,プール層再評価を取り入れたトレーニングフレームワークを提案する。
実験では、M上のTTFS SNNのトレーニングを安定化し、加速し、レイテンシを低減し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-10-31T04:14:47Z) - Asymmetric Momentum: A Rethinking of Gradient Descent [4.1001738811512345]
LCAM(Los-Controlled Asymmetric Momentum)の最も単純なSGD拡張手法を提案する。
損失を平均化することにより、トレーニングプロセスを異なる損失フェーズに分割し、異なる運動量を使用する。
重みが方向特異性を持つことを実験的に検証し、データセットの特異性と相関する。
論文 参考訳(メタデータ) (2023-09-05T11:16:47Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。