論文の概要: Less is More: Recursive Reasoning with Tiny Networks
- arxiv url: http://arxiv.org/abs/2510.04871v1
- Date: Mon, 06 Oct 2025 14:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.917178
- Title: Less is More: Recursive Reasoning with Tiny Networks
- Title(参考訳): 余計なこと:Tiny Networksによる再帰的推論
- Authors: Alexia Jolicoeur-Martineau,
- Abstract要約: 階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。
小型ネットワークの難題を解決するために,Tiny Recursive Model (TRM)を提案する。
TRMはARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成した。
- 参考スコア(独自算出の注目度): 6.294759639481189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.
- Abstract(参考訳): 階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。
この生物学的にインスパイアされた手法は、小さなデータ(約1000例)で小さなモデル (27Mパラメータ) を訓練しながら、Sudoku、Maze、ARC-AGIなどのハードパズルタスクでLarge Language Model (LLM) を破る。
HRMは、小さなネットワークで難しい問題を解くという大きな約束を持っているが、まだ十分に理解されておらず、最適ではないかもしれない。
我々は,2層のみの単一ネットワークを用いて,HRMよりもはるかに高い一般化を実現する,より単純な再帰的推論手法であるTiny Recursive Model (TRM)を提案する。
7Mパラメータだけで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%、ほとんどのLCM(例えば、Deepseek R1, o3-mini, Gemini 2.5 Pro)よりも高く、パラメータの0.01%未満である。
関連論文リスト
- Symbol-Equivariant Recurrent Reasoning Models [8.237538442785231]
SudokuやARC-AGIのような推論問題は、ニューラルネットワークでは依然として困難である。
本稿では,アーキテクチャレベルでの置換等式を強制するSymbol-Equivariant Recurrent Reasoning Models (SE-RRMs)を紹介する。
ARC-AGI-1 と ARC-AGI-2 では、SE-RRM はデータ拡張が大幅に少なく、パラメータは200万である。
論文 参考訳(メタデータ) (2026-03-02T18:53:55Z) - Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [61.67090981767583]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、メモリフットプリントをさらに削減するために、KVペアを最初の再帰から再利用するKV共有変種を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing [14.43790894048467]
LLM(Large Language Models)とSmall Language Models(SLM)の間には,比較的少数のトークンが真の推論経路を分岐していることが示されている。
R2R)**は,これらのクリティカルな経路分割トークンに対してのみ LLM を選択的に利用するニューラルトークンルーティング手法である。
R2RはR1-7Bの平均精度を1.6倍にし、R1-14Bモデルよりも優れている。
論文 参考訳(メタデータ) (2025-05-27T16:57:20Z) - A Pairwise Comparison Relation-assisted Multi-objective Evolutionary Neural Architecture Search Method with Multi-population Mechanism [56.09418231453024]
ニューラルアーキテクチャサーチ(NAS)により、研究者は広大なサーチスペースを自動的に探索し、効率的なニューラルネットワークを見つけることができる。
NASは重要なボトルネックに悩まされており、探索プロセス中に多くのアーキテクチャを評価する必要がある。
SMEM-NASは,多集団構造に基づく相互比較比較支援型多目的進化アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-22T12:46:22Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Towards Regression-Free Neural Networks for Diverse Compute Platforms [50.64489250972764]
負のフリップを小さくする高精度モデル群を設計するために,REG-NAS(Regression constrained Neural Architecture Search)を導入する。
REG-NASは2つのコンポーネントから構成される: 1) より大きなモデルでより小さなモデルの全重みを収容できる新しいアーキテクチャ制約により、重量共有を最大化する。
我々は,regnasが3つの一般的なアーキテクチャ検索空間において,負のフリップが少なく,望ましいアーキテクチャを見つけることができたことを実証した。
論文 参考訳(メタデータ) (2022-09-27T23:19:16Z) - Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - MSR-DARTS: Minimum Stable Rank of Differentiable Architecture Search [45.09936304802425]
ニューラルアーキテクチャサーチ(NAS)において、微分可能なアーキテクチャサーチ(DARTS)が最近注目されている。
本稿では,最小安定ランクDARTS (MSR-DARTS) と呼ばれる手法を提案する。
MSR-DARTSは、CIFAR-10で0.3GPU日間で2.54%、ImageNetで23.9%のエラー率を達成した。
論文 参考訳(メタデータ) (2020-09-19T11:03:39Z) - Ultra-light deep MIR by trimming lottery tickets [1.2599533416395767]
抽選券仮説に基づくモデルプルーニング手法を提案する。
提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。
圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
論文 参考訳(メタデータ) (2020-07-31T17:30:28Z) - Cryptanalytic Extraction of Neural Network Models [56.738871473622865]
遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができる差動攻撃を導入する。
我々の攻撃は、ReLUニューラルネットワークが一括線形関数であるという事実に依存している。
220倍の正確さと100倍のクエリを必要とするモデルを抽出する。
論文 参考訳(メタデータ) (2020-03-10T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。