論文の概要: Less is More: Recursive Reasoning with Tiny Networks
- arxiv url: http://arxiv.org/abs/2510.04871v1
- Date: Mon, 06 Oct 2025 14:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.917178
- Title: Less is More: Recursive Reasoning with Tiny Networks
- Title(参考訳): 余計なこと:Tiny Networksによる再帰的推論
- Authors: Alexia Jolicoeur-Martineau,
- Abstract要約: 階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。
小型ネットワークの難題を解決するために,Tiny Recursive Model (TRM)を提案する。
TRMはARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成した。
- 参考スコア(独自算出の注目度): 6.294759639481189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on hard puzzle tasks such as Sudoku, Maze, and ARC-AGI while trained with small models (27M parameters) on small data (around 1000 examples). HRM holds great promise for solving hard problems with small networks, but it is not yet well understood and may be suboptimal. We propose Tiny Recursive Model (TRM), a much simpler recursive reasoning approach that achieves significantly higher generalization than HRM, while using a single tiny network with only 2 layers. With only 7M parameters, TRM obtains 45% test-accuracy on ARC-AGI-1 and 8% on ARC-AGI-2, higher than most LLMs (e.g., Deepseek R1, o3-mini, Gemini 2.5 Pro) with less than 0.01% of the parameters.
- Abstract(参考訳): 階層推論モデル(Hierarchical Reasoning Model, HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを用いた新しいアプローチである。
この生物学的にインスパイアされた手法は、小さなデータ(約1000例)で小さなモデル (27Mパラメータ) を訓練しながら、Sudoku、Maze、ARC-AGIなどのハードパズルタスクでLarge Language Model (LLM) を破る。
HRMは、小さなネットワークで難しい問題を解くという大きな約束を持っているが、まだ十分に理解されておらず、最適ではないかもしれない。
我々は,2層のみの単一ネットワークを用いて,HRMよりもはるかに高い一般化を実現する,より単純な再帰的推論手法であるTiny Recursive Model (TRM)を提案する。
7Mパラメータだけで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%、ほとんどのLCM(例えば、Deepseek R1, o3-mini, Gemini 2.5 Pro)よりも高く、パラメータの0.01%未満である。
関連論文リスト
- R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing [14.43790894048467]
LLM(Large Language Models)とSmall Language Models(SLM)の間には,比較的少数のトークンが真の推論経路を分岐していることが示されている。
R2R)**は,これらのクリティカルな経路分割トークンに対してのみ LLM を選択的に利用するニューラルトークンルーティング手法である。
R2RはR1-7Bの平均精度を1.6倍にし、R1-14Bモデルよりも優れている。
論文 参考訳(メタデータ) (2025-05-27T16:57:20Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - Towards Regression-Free Neural Networks for Diverse Compute Platforms [50.64489250972764]
負のフリップを小さくする高精度モデル群を設計するために,REG-NAS(Regression constrained Neural Architecture Search)を導入する。
REG-NASは2つのコンポーネントから構成される: 1) より大きなモデルでより小さなモデルの全重みを収容できる新しいアーキテクチャ制約により、重量共有を最大化する。
我々は,regnasが3つの一般的なアーキテクチャ検索空間において,負のフリップが少なく,望ましいアーキテクチャを見つけることができたことを実証した。
論文 参考訳(メタデータ) (2022-09-27T23:19:16Z) - Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - MSR-DARTS: Minimum Stable Rank of Differentiable Architecture Search [45.09936304802425]
ニューラルアーキテクチャサーチ(NAS)において、微分可能なアーキテクチャサーチ(DARTS)が最近注目されている。
本稿では,最小安定ランクDARTS (MSR-DARTS) と呼ばれる手法を提案する。
MSR-DARTSは、CIFAR-10で0.3GPU日間で2.54%、ImageNetで23.9%のエラー率を達成した。
論文 参考訳(メタデータ) (2020-09-19T11:03:39Z) - Ultra-light deep MIR by trimming lottery tickets [1.2599533416395767]
抽選券仮説に基づくモデルプルーニング手法を提案する。
提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。
圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
論文 参考訳(メタデータ) (2020-07-31T17:30:28Z) - Cryptanalytic Extraction of Neural Network Models [56.738871473622865]
遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができる差動攻撃を導入する。
我々の攻撃は、ReLUニューラルネットワークが一括線形関数であるという事実に依存している。
220倍の正確さと100倍のクエリを必要とするモデルを抽出する。
論文 参考訳(メタデータ) (2020-03-10T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。