論文の概要: Hierarchical Reasoning Model
- arxiv url: http://arxiv.org/abs/2506.21734v1
- Date: Thu, 26 Jun 2025 19:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.994568
- Title: Hierarchical Reasoning Model
- Title(参考訳): 階層的推論モデル
- Authors: Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori,
- Abstract要約: HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.223136644998203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning, the process of devising and executing complex goal-oriented action sequences, remains a critical challenge in AI. Current large language models (LLMs) primarily employ Chain-of-Thought (CoT) techniques, which suffer from brittle task decomposition, extensive data requirements, and high latency. Inspired by the hierarchical and multi-timescale processing in the human brain, we propose the Hierarchical Reasoning Model (HRM), a novel recurrent architecture that attains significant computational depth while maintaining both training stability and efficiency. HRM executes sequential reasoning tasks in a single forward pass without explicit supervision of the intermediate process, through two interdependent recurrent modules: a high-level module responsible for slow, abstract planning, and a low-level module handling rapid, detailed computations. With only 27 million parameters, HRM achieves exceptional performance on complex reasoning tasks using only 1000 training samples. The model operates without pre-training or CoT data, yet achieves nearly perfect performance on challenging tasks including complex Sudoku puzzles and optimal path finding in large mazes. Furthermore, HRM outperforms much larger models with significantly longer context windows on the Abstraction and Reasoning Corpus (ARC), a key benchmark for measuring artificial general intelligence capabilities. These results underscore HRM's potential as a transformative advancement toward universal computation and general-purpose reasoning systems.
- Abstract(参考訳): 複雑な目標指向のアクションシーケンスを設計および実行するプロセスであるReasoningは、AIにおいて依然として重要な課題である。
現在の大規模言語モデル(LLM)では、主にChain-of-Thought(CoT)技術が採用されている。
人間の脳の階層的・多時間的処理にインスパイアされた階層的推論モデル(HRM)を提案する。
HRMは、1つのフォワードパスでシーケンシャルな推論タスクを実行し、中間プロセスの明示的な監督なしに、2つの相互依存リカレントモジュール(遅くて抽象的な計画を担当するハイレベルモジュールと、高速で詳細な計算を扱う低レベルモジュール)を通して実行します。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
このモデルは事前トレーニングやCoTデータなしで動作しますが、複雑な数独パズルや大きな迷路での最適経路探索といった課題に対してほぼ完璧なパフォーマンスを実現しています。
さらに、HRMは、人工知能能力を測定するための重要なベンチマークであるARC(Abstraction and Reasoning Corpus)において、はるかに長いコンテキストウィンドウを持つはるかに大きなモデルよりも優れている。
これらの結果は、普遍計算と汎用推論システムへの変換進化としてのHRMのポテンシャルを裏付けるものである。
関連論文リスト
- Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.669599662214686]
HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。
我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。
問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文 参考訳(メタデータ) (2024-02-05T07:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。