論文の概要: HRM-Agent: Training a recurrent reasoning model in dynamic environments using reinforcement learning
- arxiv url: http://arxiv.org/abs/2510.22832v1
- Date: Sun, 26 Oct 2025 21:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.383019
- Title: HRM-Agent: Training a recurrent reasoning model in dynamic environments using reinforcement learning
- Title(参考訳): HRM-Agent:強化学習を用いた動的環境における繰り返し推論モデルの訓練
- Authors: Long H Dang, David Rawlinson,
- Abstract要約: 我々は,HRMが動的かつ不確実な迷路環境において,目標への移動を学べることを示す。
近年の研究では、HRMの推論能力はその再帰的推論プロセスに由来することが示唆されている。
本研究では, 再帰的推論プロセスのダイナミクスを探求し, 初期の環境時間ステップから計算を再利用していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Hierarchical Reasoning Model (HRM) has impressive reasoning abilities given its small size, but has only been applied to supervised, static, fully-observable problems. One of HRM's strengths is its ability to adapt its computational effort to the difficulty of the problem. However, in its current form it cannot integrate and reuse computation from previous time-steps if the problem is dynamic, uncertain or partially observable, or be applied where the correct action is undefined, characteristics of many real-world problems. This paper presents HRM-Agent, a variant of HRM trained using only reinforcement learning. We show that HRM can learn to navigate to goals in dynamic and uncertain maze environments. Recent work suggests that HRM's reasoning abilities stem from its recurrent inference process. We explore the dynamics of the recurrent inference process and find evidence that it is successfully reusing computation from earlier environment time-steps.
- Abstract(参考訳): Hierarchical Reasoning Model (HRM)は、その小型さから見れば印象的な推論能力を持っているが、教師付きで静的で完全に観測可能な問題にのみ適用されている。
HRMの強みの1つは、その計算努力を問題の難しさに適応させる能力である。
しかし、現在の形式では、問題が動的、不確実、あるいは部分的に観察可能である場合や、正しいアクションが未定義の場合に適用される場合、多くの実世界の問題の特徴として、従来の時間ステップから計算を統合して再利用することはできない。
本稿では,強化学習のみを用いて訓練したHRMの変種であるHRM-Agentについて述べる。
我々は,HRMが動的かつ不確実な迷路環境において,目標への移動を学べることを示す。
近年の研究では、HRMの推論能力はその再帰的推論プロセスに由来することが示唆されている。
本研究では, 再帰的推論プロセスのダイナミクスを探求し, 初期の環境時間ステップから計算を再利用していることを示す。
関連論文リスト
- Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [42.1825027925353]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Endogenous Macrodynamics in Algorithmic Recourse [52.87956177581998]
対実説明(CE)とアルゴリズム・リコース(AR)に関する既存の研究は、静的環境における個人に主に焦点を当ててきた。
既存の方法論の多くは、一般化されたフレームワークによってまとめて記述できることを示す。
次に、既存のフレームワークは、グループレベルでの言論の内在的ダイナミクスを研究する際にのみ明らかとなるような、隠された対外的関係のコストを考慮に入れていないと論じる。
論文 参考訳(メタデータ) (2023-08-16T07:36:58Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。