論文の概要: Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
- arxiv url: http://arxiv.org/abs/2512.20605v2
- Date: Wed, 24 Dec 2025 08:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.963365
- Title: Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
- Title(参考訳): 自己回帰モデルにおける創発的時間的抽象は階層的強化学習を可能にする
- Authors: Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherrer, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento,
- Abstract要約: 次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整
自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
- 参考スコア(独自算出の注目度): 61.380634253724594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.
- Abstract(参考訳): 大規模自己回帰モデルの構築と強化学習(RL)による微調整は,多くの問題領域において前例のない成功を収めた。
RLの間、これらのモデルは一度に1つのトークンである新しい出力を生成することで探索する。
しかし、トークン・バイ・トークンのサンプリングは、特に報酬が不足している場合、非常に非効率な学習をもたらす可能性がある。
本稿では,自己回帰モデルの内部表現の中で行動し,探索することにより,この問題を克服できることを示す。
具体的には、時間的に制約された動作を発見するために、ベース自己回帰モデルの残ストリーム活性化を出力する高次非因果シーケンスモデルを導入する。
グリッドワールドと階層構造を持つMuJoCoベースのタスクでは、高階モデルが長いアクティベーションシーケンスチャンクを内部コントローラに圧縮することを学ぶ。
批判的に、各コントローラは、長い時間スケールで展開し、学習された終了条件を伴って、動作に意味のある一連のアクションを実行し、複数のコントローラを時間をかけて構成することで、新しいタスクを効率的に探索する。
内部RL(internal RL)と呼ばれる内部制御器の直接強化により、標準RL微調整が失敗した場合のスパース報酬からの学習が可能となることを示す。
本研究は, 自己回帰モデルにおける潜在行動生成と強化の利点を実証し, 基礎モデル内の階層的RLを実現するための有望な経路として内部RLが示唆された。
関連論文リスト
- Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - AdaCred: Adaptive Causal Decision Transformers with Feature Crediting [11.54181863246064]
AdaCredは、短時間のアクション・リワード状態列から構築された因果グラフとして軌跡を表す新しいアプローチである。
実験により,AdaCredをベースとしたポリシでは,より短い軌道列が必要であり,オフライン強化学習と模倣学習環境の両方において従来手法よりも一貫して優れていたことが実証された。
論文 参考訳(メタデータ) (2024-12-19T22:22:37Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。