論文の概要: Efficient Planning in Reinforcement Learning via Model Introspection
- arxiv url: http://arxiv.org/abs/2602.07719v1
- Date: Sat, 07 Feb 2026 21:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.774612
- Title: Efficient Planning in Reinforcement Learning via Model Introspection
- Title(参考訳): モデルイントロスペクションによる強化学習における効率的な計画
- Authors: Gabriel Stella,
- Abstract要約: 我々は、人間がタスクを与えられたとき、そのタスクの特定方法にかかわらず、その問題を効率的に解くために必要な追加情報を引き出すことができることを示した。
問題の内部モデルについて推論することで、人間が直接タスク関連情報を合成する。
次に,関係強化学習に使用されるモデルのクラスに対して,効率的な目標指向計画を可能にするアルゴリズムについて述べる。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning and classical planning are typically seen as two distinct problems, with differing formulations necessitating different solutions. Yet, when humans are given a task, regardless of the way it is specified, they can often derive the additional information needed to solve the problem efficiently. The key to this ability is introspection: by reasoning about their internal models of the problem, humans directly synthesize additional task-relevant information. In this paper, we propose that this introspection can be thought of as program analysis. We discuss examples of how this approach can be applied to various kinds of models used in reinforcement learning. We then describe an algorithm that enables efficient goal-oriented planning over the class of models used in relational reinforcement learning, demonstrating a novel link between reinforcement learning and classical planning.
- Abstract(参考訳): 強化学習と古典計画は通常2つの異なる問題と見なされ、異なる定式化は異なる解を必要とする。
しかし、人間がタスクを与えられたとき、そのタスクの特定方法に関係なく、その問題を効率的に解くために必要な追加情報を引き出すことができる。
この能力の鍵はイントロスペクション(introspection)である: 問題の内部モデルについて推論することで、人間は、追加のタスク関連情報を直接的に合成する。
本稿では,このイントロスペクションをプログラム解析とみなすことができる。
本稿では、この手法が強化学習に使用される様々なモデルにどのように適用できるかを論じる。
次に,リレーショナルリレーショナルリレーショナルラーニングで使用されるモデルのクラスに対して,ゴール指向の効率的なプランニングを可能にするアルゴリズムについて述べる。
関連論文リスト
- Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers [22.72866404096086]
償却学習は、新しい問題への迅速な一般化を可能にするために、タスク間で共有される計算や帰納的バイアスを再利用する考え方である。
現在のアプローチでは、推論でタスクデータを処理する能力が制限されることが多いため、大規模なデータセットへのスケールアップに苦労している。
ミニバッチよりも解を段階的に洗練するモデルである反復的償却推論を提案する。
論文 参考訳(メタデータ) (2025-10-13T14:40:47Z) - Looking beyond the next token [75.00751370502168]
トレーニングデータシーケンスの再構成と処理により、モデルが真のデータ生成プロセスをより正確に模倣できるようになる、と我々は主張する。
本手法は, 長期的目標を追加費用なしで自然に生成することを可能にした。
論文 参考訳(メタデータ) (2025-04-15T16:09:06Z) - Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning [41.13568563835089]
深層学習モデルの学習において,情報の整理・接続という人間の習慣を適用することが効果的な戦略として有効であることがわかった。
本稿では,モデルがより挑戦的な知識領域に集中するように促す新たな正規化損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-06T01:30:40Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Improving Artificial Teachers by Considering How People Learn and Forget [32.74828727144865]
本稿では,知的チューリングのための新しいモデルベース手法を提案する。
モデルベースのプランニングは、ユーザメモリモデルのパラメータをインタラクティブに学習することで、最良の介入を選択する。
論文 参考訳(メタデータ) (2021-02-08T13:05:58Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。