論文の概要: Inferring Transition Dynamics from Value Functions
- arxiv url: http://arxiv.org/abs/2501.09081v1
- Date: Wed, 15 Jan 2025 19:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:25.978470
- Title: Inferring Transition Dynamics from Value Functions
- Title(参考訳): 値関数からの遷移ダイナミクスの推論
- Authors: Jacob Adamczyk,
- Abstract要約: 強化学習では、値関数は通常ベルマン方程式を解くために訓練される。
収束値関数は環境の基盤となる力学のモデルを符号化する。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License:
- Abstract: In reinforcement learning, the value function is typically trained to solve the Bellman equation, which connects the current value to future values. This temporal dependency hints that the value function may contain implicit information about the environment's transition dynamics. By rearranging the Bellman equation, we show that a converged value function encodes a model of the underlying dynamics of the environment. We build on this insight to propose a simple method for inferring dynamics models directly from the value function, potentially mitigating the need for explicit model learning. Furthermore, we explore the challenges of next-state identifiability, discussing conditions under which the inferred dynamics model is well-defined. Our work provides a theoretical foundation for leveraging value functions in dynamics modeling and opens a new avenue for bridging model-free and model-based reinforcement learning.
- Abstract(参考訳): 強化学習では、値関数は通常、現在の値と将来の値とを結びつけるベルマン方程式を解くために訓練される。
この時間依存性は、値関数が環境の遷移ダイナミクスに関する暗黙の情報を含んでいることを示唆している。
ベルマン方程式を再構成することにより、収束値関数が環境の基盤となる力学のモデルを符号化することを示す。
我々はこの知見に基づいて、値関数から直接動的モデルを推論するシンプルな方法を提案し、明示的なモデル学習の必要性を緩和する可能性がある。
さらに, 次状態同定可能性の課題を考察し, 推論力学モデルが適切に定義されている条件について議論する。
我々の研究は、動的モデリングにおける価値関数の活用のための理論的基盤を提供し、モデルフリーおよびモデルベース強化学習のための新しい道を開く。
関連論文リスト
- Neural Networks Remember More: The Power of Parameter Isolation and Combination [3.2430260063115233]
破滅的な忘れは、事前訓練された言語モデルにとって広範囲にわたる問題である。
この問題を解決するための鍵は、モデルの可塑性と安定性の間のトレードオフを見つけることである。
モデル安定性と塑性のバランスをとるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T02:58:57Z) - ICODE: Modeling Dynamical Systems with Extrinsic Input Information [14.521146920900316]
モデルの学習過程に,正確なリアルタイム入力情報を組み込んだ入力共役ニューラルネットワーク(ICODE)を導入する。
いくつかの代表的実動力学の実験を通して本手法を検証する。
この研究は、明示的な外部入力情報で物理的システムを理解するための貴重なニューラルネットワークODEモデルのクラスを提供する。
論文 参考訳(メタデータ) (2024-11-21T07:57:59Z) - SOLD: Slot Object-Centric Latent Dynamics Models for Relational Manipulation Learning from Pixels [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、新しいモデルに基づく強化学習アルゴリズムである。
画素入力から教師なしの方法でオブジェクト中心のダイナミックスモデルを学習する。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。