論文の概要: Trajectory Entropy Reinforcement Learning for Predictable and Robust Control
- arxiv url: http://arxiv.org/abs/2505.04193v1
- Date: Wed, 07 May 2025 07:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.001007
- Title: Trajectory Entropy Reinforcement Learning for Predictable and Robust Control
- Title(参考訳): 予測可能・ロバスト制御のための軌道エントロピー強化学習
- Authors: Bang You, Chenxu Wang, Huaping Liu,
- Abstract要約: 強化学習におけるシンプルな政策に対する新たな帰納的バイアスを導入する。
単純な帰納バイアスは、作用軌跡全体のエントロピーを最小化することによって導入される。
学習方針がより循環的かつ一貫した行動軌跡を生み出すことを示す。
- 参考スコア(独自算出の注目度): 12.289021814766539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simplicity is a critical inductive bias for designing data-driven controllers, especially when robustness is important. Despite the impressive results of deep reinforcement learning in complex control tasks, it is prone to capturing intricate and spurious correlations between observations and actions, leading to failure under slight perturbations to the environment. To tackle this problem, in this work we introduce a novel inductive bias towards simple policies in reinforcement learning. The simplicity inductive bias is introduced by minimizing the entropy of entire action trajectories, corresponding to the number of bits required to describe information in action trajectories after the agent observes state trajectories. Our reinforcement learning agent, Trajectory Entropy Reinforcement Learning, is optimized to minimize the trajectory entropy while maximizing rewards. We show that the trajectory entropy can be effectively estimated by learning a variational parameterized action prediction model, and use the prediction model to construct an information-regularized reward function. Furthermore, we construct a practical algorithm that enables the joint optimization of models, including the policy and the prediction model. Experimental evaluations on several high-dimensional locomotion tasks show that our learned policies produce more cyclical and consistent action trajectories, and achieve superior performance, and robustness to noise and dynamic changes than the state-of-the-art.
- Abstract(参考訳): シンプルさは、特に堅牢性が重要である場合、データ駆動型コントローラを設計する上で重要な帰納的バイアスである。
複雑な制御タスクにおける深い強化学習の印象的な結果にもかかわらず、観察と行動の間に複雑で急激な相関関係を捉える傾向があり、環境へのわずかな摂動の下で失敗する。
この問題に対処するため,本研究では,強化学習におけるシンプルな政策に対する新たな帰納的バイアスを導入する。
エージェントが状態軌跡を観察した後の動作軌跡の情報を記述するために必要なビット数に応じて、動作軌跡全体のエントロピーを最小化することにより、単純誘導バイアスを導入する。
我々の強化学習エージェントであるトラジェクトリエントロピー強化学習は、報酬を最大化しつつ、トラジェクトリエントロピーを最小限に抑えるために最適化されている。
変動パラメータ化行動予測モデルを学習することにより、軌道エントロピーを効果的に推定できることを示し、その予測モデルを用いて情報規則化報酬関数を構築する。
さらに、ポリシーや予測モデルを含むモデルの共同最適化を可能にする実用的なアルゴリズムを構築する。
複数の高次元ロコモーションタスクの実験的評価により,我々の学習方針はより循環的かつ一貫した行動軌跡を生じ,優れた性能,騒音や動的変化に対する堅牢性を実現していることが示された。
関連論文リスト
- DeepONet as a Multi-Operator Extrapolation Model: Distributed Pretraining with Physics-Informed Fine-Tuning [6.635683993472882]
マルチオペレータ学習を実現するためのファインチューニング手法を提案する。
本手法は,事前学習における各種演算子からのデータを分散学習と組み合わせ,物理インフォームド手法によりゼロショット微調整が可能となる。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Interpretable Interaction Modeling for Trajectory Prediction via Agent Selection and Physical Coefficient [1.6954753390775528]
本稿では、手動で対話エージェントを選択し、Transformerの注目スコアを新たに計算された物理相関係数に置き換えるASPILinを提案する。
驚くべきことに、これらの単純な修正は予測性能を大幅に改善し、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Sample-efficient reinforcement learning using deep Gaussian processes [18.044018772331636]
強化学習(Reinforcement learning)は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。
モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。
合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識を取り入れることで、滑らかさと構造がもたらされる、深いガウス過程を導入する。
論文 参考訳(メタデータ) (2020-11-02T13:37:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。