論文の概要: Maximum Total Correlation Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.16734v1
- Date: Thu, 22 May 2025 14:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.363615
- Title: Maximum Total Correlation Reinforcement Learning
- Title(参考訳): 最大相関強化学習
- Authors: Bang You, Puze Liu, Huaping Liu, Jan Peters, Oleg Arenz,
- Abstract要約: 誘導軌道内の全相関を最大化する強化学習問題を修正した。
シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
- 参考スコア(独自算出の注目度): 23.209609715886454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simplicity is a powerful inductive bias. In reinforcement learning, regularization is used for simpler policies, data augmentation for simpler representations, and sparse reward functions for simpler objectives, all that, with the underlying motivation to increase generalizability and robustness by focusing on the essentials. Supplementary to these techniques, we investigate how to promote simple behavior throughout the episode. To that end, we introduce a modification of the reinforcement learning problem that additionally maximizes the total correlation within the induced trajectories. We propose a practical algorithm that optimizes all models, including policy and state representation, based on a lower-bound approximation. In simulated robot environments, our method naturally generates policies that induce periodic and compressible trajectories, and that exhibit superior robustness to noise and changes in dynamics compared to baseline methods, while also improving performance in the original tasks.
- Abstract(参考訳): 単純さは強力な帰納バイアスである。
強化学習では、より単純なポリシー、より単純な表現のためのデータ拡張、より単純な目的のためのスパース報酬関数に正規化が使用され、それらすべてに焦点をあてることで一般化性と堅牢性を高める基本的な動機がある。
これらの技術に付随して、我々はエピソード全体を通して単純な行動を促進する方法について検討する。
そこで本研究では, 誘導軌道内での相関関係を最大化する強化学習問題を修正した。
本稿では,下界近似に基づくポリシや状態表現を含む全てのモデルを最適化する実用的なアルゴリズムを提案する。
シミュレーションロボット環境において,本手法は,周期的および圧縮的軌道を誘導するポリシを自然に生成し,ベースライン法と比較してノイズや動的変化に優れたロバスト性を示すとともに,元のタスクの性能も向上する。
関連論文リスト
- Trajectory Entropy Reinforcement Learning for Predictable and Robust Control [12.289021814766539]
強化学習におけるシンプルな政策に対する新たな帰納的バイアスを導入する。
単純な帰納バイアスは、作用軌跡全体のエントロピーを最小化することによって導入される。
学習方針がより循環的かつ一貫した行動軌跡を生み出すことを示す。
論文 参考訳(メタデータ) (2025-05-07T07:41:29Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Improving generalization of robot locomotion policies via Sharpness-Aware Reinforcement Learning [0.5399800035598186]
微分可能なシミュレータは、正確な勾配によるサンプル効率の改善を提供するが、接触豊富な環境では不安定である。
本稿では,勾配に基づく強化学習アルゴリズムにシャープネスを考慮した最適化を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-29T14:25:54Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching [12.335788185691916]
逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。
我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
論文 参考訳(メタデータ) (2021-09-09T14:32:26Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。