論文の概要: State Chrono Representation for Enhancing Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.06174v1
- Date: Sat, 09 Nov 2024 13:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:07:41.694581
- Title: State Chrono Representation for Enhancing Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における一般化の促進のための状態クロノ表現
- Authors: Jianda Chen, Wen Zheng Terence Ng, Zichen Chen, Sinno Jialin Pan, Tianwei Zhang,
- Abstract要約: 画像に基づく入力による強化学習では、堅牢で一般化可能な状態表現を確立することが不可欠である。
本稿では,これらの課題に対処する新しいステートクロノ表現(SCR)手法を提案する。
SCRは、バイシミュレートメトリック学習の更新ステップに広範囲の時間情報を組み込むことで、状態メートル法に基づく表現を強化する。
- 参考スコア(独自算出の注目度): 36.12688166503104
- License:
- Abstract: In reinforcement learning with image-based inputs, it is crucial to establish a robust and generalizable state representation. Recent advancements in metric learning, such as deep bisimulation metric approaches, have shown promising results in learning structured low-dimensional representation space from pixel observations, where the distance between states is measured based on task-relevant features. However, these approaches face challenges in demanding generalization tasks and scenarios with non-informative rewards. This is because they fail to capture sufficient long-term information in the learned representations. To address these challenges, we propose a novel State Chrono Representation (SCR) approach. SCR augments state metric-based representations by incorporating extensive temporal information into the update step of bisimulation metric learning. It learns state distances within a temporal framework that considers both future dynamics and cumulative rewards over current and long-term future states. Our learning strategy effectively incorporates future behavioral information into the representation space without introducing a significant number of additional parameters for modeling dynamics. Extensive experiments conducted in DeepMind Control and Meta-World environments demonstrate that SCR achieves better performance comparing to other recent metric-based methods in demanding generalization tasks. The codes of SCR are available in https://github.com/jianda-chen/SCR.
- Abstract(参考訳): 画像に基づく入力による強化学習では、堅牢で一般化可能な状態表現を確立することが不可欠である。
近年のメトリクス学習,例えばディープ・バイシミュレーション・メトリック・アプローチの進歩は,タスク関連特徴に基づいて状態間の距離を計測する画素観察から,低次元構造表現空間を学習する上で有望な結果を示している。
しかし、これらのアプローチは、非形式的な報酬を伴う一般化タスクやシナリオの要求に直面する。
これは、学習した表現において十分な長期情報を取得できないためである。
これらの課題に対処するために、我々は、新しいステートクロノ表現(SCR)アプローチを提案する。
SCRは、バイシミュレートメトリック学習の更新ステップに広範囲の時間情報を組み込むことで、状態メートル法に基づく表現を強化する。
未来力学と累積報酬の両方を、現在および長期の将来の状態に対して考慮する時間的枠組みの中で、状態距離を学習する。
我々の学習戦略は、ダイナミクスをモデル化するためのかなりの数の追加パラメータを導入することなく、将来の行動情報を表現空間に効果的に組み込む。
DeepMind ControlとMeta-World環境で実施された大規模な実験は、SCRが一般化タスクを要求される他のメトリクスベースの方法と比較して、より良いパフォーマンスを達成することを示した。
SCRのコードはhttps://github.com/jianda-chen/SCRで公開されている。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - On the Importance of Feature Decorrelation for Unsupervised
Representation Learning in Reinforcement Learning [23.876039876806182]
教師なし表現学習(URL)は強化学習(RL)のサンプル効率を改善した
本稿では,潜在多様体の次元を増大させつつ,将来の状態を因果的に予測する新しいURLフレームワークを提案する。
本フレームワークは,Atari 100kベンチマークにおける最先端URL手法のサンプル効率を大幅に向上させるため,崩壊のない予測表現を効果的に学習する。
論文 参考訳(メタデータ) (2023-06-09T02:47:21Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Tractable Reinforcement Learning of Signal Temporal Logic Objectives [0.0]
信号時相論理 (Signal temporal logic, STL) は、リアルタイムロボットタスクと安全仕様を指定するための表現言語である。
STL仕様を満たすための学習は、報酬と次のアクションを計算するのに十分な状態履歴を必要とすることが多い。
本稿では,新しい拡張状態空間表現において状態履歴をキャプチャするコンパクトな方法を提案する。
論文 参考訳(メタデータ) (2020-01-26T15:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。