論文の概要: TW-CRL: Time-Weighted Contrastive Reward Learning for Efficient Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.05585v1
- Date: Tue, 08 Apr 2025 00:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:07.515703
- Title: TW-CRL: Time-Weighted Contrastive Reward Learning for Efficient Inverse Reinforcement Learning
- Title(参考訳): TW-CRL:効率的な逆強化学習のための時間重み付きコントラストリワード学習
- Authors: Yuxuan Li, Ning Yang, Stephen Xia,
- Abstract要約: 強化学習(Reinforcement Learning, RL)におけるエピソディックなタスクは、疎い報酬信号と高次元状態空間のためにしばしば課題を提起する。
実演と失敗の両方を活用する逆強化学習フレームワークであるTW-CRLを提案する。
- 参考スコア(独自算出の注目度): 5.153706140800798
- License:
- Abstract: Episodic tasks in Reinforcement Learning (RL) often pose challenges due to sparse reward signals and high-dimensional state spaces, which hinder efficient learning. Additionally, these tasks often feature hidden "trap states" -- irreversible failures that prevent task completion but do not provide explicit negative rewards to guide agents away from repeated errors. To address these issues, we propose Time-Weighted Contrastive Reward Learning (TW-CRL), an Inverse Reinforcement Learning (IRL) framework that leverages both successful and failed demonstrations. By incorporating temporal information, TW-CRL learns a dense reward function that identifies critical states associated with success or failure. This approach not only enables agents to avoid trap states but also encourages meaningful exploration beyond simple imitation of expert trajectories. Empirical evaluations on navigation tasks and robotic manipulation benchmarks demonstrate that TW-CRL surpasses state-of-the-art methods, achieving improved efficiency and robustness.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)におけるエピソディックなタスクは、しばしば、疎い報酬信号と高次元状態空間によって、効率的な学習を妨げる問題を引き起こす。
さらに、これらのタスクは隠れた"トラップ状態"が特徴で、タスクの完了を防ぐが、エージェントを繰り返しエラーから遠ざけるための明確なネガティブな報酬を提供しない。
これらの課題に対処するため,実演と失敗の両方を活用する逆強化学習(IRL)フレームワークであるTW-CRLを提案する。
時間情報を組み込むことで、TW-CRLは成功や失敗に関連する臨界状態を識別する高密度報酬関数を学習する。
このアプローチは、エージェントがトラップ状態を避けるだけでなく、専門家の軌道の単純な模倣を越えて意味のある探索を促進する。
ナビゲーションタスクとロボット操作ベンチマークに関する実証的な評価は、TW-CRLが最先端の手法を超越し、効率と堅牢性を向上していることを示している。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning [20.682705447289706]
本研究では, 連続強化学習アルゴリズムにおける負の伝達問題を克服するための, 単純かつ高効率な手法を開発する。
R&Dは、エージェントのオンラインアクターと批評家ネットワークをリセットして、新しいタスクとオフライン学習ステップを学ぶ戦略を組み合わせる。
本研究は,CRLの陰性移行を検討することの重要性を強調し,その有害性を軽減するためにR&Dのような堅牢な戦略の必要性を強調した。
論文 参考訳(メタデータ) (2024-03-08T05:37:59Z) - Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-20T06:21:52Z) - Inverse Reinforcement Learning without Reinforcement Learning [40.7783129322142]
逆強化学習(IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的としている。
従来のIRL法では、サブルーチンとしてハード強化学習問題を繰り返し解決する必要がある。
我々は、RLの難解な問題を繰り返し解くために、模倣学習の容易な問題を減らした。
論文 参考訳(メタデータ) (2023-03-26T04:35:53Z) - Learning Progress Driven Multi-Agent Curriculum [18.239527837186216]
カリキュラム強化学習は、タスクの難易度を徐々に高めることによって学習を高速化することを目的としている。
本報告では,SPMARL(Self-paced MARL)を用いて,エピソードリターンではなくテキスト学習の進捗状況に基づくタスクの優先順位付けを行う。
論文 参考訳(メタデータ) (2022-05-20T08:16:30Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。