論文の概要: Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations
- arxiv url: http://arxiv.org/abs/2310.08823v1
- Date: Fri, 13 Oct 2023 02:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:44:07.790626
- Title: Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations
- Title(参考訳): 準最適記述を用いた逆強化学習のための距離ランク対応逐次リワード学習
- Authors: Lu Li, Yuxin Pan, Ruobing Chen, Jie Liu, Zilin Wang, Yu Liu, Zhiheng
Li
- Abstract要約: 逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 25.536792010283566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to explicitly infer an underlying
reward function based on collected expert demonstrations. Considering that
obtaining expert demonstrations can be costly, the focus of current IRL
techniques is on learning a better-than-demonstrator policy using a reward
function derived from sub-optimal demonstrations. However, existing IRL
algorithms primarily tackle the challenge of trajectory ranking ambiguity when
learning the reward function. They overlook the crucial role of considering the
degree of difference between trajectories in terms of their returns, which is
essential for further removing reward ambiguity. Additionally, it is important
to note that the reward of a single transition is heavily influenced by the
context information within the trajectory. To address these issues, we
introduce the Distance-rank Aware Sequential Reward Learning (DRASRL)
framework. Unlike existing approaches, DRASRL takes into account both the
ranking of trajectories and the degrees of dissimilarity between them to
collaboratively eliminate reward ambiguity when learning a sequence of
contextually informed reward signals. Specifically, we leverage the distance
between policies, from which the trajectories are generated, as a measure to
quantify the degree of differences between traces. This distance-aware
information is then used to infer embeddings in the representation space for
reward learning, employing the contrastive learning technique. Meanwhile, we
integrate the pairwise ranking loss function to incorporate ranking information
into the latent features. Moreover, we resort to the Transformer architecture
to capture the contextual dependencies within the trajectories in the latent
space, leading to more accurate reward estimation. Through extensive
experimentation, our DRASRL framework demonstrates significant performance
improvements over previous SOTA methods.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
専門家によるデモンストレーションを得るにはコストがかかるため、現在のIRL技術の焦点は、準最適デモンストレーションから得られる報酬関数を用いて、より優れた実証者ポリシーを学ぶことである。
しかし、既存のIRLアルゴリズムは、報酬関数を学習する際の軌跡ランキングの曖昧さに対処する。
彼らは、報酬の曖昧さをさらに取り除くのに不可欠である、リターンの観点で軌道間の差異の程度を考慮する重要な役割を見逃している。
さらに、単一遷移の報酬が軌道内の文脈情報に大きく影響していることに注意する必要がある。
これらの問題に対処するために,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを導入する。
既存のアプローチとは異なり、DRASRLは、文脈的に情報を得た報酬信号のシーケンスを学習する際の報酬のあいまいさを協調的に排除するために、軌跡のランクと両者の相違度の両方を考慮している。
具体的には、トラジェクトリが生成されるポリシー間の距離を、トレース間の差の度合いを定量化する尺度として活用する。
この距離認識情報を用いて、報酬学習のための表現空間への埋め込みを推論し、対照的な学習手法を用いる。
一方、ランキング情報を潜在機能に組み込むために、ペアランキングの損失関数を統合する。
さらに,我々はTransformerアーキテクチャを用いて,潜在空間の軌跡内のコンテキスト依存を捕捉し,より正確な報酬推定を行う。
我々の DRASRL フレームワークは, 大規模な実験を通じて, 従来の SOTA 手法よりも優れた性能を示す。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。
この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文 参考訳(メタデータ) (2021-10-21T19:23:15Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。