論文の概要: Align Your Intents: Offline Imitation Learning via Optimal Transport
- arxiv url: http://arxiv.org/abs/2402.13037v1
- Date: Tue, 20 Feb 2024 14:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:54:11.218801
- Title: Align Your Intents: Offline Imitation Learning via Optimal Transport
- Title(参考訳): インテントのアライメント: 最適輸送によるオフライン模倣学習
- Authors: Maksim Bobrin, Nazar Buzun, Dmitrii Krylov, Dmitry V. Dylov
- Abstract要約: 模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れており、スパース・リワードタスクにおける他のオフラインRLアルゴリズムの性能を向上させる。
- 参考スコア(独自算出の注目度): 3.466132008692413
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offline reinforcement learning (RL) addresses the problem of sequential
decision-making by learning optimal policy through pre-collected data, without
interacting with the environment. As yet, it has remained somewhat impractical,
because one rarely knows the reward explicitly and it is hard to distill it
retrospectively. Here, we show that an imitating agent can still learn the
desired behavior merely from observing the expert, despite the absence of
explicit rewards or action labels. In our method, AILOT (Aligned Imitation
Learning via Optimal Transport), we involve special representation of states in
a form of intents that incorporate pairwise spatial distances within the data.
Given such representations, we define intrinsic reward function via optimal
transport distance between the expert's and the agent's trajectories. We report
that AILOT outperforms state-of-the art offline imitation learning algorithms
on D4RL benchmarks and improves the performance of other offline RL algorithms
in the sparse-reward tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、環境と相互作用することなく、事前収集データを通じて最適なポリシーを学習することで、逐次意思決定の問題に対処する。
なぜなら、報酬を明示的に知ることはほとんどなく、ふりかえりに蒸留することは困難だからである。
ここでは、明示的な報酬や行動ラベルがないにもかかわらず、模擬エージェントは専門家の観察からのみ望ましい行動を学ぶことができることを示す。
提案手法である ailot (aligned imitation learning via optimal transport) では,データ内の空間距離をペアに組み込む意図の形で,特別な状態表現を行う。
このような表現が与えられた場合、専門家とエージェントの軌道間の最適な輸送距離を通して本質的な報酬関数を定義する。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れており、スパース・リワードタスクにおける他のオフラインRLアルゴリズムの性能を向上させる。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文 参考訳(メタデータ) (2024-07-05T12:05:37Z) - SEABO: A Simple Search-Based Method for Offline Imitation Learning [57.2723889718596]
オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T08:48:01Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Optimal Transport for Offline Imitation Learning [31.218468923400373]
オフライン強化学習(RL)は、実環境と対話することなく、優れた意思決定ポリシーを学習するための有望なフレームワークである。
オフライントラジェクトリに報酬を割り当てるアルゴリズムであるOptimal Transport Reward labeling (OTR)を導入する。
単一実演によるOTRは、オフラインRLの性能と地道的な報酬とを一貫して一致させることができることを示す。
論文 参考訳(メタデータ) (2023-03-24T12:45:42Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。