論文の概要: SMODICE: Versatile Offline Imitation Learning via State Occupancy
Matching
- arxiv url: http://arxiv.org/abs/2202.02433v1
- Date: Fri, 4 Feb 2022 23:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:06:53.388251
- Title: SMODICE: Versatile Offline Imitation Learning via State Occupancy
Matching
- Title(参考訳): SMODICE: 状態整合によるVersatile Offline Imitation Learning
- Authors: Yecheng Jason Ma, Andrew Shen, Dinesh Jayaraman, Osbert Bastani
- Abstract要約: State Matching Offline Distribution Correction Estimation (SMODICE)は、オフライン模倣学習(IL)のための新しい汎用アルゴリズムである。
その結果,SMODICEは,(i)観測からの模倣(ifO),(ii)動的あるいは形態的にミスマッチした専門家によるifO,(iii)実例に基づく強化学習の3つのオフラインIL設定に効果的に適用できることが示唆された。
- 参考スコア(独自算出の注目度): 31.400457068128585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose State Matching Offline DIstribution Correction Estimation
(SMODICE), a novel and versatile algorithm for offline imitation learning (IL)
via state-occupancy matching. We show that the SMODICE objective admits a
simple optimization procedure through an application of Fenchel duality and an
analytic solution in tabular MDPs. Without requiring access to expert actions,
SMODICE can be effectively applied to three offline IL settings: (i) imitation
from observations (IfO), (ii) IfO with dynamics or morphologically mismatched
expert, and (iii) example-based reinforcement learning, which we show can be
formulated as a state-occupancy matching problem. We extensively evaluate
SMODICE on both gridworld environments as well as on high-dimensional offline
benchmarks. Our results demonstrate that SMODICE is effective for all three
problem settings and significantly outperforms prior state-of-art.
- Abstract(参考訳): 本研究では,オフライン模倣学習(IL)のための新しいアルゴリズムSMODICE(State Matching Offline Distribution Correction Estimation)を提案する。
smodice の目標は,fenchel duality の応用による単純な最適化手順と,表型mdp における解析解の存在を示す。
専門家のアクションにアクセスする必要がないため、SMODICEは3つのオフラインIL設定に効果的に適用できる。
(i)観察からの模倣(ifo)
(ii)動力学又は形態学的に不整合な専門家のifo
(iii)実例に基づく強化学習は,状態占有者マッチング問題として定式化できることを示す。
グリッドワールド環境と高次元オフラインベンチマークの両方でSMODICEを広範囲に評価する。
以上の結果から,SMODICEは3つの問題設定に対して有効であり,先行技術よりも優れていたことが示唆された。
関連論文リスト
- Sample-Efficient Alignment for LLMs [29.477421976548015]
本研究では,大規模言語モデル (LLM) と人選好を協調させる手法について検討した。
我々はトンプソンサンプリングに基づく統一アルゴリズムを導入し、2つの異なるLCMアライメントシナリオでその応用を強調した。
その結果,SEAはオラクルの嗜好と高いサンプル効率の整合性を達成し,近年のLCMの活発な探査方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-03T09:18:28Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Understanding and Addressing the Pitfalls of Bisimulation-based
Representations in Offline Reinforcement Learning [34.66035026036424]
オンライン環境においてバイシミュレーション手法が成功する理由を理解することを目的としているが、オフラインタスクではフェールする。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であることが判明した。
提案手法は、MICoとSimSRの2つの最先端バイシミュレーションに基づくアルゴリズムに実装する。
論文 参考訳(メタデータ) (2023-10-26T04:20:55Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。