論文の概要: Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations
- arxiv url: http://arxiv.org/abs/2505.21182v1
- Date: Tue, 27 May 2025 13:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.675579
- Title: Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations
- Title(参考訳): すべきことやすべきでないことを学ぶ - 専門家と望ましくない実証から学ぶ
- Authors: Huy Hoang, Tien Mai, Pradeep Varakantham, Tanvi Verma,
- Abstract要約: 我々は、データセットが専門家と望ましくない実証の両方を含む対照的な行動からオフラインの模倣学習を研究する。
本稿では,KLの相違点を専門家と望ましくない(あるいは悪い)データの状態-行動的訪問分布に対して最適化する新しい定式化を提案する。
本手法は, 対人訓練を回避し, 統一フレームワークにおける正と負の両方の実証処理を行う。
- 参考スコア(独自算出の注目度): 10.679604514849744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline imitation learning typically learns from expert and unlabeled demonstrations, yet often overlooks the valuable signal in explicitly undesirable behaviors. In this work, we study offline imitation learning from contrasting behaviors, where the dataset contains both expert and undesirable demonstrations. We propose a novel formulation that optimizes a difference of KL divergences over the state-action visitation distributions of expert and undesirable (or bad) data. Although the resulting objective is a DC (Difference-of-Convex) program, we prove that it becomes convex when expert demonstrations outweigh undesirable demonstrations, enabling a practical and stable non-adversarial training objective. Our method avoids adversarial training and handles both positive and negative demonstrations in a unified framework. Extensive experiments on standard offline imitation learning benchmarks demonstrate that our approach consistently outperforms state-of-the-art baselines.
- Abstract(参考訳): オフラインの模倣学習は通常、専門家やラベルなしのデモンストレーションから学習するが、しばしば望ましくない振る舞いで貴重な信号を見落としている。
本研究では、データセットが専門家と望ましくない実証の両方を含む、対照的な行動からオフラインの模倣学習を研究する。
本稿では,KLの相違点を専門家と望ましくない(あるいは悪い)データの状態-行動的訪問分布に対して最適化する新しい定式化を提案する。
得られた目的はDC(Difference-of-Convex)プログラムであるが、専門家による実証が望ましくない実演を上回ると凸となることを証明し、実用的で安定した非対人訓練の目標を実現する。
本手法は, 対人訓練を回避し, 統一フレームワークにおける正と負の両方の実証処理を行う。
標準的なオフライン模倣学習ベンチマークに対する大規模な実験は、我々のアプローチが最先端のベースラインを一貫して上回っていることを示している。
関連論文リスト
- Imitation Learning via Focused Satisficing [6.745370992941109]
模倣学習は、いくつかの固定された、しかし未知のコスト関数に従って、デモが最適に近いと仮定する。
提案手法は,既存の模倣学習手法よりも高品質な実演を模倣する政策に焦点を当てていることを実験的に示す。
論文 参考訳(メタデータ) (2025-05-20T18:36:52Z) - Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning [17.601574372211232]
本稿では,現実的なデータを用いたオフライン強化学習の課題,特に準最適行動ポリシを通じて収集された非専門的データに対処する。
このような状況下では、学習したポリシーは、オフラインデータから悪いデモンストレーションを扱うのに十分な柔軟性を維持しながら、分散シフトを管理するのに十分な安全でなければならない。
本稿では,行動方針の実証的行動分布への依存度を低減し,その悪影響を低減しようとする,アウトカム駆動行動柔軟性(ODAF)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-02T13:27:44Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Imitation Learning from Purified Demonstrations [47.52316615371601]
本稿では,まず不完全な実演における潜在的な雑音を除去し,その後,これらの実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
論文 参考訳(メタデータ) (2023-10-11T02:36:52Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Robust Imitation Learning from Corrupted Demonstrations [15.872598211059403]
一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。
本稿では,ポリシーの正確な推定を保証するMOM(Median-of-Means)目標を最小化する,新しいロバストなアルゴリズムを提案する。
連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示すことを確認した。
論文 参考訳(メタデータ) (2022-01-29T14:21:28Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。