論文の概要: Imitation Learning via Focused Satisficing
- arxiv url: http://arxiv.org/abs/2505.14820v1
- Date: Tue, 20 May 2025 18:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.704333
- Title: Imitation Learning via Focused Satisficing
- Title(参考訳): 集中型満足度による模倣学習
- Authors: Rushit N. Shah, Nikolaos Agadakos, Synthia Sasulski, Ali Farajzadeh, Sanjiban Choudhury, Brian Ziebart,
- Abstract要約: 模倣学習は、いくつかの固定された、しかし未知のコスト関数に従って、デモが最適に近いと仮定する。
提案手法は,既存の模倣学習手法よりも高品質な実演を模倣する政策に焦点を当てていることを実験的に示す。
- 参考スコア(独自算出の注目度): 6.745370992941109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning often assumes that demonstrations are close to optimal according to some fixed, but unknown, cost function. However, according to satisficing theory, humans often choose acceptable behavior based on their personal (and potentially dynamic) levels of aspiration, rather than achieving (near-) optimality. For example, a lunar lander demonstration that successfully lands without crashing might be acceptable to a novice despite being slow or jerky. Using a margin-based objective to guide deep reinforcement learning, our focused satisficing approach to imitation learning seeks a policy that surpasses the demonstrator's aspiration levels -- defined over trajectories or portions of trajectories -- on unseen demonstrations without explicitly learning those aspirations. We show experimentally that this focuses the policy to imitate the highest quality (portions of) demonstrations better than existing imitation learning methods, providing much higher rates of guaranteed acceptability to the demonstrator, and competitive true returns on a range of environments.
- Abstract(参考訳): 模倣学習は、デモが固定的だが未知のコスト関数に従って最適に近いと仮定することが多い。
しかしながら、満足度理論によれば、人間は(ほぼ)最適性を達成するのではなく、個人的な(そして潜在的にダイナミックな)願望レベルに基づいて受け入れられる行動を選択することが多い。
例えば、衝突せずに着陸に成功した月面着陸機のデモンストレーションは、遅いか不安定であるにもかかわらず初心者には受け入れられるかもしれない。
深い強化学習を導くためのマージンベースの目的を用いて、我々は、模倣学習に焦点を絞った満足のいくアプローチは、その願望を明示的に学ばずに、目に見えないデモンストレーションにおいて、実証者の願望を超越する政策(軌道または軌道の一部で定義される)を求める。
提案手法は,既存の模倣学習手法よりも高品質な実演を模倣する政策に焦点を当て,実証者への許容可能性の向上と,様々な環境における競争真の回帰を実現することを目的としている。
関連論文リスト
- Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - Imitation Learning from Purified Demonstrations [47.52316615371601]
本稿では,まず不完全な実演における潜在的な雑音を除去し,その後,これらの実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
論文 参考訳(メタデータ) (2023-10-11T02:36:52Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Learning from Imperfect Demonstrations via Adversarial Confidence
Transfer [44.14553613304978]
信頼度予測器を学習することで,不完全な実演から学習する問題を研究する。
多長さ部分軌跡の逆分布マッチングにより、共通潜時空間を学習する。
3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。
論文 参考訳(メタデータ) (2022-02-07T06:33:35Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。