論文の概要: Good in Bad (GiB): Sifting Through End-user Demonstrations for Learning a Better Policy
- arxiv url: http://arxiv.org/abs/2605.01529v1
- Date: Sat, 02 May 2026 16:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.820757
- Title: Good in Bad (GiB): Sifting Through End-user Demonstrations for Learning a Better Policy
- Title(参考訳): Good in Bad (GiB): よりよいポリシーを学ぶためのエンドユーザのデモを通じて統合する
- Authors: Noushad Sojib, Momotaz Begum,
- Abstract要約: GiB(Good-in-Bad)は,デモ中の不正なサブタスクを自動的に識別し,破棄するアルゴリズムである。
フィルタリングされたデータは、どんなポリシー学習アルゴリズムでも利用でき、より堅牢なポリシーを訓練できる。
我々は,Frankaロボット上のGiBをシミュレーションおよび実世界のマルチステップタスクの両方で検証する。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning offers a promising framework for enabling robots to acquire diverse skills from human users. However, most imitation learning algorithms assume access to high-quality demonstrations an unrealistic expectation when collecting data from non-expert users, whose demonstrations often contain inadvertent errors. Naively learning from such demonstrations can result in unsafe policy behavior, while discarding entire demonstrations due to occasional mistakes wastes valuable data, especially in low-data settings. In this work, we introduce GiB (Good-in-Bad), an algorithm that automatically identifies and discards erroneous subtasks within demonstrations while preserving high-quality subtasks. The filtered data can then be used by any policy learning algorithm to train more robust policies. GiB first trains a self-supervised model to learn latent features and assigns binary weights to label each demonstration as good or bad. It then models the latent feature distribution of high-quality segments and uses the Mahalanobis distance to detect and evaluate poor-quality subtasks. We validate GiB on the Franka robot in both simulated and real-world multi-step tasks, demonstrating improved policy performance when learning from mixed-quality human demonstrations.
- Abstract(参考訳): 模倣学習は、ロボットが人間のユーザーから多様なスキルを習得できるようにする、有望なフレームワークを提供する。
しかし、ほとんどの模倣学習アルゴリズムは、非専門家のユーザーからデータを収集する際に、高品質なデモンストレーションへのアクセスが非現実的な期待であると仮定している。
このようなデモから内在的に学ぶことは、安全でないポリシー行動を引き起こす可能性がある一方で、時にはミスによって、デモ全体を破棄することは、貴重なデータ、特に低データ設定を浪費する。
そこで本研究では,高品質なサブタスクを保存しながら,デモ中の不正なサブタスクを自動的に識別・破棄するアルゴリズムGiB(Good-in-Bad)を紹介する。
フィルタリングされたデータは、どんなポリシー学習アルゴリズムでも利用でき、より堅牢なポリシーを訓練できる。
GiBはまず、潜在機能を学ぶために自己教師付きモデルをトレーニングし、各デモを良し悪しとラベル付けるために二分重を割り当てる。
次に、高品質なセグメントの潜在特徴分布をモデル化し、マハラノビス距離を用いて品質の低いサブタスクを検出し評価する。
我々は,Frankaロボット上のGiBをシミュレーションおよび実世界のマルチステップタスクの両方で検証し,混在する人間の実演から学習する際のポリシー性能の向上を実証した。
関連論文リスト
- Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。