Fugu-MT 論文翻訳(概要): Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback

論文の概要: Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback

arxiv url: http://arxiv.org/abs/2603.26467v1
Date: Fri, 27 Mar 2026 14:32:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.543387
Title: Addressing Ambiguity in Imitation Learning through Product of Experts based Negative Feedback
Title（参考訳）: 専門家による否定的フィードバックによる模倣学習の曖昧さへの対処
Authors: John Bateman, Andy M. Tyrrell, Jihong Zhu,
Abstract要約: 本稿では,不明瞭なタスクを解くために,最適でないデモを活用できるシステムを提案する。負フィードバックシステムは、あいまいなタスクに対する純粋にポジティブな模倣学習よりも大幅に改善する。
参考スコア（独自算出の注目度）: 1.6257004893674196
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Programming robots to perform complex tasks is often difficult and time consuming, requiring expert knowledge and skills in robot software and sometimes hardware. Imitation learning is a method for training robots to perform tasks by leveraging human expertise through demonstrations. Typically, the assumption is that those demonstrations are performed by a single, highly competent expert. However, in many real-world applications that use user demonstrations for tasks or incorporate both user data and pretrained data, such as home robotics including assistive robots, this is unlikely to be the case. This paper presents research towards a system which can leverage suboptimal demonstrations to solve ambiguous tasks; and particularly learn from its own failures. This is a negative-feedback system which achieves significant improvement over purely positive imitation learning for ambiguous tasks, achieving a 90% improvement in success rate against a system that does not utilise negative feedback, compared to a 50% improvement in success rate when utilised on a real robot, as well as demonstrating higher efficacy, memory efficiency and time efficiency than a comparable negative feedback scheme. The novel scheme presented in this paper is validated through simulated and real-robot experiments.
Abstract（参考訳）: 複雑なタスクを実行するためにロボットをプログラミングすることは、しばしば困難で時間を要する。イミテーションラーニング(英:imitation learning)とは、人間の専門知識を活用してロボットを訓練する手法である。典型的には、これらのデモンストレーションは単一の非常に有能な専門家によって実行されるという仮定である。しかし、タスクにユーザデモを使用したり、ユーザーデータと事前訓練されたデータの両方を組み込んだ現実世界の多くのアプリケーションでは、補助ロボットを含むホームロボティクスがそうである可能性は低い。本稿では,不明瞭な課題の解決に最適でない実証を活用できるシステム,特にその失敗から学ぶシステムについて述べる。本システムは,無明なタスクに対する純粋に正の模倣学習よりも大幅な改善を実現し,正のフィードバックを生かさないシステムに対して90%の成功率向上を実現し,実際のロボットで使用した場合の成功率を50%向上させるとともに,同等の負のフィードバック方式よりも高い有効性,メモリ効率,時間効率を示す。本論文では,シミュレーションおよび実ロボット実験により,本手法の有効性を検証した。

関連論文リスト

Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation [30.791222277450053]
現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。 SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
論文参考訳（メタデータ） (2024-01-17T04:15:56Z)
How Can Everyday Users Efficiently Teach Robots by Demonstrations? [3.6145826787059643]
本稿では,人間の教師に情報伝達の実証例を提案するための指標として,タスク関連情報エントロピーという不確実性の尺度を提案する。その結果,教師のデモンストレーションからロボット学習効率が大幅に向上した。
論文参考訳（メタデータ） (2023-10-19T18:21:39Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文参考訳（メタデータ） (2022-04-15T08:12:15Z)
Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文参考訳（メタデータ） (2021-09-19T18:00:51Z)
Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文参考訳（メタデータ） (2021-03-15T07:51:31Z)
Learning the Noise of Failure: Intelligent System Tests for Robots [1.713291434132985]
ロボットの自動システムテストにおける故障検出のためのシミュレーションノイズ推定を提案する。この技術は、人間が成功や失敗を評価することなく、実世界の自動テストを強化することができる。
論文参考訳（メタデータ） (2021-02-16T11:06:45Z)
Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文参考訳（メタデータ） (2020-02-25T18:56:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。