論文の概要: Feasibility-aware Imitation Learning from Observations through a Hand-mounted Demonstration Interface
- arxiv url: http://arxiv.org/abs/2503.09018v1
- Date: Wed, 12 Mar 2025 03:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:25.714820
- Title: Feasibility-aware Imitation Learning from Observations through a Hand-mounted Demonstration Interface
- Title(参考訳): ハンドマウントデモインタフェースによる観察からのフィージビリティ・アウェア・模倣学習
- Authors: Kei Takahashi, Hikaru Sasaki, Takamitsu Matsubara,
- Abstract要約: FABCO(Fasibility-Aware Behavior Cloning from Observation)を提案する。
FABCOフレームワークでは、ロボットの事前訓練された前方および逆ダイナミクスモデルを用いて、各デモンストレーションの実現可能性を評価する。
我々はFABCOの有効性を,パイプとバイエルを含むピペット挿入作業に適用して実験的に検証した。
- 参考スコア(独自算出の注目度): 10.808201018448274
- License:
- Abstract: Imitation learning through a demonstration interface is expected to learn policies for robot automation from intuitive human demonstrations. However, due to the differences in human and robot movement characteristics, a human expert might unintentionally demonstrate an action that the robot cannot execute. We propose feasibility-aware behavior cloning from observation (FABCO). In the FABCO framework, the feasibility of each demonstration is assessed using the robot's pre-trained forward and inverse dynamics models. This feasibility information is provided as visual feedback to the demonstrators, encouraging them to refine their demonstrations. During policy learning, estimated feasibility serves as a weight for the demonstration data, improving both the data efficiency and the robustness of the learned policy. We experimentally validated FABCO's effectiveness by applying it to a pipette insertion task involving a pipette and a vial. Four participants assessed the impact of the feasibility feedback and the weighted policy learning in FABCO. Additionally, we used the NASA Task Load Index (NASA-TLX) to evaluate the workload induced by demonstrations with visual feedback.
- Abstract(参考訳): デモインタフェースによる模倣学習は、直感的な人間のデモからロボット自動化のポリシーを学ぶことが期待される。
しかし、人間とロボットの運動特性の違いにより、人間の専門家はロボットが実行できない動作を意図せずに実証することができる。
本研究は、FABCO(Fasibility-Aware Behavior cloning from Observation)を提案する。
FABCOフレームワークでは、ロボットの事前訓練された前方および逆ダイナミクスモデルを用いて、各デモンストレーションの実現可能性を評価する。
この実現可能性情報は、デモ参加者に視覚的なフィードバックとして提供され、デモを洗練させることを奨励する。
政策学習の間、推定実現可能性は実証データの重みとなり、データ効率と学習方針の堅牢性の両方を改善した。
我々はFABCOの有効性を,パイプとバイエルを含むピペット挿入作業に適用して実験的に検証した。
4人の被験者がFABCOにおける実現可能性フィードバックと重み付き政策学習の影響を評価した。
さらに,NASAタスク負荷指標(NASA-TLX)を用いて,視覚的フィードバックによる実演による作業負荷の評価を行った。
関連論文リスト
- Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse
Reinforcement Learning [22.287031690633174]
本稿では,逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。
提案手法は,ユーザの望むパフォーマンスレベルにおいて,ロボットの動作を可能にする。
論文 参考訳(メタデータ) (2022-11-28T16:48:24Z) - Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations [19.257876507104868]
アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
論文 参考訳(メタデータ) (2022-06-23T13:34:11Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。