論文の概要: CIVIL: Causal and Intuitive Visual Imitation Learning
- arxiv url: http://arxiv.org/abs/2504.17959v3
- Date: Mon, 27 Oct 2025 03:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 22:08:13.722156
- Title: CIVIL: Causal and Intuitive Visual Imitation Learning
- Title(参考訳): CIVIL:因果的・直観的視覚模倣学習
- Authors: Yinlong Dai, Robert Ramirez Sanchez, Ryan Jeronimus, Shahabedin Sagheb, Cara M. Nunez, Heramb Nemlekar, Dylan P. Losey,
- Abstract要約: ロボットのための新しい訓練パラダイムを提案する。
ロボットがどのような行動をとるべきかを人間に示すのではなく、人間がなぜ意思決定をしたのかを直感的に示すことができるのです。
我々のシミュレーションと実世界の実験は、CIVILで訓練されたロボットが、どのような行動を取るか、なぜその行動を取るのかを学習していることを示しています。
- 参考スコア(独自算出の注目度): 5.090234440090935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's robots attempt to learn new tasks by imitating human examples. These robots watch the human complete the task, and then try to match the actions taken by the human expert. However, this standard approach to visual imitation learning is fundamentally limited: the robot observes what the human does, but not why the human chooses those behaviors. Without understanding which features of the system or environment factor into the human's decisions, robot learners often misinterpret the human's examples. In practice, this results in causal confusion, inefficient learning, and robot policies that fail when the environment changes. We therefore propose a shift in perspective: instead of asking human teachers just to show what actions the robot should take, we also enable humans to intuitively indicate why they made those decisions. Under our paradigm human teachers attach markers to task-relevant objects and use natural language prompts to describe their state representation. Our proposed algorithm, CIVIL, leverages this augmented demonstration data to filter the robot's visual observations and extract a feature representation that aligns with the human teacher. CIVIL then applies these causal features to train a transformer-based policy that -- when tested on the robot -- is able to emulate human behaviors without being confused by visual distractors or irrelevant items. Our simulations and real-world experiments demonstrate that robots trained with CIVIL learn both what actions to take and why to take those actions, resulting in better performance than state-of-the-art baselines. From the human's perspective, our user study reveals that this new training paradigm actually reduces the total time required for the robot to learn the task, and also improves the robot's performance in previously unseen scenarios. See videos at our project website: https://civil2025.github.io
- Abstract(参考訳): 今日のロボットは、人間の例を模倣して新しいタスクを学ぼうとしている。
これらのロボットは、人間がタスクを完了するのを観察し、その後、人間の専門家の行動と一致させようとする。
しかし、この視覚模倣学習に対する標準的なアプローチは基本的に制限されており、ロボットは人間が何をしているかを観察するが、なぜ人間がそれらの行動を選択するのかは明らかにしない。
ロボット学習者は、システムのどの特徴や環境が人間の決定に影響を及ぼすかを理解せずに、しばしば人間の例を誤解する。
実際には、これは環境が変化したときに失敗する因果的混乱、非効率な学習、ロボットポリシーをもたらす。
そこで我々は,人間の教師に対して,ロボットがどのような行動をとるべきかを示すだけでなく,人間がなぜ意思決定をしたのかを直感的に示すことができる,という視点の転換を提案する。
我々のパラダイムの下では、人間教師はタスク関連オブジェクトにマーカーをアタッチし、自然言語プロンプトを使って状態表現を記述する。
提案するアルゴリズムであるCIVILは,ロボットの視覚的観察をフィルタリングし,人間の教師と一致した特徴表現を抽出する。
CIVILは、これらの因果的特徴をトランスフォーマーベースのポリシーのトレーニングに応用し、ロボットでテストすると、視覚的邪魔者や無関係なアイテムに混同されることなく、人間の振る舞いをエミュレートすることができる。
我々のシミュレーションと実世界の実験により、CIVILで訓練されたロボットは、どのようなアクションをとるか、なぜアクションを取るかを学ぶことができ、その結果、最先端のベースラインよりもパフォーマンスが向上することが示された。
人間の視点では,この新たなトレーニングパラダイムは,ロボットがタスクを学習するのに要する時間を削減し,これまで見つからなかったシナリオにおいて,ロボットのパフォーマンスを向上させる。
プロジェクトのWebサイトでは、ビデオを参照してください。
関連論文リスト
- UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations [24.232732907295194]
UniSkillは、ラベルなしで大規模なクロスボデーメントビデオデータから、エンボディディメントに依存しないスキル表現を学ぶフレームワークである。
シミュレーションと実環境の両方における実験により、我々のクロス・エボディメントのスキルは、ビデオのプロンプトが見えない場合でも、ロボットが適切な行動を選択するのに成功していることがわかった。
論文 参考訳(メタデータ) (2025-05-13T17:59:22Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。