論文の概要: Self-Explainable Affordance Learning with Embodied Caption
- arxiv url: http://arxiv.org/abs/2404.05603v1
- Date: Mon, 8 Apr 2024 15:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.669412
- Title: Self-Explainable Affordance Learning with Embodied Caption
- Title(参考訳): 身体的拘束による自己説明可能なアクダクタンス学習
- Authors: Zhipeng Zhang, Zhimin Wei, Guolei Sun, Peng Wang, Luc Van Gool,
- Abstract要約: 具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 63.88435741872204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of visual affordance learning, previous methods mainly used abundant images or videos that delineate human behavior patterns to identify action possibility regions for object manipulation, with a variety of applications in robotic tasks. However, they encounter a main challenge of action ambiguity, illustrated by the vagueness like whether to beat or carry a drum, and the complexities involved in processing intricate scenes. Moreover, it is important for human intervention to rectify robot errors in time. To address these issues, we introduce Self-Explainable Affordance learning (SEA) with embodied caption. This innovation enables robots to articulate their intentions and bridge the gap between explainable vision-language caption and visual affordance learning. Due to a lack of appropriate dataset, we unveil a pioneering dataset and metrics tailored for this task, which integrates images, heatmaps, and embodied captions. Furthermore, we propose a novel model to effectively combine affordance grounding with self-explanation in a simple but efficient manner. Extensive quantitative and qualitative experiments demonstrate our method's effectiveness.
- Abstract(参考訳): 視覚的アベイランス学習の分野では、従来の手法は主に人間の行動パターンを記述した豊富な画像やビデオを使用してオブジェクト操作のためのアクション可能性領域を特定し、ロボットタスクに様々な応用を行った。
しかし、太鼓を叩くか携帯するかといった曖昧さや複雑な場面の処理にまつわる複雑さなど、アクションの曖昧さという大きな課題に直面している。
また,人間の介入によってロボットのエラーを時間内に修正することが重要である。
これらの課題に対処するために,具体的キャプションを組み込んだ自己説明力学習(SEA)を導入する。
このイノベーションにより、ロボットは意図を明確にし、説明可能な視覚言語キャプションと視覚的余裕学習のギャップを埋めることができる。
適切なデータセットがないため、画像、ヒートマップ、埋め込みキャプションを統合した、このタスクに適した先駆的なデータセットとメトリクスを公開します。
さらに, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
定量的および定性的実験により,本手法の有効性を実証した。
関連論文リスト
- Robotic Imitation of Human Actions [16.26334759935617]
本研究では,人間を模倣するロボットの課題に対処する,模倣学習の新しいアプローチを提案する。
提案手法では, 実証されたタスクに関する情報を抽象化し, その情報を一般化し, 再現するために利用する。
論文 参考訳(メタデータ) (2024-01-16T14:11:54Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Summarizing a virtual robot's past actions in natural language [0.3553493344868413]
本稿では,ロボット行動と自然言語記述とを一致させた一般的なデータセットを,ロボット行動要約作業のトレーニング場として活用する方法について述べる。
自動プランナーが使用する動作の中間テキスト表現や、ロボットの自我中心の映像フレームから、このような要約を生成するためのいくつかの方法を提案し、テストする。
論文 参考訳(メタデータ) (2022-03-13T15:00:46Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - SKID RAW: Skill Discovery from Raw Trajectories [23.871402375721285]
すべてのスキルではなく、完全なタスクの実行を示すことが望ましい。
軌跡を反復パターンに分割することを同時に学習する新しい手法を提案する。
このアプローチは、スキルのシーケンスを理解するのに使用できるスキルコンディショニングを学習する。
論文 参考訳(メタデータ) (2021-03-26T17:27:13Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。