論文の概要: Learning Precise Affordances from Egocentric Videos for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2408.10123v1
- Date: Mon, 19 Aug 2024 16:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:33:14.622632
- Title: Learning Precise Affordances from Egocentric Videos for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのエゴセントリックビデオからの精度向上学習
- Authors: Gen Li, Nikolaos Tsagkas, Jifei Song, Ruaridh Mon-Williams, Sethu Vijayakumar, Kun Shao, Laura Sevilla-Lara,
- Abstract要約: Affordanceは、オブジェクトが提供する潜在的なアクションとして定義され、ロボット操作タスクに不可欠である。
本稿では,データ収集,効果的なモデルトレーニング,ロボットの展開を含む,合理化された空き時間学習システムを提案する。
- 参考スコア(独自算出の注目度): 18.438782733579064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance, defined as the potential actions that an object offers, is crucial for robotic manipulation tasks. A deep understanding of affordance can lead to more intelligent AI systems. For example, such knowledge directs an agent to grasp a knife by the handle for cutting and by the blade when passing it to someone. In this paper, we present a streamlined affordance learning system that encompasses data collection, effective model training, and robot deployment. First, we collect training data from egocentric videos in an automatic manner. Different from previous methods that focus only on the object graspable affordance and represent it as coarse heatmaps, we cover both graspable (e.g., object handles) and functional affordances (e.g., knife blades, hammer heads) and extract data with precise segmentation masks. We then propose an effective model, termed Geometry-guided Affordance Transformer (GKT), to train on the collected data. GKT integrates an innovative Depth Feature Injector (DFI) to incorporate 3D shape and geometric priors, enhancing the model's understanding of affordances. To enable affordance-oriented manipulation, we further introduce Aff-Grasp, a framework that combines GKT with a grasp generation model. For comprehensive evaluation, we create an affordance evaluation dataset with pixel-wise annotations, and design real-world tasks for robot experiments. The results show that GKT surpasses the state-of-the-art by 15.9% in mIoU, and Aff-Grasp achieves high success rates of 95.5% in affordance prediction and 77.1% in successful grasping among 179 trials, including evaluations with seen, unseen objects, and cluttered scenes.
- Abstract(参考訳): Affordanceは、オブジェクトが提供する潜在的なアクションとして定義され、ロボット操作タスクに不可欠である。
余裕の深い理解は、よりインテリジェントなAIシステムにつながる可能性がある。
例えば、そのような知識は、エージェントに刃を切るためのハンドルと刃でナイフをつかむように指示する。
本稿では,データ収集,効果的なモデルトレーニング,ロボットの展開などを含む,合理化学習システムを提案する。
まず,エゴセントリックビデオからのトレーニングデータを自動で収集する。
対象の把握可能な価格のみに着目して粗いヒートマップとして表現する従来の方法とは異なり、把握可能な(例えば、オブジェクトハンドル)と機能的な(例えば、ナイフ刃、ハンマーヘッド)の両方をカバーし、正確なセグメンテーションマスクでデータを抽出する。
次に,GKT(Geometry-Guided Affordance Transformer)と呼ばれる有効モデルを提案する。
GKTは革新的な深度特徴インジェクタ(DFI)を統合して3次元形状と幾何学的先入観を取り入れ、モデルの可利用性に対する理解を深める。
さらに,GKTとグリップ生成モデルを組み合わせたフレームワークであるAff-Graspを導入する。
総合的な評価のために,画素単位のアノテーションを用いたアベイランス評価データセットを作成し,ロボット実験のための実世界のタスクを設計する。
その結果、GKTはmIoUで15.9%、Aff-Graspは95.5%の成功率、77.1%の成功率を達成した。
関連論文リスト
- HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - Information-driven Affordance Discovery for Efficient Robotic Manipulation [14.863105174430087]
環境との双方向な相互作用はこの問題を軽減することができると我々は主張する。
我々は,本手法の理論的正当性を提供し,シミュレーションと実世界の課題の両方において,そのアプローチを実証的に検証する。
IDAをダブした本手法は,複数のアクションプリミティブに対する視覚的アベイランスの効率的な発見を可能にする。
論文 参考訳(メタデータ) (2024-05-06T21:25:51Z) - Human Activity Recognition Using Self-Supervised Representations of
Wearable Data [0.0]
HAR(Human Activity Recognition)のための正確なアルゴリズムの開発は、大規模な実世界のラベル付きデータセットの欠如によって妨げられている。
ここでは、トレーニング中に見えない実世界のデータセットで評価した場合、高い性能を有する6クラスHARモデルを開発する。
論文 参考訳(メタデータ) (2023-04-26T07:33:54Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for
Robotic Bin-picking [98.5984733963713]
コスト効率の良いロボットグルーピングを容易にするために,シミュレート・トゥ・リアルな6次元オブジェクトのポーズ推定のための反復的自己学習フレームワークを提案する。
我々は、豊富な仮想データを合成するためのフォトリアリスティックシミュレータを構築し、これを初期ポーズ推定ネットワークのトレーニングに利用する。
このネットワークは教師モデルの役割を担い、未ラベルの実データに対するポーズ予測を生成する。
論文 参考訳(メタデータ) (2022-04-14T15:54:01Z) - Understanding Egocentric Hand-Object Interactions from Hand Pose
Estimation [24.68535915849555]
本稿では,エゴセントリックな画像を含むデータセットをペアワイズにラベル付けする手法を提案する。
また、収集したペアワイズデータを用いて、効率的なエンコーダ-デコーダスタイルのネットワークをトレーニングします。
論文 参考訳(メタデータ) (2021-09-29T18:34:06Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。