論文の概要: Visual Affordances: Enabling Robots to Understand Object Functionality
- arxiv url: http://arxiv.org/abs/2505.05074v1
- Date: Thu, 08 May 2025 09:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.82198
- Title: Visual Affordances: Enabling Robots to Understand Object Functionality
- Title(参考訳): 視覚能力: 物体の機能を理解するロボットの開発
- Authors: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro,
- Abstract要約: 視覚的可視性予測のための統一的な定式化を提案する。
本稿では,視覚的アベイランス予測と物理世界とを結びつける汎用フレームワークを提案する。
我々のアプローチは、余裕感とロボットの動作のギャップを埋める。
- 参考スコア(独自算出の注目度): 29.0820917399675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-robot interaction for assistive technologies relies on the prediction of affordances, which are the potential actions a robot can perform on objects. Predicting object affordances from visual perception is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand-object interaction synthesis. In this work, we highlight the reproducibility issue in these redefinitions, making comparative benchmarks unfair and unreliable. To address this problem, we propose a unified formulation for visual affordance prediction, provide a comprehensive and systematic review of previous works highlighting strengths and limitations of methods and datasets, and analyse what challenges reproducibility. To favour transparency, we introduce the Affordance Sheet, a document to detail the proposed solution, the datasets, and the validation. As the physical properties of an object influence the interaction with the robot, we present a generic framework that links visual affordance prediction to the physical world. Using the weight of an object as an example for this framework, we discuss how estimating object mass can affect the affordance prediction. Our approach bridges the gap between affordance perception and robot actuation, and accounts for the complete information about objects of interest and how the robot interacts with them to accomplish its task.
- Abstract(参考訳): 補助技術のための人間とロボットの相互作用は、ロボットがオブジェクトに対して実行可能な潜在的なアクションである、余裕の予測に依存する。
視覚的知覚から物体の可視性を予測することは、検出の把握、可視性分類、可視性セグメンテーション、手動物体の相互作用合成といったタスクに対して異なる形で定式化される。
本稿では、これらの再定義における再現性の問題を強調し、比較ベンチマークを不公平で信頼性の低いものにする。
この問題に対処するため,視覚的可視性予測のための統一的な定式化を提案し,手法やデータセットの長所と短所を強調し,再現性への挑戦を分析する。
透明性を優先するために、提案したソリューション、データセット、バリデーションの詳細を示すドキュメントであるAffordance Sheetを紹介します。
物体の物理的特性がロボットとの相互作用に影響を及ぼすので,視覚的アベイランス予測と物理世界とを結びつける汎用的な枠組みを提案する。
このフレームワークの例として,物体の重みを例に,物体の質量推定が余剰予測にどのように影響するかを論じる。
我々のアプローチは、空き知覚とロボットのアクティベーションのギャップを埋め、興味のある物体についての完全な情報と、ロボットがそのタスクを達成するためにどのように相互作用するかを説明できる。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos [27.90643693526274]
物価は、人間の運動能力と物体の物理的性質に基づく行動可能性に関する情報を提供する。
本稿では,これらの課題に対処するための効果的なアノテーション手法を提案する。
我々はEPIC-KITCHENSデータセットにこのスキームを適用して新しいアノテーションを提供し、アベイランス認識、ハンドオブジェクト相互作用ホットスポット予測、アベイランスのクロスドメイン評価などのタスクでアノテーションをテストする。
論文 参考訳(メタデータ) (2023-02-07T07:05:00Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Precise Affordance Annotation for Egocentric Action Video Datasets [27.90643693526274]
物価は人間と物体の相互作用において重要な概念である。
既存のデータセットは、しばしばオブジェクト機能と余裕を混ぜる。
本稿では,2つの物体間の作用可能性を表す機械的作用の概念を紹介する。
論文 参考訳(メタデータ) (2022-06-11T05:13:19Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。
本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。
本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文 参考訳(メタデータ) (2021-02-03T15:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。