論文の概要: Visual Affordance Prediction: Survey and Reproducibility
- arxiv url: http://arxiv.org/abs/2505.05074v2
- Date: Mon, 13 Oct 2025 19:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.95791
- Title: Visual Affordance Prediction: Survey and Reproducibility
- Title(参考訳): 視力予測:調査と再現性
- Authors: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro,
- Abstract要約: Affordancesは、カメラで観察されるように、エージェントがオブジェクトに対して実行可能な潜在的なアクションである。
視覚的アプライアンス予測は、検出の把握、アプライアンス分類、アプライアンスセグメンテーション、ポーズ推定といったタスクに対して異なる方法で定式化される。
本稿では,対象物についての完全な情報と,目的物に対するエージェントのインタラクションを考慮し,視覚的可視性予測の統一的な定式化を提案する。
- 参考スコア(独自算出の注目度): 19.95282560469852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
- Abstract(参考訳): Affordancesは、カメラで観察されるように、エージェントがオブジェクトに対して実行可能な潜在的なアクションである。
視覚的アプライアンス予測は、検出の把握、アプライアンス分類、アプライアンスセグメンテーション、ポーズ推定といったタスクに対して異なる方法で定式化される。
この定式化の多様性は、メソッド間の公正な比較を防ぐための矛盾した定義につながる。
本稿では,関心対象の完全な情報とエージェントとタスクを遂行する対象との相互作用を考慮し,視覚的アベイランス予測の統一的な定式化を提案する。
この統一された定式化により、異なる視覚的余裕の作品を包括的かつ体系的にレビューし、方法とデータセットの長所と短所を強調します。
また, 再現性の問題として, 実装が不適切であること, 実験装置の細部が不適切であること, 視覚的可視性予測のベンチマークが不公平であること, 信頼性が低いこと, などについて議論する。
透明性を優先するために、我々はAffordance Sheetという、ソリューション、データセット、メソッドの検証を詳述したドキュメントを紹介し、コミュニティにおける将来の再現性と公正性をサポートする。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos [27.90643693526274]
物価は、人間の運動能力と物体の物理的性質に基づく行動可能性に関する情報を提供する。
本稿では,これらの課題に対処するための効果的なアノテーション手法を提案する。
我々はEPIC-KITCHENSデータセットにこのスキームを適用して新しいアノテーションを提供し、アベイランス認識、ハンドオブジェクト相互作用ホットスポット予測、アベイランスのクロスドメイン評価などのタスクでアノテーションをテストする。
論文 参考訳(メタデータ) (2023-02-07T07:05:00Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Precise Affordance Annotation for Egocentric Action Video Datasets [27.90643693526274]
物価は人間と物体の相互作用において重要な概念である。
既存のデータセットは、しばしばオブジェクト機能と余裕を混ぜる。
本稿では,2つの物体間の作用可能性を表す機械的作用の概念を紹介する。
論文 参考訳(メタデータ) (2022-06-11T05:13:19Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Object and Relation Centric Representations for Push Effect Prediction [18.990827725752496]
プッシュは、プレグレープ操作からシーンアレンジメントまでのタスクに使用される、非包括的操作スキルである。
本稿では,プッシュ動作の効果予測とパラメータ推定のためのグラフニューラルネットワークに基づくフレームワークを提案する。
本フレームワークは,異なる種類の接合体と異なる質量を有する物体を介して接続された異なる形状の多部オブジェクトを含む実環境と模擬環境の両方で検証される。
論文 参考訳(メタデータ) (2021-02-03T15:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。