論文の概要: Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos
- arxiv url: http://arxiv.org/abs/2302.03292v1
- Date: Tue, 7 Feb 2023 07:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:08:39.799118
- Title: Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos
- Title(参考訳): Egocentric Hand-Object Interaction Videoの微粒化アノテーション
- Authors: Zecheng Yu, Yifei Huang, Ryosuke Furuta, Takuma Yagi, Yusuke Goutsu,
Yoichi Sato
- Abstract要約: 物価は、人間の運動能力と物体の物理的性質に基づく行動可能性に関する情報を提供する。
本稿では,これらの課題に対処するための効果的なアノテーション手法を提案する。
我々はEPIC-KITCHENSデータセットにこのスキームを適用して新しいアノテーションを提供し、アベイランス認識、ハンドオブジェクト相互作用ホットスポット予測、アベイランスのクロスドメイン評価などのタスクでアノテーションをテストする。
- 参考スコア(独自算出の注目度): 27.90643693526274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object affordance is an important concept in hand-object interaction,
providing information on action possibilities based on human motor capacity and
objects' physical property thus benefiting tasks such as action anticipation
and robot imitation learning. However, the definition of affordance in existing
datasets often: 1) mix up affordance with object functionality; 2) confuse
affordance with goal-related action; and 3) ignore human motor capacity. This
paper proposes an efficient annotation scheme to address these issues by
combining goal-irrelevant motor actions and grasp types as affordance labels
and introducing the concept of mechanical action to represent the action
possibilities between two objects. We provide new annotations by applying this
scheme to the EPIC-KITCHENS dataset and test our annotation with tasks such as
affordance recognition, hand-object interaction hotspots prediction, and
cross-domain evaluation of affordance. The results show that models trained
with our annotation can distinguish affordance from other concepts, predict
fine-grained interaction possibilities on objects, and generalize through
different domains.
- Abstract(参考訳): 物価は手動物体の相互作用において重要な概念であり、人間の運動能力と物体の物理的特性に基づく行動可能性の情報を提供し、行動予測やロボット模倣学習といったタスクに役立てる。
しかし、既存のデータセットにおける余裕の定義は、しばしばである。
1) 対象の機能性に合致すること
2 目標関連行動と余暇を混同すること、及び
3)人間の運動能力は無視する。
本稿では,目標非関係運動動作と把持型をラベルとして組み合わせ,2つの物体間の動作可能性を表現するための機械的動作の概念を導入することで,これらの問題に対処するための効率的なアノテーションスキームを提案する。
このスキームをepic-kitchensデータセットに適用し、アプライアンス認識、ハンドオブジェクトインタラクションホットスポット予測、アプライアンスのクロスドメイン評価といったタスクでアノテーションをテストすることにより、新しいアノテーションを提供する。
その結果、アノテーションで訓練されたモデルは、他の概念との距離を区別し、オブジェクト上のきめ細かい相互作用の可能性を予測し、異なるドメインを通して一般化できることがわかった。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Cross-Embodied Affordance Transfer through Learning Affordance Equivalences [6.828097734917722]
我々は,物体,行動,効果を,私たちが「空き空間」と呼ぶ共通潜在空間内の1つの潜在ベクトルに統一するディープニューラルネットワークモデルを提案する。
我々のモデルは、一つのエージェントによって実行される個々のオブジェクトの振舞いを学習しない。
Affordance Equivalenceは、オブジェクトに対するアクションの一般化だけでなく、異なるロボットのアクションをリンクするクロス・エボディメント・トランスファーも促進する。
論文 参考訳(メタデータ) (2024-04-24T05:07:36Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Precise Affordance Annotation for Egocentric Action Video Datasets [27.90643693526274]
物価は人間と物体の相互作用において重要な概念である。
既存のデータセットは、しばしばオブジェクト機能と余裕を混ぜる。
本稿では,2つの物体間の作用可能性を表す機械的作用の概念を紹介する。
論文 参考訳(メタデータ) (2022-06-11T05:13:19Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。