論文の概要: Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos
- arxiv url: http://arxiv.org/abs/2302.03292v1
- Date: Tue, 7 Feb 2023 07:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:08:39.799118
- Title: Fine-grained Affordance Annotation for Egocentric Hand-Object
Interaction Videos
- Title(参考訳): Egocentric Hand-Object Interaction Videoの微粒化アノテーション
- Authors: Zecheng Yu, Yifei Huang, Ryosuke Furuta, Takuma Yagi, Yusuke Goutsu,
Yoichi Sato
- Abstract要約: 物価は、人間の運動能力と物体の物理的性質に基づく行動可能性に関する情報を提供する。
本稿では,これらの課題に対処するための効果的なアノテーション手法を提案する。
我々はEPIC-KITCHENSデータセットにこのスキームを適用して新しいアノテーションを提供し、アベイランス認識、ハンドオブジェクト相互作用ホットスポット予測、アベイランスのクロスドメイン評価などのタスクでアノテーションをテストする。
- 参考スコア(独自算出の注目度): 27.90643693526274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object affordance is an important concept in hand-object interaction,
providing information on action possibilities based on human motor capacity and
objects' physical property thus benefiting tasks such as action anticipation
and robot imitation learning. However, the definition of affordance in existing
datasets often: 1) mix up affordance with object functionality; 2) confuse
affordance with goal-related action; and 3) ignore human motor capacity. This
paper proposes an efficient annotation scheme to address these issues by
combining goal-irrelevant motor actions and grasp types as affordance labels
and introducing the concept of mechanical action to represent the action
possibilities between two objects. We provide new annotations by applying this
scheme to the EPIC-KITCHENS dataset and test our annotation with tasks such as
affordance recognition, hand-object interaction hotspots prediction, and
cross-domain evaluation of affordance. The results show that models trained
with our annotation can distinguish affordance from other concepts, predict
fine-grained interaction possibilities on objects, and generalize through
different domains.
- Abstract(参考訳): 物価は手動物体の相互作用において重要な概念であり、人間の運動能力と物体の物理的特性に基づく行動可能性の情報を提供し、行動予測やロボット模倣学習といったタスクに役立てる。
しかし、既存のデータセットにおける余裕の定義は、しばしばである。
1) 対象の機能性に合致すること
2 目標関連行動と余暇を混同すること、及び
3)人間の運動能力は無視する。
本稿では,目標非関係運動動作と把持型をラベルとして組み合わせ,2つの物体間の動作可能性を表現するための機械的動作の概念を導入することで,これらの問題に対処するための効率的なアノテーションスキームを提案する。
このスキームをepic-kitchensデータセットに適用し、アプライアンス認識、ハンドオブジェクトインタラクションホットスポット予測、アプライアンスのクロスドメイン評価といったタスクでアノテーションをテストすることにより、新しいアノテーションを提供する。
その結果、アノテーションで訓練されたモデルは、他の概念との距離を区別し、オブジェクト上のきめ細かい相互作用の可能性を予測し、異なるドメインを通して一般化できることがわかった。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Precise Affordance Annotation for Egocentric Action Video Datasets [27.90643693526274]
物価は人間と物体の相互作用において重要な概念である。
既存のデータセットは、しばしばオブジェクト機能と余裕を混ぜる。
本稿では,2つの物体間の作用可能性を表す機械的作用の概念を紹介する。
論文 参考訳(メタデータ) (2022-06-11T05:13:19Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Property-Aware Robot Object Manipulation: a Generative Approach [57.70237375696411]
本研究では,操作対象の隠れた特性に適応したロボットの動きを生成する方法に焦点を当てた。
本稿では,ジェネレーティブ・アドバイサル・ネットワークを利用して,オブジェクトの特性に忠実な新しいアクションを合成する可能性について検討する。
以上の結果から,ジェネレーティブ・アドバイサル・ネットは,新規かつ有意義な輸送行動を生み出すための強力なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T14:15:36Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。