論文の概要: Egocentric Human-Object Interaction Detection: A New Benchmark and Method
- arxiv url: http://arxiv.org/abs/2506.14189v1
- Date: Tue, 17 Jun 2025 05:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.33287
- Title: Egocentric Human-Object Interaction Detection: A New Benchmark and Method
- Title(参考訳): Egocentric Human-Object Interaction Detection: a new Benchmark and Method
- Authors: Kunyuan Deng, Yi Wang, Lap-Pui Chau,
- Abstract要約: Ego-HOIBenchは、Ego-HOI検出のベンチマークと開発を促進する新しいデータセットである。
本手法は軽量かつ効果的であり,プラグイン・アンド・プレイ方式で容易にHOIベースラインに適用できる。
- 参考スコア(独自算出の注目度): 14.765419467710812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the interaction between humans and objects has gained much attention in recent years. Existing human-object interaction (HOI) detection methods mainly focus on the third-person perspectives, overlooking a more intuitive way from the egocentric view of HOI, namely Ego-HOI. This paper introduces an Ego-HOIBench, a new dataset to promote the benchmarking and development of Ego-HOI detection. Our Ego-HOIBench comprises more than 27K egocentric images with high-quality hand-verb-object triplet annotations across 123 fine-grained interaction categories and locations, covering a rich diversity of scenarios, object types, and hand configurations in daily activities. In addition, we explore and adapt third-person HOI detection methods to Ego-HOIBench and illustrate the challenges of hand-occluded objects and the complexity of single- and two-hand interactions. To build a new baseline, we propose a Hand Geometry and Interactivity Refinement (HGIR) scheme, which leverages hand pose and geometric information as valuable cues for interpreting interactions. Specifically, the HGIR scheme explicitly extracts global hand geometric features from the estimated hand pose proposals and refines the interaction-specific features using pose-interaction attention. This scheme enables the model to obtain a robust and powerful interaction representation, significantly improving the Ego-HOI detection capability. Our approach is lightweight and effective, and it can be easily applied to HOI baselines in a plug-and-play manner to achieve state-of-the-art results on Ego-HOIBench. Our project is available at: https://dengkunyuan.github.io/EgoHOIBench/
- Abstract(参考訳): 近年,人間と物体の相互作用を理解することが注目されている。
既存のHuman-Object Interaction(HOI)検出法は,HOIのエゴセントリックな視点,すなわちEgo-HOIから,より直感的な視点に焦点をあてている。
本稿では,Ego-HOI検出のベンチマークと開発を促進する新しいデータセットであるEgo-HOIBenchを紹介する。
Ego-HOIBenchは、123のきめ細かいインタラクションカテゴリとロケーションにわたる高品質なハンドバーブオブジェクトトリプルトアノテーションを備えた、27K以上のエゴセントリックなイメージで構成されており、シナリオ、オブジェクトタイプ、そして日々のアクティビティにおける手構成の多様さをカバーしています。
さらに,3人称HOI検出手法をEgo-HOIBenchに適用し,手持ち物体の課題と片手インタラクションの複雑さを考察した。
新しいベースラインを構築するために,ハンドポーズと幾何学的情報を対話を解釈するための貴重な手がかりとして活用するハンドジオメトリ・インターアクティビティ・リファインメント(HGIR)方式を提案する。
具体的には、HGIRスキームは、推定ハンドポーズ提案からグローバルハンド幾何学的特徴を明示的に抽出し、ポーズ・アクション・アテンションを用いてインタラクション固有の特徴を洗練する。
この方式により、モデルが堅牢で強力な相互作用表現を得ることができ、Ego-HOI検出能力が大幅に向上する。
提案手法は軽量かつ効果的であり,Ego-HOIBenchの最先端結果を得るために,プラグイン・アンド・プレイ方式でHOIベースラインに容易に適用することができる。
私たちのプロジェクトは、https://dengkunyuan.github.io/EgoHOIBench/で利用可能です。
関連論文リスト
- ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction [16.338872733140832]
本稿では,Egocentric Interaction Reasoning and pixel Grounding (Ego-IRG) という新しいタスクを提案する。
Ego-IRGは、クエリを入力としてエゴセントリックなイメージを取り入れ、分析、回答、ピクセルグラウンドという3つの重要なステップを通じてインタラクションを解決することを目的とした最初のタスクである。
Ego-IRGBenchデータセットには、160万のクエリとそれに対応するインタラクションに関するマルチモーダルレスポンスを備えた、20万以上のエゴセントリックなイメージが含まれている。
論文 参考訳(メタデータ) (2025-04-02T08:24:35Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。
従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。
本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos [19.64072251418535]
我々は、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張する。
本稿では,2G-GCN (2-level Geometric feature-informed Graph Convolutional Network) を提案する。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
論文 参考訳(メタデータ) (2022-07-19T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。