論文の概要: Egocentric Human-Object Interaction Detection: A New Benchmark and Method
- arxiv url: http://arxiv.org/abs/2506.14189v2
- Date: Tue, 26 Aug 2025 15:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.370281
- Title: Egocentric Human-Object Interaction Detection: A New Benchmark and Method
- Title(参考訳): Egocentric Human-Object Interaction Detection: a new Benchmark and Method
- Authors: Kunyuan Deng, Yi Wang, Lap-Pui Chau,
- Abstract要約: エゴセントリック・ヒューマン・オブジェクト・インタラクション(Egocentric Human-ject Interaction, Ego-HOI)の検出は、知的エージェントが人間の活動を理解し、支援する上で重要である。
実世界のEgo-HOI検出タスクとEgo-HOIBenchを紹介した。
ハンドポーズと幾何学的手がかりを利用して対話表現を強化する軽量なプラグアンドプレイ方式であるハンドジオメトリとインターアクティブリファインメント(HGIR)を提案する。
- 参考スコア(独自算出の注目度): 15.271558280695631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric human-object interaction (Ego-HOI) detection is crucial for intelligent agents to understand and assist human activities from a first-person perspective. However, progress has been hindered by the lack of benchmarks and methods tailored to egocentric challenges such as severe hand-object occlusion. In this paper, we introduce the real-world Ego-HOI detection task and the accompanying Ego-HOIBench, a new dataset with over 27K egocentric images and explicit, fine-grained hand-verb-object triplet annotations across 123 categories. Ego-HOIBench covers diverse daily scenarios, object types, and both single- and two-hand interactions, offering a comprehensive testbed for Ego-HOI research. Benchmarking existing third-person HOI detectors on Ego-HOIBench reveals significant performance gaps, highlighting the need for egocentric-specific solutions. To this end, we propose Hand Geometry and Interactivity Refinement (HGIR), a lightweight, plug-and-play scheme that leverages hand pose and geometric cues to enhance interaction representations. Specifically, HGIR explicitly extracts global hand geometric features from the estimated hand pose proposals, and further refines interaction features through pose-interaction attention, enabling the model to focus on subtle hand-object relationship differences even under severe occlusion. HGIR significantly improves Ego-HOI detection performance across multiple baselines, achieving new state-of-the-art results on Ego-HOIBench. Our dataset and method establish a solid foundation for future research in egocentric vision and human-object interaction understanding. Project page: https://dengkunyuan.github.io/EgoHOIBench/
- Abstract(参考訳): エゴセントリック・ヒューマン・オブジェクト・インタラクション(Egocentric Human-ject Interaction, Ego-HOI)の検出は、知的エージェントが人間の活動を理解し、支援する上で重要である。
しかし、厳密な手動閉塞のような自我中心的な課題に合わせたベンチマークや手法の欠如により、進歩は妨げられている。
本稿では,実世界のEgo-HOI検出タスクと付随するEgo-HOIBenchについて紹介する。
Ego-HOIBenchは、さまざまな日常シナリオ、オブジェクトタイプ、シングルハンドと双方向のインタラクションをカバーし、Ego-HOIリサーチの包括的なテストベッドを提供する。
Ego-HOIBench上で既存の3人目のHOI検出器をベンチマークすると、大きなパフォーマンスギャップが明らかになり、エゴセントリックなソリューションの必要性が強調される。
この目的のために,手ポーズと幾何学的手がかりを利用して対話表現を強化する軽量なプラグアンドプレイ方式であるハンドジオメトリ・インターアクティビティ・リファインメント(HGIR)を提案する。
具体的には、HGIRは、推定されたハンドポーズ提案からグローバルハンド幾何学的特徴を明示的に抽出し、ポーズ・インタラクション・アテンションを通じて相互作用特徴を洗練し、厳密な閉塞下においても微妙なハンドオブジェクト関係の差異に焦点を合わせることができる。
HGIRは、複数のベースラインにわたるEgo-HOI検出性能を大幅に改善し、Ego-HOIBenchの最先端結果を達成する。
我々のデータセットと手法は、エゴセントリックなビジョンと人間と物体の相互作用理解における将来の研究のための確かな基盤を確立します。
プロジェクトページ: https://dengkunyuan.github.io/EgoHOIBench/
関連論文リスト
- ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction [16.338872733140832]
本稿では,Egocentric Interaction Reasoning and pixel Grounding (Ego-IRG) という新しいタスクを提案する。
Ego-IRGは、クエリを入力としてエゴセントリックなイメージを取り入れ、分析、回答、ピクセルグラウンドという3つの重要なステップを通じてインタラクションを解決することを目的とした最初のタスクである。
Ego-IRGBenchデータセットには、160万のクエリとそれに対応するインタラクションに関するマルチモーダルレスポンスを備えた、20万以上のエゴセントリックなイメージが含まれている。
論文 参考訳(メタデータ) (2025-04-02T08:24:35Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。
従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。
本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - EgoPCA: A New Framework for Egocentric Hand-Object Interaction
Understanding [99.904140768186]
本稿では,EgoPCA(Probing, Curation and Adaption)によるEgo-HOI認識の基盤となる新しいフレームワークを提案する。
我々は、総合的なプレトレインセット、バランスの取れたテストセット、およびトレーニングファインタニング戦略を完備した新しいベースラインにコントリビュートする。
私たちは、私たちのデータと発見が、Ego-HOIの理解の新しい道を開くと信じています。
論文 参考訳(メタデータ) (2023-09-05T17:51:16Z) - Geometric Features Informed Multi-person Human-object Interaction
Recognition in Videos [19.64072251418535]
我々は、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張する。
本稿では,2G-GCN (2-level Geometric feature-informed Graph Convolutional Network) を提案する。
挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。
論文 参考訳(メタデータ) (2022-07-19T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。