論文の概要: Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing
- arxiv url: http://arxiv.org/abs/2602.20597v1
- Date: Tue, 24 Feb 2026 06:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.6315
- Title: Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing
- Title(参考訳): Egocentric Hand-Object Parsingのための共起一貫性を考慮したインタラクション認識表現モデル
- Authors: Yuejiao Su, Yi Wang, Lei Yao, Yawen Cui, Lap-Pui Chau,
- Abstract要約: エンドツーエンドインタラクション対応トランス(InterFormer)を提案する。
DQG(Dynamic Query Generator)、DFS(Dual-context Feature Selector)、CoCo(Conditional Co-occurrence)の3つの重要なコンポーネントを統合している。
提案モデルでは,EgoHOSの最先端性能と,非配布のミニHOI4Dデータセットの課題を両立させる。
- 参考スコア(独自算出の注目度): 20.40288070674112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fine-grained understanding of egocentric human-environment interactions is crucial for developing next-generation embodied agents. One fundamental challenge in this area involves accurately parsing hands and active objects. While transformer-based architectures have demonstrated considerable potential for such tasks, several key limitations remain unaddressed: 1) existing query initialization mechanisms rely primarily on semantic cues or learnable parameters, demonstrating limited adaptability to changing active objects across varying input scenes; 2) previous transformer-based methods utilize pixel-level semantic features to iteratively refine queries during mask generation, which may introduce interaction-irrelevant content into the final embeddings; and 3) prevailing models are susceptible to "interaction illusion", producing physically inconsistent predictions. To address these issues, we propose an end-to-end Interaction-aware Transformer (InterFormer), which integrates three key components, i.e., a Dynamic Query Generator (DQG), a Dual-context Feature Selector (DFS), and the Conditional Co-occurrence (CoCo) loss. The DQG explicitly grounds query initialization in the spatial dynamics of hand-object contact, enabling targeted generation of interaction-aware queries for hands and various active objects. The DFS fuses coarse interactive cues with semantic features, thereby suppressing interaction-irrelevant noise and emphasizing the learning of interactive relationships. The CoCo loss incorporates hand-object relationship constraints to enhance physical consistency in prediction. Our model achieves state-of-the-art performance on both the EgoHOS and the challenging out-of-distribution mini-HOI4D datasets, demonstrating its effectiveness and strong generalization ability. Code and models are publicly available at https://github.com/yuggiehk/InterFormer.
- Abstract(参考訳): エゴセントリックな人間と環境の相互作用のきめ細かい理解は、次世代のエンボディードエージェントの開発に不可欠である。
この領域における基本的な課題の1つは、手とアクティブなオブジェクトを正確に解析することである。
トランスフォーマーベースのアーキテクチャはそのようなタスクにかなりの可能性を示しているが、いくつかの重要な制限は未適応のままである。
1) 既存のクエリ初期化機構は,主にセマンティックキューや学習可能なパラメータに依存し,様々な入力シーンにまたがるアクティブオブジェクトの変更に限定的な適応性を示す。
2) 従来のトランスフォーマーベースの手法では,最終埋め込みにインタラクション非関連コンテンツを導入するマスク生成時に,画素レベルのセマンティックな特徴を反復的にクエリに利用していた。
3) 一般的なモデルは「相互作用錯覚」の影響を受けやすいため, 物理的に矛盾する予測が生じる。
これらの問題に対処するために、動的クエリジェネレータ(DQG)、デュアルコンテキスト特徴セレクタ(DFS)、条件付き共起損失(CoCo)という3つの重要なコンポーネントを統合したエンドツーエンドインタラクション対応トランスフォーマー(InterFormer)を提案する。
DQGは、手動物体接触の空間的ダイナミクスにクエリ初期化を明示的に定義し、手動オブジェクトや様々なアクティブオブジェクトに対する対話型クエリのターゲット生成を可能にする。
DFSは、粗い対話的手がかりと意味的特徴を融合し、相互作用に関係のないノイズを抑え、対話的関係の学習を強調する。
CoCo損失は、予測における物理的整合性を高めるために手動関係制約を含む。
提案モデルでは,EgoHOSの最先端性能と,その有効性と強力な一般化能力を実証し,分散化の課題であるミニHoI4Dデータセットを実現する。
コードとモデルはhttps://github.com/yuggiehk/InterFormer.comで公開されている。
関連論文リスト
- Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation [26.16137102387553]
テキスト駆動型3次元人-物体相互作用(HOI)運動生成の課題に対処する。
既存の方法は、主に直接テキスト・ツー・HoIマッピングに依存している。
4つの中核的な洞察に基づく新しいフレームワークMP-HOIを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:04:28Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - DQEN: Dual Query Enhancement Network for DETR-based HOI Detection [19.742290580421322]
人間と物体の相互作用(Human-Object Interaction, HOI)の検出は、人間と物体のペアをローカライズし、その相互作用を認識することに焦点を当てる。
DETRベースのHOIモデルでは、HOIを正確に検出するために明確な意味を持つクエリが不可欠である。
本稿では、オブジェクトおよびインタラクションクエリを強化するために、DQEN(Dual Query Enhancement Network)を提案する。
論文 参考訳(メタデータ) (2025-08-26T10:11:08Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Generating Fine Details of Entity Interactions [17.130839907951877]
本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。
本稿では,相互作用生成問題に対処する分解強化手法を提案する。
当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
論文 参考訳(メタデータ) (2025-04-11T17:24:58Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。