論文の概要: Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation
- arxiv url: http://arxiv.org/abs/2503.23121v1
- Date: Sat, 29 Mar 2025 15:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:00.121902
- Title: Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation
- Title(参考訳): テキスト誘導型HOI生成のためのMambaを用いた高能率継手レベル相互作用モデリング
- Authors: Guohong Huang, Ling-An Zeng, Zexin Zheng, Shengbo Gu, Wei-Shi Zheng,
- Abstract要約: 本稿では,テキスト誘導型人-物体相互作用を生成するための効率的な共同対話モデル(EJIM)を提案する。
EJIMはDual-branch HOI Mambaを特徴としている。
EJIM は推定時間の 5% しか使用せず, 従来の作業よりも大きなマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 25.770855154106453
- License:
- Abstract: We propose a novel approach for generating text-guided human-object interactions (HOIs) that achieves explicit joint-level interaction modeling in a computationally efficient manner. Previous methods represent the entire human body as a single token, making it difficult to capture fine-grained joint-level interactions and resulting in unrealistic HOIs. However, treating each individual joint as a token would yield over twenty times more tokens, increasing computational overhead. To address these challenges, we introduce an Efficient Explicit Joint-level Interaction Model (EJIM). EJIM features a Dual-branch HOI Mamba that separately and efficiently models spatiotemporal HOI information, as well as a Dual-branch Condition Injector for integrating text semantics and object geometry into human and object motions. Furthermore, we design a Dynamic Interaction Block and a progressive masking mechanism to iteratively filter out irrelevant joints, ensuring accurate and nuanced interaction modeling. Extensive quantitative and qualitative evaluations on public datasets demonstrate that EJIM surpasses previous works by a large margin while using only 5\% of the inference time. Code is available \href{https://github.com/Huanggh531/EJIM}{here}.
- Abstract(参考訳): 本稿では,テキスト誘導型ヒューマンオブジェクトインタラクション(HOI)を生成する新しい手法を提案する。
それまでの方法は、人体全体を単一のトークンとして表現し、きめ細かい関節レベルの相互作用を捉えるのが難しく、非現実的なHOIをもたらす。
しかし、個々の関節をトークンとして扱うと、20倍以上のトークンが発生し、計算オーバーヘッドが増大する。
これらの課題に対処するために、効率的な統合レベル相互作用モデル(EJIM)を導入する。
EJIMは、時空間HOI情報を個別かつ効率的にモデル化するDual-branch HOI Mambaと、テキストセマンティクスとオブジェクトの幾何学を人間とオブジェクトの動きに統合するDual-branch Condition Injectorを備えている。
さらに,動的相互作用ブロックとプログレッシブマスク機構を設計し,無関係な関節を反復的にフィルタリングし,正確かつニュアンスな相互作用モデリングを実現する。
公開データセットに対する広範囲な量的および質的な評価は、EJIMが推論時間の55%しか使用せず、以前の作品よりも大きなマージンで上回っていることを示している。
コードは href{https://github.com/Huanggh531/EJIM}{here} で入手できる。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation [14.267849773487834]
マルチパーソンポーズ推定(MPPE)は、コンピュータビジョンにおいて非常に重要な課題である。
本稿では,Dual-path Hierarchical Relation Network (DHRNet) と呼ばれるCNNベースの新しい単一ステージ手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T09:41:03Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - Learning Mutual Excitation for Hand-to-Hand and Human-to-Human Interaction Recognition [21.007782102151282]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。