論文の概要: What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset
- arxiv url: http://arxiv.org/abs/2508.09428v1
- Date: Wed, 13 Aug 2025 02:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.726746
- Title: What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset
- Title(参考訳): What-Meets-Where: 新しいデータセットにおける行動と接触位置の統一学習
- Authors: Yuxiao Wang, Yu Lei, Wolin Liang, Weiying Xue, Zhenao Wei, Nan Zhuang, Qi Liu,
- Abstract要約: 本稿では,高レベルのアクションセマンティクスと微粒な身体部分接触領域を同時に予測する新しい視覚タスクを提案する。
本稿では,654のアクション,80のオブジェクトカテゴリ,17の身体部分を含む13,979のイメージを含む包括的データセットであるPaIR(Part-Aware Interaction Representation)を紹介する。
- 参考スコア(独自算出の注目度): 6.6946566008924036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People control their bodies to establish contact with the environment. To comprehensively understand actions across diverse visual contexts, it is essential to simultaneously consider \textbf{what} action is occurring and \textbf{where} it is happening. Current methodologies, however, often inadequately capture this duality, typically failing to jointly model both action semantics and their spatial contextualization within scenes. To bridge this gap, we introduce a novel vision task that simultaneously predicts high-level action semantics and fine-grained body-part contact regions. Our proposed framework, PaIR-Net, comprises three key components: the Contact Prior Aware Module (CPAM) for identifying contact-relevant body parts, the Prior-Guided Concat Segmenter (PGCS) for pixel-wise contact segmentation, and the Interaction Inference Module (IIM) responsible for integrating global interaction relationships. To facilitate this task, we present PaIR (Part-aware Interaction Representation), a comprehensive dataset containing 13,979 images that encompass 654 actions, 80 object categories, and 17 body parts. Experimental evaluation demonstrates that PaIR-Net significantly outperforms baseline approaches, while ablation studies confirm the efficacy of each architectural component. The code and dataset will be released upon publication.
- Abstract(参考訳): 人々は環境との接触を確立するために体を制御します。
多様な視覚的コンテキストにわたるアクションを包括的に理解するためには、同時に \textbf{what}アクションが発生し、 \textbf{where}アクションが起こっていることを考慮する必要がある。
しかしながら、現在の方法論はしばしばこの双対性を不十分に捉え、通常、アクションセマンティクスとシーン内の空間的文脈化の両方を共同でモデル化することができない。
このギャップを埋めるために、高レベルのアクションセマンティクスと微粒な身体部分接触領域を同時に予測する新しい視覚タスクを導入する。
提案するフレームワークであるPaIR-Netは,接触関連部位を識別するCPAM (Contact Prior Aware Module) と,画素単位の接触セグメンテーションを行うPGCS (Predor-Guided Concat Segmenter) と,グローバルな相互作用関係を統合するためのInteraction Inference Module (IIM) の3つの重要なコンポーネントから構成される。
この作業を容易にするために,654のアクション,80のオブジェクトカテゴリ,17の身体部分を含む13,979のイメージを含む包括的データセットであるPaIR(Part-Aware Interaction Representation)を提案する。
実験により,PaIR-Netはベースラインアプローチを著しく上回り,アブレーション研究により各アーキテクチャコンポーネントの有効性が確認された。
コードとデータセットは公開時に公開される。
関連論文リスト
- Towards Open-World Human Action Segmentation Using Graph Convolutional Networks [6.167678490008973]
既存の学習ベースの手法は、クローズドワールドアクションセグメンテーションに優れている。
本研究では,目に見えない動作を検出し,セグメンテーションするための構造化フレームワークを提案する。
我々は,2つの挑戦的対象認識データセットについて,その枠組みを評価する。
論文 参考訳(メタデータ) (2025-07-01T14:00:39Z) - InterRVOS: Interaction-aware Referring Video Object Segmentation [37.53744746544299]
ビデオオブジェクトのセグメンテーションの参照は、与えられた自然言語表現に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。
包括的なビデオ理解では、オブジェクトの役割は、他のエンティティとの相互作用によって定義されることが多い。
本稿では,対話に係わるアクターと対象エンティティのセグメンテーションを必要とする新しいタスクである,ビデオオブジェクトの参照を参照することを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:16:13Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。