論文の概要: Foundation Model-Driven Framework for Human-Object Interaction Prediction with Segmentation Mask Integration
- arxiv url: http://arxiv.org/abs/2504.19847v1
- Date: Mon, 28 Apr 2025 14:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.475283
- Title: Foundation Model-Driven Framework for Human-Object Interaction Prediction with Segmentation Mask Integration
- Title(参考訳): セグメンテーションマスク統合による人間と物体の相互作用予測のための基礎モデル駆動フレームワーク
- Authors: Juhan Park, Kyungjae Lee, Hyung Jin Chang, Jungchan Cho,
- Abstract要約: 本稿では,セグメンテーションに基づく視覚基盤モデルとヒューマンオブジェクトインタラクションタスクを統合する新しいフレームワークを提案する。
提案手法は,標準三重項の予測だけでなく,四重項の導入によるHOI検出を促進する。
Seg2HOIは、ゼロショットシナリオであっても、最先端のメソッドに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.2289218341455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce Segmentation to Human-Object Interaction (\textit{\textbf{Seg2HOI}}) approach, a novel framework that integrates segmentation-based vision foundation models with the human-object interaction task, distinguished from traditional detection-based Human-Object Interaction (HOI) methods. Our approach enhances HOI detection by not only predicting the standard triplets but also introducing quadruplets, which extend HOI triplets by including segmentation masks for human-object pairs. More specifically, Seg2HOI inherits the properties of the vision foundation model (e.g., promptable and interactive mechanisms) and incorporates a decoder that applies these attributes to HOI task. Despite training only for HOI, without additional training mechanisms for these properties, the framework demonstrates that such features still operate efficiently. Extensive experiments on two public benchmark datasets demonstrate that Seg2HOI achieves performance comparable to state-of-the-art methods, even in zero-shot scenarios. Lastly, we propose that Seg2HOI can generate HOI quadruplets and interactive HOI segmentation from novel text and visual prompts that were not used during training, making it versatile for a wide range of applications by leveraging this flexibility.
- Abstract(参考訳): 本研究では,従来の検出に基づくヒューマン・オブジェクト・インタラクション(HOI)法と区別される,セグメント化に基づく視覚基盤モデルとヒューマン・オブジェクト・インタラクション・タスクを統合する新しいフレームワークであるセグメンテーション・トゥ・ヒューマン・オブジェクト・インタラクション(\textit{\textbf{Seg2HOI}})手法を紹介する。
提案手法は,標準三重項の予測だけでなく,人体対のセグメンテーションマスクを含めることで,HOI三重項を拡張する四重項の導入によってHOI検出を向上する。
より具体的には、Seg2HOIはビジョンファウンデーションモデル(例えば、プロンプト可能でインタラクティブなメカニズム)の特性を継承し、これらの属性をHOIタスクに適用するデコーダを組み込んでいる。
HOIでのみトレーニングを行うが、これらのプロパティのトレーニングメカニズムが追加されていないため、フレームワークはこれらの機能が依然として効率的に動作することを示す。
2つの公開ベンチマークデータセットに対する大規模な実験は、ゼロショットシナリオであっても、Seg2HOIが最先端のメソッドに匹敵するパフォーマンスを達成することを示した。
最後に、Seg2HOIは、トレーニング中に使われていない新しいテキストや視覚的プロンプトからHOI四重項と対話的なHOIセグメンテーションを生成することができ、この柔軟性を活用して幅広いアプリケーションに汎用性を持たせることができる。
関連論文リスト
- Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation [25.770855154106453]
本稿では,テキスト誘導型人-物体相互作用を生成するための効率的な共同対話モデル(EJIM)を提案する。
EJIMはDual-branch HOI Mambaを特徴としている。
EJIM は推定時間の 5% しか使用せず, 従来の作業よりも大きなマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-29T15:23:21Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。