論文の概要: F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
- arxiv url: http://arxiv.org/abs/2407.12435v1
- Date: Wed, 17 Jul 2024 09:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 17:47:48.117317
- Title: F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions
- Title(参考訳): F-HOI:きめ細かいセマンティックな3次元オブジェクトインタラクションを目指して
- Authors: Jie Yang, Xuesong Niu, Nan Jiang, Ruimao Zhang, Siyuan Huang,
- Abstract要約: 既存の3Dヒューマンオブジェクトインタラクション(HOI)データセットとモデルは、グローバルな記述と長いHOIシーケンスを単純に一致させる。
状態レベルの記述を利用した細粒度セマンティックアライメントは,意味的に豊かなHOI表現を学習する上で有望なパラダイムである,と我々は主張する。
- 参考スコア(独自算出の注目度): 42.10935504617501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D human object interaction (HOI) datasets and models simply align global descriptions with the long HOI sequence, while lacking a detailed understanding of intermediate states and the transitions between states. In this paper, we argue that fine-grained semantic alignment, which utilizes state-level descriptions, offers a promising paradigm for learning semantically rich HOI representations. To achieve this, we introduce Semantic-HOI, a new dataset comprising over 20K paired HOI states with fine-grained descriptions for each HOI state and the body movements that happen between two consecutive states. Leveraging the proposed dataset, we design three state-level HOI tasks to accomplish fine-grained semantic alignment within the HOI sequence. Additionally, we propose a unified model called F-HOI, designed to leverage multimodal instructions and empower the Multi-modal Large Language Model to efficiently handle diverse HOI tasks. F-HOI offers multiple advantages: (1) It employs a unified task formulation that supports the use of versatile multimodal inputs. (2) It maintains consistency in HOI across 2D, 3D, and linguistic spaces. (3) It utilizes fine-grained textual supervision for direct optimization, avoiding intricate modeling of HOI states. Extensive experiments reveal that F-HOI effectively aligns HOI states with fine-grained semantic descriptions, adeptly tackling understanding, reasoning, generation, and reconstruction tasks.
- Abstract(参考訳): 既存の3Dヒューマンオブジェクトインタラクション(HOI)データセットとモデルは、中間状態と状態間の遷移の詳細な理解を欠きながら、グローバルな記述と長いHOIシーケンスを単純に一致させる。
本稿では,状態レベルの記述を利用した細粒度セマンティックアライメントが,意味的にリッチなHOI表現を学習する上で有望なパラダイムとなることを論じる。
そこで本研究では,20万組以上のHOI状態からなるセマンティックHOIについて,各HOI状態と2つの連続状態の間に生じる身体運動について詳細な記述を行った。
提案したデータセットを活用することで、HOIシーケンス内の細かなセマンティックアライメントを実現するために、3つの状態レベルHOIタスクを設計する。
さらに、F-HOIと呼ばれる統合モデルを提案し、マルチモーダル命令を活用し、多モーダル大規模言語モデルにより多様なHOIタスクを効率的に処理できるようにする。
F-HOIは、(1)多目的マルチモーダル入力の使用をサポートする統一されたタスク定式化を採用する。
2) 2D, 3D, 言語空間におけるHOIの整合性を維持する。
(3) HOI状態の複雑なモデリングを回避し, 微粒なテキスト管理を直接最適化に活用する。
大規模な実験により、F-HOIはHOI状態と細粒度のセマンティック記述を効果的に整合させ、理解、推論、生成、再構築のタスクに順応することが明らかとなった。
関連論文リスト
- SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model [46.773958062464004]
3D割当セグメンテーションは、人間の指示を3Dオブジェクトのタッチ可能な領域にリンクして、操作を具体化することを目的としている。
既存の取り組みは、通常、単目的、単順のパラダイムに固執する。
本稿では,複雑なユーザ意図から推論することで従来のパラダイムを拡張したSequential 3D Affordance Reasoningタスクを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:37:57Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - Learning Point-Language Hierarchical Alignment for 3D Visual Grounding [35.17185775314988]
本稿では,多粒度視覚表現と言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。
我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,コンテキスト変調によるポイント言語アライメントを提案する。
グローバルな関係と局所的な関係を更に捉えるために,空間的に多重なモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-22T18:02:10Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。