論文の概要: ViHOI: Human-Object Interaction Synthesis with Visual Priors
- arxiv url: http://arxiv.org/abs/2603.24383v1
- Date: Wed, 25 Mar 2026 15:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.347762
- Title: ViHOI: Human-Object Interaction Synthesis with Visual Priors
- Title(参考訳): ViHOI:ビジュアルプリミティブを用いた人間と物体のインタラクション合成
- Authors: Songjin Cai, Linjie Zhong, Ling Guo, Changxing Ding,
- Abstract要約: ViHOIは拡散に基づく生成モデルで、2D画像からリッチでタスク固有の先行情報を活用できる新しいフレームワークである。
我々のフレームワークは、視覚入力とモーションシーケンスの厳密なセマンティックアライメントを確保するために、データセットからのモーションレンダリング画像に基づいて訓練されている。
- 参考スコア(独自算出の注目度): 21.133510317025635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic and physically plausible 3D Human-Object Interactions (HOI) remains a key challenge in motion generation. One primary reason is that describing these physical constraints with words alone is difficult. To address this limitation, we propose a new paradigm: extracting rich interaction priors from easily accessible 2D images. Specifically, we introduce ViHOI, a novel framework that enables diffusion-based generative models to leverage rich, task-specific priors from 2D images to enhance generation quality. We utilize a large Vision-Language Model (VLM) as a powerful prior-extraction engine and adopt a layer-decoupled strategy to obtain visual and textual priors. Concurrently, we design a Q-Former-based adapter that compresses the VLM's high-dimensional features into compact prior tokens, which significantly facilitates the conditional training of our diffusion model. Our framework is trained on motion-rendered images from the dataset to ensure strict semantic alignment between visual inputs and motion sequences. During inference, it leverages reference images synthesized by a text-to-image generation model to improve generalization to unseen objects and interaction categories. Experimental results demonstrate that ViHOI achieves state-of-the-art performance, outperforming existing methods across multiple benchmarks and demonstrating superior generalization.
- Abstract(参考訳): 現実的で物理的に妥当な3Dオブジェクトインタラクション(HOI)の生成は、モーションジェネレーションにおいて重要な課題である。
第一の理由は、これらの物理的制約を単語だけで記述することが困難であるからである。
この制限に対処するために,アクセスしやすい2次元画像からリッチなインタラクション先を抽出する,新しいパラダイムを提案する。
具体的には,2次元画像からリッチでタスク固有の先行情報を活用して生成品質を向上させる,拡散型生成モデルを実現する新しいフレームワークであるViHOIを紹介する。
我々は,VLM(Varge-Language Model)を強力な事前抽出エンジンとして利用し,レイヤ分離戦略を用いて視覚的およびテキスト的事前抽出を行う。
同時に,VLMの高次元特徴をコンパクトな先行トークンに圧縮するQ-Formerベースのアダプタを設計する。
我々のフレームワークは、視覚入力とモーションシーケンスの厳密なセマンティックアライメントを確保するために、データセットからのモーションレンダリング画像に基づいて訓練されている。
推論の際には、テキスト・ツー・イメージ生成モデルによって合成された参照画像を活用し、見えないオブジェクトや相互作用カテゴリへの一般化を改善する。
実験の結果,ViHOIは最先端の性能を達成し,既存の手法を複数のベンチマークで上回り,より優れた一般化を実現していることがわかった。
関連論文リスト
- MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [83.12400850233034]
人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。
マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。
本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-16T00:43:38Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。