論文の概要: DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary
- arxiv url: http://arxiv.org/abs/2603.09883v1
- Date: Tue, 10 Mar 2026 16:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.460318
- Title: DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary
- Title(参考訳): 表示:スパース動作誘導とマルチタスク補助による人間と物体の対話ビデオ生成
- Authors: Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang,
- Abstract要約: 本稿では,手首関節座標と形状に依存しない物体境界ボックスのみで構成された,スパース・モーション・ガイダンス(Sparse Motion Guidance)によってガイドされたディスプレーというフレームワークを紹介する。
このようなスパース条件下での忠実性を高めるため,オブジェクトの頑健性を改善するためのオブジェクトストレッシド・アテンション機構を提案する。
総合実験により,本手法は多種多様なタスクにまたがる高忠実かつ制御可能なHOI生成を実現することを示す。
- 参考スコア(独自算出の注目度): 39.424315433300116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-centric video generation has advanced rapidly, yet existing methods struggle to produce controllable and physically consistent Human-Object Interaction (HOI) videos. Existing works rely on dense control signals, template videos, or carefully crafted text prompts, which limit flexibility and generalization to novel objects. We introduce a framework, namely DISPLAY, guided by Sparse Motion Guidance, composed only of wrist joint coordinates and a shape-agnostic object bounding box. This lightweight guidance alleviates the imbalance between human and object representations and enables intuitive user control. To enhance fidelity under such sparse conditions, we propose an Object-Stressed Attention mechanism that improves object robustness. To address the scarcity of high-quality HOI data, we further develop a Multi-Task Auxiliary Training strategy with a dedicated data curation pipeline, allowing the model to benefit from both reliable HOI samples and auxiliary tasks. Comprehensive experiments show that our method achieves high-fidelity, controllable HOI generation across diverse tasks. The project page can be found at \href{https://mumuwei.github.io/DISPLAY/}.
- Abstract(参考訳): 人間中心のビデオ生成は急速に進歩しているが、既存の方法は制御可能で物理的に一貫した人間オブジェクトインタラクション(HOI)ビデオを作成するのに苦労している。
既存の作品は、厳密な制御信号、テンプレートビデオ、あるいは慎重に作られたテキストプロンプトに依存しており、柔軟性と新しいオブジェクトへの一般化を制限している。
本稿では,手首関節座標と形状に依存しない物体境界ボックスのみで構成された,スパース・モーション・ガイダンス(Sparse Motion Guidance)によってガイドされたディスプレーというフレームワークを紹介する。
この軽量なガイダンスは、人間とオブジェクト表現の不均衡を軽減し、直感的なユーザ制御を可能にする。
このようなスパース条件下での忠実性を高めるため,オブジェクトの頑健性を改善するためのオブジェクトストレッシド・アテンション機構を提案する。
高品質なHOIデータの不足に対処するため,専用データキュレーションパイプラインを用いたマルチタスク補助訓練戦略をさらに発展させ,信頼性の高いHOIサンプルと補助タスクの両方をモデルとして活用する。
総合実験により,本手法は多種多様なタスクにまたがる高忠実かつ制御可能なHOI生成を実現することを示す。
プロジェクトのページは \href{https://mumuwei.github.io/DISPLAY/} にある。
関連論文リスト
- ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning [19.292101162897975]
本稿では,幾何的に一貫したオブジェクト図面を持つ実写HOIビデオを生成するByteLoomを紹介する。
まず、相対座標マップ(RCM)をオブジェクトの幾何整合性を維持する普遍表現として活用するRCM-cache機構を提案する。
次に、モデル能力を進歩的なスタイルで向上し、ハンドメッシュの需要を緩和するトレーニングカリキュラムを設計する。
論文 参考訳(メタデータ) (2025-12-28T09:38:36Z) - VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。