論文の概要: OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
- arxiv url: http://arxiv.org/abs/2604.11804v2
- Date: Fri, 17 Apr 2026 08:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.292375
- Title: OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
- Title(参考訳): OmniShow:人間と物体のインタラクションビデオ生成のためのマルチモーダル条件の統合
- Authors: Donghao Zhou, Guisheng Liu, Hao Yang, Jiatong Li, Jingyu Lin, Xiaohu Huang, Yichen Liu, Xin Gao, Cunjian Chen, Shilei Wen, Chi-Wing Fu, Pheng-Ann Heng,
- Abstract要約: ヒューマンオブジェクトインタラクションビデオ生成(Human-Object Interaction Video Generation、HOIVG)は、テキスト、参照画像、オーディオ、ポーズで条件付けられた高品質なヒューマンオブジェクトインタラクションビデオを合成することを目的としている。
我々は、この実用的で挑戦的なタスクに適したエンドツーエンドフレームワークであるOmniShowを紹介します。
- 参考スコア(独自算出の注目度): 75.70865997182294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.
- Abstract(参考訳): 本研究では,テキスト,参照画像,音声,ポーズを条件とした高品質なヒューマンオブジェクトインタラクションビデオの合成を目的とした,Human-Object Interaction Video Generation(HOIVG)について検討する。
このタスクは、eコマースのデモンストレーション、ショートビデオ制作、インタラクティブエンターテイメントなど、現実世界のアプリケーションにおけるコンテンツ作成を自動化するための重要な実践的価値を持っている。
しかし、既存のアプローチはこれらの条件をすべて満たさない。
OmniShowは,マルチモーダル条件を調和させ,業界レベルのパフォーマンスを実現することができる,実用的かつ困難なタスクに適したエンドツーエンドフレームワークである。
制御性と品質のトレードオフを克服するため,効率的な画像とポーズの注入を行うUnified Channel-wise Conditioningと,正確な音声と視覚の同期を保証するためのGated Local-Context Attentionを導入する。
データ不足を効果的に解決するために、モデルマージによる多段階トレーニングプロセスを活用し、異種サブタスクデータセットを効率的に活用するDecoupled-Then-Joint Training戦略を開発した。
さらに, この分野での評価ギャップを埋めるため, HOIVG 専用の総合ベンチマーク HOIVG-Bench を構築した。
大規模な実験により、OmniShowは様々なマルチモーダル条件設定にまたがって総合的な最先端性能を実現し、新しいHOIVGタスクの標準となることが実証された。
関連論文リスト
- Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation [83.75249714794977]
我々は、スケーラブルで統一されたオーディオ視覚シーン理解モデルであるCrab$+$を提示する。
データ側では、AV-UIE v2(Audio-Visual Unified Instruction-tuning データセット)を導入します。
モデル側では、異種タスクの定式化を整合させる統一インターフェースを設計する。
タスクの88%近くにおいて、マルチタスク学習がシングルタスクベースラインを超えた場合、負の転送傾向を逆転させ、正の転送を実現した。
論文 参考訳(メタデータ) (2026-03-04T14:43:57Z) - Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - HI-TransPA: Hearing Impairments Translation Personal Assistant [23.33416647487016]
我々は,Omni-Modelパラダイムを補助技術に導入し,インストラクション駆動型音声視覚パーソナルアシスタントHI-TransPAを提案する。
このモデルは、不明瞭な音声を唇のダイナミックスと融合させ、単一のマルチモーダル・フレームワーク内での翻訳と対話を可能にする。
HI-Dialogueデータセットを用いた実験により、HI-TransPAは精度とセマンティック忠実度の両方で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-11-13T03:27:39Z) - HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning [33.868900473146496]
本稿では,協調型マルチモーダル制御のためのフレームワークであるHuMoを紹介する。
HuMoはサブタスクにおける専門的な最先端メソッドを超越している。
論文 参考訳(メタデータ) (2025-09-10T11:54:29Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。