論文の概要: Plan-X: Instruct Video Generation via Semantic Planning
- arxiv url: http://arxiv.org/abs/2511.17986v1
- Date: Sat, 22 Nov 2025 08:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.57043
- Title: Plan-X: Instruct Video Generation via Semantic Planning
- Title(参考訳): Plan-X:セマンティックプランニングによる映像生成の指導
- Authors: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro,
- Abstract要約: Plan-Xは、ビデオ生成プロセスを指示するための高レベルのセマンティックプランニングを明示的に実施するフレームワークである。
本フレームワークは視覚幻覚を著しく低減し,マルチモーダルコンテキストに整合した細粒度な命令整列映像生成を可能にする。
- 参考スコア(独自算出の注目度): 36.020841550221824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.
- Abstract(参考訳): 拡散変換器は視覚合成において顕著な能力を示してきたが、高レベルの意味論的推論と長期計画に苦慮することが多い。
この制限は、複雑なシーン理解、人間とオブジェクトの相互作用、多段階のアクション、コンテキスト内動作推論を含むシナリオにおいて、視覚的幻覚やユーザ指示の誤調整を頻繁に引き起こす。
これらの課題に対処するため,ビデオ生成プロセスの指示に高レベルなセマンティックプランニングを明示的に実施するフレームワークであるPlan-Xを提案する。
中心となるセマンティック・プランナー(Semantic Planner)は、テキストプロンプトと視覚的コンテキストの両方からユーザの意図を推論し、テキストグラウンドの時空間意味トークンのシーケンスを自動回帰的に生成する学習可能なマルチモーダル言語モデルである。
これらの意味トークンは、高レベルのテキストプロンプトガイダンスを補完するものであり、高忠実度視覚的詳細を合成する能力を持つビデオ拡散モデルにおいて、時間とともに構造化された「セマンティックスケッチ」として機能する。
Plan-Xは、マルチモーダルなインコンテキスト推論と計画における言語モデルの強みと、フォトリアリスティックビデオ合成における拡散モデルの強みを効果的に統合する。
広汎な実験により、我々のフレームワークは視覚幻覚を著しく低減し、マルチモーダルコンテキストに整合したきめ細かな命令整列ビデオ生成を可能にした。
関連論文リスト
- OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:15:26Z) - From Vision To Language through Graph of Events in Space and Time: An Explainable Self-supervised Approach [9.750622039291507]
自然言語でビデオコンテンツを記述するタスクは、一般にビデオキャプションと呼ばれる。
通常のビデオキャプションと異なり、短くて広く公開されているが、自然言語による長文の説明は少ない。
論文 参考訳(メタデータ) (2025-07-07T09:33:19Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation [38.96874874208242]
我々は,ハイレベルなスクリプト駆動の意図を低レベルな制御ポリシーでシームレスにブリッジするSIMSという新しい階層型フレームワークを導入する。
具体的には,Large Language Models with Retrieval-Augmented Generationを用いて,一貫性のある多種多様な長文スクリプトを生成する。
生成したスクリプトからテキストを埋め込み、スタイリスティックな手順をエンコードする多用途多条件物理ベースの制御ポリシーも開発されている。
論文 参考訳(メタデータ) (2024-11-29T18:36:15Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。