論文の概要: A Reason-then-Describe Instruction Interpreter for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2511.20563v1
- Date: Tue, 25 Nov 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.594787
- Title: A Reason-then-Describe Instruction Interpreter for Controllable Video Generation
- Title(参考訳): 制御可能な映像生成のための推論記述型インストラクション・インタープリタ
- Authors: Shengqiong Wu, Weicai Ye, Yuanxing Zhang, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Kun Gai, Hao Fei, Tat-Seng Chua,
- Abstract要約: 本稿では,生の命令をダウンストリームビデオジェネレータの正確な動作可能な仕様に変換する汎用型モデル非依存インタプリタReaDeを提案する。
命令忠実度,キャプション精度,下流映像品質が一貫した向上を示した。
- 参考スコア(独自算出の注目度): 88.95178842901095
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion Transformers have significantly improved video fidelity and temporal coherence, however, practical controllability remains limited. Concise, ambiguous, and compositionally complex user inputs contrast with the detailed prompts used in training, yielding an intent-output mismatch. We propose ReaDe, a universal, model-agnostic interpreter that converts raw instructions into precise, actionable specifications for downstream video generators. ReaDe follows a reason-then-describe paradigm: it first analyzes the user request to identify core requirements and resolve ambiguities, then produces detailed guidance that enables faithful, controllable generation. We train ReaDe via a two-stage optimization: (i) reasoning-augmented supervision imparts analytic parsing with stepwise traces and dense captions, and (ii) a multi-dimensional reward assigner enables stable, feedback-driven refinement for natural-style captions. Experiments across single- and multi-condition scenarios show consistent gains in instruction fidelity, caption accuracy, and downstream video quality, with strong generalization to reasoning-intensive and unseen inputs. ReaDe offers a practical route to aligning controllable video generation with accurately interpreted user intent. Project Page: https://sqwu.top/ReaDe/.
- Abstract(参考訳): 拡散変換器は映像の忠実度と時間的コヒーレンスを大幅に向上させたが、実用的制御性は依然として限られている。
簡潔で曖昧で構成的に複雑なユーザ入力は、トレーニングで使用する詳細なプロンプトとは対照的であり、インテントアウトプットミスマッチをもたらす。
本稿では,生の命令をダウンストリームビデオジェネレータの正確な動作可能な仕様に変換する汎用型モデル非依存インタプリタReaDeを提案する。
ReaDeはまず、コア要件を特定し、あいまいさを解決するためのユーザ要求を分析し、その後、忠実でコントロール可能な生成を可能にする詳細なガイダンスを生成する。
2段階の最適化を通じてReaDeをトレーニングします。
一 理由づけ強化監督は、段階的トレース及び密接なキャプションによる分析解析を付与し、
(二)多次元報酬割当器は、自然形キャプションに対して安定かつフィードバック駆動の洗練を可能にする。
単条件および複数条件シナリオにおける実験は、推論集約的な入力や見当たらない入力への強い一般化により、命令の忠実度、キャプション精度、下流ビデオ品質が一貫した向上を示した。
ReaDeは、制御可能なビデオ生成を正確に解釈されたユーザー意図と整合させる実用的な方法を提供する。
Project Page: https://sqwu.top/ReaDe/.com
関連論文リスト
- In-Video Instructions: Visual Signals as Generative Control [79.44662698914401]
フレーム内に埋め込まれた視覚信号を命令として解釈することにより、制御可能な画像・映像生成に機能を利用することができるかを検討する。
In-Video Instructionは、オーバーレイテキスト、矢印、軌跡などの要素を通じて、視覚領域に直接ユーザーガイダンスをエンコードする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータの実験では、ビデオモデルがそのような視覚的に埋め込まれた命令を確実に解釈し実行できることが示されている。
論文 参考訳(メタデータ) (2025-11-24T18:38:45Z) - Self-Attention Decomposition For Training Free Diffusion Editing [18.8152476816527]
制御可能性への重要なステップは、モデルの潜在表現における解釈可能な方向を特定することである。
本研究では,拡散モデルの事前学習パラメータから直接意味的編集方向を導出する解析手法を提案する。
論文 参考訳(メタデータ) (2025-10-26T12:22:56Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。