論文の概要: In-Video Instructions: Visual Signals as Generative Control
- arxiv url: http://arxiv.org/abs/2511.19401v1
- Date: Mon, 24 Nov 2025 18:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.369781
- Title: In-Video Instructions: Visual Signals as Generative Control
- Title(参考訳): 映像内命令:生成制御としての視覚信号
- Authors: Gongfan Fang, Xinyin Ma, Xinchao Wang,
- Abstract要約: フレーム内に埋め込まれた視覚信号を命令として解釈することにより、制御可能な画像・映像生成に機能を利用することができるかを検討する。
In-Video Instructionは、オーバーレイテキスト、矢印、軌跡などの要素を通じて、視覚領域に直接ユーザーガイダンスをエンコードする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータの実験では、ビデオモデルがそのような視覚的に埋め込まれた命令を確実に解釈し実行できることが示されている。
- 参考スコア(独自算出の注目度): 79.44662698914401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
- Abstract(参考訳): 大規模ビデオ生成モデルは、最近、強力な視覚能力を示し、現在の観察における論理的および物理的手がかりに固執する将来のフレームの予測を可能にした。
本研究では,フレーム内に埋め込まれた視覚信号をインストラクションとして解釈することで,制御可能な画像・映像生成にそのような機能を利用することができるかを検討する。
本質的にグローバルで粗いテキスト記述を提供するプロンプトベースの制御とは対照的に、In-Video Instructionでは、オーバーレイテキスト、矢印、トラジェクトリといった要素を通じて、ユーザガイダンスを直接視覚領域にエンコードする。
これにより、異なるオブジェクトに異なる命令を割り当てることにより、視覚的対象と意図した行動の間の明示的で空間的、曖昧な対応を可能にする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータに関する大規模な実験は、ビデオモデルが、特に複雑なマルチオブジェクトシナリオにおいて、そのような視覚的に埋め込まれた命令を確実に解釈し実行可能であることを示している。
関連論文リスト
- Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。