論文の概要: In-Video Instructions: Visual Signals as Generative Control
- arxiv url: http://arxiv.org/abs/2511.19401v1
- Date: Mon, 24 Nov 2025 18:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.369781
- Title: In-Video Instructions: Visual Signals as Generative Control
- Title(参考訳): 映像内命令:生成制御としての視覚信号
- Authors: Gongfan Fang, Xinyin Ma, Xinchao Wang,
- Abstract要約: フレーム内に埋め込まれた視覚信号を命令として解釈することにより、制御可能な画像・映像生成に機能を利用することができるかを検討する。
In-Video Instructionは、オーバーレイテキスト、矢印、軌跡などの要素を通じて、視覚領域に直接ユーザーガイダンスをエンコードする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータの実験では、ビデオモデルがそのような視覚的に埋め込まれた命令を確実に解釈し実行できることが示されている。
- 参考スコア(独自算出の注目度): 79.44662698914401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generative models have recently demonstrated strong visual capabilities, enabling the prediction of future frames that adhere to the logical and physical cues in the current observation. In this work, we investigate whether such capabilities can be harnessed for controllable image-to-video generation by interpreting visual signals embedded within the frames as instructions, a paradigm we term In-Video Instruction. In contrast to prompt-based control, which provides textual descriptions that are inherently global and coarse, In-Video Instruction encodes user guidance directly into the visual domain through elements such as overlaid text, arrows, or trajectories. This enables explicit, spatial-aware, and unambiguous correspondences between visual subjects and their intended actions by assigning distinct instructions to different objects. Extensive experiments on three state-of-the-art generators, including Veo 3.1, Kling 2.5, and Wan 2.2, show that video models can reliably interpret and execute such visually embedded instructions, particularly in complex multi-object scenarios.
- Abstract(参考訳): 大規模ビデオ生成モデルは、最近、強力な視覚能力を示し、現在の観察における論理的および物理的手がかりに固執する将来のフレームの予測を可能にした。
本研究では,フレーム内に埋め込まれた視覚信号をインストラクションとして解釈することで,制御可能な画像・映像生成にそのような機能を利用することができるかを検討する。
本質的にグローバルで粗いテキスト記述を提供するプロンプトベースの制御とは対照的に、In-Video Instructionでは、オーバーレイテキスト、矢印、トラジェクトリといった要素を通じて、ユーザガイダンスを直接視覚領域にエンコードする。
これにより、異なるオブジェクトに異なる命令を割り当てることにより、視覚的対象と意図した行動の間の明示的で空間的、曖昧な対応を可能にする。
Veo 3.1、Kling 2.5、Wan 2.2を含む最先端の3つのジェネレータに関する大規模な実験は、ビデオモデルが、特に複雑なマルチオブジェクトシナリオにおいて、そのような視覚的に埋め込まれた命令を確実に解釈し実行可能であることを示している。
関連論文リスト
- A Reason-then-Describe Instruction Interpreter for Controllable Video Generation [88.95178842901095]
本稿では,生の命令をダウンストリームビデオジェネレータの正確な動作可能な仕様に変換する汎用型モデル非依存インタプリタReaDeを提案する。
命令忠実度,キャプション精度,下流映像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2025-11-25T17:59:07Z) - Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs [0.0]
弱教師付きビデオ異常検出のための言語駆動フレームワークTbVAD(Text-based Explainable Video Anomaly Detection)を提案する。
TbVADは言語によるビデオセマンティクスを表現し、解釈可能な知識に基づく推論を可能にする。
我々は、UCF-CrimeとXD-Violenceの2つの公開ベンチマークでTbVADを評価し、テキスト知識推論が解釈可能で信頼性の高い異常検出を提供することを示した。
論文 参考訳(メタデータ) (2025-10-30T01:18:55Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。