論文の概要: InstanceV: Instance-Level Video Generation
- arxiv url: http://arxiv.org/abs/2511.23146v1
- Date: Fri, 28 Nov 2025 12:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.895117
- Title: InstanceV: Instance-Level Video Generation
- Title(参考訳): InstanceV: インスタンスレベルのビデオ生成
- Authors: Yuheng Chen, Teng Hu, Jiangning Zhang, Zhucun Xue, Ran Yi, Lizhuang Ma,
- Abstract要約: i) インスタンスレベルの制御とi) グローバルなセマンティック一貫性を実現するためのビデオ生成フレームワークであるInstanceVを提案する。
ローカルインスタンスとグローバルなセマンティクスを接続する共有時間ステップ適応型プロンプト拡張モジュールを導入する。
最後に、一般的なビデオ品質指標とインスタンス対応指標を組み合わせた、InstanceBenchという新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 97.01147000740417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video diffusion models have enabled the generation of high-quality videos conditioned on textual descriptions. However, most existing text-to-video models rely solely on textual conditions, lacking general fine-grained controllability over video generation. To address this challenge, we propose InstanceV, a video generation framework that enables i) instance-level control and ii) global semantic consistency. Specifically, with the aid of proposed Instance-aware Masked Cross-Attention mechanism, InstanceV maximizes the utilization of additional instance-level grounding information to generate correctly attributed instances at designated spatial locations. To improve overall consistency, We introduce the Shared Timestep-Adaptive Prompt Enhancement module, which connects local instances with global semantics in a parameter-efficient manner. Furthermore, we incorporate Spatially-Aware Unconditional Guidance during both training and inference to alleviate the disappearance of small instances. Finally, we propose a new benchmark, named InstanceBench, which combines general video quality metrics with instance-aware metrics for more comprehensive evaluation on instance-level video generation. Extensive experiments demonstrate that InstanceV not only achieves remarkable instance-level controllability in video generation, but also outperforms existing state-of-the-art models in both general quality and instance-aware metrics across qualitative and quantitative evaluations.
- Abstract(参考訳): 近年,テキスト・ビデオ拡散モデルの進歩により,テキスト記述に基づく高品質なビデオ生成が可能になった。
しかし、既存のテキスト・ツー・ビデオモデルの多くはテキスト・コンディションにのみ依存しており、ビデオ・ジェネレーションに対する微粒な制御性が欠如している。
この課題に対処するために、我々は、ビデオ生成フレームワークであるInstanceVを提案する。
一 インスタンスレベルの制御及び制御
ii)グローバルな意味整合性。
具体的には、提案されたインスタンス対応マスケッドクロスアテンション機構により、インスタンスレベルの新たなグラウンド情報の利用を最大化して、指定された空間位置で正しく属性付けられたインスタンスを生成する。
全体の整合性を改善するために、パラメータ効率のよい方法でローカルインスタンスとグローバルなセマンティクスを接続するShared Timestep-Adaptive Prompt Enhancementモジュールを導入する。
さらに,小インスタンスの消失を緩和するために,訓練と推論の間に空間的無条件誘導を取り入れた。
最後に、インスタンスレベルのビデオ生成に関するより包括的な評価のために、一般的なビデオ品質指標とインスタンス認識指標を組み合わせた、InstanceBenchという新しいベンチマークを提案する。
大規模な実験では、インスタンスVはビデオ生成において顕著なインスタンスレベルの制御性を達成するだけでなく、定性的および定量的評価の両面で、一般的な品質とインスタンス認識のメトリクスの両方において、既存の最先端モデルを上回っている。
関連論文リスト
- BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Improving Generalized Visual Grounding with Instance-aware Joint Learning [45.53531162436934]
汎用的なビジュアルグラウンドタスクは、マルチターゲットおよび非ターゲットシナリオに対応するように設計されている。
本稿では,GRECとGRESの両方に対応するインスタンス認識機能を備えたフレームワークであるInstanceVGを提案する。
フレームワークをインスタンス化するために、各インスタンスクエリに事前参照ポイントを割り当てます。
論文 参考訳(メタデータ) (2025-09-17T07:00:51Z) - IPFormer-VideoLLM: Enhancing Multi-modal Video Understanding for Multi-shot Scenes [20.662082715151886]
我々はマルチクリップ・ベンチと呼ばれる新しいデータセットを導入し、マルチショットシナリオに適した濃密な記述と命令ベースの質問応答ペアを特徴付ける。
インスタンスレベルの機能をインスタンスレベルで注入する新たなモデルIPFormer-VideoLLMを、効率的な注意ベースのコネクタを通じて提供します。
論文 参考訳(メタデータ) (2025-06-26T09:30:57Z) - InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption [40.07877801495546]
トレーニングは、生成性能を高める上で重要な役割を果たすビデオキャプチャペアデータに依存している。
現在のビデオキャプションは、不十分な詳細、幻覚、不正確な動きの描写に悩まされることが多い。
本稿では,インスタンスレベルのきめ細かな動画キャプションを実現するために,新しいインスタンス対応構造化キャプションフレームワークであるインスタンスCapを提案する。
論文 参考訳(メタデータ) (2024-12-12T13:48:40Z) - CAVIS: Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
この情報を効率的に抽出し活用するために、コンテキスト認識型インスタンス追跡器(CAIT)を提案する。
フレーム間のオブジェクトレベルの特徴の整合性を確保するため,プロトタイプ型クロスフレームコントラスト(PCC)損失を設計する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。