論文の概要: What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing
- arxiv url: http://arxiv.org/abs/2605.20795v1
- Date: Wed, 20 May 2026 06:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.531735
- Title: What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing
- Title(参考訳): ビデオ編集におけるVLM-to-DiTアライメントの診断
- Authors: Hangyu Lin, Chao Wen, Chengming Xu, Jianxiong Gao, Jiangning Zhang, Xiaobin Hu, Yanwei Fu,
- Abstract要約: フローマッチングに基づくビデオ生成モデルは、複雑な命令ベースのビデオ編集を扱うために、事前のビジョンランゲージモデルに依存している。
一般的な仮定は、コネクタモジュールがVLMのリッチなマルチモーダル推論を、元のテキスト埋め込み空間であるDiTとシームレスに一致させることができるということである。
本稿では,関係に基づく編集に焦点を当てた診断データセットであるTRACE-Editをビデオ合成に基づく制御データ処理パイプラインとして提案する。
- 参考スコア(独自算出の注目度): 59.40855219373921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching based video generative models have been increasingly relying on prepended Vision-Language Models (VLMs) to handle complex, instruction-based video editing. The prevailing assumption underlying this paradigm is that a connector module can seamlessly align the VLM's rich multi-modal reasoning with the original text embedding space of DiTs. However, we hypothesize that this alignment acts as a severe semantic bottleneck, degrading fine-grained structural variables. Verifying this is challenging, as end-to-end evaluations conflate alignment failures with generation errors, and natural datasets lack disentangled annotations. To rigorously investigate this, we propose a controlled data processing pipeline based on video composition that results in TRACE-Edit, a diagnostic dataset focusing on relation-based editing. Leveraging this dataset, we propose a comprehensive diagnostic protocol to analyze two important designs of meta-query and connector in the existing video editing models. Systematic evaluation of four representative model cases reveals that fine-grained structural semantics can be severely degraded during alignment. Our findings overturn the assumption of lossless semantic transfer, identifying the VLM-to-DiT alignment as a major bottleneck and providing a new diagnostic foundation for future multi-modal alignment architectures.
- Abstract(参考訳): フローマッチングに基づくビデオ生成モデルは、複雑な命令ベースのビデオ編集を扱うために、事前のビジョンランゲージモデル(VLM)にますます依存している。
このパラダイムの根底にある最も一般的な前提は、コネクタモジュールがVLMのリッチなマルチモーダル推論をDiTのオリジナルのテキスト埋め込み空間とシームレスに整列できるということである。
しかし、このアライメントは深刻なセマンティック・ボトルネックとして機能し、きめ細かい構造変数を劣化させるという仮説を立てる。
エンドツーエンドの評価では、アライメントの失敗を生成エラーと説明し、自然なデータセットには制約のないアノテーションがないため、この検証は難しい。
そこで本研究では,ビデオ合成に基づくデータ処理パイプラインを提案し,関係ベースの編集に焦点を当てた診断データセットであるTRACE-Editを提案する。
このデータセットを活用することで、既存のビデオ編集モデルにおいてメタクエリとコネクタの2つの重要な設計を解析するための包括的診断プロトコルを提案する。
4つの代表的なモデル事例の体系的評価により, 微粒な構造的意味論はアライメント中に著しく劣化する可能性が示唆された。
VLM-to-DiTアライメントを主要なボトルネックとして認識し、将来のマルチモーダルアライメントアーキテクチャの新たな診断基盤を提供するという、ロスレスセマンティックトランスファーの仮定を覆した。
関連論文リスト
- Sparse Visual Thought Circuits in Vision-Language Models [2.5754366051855837]
我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
論文 参考訳(メタデータ) (2026-03-26T06:24:36Z) - SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。
まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。
第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models [23.37951284612929]
動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30K以上のインスタンスのデータセットを構築します。
ViRectifyでは、MLLMに対してステップワイドな誤り識別を行い、重要なビデオ証拠を根拠とした合理性を生成する。
また,視覚的エビデンスに基づく補正手法として,段階的誤り軌道と報酬モデルを組み合わせた軌道証拠駆動補正手法を提案する。
論文 参考訳(メタデータ) (2025-12-01T09:05:02Z) - CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [62.929029990341796]
実世界のビデオは、ノイズ、圧縮アーティファクト、低照度歪みなどの複雑な劣化に悩まされることが多い。
3つの協調エージェントによる人間のプロの推論・処理手順を模倣したMoA-VRを提案する。
具体的には、大規模かつ高解像度なビデオ劣化認識ベンチマークを構築し、視覚言語モデル(VLM)による劣化識別子を構築する。
論文 参考訳(メタデータ) (2025-10-09T17:42:51Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。