論文の概要: V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping
- arxiv url: http://arxiv.org/abs/2512.12375v1
- Date: Sat, 13 Dec 2025 16:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.23723
- Title: V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping
- Title(参考訳): V-Warper:バリューワープによる出現に一貫性のあるビデオ拡散パーソナライゼーション
- Authors: Hyunkoo Lee, Wooseok Jang, Jini Yang, Taehwan Kim, Sangoh Kim, Sangwon Jung, Seungryong Kim,
- Abstract要約: V-Warperは、トランスフォーマーベースのビデオ拡散モデルのためのトレーニング不要な粗いパーソナライズフレームワークである。
追加のビデオトレーニングを必要とせずに、きめ細かいアイデンティティの忠実度を高める。
即時アライメントと動きのダイナミクスを保ちながら、外観の忠実度を著しく向上させる。
- 参考スコア(独自算出の注目度): 42.87624197744494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video personalization aims to generate videos that faithfully reflect a user-provided subject while following a text prompt. However, existing approaches often rely on heavy video-based finetuning or large-scale video datasets, which impose substantial computational cost and are difficult to scale. Furthermore, they still struggle to maintain fine-grained appearance consistency across frames. To address these limitations, we introduce V-Warper, a training-free coarse-to-fine personalization framework for transformer-based video diffusion models. The framework enhances fine-grained identity fidelity without requiring any additional video training. (1) A lightweight coarse appearance adaptation stage leverages only a small set of reference images, which are already required for the task. This step encodes global subject identity through image-only LoRA and subject-embedding adaptation. (2) A inference-time fine appearance injection stage refines visual fidelity by computing semantic correspondences from RoPE-free mid-layer query--key features. These correspondences guide the warping of appearance-rich value representations into semantically aligned regions of the generation process, with masking ensuring spatial reliability. V-Warper significantly improves appearance fidelity while preserving prompt alignment and motion dynamics, and it achieves these gains efficiently without large-scale video finetuning.
- Abstract(参考訳): ビデオのパーソナライゼーションは、テキストのプロンプトに従ってユーザーが提供する主題を忠実に反映したビデオを生成することを目的としている。
しかし、既存のアプローチは、重大なビデオベースの微調整や大規模なビデオデータセットに依存しており、かなりの計算コストを要し、スケールが困難であることが多い。
さらに、フレーム間のきめ細かい外観の整合性を維持するのにも苦労しています。
これらの制約に対処するために、トランスフォーマーに基づくビデオ拡散モデルのためのトレーニング不要な粗粒度パーソナライズフレームワークであるV-Warperを導入する。
このフレームワークは、追加のビデオトレーニングを必要とせずに、きめ細かいアイデンティティの忠実度を高める。
1)手軽な粗い外観適応段階は,タスクにすでに必要とされている,少数の参照画像のみを活用する。
このステップは、画像のみのLoRAと被写体埋め込み適応を通じて、グローバルな被写体識別を符号化する。
2) 推論時ファインダーインジェクションステージは,RoPEフリーの中間層クエリーキー特徴からのセマンティック対応を演算することで,視覚的忠実度を向上する。
これらの対応は、外見に富んだ値表現を、空間的信頼性を保証するマスキングにより、生成プロセスの意味的に整合した領域に変形させる。
V-Warperは、迅速なアライメントと動きのダイナミクスを保ちながら、外観の忠実度を著しく向上させ、大規模なビデオファインタニングを伴わずにこれらのゲインを効率的に達成する。
関連論文リスト
- Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-24T06:57:26Z) - VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Raformer: Redundancy-Aware Transformer for Video Wire Inpainting [77.41727407673066]
Video Wire Inpainting (VWI)は、映画やテレビシリーズのワイヤーを完璧に除去することを目的とした、ビデオ塗装における顕著な応用である。
ワイヤーの取り外しは、一般的なビデオの塗布作業で通常対象とするものよりも長く、細くなっているため、大きな課題となる。
WRV2 と Pseudo Wire-Shaped (PWS) Masks という新しいマスク生成戦略を備えた新しい VWI データセットを提案する。
WRV2データセットは、平均80フレームの4,000本以上のビデオで構成され、インペイントモデルの開発と有効性を促進するように設計されている。
論文 参考訳(メタデータ) (2024-04-24T11:02:13Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。