論文の概要: RefAlign: Representation Alignment for Reference-to-Video Generation
- arxiv url: http://arxiv.org/abs/2603.25743v1
- Date: Thu, 26 Mar 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.434928
- Title: RefAlign: Representation Alignment for Reference-to-Video Generation
- Title(参考訳): RefAlign: 参照ビデオ生成のための表現アライメント
- Authors: Lei Wang, YuXin Song, Ge Wu, Haocheng Feng, Hang Zhou, Jingdong Wang, Yaxing Wang, jian Yang,
- Abstract要約: RefAlignは、DiT参照ブランチ機能を視覚基礎モデルのセマンティック空間に整列する表現アライメントフレームワークである。
OpenS2V-Evalベンチマークの実験では、RefAlignがTotalScoreの最先端メソッドより優れていることが示されている。
- 参考スコア(独自算出の注目度): 53.368296137314225
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reference-to-video (R2V) generation is a controllable video synthesis paradigm that constrains the generation process using both text prompts and reference images, enabling applications such as personalized advertising and virtual try-on. In practice, existing R2V methods typically introduce additional high-level semantic or cross-modal features alongside the VAE latent representation of the reference image and jointly feed them into the diffusion Transformer (DiT). These auxiliary representations provide semantic guidance and act as implicit alignment signals, which can partially alleviate pixel-level information leakage in the VAE latent space. However, they may still struggle to address copy--paste artifacts and multi-subject confusion caused by modality mismatch across heterogeneous encoder features. In this paper, we propose RefAlign, a representation alignment framework that explicitly aligns DiT reference-branch features to the semantic space of a visual foundation model (VFM). The core of RefAlign is a reference alignment loss that pulls the reference features and VFM features of the same subject closer to improve identity consistency, while pushing apart the corresponding features of different subjects to enhance semantic discriminability. This simple yet effective strategy is applied only during training, incurring no inference-time overhead, and achieves a better balance between text controllability and reference fidelity. Extensive experiments on the OpenS2V-Eval benchmark demonstrate that RefAlign outperforms current state-of-the-art methods in TotalScore, validating the effectiveness of explicit reference alignment for R2V tasks.
- Abstract(参考訳): 参照ビデオ生成(R2V)は、テキストプロンプトと参照画像の両方を使用して生成プロセスを制限し、パーソナライズされた広告や仮想トライオンなどのアプリケーションを可能にする、制御可能なビデオ合成パラダイムである。
実際には、既存のR2V手法は、通常、参照画像のVAE潜在表現と並行して、高レベルなセマンティックまたはクロスモーダルな特徴を導入し、それらを拡散変換器(DiT)に共同で供給する。
これらの補助表現はセマンティックガイダンスを提供し、暗黙のアライメント信号として機能し、VAE潜在空間における画素レベルの情報漏洩を部分的に軽減することができる。
しかし、コピー・ペースト・アーティファクトや、異種エンコーダ機能間のモダリティミスマッチに起因する多目的混同への対処には依然として苦労する可能性がある。
本稿では,視覚基盤モデル(VFM)のセマンティック空間にDiT参照ブランチ機能を明示的にアライメントする表現アライメントフレームワークであるRefAlignを提案する。
RefAlignのコアは参照アライメントの損失であり、同一主題の参照特徴とVFM特徴を引き出してアイデンティティの整合性を改善すると同時に、異なる主題の対応する特徴を分離して意味的識別性を高める。
このシンプルで効果的な戦略は、トレーニング中にのみ適用され、推論時のオーバーヘッドは発生せず、テキスト制御性と参照忠実度とのバランスが良くなる。
OpenS2V-Evalベンチマークの大規模な実験により、RefAlignはTotalScoreの現在の最先端メソッドよりも優れており、R2Vタスクに対する明示的な参照アライメントの有効性が検証されている。
関連論文リスト
- Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models [41.59364061354628]
Image-to-Video(I2V)生成は、参照画像とテキストプロンプトからビデオを合成することを目的としている。
既存のI2Vモデルは視覚的一貫性を優先する。
この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い固執を確実にする方法は、まだ検討されていない。
論文 参考訳(メタデータ) (2026-01-12T07:48:26Z) - RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models [25.265113510539546]
Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。
現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。
本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。