論文の概要: Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.07287v1
- Date: Mon, 12 Jan 2026 07:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.269861
- Title: Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models
- Title(参考訳): Focal Guidance:ビデオ拡散モデルにおける意味的弱層からのアンロック制御
- Authors: Yuanyang Yin, Yufan Deng, Shenghai Yuan, Kaipeng Zhang, Xiao Yang, Feng Zhao,
- Abstract要約: Image-to-Video(I2V)生成は、参照画像とテキストプロンプトからビデオを合成することを目的としている。
既存のI2Vモデルは視覚的一貫性を優先する。
この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い固執を確実にする方法は、まだ検討されていない。
- 参考スコア(独自算出の注目度): 41.59364061354628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Image-to-Video (I2V) generation aims to synthesize a video from a reference image and a text prompt. This requires diffusion models to reconcile high-frequency visual constraints and low-frequency textual guidance during the denoising process. However, while existing I2V models prioritize visual consistency, how to effectively couple this dual guidance to ensure strong adherence to the text prompt remains underexplored. In this work, we observe that in Diffusion Transformer (DiT)-based I2V models, certain intermediate layers exhibit weak semantic responses (termed Semantic-Weak Layers), as indicated by a measurable drop in text-visual similarity. We attribute this to a phenomenon called Condition Isolation, where attention to visual features becomes partially detached from text guidance and overly relies on learned visual priors. To address this, we propose Focal Guidance (FG), which enhances the controllability from Semantic-Weak Layers. FG comprises two mechanisms: (1) Fine-grained Semantic Guidance (FSG) leverages CLIP to identify key regions in the reference frame and uses them as anchors to guide Semantic-Weak Layers. (2) Attention Cache transfers attention maps from semantically responsive layers to Semantic-Weak Layers, injecting explicit semantic signals and alleviating their over-reliance on the model's learned visual priors, thereby enhancing adherence to textual instructions. To further validate our approach and address the lack of evaluation in this direction, we introduce a benchmark for assessing instruction following in I2V models. On this benchmark, Focal Guidance proves its effectiveness and generalizability, raising the total score on Wan2.1-I2V to 0.7250 (+3.97\%) and boosting the MMDiT-based HunyuanVideo-I2V to 0.5571 (+7.44\%).
- Abstract(参考訳): I2V(Image-to-Video)生成の課題は、参照画像とテキストプロンプトから映像を合成することである。
これは,高頻度の視覚的制約と低周波のテクスチャガイダンスを復調する拡散モデルを必要とする。
しかし、既存のI2Vモデルは視覚的一貫性を優先するが、この2つのガイダンスを効果的に組み合わせて、テキストプロンプトへの強い従順性を確保する方法はまだ未検討のままである。
本研究では,Diffusion Transformer (DiT) ベースの I2V モデルにおいて,ある中間層が弱い意味応答(Semantic-Weak Layers と呼ばれる)を示すことを示す。
これは、視覚的特徴への注意が部分的にテキスト指導から切り離され、学習された視覚的先行に過度に依存する、条件分離と呼ばれる現象に起因している。
そこで本研究では,Semantic-Weak Layersの制御性を高めるFocal Guidance (FG)を提案する。
1) きめ細かいセマンティックガイダンス(FSG)は、CLIPを利用して参照フレーム内のキー領域を特定し、それらをアンカーとして、セマンティック・ウェイク層を案内する。
2)注意キャッシュは,意味応答性のあるレイヤからセマンティック・弱層へのアテンションマップの転送を行う。
我々は,我々のアプローチをさらに検証し,この方向における評価の欠如に対処するために,I2Vモデルにおける命令追従の評価のためのベンチマークを導入する。
このベンチマークでは、Focal GuidanceはWan2.1-I2Vの合計スコアを0.7250(+3.97\%)に引き上げ、MMDiTベースのHunyuanVideo-I2Vを0.5571(+7.44\%)に引き上げた。
関連論文リスト
- AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation [48.47444428530136]
テキスト誘導画像・ビデオ(TI2V)生成は、特に被験者の一貫性と時間的コヒーレンスを維持する上で、近年顕著な進歩を遂げている。
既存の手法は、特に入力画像の実質的な変換が必要な場合、微細なプロンプトセマンティクスに固執するのに依然として苦労している。
ASM(Attention Scaling Modulation)とGS(Guidance Scheduling)の2つのコンポーネントを備えた、トレーニング不要のフレームワークであるAlignVidを紹介した。
論文 参考訳(メタデータ) (2025-12-01T06:53:48Z) - Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding [30.223279362023337]
Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。
グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:53:01Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph [28.536724593429398]
TEn-CATGは、セマンティックキャリブレーションとカテゴリー対応の時間的推論を組み合わせたテキスト強化AVVPフレームワークである。
弱教師付きAVVPタスクにおいて,TEn-CATGは複雑な時間的および意味的依存関係を捕捉する堅牢性と優れた能力を実現する。
論文 参考訳(メタデータ) (2025-09-04T10:32:40Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - Is Your Text-to-Image Model Robust to Caption Noise? [38.19377765665836]
テキスト・トゥ・イメージ(T2I)生成では、画像再カプセル化に視覚言語モデル(VLM)を用いることが一般的である。
VLMは幻覚を示すことで知られており、視覚的現実から逸脱する記述的内容を生成するが、そのような字幕幻覚がT2I世代のパフォーマンスに与える影響は未解明のままである。
論文 参考訳(メタデータ) (2024-12-27T08:53:37Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。