論文の概要: AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2512.01334v1
- Date: Mon, 01 Dec 2025 06:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.721813
- Title: AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation
- Title(参考訳): AlignVid: テキストガイド画像-映像生成における意味的忠実度のための学習自由注意スケーリング
- Authors: Yexin Liu, Wen-Jie Shu, Zile Huang, Haoze Zheng, Yueze Wang, Manyuan Zhang, Ser-Nam Lim, Harry Yang,
- Abstract要約: テキスト誘導画像・ビデオ(TI2V)生成は、特に被験者の一貫性と時間的コヒーレンスを維持する上で、近年顕著な進歩を遂げている。
既存の手法は、特に入力画像の実質的な変換が必要な場合、微細なプロンプトセマンティクスに固執するのに依然として苦労している。
ASM(Attention Scaling Modulation)とGS(Guidance Scheduling)の2つのコンポーネントを備えた、トレーニング不要のフレームワークであるAlignVidを紹介した。
- 参考スコア(独自算出の注目度): 48.47444428530136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image-to-video (TI2V) generation has recently achieved remarkable progress, particularly in maintaining subject consistency and temporal coherence. However, existing methods still struggle to adhere to fine-grained prompt semantics, especially when prompts entail substantial transformations of the input image (e.g., object addition, deletion, or modification), a shortcoming we term semantic negligence. In a pilot study, we find that applying a Gaussian blur to the input image improves semantic adherence. Analyzing attention maps, we observe clearer foreground-background separation. From an energy perspective, this corresponds to a lower-entropy cross-attention distribution. Motivated by this, we introduce AlignVid, a training-free framework with two components: (i) Attention Scaling Modulation (ASM), which directly reweights attention via lightweight Q or K scaling, and (ii) Guidance Scheduling (GS), which applies ASM selectively across transformer blocks and denoising steps to reduce visual quality degradation. This minimal intervention improves prompt adherence while limiting aesthetic degradation. In addition, we introduce OmitI2V to evaluate semantic negligence in TI2V generation, comprising 367 human-annotated samples that span addition, deletion, and modification scenarios. Extensive experiments demonstrate that AlignVid can enhance semantic fidelity.
- Abstract(参考訳): テキスト誘導画像・ビデオ(TI2V)生成は、特に被験者の一貫性と時間的コヒーレンスを維持する上で、近年顕著な進歩を遂げている。
しかし、既存の手法では、特にプロンプトが入力画像(例えば、オブジェクトの追加、削除、修正)の実質的な変換を必要とする場合、セマンティック・ネグリジェンス(semantic negligence)という欠点がある。
実験により,入力画像にガウス的ぼかしを適用することにより,意味的付着が向上することが確認された。
注意図を解析し、より鮮明な前景と後景の分離を観察する。
エネルギーの観点からすると、これは低エントロピーのクロスアテンション分布に対応する。
これに触発され、2つのコンポーネントを持つトレーニング不要のフレームワークであるAlignVidを紹介します。
一 軽量Q又はKスケーリングを介して注意を直接強調する注意スケーリング変調(ASM)
(ii) ASMを変圧器ブロックに選択的に適用し、視覚的品質劣化を抑えるためのステップをデノナイズする誘導スケジューリング(GS)。
この最小限の介入は、美的劣化を抑えながら、迅速な付着を改善する。
さらに, 追加, 削除, 修正シナリオにまたがる367個の注釈付きサンプルから, TI2V 生成における意味的無視を評価するために OmitI2V を導入する。
大規模な実験により、AlignVidは意味的忠実性を高めることができる。
関連論文リスト
- OS-HGAdapter: Open Semantic Hypergraph Adapter for Large Language Models Assisted Entropy-Enhanced Image-Text Alignment [8.625923727928752]
テキスト画像アライメントはマルチメディアコンテンツ理解における基礎的な課題である。
本稿では,Large Language Model (LLM) のオープンな意味知識を用いて,エントロピーギャップを埋めることを提案する。
Flickr30KとMS-COCOベンチマークの総合評価は、オープンセマンティックハイパーグラフアダプタ(OS-HGAdapter)の優位性を検証している。
論文 参考訳(メタデータ) (2025-10-15T04:09:00Z) - FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation [16.628211648386454]
FICGenは劣化した画像の周波数知識を潜伏拡散空間に移そうとしている。
FICGenは、生成的忠実度、アライメント、下流補助訓練性の観点から、既存のL2Iメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-01T04:00:22Z) - From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning [65.94580484237737]
低照度向上は下流タスクの画質を向上させるが、既存の手法は物理的または幾何学的先行に頼っている。
我々は、低照度強化と低照度理解の間に一般化された橋を架け、この橋をGEFU(Generalized Enhancement For Understanding)と呼ぶ。
低照度劣化の多様な原因を解決するために,事前学習した生成拡散モデルを用いて画像の最適化を行い,ゼロショット一般化性能を実現する。
論文 参考訳(メタデータ) (2025-07-11T07:51:26Z) - Learning Event Completeness for Weakly Supervised Video Anomaly Detection [5.140169437190526]
弱監視ビデオ異常検出(LEC-VAD)のための新しい学習イベント完全性を提案する。
LEC-VADは、視覚と言語の間のカテゴリー認識とカテゴリー認識のセマンティクスの両方を符号化する。
本研究では,異常項目のカテゴリに関連付けられた簡潔なテキスト記述を豊かにするための,新しいメモリバンクベースのプロトタイプ学習機構を開発する。
論文 参考訳(メタデータ) (2025-06-16T04:56:58Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。