論文の概要: StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing
- arxiv url: http://arxiv.org/abs/2409.15259v2
- Date: Mon, 03 Mar 2025 15:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 17:04:19.424995
- Title: StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing
- Title(参考訳): StarVid:空間的・統語的注意再焦点によるビデオ拡散モデルにおける意味的アライメントの強化
- Authors: Yuanhang Li, Qi Mao, Lan Chen, Zhen Fang, Lei Tian, Xinyan Xiao, Libiao Jin, Hua Wu,
- Abstract要約: 我々は,T2Vモデルにおける複数の被験者間のセマンティックアライメント,動作,テキストプロンプトを改善するための,プラグイン・アンド・プレイ方式であるtextbfStarVidを提案する。
StarVidはまず、テキストプロンプトに基づく2段階の運動軌跡計画に大規模言語モデル(LLM)の空間的推論機能を利用する。
- 参考スコア(独自算出の注目度): 40.50917266880829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) generation with diffusion models have garnered significant attention. However, they typically perform well in scenes with a single object and motion, struggling in compositional scenarios with multiple objects and distinct motions to accurately reflect the semantic content of text prompts. To address these challenges, we propose \textbf{StarVid}, a plug-and-play, training-free method that improves semantic alignment between multiple subjects, their motions, and text prompts in T2V models. StarVid first leverages the spatial reasoning capabilities of large language models (LLMs) for two-stage motion trajectory planning based on text prompts. Such trajectories serve as spatial priors, guiding a spatial-aware loss to refocus cross-attention (CA) maps into distinctive regions. Furthermore, we propose a syntax-guided contrastive constraint to strengthen the correlation between the CA maps of verbs and their corresponding nouns, enhancing motion-subject binding. Both qualitative and quantitative evaluations demonstrate that the proposed framework significantly outperforms baseline methods, delivering videos of higher quality with improved semantic consistency.
- Abstract(参考訳): 近年,拡散モデルによるテキスト・ツー・ビデオ(T2V)生成が注目されている。
しかし、通常、単一のオブジェクトとモーションを持つシーンでよく機能し、複数のオブジェクトと異なる動作を持つ構成シナリオで苦労して、テキストプロンプトのセマンティックな内容を正確に反映する。
これらの課題に対処するために,T2Vモデルにおける複数の主題間のセマンティックアライメント,動作,テキストプロンプトを改善する,プラグアンドプレイの訓練不要な方法である \textbf{StarVid} を提案する。
StarVidはまず、テキストプロンプトに基づく2段階の運動軌跡計画に大規模言語モデル(LLM)の空間的推論機能を利用する。
このような軌道は、空間的先行として機能し、空間的認識喪失を導いて、相互注意(CA)マップを固有の領域に再焦点する。
さらに,動詞のCAマップと対応する名詞との相関性を高めるために,構文誘導型コントラスト制約を提案する。
質的および定量的評価は,提案フレームワークがベースライン法を著しく上回り,セマンティック一貫性を改善した高品質のビデオを提供することを示す。
関連論文リスト
- Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文 参考訳(メタデータ) (2021-09-29T01:40:58Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。