論文の概要: SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation
- arxiv url: http://arxiv.org/abs/2602.22745v2
- Date: Fri, 27 Feb 2026 03:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 13:30:11.56638
- Title: SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation
- Title(参考訳): SPATIALALIGN:映像生成における動的空間関係の調整
- Authors: Fengming Liu, Tat-Jen Cham, Chuanxia Zheng,
- Abstract要約: ほとんどのテキスト・トゥ・ビデオ(T2V)ジェネレータは美的品質を優先するが、生成されたビデオの空間的制約を無視することが多い。
本研究では,テキストプロンプトで指定された動的空間関係(DSR)を描写するT2Vモデル機能を強化する自己改善フレームワークであるSPATIALALIGNを提案する。
具体的には、生成したビデオと指定されたDSRとのアライメントを定量的に計測する幾何学的手法であるDSR-SCOREを設計する。
- 参考スコア(独自算出の注目度): 37.165709423088266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most text-to-video (T2V) generators prioritize aesthetic quality, but often ignoring the spatial constraints in the generated videos. In this work, we present SPATIALALIGN, a self-improvement framework that enhances T2V models capabilities to depict Dynamic Spatial Relationships (DSR) specified in text prompts. We present a zeroth-order regularized Direct Preference Optimization (DPO) to fine-tune T2V models towards better alignment with DSR. Specifically, we design DSR-SCORE, a geometry-based metric that quantitatively measures the alignment between generated videos and the specified DSRs in prompts, which is a step forward from prior works that rely on VLM for evaluation. We also conduct a dataset of text-video pairs with diverse DSRs to facilitate the study. Extensive experiments demonstrate that our fine-tuned model significantly out performs the baseline in spatial relationships. The code will be released in Link. Project page: https://fengming001ntu.github.io/SpatialAlign/
- Abstract(参考訳): ほとんどのテキスト・トゥ・ビデオ(T2V)ジェネレータは美的品質を優先するが、生成されたビデオの空間的制約を無視することが多い。
本研究では,テキストプロンプトで指定された動的空間関係(DSR)を記述するためのT2Vモデル機能を強化する自己改善フレームワークであるSPATIALALIGNを提案する。
我々は、DSRとの整合性向上に向けた微調整T2Vモデルに対して、ゼロ階正則化直接選好最適化(DPO)を提案する。
具体的には、生成したビデオと指定されたDSR間のアライメントを定量的に計測する幾何学的計量であるDSR-SCOREを設計する。
また,テキストとビデオのペアのデータセットを多種多様なDSRで作成し,研究を容易にする。
大規模な実験により、我々の微調整モデルが空間的関係におけるベースラインを著しく上回ることを示した。
コードはLinkでリリースされる。
プロジェクトページ:https://fengming001ntu.github.io/SpatialAlign/
関連論文リスト
- Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling [1.6671050178877669]
大規模なデータセットは、Text-to-Video(T2V)生成モデルに大きな進歩をもたらした。
ビデオ出力を改善する現在の方法は、しばしば不足する。
RAGベースの新しいプロンプト最適化フレームワークである3Rを導入する。
論文 参考訳(メタデータ) (2026-03-02T06:35:59Z) - STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - SeqBench: Benchmarking Sequential Narrative Generation in Text-to-Video Models [9.237220559112837]
本稿では,T2V生成における逐次的物語コヒーレンスを評価するための総合ベンチマークであるSeqBenchを紹介する。
私たちは、さまざまな物語の複雑さにまたがる320のプロンプトのデータセットを使用しています。
我々のDTG基準は人間のアノテーションと強い相関を示す。
論文 参考訳(メタデータ) (2025-10-14T23:40:57Z) - SSG-Dit: A Spatial Signal Guided Framework for Controllable Video Generation [22.1310564466224]
制御可能なビデオ生成は、ユーザが提供する条件と正確に整合したビデオコンテンツを合成することを目的としている。
既存のモデルは、しばしば強いセマンティック一貫性を維持するのに苦労する。
本稿では,高忠実度制御可能なビデオ生成のための新しい,効率的なフレームワークであるSSG-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-23T15:30:17Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。