論文の概要: TTOM: Test-Time Optimization and Memorization for Compositional Video Generation
- arxiv url: http://arxiv.org/abs/2510.07940v1
- Date: Thu, 09 Oct 2025 08:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.958743
- Title: TTOM: Test-Time Optimization and Memorization for Compositional Video Generation
- Title(参考訳): TTOM: 合成ビデオ生成のためのテスト時間最適化とメモリ化
- Authors: Leigang Qu, Ziyang Wang, Na Zheng, Wenjie Wang, Liqiang Nie, Tat-Seng Chua,
- Abstract要約: ビデオファウンデーションモデル (VFM) は目覚ましい視覚生成性能を示すが、構成シナリオでは苦戦している。
テスト時間とメモ空間化器(TTOM)を導入し,VFMとビデオレイアウトを一致させてテキスト画像のアライメントを改善する。
我々はTTOMが構成的世界知識を歪め、強力な伝達可能性と一般化を示すことを発見した。
- 参考スコア(独自算出の注目度): 102.55214293086863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Foundation Models (VFMs) exhibit remarkable visual generation performance, but struggle in compositional scenarios (e.g., motion, numeracy, and spatial relation). In this work, we introduce Test-Time Optimization and Memorization (TTOM), a training-free framework that aligns VFM outputs with spatiotemporal layouts during inference for better text-image alignment. Rather than direct intervention to latents or attention per-sample in existing work, we integrate and optimize new parameters guided by a general layout-attention objective. Furthermore, we formulate video generation within a streaming setting, and maintain historical optimization contexts with a parametric memory mechanism that supports flexible operations, such as insert, read, update, and delete. Notably, we found that TTOM disentangles compositional world knowledge, showing powerful transferability and generalization. Experimental results on the T2V-CompBench and Vbench benchmarks establish TTOM as an effective, practical, scalable, and efficient framework to achieve cross-modal alignment for compositional video generation on the fly.
- Abstract(参考訳): ビデオファウンデーションモデル(VFM)は目覚ましい視覚生成性能を示すが、構成シナリオ(例えば、動き、数、空間関係)に苦戦する。
本研究では,テスト時間最適化と覚書化(TTOM)を導入し,VFM出力と推定時の時空間配置を調整し,テキスト画像のアライメントを改善する。
既存の作業における潜伏者や注目度に直接介入するのではなく、一般的なレイアウトアテンションの目的によって導かれる新しいパラメータを統合し、最適化する。
さらに、ストリーミング環境内でのビデオ生成を定式化し、挿入、読み出し、更新、削除などの柔軟な操作をサポートするパラメトリックメモリ機構を用いて履歴最適化コンテキストを維持する。
特に、TTOMは構成世界の知識を歪め、強力な伝達可能性と一般化を示すことが判明した。
T2V-CompBenchとVbenchベンチマークの実験結果は、TTOMを効果的で実用的でスケーラブルで効率的なフレームワークとして確立し、コンポジションビデオ生成のためのクロスモーダルアライメントを実現する。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models [103.18486625853099]
DEFT(Decompositional Efficient Fine-Tuning)は、事前トレーニングされた重み行列を2つのコンポーネントに分解することで適応する。
パーソナライズのためのDreamboothおよびDreambench Plusデータセット、オブジェクトおよびシーン適応のためのInsDetデータセット、ユニバーサル画像生成フレームワークのためのVisualClozeデータセットについて実験を行った。
論文 参考訳(メタデータ) (2025-09-26T18:01:15Z) - STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing [35.50656689789427]
STR-Matchは、視覚的に魅力的なコヒーレントなビデオを生成するトレーニングフリーのビデオ編集システムである。
STR-Matchは、視覚的品質と時間的一貫性の両方において、既存の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-06-28T12:36:19Z) - BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation [47.21414443162965]
テキスト・ツー・ビデオ(CT2V)生成のための自動回帰構造とテクスチャ・プロパゲーション・モジュール(STPM)を提案する。
STPMは、参照対象から重要な構造的およびテクスチャ的特徴を抽出し、それらを各ビデオフレームに自己回帰的に注入し、一貫性を高める。
また,テスト時間報酬最適化 (TTRO) 手法を導入し,細部まで詳細に解析する。
論文 参考訳(メタデータ) (2025-05-11T14:11:12Z) - VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models [48.00262713744499]
VideoCompは、ビデオテキストの構成性を理解するためのベンチマークおよび学習フレームワークである。
我々は,再順序付け,行動語置換,部分的字幕化,複合的ディスラプションなどの微妙な時間的破壊を伴う挑戦的な負のサンプルを作成する。
これらのベンチマークは、拡張された凝集性ビデオテキストシーケンスにわたるモデルの構成感度を包括的にテストする。
論文 参考訳(メタデータ) (2025-04-04T22:24:30Z) - MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation [19.340437669928814]
MagicCompは、T2V生成を2相精製により強化するトレーニングフリーの手法である。
MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-03-18T17:02:14Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。