論文の概要: TGT: Text-Grounded Trajectories for Locally Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2510.15104v1
- Date: Thu, 16 Oct 2025 19:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.372212
- Title: TGT: Text-Grounded Trajectories for Locally Controlled Video Generation
- Title(参考訳): TGT:局所制御ビデオ生成のためのテキスト・グラウンド・トラジェクトリ
- Authors: Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Bo Liu, Yiding Yang, Guang Chen, Longyin Wen, Alan Yuille, Chongyang Ma,
- Abstract要約: 本稿では,テキスト記述と組み合わせたトラジェクトリ上でのビデオ生成を行うフレームワークであるText-Grounded Trajectories (TGT)を紹介する。
TGTは、従来のアプローチと比較して、より高い視覚的品質、より正確なテキストアライメント、モーションコントロール性の向上を実現している。
- 参考スコア(独自算出の注目度): 33.989722489622075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has advanced rapidly in visual fidelity, whereas standard methods still have limited ability to control the subject composition of generated scenes. Prior work shows that adding localized text control signals, such as bounding boxes or segmentation masks, can help. However, these methods struggle in complex scenarios and degrade in multi-object settings, offering limited precision and lacking a clear correspondence between individual trajectories and visual entities as the number of controllable objects increases. We introduce Text-Grounded Trajectories (TGT), a framework that conditions video generation on trajectories paired with localized text descriptions. We propose Location-Aware Cross-Attention (LACA) to integrate these signals and adopt a dual-CFG scheme to separately modulate local and global text guidance. In addition, we develop a data processing pipeline that produces trajectories with localized descriptions of tracked entities, and we annotate two million high quality video clips to train TGT. Together, these components enable TGT to use point trajectories as intuitive motion handles, pairing each trajectory with text to control both appearance and motion. Extensive experiments show that TGT achieves higher visual quality, more accurate text alignment, and improved motion controllability compared with prior approaches. Website: https://textgroundedtraj.github.io.
- Abstract(参考訳): テキスト・ビデオ・ジェネレーションは、視覚的忠実度が急速に向上しているが、標準的な手法では、生成したシーンの主題構成を制御する能力が制限されている。
以前の作業では、バウンディングボックスやセグメンテーションマスクなど、ローカライズされたテキストコントロール信号の追加が役立ちます。
しかし、これらの手法は複雑なシナリオで苦労し、多目的設定では劣化し、限られた精度を提供し、制御可能なオブジェクトの数が増加するにつれて、個々の軌跡と視覚的実体との明確な対応が欠如している。
本稿では,テキスト記述と組み合わせたトラジェクトリ上でのビデオ生成を行うフレームワークであるText-Grounded Trajectories (TGT)を紹介する。
位置認識型クロスアテンション(LACA)を用いてこれらの信号を統合し、局所的およびグローバルなテキストガイダンスを個別に調整するための二重CFG方式を採用する。
さらに,追跡対象の局所的な記述を伴うトラジェクトリを生成するデータ処理パイプラインを開発し,200万本の高品質ビデオクリップを注釈付けしてTGTを訓練する。
これらのコンポーネントを組み合わせることで、TGTは直感的なモーションハンドルとしてポイントトラジェクトリを使用することができ、各トラジェクトリとテキストをペアリングすることで、外観と動きの両方を制御することができる。
広汎な実験により、TGTは従来のアプローチに比べて高い視覚的品質、より正確なテキストアライメント、動き制御性の向上を実現している。
ウェブサイト: https://textgroundedtraj.github.io
関連論文リスト
- TTOM: Test-Time Optimization and Memorization for Compositional Video Generation [102.55214293086863]
ビデオファウンデーションモデル (VFM) は目覚ましい視覚生成性能を示すが、構成シナリオでは苦戦している。
テスト時間とメモ空間化器(TTOM)を導入し,VFMとビデオレイアウトを一致させてテキスト画像のアライメントを改善する。
我々はTTOMが構成的世界知識を歪め、強力な伝達可能性と一般化を示すことを発見した。
論文 参考訳(メタデータ) (2025-10-09T08:37:00Z) - DiTraj: training-free trajectory control for video diffusion transformer [34.05715460730871]
軌道制御は、制御可能なビデオ生成におけるユーザフレンドリなタスクを表す。
提案するDiTrajは,DiTに適したテキスト・ビデオ生成におけるトラジェクトリ制御のためのトレーニングフリーフレームワークである。
提案手法は,映像品質とトラジェクトリ制御性の両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T03:53:31Z) - Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation [14.34140569565309]
DyST-XLは、フレーム認識制御により、既製のテキスト・ビデオモデルを強化するフレームワークである。
コードはhttps://github.com/XiaoBuL/DyST-XLで公開されている。
論文 参考訳(メタデータ) (2025-04-21T11:41:22Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。