論文の概要: ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
- arxiv url: http://arxiv.org/abs/2510.14847v1
- Date: Thu, 16 Oct 2025 16:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.946816
- Title: ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
- Title(参考訳): ImagerySearch: セマンティック依存制約を超えたビデオ生成のための適応的なテストタイム検索
- Authors: Meiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang,
- Abstract要約: ImagerySearchは、アダプティブなテストタイム検索戦略である。
プロンプト内の意味的関係に応じて、推論検索空間と報酬関数の両方を調整する。
これは、強力なビデオ生成ベースラインと既存のテストタイムスケーリングアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 34.57234917899478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have achieved remarkable progress, particularly excelling in realistic scenarios; however, their performance degrades notably in imaginative scenarios. These prompts often involve rarely co-occurring concepts with long-distance semantic relationships, falling outside training distributions. Existing methods typically apply test-time scaling for improving video quality, but their fixed search spaces and static reward designs limit adaptability to imaginative scenarios. To fill this gap, we propose ImagerySearch, a prompt-guided adaptive test-time search strategy that dynamically adjusts both the inference search space and reward function according to semantic relationships in the prompt. This enables more coherent and visually plausible videos in challenging imaginative settings. To evaluate progress in this direction, we introduce LDT-Bench, the first dedicated benchmark for long-distance semantic prompts, consisting of 2,839 diverse concept pairs and an automated protocol for assessing creative generation capabilities. Extensive experiments show that ImagerySearch consistently outperforms strong video generation baselines and existing test-time scaling approaches on LDT-Bench, and achieves competitive improvements on VBench, demonstrating its effectiveness across diverse prompt types. We will release LDT-Bench and code to facilitate future research on imaginative video generation.
- Abstract(参考訳): ビデオ生成モデルは、特に現実的なシナリオでは優れた進歩を遂げているが、そのパフォーマンスは想像上のシナリオでは特に低下している。
これらのプロンプトは、しばしば長距離の意味関係を持つ概念を共起することが多く、訓練分布の外に落ちる。
既存の手法は通常、ビデオの品質向上のためにテスト時間スケーリングを適用するが、その固定された検索空間と静的な報酬設計は想像上のシナリオへの適応性を制限している。
このギャップを埋めるために,インジェクション検索空間と報酬関数の両方をプロンプト内の意味的関係に応じて動的に調整する,プロンプト誘導型適応テストタイム検索戦略であるImagerySearchを提案する。
これにより、想像的な設定に挑戦する上で、よりコヒーレントで視覚的に可視的なビデオが可能になる。
この方向の進捗を評価するために,2,839の多様な概念ペアと,創造的生成能力を評価するための自動プロトコルからなる,長距離セマンティックプロンプトのための最初の専用ベンチマークである LDT-Bench を紹介する。
大規模な実験によると、ImagerySearchは、強力なビデオ生成ベースラインと既存のテストタイムスケーリングアプローチをLDT-Benchで一貫して上回り、VBench上での競争力の向上を実現し、多様なプロンプトタイプでその効果を実証している。
LDT-Benchとコードをリリースし、想像的ビデオ生成の今後の研究を促進する。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [20.292872255460534]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。
RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。
経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文 参考訳(メタデータ) (2025-06-20T09:02:05Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。