論文の概要: SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2604.05489v2
- Date: Thu, 09 Apr 2026 02:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.877971
- Title: SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation
- Title(参考訳): SCMAPR:複合シナリオテキスト・ビデオ・ジェネレーションのための自己補正型マルチエージェント・プロンプト・リファインメント
- Authors: Chengyi Yang, Pengzhen Li, Jiayin Qi, Aimin Zhou, Ji Wu, Ji Liu,
- Abstract要約: ステージワイドマルチエージェントリファインメントプロセスとして,複雑なシナリオのプロンプトリファインメントを定式化する。
SCMAPRは特定のエージェントをコーディネートし、各プロンプトを戦略選択のための分類上のシナリオにルーティングする。
本稿では,T2V-Complexityという,複雑なScenarioプロンプトのみからなるT2Vベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 27.108086840326212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Video (T2V) generation has benefited from recent advances in diffusion models, yet current systems still struggle under complex scenarios, which are generally exacerbated by the ambiguity and underspecification of text prompts. In this work, we formulate complex-scenario prompt refinement as a stage-wise multi-agent refinement process and propose SCMAPR, i.e., a scenario-aware and Self-Correcting Multi-Agent Prompt Refinement framework for T2V prompting. SCMAPR coordinates specialized agents to (i) route each prompt to a taxonomy-grounded scenario for strategy selection, (ii) synthesize scenario-aware rewriting policies and perform policy-conditioned refinement, and (iii) conduct structured semantic verification that triggers conditional revision when violations are detected. To clarify what constitutes complex scenarios in T2V prompting, provide representative examples, and enable rigorous evaluation under such challenging conditions, we further introduce {T2V-Complexity}, which is a complex-scenario T2V benchmark consisting exclusively of complex-scenario prompts. Extensive experiments on 3 existing benchmarks and our T2V-Complexity benchmark demonstrate that SCMAPR consistently improves text-video alignment and overall generation quality under complex scenarios, achieving up to 2.67\% and 3.28 gains in average score on VBench and EvalCrafter, and up to 0.028 improvement on T2V-CompBench over 3 State-Of-The-Art baselines.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)生成は、拡散モデルの最近の進歩の恩恵を受けてきたが、現在のシステムは複雑なシナリオの下ではいまだに苦戦しており、通常はテキストプロンプトの曖昧さと不特定性によって悪化している。
本研究では,T2Vプロンプトのためのシナリオ認識・自己補正型マルチエージェント・プロンプト・プロンプト・リファインメント・フレームワークであるSCMAPRを提案する。
SCMAPRは特殊エージェントをコーディネートする
一 戦略選択のための分類上のシナリオに各プロンプトを走らせること。
二 シナリオ対応の書記方針を合成し、政策条件付き改定を行うこと。
三 違反が検出されたときの条件変更を誘発する構造的意味検証を行う。
T2Vプロンプトの複雑なシナリオを解明し、代表例を提供し、このような困難な条件下で厳密な評価を可能にするために、複素シナリオプロンプトのみからなる複素シナリオT2Vベンチマークである {T2V-complexity} を導入する。
3つの既存のベンチマークとT2V-Complexityベンチマークの大規模な実験により、SCMAPRは複雑なシナリオ下でのテキストのアライメントと全体的な生成品質を一貫して改善し、VBenchとEvalCrafterの平均スコアは2.67\%と3.28まで向上し、3 State-Of-The-Artベースラインよりも最大0.028改善された。
関連論文リスト
- Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification [23.27053860130735]
Unsupervised multi-scenario (UMS) person re-identification (ReID)は、さまざまなシナリオでReIDを拡張する新しいタスクである。
視覚言語モデルの表現力を効果的に活用する3段階フレームワークである画像テキスト知識モデリング(ITKM)を紹介する。
論文 参考訳(メタデータ) (2026-01-16T12:45:01Z) - LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation [33.05973337012911]
LoCoT2V-Benchは、複雑な入力条件下でのロングビデオ生成(LVG)に特化したベンチマークである。
LoCoT2V-Benchは、さまざまな現実世界のビデオに基づいて、現実的で複雑なプロンプトのセットを紹介している。
新たに提案したメトリクスを含む多次元評価フレームワークを構築する。
論文 参考訳(メタデータ) (2025-10-30T12:00:46Z) - RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。