論文の概要: SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing
- arxiv url: http://arxiv.org/abs/2411.18983v1
- Date: Thu, 28 Nov 2024 08:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:09.966976
- Title: SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing
- Title(参考訳): SPAgent: 汎用ビデオ生成と編集のための適応的タスク分解とモデル選択
- Authors: Rong-Cheng Tu, Wenhao Sun, Zhao Jin, Jingyi Liao, Jiaxing Huang, Dacheng Tao,
- Abstract要約: セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
- 参考スコア(独自算出の注目度): 50.098005973600024
- License:
- Abstract: While open-source video generation and editing models have made significant progress, individual models are typically limited to specific tasks, failing to meet the diverse needs of users. Effectively coordinating these models can unlock a wide range of video generation and editing capabilities. However, manual coordination is complex and time-consuming, requiring users to deeply understand task requirements and possess comprehensive knowledge of each model's performance, applicability, and limitations, thereby increasing the barrier to entry. To address these challenges, we propose a novel video generation and editing system powered by our Semantic Planning Agent (SPAgent). SPAgent bridges the gap between diverse user intents and the effective utilization of existing generative models, enhancing the adaptability, efficiency, and overall quality of video generation and editing. Specifically, the SPAgent assembles a tool library integrating state-of-the-art open-source image and video generation and editing models as tools. After fine-tuning on our manually annotated dataset, SPAgent can automatically coordinate the tools for video generation and editing, through our novelly designed three-step framework: (1) decoupled intent recognition, (2) principle-guided route planning, and (3) capability-based execution model selection. Additionally, we enhance the SPAgent's video quality evaluation capability, enabling it to autonomously assess and incorporate new video generation and editing models into its tool library without human intervention. Experimental results demonstrate that the SPAgent effectively coordinates models to generate or edit videos, highlighting its versatility and adaptability across various video tasks.
- Abstract(参考訳): オープンソースのビデオ生成と編集モデルは大きな進歩を遂げているが、個々のモデルは一般的に特定のタスクに限られており、多様なユーザーのニーズを満たすことができない。
これらのモデルを効果的に調整することで、幅広いビデオ生成と編集機能をアンロックすることができる。
しかし、手作業の調整は複雑で時間を要するため、ユーザーはタスク要件を深く理解し、各モデルのパフォーマンス、適用性、限界に関する包括的な知識を保有する必要がある。
これらの課題に対処するため,我々はセマンティック・プランニング・エージェント(SPAgent)を利用した新しいビデオ生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの効果的な利用のギャップを埋め、ビデオ生成および編集の適応性、効率、全体的な品質を高める。
具体的には、SPAgentは最先端のオープンソースイメージとビデオ生成と編集モデルをツールとして統合したツールライブラリを組み立てている。
手動で注釈付きデータセットを微調整した後、SPAgentは、(1)分離意図認識、(2)原則誘導経路計画、(3)能力ベース実行モデル選択という、新しい3段階のフレームワークを通じて、ビデオ生成と編集のためのツールを自動的に調整することができる。
さらに、SPAgentのビデオ品質評価機能を強化し、人間の介入なしに、新たなビデオ生成および編集モデルをツールライブラリに自律的に組み込むことを可能にした。
実験結果から,SPAgentはビデオの生成や編集にモデルを効果的にコーディネートし,その汎用性と様々なビデオタスクへの適応性を強調した。
関連論文リスト
- DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Instruction-based Image Manipulation by Watching How Things Move [35.44993722444448]
命令ベースの複雑な操作が可能なモデルであるInstructMoveをトレーニングする新しいデータセットを作成します。
本モデルでは,ポーズの調整,要素の並べ替え,カメラ視点の変更などのタスクにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2024-12-16T18:56:17Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。