論文の概要: Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation
- arxiv url: http://arxiv.org/abs/2504.18805v1
- Date: Sat, 26 Apr 2025 05:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.998296
- Title: Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation
- Title(参考訳): ステアリング・クリエータのワークフロー: 科学的ショートフォーム生成を改善する反復フィードバックループを備えた創造者インスパイアされたエージェントフレームワーク
- Authors: Jong Inn Park, Maanas Taneja, Qianwen Wang, Dongyeop Kang,
- Abstract要約: SciTalkは、テキスト、フィギュア、ビジュアルスタイル、アバターなど、さまざまなソースで動画をグラウンド化するための新しいフレームワークである。
コンテンツクリエーターのイテレーションにインスパイアされたSciTalkは、コンテンツ要約、ビジュアルシーン計画、テキストとレイアウトの編集に特別なエージェントを使用する。
我々のフレームワークは、フィードバック駆動のビデオ生成の課題とメリットに関する貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 20.571381061542766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating engaging, accurate short-form videos from scientific papers is challenging due to content complexity and the gap between expert authors and readers. Existing end-to-end methods often suffer from factual inaccuracies and visual artifacts, limiting their utility for scientific dissemination. To address these issues, we propose SciTalk, a novel multi-LLM agentic framework, grounding videos in various sources, such as text, figures, visual styles, and avatars. Inspired by content creators' workflows, SciTalk uses specialized agents for content summarization, visual scene planning, and text and layout editing, and incorporates an iterative feedback mechanism where video agents simulate user roles to give feedback on generated videos from previous iterations and refine generation prompts. Experimental evaluations show that SciTalk outperforms simple prompting methods in generating scientifically accurate and engaging content over the refined loop of video generation. Although preliminary results are still not yet matching human creators' quality, our framework provides valuable insights into the challenges and benefits of feedback-driven video generation. Our code, data, and generated videos will be publicly available.
- Abstract(参考訳): 科学論文から有能で正確な短いビデオを生成することは、内容の複雑さと専門家と読者のギャップのために困難である。
既存のエンドツーエンドの手法は、しばしば事実的不正確さと視覚的アーティファクトに悩まされ、科学的な普及のためにその有用性を制限している。
これらの問題に対処するために,テキスト,フィギュア,視覚スタイル,アバターなど,さまざまなソースで動画のグラウンド化を行う,新しいマルチLLMエージェントフレームワークであるSciTalkを提案する。
コンテンツクリエーターのワークフローにインスパイアされたSciTalkは、コンテンツ要約、ビジュアルシーン計画、テキストとレイアウトの編集のための特別なエージェントを使用し、ビデオエージェントがユーザーロールをシミュレートし、以前のイテレーションから生成されたビデオにフィードバックを与え、生成プロンプトを洗練させる反復的なフィードバックメカニズムを組み込んでいる。
実験により、SciTalkは、映像生成の洗練されたループ上で科学的に正確でエンゲージメントのあるコンテンツを生成するための単純なプロンプト法よりも優れていることが示された。
予備的な結果はまだ人間のクリエーターの品質と一致していないが、我々のフレームワークはフィードバック駆動のビデオ生成の課題とメリットに関する貴重な洞察を提供する。
コード、データ、および生成されたビデオが公開されます。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models [43.46536102838717]
VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。