Fugu-MT 論文翻訳(概要): RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

論文の概要: RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

arxiv url: http://arxiv.org/abs/2405.18406v3
Date: Thu, 31 Oct 2024 23:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.950427
Title: RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
Title（参考訳）: RACCooN: 自動生成ナラティブを備えた多機能な教育用ビデオ編集フレームワーク
Authors: Jaehong Yoon, Shoubin Yu, Mohit Bansal,
Abstract要約: 本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
参考スコア（独自算出の注目度）: 58.15403987979496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent video generative models primarily rely on carefully written text prompts for specific tasks, like inpainting or style editing. They require labor-intensive textual descriptions for input videos, hindering their flexibility to adapt personal/raw videos to user specifications. This paper proposes RACCooN, a versatile and user-friendly video-to-paragraph-to-video generative framework that supports multiple video editing capabilities such as removal, addition, and modification, through a unified pipeline. RACCooN consists of two principal stages: Video-to-Paragraph (V2P) and Paragraph-to-Video (P2V). In the V2P stage, we automatically describe video scenes in well-structured natural language, capturing both the holistic context and focused object details. Subsequently, in the P2V stage, users can optionally refine these descriptions to guide the video diffusion model, enabling various modifications to the input video, such as removing, changing subjects, and/or adding new objects. The proposed approach stands out from other methods through several significant contributions: (1) RACCooN suggests a multi-granular spatiotemporal pooling strategy to generate well-structured video descriptions, capturing both the broad context and object details without requiring complex human annotations, simplifying precise video content editing based on text for users. (2) Our video generative model incorporates auto-generated narratives or instructions to enhance the quality and accuracy of the generated content. (3) RACCooN also plans to imagine new objects in a given video, so users simply prompt the model to receive a detailed video editing plan for complex video editing. The proposed framework demonstrates impressive versatile capabilities in video-to-paragraph generation, video content editing, and can be incorporated into other SoTA video generative models for further enhancement.
Abstract（参考訳）: 最近のビデオ生成モデルは、主にインペイントやスタイル編集のような特定のタスクのために、注意深く書かれたテキストプロンプトに依存している。インプットビデオには労働集約的なテキスト記述が必要で、個人/生のビデオのユーザ仕様への適応の柔軟性を損なう。本稿では,RACCooNを提案する。RACCooNは汎用的でユーザフレンドリなビデオ-パラグラフ-ビデオ合成フレームワークで,複数のビデオ編集機能(削除,追加,修正など)をサポートする。 RACCooNは、V2P(Video-to-Paragraph)とP2V(Paragraph-to-Video)の2つの主要ステージで構成されている。 V2Pの段階では、ビデオシーンを構造化された自然言語で自動的に記述し、全体的コンテキストと焦点を絞ったオブジェクトの詳細の両方をキャプチャする。その後、P2Vの段階では、ユーザーはこれらの記述を任意に洗練してビデオ拡散モデルをガイドし、被写体を取り除いたり、変更したり、新しいオブジェクトを追加したりして、入力ビデオに様々な変更を加えることができる。 1)RACCooNは、構造化されたビデオ記述を生成するための多言語時空間プーリング戦略を提案し、複雑な人間のアノテーションを必要とせず、広義のコンテキストとオブジェクトの詳細の両方をキャプチャし、ユーザのテキストに基づいた正確なビデオコンテンツ編集を簡素化する。 2)ビデオ生成モデルは,自動生成した物語や指示を取り入れ,生成したコンテンツの質と精度を高める。 (3) RACCooNは、与えられたビデオの中に新しいオブジェクトを想像する計画もあるので、ユーザーは複雑なビデオ編集のための詳細なビデオ編集プランを受け取るようにモデルに促す。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。

関連論文リスト

Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文参考訳（メタデータ） (2025-03-08T16:27:53Z)
Text-Video Multi-Grained Integration for Video Moment Montage [13.794791614348084]
ビデオモーメント・モンタージュ(VMM)と呼ばれる新しいタスクは、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に見つけることを目的としている。我々は,スクリプトからテキスト機能を効率的に融合させる新しいテキストテキスト-ビデオ多言語統合手法 (TV-MGI) を提案する。
論文参考訳（メタデータ） (2024-12-12T13:40:59Z)
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。 VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-11-22T18:31:47Z)
AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。 AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文参考訳（メタデータ） (2024-03-21T15:15:00Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文参考訳（メタデータ） (2023-05-29T17:11:39Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。