Fugu-MT 論文翻訳(概要): Language-based Video Editing via Multi-Modal Multi-Level Transformer

論文の概要: Language-based Video Editing via Multi-Modal Multi-Level Transformer

arxiv url: http://arxiv.org/abs/2104.01122v1
Date: Fri, 2 Apr 2021 15:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 13:46:32.659760
Title: Language-based Video Editing via Multi-Modal Multi-Level Transformer
Title（参考訳）: マルチモーダルマルチレベルトランスフォーマによる言語ベースの映像編集
Authors: Tsu-Jui Fu, Xin Eric Wang, Scott T. Grafton, Miguel P. Eckstein, William Yang Wang
Abstract要約: 本稿では,テキスト指示によりモデルを編集し,ソース映像を対象映像に編集する言語ベースの映像編集タスクを提案する。 LBVEを実現するマルチモードマルチレベルトランス(M$3$L-Transformer)を提案します。 M$3$L-Transformerはビデオ認識と言語意味の対応を異なるレベルで動的に学習する。
参考スコア（独自算出の注目度）: 64.88686984864215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video editing tools are widely used nowadays for digital design. Although the demand for these tools is high, the prior knowledge required makes it difficult for novices to get started. Systems that could follow natural language instructions to perform automatic editing would significantly improve accessibility. This paper introduces the language-based video editing (LBVE) task, which allows the model to edit, guided by text instruction, a source video into a target video. LBVE contains two features: 1) the scenario of the source video is preserved instead of generating a completely different video; 2) the semantic is presented differently in the target video, and all changes are controlled by the given instruction. We propose a Multi-Modal Multi-Level Transformer (M$^3$L-Transformer) to carry out LBVE. The M$^3$L-Transformer dynamically learns the correspondence between video perception and language semantic at different levels, which benefits both the video understanding and video frame synthesis. We build three new datasets for evaluation, including two diagnostic and one from natural videos with human-labeled text. Extensive experimental results show that M$^3$L-Transformer is effective for video editing and that LBVE can lead to a new field toward vision-and-language research.
Abstract（参考訳）: ビデオ編集ツールはデジタルデザインに広く使われている。これらのツールの需要は高いが、事前の知識は初心者が始めるのを困難にしている。自然言語命令に従って自動編集を行うシステムは、アクセシビリティを大幅に改善する。本稿では,テキスト指示によりモデルを編集し,ソース映像を対象映像に編集するlbve(language-based video editing)タスクを提案する。 LBVEには2つの特徴がある: 1) ソースビデオのシナリオは、完全に異なるビデオを生成する代わりに保存される; 2) セマンティクスは、ターゲットビデオで異なる方法で表示され、全ての変更は、所定の命令によって制御される。 LBVEを実現するためのマルチモードマルチレベルトランス(M$^3$L-Transformer)を提案する。 M$3$L-Transformerはビデオ認識と言語意味の対応を異なるレベルで動的に学習し、ビデオ理解とビデオフレーム合成の両方に有効である。評価のための3つの新しいデータセットを構築し、その中には、人間のラベル付きテキストによる2つの診断と1つの自然なビデオが含まれる。 M$^3$L-Transformer はビデオ編集に有効であり,LBVE は視覚・言語研究に新たな分野へと導くことができる。

関連論文リスト

OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation [22.970558073760433]
OmniV2Vは様々な操作に基づいて様々なシナリオで動画を生成・編集できるビデオモデルである。さらに、LLaVAに基づく視覚テキスト命令モジュールを設計し、視覚コンテンツと命令の対応を効果的に理解できるようにする。実験によると、OmniV2Vは、多くのビデオ生成および編集タスクのための、最良のオープンソースおよび商用モデルと同様に、時には優れた機能を示す。
論文参考訳（メタデータ） (2025-06-02T15:42:06Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。 RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文参考訳（メタデータ） (2024-03-10T03:29:56Z)
VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。 VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文参考訳（メタデータ） (2023-12-21T18:46:41Z)
Valley: Video Assistant with Large Language model Enhanced abilitY [46.90402681897982]
ビデオ理解の強化と指示追従機能を実現するために設計された,マルチモーダル基盤モデルであるValleyを紹介する。我々の実験は、バレーが効果的なビデオアシスタントとして機能し、複雑なビデオ理解のシナリオを単純化する可能性を実証している。
論文参考訳（メタデータ） (2023-06-12T16:11:10Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Joint Moment Retrieval and Highlight Detection Via Natural Language Queries [0.0]
本稿では,自然言語クエリに基づく共同動画要約とハイライト検出のための新しい手法を提案する。このアプローチでは、視覚とオーディオの両方のキューを使用して、ユーザの自然言語クエリにマッチして、ビデオから最も関連性があり興味深い瞬間を検索する。提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマーライクなエンコーダデコーダモデルを作成する。
論文参考訳（メタデータ） (2023-05-08T18:00:33Z)
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (2022-09-15T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。