論文の概要: Edit As You Wish: Video Description Editing with Multi-grained Commands
- arxiv url: http://arxiv.org/abs/2305.08389v1
- Date: Mon, 15 May 2023 07:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:51:23.641325
- Title: Edit As You Wish: Video Description Editing with Multi-grained Commands
- Title(参考訳): 好きなように編集する: 多粒度コマンドによるビデオ記述編集
- Authors: Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge,
Yuning Jiang and Qin Jin
- Abstract要約: フレキシブルなユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する新しいビデオ記述編集(VDEdit)タスクを提案する。
人間による書き直しの習慣に触発されて、ユーザコマンドを操作、位置、属性の三重項として設計し、多義的な使用要件をカバーする。
VDEditの評価には、キャプション品質、キャプション-コマンド整合性、キャプション-ビデオアライメントを測定するための総合的なメトリクスを採用する。
- 参考スコア(独自算出の注目度): 42.103388680154055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically narrating a video with natural language can assist people in
grasping and managing massive videos on the Internet. From the perspective of
video uploaders, they may have varied preferences for writing the desired video
description to attract more potential followers, e.g. catching customers'
attention for product videos. The Controllable Video Captioning task is
therefore proposed to generate a description conditioned on the user demand and
video content. However, existing works suffer from two shortcomings: 1) the
control signal is fixed and can only express single-grained control; 2) the
video description can not be further edited to meet dynamic user demands. In
this paper, we propose a novel Video Description Editing (VDEdit) task to
automatically revise an existing video description guided by flexible user
requests. Inspired by human writing-revision habits, we design the user command
as a {operation, position, attribute} triplet to cover multi-grained use
requirements, which can express coarse-grained control (e.g. expand the
description) as well as fine-grained control (e.g. add specified details in
specified position) in a unified format. To facilitate the VDEdit task, we
first automatically construct a large-scale benchmark dataset namely VATEX-EDIT
in the open domain describing diverse human activities. Considering the
real-life application scenario, we further manually collect an e-commerce
benchmark dataset called EMMAD-EDIT. We propose a unified framework to convert
the {operation, position, attribute} triplet into a textual control sequence to
handle multi-grained editing commands. For VDEdit evaluation, we adopt
comprehensive metrics to measure three aspects of model performance, including
caption quality, caption-command consistency, and caption-video alignment.
- Abstract(参考訳): 自然言語によるビデオの自動ナレーションは、インターネット上の大量のビデオの把握と管理を支援する。
ビデオアップロードの観点では、顧客の製品ビデオに対する注意を引くなど、より潜在的なフォロワーを引き付けるために、望まれるビデオ記述を書くことの好みは様々である。
そこで、制御可能なビデオキャプションタスクを提案し、ユーザ要求とビデオコンテンツに基づいた記述を生成する。
しかし、現存する作品には2つの欠点がある。
1) 制御信号は固定され, 単一粒度制御のみを表現できる。
2) 動的なユーザ要求を満たすために,ビデオ記述をさらに編集することはできない。
本稿では,フレキシブルなユーザ要求によって誘導される既存のビデオ記述を自動的に修正する新しいビデオ記述編集(vdedit)タスクを提案する。
人間の書き直しの習慣に触発されて、ユーザコマンドを {operation, position, attribute} triplet として設計し、多粒度の使用要件をカバーし、粗粒度制御(例えば、記述を拡張)やきめ細かい制御(例えば、指定された位置に特定の詳細を追加する)を統一形式で表現できる。
VDEditタスクを容易にするために、まず、様々な人間の活動を記述するオープンドメインでVATEX-EDITと呼ばれる大規模なベンチマークデータセットを自動構築する。
現実のアプリケーションシナリオを考えると、eコマースベンチマークデータセットであるemmad-editを手作業で収集します。
操作,位置,属性の三重項をテキスト制御シーケンスに変換し,複数の粒度の編集コマンドを処理する統一フレームワークを提案する。
vdeditの評価には,キャプション品質,キャプションコマンド一貫性,キャプションビデオアライメントなど,モデルパフォーマンスの3つの側面を測定するための包括的なメトリクスを採用する。
関連論文リスト
- AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
本稿では,ビデオ編集を2つのステップに簡略化する新しいトレーニングフリーフレームワークであるAnyV2Vを紹介する。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートする。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - InstructVid2Vid: Controllable Video Editing with Natural Language
Instructions [106.6740407795944]
人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。
提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。
実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Explicit Image Caption Editing [22.168036947927774]
新しいタスクを紹介します: Explicit Caption Editing (ECE)
ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。
ECEは人間が字幕編集を行う方法に似ており、原文の構造を保とうとしている。
論文 参考訳(メタデータ) (2022-07-20T02:54:43Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。