論文の概要: Edit As You Wish: Video Description Editing with Multi-grained Commands
- arxiv url: http://arxiv.org/abs/2305.08389v1
- Date: Mon, 15 May 2023 07:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:51:23.641325
- Title: Edit As You Wish: Video Description Editing with Multi-grained Commands
- Title(参考訳): 好きなように編集する: 多粒度コマンドによるビデオ記述編集
- Authors: Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge,
Yuning Jiang and Qin Jin
- Abstract要約: フレキシブルなユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する新しいビデオ記述編集(VDEdit)タスクを提案する。
人間による書き直しの習慣に触発されて、ユーザコマンドを操作、位置、属性の三重項として設計し、多義的な使用要件をカバーする。
VDEditの評価には、キャプション品質、キャプション-コマンド整合性、キャプション-ビデオアライメントを測定するための総合的なメトリクスを採用する。
- 参考スコア(独自算出の注目度): 42.103388680154055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically narrating a video with natural language can assist people in
grasping and managing massive videos on the Internet. From the perspective of
video uploaders, they may have varied preferences for writing the desired video
description to attract more potential followers, e.g. catching customers'
attention for product videos. The Controllable Video Captioning task is
therefore proposed to generate a description conditioned on the user demand and
video content. However, existing works suffer from two shortcomings: 1) the
control signal is fixed and can only express single-grained control; 2) the
video description can not be further edited to meet dynamic user demands. In
this paper, we propose a novel Video Description Editing (VDEdit) task to
automatically revise an existing video description guided by flexible user
requests. Inspired by human writing-revision habits, we design the user command
as a {operation, position, attribute} triplet to cover multi-grained use
requirements, which can express coarse-grained control (e.g. expand the
description) as well as fine-grained control (e.g. add specified details in
specified position) in a unified format. To facilitate the VDEdit task, we
first automatically construct a large-scale benchmark dataset namely VATEX-EDIT
in the open domain describing diverse human activities. Considering the
real-life application scenario, we further manually collect an e-commerce
benchmark dataset called EMMAD-EDIT. We propose a unified framework to convert
the {operation, position, attribute} triplet into a textual control sequence to
handle multi-grained editing commands. For VDEdit evaluation, we adopt
comprehensive metrics to measure three aspects of model performance, including
caption quality, caption-command consistency, and caption-video alignment.
- Abstract(参考訳): 自然言語によるビデオの自動ナレーションは、インターネット上の大量のビデオの把握と管理を支援する。
ビデオアップロードの観点では、顧客の製品ビデオに対する注意を引くなど、より潜在的なフォロワーを引き付けるために、望まれるビデオ記述を書くことの好みは様々である。
そこで、制御可能なビデオキャプションタスクを提案し、ユーザ要求とビデオコンテンツに基づいた記述を生成する。
しかし、現存する作品には2つの欠点がある。
1) 制御信号は固定され, 単一粒度制御のみを表現できる。
2) 動的なユーザ要求を満たすために,ビデオ記述をさらに編集することはできない。
本稿では,フレキシブルなユーザ要求によって誘導される既存のビデオ記述を自動的に修正する新しいビデオ記述編集(vdedit)タスクを提案する。
人間の書き直しの習慣に触発されて、ユーザコマンドを {operation, position, attribute} triplet として設計し、多粒度の使用要件をカバーし、粗粒度制御(例えば、記述を拡張)やきめ細かい制御(例えば、指定された位置に特定の詳細を追加する)を統一形式で表現できる。
VDEditタスクを容易にするために、まず、様々な人間の活動を記述するオープンドメインでVATEX-EDITと呼ばれる大規模なベンチマークデータセットを自動構築する。
現実のアプリケーションシナリオを考えると、eコマースベンチマークデータセットであるemmad-editを手作業で収集します。
操作,位置,属性の三重項をテキスト制御シーケンスに変換し,複数の粒度の編集コマンドを処理する統一フレームワークを提案する。
vdeditの評価には,キャプション品質,キャプションコマンド一貫性,キャプションビデオアライメントなど,モデルパフォーマンスの3つの側面を測定するための包括的なメトリクスを採用する。
関連論文リスト
- RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - DocFormerv2: Local Features for Document Understanding [15.669112678509522]
視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。
VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。
我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
論文 参考訳(メタデータ) (2023-06-02T17:58:03Z) - All in Tokens: Unifying Output Space of Visual Tasks via Soft Token [30.6086480249568]
インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。
本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。
我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-01-05T18:55:20Z) - IntentVizor: Towards Generic Query Guided Interactive Video
Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。
ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文 参考訳(メタデータ) (2021-09-30T03:44:02Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in
Domain-Specific Videos [60.62475495522428]
YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。
本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
論文 参考訳(メタデータ) (2020-04-12T09:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。