Fugu-MT 論文翻訳(概要): Edit As You Wish: Video Description Editing with Multi-grained Commands

論文の概要: Edit As You Wish: Video Description Editing with Multi-grained Commands

arxiv url: http://arxiv.org/abs/2305.08389v1
Date: Mon, 15 May 2023 07:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 15:51:23.641325
Title: Edit As You Wish: Video Description Editing with Multi-grained Commands
Title（参考訳）: 好きなように編集する: 多粒度コマンドによるビデオ記述編集
Authors: Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang and Qin Jin
Abstract要約: フレキシブルなユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する新しいビデオ記述編集(VDEdit)タスクを提案する。人間による書き直しの習慣に触発されて、ユーザコマンドを操作、位置、属性の三重項として設計し、多義的な使用要件をカバーする。 VDEditの評価には、キャプション品質、キャプション-コマンド整合性、キャプション-ビデオアライメントを測定するための総合的なメトリクスを採用する。
参考スコア（独自算出の注目度）: 42.103388680154055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically narrating a video with natural language can assist people in grasping and managing massive videos on the Internet. From the perspective of video uploaders, they may have varied preferences for writing the desired video description to attract more potential followers, e.g. catching customers' attention for product videos. The Controllable Video Captioning task is therefore proposed to generate a description conditioned on the user demand and video content. However, existing works suffer from two shortcomings: 1) the control signal is fixed and can only express single-grained control; 2) the video description can not be further edited to meet dynamic user demands. In this paper, we propose a novel Video Description Editing (VDEdit) task to automatically revise an existing video description guided by flexible user requests. Inspired by human writing-revision habits, we design the user command as a {operation, position, attribute} triplet to cover multi-grained use requirements, which can express coarse-grained control (e.g. expand the description) as well as fine-grained control (e.g. add specified details in specified position) in a unified format. To facilitate the VDEdit task, we first automatically construct a large-scale benchmark dataset namely VATEX-EDIT in the open domain describing diverse human activities. Considering the real-life application scenario, we further manually collect an e-commerce benchmark dataset called EMMAD-EDIT. We propose a unified framework to convert the {operation, position, attribute} triplet into a textual control sequence to handle multi-grained editing commands. For VDEdit evaluation, we adopt comprehensive metrics to measure three aspects of model performance, including caption quality, caption-command consistency, and caption-video alignment.
Abstract（参考訳）: 自然言語によるビデオの自動ナレーションは、インターネット上の大量のビデオの把握と管理を支援する。ビデオアップロードの観点では、顧客の製品ビデオに対する注意を引くなど、より潜在的なフォロワーを引き付けるために、望まれるビデオ記述を書くことの好みは様々である。そこで、制御可能なビデオキャプションタスクを提案し、ユーザ要求とビデオコンテンツに基づいた記述を生成する。しかし、現存する作品には2つの欠点がある。 1) 制御信号は固定され, 単一粒度制御のみを表現できる。 2) 動的なユーザ要求を満たすために,ビデオ記述をさらに編集することはできない。本稿では,フレキシブルなユーザ要求によって誘導される既存のビデオ記述を自動的に修正する新しいビデオ記述編集(vdedit)タスクを提案する。人間の書き直しの習慣に触発されて、ユーザコマンドを {operation, position, attribute} triplet として設計し、多粒度の使用要件をカバーし、粗粒度制御(例えば、記述を拡張)やきめ細かい制御(例えば、指定された位置に特定の詳細を追加する)を統一形式で表現できる。 VDEditタスクを容易にするために、まず、様々な人間の活動を記述するオープンドメインでVATEX-EDITと呼ばれる大規模なベンチマークデータセットを自動構築する。現実のアプリケーションシナリオを考えると、eコマースベンチマークデータセットであるemmad-editを手作業で収集します。操作,位置,属性の三重項をテキスト制御シーケンスに変換し,複数の粒度の編集コマンドを処理する統一フレームワークを提案する。 vdeditの評価には,キャプション品質,キャプションコマンド一貫性,キャプションビデオアライメントなど,モデルパフォーマンスの3つの側面を測定するための包括的なメトリクスを採用する。

関連論文リスト

Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文参考訳（メタデータ） (2025-07-25T18:11:23Z)
SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2025-05-06T08:47:14Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
Video Referring Expression Comprehension via Transformer with Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文参考訳（メタデータ） (2023-10-25T06:38:42Z)
DocFormerv2: Local Features for Document Understanding [15.669112678509522]
視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。 VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
論文参考訳（メタデータ） (2023-06-02T17:58:03Z)
All in Tokens: Unifying Output Space of Visual Tasks via Soft Token [30.6086480249568]
インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
論文参考訳（メタデータ） (2023-01-05T18:55:20Z)
IntentVizor: Towards Generic Query Guided Interactive Video Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文参考訳（メタデータ） (2021-09-30T03:44:02Z)
Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文参考訳（メタデータ） (2020-08-22T09:50:43Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos [60.62475495522428]
YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
論文参考訳（メタデータ） (2020-04-12T09:25:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。