Fugu-MT 論文翻訳(概要): Edit As You Wish: Video Caption Editing with Multi-grained User Control

論文の概要: Edit As You Wish: Video Caption Editing with Multi-grained User Control

arxiv url: http://arxiv.org/abs/2305.08389v3
Date: Thu, 8 Aug 2024 09:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 21:19:13.577850
Title: Edit As You Wish: Video Caption Editing with Multi-grained User Control
Title（参考訳）: 編集:マルチグラデーション・ユーザー・コントロールによるビデオ・キャプション編集
Authors: Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge, Yuning Jiang, Xu Sun, Qin Jin,
Abstract要約: マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
参考スコア（独自算出の注目度）: 61.76233268900959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically narrating videos in natural language complying with user requests, i.e. Controllable Video Captioning task, can help people manage massive videos with desired intentions. However, existing works suffer from two shortcomings: 1) the control signal is single-grained which can not satisfy diverse user intentions; 2) the video description is generated in a single round which can not be further edited to meet dynamic needs. In this paper, we propose a novel \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} task to automatically revise an existing video description guided by multi-grained user requests. Inspired by human writing-revision habits, we design the user command as a pivotal triplet \{\textit{operation, position, attribute}\} to cover diverse user needs from coarse-grained to fine-grained. To facilitate the VCE task, we \textit{automatically} construct an open-domain benchmark dataset named VATEX-EDIT and \textit{manually} collect an e-commerce dataset called EMMAD-EDIT. We further propose a specialized small-scale model (i.e., OPA) compared with two generalist Large Multi-modal Models to perform an exhaustive analysis of the novel task. For evaluation, we adopt comprehensive metrics considering caption fluency, command-caption consistency, and video-caption alignment. Experiments reveal the task challenges of fine-grained multi-modal semantics understanding and processing. Our datasets, codes, and evaluation tools are available at https://github.com/yaolinli/VCE.
Abstract（参考訳）: ユーザ要求に応じた自然言語による動画の自動ナレーション、すなわち制御可能なビデオキャプションタスクは、人々が望んだ意図で巨大なビデオを管理するのに役立つ。しかし、現存する作品は2つの欠点に悩まされている。 1) 制御信号は単一粒状であり, 多様なユーザ意図を満足できない。 2)ビデオ記述は1ラウンドで生成され,動的なニーズを満たすためにさらに編集することはできない。本稿では,多粒度ユーザ要求によってガイドされた既存のビデオ記述を自動的に修正する,新しい \textbf{V}ideo \textbf{C}aption \textbf{E}diting \textbf{(VCE)} タスクを提案する。人間の書き直し習慣にインスパイアされたユーザコマンドは、粗粒度から細粒度まで多様なユーザニーズをカバーするために、ピボット三重項 \{\textit{operation, position, attribute}\} として設計する。 VCEタスクを容易にするために、VATEX-EDITというオープンドメインベンチマークデータセットを構築し、EMMAD-EDITと呼ばれるEコマースデータセットを収集します。さらに,2つの一般化した大規模マルチモーダルモデルと比較して,新しいタスクを網羅的に分析するために,特殊小スケールモデル(OPA)を提案する。評価には、キャプション流速、コマンド・キャプションの整合性、ビデオ・キャプションの整合性を考慮した総合的なメトリクスを採用する。実験は、微細なマルチモーダル意味論の理解と処理の課題を明らかにする。データセット、コード、評価ツールはhttps://github.com/yaolinli/VCE.comで公開されています。

関連論文リスト

Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。 Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文参考訳（メタデータ） (2025-08-19T17:59:39Z)
Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文参考訳（メタデータ） (2025-07-25T18:11:23Z)
SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2025-05-06T08:47:14Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
Video Referring Expression Comprehension via Transformer with Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文参考訳（メタデータ） (2023-10-25T06:38:42Z)
DocFormerv2: Local Features for Document Understanding [15.669112678509522]
視覚文書理解のためのマルチモーダル変換器DocFormerv2を提案する。 VDUドメインは、フォームから情報を抽出するなど、文書(単なるOCR予測)を理解する必要がある。我々のアプローチであるDocFormerv2はエンコーダ・デコーダ変換器であり、視覚、言語、空間的特徴を入力とする。
論文参考訳（メタデータ） (2023-06-02T17:58:03Z)
All in Tokens: Unifying Output Space of Visual Tasks via Soft Token [30.6086480249568]
インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
論文参考訳（メタデータ） (2023-01-05T18:55:20Z)
IntentVizor: Towards Generic Query Guided Interactive Video Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文参考訳（メタデータ） (2021-09-30T03:44:02Z)
Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文参考訳（メタデータ） (2020-08-22T09:50:43Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos [60.62475495522428]
YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオの詳細なアクション理解のための共通のベンチマークを提供することだ。本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。
論文参考訳（メタデータ） (2020-04-12T09:25:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。