論文の概要: Fine-grained Audible Video Description
- arxiv url: http://arxiv.org/abs/2303.15616v1
- Date: Mon, 27 Mar 2023 22:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:07:54.294743
- Title: Fine-grained Audible Video Description
- Title(参考訳): 細粒度可聴映像記述
- Authors: Xuyang Shen and Dong Li and Jinxing Zhou and Zhen Qin and Bowen He and
Xiaodong Han and Aixuan Li and Yuchao Dai and Lingpeng Kong and Meng Wang and
Yu Qiao and Yiran Zhong
- Abstract要約: FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
- 参考スコア(独自算出の注目度): 61.81122862375985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We explore a new task for audio-visual-language modeling called fine-grained
audible video description (FAVD). It aims to provide detailed textual
descriptions for the given audible videos, including the appearance and spatial
locations of each object, the actions of moving objects, and the sounds in
videos. Existing visual-language modeling tasks often concentrate on visual
cues in videos while undervaluing the language and audio modalities. On the
other hand, FAVD requires not only audio-visual-language modeling skills but
also paragraph-level language generation abilities. We construct the first
fine-grained audible video description benchmark (FAVDBench) to facilitate this
research. For each video clip, we first provide a one-sentence summary of the
video, ie, the caption, followed by 4-6 sentences describing the visual details
and 1-2 audio-related descriptions at the end. The descriptions are provided in
both English and Chinese. We create two new metrics for this task: an
EntityScore to gauge the completeness of entities in the visual descriptions,
and an AudioScore to assess the audio descriptions. As a preliminary approach
to this task, we propose an audio-visual-language transformer that extends
existing video captioning model with an additional audio branch. We combine the
masked language modeling and auto-regressive language modeling losses to
optimize our model so that it can produce paragraph-level descriptions. We
illustrate the efficiency of our model in audio-visual-language modeling by
evaluating it against the proposed benchmark using both conventional captioning
metrics and our proposed metrics. We further put our benchmark to the test in
video generation models, demonstrating that employing fine-grained video
descriptions can create more intricate videos than using captions.
- Abstract(参考訳): 本研究では,FAVDと呼ばれる音声視覚言語モデリングの新しい課題について検討する。
対象物の外観や空間的位置,移動対象の動作,映像中の音など,所定の可聴ビデオに関する詳細なテキスト記述を提供することを目的としている。
既存の視覚言語モデリングタスクは、言語とオーディオのモダリティを過小評価しながら、ビデオの視覚的手がかりに集中することが多い。
一方、FAVDは音声視覚言語モデリングスキルだけでなく、段落レベルの言語生成能力も必要としている。
本研究を円滑に進めるため, FAVDBench(きめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップに対して,まずビデオの1文要約,ie,キャプション,続いて4~6文の視覚詳細と1~2文の音声関連記述を提供する。
その説明は英語と中国語の両方で書かれている。
このタスクのために、視覚的記述におけるエンティティの完全性を評価するEntityScoreと、オーディオ記述を評価するAudioScoreの2つの新しいメトリクスを作成します。
この課題に対する予備的アプローチとして,既存の映像キャプションモデルを拡張した音声・視覚言語トランスフォーマを提案する。
マスク付き言語モデリングと自動回帰言語モデリングの損失を組み合わせることで、モデル最適化を行い、段落レベルの記述を生成する。
従来のキャプション指標と提案指標の両方を用いて,提案したベンチマークと比較し,音声視覚言語モデルにおけるモデルの有効性について述べる。
さらに,ビデオ生成モデルのベンチマークを行い,細粒度ビデオ記述を用いることでキャプションよりも複雑な映像を生成できることを実証した。
関連論文リスト
- DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。