論文の概要: Fine-grained Audible Video Description
- arxiv url: http://arxiv.org/abs/2303.15616v1
- Date: Mon, 27 Mar 2023 22:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:07:54.294743
- Title: Fine-grained Audible Video Description
- Title(参考訳): 細粒度可聴映像記述
- Authors: Xuyang Shen and Dong Li and Jinxing Zhou and Zhen Qin and Bowen He and
Xiaodong Han and Aixuan Li and Yuchao Dai and Lingpeng Kong and Meng Wang and
Yu Qiao and Yiran Zhong
- Abstract要約: FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
- 参考スコア(独自算出の注目度): 61.81122862375985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We explore a new task for audio-visual-language modeling called fine-grained
audible video description (FAVD). It aims to provide detailed textual
descriptions for the given audible videos, including the appearance and spatial
locations of each object, the actions of moving objects, and the sounds in
videos. Existing visual-language modeling tasks often concentrate on visual
cues in videos while undervaluing the language and audio modalities. On the
other hand, FAVD requires not only audio-visual-language modeling skills but
also paragraph-level language generation abilities. We construct the first
fine-grained audible video description benchmark (FAVDBench) to facilitate this
research. For each video clip, we first provide a one-sentence summary of the
video, ie, the caption, followed by 4-6 sentences describing the visual details
and 1-2 audio-related descriptions at the end. The descriptions are provided in
both English and Chinese. We create two new metrics for this task: an
EntityScore to gauge the completeness of entities in the visual descriptions,
and an AudioScore to assess the audio descriptions. As a preliminary approach
to this task, we propose an audio-visual-language transformer that extends
existing video captioning model with an additional audio branch. We combine the
masked language modeling and auto-regressive language modeling losses to
optimize our model so that it can produce paragraph-level descriptions. We
illustrate the efficiency of our model in audio-visual-language modeling by
evaluating it against the proposed benchmark using both conventional captioning
metrics and our proposed metrics. We further put our benchmark to the test in
video generation models, demonstrating that employing fine-grained video
descriptions can create more intricate videos than using captions.
- Abstract(参考訳): 本研究では,FAVDと呼ばれる音声視覚言語モデリングの新しい課題について検討する。
対象物の外観や空間的位置,移動対象の動作,映像中の音など,所定の可聴ビデオに関する詳細なテキスト記述を提供することを目的としている。
既存の視覚言語モデリングタスクは、言語とオーディオのモダリティを過小評価しながら、ビデオの視覚的手がかりに集中することが多い。
一方、FAVDは音声視覚言語モデリングスキルだけでなく、段落レベルの言語生成能力も必要としている。
本研究を円滑に進めるため, FAVDBench(きめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップに対して,まずビデオの1文要約,ie,キャプション,続いて4~6文の視覚詳細と1~2文の音声関連記述を提供する。
その説明は英語と中国語の両方で書かれている。
このタスクのために、視覚的記述におけるエンティティの完全性を評価するEntityScoreと、オーディオ記述を評価するAudioScoreの2つの新しいメトリクスを作成します。
この課題に対する予備的アプローチとして,既存の映像キャプションモデルを拡張した音声・視覚言語トランスフォーマを提案する。
マスク付き言語モデリングと自動回帰言語モデリングの損失を組み合わせることで、モデル最適化を行い、段落レベルの記述を生成する。
従来のキャプション指標と提案指標の両方を用いて,提案したベンチマークと比較し,音声視覚言語モデルにおけるモデルの有効性について述べる。
さらに,ビデオ生成モデルのベンチマークを行い,細粒度ビデオ記述を用いることでキャプションよりも複雑な映像を生成できることを実証した。
関連論文リスト
- Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。