論文の概要: Multi-modal Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2003.07758v2
- Date: Tue, 5 May 2020 18:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:27:26.554777
- Title: Multi-modal Dense Video Captioning
- Title(参考訳): マルチモーダル高密度ビデオキャプション
- Authors: Vladimir Iashin and Esa Rahtu
- Abstract要約: イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
- 参考スコア(独自算出の注目度): 18.592384822257948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense video captioning is a task of localizing interesting events from an
untrimmed video and producing textual description (captions) for each localized
event. Most of the previous works in dense video captioning are solely based on
visual information and completely ignore the audio track. However, audio, and
speech, in particular, are vital cues for a human observer in understanding an
environment. In this paper, we present a new dense video captioning approach
that is able to utilize any number of modalities for event description.
Specifically, we show how audio and speech modalities may improve a dense video
captioning model. We apply automatic speech recognition (ASR) system to obtain
a temporally aligned textual description of the speech (similar to subtitles)
and treat it as a separate input alongside video frames and the corresponding
audio track. We formulate the captioning task as a machine translation problem
and utilize recently proposed Transformer architecture to convert multi-modal
input data into textual descriptions. We demonstrate the performance of our
model on ActivityNet Captions dataset. The ablation studies indicate a
considerable contribution from audio and speech components suggesting that
these modalities contain substantial complementary information to video frames.
Furthermore, we provide an in-depth analysis of the ActivityNet Caption results
by leveraging the category tags obtained from original YouTube videos. Code is
publicly available: github.com/v-iashin/MDVC
- Abstract(参考訳): デンスビデオキャプションは、未編集のビデオから興味深いイベントをローカライズし、各ローカライズされたイベントのテキスト記述(キャプション)を生成するタスクである。
以前の高密度ビデオキャプションにおけるほとんどの作品は、視覚情報のみに基づいており、オーディオトラックを完全に無視している。
しかし、特に音声や音声は、環境を理解する上で人間の観察者にとって重要な手がかりである。
本稿では,イベント記述に任意の種類のモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
具体的には、音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
自動音声認識(ASR)システムを用いて、音声(字幕に類似した)の時間的に整列したテキスト記述を取得し、ビデオフレームと対応する音声トラックとともに別個の入力として扱う。
本稿では、機械翻訳問題としてキャプションタスクを定式化し、最近提案されたTransformerアーキテクチャを用いて、マルチモーダル入力データをテキスト記述に変換する。
我々は、ActivityNet Captionsデータセット上で、モデルの性能を示す。
アブレーション研究は、これらのモダリティがビデオフレームに相補的な情報を含むことを示唆する音声および音声成分からのかなりの寄与を示している。
さらに,オリジナルYouTubeビデオから得られたカテゴリタグを利用して,ActivityNet Captionの結果の詳細な分析を行う。
コード公開:github.com/v-iashin/MDVC
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。