論文の概要: Exploring the Role of Audio in Video Captioning
- arxiv url: http://arxiv.org/abs/2306.12559v1
- Date: Wed, 21 Jun 2023 20:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:14:53.482751
- Title: Exploring the Role of Audio in Video Captioning
- Title(参考訳): ビデオキャプションにおけるオーディオの役割を探る
- Authors: Yuhan Shen, Linjie Yang, Longyin Wen, Haichao Yu, Ehsan Elhamifar,
Heng Wang
- Abstract要約: 本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
- 参考スコア(独自算出の注目度): 59.679122191706426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent focus in video captioning has been on designing architectures that can
consume both video and text modalities, and using large-scale video datasets
with text transcripts for pre-training, such as HowTo100M. Though these
approaches have achieved significant improvement, the audio modality is often
ignored in video captioning. In this work, we present an audio-visual
framework, which aims to fully exploit the potential of the audio modality for
captioning. Instead of relying on text transcripts extracted via automatic
speech recognition (ASR), we argue that learning with raw audio signals can be
more beneficial, as audio has additional information including acoustic events,
speaker identity, etc. Our contributions are twofold. First, we observed that
the model overspecializes to the audio modality when pre-training with both
video and audio modality, since the ground truth (i.e., text transcripts) can
be solely predicted using audio. We proposed a Modality Balanced Pre-training
(MBP) loss to mitigate this issue and significantly improve the performance on
downstream tasks. Second, we slice and dice different design choices of the
cross-modal module, which may become an information bottleneck and generate
inferior results. We proposed new local-global fusion mechanisms to improve
information exchange across audio and video. We demonstrate significant
improvements by leveraging the audio modality on four datasets, and even
outperform the state of the art on some metrics without relying on the text
modality as the input.
- Abstract(参考訳): 最近のビデオキャプションの焦点は、ビデオとテキストのモダリティの両方を消費できるアーキテクチャの設計と、HowTo100Mのような事前トレーニング用のテキストスクリプティングを備えた大規模ビデオデータセットの使用である。
これらのアプローチは大幅に改善されているが、オーディオモダリティはビデオキャプションでは無視されることが多い。
本稿では,キャプションにおける音声モダリティの可能性を完全に活用することを目的とした,音声ビジュアルフレームワークを提案する。
自動音声認識(asr)によって抽出されたテキストの書き起こしに頼る代わりに、音声には音響イベントや話者のアイデンティティなどの追加情報があるため、生の音声信号による学習の方が有益であると主張する。
私たちの貢献は2倍です。
まず,映像と音声の両モードで事前学習する場合,そのモデルが過度に音響モダリティに変換されることを観測した。
我々は,この問題を緩和し,ダウンストリームタスクの性能を大幅に改善するために,mbp(modality balanced pre-training)ロスを提案する。
第2に,クロスモーダルモジュールの異なる設計選択をスライス・サイスすることで,情報のボトルネックとなり,結果が劣る可能性がある。
我々は,音声とビデオ間の情報交換を改善するための新しい局所的グローバル融合機構を提案した。
4つのデータセットでオーディオモダリティを活用し、入力としてテキストモダリティに頼ることなく、いくつかのメトリクスでアートの状態を上回ることによって、大幅な改善を示す。
関連論文リスト
- video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。