論文の概要: Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
- arxiv url: http://arxiv.org/abs/2210.16428v1
- Date: Fri, 28 Oct 2022 22:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:05:52.499683
- Title: Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
- Title(参考訳): 適応型視聴覚注意による視覚認識音声キャプション
- Authors: Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan
Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan
K{\i}l{\i}\c{c}, Wenwu Wang
- Abstract要約: 曖昧な音を正確に認識する方法は、音声キャプションシステムにとって大きな課題である。
人間の視覚的マルチモーダル知覚に触発され,視覚に適応した音声キャプションを提案する。
ビデオ入力を処理するために市販のビジュアルエンコーダを導入し,抽出した視覚特徴を音声キャプションシステムに組み込む。
- 参考スコア(独自算出の注目度): 54.4258176885084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning is the task of generating captions that describe the content
of audio clips. In the real world, many objects produce similar sounds. It is
difficult to identify these auditory ambiguous sound events with access to
audio information only. How to accurately recognize ambiguous sounds is a major
challenge for audio captioning systems. In this work, inspired by the
audio-visual multi-modal perception of human beings, we propose visually-aware
audio captioning, which makes use of visual information to help the recognition
of ambiguous sounding objects. Specifically, we introduce an off-the-shelf
visual encoder to process the video inputs, and incorporate the extracted
visual features into an audio captioning system. Furthermore, to better exploit
complementary contexts from redundant audio-visual streams, we propose an
audio-visual attention mechanism that integrates audio and visual information
adaptively according to their confidence levels. Experimental results on
AudioCaps, the largest publicly available audio captioning dataset, show that
the proposed method achieves significant improvement over a strong baseline
audio captioning system and is on par with the state-of-the-art result.
- Abstract(参考訳): 音声キャプションは、音声クリップの内容を記述するキャプションを生成するタスクである。
現実世界では、多くの物体が同様の音を出す。
これらの不明瞭な音声イベントを音声情報のみにアクセスして識別することは困難である。
曖昧な音を正確に認識する方法は、音声キャプションシステムにとって大きな課題である。
本研究では,人間の音声・視覚的マルチモーダル知覚に触発された視覚情報を利用した視覚的音声キャプションを提案する。
具体的には,映像入力を処理し,抽出した視覚特徴を音声キャプションシステムに組み込む,市販のビジュアルエンコーダを導入する。
さらに,冗長な音声・映像ストリームからの補完的コンテキストをより活用するために,その信頼度に応じて音響・視覚情報を適応的に統合する音声・視覚注意機構を提案する。
公開音声キャプションデータセットであるaudiocapsにおける実験結果から,提案手法は,音声キャプションシステムの性能が向上し,最新の結果と同等であることが判明した。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。