論文の概要: Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
- arxiv url: http://arxiv.org/abs/2210.16428v2
- Date: Wed, 24 May 2023 05:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:00:29.486919
- Title: Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention
- Title(参考訳): 適応型視聴覚注意による視覚認識音声キャプション
- Authors: Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan
Sun, Shengchen Li, Tom Ko, Yu Zhang, Lilian H. Tang, Mark D. Plumbley, Volkan
K{\i}l{\i}\c{c}, Wenwu Wang
- Abstract要約: 曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 54.4258176885084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio captioning aims to generate text descriptions of audio clips. In the
real world, many objects produce similar sounds. How to accurately recognize
ambiguous sounds is a major challenge for audio captioning. In this work,
inspired by inherent human multimodal perception, we propose visually-aware
audio captioning, which makes use of visual information to help the description
of ambiguous sounding objects. Specifically, we introduce an off-the-shelf
visual encoder to extract video features and incorporate the visual features
into an audio captioning system. Furthermore, to better exploit complementary
audio-visual contexts, we propose an audio-visual attention mechanism that
adaptively integrates audio and visual context and removes the redundant
information in the latent space. Experimental results on AudioCaps, the largest
audio captioning dataset, show that our proposed method achieves
state-of-the-art results on machine translation metrics.
- Abstract(参考訳): 音声キャプションは、音声クリップのテキスト記述を生成することを目的としている。
現実世界では、多くの物体が同様の音を出す。
曖昧な音を正確に認識する方法は、音声キャプションの大きな課題である。
本研究では,人間固有のマルチモーダル知覚にインスパイアされた視覚情報を利用した視覚認識音声キャプションを提案する。
具体的には,映像特徴を抽出し,映像特徴を音声キャプションシステムに組み込むために,市販のビジュアルエンコーダを導入する。
さらに,補完的な視聴覚コンテキストをより活用するために,音声と視覚コンテキストを適応的に統合し,潜在空間における冗長な情報を除去する視聴覚注意機構を提案する。
最大の音声キャプションデータセットであるAudioCapsの実験結果から,提案手法が機械翻訳メトリクスの最先端結果を達成することを示す。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。