論文の概要: DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information
- arxiv url: http://arxiv.org/abs/2409.11729v1
- Date: Wed, 18 Sep 2024 06:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:00:08.055442
- Title: DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information
- Title(参考訳): DETECLAP:オブジェクト情報によるオーディオ・ビジュアル表現学習の強化
- Authors: Shota Nakada, Taichi Nishimura, Hokuto Munakata, Masayoshi Kondo, Tatsuya Komatsu,
- Abstract要約: 本稿では,オブジェクト情報を用いた音声視覚表現学習手法であるDETECLAPを紹介する。
キーとなるアイデアは、既存のContrastive Audio-Visual Masked AutoEncoderに、音声と視覚のラベル予測損失を導入することです。
VGGSoundとAudioSet20Kデータセットを用いて,音声・視覚的検索と分類の手法を評価する。
- 参考スコア(独自算出の注目度): 13.261797668970313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current audio-visual representation learning can capture rough object categories (e.g., ``animals'' and ``instruments''), but it lacks the ability to recognize fine-grained details, such as specific categories like ``dogs'' and ``flutes'' within animals and instruments. To address this issue, we introduce DETECLAP, a method to enhance audio-visual representation learning with object information. Our key idea is to introduce an audio-visual label prediction loss to the existing Contrastive Audio-Visual Masked AutoEncoder to enhance its object awareness. To avoid costly manual annotations, we prepare object labels from both audio and visual inputs using state-of-the-art language-audio models and object detectors. We evaluate the method of audio-visual retrieval and classification using the VGGSound and AudioSet20K datasets. Our method achieves improvements in recall@10 of +1.5% and +1.2% for audio-to-visual and visual-to-audio retrieval, respectively, and an improvement in accuracy of +0.6% for audio-visual classification.
- Abstract(参考訳): 現在の音声・視覚的表現学習は、粗い対象のカテゴリ(例: ``animals'' と ``instruments'')をキャプチャすることができるが、動物や楽器の ‘`dogs' や ``flutes' のような特定のカテゴリのような細かな詳細を認識できない。
この問題に対処するために,オブジェクト情報を用いた音声視覚表現学習法であるDETECLAPを導入する。
私たちのキーとなるアイデアは、既存のContrastive Audio-Visual Masked AutoEncoderに、視覚的ラベル予測の損失を導入して、オブジェクトの認識を高めることです。
コストのかかる手動アノテーションを避けるため,最先端の言語音響モデルとオブジェクト検出器を用いて,音声と視覚の両方からオブジェクトラベルを作成する。
VGGSoundとAudioSet20Kデータセットを用いて,音声・視覚的検索と分類の手法を評価する。
本手法は,音声・視覚・音声検索における+1.5%と+1.2%のリコール@10の改善と,音声・視覚分類における+0.6%の精度向上を実現している。
関連論文リスト
- Learning Self-Supervised Audio-Visual Representations for Sound Recommendations [0.0]
ラベルのないビデオから音声と視覚表現を学習するための,新たな自己教師型アプローチを提案する。
このアプローチでは、音声と視覚ストリームから異なる解像度で抽出された畳み込み特徴の相対的重要性を、注意機構を用いて学習する。
モデルが学習した表現を評価し,音声と視覚の相関を分類し,視覚シーンに対する音響効果を推奨する。
論文 参考訳(メタデータ) (2024-12-10T10:56:02Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。