論文の概要: Multi-encoder attention-based architectures for sound recognition with
partial visual assistance
- arxiv url: http://arxiv.org/abs/2209.12826v1
- Date: Mon, 26 Sep 2022 16:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:31:12.515184
- Title: Multi-encoder attention-based architectures for sound recognition with
partial visual assistance
- Title(参考訳): 部分視覚支援を用いた音声認識のためのマルチエンコーダアテンションベースアーキテクチャ
- Authors: Wim Boes, Hugo Van hamme
- Abstract要約: この問題に対処するために,マルチエンコーダフレームワークを使用できることを示す。
提案するモデル拡張は,部分的に利用可能な視覚情報を組み込むのに有効であることを示す。
- 参考スコア(独自算出の注目度): 14.160670979300628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale sound recognition data sets typically consist of acoustic
recordings obtained from multimedia libraries. As a consequence, modalities
other than audio can often be exploited to improve the outputs of models
designed for associated tasks. Frequently, however, not all contents are
available for all samples of such a collection: For example, the original
material may have been removed from the source platform at some point, and
therefore, non-auditory features can no longer be acquired.
We demonstrate that a multi-encoder framework can be employed to deal with
this issue by applying this method to attention-based deep learning systems,
which are currently part of the state of the art in the domain of sound
recognition. More specifically, we show that the proposed model extension can
successfully be utilized to incorporate partially available visual information
into the operational procedures of such networks, which normally only use
auditory features during training and inference. Experimentally, we verify that
the considered approach leads to improved predictions in a number of evaluation
scenarios pertaining to audio tagging and sound event detection. Additionally,
we scrutinize some properties and limitations of the presented technique.
- Abstract(参考訳): 大規模音声認識データセットは通常、マルチメディアライブラリから得られた音響記録から構成される。
その結果、オーディオ以外のモダリティは、関連するタスクのために設計されたモデルの出力を改善するためにしばしば利用される。
しかし、このようなコレクションのすべてのサンプルについて、すべてのコンテンツが利用できるわけではない。例えば、原資料は、ある時点でソースプラットフォームから削除された可能性があるため、非聴覚機能は、もはや取得できない。
本手法を音声認識分野の最先端技術である注目型ディープラーニングシステムに適用することにより,この問題に対処するためのマルチエンコーダフレームワークを応用できることを実証する。
より具体的には、提案したモデル拡張は、トレーニングや推論時にのみ聴覚機能を使用するネットワークの操作手順に、部分的に利用可能な視覚情報を組み込むためにうまく利用できることを示す。
実験により,提案手法が音響タグ付けおよび音響イベント検出に関する多くの評価シナリオにおいて,予測精度の向上につながることを確認した。
さらに,提案手法の特性と限界についても検討する。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Prompting Segmentation with Sound Is Generalizable Audio-Visual Source
Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。
具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。
我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文 参考訳(メタデータ) (2023-09-13T05:43:35Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。