論文の概要: Evaluation of Deep Audio Representations for Hearables
- arxiv url: http://arxiv.org/abs/2502.06664v1
- Date: Mon, 10 Feb 2025 16:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:28.868981
- Title: Evaluation of Deep Audio Representations for Hearables
- Title(参考訳): 難聴者のためのディープオーディオ表現の評価
- Authors: Fabian Gröger, Pascal Baumann, Ludovic Amruthalingam, Laurent Simon, Ruksana Giurda, Simone Lionetti,
- Abstract要約: このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
- 参考スコア(独自算出の注目度): 1.5646349560044959
- License:
- Abstract: Effectively steering hearable devices requires understanding the acoustic environment around the user. In the computational analysis of sound scenes, foundation models have emerged as the state of the art to produce high-performance, robust, multi-purpose audio representations. We introduce and release Deep Evaluation of Audio Representations (DEAR), the first dataset and benchmark to evaluate the efficacy of foundation models in capturing essential acoustic properties for hearables. The dataset includes 1,158 audio tracks, each 30 seconds long, created by spatially mixing proprietary monologues with commercial, high-quality recordings of everyday acoustic scenes. Our benchmark encompasses eight tasks that assess the general context, speech sources, and technical acoustic properties of the audio scenes. Through our evaluation of four general-purpose audio representation models, we demonstrate that the BEATs model significantly surpasses its counterparts. This superiority underscores the advantage of models trained on diverse audio collections, confirming their applicability to a wide array of auditory tasks, including encoding the environment properties necessary for hearable steering. The DEAR dataset and associated code are available at https://dear-dataset.github.io.
- Abstract(参考訳): 聴取可能なデバイスを効果的に操るには、ユーザの周囲の音響環境を理解する必要がある。
音響シーンの計算解析において、基礎モデルは高性能で堅牢で多目的な音声表現を生成する最先端技術として登場した。
基本モデルの有効性を評価するための最初のデータセットとベンチマークであるDeep Evaluation of Audio Representations (DEAR) を導入・リリースする。
データセットには、1,158曲のオーディオトラックが30秒ごとに含まれており、空間的にプロプライエタリなモノローグと、日常の音響シーンの商業的で高品質な録音を混ぜて作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
4つの汎用音響表現モデルの評価を通じて、BEATsモデルがそのモデルを大幅に上回っていることを示す。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
DEARデータセットと関連するコードはhttps://dear-dataset.github.ioで公開されている。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。