論文の概要: Multi-agent Auditory Scene Analysis
- arxiv url: http://arxiv.org/abs/2507.02755v1
- Date: Thu, 03 Jul 2025 16:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.586782
- Title: Multi-agent Auditory Scene Analysis
- Title(参考訳): マルチエージェント聴覚シーン解析
- Authors: Caleb Rascon, Luis Gato-Diaz, Eduardo García-Alarcón,
- Abstract要約: 聴覚シーン分析(ASA)は、音源の位置、分離、分類の3つの主要なタスクを実行することで、音環境から情報を取得することを目的としている。
これらのタスクを実行すると、全体のレスポンス時間がリニアに増加し、最後のタスクは最初のタスク(ロケーション)のエラーに非常に敏感になる。
タスクを並列に実行し、各タスク間のフィードバックループでローカルエラーを補うためのマルチエージェントアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditory scene analysis (ASA) aims to retrieve information from the acoustic environment, by carrying out three main tasks: sound source location, separation, and classification. These tasks are traditionally executed with a linear data flow, where the sound sources are first located; then, using their location, each source is separated into its own audio stream; from each of which, information is extracted that is relevant to the application scenario (audio event detection, speaker identification, emotion classification, etc.). However, running these tasks linearly increases the overall response time, while making the last tasks (separation and classification) highly sensitive to errors of the first task (location). A considerable amount of effort and computational complexity has been employed in the state-of-the-art to develop techniques that are the least error-prone possible. However, doing so gives rise to an ASA system that is non-viable in many applications that require a small computational footprint and a low response time, such as bioacoustics, hearing-aid design, search and rescue, human-robot interaction, etc. To this effect, in this work, a multi-agent approach is proposed to carry out ASA where the tasks are run in parallel, with feedback loops between them to compensate for local errors, such as: using the quality of the separation output to correct the location error; and using the classification result to reduce the localization's sensitivity towards interferences. The result is a multi-agent auditory scene analysis (MASA) system that is robust against local errors, without a considerable increase in complexity, and with a low response time. The complete proposed MASA system is provided as a framework that uses open-source tools for sound acquisition and reproduction (JACK) and inter-agent communication (ROS2), allowing users to add their own agents.
- Abstract(参考訳): 聴覚シーン分析(ASA)は、音源の位置、分離、分類の3つの主要なタスクを実行することで、音環境から情報を取得することを目的としている。
これらのタスクは伝統的に、まず音源が位置する線形データフローで実行され、その後、それぞれのソースをそれぞれのオーディオストリームに分離し、それぞれがアプリケーションシナリオ(オーディオイベント検出、話者識別、感情分類など)に関連する情報を抽出する。
しかしながら、これらのタスクの実行は、最終タスク(分離と分類)が最初のタスク(ロケーション)のエラーに非常に敏感になるようにしながら、全体の応答時間を線形に増加させる。
非常に多くの労力と計算の複雑さが最先端技術で採用され、最もエラーの少ない手法が開発されている。
しかし, 生体音響学, 補聴器設計, 探索・救助, ロボット間相互作用など, 少ない計算フットプリントと低応答時間を必要とする多くのアプリケーションでは実現不可能なASAシステムが発生する。
本研究では,タスクが並列に実行されるASAを実行するためのマルチエージェント手法を提案し,各タスク間のフィードバックループで局所誤差を補償する。例えば,分離出力の品質を用いて位置誤差を補正する,そして,分類結果を用いて,干渉に対する局所化の感度を低下させる,といった方法である。
その結果,局所誤差に対して頑健なマルチエージェント聴覚シーン解析 (MASA) システムで,複雑さが著しく増加せず,応答時間も低かった。
提案したMASAシステムは,音の取得と再生(JACK)とエージェント間通信(ROS2)にオープンソースツールを使用するフレームワークとして提供される。
関連論文リスト
- Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。
我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。
さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文 参考訳(メタデータ) (2025-06-17T16:19:21Z) - Collaborative Edge AI Inference over Cloud-RAN [37.3710464868215]
クラウド無線アクセスネットワーク(Cloud-RAN)ベースの協調エッジAI推論アーキテクチャを提案する。
具体的には、地理的に分散したデバイスが、リアルタイムのノイズ破壊センサデータサンプルをキャプチャし、ノイズの多い局所特徴ベクトルを抽出する。
我々は,各RRHが同一リソースブロック上の全デバイスから局所的特徴ベクトルを同時に受信することを可能にする。
これらの集約された特徴ベクトルは量子化され、さらに集約および下流推論タスクのために中央プロセッサに送信される。
論文 参考訳(メタデータ) (2024-04-09T04:26:16Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。