論文の概要: Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning
- arxiv url: http://arxiv.org/abs/2604.06824v1
- Date: Wed, 08 Apr 2026 08:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.430686
- Title: Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning
- Title(参考訳): MLLMメタ推論による学習自由音源定位
- Authors: Subin Park, Jung Uk Kim,
- Abstract要約: 音源定位タスクは、音響と視覚の相関を利用して、音の放射する物体の位置を特定することを目的としている。
既存のSSLメソッドの多くは、対照的な学習ベースの特徴マッチングに依存しているが、明確な推論と検証は欠如している。
マルチモーダル大規模言語モデルの本質的な推論機能を利用する訓練不要なSSLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.266987119038134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound source localization task aims to identify the locations of sound-emitting objects by leveraging correlations between audio and visual modalities. Most existing SSL methods rely on contrastive learning-based feature matching, but lack explicit reasoning and verification, limiting their effectiveness in complex acoustic scenes. Inspired by human meta-cognitive processes, we propose a training-free SSL framework that exploits the intrinsic reasoning capabilities of Multimodal Large Language Models (MLLMs). Our Generation-Analysis-Refinement (GAR) pipeline consists of three stages: Generation produces initial bounding boxes and audio classifications; Analysis quantifies Audio-Visual Consistency via open-set role tagging and anchor voting; and Refinement applies adaptive gating to prevent unnecessary adjustments. Extensive experiments on single-source and multi-source benchmarks demonstrate competitive performance. The source code is available at https://github.com/VisualAIKHU/GAR-SSL.
- Abstract(参考訳): 音源定位タスクは、音響と視覚の相関を利用して、音の放射する物体の位置を特定することを目的としている。
既存のSSLメソッドの多くは、対照的な学習に基づく特徴マッチングに依存しているが、明確な推論と検証が欠如しており、複雑な音響シーンでの有効性を制限している。
本稿では,マルチモーダル大規模言語モデル(MLLM)の本質的な推論機能を活用したトレーニング不要なSSLフレームワークを提案する。
生成・分析・縮小(GAR)パイプラインは、初期境界ボックスと音声分類の生成、オープンセットのロールタグ付けとアンカー投票によるオーディオ・ビジュアル・一貫性の定量化、不必要な調整を防ぐための適応的ゲーティングの適用の3段階からなる。
シングルソースとマルチソースのベンチマークに関する大規模な実験は、競争力のあるパフォーマンスを示している。
ソースコードはhttps://github.com/VisualAIKHU/GAR-SSLで入手できる。
関連論文リスト
- SICL-AT: Another way to adapt Auditory LLM to low-resource task [34.82834349882226]
聴覚大言語モデル(LLM)は,幅広い音声・音声理解タスクにおいて高い性能を示した。
低リソースや不慣れなタスクに適用すると、しばしば苦労します。
In-Context Learning (ICL)は、トレーニングなしの推論時間ソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-26T19:15:16Z) - An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM [15.340075567628466]
本研究は,プロンプト内で音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
その結果,ゼロショットインターリーブでも推論タスクの性能は向上するが,微調整が少なすぎると結果がさらに改善することがわかった。
論文 参考訳(メタデータ) (2025-11-04T03:54:55Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Semi-supervised source localization in reverberant environments with
deep generative modeling [25.085177610870666]
残響環境における音源定位に対する半監督的アプローチを提案する。
このアプローチは深い生成モデルに基づいている。
VAE-SSL は SRP-PHAT と完全教師付き CNN の両方より優れていることがわかった。
論文 参考訳(メタデータ) (2021-01-26T08:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。