論文の概要: Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification
- arxiv url: http://arxiv.org/abs/2603.06991v1
- Date: Sat, 07 Mar 2026 02:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.587379
- Title: Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification
- Title(参考訳): 低リソース分類のためのマルチモーダルLCMによる解釈可能なオーディオ属性の適応的発見
- Authors: Kosuke Yoshimura, Hisashi Kashima,
- Abstract要約: MLLM(Multimodal Large Language Models)を用いて,解釈可能な音声属性を適応的に検出する手法を提案する。
AdaFlockフレームワークの人間をMLLMに置き換えることで,属性発見の高速化を実現している。
各種音声タスクに対する実験結果から,本手法はMLLM予測に優れることが示された。
- 参考スコア(独自算出の注目度): 14.551516282301618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In predictive modeling for low-resource audio classification, extracting high-accuracy and interpretable attributes is critical. Particularly in high-reliability applications, interpretable audio attributes are indispensable. While human-driven attribute discovery is effective, its low throughput becomes a bottleneck. We propose a method for adaptively discovering interpretable audio attributes using Multimodal Large Language Models (MLLMs). By replacing humans in the AdaFlock framework with MLLMs, our method achieves significantly faster attribute discovery. Our method dynamically identifies salient acoustic characteristics via prompting and constructs an attribute-based ensemble classifier. Experimental results across various audio tasks demonstrate that our method outperforms direct MLLM prediction in the majority of evaluated cases. The entire training completes within 11 minutes, proving it a practical, adaptive solution that surpasses conventional human-reliant approaches.
- Abstract(参考訳): 低音源音声分類のための予測モデルでは,高精度かつ解釈可能な属性を抽出することが重要である。
特に信頼性の高いアプリケーションでは、解釈可能なオーディオ属性は不可欠である。
人間による属性発見は効果的だが、その低スループットはボトルネックとなる。
MLLM(Multimodal Large Language Models)を用いて,解釈可能な音声属性を適応的に検出する手法を提案する。
AdaFlockフレームワークの人間をMLLMに置き換えることで,属性発見の高速化を実現している。
本手法は,属性に基づくアンサンブル分類器のプロンプトと構成により,健全な音響特性を動的に同定する。
各種音声タスクに対する実験結果から,本手法はMLLM予測に優れることが示された。
訓練は11分以内に完了し、従来の人道支援のアプローチを超越した実践的で適応的なソリューションであることが証明された。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents [21.736748922886555]
本研究は,マルチモーダル大言語モデル(MLLM)に関連する新たなプライバシーリスクを明らかにする。
オーディオ・プライベート・属性・プロファイリングと呼ぶ手法であるオーディオ・データから機密性の高い個人属性を推測する能力は重大な脅威となる。
音声言語モデル(ALM)と大規模言語モデル(LLM)の相補的な長所を利用して推論能力を向上させるハイブリッドマルチエージェントフレームワークであるGiftsを提案する。
論文 参考訳(メタデータ) (2025-07-14T07:51:56Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。