論文の概要: CALM: Class-Conditional Sparse Attention Vectors for Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2602.07077v1
- Date: Fri, 06 Feb 2026 01:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.426272
- Title: CALM: Class-Conditional Sparse Attention Vectors for Large Audio-Language Models
- Title(参考訳): CALM:大規模オーディオ言語モデルのためのクラスコンディショナルスパース注意ベクトル
- Authors: Videet Mehta, Liming Wang, Hilde Kuehne, Rogerio Feris, James R. Glass, M. Jehanzeb Mirza,
- Abstract要約: 本稿では,クラス依存の重み付けを注目頭上で学習する数ショット分類法を提案する。
我々の手法は、最先端の統一投票方式よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 42.7207338433098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-language models (LALMs) exhibit strong zero-shot capabilities in multiple downstream tasks, such as audio question answering (AQA) and abstract reasoning; however, these models still lag behind specialized models for certain discriminative tasks (e.g., audio classification). Recent studies show that sparse subsets of attention heads within an LALM can serve as strong discriminative feature extractors for downstream tasks such as classification via simple voting schemes. However, these methods assign uniform weights to all selected heads, implicitly assuming that each head contributes equally across all semantic categories. In this work, we propose Class-Conditional Sparse Attention Vectors for Large Audio-Language Models, a few-shot classification method that learns class-dependent importance weights over attention heads. This formulation allows individual heads to specialize in distinct semantic categories and to contribute to ensemble predictions proportionally to their estimated reliability. Experiments on multiple few-shot audio and audiovisual classification benchmarks and tasks demonstrate that our method consistently outperforms state-of-the-art uniform voting-based approaches by up to 14.52%, 1.53%, 8.35% absolute gains for audio classification, audio-visual classification, and spoofing detection respectively.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声質問応答(AQA)や抽象的推論など、複数の下流タスクにおいて強力なゼロショット機能を示すが、これらのモデルは特定の識別的タスク(例えば、音声分類)の特殊なモデルよりも遅れている。
近年の研究では、LALM内の注目ヘッドの疎部分集合が、単純な投票方式による分類などの下流タスクのための強力な識別的特徴抽出器として機能することが示されている。
しかしながら、これらの手法は選択されたすべての頭部に均一な重みを割り当て、各頭部がすべての意味圏に等しく寄与することを暗黙的に仮定する。
本研究では,クラス依存の重み付けを注目頭上で学習する数ショット分類法であるLarge Audio-Language Modelsのためのクラス連続スパース注意ベクトルを提案する。
この定式化により、個々の頭は異なる意味圏を専門化し、推定された信頼性に比例してアンサンブル予測に寄与することができる。
複数の音声および音声視覚分類ベンチマークとタスクの実験により、我々の手法は、最先端の投票ベースのアプローチを最大14.52%、1.53%、絶対ゲイン8.35%、オーディオ分類8.35%、音声視覚分類8.5%、スプーフィング検出で一貫して上回っていることが示された。
関連論文リスト
- Self-Ensemble Post Learning for Noisy Domain Generalization [18.4218677759831]
本稿では,ノイズに対処する際の既存手法のやり直し方法について検討する。
モデル内の潜在機能には、特定の識別能力があることが分かりました。
本稿では,活用可能な特徴を多様化するセルフアンサンブル・ポストラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-12-11T17:09:35Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Multi-label Zero-Shot Audio Classification with Temporal Attention [8.518434546898524]
本研究では,マルチラベルゼロショット音声分類を行う手法を提案する。
我々は時間的注意を適応させ、その音響的および意味的適合性に基づいて、異なる音声セグメントに重みを割り当てる。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
論文 参考訳(メタデータ) (2024-08-31T09:49:41Z) - Audio Contrastive-based Fine-tuning: Decoupling Representation Learning and Classification [26.82307246813389]
本稿では、下流評価から表現の洗練を分離する2段階のアンタングル化フレームワークを提案する。
まず、モデルの埋め込み空間の幾何学的構造を明示的に改善するために「コントラストチューニング」ステージを用いる。
次に、幾何学的観点からこれらの洗練された表現の質を評価するために、双対プローブ評価プロトコルを導入する。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。