論文の概要: MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
- arxiv url: http://arxiv.org/abs/2509.20706v1
- Date: Thu, 25 Sep 2025 03:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.676398
- Title: MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model
- Title(参考訳): MI-Fuse: 閉鎖型大規模オーディオ言語モデルによる教師なしドメイン適応のためのラベル融合
- Authors: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声タスクに強いゼロショット能力を示し、音声感情認識(SER)の可能性を示唆している。
私たちは、未ラベルのターゲットドメインオーディオとAPIのみのLALMだけを考えると、学生モデルがターゲットドメインのLALMを上回るように適応できるだろうか?
LALMを補助教師としてソースドメイン訓練されたSERで補足する識別ラベル融合フレームワークであるMI-Fuseを提案する。
- 参考スコア(独自算出の注目度): 49.59690207400984
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label fusion framework that supplements the LALM with a source-domain trained SER classifier as an auxiliary teacher. The framework draws multiple stochastic predictions from both teachers, weights their mean distributions by mutual-information-based uncertainty, and stabilizes training with an exponential moving average teacher. Experiments across three public emotion datasets and six cross-domain transfers show consistent gains, with the student surpassing the LALM and outperforming the strongest baseline by 3.9%. This approach strengthens emotion-aware speech systems without sharing source data, enabling realistic adaptation.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、音声タスクに強いゼロショット能力を示し、音声感情認識(SER)の可能性を示唆している。
しかし、実世界のデプロイメントにおけるSERは、ソースデータが利用できず、強力なLALMがAPIを通してのみアクセス可能なドメインミスマッチで失敗することが多い。
私たちは、未ラベルのターゲットドメインオーディオとAPIのみのLALMだけを考えると、学生モデルがターゲットドメインのLALMを上回るように適応できるだろうか?
この目的のために, LALMを補助教師として, ソースドメインで訓練されたSER分類器で補足する識別ラベル融合フレームワークMI-Fuseを提案する。
このフレームワークは、両教師から複数の確率的予測を導き、相互情報に基づく不確実性によって平均分布を重み付け、指数的な移動平均教師によるトレーニングを安定化させる。
3つの公開感情データセットと6つのクロスドメイントランスファーによる実験は、学生がLALMを超え、最強のベースラインを3.9%上回る、一貫した利得を示している。
このアプローチは、ソースデータを共有せずに感情認識音声システムを強化し、現実的な適応を可能にする。
関連論文リスト
- COLA: Context-aware Language-driven Test-time Adaptation [20.919416740369975]
共有ラベルを必要とせずに、複数のターゲットドメインに適応可能な、より汎用的なソースモデルについて検討する。
これは、事前にトレーニングされた視覚言語モデル(VLM)、egno、CLIPを使用して、クラス記述にマッチして画像を認識することで実現される。
文脈認識型言語駆動型TTA(COLA)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:19:17Z) - Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding [59.09971455857609]
Video Temporal Groundingは、長いビデオの中で自然言語の記述と一致するビデオセグメントを時間的に見つけることを目的としている。
本稿では,データ効率のよいクロスドメイン時間グラウンド法を提案する。
この方法では、ターゲットアノテーションの必要性を排除し、計算とストレージの両方のオーバーヘッドをリアルタイムで実行できるほど低く保つ。
論文 参考訳(メタデータ) (2025-08-08T13:47:00Z) - ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters [3.729242965449096]
本稿では,大規模言語モデルの推論時間適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
Low-Rank Adaptation (LoRA)のような従来の微調整手法とは異なり、本手法はデコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChameleonLLMは大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T18:57:06Z) - Labels Generated by Large Language Models Help Measure People's Empathy in Vitro [9.536979155245026]
本稿では,大規模言語モデル(LLM)を用いて主流モデルの教師あり学習を改善することを提案する。
我々は,クラウドソースラベルをLCMラベルに置き換えたり補足したりすることで,統計的に有意な精度向上を実現していることを示す。
本稿では,評価指標の選択と人口統計バイアスを更に分析し,より公平な共感型コンピューティングモデルの開発を支援する。
論文 参考訳(メタデータ) (2025-01-01T01:06:58Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。