論文の概要: SICL-AT: Another way to adapt Auditory LLM to low-resource task
- arxiv url: http://arxiv.org/abs/2601.18904v1
- Date: Mon, 26 Jan 2026 19:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.037425
- Title: SICL-AT: Another way to adapt Auditory LLM to low-resource task
- Title(参考訳): SICL-AT:低リソースタスクに聴覚LLMを適用する別の方法
- Authors: Haolong Zheng, Siyin Wang, Zengrui Jin, Mark Hasegawa-Johnson,
- Abstract要約: 聴覚大言語モデル(LLM)は,幅広い音声・音声理解タスクにおいて高い性能を示した。
低リソースや不慣れなタスクに適用すると、しばしば苦労します。
In-Context Learning (ICL)は、トレーニングなしの推論時間ソリューションを提供する。
- 参考スコア(独自算出の注目度): 34.82834349882226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditory Large Language Models (LLMs) have demonstrated strong performance across a wide range of speech and audio understanding tasks. Nevertheless, they often struggle when applied to low-resource or unfamiliar tasks. In case of labeled in-domain data is scarce or mismatched to the true test distribution, direct fine-tuning can be brittle. In-Context Learning (ICL) provides a training-free, inference-time solution by adapting auditory LLMs through conditioning on a few in-domain demonstrations. In this work, we first show that \emph{Vanilla ICL}, improves zero-shot performance across diverse speech and audio tasks for selected models which suggest this ICL adaptation capability can be generalized to multimodal setting. Building on this, we propose \textbf{Speech In-Context Learning Adaptation Training (SICL-AT)}, a post-training recipe utilizes only high resource speech data intending to strengthen model's in-context learning capability. The enhancement can generalize to audio understanding/reasoning task. Experiments indicate our proposed method consistently outperforms direct fine-tuning in low-resource scenario.
- Abstract(参考訳): 聴覚大言語モデル(LLM)は,幅広い音声・音声理解タスクにおいて高い性能を示した。
それでも、低リソースや不慣れなタスクに適用した場合、しばしば苦労する。
ドメイン内のラベル付きデータが真のテスト分布と一致していない場合、直接微調整は脆弱である。
In-Context Learning (ICL)は、いくつかのドメイン内デモの条件付けを通じて聴覚LLMを適用することで、トレーニング不要の推論時ソリューションを提供する。
本稿では,まず,選択したモデルに対する多様な音声・音声タスク間のゼロショット性能を向上し,このICL適応能力をマルチモーダル設定に一般化できることを示す。
そこで本研究では,モデル内学習能力を強化することを目的とした高リソース音声データのみを活用する,SICL-AT(textbf{Speech In-Context Learning Adaptation Training)を提案する。
この拡張は、音声理解/推論タスクに一般化することができる。
実験の結果,提案手法は低リソースシナリオにおける直接微調整よりも一貫して優れていた。
関連論文リスト
- Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文 参考訳(メタデータ) (2025-11-10T16:03:44Z) - An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM [15.340075567628466]
本研究は,プロンプト内で音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
その結果,ゼロショットインターリーブでも推論タスクの性能は向上するが,微調整が少なすぎると結果がさらに改善することがわかった。
論文 参考訳(メタデータ) (2025-11-04T03:54:55Z) - Surprise Calibration for Better In-Context Learning [6.566285172635043]
In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。
既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。
本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
論文 参考訳(メタデータ) (2025-06-15T10:04:42Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs [29.853196429972204]
LiSTENは、大規模な言語モデルをオーディオ言語タスクに適用するためのフレームワークである。
提案手法は,大規模ASRやキャプションデータセットへの依存を低減し,トレーニング可能なパラメータの少ない競合性能を実現し,シングルステージプロセスによるトレーニングを簡略化する。
論文 参考訳(メタデータ) (2025-05-24T05:28:22Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。