論文の概要: FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations
- arxiv url: http://arxiv.org/abs/2606.02615v1
- Date: Tue, 26 May 2026 15:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.460998
- Title: FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations
- Title(参考訳): FSA-GRPO:Few-shot Demonstrations を用いた聴覚 LLM 指導
- Authors: Haolong Zheng, Siyin Wang, Xulin Fan, Zengrui Jin, Mark Hasegawa-Johnson,
- Abstract要約: Few-Shot Aware GRPOは、特別に設計された報酬を使用して、数発のデモを活用することを奨励するポストトレーニングレシピである。
本研究では,高出力成人ASRデータのみを用いたトレーニングにより,モデルの汎用的数ショット適応能力が向上することを示す。
- 参考スコア(独自算出の注目度): 33.5309824570101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot prompting provides an effective way to adapt auditory large language models to low-resource tasks such as children's speech recognition. However, most auditory large language models are not explicitly trained to perform inference in this demonstration-conditioned format, limiting the extent to which they can benefit from few-shot prompting. To address this limitation, we introduce Few-Shot Aware GRPO (FSA-GRPO), an RL-based post-training recipe that uses a specially designed reward to encourage the model to leverage few-shot demonstrations, thereby strengthening its few-shot adaptation ability. Notably, training with only high-resource adult ASR data improves the model's general few-shot adaptation ability, yielding gains not only in children's speech recognition but also in speech translation and audio understanding. We further study data selection and auxiliary reward weighting to identify an effective training recipe. Our experiments show that when in-domain data are unavailable or cannot be used for training, FSA-GRPO is more effective than direct tuning on related out-of-domain data.
- Abstract(参考訳): Few-shot promptingは、子どもの音声認識のような低リソースタスクに聴覚的大言語モデルを適用する効果的な方法を提供する。
しかし、ほとんどの聴覚的大言語モデルは、このデモ条件付きフォーマットで推論を実行するように明示的に訓練されていない。
この制限に対処するため,RLをベースとしたポストトレーニングレシピであるFew-Shot Aware GRPO (FSA-GRPO)を導入する。
特に、高解像度の成人ASRデータのみを用いたトレーニングは、モデルの一般的な少数ショット適応能力を改善し、子供の音声認識だけでなく、音声翻訳や音声理解にも利益をもたらす。
さらに,データ選択と補助報酬重み付けについて検討し,効果的なトレーニングレシピを同定する。
実験の結果,ドメイン内データが利用できない場合やトレーニングに使用できない場合,FSA-GRPOはドメイン外データを直接チューニングするよりも効果的であることがわかった。
関連論文リスト
- SICL-AT: Another way to adapt Auditory LLM to low-resource task [34.82834349882226]
聴覚大言語モデル(LLM)は,幅広い音声・音声理解タスクにおいて高い性能を示した。
低リソースや不慣れなタスクに適用すると、しばしば苦労します。
In-Context Learning (ICL)は、トレーニングなしの推論時間ソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-26T19:15:16Z) - Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文 参考訳(メタデータ) (2025-11-10T16:03:44Z) - Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。
我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。
提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文 参考訳(メタデータ) (2025-06-05T18:42:57Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。