論文の概要: Reducing Prompt Sensitivity in LLM-based Speech Recognition Through Learnable Projection
- arxiv url: http://arxiv.org/abs/2601.20898v1
- Date: Wed, 28 Jan 2026 09:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.361598
- Title: Reducing Prompt Sensitivity in LLM-based Speech Recognition Through Learnable Projection
- Title(参考訳): 学習可能な投影によるLLM音声認識におけるプロンプト感度の低減
- Authors: Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Srikanth Madikeri, Andrés Carofilis, Pradeep Rangappa, Manjunath K E, Kadri Hacioglu, Petr Motlicek, Andreas Stolcke,
- Abstract要約: 自動音声認識における一般的な設計選択は、トレーニングと推論の両方において、固定された手動で定義されたプロンプトを使用することである。
本稿では、様々なデータセットにまたがる一般的なプロンプトの包括的分析を行い、迅速な選択がASR性能に大きく影響し、不安定性を導入することを示す。
LLM入力空間のより効率的な領域へのプロンプト埋め込みをプロンプトするモデルに依存しない拡張であるプロンプトプロジェクターモジュールを提案する。
- 参考スコア(独自算出の注目度): 14.623548406414514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based automatic speech recognition (ASR), a well-established approach, connects speech foundation models to large language models (LLMs) through a speech-to-LLM projector, yielding promising results. A common design choice in these architectures is the use of a fixed, manually defined prompt during both training and inference. This setup not only enables applicability across a range of practical scenarios, but also helps maximize model performance. However, the impact of prompt design remains underexplored. This paper presents a comprehensive analysis of commonly used prompts across diverse datasets, showing that prompt choice significantly affects ASR performance and introduces instability, with no single prompt performing best across all cases. Inspired by the speech-to-LLM projector, we propose a prompt projector module, a simple, model-agnostic extension that learns to project prompt embeddings to more effective regions of the LLM input space, without modifying the underlying LLM-based ASR model. Experiments on four datasets show that the addition of a prompt projector consistently improves performance, reduces variability, and outperforms the best manually selected prompts.
- Abstract(参考訳): LLMに基づく自動音声認識(ASR)は,音声基礎モデルと大言語モデル(LLM)を音声からLLMプロジェクタで接続し,有望な結果をもたらす。
これらのアーキテクチャにおける一般的な設計選択は、トレーニングと推論の両方において、手動で定義されたプロンプトを使用することである。
このセットアップは、さまざまな実践シナリオに適用可能にするだけでなく、モデルパフォーマンスの最大化にも役立ちます。
しかし、急進的な設計の影響は未解明のままである。
本稿では、様々なデータセットにまたがる一般的なプロンプトの包括的分析を行い、迅速な選択がASRの性能に大きく影響し、不安定性を導入し、すべてのケースで最善を尽くすプロンプトは1つも存在しないことを示した。
音声からLLMプロジェクタにインスパイアされたプロジェクタモジュールは,LLMの入力空間のより効率的な領域へのプロジェクタ埋め込みを,基礎となるLLMベースのASRモデルを変更することなく,単純なモデルに依存しないプロジェクタモジュールとして提案する。
4つのデータセットの実験によると、プロンプトプロジェクタの追加はパフォーマンスを一貫して改善し、可変性を低減し、手作業で選択したプロンプトよりも優れたパフォーマンスを発揮する。
関連論文リスト
- S2LPP: Small-to-Large Prompt Prediction across LLMs [11.917108741933356]
即時一貫性が自然言語推論などの他のタスクにまで拡張されていることを示す。
より小さなモデルを用いて、より大規模なモデルに対して効果的なプロンプトテンプレートを選択する方法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:07:30Z) - Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。