論文の概要: ProGRes: Prompted Generative Rescoring on ASR n-Best
- arxiv url: http://arxiv.org/abs/2409.00217v2
- Date: Sun, 8 Sep 2024 20:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:55:38.395641
- Title: ProGRes: Prompted Generative Rescoring on ASR n-Best
- Title(参考訳): ProGRes: ASR n-Best上でのプログレッシブな生成リコーディング
- Authors: Ada Defne Tur, Adel Moumen, Mirco Ravanelli,
- Abstract要約: 大規模言語モデル(LLM)は,ビーム探索過程において発生するn-best仮説を効果的に再現することにより,音声認識の性能を向上させる能力を示した。
本稿では, 命令調整型LLMを用いて, 適切にプロンプトされたLLMを用いて生成した新しい仮説を用いて, n-best音声認識仮説を動的に拡張する手法を提案する。
- 参考スコア(独自算出の注目度): 10.536469576235223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown their ability to improve the performance of speech recognizers by effectively rescoring the n-best hypotheses generated during the beam search process. However, the best way to exploit recent generative instruction-tuned LLMs for hypothesis rescoring is still unclear. This paper proposes a novel method that uses instruction-tuned LLMs to dynamically expand the n-best speech recognition hypotheses with new hypotheses generated through appropriately-prompted LLMs. Specifically, we introduce a new zero-shot method for ASR n-best rescoring, which combines confidence scores, LLM sequence scoring, and prompt-based hypothesis generation. We compare Llama-3-Instruct, GPT-3.5 Turbo, and GPT-4 Turbo as prompt-based generators with Llama-3 as sequence scorer LLM. We evaluated our approach using different speech recognizers and observed significant relative improvement in the word error rate (WER) ranging from 5% to 25%.
- Abstract(参考訳): 大規模言語モデル(LLM)は,ビーム探索過程において発生するn-best仮説を効果的に再現することにより,音声認識の性能を向上させる能力を示した。
しかし、近年のジェネレーティブ・インストラクション・チューニング LLM を仮説再構成に活用する最善の方法はいまだ不明である。
本稿では, 命令調整型LLMを用いて, 適切にプロンプトされたLLMを用いて生成した新しい仮説を用いて, n-best音声認識仮説を動的に拡張する手法を提案する。
具体的には、信頼性スコア、LLMシークエンススコア、およびプロンプトベースの仮説生成を組み合わせた、ASR n-best Rescoringの新しいゼロショット手法を提案する。
Llama-3-Instruct, GPT-3.5 Turbo, GPT-4 Turbo をプロンプトベースジェネレータとして, Llama-3 をシーケンススコアラ LLM として比較した。
単語誤り率 (WER) は, 5%から25%の範囲で有意に改善した。
関連論文リスト
- Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction [22.27432554538809]
生成誤り訂正(GEC)は、現代の自動音声認識(ASR)システムの性能を高めるための、有望なパラダイムとして登場した。
既存のプロンプトがASR後の誤り訂正のタスクに最も有効なものかどうかはまだ分かっていない。
本稿ではまず,初期プロンプトを同定する代替プロンプトについて検討し,その初期プロンプトを改良するための進化的プロンプト最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-23T10:38:49Z) - Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions [28.211967723403987]
音声プレフィックスの最適化により、ASR性能が向上し、RNNT損失を適用して音声プレフィックスチューニングを行う方法を提案する。
平均10指標の認識結果から,提案したRNNT損失を用いたプレフィックスチューニングにより,WERの基準値に対する12%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-06-20T19:50:49Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Pushing The Limit of LLM Capacity for Text Classification [27.684335455517417]
本稿では,特殊なテキスト分類 LLM を生成するための適応型ブースティングフレームワーク RGPT を提案する。
RGPTは,4つのベンチマークで平均1.36%,8個のSOTA PLMと7個のSOTA LLMより有意に優れていた。
論文 参考訳(メタデータ) (2024-02-12T08:14:03Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。