論文の概要: Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over
- arxiv url: http://arxiv.org/abs/2406.18972v1
- Date: Thu, 27 Jun 2024 08:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:47:16.761329
- Title: Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over
- Title(参考訳): 因果会話におけるN-best ASR仮説の再現のためのLLMの適用:ドメイン適応とコンテキストキャリーオーバーの効果
- Authors: Atsunori Ogawa, Naoyuki Kamo, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Takatomo Kano, Naohiro Tawara, Marc Delcroix,
- Abstract要約: 大規模言語モデル(LLM)は自動音声認識(ASR)仮説の再現に成功している。
本研究では,CHiME-7 リモート ASR (DASR) タスクにおいて Llama2 を用いた N-best ASR 仮説の再構成を行うことにより,その特徴を明らかにする。
- 参考スコア(独自算出の注目度): 46.02602063817651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been successfully applied for rescoring automatic speech recognition (ASR) hypotheses. However, their ability to rescore ASR hypotheses of casual conversations has not been sufficiently explored. In this study, we reveal it by performing N-best ASR hypotheses rescoring using Llama2 on the CHiME-7 distant ASR (DASR) task. Llama2 is one of the most representative LLMs, and the CHiME-7 DASR task provides datasets of casual conversations between multiple participants. We investigate the effects of domain adaptation of the LLM and context carry-over when performing N-best rescoring. Experimental results show that, even without domain adaptation, Llama2 outperforms a standard-size domain-adapted Transformer-LM, especially when using a long context. Domain adaptation shortens the context length needed with Llama2 to achieve its best performance, i.e., it reduces the computational cost of Llama2.
- Abstract(参考訳): 大規模言語モデル(LLM)は自動音声認識(ASR)仮説の再現に成功している。
しかし、カジュアルな会話のASR仮説を再評価する能力は十分に検討されていない。
本研究では,CHiME-7 リモート ASR (DASR) タスクにおいて Llama2 を用いた N-best ASR 仮説の再構成を行うことにより,その特徴を明らかにする。
Llama2は最も代表的なLCMの1つであり、CHiME-7 DASRタスクは複数の参加者間のカジュアルな会話のデータセットを提供する。
N-best rescoring(N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring)を行う場合, LLMのドメイン適応とコンテキストキャリーオーバーの効果を検討した。
実験の結果、Llama2はドメイン適応がなくても、特に長いコンテキストを使用する場合、標準サイズのドメイン適応トランスフォーマー-LMよりも優れていることがわかった。
ドメイン適応は、Llama2の最高の性能を達成するために必要なコンテキスト長を短縮する。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文を対象とした2,326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Enhancing RAG with Active Learning on Conversation Records: Reject Incapables and Answer Capables [17.76687504479359]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)における外部知識の活用と幻覚の低減のための重要な手法である。
本稿では,LLMを用いた多種多様な会話を用いて高品質なデータセットを構築することを提案する。
本稿では、アクティブラーニングを用いて、アノテーションに最も適した会話サンプルを選択するAL4RAGを紹介する。
論文 参考訳(メタデータ) (2025-02-13T08:42:29Z) - Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。
復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。
遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-16T03:01:50Z) - Eliciting In-context Retrieval and Reasoning for Long-context Large Language Models [27.217391392240113]
長文言語モデル(LCLM)は知識ベース全体を処理し、直接検索と推論を行うことができる。
LOFTのような既存のベンチマークは、過度に単純化されたコンテキストを提供することでLCLMのパフォーマンスを過大評価することが多い。
ICR2はLCLMをより現実的なシナリオで評価するベンチマークである。
次に, LCLMの性能向上のための3つの手法を提案する。(1) 検索-then-generate fine-tuning, (2) 注意頭を用いてデコード中の長いコンテキストをフィルタリング・復調する検索-attention-probing, (3) 生成ヘッドと併用した共同検索ヘッドトレーニング。
論文 参考訳(メタデータ) (2025-01-14T16:38:33Z) - Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning [12.676026149146772]
大言語モデル(LLM)は自動音声認識(ASR)を改良した
このようなASRをペアのプロンプトなしでテキストのみのデータに微調整することで、ドメイン固有の知識の有効性を低下させる可能性がある。
ドメイン固有のテキスト適応を強化する2段階のソフトプロンプト微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-12-09T20:22:06Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition [33.07184218085399]
ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2023-06-28T08:29:00Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。