論文の概要: Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over
- arxiv url: http://arxiv.org/abs/2406.18972v1
- Date: Thu, 27 Jun 2024 08:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:47:16.761329
- Title: Applying LLMs for Rescoring N-best ASR Hypotheses of Casual Conversations: Effects of Domain Adaptation and Context Carry-over
- Title(参考訳): 因果会話におけるN-best ASR仮説の再現のためのLLMの適用:ドメイン適応とコンテキストキャリーオーバーの効果
- Authors: Atsunori Ogawa, Naoyuki Kamo, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Takatomo Kano, Naohiro Tawara, Marc Delcroix,
- Abstract要約: 大規模言語モデル(LLM)は自動音声認識(ASR)仮説の再現に成功している。
本研究では,CHiME-7 リモート ASR (DASR) タスクにおいて Llama2 を用いた N-best ASR 仮説の再構成を行うことにより,その特徴を明らかにする。
- 参考スコア(独自算出の注目度): 46.02602063817651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been successfully applied for rescoring automatic speech recognition (ASR) hypotheses. However, their ability to rescore ASR hypotheses of casual conversations has not been sufficiently explored. In this study, we reveal it by performing N-best ASR hypotheses rescoring using Llama2 on the CHiME-7 distant ASR (DASR) task. Llama2 is one of the most representative LLMs, and the CHiME-7 DASR task provides datasets of casual conversations between multiple participants. We investigate the effects of domain adaptation of the LLM and context carry-over when performing N-best rescoring. Experimental results show that, even without domain adaptation, Llama2 outperforms a standard-size domain-adapted Transformer-LM, especially when using a long context. Domain adaptation shortens the context length needed with Llama2 to achieve its best performance, i.e., it reduces the computational cost of Llama2.
- Abstract(参考訳): 大規模言語モデル(LLM)は自動音声認識(ASR)仮説の再現に成功している。
しかし、カジュアルな会話のASR仮説を再評価する能力は十分に検討されていない。
本研究では,CHiME-7 リモート ASR (DASR) タスクにおいて Llama2 を用いた N-best ASR 仮説の再構成を行うことにより,その特徴を明らかにする。
Llama2は最も代表的なLCMの1つであり、CHiME-7 DASRタスクは複数の参加者間のカジュアルな会話のデータセットを提供する。
N-best rescoring(N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring, N-best rescoring)を行う場合, LLMのドメイン適応とコンテキストキャリーオーバーの効果を検討した。
実験の結果、Llama2はドメイン適応がなくても、特に長いコンテキストを使用する場合、標準サイズのドメイン適応トランスフォーマー-LMよりも優れていることがわかった。
ドメイン適応は、Llama2の最高の性能を達成するために必要なコンテキスト長を短縮する。
関連論文リスト
- DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。
予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering [35.2883028685345]
大規模言語モデル(LLM)は、ドメイン固有の質問応答(QA)の実際のシナリオにデプロイされる。
本稿では,2つの課題に対処するための2種類の選好セットを構築するKnowPAT(KnowPAT)を紹介する。
また,LLM選好と人間の選好を均一に一致させる新たなアライメント目標を設計する。
論文 参考訳(メタデータ) (2023-11-11T07:56:40Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Leveraging Large Language Models for Exploiting ASR Uncertainty [16.740712975166407]
大規模な言語モデルは、書き起こしのための既製の音声認識システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。
我々は,高い単語誤り率でLLMの発話意図を理解する能力を制限する音声意図分類タスクに取り組む。
我々は,誤り発生1-best仮説に代えて,ASR仮説のn-bestリストでLLMを推し進めることを提案する。
論文 参考訳(メタデータ) (2023-09-09T17:02:33Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Prompting Large Language Models for Zero-Shot Domain Adaptation in
Speech Recognition [33.07184218085399]
ドメイン固有のテキストプロンプトのみを用いて、LLaMAを用いた2つのゼロショットASRドメイン適応手法を提案する。
実験により、ドメインのプロンプトが1つしかないと、どちらの手法もドメイン外のTedLium-2とSPGIデータセットのワードエラー率(WER)を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2023-06-28T08:29:00Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。