論文の概要: Contextualization of ASR with LLM using phonetic retrieval-based augmentation
- arxiv url: http://arxiv.org/abs/2409.15353v1
- Date: Wed, 11 Sep 2024 18:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:43:38.429781
- Title: Contextualization of ASR with LLM using phonetic retrieval-based augmentation
- Title(参考訳): 音声検索に基づく拡張を用いたLLMを用いたASRの文脈化
- Authors: Zhihong Lei, Xingyu Na, Mingbin Xu, Ernest Pusateri, Christophe Van Gysel, Yuanyuan Zhang, Shiyi Han, Zhen Huang,
- Abstract要約: 大規模言語モデル(LLM)を文脈化するための検索に基づくソリューションを提案する。
まず、LLMが音声中の名前付きエンティティを文脈なしに検出し、この名前付きエンティティをクエリとして使用して、個人データベースから音声的に類似した名前付きエンティティを検索する。
音声アシスタントタスクでは,単語誤り率を最大30.2%,エンティティエラー率を73.6%削減した。
- 参考スコア(独自算出の注目度): 8.823596907304944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown superb capability of modeling multimodal signals including audio and text, allowing the model to generate spoken or textual response given a speech input. However, it remains a challenge for the model to recognize personal named entities, such as contacts in a phone book, when the input modality is speech. In this work, we start with a speech recognition task and propose a retrieval-based solution to contextualize the LLM: we first let the LLM detect named entities in speech without any context, then use this named entity as a query to retrieve phonetically similar named entities from a personal database and feed them to the LLM, and finally run context-aware LLM decoding. In a voice assistant task, our solution achieved up to 30.2% relative word error rate reduction and 73.6% relative named entity error rate reduction compared to a baseline system without contextualization. Notably, our solution by design avoids prompting the LLM with the full named entity database, making it highly efficient and applicable to large named entity databases.
- Abstract(参考訳): 大規模言語モデル(LLM)は、音声やテキストを含むマルチモーダル信号をモデル化し、音声入力によって音声やテキストの応答を生成する能力を示す。
しかし、入力モダリティが音声である場合、電話帳の連絡先など、個人名を持つエンティティを認識することは依然として困難である。
本研究は,音声認識タスクから始まり,LLMを文脈化するための検索ベースソリューションを提案する。まず,LLMが任意の文脈なしに名前付きエンティティを検出し,この名前付きエンティティをクエリとして使用して,個人データベースから音声的に類似した名前付きエンティティを検索し,LLMにフィードし,最後に文脈対応のLCMデコーディングを実行する。
音声アシスタントタスクでは, 文脈化のないベースラインシステムと比較して, 単語誤り率の30.2%, エンティティエラー率の73.6%の削減を実現した。
特に、設計によるソリューションは、完全な名前付きエンティティデータベースによるLLMのプロンプトを回避し、大きな名前付きエンティティデータベースに非常に効率よく適用できます。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Retrieval Augmented End-to-End Spoken Dialog Models [20.896330994089283]
音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-02-02T18:23:09Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z) - Keyword Augmented Retrieval: Novel framework for Information Retrieval
integrated with speech interface [0.0]
言語モデルを使って幻覚なしで素早く低コストで回答を取得することは大きなハードルです。
これは知識検索自動化における言語モデルの利用を防止するためである。
商用検索やチャットボットアプリケーションでは、GPT 3.5などの商用大規模言語モデル(LLM)への完全依存は非常にコストがかかる。
論文 参考訳(メタデータ) (2023-10-06T12:44:04Z) - ACLM: A Selective-Denoising based Generative Data Augmentation Approach
for Low-Resource Complex NER [47.32935969127478]
本稿では、条件付き言語モデルファインチューニングのためのACLM注意マップ対応キーワード選択について述べる。
ACLMは、既存のNERデータ拡張技術が抱える問題であるコンテキストエンティリティミスマッチ問題を緩和する。
本稿では,ACLMがモノリンガル,クロスリンガル,多言語複合NERに対して質的かつ定量的に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:33:04Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。