論文の概要: WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
- arxiv url: http://arxiv.org/abs/2502.14727v1
- Date: Thu, 20 Feb 2025 16:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:57.810635
- Title: WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
- Title(参考訳): WavRAG:音声対話モデルのための音声統合検索生成
- Authors: Yifu Chen, Shengpeng Ji, Haoxiao Wang, Ziqing Wang, Siyu Chen, Jinzheng He, Jin Xu, Zhou Zhao,
- Abstract要約: WavRAGは、ネイティブなエンドツーエンドオーディオをサポートする最初の検索拡張生成フレームワークである。
本稿では,テキストとオーディオのハイブリッド知識ベースからの検索を容易にするために,WavRetrieverを提案する。
最先端のASR-Text RAGパイプラインと比較して、WavRAGは10倍の高速化を実現しつつ、同等の検索性能を実現している。
- 参考スコア(独自算出の注目度): 49.725968706743586
- License:
- Abstract: Retrieval Augmented Generation (RAG) has gained widespread adoption owing to its capacity to empower large language models (LLMs) to integrate external knowledge. However, existing RAG frameworks are primarily designed for text-based LLMs and rely on Automatic Speech Recognition to process speech input, which discards crucial audio information, risks transcription errors, and increases computational overhead. Therefore, we introduce WavRAG, the first retrieval augmented generation framework with native, end-to-end audio support. WavRAG offers two key features: 1) Bypassing ASR, WavRAG directly processes raw audio for both embedding and retrieval. 2) WavRAG integrates audio and text into a unified knowledge representation. Specifically, we propose the WavRetriever to facilitate the retrieval from a text-audio hybrid knowledge base, and further enhance the in-context capabilities of spoken dialogue models through the integration of chain-of-thought reasoning. In comparison to state-of-the-art ASR-Text RAG pipelines, WavRAG achieves comparable retrieval performance while delivering a 10x acceleration. Furthermore, WavRAG's unique text-audio hybrid retrieval capability extends the boundaries of RAG to the audio modality.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、大規模な言語モデル(LLM)を外部知識に統合する能力のために広く採用されている。
しかし、既存のRAGフレームワークは主にテキストベースのLLM用に設計されており、音声入力を処理するために自動音声認識に依存している。
そこで我々は,ネイティブなエンドツーエンドオーディオサポートを備えた,最初の検索拡張生成フレームワークであるWavRAGを紹介する。
WavRAGには2つの重要な機能がある。
1) ASR を経由すると,WavRAG は埋め込みと検索の両方に生音声を直接処理する。
2)WavRAGは音声とテキストを統合知識表現に統合する。
具体的には,テキスト音声ハイブリッド知識ベースからの検索を容易にするためにWavRetrieverを提案する。
最先端のASR-Text RAGパイプラインと比較して、WavRAGは10倍の高速化を実現しつつ、同等の検索性能を実現している。
さらに、WavRAGのユニークなテキスト・オーディオハイブリッド検索機能は、RAGの境界をオーディオモーダリティに拡張する。
関連論文リスト
- MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition [23.406334722946163]
MoHAVE(Mixture of Hierarchical Audio-Visual Experts)は、スケーラビリティの制約に対処するために設計された、新しい堅牢なAVSRフレームワークである。
MoHAVEは、モダリティ固有の専門家グループを活性化し、計算オーバーヘッドを最小限にした様々なオーディオ視覚入力への動的適応を保証する。
論文 参考訳(メタデータ) (2025-02-11T11:01:05Z) - Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。
提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。
テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文 参考訳(メタデータ) (2024-12-21T06:16:04Z) - Audio Captioning RAG via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Knowledge-Aware Audio-Grounded Generative Slot Filling for Limited
Annotated Data [61.89520860387473]
本稿では,タスク指向対話(ToD)システムにおいて,KA2G(Knowledge-Aware Audio-Grounded Generative slot-filling framework)を提案する。
KA2Gは,1)テキスト生成タスクとしてフレーミングすること,2)音声モダリティを付加したテキスト生成を行うこと,3)利用可能な外部知識を条件付けること,である。
標準音声ベースのシングルターンSLURPデータセットと商用ToDシステムから抽出したマルチターンデータセットを用いて実験を行い、強みと一貫した利得を示す。
論文 参考訳(メタデータ) (2023-07-04T15:05:42Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。