Fugu-MT 論文翻訳(概要): VoxRAG: A Step Toward Transcription-Free RAG Systems in Spoken Question Answering

論文の概要: VoxRAG: A Step Toward Transcription-Free RAG Systems in Spoken Question Answering

arxiv url: http://arxiv.org/abs/2505.17326v1
Date: Thu, 22 May 2025 22:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.718724
Title: VoxRAG: A Step Toward Transcription-Free RAG Systems in Spoken Question Answering
Title（参考訳）: VoxRAG: 音声質問応答における書き起こし不要なRAGシステムへの一歩
Authors: Zackary Rackauckas, Julia Hirschberg,
Abstract要約: 本稿では,モジュール型音声音声合成合成システムであるVoxRAGを紹介する。 VoxRAGは書き起こしをバイパスし、音声クエリから直接意味のある音声セグメントを検索する。
参考スコア（独自算出の注目度）: 4.740589102992697
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce VoxRAG, a modular speech-to-speech retrieval-augmented generation system that bypasses transcription to retrieve semantically relevant audio segments directly from spoken queries. VoxRAG employs silence-aware segmentation, speaker diarization, CLAP audio embeddings, and FAISS retrieval using L2-normalized cosine similarity. We construct a 50-query test set recorded as spoken input by a native English speaker. Retrieval quality was evaluated using LLM-as-a-judge annotations. For very relevant segments, cosine similarity achieved a Recall@10 of 0.34. For somewhat relevant segments, Recall@10 rose to 0.60 and nDCG@10 to 0.27, highlighting strong topical alignment. Answer quality was judged on a 0--2 scale across relevance, accuracy, completeness, and precision, with mean scores of 0.84, 0.58, 0.56, and 0.46 respectively. While precision and retrieval quality remain key limitations, VoxRAG shows that transcription-free speech-to-speech retrieval is feasible in RAG systems.
Abstract（参考訳）: 本稿では,VoxRAGを提案する。VoxRAGは,音声クエリから直接,意味的に関連する音声セグメントを検索するために,書き起こしをバイパスするモジュール型音声音声検索拡張生成システムである。 VoxRAGはサイレント認識セグメンテーション、話者ダイアリゼーション、CLAPオーディオ埋め込み、L2正規化コサイン類似性を用いたFAISS検索を採用している。英語母語話者による音声入力として記録された50-queryテストセットを構築した。 LLM-as-a-judgeアノテーションを用いて検索品質を評価した。非常に関連性の高いセグメントでは、コサインの類似性が Recall@10 で 0.34 に達した。 Recall@10は0.60に、nDCG@10は0.27に増加した。回答の質は0--2スケールで、それぞれ0.84、0.58、0.56、0.46のスコアで評価された。精度と検索品質は依然として重要な制限であるが、VoxRAGはRAGシステムでは文字なし音声音声検索が可能であることを示した。

関連論文リスト

Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0]
本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。自発音声では,平均MERは0.063。
論文参考訳（メタデータ） (2025-03-10T05:09:44Z)
Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文参考訳（メタデータ） (2024-12-21T06:16:04Z)
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。 LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文参考訳（メタデータ） (2024-09-13T07:28:47Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文参考訳（メタデータ） (2023-07-06T10:50:46Z)
Leveraging Cross-Utterance Context For ASR Decoding [6.033324057680156]
クロス発話情報は、第2パスの再検査で有益であることが示されている。ビームサーチによる音響モデルのクロス発話復号のための長文変換器LMの組込みについて検討する。
論文参考訳（メタデータ） (2023-06-29T12:48:25Z)
BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文参考訳（メタデータ） (2022-12-16T14:00:26Z)
Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文参考訳（メタデータ） (2022-11-15T18:44:28Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。