論文の概要: End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2511.09282v1
- Date: Thu, 13 Nov 2025 01:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.498203
- Title: End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering
- Title(参考訳): 長文音声質問応答のためのエンドツーエンドコントラスト言語-音声事前学習モデル
- Authors: Jiliang Hu, Zuchao Li, Baoyuan Qi, Liu Guoming, Ping Wang,
- Abstract要約: CLSRは、エンドツーエンドのコントラスト言語音声レトリバーである。
下流SQAタスクのために、長い音声記録から質問関連セグメントを効率的に抽出する。
- 参考スコア(独自算出の注目度): 33.675277272634666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in spoken question answering (SQA) in recent years. However, many existing methods, including large audio language models, struggle with processing long audio. Follow the success of retrieval augmented generation, a speech-related retriever shows promising in help preprocessing long-form speech. But the performance of existing speech-related retrievers is lacking. To address this challenge, we propose CLSR, an end-to-end contrastive language-speech retriever that efficiently extracts question-relevant segments from long audio recordings for downstream SQA task. Unlike conventional speech-text contrastive models, CLSR incorporates an intermediate step that converts acoustic features into text-like representations prior to alignment, thereby more effectively bridging the gap between modalities. Experimental results across four cross-modal retrieval datasets demonstrate that CLSR surpasses both end-to-end speech related retrievers and pipeline approaches combining speech recognition with text retrieval, providing a robust foundation for advancing practical long-form SQA applications.
- Abstract(参考訳): 近年,音声質問応答 (SQA) の進歩が目覚ましい。
しかし、大規模な音声言語モデルを含む既存の多くの手法は、長い音声を処理するのに苦労している。
検索拡張生成の成功に続いて、音声関連検索器は、長文音声の事前処理を支援することを約束する。
しかし,既存の音声関連レトリバーの性能は乏しい。
この課題に対処するために、下流SQAタスクのための長い音声記録から質問関連セグメントを効率よく抽出する、エンドツーエンドのコントラスト言語検索システムであるCLSRを提案する。
従来の音声テキストのコントラストモデルとは異なり、CLSRはアライメントに先立って音響特徴をテキストのような表現に変換する中間ステップを組み込んでおり、それによってモダリティ間のギャップをより効果的に埋める。
4つのクロスモーダル検索データセットによる実験結果から、CLSRは音声認識とテキスト検索を組み合わせたエンドツーエンドの音声関連検索とパイプラインアプローチの両方を超越し、実用的な長期SQAアプリケーションを構築するための堅牢な基盤を提供することが示された。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing [64.80398769313065]
FastLongSpeechは、LSLM機能を拡張して効率的な長音声処理を実現するように設計されている。
過度に長い音声シーケンスを管理可能な長さに圧縮できる反復融合戦略が組み込まれている。
提案手法は,長音・短音の両タスクにおいて高い性能を示し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-20T04:11:06Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。
提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。
テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文 参考訳(メタデータ) (2024-12-21T06:16:04Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering [16.613985687431818]
音声ベースのオープンドメインQAでは,パス検索が重要な課題である。
本稿では,音声質問を直接処理可能な,エンドツーエンドのマルチモーダル高密度検索手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:15:53Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。