論文の概要: TextlessRAG: End-to-End Visual Document RAG by Speech Without Text
- arxiv url: http://arxiv.org/abs/2509.07538v1
- Date: Tue, 09 Sep 2025 09:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.250544
- Title: TextlessRAG: End-to-End Visual Document RAG by Speech Without Text
- Title(参考訳): TextlessRAG: テキストなし音声によるビジュアルドキュメントRAGのエンドツーエンド化
- Authors: Peijin Xie, Shun Qian, Bingquan Liu, Dexin Wang, Lin Sun, Xiangzheng Zhang,
- Abstract要約: 大規模文書画像上での音声による質問応答のための,最初のエンドツーエンドフレームワークであるTextlessRAGを提案する。
従来の方法とは異なり、TextlessRAGはASR、TS、OCRを排除し、音声を直接解釈し、関連する視覚的知識を取得し、完全なテキストレスパイプラインで回答を生成する。
我々は、中国語と英語の音声クエリにマルチモーダル文書の内容が組み合わされた最初のバイリンガル音声文書RAGデータセットをリリースする。
- 参考スコア(独自算出の注目度): 11.507219997350155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document images encapsulate a wealth of knowledge, while the portability of spoken queries enables broader and flexible application scenarios. Yet, no prior work has explored knowledge base question answering over visual document images with queries provided directly in speech. We propose TextlessRAG, the first end-to-end framework for speech-based question answering over large-scale document images. Unlike prior methods, TextlessRAG eliminates ASR, TTS and OCR, directly interpreting speech, retrieving relevant visual knowledge, and generating answers in a fully textless pipeline. To further boost performance, we integrate a layout-aware reranking mechanism to refine retrieval. Experiments demonstrate substantial improvements in both efficiency and accuracy. To advance research in this direction, we also release the first bilingual speech--document RAG dataset, featuring Chinese and English voice queries paired with multimodal document content. Both the dataset and our pipeline will be made available at repository:https://github.com/xiepeijinhit-hue/textlessrag
- Abstract(参考訳): ドキュメントイメージは豊富な知識をカプセル化しますが、音声クエリの移植性は、より広く柔軟なアプリケーションシナリオを可能にします。
しかし、従来の研究では、直接音声で提供されるクエリによる視覚的文書画像に対する知識ベース質問応答は検討されていない。
大規模文書画像上での音声による質問応答のための,最初のエンドツーエンドフレームワークであるTextlessRAGを提案する。
従来の方法とは異なり、TextlessRAGはASR、TS、OCRを排除し、音声を直接解釈し、関連する視覚的知識を取得し、完全なテキストレスパイプラインで回答を生成する。
性能をさらに向上するため、レイアウト対応のリグレード機構を統合して検索を洗練する。
実験は効率と精度の両方で大幅に改善された。
また、この方向の研究を進めるために、中国語と英語の音声クエリとマルチモーダル文書の内容が組み合わさった最初のバイリンガル音声文書RAGデータセットをリリースする。
データセットとパイプラインの両方がリポジトリで利用可能になる。
関連論文リスト
- CMRAG: Co-modality-based document retrieval and visual question answering [7.9679870806757185]
Retrieval-Augmented Generation (RAG) は文書質問応答タスクの中核となるパラダイムとなっている。
本稿では、テキストと画像を同時に利用して効率的な検索・生成を行うコモダリティに基づくRAGを提案する。
実験の結果,本手法は視覚文書質問応答タスクにおいて,純粋ビジョンに基づくRAGよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。
提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。
テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文 参考訳(メタデータ) (2024-12-21T06:16:04Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Text is NOT Enough: Integrating Visual Impressions intoOpen-domain
Dialogue Generation [14.104415187890773]
自然言語処理(NLP)におけるオープンドメイン対話生成は、デフォルトでは純粋言語タスクである。
ビジュアルインプレッション (VIs) と呼ばれる隠された画像は、対話理解を強化するためにテキストのみのデータから探索することができる。
我々は、純粋言語対話データセットに基づくVIを明示的に構築するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T08:57:13Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。