論文の概要: Single-Pass Document Scanning for Question Answering
- arxiv url: http://arxiv.org/abs/2504.03101v1
- Date: Fri, 04 Apr 2025 01:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:36.238110
- Title: Single-Pass Document Scanning for Question Answering
- Title(参考訳): 質問応答のための単一パス文書スキャン
- Authors: Weili Cao, Jianyou Wang, Youze Zheng, Longtian Bao, Qirui Zheng, Taylor Berg-Kirkpatrick, Ramamohan Paturi, Leon Bergen,
- Abstract要約: 本稿では,テキスト全体を線形時間で処理する単一パス文書スキャン手法を提案する。
41のQAベンチマークで、我々のシングルパススキャナはチャンクベースの埋め込み方法よりも一貫して優れています。
全体として、シングルパス文書スキャンは、大量のテキストに対して質問に答える簡単なソリューションを提供する。
- 参考スコア(独自算出の注目度): 23.509810618328835
- License:
- Abstract: Handling extremely large documents for question answering is challenging: chunk-based embedding methods often lose track of important global context, while full-context transformers can be prohibitively expensive for hundreds of thousands of tokens. We propose a single-pass document scanning approach that processes the entire text in linear time, preserving global coherence while deciding which sentences are most relevant to the query. On 41 QA benchmarks, our single-pass scanner consistently outperforms chunk-based embedding methods and competes with large language models at a fraction of the computational cost. By conditioning on the entire preceding context without chunk breaks, the method preserves global coherence, which is especially important for long documents. Overall, single-pass document scanning offers a simple solution for question answering over massive text. All code, datasets, and model checkpoints are available at https://github.com/MambaRetriever/MambaRetriever
- Abstract(参考訳): チャンクベースの埋め込み手法は重要なグローバルコンテキストの追跡を失うことが多く、フルコンテキストトランスフォーマーは数十万のトークンに対して違法に高価である。
本稿では,テキスト全体を線形時間で処理し,どの文がクエリに最も関連しているかを判断しながら,グローバルコヒーレンスを保存する単一パス文書スキャン手法を提案する。
41のQAベンチマークで、我々のシングルパススキャナはチャンクベースの埋め込み手法を一貫して上回り、計算コストのごく一部で大規模言語モデルと競合する。
チャンクを欠くことなく先行したコンテキスト全体を条件付けすることで、特に長い文書にとって重要なグローバルコヒーレンスを保ちます。
全体として、シングルパス文書スキャンは、大量のテキストに対して質問に答える簡単なソリューションを提供する。
すべてのコード、データセット、モデルチェックポイントはhttps://github.com/MambaRetriever/MambaRetrieverで入手できる。
関連論文リスト
- Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches [5.856976164399712]
大規模なマルチドキュメント要約(MDS)のための2種類のシステムとは対照的に、圧縮とフルテキストである。
フルテキストメソッドは、長期コンテキスト推論の最近の進歩に頼って、損失のない要約を約束する。
圧縮に基づく手法は、中間段階において強い確証を示し、フルコンテキストよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T16:15:08Z) - S2 Chunking: A Hybrid Framework for Document Segmentation Through Integrated Spatial and Semantic Analysis [0.0]
文書チャンキングは自然言語処理(NLP)において重要な課題である
本稿では,レイアウト構造,意味解析,空間関係を組み合わせた新しいハイブリッド手法を提案する。
実験の結果、このアプローチは従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-08T09:06:29Z) - Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - Drilling Down into the Discourse Structure with LLMs for Long Document
Question Answering [5.022057415488129]
本稿では,文書に共通する談話構造を利用した一組の手法を提案する。
複雑なマルチホップ質問応答において,我々のアプローチをテキスト自己認識推論エージェントと組み合わせて,最高のゼロショット性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-11-22T18:22:56Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Dynamic Global Memory for Document-level Argument Extraction [63.314514124716936]
文書レベルのイベント引数抽出のための,新しいグローバルなニューラルジェネレーションベースのフレームワークを提案する。
文書メモリストアを使用してコンテキストイベント情報を記録し、それを暗黙的に明示的に活用することで、後のイベントの引数の復号に役立ちます。
実験結果から,我々のフレームワークは従来の手法よりも大幅に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-18T23:45:25Z) - RoR: Read-over-Read for Long Document Machine Reading Comprehension [34.46550541953348]
RoRは、読み出しフィールドをチャンクからドキュメントに拡張する読み出し方式である。
RoRは応募時にQuACのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2021-09-10T10:55:22Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval [117.07047313964773]
複雑なオープンドメインの質問に答えるために, 単純で効率的なマルチホップ高密度検索手法を提案する。
本手法では,文書間ハイパーリンクやアノテートされたエンティティマーカーなど,コーパス固有の情報へのアクセスは不要である。
提案システムでは,HotpotQA上でのベストパブリッシュ精度と,推論時の10倍の速度で,より優れた効率・精度のトレードオフも実現している。
論文 参考訳(メタデータ) (2020-09-27T06:12:29Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。