論文の概要: EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2412.12559v1
- Date: Tue, 17 Dec 2024 05:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:02.443455
- Title: EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation
- Title(参考訳): EXIT:検索機能強化のためのコンテキスト認識抽出圧縮
- Authors: Taeho Hwang, Sukmin Cho, Soyeong Jeong, Hoyun Song, SeungYoon Han, Jong C. Park,
- Abstract要約: 現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 8.757777529568383
- License:
- Abstract: We introduce EXIT, an extractive context compression framework that enhances both the effectiveness and efficiency of retrieval-augmented generation (RAG) in question answering (QA). Current RAG systems often struggle when retrieval models fail to rank the most relevant documents, leading to the inclusion of more context at the expense of latency and accuracy. While abstractive compression methods can drastically reduce token counts, their token-by-token generation process significantly increases end-to-end latency. Conversely, existing extractive methods reduce latency but rely on independent, non-adaptive sentence selection, failing to fully utilize contextual information. EXIT addresses these limitations by classifying sentences from retrieved documents - while preserving their contextual dependencies - enabling parallelizable, context-aware extraction that adapts to query complexity and retrieval quality. Our evaluations on both single-hop and multi-hop QA tasks show that EXIT consistently surpasses existing compression methods and even uncompressed baselines in QA accuracy, while also delivering substantial reductions in inference time and token count. By improving both effectiveness and efficiency, EXIT provides a promising direction for developing scalable, high-quality QA solutions in RAG pipelines. Our code is available at https://github.com/ThisIsHwang/EXIT
- Abstract(参考訳): 質問応答(QA)における検索強化生成(RAG)の有効性と効率を両立させる抽出文脈圧縮フレームワークであるEXITを紹介する。
現在のRAGシステムは、検索モデルが最も関連性の高いドキュメントのランク付けに失敗したときにしばしば苦労し、レイテンシと精度を犠牲にして、より多くのコンテキストを含めることになる。
抽象圧縮法はトークン数を劇的に削減するが、トークン・バイ・トークンの生成プロセスはエンドツーエンドのレイテンシを大幅に向上させる。
逆に、既存の抽出手法は遅延を減少させるが、文脈情報を完全に活用できない独立した非適応文選択に依存している。
EXITは、検索したドキュメントから文を分類し、コンテキスト依存を保ちながら、クエリの複雑さと検索品質に適応する並列化可能なコンテキスト認識抽出を可能にすることで、これらの制限に対処する。
シングルホップとマルチホップの両方のQAタスクに対する評価から、EXITは既存の圧縮手法を一貫して上回り、QA精度では圧縮されていないベースラインさえも上回っており、推論時間やトークン数も大幅に削減されていることが分かる。
効率性と効率の両方を改善することで、EXITはRAGパイプラインでスケーラブルで高品質なQAソリューションを開発するための有望な方向を提供する。
私たちのコードはhttps://github.com/ThisIsHwang/EXITで利用可能です。
関連論文リスト
- BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。
IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。
提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - CompAct: Compressing Retrieved Documents Actively for Question Answering [15.585833125854418]
CompActは、キー情報を失うことなく、広範囲のドキュメントを格納するためのアクティブな戦略を採用した、新しいフレームワークである。
実験により,マルチホップ質問応答ベンチマークにおいて,CompActは性能と圧縮率に大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-07-12T06:06:54Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。