論文の概要: BRIEF-Pro: Universal Context Compression with Short-to-Long Synthesis for Fast and Accurate Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2510.13799v1
- Date: Wed, 15 Oct 2025 17:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.802752
- Title: BRIEF-Pro: Universal Context Compression with Short-to-Long Synthesis for Fast and Accurate Multi-Hop Reasoning
- Title(参考訳): BRIEF-Pro: 高速かつ高精度なマルチホップ推論のための短長合成によるユニバーサルコンテキスト圧縮
- Authors: Jia-Chen Gu, Junyi Zhang, Di Wu, Yuankai Li, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: BRIEF-Proは、取得した文書から与えられたクエリに関する関連する証拠を簡潔な要約に蒸留する軽量圧縮機である。
幅広いシナリオで10kワードを超える拡張コンテキストの抽象的圧縮を実行するように訓練されている。
実験により、BRIEF-Proはより簡潔で関連する要約を生成し、小型で大規模でプロプライエタリな言語モデルでの性能を向上させることが示されている。
- 参考スコア(独自算出の注目度): 86.4235795435618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As retrieval-augmented generation (RAG) tackles complex tasks, increasingly expanded contexts offer richer information, but at the cost of higher latency and increased cognitive load on the model. To mitigate this bottleneck, especially for intricate multi-hop questions, we introduce BRIEF-Pro. It is a universal, lightweight compressor that distills relevant evidence for a given query from retrieved documents into a concise summary for seamless integration into in-context RAG. Using seed data consisting of relatively short contexts (fewer than 1k words), BRIEF-Pro is trained to perform abstractive compression of extended contexts exceeding 10k words across a wide range of scenarios. Furthermore, BRIEF-Pro offers flexible user control over summary length by allowing users to specify the desired number of sentences. Experiments on four open-domain multi-hop question-answering datasets show that BRIEF-Pro generates more concise and relevant summaries, enhancing performance across small, large, and proprietary language models. With the 70B reader model, 32x compression by BRIEF-Pro improves QA performance by 4.67% on average over LongLLMLingua's 9x, while requiring only 23% of its computational overhead.
- Abstract(参考訳): 検索強化世代(RAG)が複雑なタスクに取り組むにつれ、拡張されたコンテキストはよりリッチな情報を提供するが、レイテンシが高く、モデルに対する認知負荷が増大する。
このボトルネックを軽減するため、特に複雑なマルチホップ問題に対して、BRIEF-Proを導入します。
これは、検索した文書から取得したクエリに関する関連する証拠を簡潔な要約に蒸留して、テキスト内RAGにシームレスに統合する、普遍的で軽量な圧縮機である。
比較的短いコンテキスト(1kワード未満)からなるシードデータを使用して、BRIEF-Proは、幅広いシナリオで10kワードを超える拡張コンテキストの抽象的圧縮を実行するように訓練されている。
さらに、BRIEF-Proは、ユーザが所望の文数を指定できるようにすることで、要約長よりも柔軟なユーザコントロールを提供する。
4つのオープンドメインのマルチホップ質問回答データセットの実験により、BRIEF-Proはより簡潔で関連する要約を生成し、小規模で大規模でプロプライエタリな言語モデルのパフォーマンスを向上させる。
70Bリーダーモデルでは、BRIEF-Proによる32倍圧縮は、LongLLMLinguaの9倍よりも平均4.67%向上し、計算オーバーヘッドの23%しか必要としない。
関連論文リスト
- Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning [23.376181947937788]
ゼロまたは少数ショット設定で外部知識を圧縮するタスク対応キー値(KV)キャッシュ圧縮を提案する。
実験の結果,本手法はRAG法とタスク非依存圧縮法の両方に優れていた。
合成データセットは、粗いエビデンスで十分であるのに対して、タスク認識圧縮は幅広い知識タスクに優れていることを強調している。
論文 参考訳(メタデータ) (2025-03-06T21:07:41Z) - Task-agnostic Prompt Compression with Context-aware Sentence Embedding and Reward-guided Task Descriptor [16.830389144259584]
Task-Agnostic Prompt Compression (TPC)は、入力質問やテンプレートを必要とせずにタスクやドメイン間の圧縮を一般化する新しいフレームワークである。
TPCは、コンテキストとクエリペアのキュレートされたデータセットに基づいてトレーニングされたタスク記述子を使用して、コンテキスト関連タスク記述を生成する。
我々は,LongBenchおよびZeroSCROLLSベンチマークにおいて,既存の最先端手法よりも優れた3つのモデルサイズ(Base, Large, Huge)を導入する。
論文 参考訳(メタデータ) (2025-02-19T02:16:29Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models [15.887617654762629]
ノイズを含む検索された文書は、RAGが答えの手がかりを検知するのを妨げ、推論プロセスを遅く、高価にする。
本稿では,クエリの複雑さと検索品質の両面から圧縮率を適応的に決定する,低コストな抽出文脈圧縮手法であるAdaCompを紹介する。
論文 参考訳(メタデータ) (2024-09-03T03:25:59Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。