論文の概要: LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression
- arxiv url: http://arxiv.org/abs/2603.09222v1
- Date: Tue, 10 Mar 2026 05:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.072641
- Title: LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression
- Title(参考訳): LooComp: 効率的なクエリ認識コンテキスト圧縮のためのエンコーダのみのトランスフォーマーへの1回限りの離脱戦略を活用する
- Authors: Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim,
- Abstract要約: 本稿では,クエリ駆動型コンテキストプルーニングのためのマージンベースのフレームワークを提案する。
省略されたときの手がかり豊かさの変化を測定することによって、質問に答えるのに重要な文を特定する。
本手法は, 応答性能を劣化させることなく, 効率的な圧縮比が得られる。
- 参考スコア(独自算出の注目度): 5.171670380356107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient context compression is crucial for improving the accuracy and scalability of question answering. For the efficiency of Retrieval Augmented Generation, context should be delivered fast, compact, and precise to ensure clue sufficiency and budget-friendly LLM reader cost. We propose a margin-based framework for query-driven context pruning, which identifies sentences that are critical for answering a query by measuring changes in clue richness when they are omitted. The model is trained with a composite ranking loss that enforces large margins for critical sentences while keeping non-critical ones near neutral. Built on a lightweight encoder-only Transformer, our approach generally achieves strong exact-match and F1 scores with high-throughput inference and lower memory requirements than those of major baselines. In addition to efficiency, our method yields effective compression ratios without degrading answering performance, demonstrating its potential as a lightweight and practical alternative for retrieval-augmented tasks.
- Abstract(参考訳): 質問応答の精度とスケーラビリティを向上させるためには,効率的な文脈圧縮が不可欠である。
Retrieval Augmented Generationの効率性のためには、コンテキストを素早く、コンパクトで、正確に提供し、明確な充足性と予算に優しいLCMリーダーコストを確保する必要がある。
提案手法は,クエリが省略された場合の手がかり豊かさの変化を測定することで,クエリに応答する上で重要な文を識別する。
このモデルは、批判文に対する大きなマージンを強制し、非批判文を中立に保ちながら、複合的なランキング損失で訓練されている。
ライトウェイトエンコーダのみのトランスフォーマーをベースとした本手法では,大規模なベースラインよりも高いスループットの推測とメモリ要求の低いF1スコアを実現する。
提案手法は,効率性に加えて,解答性能を劣化させることなく効率的な圧縮比が得られ,検索強化タスクの軽量で実用的な代替手段としての可能性を示す。
関連論文リスト
- Rate-Distortion Optimization for Transformer Inference [1.5378391391800512]
トランスフォーマーは多くのタスクにおいて優れたパフォーマンスを達成するが、推論中に大量の計算とメモリ要求を課す。
本稿では, 圧縮の損失を抑えるために, 圧縮の速度歪みに基づく基本的フレームワークを導入し, 圧縮の精度とトレードオフを明示するコンパクトエンコーディングを学習する。
論文 参考訳(メタデータ) (2026-01-29T17:12:46Z) - Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective [21.41673002861847]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)を外部知識で効果的に構築する。
ソフトコンテクスト圧縮に関する最近の研究は、長い文書をコンパクトな埋め込みに符号化することでこの問題に対処することを目的としている。
本稿では,クエリ条件情報セレクタとしてのエンコーダの役割を再定義する,RAGのためのセレクタベースのソフト圧縮フレームワークであるSeleComを紹介する。
論文 参考訳(メタデータ) (2026-01-25T09:06:24Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Long Context In-Context Compression by Getting to the Gist of Gisting [50.24627831994713]
GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。
圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。
GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-11T19:23:31Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。