論文の概要: PISCO: Pretty Simple Compression for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2501.16075v1
- Date: Mon, 27 Jan 2025 14:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:56.846696
- Title: PISCO: Pretty Simple Compression for Retrieval-Augmented Generation
- Title(参考訳): PISCO:検索機能強化のための非常にシンプルな圧縮
- Authors: Maxime Louis, Hervé Déjean, Stéphane Clinchant,
- Abstract要約: 文書圧縮は実用的な方法であるが、現在のソフト圧縮法は精度の低下に悩まされ、広範囲の事前訓練を必要とする。
PISCOは,RAGに基づく質問応答(QA)タスクにおいて,最小の精度損失(0-3%)で16倍圧縮率を達成する新しい手法である。
単一のA100 GPU上で7-10B LLMを48時間で微調整できるため、PISCOは高効率でスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 7.29754002382641
- License:
- Abstract: Retrieval-Augmented Generation (RAG) pipelines enhance Large Language Models (LLMs) by retrieving relevant documents, but they face scalability issues due to high inference costs and limited context size. Document compression is a practical solution, but current soft compression methods suffer from accuracy losses and require extensive pretraining. In this paper, we introduce PISCO, a novel method that achieves a 16x compression rate with minimal accuracy loss (0-3%) across diverse RAG-based question-answering (QA) tasks. Unlike existing approaches, PISCO requires no pretraining or annotated data, relying solely on sequence-level knowledge distillation from document-based questions. With the ability to fine-tune a 7-10B LLM in 48 hours on a single A100 GPU, PISCO offers a highly efficient and scalable solution. We present comprehensive experiments showing that PISCO outperforms existing compression models by 8% in accuracy.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)パイプラインは、関連するドキュメントを取得することで、Large Language Models (LLM)を強化するが、高い推論コストと限られたコンテキストサイズのためにスケーラビリティの問題に直面する。
文書圧縮は実用的な方法であるが、現在のソフト圧縮法は精度の低下に悩まされ、広範囲の事前訓練を必要とする。
本稿では,RAGに基づく質問応答(QA)タスクに対して,最小の精度損失(0-3%)で16倍圧縮率を達成する新しい手法PISCOを紹介する。
既存のアプローチとは異なり、PISCOは、文書ベースの質問からのシーケンスレベルの知識蒸留のみに依存する、事前訓練や注釈付きデータを必要としない。
単一のA100 GPU上で7-10B LLMを48時間で微調整できるため、PISCOは高効率でスケーラブルなソリューションを提供する。
PISCOが既存の圧縮モデルよりも8%高い精度で性能を発揮することを示す総合的な実験を行った。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning [20.62274005080048]
PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。
LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。
複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
論文 参考訳(メタデータ) (2025-01-25T18:26:39Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models [15.887617654762629]
ノイズを含む検索された文書は、RAGが答えの手がかりを検知するのを妨げ、推論プロセスを遅く、高価にする。
本稿では,クエリの複雑さと検索品質の両面から圧縮率を適応的に決定する,低コストな抽出文脈圧縮手法であるAdaCompを紹介する。
論文 参考訳(メタデータ) (2024-09-03T03:25:59Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。