Fugu-MT 論文翻訳(概要): Perception Compressor:A training-free prompt compression method in long context scenarios

論文の概要: Perception Compressor:A training-free prompt compression method in long context scenarios

arxiv url: http://arxiv.org/abs/2409.19272v1
Date: Sat, 28 Sep 2024 07:13:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 00:08:33.414397
Title: Perception Compressor:A training-free prompt compression method in long context scenarios
Title（参考訳）: 知覚圧縮機:長期シナリオにおける訓練不要なプロンプト圧縮法
Authors: Jiwei Tang, Jin Xu, Tingwei Lu, Hai Lin, Yiming Zhao, Hai-Tao Zheng,
Abstract要約: 大規模言語モデル(LLM)は、様々なシナリオにおいて例外的な能力を示す。冗長な情報に悩まされ、長いコンテキストシナリオの途中で失われる傾向がある。トレーニング不要なプロンプト圧縮手法であるPerceptionを提案する。
参考スコア（独自算出の注目度）: 17.06285124556835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) demonstrate exceptional capabilities in various scenarios. However, they suffer from much redundant information and tend to be lost in the middle in long context scenarios, leading to inferior performance. To address these challenges, we present Perception Compressor, a training-free prompt compression method. It includes a dual-slope ratio allocator to dynamically assign compression ratios and open-book ratios, a perception retriever that leverages guiding questions and instruction to retrieve the most relevant demonstrations, and a semi-guided iterative compression that retains key information at the token level while removing tokens that distract the LLM. We conduct extensive experiments on long context benchmarks, i.e., NaturalQuestions, LongBench, and MuSiQue. Experiment results show that Perception Compressor outperforms existing methods by a large margin, achieving state-of-the-art performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なシナリオにおいて例外的な能力を示す。しかし、多くの冗長な情報に悩まされ、長いコンテキストシナリオの途中で失われる傾向があり、パフォーマンスが低下する。これらの課題に対処するために、トレーニング不要なプロンプト圧縮手法であるPerception Compressorを提案する。圧縮比とオープンブック比を動的に割り当てるデュアルスロープ比アロケータと、最も関係のあるデモンストレーションを検索するためのガイダンス質問と指示を利用する知覚検索器と、LLMを邪魔するトークンを除去しながらトークンレベルでキー情報を保持する半誘導反復圧縮を備える。長い文脈のベンチマーク、すなわちNaturalQuestions、LongBench、MuSiQueについて広範な実験を行う。実験の結果, パーセプション圧縮機は既存手法よりも高い性能を示し, 最先端性能を実現している。

関連論文リスト

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking [28.492055407384495]
長期のコンテキストは、自己注意の計算コストがシークエンスの長さと2次的に増加するにつれて、推論遅延を増大させる。既存のメソッドは通常、コンテキスト全体を無差別にメモリトークンの集合に圧縮する。本稿では,メモリトークンの受容領域を逐次局所チャンクに制限する並列反復圧縮(PIC)を提案する。
論文参考訳（メタデータ） (2026-02-15T03:58:13Z)
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文参考訳（メタデータ） (2026-02-12T18:15:08Z)
Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。 ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。 MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。 ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文参考訳（メタデータ） (2026-02-12T02:38:57Z)
Context Compression via Explicit Information Transmission [25.078241611630585]
大規模言語モデル(LLM)による長文推論は、二次的な注意とキー値キャッシュの増加によってコストがかかる。ソフト圧縮を新しいパラダイムに定式化する軽量フレームワークComprExITを提案する。
論文参考訳（メタデータ） (2026-02-03T17:44:12Z)
Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文参考訳（メタデータ） (2025-10-17T16:57:42Z)
Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods [54.4711434793961]
単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
論文参考訳（メタデータ） (2025-10-08T15:44:28Z)
UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文参考訳（メタデータ） (2025-09-19T08:47:37Z)
DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。 LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2025-07-16T06:16:06Z)
MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文参考訳（メタデータ） (2025-04-23T15:02:53Z)
Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T20:06:11Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。 P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文参考訳（メタデータ） (2024-11-19T12:15:40Z)
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。 Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文参考訳（メタデータ） (2024-10-17T21:35:49Z)
Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文参考訳（メタデータ） (2024-10-15T17:05:25Z)
Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文参考訳（メタデータ） (2024-09-02T13:02:51Z)
LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。本質的な情報を保持しながら、即時長を短縮する。既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文参考訳（メタデータ） (2024-09-01T22:09:20Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文参考訳（メタデータ） (2024-07-22T09:40:13Z)
Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。 API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-07-02T08:17:00Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
Retaining Key Information under High Compression Ratios: Query-Guided Compressor for LLMs [35.91962517513945]
圧縮比が増加するにつれて従来の手法の性能は劇的に低下し、時にはクローズドブックレベルにまで低下する。本稿では、クエリを利用してコンテキスト圧縮プロセスをガイドするQuery-Guided (QGC)を紹介する。提案したQGCの有効性を,NaturalQuestions,TriviaQA,HotpotQAデータセットを含む質問応答タスクで検証する。
論文参考訳（メタデータ） (2024-06-04T14:53:24Z)
Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文参考訳（メタデータ） (2024-01-07T11:57:40Z)
Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文参考訳（メタデータ） (2022-09-28T15:16:58Z)
Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文参考訳（メタデータ） (2020-11-17T20:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。