論文の概要: Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.14364v3
- Date: Fri, 23 May 2025 03:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.430314
- Title: Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models
- Title(参考訳): 位置IDが重要:大規模言語モデルにおける効率的な文脈圧縮のための強化された位置レイアウト
- Authors: Runsong Zhao, Xin Liu, Xinyu Liu, Pengcheng Huang, Chunyang Xiao, Tong Xiao, Jingbo Zhu,
- Abstract要約: 大規模言語モデル(LLM)の文脈圧縮能力を改善するために,拡張位置レイアウト(EPL)を提案する。
EPLはコンテキストトークンと対応する特別なトークンの間の距離を最小化し、同時に位置IDのシーケンス順序を維持する。
マルチモーダルシナリオに拡張すると、EPLは視覚圧縮LLMに平均2.6の精度向上をもたらす。
- 参考スコア(独自算出の注目度): 50.637714223178456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using special tokens (e.g., gist, memory, or compressed tokens) to compress context information is a common practice for large language models (LLMs). However, existing approaches often neglect that position encodings inherently induce local inductive biases in models, causing the compression process to ignore holistic contextual dependencies. We propose Enhanced Position Layout (EPL), a simple yet effective method that improves the context compression capability of LLMs by only adjusting position IDs, the numerical identifiers that specify token positions. EPL minimizes the distance between context tokens and their corresponding special tokens and at the same time maintains the sequence order in position IDs between context tokens, special tokens, and the subsequent tokens. Integrating EPL into our best performing context compression model results in 1.9 ROUGE-1 F1 improvement on out-of-domain question answering datasets in average. When extended to multimodal scenarios, EPL brings an average accuracy gain of 2.6 to vision compression LLMs.
- Abstract(参考訳): コンテキスト情報を圧縮するために特別なトークン(gist、メモリ、圧縮トークンなど)を使用することは、大きな言語モデル(LLM)において一般的な慣習である。
しかし、既存のアプローチでは、位置符号化が本質的にモデル内の局所帰納バイアスを引き起こすことを無視することが多く、圧縮プロセスは全体論的文脈依存を無視する。
トークンの位置を指定した数値識別子である位置IDを調整するだけで,LLMの文脈圧縮能力を向上する簡易かつ効果的な手法である拡張位置レイアウト(EPL)を提案する。
EPLはコンテキストトークンと対応する特別なトークン間の距離を最小化し、同時にコンテキストトークン、特別なトークン、およびその後のトークンの間の位置IDにおけるシーケンス順序を維持する。
EPLを最高のコンテキスト圧縮モデルに統合すると、1.9 ROUGE-1 F1はドメイン外質問応答データセットを平均で改善する。
マルチモーダルシナリオに拡張すると、EPLは視覚圧縮LLMに平均2.6の精度向上をもたらす。
関連論文リスト
- Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - UniPCGC: Towards Practical Point Cloud Geometry Compression via an Efficient Unified Approach [4.754973569457509]
我々は,UniPCGCと呼ばれる効率的な統合ポイントクラウド幾何圧縮フレームワークを提案する。
可逆圧縮、無損失圧縮、可変レート、可変複雑性をサポートする。
損失圧縮ではCR比が8.1%、損失圧縮ではBjontegaard Delta Rate(BD-Rate)が14.02%向上した。
論文 参考訳(メタデータ) (2025-03-24T10:51:28Z) - ICPC: In-context Prompt Compression with Faster Inference [0.0]
I CPC(In-context Prompt Compression)は,新規かつスケーラブルなプロンプト圧縮手法であり,プロンプト長を適応的に削減する。
I CPCの鍵となる考え方は、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を介して各単語が持つ情報を計算することである。
実験により、I CPCは、異なるカテゴリの長いテキストを効果的に圧縮し、異なるタイプのNLPタスクにおいてより優れた性能と速度を実現することができることを示した。
論文 参考訳(メタデータ) (2025-01-03T03:46:51Z) - L3TC: Leveraging RWKV for Learned Lossless Low-Complexity Text Compression [23.179381396167084]
我々はLearned Lossless Low-complexity Text Compression Method (L3TC)を紹介する。
RWKVモデルは、適度な圧縮比で高速な復号速度を達成する。
本稿では,頻繁なトークンをカバーするために,限定語彙を用いた外部認識トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T14:24:32Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Perception Compressor:A training-free prompt compression method in long context scenarios [17.720102137585503]
パーセプション(Perception)は、大規模言語モデルのトレーニング不要なプロンプト圧縮手法である。
既存のメソッドのマージンを大きく上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Modeling Image Quantization Tradeoffs for Optimal Compression [0.0]
ロスシー圧縮アルゴリズムは、圧縮率を上げるために高周波データを定量化することでトレードオフを狙う。
本稿では,Deep Learningとminimax損失関数を用いた量子化テーブルの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-12-14T07:35:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Compressing Images by Encoding Their Latent Representations with
Relative Entropy Coding [5.687243501594734]
可変オートエンコーダ(VAE)は学習画像圧縮に広く利用されている。
本稿では,単一の画像に対して相対エントロピーに近い符号長で遅延表現を直接エンコードできる新しい手法であるRelative Entropy Coding (REC)を提案する。
論文 参考訳(メタデータ) (2020-10-02T20:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。