論文の概要: GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment
- arxiv url: http://arxiv.org/abs/2505.12215v1
- Date: Sun, 18 May 2025 03:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.097635
- Title: GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment
- Title(参考訳): GMSA: グループマージとレイヤセマンティックアライメントによるコンテキスト圧縮の強化
- Authors: Jiwei Tang, Zhicheng Zhang, Shunlong Wu, Jingheng Ye, Lichen Bai, Zitai Wang, Tingwei Lu, Jiaqi Chen, Lin Hai, Hai-Tao Zheng, Hong-Gee Kim,
- Abstract要約: 本稿では,エンコーダ・デコーダアーキテクチャに基づく文脈圧縮フレームワークであるGMSAを紹介する。
GMSAは入力シーケンスの長さと冗長な情報を減らす。
エンドツーエンドの推論で約2倍のスピードアップを達成することができる。
- 参考スコア(独自算出の注目度): 18.256369876037883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive performance in a variety of natural language processing (NLP) tasks. However, when applied to long-context scenarios, they face two challenges, i.e., low computational efficiency and much redundant information. This paper introduces GMSA, a context compression framework based on the encoder-decoder architecture, which addresses these challenges by reducing input sequence length and redundant information. Structurally, GMSA has two key components: Group Merging and Layer Semantic Alignment (LSA). Group merging is used to effectively and efficiently extract summary vectors from the original context. Layer semantic alignment, on the other hand, aligns the high-level summary vectors with the low-level primary input semantics, thus bridging the semantic gap between different layers. In the training process, GMSA first learns soft tokens that contain complete semantics through autoencoder training. To furtherly adapt GMSA to downstream tasks, we propose Knowledge Extraction Fine-tuning (KEFT) to extract knowledge from the soft tokens for downstream tasks. We train GMSA by randomly sampling the compression rate for each sample in the dataset. Under this condition, GMSA not only significantly outperforms the traditional compression paradigm in context restoration but also achieves stable and significantly faster convergence with only a few encoder layers. In downstream question-answering (QA) tasks, GMSA can achieve approximately a 2x speedup in end-to-end inference while outperforming both the original input prompts and various state-of-the-art (SOTA) methods by a large margin.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的なパフォーマンスを実現している。
しかし、長文のシナリオに適用すると、計算効率が低く、冗長な情報が多すぎるという2つの課題に直面している。
本稿では,エンコーダ・デコーダアーキテクチャに基づく文脈圧縮フレームワークであるGMSAを紹介する。
構造的には、GMSA は Group Merging と Layer Semantic Alignment (LSA) の2つの重要なコンポーネントを持っている。
グループマージは、元のコンテキストから要約ベクトルを効果的に効率的に抽出するために用いられる。
一方、層セマンティックアライメントは、高レベルの要約ベクトルを低レベルの一次入力セマンティクスと整合させ、異なる層間のセマンティクスギャップを埋める。
トレーニングプロセスでは、GMSAはまず、オートエンコーダトレーニングを通じて、完全なセマンティクスを含むソフトトークンを学習する。
下流タスクにGMSAをさらに適応させるために、下流タスクのソフトトークンから知識を抽出する知識抽出微調整(KEFT)を提案する。
我々は、データセットの各サンプルの圧縮率をランダムにサンプリングすることでGMSAを訓練する。
この条件下では、GMSAはコンテキスト復元において従来の圧縮パラダイムを著しく上回るだけでなく、少数のエンコーダ層で安定ではるかに高速な収束を実現する。
下流質問応答(QA)タスクでは、GMSAは、元の入力プロンプトと様々な最先端(SOTA)メソッドの両方を大きなマージンで上回りながら、エンドツーエンドの推論で約2倍のスピードアップを達成することができる。
関連論文リスト
- CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。
既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。
RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文 参考訳(メタデータ) (2025-02-19T23:15:23Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。