Fugu-MT 論文翻訳(概要): Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention

論文の概要: Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention

arxiv url: http://arxiv.org/abs/2505.15774v1
Date: Wed, 21 May 2025 17:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.800159
Title: Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention
Title（参考訳）: ハードとソフトを超えて - ローカルとグローバル情報保持のバランスをとるためのハイブリッドコンテキスト圧縮
Authors: Huanxuan Liao, Wen Hu, Yao Xu, Shizhu He, Jun Zhao, Kang Liu,
Abstract要約: 大規模言語モデル(LLM)は、計算の非効率性と冗長な処理による長周期推論において重大な課題に直面する。既存の方法は、ハードローカル圧縮や、ソフトグローバル圧縮のための遅延表現にコンテキストをエンコードするためにトークンの重要度に依存することが多い。我々は,グローバルな視点とローカルな視点を統合してコンテキスト圧縮をガイドするHyCo$を提案する。
参考スコア（独自算出の注目度）: 30.580674811560613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) encounter significant challenges in long-sequence inference due to computational inefficiency and redundant processing, driving interest in context compression techniques. Existing methods often rely on token importance to perform hard local compression or encode context into latent representations for soft global compression. However, the uneven distribution of textual content relevance and the diversity of demands for user instructions mean these approaches frequently lead to the loss of potentially valuable information. To address this, we propose $\textbf{Hy}$brid $\textbf{Co}$ntext $\textbf{Co}$mpression (HyCo$_2$) for LLMs, which integrates both global and local perspectives to guide context compression while retaining both the essential semantics and critical details for task completion. Specifically, we employ a hybrid adapter to refine global semantics with the global view, based on the observation that different adapters excel at different tasks. Then we incorporate a classification layer that assigns a retention probability to each context token based on the local view, determining whether it should be retained or discarded. To foster a balanced integration of global and local compression, we introduce auxiliary paraphrasing and completion pretraining before instruction tuning. This promotes a synergistic integration that emphasizes instruction-relevant information while preserving essential local details, ultimately balancing local and global information retention in context compression. Experiments show that our HyCo$_2$ method significantly enhances long-text reasoning while reducing token usage. It improves the performance of various LLM series by an average of 13.1\% across seven knowledge-intensive QA benchmarks. Moreover, HyCo$_2$ matches the performance of uncompressed methods while reducing token consumption by 88.8\%.
Abstract（参考訳）: 大規模言語モデル (LLM) は、計算の非効率性と冗長な処理により、長時間の推論において重大な課題に遭遇し、文脈圧縮技術への関心を喚起する。既存の方法は、ハードローカル圧縮や、ソフトグローバル圧縮のための遅延表現にコンテキストをエンコードするためにトークンの重要度に依存することが多い。しかし、テキストコンテンツ関連性の不均一な分布とユーザ指示に対する要求の多様性により、これらのアプローチは、潜在的に価値のある情報の喪失につながることが多い。この問題に対処するため,我々は,LLM に対して $\textbf{Hy}$brid $\textbf{Co}$ntext $\textbf{Co}$mpression (HyCo$_2$) を提案する。具体的には、異なるタスクにおいて異なるアダプタが優れているという観察に基づいて、グローバルなセマンティクスをグローバルな視点で洗練するために、ハイブリッドアダプタを使用します。次に、ローカルビューに基づいて各コンテキストトークンに保持確率を割り当て、保持すべきか破棄されるべきかを決定する分類層を組み込む。グローバル圧縮と局所圧縮のバランスの取れた統合を促進するために,指導指導前の補助パラフレーズと完了事前訓練を導入する。これは、命令関連情報を強調しながら、重要なローカル詳細を保存し、究極的にはコンテキスト圧縮におけるローカル情報とグローバル情報の保持のバランスをとる、シナジスティックな統合を促進する。実験の結果,HyCo$_2$メソッドはトークン使用量を減らすとともに,長文推論を大幅に向上させることがわかった。これにより、7つの知識集約型QAベンチマークで平均13.1\%の性能が向上する。さらに、HyCo$_2$は、圧縮されていないメソッドのパフォーマンスと一致し、トークン消費を88.8\%削減する。

関連論文リスト

DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。 LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2025-07-16T06:16:06Z)
PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文参考訳（メタデータ） (2025-04-23T09:53:01Z)
Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models [36.16630765077807]
MLLM(HICom)における条件付きトーケン圧縮のためのハイブリッドレベルのインストラクションインジェクション戦略を提案する。ローカルレベルとグローバルレベルの両方から圧縮を誘導する条件として,この命令を使用する。実験の結果、HIComは少ないトークンで優れた映像理解能力を得ることができることがわかった。
論文参考訳（メタデータ） (2025-03-20T11:09:18Z)
DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens [20.044306399439265]
LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面する。我々は,LLMの文脈関連性に関する本質的な理解を活用して圧縮を誘導する簡易かつ効果的な手法であるDAST(Dynamic Allocation of Soft Tokens)を提案する。複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
論文参考訳（メタデータ） (2025-02-17T06:55:13Z)
Federated Class-Incremental Learning: A Hybrid Approach Using Latent Exemplars and Data-Free Techniques to Address Local and Global Forgetting [10.061328213032088]
FCIL(Federated Class-Incremental Learning)とは、動的に変化するクライアントの数が、継続的に増加するタスク数を共同で学習するシナリオを指す。我々は,局所的およびグローバルな忘れを定式化するFCILの数学的枠組みを開発する。局所的, グローバルな忘れを解消するために, 潜在例とデータフリー手法を利用したHybrid Rehearsalという手法を提案する。
論文参考訳（メタデータ） (2025-01-26T01:08:01Z)
Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [28.311125014789905]
グローバル圧縮コマンド(Global Compression Commander、GlobalCom$2$)は、HR-LVLM用の新しいプラグアンドプレイトークン圧縮フレームワークである。実験の結果,GlobalCom$2$は90%以上の視覚トークンを圧縮しながら90%以上の性能を維持していることがわかった。
論文参考訳（メタデータ） (2025-01-09T11:57:58Z)
Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models [50.637714223178456]
大規模言語モデル(LLM)の文脈圧縮能力を改善するために,拡張位置レイアウト(EPL)を提案する。 EPLはコンテキストトークンと対応する特別なトークンの間の距離を最小化し、同時に位置IDのシーケンス順序を維持する。マルチモーダルシナリオに拡張すると、EPLは視覚圧縮LLMに平均2.6の精度向上をもたらす。
論文参考訳（メタデータ） (2024-09-22T08:51:18Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
Coupling Global Context and Local Contents for Weakly-Supervised Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文参考訳（メタデータ） (2023-04-18T15:29:23Z)
Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文参考訳（メタデータ） (2020-12-07T21:05:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。