Fugu-MT 論文翻訳(概要): Long Context In-Context Compression by Getting to the Gist of Gisting

論文の概要: Long Context In-Context Compression by Getting to the Gist of Gisting

arxiv url: http://arxiv.org/abs/2504.08934v1
Date: Fri, 11 Apr 2025 19:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 02:41:36.088406
Title: Long Context In-Context Compression by Getting to the Gist of Gisting
Title（参考訳）: ギスト・オブ・ギスト(Gist of Gist)に到達した長時間の文脈内圧縮
Authors: Aleksandar Petrov, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Max Vladymyrov,
Abstract要約: GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。 GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
参考スコア（独自算出の注目度）: 50.24627831994713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long context processing is critical for the adoption of LLMs, but existing methods often introduce architectural complexity that hinders their practical adoption. Gisting, an in-context compression method with no architectural modification to the decoder transformer, is a promising approach due to its simplicity and compatibility with existing frameworks. While effective for short instructions, we demonstrate that gisting struggles with longer contexts, with significant performance drops even at minimal compression rates. Surprisingly, a simple average pooling baseline consistently outperforms gisting. We analyze the limitations of gisting, including information flow interruptions, capacity limitations and the inability to restrict its attention to subsets of the context. Motivated by theoretical insights into the performance gap between gisting and average pooling, and supported by extensive experimentation, we propose GistPool, a new in-context compression method. GistPool preserves the simplicity of gisting, while significantly boosting its performance on long context compression tasks.
Abstract（参考訳）: 長期のコンテキスト処理はLLMの採用に不可欠であるが、既存の手法はしばしばアーキテクチャ上の複雑さを導入し、その実践を妨げている。 Gistingは、デコーダ変換器にアーキテクチャ的な変更を加えることなく、コンテクスト内で圧縮する方法であり、既存のフレームワークとの単純さと互換性のため、有望なアプローチである。ショートインストラクションには有効であるが,圧縮速度が最小でも性能が大幅に低下する,より長いコンテクストでグスタッキングが困難であることを示す。驚くべきことに、単純な平均プールベースラインはグストよりも一貫して優れています。我々は、情報フローの中断、キャパシティの制限、コンテキストのサブセットに注意を向けることができないなど、ギストリングの制限を分析する。グスタッキングと平均プーリングのパフォーマンスギャップに関する理論的知見を取り入れ,広範な実験によって支援されたGistPoolを提案する。 GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。

関連論文リスト

Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
Simple Context Compression: Mean-Pooling and Multi-Ratio Training [12.049015994907629]
我々は、広く使われている圧縮トークンアーキテクチャを一貫して上回る軽量でシンプルな平均プール手法を開発した。ドメイン内およびドメイン外QAデータセット、モデルファミリ、スケール、圧縮比にわたって、広範な実験を行います。全体としては,複数の圧縮比のトレーニングを行う場合,比較的少ない低下率で,本手法は最強性能を達成する。
論文参考訳（メタデータ） (2025-10-23T17:57:23Z)
FreeChunker: A Cross-Granularity Chunking Framework [16.790630771624162]
チャンキング戦略は、検索・拡張生成(RAG)システムの有効性に大きな影響を及ぼす。本稿では,従来のチャンキングパラダイムをトランスフォーメーションするクロスグラニュラリティフレームワークであるFreeChunkerについて述べる。
論文参考訳（メタデータ） (2025-10-23T08:57:00Z)
AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。 AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文参考訳（メタデータ） (2025-09-22T08:18:50Z)
CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。 CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文参考訳（メタデータ） (2025-09-11T07:13:49Z)
REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文参考訳（メタデータ） (2025-09-01T03:31:44Z)
Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文参考訳（メタデータ） (2025-06-13T06:49:53Z)
FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文参考訳（メタデータ） (2025-05-29T19:42:35Z)
MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文参考訳（メタデータ） (2025-04-23T15:02:53Z)
Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文参考訳（メタデータ） (2024-08-25T09:30:34Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文参考訳（メタデータ） (2024-07-22T09:40:13Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
Learning Accurate Performance Predictors for Ultrafast Automated Model Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文参考訳（メタデータ） (2023-04-13T10:52:49Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Structured Sparsification with Joint Optimization of Group Convolution and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文参考訳（メタデータ） (2020-02-19T12:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。