論文の概要: AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.26596v1
- Date: Tue, 26 May 2026 06:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.701378
- Title: AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents
- Title(参考訳): AGORA:LDM剤の無推論プロンプト圧縮に対する適応型観察反応保持法
- Authors: Haoran Zhang, Zhaohua Sun,
- Abstract要約: トークンレベルの抽出圧縮機はLLM剤には構造的に不適切であることを示す。
本稿では,構造的プロンプトを組み込んだ推論不要なステップレベル圧縮機であるAGORAについて紹介する。
- 参考スコア(独自算出の注目度): 3.9004035576487817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The token-level extractive compressors widely used for general LM context are structurally inappropriate for LLM agents: across 17 (env, backbone, method) cells spanning two independent token-level method families, every cell collapses to mean reward <= 0.05 despite 1.3-13.3x realized compression. We name and characterize this failure mode as action-grammar destruction -- the tokens carrying action semantics (identifiers, brackets, action verbs) are exactly those self-information ranks lowest, so a general-purpose compressor reliably removes them and the environment rejects the residual. The diagnosis points to step-granularity compression. We introduce AGORA, an inference-free step-level compressor combining a structural prompt parser, an always-keep floor for format- and recency-critical content, and a 125M-parameter relevance scorer trained on counterfactual next-action-change labels (~2ms/step, zero per-step LLM toll). Across the compared inference-free and LLM-based methods, AGORA is the only one retaining >= 75% uncompressed performance in 8 of 9 cells (with the lone exception at 73%); a four-way component ablation isolates the structural floor as the dominant quality lever and the learned scorer as the source of 1.0-11.5x adaptive end-to-end compression from a single fixed keep ratio.
- Abstract(参考訳): 一般的なLMコンテキストに広く使用されるトークンレベル抽出圧縮機は、LLMエージェントには構造的に不適切であり、独立した2つのトークンレベルメソッドファミリーにまたがる17個の(env, backbone, method)細胞は、1.3-13.3xが圧縮を実現したにもかかわらず、すべての細胞が平均値 <= 0.05 に崩壊する。
アクションセマンティクス(識別子、括弧、アクション動詞)を運ぶトークンは、まさにその自己情報レベルが低いので、汎用圧縮機はそれらを確実に取り除き、環境は残余を拒絶します。
診断はステップ粒度圧縮を指す。
AGORA, 構造的プロンプトパーサ, 形式的および遅延クリティカルなコンテンツのための常時キープフロア, および, 125Mパラメータ・レバレンススコアラとを組み合わした, 非実効的な次アクション・チェンジラベル(ステップ1ステップあたり約2ms/step, 0)をトレーニングした, 推論不要なステップレベルの圧縮機について紹介する。
AGORAは,9細胞中8細胞(単独の例外は73%)で >=75% の非圧縮性能を保持する唯一の方法であり, 4方向のアブレーションは, 構造床を支配的な品質レバーとして, 学習スコアラーを1.0-11.5x適応的エンドツーエンド圧縮のソースとして分離する。
関連論文リスト
- SemanticZip: A Pilot Framework for Lossy Text Compression with LLMs as Semantic Decompressors [0.0]
LLMがタスク関連の意味に拡張可能なコンパクトなコードにテキストを圧縮する。
通常の要約とは異なり、SemanticZipはバイト単位の再構築を必要としない。
この論文は試験的なフレームワークであり、ベンチマークの主張ではない。
論文 参考訳(メタデータ) (2026-05-23T12:14:04Z) - SparseSAM: Structured Sparsification of Activations in Segment Anything Models [26.589924688727795]
Segment Anything Model (SAM)は強力なオープン語彙セグメンテーションを実現するが、ViTベースの画像エンコーダは遅延推論とメモリを支配している。
SparseSAMは,トークンの識別を保ちながら注意と層を協調的に加速する訓練不要のスペーシフィケーションフレームワークである。
4つのセグメンテーションベンチマークで、SparseSAMは密度が0.004 mIoU、0.3が0.021 mIoU、精度が2.10倍、トークンマージの進歩が2.10倍、推論が2.8倍、メモリが2.8倍である。
論文 参考訳(メタデータ) (2026-05-17T19:54:22Z) - Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data [0.19780197369405136]
本稿では,大規模言語モデルを用いて,テキスト中のキーのエンコーディングを学習し,符号化された表現の分析を行うことができることを示す。
本稿では,複数長さの繰り返しパターンを識別する圧縮アルゴリズムを提案する。
このトレーニング不要のアプローチは、APIベースのLLMで動作し、基本的なデプロイメント制約に直接対処する。
論文 参考訳(メタデータ) (2026-03-19T21:05:53Z) - Separating Constraint Compliance from Semantic Accuracy: A Novel Benchmark for Evaluating Instruction-Following Under Compression [0.0]
大規模言語モデル(LLM)は、即時圧縮の下で劣化した性能を示す。
制約コンプライアンス(CC)と意味精度(SA)を測定するベンチマークであるCompressionDecay Test(CDCT)を導入する。
制約コンプライアンス(97.2%の有病率)における普遍的なU曲線パターンを観察する。
論文 参考訳(メタデータ) (2025-12-02T13:25:48Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Beyond Perplexity: Multi-dimensional Safety Evaluation of LLM Compression [33.45167213570976]
モデル圧縮が4次元に与える影響について検討する:(1)退化障害、すなわち、世代におけるバイアスと毒性、(2)表現障害、すなわち、識別的タスクにおけるバイアス、(3)方言バイアス、(4)言語モデリングと下流タスクのパフォーマンス。
解析の結果,圧縮が予期せぬ結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-06T05:56:22Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。