論文の概要: Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial
- arxiv url: http://arxiv.org/abs/2603.23525v1
- Date: Fri, 06 Mar 2026 21:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.01357
- Title: Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial
- Title(参考訳): Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial
- Authors: Warren Johnson, Charles Lee,
- Abstract要約: 即時圧縮の経済性は、入力トークンの削減だけでなく、圧縮が出力長をどのように変化させるかにも依存する。
実運用マルチエージェントタスクオーケストレーションにおける即時圧縮を予め登録した6腕ランダム化制御試行において,これを評価した。
- 参考スコア(独自算出の注目度): 0.05586191108738562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The economics of prompt compression depend not only on reducing input tokens but on how compression changes output length, which is typically priced several times higher. We evaluate this in a pre-registered six-arm randomized controlled trial of prompt compression on production multi-agent task-orchestration, analyzing 358 successful Claude Sonnet 4.5 runs (59-61 per arm) drawn from a randomized corpus of 1,199 real orchestration instructions. We compare an uncompressed control with three uniform retention rates (r=0.8, 0.5, 0.2) and two structure-aware strategies (entropy-adaptive and recency-weighted), measuring total inference cost (input+output) and embedding-based response similarity. Moderate compression (r=0.5) reduced mean total cost by 27.9%, while aggressive compression (r=0.2) increased mean cost by 1.8% despite substantial input reduction, consistent with small mean output expansion (1.03x vs. control) and heavy-tailed uncertainty. Recency-weighted compression achieved 23.5% savings and, together with moderate compression, occupied the empirical cost-similarity Pareto frontier, whereas aggressive compression was dominated on both cost and similarity. These results show that "compress more" is not a reliable production heuristic and that output tokens must be treated as a first-class outcome when designing compression policies.
- Abstract(参考訳): 即時圧縮の経済性は、入力トークンの減少だけでなく、圧縮が出力長をどのように変えるかにも依存する。
1,199個の実オーケストレーション命令をランダム化されたコーパスから抽出したClaude Sonnet 4.5 run (59-61) を358個の成功率で解析し, マルチエージェントタスクオーケストレーションの即時圧縮を予め登録した6腕ランダム化制御試験で評価した。
本研究では, 単調保持率 (r=0.8, 0.5, 0.2) と2つの構造認識戦略 (エントロピー適応型, 直流重み付け型) と, 総推論コスト (input+output) と埋め込み型応答類似度(input-based response similarity) を比較した。
適度圧縮(r=0.5)は平均総コストを27.9%削減し、アグレッシブ圧縮(r=0.2)は実質的な入力削減にもかかわらず平均コストを1.8%引き上げた。
周波数重み圧縮は23.5%の節約を達成し、中程度の圧縮と共に、実証的なコスト類似性であるパレートフロンティアを占領したが、攻撃的な圧縮はコストと類似性の両方で支配された。
これらの結果から,「圧縮量」は信頼性の高い生産ヒューリスティックではなく,出力トークンを圧縮ポリシの設計において第一級の結果として扱わなければならないことが示唆された。
関連論文リスト
- Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression [16.625053009148306]
連成モデル圧縮は、プルーニングや量子化といった複数の手法を組み合わせることで、より高い効率を達成するための強力な戦略である。
ジョイントモデル圧縮における中心的だが未探索の要素は、圧縮順序または圧縮パイプライン内の異なるメソッドのシーケンスである。
論文 参考訳(メタデータ) (2026-03-19T02:40:23Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Unbiased Compression Saves Communication in Distributed Optimization:
When and How Much? [22.701976655513043]
通信圧縮は、圧縮された勾配とモデルパラメータを伝達することで通信オーバーヘッドを軽減することができる。
通信圧縮によって通信コストが削減されるかどうかは不明である。
独立な非バイアス圧縮を用いることで、すべての局所的滑らか度定数が制約された場合、最大$Theta(sqrtminn, kappa)$で通信コストを削減できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:51:23Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z) - Uncertainty Principle for Communication Compression in Distributed and
Federated Learning and the Search for an Optimal Compressor [5.09755285351264]
我々は,ベクトルのカシン表現にインスパイアされた非バイアス圧縮法を考察し,これをエムカシン圧縮(KC)と呼ぶ。
KC は、各ベクトルエントリごとに数ビットしか通信する必要のない状態であっても、明示的な公式を導出するエム次元独立分散境界を享受する。
論文 参考訳(メタデータ) (2020-02-20T17:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。