論文の概要: AgentCompress: Task-Aware Compression for Affordable Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2601.05191v2
- Date: Mon, 12 Jan 2026 18:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.563359
- Title: AgentCompress: Task-Aware Compression for Affordable Large Language Model Agents
- Title(参考訳): AgentCompress: Affordable Large Language Model Agentsのためのタスク認識圧縮
- Authors: Zuhair Ahmed Khan Taha, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 70ビリオンパラメータモデルを使用した1セッションは、クラウドコンピューティングの料金が約127ドルである。
本稿では,タスク認識型動的圧縮によってこの問題に対処するフレームワークであるAgentCompressを提案する。
計算コストは68.3%減少し、当初の成功率の96.2%を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models hold considerable promise for various applications, but their computational requirements create a barrier that many institutions cannot overcome. A single session using a 70-billion-parameter model can cost around $127 in cloud computing fees, which puts these tools out of reach for organizations operating on limited budgets. We present AgentCompress, a framework that tackles this problem through task-aware dynamic compression. The idea comes from a simple observation: not all tasks require the same computational effort. Complex reasoning, for example, is far more demanding than text reformatting, yet conventional compression applies the same reduction to both. Our approach uses a lightweight neural controller that looks at the first few tokens of each request, estimates how complex the task will be, and sends it to an appropriately quantized version of the model. This routing step adds only about 12 milliseconds of overhead. We tested the framework on 290 multi-stage workflows from domains including computer science, physics, chemistry, and biology. The results show a 68.3% reduction in computational costs while preserving 96.2% of the original success rate. These findings suggest that routing queries intelligently can make powerful language models substantially more affordable without sacrificing output quality
- Abstract(参考訳): 大規模言語モデルは、様々なアプリケーションに対してかなりの保証を持っているが、その計算要求は、多くの機関が克服できない障壁を生み出している。
70ビリオンのパラメータモデルを使用した1回のセッションでは、クラウドコンピューティングの料金が約127ドルになる。
本稿では,タスク認識型動的圧縮によってこの問題に対処するフレームワークであるAgentCompressを提案する。
すべてのタスクが同じ計算作業を必要とするわけではない。
例えば、複雑な推論は、テキストの再フォーマットよりもはるかに要求が多いが、従来の圧縮は両方に同じ削減を適用している。
弊社のアプローチでは、軽量なニューラルコントローラを使って、各リクエストの最初の数個のトークンを調べ、そのタスクがどれだけ複雑であるかを推定し、それをモデルの適切な定量化バージョンに送信する。
このルーティングステップでは、オーバーヘッドはわずか12ミリ秒に過ぎません。
コンピュータサイエンス、物理、化学、生物学といった分野から290のマルチステージワークフローでこのフレームワークをテストしました。
その結果、計算コストは68.3%削減され、元の成功率の96.2%が維持された。
これらの結果は、ルーティングクエリをインテリジェントにルーティングすることで、出力品質を犠牲にすることなく、強力な言語モデルを大幅に手頃な価格にすることができることを示唆している。
関連論文リスト
- Trainable Bitwise Soft Quantization for Input Feature Compression [0.7559720049837458]
本稿では,ニューラルネットワークの入力特徴を圧縮するタスク固有で訓練可能な特徴量化層を提案する。
これにより、デバイスからリモートサーバに転送される必要のあるデータの量を大幅に削減できる。
論文 参考訳(メタデータ) (2026-03-05T13:40:55Z) - Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference [0.0]
Pyramid MoA"は階層的なMixture-of-Agentsアーキテクチャで、軽量ルータを使用してクエリを動的にエスカレートする。
システムには無視可能な遅延オーバーヘッド(+0.82s)が導入されており、パフォーマンスと予算のトレードオフが調整可能であることを実証する。
論文 参考訳(メタデータ) (2026-02-23T04:47:47Z) - Scaling Up Efficient Small Language Models Serving and Deployment for Semantic Job Search [12.891315513255527]
大言語モデル(LLM)は、関連性ランキングやセマンティックサーチなどの予測タスクに適用した場合、印象的な品質を示す。
しかし、そのようなLSMの展開は、厳格なレイテンシとスループットの要求がある業界アプリケーションにとって違法に高価である。
本稿では,LinkedInのセマンティック検索アプリケーションに対して,純粋にテキストベースのデコーダのみを用いたSLM(Small Language Model)の開発から学んだ教訓と効率性について述べる。
論文 参考訳(メタデータ) (2025-10-25T00:56:06Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T06:13:04Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。