論文の概要: AgentCompress: Task-Aware Compression for Affordable Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2601.05191v2
- Date: Mon, 12 Jan 2026 18:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.563359
- Title: AgentCompress: Task-Aware Compression for Affordable Large Language Model Agents
- Title(参考訳): AgentCompress: Affordable Large Language Model Agentsのためのタスク認識圧縮
- Authors: Zuhair Ahmed Khan Taha, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 70ビリオンパラメータモデルを使用した1セッションは、クラウドコンピューティングの料金が約127ドルである。
本稿では,タスク認識型動的圧縮によってこの問題に対処するフレームワークであるAgentCompressを提案する。
計算コストは68.3%減少し、当初の成功率の96.2%を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models hold considerable promise for various applications, but their computational requirements create a barrier that many institutions cannot overcome. A single session using a 70-billion-parameter model can cost around $127 in cloud computing fees, which puts these tools out of reach for organizations operating on limited budgets. We present AgentCompress, a framework that tackles this problem through task-aware dynamic compression. The idea comes from a simple observation: not all tasks require the same computational effort. Complex reasoning, for example, is far more demanding than text reformatting, yet conventional compression applies the same reduction to both. Our approach uses a lightweight neural controller that looks at the first few tokens of each request, estimates how complex the task will be, and sends it to an appropriately quantized version of the model. This routing step adds only about 12 milliseconds of overhead. We tested the framework on 290 multi-stage workflows from domains including computer science, physics, chemistry, and biology. The results show a 68.3% reduction in computational costs while preserving 96.2% of the original success rate. These findings suggest that routing queries intelligently can make powerful language models substantially more affordable without sacrificing output quality
- Abstract(参考訳): 大規模言語モデルは、様々なアプリケーションに対してかなりの保証を持っているが、その計算要求は、多くの機関が克服できない障壁を生み出している。
70ビリオンのパラメータモデルを使用した1回のセッションでは、クラウドコンピューティングの料金が約127ドルになる。
本稿では,タスク認識型動的圧縮によってこの問題に対処するフレームワークであるAgentCompressを提案する。
すべてのタスクが同じ計算作業を必要とするわけではない。
例えば、複雑な推論は、テキストの再フォーマットよりもはるかに要求が多いが、従来の圧縮は両方に同じ削減を適用している。
弊社のアプローチでは、軽量なニューラルコントローラを使って、各リクエストの最初の数個のトークンを調べ、そのタスクがどれだけ複雑であるかを推定し、それをモデルの適切な定量化バージョンに送信する。
このルーティングステップでは、オーバーヘッドはわずか12ミリ秒に過ぎません。
コンピュータサイエンス、物理、化学、生物学といった分野から290のマルチステージワークフローでこのフレームワークをテストしました。
その結果、計算コストは68.3%削減され、元の成功率の96.2%が維持された。
これらの結果は、ルーティングクエリをインテリジェントにルーティングすることで、出力品質を犠牲にすることなく、強力な言語モデルを大幅に手頃な価格にすることができることを示唆している。
関連論文リスト
- Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。