論文の概要: Cutting AI Research Costs: How Task-Aware Compression Makes Large Language Model Agents Affordable
- arxiv url: http://arxiv.org/abs/2601.05191v1
- Date: Thu, 08 Jan 2026 18:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.328406
- Title: Cutting AI Research Costs: How Task-Aware Compression Makes Large Language Model Agents Affordable
- Title(参考訳): AI研究のコスト削減 - タスク認識圧縮が大規模言語モデルエージェントを定着させる方法
- Authors: Zuhair Ahmed Khan Taha, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 70ビリオンのパラメータモデルを用いた単一の研究セッションは、クラウド料金が約127ドルである。
我々はこの問題に正面から取り組むためにAgentCompressを開発した。
私たちのシステムは小さなニューラルネットワークを使って、各タスクがどれだけ難しいかを測定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When researchers deploy large language models for autonomous tasks like reviewing literature or generating hypotheses, the computational bills add up quickly. A single research session using a 70-billion parameter model can cost around $127 in cloud fees, putting these tools out of reach for many academic labs. We developed AgentCompress to tackle this problem head-on. The core idea came from a simple observation during our own work: writing a novel hypothesis clearly demands more from the model than reformatting a bibliography. Why should both tasks run at full precision? Our system uses a small neural network to gauge how hard each incoming task will be, based only on its opening words, then routes it to a suitably compressed model variant. The decision happens in under a millisecond. Testing across 500 research workflows in four scientific fields, we cut compute costs by 68.3% while keeping 96.2% of the original success rate. For labs watching their budgets, this could mean the difference between running experiments and sitting on the sidelines
- Abstract(参考訳): 研究者が論文のレビューや仮説の生成など、自律的なタスクのための大規模な言語モデルを展開すると、計算請求書はすぐに増える。
70ビリオンのパラメーターモデルを用いた単一の研究セッションは、クラウド料金が約127ドル(約1万2000円)で、多くの学術研究所では利用できない。
我々はこの問題に正面から取り組むためにAgentCompressを開発した。
新たな仮説を書くことは、書誌を改革するよりも明らかにモデルから要求される。
どちらのタスクも、完全な精度で実行すべきなのか?
我々のシステムは、入力された各タスクがどれだけ難しいかを評価するために小さなニューラルネットワークを使用し、その開始語のみに基づいて、適切に圧縮されたモデル変種にルーティングする。
決定は1ミリ秒以内に行われる。
4つの科学分野で500の研究ワークフローをテストし、計算コストを68.3%削減し、当初の成功率の96.2%を維持した。
予算を見守る実験室にとって、これは実験とサイドラインに座ることの違いを意味するかもしれない
関連論文リスト
- Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。