論文の概要: Cutting AI Research Costs: How Task-Aware Compression Makes Large Language Model Agents Affordable
- arxiv url: http://arxiv.org/abs/2601.05191v1
- Date: Thu, 08 Jan 2026 18:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.328406
- Title: Cutting AI Research Costs: How Task-Aware Compression Makes Large Language Model Agents Affordable
- Title(参考訳): AI研究のコスト削減 - タスク認識圧縮が大規模言語モデルエージェントを定着させる方法
- Authors: Zuhair Ahmed Khan Taha, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 70ビリオンのパラメータモデルを用いた単一の研究セッションは、クラウド料金が約127ドルである。
我々はこの問題に正面から取り組むためにAgentCompressを開発した。
私たちのシステムは小さなニューラルネットワークを使って、各タスクがどれだけ難しいかを測定します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When researchers deploy large language models for autonomous tasks like reviewing literature or generating hypotheses, the computational bills add up quickly. A single research session using a 70-billion parameter model can cost around $127 in cloud fees, putting these tools out of reach for many academic labs. We developed AgentCompress to tackle this problem head-on. The core idea came from a simple observation during our own work: writing a novel hypothesis clearly demands more from the model than reformatting a bibliography. Why should both tasks run at full precision? Our system uses a small neural network to gauge how hard each incoming task will be, based only on its opening words, then routes it to a suitably compressed model variant. The decision happens in under a millisecond. Testing across 500 research workflows in four scientific fields, we cut compute costs by 68.3% while keeping 96.2% of the original success rate. For labs watching their budgets, this could mean the difference between running experiments and sitting on the sidelines
- Abstract(参考訳): 研究者が論文のレビューや仮説の生成など、自律的なタスクのための大規模な言語モデルを展開すると、計算請求書はすぐに増える。
70ビリオンのパラメーターモデルを用いた単一の研究セッションは、クラウド料金が約127ドル(約1万2000円)で、多くの学術研究所では利用できない。
我々はこの問題に正面から取り組むためにAgentCompressを開発した。
新たな仮説を書くことは、書誌を改革するよりも明らかにモデルから要求される。
どちらのタスクも、完全な精度で実行すべきなのか?
我々のシステムは、入力された各タスクがどれだけ難しいかを評価するために小さなニューラルネットワークを使用し、その開始語のみに基づいて、適切に圧縮されたモデル変種にルーティングする。
決定は1ミリ秒以内に行われる。
4つの科学分野で500の研究ワークフローをテストし、計算コストを68.3%削減し、当初の成功率の96.2%を維持した。
予算を見守る実験室にとって、これは実験とサイドラインに座ることの違いを意味するかもしれない
関連論文リスト
- Trainable Bitwise Soft Quantization for Input Feature Compression [0.7559720049837458]
本稿では,ニューラルネットワークの入力特徴を圧縮するタスク固有で訓練可能な特徴量化層を提案する。
これにより、デバイスからリモートサーバに転送される必要のあるデータの量を大幅に削減できる。
論文 参考訳(メタデータ) (2026-03-05T13:40:55Z) - Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference [0.0]
Pyramid MoA"は階層的なMixture-of-Agentsアーキテクチャで、軽量ルータを使用してクエリを動的にエスカレートする。
システムには無視可能な遅延オーバーヘッド(+0.82s)が導入されており、パフォーマンスと予算のトレードオフが調整可能であることを実証する。
論文 参考訳(メタデータ) (2026-02-23T04:47:47Z) - Scaling Up Efficient Small Language Models Serving and Deployment for Semantic Job Search [12.891315513255527]
大言語モデル(LLM)は、関連性ランキングやセマンティックサーチなどの予測タスクに適用した場合、印象的な品質を示す。
しかし、そのようなLSMの展開は、厳格なレイテンシとスループットの要求がある業界アプリケーションにとって違法に高価である。
本稿では,LinkedInのセマンティック検索アプリケーションに対して,純粋にテキストベースのデコーダのみを用いたSLM(Small Language Model)の開発から学んだ教訓と効率性について述べる。
論文 参考訳(メタデータ) (2025-10-25T00:56:06Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T06:13:04Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。