Fugu-MT 論文翻訳(概要): BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

論文の概要: BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks

arxiv url: http://arxiv.org/abs/2411.07464v2
Date: Wed, 08 Jan 2025 07:25:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.398988
Title: BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks
Title（参考訳）: BudgetMLAgent: 機械学習タスク自動化のためのコスト効果LLMマルチエージェントシステム
Authors: Shubham Gandhi, Manasi Patwardhan, Lovekesh Vig, Gautam Shroff,
Abstract要約: 大規模言語モデル(LLM)は、コードスニペットの生成を含む多様なアプリケーションで優れているが、複雑な機械学習(ML)タスクのためのコード生成に苦戦することが多い。調査の結果,Gemini-Pro,Mixtral,CodeLlamaなどの低コストモデルは単一エージェント環境ではGPT-4よりもはるかに低性能であることがわかった。本稿では,プロファイリング,過去の観測の効率的な検索,LSMカスケード,およびQ&Aコールによる専門家の組合せを利用したLLM Multi-Agent ベースのシステムを提案する。
参考スコア（独自算出の注目度）: 13.292422686491753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) excel in diverse applications including generation of code snippets, but often struggle with generating code for complex Machine Learning (ML) tasks. Although existing LLM single-agent based systems give varying performance depending on the task complexity, they purely rely on larger and expensive models such as GPT-4. Our investigation reveals that no-cost and low-cost models such as Gemini-Pro, Mixtral and CodeLlama perform far worse than GPT-4 in a single-agent setting. With the motivation of developing a cost-efficient LLM based solution for solving ML tasks, we propose an LLM Multi-Agent based system which leverages combination of experts using profiling, efficient retrieval of past observations, LLM cascades, and ask-the-expert calls. Through empirical analysis on ML engineering tasks in the MLAgentBench benchmark, we demonstrate the effectiveness of our system, using no-cost models, namely Gemini as the base LLM, paired with GPT-4 in cascade and expert to serve occasional ask-the-expert calls for planning. With 94.2\% reduction in the cost (from \$0.931 per run cost averaged over all tasks for GPT-4 single agent system to \$0.054), our system is able to yield better average success rate of 32.95\% as compared to GPT-4 single-agent system yielding 22.72\% success rate averaged over all the tasks of MLAgentBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コードスニペットの生成を含む多様なアプリケーションで優れているが、複雑な機械学習(ML)タスクのためのコード生成に苦戦することが多い。既存のLLMシングルエージェントベースのシステムはタスクの複雑さによって様々なパフォーマンスを提供するが、GPT-4のようなより大型で高価なモデルに依存している。調査の結果,Gemini-Pro,Mixtral,CodeLlamaなどの低コストモデルは単一エージェント環境ではGPT-4よりもはるかに低性能であることがわかった。 MLタスクを解くためのコスト効率の高いLCMベースのソリューションを開発する動機として,プロファイリング,過去の観測の効率的な検索,LSMカスケード,専門家への問い合わせといった手法を応用したLLM Multi-Agentベースのシステムを提案する。 MLAgentBenchベンチマークにおけるMLエンジニアリングタスクの実証分析を通じて,ゲミニをベース LLM とし,GPT-4 をカスケードで組み合わせて,時折専門家によるプランニングを依頼する,コストのかかるモデルを用いて,システムの有効性を実証した。 GPT-4単エージェントシステムの全タスクで平均0.931ドルから0.054ドルに削減された94.2\%のコストで、当社のシステムは、MLAgentBenchの全タスクで平均22.72\%の成功率で、GPT-4単エージェントシステムの平均成功率を32.95\%に向上させることができる。

関連論文リスト

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。 Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。 AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文参考訳（メタデータ） (2025-09-03T13:42:14Z)
LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation [12.098817831819078]
大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
論文参考訳（メタデータ） (2025-06-02T10:59:54Z)
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need? [2.678235552360207]
大きな言語モデル(LLM)は、狭義のタスクにますます採用されている。タスクには実際に何つのパラメータが必要ですか? LLM-Sieveは,LLMのタスク固有プルーニングのための,最初の包括的フレームワークである。
論文参考訳（メタデータ） (2025-05-23T20:17:20Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文参考訳（メタデータ） (2024-10-04T22:31:15Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Meta-Task Planning for Language Agents [13.550774629515843]
大規模言語モデルベースエージェント(LLMエージェント)は、人工知能(AGI)を実現するための有望なパラダイムとして登場した。本稿では,メタタスク計画(Meta-Task Planning, MTP)を紹介する。 MTPはTravelPlannerで平均$sim40%$成功率を達成した。
論文参考訳（メタデータ） (2024-05-26T10:33:17Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。