Fugu-MT 論文翻訳(概要): DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

論文の概要: DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

arxiv url: http://arxiv.org/abs/2402.17453v1
Date: Tue, 27 Feb 2024 12:26:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:36:44.943504
Title: DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning
Title（参考訳）: DS-Agent:ケースベース推論による大規模言語モデルを活用したデータサイエンスの自動化
Authors: Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang
Abstract要約: 大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
参考スコア（独自算出の注目度）: 60.2784156133412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we investigate the potential of large language models (LLMs) based agents to automate data science tasks, with the goal of comprehending task requirements, then building and training the best-fit machine learning models. Despite their widespread success, existing LLM agents are hindered by generating unreasonable experiment plans within this scenario. To this end, we present DS-Agent, a novel automatic framework that harnesses LLM agent and case-based reasoning (CBR). In the development stage, DS-Agent follows the CBR framework to structure an automatic iteration pipeline, which can flexibly capitalize on the expert knowledge from Kaggle, and facilitate consistent performance improvement through the feedback mechanism. Moreover, DS-Agent implements a low-resource deployment stage with a simplified CBR paradigm to adapt past successful solutions from the development stage for direct code generation, significantly reducing the demand on foundational capabilities of LLMs. Empirically, DS-Agent with GPT-4 achieves an unprecedented 100% success rate in the development stage, while attaining 36% improvement on average one pass rate across alternative LLMs in the deployment stage. In both stages, DS-Agent achieves the best rank in performance, costing \$1.60 and \$0.13 per run with GPT-4, respectively.
Abstract（参考訳）: 本研究では,データサイエンスタスクを自動化するための大規模言語モデル(llms)ベースのエージェントの可能性について,タスク要件の理解と,最適な機械学習モデルの構築とトレーニングを目標として検討する。その成功にもかかわらず、既存のLLMエージェントは、このシナリオ内で不合理な実験計画を生成することで妨げられている。この目的のために, LLMエージェントとケースベース推論(CBR)を利用した新しい自動フレームワークDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従って自動イテレーションパイプラインを構築し、Kaggleから専門家の知識を柔軟に活用し、フィードバックメカニズムを通じて一貫したパフォーマンス改善を促進する。さらにDS-Agentは、開発段階で成功したソリューションを直接コード生成に適応させるため、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装しており、LCMの基本能力に対する需要を著しく減らしている。 GPT-4を用いたDS-Agentは、開発段階では前例のない100%の成功率を達成し、デプロイ段階では、代替LLMの平均1パスレートを36%改善した。どちらの段階でもDS-AgentはGPT-4で1ラン当たり1.60ドルと0.13ドルという最高の成績を収めている。

関連論文リスト

Symbiotic Agents: A Novel Paradigm for Trustworthy AGI-driven Networks [2.5782420501870296]
大規模言語モデル(LLM)に基づく自律エージェントは、6Gネットワークの進化において重要な役割を果たすことが期待されている。我々は、LLMのリアルタイム最適化アルゴリズムをTrustworthy AIに組み合わせた新しいエージェントパラダイムを導入する。本稿では,AGIネットワークのエンドツーエンドアーキテクチャを提案し,移動車からのチャネル変動をキャプチャする5Gテストベッド上で評価する。
論文参考訳（メタデータ） (2025-07-23T17:01:23Z)
LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。 LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文参考訳（メタデータ） (2025-05-28T04:30:51Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。 API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文参考訳（メタデータ） (2024-11-29T08:47:04Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。