論文の概要: Towards Community-Driven Agents for Machine Learning Engineering
- arxiv url: http://arxiv.org/abs/2506.20640v1
- Date: Wed, 25 Jun 2025 17:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.884685
- Title: Towards Community-Driven Agents for Machine Learning Engineering
- Title(参考訳): 機械学習工学のためのコミュニティ駆動エージェントを目指して
- Authors: Sijie Li, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang,
- Abstract要約: CoMindは、洞察を交換し、コミュニティコンテキスト内で新しいソリューションを開発する新しいエージェントである。
MLE-Liveは、エージェントとコミュニケーションし、シミュレーションされたKaggle研究コミュニティから集合的知識を活用できる能力を評価するために設計された、ライブ評価フレームワークである。
CoMindはMLE-Liveで最先端のパフォーマンスを達成し、現在進行中の4つのKaggleコンペティションで平均79.2%の人間コンペティターを上回っている。
- 参考スコア(独自算出の注目度): 39.8181056501734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model-based machine learning (ML) agents have shown great promise in automating ML research. However, existing agents typically operate in isolation on a given research problem, without engaging with the broader research community, where human researchers often gain insights and contribute by sharing knowledge. To bridge this gap, we introduce MLE-Live, a live evaluation framework designed to assess an agent's ability to communicate with and leverage collective knowledge from a simulated Kaggle research community. Building on this framework, we propose CoMind, a novel agent that excels at exchanging insights and developing novel solutions within a community context. CoMind achieves state-of-the-art performance on MLE-Live and outperforms 79.2% human competitors on average across four ongoing Kaggle competitions. Our code is released at https://github.com/comind-ml/CoMind.
- Abstract(参考訳): 大規模言語モデルベース機械学習(ML)エージェントは、ML研究を自動化する上で大きな可能性を示している。
しかし、既存のエージェントは通常、人間の研究者が知識を共有することで洞察を得て貢献する、より広範な研究コミュニティに関与することなく、与えられた研究問題に対して単独で活動する。
このギャップを埋めるために、シミュレーションされたKaggle研究コミュニティからの集合的知識を伝達し活用するエージェントの能力を評価するために設計されたライブ評価フレームワークであるMLE-Liveを紹介する。
このフレームワーク上に構築されたCoMindは、洞察を交換し、コミュニティコンテキスト内で新しいソリューションを開発するための新しいエージェントである。
CoMindはMLE-Liveで最先端のパフォーマンスを達成し、現在進行中の4つのKaggleコンペティションで平均79.2%の人間コンペティターを上回っている。
私たちのコードはhttps://github.com/comind-ml/CoMind.comでリリースされています。
関連論文リスト
- MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。
提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。
どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-02-24T05:56:47Z) - Multi-Agent Collaboration Mechanisms: A Survey of LLMs [6.545098975181273]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、知的エージェントのグループによる複雑なタスクの協調と解決を可能にする。
この研究は、MASの協調的な側面に関する広範な調査を提供し、将来の研究を導くための枠組みを紹介している。
論文 参考訳(メタデータ) (2025-01-10T19:56:50Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - CompeteAI: Understanding the Competition Dynamics in Large Language Model-based Agents [43.46476421809271]
大規模言語モデル(LLM)は、様々なタスクを完了させるエージェントとして広く使われている。
本稿ではエージェント間の競合を研究するための一般的な枠組みを提案する。
そして、GPT-4を用いて仮想街をシミュレートする現実的な競争環境を構築する。
論文 参考訳(メタデータ) (2023-10-26T16:06:20Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。