論文の概要: Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
- arxiv url: http://arxiv.org/abs/2411.03562v1
- Date: Tue, 05 Nov 2024 23:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:19.736648
- Title: Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
- Title(参考訳): Achieve Kaggleグランドマスターレベルの構造化推論をオーケストレーションする大規模言語モデル
- Authors: Antoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang,
- Abstract要約: 我々は、エンドツーエンドの自律データサイエンスエージェントであるAgent K v1.0を紹介する。
経験から学ぶことによって、データサイエンスのライフサイクル全体を管理する。
キー情報を選択的に保存して検索することで、長期記憶と短期記憶を最適化する。
- 参考スコア(独自算出の注目度): 73.14232472724758
- License:
- Abstract: We introduce Agent K v1.0, an end-to-end autonomous data science agent designed to automate, optimise, and generalise across diverse data science tasks. Fully automated, Agent K v1.0 manages the entire data science life cycle by learning from experience. It leverages a highly flexible structured reasoning framework to enable it to dynamically process memory in a nested structure, effectively learning from accumulated experience stored to handle complex reasoning tasks. It optimises long- and short-term memory by selectively storing and retrieving key information, guiding future decisions based on environmental rewards. This iterative approach allows it to refine decisions without fine-tuning or backpropagation, achieving continuous improvement through experiential learning. We evaluate our agent's apabilities using Kaggle competitions as a case study. Following a fully automated protocol, Agent K v1.0 systematically addresses complex and multimodal data science tasks, employing Bayesian optimisation for hyperparameter tuning and feature engineering. Our new evaluation framework rigorously assesses Agent K v1.0's end-to-end capabilities to generate and send submissions starting from a Kaggle competition URL. Results demonstrate that Agent K v1.0 achieves a 92.5\% success rate across tasks, spanning tabular, computer vision, NLP, and multimodal domains. When benchmarking against 5,856 human Kaggle competitors by calculating Elo-MMR scores for each, Agent K v1.0 ranks in the top 38\%, demonstrating an overall skill level comparable to Expert-level users. Notably, its Elo-MMR score falls between the first and third quartiles of scores achieved by human Grandmasters. Furthermore, our results indicate that Agent K v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a record of 6 gold, 3 silver, and 7 bronze medals, as defined by Kaggle's progression system.
- Abstract(参考訳): 我々は,さまざまなデータサイエンスタスクの自動化,最適化,一般化を目的とした,エンドツーエンドの自律型データサイエンスエージェントであるAgens K v1.0を紹介する。
完全に自動化されたエージェントK v1.0は、経験から学ぶことによって、データサイエンスライフサイクル全体を管理する。
非常に柔軟な構造化推論フレームワークを活用して、ネストされた構造でメモリを動的に処理し、複雑な推論タスクを処理するために蓄積された経験から効果的に学習する。
キー情報を選択的に保存して検索し、環境報酬に基づいて将来の決定を導くことにより、長期記憶と短期記憶を最適化する。
この反復的なアプローチは、微調整やバックプロパゲーションなしに意思決定を洗練し、経験的学習を通じて継続的な改善を達成します。
そこで我々は,Kaggleコンペティションを用いたエージェントの能力評価を行った。
完全に自動化されたプロトコルに従って、エージェントK v1.0は複雑なマルチモーダルデータサイエンスタスクを体系的に処理し、ハイパパラメータチューニングと機能エンジニアリングにベイズ最適化を利用する。
我々の新しい評価フレームワークは、KaggleコンペティションURLから始まる送信を生成・送信するAgent K v1.0のエンドツーエンド機能を厳格に評価する。
その結果,エージェントK v1.0は,表やコンピュータビジョン,NLP,マルチモーダルドメインにまたがるタスク間で92.5\%の成功率を達成した。
それぞれのElo-MMRスコアを計算して5,856人のKaggle競合に対してベンチマークを行うと、エージェントK v1.0がトップ38\%にランクインし、エキスパートレベルのユーザに匹敵する全体的なスキルレベルを示している。
特に、Elo-MMRスコアは、人間のグランドマスターが達成したスコアの第1位と第3位の間に該当する。
さらに,本研究の結果から,K v1.0がカグル・グランドマスターに匹敵するパフォーマンスレベルに達し,カグルの進歩システムによって規定された6つの金,3つの銀,7つの銅メダルが記録されていることが示唆された。
関連論文リスト
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [45.0447118979891]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。
データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。
AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (2024-10-27T12:44:25Z) - MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering [35.237253622981264]
MLE-benchは、AIエージェントが機械学習エンジニアリングでどのように機能するかを測定するためのベンチマークである。
われわれはKaggleから75のMLエンジニアリング関連のコンペを開催する。
私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
論文 参考訳(メタデータ) (2024-10-09T17:34:27Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - DAAS: Differentiable Architecture and Augmentation Policy Search [107.53318939844422]
この研究は、ニューラルネットワークとデータ拡張のカップリングの可能性を検討し、それらを共同で検索する効果的なアルゴリズムを提案する。
CIFAR-10では97.91%、ImageNetデータセットでは76.6%の精度で97.91%の精度を達成し、検索アルゴリズムの優れた性能を示している。
論文 参考訳(メタデータ) (2021-09-30T17:15:17Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。