論文の概要: AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists
- arxiv url: http://arxiv.org/abs/2506.08140v1
- Date: Mon, 09 Jun 2025 18:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.46004
- Title: AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists
- Title(参考訳): AutoSDT: オープンな共学者に向けたデータ駆動ディスカバリタスクのスケーリング
- Authors: Yifei Li, Hanane Nour Moussa, Ziru Chen, Shijie Chen, Botao Yu, Mingyi Xue, Benjamin Burns, Tzu-Yao Chiu, Vishal Dey, Zitong Lu, Chen Wei, Qianheng Zhang, Tianyu Zhang, Song Gao, Xuhui Huang, Xia Ning, Nesreen K. Ahmed, Ali Payani, Huan Sun,
- Abstract要約: AutoSDTは、現実世界のデータ駆動ディスカバリで高品質なコーディングタスクを収集する自動パイプラインである。
データ駆動ディスカバリのための5,404のコーディングタスクのデータセットであるAutoSDT-5Kを構築した。
AutoSDT-Coder-32Bは、2つの挑戦的なデータ駆動ディスカバリベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 28.091640355670666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite long-standing efforts in accelerating scientific discovery with AI, building AI co-scientists remains challenging due to limited high-quality data for training and evaluation. To tackle this data scarcity issue, we present AutoSDT, an automatic pipeline that collects high-quality coding tasks in real-world data-driven discovery workflows. AutoSDT leverages the coding capabilities and parametric knowledge of LLMs to search for diverse sources, select ecologically valid tasks, and synthesize accurate task instructions and code solutions. Using our pipeline, we construct AutoSDT-5K, a dataset of 5,404 coding tasks for data-driven discovery that covers four scientific disciplines and 756 unique Python packages. To the best of our knowledge, AutoSDT-5K is the only automatically collected and the largest open dataset for data-driven scientific discovery. Expert feedback on a subset of 256 tasks shows the effectiveness of AutoSDT: 93% of the collected tasks are ecologically valid, and 92.2% of the synthesized programs are functionally correct. Trained on AutoSDT-5K, the Qwen2.5-Coder-Instruct LLM series, dubbed AutoSDT-Coder, show substantial improvement on two challenging data-driven discovery benchmarks, ScienceAgentBench and DiscoveryBench. Most notably, AutoSDT-Coder-32B reaches the same level of performance as GPT-4o on ScienceAgentBench with a success rate of 7.8%, doubling the performance of its base model. On DiscoveryBench, it lifts the hypothesis matching score to 8.1, bringing a 17.4% relative improvement and closing the gap between open-weight models and GPT-4o.
- Abstract(参考訳): AIによる科学的発見を加速するための長年の努力にもかかわらず、トレーニングと評価のための高品質なデータが限られているため、AIの共同科学者の構築は依然として困難である。
このデータ不足問題に対処するために、実際のデータ駆動ディスカバリワークフローで高品質なコーディングタスクを収集する自動パイプラインであるAutoSDTを提案する。
AutoSDTは、LCMのコーディング能力とパラメトリック知識を活用して、多様なソースを検索し、生態学的に有効なタスクを選択し、正確なタスク命令とコードソリューションを合成する。
パイプラインを使用して,4つの科学分野と756のユニークなPythonパッケージをカバーするデータ駆動ディスカバリのための5,404のコーディングタスクのデータセットであるAutoSDT-5Kを構築した。
我々の知る限り、AutoSDT-5Kは、データ駆動科学発見のための唯一の、かつ最大のオープンデータセットである。
256タスクのサブセットに関する専門家のフィードバックはAutoSDTの有効性を示している: 収集されたタスクの93%が生態学的に有効であり、92.2%が機能的に正しい。
AutoSDT-5KでトレーニングされたQwen2.5-Coder-Instruct LLMシリーズはAutoSDT-Coderと呼ばれ、ScienceAgentBenchとDiscoveryBenchという2つの挑戦的なデータ駆動ディスカバリベンチマークに対して大幅に改善されている。
注目すべきは、AutoSDT-Coder-32BはScienceAgentBenchのGPT-4oと同じレベルの性能に達し、成功率は7.8%となり、ベースモデルの性能は2倍になったことである。
DiscoveryBenchでは、仮説マッチングスコアを8.1に引き上げ、17.4%の改善をもたらし、オープンウェイトモデルとGPT-4oのギャップを埋める。
関連論文リスト
- Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。
sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。
このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [45.0447118979891]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。
データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。
AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (2024-10-27T12:44:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。