論文の概要: AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists
- arxiv url: http://arxiv.org/abs/2506.08140v1
- Date: Mon, 09 Jun 2025 18:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.46004
- Title: AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists
- Title(参考訳): AutoSDT: オープンな共学者に向けたデータ駆動ディスカバリタスクのスケーリング
- Authors: Yifei Li, Hanane Nour Moussa, Ziru Chen, Shijie Chen, Botao Yu, Mingyi Xue, Benjamin Burns, Tzu-Yao Chiu, Vishal Dey, Zitong Lu, Chen Wei, Qianheng Zhang, Tianyu Zhang, Song Gao, Xuhui Huang, Xia Ning, Nesreen K. Ahmed, Ali Payani, Huan Sun,
- Abstract要約: AutoSDTは、現実世界のデータ駆動ディスカバリで高品質なコーディングタスクを収集する自動パイプラインである。
データ駆動ディスカバリのための5,404のコーディングタスクのデータセットであるAutoSDT-5Kを構築した。
AutoSDT-Coder-32Bは、2つの挑戦的なデータ駆動ディスカバリベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 28.091640355670666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite long-standing efforts in accelerating scientific discovery with AI, building AI co-scientists remains challenging due to limited high-quality data for training and evaluation. To tackle this data scarcity issue, we present AutoSDT, an automatic pipeline that collects high-quality coding tasks in real-world data-driven discovery workflows. AutoSDT leverages the coding capabilities and parametric knowledge of LLMs to search for diverse sources, select ecologically valid tasks, and synthesize accurate task instructions and code solutions. Using our pipeline, we construct AutoSDT-5K, a dataset of 5,404 coding tasks for data-driven discovery that covers four scientific disciplines and 756 unique Python packages. To the best of our knowledge, AutoSDT-5K is the only automatically collected and the largest open dataset for data-driven scientific discovery. Expert feedback on a subset of 256 tasks shows the effectiveness of AutoSDT: 93% of the collected tasks are ecologically valid, and 92.2% of the synthesized programs are functionally correct. Trained on AutoSDT-5K, the Qwen2.5-Coder-Instruct LLM series, dubbed AutoSDT-Coder, show substantial improvement on two challenging data-driven discovery benchmarks, ScienceAgentBench and DiscoveryBench. Most notably, AutoSDT-Coder-32B reaches the same level of performance as GPT-4o on ScienceAgentBench with a success rate of 7.8%, doubling the performance of its base model. On DiscoveryBench, it lifts the hypothesis matching score to 8.1, bringing a 17.4% relative improvement and closing the gap between open-weight models and GPT-4o.
- Abstract(参考訳): AIによる科学的発見を加速するための長年の努力にもかかわらず、トレーニングと評価のための高品質なデータが限られているため、AIの共同科学者の構築は依然として困難である。
このデータ不足問題に対処するために、実際のデータ駆動ディスカバリワークフローで高品質なコーディングタスクを収集する自動パイプラインであるAutoSDTを提案する。
AutoSDTは、LCMのコーディング能力とパラメトリック知識を活用して、多様なソースを検索し、生態学的に有効なタスクを選択し、正確なタスク命令とコードソリューションを合成する。
パイプラインを使用して,4つの科学分野と756のユニークなPythonパッケージをカバーするデータ駆動ディスカバリのための5,404のコーディングタスクのデータセットであるAutoSDT-5Kを構築した。
我々の知る限り、AutoSDT-5Kは、データ駆動科学発見のための唯一の、かつ最大のオープンデータセットである。
256タスクのサブセットに関する専門家のフィードバックはAutoSDTの有効性を示している: 収集されたタスクの93%が生態学的に有効であり、92.2%が機能的に正しい。
AutoSDT-5KでトレーニングされたQwen2.5-Coder-Instruct LLMシリーズはAutoSDT-Coderと呼ばれ、ScienceAgentBenchとDiscoveryBenchという2つの挑戦的なデータ駆動ディスカバリベンチマークに対して大幅に改善されている。
注目すべきは、AutoSDT-Coder-32BはScienceAgentBenchのGPT-4oと同じレベルの性能に達し、成功率は7.8%となり、ベースモデルの性能は2倍になったことである。
DiscoveryBenchでは、仮説マッチングスコアを8.1に引き上げ、17.4%の改善をもたらし、オープンウェイトモデルとGPT-4oのギャップを埋める。
関連論文リスト
- AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [45.0447118979891]
AutoKaggleは、コード実行と単体テストを組み合わせた反復的な開発プロセスを実装し、コードの正しさとロジックの整合性を保証する。
データクリーニング、特徴工学、モデリングのための検証済み機能を含む汎用データサイエンスツールキットは、このソリューションの基礎を形成します。
AutoKaggleは、一般的なデータサイエンスパイプラインにおけるバリデーションレート0.85と総合スコア0.82を達成する。
論文 参考訳(メタデータ) (2024-10-27T12:44:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。