論文の概要: D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery
- arxiv url: http://arxiv.org/abs/2604.27977v2
- Date: Fri, 01 May 2026 17:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:11.012248
- Title: D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery
- Title(参考訳): D3-Gym: データ駆動ディスカバリのための現実の検証可能な環境を構築する
- Authors: Hanane Nour Moussa, Yifei Li, Zhuoyang Li, Yankai Yang, Cheng Tang, Tianshu Zhang, Nesreen K. Ahmed, Ali Payani, Ziru Chen, Huan Sun,
- Abstract要約: D3-Gymは、科学的データ駆動ディスカバリのための検証可能な環境を備えた最初のデータセットである。
D3-Gymは、(1)4つの分野にわたる239の実際の科学リポジトリから得られた565のタスクからなる。
D3-Gymから採取した軌道の訓練は、様々な大きさのQwen3モデルに対して一貫性と実質的な利得をもたらす。
- 参考スコア(独自算出の注目度): 33.44226912183314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in language models and agents for scientific data-driven discovery, further advancing their capabilities is held back by the absence of verifiable environments representing real-world scientific tasks. To fill this gap, we introduce D3-Gym, the first automatically constructed dataset with verifiable environments for scientific Data-Driven Discovery. D3-Gym comprises (1) 565 tasks sourced from 239 real scientific repositories across four disciplines where (2) each task is equipped with a natural language instruction, an executable environment with pre-installed dependencies, input dataset and artifact previews, a reference code solution, and an automatically synthesized evaluation script. Rigorous evaluation of the quality of the verification signal in D3-Gym confirms that our evaluation scripts achieve 87.5% agreement with human-annotated gold standards and strong alignment in domain-specific evaluation logic, showing their scientific soundness. Further, training on trajectories sampled from D3-Gym yields consistent and substantial gains across Qwen3 models of varying sizes on ScienceAgentBench, boosting Qwen3-32B by 7.8 absolute points and substantially shrinking the gap with strong proprietary models. All D3-Gym artifacts (environments, creation workflow, trajectories, and models) can be found at https://github.com/OSU-NLP-Group/D3-Gym.
- Abstract(参考訳): 近年、言語モデルや科学的データ駆動的な発見のためのエージェントが進歩しているにもかかわらず、それらの能力のさらなる進歩は、現実の科学的タスクを表す検証可能な環境が欠如していることに支えられている。
このギャップを埋めるために、科学データ駆動発見のための検証可能な環境を備えた最初の自動構築データセットであるD3-Gymを紹介します。
D3-Gymは,(1)239個の実科学リポジトリから得られた565個のタスクからなる。(2)各タスクには,自然言語命令,プリインストールされた依存関係を備えた実行環境,入力データセットとアーティファクトプレビュー,参照コードソリューション,自動生成評価スクリプトを備える。
D3-Gym における検証信号の品質の厳密な評価により,本評価書は人手によるゴールド標準との87.5%の一致と,ドメイン固有の評価ロジックの強い整合性を実現し,その科学的健全性を示した。
さらに、D3-Gymからサンプリングされた軌道の訓練は、ScienceAgentBench上の様々なサイズのQwen3モデルに対して一貫性と実質的な利得をもたらし、Qwen3-32Bを7.8の絶対点まで押し上げ、強力なプロプライエタリモデルとのギャップを大幅に縮小する。
すべてのD3-Gymアーティファクト(環境、作成ワークフロー、軌道、モデル)はhttps://github.com/OSU-NLP-Group/D3-Gymにある。
関連論文リスト
- Perceptual Quality Assessment of 3D Gaussian Splatting: A Subjective Dataset and Prediction Metric [76.66966098297986]
3DGSの主観的品質評価データセットである3DGS-QAを提案する。
15種類の物体に対して225の劣化した復元を行い、共通の歪み要因の制御を可能にした。
本モデルでは,ガウス表現から空間的および測光的手がかりを抽出し,構造的に知覚された品質を推定する。
論文 参考訳(メタデータ) (2025-11-11T09:34:20Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - Syn-to-Real Unsupervised Domain Adaptation for Indoor 3D Object Detection [50.448520056844885]
室内3次元物体検出における非教師なし領域適応のための新しいフレームワークを提案する。
合成データセット3D-FRONTから実世界のデータセットScanNetV2とSUN RGB-Dへの適応結果は、ソースオンリーベースラインよりも9.7%、9.1%のmAP25が顕著に改善されていることを示している。
論文 参考訳(メタデータ) (2024-06-17T08:18:41Z) - cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation [0.7853804618032806]
本稿では,複数の時間領域観測のクラスをシミュレートする手法として,ジェネレーティブ・アドリアック・ネットワーク・フレームワークに新しい条件モデルを提案する。
提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。
実験の結果,cDVGAN生成データによる畳み込みニューラルネットワークのトレーニングにより,検出器ノイズに埋め込まれたサンプルの検出が向上することがわかった。
論文 参考訳(メタデータ) (2024-01-29T17:59:26Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。