論文の概要: SciDesignBench: Benchmarking and Improving Language Models for Scientific Inverse Design
- arxiv url: http://arxiv.org/abs/2603.12724v1
- Date: Fri, 13 Mar 2026 07:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.960305
- Title: SciDesignBench: Benchmarking and Improving Language Models for Scientific Inverse Design
- Title(参考訳): SciDesignBench: 科学的逆設計のための言語モデルのベンチマークと改善
- Authors: David van Dijk, Ivan Vrkic,
- Abstract要約: SciDesignBenchは、14の科学領域にわたる520のシミュレーター地上タスクのベンチマークである。
最高のゼロショットモデルは、パースレートがかなり高いにもかかわらず、わずか29.0%の成功しか得られない。
- 参考スコア(独自算出の注目度): 3.4610016208336774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the most important problems in science and engineering are inverse problems: given a desired outcome, find a design that achieves it. Evaluating whether a candidate meets the spec is often routine; a binding energy can be computed, a reactor yield simulated, a pharmacokinetic profile predicted. But searching a combinatorial design space for inputs that satisfy those targets is fundamentally harder. We introduce SciDesignBench, a benchmark of 520 simulator-grounded tasks across 14 scientific domains and five settings spanning single-shot design, short-horizon feedback, long-horizon refinement, and seed-design optimization. On the 10-domain shared-core subset, the best zero-shot model reaches only 29.0% success despite substantially higher parse rates. Simulator feedback helps, but the leaderboard changes with horizon: Sonnet 4.5 is strongest in one-turn de novo design, whereas Opus 4.6 is strongest after 20 turns of simulator-grounded refinement. Providing a starting seed design reshuffles the leaderboard again, demonstrating that constrained modification requires a fundamentally different capability from unconstrained de novo generation. We then introduce RLSF, a simulator-feedback training recipe. An RLSF-tuned 8B model raises single-turn success rates by 8-17 percentage points across three domains. Together, these results position simulator-grounded inverse design as both a benchmark for scientific reasoning and a practical substrate for amortizing expensive test-time compute into model weights.
- Abstract(参考訳): 科学と工学における最も重要な問題の多くは逆問題である: 望ましい結果が与えられたら、それを達成する設計を見つける。
候補が仕様を満たしているかどうかを評価することは、しばしばルーチンであり、結合エネルギーを計算し、反応器の降伏をシミュレートし、薬物動態プロファイルが予測される。
しかし、これらのターゲットを満たす入力の組合せ設計空間を検索するのは、基本的には難しい。
SciDesignBenchは、14の科学領域にまたがる520のシミュレータ基底タスクのベンチマークであり、シングルショット設計、短距離フィードバック、長距離改善、シードデザイン最適化にまたがる5つの設定である。
10ドメインの共有コアサブセットでは、パースレートが著しく高いにもかかわらず、最高のゼロショットモデルは29.0%の成功しか得られない。
ソネット4.5は1ターンのド・ノボ設計で最強であり、オプス4.6は20ターンの地上改良の後最強である。
開始する種のデザインが再びリーダーボードを再シャッフルし、制約のある修正には、制約のないデノボ生成と根本的に異なる能力が必要であることを実証する。
次にシミュレータフィードバックのトレーニングレシピであるRLSFを紹介する。
RLSFで調整された8Bモデルは、3つのドメインで1ターンの成功率を8-17ポイント向上させる。
これらの結果と合わせて, 実験時間計算をモデル重みに補正する実用的基盤と科学的推論のベンチマークとして, シミュレータ基底の逆設計を位置づけた。
関連論文リスト
- Lightweight Transformer Architectures for Edge Devices in Real-Time Applications [0.0]
本調査では,エッジデプロイメント用に設計された軽量トランスフォーマーアーキテクチャについて検討する。
我々は、MobileBERT、TinyBERT、DistilBERT、EfficientFormer、EdgeFormer、MobileViTなど、注目すべき軽量版を体系的にレビューした。
実験により, モデルサイズを4~10倍, 推論遅延を3~9倍削減し, モデル精度を75~96%向上できることを確認した。
論文 参考訳(メタデータ) (2026-01-05T01:04:25Z) - Neural surrogates for designing gravitational wave detectors [21.601009915564344]
ニューラルサロゲートモデルが従来のCPUベースのシミュレータへの依存を著しく低減することを示す。
LIGO コミュニティが開発した重力波物理シミュレータ Finesse を代用するニューラルネットワークを訓練する。
我々のアルゴリズムは、サロゲートのトレーニング、新しい実験の逆設計、さらに訓練のために遅いシミュレータでそれらの特性を検証する間をループする。
論文 参考訳(メタデータ) (2025-11-24T17:58:59Z) - PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning [55.78158607697319]
大規模言語モデル(LLM)は、会話システムからオリンピアード数学や競合プログラミングといったタスクの強力な推論へと進化している。
本稿では,手作り合成を期待最大化ループで置き換えるスケーラブルなフレームワークであるPromptCoT 2.0を提案する。
これにより、以前のコーパスよりも難しく、より多様な問題が発生する。
論文 参考訳(メタデータ) (2025-09-24T08:46:29Z) - Open-Source High-Speed Flight Surrogate Modeling Framework [0.0]
高速飛行車は音速よりもはるかに速く走行し、国防と宇宙探査に不可欠である。
様々な飛行条件下での行動の正確な予測は困難であり、しばしば高価である。
提案されたアプローチでは、より賢く、より効率的な機械学習モデルを作成する。
論文 参考訳(メタデータ) (2024-11-06T01:34:06Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - QuadSwarm: A Modular Multi-Quadrotor Simulator for Deep Reinforcement
Learning with Direct Thrust Control [14.293280676715353]
強化学習(Reinforcement Learning, RL)は、ロボティクスタスクの堅牢なポリシーを作成する上での約束である。
現代のRLアルゴリズムは、しばしば成功したポリシーをトレーニングするために何十億もの環境遷移を必要とする。
クアッドスワーム(QuadSwarm)は、クアッドロータ用のシングルロボットRLとマルチロボットRLの研究のための高速で信頼性の高いシミュレータである。
論文 参考訳(メタデータ) (2023-06-15T22:46:20Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z) - Towards Regression-Free Neural Networks for Diverse Compute Platforms [50.64489250972764]
負のフリップを小さくする高精度モデル群を設計するために,REG-NAS(Regression constrained Neural Architecture Search)を導入する。
REG-NASは2つのコンポーネントから構成される: 1) より大きなモデルでより小さなモデルの全重みを収容できる新しいアーキテクチャ制約により、重量共有を最大化する。
我々は,regnasが3つの一般的なアーキテクチャ検索空間において,負のフリップが少なく,望ましいアーキテクチャを見つけることができたことを実証した。
論文 参考訳(メタデータ) (2022-09-27T23:19:16Z) - Deep Learning-based FEA surrogate for sub-sea pressure vessel [0.799536002595393]
圧力容器には、浸水できない電子機器、電源、その他のセンサーが含まれている。
圧力容器設計の伝統的な設計手法は、複数の有限要素解析(FEA)ベースのシミュレーションを実行することである。
これらのFAAの実行は、任意の最適化プロセスに非常にコストがかかる。
より優れたアプローチは、FAAベースの予測を学習ベースの回帰器に置き換えることを目的としたサロゲート設計である。
論文 参考訳(メタデータ) (2022-06-06T00:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。