論文の概要: All Emulators are Wrong, Many are Useful, and Some are More Useful Than Others: A Reproducible Comparison of Computer Model Surrogates
- arxiv url: http://arxiv.org/abs/2512.09060v1
- Date: Tue, 09 Dec 2025 19:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.29377
- Title: All Emulators are Wrong, Many are Useful, and Some are More Useful Than Others: A Reproducible Comparison of Computer Model Surrogates
- Title(参考訳): すべてのエミュレータは誤りであり、多くは有用であり、いくつかは他のものよりも有用である:コンピュータモデルサロゲートの再現可能な比較
- Authors: Kellin N. Rumsey, Graham C. Gibson, Devin Francom, Reid Morris,
- Abstract要約: 我々は、60ドルの標準テスト関数と40ドルの実エミュレーションデータセットに対して、19ドルの異なるエミュレータの大規模かつ完全に再現可能な比較を示す。
厳密なリンゴとアプリケーションの比較を容易にするため,Rパッケージのtextttduqlingを紹介した。
このフレームワークにより、研究者は統一された環境でエミュレータを比較でき、最小限の努力で以前の研究を複製または拡張することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate and efficient surrogate modeling is essential for modern computational science, and there are a staggering number of emulation methods to choose from. With new methods being developed all the time, comparing the relative strengths and weaknesses of different methods remains a challenge due to inconsistent benchmarking practices and (sometimes) limited reproducibility and transparency. In this work, we present a large-scale, fully reproducible comparison of $29$ distinct emulators across $60$ canonical test functions and $40$ real emulation datasets. To facilitate rigorous, apples-to-apples comparisons, we introduce the R package \texttt{duqling}, which streamlines reproducible simulation studies using a consistent, simple syntax, and automatic internal scaling of inputs. This framework allows researchers to compare emulators in a unified environment and makes it possible to replicate or extend previous studies with minimal effort, even across different publications. Our results provide detailed empirical insight into the strengths and weaknesses of state-of-the-art emulators and offer guidance for both method developers and practitioners selecting a surrogate for new data. We discuss best practices for emulator comparison and highlight how \texttt{duqling} can accelerate research in emulator design and application.
- Abstract(参考訳): 高精度で効率的なサロゲートモデリングは、現代の計算科学には不可欠であり、選択すべきエミュレーション方法が停滞している。
新たな手法が常に開発されているため、異なる手法の相対的な強みと弱さを比較することは、一貫性のないベンチマークプラクティスと(時には)再現性と透明性の制限のため、依然として課題である。
本研究では、60ドルの標準テスト関数と40ドルの実エミュレーションデータセットに対して、19ドルの異なるエミュレータの大規模かつ完全に再現可能な比較を示す。
厳密なアプレットとアプレットの比較を容易にするため,Rパッケージの「texttt{duqling}」を導入し,一貫した単純な構文と自動内部スケーリングを用いて再現可能なシミュレーション研究を効率化する。
このフレームワークにより、研究者は統一された環境でエミュレータを比較でき、異なる出版物であっても、最小限の努力で以前の研究を複製または拡張することができる。
本結果は,最先端エミュレータの強みと弱みに関する実証的な知見を提供し,新しいデータのサロゲートを選択する手法開発者と実践者の両方にガイダンスを提供する。
エミュレータ比較のベストプラクティスについて議論し,エミュレータ設計と応用の研究を加速させる方法を強調した。
関連論文リスト
- SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。
人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。
我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文 参考訳(メタデータ) (2025-10-06T23:17:44Z) - Simulator Ensembles for Trustworthy Autonomous Driving Testing [2.2956072509238123]
MultiSimは、検索ベースのテストアプローチに基づくマルチシミュレートADASテストの新しいアプローチである。
平均して3.4倍以上のシミュレータに依存しない故障テストと高い故障率を識別する。
以上の結果から,探索における代理モデルの利用は,有効失敗数の平均を保ち,効率も向上することが示された。
論文 参考訳(メタデータ) (2025-03-11T22:34:14Z) - An Efficient Learning Method to Connect Observables [6.165053219836395]
本稿では,新しいモデルであるマルチパラメータ固有値問題(MEP)エミュレータを提案する。
新しい方法はエミュレータを接続し、可観測物から可観測物に直接予測を行う。
一次元格子上の簡単なシミュレーションによりMEPエミュレータの性能が確認できる。
論文 参考訳(メタデータ) (2025-03-03T15:58:15Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Comparing Popular Simulation Environments in the Scope of Robotics and
Reinforcement Learning [0.0]
選択したシミュレーション環境がシングルコア性能の恩恵を最も受けることを示す。
マルチコアシステムを使用すると、複数のシミュレーションを並列に実行して性能を向上させることができる。
論文 参考訳(メタデータ) (2021-03-08T09:08:53Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。