論文の概要: A Judge Agent Closes the Reliability Gap in AI-Generated Scientific Simulation
- arxiv url: http://arxiv.org/abs/2603.25780v1
- Date: Thu, 26 Mar 2026 16:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.213883
- Title: A Judge Agent Closes the Reliability Gap in AI-Generated Scientific Simulation
- Title(参考訳): AIによる科学シミュレーションにおける信頼性のギャップを埋める裁判官エージェント
- Authors: Chengshuai Yang,
- Abstract要約: 大規模言語モデルは科学シミュレーションコードを生成することができるが、生成されたコードは、ほとんどの非テキスト問題で静かに失敗する。
古典的な数学的検証は,判断エージェントによって完全に自動化可能であることを示す。
12人の独立した科学者が提出した72の盲目タスクは、自動エラー境界で89%の成功率を得る。
- 参考スコア(独自算出の注目度): 1.7259824817932294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can generate scientific simulation code, but the generated code silently fails on most non-textbook problems. We show that classical mathematical validation -- well-posedness, convergence, and error certification -- can be fully automated by a Judge Agent, reducing the silent-failure rate from 42% to 1.5% across 134 test cases spanning 12 scientific domains. The headline result comes from a prospective benchmark: 72 blinded tasks submitted by 12 independent scientists yield an 89% success rate (95% CI: [80%, 95%]) with automated error bounds, versus 53% without the Judge. On clinical CT (the only powered experiment, n = 200), the pipeline reaches 99% of expert quality. The residual 1.5% concentrates at bifurcation points where certifiability breaks down. We formalize this boundary through the simulability class S and introduce spec.md, a structured specification format that makes any scientific computation problem machine-readable and solver-independent. Code, data, and all 72 benchmark tasks are publicly archived.
- Abstract(参考訳): 大規模言語モデルは科学シミュレーションコードを生成することができるが、生成されたコードは、ほとんどの非テキスト問題で静かに失敗する。
古典的な数学的検証 -- 適合性、収束性、エラー証明 -- は、審査員によって完全に自動化できることを示し、12の科学領域にまたがる134のテストケースにおいて、サイレント障害率を42%から1.5%に下げる。
12人の独立した科学者が提出した72の盲目タスクは、自動エラー境界を持つ89%の成功率(95% CI: [80%, 95%])を、審査員なしでは53%とする。
臨床CT(唯一のパワードライビング実験、n = 200)では、パイプラインは専門的品質の99%に達する。
残りの1.5%は、発芽能力が低下する分岐点に集中している。
我々は、この境界をシミュラビリティクラスSで定式化し、任意の科学計算問題を機械可読かつ解けないものにする、構造化された仕様形式である spec.md を導入する。
コード、データ、72のベンチマークタスクはすべて公開アーカイブされている。
関連論文リスト
- A Physics-Informed Neuro-Fuzzy Framework for Quantum Error Attribution [0.4511923587827302]
本稿では,適応型ニューロファジィ推論システムと物理接地型特徴工学を組み合わせることで,帰属問題に対処するニューロファジィフレームワークを提案する。
Bhattacharyya Vetoは、データ処理の不平等に根ざした物理的な制約である。
この研究は、論理的に欠陥のある回路にエラー軽減技術を適用することを防止する、堅牢で解釈可能な診断層を確立する。
論文 参考訳(メタデータ) (2026-02-22T16:19:51Z) - Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis [0.0]
敵対的なコメントは、検出精度に小さな、統計的に重要でない効果をもたらす。
複雑な敵戦略は単純な操作的コメントに勝るものではない。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
論文 参考訳(メタデータ) (2026-02-18T00:34:17Z) - SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - MSC-180: A Benchmark for Automated Formal Theorem Proving from Mathematical Subject Classification [21.9173105378467]
現在の大言語モデル(LLM)に基づく定理証明は、制限された領域カバレッジや数学的推論の弱い一般化といった制限に悩まされている。
我々は,MSC 2020の数学的対象分類に基づく評価ベンチマークであるMSC-180を提案する。
180の形式的検証問題、60の数学分野から3つの先進的な問題が含まれており、学部から大学院まで多岐にわたる。
論文 参考訳(メタデータ) (2025-12-20T07:39:19Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research [19.97666809905332]
大規模言語モデル(LLM)は、AIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
大規模言語モデル(LLM)の最近の進歩は、しばしばAIコサイシストと呼ばれる自動科学的発見のビジョンを加速させた。
論文 参考訳(メタデータ) (2025-05-17T05:45:16Z) - Intelligent Fault Diagnosis of Type and Severity in Low-Frequency, Low Bit-Depth Signals [0.6144680854063939]
この研究は、高パフォーマンスと低リソース消費のバランスをとることを目的として、不均衡なMaFaulDaデータセットの音声データを活用する。
精度は99.54%、F-Betaスコアは99.52%で、わずか6本の隆起木が8kHz、8ビット構成であった。
論文 参考訳(メタデータ) (2024-11-09T22:01:11Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。