論文の概要: Towards Richer Challenge Problems for Scientific Computing Correctness
- arxiv url: http://arxiv.org/abs/2510.13423v1
- Date: Wed, 15 Oct 2025 11:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.640668
- Title: Towards Richer Challenge Problems for Scientific Computing Correctness
- Title(参考訳): 科学計算の精度向上に向けた課題
- Authors: Matthew Sottile, Mohit Tekriwal, John Sarracino,
- Abstract要約: 我々は,SCにおける精度向上のためのFM/PL検証技術の開発と評価を行うために,特別な課題を求める。
これらの特殊な課題は、FM/PL研究者が一般的なプログラムのために研究した既存の問題を強化することを目的としている。
- 参考スコア(独自算出の注目度): 0.5352699766206809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Correctness in scientific computing (SC) is gaining increasing attention in the formal methods (FM) and programming languages (PL) community. Existing PL/FM verification techniques struggle with the complexities of realistic SC applications. Part of the problem is a lack of a common understanding between the SC and PL/FM communities of machine-verifiable correctness challenges and dimensions of correctness in SC applications. To address this gap, we call for specialized challenge problems to inform the development and evaluation of FM/PL verification techniques for correctness in SC. These specialized challenges are intended to augment existing problems studied by FM/PL researchers for general programs to ensure the needs of SC applications can be met. We propose several dimensions of correctness relevant to scientific computing, and discuss some guidelines and criteria for designing challenge problems to evaluate correctness in scientific computing.
- Abstract(参考訳): 科学計算における正確性 (SC) は, 形式的手法 (FM) とプログラミング言語 (PL) コミュニティで注目されている。
既存のPL/FM検証技術は、現実的なSCアプリケーションの複雑さに苦慮している。
問題の一部は、SCアプリケーションにおけるマシン検証の正しさの課題と正しさの次元に関する、SCとPL/FMの共通理解の欠如である。
このギャップに対処するため,我々は,SCにおける精度向上のためのFM/PL検証技術の開発と評価を行うために,特別な課題を求める。
これらの特殊な課題は、FM/PL研究者による一般プログラムのための既存の問題を強化し、SCアプリケーションのニーズを満たすことを確実にすることを目的としている。
本稿では,科学計算の正確性を評価するために,課題を設計するためのガイドラインと基準について論じる。
関連論文リスト
- SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - FrontierCS: Evolving Challenges for Evolving Intelligence [174.80075821079708]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。
各問題に対して、専門家の参照ソリューションと自動評価器を提供する。
私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (2025-12-17T18:52:45Z) - ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - MOSAIC: Multi-agent Orchestration for Task-Intelligent Scientific Coding [5.470408942595905]
MOSAICは訓練のないフレームワークで、特別に設計されたエージェントで、生徒-教師のパラダイム内で、自己表現し、合理性を作り、コードを作り、デバッグする。
我々はMOSAICを科学的符号化ベンチマークで評価し、我々の特殊エージェントフレームワークが既存の手法よりも精度、堅牢性、解釈可能性で優れていることを示した。
論文 参考訳(メタデータ) (2025-10-09T20:35:23Z) - SCI-Verifier: Scientific Verifier with Thinking [37.08904000514563]
大規模言語モデル(LLM)は、科学的推論にますます応用されている。
科学的領域における既存の検証研究は2つの大きな限界に悩まされている。
データレベルとモデルレベルでのソリューションを提案する。
論文 参考訳(メタデータ) (2025-09-29T04:58:43Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Report of the DOE/NSF Workshop on Correctness in Scientific Computing,
June 2023, Orlando, FL [0.0]
本報告は2023年6月17日に開催されたDOE/NSF Workshop on Correctness in Scientific Computing (CSC'23)のダイジェストである。
CSC は DOE と NSF によって考案され,大規模科学的シミュレーションを行うために計算手法を使用している人々の間で,正当性に関する懸念が高まっている。
このような多様なバックグラウンドを持つ参加者を巻き込むため、CSCは2023年のFCRC(Federated Computing Research Conference)で開催された。
論文 参考訳(メタデータ) (2023-12-25T07:59:18Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Compilation of a simple chemistry application to quantum error correction primitives [44.99833362998488]
我々は、最小限の化学例に基づいて、フォールトトレラントに量子位相推定を行うために必要な資源を推定する。
単純な化学回路でさえも1000キュービットと2300の量子誤差補正ラウンドを必要とすることがわかった。
論文 参考訳(メタデータ) (2023-07-06T18:00:10Z) - Quantum Error Correction For Dummies [4.608607664709314]
現在の量子コンピューティングのノイズ中間スケール量子(NISQ)時代には、量子ビット技術は不完全である。
量子誤り補正(Quantum Error Correction, QEC)は、崩壊した量子ビット状態を3段階のプロセスで修正することを目的としている。
論文 参考訳(メタデータ) (2023-04-18T01:08:17Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。