論文の概要: SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science
- arxiv url: http://arxiv.org/abs/2605.18630v1
- Date: Mon, 18 May 2026 16:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.094221
- Title: SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science
- Title(参考訳): SCICONVBENCH:計算科学におけるタスク定式化のためのマルチターン明確化のためのLLMのベンチマーク
- Authors: Nithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan,
- Abstract要約: 大規模言語モデル(LLM)は、科学的なAIとしてますます多くデプロイされている。
本稿では,SCICONVBENCHを科学タスクの定式化におけるマルチターン明確化のベンチマークとして紹介する。
我々のベンチマークは、構造化されたタスクとルーブリックベースの評価フレームワークをペアリングする。
- 参考スコア(独自算出の注目度): 3.9311288356229057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as scientific AI as- sistants, and a growing body of benchmarks evaluates their capabilities across knowledge retrieval, reasoning, code generation, and tool use. These evaluations, however, typically assume the scientific problem is already well-posed, whereas practical scientific assistance often begins with an ill-posed user request that must be refined through dialogue before any computation, analysis, or experiment can be carried out reliably. We introduce SCICONVBENCH, a benchmark for multi- turn clarification in scientific task formulation across four computational science problem domains: fluid mechanics, solid mechanics, materials science, and par- tial differential equations (PDEs). SCICONVBENCH targets two complementary capabilities: eliciting missing information (disambiguation) and detecting and correcting erroneous requests containing internally contradictory information (in- consistency resolution). Our benchmark pairs a structured task ontology with a rubric-based evaluation framework, enabling systematic measurement of LLM per- formance across three dimensions: clarification behavior, conversational grounding, and final-specification fidelity. Current frontier models perform relatively well on inconsistency resolution, but even the best model resolves only 52.7% of the disambiguation cases in fluid mechanics. We further find that frontier LLMs fre- quently make silent assumptions and perform implicit specification repairs that are not grounded in the conversation with users. SCICONVBENCH establishes a foundation for evaluating the upstream conversational reasoning that a reliable computational science assistant requires. The code and data can be found at https://github.com/csml-rpi/SciConvBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的なAIとしてますます多くデプロイされている。
しかしながら、これらの評価は、科学的な問題が既に十分に評価されていると仮定するのに対し、実際的な科学的補助は、計算、分析、実験が確実に実行される前に、対話を通じて洗練されなければならない不適切なユーザー要求から始まることが多い。
SCICONVBENCHは, 流体力学, 固体力学, 材料科学, パーティル微分方程式 (PDE) の4分野にまたがる, 科学的タスクの定式化におけるマルチターン明確化のベンチマークである。
SCICONVBENCHは、欠落した情報(曖昧さ)を抽出し、内部の矛盾した情報(一貫性のある解決)を含む誤った要求を検出し修正する2つの補完機能をターゲットにしている。
本ベンチマークでは,構造的タスクオントロジーとルーブリックに基づく評価フレームワークを組み合わせ,3次元にわたるLLM毎のフォーマンスを系統的に測定する。
現在のフロンティアモデルは、一貫性のない解像度で比較的よく機能するが、最良のモデルでさえ流体力学における曖昧さの52.7%しか解決しない。
さらに,フロンティアのLLMはサイレントな仮定や暗黙の仕様修正を頻繁に行っています。
SCICONVBENCHは、信頼できる計算科学アシスタントが必要とする上流の会話推論を評価する基盤を確立する。
コードとデータはhttps://github.com/csml-rpi/SciConvBenchで確認できる。
関連論文リスト
- Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文 参考訳(メタデータ) (2026-05-01T17:42:12Z) - Opportunities in AI/ML for the Rubin LSST Dark Energy Science Collaboration [63.61423859450929]
この白書は、DESCの主要な宇宙探査と横断的分析を通して、AI/MLの現在の状況を調査している。
本研究では,大規模ベイズ推定,物理インフォームド手法,検証フレームワーク,発見のための能動的学習など,主要な方法論研究の優先事項を明らかにする。
論文 参考訳(メタデータ) (2026-01-20T18:46:42Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - AInsteinBench: Benchmarking Coding Agents on Scientific Repositories [33.48206557020983]
AInsteinBenchは、大規模言語モデル(LLM)エージェントが科学計算開発エージェントとして動作するかどうかを評価するための大規模なベンチマークである。
AInsteinBenchは、表面レベルのコード生成を超えて、計算科学研究に必要なコア能力に移行するモデルの能力を測定する。
論文 参考訳(メタデータ) (2025-12-24T08:11:11Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。