論文の概要: SCI-Verifier: Scientific Verifier with Thinking
- arxiv url: http://arxiv.org/abs/2509.24285v1
- Date: Mon, 29 Sep 2025 04:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.753804
- Title: SCI-Verifier: Scientific Verifier with Thinking
- Title(参考訳): SCI検証:思考による科学的検証
- Authors: Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye,
- Abstract要約: 大規模言語モデル(LLM)は、科学的推論にますます応用されている。
科学的領域における既存の検証研究は2つの大きな限界に悩まされている。
データレベルとモデルレベルでのソリューションを提案する。
- 参考スコア(独自算出の注目度): 37.08904000514563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt engineering, which reduces their effectiveness in complex reasoning scenarios or limits their cross-disciplinary generalization. To address these challenges, we propose solutions at both the data and model levels. On the data side, we construct SCI-VerifyBench, a cross-disciplinary benchmark covering mathematics, physics, biology, chemistry, and general scientific QA. The benchmark is built from real LLM responses and enhanced with domain-specific equivalence transformations that generate challenging and realistic data. Model-based and expert annotations ensure both quality and diversity, enabling rigorous evaluation of verification ability. On the model side, we emphasize the importance of reasoning for verification and introduce SCI-Verifier, a unified reasoning-augmented verifier for scientific domains. Through post-training, SCI-Verifier demonstrates strong logical reasoning and equivalence judgment capabilities while maintaining concise and stable outputs. Together, SCI-VerifyBench and SCI-Verifier provide a principled framework for scientific verification, offering both systematic evaluation and practical pathways to enhance the reliability and applicability of LLMs in scientific domains.
- Abstract(参考訳): 大規模言語モデル(LLM)が科学的推論にますます応用されるにつれて、解答形式の複雑さと等価表現の多様性が、解答検証を批判的かつ困難な課題にしている。
科学的領域における既存の検証研究は2つの大きな限界に悩まされている。
(a) 総合的な評価を妨げる体系的評価基準の欠如及び学際的カバレッジの欠如
b) 複雑な推論シナリオにおけるそれらの効果を減らしたり、学際的な一般化を制限したりする、煩雑なルール設計やプロンプトエンジニアリングに大きく依存する。
これらの課題に対処するため、我々はデータレベルとモデルレベルでの解決策を提案する。
データ側では、SCI-VerifyBenchという、数学、物理学、生物学、化学、一般科学QAを対象とする学際的なベンチマークを構築している。
このベンチマークは、実際のLLM応答から構築され、挑戦的で現実的なデータを生成するドメイン固有の同値変換によって強化されている。
モデルベースおよびエキスパートアノテーションは品質と多様性の両方を保証し、検証能力の厳格な評価を可能にする。
モデル側では、検証のための推論の重要性を強調し、科学領域のための統一的推論拡張検証であるSCI検証を導入する。
後学習を通じて、SCI検証は、簡潔で安定した出力を維持しながら、強い論理的推論と等価判定能力を示す。
SCI-VerifyBenchとSCI-Verifierは、科学的検証のための原則的なフレームワークを提供し、科学的領域におけるLLMの信頼性と適用性を高めるための体系的な評価と実践的な経路を提供する。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [221.34650992288505]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning [6.043212666944194]
CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
論文 参考訳(メタデータ) (2025-06-09T21:04:39Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - On the Rigour of Scientific Writing: Criteria, Analysis, and Insights [15.055289544883534]
リグールは、結果と結果の妥当性と妥当性を保証するため、科学的研究に不可欠である。
我々は、厳格な基準を自動的に識別し定義するためのボトムアップなデータ駆動フレームワークを導入します。
我々のフレームワークはドメインに依存しないので、様々な分野の科学的厳密さの評価に合わせることができる。
論文 参考訳(メタデータ) (2024-10-07T12:22:06Z) - What is Reproducibility in Artificial Intelligence and Machine Learning Research? [0.7373617024876725]
重要な検証作業の役割と定義を明らかにするためのフレームワークを紹介します。
この構造化フレームワークは、AI/ML研究者にこれらの本質的な概念を明確化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T18:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。