論文の概要: SciDA: Scientific Dynamic Assessor of LLMs
- arxiv url: http://arxiv.org/abs/2506.12909v1
- Date: Sun, 15 Jun 2025 16:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.09892
- Title: SciDA: Scientific Dynamic Assessor of LLMs
- Title(参考訳): SciDA: LLMの科学的動的評価
- Authors: Junting Zhou, Tingjia Miao, Yiyan Liao, Qichao Wang, Zhoufutu Wen, Yanqin Wang, Yunjie Huang, Ge Yan, Leqi Wang, Yucheng Xia, Hongwan Gao, Yuansong Zeng, Renjie Zheng, Chen Dun, Yitao Liang, Tong Yang, Wenhao Huang, Ge Zhang,
- Abstract要約: LLM(Large Language Models)推論機能により、科学的問題を解決することができる。
既存のベンチマークでは、データ汚染のリスクに直面するか、関連する規律が欠如している。
SciDAは,オリンピックレベルの数値計算問題を1万個以上含む,多分野のベンチマークである。
- 参考スコア(独自算出の注目度): 18.120612887031598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advancement in Large Language Models (LLMs) reasoning capabilities enables them to solve scientific problems with enhanced efficacy. Thereby, a high-quality benchmark for comprehensive and appropriate assessment holds significance, while existing ones either confront the risk of data contamination or lack involved disciplines. To be specific, due to the data source overlap of LLMs training and static benchmark, the keys or number pattern of answers inadvertently memorized (i.e. data contamination), leading to systematic overestimation of their reasoning capabilities, especially numerical reasoning. We propose SciDA, a multidisciplinary benchmark that consists exclusively of over 1k Olympic-level numerical computation problems, allowing randomized numerical initializations for each inference round to avoid reliance on fixed numerical patterns. We conduct a series of experiments with both closed-source and open-source top-performing LLMs, and it is observed that the performance of LLMs drop significantly under random numerical initialization. Thus, we provide truthful and unbiased assessments of the numerical reasoning capabilities of LLMs. The data is available at https://huggingface.co/datasets/m-a-p/SciDA
- Abstract(参考訳): LLM(Large Language Models)推論能力の進歩により、科学的問題を解決することができる。
これにより、包括的かつ適切な評価のための高品質なベンチマークが重要である一方で、既存のベンチマークはデータ汚染のリスクに直面するか、関連する規律が欠如している。
具体的に言うと、LLMのトレーニングと静的ベンチマークのデータソースの重複のため、答えのキーや数値パターンは意図せず記憶され(すなわちデータ汚染)、推論能力、特に数値推論の体系的な過大評価に繋がる。
SciDAは, オリンピックレベルの数値計算問題を1k以上に限定して構成する多分野ベンチマークであり, 各推論ラウンドのランダム化数値初期化により, 固定された数値パターンへの依存を回避することができる。
本研究では,LLMの性能がランダムな数値初期化の下で著しく低下することが観察された。
そこで我々は, LLMの数値推論能力について, 真面目かつ偏見のない評価を行う。
データはhttps://huggingface.co/datasets/m-a-p/SciDAで公開されている。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。