論文の概要: SciDA: Scientific Dynamic Assessor of LLMs
- arxiv url: http://arxiv.org/abs/2506.12909v1
- Date: Sun, 15 Jun 2025 16:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.09892
- Title: SciDA: Scientific Dynamic Assessor of LLMs
- Title(参考訳): SciDA: LLMの科学的動的評価
- Authors: Junting Zhou, Tingjia Miao, Yiyan Liao, Qichao Wang, Zhoufutu Wen, Yanqin Wang, Yunjie Huang, Ge Yan, Leqi Wang, Yucheng Xia, Hongwan Gao, Yuansong Zeng, Renjie Zheng, Chen Dun, Yitao Liang, Tong Yang, Wenhao Huang, Ge Zhang,
- Abstract要約: LLM(Large Language Models)推論機能により、科学的問題を解決することができる。
既存のベンチマークでは、データ汚染のリスクに直面するか、関連する規律が欠如している。
SciDAは,オリンピックレベルの数値計算問題を1万個以上含む,多分野のベンチマークである。
- 参考スコア(独自算出の注目度): 18.120612887031598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advancement in Large Language Models (LLMs) reasoning capabilities enables them to solve scientific problems with enhanced efficacy. Thereby, a high-quality benchmark for comprehensive and appropriate assessment holds significance, while existing ones either confront the risk of data contamination or lack involved disciplines. To be specific, due to the data source overlap of LLMs training and static benchmark, the keys or number pattern of answers inadvertently memorized (i.e. data contamination), leading to systematic overestimation of their reasoning capabilities, especially numerical reasoning. We propose SciDA, a multidisciplinary benchmark that consists exclusively of over 1k Olympic-level numerical computation problems, allowing randomized numerical initializations for each inference round to avoid reliance on fixed numerical patterns. We conduct a series of experiments with both closed-source and open-source top-performing LLMs, and it is observed that the performance of LLMs drop significantly under random numerical initialization. Thus, we provide truthful and unbiased assessments of the numerical reasoning capabilities of LLMs. The data is available at https://huggingface.co/datasets/m-a-p/SciDA
- Abstract(参考訳): LLM(Large Language Models)推論能力の進歩により、科学的問題を解決することができる。
これにより、包括的かつ適切な評価のための高品質なベンチマークが重要である一方で、既存のベンチマークはデータ汚染のリスクに直面するか、関連する規律が欠如している。
具体的に言うと、LLMのトレーニングと静的ベンチマークのデータソースの重複のため、答えのキーや数値パターンは意図せず記憶され(すなわちデータ汚染)、推論能力、特に数値推論の体系的な過大評価に繋がる。
SciDAは, オリンピックレベルの数値計算問題を1k以上に限定して構成する多分野ベンチマークであり, 各推論ラウンドのランダム化数値初期化により, 固定された数値パターンへの依存を回避することができる。
本研究では,LLMの性能がランダムな数値初期化の下で著しく低下することが観察された。
そこで我々は, LLMの数値推論能力について, 真面目かつ偏見のない評価を行う。
データはhttps://huggingface.co/datasets/m-a-p/SciDAで公開されている。
関連論文リスト
- Identifying Pre-training Data in LLMs: A Neuron Activation-Based Detection Framework [17.364424086991207]
大規模言語モデル(LLM)のパフォーマンスは、著作権のある資料やプライベート情報を含むトレーニングデータと密接に結びついている。
LLMにおけるトレーニングデータと非トレーニングデータの差分ニューロン活性化パターンを解析する新しいアルゴリズムであるNA-PDDを導入する。
また、厳密なデータ変換を用いて、トレーニングデータと非トレーニングデータ間の一貫した時間分布を確保するための、時間的偏りのないベンチマークであるCCNewsPDDを導入する。
論文 参考訳(メタデータ) (2025-07-22T10:05:30Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。