論文の概要: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2511.14366v1
- Date: Tue, 18 Nov 2025 11:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.075467
- Title: ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning
- Title(参考訳): ATLAS:最先端の科学的推論のための多分野ベンチマーク
- Authors: Hongwei Liu, Junnan Liu, Shudong Liu, Haodong Duan, Yuqiang Li, Mao Su, Xiaohong Liu, Guangtao Zhai, Xinyu Fang, Qianhong Ma, Taolin Zhang, Zihan Ma, Yufeng Zhao, Peiheng Zhou, Linchen Xiao, Wenlong Zhang, Shijie Zhou, Xingjian Ma, Siqi Sun, Jiaye Ge, Meng Li, Yuhong Liu, Jianxin Dong, Jiaying Li, Hui Wu, Hanwen Liang, Jintai Lin, Yanting Wang, Jie Dong, Tong Zhu, Tianfan Fu, Conghui He, Qi Zhang, Songyang Zhang, Lei Bai, Kai Chen,
- Abstract要約: ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
- 参考スコア(独自算出の注目度): 118.46980291324148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has led to performance saturation on many established benchmarks, questioning their ability to distinguish frontier models. Concurrently, existing high-difficulty benchmarks often suffer from narrow disciplinary focus, oversimplified answer formats, and vulnerability to data contamination, creating a fidelity gap with real-world scientific inquiry. To address these challenges, we introduce ATLAS (AGI-Oriented Testbed for Logical Application in Science), a large-scale, high-difficulty, and cross-disciplinary evaluation suite composed of approximately 800 original problems. Developed by domain experts (PhD-level and above), ATLAS spans seven core scientific fields: mathematics, physics, chemistry, biology, computer science, earth science, and materials science. Its key features include: (1) High Originality and Contamination Resistance, with all questions newly created or substantially adapted to prevent test data leakage; (2) Cross-Disciplinary Focus, designed to assess models' ability to integrate knowledge and reason across scientific domains; (3) High-Fidelity Answers, prioritizing complex, open-ended answers involving multi-step reasoning and LaTeX-formatted expressions over simple multiple-choice questions; and (4) Rigorous Quality Control, employing a multi-stage process of expert peer review and adversarial testing to ensure question difficulty, scientific value, and correctness. We also propose a robust evaluation paradigm using a panel of LLM judges for automated, nuanced assessment of complex answers. Preliminary results on leading models demonstrate ATLAS's effectiveness in differentiating their advanced scientific reasoning capabilities. We plan to develop ATLAS into a long-term, open, community-driven platform to provide a reliable "ruler" for progress toward Artificial General Intelligence.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、多くの確立されたベンチマークのパフォーマンス飽和を招き、フロンティアモデルを区別する能力に疑問を呈している。
同時に、既存の高分化度ベンチマークは、狭いディシプリナの焦点、過度に単純化された回答フォーマット、データ汚染に対する脆弱性に悩まされ、現実の科学的調査とフィリティギャップを生じさせる。
これらの課題に対処するために,約800の原問題からなる大規模・高分化・学際的評価スイートであるATLAS(AGI-Oriented Testbed for Logical Application in Science)を紹介する。
ドメインの専門家(PhDレベル以上)によって開発されたATLASは、数学、物理学、化学、生物学、計算機科学、地球科学、材料科学の7つの主要な科学分野にまたがる。
主な特徴は,(1) テストデータの漏洩を防止するために新たに作成された,あるいは実質的に適合した全ての質問を含む高原性・汚染抵抗,(2) 科学的領域にまたがる知識と理性を統合するモデルの能力を評価するために設計されたクロスディディシプリナリーフォーカス,(3) 多段階推論とLaTeX形式表現を含む複雑でオープンな回答の優先順位付け,(4) 専門家によるピアレビューと逆行テストの多段階的プロセスを用いて,難易度,科学的価値,正しさを問うための厳密な品質管理である。
また,LLM審査員のパネルを用いて,複雑な回答の自動評価を行う頑健な評価パラダイムを提案する。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
我々は,ATLASを長期的かつオープンなコミュニティ主導のプラットフォームとして開発し,人工知能の進歩のための信頼性の高い「ルーラー」を提供する計画である。
関連論文リスト
- Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - The Ever-Evolving Science Exam [69.20851050366643]
本研究では,基礎モデルの科学的能力を確実に評価するための動的ベンチマークであるEver-Evolving Science Exam (EESE)を紹介する。
1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ)から構成される。
論文 参考訳(メタデータ) (2025-07-22T12:22:16Z) - AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science [9.757412158154514]
大気科学問題の5つの中核カテゴリにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークを提案する。
AtmosSci-Benchは、マルチチョイス質問(MCQ)とオープンエンド質問(OEQ)の両方からなるデュアルフォーマット設計を備えている。
代表的なLCMを総合的に評価し、命令調整モデル、高度な推論モデル、数学強化モデル、ドメイン固有の気候モデルという4つのグループに分類する。
論文 参考訳(メタデータ) (2025-02-03T08:50:46Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。