論文の概要: InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
- arxiv url: http://arxiv.org/abs/2604.13201v1
- Date: Tue, 14 Apr 2026 18:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.249663
- Title: InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis
- Title(参考訳): InfiniteScienceGym: 科学的分析のための非有界、手続き的に生成されたベンチマーク
- Authors: Oliver Bentham, Vivek Srikumar,
- Abstract要約: InfiniteScienceGymは、検証可能な質問応答タスクと組み合わせた、手続き的に生成された科学リポジトリのベンチマークである。
シードから、シミュレータは、現実的なディレクトリ構造、ファイル、表データを備えた自己完結型リポジトリを確定的に生成し、特権QA生成器は、正確な根拠真理で、回答可能な質問と解決できない質問の両方を生成する。
全体的な精度は45%を超えず、解決不可能な質問を認識することは依然として大きな弱点であり、強力なモデルでは単にトークンを消費するのではなく、ツールを効果的に使用する傾向にあります。
- 参考スコア(独自算出の注目度): 19.4536238905905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are emerging as scientific assistants, but evaluating their ability to reason from empirical data remains challenging. Benchmarks derived from published studies and human annotations inherit publication bias, known-knowledge bias, label noise, and substantial storage requirements. We present InfiniteScienceGym, a procedurally generated benchmark of scientific repositories paired with a verifiable question-answering task. From a seed, the simulator deterministically generates a self-contained repository with realistic directory structure, files, and tabular data, and a privileged QA generator produces both answerable and unanswerable questions with exact ground truth. This makes it possible to evaluate evidence-grounded reasoning, abstention, and tool-mediated analysis in a controlled setting without distributing a large static corpus. InfiniteScienceGym complements real scientific benchmarks by targeting blind spots and failure modes that are hard to evaluate using published datasets alone. Evaluating both proprietary and open-weight models, we find that none achieve more than 45% accuracy overall, that recognizing unanswerable questions remains a major weakness, and that stronger models tend to use tools more effectively rather than simply consuming more tokens.
- Abstract(参考訳): 科学的なアシスタントとして大規模な言語モデルが登場しているが、経験的なデータから推論する能力を評価することは依然として難しい。
公開された研究と人間のアノテーションから得られたベンチマークは、出版バイアス、既知の知識バイアス、ラベルノイズ、および実質的な記憶要件を継承する。
InfiniteScienceGymは、検証可能な質問応答タスクと組み合わせた、手続き的に生成された科学リポジトリのベンチマークである。
シードから、シミュレータは、現実的なディレクトリ構造、ファイル、表データを備えた自己完結型リポジトリを確定的に生成し、特権QA生成器は、正確な根拠真理で、回答可能な質問と解決できない質問の両方を生成する。
これにより、大きな静的コーパスを分散することなく、制御された環境でエビデンスに基づく推論、棄却、およびツールによる解析を評価することができる。
InfiniteScienceGymは、公開データセットだけでは評価が難しい盲点と障害モードをターゲットとして、実際の科学的ベンチマークを補完する。
プロプライエタリモデルとオープンウェイトモデルの両方を評価すると、全体的な精度は45%を超えず、未解決の疑問を認識することは大きな弱点であり、より強力なモデルでは単にトークンを消費するのではなく、ツールを効果的に使用する傾向にあることが分かります。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Knowing When Not to Answer: Abstention-Aware Scientific Reasoning [2.680633756465714]
科学的条件下では、支持または不確実な結論は、棄権するよりも有害である。
本稿では,この問題に対して,留意点を考慮した検証フレームワークを用いて検討する。
我々はこのフレームワークをSciFactとPubMedQAの2つの科学的ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-02-15T15:29:43Z) - AInsteinBench: Benchmarking Coding Agents on Scientific Repositories [33.48206557020983]
AInsteinBenchは、大規模言語モデル(LLM)エージェントが科学計算開発エージェントとして動作するかどうかを評価するための大規模なベンチマークである。
AInsteinBenchは、表面レベルのコード生成を超えて、計算科学研究に必要なコア能力に移行するモデルの能力を測定する。
論文 参考訳(メタデータ) (2025-12-24T08:11:11Z) - Towards Open-Ended Visual Scientific Discovery with Sparse Autoencoders [11.190791003373322]
スパースオートエンコーダが基礎モデル表現からオープンな特徴発見を可能にするかどうかを問う。
生態画像に適用すると、同じ手順がセグメンテーションや部分ラベルにアクセスせずに微細な解剖学的構造を表面化する。
この結果から, スパース分解は, 科学基盤モデルが何を学んだかを調べるための実践的な手段となることが示唆された。
論文 参考訳(メタデータ) (2025-11-21T19:38:07Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。