論文の概要: FormationEval, an open multiple-choice benchmark for petroleum geoscience
- arxiv url: http://arxiv.org/abs/2601.02158v1
- Date: Mon, 05 Jan 2026 14:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.22506
- Title: FormationEval, an open multiple-choice benchmark for petroleum geoscience
- Title(参考訳): FormationEval - 石油地球科学のためのオープンな多重選択ベンチマーク
- Authors: Almaz Ermilov,
- Abstract要約: FormationEvalは、石油地球科学の分野における言語モデルを評価するための、オープンな多重選択質問ベンチマークである。
評価対象はOpenAI, Anthropic, Google, Meta, オープンウェイトな代替品など,主要なプロバイダの72モデルである。
トップパフォーマーは97%以上の精度を達成し、Gemini 3 Pro Previewは99.8%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents FormationEval, an open multiple-choice question benchmark for evaluating language models on petroleum geoscience and subsurface disciplines. The dataset contains 505 questions across seven domains including petrophysics, petroleum geology and reservoir engineering, derived from three authoritative sources using a reasoning model with detailed instructions and a concept-based approach that avoids verbatim copying of copyrighted text. Each question includes source metadata to support traceability and audit. The evaluation covers 72 models from major providers including OpenAI, Anthropic, Google, Meta and open-weight alternatives. The top performers achieve over 97\% accuracy, with Gemini 3 Pro Preview reaching 99.8\%, while tier and domain gaps persist. Among open-weight models, GLM-4.7 leads at 98.6\%, with several DeepSeek, Llama, Qwen and Mistral models also exceeding 93\%. The performance gap between open-weight and closed models is narrower than expected, with several lower-cost open-weight models exceeding 90\% accuracy. Petrophysics emerges as the most challenging domain across all models, while smaller models show wider performance variance. Residual length bias in the dataset (correct answers tend to be longer) is documented along with bias mitigation strategies applied during construction. The benchmark, evaluation code and results are publicly available.
- Abstract(参考訳): 本稿では,石油地学および地下分野の言語モデルを評価するための,オープンな複数選択質問ベンチマークであるFormationEvalを提案する。
このデータセットには、ペトロピック、石油地質学、貯水池工学を含む7つの領域にわたる505の質問が含まれている。
各質問には、トレーサビリティと監査をサポートするソースメタデータが含まれている。
評価対象はOpenAI, Anthropic, Google, Meta, オープンウェイトな代替品など,主要なプロバイダの72モデルである。
トップパフォーマーは97\%以上の精度を達成し、Gemini 3 Pro Previewは99.8\%に達し、ティアとドメインのギャップは持続する。
オープンウェイトモデルのうち、GLM-4.7は98.6 %でリードし、DeepSeek、Llama、Qwen、Mistralも93 %を超える。
オープンウェイトモデルとクローズドモデルのパフォーマンスギャップは、予想よりも狭く、低コストのオープンウェイトモデルが90%以上である。
ペトロフィシクスは全てのモデルで最も困難な領域として現れ、より小さなモデルはより広範なパフォーマンスのばらつきを示す。
データセットの残留長バイアス(正しい答えは長い傾向にある)は、建設中に適用されるバイアス緩和戦略とともに記録される。
ベンチマーク、評価コード、結果が公開されている。
関連論文リスト
- Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation [32.22754624992446]
実世界の地理空間問題から派生したPythonベースのタスク50のベンチマークであるGeoAnalystBenchを紹介する。
このベンチマークを用いて、プロプライエタリモデルとオープンソースモデルの両方を評価します。
ChatGPT-4o-miniのようなプロプライエタリなモデルは95%の妥当性とより強力なコードアライメントを実現します。
論文 参考訳(メタデータ) (2025-09-07T00:51:57Z) - Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI's Latest Open Source Models [13.622744836632231]
2025年8月、OpenAIはGPT-OSSモデルをリリースした。
両変種を,14.7Bから235Bまでの6つの現代オープンソース大言語モデルと比較した。
どちらのモデルも、コード生成の相対的な長所と、多言語タスクの顕著な弱点によって、現在のオープンソースランドスケープにおける中間層全体のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-08-17T18:25:37Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。