論文の概要: CLINB: A Climate Intelligence Benchmark for Foundational Models
- arxiv url: http://arxiv.org/abs/2511.11597v1
- Date: Wed, 29 Oct 2025 16:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.267998
- Title: CLINB: A Climate Intelligence Benchmark for Foundational Models
- Title(参考訳): CLINB: 基礎モデルのための気候インテリジェンスベンチマーク
- Authors: Michelle Chen Huebscher, Katharine Mach, Aleksandar Stanić, Markus Leippold, Ben Gaiarin, Zeke Hausfather, Elisa Rawat, Erich Fischer, Massimiliano Ciaramita, Joeri Rogelj, Christian Buck, Lierni Sestorain Saralegui, Reto Knutti,
- Abstract要約: オープンエンド,グラウンドド,マルチモーダルな質問応答タスクのモデルを評価するベンチマークであるCLINBを紹介する。
モデルに基づく評価プロセスを実装し,いくつかのフロンティアモデルを評価する。
- 参考スコア(独自算出の注目度): 31.884362929125363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating how Large Language Models (LLMs) handle complex, specialized knowledge remains a critical challenge. We address this through the lens of climate change by introducing CLINB, a benchmark that assesses models on open-ended, grounded, multimodal question answering tasks with clear requirements for knowledge quality and evidential support. CLINB relies on a dataset of real users' questions and evaluation rubrics curated by leading climate scientists. We implement and validate a model-based evaluation process and evaluate several frontier models. Our findings reveal a critical dichotomy. Frontier models demonstrate remarkable knowledge synthesis capabilities, often exhibiting PhD-level understanding and presentation quality. They outperform "hybrid" answers curated by domain experts assisted by weaker models. However, this performance is countered by failures in grounding. The quality of evidence varies, with substantial hallucination rates for references and images. We argue that bridging this gap between knowledge synthesis and verifiable attribution is essential for the deployment of AI in scientific workflows and that reliable, interpretable benchmarks like CLINB are needed to progress towards building trustworthy AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑な専門知識をどのように扱うかを評価することは、依然として重要な課題である。
CLINB(CLINB)は、知識の質と明らかなサポートの明確な要件を持ったタスクに対する、オープンエンド、接地、マルチモーダルな質問応答モデルを評価するベンチマークである。
CLINBは、主要な気候科学者がキュレートした実際のユーザの質問と評価ルーブリックのデータセットに依存している。
モデルに基づく評価プロセスを実装し,いくつかのフロンティアモデルを評価する。
以上より,重度二分割術を施行した。
フロンティアモデルは優れた知識合成能力を示し、しばしばPhDレベルの理解とプレゼンテーション品質を示す。
より弱いモデルによって支援されたドメインの専門家による"ハイブリッド"な回答よりも優れています。
しかし、このパフォーマンスは接地時の失敗に逆らっている。
証拠の質は様々であり、参照や画像に対する幻覚率がかなり高い。
私たちは、知識合成と検証可能な属性の間のこのギャップを埋めることは、科学ワークフローにおけるAIの展開に不可欠であり、信頼できるCLINBのような解釈可能なベンチマークは、信頼できるAIシステムの構築に向けて前進するために必要である、と論じています。
関連論文リスト
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - ClimaQA: An Automated Evaluation Framework for Climate Question Answering Models [38.05357439484919]
気候学者による大学院教科書から質問応答ペアを生成する適応学習フレームワークであるClimaGenを開発した。
気候科学のための大規模で総合的な総合的なQAデータセットであるClimaQA-Silverとともに、専門家による注釈付きベンチマークデータセットであるClimaQA-Goldを提示する。
論文 参考訳(メタデータ) (2024-10-22T05:12:19Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - What Does My QA Model Know? Devising Controlled Probes using Expert
Knowledge [36.13528043657398]
我々は,現在最先端のQAモデルが,単語定義や一般的な分類学的推論に関する一般的な知識を持っているかどうかを検討する。
さまざまなタイプの専門家の知識からデータセットを自動的に構築するための方法論を使用します。
評価の結果,変圧器を用いたQAモデルはすでにある種の構造的語彙的知識を認識できないことが確認された。
論文 参考訳(メタデータ) (2019-12-31T15:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。