論文の概要: K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology
- arxiv url: http://arxiv.org/abs/2604.24645v1
- Date: Mon, 27 Apr 2026 16:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.142794
- Title: K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology
- Title(参考訳): K-MetBench: 気象学におけるエキスパート推論,局所性,マルチモダリティの細粒度評価のための多次元ベンチマーク
- Authors: Soyeon Kim, Cheongwoong Kang, Myeongjin Lee, Eun-Chul Chang, Jaedeok Lee, Jaesik Choi,
- Abstract要約: K-MetBench(K-MetBench)は、国家の資格試験に基礎を置く診断ベンチマークである。
グラフの専門的な視覚的推論、専門家が検証した有理性による論理的妥当性、韓国固有の地理的文化的理解、きめ細かいドメイン分析である。
韓国のモデルは、地域の文脈において、はるかに大きなグローバルモデルを上回っている。
- 参考スコア(独自算出の注目度): 22.559021828614508
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of practical (multimodal) large language model assistants for Korean weather forecasters is hindered by the absence of a multidimensional, expert-level evaluation framework grounded in authoritative sources. To address this, we introduce K-MetBench, a diagnostic benchmark grounded in national qualification exams. It exposes critical gaps across four dimensions: expert visual reasoning of charts, logical validity via expert-verified rationales, Korean-specific geo-cultural comprehension, and fine-grained domain analysis. Our evaluation of 55 models reveals a profound modality gap in interpreting specialized diagrams and a reasoning gap where models hallucinate logic despite correct predictions. Crucially, Korean models outperform significantly larger global models in local contexts, demonstrating that parameter scaling alone cannot resolve cultural dependencies. K-MetBench serves as a roadmap for developing reliable, culturally aware expert AI agents. The dataset is available at https://huggingface.co/datasets/soyeonbot/K-MetBench .
- Abstract(参考訳): 韓国の気象予報者のための実用的な(マルチモーダルな)大規模言語モデルアシスタントの開発は、権威的な情報源に基づく多次元の専門家レベルの評価フレームワークが欠如していることによって妨げられている。
そこで我々は,全国の資格試験における診断基準であるK-MetBenchを紹介する。
グラフの専門的な視覚的推論、専門家が検証した有理性による論理的妥当性、韓国固有の地理的文化的理解、きめ細かいドメイン分析である。
55モデルについて評価したところ、特殊図の解釈において、深いモダリティのギャップと、モデルが正しい予測にもかかわらず論理を幻覚させる推論のギャップが明らかとなった。
重要なことに、韓国のモデルは、局所的な文脈において非常に大きなグローバルモデルよりも優れており、パラメータスケーリングだけでは文化的依存関係を解決できないことを実証している。
K-MetBenchは、信頼できる文化的に認識された専門家AIエージェントを開発するロードマップとして機能する。
データセットはhttps://huggingface.co/datasets/soyeonbot/K-MetBenchで公開されている。
関連論文リスト
- ERNIE 5.0 Technical Report [244.36480708815316]
ERNIE 5.0は、テキスト、画像、ビデオ、オーディオをまたいだ統合されたマルチモーダル理解と生成のための統合された自己回帰基盤モデルである。
ERNIE 5.0は、多様なリソース制約下での大規模デプロイメントの実践的な課題に対処するため、新しい弾力性トレーニングパラダイムを採用している。
ERNIE 5.0は、複数のモードで強い、バランスの取れた性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T16:18:15Z) - HeartBench: Probing Core Dimensions of Anthropomorphic Intelligence in LLMs [20.794341575633503]
HeartBenchは、中国の大規模言語モデル(LLM)の総合的な感情的、文化的、倫理的次元を評価するために設計されたフレームワークである。
先行モデルでさえ、専門家が定義した理想スコアの60%しか達成できない。
難易度階層化された「ハードセット」を用いた分析では、微妙な感情的な文章や複雑な倫理的トレードオフを含むシナリオにおいて、顕著な性能低下が見られる。
論文 参考訳(メタデータ) (2025-12-26T03:54:56Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models [2.1797343876622097]
本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討した。
専門家のラベルや物語に対して5つのDLモデルを評価し、分析を4つの大言語モデル(LLM)に拡張する。
高い精度のモデルでは、人間の専門家との一致度が低い場合が多いが、LSMでは精度が低いにもかかわらず、専門家のアライメントが強い場合が多い。
論文 参考訳(メタデータ) (2025-04-17T16:29:08Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information [41.360433189390804]
本稿では,これらの制限下で考案された韓国の化学毒性情報エージェントであるTox-chatについて述べる。
本稿では,階層的な部分探索によるトークン消費を低減する文脈効率アーキテクチャと,シナリオベースの対話生成手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:34:15Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。