論文の概要: AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy
- arxiv url: http://arxiv.org/abs/2510.00063v1
- Date: Mon, 29 Sep 2025 09:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.153649
- Title: AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy
- Title(参考訳): AstroMMBench:天文学におけるマルチモーダル大言語モデルの評価ベンチマーク
- Authors: Jinghang Shi, Xiao Yu Tang, Yang Hunag, Yuyang Li, Xiaokong, Yanxia Zhang, Caizhan Yue,
- Abstract要約: AstroMMBenchは、天文学的画像理解において、マルチモーダル大言語モデル(MLLM)を評価するための最初の包括的なベンチマークである。
AstroMMBenchは、6つの天体物理学のサブフィールドにわたる621の多重選択質問で構成され、品質と関連性について15のドメイン専門家によってキュレートされ、レビューされている。
結果、Ovis2-34Bは、強力なクローズドソースモデルと比較して高い総合精度(70.5%)を達成した。
- 参考スコア(独自算出の注目度): 4.9608062427893405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Astronomical image interpretation presents a significant challenge for applying multimodal large language models (MLLMs) to specialized scientific tasks. Existing benchmarks focus on general multimodal capabilities but fail to capture the complexity of astronomical data. To bridge this gap, we introduce AstroMMBench, the first comprehensive benchmark designed to evaluate MLLMs in astronomical image understanding. AstroMMBench comprises 621 multiple-choice questions across six astrophysical subfields, curated and reviewed by 15 domain experts for quality and relevance. We conducted an extensive evaluation of 25 diverse MLLMs, including 22 open-source and 3 closed-source models, using AstroMMBench. The results show that Ovis2-34B achieved the highest overall accuracy (70.5%), demonstrating leading capabilities even compared to strong closed-source models. Performance showed variations across the six astrophysical subfields, proving particularly challenging in domains like cosmology and high-energy astrophysics, while models performed relatively better in others, such as instrumentation and solar astrophysics. These findings underscore the vital role of domain-specific benchmarks like AstroMMBench in critically evaluating MLLM performance and guiding their targeted development for scientific applications. AstroMMBench provides a foundational resource and a dynamic tool to catalyze advancements at the intersection of AI and astronomy.
- Abstract(参考訳): 天文学的な画像解釈は、多モーダル大言語モデル(MLLM)を専門的な科学的タスクに適用する上で重要な課題である。
既存のベンチマークは一般的なマルチモーダル機能に重点を置いているが、天文学的なデータの複雑さを捉えていない。
このギャップを埋めるために、天文画像理解においてMLLMを評価するために設計された最初の総合ベンチマークであるAstroMMBenchを紹介する。
AstroMMBenchは、6つの天体物理学のサブフィールドにわたる621の多重選択質問で構成され、品質と関連性について15のドメイン専門家によってキュレートされ、レビューされている。
AstroMMBenchを用いて,22のオープンソースモデルと3のクローズドソースモデルを含む25のMLLMを広範囲に評価した。
その結果、Ovis2-34Bは高い総合精度(70.5%)を達成し、強力なクローズドソースモデルよりも優れた性能を示した。
性能は6つの天体物理学のサブフィールドで変化を示し、特に宇宙論や高エネルギーの天体物理学のような領域では困難であった。
これらの知見は、MLLMのパフォーマンスを批判的に評価し、科学的応用を目指した開発を導く上で、AstroMMBenchのようなドメイン固有のベンチマークが重要な役割を担っていることを裏付けている。
AstroMMBenchは、AIと天文学の交差点における進歩を触媒する基礎的なリソースと動的ツールを提供する。
関連論文リスト
- AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy [59.32718342798908]
AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
本稿では,最先端言語モデルの評価を行い,天文学研究に有用なアシスタントとして携わる能力に大きなギャップがあることを示す。
論文 参考訳(メタデータ) (2025-05-26T21:49:18Z) - AstroMLab 4: Benchmark-Topping Performance in Astronomy Q&A with a 70B-Parameter Domain-Specialized Reasoning Model [3.911100968725141]
汎用的な大規模言語モデルは、しばしば専門的なドメイン知識に苦しむ。
本研究では、ドメイン特化自然言語AIアシスタントであるAstroSage-70Bを紹介する。
天文学、天体物理学、宇宙科学、天体物理学、宇宙論、天文学機器の研究と教育のために設計された。
論文 参考訳(メタデータ) (2025-05-23T07:58:50Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T11:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。