論文の概要: AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification
- arxiv url: http://arxiv.org/abs/2605.05573v1
- Date: Thu, 07 May 2026 01:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.478594
- Title: AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification
- Title(参考訳): AstroAlertBench:天文学分類におけるマルチモーダルLDMの正確性、推論、および正直性の評価
- Authors: Claire Chen, Jiabao Sean Xiao, Shuze Daniel Liu, Facundo Perez Paolino, Luke Handley, Theophile Jegou du Laz, Ricky Nilsson, Alice Zou, Matthew Graham, Ashish Mahabal,
- Abstract要約: AstroAlertBenchは、天文学的なイベントレビューのために大きな言語モデル(LLM)を評価するために設計された包括的なベンチマークである。
我々は、北部の空をスキャンして一過性の天文事象を検出する広視野調査であるZTF(Zwicky Transient Facility)から、1500件の現実世界の警報のパイロットサンプルを使用します。
以上の結果から,高い精度は必ずしもモデルの誠実さと一致しないことが明らかとなり,その推論を自己評価する能力として定義されている。
- 参考スコア(独自算出の注目度): 6.546448267229169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern astronomical observatories generate a massive volume of multimodal data, creating a critical bottleneck for expert human review. While multimodal large language models (LLMs) have shown promise in interpreting complex visual and textual inputs, their ability to perform specialized scientific classification while providing interpretable reasoning remains understudied. We introduce AstroAlertBench, a comprehensive multimodal benchmark designed to evaluate LLM performance in astronomical event review along a three-stage logical chain: metadata grounding, scientific reasoning, and hierarchical classification over five categories. We use a pilot sample of 1,500 real-world alerts from the Zwicky Transient Facility (ZTF), a wide-field survey that scans the northern sky to detect transient astronomical events. On this dataset, we benchmark 13 frontier closed-source and open-weight LLMs that support visual input. Our results reveal that high accuracy does not always align with model ``honesty,'' defined as the ability to self-evaluate its reasoning, which affects its reliability as a real-world assistant. We further initialize a human-in-the-loop evaluation protocol as a precursor to future community-scale participation. Together, AstroAlertBench provides a framework for developing calibrated and interpretable astronomical assistants.
- Abstract(参考訳): 現代の天文学の観測所は膨大な量のマルチモーダルデータを生成し、専門家の人間のレビューにとって重要なボトルネックを生み出している。
マルチモーダルな大言語モデル(LLM)は複雑な視覚的およびテキスト的入力の解釈において有望であるが、解釈可能な推論を提供しながら専門的な科学的分類を行う能力はいまだ検討されていない。
AstroAlertBenchは、天文学的なイベントレビューにおいて、メタデータグラウンディング、科学的推論、階層分類という3段階の論理的連鎖に沿って、LCMのパフォーマンスを評価するために設計された総合的なマルチモーダルベンチマークである。
我々は、北部の空をスキャンして一過性の天文事象を検出する広視野調査であるZTF(Zwicky Transient Facility)から、1500件の現実世界の警報のパイロットサンプルを使用します。
このデータセットでは、ビジュアル入力をサポートする13のフロンティアクローズドソースとオープンウェイトLLMをベンチマークする。
以上の結果から,高い精度は,現実のアシスタントとしての信頼性に影響を与える推論を自己評価する能力として定義されるモデル ‘honesty,’ と一致しないことが明らかとなった。
我々はさらに,今後のコミュニティ規模の参加の先駆けとして,人間によるループ評価プロトコルを初期化する。
AstroAlertBenchは、校正され解釈可能な天文アシスタントを開発するためのフレームワークを提供する。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - StarEmbed: Benchmarking Time Series Foundation Models on Astronomical Observations of Variable Stars [12.329789568475045]
時系列基礎モデル(TSFM)は、高機能な汎用時系列表現学習者として採用されつつある。
本稿では,恒星時系列観測における最先端TSFMの厳密で標準化された評価のための最初の公開ベンチマークであるStarEmbedを紹介する。
我々は,非教師付きクラスタリング,教師付き分類,アウト・オブ・ディストリビューション源検出という,科学的に動機付けられた3つの下流タスクをベンチマークした。
論文 参考訳(メタデータ) (2025-10-07T17:53:56Z) - AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy [6.247581175023764]
AstroMMBenchは、天文学的画像理解において、マルチモーダル大言語モデル(MLLM)を評価するための最初の包括的なベンチマークである。
AstroMMBenchは、6つの天体物理学のサブフィールドにわたる621の多重選択質問で構成され、品質と関連性について15のドメイン専門家によってキュレートされ、レビューされている。
結果、Ovis2-34Bは、強力なクローズドソースモデルと比較して高い総合精度(70.5%)を達成した。
論文 参考訳(メタデータ) (2025-09-29T09:02:30Z) - Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation [5.711705587813085]
VLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムである。
我々は、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-08-31T14:31:47Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy [39.94582666929051]
AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
本稿では,最先端言語モデルの評価を行い,天文学研究に有用なアシスタントとして携わる能力に大きなギャップがあることを示す。
論文 参考訳(メタデータ) (2025-05-26T21:49:18Z) - AstroM$^3$: A self-supervised multimodal model for astronomy [0.0]
本稿では,モデルが複数のモーダルから同時に学習できる自己教師型事前学習手法AstroM$3$を提案する。
具体的には、CLIP(Contrastive Language- Image Pretraining)モデルをトリモーダル設定に拡張し、時系列測光データ、スペクトル、天体物理メタデータの統合を可能にする。
以上の結果から,CLIP事前学習により時系列光度測定の分類性能が向上し,精度が84.6%から91.5%に向上した。
論文 参考訳(メタデータ) (2024-11-13T18:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。