論文の概要: A systematic evaluation of vision-language models for observational astronomical reasoning tasks
- arxiv url: http://arxiv.org/abs/2604.24589v1
- Date: Mon, 27 Apr 2026 15:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.114157
- Title: A systematic evaluation of vision-language models for observational astronomical reasoning tasks
- Title(参考訳): 観測天文学的推論タスクのための視覚言語モデルの体系的評価
- Authors: Wenke Ren, Hengxiao Guo, Wenwen Zuo, Xiaoman Zhang,
- Abstract要約: 視覚言語モデル(VLM)は、科学データ解釈のための汎用ツールとしてますます提案されているが、実際の天文学的な観測に対する信頼性は証明されていない。
AstroVLBenchは、光学画像、電波干渉計、マルチ波長光度測定、時間領域光度曲線、光学分光の5つのタスクにまたがる4,100以上の専門家検証インスタンスからなる総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 3.608879177162859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly proposed as general-purpose tools for scientific data interpretation, yet their reliability on real astronomical observations across diverse modalities remains untested. We present AstroVLBench, a comprehensive benchmark comprising over 4,100 expert-verified instances across five tasks spanning optical imaging, radio interferometry, multi-wavelength photometry, time-domain light curves, and optical spectroscopy. Evaluating six frontier models, we find that performance is strongly modality-dependent: while one model (Gemini 3 Pro) emerges as the most consistently capable across tasks, task-specific strengths vary, and all models substantially underperform domain-specialized methods. Mechanistic ablations reveal that performance depends not only on directing attention to salient visual features but also on grounding those features in physical knowledge. Phenomenological prompts describing what to look for improve accuracy by sharpening model focus, but physical prompts explaining why those features matter perform better overall and yield more balanced classifications with reduced class-specific bias. Consistent with this picture, presenting the underlying one-dimensional measurements directly as numerical tables instead of rendered plots yields up to 13 percentage points improvement. Reasoning quality analysis further demonstrates that, without explicit physical grounding, models may reach correct predictions from phenomenologically plausible cues while providing physically imprecise justifications, establishing that accuracy alone is insufficient for trustworthy scientific deployment. These findings provide the first systematic, multi-modal baselines for VLMs in observational astronomy and identify the specific representation, grounding, and reasoning bottlenecks where current models fail.
- Abstract(参考訳): 視覚言語モデル(VLM)は、科学データ解釈のための汎用ツールとしてますます提案されているが、様々なモードにわたる実際の天文観測に対する信頼性は検証されていない。
AstroVLBenchは、光学画像、電波干渉計、マルチ波長光度測定、時間領域光度曲線、光学分光の5つのタスクにまたがる4,100以上の専門家検証インスタンスからなる総合的なベンチマークである。
6つのフロンティアモデルを評価すると、性能は強いモダリティに依存していることが分かる。一方のモデル(Gemini 3 Pro)はタスク間で最も一貫した能力を持つものとして出現するが、タスク固有の強みは様々であり、全てのモデルはドメイン特化メソッドを実質的に過小評価する。
メカニスティック・アブレーション(Mechanistic ablations)は、パフォーマンスは、健全な視覚的特徴に注意を向けるだけでなく、それらの特徴を物理的に理解することにも依存していることを示している。
現象学的には、モデル焦点を研ぎ澄ますことで精度を向上させる方法を説明するが、物理的には、これらの特徴が全体的な性能を向上し、クラス固有のバイアスを減らしてよりバランスの取れた分類をもたらす理由を説明する。
この図に従えば、描画プロットの代わりに、基礎となる1次元測定を数値表として直接提示すると、最大13パーセントの改善が得られる。
推論品質分析は、明示的な物理的根拠がなければ、モデルは、物理的に不正確な正当化を提供しながら、現象学的に妥当な手がかりから正しい予測に達することを証明し、信頼できる科学的展開には正確性だけでは不十分であることを示す。
これらの発見は、観測天文学におけるVLMの最初の体系的、マルチモーダルなベースラインを提供し、現在のモデルが失敗する特定の表現、接地、推論のボトルネックを特定する。
関連論文リスト
- Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation [5.711705587813085]
VLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムである。
我々は、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-08-31T14:31:47Z) - Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。
研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか?
本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。
微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文 参考訳(メタデータ) (2025-08-27T13:24:41Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。