論文の概要: AstroMLab 1: Who Wins Astronomy Jeopardy!?
- arxiv url: http://arxiv.org/abs/2407.11194v1
- Date: Mon, 15 Jul 2024 19:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:31:15.399006
- Title: AstroMLab 1: Who Wins Astronomy Jeopardy!?
- Title(参考訳): AstroMLab 1: Who Wins Astronomy Jeopardy!
- Authors: Yuan-Sen Ting, Tuan Dung Nguyen, Tirthankar Ghosal, Rui Pan, Hardik Arora, Zechang Sun, Tijmen de Haan, Nesar Ramachandra, Azton Wells, Sandeep Madireddy, Alberto Accomazzi,
- Abstract要約: このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
- 参考スコア(独自算出の注目度): 4.162245706139047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive evaluation of proprietary and open-weights large language models using the first astronomy-specific benchmarking dataset. This dataset comprises 4,425 multiple-choice questions curated from the Annual Review of Astronomy and Astrophysics, covering a broad range of astrophysical topics. Our analysis examines model performance across various astronomical subfields and assesses response calibration, crucial for potential deployment in research environments. Claude-3.5-Sonnet outperforms competitors by up to 4.6 percentage points, achieving 85.0% accuracy. For proprietary models, we observed a universal reduction in cost every 3-to-12 months to achieve similar score in this particular astronomy benchmark. Open-source models have rapidly improved, with LLaMA-3-70b (80.6%) and Qwen-2-72b (77.7%) now competing with some of the best proprietary models. We identify performance variations across topics, with non-English-focused models generally struggling more in exoplanet-related fields, stellar astrophysics, and instrumentation related questions. These challenges likely stem from less abundant training data, limited historical context, and rapid recent developments in these areas. This pattern is observed across both open-weights and proprietary models, with regional dependencies evident, highlighting the impact of training data diversity on model performance in specialized scientific domains. Top-performing models demonstrate well-calibrated confidence, with correlations above 0.9 between confidence and correctness, though they tend to be slightly underconfident. The development for fast, low-cost inference of open-weights models presents new opportunities for affordable deployment in astronomy. The rapid progress observed suggests that LLM-driven research in astronomy may become feasible in the near future.
- Abstract(参考訳): 最初の天文学固有のベンチマークデータセットを用いて,プロプライエタリおよびオープンウェイトな大規模言語モデルの包括的評価を行う。
このデータセットは、天文学と天体物理学の年次レビューから算出された4,425の多重選択質問で構成され、幅広い天体物理学のトピックをカバーしている。
本分析では,各種の天体サブフィールドにおけるモデル性能について検討し,研究環境への展開に欠かせない応答校正の評価を行った。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
プロプライエタリなモデルでは,このベンチマークで同様の結果を得るために,3~12ヶ月毎のコストの普遍的な削減が観察された。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
一般に、外惑星関連分野、恒星天体物理学、計装関連問題で苦戦している非英語モデルを用いて、トピック間のパフォーマンスのバリエーションを同定する。
これらの課題は、少ない訓練データ、限られた歴史的文脈、そしてこれらの領域の急速な発展に起因すると考えられる。
このパターンはオープンウェイトモデルとプロプライエタリモデルの両方で観察され、地域依存は明らかであり、専門的な科学領域におけるモデルパフォーマンスに対するトレーニングデータの多様性の影響を強調している。
トップパフォーマンスモデルでは、信頼性と正確性の間に0.9以上の相関関係があるが、信頼性はわずかに低い傾向にある。
高速で低コストなオープンウェイトモデルの構築は、天文学に手頃な展開の新たな機会をもたらす。
観測された急速な進歩は、天文学におけるLLM駆動の研究が近い将来実現可能であることを示唆している。
関連論文リスト
- AstroM$^3$: A self-supervised multimodal model for astronomy [0.0]
本稿では,モデルが複数のモーダルから同時に学習できる自己教師型事前学習手法AstroM$3$を提案する。
具体的には、CLIP(Contrastive Language- Image Pretraining)モデルをトリモーダル設定に拡張し、時系列測光データ、スペクトル、天体物理メタデータの統合を可能にする。
以上の結果から,CLIP事前学習により時系列光度測定の分類性能が向上し,精度が84.6%から91.5%に向上した。
論文 参考訳(メタデータ) (2024-11-13T18:20:29Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - Real-time gravitational-wave inference for binary neutron stars using machine learning [71.29593576787549]
近似を行なわずに1秒で完全なBNS推論を行う機械学習フレームワークを提案する。
本手法は, (i) 合併前の正確な局所化を提供することにより, (i) 近似低遅延法と比較して, (ii) 局所化精度を$sim30%$で改善すること, (iii) 光度距離, 傾斜, 質量に関する詳細な情報を提供することにより, (i) マルチメーサの観測を向上する。
論文 参考訳(メタデータ) (2024-07-12T18:00:02Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - Deep Learning and LLM-based Methods Applied to Stellar Lightcurve Classification [7.592813175419603]
本稿では,変光度曲線の自動分類のための深層学習・大規模言語モデル(LLM)の総合評価を行う。
特にCepheids, RR Lyrae, and eclipsing binariesに重点を置いて, 観測周期と位相分布が分類精度に及ぼす影響について検討した。
LLM, マルチモーダル大言語モデル(MLLM), 大規模音声言語モデル(LALM)の3モデルからなる革新的なシリーズであるStarWhisper LightCurve (LC)を発表した。
論文 参考訳(メタデータ) (2024-04-16T17:35:25Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Simulation-based Inference for Exoplanet Atmospheric Retrieval: Insights
from winning the Ariel Data Challenge 2023 using Normalizing Flows [0.0]
本稿では,Ariel Data Challenge 2023のためにAstroAIチームが開発した新しい機械学習モデルを紹介する。
そのうちの1台が293のライバルの中でトップの地位を確保した。
本稿では,勝敗モデルよりも高い性能を示す代替モデルを提案する。
論文 参考訳(メタデータ) (2023-09-17T17:59:59Z) - Supernova Light Curves Approximation based on Neural Network Models [53.180678723280145]
光度データによる超新星の分類は、天文学におけるビッグデータのリアルタイム処理の出現によって課題となる。
近年の研究では、様々な機械学習モデルに基づく解の優れた品質が実証されている。
我々は,多層パーセプトロン(MLP),ベイジアンニューラルネットワーク(BNN),正規化フロー(NF)の単一光曲線観測への応用について検討した。
論文 参考訳(メタデータ) (2022-06-27T13:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。