Fugu-MT 論文翻訳(概要): AstroMLab 1: Who Wins Astronomy Jeopardy!?

論文の概要: AstroMLab 1: Who Wins Astronomy Jeopardy!?

arxiv url: http://arxiv.org/abs/2407.11194v2
Date: Fri, 08 Nov 2024 22:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.50234
Title: AstroMLab 1: Who Wins Astronomy Jeopardy!?
Title（参考訳）: AstroMLab 1: Who Wins Astronomy Jeopardy!
Authors: Yuan-Sen Ting, Tuan Dung Nguyen, Tirthankar Ghosal, Rui Pan, Hardik Arora, Zechang Sun, Tijmen de Haan, Nesar Ramachandra, Azton Wells, Sandeep Madireddy, Alberto Accomazzi,
Abstract要約: このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。 Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。 LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
参考スコア（独自算出の注目度）: 4.162245706139047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comprehensive evaluation of proprietary and open-weights large language models using the first astronomy-specific benchmarking dataset. This dataset comprises 4,425 multiple-choice questions curated from the Annual Review of Astronomy and Astrophysics, covering a broad range of astrophysical topics. Our analysis examines model performance across various astronomical subfields and assesses response calibration, crucial for potential deployment in research environments. Claude-3.5-Sonnet outperforms competitors by up to 4.6 percentage points, achieving 85.0% accuracy. For proprietary models, we observed a universal reduction in cost every 3-to-12 months to achieve similar score in this particular astronomy benchmark. open-weights models have rapidly improved, with LLaMA-3-70b (80.6%) and Qwen-2-72b (77.7%) now competing with some of the best proprietary models. We identify performance variations across topics, with non-English-focused models generally struggling more in exoplanet-related fields, stellar astrophysics, and instrumentation related questions. These challenges likely stem from less abundant training data, limited historical context, and rapid recent developments in these areas. This pattern is observed across both open-weights and proprietary models, with regional dependencies evident, highlighting the impact of training data diversity on model performance in specialized scientific domains. Top-performing models demonstrate well-calibrated confidence, with correlations above 0.9 between confidence and correctness, though they tend to be slightly underconfident. The development for fast, low-cost inference of open-weights models presents new opportunities for affordable deployment in astronomy. The rapid progress observed suggests that LLM-driven research in astronomy may become feasible in the near future.
Abstract（参考訳）: 最初の天文学固有のベンチマークデータセットを用いて,プロプライエタリおよびオープンウェイトな大規模言語モデルの包括的評価を行う。このデータセットは、天文学と天体物理学の年次レビューから算出された4,425の多重選択質問で構成され、幅広い天体物理学のトピックをカバーしている。本分析では,各種の天体サブフィールドにおけるモデル性能について検討し,研究環境への展開に欠かせない応答校正の評価を行った。 Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。プロプライエタリなモデルでは,このベンチマークで同様の結果を得るために,3～12ヶ月毎のコストの普遍的な削減が観察された。 LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。一般に、外惑星関連分野、恒星天体物理学、計装関連問題で苦戦している非英語モデルを用いて、トピック間のパフォーマンスのバリエーションを同定する。これらの課題は、少ない訓練データ、限られた歴史的文脈、そしてこれらの領域の急速な発展に起因すると考えられる。このパターンはオープンウェイトモデルとプロプライエタリモデルの両方で観察され、地域依存は明らかであり、専門的な科学領域におけるモデルパフォーマンスに対するトレーニングデータの多様性の影響を強調している。トップパフォーマンスモデルでは、信頼性と正確性の間に0.9以上の相関関係があるが、信頼性はわずかに低い傾向にある。高速で低コストなオープンウェイトモデルの構築は、天文学に手頃な展開の新たな機会をもたらす。観測された急速な進歩は、天文学におけるLLM駆動の研究が近い将来実現可能であることを示唆している。

関連論文リスト

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。主な特徴は次のとおりである。テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文参考訳（メタデータ） (2025-11-18T11:13:06Z)
Scaling Spatial Intelligence with Multimodal Foundation Models [90.32537840125009]
マルチモーダル・ファンデーション・モデルは空間知能に驚くべき欠陥をみせています我々は、高性能で堅牢な空間知性を構築するために、原則的なアプローチをとる。 SenseNova-SIは、幅広い空間インテリジェンスベンチマークで前例のない性能を示している。
論文参考訳（メタデータ） (2025-11-17T18:59:33Z)
Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA) [43.53870250026015]
我々は,国際天文学・天体物理学試験(IOAA)において,5つの大きな言語モデル(LLM)をベンチマークした。平均スコアは85.6%、84.2%で、ジェミニ2.5 ProとGPT-5は4つのIOAA理論試験で200-300人中上位2位にランクインした。 GPT-5は88.5%のスコアで試験に合格しており、最新の4つのIOAAの参加者の中ではトップ10にランクインしている。
論文参考訳（メタデータ） (2025-10-06T16:58:47Z)
AstroMMBench: A Benchmark for Evaluating Multimodal Large Language Models Capabilities in Astronomy [6.247581175023764]
AstroMMBenchは、天文学的画像理解において、マルチモーダル大言語モデル(MLLM)を評価するための最初の包括的なベンチマークである。 AstroMMBenchは、6つの天体物理学のサブフィールドにわたる621の多重選択質問で構成され、品質と関連性について15のドメイン専門家によってキュレートされ、レビューされている。結果、Ovis2-34Bは、強力なクローズドソースモデルと比較して高い総合精度(70.5%)を達成した。
論文参考訳（メタデータ） (2025-09-29T09:02:30Z)
Intern-S1: A Scientific Multimodal Foundation Model [282.73189976071427]
Intern-S1は、一般的な理解と推論機能を備えた専門的なジェネラリストである。 Intern-S1はオフラインおよびオンライン強化学習(RL)をInternBootCampで実施する。包括的な評価ベンチマークでは、Intern-S1はオープンソースモデル間の一般的な推論タスクにおける競合性能を示す。
論文参考訳（メタデータ） (2025-08-21T17:58:00Z)
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-07-14T17:55:15Z)
Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文参考訳（メタデータ） (2025-06-12T17:59:23Z)
AstroMLab 4: Benchmark-Topping Performance in Astronomy Q&A with a 70B-Parameter Domain-Specialized Reasoning Model [3.911100968725141]
汎用的な大規模言語モデルは、しばしば専門的なドメイン知識に苦しむ。本研究では、ドメイン特化自然言語AIアシスタントであるAstroSage-70Bを紹介する。天文学、天体物理学、宇宙科学、天体物理学、宇宙論、天文学機器の研究と教育のために設計された。
論文参考訳（メタデータ） (2025-05-23T07:58:50Z)
Astromer 2 [1.236974227340167]
Astromer 2は光曲線解析のための自己教師付きモデルの拡張版として導入する。 Astromer 2 は、MACHO 調査から150万個の単バンド光曲線上で、自己教師付き学習タスクを用いて事前訓練される。以上の結果から,Astromer 2はすべての評価シナリオでAstromer 1を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-02-04T20:56:14Z)
ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study [26.39743358097732]
ORBITは、ノイズの多いWebソースから大量の高品質なドメイン固有データセットをキュレートするための費用効率のよい手法である。 1Bの天文学部分集合上の微調整テキストscLLaMA-3-8Bは、MMLUの天文学ベンチマークの性能を69%から76%に改善した。このモデル (Orbit-LLaMA) はtextscLLaMA-3-8B-base より優れており, GPT-4o の評価では1000の天文学的な質問に対して 73% のケースで好んでいる。
論文参考訳（メタデータ） (2024-12-19T01:35:47Z)
AstroM$^3$: A self-supervised multimodal model for astronomy [0.0]
本稿では,モデルが複数のモーダルから同時に学習できる自己教師型事前学習手法AstroM$3$を提案する。具体的には、CLIP(Contrastive Language- Image Pretraining)モデルをトリモーダル設定に拡張し、時系列測光データ、スペクトル、天体物理メタデータの統合を可能にする。以上の結果から,CLIP事前学習により時系列光度測定の分類性能が向上し,精度が84.6%から91.5%に向上した。
論文参考訳（メタデータ） (2024-11-13T18:20:29Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。 LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-09-29T16:02:22Z)
Real-time gravitational-wave inference for binary neutron stars using machine learning [71.29593576787549]
近似を行なわずに1秒で完全なBNS推論を行う機械学習フレームワークを提案する。本手法は, (i) 合併前の正確な局所化を提供することにより, (i) 近似低遅延法と比較して, (ii) 局所化精度を$sim30%$で改善すること, (iii) 光度距離, 傾斜, 質量に関する詳細な情報を提供することにより, (i) マルチメーサの観測を向上する。
論文参考訳（メタデータ） (2024-07-12T18:00:02Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文参考訳（メタデータ） (2024-06-24T18:17:54Z)
Deep Learning and LLM-based Methods Applied to Stellar Lightcurve Classification [7.592813175419603]
本稿では,変光度曲線の自動分類のための深層学習・大規模言語モデル(LLM)の総合評価を行う。特にCepheids, RR Lyrae, and eclipsing binariesに重点を置いて, 観測周期と位相分布が分類精度に及ぼす影響について検討した。 LLM, マルチモーダル大言語モデル(MLLM), 大規模音声言語モデル(LALM)の3モデルからなる革新的なシリーズであるStarWhisper LightCurve (LC)を発表した。
論文参考訳（メタデータ） (2024-04-16T17:35:25Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [48.66623377464203]
我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
論文参考訳（メタデータ） (2024-03-22T17:11:47Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Simulation-based Inference for Exoplanet Atmospheric Retrieval: Insights from winning the Ariel Data Challenge 2023 using Normalizing Flows [0.0]
本稿では,Ariel Data Challenge 2023のためにAstroAIチームが開発した新しい機械学習モデルを紹介する。そのうちの1台が293のライバルの中でトップの地位を確保した。本稿では,勝敗モデルよりも高い性能を示す代替モデルを提案する。
論文参考訳（メタデータ） (2023-09-17T17:59:59Z)
Supernova Light Curves Approximation based on Neural Network Models [53.180678723280145]
光度データによる超新星の分類は、天文学におけるビッグデータのリアルタイム処理の出現によって課題となる。近年の研究では、様々な機械学習モデルに基づく解の優れた品質が実証されている。我々は,多層パーセプトロン(MLP),ベイジアンニューラルネットワーク(BNN),正規化フロー(NF)の単一光曲線観測への応用について検討した。
論文参考訳（メタデータ） (2022-06-27T13:46:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。