論文の概要: AstroMLab 4: Benchmark-Topping Performance in Astronomy Q&A with a 70B-Parameter Domain-Specialized Reasoning Model
- arxiv url: http://arxiv.org/abs/2505.17592v1
- Date: Fri, 23 May 2025 07:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.909934
- Title: AstroMLab 4: Benchmark-Topping Performance in Astronomy Q&A with a 70B-Parameter Domain-Specialized Reasoning Model
- Title(参考訳): AstroMLab 4:70Bパラメータドメイン特化推論モデルによる天文学Q&Aのベンチマークトッピング性能
- Authors: Tijmen de Haan, Yuan-Sen Ting, Tirthankar Ghosal, Tuan Dung Nguyen, Alberto Accomazzi, Emily Herron, Vanessa Lama, Rui Pan, Azton Wells, Nesar Ramachandra,
- Abstract要約: 汎用的な大規模言語モデルは、しばしば専門的なドメイン知識に苦しむ。
本研究では、ドメイン特化自然言語AIアシスタントであるAstroSage-70Bを紹介する。
天文学、天体物理学、宇宙科学、天体物理学、宇宙論、天文学機器の研究と教育のために設計された。
- 参考スコア(独自算出の注目度): 3.911100968725141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose large language models, despite their broad capabilities, often struggle with specialized domain knowledge, a limitation particularly pronounced in more accessible, lower-parameter versions. This gap hinders their deployment as effective agents in demanding fields such as astronomy. Building on our prior work with AstroSage-8B, this study introduces AstroSage-70B, a significantly larger and more advanced domain-specialized natural-language AI assistant. It is designed for research and education across astronomy, astrophysics, space science, astroparticle physics, cosmology, and astronomical instrumentation. Developed from the Llama-3.1-70B foundation, AstroSage-70B underwent extensive continued pre-training on a vast corpus of astronomical literature, followed by supervised fine-tuning and model merging. Beyond its 70-billion parameter scale, this model incorporates refined datasets, judiciously chosen learning hyperparameters, and improved training procedures, achieving state-of-the-art performance on complex astronomical tasks. Notably, we integrated reasoning chains into the SFT dataset, enabling AstroSage-70B to either answer the user query immediately, or first emit a human-readable thought process. Evaluated on the AstroMLab-1 benchmark -- comprising 4,425 questions from literature withheld during training -- AstroSage-70B achieves state-of-the-art performance. It surpasses all other tested open-weight and proprietary models, including leading systems like o3, Gemini-2.5-Pro, Claude-3.7-Sonnet, Deepseek-R1, and Qwen-3-235B, even those with API costs two orders of magnitude higher. This work demonstrates that domain specialization, when applied to large-scale models, can enable them to outperform generalist counterparts in specialized knowledge areas like astronomy, thereby advancing the frontier of AI capabilities in the field.
- Abstract(参考訳): 汎用の大規模言語モデルは、その幅広い能力にもかかわらず、しばしば専門的なドメイン知識に苦しむが、特によりアクセスしやすい低パラメータバージョンでは、制限が顕著である。
このギャップは天文学などの分野での効果的なエージェントとしての展開を妨げる。
AstroSage-8Bを使った以前の研究に基づいて、この研究はAstroSage-70Bを紹介した。
天文学、天体物理学、宇宙科学、天体物理学、宇宙論、天文学機器の研究と教育のために設計された。
Llama-3.1-70B 財団から開発された AstroSage-70B は、天文学文献の膨大なコーパスの訓練を継続し、さらに微調整とモデル統合を監督した。
このモデルには、70ビリオンのパラメータスケール以外にも、洗練されたデータセット、散発的に選択された学習ハイパーパラメータ、訓練手順の改善、複雑な天文学的なタスクにおける最先端のパフォーマンスの達成が含まれている。
注目すべきは、推論チェーンをSFTデータセットに統合することで、AstroSage-70Bが直ちにユーザクエリに応答するか、最初に人間可読な思考プロセスを生成することができることです。
AstroMLab-1ベンチマーク(トレーニング中に持たない文献からの4,425の質問を含む)で評価されたAstroSage-70Bは、最先端のパフォーマンスを実現している。
o3、Gemini-2.5-Pro、Claude-3.7-Sonnet、Deepseek-R1、Qwen-3-235Bのような主要なシステムを含む他のテスト対象のオープンウェイトおよびプロプライエタリモデルを超える。
この研究は、大規模なモデルに適用されたドメインの特殊化によって、天文学のような専門知識領域における一般論者よりも優れ、この分野におけるAI能力のフロンティアを前進させることができることを示した。
関連論文リスト
- ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study [26.39743358097732]
ORBITは、ノイズの多いWebソースから大量の高品質なドメイン固有データセットをキュレートするための費用効率のよい手法である。
1Bの天文学部分集合上の微調整テキストscLLaMA-3-8Bは、MMLUの天文学ベンチマークの性能を69%から76%に改善した。
このモデル (Orbit-LLaMA) はtextscLLaMA-3-8B-base より優れており, GPT-4o の評価では1000の天文学的な質問に対して 73% のケースで好んでいる。
論文 参考訳(メタデータ) (2024-12-19T01:35:47Z) - AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T11:02:27Z) - Selected Trends in Artificial Intelligence for Space Applications [69.3474006357492]
この章は、差別化可能なインテリジェンスとオンボード機械学習に焦点を当てている。
欧州宇宙機関(ESA)Advanced Concepts Team(ACT)から選ばれたいくつかのプロジェクトについて論じる。
論文 参考訳(メタデータ) (2022-12-10T07:49:50Z) - Semi-Supervised Domain Adaptation for Cross-Survey Galaxy Morphology
Classification and Anomaly Detection [57.85347204640585]
We developed a Universal Domain Adaptation method DeepAstroUDA。
異なるタイプのクラスオーバーラップしたデータセットに適用することができる。
初めて、我々は2つの非常に異なる観測データセットに対するドメイン適応の有効利用を実演した。
論文 参考訳(メタデータ) (2022-11-01T18:07:21Z) - Satellite Image Time Series Analysis for Big Earth Observation Data [50.591267188664666]
本稿では,機械学習を用いた衛星画像時系列解析のためのオープンソースRパッケージである sit について述べる。
本手法は, Cerrado Biome のケーススタディにより, 土地利用と土地被覆マップの精度が高いことを示す。
論文 参考訳(メタデータ) (2022-04-24T15:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。