論文の概要: AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy
- arxiv url: http://arxiv.org/abs/2409.19750v1
- Date: Sun, 29 Sep 2024 16:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:03:05.399079
- Title: AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy
- Title(参考訳): AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialated LLMs for Astronomy
- Authors: Rui Pan, Tuan Dung Nguyen, Hardik Arora, Alberto Accomazzi, Tirthankar Ghosal, Yuan-Sen Ting,
- Abstract要約: 本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.729846733874557
- License:
- Abstract: Continual pretraining of large language models on domain-specific data has been proposed to enhance performance on downstream tasks. In astronomy, the previous absence of astronomy-focused benchmarks has hindered objective evaluation of these specialized LLM models. Leveraging a recent initiative to curate high-quality astronomical MCQs, this study aims to quantitatively assess specialized LLMs in astronomy. We find that the previously released AstroLLaMA series, based on LLaMA-2-7B, underperforms compared to the base model. We demonstrate that this performance degradation can be partially mitigated by utilizing high-quality data for continual pretraining, such as summarized text from arXiv. Despite the observed catastrophic forgetting in smaller models, our results indicate that continual pretraining on the 70B model can yield significant improvements. However, the current supervised fine-tuning dataset still constrains the performance of instruct models. In conjunction with this study, we introduce a new set of models, AstroLLaMA-3-8B and AstroLLaMA-2-70B, building upon the previous AstroLLaMA series.
- Abstract(参考訳): ダウンストリームタスクの性能を高めるため,大規模言語モデルのドメイン固有データへの継続的な事前学習が提案されている。
天文学では、以前は天文学に焦点を当てたベンチマークがなかったため、これらの特殊なLLMモデルの客観的評価が妨げられている。
本研究は、高品質の天体MCQをキュレートする最近の取り組みを活用し、天文学における特殊なLSMを定量的に評価することを目的としている。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
この性能劣化は、arXivの要約テキストなど、継続事前学習のための高品質なデータを活用することで部分的に軽減できることを示す。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
しかし、現在の教師付き微調整データセットはインストラクションモデルの性能を制限している。
本研究と合わせて,AstroLLaMA-3-8BとAstroLLaMA-2-70Bという新モデルを紹介した。
関連論文リスト
- AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - AstroPT: Scaling Large Observation Models for Astronomy [0.0]
我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。
私たちは、共同コミュニティ開発がオープンソースの大規模観測モデルの実現への最良の道のりだと信じています。
論文 参考訳(メタデータ) (2024-05-23T18:00:00Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse
Datasets [7.53209156977206]
天文学に着目した質問応答におけるLLM性能向上の可能性について検討する。
専門的なトピック理解における顕著な改善を天文学コーパスのキュレートセットを用いて達成する。
AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
論文 参考訳(メタデータ) (2024-01-03T04:47:02Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T11:02:27Z) - Point spread function modelling for astronomical telescopes: a review
focused on weak gravitational lensing studies [2.967246997200238]
ポイントスプレッド関数(PSF)の正確なモデリングは、天文学的な観測において最も重要である。
本稿では,より物理的に高強度なPSFモデリングに必要な光学的背景を紹介する。
我々は,光学・検出器レベルのコントリビュータや大気など,PSFの様々な物理的コントリビュータについて概説する。
論文 参考訳(メタデータ) (2023-06-12T19:01:50Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。