Fugu-MT 論文翻訳(概要): AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy

論文の概要: AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy

arxiv url: http://arxiv.org/abs/2409.19750v1
Date: Sun, 29 Sep 2024 16:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 17:49:48.539189
Title: AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy
Title（参考訳）: AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialated LLMs for Astronomy
Authors: Rui Pan, Tuan Dung Nguyen, Hardik Arora, Alberto Accomazzi, Tirthankar Ghosal, Yuan-Sen Ting,
Abstract要約: 本研究は天文学における特殊なLSMを定量的に評価することを目的とする。 LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
参考スコア（独自算出の注目度）: 4.729846733874557
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual pretraining of large language models on domain-specific data has been proposed to enhance performance on downstream tasks. In astronomy, the previous absence of astronomy-focused benchmarks has hindered objective evaluation of these specialized LLM models. Leveraging a recent initiative to curate high-quality astronomical MCQs, this study aims to quantitatively assess specialized LLMs in astronomy. We find that the previously released AstroLLaMA series, based on LLaMA-2-7B, underperforms compared to the base model. We demonstrate that this performance degradation can be partially mitigated by utilizing high-quality data for continual pretraining, such as summarized text from arXiv. Despite the observed catastrophic forgetting in smaller models, our results indicate that continual pretraining on the 70B model can yield significant improvements. However, the current supervised fine-tuning dataset still constrains the performance of instruct models. In conjunction with this study, we introduce a new set of models, AstroLLaMA-3-8B and AstroLLaMA-2-70B, building upon the previous AstroLLaMA series.
Abstract（参考訳）: ダウンストリームタスクの性能を高めるため,大規模言語モデルのドメイン固有データへの継続的な事前学習が提案されている。天文学では、以前は天文学に焦点を当てたベンチマークがなかったため、これらの特殊なLLMモデルの客観的評価が妨げられている。本研究は、高品質の天体MCQをキュレートする最近の取り組みを活用し、天文学における特殊なLSMを定量的に評価することを目的としている。 LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。この性能劣化は、arXivの要約テキストなど、継続事前学習のための高品質なデータを活用することで部分的に軽減できることを示す。その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。しかし、現在の教師付き微調整データセットはインストラクションモデルの性能を制限している。本研究と合わせて,AstroLLaMA-3-8BとAstroLLaMA-2-70Bという新モデルを紹介した。

関連論文リスト

Astromer 2 [1.236974227340167]
Astromer 2は光曲線解析のための自己教師付きモデルの拡張版として導入する。 Astromer 2 は、MACHO 調査から150万個の単バンド光曲線上で、自己教師付き学習タスクを用いて事前訓練される。以上の結果から,Astromer 2はすべての評価シナリオでAstromer 1を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-02-04T20:56:14Z)
AstroM$^3$: A self-supervised multimodal model for astronomy [0.0]
本稿では,モデルが複数のモーダルから同時に学習できる自己教師型事前学習手法AstroM$3$を提案する。具体的には、CLIP(Contrastive Language- Image Pretraining)モデルをトリモーダル設定に拡張し、時系列測光データ、スペクトル、天体物理メタデータの統合を可能にする。以上の結果から,CLIP事前学習により時系列光度測定の分類性能が向上し,精度が84.6%から91.5%に向上した。
論文参考訳（メタデータ） (2024-11-13T18:20:29Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。 Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。 LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文参考訳（メタデータ） (2024-07-15T19:28:14Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
AstroPT: Scaling Large Observation Models for Astronomy [0.0]
我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。私たちは、共同コミュニティ開発がオープンソースの大規模観測モデルの実現への最良の道のりだと信じています。
論文参考訳（メタデータ） (2024-05-23T18:00:00Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets [7.53209156977206]
天文学に着目した質問応答におけるLLM性能向上の可能性について検討する。専門的なトピック理解における顕著な改善を天文学コーパスのキュレートセットを用いて達成する。 AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
論文参考訳（メタデータ） (2024-01-03T04:47:02Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文参考訳（メタデータ） (2023-09-12T11:02:27Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。