論文の概要: AstroPT: Scaling Large Observation Models for Astronomy
- arxiv url: http://arxiv.org/abs/2405.14930v1
- Date: Thu, 23 May 2024 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:37:06.262781
- Title: AstroPT: Scaling Large Observation Models for Astronomy
- Title(参考訳): AstroPT: 天文学のための大規模観測モデルのスケーリング
- Authors: Michael J. Smith, Ryan J. Roberts, Eirini Angeloudi, Marc Huertas-Company,
- Abstract要約: 我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。
私たちは、共同コミュニティ開発がオープンソースの大規模観測モデルの実現への最良の道のりだと信じています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work presents AstroPT, an autoregressive pretrained transformer developed with astronomical use-cases in mind. The AstroPT models presented here have been pretrained on 8.6 million $512 \times 512$ pixel $grz$-band galaxy postage stamp observations from the DESI Legacy Survey DR8. We train a selection of foundation models of increasing size from 1 million to 2.1 billion parameters, and find that AstroPT follows a similar saturating log-log scaling law to textual models. We also find that the models' performances on downstream tasks as measured by linear probing improves with model size up to the model parameter saturation point. We believe that collaborative community development paves the best route towards realising an open source `Large Observation Model' -- a model trained on data taken from the observational sciences at the scale seen in natural language processing. To this end, we release the source code, weights, and dataset for AstroPT under the MIT license, and invite potential collaborators to join us in collectively building and researching these models.
- Abstract(参考訳): この研究は、天文学的なユースケースを念頭に開発された自己回帰事前学習型トランスフォーマーであるAstroPTを提示する。
ここで提示された AstroPT モデルは、DESI Legacy Survey DR8 による 512 時間 512 ピクセル$grz$-band Galaxy Postage stamp で事前訓練されている。
我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。
また、線形探索によって測定された下流タスクにおけるモデルの性能は、モデルパラメータ飽和点までのモデルサイズで向上することがわかった。
私たちは、共同コミュニティ開発が、自然言語処理で見られる規模で観測科学から得られたデータに基づいて訓練された、オープンソースの‘大規模観測モデル’を実現するための最良の道のりを歩むと信じています。
この目的のために、私たちはMITライセンス下でAstroPTのソースコード、重み、データセットをリリースし、これらのモデルの構築と研究に協力する潜在的な協力者を招待します。
関連論文リスト
- OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery [0.3926357402982764]
数十億のパラメータにモデルをスケールすることは、創発的能力を含む前例のない利益をもたらすことが示されている。
我々は、Frontierスーパーコンピュータ、アメリカ初のエクサスケールシステム、および10億スケールのFMを事前トレーニングするために高解像度の光学RSデータを含む高性能コンピューティングリソースをペアリングする。
論文 参考訳(メタデータ) (2024-10-25T20:55:12Z) - AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - The Scaling Law in Stellar Light Curves [3.090476527764192]
本稿では,天文時系列データから学習する際の法則のスケーリングについて,自己監督的手法を用いて検討する。
自己教師付きトランスフォーマーモデルは,最先端の教師付き学習モデルと比較して,サンプル効率を3~10倍に向上させる。
本研究は,大規模自己回帰生成モデルを用いて恒星の光度曲線を解析するための基礎研究である。
論文 参考訳(メタデータ) (2024-05-27T13:31:03Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A Comparative Study on Generative Models for High Resolution Solar
Observation Imaging [59.372588316558826]
本研究は、観測された太陽活動状態の背後にあるデータ分布を正確に捉えるために、現在の最先端生成モデルの能力について検討する。
スーパーコンピュータ上での分散トレーニングを用いて、人間の専門家が区別できない高品質なサンプルを生成する、最大1024x1024解像度の生成モデルを訓練することができる。
論文 参考訳(メタデータ) (2023-04-14T14:40:32Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。