論文の概要: AstroLLaMA: Towards Specialized Foundation Models in Astronomy
- arxiv url: http://arxiv.org/abs/2309.06126v1
- Date: Tue, 12 Sep 2023 11:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:31:46.631561
- Title: AstroLLaMA: Towards Specialized Foundation Models in Astronomy
- Title(参考訳): AstroLLaMA:天文学における特別な基礎モデルを目指して
- Authors: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciuc\u{a}, Charlie O'Neill,
Ze-Chang Sun, Maja Jab{\l}o\'nska, Sandor Kruk, Ernest Perkowski, Jack
Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz R\'o\.za\'nski, Pranav
Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodr\'iguez M\'endez,
Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney,
Kevin Schawinski, UniverseTBD
- Abstract要約: 我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
- 参考スコア(独自算出の注目度): 1.1694367694169385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel in many human-language tasks but often falter in
highly specialized domains like scholarly astronomy. To bridge this gap, we
introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using
over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal
language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2,
showing marked domain adaptation. Our model generates more insightful and
scientifically relevant text completions and embedding extraction than
state-of-the-arts foundation models despite having significantly fewer
parameters. AstroLLaMA serves as a robust, domain-specific model with broad
fine-tuning potential. Its public release aims to spur astronomy-focused
research, including automatic paper summarization and conversational agent
development.
- Abstract(参考訳): 大規模な言語モデルは、多くの人間の言語課題において優れているが、学術天文学のような高度に専門的な領域でしばしば崩れる。
このギャップを埋めるために、arXivから30万以上の天文学的抽象化を用いてLLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを導入する。
従来の因果言語モデリングに最適化されたAstroLLaMAは、Llama-2よりも30%低いパープレキシティを実現し、ドメイン適応が顕著である。
我々のモデルは、パラメータが著しく少ないにもかかわらず、より洞察力が高く科学的に関係のあるテキスト補完と組込み抽出を生成する。
AstroLLaMAは、幅広い微調整ポテンシャルを持つ堅牢なドメイン固有モデルとして機能する。
その公開リリースは、自動要約や会話エージェントの開発を含む天文学的な研究を促進することを目的としている。
関連論文リスト
- AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Astro-NER -- Astronomy Named Entity Recognition: Is GPT a Good Domain Expert Annotator? [0.0]
我々は、微調整LDMモデルからの予測を用いて、天文学文学における科学的実体の注釈付けにおいて、非ドメインの専門家を支援するアプローチを実験した。
本結果から, ドメインエキスパートとLLM支援非専門家との間には適度な合意が得られ, ドメインエキスパートとLLMモデルの予測との間には公平な合意が得られた。
5000の注釈付き天文学記事のタイトルを含むデータセットが公開されている。
論文 参考訳(メタデータ) (2024-05-04T08:04:39Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z) - AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse
Datasets [7.53209156977206]
天文学に着目した質問応答におけるLLM性能向上の可能性について検討する。
専門的なトピック理解における顕著な改善を天文学コーパスのキュレートセットを用いて達成する。
AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
論文 参考訳(メタデータ) (2024-01-03T04:47:02Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。