論文の概要: GeoGalactica: A Scientific Large Language Model in Geoscience
- arxiv url: http://arxiv.org/abs/2401.00434v2
- Date: Sat, 13 Apr 2024 17:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 22:48:02.627856
- Title: GeoGalactica: A Scientific Large Language Model in Geoscience
- Title(参考訳): GeoGalactica:地球科学における科学的大規模言語モデル
- Authors: Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Yuxun Miao, Bo Xue, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
- 参考スコア(独自算出の注目度): 95.15911521220052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens, preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
その印象的な能力のために、LLMは、人工知能(AI for science, AI4S)を使用して特定の分野の科学的発見を促進するための学際的応用の可能性に光を当てている。
一方、地学研究や実践におけるNLP技術の利用は、知識抽出や文書分類から質問応答や知識発見まで、広く複雑化している。
本研究では, LLMを科学に活用するための最初のステップを, 比較的簡単なアプローチで進める。
我々は、LLMを地学に専門化するために、地学の膨大なテキストでモデルを事前訓練し、また、カスタムに収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
これらの取り組みにより、300億のパラメータからなるGeoGalacticaモデルが作られる。
我々の知る限りでは、地球科学領域における最大の言語モデルである。
より具体的には、GeoGalacticaはGalacticaのさらなる事前訓練に由来する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
そして、専門家の地学知識に答えを求める質問からなる100万組の指導訓練データでモデルを微調整する。
本技術報告では,データ収集,データクリーニング,ベースモデル選択,事前学習,SFT,評価など,GeoGalacticaのすべての側面について詳述する。
データキュレーションツールとGeoGalacticaのチェックポイントを、事前トレーニングの最初の3/4でオープンソース化しました。
関連論文リスト
- A systematic review of geospatial location embedding approaches in large
language models: A path to spatial AI systems [0.0]
地理空間的位置埋め込み(GLE)は、大規模言語モデル(LLM)が空間データを同化して解析するのに役立つ。
GLEは、空間的知識をモデルアーキテクチャに組み込む空間的基礎/言語モデル(SLM)の必要性を示唆している。
論文 参考訳(メタデータ) (2024-01-12T12:43:33Z) - GeoLM: Empowering Language Models for Geospatially Grounded Language
Understanding [45.36562604939258]
本稿では,自然言語におけるジオテリティーの理解を深める言語モデルGeoLMを紹介する。
また、GeoLMは、トポノニム認識、トポノニムリンク、関係抽出、ジオエンタリティタイピングをサポートする有望な能力を示すことを示した。
論文 参考訳(メタデータ) (2023-10-23T01:20:01Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Are Large Language Models Geospatially Knowledgeable? [21.401931052512595]
本稿では,Large Language Models (LLM) で符号化された地理空間的知識,認識,推論能力の程度について検討する。
自己回帰言語モデルに焦点をあて, (i) 地理座標系におけるLLMの探索と地理空間知識の評価, (ii) 地理空間的および非地理空間的前置法を用いて地理空間的意識を測定する, (iii) 多次元スケーリング(MDS) 実験を用いて, モデルの地理空間的推論能力を評価する, 実験手法を考案した。
論文 参考訳(メタデータ) (2023-10-09T17:20:11Z) - K2: A Foundation Language Model for Geoscience Knowledge Understanding
and Utilization [105.89544876731942]
大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。
我々は、地球科学におけるLLM研究をさらに促進するために開発された一連の資源とともに、地球科学における最初のLLMであるK2を提示する。
論文 参考訳(メタデータ) (2023-06-08T09:29:05Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。