Fugu-MT 論文翻訳(概要): Learning A Foundation Language Model for Geoscience Knowledge Understanding and Utilization

論文の概要: Learning A Foundation Language Model for Geoscience Knowledge Understanding and Utilization

arxiv url: http://arxiv.org/abs/2306.05064v1
Date: Thu, 8 Jun 2023 09:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 15:16:40.485854
Title: Learning A Foundation Language Model for Geoscience Knowledge Understanding and Utilization
Title（参考訳）: 地学知識の理解と活用のための基礎言語モデルを学ぶ
Authors: Cheng Deng, Tianhang Zhang, Zhongmou He, Qiyuan Chen, Yuanyuan Shi, Le Zhou, Luoyi Fu, Weinan Zhang, Xinbing Wang, Chenghu Zhou, Zhouhan Lin, Junxian He
Abstract要約: 大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。我々は、地球科学におけるLLM研究をさらに促進するために開発された一連の資源とともに、地球科学における最初のLLMであるK2を提示する。
参考スコア（独自算出の注目度）: 88.50117060946793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs)have achieved great success in general domains of natural language processing. In this paper, we bring LLMs to the realm of geoscience, with the objective of advancing research and applications in this field. To this end, we present the first-ever LLM in geoscience, K2, alongside a suite of resources developed to further promote LLM research within geoscience. For instance, we have curated the first geoscience instruction tuning dataset, GeoSignal, which aims to align LLM responses to geoscience-related user queries. Additionally, we have established the first geoscience benchmark, GeoBenchmark, to evaluate LLMs in the context of geoscience. In this work, we experiment with a complete recipe to adapt a pretrained general-domain LLM to the geoscience domain. Specifically, we further train the LLaMA-7B model on over 1 million pieces of geoscience literature and utilize GeoSignal's supervised data to fine-tune the model. Moreover, we share a protocol that can efficiently gather domain-specific data and construct domain-supervised data, even in situations where manpower is scarce. Experiments conducted on the GeoBenchmark demonstrate the the effectiveness of our approach and datasets.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めた。本稿では,LLMを地球科学の領域に持ち込み,その分野における研究と応用の推進を目的としている。この目的のために、地球科学における最初のLLMであるK2を、地球科学におけるLLM研究をさらに促進するために開発された一連の資源と共に提示する。例えば,LLM応答をジオサイエンス関連ユーザクエリに合わせることを目的とした,最初のジオサイエンスインストラクションチューニングデータセットであるGeoSignalをキュレートした。さらに,地球科学の文脈でLSMを評価するため,最初の地球科学ベンチマークであるGeoBenchmarkを構築した。本研究では,プレトレーニング済みの一般領域 LLM を地球科学領域に適用するための完全なレシピを実験する。具体的には、LLaMA-7Bモデルをさらに100万以上の地学文献で訓練し、GeoSignalの教師付きデータを用いてモデルを微調整する。さらに,マンパワーが不足している状況でも,ドメイン固有データを効率的に収集し,ドメイン教師付きデータを構築するプロトコルを共有する。 geobenchmarkで行った実験は、我々のアプローチとデータセットの有効性を示しています。

関連論文リスト

OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Geo-Semantic-Parsing: AI-powered geoparsing by traversing semantic knowledge graphs [0.7422344184734279]
ジオ・セマンティック・パーシング(Geo-Semantic-Parsing, GSP)と呼ばれる新しいジオパーシングとジオタグ技術を導入する。 GSPは自由テキストで位置参照を特定し、対応する座標を抽出する。我々は、約10kのイベント関連ツイートを含むよく知られた参照データセット上で、GSPを評価する。
論文参考訳（メタデータ） (2025-03-03T10:30:23Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。次に、100万対の命令チューニングでモデルを微調整する。
論文参考訳（メタデータ） (2023-12-31T09:22:54Z)
GeoLM: Empowering Language Models for Geospatially Grounded Language Understanding [45.36562604939258]
本稿では,自然言語におけるジオテリティーの理解を深める言語モデルGeoLMを紹介する。また、GeoLMは、トポノニム認識、トポノニムリンク、関係抽出、ジオエンタリティタイピングをサポートする有望な能力を示すことを示した。
論文参考訳（メタデータ） (2023-10-23T01:20:01Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
Are Large Language Models Geospatially Knowledgeable? [21.401931052512595]
本稿では,Large Language Models (LLM) で符号化された地理空間的知識,認識,推論能力の程度について検討する。自己回帰言語モデルに焦点をあて, (i) 地理座標系におけるLLMの探索と地理空間知識の評価, (ii) 地理空間的および非地理空間的前置法を用いて地理空間的意識を測定する, (iii) 多次元スケーリング(MDS) 実験を用いて, モデルの地理空間的推論能力を評価する, 実験手法を考案した。
論文参考訳（メタデータ） (2023-10-09T17:20:11Z)
Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文参考訳（メタデータ） (2023-09-04T13:44:50Z)
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (2023-05-11T03:21:56Z)
Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文参考訳（メタデータ） (2022-03-16T11:55:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。