論文の概要: Classification of Geological Borehole Descriptions Using a Domain Adapted Large Language Model
- arxiv url: http://arxiv.org/abs/2407.10991v1
- Date: Mon, 24 Jun 2024 07:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:39:32.155764
- Title: Classification of Geological Borehole Descriptions Using a Domain Adapted Large Language Model
- Title(参考訳): ドメイン適応大言語モデルを用いた地質ボアホール記述の分類
- Authors: Hossein Ghorbanfekr, Pieter Jan Kerstens, Katrijn Dirix,
- Abstract要約: GEOBERTje(GEOBERTje)は、オランダ語でフランドル(ベルギー語)の地質学的ボアホールの記述に基づいて訓練された大言語モデルである。
分類器はOpenAIのルールベースアプローチとGPT-4の両方より優れていることを示す。
本研究では,ドメイン適応型大規模言語モデルを用いて,複雑で非構造的な地質学的記述から情報抽出の効率と精度を高める方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geological borehole descriptions contain detailed textual information about the composition of the subsurface. However, their unstructured format presents significant challenges for extracting relevant features into a structured format. This paper introduces GEOBERTje: a domain adapted large language model trained on geological borehole descriptions from Flanders (Belgium) in the Dutch language. This model effectively extracts relevant information from the borehole descriptions and represents it into a numeric vector space. Showcasing just one potential application of GEOBERTje, we finetune a classifier model on a limited number of manually labeled observations. This classifier categorizes borehole descriptions into a main, second and third lithology class. We show that our classifier outperforms both a rule-based approach and GPT-4 of OpenAI. This study exemplifies how domain adapted large language models enhance the efficiency and accuracy of extracting information from complex, unstructured geological descriptions. This offers new opportunities for geological analysis and modeling using vast amounts of data.
- Abstract(参考訳): 地質学的ボアホールの記述には、地下の組成に関する詳細なテキスト情報が含まれている。
しかし、その非構造化形式は、関連する特徴を構造化形式に抽出する上で大きな課題となる。
本稿では,オランダ語でFlanders (Belgium) の地層ボアホール記述を学習した大規模言語モデルであるGEOBERTjeを紹介する。
このモデルはボアホール記述から関連情報を効果的に抽出し、数値ベクトル空間に表現する。
GEOBERTjeの潜在的な応用の1つを示すため、手動でラベル付けされた観測の限られた数に基づいて分類器モデルを微調整する。
この分類器はボアホールの記述を主、第二、第三のリソロジークラスに分類する。
分類器はOpenAIのルールベースアプローチとGPT-4の両方より優れていることを示す。
本研究では,ドメイン適応型大規模言語モデルを用いて,複雑で非構造的な地質学的記述から情報抽出の効率と精度を高める方法を示す。
これは、大量のデータを使った地質学的分析とモデリングの新しい機会を提供する。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。
後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文 参考訳(メタデータ) (2024-06-09T14:25:09Z) - Node-Level Topological Representation Learning on Point Clouds [5.079602839359521]
複素点雲からノードレベルの位相的特徴を抽出する新しい手法を提案する。
我々は,これらのトポロジ的特徴が合成データと実世界のデータの両方に与える影響を検証する。
論文 参考訳(メタデータ) (2024-06-04T13:29:12Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties [53.177550970052174]
ProLabは、プロパティレベルのラベル空間を使用して、強力な解釈可能なセグメンテーションモデルを作成する新しいアプローチである。
セグメンテーションモデルを監督するために、常識知識に根ざした記述的特性を使用する。
論文 参考訳(メタデータ) (2023-12-21T11:43:41Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Topologically Regularized Data Embeddings [22.222311627054875]
本稿では,新たにトポロジ的損失の集合を導入し,その利用法を,データ埋め込みを自然に特定したモデルを表現するために,トポロジカルに正規化する方法として提案する。
このアプローチの有用性と汎用性を強調した合成データおよび実データの実験を含む。
論文 参考訳(メタデータ) (2021-10-18T11:25:47Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - Topological Data Analysis in Text Classification: Extracting Features
with Additive Information [2.1410799064827226]
位相データ解析は高次元数値データに適用することが困難である。
トポロジカルな特徴は、従来のテキストマイニングでは捉えられていない独占的な情報を持っている。
アンサンブルモデルにおける従来の特徴に位相的特徴を加えることで、分類結果が改善される。
論文 参考訳(メタデータ) (2020-03-29T21:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。