論文の概要: Information Extraction from Historical Well Records Using A Large Language Model
- arxiv url: http://arxiv.org/abs/2405.05438v1
- Date: Wed, 08 May 2024 21:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:58:50.267890
- Title: Information Extraction from Historical Well Records Using A Large Language Model
- Title(参考訳): 大規模言語モデルを用いた歴史井戸記録からの情報抽出
- Authors: Zhiwei Ma, Javier E. Santo, Greg Lackey, Hari Viswanathan, Daniel O'Malley,
- Abstract要約: 石油とガスの井戸を最初に見つけてプラグで繋ぐことが不可欠である。
歴史資料はいくつかあるが、しばしば非構造化され、掃除されず、時代遅れである。
本稿では,これらの井戸の高速かつ低コストな位置推定のための新しい計算手法を提案する。
- 参考スコア(独自算出の注目度): 0.1906498126334485
- License:
- Abstract: To reduce environmental risks and impacts from orphaned wells (abandoned oil and gas wells), it is essential to first locate and then plug these wells. Although some historical documents are available, they are often unstructured, not cleaned, and outdated. Additionally, they vary widely by state and type. Manual reading and digitizing this information from historical documents are not feasible, given the high number of wells. Here, we propose a new computational approach for rapidly and cost-effectively locating these wells. Specifically, we leverage the advanced capabilities of large language models (LLMs) to extract vital information including well location and depth from historical records of orphaned wells. In this paper, we present an information extraction workflow based on open-source Llama 2 models and test them on a dataset of 160 well documents. Our results show that the developed workflow achieves excellent accuracy in extracting location and depth from clean, PDF-based reports, with a 100% accuracy rate. However, it struggles with unstructured image-based well records, where accuracy drops to 70%. The workflow provides significant benefits over manual human digitization, including reduced labor and increased automation. In general, more detailed prompting leads to improved information extraction, and those LLMs with more parameters typically perform better. We provided a detailed discussion of the current challenges and the corresponding opportunities/approaches to address them. Additionally, a vast amount of geoscientific information is locked up in old documents, and this work demonstrates that recent breakthroughs in LLMs enable us to unlock this information more broadly.
- Abstract(参考訳): 環境リスクを低減し、孤児の井戸(油とガスの井戸の放棄)の影響を緩和するためには、まずこれらの井戸を発見、接続することが不可欠である。
歴史資料はいくつかあるが、しばしば非構造化され、掃除されず、時代遅れである。
また、国や種類によって様々である。
この情報を史料から手作業で読み、デジタル化することは、多くの井戸から実現不可能である。
本稿では,これらの井戸の高速かつ低コストな位置推定のための新しい計算手法を提案する。
具体的には、大型言語モデル(LLM)の高度な機能を活用し、孤児の井戸の歴史的記録から、井戸の位置や深さを含む重要な情報を抽出する。
本稿では,オープンソースのLlama 2モデルに基づく情報抽出ワークフローについて述べる。
本研究の結果から, PDF を用いたクリーンなレポートから位置と深度を100%精度で抽出し, 精度の高いワークフローを構築できることが示唆された。
しかし、構造化されていない画像ベースの井戸記録では、精度が70%に低下する。
このワークフローは、労働の削減や自動化の強化など、人手によるデジタル化よりも大きなメリットを提供する。
一般に、より詳細なプロンプトは、情報抽出の改善につながる。
私たちは、現在の課題とそれに対応する機会/アプローチについて、詳細な議論を行いました。
さらに、古い文書には膨大な量の地質情報が記録されており、この研究は、最近のLSMのブレークスルーによって、より広い範囲でこの情報を解き放つことができることを示している。
関連論文リスト
- SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - Improving Information Extraction on Business Documents with Specific
Pre-Training Tasks [1.9331361036118608]
トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。
スキャンした文書のよりコンテクスト化された表現をモデルに学習させる2つの新しい事前学習タスクを導入する。
また,情報抽出におけるBIESOタグを復号化するためのポストプロセッシングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-11T13:05:23Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - ArgFuse: A Weakly-Supervised Framework for Document-Level Event Argument
Aggregation [9.56216681584111]
情報集約(Information Aggregation)やArgument Aggregation(Argument Aggregation)というタスクを導入する。
我々の目的は、文レベルで抽出された無関係で冗長な引数の言及をフィルタリングし、文書レベルの情報フレームを描画することである。
低リソース環境下で効率的に動作するために,能動的学習戦略を採用する複数のシーブを持つ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:21:27Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。