論文の概要: Geological Inference from Textual Data using Word Embeddings
- arxiv url: http://arxiv.org/abs/2504.07490v1
- Date: Thu, 10 Apr 2025 06:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:09.186994
- Title: Geological Inference from Textual Data using Word Embeddings
- Title(参考訳): 単語埋め込みを用いたテクスチャデータからの地質推定
- Authors: Nanmanas Linphrachaya, Irving Gómez-Méndez, Adil Siripatana,
- Abstract要約: 本研究では,地質資源の探索に自然言語処理(NLP)技術を用いる方法について検討する。
本稿では,GloVeモデルを用いて学習した単語埋め込みを用いて,対象キーワードと地質テキストのコーパス間の意味関係を抽出する。
ベンチマークでは,対象キーワードに最もセマンティックに関連のある10都市と,特定地の位置の近さを算出した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This research explores the use of Natural Language Processing (NLP) techniques to locate geological resources, with a specific focus on industrial minerals. By using word embeddings trained with the GloVe model, we extract semantic relationships between target keywords and a corpus of geological texts. The text is filtered to retain only words with geographical significance, such as city names, which are then ranked by their cosine similarity to the target keyword. Dimensional reduction techniques, including Principal Component Analysis (PCA), Autoencoder, Variational Autoencoder (VAE), and VAE with Long Short-Term Memory (VAE-LSTM), are applied to enhance feature extraction and improve the accuracy of semantic relations. For benchmarking, we calculate the proximity between the ten cities most semantically related to the target keyword and identified mine locations using the haversine equation. The results demonstrate that combining NLP with dimensional reduction techniques provides meaningful insights into the spatial distribution of natural resources. Although the result shows to be in the same region as the supposed location, the accuracy has room for improvement.
- Abstract(参考訳): 本研究は,鉱物資源の探索に自然言語処理(NLP)技術を用いることを,特に鉱業に焦点をあてるものである。
本稿では,GloVeモデルを用いて学習した単語埋め込みを用いて,対象キーワードと地質テキストのコーパス間の意味関係を抽出する。
テキストは、都市名のような地理的に重要な単語のみを保持するためにフィルタリングされ、その単語はターゲットのキーワードと類似度によってランク付けされる。
主成分分析(PCA)、オートエンコーダ、変分オートエンコーダ(VAE)、長短記憶付きVAE(VAE-LSTM)などの次元還元技術を適用し、特徴抽出を強化し、意味関係の精度を向上させる。
ベンチマークでは,対象キーワードに最もセマンティックに関連がある10都市と,ハスリン方程式を用いて鉱山の場所を同定する。
その結果,NLPと次元還元技術を組み合わせることで,天然資源の空間分布に関する有意義な洞察が得られた。
その結果、推定された場所と同じ領域にあることがわかったが、精度は改善の余地がある。
関連論文リスト
- Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - SpaBERT: A Pretrained Language Model from Geographic Data for Geo-Entity
Representation [25.52363878314735]
SpaBERTは、地理空間データ内の隣接するエンティティに基づいた汎用的なジオエンタリティ表現を提供する。
SpaBERTは、マスク付き言語モデリングとマスク付きエンティティ予測タスクで事前訓練されている。
SpaBERTを2つの下流タスク、ジオエンティタイピングとジオエンティリンクに適用する。
論文 参考訳(メタデータ) (2022-10-21T19:42:32Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - An Empirical Study on Leveraging Position Embeddings for Target-oriented
Opinion Words Extraction [13.765146062545048]
ToWE(Target-oriented opinion words extract)は、ターゲット指向の感情分析の新しいサブタスクである。
本稿では,BiLSTMに基づくモデルを用いて,位置情報を単語表現に効果的にエンコードできることを示す。
また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。
論文 参考訳(メタデータ) (2021-09-02T22:49:45Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。