論文の概要: Leveraging Large Language Models for Generating Labeled Mineral Site Record Linkage Data
- arxiv url: http://arxiv.org/abs/2412.03575v1
- Date: Sun, 17 Nov 2024 18:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 09:16:12.955582
- Title: Leveraging Large Language Models for Generating Labeled Mineral Site Record Linkage Data
- Title(参考訳): ラベリングミネラルサイト記録リンクデータ生成のための大規模言語モデルの活用
- Authors: Jiyoon Pyo, Yao-Yi Chiang,
- Abstract要約: Record Linkageは、同一エンティティを参照するレコードを識別することによって、さまざまなデータソースを統合する。
ミネラル・サイト・レコード・リンクは、空間的レコード・リンク・カテゴリに該当する。
従来のPLM法に比べてF1スコアは45%以上向上した。
- 参考スコア(独自算出の注目度): 2.3776390335270694
- License:
- Abstract: Record linkage integrates diverse data sources by identifying records that refer to the same entity. In the context of mineral site records, accurate record linkage is crucial for identifying and mapping mineral deposits. Properly linking records that refer to the same mineral deposit helps define the spatial coverage of mineral areas, benefiting resource identification and site data archiving. Mineral site record linkage falls under the spatial record linkage category since the records contain information about the physical locations and non-spatial attributes in a tabular format. The task is particularly challenging due to the heterogeneity and vast scale of the data. While prior research employs pre-trained discriminative language models (PLMs) on spatial entity linkage, they often require substantial amounts of curated ground-truth data for fine-tuning. Gathering and creating ground truth data is both time-consuming and costly. Therefore, such approaches are not always feasible in real-world scenarios where gold-standard data are unavailable. Although large generative language models (LLMs) have shown promising results in various natural language processing tasks, including record linkage, their high inference time and resource demand present challenges. We propose a method that leverages an LLM to generate training data and fine-tune a PLM to address the training data gap while preserving the efficiency of PLMs. Our approach achieves over 45\% improvement in F1 score for record linkage compared to traditional PLM-based methods using ground truth data while reducing the inference time by nearly 18 times compared to relying on LLMs. Additionally, we offer an automated pipeline that eliminates the need for human intervention, highlighting this approach's potential to overcome record linkage challenges.
- Abstract(参考訳): Record Linkageは、同じエンティティを参照するレコードを識別することで、さまざまなデータソースを統合する。
鉱床記録の文脈では、鉱床の同定とマッピングには正確な記録リンクが不可欠である。
同じ鉱床を示す記録を適切にリンクすることは、鉱物の空間的カバレッジを定義し、資源の識別と遺跡データのアーカイブに役立てる。
ミネラルサイトレコードリンクは、物理位置や非空間属性に関する情報を表形式で含むため、空間レコードリンクカテゴリに該当する。
このタスクはデータの異質性や大規模性のために特に難しい。
先行研究では、空間的実体リンクに事前訓練された識別言語モデル(PLM)が採用されていたが、微調整にはかなりの量の地下構造データを必要とすることが多い。
真実データの収集と作成には時間と費用がかかります。
したがって、ゴールドスタンダードデータが利用できない現実のシナリオでは、そのようなアプローチは必ずしも実現不可能であるとは限らない。
大規模生成言語モデル(LLM)は、レコードリンク、高い推論時間、リソース要求といった様々な自然言語処理タスクにおいて有望な結果を示している。
本研究では,LPMを利用してトレーニングデータを生成し,PLMの効率を保ちながらトレーニングデータギャップに対処する手法を提案する。
提案手法は, 従来のPLM法に比べてF1スコアが45倍以上向上し, 推定時間をLLMの約18倍に短縮する。
さらに、人間の介入を不要にする自動化パイプラインも提供しています。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent [6.764665650605542]
10のHRドメインにまたがる550の会話の完全なラベル付きデータセットであるHR-Multiwozを紹介した。
NLP研究のためのHRドメインにおける最初のラベル付きオープンソースの会話データセットである。
データ解析と人的評価とともに、データ生成手順の詳細なレシピを提供する。
論文 参考訳(メタデータ) (2024-02-01T21:10:44Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data [5.573704309892796]
農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2023-08-06T13:18:38Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。