論文の概要: Distilling Named Entity Recognition Models for Endangered Species from Large Language Models
- arxiv url: http://arxiv.org/abs/2403.15430v1
- Date: Wed, 13 Mar 2024 15:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 03:04:05.173224
- Title: Distilling Named Entity Recognition Models for Endangered Species from Large Language Models
- Title(参考訳): 大規模言語モデルを用いた絶滅危惧種の名前付きエンティティ認識モデル
- Authors: Jesse Atuhurra, Seiveright Cargill Dujohn, Hidetaka Kamigaito, Hiroyuki Shindo, Taro Watanabe,
- Abstract要約: 名前付きエンティティ認識と2段階プロセスによる関係抽出のためのデータセットを作成する。
構築されたデータセットは、一般的なBERTとドメイン固有のBERTのバリエーションの両方を微調整するために使用される。
実験の結果,本手法は絶滅危惧種をテキストから検出するのに適したNERモデルを作成するのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 27.266030092418642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing (NLP) practitioners are leveraging large language models (LLM) to create structured datasets from semi-structured and unstructured data sources such as patents, papers, and theses, without having domain-specific knowledge. At the same time, ecological experts are searching for a variety of means to preserve biodiversity. To contribute to these efforts, we focused on endangered species and through in-context learning, we distilled knowledge from GPT-4. In effect, we created datasets for both named entity recognition (NER) and relation extraction (RE) via a two-stage process: 1) we generated synthetic data from GPT-4 of four classes of endangered species, 2) humans verified the factual accuracy of the synthetic data, resulting in gold data. Eventually, our novel dataset contains a total of 3.6K sentences, evenly divided between 1.8K NER and 1.8K RE sentences. The constructed dataset was then used to fine-tune both general BERT and domain-specific BERT variants, completing the knowledge distillation process from GPT-4 to BERT, because GPT-4 is resource intensive. Experiments show that our knowledge transfer approach is effective at creating a NER model suitable for detecting endangered species from texts.
- Abstract(参考訳): 自然言語処理(NLP)の実践者は、大きな言語モデル(LLM)を活用して、ドメイン固有の知識を必要とせずに、特許、論文、その他のような半構造化および非構造化データソースから構造化データセットを作成している。
同時に、生態学の専門家は生物多様性を維持する様々な方法を模索している。
これらの取り組みに貢献するため,絶滅危惧種に焦点をあて,文脈内学習を通じて,GPT-4から知識を抽出した。
事実上、我々は2段階のプロセスを通して、名前付きエンティティ認識(NER)と関係抽出(RE)の両方のためのデータセットを作成しました。
1) 絶滅危惧種4種のGPT-4から合成データを生成した。
2) 人間が合成データの事実的正確性を検証し, 結果として金のデータが得られた。
最終的に、我々の新しいデータセットは合計3.6K文を含み、1.8K NERと1.8K RE文に均等に分けられる。
構築されたデータセットは、一般のBERTとドメイン固有のBERT変異体の両方を微調整するために使用され、GPT-4が資源集約的なため、GPT-4からBERTへの知識蒸留プロセスが完了した。
実験の結果,本手法は絶滅危惧種をテキストから検出するのに適したNERモデルを作成するのに有効であることがわかった。
関連論文リスト
- Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Relation Extraction in underexplored biomedical domains: A
diversity-optimised sampling and synthetic data generation approach [0.0]
ラベル付きデータの空間性は関係抽出モデルの開発に障害となる。
我々は、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築する。
我々は,オープンな大規模言語モデルを用いた生成タスクと数ショット学習として,標準微調整の性能を評価する。
論文 参考訳(メタデータ) (2023-11-10T19:36:00Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents [2.246222223318928]
本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-05-17T17:18:26Z) - Memorization of Named Entities in Fine-tuned BERT Models [3.0177210416625115]
細調整BERTモデルにおける名前付きエンティティ記憶の程度について検討する。
細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセットに特有の名前付きエンティティを生成できないことを示す。
論文 参考訳(メタデータ) (2022-12-07T16:20:50Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Paradigm selection for Data Fusion of SAR and Multispectral Sentinel
data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。
目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。
この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文 参考訳(メタデータ) (2021-06-18T11:36:54Z) - Fine-tuning BERT-based models for Plant Health Bulletin Classification [0.0]
フランス植物健康ブルエタン(英語版)(BSV)は、農業生産における植物衛生リスクの発生段階に関する情報を提供する。
それらは自然言語で書かれており、機械や人間ができるだけ効率的に利用することはできない。
近年の転換者からの双方向表現(BERT)は、植物健康管理領域における知識表現と自然言語理解の再考を促している。
論文 参考訳(メタデータ) (2021-01-29T08:14:35Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。