論文の概要: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity
Extraction Focused on Machine Learning Models and Datasets
- arxiv url: http://arxiv.org/abs/2311.09860v1
- Date: Thu, 16 Nov 2023 12:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:03:58.483101
- Title: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity
Extraction Focused on Machine Learning Models and Datasets
- Title(参考訳): GSAP-NER: 機械学習モデルとデータセットに着目した学習エンティティ抽出のための新しいタスク、コーパス、ベースライン
- Authors: Wolfgang Otto, Matth\"aus Zloch, Lu Gan, Saurav Karmakar, and Stefan
Dietze
- Abstract要約: 学術的な文章では、機械学習モデルとデータセットへの参照が基本的なコンポーネントである。
既存の真理データセットは、MLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱わない。
MLモデルとデータセットを中心とした10のエンティティタイプを対象とした,100のコーパスを手動でアノテートしたフルテキストの科学出版物と,最初のベースラインモデルをリリースする。
- 参考スコア(独自算出の注目度): 3.9169112083667073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named Entity Recognition (NER) models play a crucial role in various NLP
tasks, including information extraction (IE) and text understanding. In
academic writing, references to machine learning models and datasets are
fundamental components of various computer science publications and necessitate
accurate models for identification. Despite the advancements in NER, existing
ground truth datasets do not treat fine-grained types like ML model and model
architecture as separate entity types, and consequently, baseline models cannot
recognize them as such. In this paper, we release a corpus of 100 manually
annotated full-text scientific publications and a first baseline model for 10
entity types centered around ML models and datasets. In order to provide a
nuanced understanding of how ML models and datasets are mentioned and utilized,
our dataset also contains annotations for informal mentions like "our
BERT-based model" or "an image CNN". You can find the ground truth dataset and
code to replicate model training at https://data.gesis.org/gsap/gsap-ner.
- Abstract(参考訳): 名前付きエンティティ認識(NER)モデルは、情報抽出(IE)やテキスト理解など、様々なNLPタスクにおいて重要な役割を果たす。
学術的な執筆において、機械学習モデルとデータセットへの参照は、様々なコンピュータサイエンス出版物の基本的な構成要素であり、識別のために正確なモデルを必要とする。
NERの進歩にもかかわらず、既存の基底真理データセットはMLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱いません。
本稿では,100の注釈付き全文科学出版物のコーパスと,mlモデルとデータセットを中心とした10のエンティティタイプのための最初のベースラインモデルについて述べる。
MLモデルとデータセットの言及と利用方法に関する微妙な理解を提供するため、私たちのデータセットには、"our BERT-based model"や"a image CNN"といった非公式な言及のためのアノテーションも含まれています。
基礎となる真理データセットとコードはhttps://data.gesis.org/gsap/gsap-ner.orgで再現できる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Machine Unlearning using a Multi-GAN based Model [0.0]
本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。
提案手法は,GANモデルを用いたデータ再構成と,学習済みモデルを微調整する2つのフェーズから構成される。
論文 参考訳(メタデータ) (2024-07-26T02:28:32Z) - Self-Regulated Data-Free Knowledge Amalgamation for Text Classification [9.169836450935724]
そこで我々は,複数の教師モデルから学習できる軽量な学生ネットワークを構築した。
そこで本研究では,各教師に適したテキストデータを生成するモデリングフレームワークSTRATANETを提案する。
本手法は,ラベルやドメインの異なる3つのベンチマークテキスト分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-16T21:13:30Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - ProtoNER: Few shot Incremental Learning for Named Entity Recognition
using Prototypical Networks [7.317342506617286]
プロトタイプネットワークに基づくエンドツーエンドKVP抽出モデルを示す。
モデルの初期トレーニングに使用されるデータセットに依存しない。
ノイズを付加し、結果としてモデルの性能劣化を引き起こすような中間合成データ生成は行われない。
論文 参考訳(メタデータ) (2023-10-03T18:52:19Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。