論文の概要: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity
Extraction Focused on Machine Learning Models and Datasets
- arxiv url: http://arxiv.org/abs/2311.09860v1
- Date: Thu, 16 Nov 2023 12:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:03:58.483101
- Title: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity
Extraction Focused on Machine Learning Models and Datasets
- Title(参考訳): GSAP-NER: 機械学習モデルとデータセットに着目した学習エンティティ抽出のための新しいタスク、コーパス、ベースライン
- Authors: Wolfgang Otto, Matth\"aus Zloch, Lu Gan, Saurav Karmakar, and Stefan
Dietze
- Abstract要約: 学術的な文章では、機械学習モデルとデータセットへの参照が基本的なコンポーネントである。
既存の真理データセットは、MLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱わない。
MLモデルとデータセットを中心とした10のエンティティタイプを対象とした,100のコーパスを手動でアノテートしたフルテキストの科学出版物と,最初のベースラインモデルをリリースする。
- 参考スコア(独自算出の注目度): 3.9169112083667073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named Entity Recognition (NER) models play a crucial role in various NLP
tasks, including information extraction (IE) and text understanding. In
academic writing, references to machine learning models and datasets are
fundamental components of various computer science publications and necessitate
accurate models for identification. Despite the advancements in NER, existing
ground truth datasets do not treat fine-grained types like ML model and model
architecture as separate entity types, and consequently, baseline models cannot
recognize them as such. In this paper, we release a corpus of 100 manually
annotated full-text scientific publications and a first baseline model for 10
entity types centered around ML models and datasets. In order to provide a
nuanced understanding of how ML models and datasets are mentioned and utilized,
our dataset also contains annotations for informal mentions like "our
BERT-based model" or "an image CNN". You can find the ground truth dataset and
code to replicate model training at https://data.gesis.org/gsap/gsap-ner.
- Abstract(参考訳): 名前付きエンティティ認識(NER)モデルは、情報抽出(IE)やテキスト理解など、様々なNLPタスクにおいて重要な役割を果たす。
学術的な執筆において、機械学習モデルとデータセットへの参照は、様々なコンピュータサイエンス出版物の基本的な構成要素であり、識別のために正確なモデルを必要とする。
NERの進歩にもかかわらず、既存の基底真理データセットはMLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱いません。
本稿では,100の注釈付き全文科学出版物のコーパスと,mlモデルとデータセットを中心とした10のエンティティタイプのための最初のベースラインモデルについて述べる。
MLモデルとデータセットの言及と利用方法に関する微妙な理解を提供するため、私たちのデータセットには、"our BERT-based model"や"a image CNN"といった非公式な言及のためのアノテーションも含まれています。
基礎となる真理データセットとコードはhttps://data.gesis.org/gsap/gsap-ner.orgで再現できる。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and
Pretrained Language Models for CTR Prediction [51.64257638308695]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - ProtoNER: Few shot Incremental Learning for Named Entity Recognition
using Prototypical Networks [7.317342506617286]
プロトタイプネットワークに基づくエンドツーエンドKVP抽出モデルを示す。
モデルの初期トレーニングに使用されるデータセットに依存しない。
ノイズを付加し、結果としてモデルの性能劣化を引き起こすような中間合成データ生成は行われない。
論文 参考訳(メタデータ) (2023-10-03T18:52:19Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Generative Entity Typing with Curriculum Learning [18.43562065432877]
本稿では,新しい生成エンティティタイピング(GET)パラダイムを提案する。
エンティティが言及したテキストが与えられた場合、エンティティがテキストで果たす役割の複数の型は、事前訓練された言語モデルで生成される。
我々の実験は、最先端エンティティ型付けモデルよりもGETモデルの方が優れていることを正当化します。
論文 参考訳(メタデータ) (2022-10-06T13:32:50Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。