Fugu-MT 論文翻訳(概要): GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

論文の概要: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets

arxiv url: http://arxiv.org/abs/2311.09860v1
Date: Thu, 16 Nov 2023 12:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 14:03:58.483101
Title: GSAP-NER: A Novel Task, Corpus, and Baseline for Scholarly Entity Extraction Focused on Machine Learning Models and Datasets
Title（参考訳）: GSAP-NER: 機械学習モデルとデータセットに着目した学習エンティティ抽出のための新しいタスク、コーパス、ベースライン
Authors: Wolfgang Otto, Matth\"aus Zloch, Lu Gan, Saurav Karmakar, and Stefan Dietze
Abstract要約: 学術的な文章では、機械学習モデルとデータセットへの参照が基本的なコンポーネントである。既存の真理データセットは、MLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱わない。 MLモデルとデータセットを中心とした10のエンティティタイプを対象とした,100のコーパスを手動でアノテートしたフルテキストの科学出版物と,最初のベースラインモデルをリリースする。
参考スコア（独自算出の注目度）: 3.9169112083667073
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Named Entity Recognition (NER) models play a crucial role in various NLP tasks, including information extraction (IE) and text understanding. In academic writing, references to machine learning models and datasets are fundamental components of various computer science publications and necessitate accurate models for identification. Despite the advancements in NER, existing ground truth datasets do not treat fine-grained types like ML model and model architecture as separate entity types, and consequently, baseline models cannot recognize them as such. In this paper, we release a corpus of 100 manually annotated full-text scientific publications and a first baseline model for 10 entity types centered around ML models and datasets. In order to provide a nuanced understanding of how ML models and datasets are mentioned and utilized, our dataset also contains annotations for informal mentions like "our BERT-based model" or "an image CNN". You can find the ground truth dataset and code to replicate model training at https://data.gesis.org/gsap/gsap-ner.
Abstract（参考訳）: 名前付きエンティティ認識(NER)モデルは、情報抽出(IE)やテキスト理解など、様々なNLPタスクにおいて重要な役割を果たす。学術的な執筆において、機械学習モデルとデータセットへの参照は、様々なコンピュータサイエンス出版物の基本的な構成要素であり、識別のために正確なモデルを必要とする。 NERの進歩にもかかわらず、既存の基底真理データセットはMLモデルやモデルアーキテクチャのようなきめ細かい型を別々のエンティティタイプとして扱いません。本稿では,100の注釈付き全文科学出版物のコーパスと,mlモデルとデータセットを中心とした10のエンティティタイプのための最初のベースラインモデルについて述べる。 MLモデルとデータセットの言及と利用方法に関する微妙な理解を提供するため、私たちのデータセットには、"our BERT-based model"や"a image CNN"といった非公式な言及のためのアノテーションも含まれています。基礎となる真理データセットとコードはhttps://data.gesis.org/gsap/gsap-ner.orgで再現できる。

関連論文リスト

Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Machine Unlearning using a Multi-GAN based Model [0.0]
本稿では,GAN(Generative Adversarial Network)をベースとした新しい機械学習手法を提案する。提案手法は,GANモデルを用いたデータ再構成と,学習済みモデルを微調整する2つのフェーズから構成される。
論文参考訳（メタデータ） (2024-07-26T02:28:32Z)
Self-Regulated Data-Free Knowledge Amalgamation for Text Classification [9.169836450935724]
そこで我々は,複数の教師モデルから学習できる軽量な学生ネットワークを構築した。そこで本研究では,各教師に適したテキストデータを生成するモデリングフレームワークSTRATANETを提案する。本手法は,ラベルやドメインの異なる3つのベンチマークテキスト分類データセットを用いて評価する。
論文参考訳（メタデータ） (2024-06-16T21:13:30Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
ProtoNER: Few shot Incremental Learning for Named Entity Recognition using Prototypical Networks [7.317342506617286]
プロトタイプネットワークに基づくエンドツーエンドKVP抽出モデルを示す。モデルの初期トレーニングに使用されるデータセットに依存しない。ノイズを付加し、結果としてモデルの性能劣化を引き起こすような中間合成データ生成は行われない。
論文参考訳（メタデータ） (2023-10-03T18:52:19Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文参考訳（メタデータ） (2020-09-23T17:01:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。