論文の概要: Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks
- arxiv url: http://arxiv.org/abs/2304.01331v1
- Date: Mon, 3 Apr 2023 19:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 16:26:31.157856
- Title: Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks
- Title(参考訳): 辞書なしでカスタムイベントデータを作成する:bag-of-tricks
- Authors: Andrew Halterman, Philip A. Schrodt, Andreas Beger, Benjamin E.
Bagozzi, Grace I. Scarborough
- Abstract要約: イベント・データ(英: Event data)とは、テキストから自動的に抽出される、誰が何をしたかの構造化された記録であり、国際政治学者にとって重要なデータ源である。
自然言語処理(NLP)の最近の進歩をもとに,効率的なイベントデータ生成のための「トリックの袋」について述べる。
本稿では,これらの技術がICEWSを置き換えることを意図した,新しいPOLECATグローバルイベントデータセットの作成方法について述べる。
- 参考スコア(独自算出の注目度): 4.06061049778407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event data, or structured records of ``who did what to whom'' that are
automatically extracted from text, is an important source of data for scholars
of international politics. The high cost of developing new event datasets,
especially using automated systems that rely on hand-built dictionaries, means
that most researchers draw on large, pre-existing datasets such as ICEWS rather
than developing tailor-made event datasets optimized for their specific
research question. This paper describes a ``bag of tricks'' for efficient,
custom event data production, drawing on recent advances in natural language
processing (NLP) that allow researchers to rapidly produce customized event
datasets. The paper introduces techniques for training an event category
classifier with active learning, identifying actors and the recipients of
actions in text using large language models and standard machine learning
classifiers and pretrained ``question-answering'' models from NLP, and
resolving mentions of actors to their Wikipedia article to categorize them. We
describe how these techniques produced the new POLECAT global event dataset
that is intended to replace ICEWS, along with examples of how scholars can
quickly produce smaller, custom event datasets. We publish example code and
models to implement our new techniques.
- Abstract(参考訳): テキストから自動的に抽出される「who did what to who」の構造化された記録は、国際政治学者にとって重要な資料である。
新しいイベントデータセットを開発するコスト、特に手作り辞書に依存する自動システムを使用する場合、ほとんどの研究者は、特定の研究課題に最適化されたカスタマイズされたイベントデータセットを開発するのではなく、ICEWSのような大規模で既存のデータセットに頼っている。
本稿では,自然言語処理(nlp)の最近の進歩を活かし,イベントデータセットを迅速に作成可能な,効率的なカスタムイベントデータ生成のための ‘bag of tricks' について述べる。
そこで本稿では,大規模言語モデルと標準機械学習分類器を用いて,能動的学習によるイベントカテゴリ分類器を訓練し,アクターとアクターを識別し,NLPから<question-Awering'モデルを事前訓練し,アクターの言及をWikipediaの記事に分類する手法を提案する。
これらのテクニックがICEWSに代わる,新たなPOLECATグローバルイベントデータセットを生成する方法と,より小型でカスタムなイベントデータセットを学者が迅速に生成する方法の例について説明する。
新しいテクニックを実装するためのサンプルコードとモデルを公開する。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction [11.458594744457521]
アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-28T09:57:28Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Iterative Data Programming for Expanding Text Classification Corpora [9.152045698511506]
実世界のテキスト分類タスクは、しばしば、取得するのに高価なラベル付きトレーニング例を必要とする。
機械教育の最近の進歩、特にデータプログラミングパラダイムは、トレーニングデータセットの迅速な作成を促進する。
近所の弱いモデルを生成することによってテキストデータセットを拡大するための,高速でシンプルなデータプログラミング手法を提案する。
論文 参考訳(メタデータ) (2020-02-04T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。