論文の概要: Global Contentious Politics Database (GLOCON) Annotation Manuals
- arxiv url: http://arxiv.org/abs/2206.10299v1
- Date: Tue, 17 May 2022 13:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-12 20:59:34.105522
- Title: Global Contentious Politics Database (GLOCON) Annotation Manuals
- Title(参考訳): global contentious politics database (glocon) 注釈マニュアル
- Authors: F{\i}rat Duru\c{s}an, Ali H\"urriyeto\u{g}lu, Erdem Y\"or\"uk, Osman
Mutlu, \c{C}a\u{g}r{\i} Yoltar, Burak G\"urel, Alvaro Comin
- Abstract要約: GLOCON Gold Standard Corpus (GSC) には、各焦点国からの複数の情報源からのニュース記事が掲載されている。
GSCの項目は、分類タスクと抽出タスクの両方において、熟練したアノテータによって手作業でコーディングされた。
この文書は、アノテータがニュース記事をコードするルールを定めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The database creation utilized automated text processing tools that detect if
a news article contains a protest event, locate protest information within the
article, and extract pieces of information regarding the detected protest
events. The basis of training and testing the automated tools is the GLOCON
Gold Standard Corpus (GSC), which contains news articles from multiple sources
from each focus country. The articles in the GSC were manually coded by skilled
annotators in both classification and extraction tasks with the utmost accuracy
and consistency that automated tool development demands. In order to assure
these, the annotation manuals in this document lay out the rules according to
which annotators code the news articles. Annotators refer to the manuals at all
times for all annotation tasks and apply the rules that they contain. The
content of the annotation manual is built on the general principles and
standards of linguistic annotation laid out in other prominent annotation
manuals such as ACE, CAMEO, and TimeML. These principles, however, have been
adapted or rather modified heavily to accommodate the social scientific
concepts and variables employed in the EMW project. The manual has been molded
throughout a long trial and error process that accompanied the annotation of
the GSC. It owes much of its current shape to the meticulous work and
invaluable feedback provided by highly specialized teams of annotators, whose
diligence and expertise greatly increased the quality of the corpus.
- Abstract(参考訳): データベース作成は、ニュース記事が抗議イベントを含むかどうかを検知し、記事内の抗議情報を特定し、検出された抗議イベントに関する情報を抽出する自動テキスト処理ツールを利用する。
自動化ツールのトレーニングとテストの基盤はglocon gold standard corpus(gsc)で、各フォーカス国からの複数のソースからのニュース記事が含まれている。
GSCの記事は、自動ツール開発に必要な最も正確で一貫性のある分類タスクと抽出タスクの両方において、熟練したアノテータによって手作業でコーディングされた。
これらを保証するために、この文書の注釈マニュアルは、注釈者がニュース記事をコードするルールを規定する。
アノテーションは、すべてのアノテーションタスクに対して常にマニュアルを参照し、それらが含むルールを適用します。
アノテーションマニュアルの内容は、ACE、CAMEO、TimeMLといった他の著名なアノテーションマニュアルに記述された言語アノテーションの一般的な原則と標準に基づいている。
しかしながら、これらの原則は、EMW計画で採用されている社会科学的概念や変数に適合するように適応されたり、大幅に修正されたりしている。
このマニュアルは、gscのアノテーションに付随する長い試行錯誤のプロセスを通じて形成されてきた。
その現在の形は、厳密な作業と高度に専門化されたアノテータチームによる貴重なフィードバックのおかげで、その勤勉さと専門性はコーパスの品質を大幅に向上させた。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence
Labeling [55.71459234749639]
SciAnnotateはSciAnnotateという名前のテキストアノテーションのためのウェブベースのツールで、科学的なアノテーションツールを指す。
我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。
本研究では,Bertifying Conditional Hidden Markov Modelを用いて,ツールが生成する弱いラベルを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T19:18:13Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Cross-context News Corpus for Protest Events related Knowledge Base
Construction [0.15393457051344295]
我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
論文 参考訳(メタデータ) (2020-08-01T22:20:48Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。