論文の概要: An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper
Headlines
- arxiv url: http://arxiv.org/abs/2004.02929v1
- Date: Mon, 6 Apr 2020 18:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:46:42.128690
- Title: An Annotated Corpus of Emerging Anglicisms in Spanish Newspaper
Headlines
- Title(参考訳): スペインの新聞の見出しで、新しい英語の注釈付きコーパス
- Authors: Elena \'Alvarez-Mellado
- Abstract要約: 我々はスペイン語で書かれた21,570の新聞の見出しのコーパスを、緊急のアングリシズムで注釈付けした。
この論文は、スペイン語ニュースワイヤのためのアングリシズム抽出器の作成に向けた第一歩である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction of anglicisms (lexical borrowings from English) is relevant
both for lexicographic purposes and for NLP downstream tasks. We introduce a
corpus of European Spanish newspaper headlines annotated with anglicisms and a
baseline model for anglicism extraction. In this paper we present: (1) a corpus
of 21,570 newspaper headlines written in European Spanish annotated with
emergent anglicisms and (2) a conditional random field baseline model with
handcrafted features for anglicism extraction. We present the newspaper
headlines corpus, describe the annotation tagset and guidelines and introduce a
CRF model that can serve as baseline for the task of detecting anglicisms. The
presented work is a first step towards the creation of an anglicism extractor
for Spanish newswire.
- Abstract(参考訳): アングリシズム(英語からの語彙借用)の抽出は、語彙的目的とNLP下流タスクの両方に関係している。
欧州のスペイン語新聞の見出しにアングリシズムを付記したコーパスと、アングリシズム抽出のベースラインモデルを紹介する。
本稿では,(1)スペインで書かれた21,570の新聞見出しのコーパスと(2)アングリシズム抽出のための手作り特徴を持つ条件付きランダムフィールドベースラインモデルについて述べる。
本稿では, 新聞の見出しコーパスを紹介し, 注釈タグセットとガイドラインを記述し, アングリシズム検出タスクのベースラインとして機能するCRFモデルを提案する。
この論文は、スペイン語ニュースワイヤのためのアングリシズム抽出器の作成に向けた第一歩である。
関連論文リスト
- FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Quotations, Coreference Resolution, and Sentiment Annotations in
Croatian News Articles: An Exploratory Study [0.0]
本論文はクロアチアのSETimesニュースコーパスにおける引用,共参照解決,感情アノテーションのアノテーションに焦点を当てている。
引用機能アノテーションを備えた生成されたコーパスは、自然言語処理の分野における複数のタスクに使用できる。
論文 参考訳(メタデータ) (2022-12-14T11:54:12Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Spanish Abstract Meaning Representation: Annotation of a General Corpus [7.837003011850223]
我々は、スペイン語でAMRのアノテーションを提案した結果、架空のテキスト"The Little Prince"のために50のスペイン語のAMRアノテーションがリリースされた。
アノテーションへのアプローチは、AnCora-Net lexiconからのスペイン語のロールセットを利用し、スペイン語固有の意味的特徴を持つ英語のAMRを拡張します。
論文 参考訳(メタデータ) (2022-04-15T22:26:04Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。