論文の概要: KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels
- arxiv url: http://arxiv.org/abs/2404.01140v2
- Date: Thu, 11 Apr 2024 14:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 18:06:21.961376
- Title: KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels
- Title(参考訳): KoCoNovel:韓国の小説における文字照合の注釈付きデータセット
- Authors: Kyuhee Kim, Surin Lee, Sangah Lee,
- Abstract要約: KoCoNovel(ココノヴェル)は、韓国の文芸文から派生した新しい文字コアデータセットである。
KoCoNovelの特徴の1つは、すべての文字言及の24%が単一の共通名詞であることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present KoCoNovel, a novel character coreference dataset derived from Korean literary texts, complete with detailed annotation guidelines. Comprising 178K tokens from 50 modern and contemporary novels, KoCoNovel stands as one of the largest public coreference resolution corpora in Korean, and the first to be based on literary texts. KoCoNovel offers four distinct versions to accommodate a wide range of literary coreference analysis needs. These versions are designed to support perspectives of the omniscient author or readers, and to manage multiple entities as either separate or overlapping, thereby broadening its applicability. One of KoCoNovel's distinctive features is that 24% of all character mentions are single common nouns, lacking possessive markers or articles. This feature is particularly influenced by the nuances of Korean address term culture, which favors the use of terms denoting social relationships and kinship over personal names. In experiments with a BERT-based coreference model, we observe notable performance enhancements with KoCoNovel in character coreference tasks within literary texts, compared to a larger non-literary coreference dataset. Such findings underscore KoCoNovel's potential to significantly enhance coreference resolution models through the integration of Korean cultural and linguistic dynamics.
- Abstract(参考訳): 本稿では,韓国の文文から派生した新しい文字コアデータセットであるKoCoNovelについて,詳細なガイドラインとともに紹介する。
50の現代小説と現代小説から178Kのトークンを合成し、KoCoNovelは韓国で最大の公的な中核解決コーパスの1つであり、初めて文学的テキストをベースとしている。
KoCoNovelは4つの異なるバージョンを提供しており、幅広い文学的コア参照分析のニーズに対応している。
これらのバージョンは、未熟な著者や読者の視点をサポートし、複数のエンティティを分離または重複として管理し、適用範囲を広げるように設計されている。
KoCoNovelの特徴の1つは、すべての文字の言及の24%が単一の共通名詞であり、所有するマーカーや記事がないことである。
この特徴は特に朝鮮の住所文化のニュアンスの影響を受けており、人名に対する社会関係や親族関係を表す用語の使用が好まれている。
BERTベースのコア参照モデルを用いた実験では,文字テキスト中の文字コア参照タスクにおいて,KoCoNovelによる顕著な性能向上が見られた。
このような発見は、韓国の文化的・言語力学の統合を通じて、コア参照解決モデルを大幅に強化するKoCoNovelの可能性を示している。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Multilingual Coreference Resolution in Low-resource South Asian Languages [36.31301773167754]
韓国語31言語に翻訳データセット(TransMuCoRes)を導入する。
予測された翻訳のほぼ全てが正当性検査に合格し、英語の参照の75%は予測された翻訳と一致している。
本研究は,ヒンディー語黄金集合上でのエンド・ツー・エンドのコア参照分解モデルを評価する最初のものである。
論文 参考訳(メタデータ) (2024-02-21T07:05:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting
an Under-Resourced Language [0.0]
ナラビジ (Narabizi) は、主にソーシャルメディアで使用される北アフリカのアラビア語のローマ字形である。
NArabizi Treebankの豊富なバージョンを紹介します。
論文 参考訳(メタデータ) (2023-06-26T17:27:31Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal
Reference Annotations [0.0]
我々は、4つの異なるドメインから収集されたBengaliテキストのコア参照アノテーションを含む新しいデータセットBenCorefを紹介した。
この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。
論文 参考訳(メタデータ) (2023-04-07T15:08:46Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。