論文の概要: A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres
- arxiv url: http://arxiv.org/abs/2311.15509v2
- Date: Tue, 15 Oct 2024 12:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:50.451957
- Title: A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres
- Title(参考訳): 複数ジャンルの中国小説におけるエンティティ認識のためのコーパス
- Authors: Hanjie Zhao, Jinge Xie, Yuchen Yan, Yuxiang Jia, Yawen Ye, Hongying Zan,
- Abstract要約: 我々は、13のジャンルにまたがる260のオンライン小説から105,851文に263,135のエンティティを含む、最大規模の多ジャンルの文学的NERコーパスを構築した。
実験の結果,ジャンル差は文学ドメインやニュースドメインのようなドメイン差ほど大きくは影響しないものの,NERのパフォーマンスに大きな影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 4.454213580466446
- License:
- Abstract: Entities like person, location, organization are important for literary text analysis. The lack of annotated data hinders the progress of named entity recognition (NER) in literary domain. To promote the research of literary NER, we build the largest multi-genre literary NER corpus containing 263,135 entities in 105,851 sentences from 260 online Chinese novels spanning 13 different genres. Based on the corpus, we investigate characteristics of entities from different genres. We propose several baseline NER models and conduct cross-genre and cross-domain experiments. Experimental results show that genre difference significantly impact NER performance though not as much as domain difference like literary domain and news domain. Compared with NER in news domain, literary NER still needs much improvement and the Out-of-Vocabulary (OOV) problem is more challenging due to the high variety of entities in literary works. Our data and models are open-sourced at https://github.com/hjzhao73/MultiGenre-ChineseNovel
- Abstract(参考訳): 人、場所、組織といった実体は、文学的テキスト分析において重要である。
注釈付きデータの欠如は、文学領域における名前付きエンティティ認識(NER)の進歩を妨げる。
文芸NERの研究を促進するため,13ジャンルのオンライン小説260冊のうち,263,135件を105,851文に収めた最大規模の多ジャンルの文芸NERコーパスを構築した。
コーパスに基づいて,異なるジャンルのエンティティの特性について検討する。
いくつかのベースラインNERモデルを提案し、クロスジャンルおよびクロスドメイン実験を行う。
実験の結果,ジャンル差は文学ドメインやニュースドメインのようなドメイン差ほど大きくは影響しないものの,NERのパフォーマンスに大きな影響を及ぼすことが示された。
ニュース分野のNERと比較して、文学的NERは依然として多くの改善を必要としており、文学作品における多種多様な実体のため、外語彙(OOV)問題はより困難である。
我々のデータとモデルはhttps://github.com/hjzhao73/MultiGenre- ChineseNovelでオープンソース化されています。
関連論文リスト
- LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Comparative Analysis of Named Entity Recognition in the Dungeons and
Dragons Domain [0.3108011671896571]
7つのダンジョンズ・アンド・ドラゴンズ(D&D)アドベンチャーブックの10種類の名前付きエンティティ認識(NER)モデルを分析し,ドメイン固有のパフォーマンスを評価する。
以上の結果から,Frair,Trankit,SpacyはD&Dコンテキストにおける名前の特定において他者よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-29T12:09:36Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage [0.0]
本研究は,小説における人物の識別と識別の課題について考察する。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
我々は、主人公タガーにタグ付けされた13のフルテキスト小説のコーパスを集めた。
論文 参考訳(メタデータ) (2021-10-04T11:54:43Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Few-NERD: A Few-Shot Named Entity Recognition Dataset [35.669024917327825]
提案するFew-NERDは,8大きめの粒度と66大きめの粒度を持つ大規模人手用少数ショットNERデータセットである。
Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。
論文 参考訳(メタデータ) (2021-05-16T15:53:17Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Extending and Analyzing Self-Supervised Learning Across Domains [50.13326427158233]
近年,自己指導型表現学習が目覚ましい成果を上げている。
実験は主にImageNetや他の同様の大規模なインターネット画像データセット上で行われる。
我々は、前例のない様々なドメインで、いくつかのポピュラーな手法を実験した。
論文 参考訳(メタデータ) (2020-04-24T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。