論文の概要: A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres
- arxiv url: http://arxiv.org/abs/2311.15509v2
- Date: Tue, 15 Oct 2024 12:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:50.451957
- Title: A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres
- Title(参考訳): 複数ジャンルの中国小説におけるエンティティ認識のためのコーパス
- Authors: Hanjie Zhao, Jinge Xie, Yuchen Yan, Yuxiang Jia, Yawen Ye, Hongying Zan,
- Abstract要約: 我々は、13のジャンルにまたがる260のオンライン小説から105,851文に263,135のエンティティを含む、最大規模の多ジャンルの文学的NERコーパスを構築した。
実験の結果,ジャンル差は文学ドメインやニュースドメインのようなドメイン差ほど大きくは影響しないものの,NERのパフォーマンスに大きな影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 4.454213580466446
- License:
- Abstract: Entities like person, location, organization are important for literary text analysis. The lack of annotated data hinders the progress of named entity recognition (NER) in literary domain. To promote the research of literary NER, we build the largest multi-genre literary NER corpus containing 263,135 entities in 105,851 sentences from 260 online Chinese novels spanning 13 different genres. Based on the corpus, we investigate characteristics of entities from different genres. We propose several baseline NER models and conduct cross-genre and cross-domain experiments. Experimental results show that genre difference significantly impact NER performance though not as much as domain difference like literary domain and news domain. Compared with NER in news domain, literary NER still needs much improvement and the Out-of-Vocabulary (OOV) problem is more challenging due to the high variety of entities in literary works. Our data and models are open-sourced at https://github.com/hjzhao73/MultiGenre-ChineseNovel
- Abstract(参考訳): 人、場所、組織といった実体は、文学的テキスト分析において重要である。
注釈付きデータの欠如は、文学領域における名前付きエンティティ認識(NER)の進歩を妨げる。
文芸NERの研究を促進するため,13ジャンルのオンライン小説260冊のうち,263,135件を105,851文に収めた最大規模の多ジャンルの文芸NERコーパスを構築した。
コーパスに基づいて,異なるジャンルのエンティティの特性について検討する。
いくつかのベースラインNERモデルを提案し、クロスジャンルおよびクロスドメイン実験を行う。
実験の結果,ジャンル差は文学ドメインやニュースドメインのようなドメイン差ほど大きくは影響しないものの,NERのパフォーマンスに大きな影響を及ぼすことが示された。
ニュース分野のNERと比較して、文学的NERは依然として多くの改善を必要としており、文学作品における多種多様な実体のため、外語彙(OOV)問題はより困難である。
我々のデータとモデルはhttps://github.com/hjzhao73/MultiGenre- ChineseNovelでオープンソース化されています。
関連論文リスト
- (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Understanding Social Structures from Contemporary Literary Fiction using
Character Interaction Graph -- Half Century Chronology of Influential Bengali
Writers [2.103087897983347]
社会構造や現実世界の出来事は、しばしば現代文学に影響を及ぼす。
文字相互作用グラフを用いて、現代文化が文学の風景に与える影響について、社会的問いかけを探索する。
論文 参考訳(メタデータ) (2023-10-25T20:09:14Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Comparative Analysis of Named Entity Recognition in the Dungeons and
Dragons Domain [0.3108011671896571]
7つのダンジョンズ・アンド・ドラゴンズ(D&D)アドベンチャーブックの10種類の名前付きエンティティ認識(NER)モデルを分析し,ドメイン固有のパフォーマンスを評価する。
以上の結果から,Frair,Trankit,SpacyはD&Dコンテキストにおける名前の特定において他者よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-29T12:09:36Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage [0.0]
本研究は,小説における人物の識別と識別の課題について考察する。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
我々は、主人公タガーにタグ付けされた13のフルテキスト小説のコーパスを集めた。
論文 参考訳(メタデータ) (2021-10-04T11:54:43Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。