論文の概要: Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage
- arxiv url: http://arxiv.org/abs/2110.01349v1
- Date: Mon, 4 Oct 2021 11:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:37:12.820293
- Title: Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage
- Title(参考訳): 文学領域における主人公のタガー--新しいデータセットと人格関係の方法
- Authors: Weronika {\L}ajewska, Anna Wr\'oblewska
- Abstract要約: 本研究は,小説における人物の識別と識別の課題について考察する。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
我々は、主人公タガーにタグ付けされた13のフルテキスト小説のコーパスを集めた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic annotation of long texts, such as novels, remains an open challenge
in Natural Language Processing (NLP). This research investigates the problem of
detecting person entities and assigning them unique identities, i.e.,
recognizing people (especially main characters) in novels. We prepared a method
for person entity linkage (named entity recognition and disambiguation) and new
testing datasets. The datasets comprise 1,300 sentences from 13 classic novels
of different genres that a novel reader had manually annotated. Our process of
identifying literary characters in a text, implemented in protagonistTagger,
comprises two stages: (1) named entity recognition (NER) of persons, (2) named
entity disambiguation (NED) - matching each recognized person with the literary
character's full name, based on approximate text matching. The
protagonistTagger achieves both precision and recall of above 83% on the
prepared testing sets. Finally, we gathered a corpus of 13 full-text novels
tagged with protagonistTagger that comprises more than 35,000 mentions of
literary characters.
- Abstract(参考訳): 小説などの長文のセマンティックな注釈は、自然言語処理(NLP)において未解決の課題である。
本研究は、人物の実体を検知し、小説中の人物(特に主人公)を識別するユニークなアイデンティティを割り当てる問題を考察する。
我々は、個人エンティティリンク(エンティティ認識と曖昧さ)と新しいテストデータセットを作成する方法を準備した。
データセットは、小説読者が手動で注釈付けした13の古典小説から1,300の文章で構成されている。
本研究は,(1)人物の名前付き実体認識(NER),(2)名前付き実体曖昧化(NED)の2段階から構成される。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
最後に,13冊の全文小説のコーパスを,3万5千点以上の文学的人物の言及を含む主人公タグ付きで収集した。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names [53.24414727354768]
本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
論文 参考訳(メタデータ) (2024-08-01T05:47:04Z) - Improving Quotation Attribution with Fictional Character Embeddings [11.259583037191772]
本稿では,文字のグローバルなスタイリスティックな情報をエンコードする文字埋め込みにより,人気のある引用帰属システムであるBookNLPを提案する。
提案するグローバル文字埋め込みとBookNLPの文脈情報を組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上することを示す。
論文 参考訳(メタデータ) (2024-06-17T09:46:35Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres [4.454213580466446]
我々は、13のジャンルにまたがる260のオンライン小説から105,851文に263,135のエンティティを含む、最大規模の多ジャンルの文学的NERコーパスを構築した。
実験の結果,ジャンル差は文学ドメインやニュースドメインのようなドメイン差ほど大きくは影響しないものの,NERのパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-11-27T03:08:41Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。