論文の概要: Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage
- arxiv url: http://arxiv.org/abs/2110.01349v1
- Date: Mon, 4 Oct 2021 11:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:37:12.820293
- Title: Protagonists' Tagger in Literary Domain -- New Datasets and a Method for
Person Entity Linkage
- Title(参考訳): 文学領域における主人公のタガー--新しいデータセットと人格関係の方法
- Authors: Weronika {\L}ajewska, Anna Wr\'oblewska
- Abstract要約: 本研究は,小説における人物の識別と識別の課題について考察する。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
我々は、主人公タガーにタグ付けされた13のフルテキスト小説のコーパスを集めた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic annotation of long texts, such as novels, remains an open challenge
in Natural Language Processing (NLP). This research investigates the problem of
detecting person entities and assigning them unique identities, i.e.,
recognizing people (especially main characters) in novels. We prepared a method
for person entity linkage (named entity recognition and disambiguation) and new
testing datasets. The datasets comprise 1,300 sentences from 13 classic novels
of different genres that a novel reader had manually annotated. Our process of
identifying literary characters in a text, implemented in protagonistTagger,
comprises two stages: (1) named entity recognition (NER) of persons, (2) named
entity disambiguation (NED) - matching each recognized person with the literary
character's full name, based on approximate text matching. The
protagonistTagger achieves both precision and recall of above 83% on the
prepared testing sets. Finally, we gathered a corpus of 13 full-text novels
tagged with protagonistTagger that comprises more than 35,000 mentions of
literary characters.
- Abstract(参考訳): 小説などの長文のセマンティックな注釈は、自然言語処理(NLP)において未解決の課題である。
本研究は、人物の実体を検知し、小説中の人物(特に主人公)を識別するユニークなアイデンティティを割り当てる問題を考察する。
我々は、個人エンティティリンク(エンティティ認識と曖昧さ)と新しいテストデータセットを作成する方法を準備した。
データセットは、小説読者が手動で注釈付けした13の古典小説から1,300の文章で構成されている。
本研究は,(1)人物の名前付き実体認識(NER),(2)名前付き実体曖昧化(NED)の2段階から構成される。
プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。
最後に,13冊の全文小説のコーパスを,3万5千点以上の文学的人物の言及を含む主人公タグ付きで収集した。
関連論文リスト
- Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z) - Modeling Social Readers: Novel Tools for Addressing Reception from
Online Book Reviews [0.0]
5つの人気小説のレビューのコーパスを使用して、小説のメインストーリーラインの読者の蒸留を研究します。
無限語彙ネットワークの研究に3つの重要な貢献をしている。
本稿では、レビューから集約された部分軌跡に基づいてイベントのコンセンサスシーケンスを生成する新しいシーケンシングアルゴリズムREV2SEQを提案する。
論文 参考訳(メタデータ) (2021-05-03T20:10:14Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。