論文の概要: Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature
- arxiv url: http://arxiv.org/abs/2201.04356v1
- Date: Wed, 12 Jan 2022 08:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 20:36:27.442543
- Title: Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature
- Title(参考訳): 英文学大コーパスにおける文章の話題・感情・識字性・創造性・美の計算分析
- Authors: Arthur M. Jacobs and Annette Kinder
- Abstract要約: Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Gutenberg Literary English Corpus (GLEC, Jacobs, 2018a) provides a rich
source of textual data for research in digital humanities, computational
linguistics or neurocognitive poetics. In this study we address differences
among the different literature categories in GLEC, as well as differences
between authors. We report the results of three studies providing i) topic and
sentiment analyses for six text categories of GLEC (i.e., children and youth,
essays, novels, plays, poems, stories) and its >100 authors, ii) novel measures
of semantic complexity as indices of the literariness, creativity and book
beauty of the works in GLEC (e.g., Jane Austen's six novels), and iii) two
experiments on text classification and authorship recognition using novel
features of semantic complexity. The data on two novel measures estimating a
text's literariness, intratextual variance and stepwise distance (van
Cranenburgh et al., 2019) revealed that plays are the most literary texts in
GLEC, followed by poems and novels. Computation of a novel index of text
creativity (Gray et al., 2016) revealed poems and plays as the most creative
categories with the most creative authors all being poets (Milton, Pope, Keats,
Byron, or Wordsworth). We also computed a novel index of perceived beauty of
verbal art (Kintsch, 2012) for the works in GLEC and predict that Emma is the
theoretically most beautiful of Austen's novels. Finally, we demonstrate that
these novel measures of semantic complexity are important features for text
classification and authorship recognition with overall predictive accuracies in
the range of .75 to .97. Our data pave the way for future computational and
empirical studies of literature or experiments in reading psychology and offer
multiple baselines and benchmarks for analysing and validating other book
corpora.
- Abstract(参考訳): Gutenberg Literary English Corpus (GLEC, Jacobs, 2018a)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
本研究では,GLECにおける文学カテゴリーの差異と著者間の差異について考察する。
3つの研究成果を報告します
i)glecの6つのテキストカテゴリ(子供及び若者、エッセイ、小説、劇、詩、物語)の話題及び感情分析とその100人を超える著者
二 GLEC(例えば、ジェーン・オーステンの六つの小説)における著作の識字性、創造性及び書籍美の指標としての意味複雑性の新しい尺度
三 意味的複雑性の新しい特徴を用いたテキスト分類及び著者認識に関する二の実験
テキストのリテラリティ、文内ばらつき、段階的な距離(van Cranenburgh et al., 2019)を推定する2つの新しい尺度のデータによると、戯曲はGLECで最も文学的なテキストであり、続いて詩や小説が続く。
テキストクリエイティビティの新たな指標(Gray et al., 2016)の計算により、詩と戯曲は最も創造的なカテゴリーであり、最も創造的な作家はみな詩人である(ミルトン、ポープ、キーツ、バイロン、ワーズワース)。
また,言語芸術の美の認知指標(Kintsch, 2012)をGLECの著作に対して計算し,エマがオーステンの小説の中で理論的に最も美しいものであることを予測した。
最後に,これら意味的複雑性の新たな尺度が,.75から.97の範囲の予測精度を持つテキスト分類と著者認識の重要な特徴であることを示す。
私たちのデータは、心理学を読むための文学や実験の将来の計算および実証研究への道を開き、他の書籍コーパスの分析と検証のための複数のベースラインとベンチマークを提供します。
関連論文リスト
- Latent Structures of Intertextuality in French Fiction [0.0]
本稿では、計算文学研究の分野が、テクスチュアリティの研究を行う上で理想的な場所であると論じる。
我々は18世紀、19世紀、20世紀初頭の12万以上のフランスのフィクションのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-23T10:50:40Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Modeling Social Readers: Novel Tools for Addressing Reception from
Online Book Reviews [0.0]
5つの人気小説のレビューのコーパスを使用して、小説のメインストーリーラインの読者の蒸留を研究します。
無限語彙ネットワークの研究に3つの重要な貢献をしている。
本稿では、レビューから集約された部分軌跡に基づいてイベントのコンセンサスシーケンスを生成する新しいシーケンシングアルゴリズムREV2SEQを提案する。
論文 参考訳(メタデータ) (2021-05-03T20:10:14Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - A Comparative Study of Feature Types for Age-Based Text Classification [3.867363075280544]
年齢によるフィクションテキストの分類作業における言語的特徴の多種多様性の比較を行った。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-09-24T18:41:10Z) - Comparative Computational Analysis of Global Structure in Canonical,
Non-Canonical and Non-Literary Texts [0.0]
3つのテキストタイプ(ノンリテラル、文学/カノニカル、文学/カノニカル)は、読者の美的反応の相関として構造設計の特徴に関して体系的な違いを示す。
大域構造の2つの側面、変動性、およびテキストに沿った長距離相関を反映する自己相似(フラクタル)パターンについて検討した。
その結果,3種類のテキストに対して,テキストの低レベル特性は高レベル特性よりも差別性が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-25T09:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。