論文の概要: Good Books are Complex Matters: Gauging Complexity Profiles Across Diverse Categories of Perceived Literary Quality
- arxiv url: http://arxiv.org/abs/2404.04022v1
- Date: Fri, 5 Apr 2024 11:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:24:44.824009
- Title: Good Books are Complex Matters: Gauging Complexity Profiles Across Diverse Categories of Perceived Literary Quality
- Title(参考訳): 良書は複雑な問題である: 文学的品質の異なるカテゴリにまたがる複雑度プロファイルを測る
- Authors: Yuri Bizzoni, Pascale Feldkamp, Ida Marie Lassen, Mia Jacobsen, Mads Rosendahl Thomsen, Kristoffer Nielbo,
- Abstract要約: 我々は、文学的「品質」の異なるカテゴリーが独自の言語的プロファイルを示すことを示すために、分類アプローチを採用する。
分析の結果,他の品質カテゴリと比較すると,標準テキストやいわゆるハイブロウテキストは異なるテキスト特徴を示すことが明らかとなった。
品質カテゴリは、他の品質カテゴリよりもコントロールグループと区別しやすい傾向にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we employ a classification approach to show that different categories of literary "quality" display unique linguistic profiles, leveraging a corpus that encompasses titles from the Norton Anthology, Penguin Classics series, and the Open Syllabus project, contrasted against contemporary bestsellers, Nobel prize winners and recipients of prestigious literary awards. Our analysis reveals that canonical and so called high-brow texts exhibit distinct textual features when compared to other quality categories such as bestsellers and popular titles as well as to control groups, likely responding to distinct (but not mutually exclusive) models of quality. We apply a classic machine learning approach, namely Random Forest, to distinguish quality novels from "control groups", achieving up to 77\% F1 scores in differentiating between the categories. We find that quality category tend to be easier to distinguish from control groups than from other quality categories, suggesting than literary quality features might be distinguishable but shared through quality proxies.
- Abstract(参考訳): 本研究では,Norton Anthology, Penguin Classics series, and the Open Syllabus projectのタイトルを含むコーパスを活用し,同時代のベストセラーやノーベル文学賞受賞者,名誉文学賞受賞者などと対比して,文学的「品質」の異なるカテゴリが独自の言語プロファイルを表示することを示す分類手法を採用した。
分析の結果,他の品質カテゴリー(ベストセラーや人気タイトルなど)と異なる品質モデル(相互排他的ではない)に対応してグループを制御する場合と比較して,標準テキストやいわゆるハイブロウテキストは異なるテキストの特徴を示すことが明らかとなった。
我々は古典的な機械学習手法、すなわちランダムフォレストを用いて、品質小説を「コントロールグループ」と区別し、カテゴリ間の差別化において最大77\%のF1スコアを達成する。
品質カテゴリーは他の品質カテゴリと区別しやすい傾向があり、文学的品質特徴は識別可能であるが、品質プロキシを通して共有されることが示唆される。
関連論文リスト
- Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach [4.161155428666988]
スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:28:40Z) - SelEx: Self-Expertise in Fine-Grained Generalized Category Discovery [55.72840638180451]
Generalized Category Discoveryは、新しいカテゴリーを同時に発見し、既知のカテゴリを正確に分類することを目的としている。
自己超越と対照的な学習に強く依存する伝統的な手法は、細かなカテゴリーを区別する場合にしばしば不足する。
モデルが微妙な違いを認識し、未知のカテゴリを明らかにする能力を高める。
論文 参考訳(メタデータ) (2024-08-26T15:53:50Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Textual Stylistic Variation: Choices, Genres and Individuals [0.8057441774248633]
この章では、テキストコレクションのスタイリスティックな変動の統計処理のためのより情報的なターゲットメトリクスを論じている。
本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。
論文 参考訳(メタデータ) (2022-05-01T16:39:49Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Results of a Single Blind Literary Taste Test with Short Anonymized
Novel Fragments [4.695687634290403]
文学的品質の認識が、文章本質と社会的要因からどの程度引き起こされるかは、明らかな疑問である。
オランダ語小説の文体的特徴が文学的評価に及ぼす影響を評価するためのパイロット研究の結果を報告する。
調査評価と調査評価の相関は中程度から強いが, 予測は調査評価に近づいた。
論文 参考訳(メタデータ) (2020-11-03T11:10:17Z) - A Comparative Study of Feature Types for Age-Based Text Classification [3.867363075280544]
年齢によるフィクションテキストの分類作業における言語的特徴の多種多様性の比較を行った。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-09-24T18:41:10Z) - MixPoet: Diverse Poetry Generation via Learning Controllable Mixed
Latent Space [79.70053419040902]
多様な要素を吸収し,多様なスタイルを創出し,多様性を促進する新しいモデルであるMixPoetを提案する。
半教師付き変分オートエンコーダに基づいて、我々のモデルは潜在空間をいくつかの部分空間に切り離し、それぞれが敵の訓練によって1つの影響因子に条件付けされる。
中国詩の実験結果は、MixPoetが3つの最先端モデルに対して多様性と品質の両方を改善していることを示している。
論文 参考訳(メタデータ) (2020-03-13T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。