論文の概要: Semantic Novelty at Scale: Narrative Shape Taxonomy and Readership Prediction in 28,606 Books
- arxiv url: http://arxiv.org/abs/2602.20647v1
- Date: Tue, 24 Feb 2026 07:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.656941
- Title: Semantic Novelty at Scale: Narrative Shape Taxonomy and Readership Prediction in 28,606 Books
- Title(参考訳): スケールにおけるセマンティックノベルティ:28,606冊の物語的形態分類と読解予測
- Authors: W. Frederick Zimmerman,
- Abstract要約: コーパススケールでの物語構造に関する情報理論的尺度として,各段落の文の埋め込みと前段落の走行セントロイドとのコサイン距離について紹介する。
PG19(1920年以前の英文学)の28,606冊の本に適用し、768次元のSBERT埋め込みを用いて段落レベルのノベルティ曲線を計算し、それぞれを16セグメントのPiecewise Aggregate Approximation (PAA)に還元する。
PAAベクトル上のウォード・リンク・クラスタリングは8つの標準的物語形アーチタイプを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: I introduce semantic novelty--cosine distance between each paragraph's sentence embedding and the running centroid of all preceding paragraphs--as an information-theoretic measure of narrative structure at corpus scale. Applying it to 28,606 books in PG19 (pre-1920 English literature), I compute paragraph-level novelty curves using 768-dimensional SBERT embeddings, then reduce each to a 16-segment Piecewise Aggregate Approximation (PAA). Ward-linkage clustering on PAA vectors reveals eight canonical narrative shape archetypes, from Steep Descent (rapid convergence) to Steep Ascent (escalating unpredictability). Volume--variance of the novelty trajectory--is the strongest length-independent predictor of readership (partial rho = 0.32), followed by speed (rho = 0.19) and Terminal/Initial ratio (rho = 0.19). Circuitousness shows strong raw correlation (rho = 0.41) but is 93 percent correlated with length; after control, partial rho drops to 0.11--demonstrating that naive correlations in corpus studies can be dominated by length confounds. Genre strongly constrains narrative shape (chi squared = 2121.6, p < 10 to the power negative 242), with fiction maintaining plateau profiles while nonfiction front-loads information. Historical analysis shows books became progressively more predictable between 1840 and 1910 (T/I ratio trend r = negative 0.74, p = 0.037). SAX analysis reveals 85 percent signature uniqueness, suggesting each book traces a nearly unique path through semantic space. These findings demonstrate that information-density dynamics, distinct from sentiment or topic, constitute a fundamental dimension of narrative structure with measurable consequences for reader engagement. Dataset: https://huggingface.co/datasets/wfzimmerman/pg19-semantic-novelty
- Abstract(参考訳): コーパススケールでの物語構造に関する情報理論的尺度として,各段落の文の埋め込みと前段落の走行セントロイドとのコサイン距離について紹介する。
PG19(1920年以前の英文学)の28,606冊の本に適用し、768次元のSBERT埋め込みを用いて段落レベルのノベルティ曲線を計算し、それぞれを16セグメントのPiecewise Aggregate Approximation (PAA)に還元する。
PAAベクトル上のウォード・リンク・クラスタリングでは、Steep Descent (ラピッド・コンバージェンス)からSteep Ascent (予測不能のエスカレート)までの8つの標準的な物語形アーチタイプが明らかにされている。
新規性軌跡の体積-分散は、読み手長に依存しない最も強い予測因子(部分rho = 0.32)であり、次に速度(rho = 0.19)と終端/初期比(rho = 0.19)である。
回路性は強い生相関(rho = 0.41)を示すが、長さと93%の相関を示す。
Genreは物語の形を強く制約する(chi squared = 2121.6, p < 10 to the power negative 242)。
歴史的分析によると、本は1840年から1910年の間に徐々に予測可能になった(T/I比のトレンド r = 負 0.74, p = 0.037)。
SAX分析では85%の署名の独特性が示されており、各本は意味空間を通してほぼユニークな経路を辿っていることを示唆している。
これらの結果は、感情や話題とは異なる情報密度のダイナミクスが、読者エンゲージメントの計測可能な結果を伴う物語構造の基本次元を構成することを示している。
データセット:https://huggingface.co/datasets/wfzimmerman/pg19-semantic-novelty
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - The distribution of syntactic dependency distances [0.13812010983144798]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後に確率減衰が変化することを許容する2つの指数的状態を持つ新しいモデルを提案する。
文の長さやアノテーションのスタイルとは無関係に,20言語すべてにおいて,2段階のモデルが最も可能性の高いモデルであることが判明した。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z) - A decomposition of book structure through ousiometric fluctuations in
cumulative word-time [1.181206257787103]
本書の本数ではなく,文数の関数として,文語がどのように変化するのかを考察する。
短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動がある。
以上の結果から,長文は短文の拡張版ではなく,短文の連結構造に類似していることが示唆された。
論文 参考訳(メタデータ) (2022-08-19T18:17:27Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Paragraph-level Commonsense Transformers with Recurrent Memory [77.4133779538797]
物語からコヒーレントなコモンセンス推論を生成するために,段落レベルの情報を含む談話認識モデルを訓練する。
以上の結果から,PARA-COMETは文レベルのベースライン,特にコヒーレントかつ新規な推論に優れていた。
論文 参考訳(メタデータ) (2020-10-04T05:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。