論文の概要: Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis
- arxiv url: http://arxiv.org/abs/2603.01791v1
- Date: Mon, 02 Mar 2026 12:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.863685
- Title: Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis
- Title(参考訳): 80万冊のセマンティックノベルティ軌道:クロスコルプス埋め込み解析
- Authors: Fred Zimmerman,
- Abstract要約: 私は2世紀の英語出版にまたがる8万冊以上の本で意味的ノベルティの軌跡を分析します。
近代の書物では 段落レベルの新規性が 約10%高くなっています
落ち着いたセマンティックレジスターに向かって斬新さが低下する収束した物語曲線は、1920年以前の文献では2.3倍多い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: I apply Schmidhuber's compression progress theory of interestingness at corpus scale, analyzing semantic novelty trajectories in more than 80,000 books spanning two centuries of English-language publishing. Using sentence-transformer paragraph embeddings and a running-centroid novelty measure, I compare 28,730 pre-1920 Project Gutenberg books (PG19) against 52,796 modern English books (Books3, approximately 1990-2010). The principal findings are fourfold. First, mean paragraph-level novelty is roughly 10% higher in modern books (0.503 vs. 0.459). Second, trajectory circuitousness -- the ratio of cumulative path length to net displacement in embedding space -- nearly doubles in the modern corpus (+67%). Third, convergent narrative curves, in which novelty declines toward a settled semantic register, are 2.3x more common in pre-1920 literature. Fourth, novelty is orthogonal to reader quality ratings (r = -0.002), suggesting that interestingness in Schmidhuber's sense is structurally independent of perceived literary merit. Clustering paragraph-level trajectories via PAA-16 representations reveals eight distinct narrative-shape archetypes whose distribution shifts substantially between eras. All analysis code and an interactive exploration toolkit are publicly available at https://bigfivekiller.online/novelty_hub.
- Abstract(参考訳): シュミドハーバーのコーパススケールにおける面白さの圧縮進行理論を適用し、2世紀にわたる英語出版にまたがる80,000冊以上の本で意味的ノベルティの軌跡を分析した。
文変換文の埋め込みとランニングセンタロイドのノベルティ尺度を用いて、1920年以前のプロジェクト・グーテンベルクの本(PG19)を52,796冊の現代英語の本(Books3,約1990-2010)と比較した。
主な発見は4つある。
第一に、近代書物では平均段落の新規性が約10%高い(0.503対0.459)。
第2に、埋め込み空間における累積経路長と純変位の比率である軌道回路性は、現代のコーパス(+67%)でほぼ2倍である。
第3の収束した物語曲線は、1920年以前の文献では、新奇性が落ち着いたセマンティックレジスターに向かって減少する。
第4に、新奇性は読み手の品質評価(r = -0.002)に直交するものであり、シュミットの意味での面白さは文学的価値の認識から構造的に独立したものであることを示唆している。
PAA-16表現による段落レベルの軌道のクラスタリングは、8つの異なる物語形アーチタイプを示し、その分布は時代によって大きく変化している。
すべての解析コードとインタラクティブな探索ツールキットはhttps://bigfivekiller.online/novelty_hub.comで公開されている。
関連論文リスト
- Semantic Novelty at Scale: Narrative Shape Taxonomy and Readership Prediction in 28,606 Books [0.0]
コーパススケールでの物語構造に関する情報理論的尺度として,各段落の文の埋め込みと前段落の走行セントロイドとのコサイン距離について紹介する。
PG19(1920年以前の英文学)の28,606冊の本に適用し、768次元のSBERT埋め込みを用いて段落レベルのノベルティ曲線を計算し、それぞれを16セグメントのPiecewise Aggregate Approximation (PAA)に還元する。
PAAベクトル上のウォード・リンク・クラスタリングは8つの標準的物語形アーチタイプを明らかにする。
論文 参考訳(メタデータ) (2026-02-24T07:52:35Z) - Multifractal hopscotch in "Hopscotch" by Julio Cortazar [0.0]
文末の句読点は、その分布が自然言語の様々な特徴を決定できるため、特に重要である。
ここでは、Julio Cortazar の "Hopscotch" を表す文長変動(SLV)時系列を定量的解析する。
論文 参考訳(メタデータ) (2025-01-22T15:28:24Z) - Unveiling Temporal Trends in 19th Century Literature: An Information Retrieval Approach [5.804963603084041]
英語文学において、19世紀はスタイル、テーマ、ジャンルに大きな変化を目撃した。
本稿では、情報検索のレンズを通して、19世紀の英語小説における用語使用の進化について考察する。
論文 参考訳(メタデータ) (2025-01-12T15:00:10Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Narrowing the Gap between Zero- and Few-shot Machine Translation by
Matching Styles [53.92189950211852]
大規模言語モデルは、文脈内学習を用いたゼロショットと少数ショットの例を用いて、機械翻訳に一般化する能力を示した。
本稿では,このギャップに寄与する要因について検討し,対象コーパスの書字スタイルを一致させることで,このギャップをほとんど(約70%)閉鎖できることを示す。
論文 参考訳(メタデータ) (2023-11-04T03:18:45Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - A decomposition of book structure through ousiometric fluctuations in
cumulative word-time [1.181206257787103]
本書の本数ではなく,文数の関数として,文語がどのように変化するのかを考察する。
短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動がある。
以上の結果から,長文は短文の拡張版ではなく,短文の連結構造に類似していることが示唆された。
論文 参考訳(メタデータ) (2022-08-19T18:17:27Z) - Computational analyses of the topics, sentiments, literariness,
creativity and beauty of texts in a large Corpus of English Literature [0.0]
Gutenberg Literary English Corpus (GLEC)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。
GLECの6つのテキストカテゴリのトピックと感情分析の結果を報告する。<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>100</i>,<i>3</i>,<i>3</i>,<i>3</i
論文 参考訳(メタデータ) (2022-01-12T08:16:52Z) - Few-Shot Object Detection via Association and DIscrimination [83.8472428718097]
AssociationとDIscriminationによるオブジェクト検出は、新しいクラスごとに2つのステップで識別可能な特徴空間を構築している。
Pascal VOCとMS-COCOデータセットの実験では、FADIは新しいSOTAパフォーマンスを実現し、ショット/スプリットのベースラインを+18.7で大幅に改善した。
論文 参考訳(メタデータ) (2021-11-23T05:04:06Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。