Fugu-MT 論文翻訳(概要): A decomposition of book structure through ousiometric fluctuations in cumulative word-time

論文の概要: A decomposition of book structure through ousiometric fluctuations in cumulative word-time

arxiv url: http://arxiv.org/abs/2208.09496v4
Date: Fri, 12 May 2023 00:54:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 16:21:04.978417
Title: A decomposition of book structure through ousiometric fluctuations in cumulative word-time
Title（参考訳）: 累積単語時間における音韻変動による書籍構造の分解
Authors: Mikaela Irene Fudolig, Thayer Alshaabi, Kathryn Cramer, Christopher M. Danforth, Peter Sheridan Dodds
Abstract要約: 本書の本数ではなく,文数の関数として,文語がどのように変化するのかを考察する。短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動がある。以上の結果から,長文は短文の拡張版ではなく,短文の連結構造に類似していることが示唆された。
参考スコア（独自算出の注目度）: 1.181206257787103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While quantitative methods have been used to examine changes in word usage in books, studies have focused on overall trends, such as the shapes of narratives, which are independent of book length. We instead look at how words change over the course of a book as a function of the number of words, rather than the fraction of the book, completed at any given point; we define this measure as "cumulative word-time". Using ousiometrics, a reinterpretation of the valence-arousal-dominance framework of meaning obtained from semantic differentials, we convert text into time series of power and danger scores in cumulative word-time. Each time series is then decomposed using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our findings suggest that, in the ousiometric sense, longer books are not expanded versions of shorter books, but are more similar in structure to a concatenation of shorter texts. Further, they are consistent with editorial practices that require longer texts to be broken down into sections, such as chapters. Our method also provides a data-driven denoising approach that works for texts of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts. These results open up avenues for future work in computational literary analysis, particularly the measurement of a basic unit of narrative.
Abstract（参考訳）: 書籍における単語使用量の変化を定量的に調べる手法が用いられてきたが、本の長さに依存しない物語の形など全般的な傾向に焦点が当てられている。代わりに、ある特定の時点で完結した本の分数ではなく、単語の数の関数として、書籍の途中で単語がどのように変化するかに注目し、この尺度を「累積ワードタイム」と定義する。意味的微分から得られる意味の原子価-覚醒-支配の枠組みを再解釈する ousiometrics を用いて,テキストを累積単語時間におけるパワーと危険スコアの時系列に変換する。各時系列は経験的モード分解を用いて構成振動モードと非振動トレンドの合計に分解される。原典のパワーと危険時刻の分解をシャッフルテキストから導出したものと比較することにより、短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動があることがわかった。これらの変動は通常、本の長さや図書館の分類コードに関わらず数千語という期間を持つが、本の内容や構造によって異なる。以上の結果から,長書は短書の拡張版ではなく,短書の結合構造に類似していることが示唆された。さらに、より長いテキストを章などのセクションに分割する必要がある編集慣行とも一致している。提案手法は,様々な長さのテキストに対して,特に短いテキストに対して,不注意に関連情報を取り除くような大きなウィンドウサイズを用いる従来の手法とは対照的に,データ駆動分別手法も提供する。これらの結果は、将来の計算的文学的分析、特に物語の基本単位の測定への道を開く。

関連論文リスト

QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。このフレームワークを使って$textbfQUDsim$を作ります。 QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文参考訳（メタデータ） (2025-04-12T23:46:09Z)
ttta: Tools for Temporal Text Analysis [0.48163317476588563]
ほとんどのNLP技術は、時間に関してコーパスは均質であると考えている。これは、単語やフレーズの意味が時間とともに変化するため、バイアスのある結果につながる、単純化である。 tttaパッケージは、時間とともにテキストデータを分析するためのツールのコレクションとして機能するはずである。
論文参考訳（メタデータ） (2025-03-04T13:50:21Z)
Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文参考訳（メタデータ） (2023-11-28T21:15:24Z)
Textual Stylistic Variation: Choices, Genres and Individuals [0.8057441774248633]
この章では、テキストコレクションのスタイリスティックな変動の統計処理のためのより情報的なターゲットメトリクスを論じている。本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。
論文参考訳（メタデータ） (2022-05-01T16:39:49Z)
Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-24T12:55:23Z)
Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。 2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文参考訳（メタデータ） (2021-10-27T06:25:31Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文参考訳（メタデータ） (2020-12-07T12:09:37Z)
What time is it? Temporal Analysis of Novels [10.481474734742486]
我々は52,183冊の架空の書籍から時間毎のフレーズのデータセットを構築した。次に、平均誤差2.27時間を達成する日時分類モデルを構築する。ブレークポイントの動的プログラミングを用いて本全体を解析することにより、本を特定の日時に対応するセグメントに大まかに分割できることを示す。
論文参考訳（メタデータ） (2020-11-09T01:11:55Z)
Paragraph-level Commonsense Transformers with Recurrent Memory [77.4133779538797]
物語からコヒーレントなコモンセンス推論を生成するために,段落レベルの情報を含む談話認識モデルを訓練する。以上の結果から,PARA-COMETは文レベルのベースライン,特にコヒーレントかつ新規な推論に優れていた。
論文参考訳（メタデータ） (2020-10-04T05:24:12Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Generalized Word Shift Graphs: A Method for Visualizing and Explaining Pairwise Comparisons Between Texts [0.15833270109954134]
計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。一般化された単語シフトグラフを導入し、個々の単語が2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。このフレームワークは、相対周波数、辞書スコア、Kulback-LeiblerやJensen-Shannonの発散といったエントロピーに基づく測度など、テキストの比較によく使われる多くのアプローチを自然に含んでいることを示す。
論文参考訳（メタデータ） (2020-08-05T17:27:11Z)
Heaps' law and Heaps functions in tagged texts: Evidences of their linguistic relevance [0.0]
英文学作品75ドルのコーパスにおいて,語彙サイズと文長の関係について検討した。我々は、各テキストに沿って、各タグの新しい単語の進行的な出現を分析する。
論文参考訳（メタデータ） (2020-01-07T17:05:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。