論文の概要: Comparative Computational Analysis of Global Structure in Canonical,
Non-Canonical and Non-Literary Texts
- arxiv url: http://arxiv.org/abs/2008.10906v1
- Date: Tue, 25 Aug 2020 09:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:42:15.823583
- Title: Comparative Computational Analysis of Global Structure in Canonical,
Non-Canonical and Non-Literary Texts
- Title(参考訳): カノニカル、ノンカノニカル、ノンリテラルテキストにおける大域構造の比較計算解析
- Authors: Mahdi Mohseni, Volker Gast, Christoph Redies
- Abstract要約: 3つのテキストタイプ(ノンリテラル、文学/カノニカル、文学/カノニカル)は、読者の美的反応の相関として構造設計の特徴に関して体系的な違いを示す。
大域構造の2つの側面、変動性、およびテキストに沿った長距離相関を反映する自己相似(フラクタル)パターンについて検討した。
その結果,3種類のテキストに対して,テキストの低レベル特性は高レベル特性よりも差別性が高いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates global properties of literary and non-literary texts.
Within the literary texts, a distinction is made between canonical and
non-canonical works. The central hypothesis of the study is that the three text
types (non-literary, literary/canonical and literary/non-canonical) exhibit
systematic differences with respect to structural design features as correlates
of aesthetic responses in readers. To investigate these differences, we
compiled a corpus containing texts of the three categories of interest, the
Jena Textual Aesthetics Corpus. Two aspects of global structure are
investigated, variability and self-similar (fractal) patterns, which reflect
long-range correlations along texts. We use four types of basic observations,
(i) the frequency of POS-tags per sentence, (ii) sentence length, (iii) lexical
diversity in chunks of text, and (iv) the distribution of topic probabilities
in chunks of texts. These basic observations are grouped into two more general
categories, (a) the low-level properties (i) and (ii), which are observed at
the level of the sentence (reflecting linguistic decoding), and (b) the
high-level properties (iii) and (iv), which are observed at the textual level
(reflecting comprehension). The basic observations are transformed into time
series, and these time series are subject to multifractal detrended fluctuation
analysis (MFDFA). Our results show that low-level properties of texts are
better discriminators than high-level properties, for the three text types
under analysis. Canonical literary texts differ from non-canonical ones
primarily in terms of variability. Fractality seems to be a universal feature
of text, more pronounced in non-literary than in literary texts. Beyond the
specific results of the study, we intend to open up new perspectives on the
experimental study of textual aesthetics.
- Abstract(参考訳): 本研究では,文学テキストと非文学テキストのグローバルな特性について検討する。
文学作品の中では、正典とノンカノニカルの区別がなされている。
この研究の中心的な仮説は、3つのテキストタイプ(非文学的・文学的・文学的)は、読者の美的反応の相関として、構造的デザインの特徴に関して系統的な違いを示すことである。
これらの違いを調査するため,本研究では,3つのカテゴリのテキストを含むコーパス,Jena Textual Aesthetics Corpusを作成した。
全球構造の2つの側面,テキストに沿った長距離相関を反映した可変性と自己相似的(フラクタル)パターンについて検討した。
基本的な観測は4種類ある。
(i)文毎のPOSタグの頻度
(ii)文の長さ。
(iii)テキストのチャンクにおける語彙の多様性、及び
(iv)テキストのチャンクにおける話題確率の分布
これらの基本的な観測は、(a)低レベルな性質の2つのより一般的なカテゴリに分類される
(i)および
(ii)文のレベルで観察される(言語デコーディングを反映する)こと、(b)高水準の特性
(iii)及び
(iv)テキストレベルで観察される(理解の反映)。
基本観測は時系列に変換され、これらの時系列はマルチフラクタル遅延変動解析(MFDFA)の対象となる。
その結果,3種類のテキストに対して,テキストの低レベル特性は高レベル特性よりも差別性が高いことがわかった。
標準文学の文章は、主に可変性の点で非標準文学と異なる。
フラクタリティはテキストの普遍的な特徴であり、文学的テキストよりも非文学的に発音される。
本研究の具体的な結果以外にも,テキスト美学の実験的な研究に関する新たな視点を開こうとしている。
関連論文リスト
- Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach [4.161155428666988]
スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:28:40Z) - Threads of Subtlety: Detecting Machine-Generated Texts Through Discourse Motifs [19.073560504913356]
人造テキストと機械生成テキストの境界線は、ますますぼやけつつある。
本稿は,人間によって書かれたテキストにおいて,識別可能な言語的特徴と独特な言語的特性を識別する調査について述べる。
論文 参考訳(メタデータ) (2024-02-16T11:20:30Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - How Do In-Context Examples Affect Compositional Generalization? [86.57079616209474]
本稿では,コンテクスト内構成一般化を検証するためのテストスイートであるCoFeを提案する。
構成一般化性能は、文脈内例の選択によって容易に影響を受けることが判明した。
我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示します。
論文 参考訳(メタデータ) (2023-05-08T16:32:18Z) - A Statistical Exploration of Text Partition Into Constituents: The Case
of the Priestly Source in the Books of Genesis and Exodus [1.8780017602640042]
本稿では, テクストのテクスト探索のためのパイプラインを提案し, テクストのスタイメオグラフィーに基づく説明と, テキストの仮定分割の統計的検証を行う。
私たちは、聖書の最初の2冊の本にパイプラインを適用し、そこでは1つの様式的な要素が聖書学者、すなわちプリーストリーの構成要素の目の前で際立っている。
論文 参考訳(メタデータ) (2023-05-03T15:07:42Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。