論文の概要: Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach
- arxiv url: http://arxiv.org/abs/2411.04950v2
- Date: Fri, 08 Nov 2024 07:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 11:36:06.752228
- Title: Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach
- Title(参考訳): テクスチャ分類における逐次的関連文学的特性の影響の推定:データ中心仮説-テスティングアプローチ
- Authors: Gideon Yoffe, Nachum Dershowitz, Ariel Vishne, Barak Sober,
- Abstract要約: スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
- 参考スコア(独自算出の注目度): 4.161155428666988
- License:
- Abstract: Stylometry aims to distinguish authors by analyzing literary traits assumed to reflect semi-conscious choices distinct from elements like genre or theme. However, these components often overlap, complicating text classification based solely on feature distributions. While some literary properties, such as thematic content, are likely to manifest as correlations between adjacent text units, others, like authorial style, may be independent thereof. We introduce a hypothesis-testing approach to evaluate the influence of sequentially correlated literary properties on text classification, aiming to determine when these correlations drive classification. Using a multivariate binary distribution, our method models sequential correlations between text units as a stochastic process, assessing the likelihood of clustering across varying adjacency scales. This enables us to examine whether classification is dominated by sequentially correlated properties or remains independent. In experiments on a diverse English prose corpus, our analysis integrates traditional and neural embeddings within supervised and unsupervised frameworks. Results demonstrate that our approach effectively identifies when textual classification is not primarily influenced by sequentially correlated literary properties, particularly in cases where texts differ in authorial style or genre rather than by a single author within a similar genre.
- Abstract(参考訳): スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
しかし、これらのコンポーネントはしばしば重複し、特徴分布のみに基づくテキスト分類を複雑にする。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
本稿では,テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
多変量二元分布を用いて,テキスト単位間の逐次相関を確率的プロセスとしてモデル化し,様々な隣接スケールにまたがるクラスタリングの可能性を評価する。
これにより、分類がシーケンシャルに相関した性質に支配されているか、独立したままなのかを調べることができる。
英語の多種多様な散文コーパスの実験において、我々の分析は教師なしおよび教師なしのフレームワークに伝統的およびニューラルな埋め込みを統合する。
以上の結果から,本手法は文体分類が文体特性に大きく影響されない場合,特に文体が文体やジャンルによって異なる場合,特に同ジャンルの単一著者による場合において,効果的に識別できることが示唆された。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文 参考訳(メタデータ) (2022-11-29T15:14:47Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。