Fugu-MT 論文翻訳(概要): Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach

論文の概要: Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach

arxiv url: http://arxiv.org/abs/2411.04950v2
Date: Fri, 08 Nov 2024 07:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.485192
Title: Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach
Title（参考訳）: テクスチャ分類における逐次的関連文学的特性の影響の推定:データ中心仮説-テスティングアプローチ
Authors: Gideon Yoffe, Nachum Dershowitz, Ariel Vishne, Barak Sober,
Abstract要約: スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
参考スコア（独自算出の注目度）: 4.161155428666988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stylometry aims to distinguish authors by analyzing literary traits assumed to reflect semi-conscious choices distinct from elements like genre or theme. However, these components often overlap, complicating text classification based solely on feature distributions. While some literary properties, such as thematic content, are likely to manifest as correlations between adjacent text units, others, like authorial style, may be independent thereof. We introduce a hypothesis-testing approach to evaluate the influence of sequentially correlated literary properties on text classification, aiming to determine when these correlations drive classification. Using a multivariate binary distribution, our method models sequential correlations between text units as a stochastic process, assessing the likelihood of clustering across varying adjacency scales. This enables us to examine whether classification is dominated by sequentially correlated properties or remains independent. In experiments on a diverse English prose corpus, our analysis integrates traditional and neural embeddings within supervised and unsupervised frameworks. Results demonstrate that our approach effectively identifies when textual classification is not primarily influenced by sequentially correlated literary properties, particularly in cases where texts differ in authorial style or genre rather than by a single author within a similar genre.
Abstract（参考訳）: スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。しかし、これらのコンポーネントはしばしば重複し、特徴分布のみに基づくテキスト分類を複雑にする。主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。本稿では,テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。多変量二元分布を用いて,テキスト単位間の逐次相関を確率的プロセスとしてモデル化し,様々な隣接スケールにまたがるクラスタリングの可能性を評価する。これにより、分類がシーケンシャルに相関した性質に支配されているか、独立したままなのかを調べることができる。英語の多種多様な散文コーパスの実験において、我々の分析は教師なしおよび教師なしのフレームワークに伝統的およびニューラルな埋め込みを統合する。以上の結果から,本手法は文体分類が文体特性に大きく影響されない場合,特に文体が文体やジャンルによって異なる場合,特に同ジャンルの単一著者による場合において,効果的に識別できることが示唆された。

関連論文リスト

Generative Classifiers Avoid Shortcut Solutions [84.23247217037134]
分類に対する差別的なアプローチは、しばしば、分配されるが、小さな分布シフトの下で失敗するショートカットを学習する。生成型分類器は、主にスパイラルな特徴ではなく、コアとスパイラルの両方の全ての特徴をモデル化することでこの問題を回避することができることを示す。拡散型および自己回帰型生成型分類器は,5つの標準画像およびテキスト分散シフトベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2025-12-31T18:31:46Z)
Target-oriented Multimodal Sentiment Classification with Counterfactual-enhanced Debiasing [5.0175188046562385]
マルチモーダル感情分類は、画像とテキストのペアから特定のターゲットに対する感情極性を予測しようとする。既存の作業はしばしばテキストの内容に過度に依存し、データセットのバイアスを考慮できない。本稿では,このような突発的相関を低減すべく,新たな反事実強化脱バイアスフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-11T05:40:53Z)
Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-29T20:56:34Z)
Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文参考訳（メタデータ） (2024-05-09T12:03:38Z)
Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文参考訳（メタデータ） (2024-05-06T17:12:21Z)
A Modified Word Saliency-Based Adversarial Attack on Text Classification Models [0.0]
本稿では,テキスト分類モデルを対象とした新たな逆攻撃手法を提案する。 The Modified Word Saliency-based Adversarial At-tack (MWSAA)は、セマンティックコヒーレンスを維持しながら分類モデルを誤解させる。多様なテキスト分類データセットを用いて実証評価を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-03-17T18:39:14Z)
Identifying Spurious Correlations using Counterfactual Alignment [5.782952470371709]
急激な相関によって駆動されるモデルは、しばしば一般化性能が劣る。本稿では,突発的相関を検出・定量化するためのCFアライメント手法を提案する。
論文参考訳（メタデータ） (2023-12-01T20:16:02Z)
A Comparative Study of Sentence Embedding Models for Assessing Semantic Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文参考訳（メタデータ） (2023-08-08T23:31:10Z)
Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文参考訳（メタデータ） (2023-03-30T12:24:25Z)
Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文参考訳（メタデータ） (2022-11-29T15:14:47Z)
Textual Entailment Recognition with Semantic Features from Empirical Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文参考訳（メタデータ） (2022-10-18T10:03:51Z)
Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文参考訳（メタデータ） (2022-05-23T17:38:30Z)
Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文参考訳（メタデータ） (2022-02-28T18:09:44Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Semantic Analysis for Automated Evaluation of the Potential Impact of Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文参考訳（メタデータ） (2021-04-26T20:37:13Z)
Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。 We learn sentiment, aspects> joint topic embeddeds in the word embedding space。次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文参考訳（メタデータ） (2020-10-13T21:33:24Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。 4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文参考訳（メタデータ） (2020-10-06T03:49:22Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)
A computational model implementing subjectivity with the 'Room Theory'. The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文参考訳（メタデータ） (2020-05-12T21:26:04Z)
Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。任意の関数に対するランダム化スムージングの統一的なビューを示す。本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文参考訳（メタデータ） (2020-02-07T21:28:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。