論文の概要: Enhancing Representation Generalization in Authorship Identification
- arxiv url: http://arxiv.org/abs/2310.00436v1
- Date: Sat, 30 Sep 2023 17:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:19:50.973710
- Title: Enhancing Representation Generalization in Authorship Identification
- Title(参考訳): 著者識別における表現一般化の促進
- Authors: Haining Wang
- Abstract要約: 著者の身元確認は、出自が公表されていないテキストの著者の身元を確認する。
現代の著作者識別法は、著作者スタイルの識別に有効であることが証明されている。
著者識別におけるスタイリスティックな表現の一般化の促進という課題に対処する。
- 参考スコア(独自算出の注目度): 9.148691357200216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship identification ascertains the authorship of texts whose origins
remain undisclosed. That authorship identification techniques work as reliably
as they do has been attributed to the fact that authorial style is properly
captured and represented. Although modern authorship identification methods
have evolved significantly over the years and have proven effective in
distinguishing authorial styles, the generalization of stylistic features
across domains has not been systematically reviewed. The presented work
addresses the challenge of enhancing the generalization of stylistic
representations in authorship identification, particularly when there are
discrepancies between training and testing samples. A comprehensive review of
empirical studies was conducted, focusing on various stylistic features and
their effectiveness in representing an author's style. The influencing factors
such as topic, genre, and register on writing style were also explored, along
with strategies to mitigate their impact. While some stylistic features, like
character n-grams and function words, have proven to be robust and
discriminative, others, such as content words, can introduce biases and hinder
cross-domain generalization. Representations learned using deep learning
models, especially those incorporating character n-grams and syntactic
information, show promise in enhancing representation generalization. The
findings underscore the importance of selecting appropriate stylistic features
for authorship identification, especially in cross-domain scenarios. The
recognition of the strengths and weaknesses of various linguistic features
paves the way for more accurate authorship identification in diverse contexts.
- Abstract(参考訳): 著者の識別は、原典が不明な文章の著者名を確認するものである。
その作者識別技術は、作者のスタイルが適切に捉えられ表現されているという事実から、確実に機能する。
現代の著者識別法は長年にわたって大きく進化し、著者のスタイルを区別するのに有効であることが証明されてきたが、ドメイン間の様式的特徴の一般化は体系的に検討されていない。
著者識別におけるスタイリスティックな表現の一般化,特にトレーニングとテストの相違点がある場合の課題に対処する。
経験的研究の包括的レビューを行い,著者のスタイル表現における様々な様式的特徴とその効果について考察した。
トピックやジャンル、書き方に対するレジスタといった影響要因も検討され、その影響を緩和する戦略も検討された。
文字のn-gramや関数の単語のようなスタイル的特徴は頑健で差別的であることが証明されているが、コンテンツの単語のような他の特徴はバイアスをもたらし、ドメイン間の一般化を妨げることがある。
深層学習モデルを用いて学習した表現、特に文字n-gramと構文情報を組み込んだ表現は、表現の一般化の促進を約束する。
この発見は、特にクロスドメインシナリオにおいて、著者の識別に適切なスタイル的特徴を選択することの重要性を強調している。
様々な言語的特徴の強みと弱さの認識は、様々な文脈においてより正確な著者識別の道を開く。
関連論文リスト
- Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Can Authorship Representation Learning Capture Stylistic Features? [5.812943049068866]
本研究では,サロゲートオーサシップ予測タスクで学習した表現が,実際に書体に敏感であることを示す。
結果として、著者の表現は、時間とともに話題が漂うような、ある種のデータシフトに対して堅牢であることが期待できる。
我々の発見は、スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開くかもしれない。
論文 参考訳(メタデータ) (2023-08-22T15:10:45Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Idiosyncratic but not Arbitrary: Learning Idiolects in Online Registers
Reveals Distinctive yet Consistent Individual Styles [7.4037154707453965]
我々は,文体の特徴を特定し,エンコードするために,多人数の著者間比較を通じてイディオレクトを研究するための新しいアプローチを提案する。
ニューラルネットワークは短いテキストの著者識別において高い性能を達成する。
異なる言語要素の相対的寄与と慣用的変動を定量化する。
論文 参考訳(メタデータ) (2021-09-07T15:49:23Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。