論文の概要: Can Authorship Representation Learning Capture Stylistic Features?
- arxiv url: http://arxiv.org/abs/2308.11490v2
- Date: Thu, 24 Aug 2023 20:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:32:25.301329
- Title: Can Authorship Representation Learning Capture Stylistic Features?
- Title(参考訳): 著者表現学習はスティリスティックな特徴を捉えることができるか?
- Authors: Andrew Wang, Cristina Aggazzotti, Rebecca Kotula, Rafael Rivera Soto,
Marcus Bishop, Nicholas Andrews
- Abstract要約: 本研究では,サロゲートオーサシップ予測タスクで学習した表現が,実際に書体に敏感であることを示す。
結果として、著者の表現は、時間とともに話題が漂うような、ある種のデータシフトに対して堅牢であることが期待できる。
我々の発見は、スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開くかもしれない。
- 参考スコア(独自算出の注目度): 5.812943049068866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically disentangling an author's style from the content of their
writing is a longstanding and possibly insurmountable problem in computational
linguistics. At the same time, the availability of large text corpora furnished
with author labels has recently enabled learning authorship representations in
a purely data-driven manner for authorship attribution, a task that ostensibly
depends to a greater extent on encoding writing style than encoding content.
However, success on this surrogate task does not ensure that such
representations capture writing style since authorship could also be correlated
with other latent variables, such as topic. In an effort to better understand
the nature of the information these representations convey, and specifically to
validate the hypothesis that they chiefly encode writing style, we
systematically probe these representations through a series of targeted
experiments. The results of these experiments suggest that representations
learned for the surrogate authorship prediction task are indeed sensitive to
writing style. As a consequence, authorship representations may be expected to
be robust to certain kinds of data shift, such as topic drift over time.
Additionally, our findings may open the door to downstream applications that
require stylistic representations, such as style transfer.
- Abstract(参考訳): 著者のスタイルを執筆内容から自動的に切り離すことは、計算言語学において長く、おそらくは不可能な問題である。
同時に、著者のラベルを付けた大きなテキストコーポラが利用可能になり、著者の帰属のために純粋にデータ駆動の方法で著者の表現を学習できるようになった。
しかし、このサロゲートタスクの成功は、著者がトピックのような他の潜在変数と関連付けられるので、そのような表現が書き込みスタイルをキャプチャすることを保証するものではない。
これらの表現が伝達する情報の性質をよりよく理解し、特に筆記スタイルを主にエンコードする仮説を検証するために、我々は一連の標的実験を通じてこれらの表現を体系的に調査する。
これらの実験の結果,サロゲートオーサシップ予測タスクで学んだ表現は書体に敏感であることが示唆された。
その結果、著者シップ表現は、トピックドリフトのような特定の種類のデータシフトに対して堅牢であることが期待できる。
さらに,スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開く可能性も示唆した。
関連論文リスト
- Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - Enhancing Representation Generalization in Authorship Identification [9.148691357200216]
著者の身元確認は、出自が公表されていないテキストの著者の身元を確認する。
現代の著作者識別法は、著作者スタイルの識別に有効であることが証明されている。
著者識別におけるスタイリスティックな表現の一般化の促進という課題に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:11:00Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。