論文の概要: PART: Pre-trained Authorship Representation Transformer
- arxiv url: http://arxiv.org/abs/2209.15373v1
- Date: Fri, 30 Sep 2022 11:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:24:21.633098
- Title: PART: Pre-trained Authorship Representation Transformer
- Title(参考訳): part: 事前学習した著作表現変換器
- Authors: Javier Huertas-Tato, Alvaro Huertas-Garcia, Alejandro Martin, David
Camacho
- Abstract要約: 文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
- 参考スコア(独自算出の注目度): 64.78260098263489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authors writing documents imprint identifying information within their texts:
vocabulary, registry, punctuation, misspellings, or even emoji usage. Finding
these details is very relevant to profile authors, relating back to their
gender, occupation, age, and so on. But most importantly, repeating writing
patterns can help attributing authorship to a text. Previous works use
hand-crafted features or classification tasks to train their authorship models,
leading to poor performance on out-of-domain authors. A better approach to this
task is to learn stylometric representations, but this by itself is an open
research challenge. In this paper, we propose PART: a contrastively trained
model fit to learn \textbf{authorship embeddings} instead of semantics. By
comparing pairs of documents written by the same author, we are able to
determine the proprietary of a text by evaluating the cosine similarity of the
evaluated documents, a zero-shot generalization to authorship identification.
To this end, a pre-trained Transformer with an LSTM head is trained with the
contrastive training method. We train our model on a diverse set of authors,
from literature, anonymous blog posters and corporate emails; a heterogeneous
set with distinct and identifiable writing styles. The model is evaluated on
these datasets, achieving zero-shot 72.39\% and 86.73\% accuracy and top-5
accuracy respectively on the joint evaluation dataset when determining
authorship from a set of 250 different authors. We qualitatively assess the
representations with different data visualizations on the available datasets,
profiling features such as book types, gender, age, or occupation of the
author.
- Abstract(参考訳): 文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
これらの詳細を見つけることは、プロファイル作成者にとって非常に関係があり、性別、職業、年齢等に遡る。
しかし、最も重要なことは、繰り返し書くパターンが著者をテキストに導くのに役立つことだ。
以前の作品では、著者モデルのトレーニングに手作りの機能や分類タスクを使用しており、ドメイン外の著者のパフォーマンスが低下している。
この課題に対するより良いアプローチは、スタイロメトリック表現を学ぶことですが、それ自体はオープンリサーチの課題です。
本稿では,セマンティクスの代わりに,<textbf{authorship embeddeds} を学ぶのに適した,コントラスト的に訓練されたモデルを提案する。
同じ著者が書いた文書のペアを比較することで、著者識別に対するゼロショットの一般化である、評価された文書のコサイン類似性を評価することによって、テキストのプロプライエタリを決定できる。
この目的のために、LSTMヘッド付き事前訓練された変換器をコントラスト訓練法で訓練する。
私たちは、文献、匿名のブログポスター、企業メールなど、さまざまな著者のセットでモデルをトレーニングしています。
これらのデータセット上で評価を行い、250の異なる著者から著者名を決定する際、ジョイント評価データセット上でそれぞれゼロショット72.39\%、86.73\%、top-5の精度をそれぞれ達成する。
我々は、利用可能なデータセット、書籍の種類、性別、年齢、著者の職業など、さまざまなデータ視覚化による表現を質的に評価する。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Can Authorship Representation Learning Capture Stylistic Features? [5.812943049068866]
本研究では,サロゲートオーサシップ予測タスクで学習した表現が,実際に書体に敏感であることを示す。
結果として、著者の表現は、時間とともに話題が漂うような、ある種のデータシフトに対して堅牢であることが期待できる。
我々の発見は、スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開くかもしれない。
論文 参考訳(メタデータ) (2023-08-22T15:10:45Z) - Towards Writing Style Adaptation in Handwriting Recognition [0.0]
著者のアイデンティティを付加的な入力として捉えるために,著者に依存したパラメータを持つモデルについて検討する。
本稿では,学習した分割の埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。
著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定することが可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T12:36:17Z) - Cloning Ideology and Style using Deep Learning [0.0]
研究は、特定の著者のイデオロギーとスタイルに基づくテキスト生成と、過去に同じ著者が書いたものではないトピックに関するテキスト生成に焦点を当てている。
Bi-LSTMモデルを用いて文字レベルでの予測を行う。
事前学習モデルを用いて、著者のコーパスと矛盾する真実の文を識別し、言語モデルを傾斜させる。
論文 参考訳(メタデータ) (2022-10-25T11:37:19Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。