Fugu-MT 論文翻訳(概要): PART: Pre-trained Authorship Representation Transformer

論文の概要: PART: Pre-trained Authorship Representation Transformer

arxiv url: http://arxiv.org/abs/2209.15373v1
Date: Fri, 30 Sep 2022 11:08:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 15:24:21.633098
Title: PART: Pre-trained Authorship Representation Transformer
Title（参考訳）: part: 事前学習した著作表現変換器
Authors: Javier Huertas-Tato, Alvaro Huertas-Garcia, Alejandro Martin, David Camacho
Abstract要約: 文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
参考スコア（独自算出の注目度）: 64.78260098263489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Authors writing documents imprint identifying information within their texts: vocabulary, registry, punctuation, misspellings, or even emoji usage. Finding these details is very relevant to profile authors, relating back to their gender, occupation, age, and so on. But most importantly, repeating writing patterns can help attributing authorship to a text. Previous works use hand-crafted features or classification tasks to train their authorship models, leading to poor performance on out-of-domain authors. A better approach to this task is to learn stylometric representations, but this by itself is an open research challenge. In this paper, we propose PART: a contrastively trained model fit to learn \textbf{authorship embeddings} instead of semantics. By comparing pairs of documents written by the same author, we are able to determine the proprietary of a text by evaluating the cosine similarity of the evaluated documents, a zero-shot generalization to authorship identification. To this end, a pre-trained Transformer with an LSTM head is trained with the contrastive training method. We train our model on a diverse set of authors, from literature, anonymous blog posters and corporate emails; a heterogeneous set with distinct and identifiable writing styles. The model is evaluated on these datasets, achieving zero-shot 72.39\% and 86.73\% accuracy and top-5 accuracy respectively on the joint evaluation dataset when determining authorship from a set of 250 different authors. We qualitatively assess the representations with different data visualizations on the available datasets, profiling features such as book types, gender, age, or occupation of the author.
Abstract（参考訳）: 文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。これらの詳細を見つけることは、プロファイル作成者にとって非常に関係があり、性別、職業、年齢等に遡る。しかし、最も重要なことは、繰り返し書くパターンが著者をテキストに導くのに役立つことだ。以前の作品では、著者モデルのトレーニングに手作りの機能や分類タスクを使用しており、ドメイン外の著者のパフォーマンスが低下している。この課題に対するより良いアプローチは、スタイロメトリック表現を学ぶことですが、それ自体はオープンリサーチの課題です。本稿では,セマンティクスの代わりに,<textbf{authorship embeddeds} を学ぶのに適した,コントラスト的に訓練されたモデルを提案する。同じ著者が書いた文書のペアを比較することで、著者識別に対するゼロショットの一般化である、評価された文書のコサイン類似性を評価することによって、テキストのプロプライエタリを決定できる。この目的のために、LSTMヘッド付き事前訓練された変換器をコントラスト訓練法で訓練する。私たちは、文献、匿名のブログポスター、企業メールなど、さまざまな著者のセットでモデルをトレーニングしています。これらのデータセット上で評価を行い、250の異なる著者から著者名を決定する際、ジョイント評価データセット上でそれぞれゼロショット72.39\%、86.73\%、top-5の精度をそれぞれ達成する。我々は、利用可能なデータセット、書籍の種類、性別、年齢、著者の職業など、さまざまなデータ視覚化による表現を質的に評価する。

関連論文リスト

A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文参考訳（メタデータ） (2024-07-18T10:01:09Z)
Understanding writing style in social media with a supervised contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。 512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文参考訳（メタデータ） (2023-10-17T09:01:17Z)
Self-Supervised Representation Learning for Online Handwriting Text Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文参考訳（メタデータ） (2023-10-10T14:07:49Z)
Can Authorship Representation Learning Capture Stylistic Features? [5.812943049068866]
本研究では,サロゲートオーサシップ予測タスクで学習した表現が,実際に書体に敏感であることを示す。結果として、著者の表現は、時間とともに話題が漂うような、ある種のデータシフトに対して堅牢であることが期待できる。我々の発見は、スタイル転送のようなスタイル表現を必要とする下流アプリケーションへの扉を開くかもしれない。
論文参考訳（メタデータ） (2023-08-22T15:10:45Z)
How to Choose Pretrained Handwriting Recognition Models for Single Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文参考訳（メタデータ） (2023-05-04T07:00:28Z)
Towards Writing Style Adaptation in Handwriting Recognition [0.0]
著者のアイデンティティを付加的な入力として捉えるために,著者に依存したパラメータを持つモデルについて検討する。本稿では,学習した分割の埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定することが可能であることを示す。
論文参考訳（メタデータ） (2023-02-13T12:36:17Z)
Cloning Ideology and Style using Deep Learning [0.0]
研究は、特定の著者のイデオロギーとスタイルに基づくテキスト生成と、過去に同じ著者が書いたものではないトピックに関するテキスト生成に焦点を当てている。 Bi-LSTMモデルを用いて文字レベルでの予測を行う。事前学習モデルを用いて、著者のコーパスと矛盾する真実の文を識別し、言語モデルを傾斜させる。
論文参考訳（メタデータ） (2022-10-25T11:37:19Z)
Unsupervised Neural Stylistic Text Generation using Transfer learning and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文参考訳（メタデータ） (2022-10-07T00:09:22Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)
Authorship Attribution in Bangla literature using Character-level CNN [0.5243460995467893]
バングラ文学の著者属性における文字レベル信号の有効性について検討する。提案するモデルの時間とメモリ効率は,単語レベルよりもはるかに高い。事前トレーニングでは最大10%パフォーマンスが向上している。
論文参考訳（メタデータ） (2020-01-11T14:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。