論文の概要: Whodunit? Learning to Contrast for Authorship Attribution
- arxiv url: http://arxiv.org/abs/2209.11887v1
- Date: Fri, 23 Sep 2022 23:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:02:12.131001
- Title: Whodunit? Learning to Contrast for Authorship Attribution
- Title(参考訳): ワドユニット?
著者帰属のためのコントラストの学習
- Authors: Bo Ai, Yuchen Wang, Yugin Tan, Samson Tan
- Abstract要約: 著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
- 参考スコア(独自算出の注目度): 22.37948005237967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship attribution is the task of identifying the author of a given text.
Most existing approaches use manually designed features that capture a
dataset's content and style. However, this dataset-dependent approach yields
inconsistent performance. Thus, we propose to fine-tune pre-trained language
representations using a combination of contrastive learning and supervised
learning (Contra-X). We show that Contra-X advances the state-of-the-art on
multiple human and machine authorship attribution benchmarks, enabling
improvements of up to 6.8%. We also show Contra-X to be consistently superior
to cross-entropy fine-tuning across different data regimes. Crucially, we
present qualitative and quantitative analyses of these improvements. Our
learned representations form highly separable clusters for different authors.
However, we find that contrastive learning improves overall accuracy at the
cost of sacrificing performance for some authors. Resolving this tension will
be an important direction for future work. To the best of our knowledge, we are
the first to analyze the effect of combining contrastive learning with
cross-entropy fine-tuning for authorship attribution.
- Abstract(参考訳): authorship attributionは、与えられたテキストの作者を特定するタスクである。
既存のアプローチのほとんどは、データセットの内容とスタイルをキャプチャする手動で設計された機能を使用する。
しかし、このデータセット依存のアプローチは一貫性のないパフォーマンスをもたらす。
そこで本稿では,コントラスト学習と教師あり学習(Contra-X)を組み合わせた事前学習言語表現の微調整を提案する。
Contra-Xは、複数の人間と機械のオーサシップ属性のベンチマークで最先端に進化し、最大6.8%の改善を実現している。
また、Contra-Xは、異なるデータレシージャ間でのクロスエントロピー微調整よりも一貫して優れていることを示す。
本稿では,これらの改善の質的,定量的な分析を行う。
学習した表現は、異なる著者に対して非常に分離可能なクラスタを形成する。
しかし、対照的な学習は、一部の著者にとって性能を犠牲にして全体的な精度を向上させる。
この緊張を解消することは、将来の仕事にとって重要な方向だ。
我々の知る限りでは、著者帰属のためのコントラスト学習とクロスエントロピー微調整の併用効果を初めて分析する。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Inferring Latent Class Statistics from Text for Robust Visual Few-Shot
Learning [4.300029426596762]
本稿では,各クラスにおける視覚的特徴分布の平均と共分散を予測するために,テキスト由来の統計情報を活用する新しい手法を提案する。
提案手法は,テキストを用いて分布の平均と共分散を予測し,数発の学習シナリオにおいて有望な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-11-24T15:23:47Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Emotions are Subtle: Learning Sentiment Based Text Representations Using
Contrastive Learning [6.6389732792316005]
比較学習の埋め込みを感情分析タスクに拡張する。
これらの埋め込みの微調整は、BERTベースの埋め込みの微調整よりも改善されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T08:29:26Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。