論文の概要: Transferring BERT-like Transformers' Knowledge for Authorship
Verification
- arxiv url: http://arxiv.org/abs/2112.05125v1
- Date: Thu, 9 Dec 2021 18:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:05:04.604855
- Title: Transferring BERT-like Transformers' Knowledge for Authorship
Verification
- Title(参考訳): オーサシップ検証のためのbert様トランスフォーマーの知識伝達
- Authors: Andrei Manolache, Florin Brad, Elena Burceanu, Antonio Barbalau, Radu
Ionescu, Marius Popescu
- Abstract要約: 著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
- 参考スコア(独自算出の注目度): 8.443350618722562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of identifying the author of a text spans several decades and was
tackled using linguistics, statistics, and, more recently, machine learning.
Inspired by the impressive performance gains across a broad range of natural
language processing tasks and by the recent availability of the PAN large-scale
authorship dataset, we first study the effectiveness of several BERT-like
transformers for the task of authorship verification. Such models prove to
achieve very high scores consistently. Next, we empirically show that they
focus on topical clues rather than on author writing style characteristics,
taking advantage of existing biases in the dataset. To address this problem, we
provide new splits for PAN-2020, where training and test data are sampled from
disjoint topics or authors. Finally, we introduce DarkReddit, a dataset with a
different input data distribution. We further use it to analyze the domain
generalization performance of models in a low-data regime and how performance
varies when using the proposed PAN-2020 splits for fine-tuning. We show that
those splits can enhance the models' capability to transfer knowledge over a
new, significantly different dataset.
- Abstract(参考訳): テキストの著者を特定する作業は数十年にわたって行われ、言語学、統計学、そして最近では機械学習を用いて取り組まれている。
広範囲にわたる自然言語処理タスクにおける顕著なパフォーマンス向上と,近頃のPAN大規模オーサシップデータセットの利用可能性に着想を得て,著者認証作業におけるBERTライクなトランスフォーマの有効性について検討した。
このようなモデルは、非常に高いスコアを一貫して達成することを証明する。
次に,データセット内の既存のバイアスを生かして,著者の執筆スタイルの特徴よりも,話題の手がかりに注目していることが実証的に示される。
この問題に対処するため,不連続なトピックや著者からトレーニングデータやテストデータをサンプリングするPAN-2020に新たなスプリットを提供する。
最後に、異なる入力データ分布を持つデータセットであるdarkredditを紹介する。
我々はさらに,低データ領域におけるモデルのドメイン一般化性能と,提案するpan-2020分割を用いた微調整時の性能変化について解析する。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
関連論文リスト
- Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - On the Use of BERT for Automated Essay Scoring: Joint Learning of
Multi-Scale Essay Representation [12.896747108919968]
本稿では,BERTの多人数エッセイ表現について紹介する。
実験結果から,本手法は多スケールエッセイ表現の共用学習から大きな恩恵を受けることが明らかとなった。
マルチスケールエッセイ表現もCommonLit Readability Prizeデータセットによく似ています。
論文 参考訳(メタデータ) (2022-05-08T10:36:54Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT [0.8379286663107844]
本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
論文 参考訳(メタデータ) (2020-03-06T09:46:51Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。