論文の概要: How Different Text-preprocessing Techniques Using The BERT Model Affect
The Gender Profiling of Authors
- arxiv url: http://arxiv.org/abs/2109.13890v1
- Date: Tue, 28 Sep 2021 17:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:46:56.141055
- Title: How Different Text-preprocessing Techniques Using The BERT Model Affect
The Gender Profiling of Authors
- Title(参考訳): BERTモデルを用いたテキスト前処理技術の違いが著者のジェンダープロファイリングに及ぼす影響
- Authors: Esam Alzahrani and Leon Jololian
- Abstract要約: 法医学的な著者のプロファイリングは、容疑者のプロファイルを示す上で重要な役割を果たす。
トランスファーラーニングは自然言語処理において、他の最先端技術よりも優れています。
BERTは、前処理技術を適用しない場合に、著者の性別を予測するのに最適な精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Forensic author profiling plays an important role in indicating possible
profiles for suspects. Among the many automated solutions recently proposed for
author profiling, transfer learning outperforms many other state-of-the-art
techniques in natural language processing. Nevertheless, the sophisticated
technique has yet to be fully exploited for author profiling. At the same time,
whereas current methods of author profiling, all largely based on features
engineering, have spawned significant variation in each model used, transfer
learning usually requires a preprocessed text to be fed into the model. We
reviewed multiple references in the literature and determined the most common
preprocessing techniques associated with authors' genders profiling.
Considering the variations in potential preprocessing techniques, we conducted
an experimental study that involved applying five such techniques to measure
each technique's effect while using the BERT model, chosen for being one of the
most-used stock pretrained models. We used the Hugging face transformer library
to implement the code for each preprocessing case. In our five experiments, we
found that BERT achieves the best accuracy in predicting the gender of the
author when no preprocessing technique is applied. Our best case achieved
86.67% accuracy in predicting the gender of authors.
- Abstract(参考訳): 法医学的著者プロファイルは、容疑者のプロファイルを示す上で重要な役割を果たす。
著者のプロファイリングのために最近提案された多くの自動解のうち、トランスファーラーニングは自然言語処理における他の最先端技術よりも優れている。
それでも、この高度なテクニックは、著者のプロファイリングに完全に活用されていない。
同時に、現在の著者プロファイリングの手法は、主に機能工学に基づいており、使用するモデルごとに大きなバリエーションを生み出しているのに対し、トランスファーラーニングは通常、モデルに入力するために前処理されたテキストが必要である。
文献中の複数の文献をレビューし,著者の性別分析に最もよく用いられる前処理手法について検討した。
潜在的な前処理技術のバリエーションを考慮し,各手法の効果を測定するための5つの手法を適用し,最もよく使われるストックプリトレーニングモデルの1つであるbertモデルを用いて実験を行った。
私たちは、ハグフェイストランスフォーマーライブラリを使用して、各プリプロセッシングケースのコードを実装しました。
5つの実験で, BERTは前処理技術を適用しない場合, 著者の性別を予測するのに最適であることがわかった。
我々のベストケースは、著者の性別を予測する上で86.67%の精度を達成した。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Model adaptation and unsupervised learning with non-stationary batch
data under smooth concept drift [8.068725688880772]
ほとんどの予測モデルは、トレーニングとテストデータは定常的なプロセスから生成されると仮定する。
我々は、データソースの非定常性に起因する段階的な概念の漂流のシナリオを考察する。
予測モデルの教師なし適応のための新しい反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。