Fugu-MT 論文翻訳(概要): Understanding writing style in social media with a supervised contrastively pre-trained transformer

論文の概要: Understanding writing style in social media with a supervised contrastively pre-trained transformer

arxiv url: http://arxiv.org/abs/2310.11081v1
Date: Tue, 17 Oct 2023 09:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 17:03:36.561305
Title: Understanding writing style in social media with a supervised contrastively pre-trained transformer
Title（参考訳）: 教師付きコントラスト事前学習トランスフォーマによるソーシャルメディアの書き方理解
Authors: Javier Huertas-Tato, Alejandro Martin, David Camacho
Abstract要約: オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。 512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
参考スコア（独自算出の注目度）: 57.48690310135374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online Social Networks serve as fertile ground for harmful behavior, ranging from hate speech to the dissemination of disinformation. Malicious actors now have unprecedented freedom to misbehave, leading to severe societal unrest and dire consequences, as exemplified by events such as the Capitol assault during the US presidential election and the Antivaxx movement during the COVID-19 pandemic. Understanding online language has become more pressing than ever. While existing works predominantly focus on content analysis, we aim to shift the focus towards understanding harmful behaviors by relating content to their respective authors. Numerous novel approaches attempt to learn the stylistic features of authors in texts, but many of these approaches are constrained by small datasets or sub-optimal training losses. To overcome these limitations, we introduce the Style Transformer for Authorship Representations (STAR), trained on a large corpus derived from public sources of 4.5 x 10^6 authored texts involving 70k heterogeneous authors. Our model leverages Supervised Contrastive Loss to teach the model to minimize the distance between texts authored by the same individual. This author pretext pre-training task yields competitive performance at zero-shot with PAN challenges on attribution and clustering. Additionally, we attain promising results on PAN verification challenges using a single dense layer, with our model serving as an embedding encoder. Finally, we present results from our test partition on Reddit. Using a support base of 8 documents of 512 tokens, we can discern authors from sets of up to 1616 authors with at least 80\% accuracy. We share our pre-trained model at huggingface (https://huggingface.co/AIDA-UPM/star) and our code is available at (https://github.com/jahuerta92/star)
Abstract（参考訳）: オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。悪役は前例のない不正行為の自由を持ち、米国大統領選挙の議事堂襲撃や新型コロナウイルス(covid-19)パンデミックの反バスク運動など、深刻な社会不安や悲惨な結果をもたらしている。オンライン言語を理解することは、これまで以上に迫りつつある。既存の作品は主にコンテンツ分析に焦点を絞っているが、我々はそれぞれの著者に関連づけることで有害な行動の理解に焦点を移そうとしている。多くの新しいアプローチが著者のスタイル的特徴をテキストで学ぼうとしているが、これらのアプローチの多くは小さなデータセットや準最適訓練損失によって制約されている。これらの制約を克服するために,70kの異質な著者を含む4.5 x 10^6の著作物から派生した大規模コーパスをトレーニングしたStyle Transformer for Authorship Representations (STAR)を導入する。我々のモデルはSupervised Contrastive Lossを利用して、同じ個人によって書かれたテキスト間の距離を最小化するモデルを教える。この著者の事前学習タスクは、貢献とクラスタリングに関するPANの課題に対してゼロショットで競合するパフォーマンスをもたらす。さらに,組込みエンコーダとして機能する単一の高密度層を用いたPAN検証の課題に対して,有望な結果が得られる。最後に、redditのテストパーティションから結果を示します。 512トークンの8つのドキュメントのサポートベースを使用することで、少なくとも80\%の精度で、最大1616人の著者のセットから著者を識別することができる。トレーニング済みのモデルをhanggingface(https://huggingface.co/AIDA-UPM/star)で共有し、コードはhttps://github.com/jahuerta92/starで公開しています。

関連論文リスト

Breaking BERT: Gradient Attack on Twitter Sentiment Analysis for Targeted Misclassification [0.0]
Transformers BERTの双方向表現は感情分析に広く応用されている。 BERTは敵の攻撃を受けやすい。本稿は、Twitterの感情分析におけるそのようなモデル固有の脆弱性を精査することを目的としている。
論文参考訳（メタデータ） (2025-04-02T04:21:19Z)
Isolating authorship from content with semantic embeddings and contrastive learning [49.15148871877941]
作者は内部にスタイルとコンテンツが絡み合っている。本稿では,意味的類似性モデルを用いて合成的に生成した強みを付加したコントラスト学習手法を提案する。この切り離し技術は、コンテンツ埋め込み空間をスタイル埋め込み空間から遠ざけることを目的としており、スタイル埋め込みをより情報伝達する。
論文参考訳（メタデータ） (2024-11-27T16:08:46Z)
COVID-19 Twitter Sentiment Classification Using Hybrid Deep Learning Model Based on Grid Search Methodology [0.0]
感情予測は、Twitter COVID-19データセットへの埋め込み、ディープラーニングモデル、グリッド検索アルゴリズムを使用して達成される。研究によると、新型コロナウイルスの接種に対する大衆の感情は、時間とともに改善しているようだ。
論文参考訳（メタデータ） (2024-06-11T07:48:06Z)
Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。 CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。 BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文参考訳（メタデータ） (2024-04-02T14:55:47Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文参考訳（メタデータ） (2024-02-13T19:54:29Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Data-Driven Mitigation of Adversarial Text Perturbation [1.3649494534428743]
本研究では,NLPモデルを逆テキスト摂動に対して堅牢にするための難読化パイプラインを提案する。 CW2Vの埋め込みは、文字nグラムに基づく埋め込みよりも、テキストの摂動に対してより堅牢であることを示す。我々のパイプラインはエンゲージメントベイト分類を0.70から0.67AUCに分類し、敵対的なテキストの摂動を発生させる。
論文参考訳（メタデータ） (2022-02-19T00:49:12Z)
Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文参考訳（メタデータ） (2021-01-11T19:10:57Z)
Writer Identification Using Microblogging Texts for Social Media Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文参考訳（メタデータ） (2020-07-31T00:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。