論文の概要: Unmasking the Imposters: How Censorship and Domain Adaptation Affect the Detection of Machine-Generated Tweets
- arxiv url: http://arxiv.org/abs/2406.17967v2
- Date: Tue, 17 Sep 2024 21:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:53:23.236146
- Title: Unmasking the Imposters: How Censorship and Domain Adaptation Affect the Detection of Machine-Generated Tweets
- Title(参考訳): インポスタをアンマキングする: 検閲とドメイン適応がマシン生成ツイートの検出にどのように影響するか
- Authors: Bryan E. Tuck, Rakesh M. Verma,
- Abstract要約: 4つの著名な大規模言語モデル(LLM)の生成能力を調べるために,9つのTwitterデータセットを作成する手法を提案する。
これらのデータセットは、3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを含む、検閲されていない4つの5つのモデル構成を含んでいる。
評価の結果,「アンセンソルド」モデルが自動検出手法の有効性を著しく損なうことが明らかとなった。
- 参考スコア(独自算出の注目度): 2.41710192205034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of large language models (LLMs) has significantly improved the generation of fluent and convincing text, raising concerns about their potential misuse on social media platforms. We present a comprehensive methodology for creating nine Twitter datasets to examine the generative capabilities of four prominent LLMs: Llama 3, Mistral, Qwen2, and GPT4o. These datasets encompass four censored and five uncensored model configurations, including 7B and 8B parameter base-instruction models of the three open-source LLMs. Additionally, we perform a data quality analysis to assess the characteristics of textual outputs from human, "censored," and "uncensored" models, employing semantic meaning, lexical richness, structural patterns, content characteristics, and detector performance metrics to identify differences and similarities. Our evaluation demonstrates that "uncensored" models significantly undermine the effectiveness of automated detection methods. This study addresses a critical gap by exploring smaller open-source models and the ramifications of "uncensoring," providing valuable insights into how domain adaptation and content moderation strategies influence both the detectability and structural characteristics of machine-generated text.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、流動的で説得力のあるテキストの生成が大幅に向上し、ソーシャルメディアプラットフォームでの誤用の可能性への懸念が高まった。
Llama, Mistral, Qwen2, GPT4oの4つの有名なLLMの生成能力を調べるために, 9つのTwitterデータセットを作成するための包括的な方法論を提案する。
これらのデータセットは、3つのオープンソースLCMの7Bおよび8Bパラメータベースインストラクションモデルを含む、検閲されていない4つの5つのモデル構成を含んでいる。
さらに,人間,検閲された」「検閲されていない」モデルからのテキスト出力の特性を評価するためにデータ品質分析を行い,意味的意味,語彙的豊かさ,構造パターン,コンテンツ特性,および検出性能指標を用いて違いと類似性を識別する。
評価の結果,「アンセンソルド」モデルが自動検出手法の有効性を著しく損なうことが明らかとなった。
本研究は、より小さなオープンソースモデルと「アンセンサリング(uncensoring)」がもたらす影響を探求し、ドメイン適応とコンテンツモデレーション戦略が、機械生成テキストの検知可能性と構造的特性の両方にどのように影響するかについての貴重な知見を提供する。
関連論文リスト
- AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-04-18T06:52:14Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Disfluency Detection with Unlabeled Data and Small BERT Models [3.04133054437883]
本稿では,BERTアーキテクチャに基づく小型・高速・オンデバイスモデルに焦点をあてて,ディフルエンシ検出タスクに着目する。
性能を保ちながら1.3 MiB程度の拡散検出モデルを訓練できることを実証する。
論文 参考訳(メタデータ) (2021-04-21T21:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。