論文の概要: ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories
- arxiv url: http://arxiv.org/abs/2505.14917v1
- Date: Tue, 20 May 2025 21:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.758312
- Title: ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories
- Title(参考訳): ConspEmoLLM-v2: 感情転換型陰謀論を検出する頑健で安定なモデル
- Authors: Zhiwei Liu, Paul Thompson, Jiaqi Rong, Sophia Ananiadou,
- Abstract要約: 大型言語モデル(LLM)は、陰謀論を含む誤情報の自動生成などによって害を引き起こすことがある。
LLMは、例えば、典型的に強い負の感情をよりポジティブなトーンに変換することによって、特徴的なテキストの特徴を変化させることで、陰謀論を「軽視」することができる。
- 参考スコア(独自算出の注目度): 23.28977129097429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the many benefits of large language models (LLMs), they can also cause harm, e.g., through automatic generation of misinformation, including conspiracy theories. Moreover, LLMs can also ''disguise'' conspiracy theories by altering characteristic textual features, e.g., by transforming their typically strong negative emotions into a more positive tone. Although several studies have proposed automated conspiracy theory detection methods, they are usually trained using human-authored text, whose features can vary from LLM-generated text. Furthermore, several conspiracy detection models, including the previously proposed ConspEmoLLM, rely heavily on the typical emotional features of human-authored conspiracy content. As such, intentionally disguised content may evade detection. To combat such issues, we firstly developed an augmented version of the ConDID conspiracy detection dataset, ConDID-v2, which supplements human-authored conspiracy tweets with versions rewritten by an LLM to reduce the negativity of their original sentiment. The quality of the rewritten tweets was verified by combining human and LLM-based assessment. We subsequently used ConDID-v2 to train ConspEmoLLM-v2, an enhanced version of ConspEmoLLM. Experimental results demonstrate that ConspEmoLLM-v2 retains or exceeds the performance of ConspEmoLLM on the original human-authored content in ConDID, and considerably outperforms both ConspEmoLLM and several other baselines when applied to sentiment-transformed tweets in ConDID-v2. The project will be available at https://github.com/lzw108/ConspEmoLLM.
- Abstract(参考訳): 大きな言語モデル(LLM)の多くの利点にもかかわらず、共謀理論を含む誤情報の自動生成によって害を引き起こすこともある。
さらに、LLMは、典型的に強い負の感情をよりポジティブなトーンに変換することで、典型的なテキストの特徴、例えば、変化させることで、陰謀論を「軽視」することができる。
いくつかの研究で自動陰謀論検出法が提案されているが、通常はLLM生成テキストと異なる特徴を持つ人間によるテキストを用いて訓練されている。
さらに、以前提案されたConspEmoLLMを含むいくつかの陰謀検出モデルは、人間が許可した陰謀内容の典型的な感情的特徴に大きく依存している。
そのため、意図的に偽装されたコンテンツは検出を回避できる。
このような問題に対処するために、まず、人間による陰謀ツイートを補うConDID-v2の強化版を開発し、LLMによって書き換えられ、元の感情の否定性を低減した。
リライトされたツイートの品質は、人間とLLMによる評価を組み合わせることで検証された。
その後、ConspEmoLLM-v2の強化版であるConspEmoLLM-v2をトレーニングするためにConDID-v2を使用しました。
実験の結果、ConspEmoLLM-v2は、ConDIDのオリジナルの人間によるコンテンツ上でのConspEmoLLMの性能を維持し、また、ConDID-v2の感情変換ツイートに適用した場合、ConspEmoLLMおよび他のベースラインよりもかなり優れていた。
プロジェクトはhttps://github.com/lzw108/ConspEmoLLM.comから入手できる。
関連論文リスト
- TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents [4.753535328327316]
大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。
そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。
本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
論文 参考訳(メタデータ) (2025-05-30T07:16:53Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。
LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。
LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文 参考訳(メタデータ) (2025-02-25T00:58:06Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - ConspEmoLLM: Conspiracy Theory Detection Using an Emotion-Based Large Language Model [24.650234558124442]
本研究では,情緒情報を統合し,陰謀論に関する多様なタスクを遂行できる初のオープンソースLCMであるConspEmoLLMを提案する。
ConspEmoLLMは、我々の新しいConDIDデータセットを用いて感情指向LLMに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-11T14:35:45Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。
難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文 参考訳(メタデータ) (2023-08-27T15:20:06Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。