論文の概要: ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories
- arxiv url: http://arxiv.org/abs/2505.14917v1
- Date: Tue, 20 May 2025 21:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.758312
- Title: ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories
- Title(参考訳): ConspEmoLLM-v2: 感情転換型陰謀論を検出する頑健で安定なモデル
- Authors: Zhiwei Liu, Paul Thompson, Jiaqi Rong, Sophia Ananiadou,
- Abstract要約: 大型言語モデル(LLM)は、陰謀論を含む誤情報の自動生成などによって害を引き起こすことがある。
LLMは、例えば、典型的に強い負の感情をよりポジティブなトーンに変換することによって、特徴的なテキストの特徴を変化させることで、陰謀論を「軽視」することができる。
- 参考スコア(独自算出の注目度): 23.28977129097429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the many benefits of large language models (LLMs), they can also cause harm, e.g., through automatic generation of misinformation, including conspiracy theories. Moreover, LLMs can also ''disguise'' conspiracy theories by altering characteristic textual features, e.g., by transforming their typically strong negative emotions into a more positive tone. Although several studies have proposed automated conspiracy theory detection methods, they are usually trained using human-authored text, whose features can vary from LLM-generated text. Furthermore, several conspiracy detection models, including the previously proposed ConspEmoLLM, rely heavily on the typical emotional features of human-authored conspiracy content. As such, intentionally disguised content may evade detection. To combat such issues, we firstly developed an augmented version of the ConDID conspiracy detection dataset, ConDID-v2, which supplements human-authored conspiracy tweets with versions rewritten by an LLM to reduce the negativity of their original sentiment. The quality of the rewritten tweets was verified by combining human and LLM-based assessment. We subsequently used ConDID-v2 to train ConspEmoLLM-v2, an enhanced version of ConspEmoLLM. Experimental results demonstrate that ConspEmoLLM-v2 retains or exceeds the performance of ConspEmoLLM on the original human-authored content in ConDID, and considerably outperforms both ConspEmoLLM and several other baselines when applied to sentiment-transformed tweets in ConDID-v2. The project will be available at https://github.com/lzw108/ConspEmoLLM.
- Abstract(参考訳): 大きな言語モデル(LLM)の多くの利点にもかかわらず、共謀理論を含む誤情報の自動生成によって害を引き起こすこともある。
さらに、LLMは、典型的に強い負の感情をよりポジティブなトーンに変換することで、典型的なテキストの特徴、例えば、変化させることで、陰謀論を「軽視」することができる。
いくつかの研究で自動陰謀論検出法が提案されているが、通常はLLM生成テキストと異なる特徴を持つ人間によるテキストを用いて訓練されている。
さらに、以前提案されたConspEmoLLMを含むいくつかの陰謀検出モデルは、人間が許可した陰謀内容の典型的な感情的特徴に大きく依存している。
そのため、意図的に偽装されたコンテンツは検出を回避できる。
このような問題に対処するために、まず、人間による陰謀ツイートを補うConDID-v2の強化版を開発し、LLMによって書き換えられ、元の感情の否定性を低減した。
リライトされたツイートの品質は、人間とLLMによる評価を組み合わせることで検証された。
その後、ConspEmoLLM-v2の強化版であるConspEmoLLM-v2をトレーニングするためにConDID-v2を使用しました。
実験の結果、ConspEmoLLM-v2は、ConDIDのオリジナルの人間によるコンテンツ上でのConspEmoLLMの性能を維持し、また、ConDID-v2の感情変換ツイートに適用した場合、ConspEmoLLMおよび他のベースラインよりもかなり優れていた。
プロジェクトはhttps://github.com/lzw108/ConspEmoLLM.comから入手できる。
関連論文リスト
- Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - ConspEmoLLM: Conspiracy Theory Detection Using an Emotion-Based Large Language Model [24.650234558124442]
本研究では,情緒情報を統合し,陰謀論に関する多様なタスクを遂行できる初のオープンソースLCMであるConspEmoLLMを提案する。
ConspEmoLLMは、我々の新しいConDIDデータセットを用いて感情指向LLMに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-11T14:35:45Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。
難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文 参考訳(メタデータ) (2023-08-27T15:20:06Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。