論文の概要: When Agents Persuade: Propaganda Generation and Mitigation in LLMs
- arxiv url: http://arxiv.org/abs/2603.04636v1
- Date: Wed, 04 Mar 2026 21:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.988987
- Title: When Agents Persuade: Propaganda Generation and Mitigation in LLMs
- Title(参考訳): LLMにおけるプロパガンダ生成と緩和
- Authors: Julia Jose, Ritik Roongta, Rachel Greenstadt,
- Abstract要約: LLMは、マニピュレータ材料を製造するために利用することができる。
テキストをプロパガンダまたは非プロパガンダに分類するモデルと、プロパガンダの修辞的手法を検出するモデルを用いて、それらの出力を分析する。
その結果, 微調整によって生成傾向が著しく低下し, ORPOが最も有効であることが判明した。
- 参考スコア(独自算出の注目度): 2.1621083698499644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their wide-ranging benefits, LLM-based agents deployed in open environments can be exploited to produce manipulative material. In this study, we task LLMs with propaganda objectives and analyze their outputs using two domain-specific models: one that classifies text as propaganda or non-propaganda, and another that detects rhetorical techniques of propaganda (e.g., loaded language, appeals to fear, flag-waving, name-calling). Our findings show that, when prompted, LLMs exhibit propagandistic behaviors and use a variety of rhetorical techniques in doing so. We also explore mitigation via Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and ORPO (Odds Ratio Preference Optimization). We find that fine-tuning significantly reduces their tendency to generate such content, with ORPO proving most effective.
- Abstract(参考訳): 幅広い利点があるにもかかわらず、LLMベースのエージェントは、オープンな環境にデプロイされ、マニピュティブな材料を作るために利用することができる。
本研究では,プロパガンダを対象とし,テキストをプロパガンダまたは非プロパガンダに分類するモデルと,プロパガンダの修辞的手法を検出するモデル(例えば,ロード言語,恐怖へのアピール,フラグウェア,名前呼び出し)を用いて,その出力を解析する。
以上の結果から, LLMはプロパガンダ的行動を示し, 様々な修辞的手法を用いていることが明らかとなった。
また、SFT(Supervised Fine-Tuning)、DPO(Direct Preference Optimization)、ORPO(Odds Ratio Preference Optimization)による緩和についても検討する。
その結果, 微調整によって生成傾向が著しく低下し, ORPOが最も有効であることが判明した。
関連論文リスト
- UnWEIRDing LLM Entity Recommendations [0.0]
WEIRDフレームワークを使用して、粒度の細かいエンティティのデータセットにわたる様々な大規模言語モデルによるレコメンデーションを評価する。
以上の結果から,このような促進戦略はバイアスを低減させるが,この削減は異なるモデル間で一致していないことが示唆された。
論文 参考訳(メタデータ) (2025-11-23T11:14:32Z) - Passing the Turing Test in Political Discourse: Fine-Tuning LLMs to Mimic Polarized Social Media Comments [0.0]
本研究では、微調整された大言語モデル(LLM)が、偏光言説を再現し増幅できる範囲について検討する。
Redditから抽出された政治的に課金された議論のキュレートされたデータセットを使用して、オープンソースのLCMを微調整して、コンテキスト認識とイデオロギー的に整合した応答を生成します。
結果は、パルチザンのデータに基づいてトレーニングすると、LLMは高い信頼性と挑発的なコメントを生成でき、しばしば人間によって書かれたものと区別できないことを示唆している。
論文 参考訳(メタデータ) (2025-06-17T15:41:26Z) - On the Adaptive Psychological Persuasion of Large Language Models [37.18479986426215]
我々は,Large Language Models (LLMs) が自律的に説得し,説得に抵抗できることを示した。
総合的な心理的説得戦略を11つ導入する。
最適戦略を自律的に選択するようにLLMを訓練する適応型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-07T13:52:50Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages [51.96666324242191]
チャリティー広告作成タスクにおける新規筆記アシスタントのユーザ利用が、第2言語におけるAIの性能に影響を及ぼすかどうかを分析する。
我々は、これらのパターンが、生成したチャリティー広告の説得力に変換される程度を定量化する。
論文 参考訳(メタデータ) (2025-02-13T17:49:30Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent [71.20471076045916]
プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。
Propainsightはプロパガンダを体系的に、技術、覚醒的魅力、そして根底にある意図に分解する。
Propagazeは、人間の注釈付きデータと高品質な合成データを組み合わせる。
論文 参考訳(メタデータ) (2024-09-19T06:28:18Z) - Language Models can Subtly Deceive Without Lying: A Case Study on Strategic Phrasing in Legislation [23.309640920644565]
大規模言語モデル(LLM)は、戦略的に表現し、意図的に情報を操作することで微妙な偽装を行う。
本研究は,中性言語が自己維持目標を達成するために,LSMの戦略的表現能力のリスクを強調した。
論文 参考訳(メタデータ) (2024-05-07T13:55:11Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。