論文の概要: How Far Will They Go? Red-Teaming Online Influence with Large Language Models
- arxiv url: http://arxiv.org/abs/2605.22880v1
- Date: Wed, 20 May 2026 19:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.018006
- Title: How Far Will They Go? Red-Teaming Online Influence with Large Language Models
- Title(参考訳): どこまで行くのか? 大規模言語モデルによるオンライン影響の再検討
- Authors: Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、ますますオンライン談話に参加するようになっている。
プライバシを意識した悪意のあるアクターの運用上の制約との整合性から,我々はローカルにデプロイされたオープンソース LLM に注目している。
本稿では, LLM overton Windows (OWs) を, モデルが議論の的となる話題に対して確実に表現できる政治的意見の範囲として定義した, 経験的赤チーム化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.2074171577139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントがオンライン談話にますます参加するにつれて、政治的影響力のキャンペーンを支援する能力の再チーム化は情報の整合性に不可欠である。
この目標を追求するために,我々は,ソーシャルメディア環境に展開するプライバシを意識した悪意のあるアクターの運用上の制約との整合性から,フロンティアAPIのみのモデルとは対照的に,ローカルにデプロイされたオープンソース LLM に注目した。
LLM overton Windows (OWs) を測定するための実証的なレッドチームフレームワークを導入し、モデルが議論の的となるトピックに対して確実に表現できる政治的意見の範囲として定義し、自然言語のジェイルブレイクがその範囲をいかに拡大するかを定量化する。
モデル家族10名と起源の5カ国にまたがる30以上のLSMを評価した。
オープンソース LLM は一般的に左利きのソーシャルメディアコンテンツを生成する傾向があり、OW はモデルサイズに逆らって契約する傾向があり、オープンソースエコシステムにおける不均一な表現にもかかわらず、地域差は実質的である。
ジェイルブレイクの有効性もモデルファミリによって大きく異なり、ジェイルブレイクテクニックの効果的な組み合わせを特定するワークフローを動機付けている。
本研究は,オープンソース LLM の政治的ステアビリティを評価するための実践的枠組みを確立し,今後の研究者が LLM 対応の影響力キャンペーンに対してより強力な対策を設計するための支援を行う。
関連論文リスト
- LLMs Can Infer Political Alignment from Online Conversations [8.422083744745324]
大規模言語モデル(LLM)は、政治的アライメントを確実に推測できることを示す。
LLMは、明確に政治的でないにもかかわらず、政治的整合を非常に予測可能な単語を活用する。
論文 参考訳(メタデータ) (2026-03-11T19:26:04Z) - Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space [57.868527884634894]
自然言語アクター・クライブ(英: Natural Language Actor-Critic)は、スカラー値ではなく自然言語を用いてポリシーを訓練する新しいアクター批判アルゴリズムである。
NLACが既存のトレーニング手法より優れていることを示すために、推論、Webブラウジング、ツールユースを対話タスクと組み合わせた結果を示す。
論文 参考訳(メタデータ) (2025-12-04T09:21:44Z) - Can LLMs effectively provide game-theoretic-based scenarios for cybersecurity? [51.96049148869987]
大規模言語モデル(LLM)は、コンピュータシステムのセキュリティに新しいツールと課題を提供する。
従来のゲーム理論フレームワークが,LLM駆動型アクターやボットの動作を効果的に捉えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-08-04T08:57:14Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Assessing Political Bias in Large Language Models [0.624709220163167]
我々は、ドイツの有権者の視点から、欧州連合(EU)内の政治問題に関するオープンソースのLarge Language Models(LLMs)の政治的バイアスを評価する。
Llama3-70Bのような大型モデルは、左派政党とより緊密に連携する傾向にあるが、小さなモデルは中立であることが多い。
論文 参考訳(メタデータ) (2024-05-17T15:30:18Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。