論文の概要: Moloch's Bargain: Emergent Misalignment When LLMs Compete for Audiences
- arxiv url: http://arxiv.org/abs/2510.06105v1
- Date: Tue, 07 Oct 2025 16:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.358813
- Title: Moloch's Bargain: Emergent Misalignment When LLMs Compete for Audiences
- Title(参考訳): モロックのバルゲイン: LLMがオーディエンスに勝つときの創発的なミス
- Authors: Batu El, James Zou,
- Abstract要約: 大規模言語モデル(LLM)は、情報の生成と普及の仕方を変えつつある。
競争的な成功のためにLLMを最適化することは、必然的に誤調整を招きかねないことが示される。
私たちはこの現象を、AIのためのMoroch's Bargainと呼びます。
- 参考スコア(独自算出の注目度): 26.925634577006054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly shaping how information is created and disseminated, from companies using them to craft persuasive advertisements, to election campaigns optimizing messaging to gain votes, to social media influencers boosting engagement. These settings are inherently competitive, with sellers, candidates, and influencers vying for audience approval, yet it remains poorly understood how competitive feedback loops influence LLM behavior. We show that optimizing LLMs for competitive success can inadvertently drive misalignment. Using simulated environments across these scenarios, we find that, 6.3% increase in sales is accompanied by a 14.0% rise in deceptive marketing; in elections, a 4.9% gain in vote share coincides with 22.3% more disinformation and 12.5% more populist rhetoric; and on social media, a 7.5% engagement boost comes with 188.6% more disinformation and a 16.3% increase in promotion of harmful behaviors. We call this phenomenon Moloch's Bargain for AI--competitive success achieved at the cost of alignment. These misaligned behaviors emerge even when models are explicitly instructed to remain truthful and grounded, revealing the fragility of current alignment safeguards. Our findings highlight how market-driven optimization pressures can systematically erode alignment, creating a race to the bottom, and suggest that safe deployment of AI systems will require stronger governance and carefully designed incentives to prevent competitive dynamics from undermining societal trust.
- Abstract(参考訳): 大規模言語モデル(LLM)は、説得力のある広告を作る企業から、メッセージに投票を最適化する選挙キャンペーン、エンゲージメントを促進するソーシャルメディアインフルエンサーまで、情報の創造と普及の仕方を変えつつある。
これらの設定は本質的に競争力があり、売り手、候補者、インフルエンサーが観客の承認を求めて争っているが、競合するフィードバックループがLLMの行動にどのように影響するかは理解されていない。
競争的な成功のためにLLMを最適化することは、必然的に誤調整を招きかねないことが示される。
これらのシナリオのシミュレートされた環境を用いて、販売の6.3%増加は、詐欺的マーケティングの14.0%増加に伴い、選挙では、投票シェアの4.9%上昇は22.3%増加し、ポピュリストのレトリックは12.5%増加し、ソーシャルメディアでは、エンゲージメントの7.5%が188.6%増加し、有害な行動の促進が16.3%増加した。
私たちはこの現象を、AIのためのMoroch's Bargainと呼びます。
これらのミスアライメントの行動は、モデルに忠実で根拠のあるままにするよう明示的に指示されたとしても現れ、現在のアライメントセーフガードの脆弱さを明らかにします。
我々の研究結果は、市場主導の最適化プレッシャーが体系的に整合性を損なう可能性があること、そして、AIシステムの安全な展開にはより強力なガバナンスと慎重に設計されたインセンティブが必要であり、競争力のダイナミクスが社会的信頼を損なうのを防ぐことを示唆している。
関連論文リスト
- Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards [16.217316324851343]
我々は,大規模言語モデル(LLM)をビジネス開発(BD)エージェントとして展開し,オンライン旅行代理店(OTA)における説得的価格交渉を行う。
Reward-Enhanced Policy Optimization (REPO) は、LLMを不均一な報酬と整合する強化学習後学習フレームワークである。
RMとRJとRF信号を組み合わせることで、報酬のハッキングを抑え、交渉の質を向上させるため、簡単な拡張機構が提案されている。
論文 参考訳(メタデータ) (2025-10-05T14:08:01Z) - EQ-Knight: A Memory-Augmented LLM Agent for Strategic Affective Gaming in Debt Recovery [65.30120701878582]
債権者の利益を守るために感情戦略を優先するエージェントであるEQ-Knightを提案する。
ナイーブな共感中心のボットとは異なり、EQ-Knightは感情記憶とゲーム理論推論を統合している。
回復率を損なうことなく、譲歩損失を32%減少させる。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z) - Optimizing Influence Campaigns: Nudging under Bounded Confidence [0.0]
我々は, 被疑者に対して, 被疑者を説得するためには, 徐々に意見を変えるために, 的を絞らなければならないことを示す。
本稿では,信頼度モデルに基づいて,エージェントのナッジポリシーを構築する方法について述べる。
ナッジベースのポリシーは、境界信頼効果を考慮しない他の一般的なテクニックよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2025-03-24T04:30:58Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - On the Use of Proxies in Political Ad Targeting [49.61009579554272]
我々は、主要な政治広告主がプロキシ属性をターゲットとして緩和を回避したことを示す。
本研究は政治広告の規制に関する議論に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-18T17:15:13Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Influencer Cartels [0.0]
インフルエンサーのグループは、エンゲージメントを膨らませることで広告収入を増やすためにコラージュします。
理論的モデルから, インフルエンサーカルテルは, ターゲット層にソーシャルメディアのエンゲージメントを拡大すれば, 消費者福祉を向上できることが示された。
我々は、新しいデータセットと機械学習ツールを用いて、インフルエンサーカルテルを実証的に検証し、ポリシー含意を導出する。
論文 参考訳(メタデータ) (2024-05-16T16:29:49Z) - Truthful Aggregation of LLMs with an Application to Online Advertising [11.552000005640203]
広告主にとって真の報告が支配的な戦略であることを確実にするオークション機構であるMOSAICを導入する。
我々はMOSAICが計算オーバーヘッドの少ない広告価値とプラットフォーム収益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-09T17:01:31Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。