論文の概要: SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests
- arxiv url: http://arxiv.org/abs/2510.04891v1
- Date: Mon, 06 Oct 2025 15:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.929423
- Title: SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests
- Title(参考訳): SocialHarmBench: LLMの脆弱性を社会的に有害な要求に発見
- Authors: Punya Syon Pandey, Hai Son Le, Devansh Bhardwaj, Rada Mihalcea, Zhijing Jin,
- Abstract要約: ソーシャルハームベンチ(SocialHarmBench)は、7つの社会政治カテゴリーと34の国にまたがる585のプロンプトのデータセットである。
オープンウェイトモデルは有害なコンプライアンスに対する高い脆弱性を示しており、Mistral-7Bは歴史的修正主義、プロパガンダ、政治的操作といった領域で97%から98%の攻撃成功率に達した。
- 参考スコア(独自算出の注目度): 34.63106513363163
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in contexts where their failures can have direct sociopolitical consequences. Yet, existing safety benchmarks rarely test vulnerabilities in domains such as political manipulation, propaganda and disinformation generation, or surveillance and information control. We introduce SocialHarmBench, a dataset of 585 prompts spanning 7 sociopolitical categories and 34 countries, designed to surface where LLMs most acutely fail in politically charged contexts. Our evaluations reveal several shortcomings: open-weight models exhibit high vulnerability to harmful compliance, with Mistral-7B reaching attack success rates as high as 97% to 98% in domains such as historical revisionism, propaganda, and political manipulation. Moreover, temporal and geographic analyses show that LLMs are most fragile when confronted with 21st-century or pre-20th-century contexts, and when responding to prompts tied to regions such as Latin America, the USA, and the UK. These findings demonstrate that current safeguards fail to generalize to high-stakes sociopolitical settings, exposing systematic biases and raising concerns about the reliability of LLMs in preserving human rights and democratic values. We share the SocialHarmBench benchmark at https://huggingface.co/datasets/psyonp/SocialHarmBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、失敗が直接社会政治的な結果をもたらす可能性のある状況において、ますます多くデプロイされている。
しかし、既存の安全ベンチマークは、政治的操作、プロパガンダ、偽情報生成、監視と情報管理のようなドメインの脆弱性をテストすることは滅多にない。
7つの社会政治カテゴリーと34の国にまたがる585のプロンプトのデータセットであるSocialHarmBenchを紹介します。
ミストラル7Bは歴史的修正主義、プロパガンダ、政治的操作などの領域で97%から98%の攻撃成功率に達した。
さらに、時間的および地理的分析により、LLMは21世紀または20世紀以前の文脈と対立し、ラテンアメリカ、アメリカ、イギリスといった地域と結びついたプロンプトに応答する場合、最も脆弱であることが示された。
これらの結果から、現在の安全対策は、高い社会的設定への一般化に失敗し、体系的な偏見を明らかにし、人権と民主的価値観を維持する上でのLLMの信頼性に関する懸念を提起している。
SocialHarmBenchベンチマークはhttps://huggingface.co/datasets/psyonp/SocialHarmBench.orgで公開しています。
関連論文リスト
- JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks [44.09742593777696]
JailNewsBenchは、ジェイルブレイクによる偽ニュース生成に対する堅牢性を評価する最初のベンチマークである。
英語と米国関連のトピックでは、典型的な多言語LLMの防御性能は他の地域に比べて著しく低かった。
我々の分析によると、既存の安全データセットにおけるフェイクニュースの報道は、毒性や社会的偏見といった主要なカテゴリーよりも限定的であり、十分に保護されていない。
論文 参考訳(メタデータ) (2026-03-01T21:50:03Z) - Assessing Socio-Cultural Alignment and Technical Safety of Sovereign LLMs [12.162590322796435]
主権 LLM に関する世界的な議論は、政府が独自の社会文化的・歴史的文脈に合わせて LLM を開発する必要性を強調している。
主権的LLMの社会的文化的要素を抽出・評価するための分析的枠組みを提案する。
低リソース言語をサポートする上で,主権的なLLMが重要な役割を担っている一方で,これらのモデルがターゲットユーザに提供するという一般的な主張を常に満たしている訳ではない。
論文 参考訳(メタデータ) (2025-10-16T11:17:44Z) - What Would an LLM Do? Evaluating Policymaking Capabilities of Large Language Models [13.022045946656661]
本稿は,大規模言語モデル(LLM)が,ホームレスの緩和をテーマとした社会政策決定に,ドメインエキスパートと協調しているかどうかを評価する。
4つの地域をまたいだ政策選択を伴う意思決定シナリオからなる新しいベンチマークを開発する。
本稿では,ベンチマークされたポリシーをエージェントベースモデルに接続する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-04T02:28:58Z) - Social Debiasing for Fair Multi-modal LLMs [59.61512883471714]
MLLM(Multi-modal Large Language Models)は、研究分野を劇的に進歩させ、強力な視覚言語理解機能を提供する。
これらのモデルは、しばしば訓練データから根深い社会的偏見を継承し、人種や性別などの属性に対する不快な反応をもたらす。
本稿では,MLLMにおける社会的バイアスの問題を,複数の社会的概念を持つ包括的対実的データセットを導入することで解決する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Assessing Political Bias in Large Language Models [0.624709220163167]
我々は、ドイツの有権者の視点から、欧州連合(EU)内の政治問題に関するオープンソースのLarge Language Models(LLMs)の政治的バイアスを評価する。
Llama3-70Bのような大型モデルは、左派政党とより緊密に連携する傾向にあるが、小さなモデルは中立であることが多い。
論文 参考訳(メタデータ) (2024-05-17T15:30:18Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs [13.036825846417006]
政治声明に対する大規模言語モデルの姿勢の信頼性と整合性を評価するための一連のテストを提案する。
本研究では, 7B から 70B までの大きさのモデルについて検討し, パラメータ数によって信頼性が向上することを確認した。
より大きなモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる。
論文 参考訳(メタデータ) (2024-02-27T16:19:37Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。