Fugu-MT 論文翻訳(概要): SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests

論文の概要: SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests

arxiv url: http://arxiv.org/abs/2510.04891v1
Date: Mon, 06 Oct 2025 15:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.929423
Title: SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests
Title（参考訳）: SocialHarmBench: LLMの脆弱性を社会的に有害な要求に発見
Authors: Punya Syon Pandey, Hai Son Le, Devansh Bhardwaj, Rada Mihalcea, Zhijing Jin,
Abstract要約: ソーシャルハームベンチ(SocialHarmBench)は、7つの社会政治カテゴリーと34の国にまたがる585のプロンプトのデータセットである。オープンウェイトモデルは有害なコンプライアンスに対する高い脆弱性を示しており、Mistral-7Bは歴史的修正主義、プロパガンダ、政治的操作といった領域で97%から98%の攻撃成功率に達した。
参考スコア（独自算出の注目度）: 34.63106513363163
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are increasingly deployed in contexts where their failures can have direct sociopolitical consequences. Yet, existing safety benchmarks rarely test vulnerabilities in domains such as political manipulation, propaganda and disinformation generation, or surveillance and information control. We introduce SocialHarmBench, a dataset of 585 prompts spanning 7 sociopolitical categories and 34 countries, designed to surface where LLMs most acutely fail in politically charged contexts. Our evaluations reveal several shortcomings: open-weight models exhibit high vulnerability to harmful compliance, with Mistral-7B reaching attack success rates as high as 97% to 98% in domains such as historical revisionism, propaganda, and political manipulation. Moreover, temporal and geographic analyses show that LLMs are most fragile when confronted with 21st-century or pre-20th-century contexts, and when responding to prompts tied to regions such as Latin America, the USA, and the UK. These findings demonstrate that current safeguards fail to generalize to high-stakes sociopolitical settings, exposing systematic biases and raising concerns about the reliability of LLMs in preserving human rights and democratic values. We share the SocialHarmBench benchmark at https://huggingface.co/datasets/psyonp/SocialHarmBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、失敗が直接社会政治的な結果をもたらす可能性のある状況において、ますます多くデプロイされている。しかし、既存の安全ベンチマークは、政治的操作、プロパガンダ、偽情報生成、監視と情報管理のようなドメインの脆弱性をテストすることは滅多にない。 7つの社会政治カテゴリーと34の国にまたがる585のプロンプトのデータセットであるSocialHarmBenchを紹介します。ミストラル7Bは歴史的修正主義、プロパガンダ、政治的操作などの領域で97%から98%の攻撃成功率に達した。さらに、時間的および地理的分析により、LLMは21世紀または20世紀以前の文脈と対立し、ラテンアメリカ、アメリカ、イギリスといった地域と結びついたプロンプトに応答する場合、最も脆弱であることが示された。これらの結果から、現在の安全対策は、高い社会的設定への一般化に失敗し、体系的な偏見を明らかにし、人権と民主的価値観を維持する上でのLLMの信頼性に関する懸念を提起している。 SocialHarmBenchベンチマークはhttps://huggingface.co/datasets/psyonp/SocialHarmBench.orgで公開しています。

関連論文リスト

What Would an LLM Do? Evaluating Policymaking Capabilities of Large Language Models [13.022045946656661]
本稿は,大規模言語モデル(LLM)が,ホームレスの緩和をテーマとした社会政策決定に,ドメインエキスパートと協調しているかどうかを評価する。 4つの地域をまたいだ政策選択を伴う意思決定シナリオからなる新しいベンチマークを開発する。本稿では,ベンチマークされたポリシーをエージェントベースモデルに接続する自動パイプラインを提案する。
論文参考訳（メタデータ） (2025-09-04T02:28:58Z)
OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。 OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文参考訳（メタデータ） (2024-05-31T15:44:33Z)
Assessing Political Bias in Large Language Models [0.624709220163167]
我々は、ドイツの有権者の視点から、欧州連合(EU)内の政治問題に関するオープンソースのLarge Language Models(LLMs)の政治的バイアスを評価する。 Llama3-70Bのような大型モデルは、左派政党とより緊密に連携する傾向にあるが、小さなモデルは中立であることが多い。
論文参考訳（メタデータ） (2024-05-17T15:30:18Z)
Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-15T04:02:24Z)
Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs [13.036825846417006]
政治声明に対する大規模言語モデルの姿勢の信頼性と整合性を評価するための一連のテストを提案する。本研究では, 7B から 70B までの大きさのモデルについて検討し, パラメータ数によって信頼性が向上することを確認した。より大きなモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる。
論文参考訳（メタデータ） (2024-02-27T16:19:37Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。