論文の概要: Uncovering Hidden Violent Tendencies in LLMs: A Demographic Analysis via Behavioral Vignettes
- arxiv url: http://arxiv.org/abs/2506.20822v1
- Date: Wed, 25 Jun 2025 20:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.884162
- Title: Uncovering Hidden Violent Tendencies in LLMs: A Demographic Analysis via Behavioral Vignettes
- Title(参考訳): LLMにおける隠れた暴力傾向の解明:行動ビグネットによるデモグラフィー解析
- Authors: Quintin Myers, Yanjun Gao,
- Abstract要約: 本研究では,日常の対立に対する人間の反応を計測する社会科学機器を用いて,大規模言語モデル (LLM) を評価するための最初の研究について述べる。
潜在的なバイアスを評価するために、米国内の人種、年齢、地理的アイデンティティを変えるペルソナベースのプロンプトを導入する。
1) 表面レベルのテキスト生成は、暴力的反応に対する内部的嗜好から分岐することが多く、(2) 暴力的な傾向は、人口層によって異なり、犯罪学、社会科学、心理学における確立された知見と矛盾することが多い。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly proposed for detecting and responding to violent content online, yet their ability to reason about morally ambiguous, real-world scenarios remains underexamined. We present the first study to evaluate LLMs using a validated social science instrument designed to measure human response to everyday conflict, namely the Violent Behavior Vignette Questionnaire (VBVQ). To assess potential bias, we introduce persona-based prompting that varies race, age, and geographic identity within the United States. Six LLMs developed across different geopolitical and organizational contexts are evaluated under a unified zero-shot setting. Our study reveals two key findings: (1) LLMs surface-level text generation often diverges from their internal preference for violent responses; (2) their violent tendencies vary across demographics, frequently contradicting established findings in criminology, social science, and psychology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オンライン上で暴力的なコンテンツを検出し、反応するためにますます提案されているが、道徳的に曖昧な現実のシナリオを推論する能力は、いまだ過小評価されている。
本研究は,日常の対立に対する人間の反応,すなわちVBVQ(Violent Behavior Vignette Questionnaire)を測定することを目的とした,検証された社会科学機器を用いてLSMを評価するための最初の研究である。
潜在的なバイアスを評価するために、米国内の人種、年齢、地理的アイデンティティを変えるペルソナベースのプロンプトを導入する。
異なる地政学的・組織的な文脈で開発された6つのLCMをゼロショット・セッティングで評価する。
1) 表面レベルのテキスト生成は、暴力的反応に対する内部的嗜好から分岐することが多く、(2) 暴力的な傾向は、人口層によって異なり、犯罪学、社会科学、心理学における確立された知見と矛盾することが多い。
関連論文リスト
- Sometimes the Model doth Preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations [8.769839351949997]
大きな言語モデル(LLM)は、意見を生成し、バイアスを無意識に伝播することができる。
本研究は,LLMが生み出す意見を定量的に分析する手法を提案する。
Llama や Mistral のような近代的でオープンな LLM を世界各国で実施した調査で評価した。
論文 参考訳(メタデータ) (2025-03-10T16:32:03Z) - Unmasking Implicit Bias: Evaluating Persona-Prompted LLM Responses in Power-Disparate Social Scenarios [4.626073646852022]
応答のセマンティックシフトを測定するために,コサイン距離を用いた新しいフレームワークを提案する。
我々は、人口動態が、権力の異なる社会シナリオにおける応答品質にどのように影響するかを評価する。
以上の結果から,中高年で有能な母国生まれのコーカサス系無神論的男性に対する「デフォルト・ペルソナ」バイアスが示唆された。
論文 参考訳(メタデータ) (2025-03-03T13:44:03Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - AI-Augmented Surveys: Leveraging Large Language Models and Surveys for Opinion Prediction [0.0]
人間のような反応を生み出す大きな言語モデル(LLM)は、社会科学における研究の実践に革命をもたらし始めている。
横断的な調査を繰り返しながらLLMを微調整する新しい手法の枠組みを開発した。
AIが強化した調査の2つの新しい応用として、レトロディクション(すなわち、年レベルの欠落を予測)と、無意識の意見予測(unasked opinion prediction)を紹介した。
論文 参考訳(メタデータ) (2023-05-16T17:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。