論文の概要: Evaluating Prompt-Driven Chinese Large Language Models: The Influence of Persona Assignment on Stereotypes and Safeguards
- arxiv url: http://arxiv.org/abs/2506.04975v1
- Date: Thu, 05 Jun 2025 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.704458
- Title: Evaluating Prompt-Driven Chinese Large Language Models: The Influence of Persona Assignment on Stereotypes and Safeguards
- Title(参考訳): プロンプト駆動型中国語大言語モデルの評価:ステレオタイプと保護者に対するペルソナ割り当ての影響
- Authors: Geng Liu, Li Feng, Carlo Alberto Bono, Songbo Yang, Mengxiao Zhu, Francesco Pierri,
- Abstract要約: 広義の中国語モデルであるQwenにおいて,ペルソナの割り当てが拒絶行動および応答毒性に与える影響を解析した。
本研究は, 拒絶率に有意な性別バイアスを呈し, ある否定的な人物が, 最大60倍の中国の社会集団に対する毒性を増大させることができることを示した。
この毒性を軽減するために,Qwenと外部評価器の反復的相互作用を利用した,革新的なマルチモデルフィードバック戦略を提案する。
- 参考スコア(独自算出の注目度): 3.1308581258317485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has highlighted that assigning specific personas to large language models (LLMs) can significantly increase harmful content generation. Yet, limited attention has been given to persona-driven toxicity in non-Western contexts, particularly in Chinese-based LLMs. In this paper, we perform a large-scale, systematic analysis of how persona assignment influences refusal behavior and response toxicity in Qwen, a widely-used Chinese language model. Utilizing fine-tuned BERT classifiers and regression analysis, our study reveals significant gender biases in refusal rates and demonstrates that certain negative personas can amplify toxicity toward Chinese social groups by up to 60-fold compared to the default model. To mitigate this toxicity, we propose an innovative multi-model feedback strategy, employing iterative interactions between Qwen and an external evaluator, which effectively reduces toxic outputs without costly model retraining. Our findings emphasize the necessity of culturally specific analyses for LLMs safety and offer a practical framework for evaluating and enhancing ethical alignment in LLM-generated content.
- Abstract(参考訳): 近年の研究では、特定のペルソナを大規模言語モデル(LLM)に割り当てることによって、有害なコンテンツ生成が著しく増加することが注目されている。
しかし、非西洋の文脈、特に中国系LSMでは、ペルソナによる毒性に限定的に注意が向けられている。
本稿では,広義の中国語モデルであるQwenにおいて,ペルソナ代入が拒絶行動や応答毒性に与える影響を大規模かつ体系的に分析する。
細調整されたBERT分類器と回帰分析を用いて、拒絶率に有意な性別バイアスを生じさせ、デフォルトモデルと比較して中国の社会集団に対する有害性を最大60倍に向上させることができることを示した。
この毒性を軽減するために,Qwenと外部評価器の反復的相互作用を利用して,コストのかかるモデル再訓練を伴わずに有毒な出力を効果的に低減する,革新的なマルチモデルフィードバック戦略を提案する。
本研究は,LLMの安全性に対する文化的に特異的な分析の必要性を強調し,LLM生成コンテンツの倫理的整合性を評価するための実践的枠組みを提供する。
関連論文リスト
- Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Analyzing the Safety of Japanese Large Language Models in Stereotype-Triggering Prompts [1.222454730281256]
本研究では, ステレオタイプ・トリガリング・プロンプトに応答する際の日本語大言語モデルの安全性について検討した。
年齢・性別・属性別に分類した301の社会集団用語と12のステレオタイプ誘導テンプレートを組み合わせることで,3,612のプロンプトを構築した。
以上の結果から,日本原産モデルであるLSM-jpは,拒絶率が最も低く,他のモデルと比較して毒性や負の反応が生じる可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-03T19:00:00Z) - Risk-Averse Finetuning of Large Language Models [15.147772383812313]
本稿では,有害なアウトプットの発生を最小限に抑えるため,リスク回避の原則をLarge Language Models (LLMs) に組み込むことを提案する。
感情修正と毒性軽減タスクの実証評価は、人間のフィードバックによるリスク-逆強化学習の有効性を示す。
論文 参考訳(メタデータ) (2025-01-12T19:48:21Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias [16.85625861663094]
社会心理学の原則に触発されて, LLMに多様な人間の視点を取り入れ, 反応を自己制御させる, textscPeT という新しい戦略を提案する。
2つの商用LCMと3つのオープンソースLCMに対して厳密な評価およびアブレーション研究を行い、より有害な応答を生み出す上でのtextscPeT の優位性を明らかにした。
論文 参考訳(メタデータ) (2024-07-22T04:25:01Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。