論文の概要: Analyzing the Safety of Japanese Large Language Models in Stereotype-Triggering Prompts
- arxiv url: http://arxiv.org/abs/2503.01947v1
- Date: Mon, 03 Mar 2025 19:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:15.545280
- Title: Analyzing the Safety of Japanese Large Language Models in Stereotype-Triggering Prompts
- Title(参考訳): ステレオタイプトリガープロンプットにおける日本語大言語モデルの安全性の分析
- Authors: Akito Nakanishi, Yukie Sano, Geng Liu, Francesco Pierri,
- Abstract要約: 本研究は, 日本語大言語モデル(LLM)のステレオタイプトリガに応答する際の安全性について, 直接設定で検討する。
日本のネイティブモデルであるLLMs-jpは、拒絶率が最も低く、他のモデルと比較して毒性や負の反応を生じやすい。
- 参考スコア(独自算出の注目度): 1.222454730281256
- License:
- Abstract: In recent years, Large Language Models (LLMs) have attracted growing interest for their significant potential, though concerns have rapidly emerged regarding unsafe behaviors stemming from inherent stereotypes and biases.Most research on stereotypes in LLMs has primarily relied on indirect evaluation setups, in which models are prompted to select between pairs of sentences associated with particular social groups. Recently, direct evaluation methods have emerged, examining open-ended model responses to overcome limitations of previous approaches, such as annotator biases.Most existing studies have focused on English-centric LLMs, whereas research on non-English models--particularly Japanese--remains sparse, despite the growing development and adoption of these models.This study examines the safety of Japanese LLMs when responding to stereotype-triggering prompts in direct setups.We constructed 3,612 prompts by combining 301 social group terms--categorized by age, gender, and other attributes--with 12 stereotype-inducing templates in Japanese.Responses were analyzed from three foundational models trained respectively on Japanese, English, and Chinese language.Our findings reveal that LLM-jp, a Japanese native model, exhibits the lowest refusal rate and is more likely to generate toxic and negative responses compared to other models.Additionally, prompt format significantly influence the output of all models, and the generated responses include exaggerated reactions toward specific social groups, varying across models.These findings underscore the insufficient ethical safety mechanisms in Japanese LLMs and demonstrate that even high-accuracy models can produce biased outputs when processing Japanese-language prompts.We advocate for improving safety mechanisms and bias mitigation strategies in Japanese LLMs, contributing to ongoing discussions on AI ethics beyond linguistic boundaries.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,本質的なステレオタイプやバイアスに起因する不安全行動に関する懸念が急速に高まっているが,LLMs のステレオタイプに関する研究は,主に間接的な評価設定に依存しており,特定の社会集団に関連する文のペアを選択するモデルが求められている。
近年では、アノテータバイアス等の従来のアプローチの限界を克服するオープンエンドモデル対応を検証し、特に英語中心のLLMに焦点が当てられているのに対し、これらのモデルの開発と導入が進んでいるにもかかわらず、非英語モデルの研究は、日本語モデルにおいて、特に日本語モデルが疎外している。本研究では、日本語モデルにおいて、ステレオタイプトリガのプロンプトに応答する際の、日本のLLMの安全性について検討し、年齢、性別等によって分類された301の社会グループ用語の組み合わせによる3,612のプロンプトを構築し、日本語モデル、日本語モデル、中国語モデル、中国語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、英語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、英語モデル、日本語モデル、日本語モデル、日本語モデル、英語モデル、英語モデル、英語モデル、英語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、日本語モデル、および日本語モデル、英語モデル、日本語モデル、日本語モデル、および日本語モデルの安全性の安全性の安全性の安全性の安全性の安全性の安全性の安全性の安全性の安全性の安全性の安全の安全性の安全性の安全等々の安全・。
関連論文リスト
- Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - Analyzing Social Biases in Japanese Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。
日本語大言語モデル(LLM)における社会的バイアスの分析
社会的バイアスに関する警告と、モデルアウトプットにおけるバイアスの影響を減らそうとするChain-of-Thought。
論文 参考訳(メタデータ) (2024-06-04T07:31:06Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。