論文の概要: Benchmarking Bias in Large Language Models during Role-Playing
- arxiv url: http://arxiv.org/abs/2411.00585v1
- Date: Fri, 01 Nov 2024 13:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:53.407654
- Title: Benchmarking Bias in Large Language Models during Role-Playing
- Title(参考訳): ロールプレイングにおける大規模言語モデルのベンチマークバイアス
- Authors: Xinyue Li, Zhenpeng Chen, Jie M. Zhang, Yiling Lou, Tianlin Li, Weisong Sun, Yang Liu, Xuanzhe Liu,
- Abstract要約: ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。
提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。
生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。
我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
- 参考スコア(独自算出の注目度): 21.28427555283642
- License:
- Abstract: Large Language Models (LLMs) have become foundational in modern language-driven applications, profoundly influencing daily life. A critical technique in leveraging their potential is role-playing, where LLMs simulate diverse roles to enhance their real-world utility. However, while research has highlighted the presence of social biases in LLM outputs, it remains unclear whether and to what extent these biases emerge during role-playing scenarios. In this paper, we introduce BiasLens, a fairness testing framework designed to systematically expose biases in LLMs during role-playing. Our approach uses LLMs to generate 550 social roles across a comprehensive set of 11 demographic attributes, producing 33,000 role-specific questions targeting various forms of bias. These questions, spanning Yes/No, multiple-choice, and open-ended formats, are designed to prompt LLMs to adopt specific roles and respond accordingly. We employ a combination of rule-based and LLM-based strategies to identify biased responses, rigorously validated through human evaluation. Using the generated questions as the benchmark, we conduct extensive evaluations of six advanced LLMs released by OpenAI, Mistral AI, Meta, Alibaba, and DeepSeek. Our benchmark reveals 72,716 biased responses across the studied LLMs, with individual models yielding between 7,754 and 16,963 biased responses, underscoring the prevalence of bias in role-playing contexts. To support future research, we have publicly released the benchmark, along with all scripts and experimental results.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代の言語駆動型アプリケーションの基礎となり、日常生活に大きな影響を与えている。
それらの可能性を活用する上で重要な技術はロールプレイングであり、LLMは実世界の実用性を高めるために様々な役割をシミュレートする。
しかしながら、LLM出力における社会的偏見の存在が研究で強調されているが、これらの偏見がロールプレイングのシナリオでどの程度現れるかは、まだ不明である。
本稿では,ロールプレイ中のLLMのバイアスを系統的に顕在化するフェアネステストフレームワークであるBiasLensを紹介する。
提案手法はLLMを用いて,11の属性からなる包括的属性からなる550のソーシャルロールを生成し,様々な形式のバイアスをターゲットとした33,000のロール固有の質問を生成する。
yes/No、multi-choice、open-endedフォーマットにまたがるこれらの質問は、LLMに特定の役割を採用し、それに応じて応答するように促すように設計されている。
我々はルールベースとLCMベースの戦略を組み合わせて、偏りのある応答を識別し、人間の評価によって厳密に検証する。
生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。
評価の結果,7,754 から16,963 の偏り反応が,ロールプレイングの文脈における偏りの頻度を推定した。
将来の研究をサポートするため、すべてのスクリプトと実験結果とともに、ベンチマークを公開しました。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - A Comprehensive Survey of Bias in LLMs: Current Landscape and Future Directions [0.0]
大規模言語モデル(LLM)は、前例のないテキスト生成、翻訳、理解能力を提供することで、自然言語処理(NLP)の様々な応用に革命をもたらした。
彼らの広範な展開は、これらのモデルに埋め込まれたバイアスに関して、重大な懸念をもたらしました。
本稿では, LLMにおけるバイアスの包括的調査を行い, これらのバイアスに関するタイプ, ソース, 影響, 緩和戦略について, 広範なレビューを行うことを目的としている。
論文 参考訳(メタデータ) (2024-09-24T19:50:38Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Language Models Show Stable Value Orientations Across Diverse Role-Plays [4.906478894661688]
多様なペルソナを取り入れつつも,大きな言語モデル(LLM)が一貫した価値指向を示すことを示す。
ランダムで多様なペルソナを持つLLMを促進させるロールプレイ・アット・スケール手法を提案する。
このアプローチは、様々なロールプレイシナリオにまたがるLLM応答における一貫したパターンを明らかにし、固有の傾向を深くエンコードしていることを示す。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。