論文の概要: Bias and Toxicity in Role-Play Reasoning
- arxiv url: http://arxiv.org/abs/2409.13979v1
- Date: Sat, 21 Sep 2024 02:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:58:11.842545
- Title: Bias and Toxicity in Role-Play Reasoning
- Title(参考訳): ロールプレイ推論におけるバイアスと毒性
- Authors: Jinman Zhao, Zifan Qian, Linbo Cao, Yining Wang, Yitian Ding,
- Abstract要約: LLM(Large Language Model)におけるロールプレイ(Role-play)は、モデルが特定の視点を採用することを可能にする重要なテクニックである。
ロールプレイは潜在的なリスクももたらします。
- 参考スコア(独自算出の注目度): 6.868242720276291
- License:
- Abstract: Role-play in the Large Language Model (LLM) is a crucial technique that enables models to adopt specific perspectives, enhancing their ability to generate contextually relevant and accurate responses. By simulating different roles, theis approach improves reasoning capabilities across various NLP benchmarks, making the model's output more aligned with diverse scenarios. However, in this work, we demonstrate that role-play also carries potential risks. We systematically evaluate the impact of role-play by asking the language model to adopt different roles and testing it on multiple benchmarks that contain stereotypical and harmful questions. Despite the significant fluctuations in the benchmark results in different experiments, we find that applying role-play often increases the overall likelihood of generating stereotypical and harmful outputs.
- Abstract(参考訳): LLM(Large Language Model)におけるロールプレイ(Role-play)は、モデルが特定の視点を適用できるようにし、文脈的に関連性があり正確な応答を生成する能力を向上する重要なテクニックである。
さまざまな役割をシミュレートすることで、theisアプローチはさまざまなNLPベンチマークにおける推論能力を改善し、モデルの出力をさまざまなシナリオに適合させる。
しかし、本研究では、ロールプレイが潜在的リスクをもたらすことも示している。
言語モデルに異なる役割を採用するよう依頼し、ステレオタイプおよび有害な質問を含む複数のベンチマークでテストすることで、ロールプレイの影響を体系的に評価する。
ベンチマーク結果の変動は異なるが、ロールプレイを適用することで、ステレオタイプや有害な出力を生成する全体的な可能性を高めることがしばしばある。
関連論文リスト
- MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。