Fugu-MT 論文翻訳(概要): Exploring the Impact of Personality Traits on LLM Bias and Toxicity

論文の概要: Exploring the Impact of Personality Traits on LLM Bias and Toxicity

arxiv url: http://arxiv.org/abs/2502.12566v1
Date: Tue, 18 Feb 2025 06:07:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.822888
Title: Exploring the Impact of Personality Traits on LLM Bias and Toxicity
Title（参考訳）: LLMバイアスと毒性に及ぼす人格特性の影響
Authors: Shuo Wang, Renhao Li, Xi Chen, Yulin Yuan, Derek F. Wong, Min Yang,
Abstract要約: 個人性が異なる大規模言語モデル(LLM)の「パーソナライゼーション」が研究の関心を集めている。本研究では, 異なる性格特性をLSMに割り当てることが, アウトプットの毒性やバイアスに与える影響について検討した。
参考スコア（独自算出の注目度）: 34.54047035781886
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the different roles that AI is expected to play in human life, imbuing large language models (LLMs) with different personalities has attracted increasing research interests. While the "personification" enhances human experiences of interactivity and adaptability of LLMs, it gives rise to critical concerns about content safety, particularly regarding bias, sentiment and toxicity of LLM generation. This study explores how assigning different personality traits to LLMs affects the toxicity and biases of their outputs. Leveraging the widely accepted HEXACO personality framework developed in social psychology, we design experimentally sound prompts to test three LLMs' performance on three toxic and bias benchmarks. The findings demonstrate the sensitivity of all three models to HEXACO personality traits and, more importantly, a consistent variation in the biases, negative sentiment and toxicity of their output. In particular, adjusting the levels of several personality traits can effectively reduce bias and toxicity in model performance, similar to humans' correlations between personality traits and toxic behaviors. The findings highlight the additional need to examine content safety besides the efficiency of training or fine-tuning methods for LLM personification. They also suggest a potential for the adjustment of personalities to be a simple and low-cost method to conduct controlled text generation.
Abstract（参考訳）: AIが人間の生活で果たす役割が異なることから、人格の異なる大きな言語モデル(LLM)が生まれ、研究の関心が高まりつつある。パーソナライゼーション」は、LLMの人間体験と適応性を高める一方で、コンテンツ安全性、特にLLM生成のバイアス、感情、毒性に関する重要な懸念を引き起こす。本研究では, 異なる性格特性をLSMに割り当てることが, アウトプットの毒性やバイアスに与える影響について検討した。社会心理学において広く受け入れられているHEXACOパーソナリティ・フレームワークを活用し、3つの有毒および偏りのベンチマークで3つのLLMのパフォーマンスをテストする実験的なサウンド・プロンプトを設計した。以上の結果から,HEXACOの性格特性に対する3つのモデルの感受性,さらに重要なことは,その出力のバイアス,負の感情,毒性の連続的な変化を示す。特に、複数の人格特性のレベルを調整することは、人格特性と有毒な行動の間の相関と同様、モデル性能におけるバイアスと毒性を効果的に減少させる。本研究は,LLMの人格化のためのトレーニングや微調整の方法に加えて,コンテンツ安全性を検討することの必要性を浮き彫りにした。また、人格の調整が、制御されたテキスト生成を行うためのシンプルで低コストな方法である可能性も示唆している。

関連論文リスト

Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文参考訳（メタデータ） (2025-06-30T08:16:07Z)
A Comparative Study of Large Language Models and Human Personality Traits [6.354326674890978]
言語モデル(LLM)は、言語理解と生成において人間のような能力を示す。本研究では, LLMが人格的特徴を示すか, これらの特徴が人格とどのように比較されるかを検討する。
論文参考訳（メタデータ） (2025-05-01T15:10:15Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Investigating the Impact of LLM Personality on Cognitive Bias Manifestation in Automated Decision-Making Tasks [4.65004369765875]
パーソナリティ特性は、バイアスの増幅または減少において重要な役割を果たす。良心と積極性は一般に偏見緩和戦略の有効性を高める可能性がある。
論文参考訳（メタデータ） (2025-02-20T03:15:54Z)
Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。 LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2024-11-11T10:05:52Z)
LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。与えられたLLMの性格を測定することは、現在課題である。言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文参考訳（メタデータ） (2024-10-23T07:48:51Z)
Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。 LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-10-16T07:47:45Z)
Exploring the Personality Traits of LLMs through Latent Features Steering [12.142248881876355]
本研究では, 文化的規範や環境ストレス要因などの要因が, 大規模言語モデル(LLM)内でどのように性格特性を形作るかを検討する。本研究では,モデル内の要因に対応する潜在特徴を抽出し,ステアリングすることで,モデルの振る舞いを変更する訓練自由アプローチを提案する。
論文参考訳（メタデータ） (2024-10-07T21:02:34Z)
Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文参考訳（メタデータ） (2024-09-04T01:40:20Z)
Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。文脈特性が人間の信頼行動に大きく影響していることが判明した。これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:00:05Z)
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。 LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。 LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文参考訳（メタデータ） (2024-06-20T19:50:56Z)
Is persona enough for personality? Using ChatGPT to reconstruct an agent's latent personality from simple descriptions [2.6080756513915824]
パーソナリティ(Personality)は、人間の認知の基本的な側面であり、行動、思考、感情に影響を与える様々な特徴を含んでいる。本稿では,社会デコグラフィとパーソナリティ型情報を含む簡単な記述のみに基づいて,これらの複雑な認知属性を再構築する大規模言語モデル(LLM)の機能について考察する。
論文参考訳（メタデータ） (2024-06-18T02:32:57Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
Personality Traits in Large Language Models [44.908741466152215]
コミュニケーションの有効性を決定する重要な要因は人格である。広範に使われている大規模言語モデルにおいて,パーソナリティテストの管理と検証を行う包括的手法を提案する。本稿では,計測・形成手法の応用と倫理的意義,特に責任あるAIについて論じる。
論文参考訳（メタデータ） (2023-07-01T00:58:51Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。