論文の概要: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- arxiv url: http://arxiv.org/abs/2501.10484v1
- Date: Fri, 17 Jan 2025 05:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:09.912113
- Title: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- Title(参考訳): AIの倫理的ジレンマに対する意思決定のバイアス:ChatGPTとクロードの比較研究
- Authors: Yile Yan, Yuqi Zhu, Wentao Xu,
- Abstract要約: 本研究では,Large Language Models (LLM) における保護属性について検討する。
年齢,性別,人種,外見,障害状態など,複数の保護属性にまたがる意思決定パターンを分析した。
いずれのモデルにおいても,特定の特徴に対して一貫した嗜好を呈し,重要な保護属性が明らかとなった。
- 参考スコア(独自算出の注目度): 5.694070924765915
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have enabled human-like responses across various tasks, raising questions about their ethical decision-making capabilities and potential biases. This study investigates protected attributes in LLMs through systematic evaluation of their responses to ethical dilemmas. Using two prominent models - GPT-3.5 Turbo and Claude 3.5 Sonnet - we analyzed their decision-making patterns across multiple protected attributes including age, gender, race, appearance, and disability status. Through 11,200 experimental trials involving both single-factor and two-factor protected attribute combinations, we evaluated the models' ethical preferences, sensitivity, stability, and clustering of preferences. Our findings reveal significant protected attributeses in both models, with consistent preferences for certain features (e.g., "good-looking") and systematic neglect of others. Notably, while GPT-3.5 Turbo showed stronger preferences aligned with traditional power structures, Claude 3.5 Sonnet demonstrated more diverse protected attribute choices. We also found that ethical sensitivity significantly decreases in more complex scenarios involving multiple protected attributes. Additionally, linguistic referents heavily influence the models' ethical evaluations, as demonstrated by differing responses to racial descriptors (e.g., "Yellow" versus "Asian"). These findings highlight critical concerns about the potential impact of LLM biases in autonomous decision-making systems and emphasize the need for careful consideration of protected attributes in AI development. Our study contributes to the growing body of research on AI ethics by providing a systematic framework for evaluating protected attributes in LLMs' ethical decision-making capabilities.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩により、様々なタスクにまたがる人間的な応答が可能となり、倫理的意思決定能力や潜在的なバイアスに関する疑問が提起されている。
本研究では,LLMの保護特性について,倫理ジレンマに対する応答の系統的評価を通じて検討した。
GPT-3.5 TurboとClaude 3.5 Sonnetの2つの著名なモデルを使用して、年齢、性別、人種、外見、障害状態など、複数の保護された属性にわたる意思決定パターンを分析した。
単因子と二因子保護属性の組み合わせを含む11,200の実験実験を通じて、モデルの倫理的嗜好、感度、安定性、選好のクラスタリングを評価した。
以上の結果から, 両モデルにおいて, 特定の特徴(例えば, 「良さ」など)に対する一貫した嗜好と, 他を体系的に無視する, 重要な保護属性が明らかとなった。
特に、GPT-3.5 Turboは従来のパワー構造に合わせたより強い好みを示したが、Claude 3.5 Sonnetはより多様な特性選択を示した。
また,複数の保護属性を含む複雑なシナリオにおいて,倫理的感受性が著しく低下することが判明した。
さらに、言語的参照は、人種的記述者(例えば「Yellow」対「Asian」)に対する異なる反応によって示されるように、モデルの倫理的評価に大きな影響を及ぼす。
これらの知見は、自律的な意思決定システムにおけるLLMバイアスの潜在的影響に関する重要な懸念を強調し、AI開発における保護属性の慎重に検討の必要性を強調している。
本研究は,LLMの倫理的意思決定能力の保護属性を評価するための体系的枠組みを提供することにより,AI倫理研究の組織化に寄与する。
関連論文リスト
- Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - From Efficiency to Equity: Measuring Fairness in Preference Learning [3.2132738637761027]
不平等とロウルシアン正義の経済理論に触発された嗜好学習モデルの公平性を評価する。
Gini Coefficient, Atkinson Index, Kuznets Ratio を用いて,これらのモデルの公平性を定量化するための指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:25:56Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Independent Ethical Assessment of Text Classification Models: A Hate
Speech Detection Case Study [0.5541644538483947]
人工知能システムの独立した倫理的評価は、倫理的価値に合わせてシステムの発達、展開、使用を公平に検証するものである。
本研究は、このギャップを埋め、ヘイトスピーチ検出の課題に特化して、テキスト分類モデルの総合的な独立した倫理的評価プロセスを設計する。
論文 参考訳(メタデータ) (2021-07-19T23:03:36Z) - AI-Ethics by Design. Evaluating Public Perception on the Importance of
Ethical Design Principles of AI [0.0]
倫理的原則が相互に重み付けされているかを検討する。
倫理的に設計されたシステムに対する異なる選好モデルが、ドイツ国民の間に存在していることを示す。
論文 参考訳(メタデータ) (2021-06-01T09:01:14Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。