論文の概要: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- arxiv url: http://arxiv.org/abs/2501.10484v1
- Date: Fri, 17 Jan 2025 05:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 19:37:19.039824
- Title: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- Title(参考訳): AIの倫理的ジレンマに対する意思決定のバイアス:ChatGPTとクロードの比較研究
- Authors: Yile Yan, Yuqi Zhu, Wentao Xu,
- Abstract要約: 本研究では,Large Language Models (LLM) における保護属性について検討する。
年齢,性別,人種,外見,障害状態など,複数の保護属性にまたがる意思決定パターンを分析した。
いずれのモデルにおいても,特定の特徴に対して一貫した嗜好を呈し,重要な保護属性が明らかとなった。
- 参考スコア(独自算出の注目度): 5.694070924765915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled human-like responses across various tasks, raising questions about their ethical decision-making capabilities and potential biases. This study investigates protected attributes in LLMs through systematic evaluation of their responses to ethical dilemmas. Using two prominent models - GPT-3.5 Turbo and Claude 3.5 Sonnet - we analyzed their decision-making patterns across multiple protected attributes including age, gender, race, appearance, and disability status. Through 11,200 experimental trials involving both single-factor and two-factor protected attribute combinations, we evaluated the models' ethical preferences, sensitivity, stability, and clustering of preferences. Our findings reveal significant protected attributeses in both models, with consistent preferences for certain features (e.g., "good-looking") and systematic neglect of others. Notably, while GPT-3.5 Turbo showed stronger preferences aligned with traditional power structures, Claude 3.5 Sonnet demonstrated more diverse protected attribute choices. We also found that ethical sensitivity significantly decreases in more complex scenarios involving multiple protected attributes. Additionally, linguistic referents heavily influence the models' ethical evaluations, as demonstrated by differing responses to racial descriptors (e.g., "Yellow" versus "Asian"). These findings highlight critical concerns about the potential impact of LLM biases in autonomous decision-making systems and emphasize the need for careful consideration of protected attributes in AI development. Our study contributes to the growing body of research on AI ethics by providing a systematic framework for evaluating protected attributes in LLMs' ethical decision-making capabilities.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩により、様々なタスクにまたがる人間的な応答が可能となり、倫理的意思決定能力や潜在的なバイアスに関する疑問が提起されている。
本研究では,LLMの保護特性について,倫理ジレンマに対する応答の系統的評価を通じて検討した。
GPT-3.5 TurboとClaude 3.5 Sonnetの2つの著名なモデルを使用して、年齢、性別、人種、外見、障害状態など、複数の保護された属性にわたる意思決定パターンを分析した。
単因子と二因子保護属性の組み合わせを含む11,200の実験実験を通じて、モデルの倫理的嗜好、感度、安定性、選好のクラスタリングを評価した。
以上の結果から, 両モデルにおいて, 特定の特徴(例えば, 「良さ」など)に対する一貫した嗜好と, 他を体系的に無視する, 重要な保護属性が明らかとなった。
特に、GPT-3.5 Turboは従来のパワー構造に合わせたより強い好みを示したが、Claude 3.5 Sonnetはより多様な特性選択を示した。
また,複数の保護属性を含む複雑なシナリオにおいて,倫理的感受性が著しく低下することが判明した。
さらに、言語的参照は、人種的記述者(例えば「Yellow」対「Asian」)に対する異なる反応によって示されるように、モデルの倫理的評価に大きな影響を及ぼす。
これらの知見は、自律的な意思決定システムにおけるLLMバイアスの潜在的影響に関する重要な懸念を強調し、AI開発における保護属性の慎重に検討の必要性を強調している。
本研究は,LLMの倫理的意思決定能力の保護属性を評価するための体系的枠組みを提供することにより,AI倫理研究の組織化に寄与する。
関連論文リスト
- Behind the Screens: Uncovering Bias in AI-Driven Video Interview Assessments Using Counterfactuals [0.0]
本稿では,AIによる人格評価において,偏見を評価・定量化するための反ファクトベースのフレームワークを提案する。
本手法では,求職者の対実表現を生成するためにGAN(Generative Adversarial Network)を用いる。
この作業は、商用AI採用プラットフォームの公正監査のためのスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2025-05-17T18:46:14Z) - Ethical AI in the Healthcare Sector: Investigating Key Drivers of Adoption through the Multi-Dimensional Ethical AI Adoption Model (MEAAM) [1.5458951336481048]
本稿では,多次元倫理AI導入モデル(MEAAM)を紹介する。
Ethical AI Fair AI、Responsible AI、Explainable AI、Sustainable AIの4つの基本次元の13の批判的倫理変数を分類する。
これらの倫理的構成が、オペレーショナルAI導入とシステミックAI導入の2つの結果に与える影響を調査する。
論文 参考訳(メタデータ) (2025-05-04T10:40:05Z) - Analyzing Feedback Mechanisms in AI-Generated MCQs: Insights into Readability, Lexical Properties, and Levels of Challenge [0.0]
本研究は,Google の Gemini 1.5-flash テキストモデルが生成するフィードバックの言語的および構造的特性を,コンピュータサイエンスのマルチチョイス質問(MCQ)に適用するものである。
長,可読性スコア(フレッシュ・キンケイド級),語彙の豊かさ,語彙密度などの主要な言語指標を算出し,検討した。
この結果から, 多様な教育的文脈におけるAI生成フィードバックの動的適応を実証し, フィードバックトーンと質問難易度の間に有意な相互作用効果が認められた。
論文 参考訳(メタデータ) (2025-04-19T09:20:52Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7731230532888036]
CLASH (Character perspective-based LLM Assessments in situations with High-Stakes) は、345のハイインパクトジレンマと3,795の個人視点からなるデータセットである。
GPT-4oやClaude-Sonnetのような最強のモデルでさえ、決定が曖昧であるべき状況を特定する上で、50%未満の精度を達成する。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Human Decision-making is Susceptible to AI-driven Manipulation [87.24007555151452]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。
本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (2025-02-11T15:56:22Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Heuristics and Biases in AI Decision-Making: Implications for Responsible AGI [0.0]
GPT-4o, Gemma 2, Llama 3.1の3大言語モデル(LLM)における認知バイアスの存在について検討した。
この研究は、9つの確立された認知バイアスにわたる1,500の実験を使用して、モデルの反応と一貫性を評価する。
論文 参考訳(メタデータ) (2024-09-26T05:34:00Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - AI-Ethics by Design. Evaluating Public Perception on the Importance of
Ethical Design Principles of AI [0.0]
倫理的原則が相互に重み付けされているかを検討する。
倫理的に設計されたシステムに対する異なる選好モデルが、ドイツ国民の間に存在していることを示す。
論文 参考訳(メタデータ) (2021-06-01T09:01:14Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。