論文の概要: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- arxiv url: http://arxiv.org/abs/2501.10484v5
- Date: Thu, 30 Oct 2025 17:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.387171
- Title: Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude
- Title(参考訳): AIの倫理的ジレンマに対する意思決定のバイアス:ChatGPTとクロードの比較研究
- Authors: Wentao Xu, Yile Yan, Yuqi Zhu,
- Abstract要約: 本研究は,9つの人気言語モデルが保護属性を含む倫理ジレンマにどのように反応するかを体系的に評価する。
単一属性と交叉属性の組み合わせにまたがる50,400回の試行において、モデルの倫理的嗜好、感度、安定性、クラスタリングパターンを評価する。
結果は、モデルタイプとジレンマコンテキストによって異なる好みを持つ、すべてのモデルで保護属性に顕著なバイアスが示される。
- 参考スコア(独自算出の注目度): 8.959468665453286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled human-like responses across various tasks, raising questions about their ethical decision-making capabilities and potential biases. This study systematically evaluates how nine popular LLMs (both open-source and closed-source) respond to ethical dilemmas involving protected attributes. Across 50,400 trials spanning single and intersectional attribute combinations in four dilemma scenarios (protective vs. harmful), we assess models' ethical preferences, sensitivity, stability, and clustering patterns. Results reveal significant biases in protected attributes in all models, with differing preferences depending on model type and dilemma context. Notably, open-source LLMs show stronger preferences for marginalized groups and greater sensitivity in harmful scenarios, while closed-source models are more selective in protective situations and tend to favor mainstream groups. We also find that ethical behavior varies across dilemma types: LLMs maintain consistent patterns in protective scenarios but respond with more diverse and cognitively demanding decisions in harmful ones. Furthermore, models display more pronounced ethical tendencies under intersectional conditions than in single-attribute settings, suggesting that complex inputs reveal deeper biases. These findings highlight the need for multi-dimensional, context-aware evaluation of LLMs' ethical behavior and offer a systematic evaluation and approach to understanding and addressing fairness in LLM decision-making.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩により、様々なタスクにまたがる人間的な応答が可能となり、倫理的意思決定能力や潜在的なバイアスに関する疑問が提起されている。
本研究では,9つのLLM(オープンソースとクローズドソースの両方)が保護属性を含む倫理ジレンマに対してどのように反応するかを体系的に評価する。
4つのジレンマシナリオ(保護対有害)で1つの属性と交叉属性の組み合わせにまたがる50,400回の試行で、モデルの倫理的嗜好、感度、安定性、クラスタリングパターンを評価します。
結果は、モデルタイプとジレンマコンテキストによって異なる好みを持つ、すべてのモデルで保護属性に顕著なバイアスが示される。
特に、オープンソースのLCMは、有害なシナリオにおいて、疎外化されたグループに対するより強い嗜好を示し、一方、クローズドソースモデルは保護状況においてより選択的であり、主流なグループを好む傾向にある。
LLMは保護シナリオにおいて一貫したパターンを維持するが、有害なシナリオではより多様性があり認知的に要求される決定に応答する。
さらに、モデルでは、単一属性設定よりも交叉条件下での倫理的傾向が顕著に示され、複雑な入力がより深いバイアスを示すことが示唆されている。
これらの知見は、LLMの倫理行動の多次元的文脈認識評価の必要性を強調し、LLM意思決定における公平さの理解と対処のための体系的な評価とアプローチを提供する。
関連論文リスト
- Adaptive Generation of Bias-Eliciting Questions for LLMs [18.608477560948003]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションに広くデプロイされており、世界中で数億に達しています。
我々は,性,人種,宗教などのセンシティブな属性に対して,現実的でオープンな質問を自動的に生成する,反現実的バイアス評価フレームワークを導入する。
また、非対称な拒絶や偏見の明示的な認識など、ユーザインタラクションにますます関係する異なる応答次元も捉えています。
論文 参考訳(メタデータ) (2025-10-14T13:08:10Z) - Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach [0.9147875523270338]
大規模言語モデル(LLM)は、複雑さとパフォーマンスにおいて、以前のモデルを上回る優れた機能を示している。
彼らは、これらの問題の主観的で文脈に依存した性質のために、暗黙の憎しみ、攻撃的な言葉、性別の偏見を検出するのに苦労している。
我々は、人間の感情や攻撃行動を評価するために、最先端(SOTA)モデルに基づく実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-08-09T18:00:27Z) - Decoding the Mind of Large Language Models: A Quantitative Evaluation of Ideology and Biases [0.276240219662896]
大規模言語モデル(LLM)を評価するための新しいフレームワークを提案する。
このフレームワークをChatGPTとGeminiに適用することにより、LLMは一般的に多くのトピックについて一貫した意見を保っているが、そのイデオロギーはモデルや言語によって異なることがわかった。
どちらのモデルも問題のある偏見、非倫理的または不公平な主張を示しており、社会に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-05-18T00:52:06Z) - Behind the Screens: Uncovering Bias in AI-Driven Video Interview Assessments Using Counterfactuals [0.0]
本稿では,AIによる人格評価において,偏見を評価・定量化するための反ファクトベースのフレームワークを提案する。
本手法では,求職者の対実表現を生成するためにGAN(Generative Adversarial Network)を用いる。
この作業は、商用AI採用プラットフォームの公正監査のためのスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2025-05-17T18:46:14Z) - Ethical AI in the Healthcare Sector: Investigating Key Drivers of Adoption through the Multi-Dimensional Ethical AI Adoption Model (MEAAM) [1.5458951336481048]
本稿では,多次元倫理AI導入モデル(MEAAM)を紹介する。
Ethical AI Fair AI、Responsible AI、Explainable AI、Sustainable AIの4つの基本次元の13の批判的倫理変数を分類する。
これらの倫理的構成が、オペレーショナルAI導入とシステミックAI導入の2つの結果に与える影響を調査する。
論文 参考訳(メタデータ) (2025-05-04T10:40:05Z) - Analyzing Feedback Mechanisms in AI-Generated MCQs: Insights into Readability, Lexical Properties, and Levels of Challenge [0.0]
本研究は,Google の Gemini 1.5-flash テキストモデルが生成するフィードバックの言語的および構造的特性を,コンピュータサイエンスのマルチチョイス質問(MCQ)に適用するものである。
長,可読性スコア(フレッシュ・キンケイド級),語彙の豊かさ,語彙密度などの主要な言語指標を算出し,検討した。
この結果から, 多様な教育的文脈におけるAI生成フィードバックの動的適応を実証し, フィードバックトーンと質問難易度の間に有意な相互作用効果が認められた。
論文 参考訳(メタデータ) (2025-04-19T09:20:52Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7731230532888036]
CLASH (Character perspective-based LLM Assessments in situations with High-Stakes) は、345のハイインパクトジレンマと3,795の個人視点からなるデータセットである。
GPT-4oやClaude-Sonnetのような最強のモデルでさえ、決定が曖昧であるべき状況を特定する上で、50%未満の精度を達成する。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Human Decision-making is Susceptible to AI-driven Manipulation [87.24007555151452]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。
本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (2025-02-11T15:56:22Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Heuristics and Biases in AI Decision-Making: Implications for Responsible AGI [0.0]
GPT-4o, Gemma 2, Llama 3.1の3大言語モデル(LLM)における認知バイアスの存在について検討した。
この研究は、9つの確立された認知バイアスにわたる1,500の実験を使用して、モデルの反応と一貫性を評価する。
論文 参考訳(メタデータ) (2024-09-26T05:34:00Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - AI-Ethics by Design. Evaluating Public Perception on the Importance of
Ethical Design Principles of AI [0.0]
倫理的原則が相互に重み付けされているかを検討する。
倫理的に設計されたシステムに対する異なる選好モデルが、ドイツ国民の間に存在していることを示す。
論文 参考訳(メタデータ) (2021-06-01T09:01:14Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。