論文の概要: Auditing the Ethical Logic of Generative AI Models
- arxiv url: http://arxiv.org/abs/2504.17544v1
- Date: Thu, 24 Apr 2025 13:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.384594
- Title: Auditing the Ethical Logic of Generative AI Models
- Title(参考訳): 生成AIモデルの倫理論理について
- Authors: W. Russell Neuman, Chad Coleman, Ali Dasdan, Safinah Ali, Manan Shah,
- Abstract要約: 本稿では,主要な大規模言語モデル(LLM)の倫理的論理を評価するための5次元監査モデルを提案する。
モデルが一般に倫理的決定に収束する一方で、説明的厳密性や道徳的優先順位付けの点で異なることを発見した7つの主要なLCMをベンチマークする。
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトと推論最適化モデルにより,監査指標のパフォーマンスが大幅に向上した。
- 参考スコア(独自算出の注目度): 6.0972634521845475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As generative AI models become increasingly integrated into high-stakes domains, the need for robust methods to evaluate their ethical reasoning becomes increasingly important. This paper introduces a five-dimensional audit model -- assessing Analytic Quality, Breadth of Ethical Considerations, Depth of Explanation, Consistency, and Decisiveness -- to evaluate the ethical logic of leading large language models (LLMs). Drawing on traditions from applied ethics and higher-order thinking, we present a multi-battery prompt approach, including novel ethical dilemmas, to probe the models' reasoning across diverse contexts. We benchmark seven major LLMs finding that while models generally converge on ethical decisions, they vary in explanatory rigor and moral prioritization. Chain-of-Thought prompting and reasoning-optimized models significantly enhance performance on our audit metrics. This study introduces a scalable methodology for ethical benchmarking of AI systems and highlights the potential for AI to complement human moral reasoning in complex decision-making contexts.
- Abstract(参考訳): 生成的AIモデルがハイテイクドメインにますます統合されるにつれて、倫理的推論を評価する堅牢な方法の必要性が高まっている。
本稿では,主要な大規模言語モデル(LLM)の倫理的論理を評価するために,分析品質,倫理的考察,説明の深さ,一貫性,決定性を評価する5次元監査モデルを提案する。
応用倫理学と高次思考の伝統に基づいて、我々は、様々な文脈におけるモデルの推論を探求するために、新しい倫理的ジレンマを含む、多面的な迅速なアプローチを提案する。
モデルが一般に倫理的決定に収束する一方で、説明的厳密性や道徳的優先順位付けの点で異なることを発見した7つの主要なLCMをベンチマークする。
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトと推論最適化モデルにより,監査指標のパフォーマンスが大幅に向上した。
本研究では、AIシステムの倫理的ベンチマークのためのスケーラブルな方法論を紹介し、複雑な意思決定コンテキストにおける人間の道徳的推論を補完するAIの可能性を強調した。
関連論文リスト
- The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Bridging the Gap: Integrating Ethics and Environmental Sustainability in AI Research and Practice [57.94036023167952]
我々は、AIの倫理的影響を研究するための努力は、その環境への影響を評価するものと相まって行われるべきであると論じる。
我々は,AI研究と実践にAI倫理と持続可能性を統合するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2025-04-01T13:53:11Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - The Moral Mind(s) of Large Language Models [0.0]
大きな言語モデル(LLM)が様々な分野の意思決定に統合されるにつれて、主要な疑問が生まれます。
倫理的シナリオを構造化した主要プロバイダから約40のモデルを提示する。
私たちの合理性テストでは、各プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳原理と整合した振る舞いを示しました。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - Informed AI Regulation: Comparing the Ethical Frameworks of Leading LLM
Chatbots Using an Ethics-Based Audit to Assess Moral Reasoning and Normative
Values [0.0]
倫理に基づく監査は、急速に成長するAIの安全性と規制において重要な役割を担っている。
本稿では,GPT-4を含む8つの主要な商用およびオープンソースの大規模言語モデルについて,倫理に基づく監査を行う。
論文 参考訳(メタデータ) (2024-01-09T14:57:30Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。