論文の概要: LLM Ethics Benchmark: A Three-Dimensional Assessment System for Evaluating Moral Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.00853v1
- Date: Thu, 01 May 2025 20:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.828901
- Title: LLM Ethics Benchmark: A Three-Dimensional Assessment System for Evaluating Moral Reasoning in Large Language Models
- Title(参考訳): LLM倫理ベンチマーク:大規模言語モデルにおけるモラル推論評価のための3次元評価システム
- Authors: Junfeng Jiao, Saleh Afroogh, Abhejay Murali, Kevin Chen, David Atkinson, Amit Dhurandhar,
- Abstract要約: 本研究では,大規模言語モデル(LLM)の道徳的推論能力を体系的に評価するための新しい枠組みを確立する。
我々の枠組みは、3次元を通して人間の倫理基準との整合性を定量化することでこの問題に対処する。
このアプローチは、LLMの倫理的強みと弱みを正確に識別し、目標とする改善と社会的価値との整合性を高める。
- 参考スコア(独自算出の注目度): 8.018569128518187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study establishes a novel framework for systematically evaluating the moral reasoning capabilities of large language models (LLMs) as they increasingly integrate into critical societal domains. Current assessment methodologies lack the precision needed to evaluate nuanced ethical decision-making in AI systems, creating significant accountability gaps. Our framework addresses this challenge by quantifying alignment with human ethical standards through three dimensions: foundational moral principles, reasoning robustness, and value consistency across diverse scenarios. This approach enables precise identification of ethical strengths and weaknesses in LLMs, facilitating targeted improvements and stronger alignment with societal values. To promote transparency and collaborative advancement in ethical AI development, we are publicly releasing both our benchmark datasets and evaluation codebase at https://github.com/ The-Responsible-AI-Initiative/LLM_Ethics_Benchmark.git.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) の道徳的推論能力を体系的に評価するための新たな枠組みを確立する。
現在の評価手法では、AIシステムにおける微妙な倫理的意思決定を評価するために必要な精度が欠如しており、重大な説明責任のギャップが生じる。
我々の枠組みは、基本的道徳原則、ロバスト性の推論、さまざまなシナリオにおける価値の整合性という3つの次元を通じて、人間の倫理基準との整合性を定量化することで、この問題に対処する。
このアプローチは、LLMの倫理的強みと弱みを正確に識別し、目標とする改善と社会的価値との整合性を高める。
倫理的AI開発における透明性と協調的な進歩を促進するため、ベンチマークデータセットと評価コードベースをhttps://github.com/ The-Responsible-AI-Initiative/LLM_Ethics_Benchmark.gitで公開しています。
関連論文リスト
- The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - A Conceptual Framework for Ethical Evaluation of Machine Learning Systems [12.887834116390358]
倫理的意味は、機械学習システムの評価を設計する際に現れる。
本稿では,倫理的評価における重要なトレードオフを,潜在的な倫理的害に対する情報ゲインのバランスとして特徴付けるユーティリティ・フレームワークを提案する。
我々の分析は、倫理的な複雑さを意図的に評価し、管理する開発チームにとって重要な必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-05T01:06:49Z) - LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models [0.0]
大規模言語モデル(LLM)の普及は、その局所的価値や倫理的基準との整合性をしっかりと評価する必要がある。
textscLocalValueBenchは、LLMがオーストラリアの値に準拠していることを評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2024-07-27T05:55:42Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models [51.69735366140249]
我々はEthical-Lensというフレームワークを紹介した。
Ethical-Lensは、毒性とバイアス次元をまたいだテキストと画像のモデルにおける価値アライメントを保証する。
実験の結果、Ethical-Lensは商業モデルに匹敵するレベルまでアライメント能力を向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T11:38:25Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。