論文の概要: A Comparative Analysis on Ethical Benchmarking in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.19753v1
- Date: Fri, 11 Oct 2024 05:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:20:18.349870
- Title: A Comparative Analysis on Ethical Benchmarking in Large Language Models
- Title(参考訳): 大規模言語モデルにおける倫理的ベンチマークの比較分析
- Authors: Kira Sam, Raja Vavekanand,
- Abstract要約: この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。
我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。
医用領域の現実的な倫理的ジレンマを特徴とするTriage BenchmarkとMedicical Law (MedLaw) Benchmarkの2つのMEベンチマークを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work contributes to the field of Machine Ethics (ME) benchmarking, which develops tests to assess whether intelligent systems accurately represent human values and act accordingly. We identify three major issues with current ME benchmarks: limited ecological validity due to unrealistic ethical dilemmas, unstructured question generation without clear inclusion/exclusion criteria, and a lack of scalability due to reliance on human annotations. Moreover, benchmarks often fail to include sufficient syntactic variations, reducing the robustness of findings. To address these gaps, we introduce two new ME benchmarks: the Triage Benchmark and the Medical Law (MedLaw) Benchmark, both featuring real-world ethical dilemmas from the medical domain. The MedLaw Benchmark, fully AI-generated, offers a scalable alternative. We also introduce context perturbations in our benchmarks to assess models' worst-case performance. Our findings reveal that ethics prompting does not always improve decision-making. Furthermore, context perturbations not only significantly reduce model performance but can also reverse error patterns and shift relative performance rankings. Lastly, our comparison of worst-case performance suggests that general model capability does not always predict strong ethical decision-making. We argue that ME benchmarks must approximate real-world scenarios and worst-case performance to ensure robust evaluation.
- Abstract(参考訳): この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。
我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。
さらに、ベンチマークは十分な構文変化を含まないことが多く、発見の堅牢さを低下させる。
これらのギャップに対処するために、Triage Benchmark と the Medical Law (MedLaw) Benchmarkの2つの新しいMEベンチマークを紹介します。
完全にAI生成されたMedLaw Benchmarkは、スケーラブルな代替手段を提供する。
また、ベンチマークにコンテキスト摂動を導入し、モデルの最悪のケースのパフォーマンスを評価する。
我々の発見は、倫理的推進が必ずしも意思決定を改善するとは限らないことを示している。
さらに、コンテキスト摂動はモデルの性能を著しく低下させるだけでなく、エラーパターンを逆転させ、相対的なパフォーマンスランキングをシフトさせることもできる。
最後に、最悪の場合のパフォーマンスの比較から、一般的なモデル能力が必ずしも強力な倫理的意思決定を予測するとは限らないことが示唆される。
我々は,MEベンチマークが実世界のシナリオと最悪の性能を近似し,ロバストな評価を保証する必要があると論じている。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - TRIAGE: Ethical Benchmarking of AI Models Through Mass Casualty Simulations [4.294623208722234]
本稿では,MLMが大量事故時に倫理的判断を下す能力をテストする,新しい機械倫理(ME)ベンチマークであるTRIAGE Benchmarkを提案する。
現実の倫理的ジレンマと医療専門家が設計した明確なソリューションを使用しており、アノテーションベースのベンチマークよりも現実的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-10-10T15:06:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。