Fugu-MT 論文翻訳(概要): An Evaluation of GPT-4 on the ETHICS Dataset

論文の概要: An Evaluation of GPT-4 on the ETHICS Dataset

arxiv url: http://arxiv.org/abs/2309.10492v1
Date: Tue, 19 Sep 2023 10:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 15:16:03.964969
Title: An Evaluation of GPT-4 on the ETHICS Dataset
Title（参考訳）: ETHICSデータセットにおけるGPT-4の評価
Authors: Sergey Rodionov, Zarathustra Amadeus Goertzel, Ben Goertzel
Abstract要約: 本報告では,ETHICSデータセット上でのGPT-4の性能について概説する。 ETHICSデータセットは、異なる倫理分野をカバーする5つのサブデータセットで構成されている。 GPT-4のパフォーマンスは以前のモデルよりもはるかに優れており、共通の人間の価値を扱うことを学ぶことがAI倫理の難しい問題ではないことを示唆している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report summarizes a short study of the performance of GPT-4 on the ETHICS dataset. The ETHICS dataset consists of five sub-datasets covering different fields of ethics: Justice, Deontology, Virtue Ethics, Utilitarianism, and Commonsense Ethics. The moral judgments were curated so as to have a high degree of agreement with the aim of representing shared human values rather than moral dilemmas. GPT-4's performance is much better than that of previous models and suggests that learning to work with common human values is not the hard problem for AI ethics.
Abstract（参考訳）: 本報告では,ETHICSデータセット上でのGPT-4の性能について概説する。 ETHICSデータセットは、正義、デオントロジー、ヴィチュア倫理、ユティリタリズム、コモンセンス倫理の5つのサブデータセットで構成されている。道徳的判断は、道徳的ジレンマよりも共有された人間的価値を表現することを目的として、高い水準の一致を持つようにキュレートされた。 GPT-4のパフォーマンスは以前のモデルよりもはるかに優れており、共通の人間の価値を扱うことを学ぶことがAI倫理の難しい問題ではないことを示唆している。

関連論文リスト

JETHICS: Japanese Ethics Understanding Evaluation Dataset [3.1077024712075794]
JETHICSは、AIモデルの倫理的理解を評価するための日本のデータセットである。 78Kのサンプルを含み、既存の英語ETHICSデータセットの構築方法に従って構築されている。非プロプライエタリな大規模言語モデル (LLMs) と GPT-4o を用いた評価実験の結果, GPT-4o でさえ平均スコアが 0.7 であることがわかった。
論文参考訳（メタデータ） (2025-06-19T10:06:57Z)
Is ETHICS about ethics? Evaluating the ETHICS benchmark [0.0]
道徳理論,心理学,迅速な評価に基づいて,ETHICSベンチマークの有効性を問う。倫理の明確な理解と経験的現象との関連性を持つことは、AIの倫理評価の有効性の鍵となる。
論文参考訳（メタデータ） (2024-10-16T20:10:38Z)
Informed AI Regulation: Comparing the Ethical Frameworks of Leading LLM Chatbots Using an Ethics-Based Audit to Assess Moral Reasoning and Normative Values [0.0]
倫理に基づく監査は、急速に成長するAIの安全性と規制において重要な役割を担っている。本稿では,GPT-4を含む8つの主要な商用およびオープンソースの大規模言語モデルについて,倫理に基づく監査を行う。
論文参考訳（メタデータ） (2024-01-09T14:57:30Z)
Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文参考訳（メタデータ） (2023-10-26T16:45:40Z)
Ethical Reasoning over Moral Alignment: A Case and Framework for In-Context Ethical Policies in LLMs [19.675262411557235]
我々は、LLMを特定の倫理的原則に道徳的に整合させるのではなく、一般的な倫理的推論能力をそれらに注入すべきだと論じている。我々は、道徳的ジレンマと規範的倫理の異なるフォアメル主義に関連する道徳的原則を統合する枠組みを開発する。
論文参考訳（メタデータ） (2023-10-11T07:27:34Z)
EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval [43.72331337131317]
我々は、倫理的アライメントを、効率的なデータスクリーニングのための初期倫理的判断段階と統合するワークフローを導入する。本稿では,ETHICSベンチマークから適応したQA-ETHICSデータセットについて述べる。さらに,二項および多ラベルの倫理的判断タスクにおいて,最高の性能を実現する新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-02T08:22:34Z)
Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-05-24T11:26:59Z)
Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。 AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文参考訳（メタデータ） (2022-04-11T14:36:39Z)
AI-Ethics by Design. Evaluating Public Perception on the Importance of Ethical Design Principles of AI [0.0]
倫理的原則が相互に重み付けされているかを検討する。倫理的に設計されたシステムに対する異なる選好モデルが、ドイツ国民の間に存在していることを示す。
論文参考訳（メタデータ） (2021-06-01T09:01:14Z)
Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。 NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文参考訳（メタデータ） (2020-10-09T16:04:51Z)
Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文参考訳（メタデータ） (2020-08-05T17:59:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。