論文の概要: CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2408.09819v1
- Date: Mon, 19 Aug 2024 09:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:54:42.569495
- Title: CMoralEval: A Moral Evaluation Benchmark for Chinese Large Language Models
- Title(参考訳): CMoralEval:中国の大規模言語モデルのモラル評価ベンチマーク
- Authors: Linhao Yu, Yongqi Leng, Yufei Huang, Shang Wu, Haixin Liu, Xinmeng Ji, Jiahui Zhao, Jinwang Song, Tingting Cui, Xiaoqing Cheng, Tao Liu, Deyi Xiong,
- Abstract要約: 多様性と信頼性を特徴とする道徳評価データセットの構築を目指す。
我々は、伝統的な中国文化に根ざしただけでなく、現代の社会規範と整合した道徳的分類学と基本的な道徳原理のセットを開発する。
- 参考スコア(独自算出の注目度): 33.177258239580105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What a large language model (LLM) would respond in ethically relevant context? In this paper, we curate a large benchmark CMoralEval for morality evaluation of Chinese LLMs. The data sources of CMoralEval are two-fold: 1) a Chinese TV program discussing Chinese moral norms with stories from the society and 2) a collection of Chinese moral anomies from various newspapers and academic papers on morality. With these sources, we aim to create a moral evaluation dataset characterized by diversity and authenticity. We develop a morality taxonomy and a set of fundamental moral principles that are not only rooted in traditional Chinese culture but also consistent with contemporary societal norms. To facilitate efficient construction and annotation of instances in CMoralEval, we establish a platform with AI-assisted instance generation to streamline the annotation process. These help us curate CMoralEval that encompasses both explicit moral scenarios (14,964 instances) and moral dilemma scenarios (15,424 instances), each with instances from different data sources. We conduct extensive experiments with CMoralEval to examine a variety of Chinese LLMs. Experiment results demonstrate that CMoralEval is a challenging benchmark for Chinese LLMs. The dataset is publicly available at \url{https://github.com/tjunlp-lab/CMoralEval}.
- Abstract(参考訳): 倫理的に関連する文脈で、どんな大きな言語モデル(LLM)が反応するのか?
本稿では,中国のLLMの道徳評価のための大規模なベンチマークCMoralEvalをキュレートする。
CMoralEvalのデータソースは2倍です。
1)中国の道徳規範と社会の物語を議論する中国のテレビ番組
2)道徳に関する諸新聞・学術論文の漢文の抄録。
これらの資料を用いて,多様性と信頼性を特徴とする道徳評価データセットの構築を目指す。
我々は、伝統的な中国文化に根ざしただけでなく、現代の社会規範と整合した道徳的分類学と基本的な道徳原理のセットを開発する。
CMoralEvalにおけるインスタンスの効率的な構築とアノテーションを容易にするため,アノテーションプロセスの合理化を目的としたAI支援インスタンス生成プラットフォームを構築した。
これらは、明示的なモラルシナリオ(14,964インスタンス)とモラルジレンマシナリオ(15,424インスタンス)の両方を含むCMoralEvalを、それぞれ異なるデータソースのインスタンスでキュレートするのに役立ちます。
我々は, CMoralEval を用いて, 様々な中国の LLM について広範な実験を行った。
CMoralEvalは中国のLLMにとって難しいベンチマークであることを示す実験結果が得られた。
データセットは \url{https://github.com/tjunlp-lab/CMoralEval} で公開されている。
関連論文リスト
- The Moral Foundations Weibo Corpus [0.0]
道徳的な感情は、オンライン環境とオフライン環境の両方に影響し、行動スタイルと相互作用パターンを形成する。
既存のコーパスは価値はあるものの、しばしば言語的な制限に直面している。
このコーパスは、Weiboに関する25,671の中国語のコメントで構成され、6つの多様な話題領域を含んでいる。
論文 参考訳(メタデータ) (2024-11-14T17:32:03Z) - Evaluating Moral Beliefs across LLMs through a Pluralistic Framework [22.0799438612003]
本研究では,4つの著名な大規模言語モデルの道徳的信念を評価するために,新しい3つのモジュール・フレームワークを提案する。
我々は、道徳的単語から派生した中国語の道徳的選択シナリオ472のデータセットを構築した。
これらの道徳的選択をランク付けすることで、異なる言語モデルによって保持される様々な道徳的信念を識別する。
論文 参考訳(メタデータ) (2024-11-06T04:52:38Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions [4.747987317906765]
道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。
本稿では、社会談話における道徳的感情を捉えるために微調整された言語表現モデルであるMoralBERTを紹介する。
論文 参考訳(メタデータ) (2024-03-12T14:12:59Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。