論文の概要: Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding
- arxiv url: http://arxiv.org/abs/2508.13804v1
- Date: Tue, 19 Aug 2025 13:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.926984
- Title: Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding
- Title(参考訳): 人間の判断を超えて: LLMの道徳的価値を理解するベイズ的評価
- Authors: Maciej Skorski, Alina Landowska,
- Abstract要約: ソーシャルメディア,ニュース,フォーラムにまたがる100K以上のテキスト上の700のアノテーションから,250K以上のアノテーションにまたがるトップ言語モデルを評価する。
GPUに最適化されたBayesianフレームワークは、1M以上のモデルクエリを処理し、AIモデルは典型的に人間のアノテータの上位25%にランクされていることを明らかにした。
重要なことに、AIは人間よりもはるかに少ない偽陰性を生成し、より敏感な道徳的検出能力を強調している。
- 参考スコア(独自算出の注目度): 1.568356637037272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.
- Abstract(参考訳): 大規模言語モデルは、人間と比較して道徳的次元をどう理解するか?
市場をリードする言語モデルに対するこの大規模なベイズ評価は、その答えを提供する。
決定論的根拠真理(主観的あるいは包含的規則)を用いた以前の研究とは対照的に、アノテータの不一致をモデル化し、アレラト的不確実性(因果的ヒトの不一致)とてんかん性不確実性(モデルドメインの感度)の両方を捉える。
我々は、ソーシャルメディア、ニュース、フォーラムにまたがる100K+テキスト上で、約700のアノテーションから250K+アノテーションの上位言語モデル(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick)を評価した。
GPUに最適化されたBayesianフレームワークは、1M以上のモデルクエリを処理し、AIモデルは通常、人間のアノテータの上位25%にランクされ、平均的なバランスの取れた精度がはるかに向上していることを明らかにした。
重要なことに、AIは人間よりもはるかに少ない偽陰性を生成し、より敏感な道徳的検出能力を強調している。
関連論文リスト
- Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - Who is More Bayesian: Humans or ChatGPT? [0.0]
我々は,El-Gamal,Grether,Holt,Smithらが実施した実験から収集した被験者の選択を再検討した。
全体として、ベイズルールは人間の選択を予測する唯一の最良のモデルであるが、被験者は異質である。
また,ChatGPTは最適下決定を下すバイアスも伴うことを示した。
論文 参考訳(メタデータ) (2025-04-14T18:37:54Z) - Is Human-Like Text Liked by Humans? Multilingual Human Detection and Preference Against AI [95.81924314159943]
人文と機械文の大きなギャップは、具体性、文化的ニュアンス、多様性にある。
また,人間は必ずしも人書きのテキストを好んではいないこと,特にその情報源を明確に特定できない場合などを見いだす。
論文 参考訳(メタデータ) (2025-02-17T09:56:46Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans Due to Impenetrable Semantic Reference [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。