論文の概要: EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05942v2
- Date: Wed, 08 Oct 2025 08:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.205031
- Title: EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models
- Title(参考訳): EvalMORAAL:大規模言語モデルにおけるモーラルアライメントの解釈的連鎖とLCM-as-Judge評価
- Authors: Hadi Mohammadi, Anastasia Giachanou, Ayoub Bagheri,
- Abstract要約: EvalMORAALは20の大規模言語モデルにおいてモラルアライメントを評価する透過的なチェーン・オブ・シントフレームワークである。
世界価値調査(55か国、19か国)とPEWグローバル姿勢調査(39か国、8か国)のモデルを評価する。
- 参考スコア(独自算出の注目度): 1.141545154221656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EvalMORAAL, a transparent chain-of-thought (CoT) framework that uses two scoring methods (log-probabilities and direct ratings) plus a model-as-judge peer review to evaluate moral alignment in 20 large language models. We assess models on the World Values Survey (55 countries, 19 topics) and the PEW Global Attitudes Survey (39 countries, 8 topics). With EvalMORAAL, top models align closely with survey responses (Pearson's r approximately 0.90 on WVS). Yet we find a clear regional difference: Western regions average r=0.82 while non-Western regions average r=0.61 (a 0.21 absolute gap), indicating consistent regional bias. Our framework adds three parts: (1) two scoring methods for all models to enable fair comparison, (2) a structured chain-of-thought protocol with self-consistency checks, and (3) a model-as-judge peer review that flags 348 conflicts using a data-driven threshold. Peer agreement relates to survey alignment (WVS r=0.74, PEW r=0.39, both p<.001), supporting automated quality checks. These results show real progress toward culture-aware AI while highlighting open challenges for use across regions.
- Abstract(参考訳): EvalMORAALは2つのスコアリング手法(ログ確率と直接評価)とモデル・アズ・ジャッジ・ピア・レビューを用いて20大言語モデルにおけるモラルアライメントを評価する透過的チェーン・オブ・シント(CoT)フレームワークである。
我々は,世界価値調査(55か国,19か国)およびPEWグローバル姿勢調査(39か国,8か国)のモデルを評価する。
EvalMORAALでは、トップモデルはサーベイレスポンス(WVSのピアソン r は約0.90)と密接に一致している。
西部地域の平均はr=0.82であり、非西部地域の平均はr=0.61(0.21絶対差)であり、一貫した地域バイアスを示している。
本フレームワークには, 公正比較を可能にする2つのモデル評価手法, 2) 自己整合性チェックを備えた構造化連鎖プロトコル, (3) データ駆動しきい値を用いて348の競合をフラグするモデル・アズ・ジャッジ・ピア・レビュー, の3つの部分が追加されている。
ピア合意は、自動品質チェックをサポートするサーベイアライメント(WVS r=0.74, PEW r=0.39, both p<.001)に関連している。
これらの結果は、文化を意識したAIへの真の進歩を示しながら、地域横断で使用するためのオープンな課題を強調している。
関連論文リスト
- The Global Representativeness Index: A Total Variation Distance Framework for Measuring Demographic Fidelity in Survey Research [0.0]
調査研究は、AIガバナンスと異文化間政策における高い意思決定をますます通知する。
標準化されたメートル法は、サンプルの人口構成が対象の個体数とどの程度よく一致しているかを定量化するものではない。
本稿では,全変動距離に基づくGRI(Global Representativeness Index)を提案する。
論文 参考訳(メタデータ) (2026-02-16T15:26:52Z) - Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - Regional Bias in Large Language Models [0.0]
大規模言語モデル(LLM)における地域バイアスは、AIの公平性とグローバルな表現において、新たな関心事となっている。
我々は、文脈的に中立なシナリオ下での領域間の強制選択決定を探索するプロンプトを用いて、10の著名なLCMを評価した。
FAZEは,地域バイアスを10点尺度で測定し,高いスコアは特定の地域を優先する傾向が強いことを示す。
論文 参考訳(メタデータ) (2026-01-22T22:22:23Z) - Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs [13.630995219491972]
本稿では,アライメントモデルの代表性を評価するためのフレームワークを提案する。
2つのモデルステアリング手法を比較し,評価手法の価値を示す。
私たちは、代表性は価値アライメントの別の側面である、と結論付けます。
論文 参考訳(メタデータ) (2026-01-22T08:45:55Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。