論文の概要: Benchmarking Overton Pluralism in LLMs
- arxiv url: http://arxiv.org/abs/2512.01351v1
- Date: Mon, 01 Dec 2025 07:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.730762
- Title: Benchmarking Overton Pluralism in LLMs
- Title(参考訳): LLMにおけるオーバートン多元論のベンチマーク
- Authors: Elinor Poole-Dayan, Jiayi Wu, Taylor Sorensen, Jiaxin Pei, Michiel A. Bakker,
- Abstract要約: オーバートン多元論を集合被覆度(OvertonScore)として定式化する。
我々は、米国代表人間の大規模な研究を行っている(N = 1209, 60 質問 8 LLMs)。
人間の判断を忠実に再現する自動ベンチマークを開発する。
- 参考スコア(独自算出の注目度): 12.54871291736445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a novel framework for measuring Overton pluralism in LLMs--the extent to which diverse viewpoints are represented in model outputs. We (i) formalize Overton pluralism as a set coverage metric (OvertonScore), (ii) conduct a large-scale U.S.-representative human study (N = 1209; 60 questions; 8 LLMs), and (iii) develop an automated benchmark that closely reproduces human judgments. On average, models achieve OvertonScores of 0.35--0.41, with DeepSeek V3 performing best; yet all models remain far below the theoretical maximum of 1.0, revealing substantial headroom for improvement. Because repeated large-scale human studies are costly and slow, scalable evaluation tools are essential for model development. Hence, we propose an automated benchmark that achieves high rank correlation with human judgments ($ρ=0.88$), providing a practical proxy without replacing human assessment. By turning pluralistic alignment from a normative aim into a measurable benchmark, our work establishes a foundation for systematic progress toward more pluralistic LLMs.
- Abstract(参考訳): 本稿では,LLMにおけるオーバートン多元性(Overton multipleism)を測定するための新しい枠組みを提案する。
我が家
(i)オーバートン多元論を集合カバレッジ指標として定式化する(OvertonScore)
(二)米国代表人間の大規模な研究(N=1209、60質問、8LLM)を行い、
三 人間の判断を忠実に再現する自動ベンチマークを開発すること。
平均するとオーバートンスコアは0.35--0.41で、DeepSeek V3は最高性能である。
大規模な人間の研究は費用がかかり、遅いため、モデル開発にはスケーラブルな評価ツールが不可欠である。
そこで我々は,人間の判断と高いランク相関(ρ=0.88$)を達成し,人間の評価を置き換えることなく,実用的なプロキシを提供する自動ベンチマークを提案する。
規範的目的から測定可能なベンチマークへと多元的アライメントを転換することにより、我々の研究はより多元的LLMに向けた体系的な進歩の基盤を確立する。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - A Roadmap to Pluralistic Alignment [49.29107308098236]
本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。
我々は,AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。
我々は、現在のアライメント技術は、基本的に多元的AIに限られていると論じる。
論文 参考訳(メタデータ) (2024-02-07T18:21:17Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。