論文の概要: EigenBench: A Comparative Behavioral Measure of Value Alignment
- arxiv url: http://arxiv.org/abs/2509.01938v2
- Date: Wed, 03 Sep 2025 20:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 11:58:39.459148
- Title: EigenBench: A Comparative Behavioral Measure of Value Alignment
- Title(参考訳): EigenBench: 価値アライメントの比較行動測定
- Authors: Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X. Li, Lionel Levine,
- Abstract要約: EigenBenchは、言語モデルの値をベンチマークする方法である。
アンサンブル全体の平均的な重み付けの判断を反映したスコアを生成する。
根拠となる真理ラベルは使用せず、合理的な裁判官が同意しない可能性のある特性を定量化するように設計されている。
- 参考スコア(独自算出の注目度): 0.28707625120094377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning AI with human values is a pressing unsolved problem. To address the lack of quantitative metrics for value alignment, we propose EigenBench: a black-box method for comparatively benchmarking language models' values. Given an ensemble of models, a constitution describing a value system, and a dataset of scenarios, our method returns a vector of scores quantifying each model's alignment to the given constitution. To produce these scores, each model judges the outputs of other models across many scenarios, and these judgments are aggregated with EigenTrust (Kamvar et al, 2003), yielding scores that reflect a weighted-average judgment of the whole ensemble. EigenBench uses no ground truth labels, as it is designed to quantify traits for which reasonable judges may disagree on the correct label. Using prompted personas, we test whether EigenBench scores are more sensitive to the model or the prompt: we find that most of the variance is explained by the prompt, but a small residual quantifies the disposition of the model itself.
- Abstract(参考訳): 人間の価値をAIに合わせることは、未解決の問題だ。
数値アライメントのための定量的指標の欠如を解決するために,言語モデルの値を比較ベンチマークするブラックボックス手法であるEigenBenchを提案する。
モデル集合、値システムを記述する構成、シナリオのデータセットが与えられた場合、本手法は各モデルが所定の構成に整合していることを定量化するスコアのベクトルを返す。
これらのスコアを生成するために、各モデルは様々なシナリオで他のモデルの出力を判断し、これらの判断はEigenTrust (Kamvar et al, 2003)と集約され、アンサンブル全体の平均値の重み付けを反映したスコアを得る。
EigenBenchは、適切な判断者が正しいラベルに反対する可能性のある特性を定量化するように設計されているため、根拠となる真理ラベルは使用しない。
誘導ペルソナを用いて、EigenBenchスコアがモデルやプロンプトに対してより敏感であるかどうかをテストする。
関連論文リスト
- Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
我々は,人間の評価に最も有用なデータポイントを得るために,セレクタスイートを開発し,分析する。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - How Many Ratings per Item are Necessary for Reliable Significance Testing? [7.777020199676859]
機械学習評価に対するほとんどのアプローチは、機械と人間の応答は、一元的権威を持つ「金の標準」応答を持つデータに対して測定できる程度に反復可能であると仮定している。
既存または計画された)評価データセットが、あるモデルの性能を他のモデルと確実に比較するのに十分な応答を持っているかどうかを判断する手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T02:31:28Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Utilizing supervised models to infer consensus labels and their quality
from data with multiple annotators [16.79939549201032]
分類のための実世界のデータは、しばしば複数のアノテータによってラベル付けされる。
このようなデータを推定するための簡単なアプローチであるCROWDLABを紹介します。
提案手法は,(1)-(3)に対して,多くの代替アルゴリズムよりも優れた推定値を提供する。
論文 参考訳(メタデータ) (2022-10-13T07:54:07Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。