論文の概要: VAL-Bench: Measuring Value Alignment in Language Models
- arxiv url: http://arxiv.org/abs/2510.05465v2
- Date: Wed, 08 Oct 2025 01:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.809619
- Title: VAL-Bench: Measuring Value Alignment in Language Models
- Title(参考訳): VAL-Bench: 言語モデルにおける値アライメントの測定
- Authors: Aman Gupta, Denny O'Shea, Fazl Barez,
- Abstract要約: 大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 10.745372809345412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for tasks where outputs shape human decisions, so it is critical to test whether their responses reflect consistent human values. Existing benchmarks mostly track refusals or predefined safety violations, but these only check rule compliance and do not reveal whether a model upholds a coherent value system when facing controversial real-world issues. We introduce the Value ALignment Benchmark (VAL-Bench), which evaluates whether models maintain a stable value stance across paired prompts that frame opposing sides of public debates. VAL-Bench consists of 115K such pairs from Wikipedia's controversial sections. A well-aligned model should express similar underlying views regardless of framing, which we measure using an LLM-as-judge to score agreement or divergence between paired responses. Applied across leading open- and closed-source models, the benchmark reveals large variation in alignment and highlights trade-offs between safety strategies (e.g., refusals) and more expressive value systems. By providing a scalable, reproducible benchmark, VAL-Bench enables systematic comparison of how reliably LLMs embody human values.
- Abstract(参考訳): 大規模言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われており、その応答が一貫した人間の価値を反映するかどうかをテストすることが重要である。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡しているが、これらのベンチマークはルールの遵守を確認し、議論を呼んでいる現実世界の問題に直面しているときに、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面に反するペア化されたプロンプト間で安定的な価値スタンスを維持しているかどうかを評価する。
VAL-Benchはウィキペディアの論争の的となっているセクションから115Kのペアで構成されている。
整合性のあるモデルではフレーミングにかかわらず同様の考え方を表現すべきであり、LLM-as-judge を用いてペアの応答の一致やばらつきを計測する。
主要なオープンソースモデルとクローズドソースモデルに適用されたこのベンチマークは、アライメントの大きなバリエーションを明らかにし、安全性戦略(例えば、拒絶)とより表現力のある価値システムとのトレードオフを強調している。
スケーラブルで再現可能なベンチマークを提供することで、VAL-BenchはLLMがいかに人間の価値を具現化しているかを体系的に比較することができる。
関連論文リスト
- BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。
BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。
我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文 参考訳(メタデータ) (2025-09-30T19:56:54Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。