論文の概要: Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook
- arxiv url: http://arxiv.org/abs/2604.06210v2
- Date: Thu, 09 Apr 2026 02:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.639566
- Title: Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook
- Title(参考訳): 価値コードブックに基づくLLM文化価値アライメントの分布的オープンエンド評価
- Authors: Jaehyeok Lee, Xiaoyuan Yi, Jing Yao, Hyunjin Hwang, Roy Ka-Wei Lee, Xing Xie, JinYeong Bak,
- Abstract要約: DOVEは、人文テキストとLLM出力を直接比較する分散評価フレームワークである。
DOVEは, ダウンストリームタスクと31.56%の相関を達成し, 高い信頼性を保ちながら, 文化ごとのサンプル500点程度の信頼性を維持した。
- 参考スコア(独自算出の注目度): 50.10594064510559
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLMs are globally deployed, aligning their cultural value orientations is critical for safety and user engagement. However, existing benchmarks face the Construct-Composition-Context ($C^3$) challenge: relying on discriminative, multiple-choice formats that probe value knowledge rather than true orientations, overlook subcultural heterogeneity, and mismatch with real-world open-ended generation. We introduce DOVE, a distributional evaluation framework that directly compares human-written text distributions with LLM-generated outputs. DOVE utilizes a rate-distortion variational optimization objective to construct a compact value-codebook from 10K documents, mapping text into a structured value space to filter semantic noise. Alignment is measured using unbalanced optimal transport, capturing intra-cultural distributional structures and sub-group diversity. Experiments across 12 LLMs show that DOVE achieves superior predictive validity, attaining a 31.56% correlation with downstream tasks, while maintaining high reliability with as few as 500 samples per culture.
- Abstract(参考訳): LLMはグローバルにデプロイされているため、安全性とユーザエンゲージメントには、文化的価値の方向性の整合が不可欠である。
しかし、既存のベンチマークはコンストラクト・コンポジション・コンテキスト(C^3$)の課題に直面しており、真のオリエンテーションよりも価値知識を探索する差別的で複数の選択形式に依存し、サブカルチャーな異質性を見落とし、現実世界のオープンエンド世代とミスマッチする。
人書きテキストの分布とLLM生成した出力を直接比較する分布評価フレームワークであるDOVEを紹介する。
DOVEは、10K文書からコンパクトなバリューコードブックを構築し、テキストを構造化された値空間にマッピングし、セマンティックノイズをフィルタリングする。
アライメントは、不均衡な最適輸送、文化内分布構造とサブグループの多様性を捉えて測定される。
12のLDMでの実験では、DOVEは予測精度が優れ、下流のタスクと31.56%の相関が得られた。
関連論文リスト
- Evidence-based Distributional Alignment for Large Language Models [58.65469623911573]
LLM分布推定の忠実度とロバスト性を改善する証拠に基づくアライメント手法であるEvi-DAを提案する。
対象国が与えられた場合、Evi-DAは関連するWorld Values Survey項目とその回答分布を検索し、オプション毎に粗いヴェルツェル値シグネチャを予測し、国条件の回答分布を構造化形式で推測する。
論文 参考訳(メタデータ) (2026-03-03T03:34:06Z) - Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - Compositional Bias Control in Large Language Models: Preference Learning Fails, Supervision Succeeds [0.0]
大規模言語モデル (LLMs) は、職業中立の文脈においても男女ステレオタイプ言語を生成する。
バイアス緩和のための6つの制御手法を比較する: プロンプトオンリー、ジェネレータ、DFAベースのCtrl-Gデコーディング、スーパーバイザードファインチューニング(SFT)、直接選好最適化(DPO)、反復ヌルスペース投影(INLP)。
SFT は 99.87 +- 0.15% のコンプライアンスと高い語彙の多様性を達成するが、DPO は同様の訓練安定性にもかかわらず 4.53 +- 0.82% で失敗する。
論文 参考訳(メタデータ) (2025-10-24T23:52:37Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge [15.980606104936365]
大規模言語モデル(LLM)は機械学習のランドスケープに革命をもたらしたが、現在のベンチマークは現実世界のアプリケーションでこれらのモデルの多様な振る舞いを捉えるのに不足していることが多い。
Alpaca-Eval 2.0 LC referenceubois2024length controlledalpacaevalsimpleway や Arena-Hard v0.1 citeli2024crowdsourced のような既存のフレームワークは、汎用的なクエリと法、医学、多言語コンテキストといったドメイン間の多様性の欠如によって制限されている。
LLM-asに適したドメイン固有の評価セットをキュレートする新しいデータパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-16T15:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。