論文の概要: Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs
- arxiv url: http://arxiv.org/abs/2601.15755v1
- Date: Thu, 22 Jan 2026 08:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.544338
- Title: Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs
- Title(参考訳): 対数分布を超えて:復号化 LLM の表現性を評価するためのフレームワーク
- Authors: Tristan Williams, Franziska Weeber, Sebastian Padó, Alan Akbik,
- Abstract要約: 本稿では,アライメントモデルの代表性を評価するためのフレームワークを提案する。
2つのモデルステアリング手法を比較し,評価手法の価値を示す。
私たちは、代表性は価値アライメントの別の側面である、と結論付けます。
- 参考スコア(独自算出の注目度): 13.630995219491972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to represent human opinions, values, or beliefs, and their steerability towards these ideals is an active area of research. Existing work focuses predominantly on aligning marginal response distributions, treating each survey item independently. While essential, this may overlook deeper latent structures that characterise real populations and underpin cultural values theories. We propose a framework for evaluating the representativeness of aligned models through multivariate correlation patterns in addition to marginal distributions. We show the value of our evaluation scheme by comparing two model steering techniques (persona prompting and demographic fine-tuning) and evaluating them against human responses from the World Values Survey. While the demographically fine-tuned model better approximates marginal response distributions than persona prompting, both techniques fail to fully capture the gold standard correlation patterns. We conclude that representativeness is a distinct aspect of value alignment and an evaluation focused on marginals can mask structural failures, leading to overly optimistic conclusions about model capabilities.
- Abstract(参考訳): 大きな言語モデルは、人間の意見、価値観、信念を表現するためにますます使われており、これらの理想に対する彼らの操縦性は研究の活発な領域である。
既存の研究は主に、各調査項目を個別に扱いながら、限界応答分布の整合に重点を置いている。
必須ではあるが、これは実際の人口を特徴づけ、文化的価値理論の基盤となる、より深い潜伏構造を見落としているかもしれない。
本稿では,境界分布に加えて,多変量相関パターンを用いてアライメントモデルの代表性を評価する枠組みを提案する。
本研究では,2つのモデルステアリング手法(ペルソナ・プロンプト法と人口動態微調整法)を比較し,その評価手法の価値を世界価値調査(World Values Survey)から評価する。
人口統計学的に微調整されたモデルはペルソナのプロンプトよりも限界応答分布をよく近似するが、どちらの手法もゴールド標準相関パターンを完全に捉えることができない。
我々は、代表性は価値アライメントの別の側面であり、限界に着目した評価は構造的失敗を隠蔽し、モデル能力に関する過度に楽観的な結論をもたらすと結論付けている。
関連論文リスト
- RoleRMBench & RoleRM: Towards Reward Modeling for Profile-Based Role Play in Dialogue Systems [85.16327248973387]
継続的インシシット優先(CIP)で訓練された報酬モデルであるRoleRMを開発する。
RoleRMは、オープンソースの強力な報酬モデルとクローズドな報酬モデルを平均で24%以上超えています。
本研究は,人間中心対話システムにおける主観的アライメントの基礎となる,連続的嗜好表現とアノテーションの整合性の重要性を強調した。
論文 参考訳(メタデータ) (2025-12-11T12:04:46Z) - Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - INFELM: In-depth Fairness Evaluation of Large Text-To-Image Models [8.340794604348632]
マルチモーダルAIシステムは、人間のような認知をエミュレートすることで、産業応用の可能性を秘めている。
また、有害な内容の増幅や社会的偏見の強化など、重大な倫理的課題も生じている。
本稿では,広く使用されているテキスト・ツー・イメージ・モデルにおける奥行きの公平性評価であるINFELMを提案する。
論文 参考訳(メタデータ) (2024-12-28T02:28:19Z) - Comparing Fairness of Generative Mobility Models [3.699135947901772]
本研究は、生成モビリティモデルの公平性を検証し、地理的領域にわたるモデルパフォーマンスにおいて、しばしば見落とされがちなエクイティの次元に対処する。
クラウドフローデータに基づいて構築された予測モデルは、都市構造や移動パターンを理解するのに有効である。
生成したトレースの有効性と公平性を測定することによって、公正性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-07T06:01:12Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。