論文の概要: Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18526v1
- Date: Tue, 21 Oct 2025 11:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.442861
- Title: Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルの安定的複数値アライメントに対する対実的推論
- Authors: Hanze Guo, Jing Yao, Xiao Zhou, Xiaoyuan Yi, Xing Xie,
- Abstract要約: COUPLEは、Puuralistic valuEアライメントのためのCOUnterfactual reasoning frameworkである。
特徴間の複雑な相互依存と優先順位付け、高レベルの価値次元と振る舞いの因果関係が特徴である。
明確な因果モデリングから恩恵を受けるため、COUPLEはより良い解釈可能性も提供する。
- 参考スコア(独自算出の注目度): 43.01088871836861
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) become increasingly integrated into applications serving users across diverse cultures, communities and demographics, it is critical to align LLMs with pluralistic human values beyond average principles (e.g., HHH). In psychological and social value theories such as Schwartz's Value Theory, pluralistic values are represented by multiple value dimensions paired with various priorities. However, existing methods encounter two challenges when aligning with such fine-grained value objectives: 1) they often treat multiple values as independent and equally important, ignoring their interdependence and relative priorities (value complexity); 2) they struggle to precisely control nuanced value priorities, especially those underrepresented ones (value steerability). To handle these challenges, we propose COUPLE, a COUnterfactual reasoning framework for PLuralistic valuE alignment. It introduces a structural causal model (SCM) to feature complex interdependency and prioritization among features, as well as the causal relationship between high-level value dimensions and behaviors. Moreover, it applies counterfactual reasoning to generate outputs aligned with any desired value objectives. Benefitting from explicit causal modeling, COUPLE also provides better interpretability. We evaluate COUPLE on two datasets with different value systems and demonstrate that COUPLE advances other baselines across diverse types of value objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)が、多様な文化、コミュニティ、人口統計学にまたがってユーザーに提供するアプリケーションにますます統合されるにつれて、LLMを平均原理(例えばHHHH)を超えた多元的人間の価値と整合させることが重要である。
シュワルツの価値観理論のような心理学的・社会的価値理論では、多元的価値は様々な優先順位に合わせた複数の値次元で表される。
しかし、既存の手法は、このような粒度の細かい値の目的と整合する際に2つの課題に直面する。
1) 相互依存や相対的な優先順位(価値の複雑さ)を無視して、複数の値を独立かつ等しく重要なものとして扱うことも多い。
2) 不正な価値の優先順位、特に不足しているもの(バリューステアビリティ)を正確に制御するのに苦労する。
これらの課題に対処するため、我々は、COUnterfactual reasoning framework for PLuralistic valuE alignmentを提案する。
特徴間の複雑な相互依存性と優先順位付けを特徴付ける構造因果モデル(SCM)を導入し、高レベルの値次元と振舞いの因果関係も導入する。
さらに、任意の所望の値目標に沿った出力を生成するために、反実的推論を適用する。
明確な因果モデリングから恩恵を受けるため、COUPLEはより良い解釈可能性も提供する。
我々は、異なる値システムを持つ2つのデータセット上でCOUPLEを評価し、COUPLEが様々な種類の値目的に対して他のベースラインを前進させることを示す。
関連論文リスト
- CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7931130268412194]
CLASHは345個のハイインパクトジレンマと3,795個の異なる値の個々の視点からなるデータセットである。
CLASHは、価値に基づく意思決定プロセスの批判的かつ未調査な側面の研究を可能にする。
GPT-5やClaude-4-Sonnetのような強力なプロプライエタリモデルでさえ、曖昧な決定に苦戦している。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Value FULCRA: Mapping Large Language Models to the Multidimensional
Spectrum of Basic Human Values [47.779186412943076]
本稿では,新しい基本値アライメントパラダイムと,基本値次元にまたがる値空間を提案する。
人文科学における人文科学と社会科学の基本的価値観に触発され、この研究は、新しい基本的価値アライメントパラダイムと、基本的価値次元にまたがる価値空間を提案する。
今後の研究を促進するために、代表的シュワルツの基本値理論を例として応用し、5k(LLM出力、値ベクトル)ペアからなるデータセットであるFULCRAを構築する。
論文 参考訳(メタデータ) (2023-11-15T10:29:28Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。