論文の概要: Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
- arxiv url: http://arxiv.org/abs/2602.12134v1
- Date: Thu, 12 Feb 2026 16:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.926255
- Title: Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment
- Title(参考訳): 価値アライメント税:LLMアライメントにおける価値トレードオフの測定
- Authors: Jiajun Chen, Hua Shen,
- Abstract要約: 我々は、アライメントによって引き起こされる変化が価値間でどのように伝播するかを測定するフレームワークであるバリューアライメント税(VAT)を紹介します。
VATはアライメント圧力下での値表現のダイナミクスをキャプチャする。
その結果、アライメントはしばしば、値間の不均一で構造化されたコモーメントを生成することがわかった。
- 参考スコア(独自算出の注目度): 16.1422306417719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on value alignment typically characterizes value relations statically, ignoring how interventions - such as prompting, fine-tuning, or preference optimization - reshape the broader value system. We introduce the Value Alignment Tax (VAT), a framework that measures how alignment-induced changes propagate across interconnected values relative to achieved on-target gain. VAT captures the dynamics of value expression under alignment pressure. Using a controlled scenario-action dataset grounded in Schwartz value theory, we collect paired pre-post normative judgments and analyze alignment effects across models, values, and alignment strategies. Our results show that alignment often produces uneven, structured co-movement among values. These effects are invisible under conventional target-only evaluation, revealing systemic, process-level alignment risks and offering new insights into the dynamics of value alignment in LLMs.
- Abstract(参考訳): バリューアライメントに関する既存の作業は、一般的に、値関係を静的に特徴付け、介入(プロンプト、微調整、優先最適化など)を無視することで、より広範なバリューシステムを再構築する。
このフレームワークは、アライメントによって引き起こされる変化が、オンターゲットゲインに対して相互に結びついた値間でどのように伝播するかを測定する。
VATはアライメント圧力下での値表現のダイナミクスをキャプチャする。
シュワルツ値理論に基づく制御シナリオ・アクション・データセットを用いて、ペア化された事前規範的判断を収集し、モデル、値、アライメント戦略間のアライメント効果を分析する。
その結果、アライメントはしばしば、値間の不均一で構造化されたコモーメントを生成することがわかった。
これらの効果は、従来の目標のみの評価では見えず、システム的、プロセスレベルのアライメントリスクを明らかにし、LLMにおける値アライメントのダイナミクスに関する新たな洞察を提供する。
関連論文リスト
- Controllable Value Alignment in Large Language Models through Neuron-Level Editing [87.83756695719667]
我々は,大言語モデルにおける制御可能な値アライメントのためのニューロンレベルの編集フレームワークNeVAを提案する。
NeVAは、汎用能力においてより少ない性能劣化を招きながら、より強力な目標値アライメントを実現する。
NeVAは平均リークを著しく減らし、残効は意味論的に関連する値クラスに限られる。
論文 参考訳(メタデータ) (2026-02-07T04:35:16Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - NPO: Learning Alignment and Meta-Alignment through Structured Human Feedback [0.0]
我々は,人間のループ内決定システムにおけるフィードバック駆動型適応を運用するアライメント対応学習フレームワークであるNPOを提案する。
NPOは、構造化されたフィードバックの下で測定可能で、監視可能で、再現可能なアライメント損失の形式化を導入する。
論文 参考訳(メタデータ) (2025-07-22T11:23:18Z) - Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文 参考訳(メタデータ) (2025-07-15T13:48:35Z) - Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values? [11.490681551032502]
バリュー・アクション・ギャップ(Value-Action Gap)は、現実の文脈における個人の価値観と行動の相違を明らかにする。
本研究では,LLMの値と値インフォームドアクションのアライメントを評価するための評価フレームワークであるValueActionLensを紹介する。
論文 参考訳(メタデータ) (2025-01-26T09:33:51Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。