論文の概要: VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment
- arxiv url: http://arxiv.org/abs/2603.04822v1
- Date: Thu, 05 Mar 2026 05:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.085034
- Title: VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment
- Title(参考訳): VISA:パーソナライズされたLLMアライメントのためのシールド適応によるバリューインジェクション
- Authors: Jiawei Chen, Tianzhuo Yang, Guoxi Zhang, Jiaming Ji, Yaodong Yang, Juntao Dai,
- Abstract要約: 細調整と大言語モデル(LLM)のトレードオフをナビゲートするクローズドループフレームワークを提案する。
VISAは高精度な値検出器、セマンティック・ツー・バリュー・トランスレータ、コア・バリュー・リライターを備えている。
実験により,本手法は,実際の一貫性と汎用性を保ちながら,モデルの値表現を正確に制御できることが実証された。
- 参考スコア(独自算出の注目度): 24.492954219955788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with nuanced human values remains a critical challenge, as existing methods like Reinforcement Learning from Human Feedback (RLHF) often handle only coarse-grained attributes. In practice, fine-tuning LLMs on task-specific datasets to optimize value alignment inevitably incurs an alignment tax: the model's pre-calibrated value system drifts significantly due to latent bias absorption from training data, while the fine-tuning process also causes severe hallucinations and semantic information loss in generated responses. To address this, we propose VISA (Value Injection via Shielded Adaptation), a closed-loop framework designed to navigate this trade-off. VISA's architecture features a high-precision value detector, a semantic-to-value translator, and a core value-rewriter. The value-rewriter is trained via Group Relative Policy Optimization (GRPO) with a composite reward function that simultaneously optimizes for fine-grained value precision, and the preservation of semantic integrity. By learning an optimal policy to balance these competing objectives, VISA effectively mitigates the alignment tax while staying loyal to the original knowledge. Our experiments demonstrate that this approach enables precise control over a model's value expression while maintaining its factual consistency and general capabilities, significantly outperforming both standard fine-tuning methods and prompting-based baselines, including GPT-4o.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)のような既存の手法では、粗い粒度の属性のみを扱うことが多い。
実際に、タスク固有のデータセットを微調整して値アライメントを最適化すると、必然的にアライメント税が発生する。モデルの事前校正された値システムは、トレーニングデータからの遅延バイアス吸収により、大幅にドリフトする一方、微調整プロセスは、生成された応答において深刻な幻覚とセマンティック情報損失を引き起こす。
そこで我々は,このトレードオフをナビゲートするクローズドループフレームワークであるVISA(Value Injection via Shielded Adaptation)を提案する。
VISAのアーキテクチャは、高精度な値検出器、セマンティック・ツー・バリュー・トランスレータ、コア・バリュー・リライターを備えている。
値リライターはグループ相対ポリシー最適化(GRPO)を介して訓練され、細粒度値の精度と意味的整合性の維持を同時に最適化する複合報酬関数を備える。
競合する目標のバランスをとるための最適な政策を学ぶことで、VISAは、元の知識に忠実でありながら、アライメント税を効果的に軽減する。
実験により,本手法は,実際の一貫性と汎用性を保ちながら,モデルの値表現を正確に制御し,標準微調整法とGPT-4oを含むプロンプトベースラインを著しく上回ることを示す。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文 参考訳(メタデータ) (2025-07-15T13:48:35Z) - Evolutionary Guided Decoding: Iterative Value Refinement for LLMs [41.56764640311065]
イテレーティブ・バリュー・リファインメントはこのギャップを埋めるために設計された新しいフレームワークです。
より包括的で堅牢なトレーニング信号を提供するために、Value Explorationを採用している。
イテレーティブ・セルフリファインメントは、1回のイテレーションから改善された値関数を使用して、高品質なデータの生成をガイドします。
論文 参考訳(メタデータ) (2025-03-04T07:49:10Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。