論文の概要: Internal Value Alignment in Large Language Models through Controlled Value Vector Activation
- arxiv url: http://arxiv.org/abs/2507.11316v1
- Date: Tue, 15 Jul 2025 13:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.128838
- Title: Internal Value Alignment in Large Language Models through Controlled Value Vector Activation
- Title(参考訳): 制御値ベクトル活性化による大言語モデルの内部値アライメント
- Authors: Haoran Jin, Meng Li, Xiting Wang, Zhihao Xu, Minlie Huang, Yantao Jia, Defu Lian,
- Abstract要約: 本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
- 参考スコア(独自算出の注目度): 70.41805604556058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Large Language Models (LLMs) with human values has attracted increasing attention since it provides clarity, transparency, and the ability to adapt to evolving scenarios. In this paper, we introduce a Controlled Value Vector Activation (ConVA) method that directly aligns the internal values of LLMs by interpreting how a value is encoded in their latent representations and modifies relevant activations to ensure consistent values in LLMs. To ensure an accurate and unbiased interpretation, we propose a context-controlled value vector identification method. To consistently control values without sacrificing model performance, we introduce a gated value vector activation method for effective and minimum degree of value control. Experiments show that our method achieves the highest control success rate across 10 basic values without hurting LLM performance and fluency, and ensures target values even with opposite and potentially malicious input prompts. Source code and data are available at~ https://github.com/hr-jin/ConVA.
- Abstract(参考訳): 大規模言語モデル(LLM)と人的価値の調整は、明確さ、透明性、進化するシナリオに適応する能力を提供するため、注目を集めている。
本稿では,制御値ベクトル活性化法(ConVA)を提案する。この手法は,LLMの内部値を直接整合させ,その潜在表現に値がどのようにエンコードされているかを解釈し,関連するアクティベーションを変更して,LLMの内部値の整合性を確保する。
正確で偏りのない解釈を保証するため,文脈制御された値ベクトル同定法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,有効かつ最小限の値制御を行うゲート値ベクトルアクティベーション法を導入する。
実験により,LLM性能と流速を損なうことなく10基本値に対して最大制御成功率を達成し,逆の入力プロンプトや潜在的に悪意のある入力プロンプトでも目標値を確保することができた。
ソースコードとデータは https://github.com/hr-jin/ConVA.com で公開されている。
関連論文リスト
- GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMs [25.093909075330007]
EAVITは人間の価値識別のための効率的かつ正確なフレームワークである。
ローカルの微調整可能とオンラインのブラックボックスLLMの長所を組み合わせている。
提案手法は,オンラインLCMを直接クエリするよりも,最大1/6の入力トークン数を効果的に削減する。
論文 参考訳(メタデータ) (2025-05-19T07:24:35Z) - Iterative Value Function Optimization for Guided Decoding [20.188412650073225]
ガイド付き復号法、特に価値誘導法は、ヒューマンフィードバックからの強化学習に代わる費用対効果を提供する。
値関数の精度は、不正確さが最適下決定につながるため、値誘導復号には不可欠である。
既存の手法は、最適な値関数を正確に見積もることに苦慮し、より効果的な制御に繋がる。
論文 参考訳(メタデータ) (2025-03-04T07:49:10Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Evaluating the Smooth Control of Attribute Intensity in Text Generation with LLMs [36.89780636600556]
大規模言語モデル(LLM)はテキスト生成に革命をもたらした。
生成したテキストの属性強度の範囲,キャリブレーション,一貫性を評価する指標を提案する。
論文 参考訳(メタデータ) (2024-06-06T19:35:51Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。