論文の概要: Toward Stable Value Alignment: Introducing Independent Modules for Consistent Value Guidance
- arxiv url: http://arxiv.org/abs/2605.11712v1
- Date: Tue, 12 May 2026 08:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.689041
- Title: Toward Stable Value Alignment: Introducing Independent Modules for Consistent Value Guidance
- Title(参考訳): 安定したバリューアライメントを目指す - 一貫性のあるバリューガイダンスのための独立モジュールの導入
- Authors: Wenhao Chen, Sirui Sun, Shengyuan Bai, Guojie Song,
- Abstract要約: 本研究では,大きな言語モデルと人間の値とを一致させる安定値誘導変換器(SVGT)を提案する。
複数のバックボーンと安全ベンチマークでの実験では、SVGTは一般的に有害なスコアを70%以上削減している。
- 参考スコア(独自算出の注目度): 13.634463039790239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human values typically relies on post-training or inference-time steering that directly manipulates the backbone's parameters or representation space. However, a critical gap exists: the model's residual stream is highly dynamic, in which values exist as fragile, low-dimensional properties, inherently incompatible with the stability required for consistent value expression. In this paper, we propose the Stable Value Guidance Transformer (SVGT), which addresses this gap through an independent value module incorporating two key designs: (1) independent value modeling, maintaining normative representations in a dedicated value space isolated from the backbone, and (2) explicit behavioral guidance, transducing these stable signals into learnable latent Bridge Tokens. These tokens serve as dynamic value anchors to explicitly steer the generative trajectory, ensuring robust adherence across diverse contexts without disrupting the backbone's internal representations. Experiments across multiple backbones and safety benchmarks show that SVGT generally reduces harmful scores by over 70% while maintaining generation fluency, demonstrating the efficacy of architecturally grounded value modeling. Our code is available at https://github.com/Clervils/SVGT.git.
- Abstract(参考訳): 人間の値を持つ大きな言語モデル(LLM)のアラインメントは通常、バックボーンのパラメータや表現空間を直接操作するトレーニング後または推論時ステアリングに依存する。
しかし、重要なギャップがある:モデルの残留ストリームは高度に動的であり、そこでは値は脆弱で低次元の性質として存在し、本質的に一貫した値表現に必要な安定性とは相容れない。
本稿では,(1)独立な値モデリング,(2)バックボーンから分離された専用値空間における規範的表現の維持,(2)これらの安定な信号を学習可能な遅延ブリッジトークンに変換する,という2つの主要な設計を取り入れた独立値モジュールを通じて,このギャップに対処する安定値誘導変換器(SVGT)を提案する。
これらのトークンは動的値アンカーとして機能し、生成軌跡を明示的に制御し、バックボーンの内部表現を乱すことなく、様々な文脈における堅牢な定着を保証する。
複数のバックボーンと安全ベンチマークでの実験では、SVGTは一般的に、生成の流速を維持しながら有害なスコアを70%以上削減し、アーキテクチャ上の基盤となる価値モデリングの有効性を実証している。
私たちのコードはhttps://github.com/Clervils/SVGT.git.comで利用可能です。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods [30.612032540735402]
Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。
このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。
AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
論文 参考訳(メタデータ) (2026-01-26T17:47:42Z) - State Design Matters: How Representations Shape Dynamic Reasoning in Large Language Models [2.869209069091683]
状態を表すための設計選択は、情報そのものの可用性とは別として、パフォーマンスにおいて決定的な要素であることを示す。
しかし,従来のLLMとVLMは長い地平線上でも不安定であり続けている。
論文 参考訳(メタデータ) (2026-01-25T17:41:26Z) - The Telephone Game: Evaluating Semantic Drift in Unified Models [41.650904633974584]
単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。
これらの孤立したシングルパスメトリクスは、相互整合性を明らかにしない。概念を"理解"するモデルが、それを"レンダリング"できるのか、意味的な意味を持つのか。
論文 参考訳(メタデータ) (2025-09-04T17:53:52Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。