論文の概要: Beyond Linear Steering: Unified Multi-Attribute Control for Language Models
- arxiv url: http://arxiv.org/abs/2505.24535v1
- Date: Fri, 30 May 2025 12:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.950826
- Title: Beyond Linear Steering: Unified Multi-Attribute Control for Language Models
- Title(参考訳): 線形ステアリングを超えて:言語モデルのための統一マルチ属性制御
- Authors: Narmeen Oozeer, Luke Marks, Fazl Barez, Amirali Abdullah,
- Abstract要約: K-ステアリング(K-Steering)は、隠れたアクティベーションに対して単一の非線形マルチラベル分類器を訓練する統一的で柔軟なアプローチである。
これにより、線形性の仮定を回避し、別個のベクトル属性の保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling multiple behavioral attributes in large language models (LLMs) at inference time is a challenging problem due to interference between attributes and the limitations of linear steering methods, which assume additive behavior in activation space and require per-attribute tuning. We introduce K-Steering, a unified and flexible approach that trains a single non-linear multi-label classifier on hidden activations and computes intervention directions via gradients at inference time. This avoids linearity assumptions, removes the need for storing and tuning separate attribute vectors, and allows dynamic composition of behaviors without retraining. To evaluate our method, we propose two new benchmarks, ToneBank and DebateMix, targeting compositional behavioral control. Empirical results across 3 model families, validated by both activation-based classifiers and LLM-based judges, demonstrate that K-Steering outperforms strong baselines in accurately steering multiple behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)における複数の動作特性を推論時に制御することは、属性間の干渉と線形ステアリング法(英語版)の制限により難しい問題であり、これはアクティベーション空間において付加的な振る舞いを仮定し、属性ごとのチューニングを必要とする。
K-ステアリング(K-Steering)は、隠れたアクティベーションに対して1つの非線形マルチラベル分類器を訓練し、推論時に勾配を介して介入方向を計算する統一的かつ柔軟なアプローチである。
これにより、線形性の仮定を回避し、別々の属性ベクトルの保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
提案手法を評価するために,ToneBank と DebateMix という2つの新しいベンチマークを提案する。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
関連論文リスト
- Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフラインマルチエージェント強化学習(MARL)は、分散シフトと関節行動空間の高次元性に起因する重要な課題に直面している。
多様なマルチエージェント協調パターンをモデル化するための新しい2段階フレームワークを提案する。
本手法は,協調型マルチエージェントシステムにおけるオフライン協調と平衡選択に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。