論文の概要: Beyond Linear Steering: Unified Multi-Attribute Control for Language Models
- arxiv url: http://arxiv.org/abs/2505.24535v1
- Date: Fri, 30 May 2025 12:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.950826
- Title: Beyond Linear Steering: Unified Multi-Attribute Control for Language Models
- Title(参考訳): 線形ステアリングを超えて:言語モデルのための統一マルチ属性制御
- Authors: Narmeen Oozeer, Luke Marks, Fazl Barez, Amirali Abdullah,
- Abstract要約: K-ステアリング(K-Steering)は、隠れたアクティベーションに対して単一の非線形マルチラベル分類器を訓練する統一的で柔軟なアプローチである。
これにより、線形性の仮定を回避し、別個のベクトル属性の保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling multiple behavioral attributes in large language models (LLMs) at inference time is a challenging problem due to interference between attributes and the limitations of linear steering methods, which assume additive behavior in activation space and require per-attribute tuning. We introduce K-Steering, a unified and flexible approach that trains a single non-linear multi-label classifier on hidden activations and computes intervention directions via gradients at inference time. This avoids linearity assumptions, removes the need for storing and tuning separate attribute vectors, and allows dynamic composition of behaviors without retraining. To evaluate our method, we propose two new benchmarks, ToneBank and DebateMix, targeting compositional behavioral control. Empirical results across 3 model families, validated by both activation-based classifiers and LLM-based judges, demonstrate that K-Steering outperforms strong baselines in accurately steering multiple behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)における複数の動作特性を推論時に制御することは、属性間の干渉と線形ステアリング法(英語版)の制限により難しい問題であり、これはアクティベーション空間において付加的な振る舞いを仮定し、属性ごとのチューニングを必要とする。
K-ステアリング(K-Steering)は、隠れたアクティベーションに対して1つの非線形マルチラベル分類器を訓練し、推論時に勾配を介して介入方向を計算する統一的かつ柔軟なアプローチである。
これにより、線形性の仮定を回避し、別々の属性ベクトルの保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
提案手法を評価するために,ToneBank と DebateMix という2つの新しいベンチマークを提案する。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
関連論文リスト
- Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - DEAL: Disentangling Transformer Head Activations for LLM Steering [19.770342907146965]
本稿では,変圧器における行動関連アテンションヘッドの同定のための因果属性フレームワークを提案する。
各ヘッドに対して,ベクトル量子化オートエンコーダ(VQ-AE)をアテンションアクティベーションに基づいてトレーニングする。
行動整合性と行動違反性に対するVQ-AEエンコーディングの分離性により,各頭部の行動関連性を評価する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフラインマルチエージェント強化学習(MARL)は、分散シフトと関節行動空間の高次元性に起因する重要な課題に直面している。
多様なマルチエージェント協調パターンをモデル化するための新しい2段階フレームワークを提案する。
本手法は,協調型マルチエージェントシステムにおけるオフライン協調と平衡選択に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Probe-Free Low-Rank Activation Intervention [26.502232859901167]
隠れたアクティベーションを編集する推論時間の介入は、望ましい世代に向けてLMを操る有望な結果を示している。
本稿では,特定のアクティベーション層内のすべての注意点に対するプローブフリー干渉法FLORAINを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:03:05Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。