論文の概要: MSRS: Adaptive Multi-Subspace Representation Steering for Attribute Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10599v1
- Date: Thu, 14 Aug 2025 12:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.313939
- Title: MSRS: Adaptive Multi-Subspace Representation Steering for Attribute Alignment in Large Language Models
- Title(参考訳): MSRS:大規模言語モデルにおける属性アライメントのための適応型マルチサブスペース表現ステアリング
- Authors: Xinyan Jiang, Lin Zhang, Jiayi Zhang, Qingsong Yang, Guimin Hu, Di Wang, Lijie Hu,
- Abstract要約: アクティベーションステアリングは、大規模言語モデルの振る舞いを制御するための有望なアプローチを提供する。
実効的なマルチ属性ステアリングのための新しいフレームワークであるマルチサブスペース表現ステアリング(MSRS)を提案する。
MSRSはサブスペースを各属性に割り当てることで属性間干渉を低減し、モデルの表現空間内での影響を分離する。
- 参考スコア(独自算出の注目度): 18.902666140749012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation steering offers a promising approach to controlling the behavior of Large Language Models by directly manipulating their internal activations. However, most existing methods struggle to jointly steer multiple attributes, often resulting in interference and undesirable trade-offs. To address this challenge, we propose Multi-Subspace Representation Steering (MSRS), a novel framework for effective multi-attribute steering via subspace representation fine-tuning. MSRS reduces inter-attribute interference by allocating orthogonal subspaces to each attribute, isolating their influence within the model's representation space. MSRS also incorporates a hybrid subspace composition strategy: it combines attribute-specific subspaces for unique steering directions with a shared subspace for common steering directions. A dynamic weighting function learns to efficiently integrate these components for precise control. During inference, MSRS introduces a token-level steering mechanism that dynamically identifies and intervenes on the most semantically relevant tokens, enabling fine-grained behavioral modulation. Experimental results show that MSRS significantly reduces attribute conflicts, surpasses existing methods across a range of attributes, and generalizes effectively to diverse downstream tasks.
- Abstract(参考訳): アクティベーションステアリングは、内部のアクティベーションを直接操作することで、大規模言語モデルの振る舞いを制御するための有望なアプローチを提供する。
しかし、既存のほとんどのメソッドは、複数の属性を共同で管理するのに苦労し、しばしば干渉と望ましくないトレードオフを引き起こします。
この課題に対処するために,サブスペース表現の微調整による効果的なマルチ属性ステアリングのための新しいフレームワークであるMulti-Subspace Representation Steering (MSRS)を提案する。
MSRSは直交部分空間を各属性に割り当てることで属性間干渉を低減し、モデルの表現空間内でそれらの影響を分離する。
MSRSはまた、属性固有の部分空間を独自のステアリング方向の共有部分空間と共通のステアリング方向の共有部分空間の組み合わせという、ハイブリッドなサブスペース構成戦略も取り入れている。
動的重み付け関数は、これらのコンポーネントを正確に制御するために効率的に統合することを学ぶ。
推論の間、MSRSはトークンレベルのステアリング機構を導入し、最も意味のあるトークンを動的に識別し、介入し、きめ細かい振る舞いの変調を可能にする。
実験の結果,MSRSは属性の衝突を著しく減らし,様々な属性にまたがる既存手法を超越し,多様な下流タスクに効果的に一般化することがわかった。
関連論文リスト
- Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Beyond Linear Steering: Unified Multi-Attribute Control for Language Models [1.6874375111244329]
K-ステアリング(K-Steering)は、隠れたアクティベーションに対して単一の非線形マルチラベル分類器を訓練する統一的で柔軟なアプローチである。
これにより、線形性の仮定を回避し、別個のベクトル属性の保存とチューニングの必要性を排除し、再トレーニングなしに振る舞いの動的構成を可能にする。
アクティベーションに基づく分類器とLCMに基づく判定器の両方で検証された3つのモデルファミリーにおける実験結果から、K-ステアリングは複数の動作を正確に操る上で、強いベースラインより優れていることが証明された。
論文 参考訳(メタデータ) (2025-05-30T12:41:19Z) - SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Large Language Model Guided Progressive Feature Alignment for Multimodal UAV Object Detection [21.16636753446158]
既存のUAVオブジェクト検出手法は、しばしばモダリティ間の意味的ギャップの影響を見落としている。
本稿では,LPANet と呼ばれる,Large Language Model (LLM) ガイド付きプログレッシブ機能アライメントネットワークを提案する。
提案手法は,最先端のマルチモーダルUAVオブジェクト検出器よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T05:53:30Z) - Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。