論文の概要: DISCO: Disentangled Communication Steering for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.16820v1
- Date: Sat, 20 Sep 2025 21:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.992137
- Title: DISCO: Disentangled Communication Steering for Large Language Models
- Title(参考訳): DISCO: 大規模言語モデルのためのアンタングル通信ステアリング
- Authors: Max Torop, Aria Masoomi, Masih Eskandar, Jennifer Dy,
- Abstract要約: 本稿では,アテンションヘッド内のクエリおよび値表現空間に直接ステアリングベクトルを注入することを提案する。
本研究では,DISCOステアリング(disentangled Communication, Disentangled Communication,DISCO)と呼ばれる手法がアテンションヘッド出力に与える影響を解析的に評価する。
- 参考スコア(独自算出の注目度): 3.4065590965511436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A variety of recent methods guide large language model outputs via the inference-time addition of steering vectors to residual-stream or attention-head representations. In contrast, we propose to inject steering vectors directly into the query and value representation spaces within attention heads. We provide evidence that a greater portion of these spaces exhibit high linear discriminability of concepts --a key property motivating the use of steering vectors-- than attention head outputs. We analytically characterize the effect of our method, which we term DISentangled COmmunication (DISCO) Steering, on attention head outputs. Our analysis reveals that DISCO disentangles a strong but underutilized baseline, steering attention inputs, which implicitly modifies queries and values in a rigid manner. In contrast, DISCO's direct modulation of these components enables more granular control. We find that DISCO achieves superior performance over a number of steering vector baselines across multiple datasets on LLaMA 3.1 8B and Gemma 2 9B, with steering efficacy scoring up to 19.1% higher than the runner-up. Our results support the conclusion that the query and value spaces are powerful building blocks for steering vector methods.
- Abstract(参考訳): 最近の様々な手法は、残差ストリームや注目ヘッド表現へのステアリングベクトルの推論時間付加を通じて、大きな言語モデルの出力を誘導する。
対照的に、注目ヘッド内のクエリおよび値表現空間に直接ステアリングベクトルを注入することを提案する。
これらの空間の大部分は、注意ヘッド出力よりも、ステアリングベクトルの使用を動機付ける重要な性質である概念の線形識別性が高いことを示す証拠を提供する。
本研究では,DISCOステアリング(disentangled Communication, Disentangled Communication, DISCO)と呼ばれる手法がアテンションヘッド出力に与える影響を解析的に評価する。
分析の結果,disCOは強いが不便なベースラインを乱し,注意入力を操り,厳密な方法でクエリや値を暗黙的に修正することがわかった。
対照的に、DICOのこれらのコンポーネントの直接変調はよりきめ細かい制御を可能にする。
DISCO は LLaMA 3.1 8B と Gemma 2 9B 上の複数のデータセットにまたがる多数のステアリングベクトルベースラインよりも優れており、ステアリング効率はランナーアップよりも 19.1% 高い。
我々の結果は、クエリと値空間がベクトルメソッドを操る強力なビルディングブロックである、という結論を支持する。
関連論文リスト
- Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。
トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文 参考訳(メタデータ) (2026-02-19T22:37:05Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement [31.282134977964976]
既存のステアリング手法は、行動情報を学習するために大規模なデータセットに依存している。
本稿では,SAAEを利用してステアリングベクトルを意味的に識別・拡張するスパースオートエンコーダ(SAE-RSV)によるステアリングベクトルの精細化について紹介する。
本フレームワークでは、まず、SAEが提供するセマンティクスに基づいてタスク関連機能を取り除き、そのセマンティクスの類似性を通じて、小さなデータセットから欠落したタスク関連機能を強化する。
論文 参考訳(メタデータ) (2025-09-28T10:49:22Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering [41.588589098740755]
線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
論文 参考訳(メタデータ) (2025-05-21T02:45:11Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - Detecting Rotated Objects as Gaussian Distributions and Its 3-D
Generalization [81.29406957201458]
既存の検出方法は、パラメータ化バウンディングボックス(BBox)を使用して(水平)オブジェクトをモデル化し、検出する。
このような機構は回転検出に有効な回帰損失を構築するのに基本的な限界があると主張する。
回転した物体をガウス分布としてモデル化することを提案する。
2次元から3次元へのアプローチを、方向推定を扱うアルゴリズム設計により拡張する。
論文 参考訳(メタデータ) (2022-09-22T07:50:48Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。