論文の概要: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
- arxiv url: http://arxiv.org/abs/2510.13285v1
- Date: Wed, 15 Oct 2025 08:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.571362
- Title: In-Distribution Steering: Balancing Control and Coherence in Language Model Generation
- Title(参考訳): 分散ステアリング:言語モデル生成におけるバランス制御とコヒーレンス
- Authors: Arthur Vogels, Benjamin Wong, Yann Choho, Annabelle Blangero, Milan Bhan,
- Abstract要約: In-Distribution Steering (IDS) は,表現空間における入力データ分布に基づいてステアリング強度を適応させる新しい手法である。
IDSは、崩壊することなくコヒーレントテキストを生成しながら、分類タスクに対して高い精度を達成し、実世界のアプリケーションに特に適している。
- 参考スコア(独自算出の注目度): 0.0815557531820863
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Activation steering methods control large language model (LLM) behavior by modifying internal activations at inference time. However, most existing activation steering methods rely on a fixed steering strength, leading to either insufficient control or unadapted intervention that degrades text plausibility and coherence. We introduce In-Distribution Steering (IDS), a novel method that adapts steering strength based on the input data distribution in representation space. IDS dynamically adjusts interventions according to how far a given input lies within the distribution, enabling adaptive intervention and generation stability during text generation. Experiments demonstrate that IDS achieves strong accuracy on classification tasks while producing coherent text without collapse, making IDS particularly well suited for real-world applications.
- Abstract(参考訳): アクティベーションステアリング法は、推論時に内部アクティベーションを変更することで、大きな言語モデル(LLM)の振る舞いを制御する。
しかし、既存のアクティベーションステアリング手法のほとんどは固定的なステアリング強度に依存しており、制御が不十分か、テキストの妥当性とコヒーレンスを低下させる不適応な介入に繋がる。
In-Distribution Steering (IDS) は,表現空間における入力データ分布に基づいてステアリング強度を適応させる新しい手法である。
IDSは、与えられた入力がどれくらい分布内にあるかに応じて介入を動的に調整し、テキスト生成中に適応的な介入と生成安定性を実現する。
実験により、IDSは、崩壊することなくコヒーレントテキストを生成しながら、分類タスクに対して高い精度を達成し、実世界のアプリケーションに特に適していることが示された。
関連論文リスト
- Prototype-Based Dynamic Steering for Large Language Models [3.90727941420584]
Prototype-Based Dynamic Steering (PDS) は、命令の追加や変更なしに大きな言語モデル(LLM)推論を増幅するテスト時メソッドである。
本稿では,CoT (Chain-of-Thought) と中性プロンプトのクラスタリングアクティベーション差による「推論プロトタイプ」を提案する。
PDSは微調整やプロンプトエンジニアリングなしで精度を継続的に改善する。
論文 参考訳(メタデータ) (2025-10-07T01:34:28Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [94.84458417662404]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Linearly Controlled Language Generation with Performative Guarantees [4.447467536572626]
我々は、LMの潜在空間で線形に表現される概念意味論の共通モデルを用いる。
自然言語生成はこの連続的な意味空間における軌跡を辿ると考える。
本研究では,望ましくない意味に対応する領域から動的に軌道を逸脱する,軽量で勾配のない介入を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:30:44Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。