論文の概要: Steering Language Models Before They Speak: Logit-Level Interventions
- arxiv url: http://arxiv.org/abs/2601.10960v1
- Date: Fri, 16 Jan 2026 03:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.342357
- Title: Steering Language Models Before They Speak: Logit-Level Interventions
- Title(参考訳): 話す前に言語モデルをステアリングする:ロジト・レベル干渉
- Authors: Hyeseon An, Shinwoo Park, Hyundong Jin, Yo-Sub Han,
- Abstract要約: 制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 9.055997973281919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering LLMs is essential for specialized applications such as style-sensitive text rewriting, user-adaptive communication, and toxicity mitigation. Current steering methods, such as prompting-based and activation-based approaches, are widely used to guide model behavior. However, activation-based techniques require deep access to internal layers, while prompting-based steering often fails to provide consistent or fine-grained control. In order to address these limitations, we propose a training-free inference-time logit intervention for controllable generation. Our approach utilizes a statistical token score table derived from z-normalized log-odds of labeled corpora to shift the decoding distribution. Empirical evaluations across three diverse datasets focusing on writing complexity, formality, and toxicity demonstrate that our method effectively steers output characteristics, confirming its broad applicability and task-agnostic nature. Our results show that statistically grounded logit steering can achieve large, consistent, and multi-task control gains: up to +47%p accuracy and 50x f1 improvement.
- Abstract(参考訳): LLMのステアリングは、スタイルに敏感なテキスト書き換え、ユーザ適応通信、毒性軽減といった特殊な用途に不可欠である。
プロンプトベースやアクティベーションベースアプローチといった現在のステアリング手法は、モデル行動のガイドに広く用いられている。
しかし、アクティベーションベースの技術は内部層への深いアクセスを必要とするが、プロンプトベースのステアリングは、一貫性またはきめ細かい制御を提供しないことが多い。
これらの制約に対処するために、制御可能な生成のためのトレーニング不要な推論時ロジット介入を提案する。
提案手法では,ラベル付きコーパスのz正規化対数から導出される統計トークンスコアテーブルを用いて復号分布をシフトする。
複雑度,形式性,毒性に着目した3つの多種多様なデータセットを対象とした実証評価により,本手法が出力特性を効果的に評価し,その広範囲な適用性とタスク非依存性を確認した。
以上の結果から,統計的に座屈したロジットステアリングは,最大47%pの精度と50倍f1の改善を達成できることがわかった。
関連論文リスト
- RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - In-Distribution Steering: Balancing Control and Coherence in Language Model Generation [0.0815557531820863]
In-Distribution Steering (IDS) は,表現空間における入力データ分布に基づいてステアリング強度を適応させる新しい手法である。
IDSは、崩壊することなくコヒーレントテキストを生成しながら、分類タスクに対して高い精度を達成し、実世界のアプリケーションに特に適している。
論文 参考訳(メタデータ) (2025-10-15T08:31:37Z) - Attribution-Guided Decoding [24.52258081219335]
本稿では,解釈可能性に基づくデコーディング戦略であるAttribution-Guided Decoding (AGD)を紹介する。
モデルアクティベーションを直接操作する代わりに、AGDは高確率出力トークン候補のセットを考える。
3つの挑戦領域にまたがってAGDの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-30T14:21:40Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Steering When Necessary: Flexible Steering Large Language Models with Backtracking [16.23081952791394]
大規模言語モデル(LLM)は多くの世代で顕著な性能を達成している。
アクティベーションステアリング(Activation steering)は、推論段階においてLSMのアクティベーションを直接変更する効果的で費用効率のよいアプローチである。
本稿では,介入の必要性と強度の両方を動的に決定するフレキシブル・アクティベーション・ステアリング・アット・バックトラッキング(FASB)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-25T03:01:30Z) - The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。
まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Fine-Tuning Language Models Using Formal Methods Feedback [53.24085794087253]
我々は、自律システムにおけるアプリケーションのための、微調整済み言語モデルに対して、完全に自動化されたアプローチを提案する。
本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。
その結果、コントローラが満たした仕様の割合が60%から90%に改善したことが示唆された。
論文 参考訳(メタデータ) (2023-10-27T16:24:24Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。