論文の概要: Steering Code LLMs with Activation Directions for Language and Library Control
- arxiv url: http://arxiv.org/abs/2603.23629v1
- Date: Tue, 24 Mar 2026 18:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.983892
- Title: Steering Code LLMs with Activation Directions for Language and Library Control
- Title(参考訳): 言語とライブラリ制御のためのアクティベーションディレクションによるコードLLMのステアリング
- Authors: Md Mahbubur Rahman, Arjun Guha, Harshitha Menon,
- Abstract要約: コードLLMは、中立的なプロンプトの下で特定のプログラミング言語やライブラリにデフォルトとなることが多い。
本研究では,これらの嗜好が,推定時間で操作できる活性化空間において,ほぼ線形な方向として符号化されているかどうかを検討する。
- 参考スコア(独自算出の注目度): 10.49462610276906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code LLMs often default to particular programming languages and libraries under neutral prompts. We investigate whether these preferences are encoded as approximately linear directions in activation space that can be manipulated at inference time. Using a difference-in-means method, we estimate layer-wise steering vectors for five language/library pairs and add them to model hidden states during generation. Across three open-weight code LLMs, these interventions substantially increase generation toward the target ecosystem under neutral prompts and often remain effective even when prompts explicitly request the opposite choice. Steering strength varies by model and target, with common ecosystems easier to induce than rarer alternatives, and overly strong interventions can reduce output quality. Overall, our results suggest that code-style preferences in LLMs are partly represented by compact, steerable structure in activation space.
- Abstract(参考訳): コードLLMは、中立的なプロンプトの下で特定のプログラミング言語やライブラリにデフォルトとなることが多い。
本研究では,これらの嗜好が,推定時間で操作できる活性化空間において,ほぼ線形な方向として符号化されているかどうかを検討する。
差分法を用いて、5つの言語/ライブラリペアの階層的ステアリングベクトルを推定し、生成中の隠れ状態をモデル化する。
3つのオープンウェイトコード LLM 全体で、これらの介入は中立的なプロンプトの下でターゲットエコシステムに対する生成を著しく増加させ、プロンプトが明示的に反対の選択肢を要求する場合でも有効であることが多い。
ステアリング強度はモデルとターゲットによって異なり、一般的な生態系は希少な代替よりも容易に誘導でき、過度に強力な介入は出力品質を低下させる。
以上の結果から,LLMにおけるコードスタイルの嗜好は,活性化空間におけるコンパクトでステアブルな構造によって部分的に表現されていることが示唆された。
関連論文リスト
- Neuro-Symbolic Control with Large Language Models for Language-Guided Spatial Tasks [0.769971486557519]
低レベルの動作実行と高レベルの意味的推論を区別するニューロシンボリック・コントロール・フレームワークが提案されている。
このフレームワークは、強化学習やコストのかかるロールアウトを必要とせずに、解釈可能性、安定性、一般化を向上させる。
論文 参考訳(メタデータ) (2025-12-19T08:08:40Z) - Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space [57.868527884634894]
自然言語アクター・クライブ(英: Natural Language Actor-Critic)は、スカラー値ではなく自然言語を用いてポリシーを訓練する新しいアクター批判アルゴリズムである。
NLACが既存のトレーニング手法より優れていることを示すために、推論、Webブラウジング、ツールユースを対話タスクと組み合わせた結果を示す。
論文 参考訳(メタデータ) (2025-12-04T09:21:44Z) - Steering Conceptual Bias via Transformer Latent-Subspace Activation [0.0]
本研究では,言語モデル(LLM)における潜在部分空間の活性化が,特定のプログラミング言語に対して科学的コード生成を促進できるかどうかを検討する。
C++ または CPP トークンに対して最も活性の高い静的重みを摂動させるニューロンの寄与法は脆く、限定的な一般化を示した。
勾配調整型アダプティブアクティベーションステアリングフレームワーク(G-ACT)を開発した。
論文 参考訳(メタデータ) (2025-06-23T17:56:34Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。