論文の概要: Efficient and accurate steering of Large Language Models through attention-guided feature learning
- arxiv url: http://arxiv.org/abs/2602.00333v1
- Date: Fri, 30 Jan 2026 21:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.12304
- Title: Efficient and accurate steering of Large Language Models through attention-guided feature learning
- Title(参考訳): 注意誘導型特徴学習による大規模言語モデルの効率的かつ正確な操舵
- Authors: Parmida Davarmanesh, Ashia Wilson, Adityanarayanan Radhakrishnan,
- Abstract要約: ステアリングに関わる3つの課題を克服する,注意誘導型ステアリングフレームワークを導入する。
512のセマンティック概念のステアリングベンチマークを通じて、我々のフレームワークは従来の最先端技術よりもステアリングを大幅に改善した。
当社のフレームワークは,産業用LLMのための効率的かつ高スケールな微調整アルゴリズムを開発するためのさらなる道を開く。
- 参考スコア(独自算出の注目度): 2.2940141855172036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering, or direct manipulation of internal activations to guide LLM responses toward specific semantic concepts, is emerging as a promising avenue for both understanding how semantic concepts are stored within LLMs and advancing LLM capabilities. Yet, existing steering methods are remarkably brittle, with seemingly non-steerable concepts becoming completely steerable based on subtle algorithmic choices in how concept-related features are extracted. In this work, we introduce an attention-guided steering framework that overcomes three core challenges associated with steering: (1) automatic selection of relevant token embeddings for extracting concept-related features; (2) accounting for heterogeneity of concept-related features across LLM activations; and (3) identification of layers most relevant for steering. Across a steering benchmark of 512 semantic concepts, our framework substantially improved steering over previous state-of-the-art (nearly doubling the number of successfully steered concepts) across model architectures and sizes (up to 70 billion parameter models). Furthermore, we use our framework to shed light on the distribution of concept-specific features across LLM layers. Overall, our framework opens further avenues for developing efficient, highly-scalable fine-tuning algorithms for industry-scale LLMs.
- Abstract(参考訳): LLMの反応を特定の意味概念へ導くための内部アクティベーションを直接操作するステアリングは、LLM内にセマンティックな概念がどのように格納されているかを理解し、LLMの能力を向上させるための、有望な道として現れつつある。
しかし、既存のステアリング手法は極めて脆弱であり、概念に関連した特徴の抽出方法に関する微妙なアルゴリズム的選択に基づいて、明らかに非ステアブルな概念が完全にステアリング可能である。
本研究では, ステアリングに関連する3つの課題を克服する, 注意誘導型ステアリングフレームワークを導入する。(1) 概念関連特徴抽出のためのトークン埋め込みの自動選択, (2) LLMアクティベーションにおける概念関連特徴の不均一性の説明, (3) ステアリングに最も関係のあるレイヤの同定。
512のセマンティックコンセプトのステアリングベンチマークを通じて、私たちのフレームワークは、モデルアーキテクチャとサイズ(最大700億のパラメータモデル)をまたいで、過去の最先端(ほぼ倍増)よりも、ステアリングを大幅に改善しました。
さらに,LLM層にまたがる概念特化機能の分布に光を当てるために,我々のフレームワークを利用する。
全体として、当社のフレームワークは、業界規模のLCMのための効率的かつ高スケールな微調整アルゴリズムを開発するためのさらなる道を開く。
関連論文リスト
- Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models [48.40096116617163]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)技術を用いて推論と数学的問題を解く能力を示す。
この研究はDeepSeek-R1の深い思考パラダイムにインスパイアされ、外部データセットを使わずにLCMの推論能力を高めるためにステアリング技術を利用している。
論文 参考訳(メタデータ) (2025-05-21T15:17:59Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。