論文の概要: Compositional Steering of Large Language Models with Steering Tokens
- arxiv url: http://arxiv.org/abs/2601.05062v1
- Date: Thu, 08 Jan 2026 16:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.269411
- Title: Compositional Steering of Large Language Models with Steering Tokens
- Title(参考訳): ステアリングトークンを用いた大規模言語モデルの合成ステアリング
- Authors: Gorjan Radevski, Kiril Gashteovski, Giwon Hong, Carolin Lawrence, Goran Glavaš,
- Abstract要約: マルチビヘイビアステアリングのためのテキストコンポジションステアリングトークンを提案する。
まず、自然言語命令として表現された個々の振る舞いを、自己蒸留によって専用のトークンに埋め込む。
ステアリングトークンは、競合するアプローチと比較して、より優れたマルチ行動制御をもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.117668235084537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying LLMs in real-world applications requires controllable output that satisfies multiple desiderata at the same time. While existing work extensively addresses LLM steering for a single behavior, \textit{compositional steering} -- i.e., steering LLMs simultaneously towards multiple behaviors -- remains an underexplored problem. In this work, we propose \emph{compositional steering tokens} for multi-behavior steering. We first embed individual behaviors, expressed as natural language instructions, into dedicated tokens via self-distillation. Contrary to most prior work, which operates in the activation space, our behavior steers live in the space of input tokens, enabling more effective zero-shot composition. We then train a dedicated \textit{composition token} on pairs of behaviors and show that it successfully captures the notion of composition: it generalizes well to \textit{unseen} compositions, including those with unseen behaviors as well as those with an unseen \textit{number} of behaviors. Our experiments across different LLM architectures show that steering tokens lead to superior multi-behavior control compared to competing approaches (instructions, activation steering, and LoRA merging). Moreover, we show that steering tokens complement natural language instructions, with their combination resulting in further gains.
- Abstract(参考訳): 実世界のアプリケーションにLLMをデプロイするには、複数のデシラタを同時に満たす制御可能な出力が必要である。
既存の研究は単一動作に対するLLMのステアリングを広く扱うが、'textit{compositional steering} -- つまり、複数の動作に対して同時にLLMをステアリングする -- は未解決の問題である。
本研究では,多行動ステアリングのためのemph{compositional steering tokens}を提案する。
まず、自然言語命令として表現された個々の振る舞いを、自己蒸留によって専用のトークンに埋め込む。
アクティベーション空間で動作するほとんどの以前の作業とは対照的に、私たちの行動ステアは入力トークンの空間に存在し、より効果的なゼロショット合成を可能にします。
次に、振る舞いのペアに専用の \textit{composition token} をトレーニングし、それが構成の概念をうまく捉えていることを示します。
異なるLCMアーキテクチャを対象とした実験により, ステアリングトークンは, 競合するアプローチ(命令, アクティベーションステアリング, LoRAマージ)と比較して, 優れたマルチビヘイビア制御をもたらすことが示された。
さらに, ステアリングトークンが自然言語命令を補完することを示す。
関連論文リスト
- Steering Large Language Model Activations in Sparse Spaces [21.55545768931058]
AIアライメントにおける重要な課題は、テスト時に望ましい振る舞いに従うために、大きな言語モデル(LLM)を導くことである。
スパース・アクティベーション・ステアリング(SAS)はスパース・オートエンコーダ(SAE)を利用してスパース空間のステアリングを行う手法である。
論文 参考訳(メタデータ) (2025-02-28T20:43:45Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering [0.0]
本稿では,事前学習したLLMの出力を,推論時にその活性化を操作することによって制御する,アクティベーションエンジニアリングについて検討する。
本稿では,活性化ベクトルの集合を楕円体領域として表現する数学的構成法を提案する。
本実験は,複数のステアリングタスクにおいて,概念的手法が従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T10:09:37Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。