Fugu-MT 論文翻訳(概要): Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors

論文の概要: Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors

arxiv url: http://arxiv.org/abs/2410.12299v1
Date: Wed, 16 Oct 2024 06:58:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.182118
Title: Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors
Title（参考訳）: 動的ステアリングベクトルによるLCMのセマンティックス適応活性化
Authors: Weixuan Wang, Jingyuan Yang, Wei Peng,
Abstract要約: 大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
参考スコア（独自算出の注目度）: 8.761404991620285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable performance across many tasks, yet aligning them with desired behaviors remains challenging. Activation intervention has emerged as an effective and economical method to modify the behavior of LLMs. Despite considerable interest in this area, current intervention methods exclusively employ a fixed steering vector to modify model activations, lacking adaptability to diverse input semantics. To address this limitation, we propose Semantics-Adaptive Dynamic Intervention (SADI), a novel method that constructs a dynamic steering vector to intervene model activations at inference time. More specifically, SADI utilizes activation differences in contrastive pairs to precisely identify critical elements of an LLM (i.e., attention heads, hidden states, and neurons) for targeted intervention. During inference, SADI dynamically steers model behavior by scaling element-wise activations based on the directions of input semantics. Experimental results show that SADI outperforms established baselines by substantial margins, improving task performance without training. SADI's cost-effectiveness and generalizability across various LLM backbones and tasks highlight its potential as a versatile alignment technique. In addition, we release the code to foster research along this line:https://github.com/weixuan-wang123/SADI.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのタスクで顕著なパフォーマンスを達成したが、望ましい振る舞いと整合性は依然として難しい。活性化介入は, LLMの挙動を効果的かつ経済的に変化させる方法として出現している。この領域にかなりの関心があるにもかかわらず、現在の介入手法はモデルアクティベーションを修正するために固定されたステアリングベクトルのみを用いており、多様な入力セマンティクスへの適応性に欠けている。この制限に対処するために,モデルアクティベーションを推論時に介入する動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。より具体的には、SADIは対照的なペアの活性化差を利用して、標的の介入のためにLLM(注意頭、隠れ状態、ニューロン)の重要な要素を正確に識別する。推論中、SADIは入力セマンティクスの方向に基づいて要素単位のアクティベーションをスケーリングすることでモデルを動的に操る。実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。 SADIのコスト効率と様々なLCMバックボーンとタスクの一般化性は、多目的アライメント技術としての可能性を強調している。 https://github.com/weixuan-wang123/SADI。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T15:47:22Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Dynamic Path Navigation for Motion Agents with LLM Reasoning [69.5875073447454]
大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。本研究では,LLMのゼロショットナビゲーションと経路生成機能について,データセットの構築と評価プロトコルの提案により検討する。このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。
論文参考訳（メタデータ） (2025-03-10T13:39:09Z)
Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文参考訳（メタデータ） (2025-02-18T02:27:23Z)
Task-driven Layerwise Additive Activation Intervention [12.152228552335798]
現代言語モデル(LM)は自然言語処理(NLP)において著しく高度な生成モデルを持つ本稿では, 介入プロセスの最適化を行うレイヤワイド・アダプティブ・アクティベーション・インタベーション・インタプリタ・フレームワークを提案する。我々は、様々なデータセット上でフレームワークをベンチマークし、事前訓練されたLMの精度と競合する介入ベースラインの改善を示す。
論文参考訳（メタデータ） (2025-02-10T02:49:46Z)
LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文参考訳（メタデータ） (2025-01-19T13:06:51Z)
Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。 Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文参考訳（メタデータ） (2025-01-09T01:19:21Z)
Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective [32.12158544745983]
本稿では,アクティベーションをその方向や大きさで見る新しい編集手法を提案する。提案手法は,HPR (Houseer Pseudo-Rotation) と呼ばれ,回転変換を模倣し,アクティベーション基準を保ち,様々な安全ベンチマークの性能を向上させる。
論文参考訳（メタデータ） (2024-09-16T07:29:40Z)
First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models [25.15698344467722]
本稿では,シークエンス情報を利用したトレーニングフリーなThresholdベースの動的アクティベーション手法を提案する。本研究は,歴史関連アクティベーションの不確かさと意味不明アクティベーション慣性という2つの重要な特徴を理論的に分析する。
論文参考訳（メタデータ） (2024-08-21T07:38:51Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。 CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文参考訳（メタデータ） (2023-12-09T04:40:46Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
EUCLID: Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文参考訳（メタデータ） (2022-10-02T12:11:44Z)
OSCAR: Data-Driven Operational Space Control for Adaptive and Robust Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-10-02T01:21:38Z)
GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文参考訳（メタデータ） (2021-04-07T01:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。