論文の概要: Controlling Large Language Models Through Concept Activation Vectors
- arxiv url: http://arxiv.org/abs/2501.05764v1
- Date: Fri, 10 Jan 2025 07:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:41.965187
- Title: Controlling Large Language Models Through Concept Activation Vectors
- Title(参考訳): 概念活性化ベクトルによる大規模言語モデルの制御
- Authors: Hanyu Zhang, Xiting Wang, Chengao Li, Xiang Ao, Qing He,
- Abstract要約: 本稿では,概念活性化ベクトル(GCAV)を用いたモデル制御フレームワークを提案する。
GCAVはリソース集約的な微調整を必要とせずに正確な制御を保証する。
本フレームワークは, 粒度制御による最先端性能を実現し, 個別試料のステアリング層およびステアリング径の微粒化調整を可能にする。
- 参考スコア(独自算出の注目度): 30.348768212571255
- License:
- Abstract: As large language models (LLMs) are widely deployed across various domains, the ability to control their generated outputs has become more critical. This control involves aligning LLMs outputs with human values and ethical principles or customizing LLMs on specific topics or styles for individual users. Existing controlled generation methods either require significant computational resources and extensive trial-and-error or provide coarse-grained control. In this paper, we propose Generation with Concept Activation Vector (GCAV), a lightweight model control framework that ensures accurate control without requiring resource-extensive fine-tuning. Specifically, GCAV first trains a concept activation vector for specified concepts to be controlled, such as toxicity. During inference, GCAV steers the concept vector in LLMs, for example, by removing the toxicity concept vector from the activation layers. Control experiments from different perspectives, including toxicity reduction, sentiment control, linguistic style, and topic control, demonstrate that our framework achieves state-of-the-art performance with granular control, allowing for fine-grained adjustments of both the steering layers and the steering magnitudes for individual samples.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なドメインに広くデプロイされているため、生成された出力を制御する能力はますます重要になっている。
このコントロールには、LLMのアウトプットと人間の価値観と倫理的原則の整合性、あるいは個々のユーザのための特定のトピックやスタイルでLLMをカスタマイズすることが含まれる。
既存の制御された生成方法は、かなりの計算資源と広範な試行錯誤を必要とするか、粗い粒度の制御を必要とする。
本稿では,資源集約的な微調整を必要とせずに正確な制御を実現する軽量モデル制御フレームワークである,概念活性化ベクトル生成(GCAV)を提案する。
具体的には、GCAVはまず、毒性などの特定の概念を制御するための概念活性化ベクトルを訓練する。
推論中、GCAVは、例えば、活性化層から毒性概念ベクトルを取り除くことで、LCMの概念ベクトルを操縦する。
有害度低減, 感情制御, 言語スタイル, トピックコントロールなど, さまざまな観点からの制御実験により, 本フレームワークは, 粒度制御による最先端性能を実現し, 個別試料のステアリング層とステアリングサイズをきめ細かな調整が可能であることを実証した。
関連論文リスト
- Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering [0.0]
本稿では,事前学習したLLMの出力を,推論時にその活性化を操作することによって制御する,アクティベーションエンジニアリングについて検討する。
本稿では,活性化ベクトルの集合を楕円体領域として表現する数学的構成法を提案する。
本実験は,複数のステアリングタスクにおいて,概念的手法が従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T10:09:37Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Decision Transformer as a Foundation Model for Partially Observable Continuous Control [5.453548045211778]
決定変換器(DT)アーキテクチャは、過去の観測、行動、報酬に基づいて最適な行動を予測するために使用される。
DTは、全く新しいタスクに対して驚くべきゼロショットの一般化能力を示す。
これらの知見は、一般的な制御アプリケーションの基本制御系としてのDTの可能性を示している。
論文 参考訳(メタデータ) (2024-04-03T02:17:34Z) - LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。