論文の概要: RepIt: Representing Isolated Targets to Steer Language Models
- arxiv url: http://arxiv.org/abs/2509.13281v2
- Date: Tue, 07 Oct 2025 07:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.487784
- Title: RepIt: Representing Isolated Targets to Steer Language Models
- Title(参考訳): RepIt: 分離されたターゲットをステア言語モデルに表現する
- Authors: Vincent Siu, Nathan W. Henry, Nicholas Crispino, Yang Liu, Dawn Song, Chenguang Wang,
- Abstract要約: RepItは概念固有の表現を分離するためのフレームワークである。
目的概念に対する拒絶を選択的に抑制し、他所での拒絶を抑える。
WMD関連の問題に答えるモデルを生成するが、標準ベンチマークでは安全と評価されている。
- 参考スコア(独自算出の注目度): 44.49401545656479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While activation steering in large language models (LLMs) is a growing area of research, methods can often incur broader effects than desired. This motivates isolation of purer concept vectors to enable targeted interventions and understand LLM behavior at a more granular level. We present RepIt, a simple and data-efficient framework for isolating concept-specific representations. Across five frontier LLMs, RepIt enables precise interventions: it selectively suppresses refusal on targeted concepts while preserving refusal elsewhere, producing models that answer WMD-related questions while still scoring as safe on standard benchmarks. We further show that the corrective signal localizes to just 100-200 neurons and that robust target representations can be extracted from as few as a dozen examples on a single A6000. This efficiency raises a dual concern: manipulations can be performed with modest compute and data to extend to underrepresented data-scarce topics while evading existing benchmarks. By disentangling refusal vectors with RepIt, this work demonstrates that targeted interventions can counteract overgeneralization, laying the foundation for more granular control of model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるアクティベーションステアリング(英語版)は研究の領域が増加する一方、メソッドは望まれるよりも広い効果を導き出すことができる。
これは純粋概念ベクトルの分離を動機付け、目的の介入を可能にし、より粒度の細かい LLM の振る舞いを理解する。
RepItは概念固有の表現を分離するためのシンプルでデータ効率のよいフレームワークである。
5つのフロンティア LLM 全体で、RepIt は正確な介入を可能にする: ターゲットのコンセプトに対する拒絶を選択的に抑制し、他の場所での拒絶を防ぎ、WMD 関連の質問に答えるモデルを作成しながら、標準ベンチマークで安全と評価する。
さらに、補正信号は100-200個のニューロンにのみ局在し、1つのA6000で数十個のサンプルからロバストなターゲット表現を抽出できることが示される。
操作は控えめな計算とデータで実行でき、既存のベンチマークを回避しながら、表現不足のトピックに拡張できる。
RepItで拒否ベクトルを解き放つことで、この研究は、対象の介入が過剰な一般化を防ぎ、モデル行動のよりきめ細かい制御の基礎となることを実証する。
関連論文リスト
- Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning [19.823784666021822]
ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
論文 参考訳(メタデータ) (2025-07-06T05:47:04Z) - DEAL: Disentangling Transformer Head Activations for LLM Steering [19.770342907146965]
本稿では,変圧器における行動関連アテンションヘッドの同定のための因果属性フレームワークを提案する。
各ヘッドに対して,ベクトル量子化オートエンコーダ(VQ-AE)をアテンションアクティベーションに基づいてトレーニングする。
行動整合性と行動違反性に対するVQ-AEエンコーディングの分離性により,各頭部の行動関連性を評価する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。