論文の概要: Permit: Permission-Aware Representation Intervention for Controlled Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.09480v1
- Date: Sun, 10 May 2026 11:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.271365
- Title: Permit: Permission-Aware Representation Intervention for Controlled Generation in Large Language Models
- Title(参考訳): パーミッション:大言語モデルにおける制御生成のためのパーミッション対応表現介入
- Authors: Pengcheng Sun, Lan Zhang, Zhaopeng Zhang, Jiewei Lai, Chen Tang,
- Abstract要約: 大きな言語モデル(LLM)は、機密文書やユーザコンテキストを扱うエンタープライズ環境にますます多くデプロイされている。
従来のアクセス制御では、情報がモデルにアクセスできるかどうかを規制するが、モデルが生成時にその情報をどのように利用するかはほとんど制限されていない。
Permitは、モデルが隠した状態に直接きめ細かな制御を施すことにより、このギャップを埋める新しいパーミッション対応表現介入フレームワークである。
- 参考スコア(独自算出の注目度): 11.113178145712885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in enterprise settings where they handle sensitive documents and user context, raising acute concerns over security and controllability. Conventional access control regulates whether information is accessible to the model, yet leaves how the model uses that information at generation time largely unconstrained: once sensitive content enters the context, outputs may still drift beyond a user's authorized scope. We present Permit, a novel permission-aware representation intervention framework that closes this gap by enforcing fine-grained control directly on the model's hidden states. Through exploratory analysis, we find that permission conditions induce hidden-state shifts that are (i) separable across permissions and (ii) concentrated in a small set of dominant directions. Permit exploits this geometry in two stages: it first identifies a permission-sensitive subspace from activation differences across permission conditions, and then performs lightweight interventions within this subspace to steer generation, with two concrete instantiations (offset-based and gated). Both operate atop a frozen backbone with only a handful of permission-specific parameters, achieving precise control with minimal overhead. Experimental results demonstrate that Permit performs better than the state-of-the-art method across multiple permission settings while driving information leakage to near zero, achieving over 18% F1-score improvement with >98% fewer trainable parameters.
- Abstract(参考訳): 大きな言語モデル(LLM)は、機密文書やユーザコンテキストを扱うエンタープライズ環境にますますデプロイされ、セキュリティや管理性に対する懸念が高まる。
従来のアクセス制御は、情報がモデルにアクセスできるかどうかを規制するが、モデルが生成時にその情報をどのように利用するかは、ほとんど制限されていない。
Permitは、モデルが隠した状態に直接きめ細かな制御を施すことにより、このギャップを埋める新しいパーミッション対応表現介入フレームワークである。
探索分析により、許可条件が隠れ状態シフトを引き起こすことが判明した。
一 許可を隔てて分けられること
(ii) 支配的な方向の小さなセットに集中する。
パーミットはこの幾何学を2つの段階で利用し、まず許可条件間でのアクティベーションの違いから許可に敏感な部分空間を特定し、次に2つの具体的なインスタンス(オフセットベースとゲート)で、この部分空間内で軽量な介入を行う。
どちらも、少数のパーミッション固有のパラメータしか持たない凍結したバックボーン上で動作し、最小限のオーバーヘッドで正確な制御を実現する。
実験の結果、Permitは複数のパーミッション設定における最先端手法よりも優れた性能を示し、情報漏洩をほぼゼロにし、トレーニング可能なパラメータを98%減らした18%以上のF1スコア改善を実現した。
関連論文リスト
- WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior [9.509326860665476]
本稿では,トークン生成に十分なニューラルネットワーク条件を同定し,モデル動作を説明する新しいフレームワークWASDを提案する。
提案手法は,ニューロン活性化述語として候補条件を表現し,電流出力を保証する最小セットを反復的に探索する。
SST-2とCounterFactをGemma-2-2Bモデルで実験した結果,従来の属性グラフよりも安定で正確で簡潔な説明が得られた。
論文 参考訳(メタデータ) (2026-03-19T04:17:19Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Efficient Representations are Controllable Representations [0.0]
LLMの内部的な概念の表現方法を制御するには、まずモデルを識別し、次にモデルの既存の特徴幾何学に介入する洗練された方法が必要である。
単純な補助損失でLCMを微調整し、3072の残留ストリーム次元のうち16を、生成に必要な概念を示す不活性な解釈可能性フラグとして訓練する。
その結果、これらの不活性フラグは真の内部機能となり、解釈可能な制御スイッチによって推論時に生成を制御できます。
論文 参考訳(メタデータ) (2026-02-08T05:32:02Z) - Activation-Space Anchored Access Control for Multi-Class Permission Reasoning in Large Language Models [20.49818370567961]
大規模言語モデル(LLM)は、効率的な知識検索と質問応答のために、知識ベース上にますます展開されている。
LLMはユーザーの許可範囲を超えて不注意に答えることができ、センシティブなコンテンツをリークする。
マルチクラスパーミッション制御のためのトレーニングフリーフレームワークである Activation-space Anchored Access Control (AAAC) を提案する。
論文 参考訳(メタデータ) (2026-01-20T05:57:44Z) - Role-Conditioned Refusals: Evaluating Access Control Reasoning in Large Language Models [9.010745644432221]
本研究は, LLMのアクセス制御ポリシーに準拠する能力に着目し, 承認された場合に応答し, 拒否した場合に応答することに着目し, 役割条件の拒絶について検討する。
この振る舞いを評価するために、SpiderとBIRDのテキスト・ツー・ショット・データセットを拡張する新しいデータセットを作成しました。
論文 参考訳(メタデータ) (2025-10-09T00:28:59Z) - GLAD: Generalizable Tuning for Vision-Language Models [41.071911050087586]
GLAD (Generalizable LoRA tuning with RegulArized GraDient) という,よりシンプルで汎用的なフレームワークを提案する。
我々は,LoRAを適用するだけで,現在の最先端のプロンプトベースの手法に匹敵するダウンストリームタスクのパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2025-07-17T12:58:15Z) - Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.64004083269424]
本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-02-03T09:13:09Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。