論文の概要: Activation-Space Anchored Access Control for Multi-Class Permission Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.13630v1
- Date: Tue, 20 Jan 2026 05:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.175445
- Title: Activation-Space Anchored Access Control for Multi-Class Permission Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるマルチクラスパーミッション推論のためのアクティベーション空間アンコレッドアクセス制御
- Authors: Zhaopeng Zhang, Pengcheng Sun, Lan Zhang, Chen Tang, Jiewei Lai, Yunhao Wang, Hui Jin,
- Abstract要約: 大規模言語モデル(LLM)は、効率的な知識検索と質問応答のために、知識ベース上にますます展開されている。
LLMはユーザーの許可範囲を超えて不注意に答えることができ、センシティブなコンテンツをリークする。
マルチクラスパーミッション制御のためのトレーニングフリーフレームワークである Activation-space Anchored Access Control (AAAC) を提案する。
- 参考スコア(独自算出の注目度): 20.49818370567961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed over knowledge bases for efficient knowledge retrieval and question answering. However, LLMs can inadvertently answer beyond a user's permission scope, leaking sensitive content, thus making it difficult to deploy knowledge-base QA under fine-grained access control requirements. In this work, we identify a geometric regularity in intermediate activations: for the same query, representations induced by different permission scopes cluster distinctly and are readily separable. Building on this separability, we propose Activation-space Anchored Access Control (AAAC), a training-free framework for multi-class permission control. AAAC constructs an anchor bank, with one permission anchor per class, from a small offline sample set and requires no fine-tuning. At inference time, a multi-anchor steering mechanism redirects each query's activations toward the anchor-defined authorized region associated with the current user, thereby suppressing over-privileged generations by design. Finally, extensive experiments across three LLM families demonstrate that AAAC reduces permission violation rates by up to 86.5% and prompt-based attack success rates by 90.7%, while improving response usability with minor inference overhead compared to baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、効率的な知識検索と質問応答のために、知識ベース上にますます展開されている。
しかし、LCMはユーザーの許可範囲を超えて不注意に答えることができ、センシティブなコンテンツを漏洩させるため、きめ細かいアクセス制御要件の下で知識ベースのQAをデプロイすることは困難である。
本研究では、中間活性化における幾何学的正則性を同定する:同じクエリに対して、異なるパーミッションスコープによって誘導される表現は明確にクラスタ化され、容易に分離可能である。
この分離性に基づいて,マルチクラスパーミッション制御のためのトレーニングフリーフレームワークである Activation-space Anchored Access Control (AAAC) を提案する。
AAACは、小さなオフラインサンプルセットから、クラス毎に1つのパーミッションアンカーを持つアンカーバンクを構築し、微調整を必要としない。
推測時に、マルチアンカーステアリング機構は、各クエリのアクティベーションを現在のユーザに関連するアンカー定義の認証領域にリダイレクトし、設計による過剰なプライマリ世代を抑制する。
最後に、3つのLLMファミリーにわたる広範な実験により、AAACは許可違反率を最大86.5%削減し、迅速な攻撃成功率を90.7%削減した。
関連論文リスト
- RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Permissioned LLMs: Enforcing Access Control in Large Language Models [11.090184334137758]
本稿では,組織データアクセス制御構造を,それらが生成するクエリ応答に重畳するパーミッションLLMを提案する。
我々はPermLLMメカニズムの有効性を実証的に評価した。
要求されるアクセス制御を実現するために、効率的なファインチューニングを基盤とした新しいPermLLM機構を3つ導入する。
論文 参考訳(メタデータ) (2025-05-28T20:47:02Z) - OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs [7.999158988904784]
大規模言語モデル(LLM)は、エンタープライズ環境での統合知識リポジトリとインテリジェントアシスタントとして機能する。
この重要な能力を評価することは、現実の企業データとアクセス制御ポリシーの独自性と機密性のため、本質的に難しい。
組織の役割やレベルに共通する40種類のパーミッションからなる,総合的かつ代表的な textbfOrgAccess ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-05-25T14:30:15Z) - Multiple Abstraction Level Retrieve Augment Generation [4.516242893120263]
大規模言語モデル(LLM)を利用した検索型拡張生成(RAG)モデルは、新しいデータや知識に適応するためのより高速でコスト効率の高いソリューションを提供する。
本稿では,多文レベル,段落レベル,セクションレベル,文書レベルを含む,複数抽象レベル(MAL)のチャンクを用いた新しいRAG手法を提案する。
従来の単一レベルRAGアプローチと比較して,Glyco関連論文では,AIによるQ/A回答の正当性の評価が25.739%向上した。
論文 参考訳(メタデータ) (2025-01-28T13:49:39Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。