論文の概要: No More, No Less: Least-Privilege Language Models
- arxiv url: http://arxiv.org/abs/2601.23157v1
- Date: Fri, 30 Jan 2026 16:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.566576
- Title: No More, No Less: Least-Privilege Language Models
- Title(参考訳): No more, No Less: Least-Privilege Language Models
- Authors: Paulius Rauba, Dominykas Seputis, Patrikas Vanagas, Mihaela van der Schaar,
- Abstract要約: 我々は、コンピュータシステムにおける最小特権からインスピレーションを得て、最小特権言語モデルと呼ばれるモデルのクラスを定義します。
配置時制御をモニタ・アロケータ・エンフォースラスタックとして形式化し、(i)要求時信号を分離し、(ii)特権を割り当てる決定ルールと(iii)特権を選択する推論時機構を分離する。
- 参考スコア(独自算出の注目度): 43.748379918040854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Least privilege is a core security principle: grant each request only the minimum access needed to achieve its goal. Deployed language models almost never follow it, instead being exposed through a single API endpoint that serves all users and requests. This gap exists not because least privilege would be unhelpful; deployments would benefit greatly from reducing unnecessary capability exposure. The real obstacle is definitional and mechanistic: what does "access" mean inside a language model, and how can we enforce it without retraining or deploying multiple models? We take inspiration from least privilege in computer systems and define a class of models called least-privilege language models, where privilege is reachable internal computation during the forward pass. In this view, lowering privilege literally shrinks the model's accessible function class, as opposed to denying access via learned policies. We formalize deployment-time control as a monitor-allocator-enforcer stack, separating (i) request-time signals, (ii) a decision rule that allocates privilege, and (iii) an inference-time mechanism that selects privilege. We then propose Nested Least-Privilege Networks, a shape-preserving, rank-indexed intervention that provides a smooth, reversible control knob. We show that this knob yields policy-usable privilege-utility frontiers and enables selective suppression of targeted capabilities with limited collateral degradation across various policies. Most importantly, we argue for a new deployment paradigm that challenges the premise that language models can only be controlled at the output level.
- Abstract(参考訳): 各要求に対して、その目標を達成するために必要な最小限のアクセスのみを許可する。
デプロイされた言語モデルは、ほとんど従わないが、代わりに、すべてのユーザとリクエストを処理する単一のAPIエンドポイントを通じて公開される。
このギャップは、最小限の特権が不完全なためではなく、不要な機能露出を減らすことで、デプロイメントが大きな恩恵を受けるだろう。
は、言語モデルの中で何を意味するのか、そして、複数のモデルを再トレーニングしたりデプロイしたりすることなく、どうやってそれを強制できるのか?
我々は、コンピュータシステムにおける最小特権からインスピレーションを得て、最短特権言語モデルと呼ばれるモデルのクラスを定義します。
この観点では、学習されたポリシーによるアクセスを拒否するのとは対照的に、特権の低下は文字通りモデルのアクセス可能な関数クラスを縮小する。
我々は、配置時間制御をモニター・アロケータ・エンフォースラスタックとして形式化し、分離する。
(i)要求時信号
二 特権を付与する決定規則及び
三 特権を選択する推論時機構
次に、スムーズで可逆的な制御ノブを提供する形状保存型ランク付き介入であるNested Least-Privilege Networksを提案する。
このノブは, 政策適用可能な特権利用フロンティアとなり, 各種政策を横断的に限定して, 目標能力の選択的抑制を可能にする。
最も重要なことは、言語モデルが出力レベルでのみ制御できるという前提に挑戦する、新しいデプロイメントパラダイムについて論じることです。
関連論文リスト
- Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning [13.332006760984122]
ACRL(Action-Constrained Reinforcement Learning)は、ポリシーネットワークの後にプロジェクション層を用いて行動を修正する。
近年,潜在変数と実行可能行動の異なるマッピングを学習するために,生成モデルを訓練する手法が提案されている。
論文 参考訳(メタデータ) (2025-02-08T12:58:26Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - What does CLIP know about peeling a banana? [0.9969273676833554]
知的なロボットが日々の生活の物体を使えるようにするためには、必要なタスクに応じて物体を分割できることが不可欠だ。
従来の割当セグメンテーションのための教師付き学習手法は、高価なピクセルレベルのアノテーションを必要とする。
本稿では,大規模な事前学習型ビジョンランゲージモデルに埋め込まれた暗黙のアベイランス知識を活用することで,これらの制約を克服するAffordanceCLIPを提案する。
論文 参考訳(メタデータ) (2024-04-18T09:06:05Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。