論文の概要: Palette: A Modular, Controllable, and Efficient Framework for On-demand Authorized Safety Alignment Relaxation in LLMs
- arxiv url: http://arxiv.org/abs/2605.24154v1
- Date: Fri, 22 May 2026 19:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.651635
- Title: Palette: A Modular, Controllable, and Efficient Framework for On-demand Authorized Safety Alignment Relaxation in LLMs
- Title(参考訳): Palette: LLMにおけるオンデマンド認可型安全アライメント緩和のためのモジュール型・制御可能・効率的なフレームワーク
- Authors: Qitao Tan, Xiaoying Song, Arman Akbari, Arash Akbari, Yanzhi Wang, Xiaoming Zhai, Lingzi Hong, Zhen Xiang, Jin Lu, Geng Yuan,
- Abstract要約: 基礎モデルの現在の安全アライメントは、主に音の大きさに適合する全てのパラダイムに従っている。
我々は,認証対象ドメインに対する拒否動作を選択的に緩和する,モジュール型かつ制御可能で効率的なフレームワークであるtextscPalette を提案する。
提案手法は,多目的探索による拒絶方向の同定と,軽量適応によるモデルへの内在化を行う。
- 参考スコア(独自算出の注目度): 39.416807881947875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current safety alignment of foundation models largely follows a \emph{one-size-fits-all} paradigm, applying the same refusal policy across users and contexts. As a result, models may refuse requests that are unsafe for general users but legitimate for authorized professionals, limiting helpfulness in specialized professional settings. Existing approaches either require costly realignment or rely on inference-time steering that suffers from imprecise control and added latency. To this end, we propose \textsc{Palette}, a modular, controllable, and efficient framework that selectively relaxes refusal behavior on authorized target domains while preserving standard safety elsewhere. Our method identifies a refusal direction via multi-objective search and internalizes it into the model through lightweight adaptation. \textsc{Palette} further supports modular composition: it learns domain-specific safety controls independently and composes them through parameter merging, enabling on-demand multi-domain authorization without retraining. Experiments across four safety benchmarks, multiple model variants, and both LLMs and VLMs show that \textsc{Palette} delivers precise safety control without sacrificing general utility, offering a practical path toward foundation models that adapt to diverse professional needs.
- Abstract(参考訳): ファンデーションモデルの現在の安全アライメントは、ユーザとコンテキスト間で同じ拒絶ポリシーを適用して、主に 'emph{one-size-fits-all} パラダイムに従っている。
結果として、モデルは一般ユーザーにとって安全でない要求を拒否するが、認可されたプロフェッショナルに対しては合法であり、専門的なプロフェッショナル設定における有用性を制限する。
既存のアプローチでは、コストのかかる調整が必要か、不正確な制御と追加のレイテンシに苦しむ推論時のステアリングに依存している。
この目的のために,モジュール型かつ制御可能で効率的なフレームワークである \textsc{Palette} を提案する。
提案手法は,多目的探索による拒絶方向の同定と,軽量適応によるモデルへの内在化を行う。
ドメイン固有の安全制御を独立して学習し、パラメータのマージを通じて構成し、再トレーニングせずにオンデマンドのマルチドメイン認証を可能にする。
4つの安全性ベンチマーク、複数のモデルバリエーション、およびLLMとVLMの両方の実験により、 \textsc{Palette} は汎用性を犠牲にすることなく正確な安全性制御を提供し、多様な専門的ニーズに適応する基礎モデルへの実践的なパスを提供する。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Neuro-Symbolic Agents for Hallucination-Free Requirements Reuse [0.0]
本稿では,要求の再利用をモデル駆動型励磁プロセスとして再概念化する,ニューロシンボリックなマルチエージェントシステムを提案する。
本システムは,100%要件カバレッジと制約違反率を0.2%で達成する。
論文 参考訳(メタデータ) (2026-05-02T18:16:04Z) - MOSAIC: Composable Safety Alignment with Modular Control Tokens [22.486612919976977]
現実世界のデプロイメントは、ユーザ、リージョン、アプリケーションによって異なるコンテキスト依存の安全ルールを必要とすることが多い。
冷凍バックボーンモデル上に最適化された学習可能な制御トークンによる構成安全アライメントを実現するモジュールフレームワークMOSAICを提案する。
実験により,MOSAICはモデルユーティリティを保ちながら,オーバーリフレクションを大幅に低減し,強力な防御性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-03-17T07:40:43Z) - Feasibility Restoration under Conflicting STL Specifications with Pareto-Optimal Refinement [18.383508411056944]
Signal Temporal Logic (STL) は、ロボット工学における表現的要求を規定する表現的言語である。
STL仕様は、安全規則、交通規制、タスクと目的を一緒に満たせない現実世界のアプリケーションでは矛盾する可能性がある。
本稿では,最小限の緩和による実現可能性の回復を図り,それを価値認識多目的最適化問題として定式化し,実現可能な解を洗練する,統合された2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-06T23:41:01Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。