論文の概要: MoGU V2: Toward a Higher Pareto Frontier Between Model Usability and Security
- arxiv url: http://arxiv.org/abs/2509.06807v1
- Date: Mon, 08 Sep 2025 15:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.220652
- Title: MoGU V2: Toward a Higher Pareto Frontier Between Model Usability and Security
- Title(参考訳): MoGU V2: モデルユーザビリティとセキュリティの間の高度なパレートフロンティアを目指す
- Authors: Yanrui Du, Fenglei Fan, Sendong Zhao, Jiawei Cao, Ting Liu, Bing Qin,
- Abstract要約: 大規模言語モデルのセキュリティが重要な懸念事項として浮上している。
MoGUフレームワークは隠れた状態を検知することで動的に重みを割り当てる。
MoGU_v2は様々なLLMに対して高い適応性と安定した改善を示す。
- 参考スコア(独自算出の注目度): 40.03830223238795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) increasingly permeate human life, their security has emerged as a critical concern, particularly their ability to maintain harmless responses to malicious instructions. Although extensive methods have improved LLMs' security, they often lead to conservative, rejection-oriented responses that compromise practical usability. This presents a key challenge: how to advance the Pareto frontier between LLMs' usability and security, rather than necessitate a trade-off between them. To address this, we propose the MoGU framework, in which the intra-layer router dynamically allocates weights by sensing hidden states, thereby balancing the contributions of security-optimized and usability-optimized variants. Despite its initial potential, the MoGU framework faces limitations such as parameter redundancy and performance bottlenecks. To overcome these, we further propose an improved MoGU_v2 framework that establishes a tighter coupling between the routers and hidden states. In MoGU_v2, routers are embedded only in layers encoding highly classifiable security features, and backbone modules are activated during router optimization to enable bidirectional adaptation. MoGU_V2 exhibits strong adaptability and stable improvements across various series of LLMs, including mainstream LLMs serving as brains in various applications, on-device LLMs optimized for resource-constrained scenarios, and reasoning LLMs tailored for user interpretability. Meanwhile, even facing risks introduced by Instruction Fine-tuning, MoGU_v2 can easily restore security without compromising the task performance gains via a simple data-mix strategy. These comprehensive improvements highlight MoGU_V2 as a robust and versatile solution for mitigating security risks in real-world applications.
- Abstract(参考訳): 大きな言語モデル(LLM)が人間の生活に浸透するにつれて、そのセキュリティは、特に悪意のある命令に対する無害な応答を維持する能力に対する重要な懸念として現れてきた。
広範な手法はLLMのセキュリティを改善したが、実際的なユーザビリティを損なう保守的で拒絶指向の応答につながることが多い。
このことは、LLMのユーザビリティとセキュリティの間のParetoフロンティアをいかに前進させるかという重要な課題を示します。
そこで本研究では,層内ルータが隠れ状態を検出することで動的に重みを割り当て,セキュリティ最適化とユーザビリティ最適化の両立を両立させるMoGUフレームワークを提案する。
最初の可能性にもかかわらず、MoGUフレームワークはパラメータ冗長性やパフォーマンスボトルネックといった制限に直面している。
これを解決するために,ルータと隠れ状態との密結合を確立する改良型MoGU_v2フレームワークを提案する。
MoGU_v2では、ルータは高度に分類可能なセキュリティ機能を持つ層にのみ埋め込まれ、ルータ最適化中にバックボーンモジュールがアクティベートされ、双方向適応が可能となる。
MoGU_V2は、様々なアプリケーションで脳として機能するメインストリームのLLM、リソース制約のあるシナリオに最適化されたオンデバイスのLLM、ユーザーの解釈に適したLLMなど、様々な種類のLLMに対して、高い適応性と安定した改善を示す。
一方、インストラクションファインチューニングによって引き起こされるリスクに直面しても、単純なデータミックス戦略によってタスクのパフォーマンス向上を損なうことなく、MoGU_v2は簡単にセキュリティを回復できる。
これらの包括的な改善は、現実世界のアプリケーションにおけるセキュリティリスクを軽減するための堅牢で汎用的なソリューションとして、MoGU_V2を強調している。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System [1.0124625066746598]
報酬形成のみに依存する既存のマルチエージェント強化学習(MARL)アルゴリズムは、安全性を確保するのに有効ではない。
本稿では,MARL手法の安全性とスケーラビリティを高めるために,スケーラブルセーフMARL(Scalable Safe MARL)を提案する。
SS-MARLは,ベースラインに比べて最適性と安全性のトレードオフが良好であることを示し,そのスケーラビリティは多数のエージェントを持つシナリオにおいて,最新の手法よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2025-01-23T15:01:19Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。
我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。
ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T12:19:59Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。