論文の概要: SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.12464v1
- Date: Tue, 18 Feb 2025 02:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.747276
- Title: SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models
- Title(参考訳): SafeRoute:大規模言語モデルにおける効率的かつ正確な安全ガードレールのための適応モデル選択
- Authors: Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang,
- Abstract要約: 本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
- 参考スコア(独自算出の注目度): 63.63254955809224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) in real-world applications requires robust safety guard models to detect and block harmful user prompts. While large safety guard models achieve strong performance, their computational cost is substantial. To mitigate this, smaller distilled models are used, but they often underperform on "hard" examples where the larger model provides accurate predictions. We observe that many inputs can be reliably handled by the smaller model, while only a small fraction require the larger model's capacity. Motivated by this, we propose SafeRoute, a binary router that distinguishes hard examples from easy ones. Our method selectively applies the larger safety guard model to the data that the router considers hard, improving efficiency while maintaining accuracy compared to solely using the larger safety guard model. Experimental results on multiple benchmark datasets demonstrate that our adaptive model selection significantly enhances the trade-off between computational cost and safety performance, outperforming relevant baselines.
- Abstract(参考訳): 現実世界のアプリケーションに大規模な言語モデル(LLM)をデプロイするには、有害なユーザプロンプトを検出してブロックするための堅牢な安全ガードモデルが必要である。
大きな安全ガードモデルは高い性能を達成するが、その計算コストは相当である。
これを緩和するために、より小さな蒸留モデルが使用されるが、より大きなモデルが正確な予測を提供する「ハード」の例では、しばしば性能が劣る。
多くの入力がより小さなモデルで確実に処理可能であるのに対して、より大きなモデルのキャパシティを必要とするのはごくわずかである。
そこで我々はSafeRouteを提案する。SafeRouteは、難しい例と簡単な例を区別するバイナリルータである。
本手法は, ルータが考慮するデータに対して, より大規模な安全ガードモデルを選択的に適用し, より大規模な安全ガードモデルのみを用いた場合と比較して, 精度を保ちながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上し,関連するベースラインを上回る結果が得られた。
関連論文リスト
- Bi-directional Model Cascading with Proxy Confidence [3.1890398692194326]
本稿では,カスケード内の小型モデルと大規模モデルの信頼性を同時に考慮した,双方向なdeferralアプローチを提案する。
隠れ状態の分析を用いて、小型モデルの起動後信頼性を向上させる。
次に、これを小さなプロキシモデルと組み合わせて、大規模なモデルの起動前信頼性を推定します。
論文 参考訳(メタデータ) (2025-04-27T23:48:14Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。
性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。
最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - Overriding Safety protections of Open-source Models [4.093963624562595]
本稿では, 微調整における有害データ導入の影響について検討する。
有害なデータに対してモデルを微調整することで、役に立たないか、信頼できないかを調査する。
安全な微調整モデルでは、ベースモデルと比較してASRは51.68%減少する。
論文 参考訳(メタデータ) (2024-09-28T22:53:27Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。