論文の概要: Improving LLM Reliability through Hybrid Abstention and Adaptive Detection
- arxiv url: http://arxiv.org/abs/2602.15391v1
- Date: Tue, 17 Feb 2026 07:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.003308
- Title: Improving LLM Reliability through Hybrid Abstention and Adaptive Detection
- Title(参考訳): ハイブリッド留置と適応検出によるLCMの信頼性向上
- Authors: Ankit Sharma, Nachiket Tapas, Jyotiprakash Patra,
- Abstract要約: 運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
- 参考スコア(独自算出の注目度): 1.9495934446083012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) deployed in production environments face a fundamental safety-utility trade-off either a strict filtering mechanisms prevent harmful outputs but often block benign queries or a relaxed controls risk unsafe content generation. Conventional guardrails based on static rules or fixed confidence thresholds are typically context-insensitive and computationally expensive, resulting in high latency and degraded user experience. To address these limitations, we introduce an adaptive abstention system that dynamically adjusts safety thresholds based on real-time contextual signals such as domain and user history. The proposed framework integrates a multi-dimensional detection architecture composed of five parallel detectors, combined through a hierarchical cascade mechanism to optimize both speed and precision. The cascade design reduces unnecessary computation by progressively filtering queries, achieving substantial latency improvements compared to non-cascaded models and external guardrail systems. Extensive evaluation on mixed and domain-specific workloads demonstrates significant reductions in false positives, particularly in sensitive domains such as medical advice and creative writing. The system maintains high safety precision and near-perfect recall under strict operating modes. Overall, our context-aware abstention framework effectively balances safety and utility while preserving performance, offering a scalable solution for reliable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害な出力を防ぐために厳格なフィルタリングメカニズムを使用するか、しばしば良質なクエリをブロックするか、安全でないコンテンツ生成のリスクを緩やかに制御するかの、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは、一般的にコンテキストに敏感で計算コストが高く、結果としてレイテンシが高く、ユーザエクスペリエンスが劣化する。
これらの制約に対処するため、ドメインやユーザ履歴などのリアルタイムなコンテキスト信号に基づいて、安全閾値を動的に調整する適応的禁制システムを導入する。
提案フレームワークは,5つの並列検出器から構成される多次元検出アーキテクチャを階層的なカスケード機構で組み合わせ,速度と精度の両方を最適化する。
カスケード設計は、クエリを段階的にフィルタリングすることで不要な計算を減らし、非カスケードモデルや外部ガードレールシステムと比較して、大幅な遅延改善を実現している。
混合およびドメイン固有のワークロードに対する広範囲な評価は、偽陽性、特に医療アドバイスやクリエイティブライティングのようなセンシティブなドメインにおいて、顕著な減少を示している。
このシステムは、厳格な操作モード下で、高い安全性とほぼ完璧なリコールを維持している。
全体として、私たちのコンテキスト対応の禁忌フレームワークは、パフォーマンスを維持しながら安全性とユーティリティを効果的にバランスさせ、信頼性の高いLCMデプロイメントのためのスケーラブルなソリューションを提供します。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Unveiling Zero-Space Detection: A Novel Framework for Autonomous Ransomware Identification in High-Velocity Environments [0.0]
提案したZero-Space Detectionフレームワークは、教師なしクラスタリングと高度なディープラーニング技術により、潜時行動パターンを識別する。
高速度環境では多相フィルタリングとアンサンブル学習を統合して効率的な意思決定を行う。
実験的評価では、LockBit、Conti、Revil、BlackMatterなど、さまざまなランサムウェアファミリー間で高い検出率を示している。
論文 参考訳(メタデータ) (2025-01-22T11:41:44Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。