論文の概要: OneShield -- the Next Generation of LLM Guardrails
- arxiv url: http://arxiv.org/abs/2507.21170v2
- Date: Thu, 31 Jul 2025 18:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 12:04:25.399523
- Title: OneShield -- the Next Generation of LLM Guardrails
- Title(参考訳): OneShield - LLMガードレールの次世代化
- Authors: Chad DeLuca, Anna Lisa Gentile, Shubhi Asthana, Bing Zhang, Pawan Chowdhary, Kellen Cheng, Basel Shbita, Pengyuan Li, Guang-Jie Ren, Sandeep Gopisetty,
- Abstract要約: 大規模言語モデルを保護するためのモデルに依存しない,カスタマイズ可能なソリューションであるOneShieldを提案する。
OneShieldは、リスクファクタの定義、コンテキスト安全とコンプライアンスポリシーの表現と宣言、LCMリスク軽減のための設備の提供を目指している。
フレームワークの実装について述べ、拡張性について考察し、初期配備以来のOneShieldの利用統計を提供する。
- 参考スコア(独自算出の注目度): 4.728263916762475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Language Models has created a general excitement about the great potential for a myriad of applications. While LLMs offer many possibilities, questions about safety, privacy, and ethics have emerged, and all the key actors are working to address these issues with protective measures for their own models and standalone solutions. The constantly evolving nature of LLMs makes it extremely challenging to universally shield users against their potential risks, and one-size-fits-all solutions are unfeasible. In this work, we propose OneShield, our stand-alone, model-agnostic and customizable solution to safeguard LLMs. OneShield aims to provide facilities for defining risk factors, expressing and declaring contextual safety and compliance policies, and mitigating LLM risks, with a focus on each specific customer. We describe the implementation of the framework, discuss scalability considerations, and provide usage statistics of OneShield since its initial deployment.
- Abstract(参考訳): 大規模言語モデルの台頭は、無数のアプリケーションの大きな可能性に対する一般的な興奮を生み出しました。
LLMは多くの可能性を提供しているが、安全性、プライバシ、倫理に関する疑問が浮上し、主要なアクターはすべて、自分たちのモデルやスタンドアロンソリューションに対する保護措置でこれらの問題に対処しようとしている。
LLMの絶え間なく進化している性質は、ユーザを潜在的なリスクから普遍的に保護することを非常に困難にしています。
本研究では,LLMの安全を守るためのスタンドアロン,モデルに依存しない,カスタマイズ可能なソリューションであるOneShieldを提案する。
OneShieldは、リスクファクタの定義、コンテキストの安全性とコンプライアンスポリシーの表現と宣言、LLMリスクの軽減、各特定の顧客に焦点を当てた機能の提供を目指している。
フレームワークの実装について述べ、拡張性について考察し、初期配備以来のOneShieldの利用統計を提供する。
関連論文リスト
- A Survey of Attacks on Large Language Models [5.845689496906739]
大規模言語モデル(LLM)とLLMベースのエージェントは、現実世界の幅広いアプリケーションに広くデプロイされている。
本稿では, LLM および LLM ベースのエージェントを標的とした敵攻撃の詳細を体系的に概説する。
論文 参考訳(メタデータ) (2025-05-18T22:55:16Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。
各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文 参考訳(メタデータ) (2024-11-03T15:20:21Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - LLMs for Cyber Security: New Opportunities [2.648763693566578]
大規模言語モデル(LLM)は、多くの産業にとって有益な、強力で汎用的なモデルである。
サイバーセキュリティについて、特にセキュリティと安全領域における困難な問題に対処するLLMの可能性を探求し、要約しています。
論文 参考訳(メタデータ) (2024-04-17T12:58:51Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。