論文の概要: Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations
- arxiv url: http://arxiv.org/abs/2403.06009v2
- Date: Thu, 13 Jun 2024 15:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:25:56.749065
- Title: Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations
- Title(参考訳): 安全で信頼性の高いLDMのための検出器:実装、使用、限界
- Authors: Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M. Daly, Kirushikesh DB, Rogério Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh, Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Nishtha Madaan, Sameep Mehta, Erik Miehling, Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski, Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis Wei, Shalisha Witherspooon, Marcel Zalmanovici,
- Abstract要約: 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
- 参考スコア(独自算出の注目度): 76.19419888353586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data availability, etc.), it may not always be feasible to impose direct safety constraints on a deployed model. Therefore, an efficient and reliable alternative is required. To this end, we present our ongoing efforts to create and deploy a library of detectors: compact and easy-to-build classification models that provide labels for various harms. In addition to the detectors themselves, we discuss a wide range of uses for these detector models - from acting as guardrails to enabling effective AI governance. We also deep dive into inherent challenges in their development and discuss future work aimed at making the detectors more reliable and broadening their scope.
- Abstract(参考訳): 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
LLMを取り巻くいくつかの制限要因(トレーニングコスト、APIアクセス、データ可用性など)により、デプロイされたモデルに直接的な安全制約を課すことが常に可能であるとは限らない。
そのため、効率的で信頼性の高い代替手段が必要である。
この目的のために、我々は、さまざまな害のラベルを提供するコンパクトで容易に構築できる分類モデルである検知器のライブラリを作成し、展開するための継続的な取り組みを提示する。
検出器自体に加えて、ガードレールとして機能することから効果的なAIガバナンスの実現に至るまで、これらの検出モデルに対する幅広い用途について論じる。
我々はまた、その開発における固有の課題を深く掘り下げ、検出器をより信頼性を高め、その範囲を広げることを目的とした今後の取り組みについて論じる。
関連論文リスト
- A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデルは、ユーザーがこれらのモデルに意図した範囲を超えてタスクを実行するよう促すような、オフトピー的な誤用をしがちである。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
本稿では,これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - On the Black-box Explainability of Object Detection Models for Safe and Trustworthy Industrial Applications [7.848637922112521]
本稿では,物体検出モデルに対するモデルに依存しないXAI手法に着目し,分割マスク生成を用いた形態的フラクタル摂動ピラミッド(P)の拡張であるD-Pを提案する。
これらの手法を実世界の産業用・ロボット用データセット上で評価し,マスク数,モデルサイズ,画像解像度などのパラメータが説明の質に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-10-28T13:28:05Z) - Towards Inference-time Category-wise Safety Steering for Large Language Models [3.712541089289745]
大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
論文 参考訳(メタデータ) (2024-10-02T02:02:06Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。