論文の概要: Detectors for Safe and Reliable LLMs: Implementations, Uses, and
Limitations
- arxiv url: http://arxiv.org/abs/2403.06009v1
- Date: Sat, 9 Mar 2024 21:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:26:13.048068
- Title: Detectors for Safe and Reliable LLMs: Implementations, Uses, and
Limitations
- Title(参考訳): LLMの安全性と信頼性:実装,利用,限界
- Authors: Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor,
Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel
Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M.
Daly, Rog\'erio Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh,
Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Erik Miehling,
Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski,
Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna
Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis
Wei, Shalisha Witherspooon, Marcel Zalmanovici
- Abstract要約: 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
- 参考スコア(独自算出の注目度): 75.62309487375126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are susceptible to a variety of risks, from
non-faithful output to biased and toxic generations. Due to several limiting
factors surrounding LLMs (training cost, API access, data availability, etc.),
it may not always be feasible to impose direct safety constraints on a deployed
model. Therefore, an efficient and reliable alternative is required. To this
end, we present our ongoing efforts to create and deploy a library of
detectors: compact and easy-to-build classification models that provide labels
for various harms. In addition to the detectors themselves, we discuss a wide
range of uses for these detector models - from acting as guardrails to enabling
effective AI governance. We also deep dive into inherent challenges in their
development and discuss future work aimed at making the detectors more reliable
and broadening their scope.
- Abstract(参考訳): 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
LLMを取り巻くいくつかの制限要因(トレーニングコスト、APIアクセス、データ可用性など)により、デプロイされたモデルに直接的な安全制約を課すことが常に可能であるとは限らない。
そのため、効率的で信頼性の高い代替手段が必要となる。
この目的のために,我々は,様々な危険に対するラベルを提供するコンパクトでビルドが容易な分類モデルである検出器ライブラリの作成とデプロイを継続する取り組みについて紹介する。
検出器自体に加えて、ガードレールとしての役割から効果的なAIガバナンスの実現に至るまで、これらの検出モデルに対する幅広い用途について論じる。
また,その開発における本質的な課題を深く掘り下げ,検出器の信頼性向上とスコープの拡大を目的とした今後の課題について論じる。
関連論文リスト
- InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Towards Building Self-Aware Object Detectors via Reliable Uncertainty
Quantification and Calibration [17.461451218469062]
本稿では,自己認識オブジェクト検出(SAOD)タスクを紹介する。
SAODタスクは、自律運転のような安全クリティカルな環境でオブジェクト検出器が直面する課題を尊重し、遵守する。
我々は、多数のオブジェクト検出器をテストするために、新しいメトリクスと大規模なテストデータセットを導入したフレームワークを広範囲に使用しています。
論文 参考訳(メタデータ) (2023-07-03T11:16:39Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Large Language Models can be Guided to Evade AI-Generated Text Detection [43.20137621161661]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
我々は、これらの検出器の脆弱性を評価するために、外部パラフレーズに頼るのではなく、LSMにプロンプトを付与する。
本研究では,検出器を回避するためのプロンプトを自動構築する,代用型In-Contextサンプル最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:03:25Z) - Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。
我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。
これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-04-18T13:05:01Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty
Estimation [59.05097963821385]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。