論文の概要: Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
- arxiv url: http://arxiv.org/abs/2605.21602v2
- Date: Sun, 24 May 2026 21:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.942883
- Title: Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
- Title(参考訳): LLMにおける外部分布アライメント故障のベンチマークと改善
- Authors: Dylan Feng, Pragya Srivastava, Anca Dragan, Cassidy Laidlaw,
- Abstract要約: 大規模言語モデル(LLM)の安全性とアライメントの失敗の多くは、アウト・オブ・ディストリビューション(OOD)の状況に起因する。
LLMモニタリングパイプラインが、MOOD(Misalignment Out Of Distribution)と呼ばれるベンチマークを導入することで、これらのOODアライメント障害を検出することができるかどうかを系統的に検討する。
ガードモデルとマハラノビス距離と複雑度に基づくOOD検出器を組み合わせることで,リコールを39%から45%に改善できることがわかった。
- 参考スコア(独自算出の注目度): 12.483653568266057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many safety and alignment failures of large language models (LLMs) occur due to out-of-distribution (OOD) situations: unusual prompt or response patterns that are unforeseen by model developers. We systematically study whether LLM monitoring pipelines can detect these OOD alignment failures by introducing a benchmark called Misalignment Out Of Distribution (MOOD). It is difficult to find failures that are truly OOD for off-the-shelf models trained on vast safety datasets. We sidestep this by including a restricted training set in MOOD that we use to train our own monitors, as well as seven test sets with diverse alignment failures that are outside the training distribution. Using MOOD, we find that guard models (safety classifiers) often fail to generalize OOD. To fix this, we propose combining guard models with OOD detectors. We test four types of OOD detectors and find that a combination of a guard model with Mahalanobis distance and perplexity-based OOD detectors can improve recall from 39% to 45%. We also establish positive scaling trends across model scales for monitors that combine a guard model and OOD detector; we find that incorporating OOD detection into monitoring achieves a higher recall gain than using a guard model with 20 times more parameters. Our work suggests that OOD detection should be a crucial component of LLM monitoring and provides a foundation for further work on this important problem. We release the code and data for our experiments publicly, and you can find the relevant links here: https://github.com/Dylan102938/mood-bench.
- Abstract(参考訳): 大規模言語モデル(LLMs)の安全性とアライメントの失敗の多くは、アウト・オブ・ディストリビューション(OOD)の状況によって発生します。
LLMモニタリングパイプラインが、MOOD(Misalignment Out Of Distribution)と呼ばれるベンチマークを導入することで、これらのOODアライメント障害を検出することができるかどうかを系統的に検討する。
巨大な安全データセットでトレーニングされたオフザシェルフモデルに対して、本当にOODである障害を見つけることは難しい。
これには、独自のモニタのトレーニングに使用するMOODに制限されたトレーニングセットと、トレーニングディストリビューションの外にあるさまざまなアライメント障害を持つ7つのテストセットが含まれています。
MOODを用いることで、ガードモデル(セーフティ分類器)がOODの一般化に失敗することが多いことがわかった。
そこで我々は,ガードモデルとOOD検出器の組み合わせを提案する。
我々は4種類のOOD検出器を試験し、マハラノビス距離とパープレキシティに基づくOOD検出器を組み合わせたガードモデルを組み合わせることで、リコールを39%から45%に改善できることを示した。
また,ガードモデルとOOD検出器を組み合わせたモニタにおいて,モデルスケールにまたがる正のスケーリング傾向を確立し,OOD検出をモニタに組み込むことで,20倍のパラメータを持つガードモデルよりも高いリコールゲインが得られることを確認した。
我々の研究は、OOD検出がLLMモニタリングの重要なコンポーネントであるべきであり、この重要な問題に対するさらなる研究の基盤となることを示唆している。
実験用のコードとデータを公開していますが、関連するリンクは以下の通りです。
関連論文リスト
- Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey [107.08019135783444]
アウト・オブ・ディストリビューション(OOD)サンプルは、機械学習システムの安全性を保証するために不可欠である。
その他の問題としては、異常検出(AD)、新規検出(ND)、オープンセット認識(OSR)、異常検出(OD)などがある。
論文 参考訳(メタデータ) (2024-07-31T17:59:58Z) - Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection [5.706574483483306]
コンディションモニターは、トランスフォーマーに基づくオブジェクト検出モデルのための新しいゼロショットアウトオブディストリビューション(OOD)検出手法である。
自律運転のような安全クリティカルな機械学習アプリケーションの信頼性を高める。
論文 参考訳(メタデータ) (2024-06-05T12:20:36Z) - Iterative Deployment Exposure for Unsupervised Out-of-Distribution Detection [5.019613806273252]
Iterative Deployment Exposure (IDE)は、アウト・オブ・ディストリビューション(OOD)検出のための、新しくより現実的な設定である。
CSOは、マハラノビス距離と最寄りのアプローチを組み合わせた新しいU-OODスコアリング関数を使用している。
提案手法は, 医用画像の3つのモダリティに対して, 強いベースラインで大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-06-04T13:57:34Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - SR-OOD: Out-of-Distribution Detection via Sample Repairing [48.272537939227206]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習モデルの信頼性と堅牢性を保証するための重要なタスクである。
近年の研究では、生成モデルはOODサンプルに高い信頼度を割り当てることがしばしばあり、データのセマンティックな情報を捕捉できないことが示されている。
我々は,サンプル修復の利点を生かし,新しいOOD検出フレームワーク,SR-OODを提案する。
本フレームワークは,OOD検出における最先端な生成手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-26T16:35:20Z) - AUTO: Adaptive Outlier Optimization for Test-Time OOD Detection [79.51071170042972]
Out-of-Distribution (OOD) 検出は、任意のトレーニングインディストリビューション(ID)クラスに該当しないテストサンプルを検出することを目的としている。
データ安全性とプライバシにより、さまざまなシナリオに対して、事前にタスク固有の外れ値の収集が不可能になる。
テスト中にラベルのないデータストリームから実際のOODデータを利用することができる。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Rainproof: An Umbrella To Shield Text Generators From
Out-Of-Distribution Data [41.62897997865578]
安全なシステム動作を保証するための重要な要素は、Out-Of-Distribution Detectionである。
ほとんどのメソッドはエンコーダが出力する隠れた機能に依存している。
本研究では,ブラックボックスフレームワークにおけるソフト確率の活用に焦点をあてる。
論文 参考訳(メタデータ) (2022-12-18T21:22:28Z) - Out-Of-Distribution Detection Is Not All You Need [0.0]
我々は,OOD検出は効率的なランタイムモニタの設計に適したフレームワークではないと主張している。
OOD設定におけるモニタの学習は誤解を招く可能性があることを示す。
また、誤ったトレーニングデータサンプルを削除することで、より良いモニターをトレーニングできることも示しています。
論文 参考訳(メタデータ) (2022-11-29T12:40:06Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。