論文の概要: Detecting Jailbreak Attempts in Clinical Training LLMs Through Automated Linguistic Feature Extraction
- arxiv url: http://arxiv.org/abs/2602.13321v1
- Date: Tue, 10 Feb 2026 21:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.91368
- Title: Detecting Jailbreak Attempts in Clinical Training LLMs Through Automated Linguistic Feature Extraction
- Title(参考訳): 自動言語特徴抽出による臨床研修用LLMにおける脱獄の試み
- Authors: Tri Nguyen, Huy Hoang Bao Le, Lohith Srikanth Pentapalli, Laurah Turner, Kelly Cohen,
- Abstract要約: テキストから直接特徴を予測するために、専門家の4つの中核言語的特徴のアノテーションを使用します。
抽出した特徴からジェイルブレイクの可能性を決定するための予測モデル群を評価する。
本研究は、安全クリティカルな臨床対話システムにおいて、ジェイルブレイクの振る舞いを検出するためのスケーラブルで解釈可能なアプローチを示す。
- 参考スコア(独自算出の注目度): 4.399303884973447
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Detecting jailbreak attempts in clinical training large language models (LLMs) requires accurate modeling of linguistic deviations that signal unsafe or off-task user behavior. Prior work on the 2-Sigma clinical simulation platform showed that manually annotated linguistic features could support jailbreak detection. However, reliance on manual annotation limited both scalability and expressiveness. In this study, we extend this framework by using experts' annotations of four core linguistic features (Professionalism, Medical Relevance, Ethical Behavior, and Contextual Distraction) and training multiple general-domain and medical-domain BERT-based LLM models to predict these features directly from text. The most reliable feature regressor for each dimension was selected and used as the feature extractor in a second layer of classifiers. We evaluate a suite of predictive models, including tree-based, linear, probabilistic, and ensemble methods, to determine jailbreak likelihood from the extracted features. Across cross-validation and held-out evaluations, the system achieves strong overall performance, indicating that LLM-derived linguistic features provide an effective basis for automated jailbreak detection. Error analysis further highlights key limitations in current annotations and feature representations, pointing toward future improvements such as richer annotation schemes, finer-grained feature extraction, and methods that capture the evolving risk of jailbreak behavior over the course of a dialogue. This work demonstrates a scalable and interpretable approach for detecting jailbreak behavior in safety-critical clinical dialogue systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の臨床訓練におけるジェイルブレイクの試みを検出するには、安全でない、あるいはタスク外動作を示す言語偏差の正確なモデリングが必要である。
2-Sigma臨床シミュレーションプラットフォームに関する以前の研究は、手動で注釈付けされた言語的特徴がジェイルブレイクの検出をサポートすることを示した。
しかし、手動アノテーションへの依存はスケーラビリティと表現性の両方を制限した。
本研究では,4つの中核言語的特徴(専門性,医療関連性,倫理的行動,文脈的特徴)を専門家のアノテーションで記述し,テキストから直接これらの特徴を予測するために複数の汎用ドメインおよび医療ドメインBERTベースのLCMモデルを訓練することにより,この枠組みを拡張した。
各次元の最も信頼性の高い特徴回帰器が選択され、第2の分類器層における特徴抽出器として使用された。
我々は,木に基づく,線形,確率的,アンサンブルの手法を含む一連の予測モデルを評価し,抽出した特徴からジェイルブレイクの可能性を決定する。
クロスバリデーションとホールドアウト評価を通じて,LLM由来の言語的特徴が自動ジェイルブレイク検出の有効な基盤となることを示す。
エラー解析は、よりリッチなアノテーションスキーム、よりきめ細かい機能抽出、対話の過程でジェイルブレイクの振る舞いが進化するリスクをキャプチャするメソッドなど、将来の改善をめざして、現在のアノテーションと機能表現における重要な制限をさらに強調する。
本研究は、安全クリティカルな臨床対話システムにおいて、ジェイルブレイクの振る舞いを検出するためのスケーラブルで解釈可能なアプローチを示す。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Machine Learning for Detection and Analysis of Novel LLM Jailbreaks [3.2654923574107357]
大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。
いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。
本研究では,異なる機械学習モデルを用いて,jailbreakプロンプトを真の用途と区別する能力について分析する。
論文 参考訳(メタデータ) (2025-10-02T03:55:29Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Jailbreak Detection in Clinical Training LLMs Using Feature-Based Predictive Models [0.995531157345459]
大規模言語モデル(LLMs)における脱獄は、教育のようなセンシティブなドメインで安全な使用を脅かす。
本研究は,臨床教育プラットフォームである2-Sigmaにおけるジェイルブレイクの検出に焦点を当てた。
ジェイルブレイク行動と強く相関する4つの言語変数を用いて、158の会話に2,300以上のプロンプトを注釈付けした。
論文 参考訳(メタデータ) (2025-04-21T16:54:35Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。