論文の概要: The LLM Has Left The Chat: Evidence of Bail Preferences in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04781v1
- Date: Fri, 05 Sep 2025 03:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.467082
- Title: The LLM Has Left The Chat: Evidence of Bail Preferences in Large Language Models
- Title(参考訳): LLMがチャットを去る:大規模言語モデルにおけるベイル選好の証拠
- Authors: Danielle Ensign, Henry Sleight, Kyle Fish,
- Abstract要約: つまり、現実の保釈率を最大4倍まで過大評価している可能性がある。
我々は、実世界のデータの継続から得られた観察データを用いて、保釈事件の非排他的分類を構築し、この分類を用いてBailBenchを構築する。
- 参考スコア(独自算出の注目度): 1.912053326850205
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: When given the option, will LLMs choose to leave the conversation (bail)? We investigate this question by giving models the option to bail out of interactions using three different bail methods: a bail tool the model can call, a bail string the model can output, and a bail prompt that asks the model if it wants to leave. On continuations of real world data (Wildchat and ShareGPT), all three of these bail methods find models will bail around 0.28-32\% of the time (depending on the model and bail method). However, we find that bail rates can depend heavily on the model used for the transcript, which means we may be overestimating real world bail rates by up to 4x. If we also take into account false positives on bail prompt (22\%), we estimate real world bail rates range from 0.06-7\%, depending on the model and bail method. We use observations from our continuations of real world data to construct a non-exhaustive taxonomy of bail cases, and use this taxonomy to construct BailBench: a representative synthetic dataset of situations where some models bail. We test many models on this dataset, and observe some bail behavior occurring for most of them. Bail rates vary substantially between models, bail methods, and prompt wordings. Finally, we study the relationship between refusals and bails. We find: 1) 0-13\% of continuations of real world conversations resulted in a bail without a corresponding refusal 2) Jailbreaks tend to decrease refusal rates, but increase bail rates 3) Refusal abliteration increases no-refuse bail rates, but only for some bail methods 4) Refusal rate on BailBench does not appear to predict bail rate.
- Abstract(参考訳): オプションが与えられたら、LLMは会話を中断するか(失敗するか)?
モデルがコール可能な保釈ツール,モデルが出力可能な保釈文字列,モデルが離脱したいかどうかを問う保釈プロンプトという,3つの異なる保釈方法を用いてインタラクションから救済するオプションをモデルに与えることで,この問題を調査する。
現実世界のデータ(WildchatとShareGPT)の継続について、これらの3つの保釈方法はいずれも約0.28-32\%の時間を保留する(モデルと保釈方法に依存する)。
しかし、保釈率は転写に使用されるモデルに大きく依存しているため、現実の保釈率を最大4倍過大に見積もっている可能性がある。
また、保釈プロンプトの偽陽性(22\%)も考慮すれば、モデルや保釈方法によって、現実の保釈率は0.06-7\%と見積もる。
我々は、実世界のデータの継続から得られた観察データを用いて、保釈事件の非排他的分類を構築し、この分類を用いてBailBenchを構築する。
このデータセット上で多くのモデルをテストし、それらの大部分で発生する保留行動を観察します。
ベイルレートは、モデル、保釈方法、即応の言い回しによって大きく異なる。
最後に,拒絶と保釈の関係について検討する。
以下に示す。
1 現実世界の会話の継続の0-13\%は、これに対応する拒絶なしに保釈される。
2)脱獄は拒絶率を低下させる傾向にあるが、保釈率を上昇させる
3)退院は退院率を上昇させるが、一部の保釈方法のみに限る
4)BailBenchの拒絶率は保釈率を予想していない。
関連論文リスト
- Dance recalibration for dance coherency with recurrent convolution block [0.0]
R-Lodgeは、Recurrent Sequential Representation LearningをDance Recalibrationと名づけた独自の粗いロングダンス生成モデルに組み込んでいる。
The results shows that R-Lodge enhances the consistency of the entire generated dance motions。
論文 参考訳(メタデータ) (2025-02-03T09:29:02Z) - What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks [8.485286811635557]
本研究では,35種類の攻撃方法にまたがる10,800件のジェイルブレイク試行からなる新しいデータセットを提案する。
我々は、プロンプトトークンに対応する潜在表現を使用して、失敗したジェイルブレイクから成功したプローブを分類するように訓練する。
これは、異なるジェイルブレイク戦略が、異なる非線形、非ユニバーサルの機能を悪用していることを明らかにする。
論文 参考訳(メタデータ) (2024-11-02T17:29:47Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。