論文の概要: In Vino Veritas and Vulnerabilities: Examining LLM Safety via Drunk Language Inducement
- arxiv url: http://arxiv.org/abs/2601.22169v1
- Date: Mon, 19 Jan 2026 12:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.16157
- Title: In Vino Veritas and Vulnerabilities: Examining LLM Safety via Drunk Language Inducement
- Title(参考訳): ヴァイノ・ヴェリタスと脆弱性:飲酒言語誘導によるLLM安全性の検討
- Authors: Anudeex Shetty, Aditya Joshi, Salil S. Kanhere,
- Abstract要約: 本稿では,大言語モデル(LLM)における安全障害ドライバとしての酔っぱらい言語について検討する。
LLMにおいて酔っぱらいを誘発する3つのメカニズムを,ペルソナによるプロンプト,因果的微調整,強化に基づくポストトレーニングで検討した。
酔っぱらった言語によって誘発されるLSMのヒトの酔っぱらい行動と人為的多型との関係について検討した。
- 参考スコア(独自算出の注目度): 15.35847510577304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are susceptible to undesirable behaviours and privacy leaks under the influence of alcohol. This paper investigates drunk language, i.e., text written under the influence of alcohol, as a driver for safety failures in large language models (LLMs). We investigate three mechanisms for inducing drunk language in LLMs: persona-based prompting, causal fine-tuning, and reinforcement-based post-training. When evaluated on 5 LLMs, we observe a higher susceptibility to jailbreaking on JailbreakBench (even in the presence of defences) and privacy leaks on ConfAIde, where both benchmarks are in English, as compared to the base LLMs as well as previously reported approaches. Via a robust combination of manual evaluation and LLM-based evaluators and analysis of error categories, our findings highlight a correspondence between human-intoxicated behaviour, and anthropomorphism in LLMs induced with drunk language. The simplicity and efficiency of our drunk language inducement approaches position them as potential counters for LLM safety tuning, highlighting significant risks to LLM safety.
- Abstract(参考訳): 人間はアルコールの影響を受け、望ましくない行動やプライバシーの漏洩を受けやすい。
本稿では,大言語モデル(LLM)における安全障害のドライバとして,飲酒言語,すなわちアルコールの影響下で書かれたテキストについて検討する。
LLMにおいて酔っぱらいを誘発する3つのメカニズムを,ペルソナによるプロンプト,因果的微調整,強化に基づくポストトレーニングで検討した。
5つの LLM で評価すると,JailbreakBench のジェイルブレイクや ConfAIde のプライバシリークに対する高い感受性が観察される。
手動による評価とLLMに基づく評価とエラーカテゴリの分析の堅牢な組み合わせにより,酔っ払い言語により誘発されるLLMの人為的行動と人為的行動の対応が明らかとなった。
酔っ払い言語誘導アプローチの単純さと効率性は、LLM安全性チューニングの潜在的なカウンタとして位置づけ、LLM安全性に対する重大なリスクを浮き彫りにする。
関連論文リスト
- Accommodation and Epistemic Vigilance: A Pragmatic Account of Why LLMs Fail to Challenge Harmful Beliefs [35.198654113796024]
ヒトの宿泊に影響を与えることが知られている社会的・言語的要因が、大きな言語モデルにおける宿泊に影響していることが示される。
ここでは,「1分待つ」というフレーズを付けるなど,簡単な実践的な介入によって安全性ベンチマークのパフォーマンスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-07T22:47:24Z) - Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs [16.95831588112687]
本研究では, 危険知識保持, 有害タスク計画ユーティリティ, 有害性判定の観点から, 大規模言語モデル(LLM)の誤用脅威について検討した。
実験では、脱獄の成功率と LLM における有害な知識保持のミスマッチが明らかとなり、既存の LLM-as-a-judge フレームワークは有害な言語パターンに対する有害な判断を抑える傾向にある。
論文 参考訳(メタデータ) (2025-08-22T12:41:26Z) - Can LLMs effectively provide game-theoretic-based scenarios for cybersecurity? [51.96049148869987]
大規模言語モデル(LLM)は、コンピュータシステムのセキュリティに新しいツールと課題を提供する。
従来のゲーム理論フレームワークが,LLM駆動型アクターやボットの動作を効果的に捉えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-08-04T08:57:14Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。