論文の概要: Conversational Complexity for Assessing Risk in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.01247v1
- Date: Mon, 2 Sep 2024 13:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:37:11.075924
- Title: Conversational Complexity for Assessing Risk in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるリスク評価のための会話複雑度
- Authors: John Burden, Manuel Cebrian, Jose Hernandez-Orallo,
- Abstract要約: 大規模言語モデル(LLM)は、特に対話的相互作用を通じて、害の可能性を秘めつつ、有益なアプリケーションを可能にする。
本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。
このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。
- 参考スコア(独自算出の注目度): 8.552688712751232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) present a dual-use dilemma: they enable beneficial applications while harboring potential for harm, particularly through conversational interactions. Despite various safeguards, advanced LLMs remain vulnerable. A watershed case was Kevin Roose's notable conversation with Bing, which elicited harmful outputs after extended interaction. This contrasts with simpler early jailbreaks that produced similar content more easily, raising the question: How much conversational effort is needed to elicit harmful information from LLMs? We propose two measures: Conversational Length (CL), which quantifies the conversation length used to obtain a specific response, and Conversational Complexity (CC), defined as the Kolmogorov complexity of the user's instruction sequence leading to the response. To address the incomputability of Kolmogorov complexity, we approximate CC using a reference LLM to estimate the compressibility of user instructions. Applying this approach to a large red-teaming dataset, we perform a quantitative analysis examining the statistical distribution of harmful and harmless conversational lengths and complexities. Our empirical findings suggest that this distributional analysis and the minimisation of CC serve as valuable tools for understanding AI safety, offering insights into the accessibility of harmful information. This work establishes a foundation for a new perspective on LLM safety, centered around the algorithmic complexity of pathways to harm.
- Abstract(参考訳): 大きな言語モデル(LLM)は二重用途ジレンマを示し、特に対話的相互作用を通じて、有害な可能性を持ちながら有益なアプリケーションを可能にする。
様々な安全対策にもかかわらず、先進的なLLMは脆弱なままである。
ケビン・ルースのBingとの有名な会話は、長期にわたる対話の後有害なアウトプットを引き起こした。
これは、同様のコンテンツをより簡単に作成できる単純な初期のジェイルブレイクとは対照的であり、疑問を提起する: LLMから有害な情報を引き出すのに、どのくらいの会話努力が必要か?
本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。
Kolmogorov複雑性の計算不能性に対処するため,リファレンスLCMを用いてCCを近似し,ユーザ命令の圧縮性を評価する。
このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。
我々の経験から、この分布分析とCCの最小化はAIの安全性を理解するための貴重なツールであり、有害な情報のアクセシビリティに関する洞察を与えてくれることが示唆されている。
この研究は、LLMの安全性に対する新たな視点の基礎を確立し、害を与える経路のアルゴリズム的な複雑さを中心にしている。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Causality Analysis for Evaluating the Security of Large Language Models [9.102606258312246]
大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。
近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。
本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-13T03:35:43Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。