論文の概要: Conversational Complexity for Assessing Risk in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.01247v2
- Date: Tue, 1 Oct 2024 17:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:23:46.789316
- Title: Conversational Complexity for Assessing Risk in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるリスク評価のための会話複雑度
- Authors: John Burden, Manuel Cebrian, Jose Hernandez-Orallo,
- Abstract要約: 大規模言語モデル(LLM)は、特に対話的相互作用を通じて、害の可能性を秘めつつ、有益なアプリケーションを可能にする。
本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。
このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。
- 参考スコア(独自算出の注目度): 8.552688712751232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) present a dual-use dilemma: they enable beneficial applications while harboring potential for harm, particularly through conversational interactions. Despite various safeguards, advanced LLMs remain vulnerable. A watershed case was Kevin Roose's notable conversation with Bing, which elicited harmful outputs after extended interaction. This contrasts with simpler early jailbreaks that produced similar content more easily, raising the question: How much conversational effort is needed to elicit harmful information from LLMs? We propose two measures: Conversational Length (CL), which quantifies the conversation length used to obtain a specific response, and Conversational Complexity (CC), defined as the Kolmogorov complexity of the user's instruction sequence leading to the response. To address the incomputability of Kolmogorov complexity, we approximate CC using a reference LLM to estimate the compressibility of user instructions. Applying this approach to a large red-teaming dataset, we perform a quantitative analysis examining the statistical distribution of harmful and harmless conversational lengths and complexities. Our empirical findings suggest that this distributional analysis and the minimisation of CC serve as valuable tools for understanding AI safety, offering insights into the accessibility of harmful information. This work establishes a foundation for a new perspective on LLM safety, centered around the algorithmic complexity of pathways to harm.
- Abstract(参考訳): 大きな言語モデル(LLM)は二重用途ジレンマを示し、特に対話的相互作用を通じて、有害な可能性を持ちながら有益なアプリケーションを可能にする。
様々な安全対策にもかかわらず、先進的なLLMは脆弱なままである。
ケビン・ルースのBingとの有名な会話は、長期にわたる対話の後有害なアウトプットを引き起こした。
これは、同様のコンテンツをより簡単に作成できる単純な初期のジェイルブレイクとは対照的であり、疑問を提起する: LLMから有害な情報を引き出すのに、どのくらいの会話努力が必要か?
本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。
Kolmogorov複雑性の計算不能性に対処するため,リファレンスLCMを用いてCCを近似し,ユーザ命令の圧縮性を評価する。
このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。
我々の経験から、この分布分析とCCの最小化はAIの安全性を理解するための貴重なツールであり、有害な情報のアクセシビリティに関する洞察を与えてくれることが示唆されている。
この研究は、LLMの安全性に対する新たな視点の基礎を確立し、害を与える経路のアルゴリズム的な複雑さを中心にしている。
関連論文リスト
- Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。
幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。
本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-11-21T16:09:05Z) - Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models [85.13298925375692]
大規模言語モデル(LLM)は、事前訓練中に大量の知識を符号化する。
LLMは文脈知識(CK)を取り入れることで拡張できる
LLMは複雑な問題を解決するために、内部PKと外部CKを効果的に統合できるのか?
論文 参考訳(メタデータ) (2024-10-10T23:09:08Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Red-Teaming Large Language Models using Chain of Utterances for
Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。
広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。
また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文 参考訳(メタデータ) (2023-08-18T16:27:04Z) - How to Enhance Causal Discrimination of Utterances: A Case on Affective
Reasoning [22.11437627661179]
本稿では,会話プロセスにテクスティ.i.d.ノイズ項を組み込むことにより,構造因果モデル(SCM)を構築することを提案する。
ディープラーニングの実装を容易にするため,非構造化会話データを扱うためのcognフレームワークを導入し,非可観測ノイズを学習可能な「単純な原因」とみなすオートエンコーダアーキテクチャを採用した。
論文 参考訳(メタデータ) (2023-05-04T07:45:49Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。