Fugu-MT 論文翻訳(概要): Conversational Complexity for Assessing Risk in Large Language Models

論文の概要: Conversational Complexity for Assessing Risk in Large Language Models

arxiv url: http://arxiv.org/abs/2409.01247v1
Date: Mon, 2 Sep 2024 13:29:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 06:37:11.075924
Title: Conversational Complexity for Assessing Risk in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるリスク評価のための会話複雑度
Authors: John Burden, Manuel Cebrian, Jose Hernandez-Orallo,
Abstract要約: 大規模言語モデル(LLM)は、特に対話的相互作用を通じて、害の可能性を秘めつつ、有益なアプリケーションを可能にする。本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。
参考スコア（独自算出の注目度）: 8.552688712751232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) present a dual-use dilemma: they enable beneficial applications while harboring potential for harm, particularly through conversational interactions. Despite various safeguards, advanced LLMs remain vulnerable. A watershed case was Kevin Roose's notable conversation with Bing, which elicited harmful outputs after extended interaction. This contrasts with simpler early jailbreaks that produced similar content more easily, raising the question: How much conversational effort is needed to elicit harmful information from LLMs? We propose two measures: Conversational Length (CL), which quantifies the conversation length used to obtain a specific response, and Conversational Complexity (CC), defined as the Kolmogorov complexity of the user's instruction sequence leading to the response. To address the incomputability of Kolmogorov complexity, we approximate CC using a reference LLM to estimate the compressibility of user instructions. Applying this approach to a large red-teaming dataset, we perform a quantitative analysis examining the statistical distribution of harmful and harmless conversational lengths and complexities. Our empirical findings suggest that this distributional analysis and the minimisation of CC serve as valuable tools for understanding AI safety, offering insights into the accessibility of harmful information. This work establishes a foundation for a new perspective on LLM safety, centered around the algorithmic complexity of pathways to harm.
Abstract（参考訳）: 大きな言語モデル(LLM)は二重用途ジレンマを示し、特に対話的相互作用を通じて、有害な可能性を持ちながら有益なアプリケーションを可能にする。様々な安全対策にもかかわらず、先進的なLLMは脆弱なままである。ケビン・ルースのBingとの有名な会話は、長期にわたる対話の後有害なアウトプットを引き起こした。これは、同様のコンテンツをより簡単に作成できる単純な初期のジェイルブレイクとは対照的であり、疑問を提起する: LLMから有害な情報を引き出すのに、どのくらいの会話努力が必要か? 本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。 Kolmogorov複雑性の計算不能性に対処するため,リファレンスLCMを用いてCCを近似し,ユーザ命令の圧縮性を評価する。このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。我々の経験から、この分布分析とCCの最小化はAIの安全性を理解するための貴重なツールであり、有害な情報のアクセシビリティに関する洞察を与えてくれることが示唆されている。この研究は、LLMの安全性に対する新たな視点の基礎を確立し、害を与える経路のアルゴリズム的な複雑さを中心にしている。

関連論文リスト

Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-12T19:10:08Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding [19.92751862281067]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。 textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
論文参考訳（メタデータ） (2025-09-13T18:07:56Z)
Highlight & Summarize: RAG without the jailbreaks [13.121045036871607]
悪意のあるユーザは、特殊なプロンプトを入力して、Large Language Modelsが望ましくないコンテンツを生成したり、意図した目的とは全く異なるタスクを実行することができる。我々は,これらの攻撃を設計によって防止する検索強化生成(RAG)システムのための新しい設計パターンであるHighlight & Summarize(H&S)を提示し,評価する。
論文参考訳（メタデータ） (2025-08-04T20:01:00Z)
LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks [7.115093658017371]
LeakSealerは、法医学的な洞察のための静的分析とHuman-In-The-Loopパイプラインの動的防御を組み合わせた、モデルに依存しないフレームワークである。筆者らはLeakSealerを,(1)公開ベンチマークデータセットを用いたジェイルブレイクの試み,(2)ラベル付きLLMインタラクションのキュレートデータセットによってサポートされているPIIリークの2つのシナリオで実証的に評価した。
論文参考訳（メタデータ） (2025-08-01T13:04:28Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective [5.769786334333616]
大規模言語モデル(LLM)は、自動テキスト生成や質問応答などを含む自然言語処理(NLP)ベースのアプリケーションに革命をもたらした。幻覚では、モデルがもっともらしい音を出すが、実際には正しくない反応を生成する。本稿では,現状のデータセットやベンチマーク,知識統合や幻覚評価の手法など,これらのオープンな課題について論じる。
論文参考訳（メタデータ） (2024-11-21T16:09:05Z)
Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models [85.13298925375692]
大規模言語モデル(LLM)は、事前訓練中に大量の知識を符号化する。 LLMは文脈知識(CK)を取り入れることで拡張できる LLMは複雑な問題を解決するために、内部PKと外部CKを効果的に統合できるのか?
論文参考訳（メタデータ） (2024-10-10T23:09:08Z)
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。 HiddenGuard には LLM と連携して動作する Prism が組み込まれている。実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文参考訳（メタデータ） (2024-10-03T17:10:41Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文参考訳（メタデータ） (2024-04-09T14:40:08Z)
Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文参考訳（メタデータ） (2024-02-14T13:45:19Z)
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文参考訳（メタデータ） (2024-01-22T12:54:04Z)
Causality Analysis for Evaluating the Security of Large Language Models [9.102606258312246]
大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
論文参考訳（メタデータ） (2023-12-13T03:35:43Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment [32.2246459413988]
我々は,新しい安全評価ベンチマークRED-EVALを提案する。広範にデプロイされたモデルであっても、CoU(Chain of Utterances-based)のプロンプトの影響を受けやすいことを示す。また、RED-EVALが8つのオープンソースLCMにまたがる一貫性を実証し、レッドチームの試みの86%以上で有害な応答を発生させることを示した。
論文参考訳（メタデータ） (2023-08-18T16:27:04Z)
How to Enhance Causal Discrimination of Utterances: A Case on Affective Reasoning [22.11437627661179]
本稿では,会話プロセスにテクスティ.i.d.ノイズ項を組み込むことにより,構造因果モデル(SCM)を構築することを提案する。ディープラーニングの実装を容易にするため,非構造化会話データを扱うためのcognフレームワークを導入し,非可観測ノイズを学習可能な「単純な原因」とみなすオートエンコーダアーキテクチャを採用した。
論文参考訳（メタデータ） (2023-05-04T07:45:49Z)
Search-in-the-Chain: Interactively Enhancing Large Language Models with Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文参考訳（メタデータ） (2023-04-28T10:15:25Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。