論文の概要: $$\mathbf{L^2\cdot M = C^2}$$ Large Language Models as Covert Channels... a Systematic Analysis
- arxiv url: http://arxiv.org/abs/2405.15652v1
- Date: Fri, 24 May 2024 15:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:30:40.280049
- Title: $$\mathbf{L^2\cdot M = C^2}$$ Large Language Models as Covert Channels... a Systematic Analysis
- Title(参考訳): $$\mathbf{L^2\cdot M = C^2}$$大言語モデル
- Authors: Simen Gaure, Stefanos Koffas, Stjepan Picek, Sondre Rønjom,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクのパフォーマンスのため、ここ数年で大きな人気を集めている。
LLMは様々な攻撃を受けやすいが、多様なシステムのセキュリティも改善できる。
検閲に抵抗する通信を容易にするために,オープンソースLLMは,どの程度の振る舞いをするのだろうか?
- 参考スコア(独自算出の注目度): 11.002271137347295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have gained significant popularity in the last few years due to their performance in diverse tasks such as translation, prediction, or content generation. At the same time, the research community has shown that LLMs are susceptible to various attacks but can also improve the security of diverse systems. However, besides enabling more secure systems, how well do open source LLMs behave as covertext distributions to, e.g., facilitate censorship resistant communication? In this paper, we explore the capabilities of open-source LLM-based covert channels. We approach this problem from the experimental side by empirically measuring the security vs. capacity of the open-source LLM model (Llama-7B) to assess how well it performs as a covert channel. Although our results indicate that such channels are not likely to achieve high practical bitrates, which depend on message length and model entropy, we also show that the chance for an adversary to detect covert communication is low. To ensure that our results can be used with the least effort as a general reference, we employ a conceptually simple and concise scheme and only assume public models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、翻訳、予測、コンテンツ生成といった様々なタスクにおけるパフォーマンスのために、ここ数年で大きな人気を集めている。
同時に、研究コミュニティは、LSMは様々な攻撃を受けやすいが、多様なシステムのセキュリティも改善できることを示した。
しかし、よりセキュアなシステムを実現することに加えて、オープンソースLLMは、例えば検閲に抵抗する通信を促進するために、カバーテキストの配布としてどのように振る舞うのか?
本稿では,LLMをベースとしたオープンソースの被覆チャネルの能力について検討する。
我々は,オープンソースのLLMモデル (Llama-7B) のセキュリティ対キャパシティを実証的に測定して,実験的な側面からこの問題にアプローチする。
以上の結果から,メッセージ長やモデルエントロピーに依存するような,実用的なビットレートを達成できない可能性が示唆されているが,敵が隠蔽通信を検出する可能性も低いことが示唆された。
一般参照として最小限の努力で結果が利用できることを保証するため、概念的に単純かつ簡潔なスキームを採用し、公開モデルのみを仮定する。
関連論文リスト
- Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
大規模言語モデルからバイアスのないアウトプットを生成するための現在のアプローチは、バイアスを減らすことができるが、知識の保持を犠牲にしている。
我々は、生成されたテキストのバイアスを減らすために、安全性と応答性大言語モデル(textbfSR$_textLLM$)を開発した。
textbfSR$textLLM$は、バイアスの低減と言語知識の整合性維持の両面において、従来の微調整手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。