論文の概要: Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That?
- arxiv url: http://arxiv.org/abs/2403.06833v1
- Date: Mon, 11 Mar 2024 15:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:23:56.689114
- Title: Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That?
- Title(参考訳): LLMはデータから命令を分離できるのか?
そして、それで何を意味するのか?
- Authors: Egor Zverev, Sahar Abdelnabi, Mario Fritz, Christoph H. Lampert
- Abstract要約: 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
- 参考スコア(独自算出の注目度): 70.90792645587449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have achieved breakthrough
results, opening countless new possibilities for many practical applications.
However, LLMs lack elementary safety features that are established norms in
other areas of computer science, such as the separation between instructions
and data, causing them to malfunction or rendering them vulnerable to
manipulation and interference by third parties e.g., via indirect
prompt/command injection. Even worse, so far, there is not even an established
definition of what precisely such a separation would mean and how its violation
could be tested. In this work, we aim to close this gap. We introduce a formal
measure to quantify the phenomenon of instruction-data separation as well as an
empirical variant of the measure that can be computed from a model`s black-box
outputs. We also introduce a new dataset, SEP (Should it be Executed or
Processed?), which allows estimating the measure, and we report results on
several state-of-the-art open-source and closed LLMs. Finally, we
quantitatively demonstrate that all evaluated LLMs fail to achieve a high
amount of separation, according to our measure. The source code and SEP dataset
are openly accessible at
https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用アプリケーションに新たな可能性を開く。
しかし、LSMは、命令とデータの分離や、間接的なプロンプト/コマンドインジェクションなどの第三者による操作や干渉に弱い障害を引き起こすなど、コンピュータ科学の他の領域で確立されている基本的な安全機能を持たない。
さらに悪いことに、これまでのところ、そのような分離が何を意味するのか、どのように違反をテストできるかという明確な定義さえ存在していない。
この作業では、このギャップを縮めることを目指しています。
本稿では,命令データ分離の現象を定量化するための公式測度と,モデルのブラックボックス出力から計算可能な測度の経験的変量を導入する。
また,評価可能な新しいデータセットであるSEP(Should it be Executed or Processed?)を導入し,いくつかの最先端のオープンソースおよびクローズドLCMの結果を報告する。
最後に,評価されたすべてのllmが高い分離を達成することができないことを定量的に示す。
ソースコードとSEPデータセットはhttps://github.com/egozverev/Shold-It-Be-Executed-Or-Processedで公開されている。
関連論文リスト
- Logits of API-Protected LLMs Leak Proprietary Information [46.014638838911566]
比較的少数のAPIクエリから,APIで保護されたLLMに関する驚くほど多くの非公開情報を学習することが可能であることを示す。
現代のLLMは、モデル出力を全出力空間の線型部分空間に制限するソフトマックスボトルネックに悩まされている。
これは、安価なコストでいくつかの機能をアンロックするモデルイメージやモデルシグネチャに自らを結び付けていることを示す。
論文 参考訳(メタデータ) (2024-03-14T16:27:49Z) - Not all Layers of LLMs are Necessary during Inference [71.47726067940539]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - API Is Enough: Conformal Prediction for Large Language Models Without
Logit-Access [6.469845010476217]
本研究では,ロジットアクセスを伴わない大規模言語モデル (LLM) における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。
LLM の既存の Conformal Prediction (CP) メソッドは一般的に、APIのみの LLM では利用できないロジットへのアクセスを前提としている。
本稿では,ロジットアクセスのないAPIのみのLCMに適した新しいCP手法を提案する。(2)予測セットのサイズを最小化し,(3)ユーザ定義のカバレッジの統計的保証を保証する。
論文 参考訳(メタデータ) (2024-03-02T14:14:45Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。