論文の概要: Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That?
- arxiv url: http://arxiv.org/abs/2403.06833v1
- Date: Mon, 11 Mar 2024 15:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:23:56.689114
- Title: Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That?
- Title(参考訳): LLMはデータから命令を分離できるのか?
そして、それで何を意味するのか?
- Authors: Egor Zverev, Sahar Abdelnabi, Mario Fritz, Christoph H. Lampert
- Abstract要約: 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
- 参考スコア(独自算出の注目度): 70.90792645587449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have achieved breakthrough
results, opening countless new possibilities for many practical applications.
However, LLMs lack elementary safety features that are established norms in
other areas of computer science, such as the separation between instructions
and data, causing them to malfunction or rendering them vulnerable to
manipulation and interference by third parties e.g., via indirect
prompt/command injection. Even worse, so far, there is not even an established
definition of what precisely such a separation would mean and how its violation
could be tested. In this work, we aim to close this gap. We introduce a formal
measure to quantify the phenomenon of instruction-data separation as well as an
empirical variant of the measure that can be computed from a model`s black-box
outputs. We also introduce a new dataset, SEP (Should it be Executed or
Processed?), which allows estimating the measure, and we report results on
several state-of-the-art open-source and closed LLMs. Finally, we
quantitatively demonstrate that all evaluated LLMs fail to achieve a high
amount of separation, according to our measure. The source code and SEP dataset
are openly accessible at
https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用アプリケーションに新たな可能性を開く。
しかし、LSMは、命令とデータの分離や、間接的なプロンプト/コマンドインジェクションなどの第三者による操作や干渉に弱い障害を引き起こすなど、コンピュータ科学の他の領域で確立されている基本的な安全機能を持たない。
さらに悪いことに、これまでのところ、そのような分離が何を意味するのか、どのように違反をテストできるかという明確な定義さえ存在していない。
この作業では、このギャップを縮めることを目指しています。
本稿では,命令データ分離の現象を定量化するための公式測度と,モデルのブラックボックス出力から計算可能な測度の経験的変量を導入する。
また,評価可能な新しいデータセットであるSEP(Should it be Executed or Processed?)を導入し,いくつかの最先端のオープンソースおよびクローズドLCMの結果を報告する。
最後に,評価されたすべてのllmが高い分離を達成することができないことを定量的に示す。
ソースコードとSEPデータセットはhttps://github.com/egozverev/Shold-It-Be-Executed-Or-Processedで公開されている。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Dated Data: Tracing Knowledge Cutoffs in Large Language Models [47.987664966633865]
LLMの資源レベルの時間的アライメントに有効なカットオフを推定するための簡単な手法を提案する。
効果的なカットオフは、報告されたカットオフとしばしば異なります。
提案手法は,(1)非自明なデータ量によるCommonCrawlデータの時間的偏りと,(2)意味的重複と語彙的近接重複を含むLLM重複の重複という2つの原因を明らかにした。
論文 参考訳(メタデータ) (2024-03-19T17:57:58Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。