Fugu-MT 論文翻訳(概要): Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

論文の概要: Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

arxiv url: http://arxiv.org/abs/2403.06833v1
Date: Mon, 11 Mar 2024 15:48:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 18:23:56.689114
Title: Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?
Title（参考訳）: LLMはデータから命令を分離できるのか? そして、それで何を意味するのか?
Authors: Egor Zverev, Sahar Abdelnabi, Mario Fritz, Christoph H. Lampert
Abstract要約: 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。 LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
参考スコア（独自算出の注目度）: 70.90792645587449
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-tuned Large Language Models (LLMs) have achieved breakthrough results, opening countless new possibilities for many practical applications. However, LLMs lack elementary safety features that are established norms in other areas of computer science, such as the separation between instructions and data, causing them to malfunction or rendering them vulnerable to manipulation and interference by third parties e.g., via indirect prompt/command injection. Even worse, so far, there is not even an established definition of what precisely such a separation would mean and how its violation could be tested. In this work, we aim to close this gap. We introduce a formal measure to quantify the phenomenon of instruction-data separation as well as an empirical variant of the measure that can be computed from a model`s black-box outputs. We also introduce a new dataset, SEP (Should it be Executed or Processed?), which allows estimating the measure, and we report results on several state-of-the-art open-source and closed LLMs. Finally, we quantitatively demonstrate that all evaluated LLMs fail to achieve a high amount of separation, according to our measure. The source code and SEP dataset are openly accessible at https://github.com/egozverev/Shold-It-Be-Executed-Or-Processed.
Abstract（参考訳）: 命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用アプリケーションに新たな可能性を開く。しかし、LSMは、命令とデータの分離や、間接的なプロンプト/コマンドインジェクションなどの第三者による操作や干渉に弱い障害を引き起こすなど、コンピュータ科学の他の領域で確立されている基本的な安全機能を持たない。さらに悪いことに、これまでのところ、そのような分離が何を意味するのか、どのように違反をテストできるかという明確な定義さえ存在していない。この作業では、このギャップを縮めることを目指しています。本稿では,命令データ分離の現象を定量化するための公式測度と,モデルのブラックボックス出力から計算可能な測度の経験的変量を導入する。また,評価可能な新しいデータセットであるSEP(Should it be Executed or Processed?)を導入し,いくつかの最先端のオープンソースおよびクローズドLCMの結果を報告する。最後に,評価されたすべてのllmが高い分離を達成することができないことを定量的に示す。ソースコードとSEPデータセットはhttps://github.com/egozverev/Shold-It-Be-Executed-Or-Processedで公開されている。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
ASIDE: Architectural Separation of Instructions and Data in Language Models [87.16417239344285]
本稿では,埋め込みレベルにおける命令とデータを明確に分離する手法ASIDEを提案する。 ASIDEはデータトークンの埋め込みに固定回転を適用し、追加のパラメータを導入することなく、命令とデータトークンの異なる表現を生成する。提案手法の有効性を,(1)モデル能力の低下を伴わない命令データ分離スコアの高度化と,(2)専用の安全訓練を伴わずともインジェクションベンチマークにおける競合結果を示す。
論文参考訳（メタデータ） (2025-03-13T17:17:17Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Dated Data: Tracing Knowledge Cutoffs in Large Language Models [47.987664966633865]
LLMの資源レベルの時間的アライメントに有効なカットオフを推定するための簡単な手法を提案する。効果的なカットオフは、報告されたカットオフとしばしば異なります。提案手法は,(1)非自明なデータ量によるCommonCrawlデータの時間的偏りと,(2)意味的重複と語彙的近接重複を含むLLM重複の重複という2つの原因を明らかにした。
論文参考訳（メタデータ） (2024-03-19T17:57:58Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。