論文の概要: Self-Critique Prompting with Large Language Models for Inductive
Instructions
- arxiv url: http://arxiv.org/abs/2305.13733v1
- Date: Tue, 23 May 2023 06:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:35:59.298136
- Title: Self-Critique Prompting with Large Language Models for Inductive
Instructions
- Title(参考訳): インダクティブインストラクションのための大規模言語モデルを用いた自己批判型プロンプト
- Authors: Rui Wang, Hongru Wang, Fei Mi, Yi Chen, Ruifeng Xu, Kam-Fai Wong
- Abstract要約: 本稿では,インダクティブインストラクション(INDust)を用いて,大規模言語モデルがこれらの命令に抵抗できるかどうかを評価するベンチマークを提案する。
INDustには、Fact-Checking Instructions、False Premisesに基づく質問、False Premisesに基づくCreative Instructionsという3つのカテゴリの15K命令が含まれている。
いくつかの強力な LLM に関する実験により,現在の LLM は INDUSt によって誤認されやすいことが判明した。
- 参考スコア(独自算出の注目度): 34.548579971077935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous works are proposed to improve or evaluate the capabilities of Large
language models (LLMs) to fulfill user instructions. However, they neglect the
possibility that user inputs may inherently contain incorrect information due
to users' false beliefs or malicious intents. In this way, blindly adhering to
users' false content will cause deception and harm. To address this problem, we
propose a challenging benchmark consisting of Inductive Instructions (INDust)
to evaluate whether LLMs could resist these instructions. The INDust includes
15K instructions across three categories: Fact-Checking Instructions, Questions
based on False Premises, and Creative Instructions based on False Premises. Our
experiments on several strong LLMs reveal that current LLMs can be easily
deceived by INDust into generating misleading and malicious statements. Hence
we employ Self-Critique prompting to encourage LLMs to not only critique
themselves like in previous works but also the users, which show remarkable
improvement in handling inductive instructions under both zero-shot and
few-shot settings.
- Abstract(参考訳): 大規模言語モデル(LLM)のユーザ命令を満たす能力を改善するか評価するために,多くの研究が提案されている。
しかし、利用者の誤った信念や悪意のある意図によって、利用者の入力が本質的に誤った情報を含む可能性を無視している。
このように、ユーザーの偽コンテンツに盲目的に固執すると、詐欺や危害が生じる。
この問題に対処するため,インダクティブインストラクション(INDust)を用いて,LLMがこれらの命令に抵抗できるかどうかを評価する。
INDustには、Fact-Checking Instructions、False Premisesに基づく質問、False Premisesに基づくCreative Instructionsという3つのカテゴリの15K命令が含まれている。
いくつかの強力な LLM に関する実験により,現在の LLM は INDUSt によって誤認されやすいことが判明した。
そこで我々は,従来の作品と同様の批判をLLMに促すとともに,ゼロショット設定と少数ショット設定の両方でインダクティブ命令処理の大幅な改善を図った。
関連論文リスト
- An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - RoCoIns: Enhancing Robustness of Large Language Models through
Code-Style Instructions [43.19966425619236]
より構造的であいまいなコードスタイルの命令を使用して、典型的には自然言語命令を置き換える。
そこで本研究では,クリーンサンプルと逆サンプルの両方を用いて,コンテキスト内デモを構成する新しい手法を提案する。
8つのロバスト性データセットの実験により、我々の手法は自然言語命令によるLLMよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-02-26T09:30:55Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Auto-Instruct: Automatic Instruction Generation and Ranking for
Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。
LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。
118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文 参考訳(メタデータ) (2023-10-19T19:52:55Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output
Robustness of Large Language Models [28.37026309925163]
大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。
以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。
本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
論文 参考訳(メタデータ) (2023-07-17T13:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。