Fugu-MT 論文翻訳(概要): Self-Critique Prompting with Large Language Models for Inductive Instructions

論文の概要: Self-Critique Prompting with Large Language Models for Inductive Instructions

arxiv url: http://arxiv.org/abs/2305.13733v1
Date: Tue, 23 May 2023 06:38:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 18:35:59.298136
Title: Self-Critique Prompting with Large Language Models for Inductive Instructions
Title（参考訳）: インダクティブインストラクションのための大規模言語モデルを用いた自己批判型プロンプト
Authors: Rui Wang, Hongru Wang, Fei Mi, Yi Chen, Ruifeng Xu, Kam-Fai Wong
Abstract要約: 本稿では,インダクティブインストラクション(INDust)を用いて,大規模言語モデルがこれらの命令に抵抗できるかどうかを評価するベンチマークを提案する。 INDustには、Fact-Checking Instructions、False Premisesに基づく質問、False Premisesに基づくCreative Instructionsという3つのカテゴリの15K命令が含まれている。いくつかの強力な LLM に関する実験により,現在の LLM は INDUSt によって誤認されやすいことが判明した。
参考スコア（独自算出の注目度）: 34.548579971077935
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Numerous works are proposed to improve or evaluate the capabilities of Large language models (LLMs) to fulfill user instructions. However, they neglect the possibility that user inputs may inherently contain incorrect information due to users' false beliefs or malicious intents. In this way, blindly adhering to users' false content will cause deception and harm. To address this problem, we propose a challenging benchmark consisting of Inductive Instructions (INDust) to evaluate whether LLMs could resist these instructions. The INDust includes 15K instructions across three categories: Fact-Checking Instructions, Questions based on False Premises, and Creative Instructions based on False Premises. Our experiments on several strong LLMs reveal that current LLMs can be easily deceived by INDust into generating misleading and malicious statements. Hence we employ Self-Critique prompting to encourage LLMs to not only critique themselves like in previous works but also the users, which show remarkable improvement in handling inductive instructions under both zero-shot and few-shot settings.
Abstract（参考訳）: 大規模言語モデル(LLM)のユーザ命令を満たす能力を改善するか評価するために,多くの研究が提案されている。しかし、利用者の誤った信念や悪意のある意図によって、利用者の入力が本質的に誤った情報を含む可能性を無視している。このように、ユーザーの偽コンテンツに盲目的に固執すると、詐欺や危害が生じる。この問題に対処するため,インダクティブインストラクション(INDust)を用いて,LLMがこれらの命令に抵抗できるかどうかを評価する。 INDustには、Fact-Checking Instructions、False Premisesに基づく質問、False Premisesに基づくCreative Instructionsという3つのカテゴリの15K命令が含まれている。いくつかの強力な LLM に関する実験により,現在の LLM は INDUSt によって誤認されやすいことが判明した。そこで我々は,従来の作品と同様の批判をLLMに促すとともに,ゼロショット設定と少数ショット設定の両方でインダクティブ命令処理の大幅な改善を図った。

関連論文リスト

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。 DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-02-05T04:52:57Z)
Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文参考訳（メタデータ） (2024-12-27T04:37:39Z)
Do LLMs "know" internally when they follow instructions? [7.87370534634794]
大規模言語モデル (LLM) が命令追従の成功と相関する表現に情報をエンコードするかどうかを検討する。本分析では,入力埋め込み空間の方向を指示追従次元と呼び,応答が与えられた命令に適合するかどうかを予測する。この次元に沿った表現の修正は、ランダムな変化に比べて、命令追従の成功率を改善することを実証する。
論文参考訳（メタデータ） (2024-10-18T14:55:14Z)
An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文参考訳（メタデータ） (2024-04-03T19:31:56Z)
CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (2024-03-13T08:54:31Z)
RoCoIns: Enhancing Robustness of Large Language Models through Code-Style Instructions [43.19966425619236]
より構造的であいまいなコードスタイルの命令を使用して、典型的には自然言語命令を置き換える。そこで本研究では,クリーンサンプルと逆サンプルの両方を用いて,コンテキスト内デモを構成する新しい手法を提案する。 8つのロバスト性データセットの実験により、我々の手法は自然言語命令によるLLMよりも一貫して優れていた。
論文参考訳（メタデータ） (2024-02-26T09:30:55Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。 LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。 118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文参考訳（メタデータ） (2023-10-19T19:52:55Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models [28.37026309925163]
大きな言語モデル(LLM)は人間の値と一致し、安全なテキストを生成するように設計されている。以前のJailbreaking LLMのベンチマークでは、主にモデルの安全性の評価に焦点が当てられていた。本稿では,LLMの安全性とロバスト性を両立させ,バランスの取れたアプローチの必要性を強調した。
論文参考訳（メタデータ） (2023-07-17T13:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。