Fugu-MT 論文翻訳(概要): LLMs can be easily Confused by Instructional Distractions

論文の概要: LLMs can be easily Confused by Instructional Distractions

arxiv url: http://arxiv.org/abs/2502.04362v1
Date: Wed, 05 Feb 2025 04:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.827164
Title: LLMs can be easily Confused by Instructional Distractions
Title（参考訳）: LLMはインストラクショナル・ディトラクションによって容易に混乱できる
Authors: Yerin Hwang, Yongil Kim, Jahyun Koo, Taegwan Kang, Hyunkyung Bae, Kyomin Jung,
Abstract要約: 大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。 DIM-Benchと呼ばれる新しいベンチマークを導入する。
参考スコア（独自算出の注目度）: 16.060402139507644
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite the fact that large language models (LLMs) show exceptional skill in instruction following tasks, this strength can turn into a vulnerability when the models are required to disregard certain instructions. Instruction-following tasks typically involve a clear task description and input text containing the target data to be processed. However, when the input itself resembles an instruction, confusion may arise, even if there is explicit prompting to distinguish between the task instruction and the input. We refer to this phenomenon as instructional distraction. In this paper, we introduce a novel benchmark, named DIM-Bench, specifically designed to assess LLMs' performance under instructional distraction. The benchmark categorizes real-world instances of instructional distraction and evaluates LLMs across four instruction tasks: rewriting, proofreading, translation, and style transfer -- alongside five input tasks: reasoning, code generation, mathematical reasoning, bias detection, and question answering. Our experimental results reveal that even the most advanced LLMs are susceptible to instructional distraction, often failing to accurately follow user intent in such cases.
Abstract（参考訳）: 大規模言語モデル(LLM)は、タスクに続く命令において例外的なスキルを示すが、モデルが特定の命令を無視しなければならない場合、この強度は脆弱性となる可能性がある。命令追従タスクは通常、処理すべき対象データを含む明確なタスク記述と入力テキストを含む。しかし、入力自体が命令に似ている場合、たとえタスク命令と入力を区別する明示的なプロンプトがあるとしても、混乱が発生する可能性がある。我々はこの現象を教育的気晴らしと呼ぶ。本稿では,DIM-Benchという新しいベンチマークを導入する。このベンチマークは4つの命令タスク(書き直し、証明読出、翻訳、スタイル転送)と5つの入力タスク(推論、コード生成、数学的推論、バイアス検出、質問応答)にまたがるLLMを評価する。実験結果から,最も先進的なLCMでさえ教育上の邪魔をしやすく,ユーザの意図を正確に追従できないことが判明した。

関連論文リスト

Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning [31.790490397086856]
大規模言語モデル(LLM)統合アプリケーションはますます普及しているが、プロンプトインジェクション(PI)攻撃による重大なセキュリティ上の脆弱性に直面している。 InstruCoTは、多種多様な訓練データを合成し、微調整を指示レベルチェーンで行うPIディフェンスのモデル拡張手法である。
論文参考訳（メタデータ） (2026-01-08T07:25:27Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文参考訳（メタデータ） (2024-12-27T04:37:39Z)
Do LLMs "know" internally when they follow instructions? [7.87370534634794]
大規模言語モデル (LLM) が命令追従の成功と相関する表現に情報をエンコードするかどうかを検討する。本分析では,入力埋め込み空間の方向を指示追従次元と呼び,応答が与えられた命令に適合するかどうかを予測する。この次元に沿った表現の修正は、ランダムな変化に比べて、命令追従の成功率を改善することを実証する。
論文参考訳（メタデータ） (2024-10-18T14:55:14Z)
Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
本稿では,タスク性能と命令追従機能の両方を検証し易い命令追従ベンチマークの開発に焦点をあてる。既存の知識ベンチマークを適応させ、(a)知識タスクを正しく答える条件付きで強化するか、(b)複数の知識回答タスクにおいて候補オプションの空間を使用する。大規模な命令調整 LLM でさえ、ゼロショット設定で単純な命令に従わないことがわかった。
論文参考訳（メタデータ） (2024-10-16T19:07:37Z)
An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文参考訳（メタデータ） (2024-04-03T19:31:56Z)
INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文参考訳（メタデータ） (2024-01-12T12:10:28Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文参考訳（メタデータ） (2023-05-23T06:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。