論文の概要: Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption
- arxiv url: http://arxiv.org/abs/2504.20769v1
- Date: Tue, 29 Apr 2025 13:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.913047
- Title: Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption
- Title(参考訳): Chain-of-Defensive-Thought: Structured Reasoningは参照破壊に対する大言語モデルにおけるロバスト性を緩和する
- Authors: Wenxiao Wang, Parsa Hosseini, Soheil Feizi,
- Abstract要約: そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。
特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
- 参考スコア(独自算出の注目度): 51.98089842456886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.
- Abstract(参考訳): チェーン・オブ・シークレット・プロンプトは、大きな言語モデルの推論能力を促進する上で大きな成功を収めた。
本研究では、これらの強化された推論能力を利用して、必ずしも推論に焦点を絞らないタスクにおいて、大規模言語モデルの堅牢性を改善する方法について検討する。
特に,多種多様な大規模言語モデルにおいて,チェイン・オブ・ディフェンシブ・プリートと呼ばれる単純な手法を用いて,参照汚損に対するロバスト性を大幅に向上することを示す。
特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
例えば、Natural Questionsタスクでは、GPT-4oの精度が60%から3%まで低下し、提供された10の基準のうち1がインジェクションアタックで破損した場合、標準のプロンプトで3%まで低下する。
対照的に、チェーン・オブ・デフェンシブ・シグネリングを用いたGPT-4oは50%の精度を維持している。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning [14.011140902511135]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Contrastive Chain-of-Thought Prompting [74.10511560147293]
本稿では,言語モデル推論を強化するために,思考の対照的な連鎖を提案する。
従来の思考の連鎖と比較して,本手法は妥当かつ無効な推論実証を提供する。
推論ベンチマーク実験により、思考の対照的な連鎖は、思考の連鎖の促進に役立てることができることを示した。
論文 参考訳(メタデータ) (2023-11-15T18:54:01Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - Response: Emergent analogical reasoning in large language models [0.034530027457862]
GPT-3は、オリジナルのタスクの最も単純なバリエーションを解決するのに失敗するが、人間のパフォーマンスは、修正されたすべてのバージョンで一貫して高い。
ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、データ記憶を除外するアプローチを開発することが重要である。
論文 参考訳(メタデータ) (2023-08-30T16:17:26Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。