論文の概要: Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models
- arxiv url: http://arxiv.org/abs/2308.07847v2
- Date: Mon, 6 May 2024 13:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 01:06:19.530634
- Title: Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models
- Title(参考訳): 時を経るロバスト性:大言語モデルの経時的バージョンに対する敵例の効果を理解する
- Authors: Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、ユーザエクスペリエンスを改善するために継続的に更新される。
GPT-3.5, GPT-4, LLaMAの3つの顕著なLCMの対向性について縦断的研究を行った。
以上の結果から,LSMの更新は予想される敵の強靭性を常に改善しないことが明らかとなった。
- 参考スコア(独自算出の注目度): 33.42698011091297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) undergo continuous updates to improve user experience. However, prior research on the security and safety implications of LLMs has primarily focused on their specific versions, overlooking the impact of successive LLM updates. This prompts the need for a holistic understanding of the risks in these different versions of LLMs. To fill this gap, in this paper, we conduct a longitudinal study to examine the adversarial robustness -- specifically misclassification, jailbreak, and hallucination -- of three prominent LLMs: GPT-3.5, GPT-4, and LLaMA. Our study reveals that LLM updates do not consistently improve adversarial robustness as expected. For instance, a later version of GPT-3.5 degrades regarding misclassification and hallucination despite its improved resilience against jailbreaks, and GPT-4 demonstrates (incrementally) higher robustness overall. Moreover, larger model sizes do not necessarily yield improved robustness. Specifically, larger LLaMA models do not uniformly exhibit improved robustness across all three aspects studied. Importantly, minor updates lacking substantial robustness improvements can exacerbate existing issues rather than resolve them. By providing a more nuanced understanding of LLM robustness over time, we hope our study can offer valuable insights for developers and users navigating model updates and informed decisions in model development and usage for LLM vendors.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ユーザエクスペリエンスを改善するために継続的に更新される。
しかしながら、LLMのセキュリティと安全性に関する以前の研究は、主にそれらの特定のバージョンに焦点を当てており、連続したLLM更新の影響を見越している。
これにより、これらの異なるバージョンのLLMにおけるリスクの全体的理解の必要性が生じる。
このギャップを埋めるために,本論文では,GPT-3.5,GPT-4,LLaMAの3つの顕著なLCMの敵対的堅牢性(特に誤分類,脱獄,幻覚)について,縦断的研究を行った。
以上の結果から,LSMの更新は予想される敵の強靭性を常に改善しないことが明らかとなった。
例えば、GPT-3.5の後期バージョンでは、脱獄に対するレジリエンスが向上したにもかかわらず、誤分類と幻覚に関する劣化が見られ、GPT-4は全体として(徐々に)高い堅牢性を示している。
さらに、より大きなモデルサイズは必ずしもロバスト性を改善するとは限らない。
特に、より大きなLLaMAモデルは、研究された3つの側面すべてにわたって改善されたロバスト性を均一に示さない。
重要な点として、大幅な堅牢性の改善を欠いたマイナーアップデートは、解決するよりも既存の問題を悪化させる可能性がある。
LLMの堅牢性に関するより微妙な理解を提供することによって、当社の研究が、モデルアップデートをナビゲートする開発者やユーザに対して、LLMベンダのモデル開発と使用に関する情報決定に、貴重な洞察を得られることを願っています。
関連論文リスト
- Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [32.888016435098045]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文 参考訳(メタデータ) (2024-07-01T16:55:28Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。