論文の概要: Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.03714v1
- Date: Fri, 28 Mar 2025 16:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 06:23:33.062904
- Title: Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models
- Title(参考訳): シールドでの漂流: 大規模言語モデルの脆弱性を明らかにする
- Authors: Runpeng Dai, Run Yang, Fan Zhou, Hongtu Zhu,
- Abstract要約: 大言語モデル(LLM)と視覚言語モデル(VLM)は、汎用人工知能にとって欠かせないものとなっている。
本稿では,情報幾何学に根ざした統計的手法に着想を得たLSMの新しい安定性尺度を提案する。
提案手法は,入力画像中の有害領域やトークン埋め込みにおける臨界次元の検出に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.216398753024182
- License:
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have become essential to general artificial intelligence, exhibiting remarkable capabilities in task understanding and problem-solving. However, the real-world reliability of these models critically depends on their stability, which remains an underexplored area. Despite their widespread use, rigorous studies examining the stability of LLMs under various perturbations are still lacking. In this paper, we address this gap by proposing a novel stability measure for LLMs, inspired by statistical methods rooted in information geometry. Our measure possesses desirable invariance properties, making it well-suited for analyzing model sensitivity to both parameter and input perturbations. To assess the effectiveness of our approach, we conduct extensive experiments on models ranging in size from 1.5B to 13B parameters. Our results demonstrate the utility of our measure in identifying salient parameters and detecting vulnerable regions in input images or critical dimensions in token embeddings. Furthermore, leveraging our stability framework, we enhance model robustness during model merging, leading to improved performance.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、汎用人工知能にとって不可欠となり、タスク理解と問題解決において顕著な能力を発揮している。
しかし、これらのモデルの現実的な信頼性は、まだ探索されていない領域である安定性に依存している。
広く使われているにもかかわらず、様々な摂動下でのLSMの安定性を調べる厳密な研究はいまだに不足している。
本稿では,情報幾何学に根ざした統計手法にヒントを得て,LSMの新たな安定度尺度を提案する。
提案手法は望ましい不変性を有しており,パラメータと入力摂動の両方に対するモデル感度の解析に適している。
提案手法の有効性を評価するため,1.5Bから13Bの範囲のモデルに対して広範囲な実験を行った。
提案手法は,入力画像中の有害領域やトークン埋め込みにおける臨界次元の検出に有効であることを示す。
さらに、安定性フレームワークを活用して、モデルマージ時のモデルの堅牢性を向上し、パフォーマンスを向上します。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models [4.4849006637642805]
抽出された情報におけるノイズや誤差の存在は、LLMの堅牢性に課題をもたらす。
ノイズの多い外部情報によるモデル精度低下の問題に対処するため,データ拡張に基づく微調整手法を提案する。
我々は既存のLCMと我々のアプローチの両方で実験を行い、その結果をGPT-4で評価した。
論文 参考訳(メタデータ) (2024-09-09T07:32:30Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。