論文の概要: Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.03714v2
- Date: Mon, 07 Jul 2025 04:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.308991
- Title: Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models
- Title(参考訳): シールドでの漂流: 大規模言語モデルの脆弱性を明らかにする
- Authors: Runpeng Dai, Run Yang, Fan Zhou, Hongtu Zhu,
- Abstract要約: 大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、幅広いタスクで素晴らしいパフォーマンスを実現しています。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元を同定することにより,この脆弱性の原因を特定することを目的とする。
我々は、情報幾何学に根ざし、個々のパラメータと入力次元の感度を定量化する、textbfFI, textbf First order local textbfInfluence という安定性尺度を提案する。
- 参考スコア(独自算出の注目度): 13.216398753024182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have achieved impressive performance across a wide range of tasks, yet they remain vulnerable to carefully crafted perturbations. In this study, we seek to pinpoint the sources of this fragility by identifying parameters and input dimensions (pixels or token embeddings) that are susceptible to such perturbations. To this end, we propose a stability measure called \textbf{FI}, \textbf{F}irst order local \textbf{I}nfluence, which is rooted in information geometry and quantifies the sensitivity of individual parameter and input dimensions. Our extensive analysis across LLMs and VLMs (from 1.5B to 13B parameters) reveals that: (I) A small subset of parameters or input dimensions with high FI values disproportionately contribute to model brittleness. (II) Mitigating the influence of these vulnerable parameters during model merging leads to improved performance.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、広範囲のタスクで顕著なパフォーマンスを達成しているが、慎重に構築された摂動には弱いままである。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元(画素やトークンの埋め込み)を同定することで,この脆弱性の原因を特定できるようにする。
この目的のために,情報幾何学に根ざし,個々のパラメータや入力次元の感度を定量的に評価する「textbf{FI}, \textbf{F}irst order local \textbf{I}nfluence」という安定性尺度を提案する。
LLM と VLM (1.5B から 13B までのパラメータ) の広範な解析により, (I) 高い FI 値を持つパラメータや入力次元の小さなサブセットは, モデルの脆さに寄与することがわかった。
(II)
モデルマージ時のこれらの脆弱なパラメータの影響を緩和することで、パフォーマンスが向上する。
関連論文リスト
- Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,局所汚濁下でのセグメンテーションモデルのロバスト性を評価するための特別な指標を紹介する。
本研究では,特定の領域に適用される対向的摂動に対して,モデルロバスト性をより深く理解する手法である,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。