Fugu-MT 論文翻訳(概要): On Adversarial Robustness of Language Models in Transfer Learning

論文の概要: On Adversarial Robustness of Language Models in Transfer Learning

arxiv url: http://arxiv.org/abs/2501.00066v1
Date: Sun, 29 Dec 2024 15:55:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:29.920885
Title: On Adversarial Robustness of Language Models in Transfer Learning
Title（参考訳）: 転帰学習における言語モデルの逆ロバスト性について
Authors: Bohdan Turbal, Anastasiia Mazur, Jiaxu Zhao, Mykola Pechenizkiy,
Abstract要約: 転送学習は、標準的なパフォーマンス指標を改善する一方で、敵攻撃に対する脆弱性の増加につながることがよく示される。以上の結果から, モデルサイズ, アーキテクチャ, 適応手法の複雑な相互作用が示唆された。
参考スコア（独自算出の注目度）: 13.363850350446869
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the adversarial robustness of LLMs in transfer learning scenarios. Through comprehensive experiments on multiple datasets (MBIB Hate Speech, MBIB Political Bias, MBIB Gender Bias) and various model architectures (BERT, RoBERTa, GPT-2, Gemma, Phi), we reveal that transfer learning, while improving standard performance metrics, often leads to increased vulnerability to adversarial attacks. Our findings demonstrate that larger models exhibit greater resilience to this phenomenon, suggesting a complex interplay between model size, architecture, and adaptation methods. Our work highlights the crucial need for considering adversarial robustness in transfer learning scenarios and provides insights into maintaining model security without compromising performance. These findings have significant implications for the development and deployment of LLMs in real-world applications where both performance and robustness are paramount.
Abstract（参考訳）: 移動学習シナリオにおけるLLMの対角的ロバスト性について検討する。複数のデータセット(MBIB Hate Speech, MBIB Political Bias, MBIB Gender Bias)と様々なモデルアーキテクチャ(BERT, RoBERTa, GPT-2, Gemma, Phi)の総合的な実験を通して、トランスファー学習は標準的なパフォーマンス指標を改善する一方で、敵の攻撃に対する脆弱性の増加につながることが判明した。以上の結果から, モデルサイズ, アーキテクチャ, 適応手法の複雑な相互作用が示唆された。我々の研究は、トランスファーラーニングシナリオにおける敵の堅牢性を考慮すべき重要な必要性を強調し、パフォーマンスを損なうことなくモデルセキュリティの維持に関する洞察を提供する。これらの知見は、性能とロバスト性の両方が最重要である実世界のアプリケーションにおいて、LLMの開発と展開に重大な影響を及ぼす。

関連論文リスト

Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文参考訳（メタデータ） (2025-04-24T16:36:19Z)
Toward Realistic Adversarial Attacks in IDS: A Novel Feasibility Metric for Transferability [0.0]
転送可能性に基づく敵攻撃は、特定のソース侵入検知システム(IDS)モデルを騙すために、敵の例を活用できる。これらの攻撃は、セキュリティ対策や妥協システムを回避するために、機械学習モデルの一般的な脆弱性を利用する。本稿では,機能アライメント,モデルアーキテクチャの類似性,および各IDSが検査するデータ分布の重複など,伝達可能性に寄与する要因について分析する。
論文参考訳（メタデータ） (2025-04-11T12:15:03Z)
Robust Asymmetric Heterogeneous Federated Learning with Corrupted Clients [60.22876915395139]
本稿では、異種・データ破損クライアントをモデルとした頑健な連立学習課題について検討する。データ破損は、ランダムノイズ、圧縮アーティファクト、現実のデプロイメントにおける環境条件などの要因によって避けられない。本稿では,これらの問題に対処する新しいロバスト非対称不均一なフェデレート学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-12T09:52:04Z)
Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文参考訳（メタデータ） (2024-12-25T17:32:45Z)
On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文参考訳（メタデータ） (2024-12-13T20:04:25Z)
Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳（メタデータ） (2024-06-13T17:59:44Z)
Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models [27.955342181784797]
現在、MLLMの対向移動可能性の脅威に関する体系的な研究は行われていない。本稿では, MLLM間での対向転写性能を評価するため, TATM (Typography Augment Transferability Method) と呼ばれるブースティング手法を提案する。
論文参考訳（メタデータ） (2024-05-30T14:27:20Z)
Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。 Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文参考訳（メタデータ） (2024-05-04T22:00:28Z)
The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。 3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文参考訳（メタデータ） (2024-01-25T09:18:51Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
Common Knowledge Learning for Generating Transferable Adversarial Examples [60.1287733223249]
本稿では,代用(ソース)モデルにより敵のサンプルを生成するブラックボックス攻撃の重要タイプに着目した。既存の手法では、ソースモデルとターゲットモデルが異なるタイプのDNNアーキテクチャのものである場合、不満足な逆転が生じる傾向にある。本稿では,より優れたネットワーク重みを学習し,敵対的な例を生成するための共通知識学習(CKL)フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-01T09:07:12Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文参考訳（メタデータ） (2021-02-04T11:35:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。