論文の概要: On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.10535v1
- Date: Fri, 13 Dec 2024 20:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:12.956289
- Title: On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models
- Title(参考訳): 大規模言語モデルの逆ロバスト性と分布外ロバスト性について
- Authors: April Yang, Jordan Tab, Parth Shah, Paul Kotchavong,
- Abstract要約: 大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License:
- Abstract: The increasing reliance on large language models (LLMs) for diverse applications necessitates a thorough understanding of their robustness to adversarial perturbations and out-of-distribution (OOD) inputs. In this study, we investigate the correlation between adversarial robustness and OOD robustness in LLMs, addressing a critical gap in robustness evaluation. By applying methods originally designed to improve one robustness type across both contexts, we analyze their performance on adversarial and out-of-distribution benchmark datasets. The input of the model consists of text samples, with the output prediction evaluated in terms of accuracy, precision, recall, and F1 scores in various natural language inference tasks. Our findings highlight nuanced interactions between adversarial robustness and OOD robustness, with results indicating limited transferability between the two robustness types. Through targeted ablations, we evaluate how these correlations evolve with different model sizes and architectures, uncovering model-specific trends: smaller models like LLaMA2-7b exhibit neutral correlations, larger models like LLaMA2-13b show negative correlations, and Mixtral demonstrates positive correlations, potentially due to domain-specific alignment. These results underscore the importance of hybrid robustness frameworks that integrate adversarial and OOD strategies tailored to specific models and domains. Further research is needed to evaluate these interactions across larger models and varied architectures, offering a pathway to more reliable and generalizable LLMs.
- Abstract(参考訳): 多様なアプリケーションに対する大規模言語モデル (LLM) への依存度の増加は、敵の摂動とアウト・オブ・ディストリビューション (OOD) 入力に対する頑健さを徹底的に理解する必要がある。
本研究では,LLMにおける対向ロバストネスとOODロバストネスの相関について検討し,ロバストネス評価における重要なギャップに対処する。
両コンテキストにまたがる1つのロバスト性タイプを改善するために考案された手法を適用することにより、逆方向および外分布ベンチマークデータセットのパフォーマンスを解析する。
モデルの入力はテキストサンプルで構成され、様々な自然言語推論タスクにおいて、精度、精度、リコール、F1スコアの点で出力予測が評価される。
以上の結果から, 対向ロバスト性とOODロバスト性の間にはニュアンスな相互作用がみられ, 両ロバスト性は限定的であった。
LLaMA2-7bのような小さなモデルは中立的な相関を示し、LLaMA2-13bのような大きなモデルは負の相関を示し、Mixtralはドメイン固有のアライメントによって正の相関を示す。
これらの結果は、特定のモデルやドメインに合わせて、敵対的戦略とOOD戦略を統合するハイブリッドロバストネスフレームワークの重要性を強調している。
より信頼性が高く一般化可能なLLMへの経路を提供するため、より大きなモデルと様々なアーキテクチャでこれらの相互作用を評価するためにさらなる研究が必要である。
関連論文リスト
- Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - The BRAVO Semantic Segmentation Challenge Results in UNCV2024 [68.20197719071436]
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。
その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
論文 参考訳(メタデータ) (2024-09-23T15:17:30Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Improving Adversarial Robustness via Mutual Information Estimation [144.33170440878519]
ディープニューラルネットワーク(DNN)は、敵の雑音に弱い。
本稿では,情報理論の観点から,対象モデルの出力と入力対向サンプルの依存性について検討する。
本稿では,自然MIの最大化と,学習過程における敵MIの最小化により,敵ロバスト性を高めることを提案する。
論文 参考訳(メタデータ) (2022-07-25T13:45:11Z) - Models Out of Line: A Fourier Lens on Distribution Shift Robustness [29.12208822285158]
分散外(OOD)データに対するディープニューラルネットワーク(DNN)の精度向上は、現実世界の応用におけるディープラーニング(DL)の受容に不可欠である。
近年、OODの堅牢性を改善するためにいくつかの有望なアプローチが開発されている。
効果的なロバスト性を監視するために必要なOODデータとモデル特性の条件について、いまだに明確な理解が得られていない。
論文 参考訳(メタデータ) (2022-07-08T18:05:58Z) - Enhancing Model Robustness and Fairness with Causality: A Regularization
Approach [15.981724441808147]
最近の研究は、機械学習モデルにおける急激な相関と意図しないバイアスのリスクを懸念している。
モデルトレーニング中に因果知識を統合するためのシンプルで直感的な正規化手法を提案する。
因果的特徴に依存し、因果的でない特徴に依存しない予測モデルを構築します。
論文 参考訳(メタデータ) (2021-10-03T02:49:33Z) - Adversarially Robust Estimate and Risk Analysis in Linear Regression [17.931533943788335]
反対に堅牢な学習は、入力変数の小さな反対の摂動に対して堅牢なアルゴリズムを設計することを目指している。
逆ロバストな推定器の収束率を統計的に最小化することで,モデル情報の導入の重要性を強調する。
本研究では, モデル構造情報を活用することで, 素直な2段階の対人学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-18T14:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。