論文の概要: On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.10535v1
- Date: Fri, 13 Dec 2024 20:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.669518
- Title: On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models
- Title(参考訳): 大規模言語モデルの逆ロバスト性と分布外ロバスト性について
- Authors: April Yang, Jordan Tab, Parth Shah, Paul Kotchavong,
- Abstract要約: 大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
- 参考スコア(独自算出の注目度): 0.16874375111244325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on large language models (LLMs) for diverse applications necessitates a thorough understanding of their robustness to adversarial perturbations and out-of-distribution (OOD) inputs. In this study, we investigate the correlation between adversarial robustness and OOD robustness in LLMs, addressing a critical gap in robustness evaluation. By applying methods originally designed to improve one robustness type across both contexts, we analyze their performance on adversarial and out-of-distribution benchmark datasets. The input of the model consists of text samples, with the output prediction evaluated in terms of accuracy, precision, recall, and F1 scores in various natural language inference tasks. Our findings highlight nuanced interactions between adversarial robustness and OOD robustness, with results indicating limited transferability between the two robustness types. Through targeted ablations, we evaluate how these correlations evolve with different model sizes and architectures, uncovering model-specific trends: smaller models like LLaMA2-7b exhibit neutral correlations, larger models like LLaMA2-13b show negative correlations, and Mixtral demonstrates positive correlations, potentially due to domain-specific alignment. These results underscore the importance of hybrid robustness frameworks that integrate adversarial and OOD strategies tailored to specific models and domains. Further research is needed to evaluate these interactions across larger models and varied architectures, offering a pathway to more reliable and generalizable LLMs.
- Abstract(参考訳): 多様なアプリケーションに対する大規模言語モデル (LLM) への依存度の増加は、敵の摂動とアウト・オブ・ディストリビューション (OOD) 入力に対する頑健さを徹底的に理解する必要がある。
本研究では,LLMにおける対向ロバストネスとOODロバストネスの相関について検討し,ロバストネス評価における重要なギャップに対処する。
両コンテキストにまたがる1つのロバスト性タイプを改善するために考案された手法を適用することにより、逆方向および外分布ベンチマークデータセットのパフォーマンスを解析する。
モデルの入力はテキストサンプルで構成され、様々な自然言語推論タスクにおいて、精度、精度、リコール、F1スコアの点で出力予測が評価される。
以上の結果から, 対向ロバスト性とOODロバスト性の間にはニュアンスな相互作用がみられ, 両ロバスト性は限定的であった。
LLaMA2-7bのような小さなモデルは中立的な相関を示し、LLaMA2-13bのような大きなモデルは負の相関を示し、Mixtralはドメイン固有のアライメントによって正の相関を示す。
これらの結果は、特定のモデルやドメインに合わせて、敵対的戦略とOOD戦略を統合するハイブリッドロバストネスフレームワークの重要性を強調している。
より信頼性が高く一般化可能なLLMへの経路を提供するため、より大きなモデルと様々なアーキテクチャでこれらの相互作用を評価するためにさらなる研究が必要である。
関連論文リスト
- Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。
提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。
本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文 参考訳(メタデータ) (2025-04-16T15:40:10Z) - Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Alignment and Adversarial Robustness: Are More Human-Like Models More Secure? [2.5228303963685366]
本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係について検討する。
その結果, 平均アライメントとロバストネスの相関は弱いが, 特定のアライメントベンチマークは, 対角ロバストネスの強い予測因子となることがわかった。
論文 参考訳(メタデータ) (2025-02-17T23:30:50Z) - On Adversarial Robustness of Language Models in Transfer Learning [13.363850350446869]
転送学習は、標準的なパフォーマンス指標を改善する一方で、敵攻撃に対する脆弱性の増加につながることがよく示される。
以上の結果から, モデルサイズ, アーキテクチャ, 適応手法の複雑な相互作用が示唆された。
論文 参考訳(メタデータ) (2024-12-29T15:55:35Z) - Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - The BRAVO Semantic Segmentation Challenge Results in UNCV2024 [68.20197719071436]
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。
その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
論文 参考訳(メタデータ) (2024-09-23T15:17:30Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Improving Adversarial Robustness via Mutual Information Estimation [144.33170440878519]
ディープニューラルネットワーク(DNN)は、敵の雑音に弱い。
本稿では,情報理論の観点から,対象モデルの出力と入力対向サンプルの依存性について検討する。
本稿では,自然MIの最大化と,学習過程における敵MIの最小化により,敵ロバスト性を高めることを提案する。
論文 参考訳(メタデータ) (2022-07-25T13:45:11Z) - Models Out of Line: A Fourier Lens on Distribution Shift Robustness [29.12208822285158]
分散外(OOD)データに対するディープニューラルネットワーク(DNN)の精度向上は、現実世界の応用におけるディープラーニング(DL)の受容に不可欠である。
近年、OODの堅牢性を改善するためにいくつかの有望なアプローチが開発されている。
効果的なロバスト性を監視するために必要なOODデータとモデル特性の条件について、いまだに明確な理解が得られていない。
論文 参考訳(メタデータ) (2022-07-08T18:05:58Z) - Adversarially Robust Estimate and Risk Analysis in Linear Regression [17.931533943788335]
反対に堅牢な学習は、入力変数の小さな反対の摂動に対して堅牢なアルゴリズムを設計することを目指している。
逆ロバストな推定器の収束率を統計的に最小化することで,モデル情報の導入の重要性を強調する。
本研究では, モデル構造情報を活用することで, 素直な2段階の対人学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-18T14:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。