論文の概要: Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2408.04585v2
- Date: Fri, 9 Aug 2024 21:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 10:59:25.957060
- Title: Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness
- Title(参考訳): レジリエントかつ効率的なLCMを目指して:効率性, 性能, 対向ロバスト性の比較研究
- Authors: Xiaojing Fan, Chunliang Tao,
- Abstract要約: 大規模言語モデル (LLM) の効率性, 性能, 対向ロバスト性の間のトレードオフについて検討する。
GLUEデータセットとAdvGLUEデータセットを使用して、Transformer++、Gated Linear Attention (GLA) Transformer、MatMul-Free LMという、さまざまな複雑さと効率のレベルを持つ3つの著名なモデルを比較した。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,AdvGLUE タスクでは,異なる攻撃レベルにおける Transformer++ と比較して高い効率と高いロバスト性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing demand for practical applications of Large Language Models (LLMs), many attention-efficient models have been developed to balance performance and computational cost. However, the adversarial robustness of these models remains under-explored. In this work, we design a framework to investigate the trade-off between efficiency, performance, and adversarial robustness of LLMs by comparing three prominent models with varying levels of complexity and efficiency -- Transformer++, Gated Linear Attention (GLA) Transformer, and MatMul-Free LM -- utilizing the GLUE and AdvGLUE datasets. The AdvGLUE dataset extends the GLUE dataset with adversarial samples designed to challenge model robustness. Our results show that while the GLA Transformer and MatMul-Free LM achieve slightly lower accuracy on GLUE tasks, they demonstrate higher efficiency and either superior or comparative robustness on AdvGLUE tasks compared to Transformer++ across different attack levels. These findings highlight the potential of simplified architectures to achieve a compelling balance between efficiency, performance, and adversarial robustness, offering valuable insights for applications where resource constraints and resilience to adversarial attacks are critical.
- Abstract(参考訳): LLM(Large Language Models)の実用的応用に対する需要が高まっているため、性能と計算コストのバランスをとるために多くの注意効率の高いモデルが開発されている。
しかし、これらのモデルの敵対的堅牢性はいまだ探索されていない。
本研究では,GLUEデータセットとAdvGLUEデータセットを用いて,Transformer++,Gated Linear Attention (GLA) Transformer,MatMul-Free LMという3つの著名なモデルと,複雑性と効率のレベルが異なる3つのモデルを比較することにより,LCMの効率性,性能,対向ロバスト性の間のトレードオフを検討するフレームワークを設計する。
AdvGLUEデータセットはGLUEデータセットを拡張し、モデルの堅牢性に挑戦するために設計された逆サンプルを使用する。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,AdvGLUE タスクでは,異なる攻撃レベルにおける Transformer++ と比較して高い効率と高いロバスト性を示した。
これらの発見は、効率性、パフォーマンス、および敵の堅牢性の間の説得力のあるバランスを達成するために単純化されたアーキテクチャの可能性を強調し、敵の攻撃に対するリソースの制約とレジリエンスが重要となるアプリケーションに貴重な洞察を提供する。
関連論文リスト
- Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。
提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文 参考訳(メタデータ) (2024-06-06T15:23:30Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。