Fugu-MT 論文翻訳(概要): Adversarial Self-Attention for Language Understanding

論文の概要: Adversarial Self-Attention for Language Understanding

arxiv url: http://arxiv.org/abs/2206.12608v1
Date: Sat, 25 Jun 2022 09:18:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-28 13:24:50.199723
Title: Adversarial Self-Attention for Language Understanding
Title（参考訳）: 言語理解のための敵対的自己注意
Authors: Hongqiu Wu and Hai Zhao
Abstract要約: 本稿では,textitAdversarial Self-Attention Mechanism (ASA)を提案する。 ASAはトランスフォーマーの注意を逆向きに再構築し、汚染されたモデル構造からのモデルトレーニングを促進する。微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりも常に大きなマージンで勝る。
参考スコア（独自算出の注目度）: 89.265747130584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An ultimate language system aims at the high generalization and robustness when adapting to diverse scenarios. Unfortunately, the recent white hope pre-trained language models (PrLMs) barely escape from stacking excessive parameters to the over-parameterized Transformer architecture to achieve higher performances. This paper thus proposes \textit{Adversarial Self-Attention} mechanism (ASA), which adversarially reconstructs the Transformer attentions and facilitates model training from contaminated model structures, coupled with a fast and simple implementation for better PrLM building. We conduct comprehensive evaluation across a wide range of tasks on both pre-training and fine-tuning stages. For pre-training, ASA unfolds remarkable performance gain compared to regular training for longer periods. For fine-tuning, ASA-empowered models consistently outweigh naive models by a large margin considering both generalization and robustness.
Abstract（参考訳）: 究極の言語システムは、多様なシナリオに適応する際の高い一般化と堅牢性を目指している。残念なことに、最近のホワイトホープ事前訓練言語モデル(PrLM)は、高パフォーマンスを実現するために過度なパラメータをオーバーパラメータ化したTransformerアーキテクチャに積み上げることはほとんどない。本稿では,トランスフォーマーの注意を逆向きに再構築し,汚染されたモデル構造からのモデルトレーニングを容易にするための,高速でシンプルなPrLM構築機構を提案する。我々は,事前学習段階と微調整段階の両方において,幅広いタスクを包括的に評価する。事前トレーニングでは、ASAはより長い期間の定期的なトレーニングに比べ、顕著なパフォーマンス向上を実現している。微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりずっと優れている。

関連論文リスト

Iterative Pretraining Framework for Interatomic Potentials [46.53683458224917]
MLIPモデルの予測性能を向上させるために, 原子間ポテンシャルの反復事前学習(IPIP)を提案する。 IPIPは、反復訓練が最適な局所最小値に収束するのを防ぐための、忘れるメカニズムを組み込んでいる。汎用力場と比較すると,Mo-S-Oシステムでは予測誤差が80%以上減少し,最大4倍の高速化を実現している。
論文参考訳（メタデータ） (2025-07-27T03:59:41Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。 ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文参考訳（メタデータ） (2024-01-09T04:33:03Z)
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。 PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文参考訳（メタデータ） (2024-01-05T09:58:09Z)
Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models [35.58379464827462]
本稿では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現する訓練後プルーニング戦略を提案する。他の最先端のベースラインと比較して、我々の手法は、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。
論文参考訳（メタデータ） (2023-10-19T23:02:29Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。 GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文参考訳（メタデータ） (2022-11-03T08:32:12Z)
How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。 RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-22T05:04:41Z)
Adversarial Training for Large Neural Language Models [107.84290922621163]
対戦型事前学習は、一般化と堅牢性の両方を改善することができることを示す。 ALUMは、対向損失を最大化する埋め込み空間に摂動を適用することで、トレーニング目標を正規化する。 ALUMはさらにタスク固有の微調整と組み合わせて追加のゲインを得ることもできる。
論文参考訳（メタデータ） (2020-04-20T00:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。