論文の概要: Exploring Mode Connectivity for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2210.14102v1
- Date: Tue, 25 Oct 2022 15:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:20:53.257047
- Title: Exploring Mode Connectivity for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルのためのモード接続性探索
- Authors: Yujia Qin, Cheng Qian, Jing Yi, Weize Chen, Yankai Lin, Xu Han,
Zhiyuan Liu, Maosong Sun and Jie Zhou
- Abstract要約: 本研究では,プレトレーニング言語モデル(PLM)を高性能なミニマに効果的に適応させる方法について検討する。
本稿では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
- 参考スコア(独自算出の注目度): 91.33378704580295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the prevalent application of pre-trained language
models (PLMs) in NLP. From the perspective of parameter space, PLMs provide
generic initialization, starting from which high-performance minima could be
found. Although plenty of works have studied how to effectively and efficiently
adapt PLMs to high-performance minima, little is known about the connection of
various minima reached under different adaptation configurations. In this
paper, we investigate the geometric connections of different minima through the
lens of mode connectivity, which measures whether two minima can be connected
with a low-loss path. We conduct empirical analyses to investigate three
questions: (1) how could hyperparameters, specific tuning methods, and training
data affect PLM's mode connectivity? (2) How does mode connectivity change
during pre-training? (3) How does the PLM's task knowledge change along the
path connecting two minima? In general, exploring the mode connectivity of PLMs
conduces to understanding the geometric connection of different minima, which
may help us fathom the inner workings of PLM downstream adaptation.
- Abstract(参考訳): 近年,NLP におけるプレトレーニング言語モデル (PLM) の適用が注目されている。
パラメータ空間の観点からは、PLMは汎用的な初期化を提供し、そこから高性能なミニマを見つけることができる。
PLMを高性能なミニマに効果的かつ効率的に適応する方法について多くの研究がなされているが、異なる適応構成下で到達した様々なミニマの接続についてはほとんど分かっていない。
本稿では,2つのミニマが低損失経路に接続可能かどうかを測定するモード接続レンズを用いて,異なるミニマの幾何学的接続について検討する。
我々は,(1)ハイパーパラメータ,特定のチューニング方法,およびトレーニングデータがplmのモード接続にどのように影響するか,という3つの質問を実験的に検討する。
2)プレトレーニング中にモード接続はどのように変化するか?
(3) PLMのタスク知識は2つのミニマを結ぶ経路に沿ってどのように変化するか?
一般に、PLMのモード接続の探索は、異なるミニマの幾何学的接続を理解することにつながる。
関連論文リスト
- Deep Submodular Peripteral Network [2.0299470687349177]
submodular peripteral network (DSPNs) は、submodular functionの新たなファミリーである。
コントラスト学習にインスパイアされたGPC対応戦略を用いて,DSPNとその学習方法を紹介する。
DSPNsが高コストな目標部分モジュラリティ関数からサブモジュラリティを学習する際の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-13T02:53:52Z) - Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning [9.38259062204602]
大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
論文 参考訳(メタデータ) (2024-02-29T05:27:45Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method
for Conversational Emotion Recognition [56.20144064187554]
本稿では,会話感情認識(CER)タスクのためのクロスモーダルな特徴融合手法を提案する。
LMAMは、一致重みを設定し、モーダル特徴列間のアテンションスコアを計算することにより、自己注意法よりも少ないパラメータを含む。
LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグ・アンド・プレイ方式で性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - Learning to Learn with Indispensable Connections [6.040904021861969]
本稿では,メタ-LTHと呼ばれるメタ-LTHと呼ばれるメタ-ラーニング手法を提案する。
本手法は,オムニグロットデータセットの分類精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:53:13Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z) - Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。
MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。
我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2021-02-08T14:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。