論文の概要: Exploring Mode Connectivity for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2210.14102v1
- Date: Tue, 25 Oct 2022 15:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:20:53.257047
- Title: Exploring Mode Connectivity for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルのためのモード接続性探索
- Authors: Yujia Qin, Cheng Qian, Jing Yi, Weize Chen, Yankai Lin, Xu Han,
Zhiyuan Liu, Maosong Sun and Jie Zhou
- Abstract要約: 本研究では,プレトレーニング言語モデル(PLM)を高性能なミニマに効果的に適応させる方法について検討する。
本稿では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
- 参考スコア(独自算出の注目度): 91.33378704580295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the prevalent application of pre-trained language
models (PLMs) in NLP. From the perspective of parameter space, PLMs provide
generic initialization, starting from which high-performance minima could be
found. Although plenty of works have studied how to effectively and efficiently
adapt PLMs to high-performance minima, little is known about the connection of
various minima reached under different adaptation configurations. In this
paper, we investigate the geometric connections of different minima through the
lens of mode connectivity, which measures whether two minima can be connected
with a low-loss path. We conduct empirical analyses to investigate three
questions: (1) how could hyperparameters, specific tuning methods, and training
data affect PLM's mode connectivity? (2) How does mode connectivity change
during pre-training? (3) How does the PLM's task knowledge change along the
path connecting two minima? In general, exploring the mode connectivity of PLMs
conduces to understanding the geometric connection of different minima, which
may help us fathom the inner workings of PLM downstream adaptation.
- Abstract(参考訳): 近年,NLP におけるプレトレーニング言語モデル (PLM) の適用が注目されている。
パラメータ空間の観点からは、PLMは汎用的な初期化を提供し、そこから高性能なミニマを見つけることができる。
PLMを高性能なミニマに効果的かつ効率的に適応する方法について多くの研究がなされているが、異なる適応構成下で到達した様々なミニマの接続についてはほとんど分かっていない。
本稿では,2つのミニマが低損失経路に接続可能かどうかを測定するモード接続レンズを用いて,異なるミニマの幾何学的接続について検討する。
我々は,(1)ハイパーパラメータ,特定のチューニング方法,およびトレーニングデータがplmのモード接続にどのように影響するか,という3つの質問を実験的に検討する。
2)プレトレーニング中にモード接続はどのように変化するか?
(3) PLMのタスク知識は2つのミニマを結ぶ経路に沿ってどのように変化するか?
一般に、PLMのモード接続の探索は、異なるミニマの幾何学的接続を理解することにつながる。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
PaLoRAは、タスク固有の低ランクアダプタでオリジナルのモデルを拡張する、新しいパラメータ効率の手法である。
実験の結果,PaLoRAは様々なデータセットでMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning [9.38259062204602]
大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
論文 参考訳(メタデータ) (2024-02-29T05:27:45Z) - Learning to Learn with Indispensable Connections [6.040904021861969]
本稿では,メタ-LTHと呼ばれるメタ-LTHと呼ばれるメタ-ラーニング手法を提案する。
本手法は,オムニグロットデータセットの分類精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:53:13Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Contrastive and Non-Contrastive Self-Supervised Learning Recover Global
and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。
本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-23T17:59:32Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。
MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。
我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2021-02-08T14:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。