Fugu-MT 論文翻訳(概要): Exploring Mode Connectivity for Pre-trained Language Models

論文の概要: Exploring Mode Connectivity for Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2210.14102v1
Date: Tue, 25 Oct 2022 15:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-26 13:20:53.257047
Title: Exploring Mode Connectivity for Pre-trained Language Models
Title（参考訳）: 事前学習言語モデルのためのモード接続性探索
Authors: Yujia Qin, Cheng Qian, Jing Yi, Weize Chen, Yankai Lin, Xu Han, Zhiyuan Liu, Maosong Sun and Jie Zhou
Abstract要約: 本研究では,プレトレーニング言語モデル(PLM)を高性能なミニマに効果的に適応させる方法について検討する。本稿では,モード接続のレンズを用いて,異なるミニマの幾何学的接続について検討する。
参考スコア（独自算出の注目度）: 91.33378704580295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed the prevalent application of pre-trained language models (PLMs) in NLP. From the perspective of parameter space, PLMs provide generic initialization, starting from which high-performance minima could be found. Although plenty of works have studied how to effectively and efficiently adapt PLMs to high-performance minima, little is known about the connection of various minima reached under different adaptation configurations. In this paper, we investigate the geometric connections of different minima through the lens of mode connectivity, which measures whether two minima can be connected with a low-loss path. We conduct empirical analyses to investigate three questions: (1) how could hyperparameters, specific tuning methods, and training data affect PLM's mode connectivity? (2) How does mode connectivity change during pre-training? (3) How does the PLM's task knowledge change along the path connecting two minima? In general, exploring the mode connectivity of PLMs conduces to understanding the geometric connection of different minima, which may help us fathom the inner workings of PLM downstream adaptation.
Abstract（参考訳）: 近年,NLP におけるプレトレーニング言語モデル (PLM) の適用が注目されている。パラメータ空間の観点からは、PLMは汎用的な初期化を提供し、そこから高性能なミニマを見つけることができる。 PLMを高性能なミニマに効果的かつ効率的に適応する方法について多くの研究がなされているが、異なる適応構成下で到達した様々なミニマの接続についてはほとんど分かっていない。本稿では,2つのミニマが低損失経路に接続可能かどうかを測定するモード接続レンズを用いて,異なるミニマの幾何学的接続について検討する。我々は,(1)ハイパーパラメータ,特定のチューニング方法,およびトレーニングデータがplmのモード接続にどのように影響するか,という3つの質問を実験的に検討する。 2)プレトレーニング中にモード接続はどのように変化するか? (3) PLMのタスク知識は2つのミニマを結ぶ経路に沿ってどのように変化するか? 一般に、PLMのモード接続の探索は、異なるミニマの幾何学的接続を理解することにつながる。

関連論文リスト

Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文参考訳（メタデータ） (2025-01-23T07:49:24Z)
A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Method-Level Code Smell Detection [11.9757082688031]
既存の検出手法は、コードまたは機械学習(ML)とディープラーニング(DL)技術に依存しており、しばしば不満足なパフォーマンスのような制限に直面している。本研究では,2種類のメソッドレベルのコードの臭いを検出するために,小・大規模言語モデルを用いたPEFT手法の評価を行った。その結果,PEFT法はGPUメモリの消費を減らしながら,フル微調整よりも同等あるいは優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-18T12:48:36Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。 MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文参考訳（メタデータ） (2024-07-23T19:17:47Z)
Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
PaLoRAは、タスク固有の低ランクアダプタでオリジナルのモデルを拡張する、新しいパラメータ効率の手法である。実験の結果,PaLoRAは様々なデータセットでMTLとPFLのベースラインを上回っていることがわかった。
論文参考訳（メタデータ） (2024-07-10T21:25:51Z)
Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient Tuning [9.38259062204602]
大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。 LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
論文参考訳（メタデータ） (2024-02-29T05:27:45Z)
Learning to Learn with Indispensable Connections [6.040904021861969]
本稿では,メタ-LTHと呼ばれるメタ-LTHと呼ばれるメタ-ラーニング手法を提案する。本手法は,オムニグロットデータセットの分類精度を約2%向上させる。
論文参考訳（メタデータ） (2023-04-06T04:53:13Z)
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文参考訳（メタデータ） (2023-04-04T16:31:37Z)
PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。 2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文参考訳（メタデータ） (2022-10-12T04:11:48Z)
Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods [19.587273175563745]
自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力の下で統一的な枠組みを提案する。
論文参考訳（メタデータ） (2022-05-23T17:59:32Z)
Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文参考訳（メタデータ） (2022-04-28T11:43:41Z)
Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。 MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文参考訳（メタデータ） (2021-02-08T14:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。