論文の概要: Supervised Contrastive Learning as Multi-Objective Optimization for
Fine-Tuning Large Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2209.14161v1
- Date: Wed, 28 Sep 2022 15:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:55:59.839794
- Title: Supervised Contrastive Learning as Multi-Objective Optimization for
Fine-Tuning Large Pre-trained Language Models
- Title(参考訳): 教師付きコントラスト学習による大規模事前学習型言語モデルの多目的最適化
- Authors: Youness Moukafih, Mounir Ghogho, Kamel Smaili
- Abstract要約: 教師付きコントラスト学習(SCL)は,ほとんどの分類タスクにおいて優れた性能を発揮することが示されている。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
- 参考スコア(独自算出の注目度): 3.759936323189417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Supervised Contrastive Learning (SCL) has been shown to achieve
excellent performance in most classification tasks. In SCL, a neural network is
trained to optimize two objectives: pull an anchor and positive samples
together in the embedding space, and push the anchor apart from the negatives.
However, these two different objectives may conflict, requiring trade-offs
between them during optimization. In this work, we formulate the SCL problem as
a Multi-Objective Optimization problem for the fine-tuning phase of RoBERTa
language model. Two methods are utilized to solve the optimization problem: (i)
the linear scalarization (LS) method, which minimizes a weighted linear
combination of pertask losses; and (ii) the Exact Pareto Optimal (EPO) method
which finds the intersection of the Pareto front with a given preference
vector. We evaluate our approach on several GLUE benchmark tasks, without using
data augmentations, memory banks, or generating adversarial examples. The
empirical results show that the proposed learning strategy significantly
outperforms a strong competitive contrastive learning baseline
- Abstract(参考訳): 近年,多くの分類タスクにおいて,SCL(Supervised Contrastive Learning)が優れた性能を発揮することが示されている。
sclでは、ニューラルネットワークは、2つの目標を最適化するために訓練される: アンカーと正のサンプルを埋め込み空間でプルし、アンカーを負の値から離す。
しかし、これらの2つの異なる目的は相反する可能性がある。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
最適化問題を解くために2つの方法を用いる。
(i)一タスク当たりの損失の重み付き線形結合を最小化する線形スカラー化(ls)法。
(II) 与えられた選好ベクトルとのパレートフロントの交叉を求めるExact Pareto Optimal (EPO) 法。
我々は,データ拡張やメモリバンク,あるいは逆例を生成することなく,GLUEベンチマークタスクに対するアプローチを評価する。
実験結果から,提案した学習戦略は,競争力のあるコントラスト学習ベースラインを著しく上回ることが示された。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - Decoupled Contrastive Learning [23.25775900388382]
我々は,広く使用されているクロスエントロピー(InfoNCE)損失における顕著な負陽性結合(NPC)効果を同定した。
NPC効果を適切に処理することにより、非結合型コントラスト学習(DCL)目標関数に到達する。
われわれのアプローチは、200時間以内のバッチサイズ256を使用して6.9%のImageNet top-1精度を実現し、ベースラインのSimCLRを5.1%上回った。
論文 参考訳(メタデータ) (2021-10-13T16:38:43Z) - LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric
Learning [17.571160136568455]
埋め込み空間における最適強陰性(LoOp)を求める新しい手法を提案する。
マイニング法とは違って, 最適硬質負を計算するために, 組込みの組込み間の空間全体を考慮した。
論文 参考訳(メタデータ) (2021-08-20T19:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。