論文の概要: The Edge of Orthogonality: A Simple View of What Makes BYOL Tick
- arxiv url: http://arxiv.org/abs/2302.04817v1
- Date: Thu, 9 Feb 2023 18:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:48:55.563283
- Title: The Edge of Orthogonality: A Simple View of What Makes BYOL Tick
- Title(参考訳): 直交性のエッジ: byol tickの作り方をシンプルに見る
- Authors: Pierre H. Richemond, Allison Tam, Yunhao Tang, Florian Strub, Bilal
Piot, Felix Hill
- Abstract要約: BYOLやSimSiamのような自己予測的教師なし学習手法は印象的な結果を示している。
解析を支援するために,新たに4種類のEmphclosed-form predictor変種BYOLを提案する。
- 参考スコア(独自算出の注目度): 33.410143970781824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-predictive unsupervised learning methods such as BYOL or SimSiam have
shown impressive results, and counter-intuitively, do not collapse to trivial
representations. In this work, we aim at exploring the simplest possible
mathematical arguments towards explaining the underlying mechanisms behind
self-predictive unsupervised learning. We start with the observation that those
methods crucially rely on the presence of a predictor network (and
stop-gradient). With simple linear algebra, we show that when using a linear
predictor, the optimal predictor is close to an orthogonal projection, and
propose a general framework based on orthonormalization that enables to
interpret and give intuition on why BYOL works. In addition, this framework
demonstrates the crucial role of the exponential moving average and
stop-gradient operator in BYOL as an efficient orthonormalization mechanism. We
use these insights to propose four new \emph{closed-form predictor} variants of
BYOL to support our analysis. Our closed-form predictors outperform standard
linear trainable predictor BYOL at $100$ and $300$ epochs (top-$1$ linear
accuracy on ImageNet).
- Abstract(参考訳): BYOLやSimSiamのような自己予測的教師なし学習手法は印象的な結果を示しており、反故意に、自明な表現に崩壊しない。
本研究では,自己予測型教師なし学習の根底にあるメカニズムを説明するために,最も単純な数学的議論を提案する。
まず、これらの手法が予測ネットワーク(および停止段階)の存在に依存しているという観測から始める。
単純な線形代数を用いて,線形予測器を用いた場合,最適予測器は直交射影に近いことを証明し,ビオールがなぜ機能するのかを解釈し直観化できる正規化に基づく一般的な枠組みを提案する。
さらに,BYOLにおける指数移動平均と停止勾配演算子を,効率的な正規化機構として重要な役割を担っている。
これらの知見を用いて, byol の4つの新しい変種を提案, 解析支援に用いた。
クローズドフォーム予測器は、標準的な線形トレーニング可能な予測器であるBYOLを100ドル、300ドル(ImageNetで1ドル以上)で上回ります。
関連論文リスト
- Attention layers provably solve single-location regression [12.355792442566681]
Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。
本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:28:02Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Plausible Extractive Rationalization through Semi-Supervised Entailment Signal [29.67884478799914]
抽出された有理量の妥当性を最適化するために,半教師付きアプローチを採用する。
我々は、事前学習された自然言語推論(NLI)モデルを採用し、さらに教師付き論理の小さなセットに微調整する。
質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-13T14:12:32Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Towards Demystifying Representation Learning with Non-contrastive
Self-supervision [82.80118139087676]
自己教師型学習の非競合的手法は、同一画像の2つのビュー間の距離を最小化することにより、表現を学習する。
Tian el al. (2021) は最初の質問に対して最初の試みを行い、予測器を直接設定する DirectPred を提案した。
単純な線形ネットワークにおいて、DirectSet($alpha$)は望ましいプロジェクション行列を確実に学習し、下流タスクにおけるサンプルの複雑さを減少させることを示す。
論文 参考訳(メタデータ) (2021-10-11T00:48:05Z) - Nonlinear Invariant Risk Minimization: A Causal Approach [5.63479133344366]
非線形環境下での分布外一般化を可能にする学習パラダイムを提案する。
我々は、非常に単純な変換までデータ表現の識別性を示す。
合成データと実世界のデータセットの両方に関する広範な実験は、我々のアプローチが様々なベースラインメソッドを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-02-24T15:38:41Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Mostly Harmless Machine Learning: Learning Optimal Instruments in Linear
IV Models [3.7599363231894176]
標準線形機器変数設定に機械学習を組み込むことを正当化する理論的結果を提供する。
楽器から処理変数を予測するために,機械学習とサンプル分割を併用した。
これにより、研究者は治療と器具の間の非線形な共変を抽出することができる。
論文 参考訳(メタデータ) (2020-11-12T01:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。