Fugu-MT 論文翻訳(概要): Linear Connectivity Reveals Generalization Strategies

論文の概要: Linear Connectivity Reveals Generalization Strategies

arxiv url: http://arxiv.org/abs/2205.12411v1
Date: Tue, 24 May 2022 23:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-28 23:39:47.189759
Title: Linear Connectivity Reveals Generalization Strategies
Title（参考訳）: 線形接続が一般化戦略を明らかにする
Authors: Jeevesh Juneja and Rachit Bansal and Kyunghyun Cho and Jo\~ao Sedoc and Naomi Saphra
Abstract要約: 微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
参考スコア（独自算出の注目度）: 54.947772002394736
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: It is widely accepted in the mode connectivity literature that when two neural networks are trained similarly on the same data, they are connected by a path through parameter space over which test set accuracy is maintained. Under some circumstances, including transfer learning from pretrained models, these paths are presumed to be linear. In contrast to existing results, we find that among text classifiers (trained on MNLI, QQP, and CoLA), some pairs of finetuned models have large barriers of increasing loss on the linear paths between them. On each task, we find distinct clusters of models which are linearly connected on the test loss surface, but are disconnected from models outside the cluster -- models that occupy separate basins on the surface. By measuring performance on specially-crafted diagnostic datasets, we find that these clusters correspond to different generalization strategies: one cluster behaves like a bag of words model under domain shift, while another cluster uses syntactic heuristics. Our work demonstrates how the geometry of the loss surface can guide models towards different heuristic functions.
Abstract（参考訳）: モード接続の文献では、2つのニューラルネットワークが同じデータで同じように訓練されると、テストセットの精度が維持されるパラメータ空間を通る経路で接続されることが広く受け入れられている。事前訓練されたモデルからの伝達学習を含むいくつかの状況では、これらの経路は線形であると推定される。既存の結果とは対照的に、テキスト分類器(MNLI、QQP、CoLAで訓練されている)のうち、いくつかの微調整されたモデルは、それらの間の線形パスの損失を増大させる大きな障壁を持つ。各タスクでは、テスト損失面上で線形に接続されているが、クラスタの外のモデルから切り離されている、異なるモデルのクラスタを見つけます。 1つのクラスタはドメインシフトの下で単語モデルの袋のように振る舞う一方、別のクラスタは構文的ヒューリスティックスを使っている。本研究では,損失面の形状がモデルを異なるヒューリスティック関数へと導く方法を示す。

関連論文リスト

Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Connecting Neural Models Latent Geometries with Relative Geodesic Representations [21.71782603770616]
遅延構造を異なる潜在空間間で共有する場合、表現間の相対距離を歪みまで保存できることが示される。異なるニューラルモデルは、ほぼ同じ基礎多様体をパラメータ化し、プルバック計量に基づく表現を導入すると仮定する。本手法は,オートエンコーダと視覚基盤識別モデルを対象として,モデルの縫合と検索のタスクについて検証する。
論文参考訳（メタデータ） (2025-06-02T12:34:55Z)
Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文参考訳（メタデータ） (2024-12-01T19:32:04Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文参考訳（メタデータ） (2024-10-13T13:39:39Z)
Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文参考訳（メタデータ） (2023-07-13T09:39:10Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
The Contextual Lasso: Sparse Linear Models via Deep Neural Networks [5.607237982617641]
本研究では,空間的特徴の関数として空間的パターンと係数が変化するような説明的特徴に疎線形モデルに適合する新しい統計的推定器を開発する。実データと合成データに関する広範な実験は、学習されたモデルは、非常に透明であり、通常のラッソよりもスペーサーであることを示している。
論文参考訳（メタデータ） (2023-02-02T05:00:29Z)
Neural Representations Reveal Distinct Modes of Class Fitting in Residual Convolutional Networks [5.1271832547387115]
ニューラル表現の確率モデルを利用して、残余ネットワークがクラスにどのように適合するかを調べる。調査対象モデルのクラスは均一に適合していないことがわかった。神経表現の未発見構造は, トレーニング例の堅牢性と, 対向記憶の相関性を示す。
論文参考訳（メタデータ） (2022-12-01T18:55:58Z)
Git Re-Basin: Merging Models modulo Permutation Symmetries [3.5450828190071655]
提案手法は,大規模ネットワークに適合する簡単なアルゴリズムを実例で示す。我々は、独立に訓練されたモデル間のゼロモード接続の最初のデモ(私たちの知る限り)を実演する。また、線形モード接続仮説の欠点についても論じる。
論文参考訳（メタデータ） (2022-09-11T10:44:27Z)
Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文参考訳（メタデータ） (2022-03-23T12:52:49Z)
T-LoHo: A Bayesian Regularization Model for Structured Sparsity and Smoothness on Graphs [0.0]
グラフ構造化データでは、構造化されたスパーシリティと滑らかさが団結する傾向にある。グラフィカルな関係を持つ高次元パラメータに先立って提案する。構造された空間と滑らかさを同時に検出するために使用します。
論文参考訳（メタデータ） (2021-07-06T10:10:03Z)
GELATO: Geometrically Enriched Latent Model for Offline Reinforcement Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文参考訳（メタデータ） (2021-02-22T19:42:40Z)
A Bootstrap-based Method for Testing Network Similarity [0.0]
本稿では,一致したネットワーク推論問題について検討する。目的は、共通のノードセットで定義された2つのネットワークが、特定の類似性を示すかどうかを決定することである。類似性の2つの概念は、 (i) 等価性、すなわち、ネットワークが同じランダムグラフモデルから生じるかどうかをテストすること、 (ii) スケーリング、すなわち、それらの確率が未知のスケーリング定数に対して比例するかどうかをテストすることである。
論文参考訳（メタデータ） (2019-11-15T20:50:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。