Fugu-MT 論文翻訳(概要): Phase Transitions for the Information Bottleneck in Representation Learning

論文の概要: Phase Transitions for the Information Bottleneck in Representation Learning

arxiv url: http://arxiv.org/abs/2001.01878v1
Date: Tue, 7 Jan 2020 03:55:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 20:24:44.263736
Title: Phase Transitions for the Information Bottleneck in Representation Learning
Title（参考訳）: 表現学習における情報ボトルネックの位相遷移
Authors: Tailin Wu and Ian Fischer
Abstract要約: Information Bottleneck(IB)では、圧縮と予測項の相対的な強度をチューニングする場合、この2つの用語はどのように振る舞うか、データセットと学習された表現との関係はどのようなものか? IB損失ランドスケープの質的変化としてIB位相遷移の定義を導入し,その遷移が新しいクラス学習の開始に対応することを示す。 IB相転移の実用的な条件を提供する式を導出し、パラメータ化モデルのフィッシャー情報行列と接続する。
参考スコア（独自算出の注目度）: 14.381429281068565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the Information Bottleneck (IB), when tuning the relative strength between compression and prediction terms, how do the two terms behave, and what's their relationship with the dataset and the learned representation? In this paper, we set out to answer these questions by studying multiple phase transitions in the IB objective: $\text{IB}_\beta[p(z|x)] = I(X; Z) - \beta I(Y; Z)$ defined on the encoding distribution p(z|x) for input $X$, target $Y$ and representation $Z$, where sudden jumps of $dI(Y; Z)/d \beta$ and prediction accuracy are observed with increasing $\beta$. We introduce a definition for IB phase transitions as a qualitative change of the IB loss landscape, and show that the transitions correspond to the onset of learning new classes. Using second-order calculus of variations, we derive a formula that provides a practical condition for IB phase transitions, and draw its connection with the Fisher information matrix for parameterized models. We provide two perspectives to understand the formula, revealing that each IB phase transition is finding a component of maximum (nonlinear) correlation between $X$ and $Y$ orthogonal to the learned representation, in close analogy with canonical-correlation analysis (CCA) in linear settings. Based on the theory, we present an algorithm for discovering phase transition points. Finally, we verify that our theory and algorithm accurately predict phase transitions in categorical datasets, predict the onset of learning new classes and class difficulty in MNIST, and predict prominent phase transitions in CIFAR10.
Abstract（参考訳）: Information Bottleneck(IB)では、圧縮と予測項の相対的な強度をチューニングする場合、この2つの用語はどのように振る舞うか、データセットと学習された表現との関係はどのようなものか? 本稿では, ib 目的の複数の相転移について検討することで,これらの質問に答えることにした。 $\text{ib}_\beta[p(z|x)] = i(x; z) - \beta i(y; z)$ 入力 $x$, target $y$ および表現 $z$ に対して符号化分布 p(z|x) 上で定義される$\text{ib}_\beta[p(z|x)] - \beta i(y; z)$ であり,$\beta$ の増加とともに予測精度が観測される。 ib位相遷移の定義をib損失景観の質的変化として導入し,その遷移が新しい授業の学習開始に対応していることを示す。 IB相転移の実用的な条件を提供する式を導出し、パラメータ化モデルのフィッシャー情報行列と接続する。我々は,各IB相転移が,学習表現に直交する最大(非線形)相関成分である$X$と$Y$の成分を線形設定における正準相関解析(CCA)に類似して発見することを明らかにする。この理論に基づいて,位相遷移点を発見するアルゴリズムを提案する。最後に,本理論とアルゴリズムが分類データセットの位相遷移を正確に予測し,新しいクラス学習の開始とmnistのクラス難易度を予測し,cifar10における位相遷移を予測できることを確認した。

関連論文リスト

Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文参考訳（メタデータ） (2024-05-24T00:08:55Z)
Scale-invariant phase transition of disordered bosons in one dimension [0.0]
1次元のボゾン粒子の超流動状態と非超流動状態の間の障害誘起量子相転移は、一般的にベレジンスキー-コステリッツ-Thouless (BKT)型であることが期待されている。ここでは、積分可能なパワーローホッピングを持つハードコア格子ボソンが1/ralpha$で崩壊し、代わりに非BKT連続相転移を行うことを示す。
論文参考訳（メタデータ） (2023-10-26T13:30:12Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文参考訳（メタデータ） (2023-06-15T16:30:08Z)
Towards understanding neural collapse in supervised contrastive learning with the information bottleneck method [26.874007846077884]
ニューラル崩壊(Neural collapse)とは、パフォーマンスプレートを超えてトレーニングされたディープニューラルネットワークの最終層におけるアクティベーションの幾何学である。分類問題の最適IB解に近づくと、神経崩壊は特に良い一般化をもたらすことを実証する。
論文参考訳（メタデータ） (2023-05-19T18:41:17Z)
A sharp phase transition in linear cross-entropy benchmarking [1.4841630983274847]
XEB理論における重要な問題は、量子状態の準備の忠実度を近似するかどうかである。以前の研究では、XEBは、qudit $varepsilon$あたりのノイズレートが$varepsilon N ll 1$を満たす状態において、その忠実さを概ね近似していることを示している。ここでは、XEBの忠実度プロキシとしての分解が、臨界値$varepsilon N$の急激な位相遷移として起こることを示す。
論文参考訳（メタデータ） (2023-05-08T18:00:05Z)
Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文参考訳（メタデータ） (2022-10-27T15:30:52Z)
A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文参考訳（メタデータ） (2020-06-09T02:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。