論文の概要: Low-Dimension-to-High-Dimension Generalization And Its Implications for Length Generalization
- arxiv url: http://arxiv.org/abs/2410.08898v1
- Date: Fri, 11 Oct 2024 15:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:16:19.413345
- Title: Low-Dimension-to-High-Dimension Generalization And Its Implications for Length Generalization
- Title(参考訳): 低次元から高次元への一般化とその長さ一般化への応用
- Authors: Yang Chen, Yitao Liang, Zhouchen Lin,
- Abstract要約: LDHDの一般化は、事前知識を利用して適切な帰納バイアスを与えることなく、一般的には達成不可能であることを示す。
LDHD一般化から長さ一般化への洞察を応用して,CoTの潜在空間の変化に対する効果を説明する。
また,データ形式のような内在的なLDHD一般化とニュアンスの両方を扱うために,位置埋め込み設計の原理を提案する。
- 参考スコア(独自算出の注目度): 61.51372812489661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Dimension-to-High-Dimension (LDHD) generalization is a special case of Out-of-Distribution (OOD) generalization, where the training data are restricted to a low-dimensional subspace of the high-dimensional testing space. Assuming that each instance is generated from a latent variable and the dimension of the latent variable reflects the problem scale, the inherent scaling challenge in length generalization can be captured by the LDHD generalization in the latent space. We theoretically demonstrate that LDHD generalization is generally unattainable without exploiting prior knowledge to provide appropriate inductive bias. Specifically, we explore LDHD generalization in Boolean functions. We verify that different architectures trained with (S)GD converge to \emph{min-degree interpolators w.r.t. different independent sets}. LDHD generalization is achievable if and only if the target function coincides with this inductive bias. Applying the insights from LDHD generalization to length generalization, we explain the effectiveness of CoT as changing the structure latent space to enable better LDHD generalization. We also propose a principle for position embedding design to handle both the inherent LDHD generalization and the nuisances such as the data format. Following the principle, we propose a novel position embedding called RPE-Square that remedies the RPE for dealing with the data format nuisance.
- Abstract(参考訳): 低次元から高次元への一般化(LDHD)は、訓練データが高次元テスト空間の低次元部分空間に制限されるOOD(Out-of-Distribution)の特殊な場合である。
各インスタンスが潜時変数から生成され、潜時変数の次元が問題スケールを反映していると仮定すると、潜時空間におけるLDHD一般化によって、長さ一般化における固有のスケーリングチャレンジを捉えることができる。
理論的には、LDHDの一般化は、事前知識を利用して適切な帰納バイアスを与えることなく、一般的には達成不可能であることを実証する。
具体的には,ブール関数のLDHD一般化について検討する。
我々は、(S)GDで訓練された異なるアーキテクチャが、独立集合 w.r.t. 異なる独立集合に収束することを検証する。
LDHD一般化は、対象関数がこの帰納バイアスと一致する場合にのみ達成可能である。
LDHDの一般化から長さの一般化への洞察を応用し、より優れたLDHDの一般化を実現するために、構造潜在空間を変更することによるCoTの有効性を説明する。
また,データ形式のような内在的なLDHD一般化とニュアンスの両方を扱うために,位置埋め込み設計の原理を提案する。
原理に従って,データフォーマットのニュアンスを扱うために,RPEを修復するRPE-Squareという新しい位置埋め込みを提案する。
関連論文リスト
- PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Generalization Error of GAN from the Discriminator's Perspective [9.975163460952045]
我々は,ジェネレータを密度に置き換えた単純化されたGANモデルを考察し,判別器が一般化にどのように貢献するかを分析する。
早めに止まると、ワッサーシュタイン計量によって測定された一般化誤差が次元性の呪いから逃れることが示されるが、長期的には記憶は避けられない。
論文 参考訳(メタデータ) (2021-07-08T06:58:43Z) - Double Descent and Other Interpolation Phenomena in GANs [2.7007335372861974]
生成逆数ネットワーク(GAN)における潜在空間次元の関数としての一般化誤差について検討する。
そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。
解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文 参考訳(メタデータ) (2021-06-07T23:07:57Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。