論文の概要: Super-model ecosystem: A domain-adaptation perspective
- arxiv url: http://arxiv.org/abs/2208.14092v1
- Date: Tue, 30 Aug 2022 09:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:27:02.379391
- Title: Super-model ecosystem: A domain-adaptation perspective
- Title(参考訳): 超モデルエコシステム:ドメイン適応の観点から
- Authors: Fengxiang He, Dacheng Tao
- Abstract要約: 本稿では,ドメイン適応による新たなスーパーモデルパラダイムの理論的基礎を確立することを試みる。
スーパーモデルパラダイムは、計算とデータコストと二酸化炭素排出量を減らすのに役立つ。
- 参考スコア(独自算出の注目度): 101.76769818069072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper attempts to establish the theoretical foundation for the emerging
super-model paradigm via domain adaptation, where one first trains a very
large-scale model, {\it i.e.}, super model (or foundation model in some other
papers), on a large amount of data and then adapts it to various specific
domains. Super-model paradigms help reduce computational and data cost and
carbon emission, which is critical to AI industry, especially enormous small
and medium-sized enterprises. We model the super-model paradigm as a two-stage
diffusion process: (1) in the pre-training stage, the model parameter diffuses
from random initials and converges to a steady distribution; and (2) in the
fine-tuning stage, the model parameter is transported to another steady
distribution. Both training stages can be mathematically modeled by the
Uhlenbeck-Ornstein process which converges to two Maxwell-Boltzmann
distributions, respectively, each of which characterizes the corresponding
convergent model. An $\mathcal O(1/\sqrt{N})$ generalization bound is then
established via PAC-Bayesian framework. The theory finds that the
generalization error of the fine-tuning stage is dominant in domain adaptation.
In addition, our theory suggests that the generalization is determined by a new
measure that characterizes the domain discrepancy between the source domain and
target domain, based on the covariance matrices and the shift of the converged
local minimum.
- Abstract(参考訳): 本稿では、ドメイン適応による新しいスーパーモデルパラダイムの理論的基礎を確立することを試みる。そこでは、まず、大量のデータに基づいて超モデル(またはいくつかの論文の基盤モデル)を訓練し、それを様々な特定のドメインに適応させる。
超モデルパラダイムは、計算コストとデータコストと二酸化炭素排出量を減らすのに役立つ。
超モデルパラダイムを2段階の拡散過程としてモデル化する:(1)事前学習段階において、モデルパラメータはランダムイニシャルから拡散して定常分布に収束し、(2)微調整段階では、モデルパラメータを別の定常分布に輸送する。
両方の訓練段階はそれぞれ2つのマクスウェル・ボルツマン分布に収束するuhlenbeck-ornstein過程によって数学的にモデル化される。
次に、$\mathcal O(1/\sqrt{N})$ 一般化境界は、PAC-ベイジアンフレームワークによって確立される。
この理論は、微調整段階の一般化誤差が領域適応において支配的であることを見出している。
さらに,本理論は,共分散行列と収束局所最小値のシフトに基づいて,ソース領域と対象領域の領域差を特徴付ける新しい尺度によって一般化が決定されることを示唆している。
関連論文リスト
- Flow matching achieves almost minimax optimal convergence [50.38891696297888]
フローマッチング (FM) は, シミュレーションのない生成モデルとして注目されている。
本稿では,大試料径のFMの収束特性を$p$-Wasserstein 距離で論じる。
我々は、FMが1leq p leq 2$でほぼ最小の収束率を達成できることを確立し、FMが拡散モデルに匹敵する収束率に達するという最初の理論的証拠を示す。
論文 参考訳(メタデータ) (2024-05-31T14:54:51Z) - Transfer Learning for Diffusion Models [43.10840361752551]
拡散モデルは高品質な合成サンプルを一貫して生成する。
コレクションコストや関連するリスクのため、現実のアプリケーションでは実用的ではありません。
本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。
論文 参考訳(メタデータ) (2024-05-27T06:48:58Z) - Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models [6.76974373198208]
周囲の次元が$d$である場合、各デノイングステップ内で発生する誤差の依存性は、一般的には避けられない。
これはDDPMサンプリング器がターゲット分布の未知の低次元構造に適応できるという最初の理論実証である。
論文 参考訳(メタデータ) (2024-05-23T17:59:10Z) - Reflected Schr\"odinger Bridge for Constrained Generative Modeling [16.72888494254555]
反射拡散モデルは、現実の応用における大規模生成モデルのゴートメソッドとなっている。
本稿では,様々な領域内でデータを生成するために最適化されたエントロピー規則化された最適輸送手法であるReflectioned Schrodinger Bridgeアルゴリズムを紹介する。
提案アルゴリズムは,多様な領域におけるロバストな生成モデリングを実現し,そのスケーラビリティは,標準画像ベンチマークによる実世界の制約付き生成モデリングにおいて実証される。
論文 参考訳(メタデータ) (2024-01-06T14:39:58Z) - Domain Generalisation via Domain Adaptation: An Adversarial Fourier
Amplitude Approach [13.642506915023871]
最悪の対象ドメインを逆向きに合成し、その最悪の対象ドメインにモデルを適用する。
DomainBedNetデータセットでは、提案手法により、ドメインの一般化性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-23T14:19:07Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Bayesian Neural Network Inference via Implicit Models and the Posterior
Predictive Distribution [0.8122270502556371]
本稿では,ベイズニューラルネットワークのような複雑なモデルにおいて,近似ベイズ推論を行うための新しい手法を提案する。
このアプローチはMarkov Chain Monte Carloよりも大規模データに対してスケーラブルである。
これは、サロゲートや物理モデルのような応用に有用であると考えています。
論文 参考訳(メタデータ) (2022-09-06T02:43:19Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Few-shot Domain Adaptation by Causal Mechanism Transfer [107.08605582020866]
我々は,少数のラベル付き対象ドメインデータと多数のラベル付きソースドメインデータしか利用できないレグレッション問題に対して,数ショットの教師付きドメイン適応(DA)について検討する。
現在のDA法の多くは、パラメータ化された分布シフトまたは明らかな分布類似性に基づく転送仮定に基づいている。
本稿では,データ生成機構がドメイン間で不変であるメタ分散シナリオであるメカニズム転送を提案する。
論文 参考訳(メタデータ) (2020-02-10T02:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。