論文の概要: Guided Transfer Learning for Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.10877v1
- Date: Thu, 11 Dec 2025 18:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.505982
- Title: Guided Transfer Learning for Discrete Diffusion Models
- Title(参考訳): 離散拡散モデルのための誘導伝達学習
- Authors: Julian Kleutgens, Claudio Battiloro, Lingkai Kong, Benjamin Grewe, Francesca Dominici, Mauricio Tec,
- Abstract要約: 離散拡散モデル(GTL)のためのガイド伝達学習を提案する。
GTLは、事前訓練されたデノイザを変更することなく、ターゲット分布からのサンプリングを可能にする。
また、プランナー選択された位置と上位候補トークンの評価に集中する効率的なガイド付きサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 21.909689920217982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion models achieve strong performance across language and other discrete domains, providing a powerful alternative to autoregressive models. However, their strong performance relies on large training datasets, which are costly or risky to obtain, especially when adapting to new domains. Transfer learning is the natural way to adapt pretrained discrete diffusion models, but current methods require fine-tuning large diffusion models, which is computationally expensive and often impractical. Building on ratio-based transfer learning for continuous diffusion, we provide Guided Transfer Learning for discrete diffusion models (GTL). This enables sampling from a target distribution without modifying the pretrained denoiser. The same guidance formulation applies to both discrete-time diffusion and continuous-time score-based discrete diffusion, yielding a unified treatment. Guided discrete diffusion often requires many forward passes of the guidance network, which becomes impractical for large vocabularies and long sequences. To address this, we further present an efficient guided sampler that concentrates evaluations on planner-selected positions and top candidate tokens, thus lowering sampling time and computation. This makes guided language modeling practical at scale for large vocabularies and long sequences. We evaluate GTL on sequential data, including synthetic Markov chains and language modeling, and provide empirical analyses of its behavior.
- Abstract(参考訳): 離散拡散モデルは言語やその他の離散領域間で強い性能を達成し、自己回帰モデルの強力な代替手段を提供する。
しかし、その強力なパフォーマンスは大規模なトレーニングデータセットに依存しており、特に新しいドメインに適応する際には、入手するのにコストがかかるかリスクが高い。
伝達学習は、事前訓練された離散拡散モデルに適応する自然な方法であるが、現在の手法では、計算コストが高く、しばしば非現実的な、微調整された大きな拡散モデルを必要とする。
離散拡散モデル(GTL)において、連続拡散のための比に基づく伝達学習を基礎として、誘導伝達学習を提供する。
これにより、事前訓練されたデノイザを変更することなく、ターゲット分布からのサンプリングが可能になる。
同じガイダンスの定式化は離散時間拡散と連続時間スコアベース離散拡散の両方に適用され、統一された処理をもたらす。
ガイド付き離散拡散は、しばしば誘導網の多くの前方通過を必要とし、大きな語彙や長いシーケンスでは実用的ではない。
これを解決するために,プランナー選択された位置と上位候補トークンの評価に集中し,サンプリング時間と計算時間を短縮する効率的なガイド付きサンプリング器を提案する。
これにより、大きな語彙や長いシーケンスに対して、ガイド付き言語モデリングを大規模に実践することができる。
我々は,合成マルコフ連鎖や言語モデリングを含む逐次データに基づくGTLを評価し,その挙動を実証分析した。
関連論文リスト
- Coevolutionary Continuous Discrete Diffusion: Make Your Diffusion Language Model a Latent Reasoner [66.86440230599656]
拡散言語モデルは必ずしも離散空間にある必要はないと主張する。
特に、連続拡散モデルが離散拡散やループ変換器よりも強い表現性を持つことを示す。
本稿では,連続表現空間と離散トークン空間の結合に関する共同多モード拡散過程を定義する共進化連続拡散法(CCDD)を提案する。
論文 参考訳(メタデータ) (2025-10-03T17:44:41Z) - Continuous Diffusion Model for Language Modeling [64.7425225935854]
離散的データに対する既存の連続拡散モデルは離散的手法と比較して性能が劣る。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
本手法は,既存の離散拡散モデルより優れ,自己回帰モデルの性能にアプローチする。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Fast Sampling via Discrete Non-Markov Diffusion Models with Predetermined Transition Time [49.598085130313514]
離散非マルコフ拡散モデル(DNDM)を提案する。
これにより、トレーニング不要なサンプリングアルゴリズムにより、関数評価の数を大幅に削減できる。
有限ステップサンプリングから無限ステップサンプリングへの移行について検討し、離散プロセスと連続プロセスのギャップを埋めるための新たな洞察を提供する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。