論文の概要: DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
- arxiv url: http://arxiv.org/abs/2506.14202v2
- Date: Fri, 03 Oct 2025 08:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.801931
- Title: DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
- Title(参考訳): DiffusionBlocks: 拡散解釈によるブロックワイドニューラルネットワークトレーニング
- Authors: Makoto Shing, Masanori Koyama, Takuya Akiba,
- Abstract要約: DiffusionBlocksは、トランスフォーマーベースのネットワークを独立したトレーニング可能なブロックに変換するための、原則化されたフレームワークである。
本実験は,DiffusionBlocksトレーニングがエンドツーエンドトレーニングの性能に合致することを示すものである。
- 参考スコア(独自算出の注目度): 11.910667302899638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end backpropagation requires storing activations throughout all layers, creating memory bottlenecks that limit model scalability. Existing block-wise training methods offer means to alleviate this problem, but they rely on ad-hoc local objectives and remain largely unexplored beyond classification tasks. We propose $\textit{DiffusionBlocks}$, a principled framework for transforming transformer-based networks into genuinely independent trainable blocks that maintain competitive performance with end-to-end training. Our key insight leverages the fact that residual connections naturally correspond to updates in a dynamical system. With minimal modifications to this system, we can convert the updates to those of a denoising process, where each block can be learned independently by leveraging the score matching objective. This independence enables training with gradients for only one block at a time, thereby reducing memory requirements in proportion to the number of blocks. Our experiments on a range of transformer architectures (vision, diffusion, autoregressive, recurrent-depth, and masked diffusion) demonstrate that DiffusionBlocks training matches the performance of end-to-end training while enabling scalable block-wise training on practical tasks beyond small-scale classification. DiffusionBlocks provides a theoretically grounded approach that successfully scales to modern generative tasks across diverse architectures.
- Abstract(参考訳): エンドツーエンドのバックプロパゲーションでは、すべてのレイヤにアクティベーションを格納する必要があります。
既存のブロックワイドトレーニング手法は、この問題を緩和する手段を提供するが、それらはアドホックなローカルな目的に依存しており、分類タスクを超えて探索されていない。
我々は、変換器ベースのネットワークを真に独立したトレーニング可能なブロックに変換するための原則的なフレームワークである$\textit{DiffusionBlocks}$を提案し、エンドツーエンドのトレーニングと競合する性能を維持する。
我々の重要な洞察は、残余接続が動的システムの更新に自然に対応するという事実を活用している。
このシステムに最小限の変更を加えることで、各ブロックはスコアマッチングの目的を生かして独立に学習することができる。
この独立性により、一度に1ブロックのみの勾配によるトレーニングが可能となり、ブロック数に比例してメモリ要求が減少する。
本稿では,DiffusionBlocksトレーニングがエンドツーエンドトレーニングのパフォーマンスと一致し,小規模分類以上の実用的なタスクにおいて,スケーラブルなブロックワイズトレーニングを実現することを実証した。
DiffusionBlocksは、様々なアーキテクチャでモダンな生成タスクにスケールする、理論的に基礎的なアプローチを提供する。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - An NMF-Based Building Block for Interpretable Neural Networks With
Continual Learning [0.8158530638728501]
既存の学習方法は、解釈可能性と予測性能のバランスをとるのに苦労することが多い。
我々のアプローチは、NMFに基づくビルディングブロックを使用することで、これらの2つの側面のバランスを改善することを目的としています。
論文 参考訳(メタデータ) (2023-11-20T02:00:33Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Learning Discrete Weights and Activations Using the Local
Reparameterization Trick [21.563618480463067]
コンピュータビジョンと機械学習では、ニューラルネットワーク推論の計算とメモリ要求を減らすことが重要な課題である。
ネットワークの重みとアクティベーションをバイナライズすることで、計算の複雑さを大幅に減らすことができる。
これにより、低リソースデバイスにデプロイ可能な、より効率的なニューラルネットワーク推論が可能になる。
論文 参考訳(メタデータ) (2023-07-04T12:27:10Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。
我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文 参考訳(メタデータ) (2022-11-22T00:02:57Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FFNB: Forgetting-Free Neural Blocks for Deep Continual Visual Learning [14.924672048447338]
我々は、新しい忘れのないニューラルブロック(FFNB)に基づく連続学習のための動的ネットワークアーキテクチャを考案する。
FFNB機能を新しいタスクでトレーニングするには、以前のタスクのnull-スペースのパラメータを制約する新しいプロシージャを使用する。
論文 参考訳(メタデータ) (2021-11-22T17:23:34Z) - BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable
and Efficient Speech Enhancement [26.39206098000297]
本稿では,スケーラブルな音声強調ネットワークを学習するためのマスキングネットワーク(BLOOM-Net)のブロックワイズ最適化手法を提案する。
音声強調実験により,提案手法のブロックワイド最適化は,学習したエンド・ツー・エンドモデルと比較して,若干の性能劣化を伴って所望のスケーラビリティを実現することを示した。
論文 参考訳(メタデータ) (2021-11-17T20:11:07Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。