論文の概要: DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
- arxiv url: http://arxiv.org/abs/2506.14202v2
- Date: Fri, 03 Oct 2025 08:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.801931
- Title: DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation
- Title(参考訳): DiffusionBlocks: 拡散解釈によるブロックワイドニューラルネットワークトレーニング
- Authors: Makoto Shing, Masanori Koyama, Takuya Akiba,
- Abstract要約: DiffusionBlocksは、トランスフォーマーベースのネットワークを独立したトレーニング可能なブロックに変換するための、原則化されたフレームワークである。
本実験は,DiffusionBlocksトレーニングがエンドツーエンドトレーニングの性能に合致することを示すものである。
- 参考スコア(独自算出の注目度): 11.910667302899638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end backpropagation requires storing activations throughout all layers, creating memory bottlenecks that limit model scalability. Existing block-wise training methods offer means to alleviate this problem, but they rely on ad-hoc local objectives and remain largely unexplored beyond classification tasks. We propose $\textit{DiffusionBlocks}$, a principled framework for transforming transformer-based networks into genuinely independent trainable blocks that maintain competitive performance with end-to-end training. Our key insight leverages the fact that residual connections naturally correspond to updates in a dynamical system. With minimal modifications to this system, we can convert the updates to those of a denoising process, where each block can be learned independently by leveraging the score matching objective. This independence enables training with gradients for only one block at a time, thereby reducing memory requirements in proportion to the number of blocks. Our experiments on a range of transformer architectures (vision, diffusion, autoregressive, recurrent-depth, and masked diffusion) demonstrate that DiffusionBlocks training matches the performance of end-to-end training while enabling scalable block-wise training on practical tasks beyond small-scale classification. DiffusionBlocks provides a theoretically grounded approach that successfully scales to modern generative tasks across diverse architectures.
- Abstract(参考訳): エンドツーエンドのバックプロパゲーションでは、すべてのレイヤにアクティベーションを格納する必要があります。
既存のブロックワイドトレーニング手法は、この問題を緩和する手段を提供するが、それらはアドホックなローカルな目的に依存しており、分類タスクを超えて探索されていない。
我々は、変換器ベースのネットワークを真に独立したトレーニング可能なブロックに変換するための原則的なフレームワークである$\textit{DiffusionBlocks}$を提案し、エンドツーエンドのトレーニングと競合する性能を維持する。
我々の重要な洞察は、残余接続が動的システムの更新に自然に対応するという事実を活用している。
このシステムに最小限の変更を加えることで、各ブロックはスコアマッチングの目的を生かして独立に学習することができる。
この独立性により、一度に1ブロックのみの勾配によるトレーニングが可能となり、ブロック数に比例してメモリ要求が減少する。
本稿では,DiffusionBlocksトレーニングがエンドツーエンドトレーニングのパフォーマンスと一致し,小規模分類以上の実用的なタスクにおいて,スケーラブルなブロックワイズトレーニングを実現することを実証した。
DiffusionBlocksは、様々なアーキテクチャでモダンな生成タスクにスケールする、理論的に基礎的なアプローチを提供する。
関連論文リスト
- From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model [53.77953728335891]
ラテント拡散モデルは、独立したエンコーダ、デコーダ、拡散ネットワークからなる複雑な3部アーキテクチャに依存している。
本研究では,潜伏空間を安定化させる学習目標に重要な変更を加えた新たなフレームワークであるDeffusion as Self-Distillation (DSD)を提案する。
このアプローチにより、単一のネットワークの安定したエンドツーエンドトレーニングが初めて実現され、同時にエンコード、デコード、拡散の実行を学ぶことができる。
論文 参考訳(メタデータ) (2025-11-18T17:58:16Z) - Scalable Forward-Forward Algorithm [1.9580473532948401]
本稿では,各レイヤを個別にトレーニングすることで,バックプロパゲーションの必要性を解消する,スケーラブルなフォワードフォワード(FF)アルゴリズムを提案する。
FFをMobileNetV3やResNet18のようなモダンな畳み込みアーキテクチャに拡張し、畳み込みレイヤの損失を計算する新しい方法を導入しました。
論文 参考訳(メタデータ) (2025-01-06T17:49:00Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise
Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。
実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T08:02:33Z) - An NMF-Based Building Block for Interpretable Neural Networks With
Continual Learning [0.8158530638728501]
既存の学習方法は、解釈可能性と予測性能のバランスをとるのに苦労することが多い。
我々のアプローチは、NMFに基づくビルディングブロックを使用することで、これらの2つの側面のバランスを改善することを目的としています。
論文 参考訳(メタデータ) (2023-11-20T02:00:33Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Learning Discrete Weights and Activations Using the Local
Reparameterization Trick [21.563618480463067]
コンピュータビジョンと機械学習では、ニューラルネットワーク推論の計算とメモリ要求を減らすことが重要な課題である。
ネットワークの重みとアクティベーションをバイナライズすることで、計算の複雑さを大幅に減らすことができる。
これにより、低リソースデバイスにデプロイ可能な、より効率的なニューラルネットワーク推論が可能になる。
論文 参考訳(メタデータ) (2023-07-04T12:27:10Z) - Block-local learning with probabilistic latent representations [2.839567756494814]
ロックとウェイトトランスポートは、トレーニングプロセスの効率的な並列化と水平スケーリングを防止するためである。
本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。
各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。
論文 参考訳(メタデータ) (2023-05-24T10:11:30Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。
我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文 参考訳(メタデータ) (2022-11-22T00:02:57Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Block-wise Training of Residual Networks via the Minimizing Movement
Scheme [10.342408668490975]
本研究では,分散空間における勾配流の最小化運動スキームに着想を得たレイヤワイドトレーニング手法を開発した。
この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。
これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
論文 参考訳(メタデータ) (2022-10-03T14:03:56Z) - FFNB: Forgetting-Free Neural Blocks for Deep Continual Visual Learning [14.924672048447338]
我々は、新しい忘れのないニューラルブロック(FFNB)に基づく連続学習のための動的ネットワークアーキテクチャを考案する。
FFNB機能を新しいタスクでトレーニングするには、以前のタスクのnull-スペースのパラメータを制約する新しいプロシージャを使用する。
論文 参考訳(メタデータ) (2021-11-22T17:23:34Z) - BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable
and Efficient Speech Enhancement [26.39206098000297]
本稿では,スケーラブルな音声強調ネットワークを学習するためのマスキングネットワーク(BLOOM-Net)のブロックワイズ最適化手法を提案する。
音声強調実験により,提案手法のブロックワイド最適化は,学習したエンド・ツー・エンドモデルと比較して,若干の性能劣化を伴って所望のスケーラビリティを実現することを示した。
論文 参考訳(メタデータ) (2021-11-17T20:11:07Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Attentive Gaussian processes for probabilistic time-series generation [4.94950858749529]
本稿では,ガウス過程の回帰と組み合わせて実数値列を生成する,計算効率のよいアテンションベースネットワークを提案する。
我々は,GPがフルバッチを用いて訓練されている間,ネットワークのミニバッチトレーニングを可能にするブロックワイズトレーニングアルゴリズムを開発した。
アルゴリズムは収束することが証明され、より良くなくても、見いだされた解の品質に匹敵することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:19:15Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。