論文の概要: Recursive Block-Diagonal Coupling for Resource-Efficient Training of Vision Models
- arxiv url: http://arxiv.org/abs/2605.23656v1
- Date: Fri, 22 May 2026 14:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.383565
- Title: Recursive Block-Diagonal Coupling for Resource-Efficient Training of Vision Models
- Title(参考訳): 資源効率の良いビジョンモデルの学習のための再帰的ブロック対角結合
- Authors: Maxim Henry, Adrien Deliège, Sébastien Piérard, Marc Van Droogenbroeck,
- Abstract要約: 高容量ビジョンモデルをゼロからトレーニングするには、かなりの計算資源が必要である。
本稿では,パラメータフリーブロック対角方向の結合により広範モデルを構築する,効率的なトレーニングプロトコルRBDCを提案する。
我々のプロトコルは、標準プロトコルでスクラッチからトレーニングされたモデルよりもはるかに優れた効率を示し、同様のテスト精度で30%のFLOPを削減します。
- 参考スコア(独自算出の注目度): 16.54656665398701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training high-capacity vision models from scratch requires substantial computational resources. To improve training efficiency of a wide target model, existing growth methods often assume the availability of narrower models, obscuring the true computational cost of the entire pipeline. We propose an efficient training protocol, RBDC, that builds wide models by coupling in a parameter-free block-diagonal way narrower, independently trained models in a recursive way. This allows a flexible allocation of the training budget available across all the models involved. Evaluated with vision transformers (DeiT) and convolutional networks (ResNet) on ImageNet, our RBDC training protocol shows a much better efficiency than models trained from scratch with the standard protocol, yielding 30% FLOPs reduction at similar test accuracies. It also achieves higher performances at same training FLOPs than training protocols from the model growth literature. Finally, we show that our models can serve as better backbones than their original counterparts for downstream object detection and instance segmentation tasks.
- Abstract(参考訳): 高容量ビジョンモデルをゼロからトレーニングするには、かなりの計算資源が必要である。
より広い対象モデルのトレーニング効率を向上させるため、既存の成長手法では、より狭いモデルの可用性を仮定し、パイプライン全体の真の計算コストを無視することが多い。
本稿では,パラメータフリーなブロック対角方向を狭め,独立に訓練されたモデルを再帰的に結合することで,より効率的なトレーニングプロトコルRBDCを提案する。
これにより、関連するすべてのモデルで利用可能なトレーニング予算のフレキシブルなアロケーションが可能になる。
ImageNet上でのビジョントランスフォーマー(DeiT)と畳み込みネットワーク(ResNet)を用いて評価した結果、RBDCトレーニングプロトコルは、標準プロトコルでスクラッチからトレーニングしたモデルよりもはるかに優れた効率を示し、同様のテスト精度でFLOPを30%削減します。
また、モデル成長文献からのトレーニングプロトコルよりもFLOPを同時にトレーニングすることで高いパフォーマンスを実現している。
最後に、私たちのモデルは、下流オブジェクトの検出やインスタンスのセグメンテーションタスクにおいて、元のモデルよりも優れたバックボーンとして機能することを示します。
関連論文リスト
- Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Optimizing Large Model Training through Overlapped Activation Recomputation [24.28543166026873]
我々は、トレーニングパイプラインにおける通信と重複する再計算によってオーバーヘッドを削減する新しい再計算フレームワークであるLynxを紹介する。
1.3B-23Bパラメータを持つGPTモデルによる包括的評価の結果,Lynxは既存の再計算手法よりも1.37倍高い性能を示した。
論文 参考訳(メタデータ) (2024-06-13T02:31:36Z) - Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models [53.25790521873174]
後方互換性トレーニング(BT)は、新しいモデルが古いモデルの埋め込みと整合することを保証するために提案されている。
本稿では、視覚のみのBTの概念を、クロスモーダル検索の分野に拡張する。
本稿では,新しいモデルの埋め込みを古いモデルにマッピングするプロジェクションモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-23T15:46:35Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - A Framework for Monitoring and Retraining Language Models in Real-World
Applications [3.566775910781198]
多くの現実世界のアプリケーションでは、継続的モデル監視とモデル再トレーニングが必要になります。
データやコンセプトドリフトなどの再トレーニングにはさまざまな理由があり、適切なメトリックによって監視されるモデルのパフォーマンスに反映される可能性がある。
マルチラベル分類モデルを用いて, モデル性能や資源利用などの重要な要因に対する各種リトレーニング決定点の影響について検討する。
論文 参考訳(メタデータ) (2023-11-16T14:32:18Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。