論文の概要: BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2311.17218v1
- Date: Tue, 28 Nov 2023 20:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:30:34.687690
- Title: BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling
- Title(参考訳): BIM:マスク画像モデリングによるブロックワイズ自己指導型学習
- Authors: Yixuan Luo, Mengye Ren, Sai Qian Zhang
- Abstract要約: Masked Image Modeling (MIM)は、画像パッチから貴重な洞察を抽出し、基盤となるディープニューラルネットワーク(DNN)の機能抽出能力を高めることを目的としている。
- 参考スコア(独自算出の注目度): 18.861945284506028
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Like masked language modeling (MLM) in natural language processing, masked
image modeling (MIM) aims to extract valuable insights from image patches to
enhance the feature extraction capabilities of the underlying deep neural
network (DNN). Contrasted with other training paradigms like supervised
learning and unsupervised contrastive learning, masked image modeling (MIM)
pretraining typically demands significant computational resources in order to
manage large training data batches (e.g., 4096). The significant memory and
computation requirements pose a considerable challenge to its broad adoption.
To mitigate this, we introduce a novel learning framework,
termed~\textit{Block-Wise Masked Image Modeling} (BIM). This framework involves
decomposing the MIM tasks into several sub-tasks with independent computation
patterns, resulting in block-wise back-propagation operations instead of the
traditional end-to-end approach. Our proposed BIM maintains superior
performance compared to conventional MIM while greatly reducing peak memory
consumption. Moreover, BIM naturally enables the concurrent training of
numerous DNN backbones of varying depths. This leads to the creation of
multiple trained DNN backbones, each tailored to different hardware platforms
with distinct computing capabilities. This approach significantly reduces
computational costs in comparison with training each DNN backbone individually.
Our framework offers a promising solution for resource constrained training of
MIM.
- Abstract(参考訳): 自然言語処理におけるマスク付き言語モデリング(MLM)と同様に、マスク付き画像モデリング(MIM)は、画像パッチから貴重な洞察を抽出し、基盤となるディープニューラルネットワーク(DNN)の機能抽出機能を強化することを目的としている。
教師付き学習や教師なしコントラスト学習といった他のトレーニングパラダイムとは対照的に、マスク付き画像モデリング(mim)の事前トレーニングは、大規模なトレーニングデータバッチ(例えば4096)を管理するために、重要な計算リソースを必要とする。
重要なメモリと計算要件は、その広範にわたる採用にとって大きな課題となる。
そこで,本稿では,BIM(Block-Wise Masked Image Modeling)と呼ばれる新しい学習フレームワークを導入する。
このフレームワークは、MIMタスクを独立した計算パターンを持ついくつかのサブタスクに分解することで、従来のエンドツーエンドアプローチの代わりにブロック単位でのバックプロパゲーション操作を行う。
提案するbimは,従来のmimよりも優れた性能を維持しつつ,ピークメモリ消費を大幅に削減する。
さらに、BIMは様々な深さの多数のDNNバックボーンの同時トレーニングを可能にする。
これにより、複数のトレーニングされたDNNバックボーンが作成され、それぞれが異なるコンピューティング機能を備えた異なるハードウェアプラットフォームに適合する。
このアプローチは,各DNNバックボーンを個別にトレーニングした場合と比較して,計算コストを大幅に削減する。
当社のフレームワークは、mimのリソース制約付きトレーニングに有望なソリューションを提供します。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction [17.44991827937427]
マスク付き画像モデリング技術はコンピュータビジョンの景観を再定義した。
その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。
SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。
論文 参考訳(メタデータ) (2024-09-04T08:24:53Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Deep learning enhanced mixed integer optimization: Learning to reduce model dimensionality [0.0]
この研究は、Mixed-Integer Programmingに固有の計算複雑性に対処するフレームワークを導入する。
ディープラーニングを利用することで、MIPインスタンス間の共通構造を特定し、活用する問題固有モデルを構築する。
本稿では,モデルの堅牢性と一般化性を高める合成データを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-17T19:15:13Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Meta Fine-Tuning Neural Language Models for Multi-Domain Text Mining [37.2106265998237]
メタファインチューニング(MFT)と呼ばれる効果的な学習手法を提案する。
MFTは、ニューラルネットワークモデルのための同様のNLPタスクのグループを解決するためのメタラーナーとして機能する。
BERT 上で MFT を実装し,複数のマルチドメインテキストマイニングタスクを解決する。
論文 参考訳(メタデータ) (2020-03-29T11:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。