Fugu-MT 論文翻訳(概要): BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling

論文の概要: BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling

arxiv url: http://arxiv.org/abs/2311.17218v1
Date: Tue, 28 Nov 2023 20:42:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 23:30:34.687690
Title: BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling
Title（参考訳）: BIM:マスク画像モデリングによるブロックワイズ自己指導型学習
Authors: Yixuan Luo, Mengye Ren, Sai Qian Zhang
Abstract要約: Masked Image Modeling (MIM)は、画像パッチから貴重な洞察を抽出し、基盤となるディープニューラルネットワーク(DNN)の機能抽出能力を高めることを目的としている。
参考スコア（独自算出の注目度）: 18.861945284506028
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Like masked language modeling (MLM) in natural language processing, masked image modeling (MIM) aims to extract valuable insights from image patches to enhance the feature extraction capabilities of the underlying deep neural network (DNN). Contrasted with other training paradigms like supervised learning and unsupervised contrastive learning, masked image modeling (MIM) pretraining typically demands significant computational resources in order to manage large training data batches (e.g., 4096). The significant memory and computation requirements pose a considerable challenge to its broad adoption. To mitigate this, we introduce a novel learning framework, termed~\textit{Block-Wise Masked Image Modeling} (BIM). This framework involves decomposing the MIM tasks into several sub-tasks with independent computation patterns, resulting in block-wise back-propagation operations instead of the traditional end-to-end approach. Our proposed BIM maintains superior performance compared to conventional MIM while greatly reducing peak memory consumption. Moreover, BIM naturally enables the concurrent training of numerous DNN backbones of varying depths. This leads to the creation of multiple trained DNN backbones, each tailored to different hardware platforms with distinct computing capabilities. This approach significantly reduces computational costs in comparison with training each DNN backbone individually. Our framework offers a promising solution for resource constrained training of MIM.
Abstract（参考訳）: 自然言語処理におけるマスク付き言語モデリング(MLM)と同様に、マスク付き画像モデリング(MIM)は、画像パッチから貴重な洞察を抽出し、基盤となるディープニューラルネットワーク(DNN)の機能抽出機能を強化することを目的としている。教師付き学習や教師なしコントラスト学習といった他のトレーニングパラダイムとは対照的に、マスク付き画像モデリング(mim)の事前トレーニングは、大規模なトレーニングデータバッチ(例えば4096)を管理するために、重要な計算リソースを必要とする。重要なメモリと計算要件は、その広範にわたる採用にとって大きな課題となる。そこで,本稿では,BIM(Block-Wise Masked Image Modeling)と呼ばれる新しい学習フレームワークを導入する。このフレームワークは、MIMタスクを独立した計算パターンを持ついくつかのサブタスクに分解することで、従来のエンドツーエンドアプローチの代わりにブロック単位でのバックプロパゲーション操作を行う。提案するbimは,従来のmimよりも優れた性能を維持しつつ,ピークメモリ消費を大幅に削減する。さらに、BIMは様々な深さの多数のDNNバックボーンの同時トレーニングを可能にする。これにより、複数のトレーニングされたDNNバックボーンが作成され、それぞれが異なるコンピューティング機能を備えた異なるハードウェアプラットフォームに適合する。このアプローチは,各DNNバックボーンを個別にトレーニングした場合と比較して,計算コストを大幅に削減する。当社のフレームワークは、mimのリソース制約付きトレーニングに有望なソリューションを提供します。

関連論文リスト

MINR: Implicit Neural Representations with Masked Image Modelling [5.330266804358638]
Masked Autoencoders (MAE) は、ロバストな特徴表現の学習において大きな可能性を秘めている。暗黙的ニューラル表現をマスク画像モデリングと相乗化するマスク付き暗黙的ニューラル表現(MINR)フレームワークを導入する。 MINRは画像を表す連続関数を学習し、マスキング戦略によらず、より堅牢で一般化可能な再構築を可能にする。
論文参考訳（メタデータ） (2025-07-30T06:12:57Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction [17.44991827937427]
マスク付き画像モデリング技術はコンピュータビジョンの景観を再定義した。その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。 SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。
論文参考訳（メタデータ） (2024-09-04T08:24:53Z)
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文参考訳（メタデータ） (2024-03-14T17:51:32Z)
Deep learning enhanced mixed integer optimization: Learning to reduce model dimensionality [0.0]
この研究は、Mixed-Integer Programmingに固有の計算複雑性に対処するフレームワークを導入する。ディープラーニングを利用することで、MIPインスタンス間の共通構造を特定し、活用する問題固有モデルを構築する。本稿では,モデルの堅牢性と一般化性を高める合成データを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-17T19:15:13Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Meta Fine-Tuning Neural Language Models for Multi-Domain Text Mining [37.2106265998237]
メタファインチューニング(MFT)と呼ばれる効果的な学習手法を提案する。 MFTは、ニューラルネットワークモデルのための同様のNLPタスクのグループを解決するためのメタラーナーとして機能する。 BERT 上で MFT を実装し,複数のマルチドメインテキストマイニングタスクを解決する。
論文参考訳（メタデータ） (2020-03-29T11:27:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。