Fugu-MT 論文翻訳(概要): Masked Image Modeling with Local Multi-Scale Reconstruction

論文の概要: Masked Image Modeling with Local Multi-Scale Reconstruction

arxiv url: http://arxiv.org/abs/2303.05251v1
Date: Thu, 9 Mar 2023 13:42:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 14:51:50.653354
Title: Masked Image Modeling with Local Multi-Scale Reconstruction
Title（参考訳）: 局所的マルチスケール再構成によるマスク画像モデリング
Authors: Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai Han
Abstract要約: Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
参考スコア（独自算出の注目度）: 54.91442074100597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked Image Modeling (MIM) achieves outstanding success in self-supervised representation learning. Unfortunately, MIM models typically have huge computational burden and slow learning process, which is an inevitable obstacle for their industrial applications. Although the lower layers play the key role in MIM, existing MIM models conduct reconstruction task only at the top layer of encoder. The lower layers are not explicitly guided and the interaction among their patches is only used for calculating new activations. Considering the reconstruction task requires non-trivial inter-patch interactions to reason target signals, we apply it to multiple local layers including lower and upper layers. Further, since the multiple layers expect to learn the information of different scales, we design local multi-scale reconstruction, where the lower and upper layers reconstruct fine-scale and coarse-scale supervision signals respectively. This design not only accelerates the representation learning process by explicitly guiding multiple layers, but also facilitates multi-scale semantical understanding to the input. Extensive experiments show that with significantly less pre-training burden, our model achieves comparable or better performance on classification, detection and segmentation tasks than existing MIM models.
Abstract（参考訳）: Masked Image Modeling (MIM) は自己教師付き表現学習において大きな成功を収めている。残念なことに、MIMモデルは一般に膨大な計算負荷と遅い学習プロセスを持ち、産業的応用には避けられない障害である。下位層はMIMにおいて重要な役割を果たすが、既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。下層層は明示的に誘導されず、パッチ間の相互作用は新しいアクティベーションを計算するためにのみ使用される。目的信号の推論には非自明なパッチ間相互作用を必要とするため,下層と上層を含む複数のローカル層に適用する。さらに,複数の層が異なるスケールの情報を学習することを期待するので,下位層と上位層がそれぞれ細かなスケールと粗大な監督信号を再構成する局所的多スケール再構成をデザインする。この設計は、複数のレイヤを明示的に案内することで表現学習プロセスを加速するだけでなく、入力に対するマルチスケールなセマンティクス理解を促進する。大規模な実験により,既存のMIMモデルに比べて,事前学習の負担が著しく少ないため,分類,検出,セグメンテーションタスクの性能が向上することが示された。

関連論文リスト

Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2025-04-10T17:57:28Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
Chip-Tuning: Classify Before Language Models Say [25.546473157624945]
チップチューニングは、分類問題に対するシンプルで効果的な構造化プルーニングフレームワークである。チップチューニングは,従来の最先端のベースラインを精度とプルーニング比の両方で大幅に上回っていることを示す。また、チップチューニングはマルチモーダルモデルに適用でき、モデル微調整と組み合わせることで、優れた互換性が証明できる。
論文参考訳（メタデータ） (2024-10-09T04:35:22Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。 Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-12T17:53:34Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文参考訳（メタデータ） (2024-02-15T16:46:16Z)
Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。マルチリニア演算子のみに依存するMONetを提案する。
論文参考訳（メタデータ） (2024-01-31T16:52:19Z)
Contextual Gradient Scaling for Few-Shot Learning [24.19934081878197]
モデルに依存しないメタラーニング(MAML)のための文脈勾配スケーリング(CxGrad)を提案する。 CxGradは、インナーループにおけるタスク固有の知識の学習を容易にするために、バックボーンの勾配ノルムをスケールする。実験の結果,CxGradは内ループにおけるタスク固有の知識の学習を効果的に促すことが示された。
論文参考訳（メタデータ） (2021-10-20T03:05:58Z)
Multi-Model Least Squares-Based Recomputation Framework for Large Data Analysis [0.0]
ImageNetデータセットの処理などの複雑なタスクでは、直接エンコードできる手がかりが頻繁にあります。これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。
論文参考訳（メタデータ） (2021-01-04T23:01:30Z)
Multi-layer Residual Sparsifying Transform (MARS) Model for Low-dose CT Image Reconstruction [12.37556184089774]
教師なしの方法で学習した新しい多層モデルに基づく画像再構成手法を開発した。提案フレームワークは、画像の古典的スカラー化変換モデルを、Multi-lAyer Residual Sparsifying transform (MARS)モデルに拡張する。限られた正規線量画像から教師なしの方法で層間変換を学習する効率的なブロック座標降下アルゴリズムを導出する。
論文参考訳（メタデータ） (2020-10-10T09:04:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。