論文の概要: Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond
- arxiv url: http://arxiv.org/abs/2401.00897v2
- Date: Tue, 9 Jan 2024 16:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:57:51.733697
- Title: Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond
- Title(参考訳): 視覚とそれを超える自己教師型表現学習のためのマスケッドモデリング
- Authors: Siyuan Li, Luyuan Zhang, Zedong Wang, Di Wu, Lirong Wu, Zicheng Liu,
Jun Xia, Cheng Tan, Yang Liu, Baigui Sun, Stan Z. Li
- Abstract要約: 仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
- 参考スコア(独自算出の注目度): 69.64364187449773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the deep learning revolution marches on, self-supervised learning has
garnered increasing attention in recent years thanks to its remarkable
representation learning ability and the low dependence on labeled data. Among
these varied self-supervised techniques, masked modeling has emerged as a
distinctive approach that involves predicting parts of the original data that
are proportionally masked during training. This paradigm enables deep models to
learn robust representations and has demonstrated exceptional performance in
the context of computer vision, natural language processing, and other
modalities. In this survey, we present a comprehensive review of the masked
modeling framework and its methodology. We elaborate on the details of
techniques within masked modeling, including diverse masking strategies,
recovering targets, network architectures, and more. Then, we systematically
investigate its wide-ranging applications across domains. Furthermore, we also
explore the commonalities and differences between masked modeling methods in
different fields. Toward the end of this paper, we conclude by discussing the
limitations of current techniques and point out several potential avenues for
advancing masked modeling research. A paper list project with this survey is
available at \url{https://github.com/Lupin1998/Awesome-MIM}.
- Abstract(参考訳): ディープラーニング革命が進むにつれ、自己教師あり学習は目覚ましい表現学習能力とラベル付きデータへの依存度によって近年注目を集めている。
これらの様々な自己監督手法の中で、トレーニング中に比例的にマスキングされる元のデータの一部を予測する固有のアプローチとしてマスク付きモデリングが登場している。
このパラダイムは、ディープモデルによる堅牢な表現の学習を可能にし、コンピュータビジョン、自然言語処理、その他のモダリティの文脈で例外的なパフォーマンスを示した。
本稿では,マスキングモデリングフレームワークとその方法論の包括的レビューを行う。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
そこで本研究では,ドメイン間の広範適用を体系的に検討する。
さらに,異なる分野におけるマスクモデリング手法の共通性と相違についても検討する。
本稿では,本稿の終わりに向けて,現在の手法の限界を議論し,マスキングモデリング研究の進展に向けたいくつかの道筋を指摘する。
この調査によるペーパーリストプロジェクトは、 \url{https://github.com/lupin1998/awesome-mim} で見ることができる。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions [6.2719115566879236]
拡散モデル(DM)は画像データ拡張のための強力なツールとして登場した。
DMは、基礎となるデータ分布を学習することで、現実的で多様な画像を生成する。
この分野における現在の課題と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2024-07-04T18:06:48Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Internal Representations of Vision Models Through the Lens of Frames on
Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。
私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。
ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文 参考訳(メタデータ) (2022-11-19T01:48:19Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。