論文の概要: Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond
- arxiv url: http://arxiv.org/abs/2401.00897v2
- Date: Tue, 9 Jan 2024 16:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:57:51.733697
- Title: Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond
- Title(参考訳): 視覚とそれを超える自己教師型表現学習のためのマスケッドモデリング
- Authors: Siyuan Li, Luyuan Zhang, Zedong Wang, Di Wu, Lirong Wu, Zicheng Liu,
Jun Xia, Cheng Tan, Yang Liu, Baigui Sun, Stan Z. Li
- Abstract要約: 仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
- 参考スコア(独自算出の注目度): 69.64364187449773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the deep learning revolution marches on, self-supervised learning has
garnered increasing attention in recent years thanks to its remarkable
representation learning ability and the low dependence on labeled data. Among
these varied self-supervised techniques, masked modeling has emerged as a
distinctive approach that involves predicting parts of the original data that
are proportionally masked during training. This paradigm enables deep models to
learn robust representations and has demonstrated exceptional performance in
the context of computer vision, natural language processing, and other
modalities. In this survey, we present a comprehensive review of the masked
modeling framework and its methodology. We elaborate on the details of
techniques within masked modeling, including diverse masking strategies,
recovering targets, network architectures, and more. Then, we systematically
investigate its wide-ranging applications across domains. Furthermore, we also
explore the commonalities and differences between masked modeling methods in
different fields. Toward the end of this paper, we conclude by discussing the
limitations of current techniques and point out several potential avenues for
advancing masked modeling research. A paper list project with this survey is
available at \url{https://github.com/Lupin1998/Awesome-MIM}.
- Abstract(参考訳): ディープラーニング革命が進むにつれ、自己教師あり学習は目覚ましい表現学習能力とラベル付きデータへの依存度によって近年注目を集めている。
これらの様々な自己監督手法の中で、トレーニング中に比例的にマスキングされる元のデータの一部を予測する固有のアプローチとしてマスク付きモデリングが登場している。
このパラダイムは、ディープモデルによる堅牢な表現の学習を可能にし、コンピュータビジョン、自然言語処理、その他のモダリティの文脈で例外的なパフォーマンスを示した。
本稿では,マスキングモデリングフレームワークとその方法論の包括的レビューを行う。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
そこで本研究では,ドメイン間の広範適用を体系的に検討する。
さらに,異なる分野におけるマスクモデリング手法の共通性と相違についても検討する。
本稿では,本稿の終わりに向けて,現在の手法の限界を議論し,マスキングモデリング研究の進展に向けたいくつかの道筋を指摘する。
この調査によるペーパーリストプロジェクトは、 \url{https://github.com/lupin1998/awesome-mim} で見ることができる。
関連論文リスト
- Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Overview of Class Activation Maps for Visualization Explainability [0.0]
クラスアクティベーションマップ(CAM)は、ディープラーニングモデルの意思決定プロセスにおける解釈可能性と洞察を高める。
本研究は,クラスアクティベーションマップの時間的進化の包括的概要を示す。
また、CAMの評価に使用されるメトリクスについても検討し、これらの手法の健全性を改善する補助的手法を導入している。
論文 参考訳(メタデータ) (2023-09-25T17:20:51Z) - Self-supervised Multi-view Clustering in Computer Vision: A Survey [14.432997752719473]
マルチビュークラスタリング(MVC)は、クロスモーダルな表現学習とデータ駆動型意思決定に重大な影響を与えている。
本稿では、自己監督型MVCの出現の理由と利点について考察する。
論文 参考訳(メタデータ) (2023-09-18T04:11:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Internal Representations of Vision Models Through the Lens of Frames on
Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。
私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。
ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文 参考訳(メタデータ) (2022-11-19T01:48:19Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。