論文の概要: Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements
- arxiv url: http://arxiv.org/abs/2404.08526v1
- Date: Fri, 12 Apr 2024 15:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:37:30.589789
- Title: Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements
- Title(参考訳): 眼球運動における自己監督学習の枠組みとしてのマスケ画像モデリング
- Authors: Robin Weiler, Matthias Brucklacher, Cyriel M. A. Pennartz, Sander M. Bohté,
- Abstract要約: 本稿では,視覚情報を予測し,提示する自己指導型作業として,眼球運動が重要であることを提案する。
マスキング技術やデータ拡張といったMIMのコアコンポーネントが,カテゴリ固有の表現の形成にどのように影響するかを分析する。
我々はMIMがニューロンを潜伏空間でアンタングルし,その特性が霊長類における視覚的表現を明示的制御なしで構築することが示唆された。
- 参考スコア(独自算出の注目度): 0.624151172311885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To make sense of their surroundings, intelligent systems must transform complex sensory inputs to structured codes that are reduced to task-relevant information such as object category. Biological agents achieve this in a largely autonomous manner, presumably via self-\allowbreak super-\allowbreak vised learning. Whereas previous attempts to model the underlying mechanisms were largely discriminative in nature, there is ample evidence that the brain employs a generative model of the world. Here, we propose that eye movements, in combination with the focused nature of primate vision, constitute a generative, self-supervised task of predicting and revealing visual information. We construct a proof-of-principle model starting from the framework of masked image modeling (MIM), a common approach in deep representation learning. To do so, we analyze how core components of MIM such as masking technique and data augmentation influence the formation of category-specific representations. This allows us not only to better understand the principles behind MIM, but to then reassemble a MIM more in line with the focused nature of biological perception. From a theoretical angle, we find that MIM disentangles neurons in latent space, a property that has been suggested to structure visual representations in primates, without explicit regulation. Together with previous findings of invariance learning, this highlights an interesting connection of MIM to latent regularization approaches for self-supervised learning. The source code is available under https://github.com/RobinWeiler/FocusMIM
- Abstract(参考訳): 環境を理解するためには、知的システムは複雑な感覚入力を、オブジェクトカテゴリのようなタスク関連情報に還元される構造化コードに変換する必要がある。
生物学的エージェントは、おそらくセルフ・アンド・ローブブレイク・スーパー・アンド・ローブブレイク・ヴィジュアルド・ラーニング(英語版)を通じて、ほぼ自律的にこれを達成している。
基礎となるメカニズムをモデル化する以前の試みは、主に自然界で差別的だったが、脳が世界の生成モデルを使用しているという証拠は豊富である。
本稿では,眼球運動と霊長類視覚の焦点を合わせることで,視覚情報を予測し,明らかにする生成的,自己指導的なタスクを構成することを提案する。
我々は,深層表現学習における一般的なアプローチであるマスク画像モデリング(MIM)の枠組みから,プリンシプルモデルを構築する。
そこで我々は,MIMのコアコンポーネントであるマスキング技術やデータ拡張が,カテゴリ固有の表現の形成にどのように影響するかを分析する。
これにより、MIMの背後にある原則をよりよく理解するだけでなく、生物学的知覚の焦点を絞った性質に合わせてMIMを再組み立てすることが可能になります。
理論的な角度から、MIMは、明示的な制御なしに霊長類の視覚的表現を構造化するために提案された性質である潜在空間のニューロンをアンタングルする。
従来の分散学習の成果と合わせて,MIMと潜時正規化アプローチとの興味深い関連性を強調した。
ソースコードはhttps://github.com/RobinWeiler/FocusMIMで入手できる。
関連論文リスト
- Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Multi-task Collaborative Pre-training and Individual-adaptive-tokens
Fine-tuning: A Unified Framework for Brain Representation Learning [3.1453938549636185]
協調的事前学習と個別学習を組み合わせた統合フレームワークを提案する。
提案したMCIATはADHD-200データセット上で最先端の診断性能を実現する。
論文 参考訳(メタデータ) (2023-06-20T08:38:17Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Understanding Masked Image Modeling via Learning Occlusion Invariant
Feature [9.786981202733033]
Masked Image Modelingは、自己教師付き視覚認識において大きな成功をおさめている。
本稿では,MIMの動作に関する新しい視点を提案する。
MIM の定式化を等価なシアム形式に緩和することにより、MIM の手法は統一されたフレームワークで解釈できる。
論文 参考訳(メタデータ) (2022-08-08T14:05:50Z) - Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文 参考訳(メタデータ) (2022-05-27T12:42:02Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Visual Probing: Cognitive Framework for Explaining Self-Supervised Image
Representations [12.485001250777248]
近年,画像表現学習のための自己教師付き手法が,完全教師付き競技者に対して,同等以上の結果を提供するようになった。
そこで本研究では,自己教師型モデルを説明するための新しい視覚探索フレームワークを提案する。
自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。
論文 参考訳(メタデータ) (2021-06-21T12:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。