Fugu-MT 論文翻訳(概要): Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements

論文の概要: Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements

arxiv url: http://arxiv.org/abs/2404.08526v1
Date: Fri, 12 Apr 2024 15:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 14:37:30.589789
Title: Masked Image Modeling as a Framework for Self-Supervised Learning across Eye Movements
Title（参考訳）: 眼球運動における自己監督学習の枠組みとしてのマスケ画像モデリング
Authors: Robin Weiler, Matthias Brucklacher, Cyriel M. A. Pennartz, Sander M. Bohté,
Abstract要約: 本稿では,視覚情報を予測し,提示する自己指導型作業として,眼球運動が重要であることを提案する。マスキング技術やデータ拡張といったMIMのコアコンポーネントが,カテゴリ固有の表現の形成にどのように影響するかを分析する。我々はMIMがニューロンを潜伏空間でアンタングルし,その特性が霊長類における視覚的表現を明示的制御なしで構築することが示唆された。
参考スコア（独自算出の注目度）: 0.624151172311885
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: To make sense of their surroundings, intelligent systems must transform complex sensory inputs to structured codes that are reduced to task-relevant information such as object category. Biological agents achieve this in a largely autonomous manner, presumably via self-\allowbreak super-\allowbreak vised learning. Whereas previous attempts to model the underlying mechanisms were largely discriminative in nature, there is ample evidence that the brain employs a generative model of the world. Here, we propose that eye movements, in combination with the focused nature of primate vision, constitute a generative, self-supervised task of predicting and revealing visual information. We construct a proof-of-principle model starting from the framework of masked image modeling (MIM), a common approach in deep representation learning. To do so, we analyze how core components of MIM such as masking technique and data augmentation influence the formation of category-specific representations. This allows us not only to better understand the principles behind MIM, but to then reassemble a MIM more in line with the focused nature of biological perception. From a theoretical angle, we find that MIM disentangles neurons in latent space, a property that has been suggested to structure visual representations in primates, without explicit regulation. Together with previous findings of invariance learning, this highlights an interesting connection of MIM to latent regularization approaches for self-supervised learning. The source code is available under https://github.com/RobinWeiler/FocusMIM
Abstract（参考訳）: 環境を理解するためには、知的システムは複雑な感覚入力を、オブジェクトカテゴリのようなタスク関連情報に還元される構造化コードに変換する必要がある。生物学的エージェントは、おそらくセルフ・アンド・ローブブレイク・スーパー・アンド・ローブブレイク・ヴィジュアルド・ラーニング(英語版)を通じて、ほぼ自律的にこれを達成している。基礎となるメカニズムをモデル化する以前の試みは、主に自然界で差別的だったが、脳が世界の生成モデルを使用しているという証拠は豊富である。本稿では,眼球運動と霊長類視覚の焦点を合わせることで,視覚情報を予測し,明らかにする生成的,自己指導的なタスクを構成することを提案する。我々は,深層表現学習における一般的なアプローチであるマスク画像モデリング(MIM)の枠組みから,プリンシプルモデルを構築する。そこで我々は,MIMのコアコンポーネントであるマスキング技術やデータ拡張が,カテゴリ固有の表現の形成にどのように影響するかを分析する。これにより、MIMの背後にある原則をよりよく理解するだけでなく、生物学的知覚の焦点を絞った性質に合わせてMIMを再組み立てすることが可能になります。理論的な角度から、MIMは、明示的な制御なしに霊長類の視覚的表現を構造化するために提案された性質である潜在空間のニューロンをアンタングルする。従来の分散学習の成果と合わせて,MIMと潜時正規化アプローチとの興味深い関連性を強調した。ソースコードはhttps://github.com/RobinWeiler/FocusMIMで入手できる。

関連論文リスト

Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。 MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文参考訳（メタデータ） (2025-03-22T22:13:14Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。我々は近年,分類学を構築し,最も顕著な論文をレビューしている。我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文参考訳（メタデータ） (2024-08-13T07:27:02Z)
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文参考訳（メタデータ） (2023-12-31T12:03:21Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
URLOST: Unsupervised Representation Learning without Stationarity or Topology [26.17135629579595]
定常性やトポロジに欠ける高次元データから学習する新しいフレームワークを提案する。我々のモデルは学習可能な自己組織化層、密度調整されたスペクトルクラスタリング、マスク付きオートエンコーダを組み合わせる。本研究は,生体視覚データ,一次視覚野からの神経記録,遺伝子発現データセットにおいて有効性を評価する。
論文参考訳（メタデータ） (2023-10-06T18:00:02Z)
Multi-task Collaborative Pre-training and Individual-adaptive-tokens Fine-tuning: A Unified Framework for Brain Representation Learning [3.1453938549636185]
協調的事前学習と個別学習を組み合わせた統合フレームワークを提案する。提案したMCIATはADHD-200データセット上で最先端の診断性能を実現する。
論文参考訳（メタデータ） (2023-06-20T08:38:17Z)
Understanding Self-Supervised Pretraining with Part-Aware Representation Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文参考訳（メタデータ） (2023-01-27T18:58:42Z)
Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文参考訳（メタデータ） (2022-10-05T08:08:55Z)
Understanding Masked Image Modeling via Learning Occlusion Invariant Feature [9.786981202733033]
Masked Image Modelingは、自己教師付き視覚認識において大きな成功をおさめている。本稿では,MIMの動作に関する新しい視点を提案する。 MIM の定式化を等価なシアム形式に緩和することにより、MIM の手法は統一されたフレームワークで解釈できる。
論文参考訳（メタデータ） (2022-08-08T14:05:50Z)
Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-03-27T14:23:29Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Brain-inspired self-organization with cellular neuromorphic computing for multimodal unsupervised learning [0.0]
本稿では,自己組織マップとヘビアン様学習を用いた再突入理論に基づく脳刺激型ニューラルシステムを提案する。システムトポロジがユーザによって固定されるのではなく,自己組織化によって学習されるような,いわゆるハードウェアの可塑性の獲得について述べる。
論文参考訳（メタデータ） (2020-04-11T21:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。