論文の概要: BIMM: Brain Inspired Masked Modeling for Video Representation Learning
- arxiv url: http://arxiv.org/abs/2405.12757v1
- Date: Tue, 21 May 2024 13:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:19:55.412110
- Title: BIMM: Brain Inspired Masked Modeling for Video Representation Learning
- Title(参考訳): BIMM:映像表現学習のための脳誘発マスケプドモデリング
- Authors: Zhifan Wan, Jie Zhang, Changzhen Li, Shiguang Shan,
- Abstract要約: 本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。
具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。
脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
- 参考スコア(独自算出の注目度): 47.56270575865621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual pathway of human brain includes two sub-pathways, ie, the ventral pathway and the dorsal pathway, which focus on object identification and dynamic information modeling, respectively. Both pathways comprise multi-layer structures, with each layer responsible for processing different aspects of visual information. Inspired by visual information processing mechanism of the human brain, we propose the Brain Inspired Masked Modeling (BIMM) framework, aiming to learn comprehensive representations from videos. Specifically, our approach consists of ventral and dorsal branches, which learn image and video representations, respectively. Both branches employ the Vision Transformer (ViT) as their backbone and are trained using masked modeling method. To achieve the goals of different visual cortices in the brain, we segment the encoder of each branch into three intermediate blocks and reconstruct progressive prediction targets with light weight decoders. Furthermore, drawing inspiration from the information-sharing mechanism in the visual pathways, we propose a partial parameter sharing strategy between the branches during training. Extensive experiments demonstrate that BIMM achieves superior performance compared to the state-of-the-art methods.
- Abstract(参考訳): ヒト脳の視覚経路は、それぞれ物体の識別と動的情報モデリングに焦点を当てた2つのサブパス、すなわち腹側経路と背側経路を含む。
どちらの経路も多層構造で構成されており、各層は視覚情報の異なる側面を処理する。
人間の脳の視覚情報処理機構に着想を得て,ビデオから包括的表現を学習するBrain Inspired Masked Modeling(BIMM)フレームワークを提案する。
具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。
両ブランチともViT(Vision Transformer)をバックボーンとして採用しており、マスク付きモデリング手法を用いてトレーニングされている。
脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
さらに,視覚経路における情報共有機構からインスピレーションを得て,学習中の枝間の部分的パラメータ共有戦略を提案する。
BIMMは最先端の手法に比べて優れた性能を示す。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - DREAM: Visual Decoding from Reversing Human Visual System [43.6339793925953]
脳活動から視像を再構成するためのfMRI-to-image法であるDREAMを提案する。
私たちは、人間が視覚世界をどのように知覚するかという階層的および並列的な性質を模倣する逆経路を構築します。
論文 参考訳(メタデータ) (2023-10-03T17:59:58Z) - Biologically-Motivated Learning Model for Instructed Visual Processing [3.105144691395886]
生物学的にもっともらしい学習の現在のモデルは、ボトムアップ(BU)とトップダウン(TD)処理の皮質的な組み合わせを用いることが多い。
視覚野では、TD経路が視覚的注意の第二の主要な役割を担い、視覚過程を興味のある場所やタスクに導く。
本稿では,TDストリームの2つの主要な機能を自然に統合する,BUとTD処理の皮質的な組み合わせを用いたモデルを提案する。
論文 参考訳(メタデータ) (2023-06-04T17:38:06Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Where to Look and How to Describe: Fashion Image Retrieval with an
Attentional Heterogeneous Bilinear Network [50.19558726384559]
画像に基づくファッション商品検索のための生物学的にインスパイアされたフレームワークを提案する。
提案フレームワークは,3つの画像に基づくファッション製品検索ベンチマークにおいて,満足な性能を実現する。
論文 参考訳(メタデータ) (2020-10-26T06:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。