論文の概要: PhiNet v2: A Mask-Free Brain-Inspired Vision Foundation Model from Video
- arxiv url: http://arxiv.org/abs/2505.11129v1
- Date: Fri, 16 May 2025 11:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.786671
- Title: PhiNet v2: A Mask-Free Brain-Inspired Vision Foundation Model from Video
- Title(参考訳): PhiNet v2: ビデオによるマスクなしのブレインインインスパイアされた視覚基礎モデル
- Authors: Makoto Yamada, Kian Ming A. Chai, Ayoub Rhim, Satoki Ishikawa, Mohammad Sabokrou, Yao-Hung Hubert Tsai,
- Abstract要約: PhiNet v2は、強力な拡張に頼ることなく、時間的視覚入力を処理するトランスフォーマーベースの新しいアーキテクチャである。
我々はPhiNet v2が最先端のビジョン基盤モデルと比較して競争力を発揮することを示した。
この研究は、より生物学的に妥当なコンピュータビジョンシステムに向けた重要な一歩である。
- 参考スコア(独自算出の注目度): 26.632251459749245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised learning (SSL) have revolutionized computer vision through innovative architectures and learning objectives, yet they have not fully leveraged insights from biological visual processing systems. Recently, a brain-inspired SSL model named PhiNet was proposed; it is based on a ResNet backbone and operates on static image inputs with strong augmentation. In this paper, we introduce PhiNet v2, a novel Transformer-based architecture that processes temporal visual input (that is, sequences of images) without relying on strong augmentation. Our model leverages variational inference to learn robust visual representations from continuous input streams, similar to human visual processing. Through extensive experimentation, we demonstrate that PhiNet v2 achieves competitive performance compared to state-of-the-art vision foundation models, while maintaining the ability to learn from sequential input without strong data augmentation. This work represents a significant step toward more biologically plausible computer vision systems that process visual information in a manner more closely aligned with human cognitive processes.
- Abstract(参考訳): 近年の自己教師型学習(SSL)は、革新的なアーキテクチャや学習目的を通じてコンピュータビジョンに革命をもたらしたが、生物学的視覚処理システムからの洞察を十分に活用していない。
最近、PhiNetという頭脳にインスパイアされたSSLモデルが提案され、ResNetのバックボーンをベースにしており、強力な拡張を伴う静的イメージ入力で動作する。
本稿では,時間的視覚入力(つまり画像列)を処理するトランスフォーマーベースの新しいアーキテクチャであるPhiNet v2を紹介する。
我々のモデルは,人間の視覚処理と同様,連続的な入力ストリームから頑健な視覚表現を学習するために変分推論を利用する。
広汎な実験により,PhiNet v2は最先端のビジョン基盤モデルと比較して,強力なデータ拡張を伴わずに逐次入力から学習する能力を維持しながら,競争力を発揮することを示した。
この研究は、人間の認知プロセスとより密に一致した方法で視覚情報を処理する、生物学的にもっとも有効なコンピュータビジョンシステムに向けた重要なステップである。
関連論文リスト
- VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow [57.96482272333649]
機能可視化(FV)は、ニューロンが応答している情報をデコードするための強力なツールである。
本稿では,FVを原型画像の特徴の統計値と関連するネットワークフローの測定値を組み合わせることで,画像を生成することを提案する。
我々のアプローチは、最先端のFVに対して質的かつ定量的に改善される人間の理解可能な可視化をもたらす。
論文 参考訳(メタデータ) (2025-03-28T13:08:18Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文 参考訳(メタデータ) (2024-07-29T17:08:21Z) - Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks [0.0]
Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
論文 参考訳(メタデータ) (2023-10-04T21:09:19Z) - A neuromorphic approach to image processing and machine vision [0.9137554315375922]
画像分割,視覚的注意,物体認識などの視覚的タスクの実装について検討する。
我々は,人工視覚システムを実現するために,メムリスタなどの不揮発性メモリデバイスの利用を強調してきた。
論文 参考訳(メタデータ) (2022-08-07T05:01:57Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。