論文の概要: Vision Hopfield Memory Networks
- arxiv url: http://arxiv.org/abs/2603.25157v1
- Date: Thu, 26 Mar 2026 08:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.180035
- Title: Vision Hopfield Memory Networks
- Title(参考訳): Vision Hopfield Memory Networks
- Authors: Jianfeng Wang, Amine M'Charrak, Luk Koska, Xiangtao Wang, Daniel Petriceanu, Mykyta Smyrnov, Ruizhi Wang, Michael Bumbar, Luca Pinchetti, Thomas Lukasiewicz,
- Abstract要約: Vision Hopfield Memory Network (V-HMN) は、階層型メモリ機構と反復的リフレッシュメント更新を統合した、脳にインスパイアされたファンデーションバックボーンである。
V-HMNは、ローカルとグローバルの両方のダイナミクスを統一されたフレームワークでキャプチャする。
メモリ検索は入力とストアドパターンの関係を公開し、決定をより解釈可能にします。
- 参考スコア(独自算出の注目度): 43.727500835033986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision and multimodal foundation backbones, such as Transformer families and state-space models like Mamba, have achieved remarkable progress, enabling unified modeling across images, text, and beyond. Despite their empirical success, these architectures remain far from the computational principles of the human brain, often demanding enormous amounts of training data while offering limited interpretability. In this work, we propose the Vision Hopfield Memory Network (V-HMN), a brain-inspired foundation backbone that integrates hierarchical memory mechanisms with iterative refinement updates. Specifically, V-HMN incorporates local Hopfield modules that provide associative memory dynamics at the image patch level, global Hopfield modules that function as episodic memory for contextual modulation, and a predictive-coding-inspired refinement rule for iterative error correction. By organizing these memory-based modules hierarchically, V-HMN captures both local and global dynamics in a unified framework. Memory retrieval exposes the relationship between inputs and stored patterns, making decisions more interpretable, while the reuse of stored patterns improves data efficiency. This brain-inspired design therefore enhances interpretability and data efficiency beyond existing self-attention- or state-space-based approaches. We conducted extensive experiments on public computer vision benchmarks, and V-HMN achieved competitive results against widely adopted backbone architectures, while offering better interpretability, higher data efficiency, and stronger biological plausibility. These findings highlight the potential of V-HMN to serve as a next-generation vision foundation model, while also providing a generalizable blueprint for multimodal backbones in domains such as text and audio, thereby bridging brain-inspired computation with large-scale machine learning.
- Abstract(参考訳): トランスフォーマーファミリーやMambaのようなステートスペースモデルのような最近のビジョンとマルチモーダル基盤のバックボーンは、画像やテキストなどにわたって統一されたモデリングを可能にするなど、目覚ましい進歩を遂げている。
実証的な成功にもかかわらず、これらのアーキテクチャは人間の脳の計算原理とはかけ離れたままであり、しばしば膨大な量のトレーニングデータを必要としながら、限定的な解釈可能性を提供している。
本研究では、階層型メモリ機構と反復的リフレッシュメント更新を統合した脳にインスパイアされたファンデーションバックボーンであるVision Hopfield Memory Network (V-HMN)を提案する。
具体的には、画像パッチレベルで連想メモリのダイナミクスを提供するローカルホップフィールドモジュール、文脈変調のためのエピソードメモリとして機能するグローバルホップフィールドモジュール、反復誤り訂正のための予測符号化インスパイアされた洗練されたルールを組み込んでいる。
これらのメモリベースのモジュールを階層的に構成することにより、V-HMNは、ローカルとグローバルの両方のダイナミクスを統一されたフレームワークでキャプチャする。
メモリ検索は入力とストアドパターンの関係を公開し、決定をより解釈可能とし、ストアドパターンの再利用によりデータの効率が向上する。
この脳にインスパイアされたデザインは、既存の自己意識や状態空間に基づくアプローチを超えて、解釈可能性とデータの効率を高める。
V-HMNは広く採用されているバックボーンアーキテクチャに対して高い解釈性、高いデータ効率、より強力な生物学的信頼性を提供しながら、幅広い実験を行った。
これらの知見は、V-HMNが次世代のビジョン基盤モデルとして機能する可能性を強調し、テキストやオーディオなどの領域におけるマルチモーダルバックボーンのための一般化可能なブループリントを提供し、大規模な機械学習で脳にインスパイアされた計算をブリッジする。
関連論文リスト
- MoVE: Mixture of Value Embeddings -- A New Axis for Scaling Parametric Memory in Autoregressive Models [0.9222161299777548]
我々は,モデルキャパシティの剛性構造結合を計算コストに分解するメカニズムである$textbfMoVE (Mixture of Value Embeddings)$を紹介した。
MoVEは、すべての注目層間で共有される学習可能な値埋め込みのグローバルバンクを導入することで、メモリを計算から切り離す。
自動回帰モデリングの2つの代表的応用であるテキスト生成と画像生成に関する厳密に制御された実験を通してMoVEを検証する。
論文 参考訳(メタデータ) (2026-01-30T12:07:23Z) - A Neural Network Model of Complementary Learning Systems: Pattern Separation and Completion for Continual Learning [2.9123921488295768]
事前知識を忘れずに新しい情報を学ぶことは、人間の知性の中心である。
対照的に、ニューラルネットワークモデルは、新しい情報を取得する際に破滅的な忘れに苦しむ。
我々は、最先端の精度(90%)に近づいた、神経学的にもっともらしい連続学習モデルを開発する。
本研究は, 生体および人工システムにおいて, メモリ統合, 一般化, 継続学習をモデル化するための機能テンプレートを提供する。
論文 参考訳(メタデータ) (2025-07-15T15:05:26Z) - Latent Structured Hopfield Network for Semantic Association and Retrieval [52.634915010996835]
エピソード記憶は、オブジェクト、場所、時間などの意味的要素をコヒーレントなイベント表現に関連付けることによって、過去の経験を思い出すことができる。
本稿では,連続ホップフィールドアトラクタダイナミクスを自動エンコーダアーキテクチャに統合するフレームワークであるLatent Structured Hopfield Network (LSHN)を提案する。
従来のホップフィールドネットワークとは異なり、我々のモデルは勾配勾配でエンドツーエンドに訓練され、スケーラブルで堅牢なメモリ検索を実現する。
論文 参考訳(メタデータ) (2025-06-02T04:24:36Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Input-Driven Dynamics for Robust Memory Retrieval in Hopfield Networks [3.961279440272764]
ホップフィールドモデルは、人間の脳における記憶の保存と検索のメカニズムを理解するために、数学的に理想化されたが洞察に富んだフレームワークを提供する。
本稿では,外部入力がニューラルシナプスに直接影響を与え,ホップフィールドモデルのエネルギー景観を形作る新しいシステムフレームワークを提案する。
この塑性に基づく機構は、メモリ検索プロセスの明確なエネルギー的解釈を提供し、高度に混合された入力を正しく分類するのに有効である。
論文 参考訳(メタデータ) (2024-11-06T17:24:25Z) - Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations [5.272882258282611]
本稿では、符号化された表現をMHNに統合し、パターン分離性を改善し、メタ安定状態を低減するフレームワークであるHopfield HENを紹介する。
HENは、画像と自然言語クエリのヘテロ結合の文脈での検索にも利用でき、したがって、同じドメイン内の部分的コンテンツへのアクセスの制限を取り除くことができる。
論文 参考訳(メタデータ) (2024-09-24T19:17:15Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。