論文の概要: Towards flexible perception with visual memory
- arxiv url: http://arxiv.org/abs/2408.08172v1
- Date: Thu, 15 Aug 2024 14:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:46:24.746837
- Title: Towards flexible perception with visual memory
- Title(参考訳): 視覚記憶によるフレキシブルな知覚に向けて
- Authors: Robert Geirhos, Priyank Jaini, Austin Stone, Sourabh Medapati, Xi Yi, George Toderici, Abhijit Ogale, Jonathon Shlens,
- Abstract要約: ニューラルネットワークのトレーニングはモノリシックな取り組みであり、知識を石に彫ることに似ている。
我々は、ディープニューラルネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで魅力的な代替手段を探究する。
私たちは、以下の重要な機能を持つシンプルで柔軟なビジュアルメモリを構築します。
- 参考スコア(独自算出の注目度): 22.597909620182683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a neural network is a monolithic endeavor, akin to carving knowledge into stone: once the process is completed, editing the knowledge in a network is nearly impossible, since all information is distributed across the network's weights. We here explore a simple, compelling alternative by marrying the representational power of deep neural networks with the flexibility of a database. Decomposing the task of image classification into image similarity (from a pre-trained embedding) and search (via fast nearest neighbor retrieval from a knowledge database), we build a simple and flexible visual memory that has the following key capabilities: (1.) The ability to flexibly add data across scales: from individual samples all the way to entire classes and billion-scale data; (2.) The ability to remove data through unlearning and memory pruning; (3.) An interpretable decision-mechanism on which we can intervene to control its behavior. Taken together, these capabilities comprehensively demonstrate the benefits of an explicit visual memory. We hope that it might contribute to a conversation on how knowledge should be represented in deep vision models -- beyond carving it in ``stone'' weights.
- Abstract(参考訳): ニューラルネットワークのトレーニングはモノリシックな取り組みであり、知識を石に彫ることに似ている。プロセスが完了すると、すべての情報がネットワークの重みに分散されるため、ネットワーク内の知識を編集することはほぼ不可能である。
ここでは、ディープニューラルネットワークの表現力とデータベースの柔軟性を組み合わせることで、シンプルで魅力的な代替手段を探る。
画像分類のタスクを(学習済みの埋め込みから)イメージ類似性に分解し、(知識データベースから近くの高速検索を通じて)検索し、(1.) 個々のサンプルからクラス全体、および数十億のスケールのデータまで、柔軟にデータを付加する機能、(2.) 学習やメモリプルーニングを通じてデータを除去する機能、(3.) その動作を制御するための解釈可能な決定機構を構築する。
まとめると、これらの機能は明示的なビジュアルメモリの利点を包括的に示す。
深いビジョンモデルで知識をどのように表現すべきかという議論に、それが貢献することを期待しています。
関連論文リスト
- Brain Decodes Deep Nets [9.302098067235507]
我々は、脳にマッピングすることで、大きな訓練済み視覚モデルの可視化と解析を行うツールを開発した。
私たちのイノベーションは、画像に反応して脳のfMRI測定を予測する脳エンコーディングの驚くべき利用から生まれます。
論文 参考訳(メタデータ) (2023-12-03T04:36:04Z) - Conceptual Cognitive Maps Formation with Neural Successor Networks and
Word Embeddings [7.909848251752742]
本稿では,3つの概念の認知マップを構築するために,後継表現とニューラルネットワークと単語埋め込みを用いたモデルを提案する。
ネットワークは、2つの異なるスケールマップを順応的に学習し、関連する既存の表現に近接して新しい情報を配置する。
我々のモデルは、任意の入力にマルチモーダルコンテキスト情報を提供することで、現在のAIモデルを改善する可能性を示唆している。
論文 参考訳(メタデータ) (2023-07-04T09:11:01Z) - On information captured by neural networks: connections with
memorization and generalization [4.082286997378594]
トレーニング中にニューラルネットワークが取得した情報について検討する。
非空の一般化ギャップ境界を導出することで、例情報性と一般化を関連付ける。
全体として、我々の研究結果はニューラルネットワークの一般化のメカニズムのより深い理解に寄与している。
論文 参考訳(メタデータ) (2023-06-28T04:46:59Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - Associative Memories via Predictive Coding [37.59398215921529]
脳内の連想記憶は感覚ニューロンによって登録された活動パターンを受信し、記憶する。
本稿では,知覚ニューロンを介して外部刺激を受ける階層的生成ネットワークに基づいて,連想記憶を実現する新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2021-09-16T15:46:26Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。