論文の概要: Biologically-Motivated Learning Model for Instructed Visual Processing
- arxiv url: http://arxiv.org/abs/2306.02415v3
- Date: Sun, 16 Jun 2024 15:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 13:00:14.937501
- Title: Biologically-Motivated Learning Model for Instructed Visual Processing
- Title(参考訳): ビジュアライズされた視覚処理のための生物学的モチベーション学習モデル
- Authors: Roy Abel, Shimon Ullman,
- Abstract要約: 生物学的にもっともらしい学習の現在のモデルは、ボトムアップ(BU)とトップダウン(TD)処理の皮質的な組み合わせを用いることが多い。
視覚野では、TD経路が視覚的注意の第二の主要な役割を担い、視覚過程を興味のある場所やタスクに導く。
本稿では,TDストリームの2つの主要な機能を自然に統合する,BUとTD処理の皮質的な組み合わせを用いたモデルを提案する。
- 参考スコア(独自算出の注目度): 3.105144691395886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As part of understanding how the brain learns, ongoing work seeks to combine biological knowledge and current artificial intelligence (AI) modeling in an attempt to find an efficient biologically plausible learning scheme. Current models of biologically plausible learning often use a cortical-like combination of bottom-up (BU) and top-down (TD) processing, where the TD part carries feedback signals used for learning. However, in the visual cortex, the TD pathway plays a second major role of visual attention, by guiding the visual process to locations and tasks of interest. A biological model should therefore combine the two tasks, and learn to guide the visual process. We introduce a model that uses a cortical-like combination of BU and TD processing that naturally integrates the two major functions of the TD stream. The integrated model is obtained by an appropriate connectivity pattern between the BU and TD streams, a novel processing cycle that uses the TD part twice, and the use of 'Counter-Hebb' learning that operates across the streams. We show that the 'Counter-Hebb' mechanism can provide an exact backpropagation synaptic modification. We further demonstrate the model's ability to guide the visual stream to perform a task of interest, achieving competitive performance compared with AI models on standard multi-task learning benchmarks. The successful combination of learning and visual guidance could provide a new view on combining BU and TD processing in human vision, and suggests possible directions for both biologically plausible models and artificial instructed models, such as vision-language models (VLMs).
- Abstract(参考訳): 脳がどのように学習するかを理解するために、進行中の研究は、生物学的知識と現在の人工知能(AI)モデリングを組み合わせて、効果的な生物学的に妥当な学習方法を見つけることを目指している。
生物学的に妥当な学習の現在のモデルは、しばしばボトムアップ(BU)とトップダウン(TD)処理の皮質的な組み合わせを使用し、TD部は学習に使用されるフィードバック信号を運ぶ。
しかし、視覚野では、TD経路は視覚過程を興味のある場所やタスクに導くことによって、視覚的注意の第二の主要な役割を担っている。
したがって、生物学的モデルは2つのタスクを組み合わせて、視覚的なプロセスを導くことを学ばなければならない。
本稿では,TDストリームの2つの主要な機能を自然に統合する,BUとTD処理の皮質的な組み合わせを用いたモデルを提案する。
統合モデルは、BUストリームとTDストリーム間の適切な接続パターン、TD部分を2回使用する新しい処理サイクル、およびストリームをまたいで動作する'Counter-Hebb'学習を用いて得られる。
我々は,「Counter-Hebb」機構が正確なバックプロパゲーション・シナプスの修飾をもたらすことを示した。
さらに、標準的なマルチタスク学習ベンチマークにおけるAIモデルと比較して、視覚的ストリームを誘導して、関心のあるタスクを実行する能力を示す。
学習と視覚誘導の組み合わせが成功すれば、人間の視覚におけるBUとTDの処理の組み合わせに関する新たな見解が得られ、生物学的にもっとも有効なモデルと視覚言語モデル(VLM)のような人工的なモデルの両方の方向性が示唆される。
関連論文リスト
- BIMM: Brain Inspired Masked Modeling for Video Representation Learning [47.56270575865621]
本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。
具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。
脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
論文 参考訳(メタデータ) (2024-05-21T13:09:04Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Multi-Mode Online Knowledge Distillation for Self-Supervised Visual
Representation Learning [13.057037169495594]
自己教師付き視覚表現学習を促進するための多モードオンライン知識蒸留法(MOKD)を提案する。
MOKDでは、2つの異なるモデルが自己監督的な方法で協調的に学習する。
さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-04-13T12:55:53Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。
TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2021-06-29T17:56:11Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。