論文の概要: Top-Down Processing: Top-Down Network Combines Back-Propagation with
Attention
- arxiv url: http://arxiv.org/abs/2306.02415v1
- Date: Sun, 4 Jun 2023 17:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:55:53.633451
- Title: Top-Down Processing: Top-Down Network Combines Back-Propagation with
Attention
- Title(参考訳): トップダウン処理:トップダウンネットワークはバックプロパゲーションと注意を組み合わせる
- Authors: Roy Abel, Shimon Ullman
- Abstract要約: ディープラーニングモデルにおけるトップダウン処理は、学習と注意を向ける2つの主要な役割を担います。
本稿では,標準ボトムアップネットワークを対称トップダウンネットワークと統合可能な,新しい対称ボトムアップトップダウンネットワーク構造を提案する。
提案手法は,標準的なマルチタスク学習ベンチマーク上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 6.47243430672461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early neural network models relied exclusively on bottom-up processing going
from the input signals to higher-level representations. Many recent models also
incorporate top-down networks going in the opposite direction. Top-down
processing in deep learning models plays two primary roles: learning and
directing attention. These two roles are accomplished in current models through
distinct mechanisms. While top-down attention is often implemented by extending
the model's architecture with additional units that propagate information from
high to low levels of the network, learning is typically accomplished by an
external learning algorithm such as back-propagation. In the current work, we
present an integration of the two functions above, which appear unrelated,
using a single unified mechanism. We propose a novel symmetric bottom-up
top-down network structure that can integrate standard bottom-up networks with
a symmetric top-down counterpart, allowing each network to guide and influence
the other. The same top-down network is being used for both learning, via
back-propagating feedback signals, and at the same time also for top-down
attention, by guiding the bottom-up network to perform a selected task. We show
that our method achieves competitive performance on a standard multi-task
learning benchmark. Yet, we rely on standard single-task architectures and
optimizers, without any task-specific parameters. Additionally, our learning
algorithm addresses in a new way some neuroscience issues that arise in
biological modeling of learning in the brain.
- Abstract(参考訳): 初期のニューラルネットワークモデルは、入力信号から高レベル表現へのボトムアップ処理にのみ依存していた。
最近のモデルでは、トップダウンネットワークも反対方向に進んでいる。
ディープラーニングモデルにおけるトップダウン処理は、学習と注意を向ける2つの主要な役割を果たす。
これら2つの役割は、異なるメカニズムを通じて現在のモデルで達成される。
トップダウンの注意は、しばしば、ネットワークの高レベルから低レベルまで情報を伝達する追加ユニットでモデルのアーキテクチャを拡張することで実装されるが、学習は通常、バックプロパゲーションのような外部学習アルゴリズムによって行われる。
現在の研究では、単一統一機構を用いて上記の2つの関数の統合を示すが、これは無関係であるように見える。
本稿では,標準ボトムアップネットワークを対称なトップダウンネットワークと統合し,各ネットワークが相互に誘導し,影響を及ぼせるような,新しい対称ボトムアップトップダウンネットワーク構造を提案する。
同じトップダウンネットワークは、バックプロパゲーションフィードバック信号による学習と、ボトムアップネットワークを誘導して選択したタスクを実行することで、トップダウン注意のための学習の両方に使用されている。
本手法は, 標準マルチタスク学習ベンチマークにおいて, 競合性能が得られることを示す。
しかし、タスク固有のパラメータなしで、標準のシングルタスクアーキテクチャとオプティマイザに依存しています。
さらに、学習アルゴリズムは、脳内の学習の生物学的モデリングで生じる神経科学の問題に新しい方法で対処します。
関連論文リスト
- BIMM: Brain Inspired Masked Modeling for Video Representation Learning [47.56270575865621]
本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。
具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。
脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
論文 参考訳(メタデータ) (2024-05-21T13:09:04Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Modelling Human Visual Motion Processing with Trainable Motion Energy
Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文 参考訳(メタデータ) (2023-05-16T04:16:07Z) - Multi-Mode Online Knowledge Distillation for Self-Supervised Visual
Representation Learning [13.057037169495594]
自己教師付き視覚表現学習を促進するための多モードオンライン知識蒸留法(MOKD)を提案する。
MOKDでは、2つの異なるモデルが自己監督的な方法で協調的に学習する。
さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
論文 参考訳(メタデータ) (2023-04-13T12:55:53Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。
TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2021-06-29T17:56:11Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。