Fugu-MT 論文翻訳(概要): Top-Down Network Combines Back-Propagation with Attention

論文の概要: Top-Down Network Combines Back-Propagation with Attention

arxiv url: http://arxiv.org/abs/2306.02415v2
Date: Wed, 30 Aug 2023 14:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 16:52:06.081082
Title: Top-Down Network Combines Back-Propagation with Attention
Title（参考訳）: バックプロパゲーションと注意を組み合わせたトップダウンネットワーク
Authors: Roy Abel, Shimon Ullman
Abstract要約: 視覚やその他の領域における皮質処理は、ボトムアップ(BU)と広範なトップダウン(TD)処理を組み合わせる。本稿では,従来のボトムアップネットワークを対称的なトップダウンネットワークと統合可能な,新しい対称なボトムアップトップダウンネットワーク構造を提案する。提案手法は,標準的なマルチタスク学習ベンチマーク上での競合性能を示す。
参考スコア（独自算出の注目度）: 3.6683171094134805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cortical processing, in vision and other domains, combines bottom-up (BU) with extensive top-down (TD) processing. Two primary goals attributed to TD processing are learning and directing attention. These two roles are accomplished in current network models through distinct mechanisms. Attention guidance is often implemented by extending the model's architecture, while learning is typically accomplished by an external learning algorithm such as back-propagation. In the current work, we present an integration of the two functions above, which appear unrelated, using a single unified mechanism inspired by the human brain. We propose a novel symmetric bottom-up top-down network structure that can integrate conventional bottom-up networks with a symmetric top-down counterpart, allowing each network to recurrently guide and influence the other. For example, during multi-task learning, the same top-down network is being used for both learning, via propagating feedback signals, and at the same time also for top-down attention, by guiding the bottom-up network to perform a selected task. In contrast with standard models, no external back-propagation is used for learning. Instead, we propose a 'Counter-Hebb' learning, which adjusts the weights of both the bottom-up and top-down networks simultaneously. We show that our method achieves competitive performance on standard multi-task learning benchmarks. Yet, unlike existing methods, we rely on single-task architectures and optimizers, without any task-specific parameters. The results, which show how attention-guided multi-tasks can be combined efficiently with internal learning in a unified TD process, suggest a possible model for combining BU and TD processing in human vision.
Abstract（参考訳）: 視覚やその他の領域における皮質処理はボトムアップ(BU)と広範なトップダウン(TD)処理を組み合わせる。 TD処理に起因する2つの主要な目標は、学習と注意の誘導である。これら2つの役割は、異なるメカニズムを通じて現在のネットワークモデルで達成される。注意指導はしばしばモデルのアーキテクチャを拡張して実施されるが、学習は通常、バックプロパゲーションのような外部学習アルゴリズムによって行われる。現在の研究では、人間の脳にインスパイアされた単一の統一メカニズムを用いて、上記の2つの機能の統合を提示する。本稿では,従来のボトムアップネットワークを対称なトップダウンネットワークと統合し,各ネットワークを反復的にガイドし,相互に影響を及ぼすことのできる,新しい対称ボトムアップトップダウンネットワーク構造を提案する。例えば、マルチタスク学習では、同じトップダウンネットワークが、フィードバック信号を伝達すると同時に、ボトムアップネットワークを誘導して選択されたタスクを実行することによって、トップダウンの注意を喚起する。標準モデルとは対照的に、学習に外部バックプロパゲーションは使用されない。代わりに、ボトムアップネットワークとトップダウンネットワークの両方の重みを同時に調整する'Counter-Hebb'学習を提案する。提案手法は,標準的なマルチタスク学習ベンチマーク上での競合性能を示す。しかし、既存のメソッドとは異なり、タスク固有のパラメータなしでシングルタスクアーキテクチャとオプティマイザに依存しています。統合tdプロセスにおいて,注意誘導型マルチタスクと内部学習を効率的に組み合わせることができることを示す結果から,人間の視覚におけるbu処理とtd処理を組み合わせるモデルが示唆された。

関連論文リスト

Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文参考訳（メタデータ） (2025-03-28T07:32:51Z)
BIMM: Brain Inspired Masked Modeling for Video Representation Learning [47.56270575865621]
本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
論文参考訳（メタデータ） (2024-05-21T13:09:04Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。 Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文参考訳（メタデータ） (2023-11-02T14:57:58Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
Modelling Human Visual Motion Processing with Trainable Motion Energy Sensing and a Self-attention Network [1.9458156037869137]
本稿では,生体とコンピュータの視覚モデルとのギャップを埋めることで,人間の動作知覚のイメージ計算可能なモデルを提案する。このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングやスピードチューニングに関する哺乳類の神経記録に類似していることが明らかになっている。
論文参考訳（メタデータ） (2023-05-16T04:16:07Z)
Multi-Mode Online Knowledge Distillation for Self-Supervised Visual Representation Learning [13.057037169495594]
自己教師付き視覚表現学習を促進するための多モードオンライン知識蒸留法(MOKD)を提案する。 MOKDでは、2つの異なるモデルが自己監督的な方法で協調的に学習する。さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
論文参考訳（メタデータ） (2023-04-13T12:55:53Z)
Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-28T18:42:27Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)
Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。 TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文参考訳（メタデータ） (2021-06-29T17:56:11Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。