論文の概要: PhD Thesis: Exploring the role of (self-)attention in cognitive and
computer vision architecture
- arxiv url: http://arxiv.org/abs/2306.14650v1
- Date: Mon, 26 Jun 2023 12:40:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:36:16.382869
- Title: PhD Thesis: Exploring the role of (self-)attention in cognitive and
computer vision architecture
- Title(参考訳): phd論文:認知とコンピュータビジョンのアーキテクチャにおける(自己)アテンションの役割を探求する
- Authors: Mohit Vaishnav
- Abstract要約: トランスフォーマーをベースとした自己アテンションをモデルとして分析し,メモリで拡張する。
本稿では,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the role of attention and memory in complex reasoning tasks.
We analyze Transformer-based self-attention as a model and extend it with
memory. By studying a synthetic visual reasoning test, we refine the taxonomy
of reasoning tasks. Incorporating self-attention with ResNet50, we enhance
feature maps using feature-based and spatial attention, achieving efficient
solving of challenging visual reasoning tasks. Our findings contribute to
understanding the attentional needs of SVRT tasks. Additionally, we propose
GAMR, a cognitive architecture combining attention and memory, inspired by
active vision theory. GAMR outperforms other architectures in sample
efficiency, robustness, and compositionality, and shows zero-shot
generalization on new reasoning tasks.
- Abstract(参考訳): 複雑な推論タスクにおける注意と記憶の役割について検討する。
トランスフォーマーに基づく自己認識をモデルとして分析し,メモリで拡張する。
合成視覚的推論テストの研究により、推論タスクの分類を洗練する。
resnet50にセルフ・アテンションを組み込んだ機能マップを機能ベースおよび空間的注意力を用いて拡張し,視覚的推論課題を効率的に解決する。
本研究は,SVRTタスクの注意的ニーズの理解に寄与する。
さらに,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
GAMRはサンプル効率、堅牢性、構成性において他のアーキテクチャよりも優れており、新しい推論タスクにおいてゼロショットの一般化を示す。
関連論文リスト
- Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - Attention in Reasoning: Dataset, Analysis, and Modeling [31.3104693230952]
本稿では,タスクの成果につながるプロセスを理解し,改善するために注意を向けたAttention with Reasoning(AiR)フレームワークを提案する。
まず,原子推論操作のシーケンスに基づいて評価基準を定義し,注意度を定量的に測定する。
次に、人間の視線追跡と正当性データを収集し、その推論能力に基づいて、様々な機械および人間の注意機構を解析する。
論文 参考訳(メタデータ) (2022-04-20T20:32:31Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。