論文の概要: GAMR: A Guided Attention Model for (visual) Reasoning
- arxiv url: http://arxiv.org/abs/2206.04928v5
- Date: Tue, 21 Mar 2023 15:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:07:29.605851
- Title: GAMR: A Guided Attention Model for (visual) Reasoning
- Title(参考訳): GAMR:(視覚)推論のためのガイド付き注意モデル
- Authors: Mohit Vaishnav, Thomas Serre
- Abstract要約: 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
- 参考スコア(独自算出の注目度): 7.919213739992465
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans continue to outperform modern AI systems in their ability to flexibly
parse and understand complex visual scenes. Here, we present a novel module for
visual reasoning, the Guided Attention Model for (visual) Reasoning (GAMR),
which instantiates an active vision theory -- positing that the brain solves
complex visual reasoning problems dynamically -- via sequences of attention
shifts to select and route task-relevant visual information into memory.
Experiments on an array of visual reasoning tasks and datasets demonstrate
GAMR's ability to learn visual routines in a robust and sample-efficient
manner. In addition, GAMR is shown to be capable of zero-shot generalization on
completely novel reasoning tasks. Overall, our work provides computational
support for cognitive theories that postulate the need for a critical interplay
between attention and memory to dynamically maintain and manipulate
task-relevant visual information to solve complex visual reasoning tasks.
- Abstract(参考訳): 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
本稿では,脳が複雑な視覚推論問題を動的に解くことを仮定し,タスクに関係のある視覚情報を選択し,メモリにルーティングする,視覚推論のための誘導的注意モデルである視覚推論のための新しいモジュールを提案する。
一連の視覚推論タスクとデータセットの実験では、GAMRが堅牢でサンプル効率のよい方法で視覚ルーチンを学習できることが示されている。
さらに、GAMRは完全に新しい推論タスクにおいてゼロショットの一般化が可能であることが示されている。
全体として、我々の研究は、複雑な視覚的推論タスクを解決するためにタスク関連視覚情報を動的に維持・操作するために、注意と記憶の間に重要な相互作用の必要性を仮定する認知理論の計算支援を提供する。
関連論文リスト
- Deep Learning for Visual Neuroprosthesis [22.59701507351177]
視覚経路は、視覚情報の符号化と処理に寄与する細胞と領域の複雑なネットワークを含んでいる。
本章では、視覚知覚の重要性と、視覚情報が脳内でどのようにエンコードされ、どのように表現されるかを理解する上での課題について論じる。
論文 参考訳(メタデータ) (2024-01-08T02:53:22Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z) - PhD Thesis: Exploring the role of (self-)attention in cognitive and
computer vision architecture [0.0]
トランスフォーマーをベースとした自己アテンションをモデルとして分析し,メモリで拡張する。
本稿では,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:40:12Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。