論文の概要: MAREO: Memory- and Attention- based visual REasOning
- arxiv url: http://arxiv.org/abs/2206.04928v2
- Date: Mon, 13 Jun 2022 17:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 11:48:33.673982
- Title: MAREO: Memory- and Attention- based visual REasOning
- Title(参考訳): MAREO: メモリと注意に基づく視覚的リズオン
- Authors: Mohit Vaishnav, Thomas Serre
- Abstract要約: 本稿では,視覚的推論に関する認知科学文献から着想を得た,視覚的推論のための新しいアーキテクチャを提案する。
MAREOは、タスク関連視覚情報の経路と維持のために、注意移りのシーケンスを通じて視覚的推論タスクを解決することを学ぶ。
視覚ルーチンは、シーン内のオブジェクト間のさまざまな関係を判断するためにトレーニングされた専用の推論モジュールによってデプロイされる。
- 参考スコア(独自算出の注目度): 7.919213739992465
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans continue to vastly outperform modern AI systems in their ability to
parse and understand complex visual scenes flexibly. Attention and memory are
two systems known to play a critical role in our ability to selectively
maintain and manipulate behaviorally-relevant visual information to solve some
of the most challenging visual reasoning tasks. Here, we present a novel
architecture for visual reasoning inspired by the cognitive-science literature
on visual reasoning, the Memory- and Attention-based (visual) REasOning (MAREO)
architecture. MAREO instantiates an active-vision theory, which posits that the
brain solves complex visual reasoning problems compositionally by learning to
combine previously-learned elementary visual operations to form more complex
visual routines. MAREO learns to solve visual reasoning tasks via sequences of
attention shifts to route and maintain task-relevant visual information into a
memory bank via a multi-head transformer module. Visual routines are then
deployed by a dedicated reasoning module trained to judge various relations
between objects in the scenes. Experiments on four types of reasoning tasks
demonstrate MAREO's ability to learn visual routines in a robust and
sample-efficient manner.
- Abstract(参考訳): 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムを大きく上回っている。
注意と記憶は、行動に関連した視覚情報を選択的に保守し、操作し、最も困難な視覚的推論タスクを解決する能力において重要な役割を果たすことが知られている2つのシステムである。
本稿では,視覚推論に関する認知科学文献,記憶と注意に基づく(視覚)推論(mareo)アーキテクチャに触発された視覚推論のための新しいアーキテクチャを提案する。
MAREOは、脳が複雑な視覚的推論問題を合成的に解決し、より複雑な視覚ルーチンを形成するための基本的な視覚操作を組み合わせることを学習することで、アクティブビジョン理論をインスタンス化する。
MAREOは、アテンションシフトのシーケンスを通じて視覚的推論タスクの解決を学び、マルチヘッドトランスフォーマーモジュールを介してタスク関連視覚情報をメモリバンクに保持する。
視覚ルーチンは、シーン内のオブジェクト間のさまざまな関係を判断する専用の推論モジュールによってデプロイされる。
4種類の推論タスクの実験は、堅牢でサンプル効率のよい視覚ルーチンを学習するMAREOの能力を示している。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning [0.7999703756441756]
視覚関係を理解する人間の能力は、AIシステムよりもはるかに優れている。
Glimpse-based Active Perception (GAP) システムを開発した。
その結果,GAPは即時的な視覚内容を超えた視覚関係の抽出に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T11:48:11Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - PhD Thesis: Exploring the role of (self-)attention in cognitive and
computer vision architecture [0.0]
トランスフォーマーをベースとした自己アテンションをモデルとして分析し,メモリで拡張する。
本稿では,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:40:12Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。