Fugu-MT 論文翻訳(概要): GAMR: A Guided Attention Model for (visual) Reasoning

論文の概要: GAMR: A Guided Attention Model for (visual) Reasoning

arxiv url: http://arxiv.org/abs/2206.04928v5
Date: Tue, 21 Mar 2023 15:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 04:07:29.605851
Title: GAMR: A Guided Attention Model for (visual) Reasoning
Title（参考訳）: GAMR:(視覚)推論のためのガイド付き注意モデル
Authors: Mohit Vaishnav, Thomas Serre
Abstract要約: 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。 GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
参考スコア（独自算出の注目度）: 7.919213739992465
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Humans continue to outperform modern AI systems in their ability to flexibly parse and understand complex visual scenes. Here, we present a novel module for visual reasoning, the Guided Attention Model for (visual) Reasoning (GAMR), which instantiates an active vision theory -- positing that the brain solves complex visual reasoning problems dynamically -- via sequences of attention shifts to select and route task-relevant visual information into memory. Experiments on an array of visual reasoning tasks and datasets demonstrate GAMR's ability to learn visual routines in a robust and sample-efficient manner. In addition, GAMR is shown to be capable of zero-shot generalization on completely novel reasoning tasks. Overall, our work provides computational support for cognitive theories that postulate the need for a critical interplay between attention and memory to dynamically maintain and manipulate task-relevant visual information to solve complex visual reasoning tasks.
Abstract（参考訳）: 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。本稿では,脳が複雑な視覚推論問題を動的に解くことを仮定し,タスクに関係のある視覚情報を選択し,メモリにルーティングする,視覚推論のための誘導的注意モデルである視覚推論のための新しいモジュールを提案する。一連の視覚推論タスクとデータセットの実験では、GAMRが堅牢でサンプル効率のよい方法で視覚ルーチンを学習できることが示されている。さらに、GAMRは完全に新しい推論タスクにおいてゼロショットの一般化が可能であることが示されている。全体として、我々の研究は、複雑な視覚的推論タスクを解決するためにタスク関連視覚情報を動的に維持・操作するために、注意と記憶の間に重要な相互作用の必要性を仮定する認知理論の計算支援を提供する。

関連論文リスト

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。視覚言語モデル(VLM)の規則に基づく強化学習に適応する提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2025-06-27T17:59:27Z)
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。 PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文参考訳（メタデータ） (2025-05-18T07:33:31Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Mind the GAP: Glimpse-based Active Perception improves generalization and sample efficiency of visual reasoning [0.7999703756441756]
視覚関係を理解する人間の能力は、AIシステムよりもはるかに優れている。 Glimpse-based Active Perception (GAP) システムを開発した。その結果,GAPは即時的な視覚内容を超えた視覚関係の抽出に不可欠であることが示唆された。
論文参考訳（メタデータ） (2024-09-30T11:48:11Z)
InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文参考訳（メタデータ） (2024-05-31T13:56:55Z)
PhD Thesis: Exploring the role of (self-)attention in cognitive and computer vision architecture [0.0]
トランスフォーマーをベースとした自己アテンションをモデルとして分析し,メモリで拡張する。本稿では,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
論文参考訳（メタデータ） (2023-06-26T12:40:12Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文参考訳（メタデータ） (2022-10-27T22:20:36Z)
Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。我々は注意機構研究の今後の方向性を提案する。
論文参考訳（メタデータ） (2021-11-15T09:18:40Z)
Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文参考訳（メタデータ） (2021-08-08T10:46:53Z)
Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文参考訳（メタデータ） (2021-07-07T12:09:04Z)
Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。 2つのニューラルネットワークの性能を比較する。
論文参考訳（メタデータ） (2021-06-08T21:01:47Z)
Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文参考訳（メタデータ） (2020-06-10T00:21:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。