論文の概要: Towards A Unified Neural Architecture for Visual Recognition and
Reasoning
- arxiv url: http://arxiv.org/abs/2311.06386v1
- Date: Fri, 10 Nov 2023 20:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:44:34.400693
- Title: Towards A Unified Neural Architecture for Visual Recognition and
Reasoning
- Title(参考訳): 視覚認識と推論のための統合ニューラルアーキテクチャを目指して
- Authors: Calvin Luo, Boqing Gong, Ting Chen, Chen Sun
- Abstract要約: 視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
- 参考スコア(独自算出の注目度): 40.938279131241764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognition and reasoning are two pillars of visual understanding. However,
these tasks have an imbalance in focus; whereas recent advances in neural
networks have shown strong empirical performance in visual recognition, there
has been comparably much less success in solving visual reasoning. Intuitively,
unifying these two tasks under a singular framework is desirable, as they are
mutually dependent and beneficial. Motivated by the recent success of
multi-task transformers for visual recognition and language understanding, we
propose a unified neural architecture for visual recognition and reasoning with
a generic interface (e.g., tokens) for both. Our framework enables the
principled investigation of how different visual recognition tasks, datasets,
and inductive biases can help enable spatiotemporal reasoning capabilities.
Noticeably, we find that object detection, which requires spatial localization
of individual objects, is the most beneficial recognition task for reasoning.
We further demonstrate via probing that implicit object-centric representations
emerge automatically inside our framework. Intriguingly, we discover that
certain architectural choices such as the backbone model of the visual encoder
have a significant impact on visual reasoning, but little on object detection.
Given the results of our experiments, we believe that visual reasoning should
be considered as a first-class citizen alongside visual recognition, as they
are strongly correlated but benefit from potentially different design choices.
- Abstract(参考訳): 認識と推論は視覚理解の2つの柱である。
しかし、これらのタスクは焦点が不均衡であり、近年のニューラルネットワークの進歩は視覚認識において強力な経験的性能を示しているが、視覚推論の解法では比較的にかなり成功していない。
直観的には、これら2つのタスクは互いに依存し、有益であるため、特異な枠組みの下で統一することが望ましい。
近年,視覚認識と言語理解のためのマルチタスクトランスフォーマーの成功に触発されて,汎用インターフェース(トークンなど)による視覚認識と推論のための統一型ニューラルネットワークを提案する。
本フレームワークは,視覚的認識タスクやデータセット,帰納的バイアスが,時空間的推論能力にどのように寄与するかを原則的に検証することを可能にする。
明らかなことに、個々の物体の空間的局在を必要とする物体検出は、推論において最も有益な認識タスクである。
さらに私たちは、暗黙のオブジェクト中心の表現がフレームワーク内で自動的に現れることを調査して示します。
興味深いことに、視覚エンコーダのバックボーンモデルのような特定のアーキテクチャ選択が視覚的推論に大きな影響を与えるが、オブジェクト検出にはほとんど影響を与えない。
実験の結果から、視覚的推論は視覚認知と並んで第一級市民と見なされるべきであり、それらは強い相関性があるが、潜在的に異なる設計選択の恩恵を受けていると信じている。
関連論文リスト
- PhD Thesis: Exploring the role of (self-)attention in cognitive and
computer vision architecture [0.0]
トランスフォーマーをベースとした自己アテンションをモデルとして分析し,メモリで拡張する。
本稿では,アクティブビジョン理論に触発された注意と記憶を組み合わせた認知アーキテクチャGAMRを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:40:12Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units
and a Unified Framework [83.21732533130846]
Aff-Wild と Aff-Wild2 の2つである。
これは、これらのデータベースで訓練された深層ニューラルネットワークの2つのクラスの設計を示す。
インパクト認識を共同で学び、効果的に一般化し、実行することができる新しいマルチタスクおよび全体主義のフレームワークが提示されます。
論文 参考訳(メタデータ) (2021-03-29T17:36:20Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。