論文の概要: Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason?
- arxiv url: http://arxiv.org/abs/2212.10292v1
- Date: Tue, 20 Dec 2022 14:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:19:44.381904
- Title: Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason?
- Title(参考訳): 教師なしのビジュアル推論に向けて:オフザシェルフ機能は推論の仕方を知っているか?
- Authors: Monika Wysocza\'nska, Tom Monnier, Tomasz Trzci\'nski, David Picard
- Abstract要約: 視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
- 参考スコア(独自算出の注目度): 30.16956370267339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in visual representation learning allowed to build an
abundance of powerful off-the-shelf features that are ready-to-use for numerous
downstream tasks. This work aims to assess how well these features preserve
information about the objects, such as their spatial location, their visual
properties and their relative relationships. We propose to do so by evaluating
them in the context of visual reasoning, where multiple objects with complex
relationships and different attributes are at play. More specifically, we
introduce a protocol to evaluate visual representations for the task of Visual
Question Answering. In order to decouple visual feature extraction from
reasoning, we design a specific attention-based reasoning module which is
trained on the frozen visual representations to be evaluated, in a spirit
similar to standard feature evaluations relying on shallow networks. We compare
two types of visual representations, densely extracted local features and
object-centric ones, against the performances of a perfect image representation
using ground truth. Our main findings are two-fold. First, despite excellent
performances on classical proxy tasks, such representations fall short for
solving complex reasoning problem. Second, object-centric features better
preserve the critical information necessary to perform visual reasoning. In our
proposed framework we show how to methodologically approach this evaluation.
- Abstract(参考訳): 視覚表現学習の最近の進歩は、多くの下流タスクに使える強力なオフザシェルフ機能の構築を可能にした。
本研究の目的は,これらの特徴が空間的位置,視覚的特性,相対関係など,対象物に関する情報をどの程度保存するかを評価することである。
複雑な関係と異なる属性を持つ複数のオブジェクトが作用する視覚推論の文脈でそれらを評価することで,その方法を提案する。
具体的には,視覚質問応答のタスクに対する視覚的表現を評価するプロトコルを提案する。
視覚的特徴抽出を推論から切り離すため,我々は,浅層ネットワークに依存する標準的な特徴評価と同じような精神で,凍結した視覚表現に基づいて学習した注意に基づく推論モジュールを設計した。
本研究では,局所的特徴の密抽出とオブジェクト中心表現の2種類の視覚表現と,基底真理を用いた完全画像表現の性能を比較した。
主な所見は2倍である。
第一に、古典的なプロキシタスクの優れたパフォーマンスにもかかわらず、そのような表現は複雑な推論問題を解決するには不十分である。
第二に、オブジェクト中心の機能は視覚的推論の実行に必要な重要な情報をよりよく保存する。
提案フレームワークでは,この評価を方法論的にアプローチする方法を示す。
関連論文リスト
- Take A Step Back: Rethinking the Two Stages in Visual Reasoning [57.16394309170051]
本稿では2段階の視点で視覚的推論を再考する。
共有アナライザを使用しながら、異なるデータドメイン用の分離エンコーダによるシンボル化を実装する方が効率的である。
提案する2段階のフレームワークは,様々な視覚的推論タスクにおいて,印象的な一般化を実現する。
論文 参考訳(メタデータ) (2024-07-29T02:56:19Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - SHOP-VRB: A Visual Reasoning Benchmark for Object Perception [26.422761228628698]
ロボット工学応用における視覚的推論のためのアプローチとベンチマークを提案する。
視覚データとテキストデータからオブジェクトプロパティを推測することに注力する。
シンボリックプログラム実行に基づく推論システムを提案する。
論文 参考訳(メタデータ) (2020-04-06T13:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。