論文の概要: Transformation Driven Visual Reasoning
- arxiv url: http://arxiv.org/abs/2011.13160v2
- Date: Fri, 2 Apr 2021 06:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:12:43.423576
- Title: Transformation Driven Visual Reasoning
- Title(参考訳): 変換駆動型ビジュアル推論
- Authors: Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo and Xueqi Cheng
- Abstract要約: 本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
- 参考スコア(独自算出の注目度): 80.32402545546209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper defines a new visual reasoning paradigm by introducing an
important factor, i.e.~transformation. The motivation comes from the fact that
most existing visual reasoning tasks, such as CLEVR in VQA, are solely defined
to test how well the machine understands the concepts and relations within
static settings, like one image. We argue that this kind of \textbf{state
driven visual reasoning} approach has limitations in reflecting whether the
machine has the ability to infer the dynamics between different states, which
has been shown as important as state-level reasoning for human cognition in
Piaget's theory. To tackle this problem, we propose a novel
\textbf{transformation driven visual reasoning} task. Given both the initial
and final states, the target is to infer the corresponding single-step or
multi-step transformation, represented as a triplet (object, attribute, value)
or a sequence of triplets, respectively. Following this definition, a new
dataset namely TRANCE is constructed on the basis of CLEVR, including three
levels of settings, i.e.~Basic (single-step transformation), Event (multi-step
transformation), and View (multi-step transformation with variant views).
Experimental results show that the state-of-the-art visual reasoning models
perform well on Basic, but are still far from human-level intelligence on Event
and View. We believe the proposed new paradigm will boost the development of
machine visual reasoning. More advanced methods and real data need to be
investigated in this direction. The resource of TVR is available at
https://hongxin2019.github.io/TVR.
- Abstract(参考訳): 本稿では,重要な要因,すなわち変換を導入することによって,新たな視覚的推論パラダイムを定義する。
このモチベーションは、vqaのclevrのような既存のビジュアル推論タスクの多くが、マシンが静的な設定における概念と関係をいかによく理解しているかをテストするためにのみ定義されるという事実から来ている。
我々は、この種の「textbf{state driven visual reasoning}」アプローチは、機械が異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界があると主張している。
この問題に対処するために、新しい \textbf{transformation driven visual reasoning}タスクを提案する。
初期状態と最終状態の両方が与えられると、ターゲットはそれぞれ三重項(オブジェクト、属性、値)または三重項の列として表される、対応する単段または多段変換を推論する。
この定義に従い、新たなデータセットであるtransnceは、clevrに基づいて構築され、以下の3つのレベルの設定(~basic(single-step transformation)、イベント(multi-step transformation)、ビュー(multi-step transformation with variant views)が含まれる。
実験の結果、最先端のビジュアル推論モデルは基本ではうまく機能するが、イベントやビューの人間レベルの知性には程遠いことがわかった。
提案する新たなパラダイムは,機械視覚推論の開発を促進するものだと考えています。
より高度な方法と実データをこの方向に調査する必要がある。
TVRのリソースはhttps://hongxin2019.github.io/TVRで入手できる。
関連論文リスト
- Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Visual Transformation Telling [81.99825888461544]
我々はtextbfVisual textbfTransformation textbfTelling (VTT) と呼ばれる新しい視覚的推論タスクを提案する。
一連の状態(すなわち画像)が与えられた場合、VTTは隣接する2つの状態間の変換を記述する必要がある。
既存の2つの指導ビデオデータセットからの変換推論研究を支援するために,新しいデータセットを収集する。
論文 参考訳(メタデータ) (2023-05-03T07:02:57Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。