論文の概要: PQA: Perceptual Question Answering
- arxiv url: http://arxiv.org/abs/2104.03589v1
- Date: Thu, 8 Apr 2021 08:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:06:37.009992
- Title: PQA: Perceptual Question Answering
- Title(参考訳): PQA: 知覚的質問回答
- Authors: Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi-Zhe Song
- Abstract要約: 知覚組織は、人間の視覚システムに関する数少ない確立された理論の1つである。
本稿では,2つの位置変化を提唱し,知覚的組織の研究を振り返る。
複雑な実画像ではなく、意図的に生成された合成データを調べる。
次に、人間の心理学からの洞察を借りて、知覚的組織を自己意識の問題とみなすエージェントを設計する。
- 参考スコア(独自算出の注目度): 35.051664704756995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Perceptual organization remains one of the very few established theories on
the human visual system. It underpinned many pre-deep seminal works on
segmentation and detection, yet research has seen a rapid decline since the
preferential shift to learning deep models. Of the limited attempts, most aimed
at interpreting complex visual scenes using perceptual organizational rules.
This has however been proven to be sub-optimal, since models were unable to
effectively capture the visual complexity in real-world imagery. In this paper,
we rejuvenate the study of perceptual organization, by advocating two
positional changes: (i) we examine purposefully generated synthetic data,
instead of complex real imagery, and (ii) we ask machines to synthesize novel
perceptually-valid patterns, instead of explaining existing data. Our overall
answer lies with the introduction of a novel visual challenge -- the challenge
of perceptual question answering (PQA). Upon observing example perceptual
question-answer pairs, the goal for PQA is to solve similar questions by
generating answers entirely from scratch (see Figure 1). Our first contribution
is therefore the first dataset of perceptual question-answer pairs, each
generated specifically for a particular Gestalt principle. We then borrow
insights from human psychology to design an agent that casts perceptual
organization as a self-attention problem, where a proposed grid-to-grid mapping
network directly generates answer patterns from scratch. Experiments show our
agent to outperform a selection of naive and strong baselines. A human study
however indicates that ours uses astronomically more data to learn when
compared to an average human, necessitating future research (with or without
our dataset).
- Abstract(参考訳): 知覚的組織は、人間の視覚システムに関する数少ない確立された理論の1つである。
この研究は、セグメンテーションと検出に関する多くの深層的研究の基盤となったが、深層モデルの学習への優先的なシフト以降、研究は急速に減少している。
制限された試みのうち、ほとんどが知覚的な組織ルールを用いて複雑な視覚シーンを解釈することを目的としていた。
しかし、モデルが実世界の画像の視覚的複雑さを効果的に捉えられなかったため、これは最適でないことが証明されている。
本稿では,2つの位置変化を提唱することで,知覚的組織の研究を振り返る。 (i) 複雑な実画像の代わりに意図的に生成された合成データを調べ, (ii) 既存のデータを説明するのではなく, 新たな知覚的価値パターンの合成を機械に依頼する。
私たちの全体的な答えは、新しい視覚的挑戦、知覚的質問応答(PQA)の挑戦の導入にあります。
PQAのゴールは、知覚的質問対を観察する際に、スクラッチから答えを全て生成することで、同様の問題を解くことである(図1参照)。
したがって、我々の最初の貢献は知覚的質問応答ペアの最初のデータセットであり、それぞれが特定のゲシュタルト原理のために特別に生成される。
次に,人間心理学からの洞察を借りて,知覚的組織を自己発見問題として位置づけるエージェントを設計し,提案するグリッド・ツー・グリッドマッピングネットワークがスクラッチから解答パターンを直接生成する。
実験により, エージェントはナイーブと強固なベースラインの選択に勝ることを示した。
しかし、人間による研究では、平均的な人間と比べて天文学的により多くのデータを使って学習していることを示している。
関連論文リスト
- What does it mean to represent? Mental representations as falsifiable
memory patterns [8.430851504111585]
我々は、因果的および遠隔的アプローチは表現の十分な説明を提供していないと論じる。
我々は、どの表現が世界の推論された潜在構造に対応するかという選択肢をスケッチする。
これらの構造は客観的に特定の特性を持つと考えられており、予期せぬ事象の計画、予測、検出を可能にしている。
論文 参考訳(メタデータ) (2022-03-06T12:52:42Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Think about it! Improving defeasible reasoning by first modeling the
question scenario [35.6110036360506]
決定可能な推論とは、新たな証拠を考慮して結論を覆すことができる推論の方法である。
私たちの研究目標は、デファシブルなクエリに答える前に、問題シナリオを想定することで、ニューラルモデルが同様にメリットを享受できるかどうかを問うことです。
我々のシステムであるCURIOUSは、3つの異なるデファシブル推論データセット上で新しい最先端の推論を実現する。
論文 参考訳(メタデータ) (2021-10-24T04:13:52Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and
Execution [97.50813120600026]
時空間推論は人工知能(AI)の課題である
最近の研究は、この種の抽象的推論タスクに焦点を当てている -- Raven's Progressive Matrices (RPM)
ニューロシンボリックな確率的アブダクションと実行学習者(PrAE)を提案する。
論文 参考訳(メタデータ) (2021-03-26T02:42:18Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。