論文の概要: Object-Centric Diagnosis of Visual Reasoning
- arxiv url: http://arxiv.org/abs/2012.11587v1
- Date: Mon, 21 Dec 2020 18:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:48:10.676477
- Title: Object-Centric Diagnosis of Visual Reasoning
- Title(参考訳): 視覚推論の物体中心診断
- Authors: Jianwei Yang, Jiayuan Mao, Jiajun Wu, Devi Parikh, David D. Cox,
Joshua B. Tenenbaum, Chuang Gan
- Abstract要約: 本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
- 参考スコア(独自算出の注目度): 118.36750454795428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When answering questions about an image, it not only needs knowing what --
understanding the fine-grained contents (e.g., objects, relationships) in the
image, but also telling why -- reasoning over grounding visual cues to derive
the answer for a question. Over the last few years, we have seen significant
progress on visual question answering. Though impressive as the accuracy grows,
it still lags behind to get knowing whether these models are undertaking
grounding visual reasoning or just leveraging spurious correlations in the
training data. Recently, a number of works have attempted to answer this
question from perspectives such as grounding and robustness. However, most of
them are either focusing on the language side or coarsely studying the
pixel-level attention maps. In this paper, by leveraging the step-wise object
grounding annotations provided in the GQA dataset, we first present a
systematical object-centric diagnosis of visual reasoning on grounding and
robustness, particularly on the vision side. According to the extensive
comparisons across different models, we find that even models with high
accuracy are not good at grounding objects precisely, nor robust to visual
content perturbations. In contrast, symbolic and modular models have a
relatively better grounding and robustness, though at the cost of accuracy. To
reconcile these different aspects, we further develop a diagnostic model,
namely Graph Reasoning Machine. Our model replaces purely symbolic visual
representation with probabilistic scene graph and then applies teacher-forcing
training for the visual reasoning module. The designed model improves the
performance on all three metrics over the vanilla neural-symbolic model while
inheriting the transparency. Further ablation studies suggest that this
improvement is mainly due to more accurate image understanding and proper
intermediate reasoning supervisions.
- Abstract(参考訳): 画像に関する質問に答える場合、画像内のきめ細かい内容(オブジェクト、関係性など)を理解するだけでなく、質問の答えを導き出すために視覚的な手がかりを根拠として推論する理由も知る必要があります。
ここ数年、視覚的な質問に対する回答は大幅に進歩しています。
精度が向上するにつれ、これらのモデルが視覚的な推論を基礎づけているのか、トレーニングデータのスプリアス相関を単に活用しているのかを知るには遅れている。
近年, 接地や頑健性といった観点から, この問題に答えようと試みている研究が数多くある。
しかし、そのほとんどは言語側に焦点を当てているか、ピクセルレベルのアテンションマップを粗く研究している。
本稿では,gqaデータセットで提供されるステップワイズオブジェクトの接地アノテーションを活用して,まず,接地とロバスト性,特に視覚面での視覚的推論の体系的オブジェクト中心診断を提案する。
異なるモデル間での広範な比較によると、精度の高いモデルでさえ、オブジェクトを正確にグラウンド化したり、視覚的コンテンツの摂動に頑健なことには向いていない。
対照的に、シンボリックモデルとモジュラモデルは比較的精度の犠牲にもかかわらず、接地性とロバスト性が優れている。
これらの異なる側面を整理するために、さらに診断モデル、すなわちグラフ推論マシンを開発する。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
設計したモデルは、透明性を継承しながら、バニラニューラルシンボリックモデル上の3つのメトリクスすべてのパフォーマンスを改善する。
さらなるアブレーション研究により、この改善は主により正確な画像理解と適切な中間推論監督によるものであることが示唆された。
関連論文リスト
- Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Weakly Supervised Relative Spatial Reasoning for Visual Question
Answering [38.05223339919346]
我々は,V&Lモデルの忠実度をこのような幾何学的理解に向けて評価する。
我々は、市販の深度推定器から弱い監督でV&Lを訓練する。
これにより、"GQA"視覚的質問応答チャレンジの精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-09-04T21:29:06Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。