論文の概要: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2010.04913v1
- Date: Sat, 10 Oct 2020 05:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:22:47.381553
- Title: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- Title(参考訳): 実世界の視覚的質問応答に対する解釈可能なニューラル計算法
- Authors: Ruixue Tang, Chao Ma
- Abstract要約: 実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
- 参考スコア(独自算出の注目度): 4.3668650778541895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two main lines of research on visual question answering (VQA):
compositional model with explicit multi-hop reasoning, and monolithic network
with implicit reasoning in the latent feature space. The former excels in
interpretability and compositionality but fails on real-world images, while the
latter usually achieves better performance due to model flexibility and
parameter efficiency. We aim to combine the two to build an interpretable
framework for real-world compositional VQA. In our framework, images and
questions are disentangled into scene graphs and programs, and a symbolic
program executor runs on them with full transparency to select the attention
regions, which are then iteratively passed to a visual-linguistic pre-trained
encoder to predict answers. Experiments conducted on the GQA benchmark
demonstrate that our framework outperforms the compositional prior arts and
achieves competitive accuracy among monolithic ones. With respect to the
validity, plausibility and distribution metrics, our framework surpasses others
by a considerable margin.
- Abstract(参考訳): 視覚的質問応答(VQA)には、明示的なマルチホップ推論を伴う構成モデルと、潜在的特徴空間における暗黙的推論を伴うモノリシックネットワークの2つの研究線がある。
前者は解釈性と構成性に優れるが実世界の画像では失敗するが、後者は通常、モデルの柔軟性とパラメータ効率のためにより良い性能を達成する。
実世界の合成VQAのための解釈可能なフレームワークを構築することを目的としている。
このフレームワークでは、画像や質問をシーングラフやプログラムに切り離し、シンボルプログラムの実行者が完全に透過的に実行して注意領域を選択し、それを視覚言語による事前学習エンコーダに繰り返し渡して回答を予測する。
GQAベンチマークで行った実験は、我々のフレームワークが構成上の先行技術より優れており、モノリシックなもの間での競争精度が向上していることを示している。
妥当性,妥当性,分布の指標に関しては,我々のフレームワークが他をかなり上回ります。
関連論文リスト
- Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Generalization Differences between End-to-End and Neuro-Symbolic
Vision-Language Reasoning Systems [23.585525403238858]
視覚・言語推論タスクでは、完全接続性、エンドツーエンド法、ハイブリッド型ニューロシンボリック法の両方が高い分配性能を達成している。
本研究では,4種類の一般化テストを通して,単一画像と複数画像の視覚的質問応答について検討する。
視覚と言語によるエンドツーエンドのトレーニングシステムは、これらのテスト全体で大きなパフォーマンス低下を示します。
ニューロシンボリック法は、GQAからVQAへのクロスベンチマーク転送にさらに苦しむが、他の一般化テストでは精度が低下し、数ショットで性能が向上する。
論文 参考訳(メタデータ) (2022-10-26T21:11:47Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly
Separable? [29.048478555972967]
Masked Image Modeling (MIM) は視覚領域における自己教師付き事前学習の手法として、強力で一般的なものと見なされている。
本稿では,2方向画像再構成と蒸留損失を伴う潜在特徴再構成を併用した簡易かつ効果的な解釈可能なMAE (i-MAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - REXUP: I REason, I EXtract, I UPdate with Structured Compositional
Reasoning for Visual Question Answering [4.02726934790798]
視覚構造を意識したテキスト情報を用いた深部推論VQAモデルを提案する。
REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。
私たちの最高のモデルは、検証セットに92.7%、テストデブセットに73.1%を提供する、貴重な最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-07-27T00:54:50Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。