論文の概要: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2010.04913v1
- Date: Sat, 10 Oct 2020 05:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:22:47.381553
- Title: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- Title(参考訳): 実世界の視覚的質問応答に対する解釈可能なニューラル計算法
- Authors: Ruixue Tang, Chao Ma
- Abstract要約: 実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
- 参考スコア(独自算出の注目度): 4.3668650778541895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two main lines of research on visual question answering (VQA):
compositional model with explicit multi-hop reasoning, and monolithic network
with implicit reasoning in the latent feature space. The former excels in
interpretability and compositionality but fails on real-world images, while the
latter usually achieves better performance due to model flexibility and
parameter efficiency. We aim to combine the two to build an interpretable
framework for real-world compositional VQA. In our framework, images and
questions are disentangled into scene graphs and programs, and a symbolic
program executor runs on them with full transparency to select the attention
regions, which are then iteratively passed to a visual-linguistic pre-trained
encoder to predict answers. Experiments conducted on the GQA benchmark
demonstrate that our framework outperforms the compositional prior arts and
achieves competitive accuracy among monolithic ones. With respect to the
validity, plausibility and distribution metrics, our framework surpasses others
by a considerable margin.
- Abstract(参考訳): 視覚的質問応答(VQA)には、明示的なマルチホップ推論を伴う構成モデルと、潜在的特徴空間における暗黙的推論を伴うモノリシックネットワークの2つの研究線がある。
前者は解釈性と構成性に優れるが実世界の画像では失敗するが、後者は通常、モデルの柔軟性とパラメータ効率のためにより良い性能を達成する。
実世界の合成VQAのための解釈可能なフレームワークを構築することを目的としている。
このフレームワークでは、画像や質問をシーングラフやプログラムに切り離し、シンボルプログラムの実行者が完全に透過的に実行して注意領域を選択し、それを視覚言語による事前学習エンコーダに繰り返し渡して回答を予測する。
GQAベンチマークで行った実験は、我々のフレームワークが構成上の先行技術より優れており、モノリシックなもの間での競争精度が向上していることを示している。
妥当性,妥当性,分布の指標に関しては,我々のフレームワークが他をかなり上回ります。
関連論文リスト
- LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - REXUP: I REason, I EXtract, I UPdate with Structured Compositional
Reasoning for Visual Question Answering [4.02726934790798]
視覚構造を意識したテキスト情報を用いた深部推論VQAモデルを提案する。
REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。
私たちの最高のモデルは、検証セットに92.7%、テストデブセットに73.1%を提供する、貴重な最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-07-27T00:54:50Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。