論文の概要: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2010.04913v1
- Date: Sat, 10 Oct 2020 05:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-08 23:22:47.381553
- Title: Interpretable Neural Computation for Real-World Compositional Visual
Question Answering
- Title(参考訳): 実世界の視覚的質問応答に対する解釈可能なニューラル計算法
- Authors: Ruixue Tang, Chao Ma
- Abstract要約: 実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
- 参考スコア(独自算出の注目度): 4.3668650778541895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two main lines of research on visual question answering (VQA):
compositional model with explicit multi-hop reasoning, and monolithic network
with implicit reasoning in the latent feature space. The former excels in
interpretability and compositionality but fails on real-world images, while the
latter usually achieves better performance due to model flexibility and
parameter efficiency. We aim to combine the two to build an interpretable
framework for real-world compositional VQA. In our framework, images and
questions are disentangled into scene graphs and programs, and a symbolic
program executor runs on them with full transparency to select the attention
regions, which are then iteratively passed to a visual-linguistic pre-trained
encoder to predict answers. Experiments conducted on the GQA benchmark
demonstrate that our framework outperforms the compositional prior arts and
achieves competitive accuracy among monolithic ones. With respect to the
validity, plausibility and distribution metrics, our framework surpasses others
by a considerable margin.
- Abstract(参考訳): 視覚的質問応答(VQA)には、明示的なマルチホップ推論を伴う構成モデルと、潜在的特徴空間における暗黙的推論を伴うモノリシックネットワークの2つの研究線がある。
前者は解釈性と構成性に優れるが実世界の画像では失敗するが、後者は通常、モデルの柔軟性とパラメータ効率のためにより良い性能を達成する。
実世界の合成VQAのための解釈可能なフレームワークを構築することを目的としている。
このフレームワークでは、画像や質問をシーングラフやプログラムに切り離し、シンボルプログラムの実行者が完全に透過的に実行して注意領域を選択し、それを視覚言語による事前学習エンコーダに繰り返し渡して回答を予測する。
GQAベンチマークで行った実験は、我々のフレームワークが構成上の先行技術より優れており、モノリシックなもの間での競争精度が向上していることを示している。
妥当性,妥当性,分布の指標に関しては,我々のフレームワークが他をかなり上回ります。
関連論文リスト
- ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.520825264698374]
視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2025-03-30T15:35:24Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models [26.525531111141717]
ビジョンランゲージモデルは、テキストと画像の共有機能空間を学習し、異なるモードの入力の比較を可能にする。
画像領域における構成性について検討し、合成特性の分析は視覚データのノイズと空間性によって挑戦される。
本稿では,GDE(Geodesically Decomposable Embeddings)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T13:46:53Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - REXUP: I REason, I EXtract, I UPdate with Structured Compositional
Reasoning for Visual Question Answering [4.02726934790798]
視覚構造を意識したテキスト情報を用いた深部推論VQAモデルを提案する。
REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。
私たちの最高のモデルは、検証セットに92.7%、テストデブセットに73.1%を提供する、貴重な最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-07-27T00:54:50Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Linguistically Driven Graph Capsule Network for Visual Question
Reasoning [153.76012414126643]
我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
論文 参考訳(メタデータ) (2020-03-23T03:34:25Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。