論文の概要: Linguistically Driven Graph Capsule Network for Visual Question
Reasoning
- arxiv url: http://arxiv.org/abs/2003.10065v1
- Date: Mon, 23 Mar 2020 03:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 00:18:21.697381
- Title: Linguistically Driven Graph Capsule Network for Visual Question
Reasoning
- Title(参考訳): 視覚的質問推論のための言語駆動型グラフカプセルネットワーク
- Authors: Qingxing Cao and Xiaodan Liang and Keze Wang and Liang Lin
- Abstract要約: 我々は「言語的に駆動されるグラフカプセルネットワーク」と呼ばれる階層的構成推論モデルを提案する。
具体的には,各カプセルを最下層に結合させ,元の質問に1つの単語を埋め込んだ言語的埋め込みを視覚的証拠で橋渡しする。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
- 参考スコア(独自算出の注目度): 153.76012414126643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, studies of visual question answering have explored various
architectures of end-to-end networks and achieved promising results on both
natural and synthetic datasets, which require explicitly compositional
reasoning. However, it has been argued that these black-box approaches lack
interpretability of results, and thus cannot perform well on generalization
tasks due to overfitting the dataset bias. In this work, we aim to combine the
benefits of both sides and overcome their limitations to achieve an end-to-end
interpretable structural reasoning for general images without the requirement
of layout annotations. Inspired by the property of a capsule network that can
carve a tree structure inside a regular convolutional neural network (CNN), we
propose a hierarchical compositional reasoning model called the "Linguistically
driven Graph Capsule Network", where the compositional process is guided by the
linguistic parse tree. Specifically, we bind each capsule in the lowest layer
to bridge the linguistic embedding of a single word in the original question
with visual evidence and then route them to the same capsule if they are
siblings in the parse tree. This compositional process is achieved by
performing inference on a linguistically driven conditional random field (CRF)
and is performed across multiple graph capsule layers, which results in a
compositional reasoning process inside a CNN. Experiments on the CLEVR dataset,
CLEVR compositional generation test, and FigureQA dataset demonstrate the
effectiveness and composition generalization ability of our end-to-end model.
- Abstract(参考訳): 近年、視覚的質問応答の研究は、エンド・ツー・エンド・ネットワークの様々なアーキテクチャを探索し、自然・合成両方のデータセットで有望な結果を得た。
しかしながら、これらのブラックボックスアプローチは結果の解釈可能性に欠けており、したがってデータセットバイアスの過度な適合により一般化タスクではうまく機能しない。
本研究では,両サイドの利点を融合し,その限界を克服し,レイアウトアノテーションを必要とせず,汎用画像に対してエンドツーエンドで解釈可能な構造的推論を実現することを目的とする。
通常の畳み込みニューラルネットワーク(CNN)内で木構造を彫ることができるカプセルネットワークの特性に着想を得て,その構成過程を言語解析木でガイドする"Linguistically driven Graph Capsule Network"と呼ばれる階層型構成推論モデルを提案する。
具体的には、各カプセルを最下層に結合させて、元の質問に1つの単語の言語的埋め込みを視覚的証拠でブリッジし、パースツリーの兄弟である場合、それらを同じカプセルにルーティングする。
この構成過程は、言語的に駆動された条件付きランダムフィールド(CRF)で推論を行い、複数のグラフカプセル層にわたって実行され、CNN内の構成的推論プロセスをもたらす。
CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。
関連論文リスト
- Hypotheses Tree Building for One-Shot Temporal Sentence Localization [53.82714065005299]
ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。
我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。
MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
論文 参考訳(メタデータ) (2023-01-05T01:50:43Z) - PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge
Distillation Processes [0.2005299372367689]
本稿では,GNNがグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスであることを示す,多段階GNN説明フレームワークを提案する。
元の問題の複雑さは、階層構造として表される複数の部分部分に分解することで緩和される。
このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため、パーソナライズされた説明も目的としている。
論文 参考訳(メタデータ) (2022-08-05T10:14:48Z) - TREE-G: Decision Trees Contesting Graph Neural Networks [33.364191419692105]
TREE-Gは、グラフデータに特化した新しい分割関数を導入することで、標準的な決定木を変更する。
グラフニューラルネットワーク(GNN)やグラフカーネル(Graph Kernels)などのグラフ学習アルゴリズムでは,TREE-Gが他のツリーベースモデルより一貫して優れていることが示されています。
論文 参考訳(メタデータ) (2022-07-06T15:53:17Z) - Investigating Neural Architectures by Synthetic Dataset Design [14.317837518705302]
近年、多くの新しいニューラルネットワーク構造(アーキテクチャと層)が出現している。
アドホックな合成データセットを設計することにより,各構造がネットワーク能力に与える影響を測定する手法をスケッチする。
本稿では,以下の3つのネットワーク特性のそれぞれを評価するために,3つのデータセットを構築した手法について述べる。
論文 参考訳(メタデータ) (2022-04-23T10:50:52Z) - Explicit Pairwise Factorized Graph Neural Network for Semi-Supervised
Node Classification [59.06717774425588]
本稿では,グラフ全体を部分的に観測されたマルコフ確率場としてモデル化するEPFGNN(Explicit Pairwise Factorized Graph Neural Network)を提案する。
出力-出力関係をモデル化するための明示的なペアワイズ要素を含み、入力-出力関係をモデル化するためにGNNバックボーンを使用する。
本研究では,グラフ上での半教師付きノード分類の性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2021-07-27T19:47:53Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Can RNNs learn Recursive Nested Subject-Verb Agreements? [4.094098809740732]
言語処理にはネストした木構造を抽出する機能が必要である。
リカレントニューラルネットワーク(RNN)の最近の進歩は、いくつかの言語タスクでほぼ人間に近いパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-06T20:47:02Z) - Hierarchical Graph Capsule Network [78.4325268572233]
ノード埋め込みを共同で学習し,グラフ階層を抽出できる階層型グラフカプセルネットワーク(HGCN)を提案する。
階層的表現を学ぶために、HGCNは下層カプセル(部分)と高層カプセル(全体)の間の部分的関係を特徴付ける。
論文 参考訳(メタデータ) (2020-12-16T04:13:26Z) - Interpretable Neural Computation for Real-World Compositional Visual
Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-10T05:46:22Z) - Improving Graph Neural Network Expressivity via Subgraph Isomorphism
Counting [63.04999833264299]
グラフサブストラクチャネットワーク(GSN)は,サブストラクチャエンコーディングに基づくトポロジ的に認識可能なメッセージパッシング方式である。
Wesfeiler-Leman (WL) グラフ同型テストよりも厳密に表現可能であることを示す。
グラフ分類と回帰タスクについて広範囲に評価を行い、様々な実世界の環境において最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。