論文の概要: X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2107.11576v1
- Date: Sat, 24 Jul 2021 10:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 08:31:51.220595
- Title: X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering
- Title(参考訳): x-ggm:ビジュアル質問応答における分散一般化のためのグラフ生成モデル
- Authors: Jingjing Jiang, Ziyi Liu, Yifan Liu, Zhixiong Nan, and Nanning Zheng
- Abstract要約: 既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
- 参考スコア(独自算出の注目度): 49.36818290978525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encouraging progress has been made towards Visual Question Answering (VQA) in
recent years, but it is still challenging to enable VQA models to adaptively
generalize to out-of-distribution (OOD) samples. Intuitively, recompositions of
existing visual concepts (i.e., attributes and objects) can generate unseen
compositions in the training set, which will promote VQA models to generalize
to OOD samples. In this paper, we formulate OOD generalization in VQA as a
compositional generalization problem and propose a graph generative
modeling-based training scheme (X-GGM) to handle the problem implicitly. X-GGM
leverages graph generative modeling to iteratively generate a relation matrix
and node representations for the predefined graph that utilizes
attribute-object pairs as nodes. Furthermore, to alleviate the unstable
training issue in graph generative modeling, we propose a gradient distribution
consistency loss to constrain the data distribution with adversarial
perturbations and the generated distribution. The baseline VQA model (LXMERT)
trained with the X-GGM scheme achieves state-of-the-art OOD performance on two
standard VQA OOD benchmarks, i.e., VQA-CP v2 and GQA-OOD. Extensive ablation
studies demonstrate the effectiveness of X-GGM components.
- Abstract(参考訳): 近年、VQA(Visual Question Answering)への発展が進んでいるが、VQAモデルがアウト・オブ・ディストリビューション(OOD)のサンプルに適応的に一般化できることは依然として困難である。
直感的には、既存の視覚概念(すなわち属性とオブジェクト)の再構成はトレーニングセットで見えない構成を生成することができ、VQAモデルを促進してOODサンプルに一般化する。
本稿では,VQAにおけるOOD一般化を合成一般化問題として定式化し,その問題を暗黙的に扱うグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGMはグラフ生成モデルを利用して、属性オブジェクト対をノードとして利用する事前定義されたグラフに対する関係行列とノード表現を反復的に生成する。
さらに,グラフ生成モデルにおける不安定なトレーニング問題を軽減するために,逆摂動と生成分布によるデータ分布を制約する勾配分布一貫性損失を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデル(LXMERT)は、2つの標準VQA OODベンチマーク(VQA-CP v2とGQA-OOD)上で最先端のOOD性能を実現する。
広範なアブレーション研究はx-ggm成分の有効性を示している。
関連論文リスト
- Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。
特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。
提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文 参考訳(メタデータ) (2022-08-01T08:58:02Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。