論文の概要: Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA
- arxiv url: http://arxiv.org/abs/2310.09147v1
- Date: Fri, 13 Oct 2023 14:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:42:20.678585
- Title: Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA
- Title(参考訳): テキストベースのVQAのためのグラフ推論におけるスパース空間関係の探索
- Authors: Sheng Zhou, Dan Guo, Jia Li, Xun Yang, Meng Wang
- Abstract要約: 本稿では,空間認識型関係解析技術を導入した空間グラフネットワーク(SSGN)を提案する。
TextVQAとST-VQAデータセットの実験結果は、SSGNが有望なパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 45.98167752508643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based visual question answering (TextVQA) faces the significant
challenge of avoiding redundant relational inference. To be specific, a large
number of detected objects and optical character recognition (OCR) tokens
result in rich visual relationships. Existing works take all visual
relationships into account for answer prediction. However, there are three
observations: (1) a single subject in the images can be easily detected as
multiple objects with distinct bounding boxes (considered repetitive objects).
The associations between these repetitive objects are superfluous for answer
reasoning; (2) two spatially distant OCR tokens detected in the image
frequently have weak semantic dependencies for answer reasoning; and (3) the
co-existence of nearby objects and tokens may be indicative of important visual
cues for predicting answers. Rather than utilizing all of them for answer
prediction, we make an effort to identify the most important connections or
eliminate redundant ones. We propose a sparse spatial graph network (SSGN) that
introduces a spatially aware relation pruning technique to this task. As
spatial factors for relation measurement, we employ spatial distance, geometric
dimension, overlap area, and DIoU for spatially aware pruning. We consider
three visual relationships for graph learning: object-object, OCR-OCR tokens,
and object-OCR token relationships. SSGN is a progressive graph learning
architecture that verifies the pivotal relations in the correlated object-token
sparse graph, and then in the respective object-based sparse graph and
token-based sparse graph. Experiment results on TextVQA and ST-VQA datasets
demonstrate that SSGN achieves promising performances. And some visualization
results further demonstrate the interpretability of our method.
- Abstract(参考訳): text-based visual question answering (textvqa) は冗長な関係推論を避けるという大きな課題に直面している。
具体的に言うと、検出された多数のオブジェクトと光学文字認識(OCR)トークンは、リッチな視覚的関係をもたらす。
既存の作品は、全ての視覚的関係を答えの予測を考慮している。
しかし、(1)画像中の1つの被写体は、異なる境界ボックス(考慮された反復対象)を持つ複数の被写体として容易に検出できる。
2)画像から検出された2つの空間的距離のocrトークンは、解答推論において弱い意味依存を持ち、(3)近傍のオブジェクトとトークンの共存は、回答を予測する上で重要な視覚的手がかりを示す可能性がある。
これらすべてを活用して回答を予測するのではなく、最も重要なコネクションを特定したり、冗長なコネクションを排除したりしています。
本稿では,空間認識型関係解析技術を導入した空間グラフネットワーク(SSGN)を提案する。
関係測定のための空間的要因として,空間的距離,幾何学的次元,重なり領域,ディウを用い,空間的に認識するプルーニングを行う。
グラフ学習における3つの視覚的関係として、オブジェクトオブジェクト、OCR-OCRトークン、オブジェクト-OCRトークンの関係を考える。
ssgn はプログレッシブグラフ学習アーキテクチャであり、関連付けられたオブジェクト・ツー・スパースグラフと、各オブジェクトベースのスパースグラフとトークンベースのスパースグラフにおける重要な関係を検証する。
TextVQAとST-VQAデータセットの実験結果は、SSGNが有望なパフォーマンスを達成することを示す。
また, 可視化結果により, 本手法の解釈性がさらに証明された。
関連論文リスト
- EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Interactive Visual Pattern Search on Graph Data via Graph Representation
Learning [20.795511688640296]
視覚分析システムGraphQは、ループ内、サンプルベース、サブグラフパターン検索をサポートする。
高速で対話的なクエリをサポートするために、グラフニューラルネットワーク(GNN)を使用して、グラフを固定長潜在ベクトル表現としてエンコードする。
また,NuroAlignと呼ばれるノードアライメントのための新しいGNNを提案し,クエリ結果の検証と解釈を容易にする。
論文 参考訳(メタデータ) (2022-02-18T22:30:28Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。