論文の概要: Graph Relation Transformer: Incorporating pairwise object features into
the Transformer architecture
- arxiv url: http://arxiv.org/abs/2111.06075v1
- Date: Thu, 11 Nov 2021 06:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 21:30:59.375216
- Title: Graph Relation Transformer: Incorporating pairwise object features into
the Transformer architecture
- Title(参考訳): Graph Relation Transformer: ペアワイズオブジェクト機能をTransformerアーキテクチャに組み込む
- Authors: Michael Yang, Aditya Anantharaman, Zachary Kitowski and Derik Clive
Robert
- Abstract要約: TextVQAは、画像内のビジュアルオブジェクトとテキストオブジェクトに関する質問に答えるためのデータセットである。
TextVQAにおける重要な課題の1つは、視覚的オブジェクトとテキストオブジェクトを個別にだけでなく、これらのオブジェクト間の空間的関係についても効果的に推論するシステムの設計である。
本稿では,グラフアテンション計算のためのノード情報に加えてエッジ情報を利用するグラフ関係変換器(GRT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies such as VizWiz find that Visual Question Answering (VQA)
systems that can read and reason about text in images are useful in application
areas such as assisting visually-impaired people. TextVQA is a VQA dataset
geared towards this problem, where the questions require answering systems to
read and reason about visual objects and text objects in images. One key
challenge in TextVQA is the design of a system that effectively reasons not
only about visual and text objects individually, but also about the spatial
relationships between these objects. This motivates the use of 'edge features',
that is, information about the relationship between each pair of objects. Some
current TextVQA models address this problem but either only use categories of
relations (rather than edge feature vectors) or do not use edge features within
the Transformer architectures. In order to overcome these shortcomings, we
propose a Graph Relation Transformer (GRT), which uses edge information in
addition to node information for graph attention computation in the
Transformer. We find that, without using any other optimizations, the proposed
GRT method outperforms the accuracy of the M4C baseline model by 0.65% on the
val set and 0.57% on the test set. Qualitatively, we observe that the GRT has
superior spatial reasoning ability to M4C.
- Abstract(参考訳): VizWizのような以前の研究によると、画像中のテキストを読み、推論できる視覚質問回答(VQA)システムは、視覚障害者を支援するなどのアプリケーション領域で有用である。
TextVQAはこの問題に向けられたVQAデータセットであり、質問には、画像内の視覚オブジェクトやテキストオブジェクトを読み取り、推論するシステムが必要である。
TextVQAの重要な課題は、視覚的オブジェクトとテキストオブジェクトを個別にだけでなく、これらのオブジェクト間の空間的関係についても効果的に推論するシステムの設計である。
これは'エッジ機能'、すなわち各オブジェクト間の関係に関する情報の使用を動機付けている。
現在のTextVQAモデルはこの問題に対処するが、(エッジ特徴ベクトルではなく)関係のカテゴリのみを使用するか、トランスフォーマーアーキテクチャ内でエッジ機能を使用しない。
これらの欠点を克服するために,グラフアテンション計算のためのノード情報に加えてエッジ情報を利用するグラフリレーショナルトランス (GRT) を提案する。
提案手法は,他の最適化を使わずに,val集合では0.65%,テストセットでは0.57%の精度でM4Cベースラインモデルの精度を向上する。
定性的には、GRTはM4Cよりも優れた空間推論能力を有する。
関連論文リスト
- Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Toward 3D Spatial Reasoning for Human-like Text-based Visual Question
Answering [23.083935053799145]
テキストベースのビジュアル質問回答(TextVQA)は,複数のシーンテキストを用いた画像に関する質問に対して,適切な回答を生成することを目的としている。
我々は,キーオブジェクトの文脈的知識を捉えるために,人間のような空間的推論プロセスに3次元幾何学的情報を導入する。
本手法は,TextVQAおよびST-VQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-21T12:49:14Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Question-Driven Graph Fusion Network For Visual Question Answering [15.098694655795168]
質問駆動グラフ融合ネットワーク(QD-GFN)を提案する。
まず3つのグラフアテンションネットワークによる画像のセマンティック、空間、暗黙的な視覚関係をモデル化し、3つのグラフの集約プロセスを導くために質問情報を利用する。
実験の結果,我々のQD-GFNはVQA 2.0とVQA-CP v2データセットの両方で先行技術よりも優れていた。
論文 参考訳(メタデータ) (2022-04-03T03:02:03Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。