論文の概要: Attention Guided Semantic Relationship Parsing for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2010.01725v1
- Date: Mon, 5 Oct 2020 00:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:20:10.913109
- Title: Attention Guided Semantic Relationship Parsing for Visual Question
Answering
- Title(参考訳): 視覚的質問応答のための注意誘導的意味関係解析
- Authors: Moshiur Farazi, Salman Khan and Nick Barnes
- Abstract要約: 人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
- 参考スコア(独自算出の注目度): 36.84737596725629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans explain inter-object relationships with semantic labels that
demonstrate a high-level understanding required to perform complex
Vision-Language tasks such as Visual Question Answering (VQA). However,
existing VQA models represent relationships as a combination of object-level
visual features which constrain a model to express interactions between objects
in a single domain, while the model is trying to solve a multi-modal task. In
this paper, we propose a general purpose semantic relationship parser which
generates a semantic feature vector for each subject-predicate-object triplet
in an image, and a Mutual and Self Attention (MSA) mechanism that learns to
identify relationship triplets that are important to answer the given question.
To motivate the significance of semantic relationships, we show an oracle
setting with ground-truth relationship triplets, where our model achieves a
~25% accuracy gain over the closest state-of-the-art model on the challenging
GQA dataset. Further, with our semantic parser, we show that our model
outperforms other comparable approaches on VQA and GQA datasets.
- Abstract(参考訳): 人間は視覚質問回答(VQA)のような複雑な視覚言語タスクを実行するのに必要な高いレベルの理解を示すセマンティックラベルとオブジェクト間の関係を説明する。
しかしながら、既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現している。
本稿では,画像内の各主観的対象トリプレットに対して意味的特徴ベクトルを生成する汎用意味関係解析器と,与えられた問いに答える上で重要な関係三重項を識別するために学習する相互自己注意(msa)機構を提案する。
意味的関係の重要性を動機づけるために,本モデルでは,GQAデータセット上での最も近い最先端モデルよりも約25%の精度向上を実現した,地中関係三重項を用いたオラクル設定を示す。
さらに、セマンティックパーザを用いて、我々のモデルはVQAおよびGQAデータセットにおける他の同等のアプローチよりも優れていることを示す。
関連論文リスト
- Multimodal Relational Triple Extraction with Query-based Entity Object Transformer [20.97497765985682]
マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。
画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。
また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
論文 参考訳(メタデータ) (2024-08-16T12:43:38Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文 参考訳(メタデータ) (2021-03-08T15:51:24Z) - Modeling Global Semantics for Question Answering over Knowledge Bases [16.341353183347664]
KBQAにおける意味解析のための関係グラフ畳み込みネットワーク(RGCN)モデルgRGCNを提案する。
ベンチマークで評価した結果,本モデルは市販モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-01-05T13:51:14Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。