論文の概要: AVR: Attention based Salient Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2003.07012v1
- Date: Mon, 16 Mar 2020 04:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:22:59.111331
- Title: AVR: Attention based Salient Visual Relationship Detection
- Title(参考訳): AVR:注意に基づく視覚的関係検出
- Authors: Jianming Lv, Qinzhe Xiao, Jiajie Zhong
- Abstract要約: 視覚的関係検出は、画像中のオブジェクトを検出し、オブジェクト間の関係を認識することを目的としている。
従来の方法では、画像内のすべての観測された関係を等しく扱うため、豊富な視覚的対象と様々な関係を持つ複雑な画像上の検出タスクにおいて、相対的にパフォーマンスが低下する。
そこで本稿では,局所的・グローバル的な関係の文脈に基づく視覚的健全性を実現するためのアテンションベースモデルを提案する。
- 参考スコア(独自算出の注目度): 5.844015313757266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual relationship detection aims to locate objects in images and recognize
the relationships between objects. Traditional methods treat all observed
relationships in an image equally, which causes a relatively poor performance
in the detection tasks on complex images with abundant visual objects and
various relationships. To address this problem, we propose an attention based
model, namely AVR, to achieve salient visual relationships based on both local
and global context of the relationships. Specifically, AVR recognizes
relationships and measures the attention on the relationships in the local
context of an input image by fusing the visual features, semantic and spatial
information of the relationships. AVR then applies the attention to assign
important relationships with larger salient weights for effective information
filtering. Furthermore, AVR is integrated with the priori knowledge in the
global context of image datasets to improve the precision of relationship
prediction, where the context is modeled as a heterogeneous graph to measure
the priori probability of relationships based on the random walk algorithm.
Comprehensive experiments are conducted to demonstrate the effectiveness of AVR
in several real-world image datasets, and the results show that AVR outperforms
state-of-the-art visual relationship detection methods significantly by up to
$87.5\%$ in terms of recall.
- Abstract(参考訳): 視覚関係検出は、画像中のオブジェクトを見つけ、オブジェクト間の関係を認識することを目的としている。
従来の手法では、画像内の全ての観察された関係を等しく扱うため、大量の視覚オブジェクトと様々な関係を持つ複雑な画像における検出タスクにおいて、比較的貧弱な性能をもたらす。
この問題に対処するために,局所的およびグローバルな関係の文脈に基づいて,健全な視覚的関係を実現するためのアテンションベースモデル,すなわちAVRを提案する。
具体的には、AVRは関係を認識し、その関係の視覚的特徴、意味的、空間的情報を融合することにより、入力画像の局所的文脈における関係に注意を向ける。
次に、avrは、効果的な情報フィルタリングのために、より大きいサルエントウェイトと重要な関係を割り当てるために注意を向ける。
さらに、画像データセットのグローバルコンテキストにおける優先順位知識と統合し、文脈を不均一グラフとしてモデル化し、ランダムウォークアルゴリズムに基づいて関係の優先順位確率を測定する関係予測の精度を向上させる。
いくつかの実世界の画像データセットにおけるavrの有効性を示すために包括的な実験を行い、その結果、avrはリコールの観点で、最先端の視覚関係検出手法を最大87.5セントで上回っていることが示された。
関連論文リスト
- EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。