論文の概要: Fixed-size Objects Encoding for Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2005.14600v1
- Date: Fri, 29 May 2020 14:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:41:57.377777
- Title: Fixed-size Objects Encoding for Visual Relationship Detection
- Title(参考訳): 画像関係検出のための固定サイズオブジェクト符号化
- Authors: Hengyue Pan, Xin Niu, Rongchun Li, Siqi Shen, Yong Dou
- Abstract要約: 本稿では,視覚的関係検出タスクの性能向上のための固定サイズオブジェクト符号化法(FOE-VRD)を提案する。
1つの固定サイズのベクトルを用いて、各入力画像中の全てのオブジェクトを符号化し、関係検出のプロセスを支援する。
VRDデータベースの実験結果から,提案手法は述語分類と関係検出の両方に有効であることがわかった。
- 参考スコア(独自算出の注目度): 16.339394922532282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a fixed-size object encoding method (FOE-VRD) to
improve performance of visual relationship detection tasks. Comparing with
previous methods, FOE-VRD has an important feature, i.e., it uses one
fixed-size vector to encoding all objects in each input image to assist the
process of relationship detection. Firstly, we use a regular convolution neural
network as a feature extractor to generate high-level features of input images.
Then, for each relationship triplet in input images, i.e.,
$<$subject-predicate-object$>$, we apply ROI-pooling to get feature vectors of
two regions on the feature maps that corresponding to bounding boxes of the
subject and object. Besides the subject and object, our analysis implies that
the results of predicate classification may also related to the rest objects in
input images (we call them background objects). Due to the variable number of
background objects in different images and computational costs, we cannot
generate feature vectors for them one-by-one by using ROI pooling technique.
Instead, we propose a novel method to encode all background objects in each
image by using one fixed-size vector (i.e., FBE vector). By concatenating the 3
vectors we generate above, we successfully encode the objects using one
fixed-size vector. The generated feature vector is then feed into a fully
connected neural network to get predicate classification results. Experimental
results on VRD database (entire set and zero-shot tests) show that the proposed
method works well on both predicate classification and relationship detection.
- Abstract(参考訳): 本稿では,視覚的関係検出タスクの性能向上のための固定サイズオブジェクト符号化法(FOE-VRD)を提案する。
従来の手法と比較して、FOE-VRDは重要な特徴、すなわち、各入力画像中の全てのオブジェクトを符号化し、関係検出のプロセスを支援するために1つの固定サイズベクトルを使用する。
まず,正規畳み込みニューラルネットワークを特徴抽出器として使用し,入力画像の高レベル特徴を生成する。
次に、入力画像、すなわち$<$subject-predicate-object$>$ でトリプルされた各関係に対して、対象と対象のバウンディングボックスに対応する2つの領域の特徴ベクトルを取得するためにroi-poolingを適用する。
対象と対象の他に,述語分類の結果が入力画像中のrestオブジェクトと関連している可能性も示唆する(これをバックグラウンドオブジェクトと呼ぶ)。
異なる画像の背景オブジェクト数の変動と計算コストにより、ROIプーリング技術を用いて特徴ベクトルを1対1で生成することはできない。
代わりに、1つの固定サイズベクトル(FBEベクトル)を用いて各画像中のすべての背景オブジェクトを符号化する新しい手法を提案する。
上記の3つのベクトルを連結することにより、1つの固定サイズベクトルを用いてオブジェクトを符号化することに成功した。
生成された特徴ベクトルは、完全に接続されたニューラルネットワークに供給され、述語的な分類結果を得る。
vrdデータベース(enentire set and zero-shot test)を用いた実験の結果,提案手法が述語分類と関係検出の両方において有効であることがわかった。
関連論文リスト
- GOReloc: Graph-based Object-Level Relocalization for Visual SLAM [17.608119427712236]
本稿では,ロボットシステムのオブジェクトレベル再ローカライズのための新しい手法を紹介する。
軽量なオブジェクトレベルマップにおいて、現在のフレーム内の物体検出と3Dオブジェクトとの密接な関連付けにより、カメラセンサのポーズを決定する。
論文 参考訳(メタデータ) (2024-08-15T03:54:33Z) - Ablation Study to Clarify the Mechanism of Object Segmentation in
Multi-Object Representation Learning [3.921076451326107]
マルチオブジェクト表現学習は、複数のオブジェクトの合成を用いて、複雑な実世界の視覚入力を表現することを目的としている。
従来の手法が個々のオブジェクトの適切なセグメンテーションを達成できたかは明らかになっていない。
従来の手法のほとんどは変分オートエンコーダ(VAE)を用いて潜在ベクトルを正則化する。
論文 参考訳(メタデータ) (2023-10-05T02:59:48Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation [2.861848675707602]
CASAPoseと呼ばれる新しい単一ステージアーキテクチャを提案する。
RGB画像中の複数の異なるオブジェクトのポーズ推定のための2D-3D対応を1パスで決定する。
高速でメモリ効率が高く、複数のオブジェクトに対して高い精度を実現する。
論文 参考訳(メタデータ) (2022-10-11T10:20:01Z) - Disentangled Representation Learning Using ($\beta$-)VAE and GAN [0.0]
dSpriteデータセットは、必要な実験に必要な機能を提供します。
VAEをGAN(Generative Adversarial Network)と組み合わせてトレーニングした後、隠れたベクトルの各次元が破壊され、各次元の歪みを探索した。
論文 参考訳(メタデータ) (2022-08-09T05:37:06Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。