論文の概要: VReBERT: A Simple and Flexible Transformer for Visual Relationship
Detection
- arxiv url: http://arxiv.org/abs/2206.09111v1
- Date: Sat, 18 Jun 2022 04:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 15:42:16.817584
- Title: VReBERT: A Simple and Flexible Transformer for Visual Relationship
Detection
- Title(参考訳): VReBERT:視覚関係検出のためのシンプルで柔軟な変換器
- Authors: Yu Cui, Moshiur Farazi
- Abstract要約: 多段階学習戦略を用いた視覚的関係検出のためのBERT型変圧器モデルを提案する。
我々の単純なBERTライクなモデルは、予測予測において最先端のVRDモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Relationship Detection (VRD) impels a computer vision model to 'see'
beyond an individual object instance and 'understand' how different objects in
a scene are related. The traditional way of VRD is first to detect objects in
an image and then separately predict the relationship between the detected
object instances. Such a disjoint approach is prone to predict redundant
relationship tags (i.e., predicate) between the same object pair with similar
semantic meaning, or incorrect ones that have a similar meaning to the ground
truth but are semantically incorrect. To remedy this, we propose to jointly
train a VRD model with visual object features and semantic relationship
features. To this end, we propose VReBERT, a BERT-like transformer model for
Visual Relationship Detection with a multi-stage training strategy to jointly
process visual and semantic features. We show that our simple BERT-like model
is able to outperform the state-of-the-art VRD models in predicate prediction.
Furthermore, we show that by using the pre-trained VReBERT model, our model
pushes the state-of-the-art zero-shot predicate prediction by a significant
margin (+8.49 R@50 and +8.99 R@100).
- Abstract(参考訳): 視覚関係検出(vrd)は、コンピュータビジョンモデルに個々のオブジェクトインスタンスを超えて「見る」こと、シーン内の異なるオブジェクトがどのように関連しているかを「理解」させる。
従来のVRDの方法は、まず画像内のオブジェクトを検出し、検出されたオブジェクトインスタンス間の関係を別々に予測する。
このような不一致のアプローチは、同一のオブジェクト対と類似のセマンティック意味を持つ冗長な関係タグ(つまり述語)を予測しがちである。
そこで本稿では,VRDモデルに視覚オブジェクトの特徴と意味的関係性を持たせることを提案する。
そこで本研究では,視覚的特徴と意味的特徴を協調的に処理する多段階学習戦略を用いた,視覚的関係検出のためのBERTライクなトランスフォーマモデルであるVReBERTを提案する。
我々の単純なBERTライクなモデルは、予測予測において最先端のVRDモデルより優れていることを示す。
さらに,事前学習したVReBERTモデルを用いて,最先端のゼロショット述語予測を有意差(+8.49 R@50および+8.99 R@100)で推し進めることを示した。
関連論文リスト
- EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。