論文の概要: Structured Sparse R-CNN for Direct Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2106.10815v1
- Date: Mon, 21 Jun 2021 02:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 04:35:49.933429
- Title: Structured Sparse R-CNN for Direct Scene Graph Generation
- Title(参考訳): 直列グラフ生成のための構造スパースR-CNN
- Authors: Yao Teng, Limin Wang
- Abstract要約: 本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 16.646937866282922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graph generation (SGG) is to detect entity pairs with their relations
in an image. Existing SGG approaches often use multi-stage pipelines to
decompose this task into object detection, relation graph construction, and
dense or dense-to-sparse relation prediction. Instead, from a perspective on
SGG as a direct set prediction, this paper presents a simple, sparse, and
unified framework for relation detection, termed as Structured Sparse R-CNN.
The key to our method is a set of learnable triplet queries and structured
triplet detectors which could be jointly optimized from the training set in an
end-to-end manner. Specifically, the triplet queries encode the general prior
for entity pair locations, categories, and their relations, and provide an
initial guess of relation detection for subsequent refinement. The triplet
detector presents a cascaded dynamic head design to progressively refine the
results of relation detection. In addition, to relieve the training difficulty
of Structured Sparse R-CNN, we propose a relaxed and enhanced training strategy
based on knowledge distillation from a Siamese Sparse R-CNN. We also propose
adaptive focusing parameter and average logit approach for imbalance data
distribution. We perform experiments on two benchmarks: Visual Genome and Open
Images, and the results demonstrate that our method achieves the
state-of-the-art performance. Meanwhile, we perform in-depth ablation studies
to provide insights on our structured modeling in triplet detector design and
training strategies.
- Abstract(参考訳): シーングラフ生成(SGG)とは、画像内の関係を持つエンティティペアを検出することである。
既存のSGGアプローチでは、このタスクをオブジェクト検出、関係グラフの構築、あるいは密度とスパースの関係予測に分解するために、多段階パイプラインを使用することが多い。
そこで本研究では,SGGを直接セット予測の観点から,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,スパースで統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
特に、三重項クエリは、エンティティペアの位置、カテゴリ、それらの関係に関する一般的な事前をエンコードし、その後の改良のために関係検出の最初の推測を提供する。
三重項検出器はカスケードされた動的ヘッド設計を示し、関係検出の結果を徐々に洗練する。
さらに,構造化スパースr-cnnの訓練難易度を緩和するために,シャム語スパースr-cnnからの知識蒸留に基づく緩和・強化トレーニング戦略を提案する。
また,不均衡データ分布に対する適応焦点パラメータと平均ロジット法を提案する。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
一方、三重項検出器の設計および訓練戦略における構造モデリングの知見を提供するため、深部アブレーション研究を行っている。
関連論文リスト
- GraphRelate3D: Context-Dependent 3D Object Detection with Inter-Object Relationship Graphs [13.071451453118783]
グラフ生成器とグラフニューラルネットワーク(GNN)から構成されるオブジェクト関係モジュールを導入し、特定のパターンから空間情報を学習し、3次元オブジェクト検出を改善する。
提案手法は,KITTI検証セットにおけるPV-RCNNのベースラインを,軽度,中等度,難易度でそれぞれ0.82%,0.74%,0.58%改善する。
論文 参考訳(メタデータ) (2024-05-10T19:18:02Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Adaptive Graph Convolutional Network with Attention Graph Clustering for
Co-saliency Detection [35.23956785670788]
注目グラフクラスタリング(GCAGC)を用いた新しい適応グラフ畳み込みネットワークを提案する。
注意グラフクラスタリングアルゴリズムを開発し、教師なしの方法で全前景オブジェクトから共通オブジェクトを識別する。
提案手法を3つのコサリエンシ検出ベンチマークデータセット上で評価した。
論文 参考訳(メタデータ) (2020-03-13T09:35:59Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。