論文の概要: Improving Scene Graph Generation with Superpixel-Based Interaction
Learning
- arxiv url: http://arxiv.org/abs/2308.02339v1
- Date: Fri, 4 Aug 2023 14:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 12:53:04.532293
- Title: Improving Scene Graph Generation with Superpixel-Based Interaction
Learning
- Title(参考訳): 超画素インタラクション学習によるシーングラフ生成の改善
- Authors: Jingyi Wang, Can Zhang, Jinfa Huang, Botao Ren, Zhidong Deng
- Abstract要約: 本稿では,ボックスレベルでの粗粒度相互作用の軽減を目的とした,SIL(Superpixel-based Interaction Learning)と呼ばれる汎用パラダイムを提案する。
我々のSILは,従来のボックスレベルの方法よりも,スーパーピクセルレベルでのきめ細かいインタラクションを可能にすることを証明している。
提案手法は,既存のボックスレベルのアプローチの性能をプラグアンドプレイ方式で向上するために適用することができる。
- 参考スコア(独自算出の注目度): 16.760066844287046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Scene Graph Generation (SGG) typically model the
relationships among entities utilizing box-level features from pre-defined
detectors. We argue that an overlooked problem in SGG is the coarse-grained
interactions between boxes, which inadequately capture contextual semantics for
relationship modeling, practically limiting the development of the field. In
this paper, we take the initiative to explore and propose a generic paradigm
termed Superpixel-based Interaction Learning (SIL) to remedy coarse-grained
interactions at the box level. It allows us to model fine-grained interactions
at the superpixel level in SGG. Specifically, (i) we treat a scene as a set of
points and cluster them into superpixels representing sub-regions of the scene.
(ii) We explore intra-entity and cross-entity interactions among the
superpixels to enrich fine-grained interactions between entities at an earlier
stage. Extensive experiments on two challenging benchmarks (Visual Genome and
Open Image V6) prove that our SIL enables fine-grained interaction at the
superpixel level above previous box-level methods, and significantly
outperforms previous state-of-the-art methods across all metrics. More
encouragingly, the proposed method can be applied to boost the performance of
existing box-level approaches in a plug-and-play fashion. In particular, SIL
brings an average improvement of 2.0% mR (even up to 3.4%) of baselines for the
PredCls task on Visual Genome, which facilitates its integration into any
existing box-level method.
- Abstract(参考訳): シーングラフ生成(SGG)の最近の進歩は、通常、事前に定義された検出器からボックスレベルの特徴を利用するエンティティ間の関係をモデル化する。
SGGにおける見過ごされた問題はボックス間の粗い粒度の相互作用であり、関係モデリングの文脈意味論を不十分に捉え、フィールドの開発を実質的に制限するものである。
本稿では,ボックスレベルでの粗粒度インタラクションを改善するために,スーパーピクセルベースインタラクション学習(SIL)と呼ばれる汎用パラダイムを探求し,提案する。
これにより、SGGのスーパーピクセルレベルできめ細かい相互作用をモデル化できる。
具体的には
(i)シーンをポイントの集合として扱い、それらをシーンのサブリージョンを表すスーパーピクセルにまとめる。
(ii)早い段階でエンティティ間のきめ細かい相互作用を豊かにするため、スーパーピクセル間のエンティティ内およびクロスエンティティ間相互作用を探索する。
2つの挑戦的ベンチマーク(Visual Genome と Open Image V6)の大規模な実験により、SILは従来のボックスレベルのメソッドよりも細粒度でのインタラクションを可能にし、すべてのメトリクスで従来の最先端メソッドよりも大幅に優れていたことが証明された。
さらに,既存のボックスレベルのアプローチをプラグアンドプレイ方式で高速化するために,提案手法を適用した。
特に、SILは、Visual Genome上のPredClsタスクのベースラインの平均2.0% mR(最大3.4%)の改善をもたらし、既存のボックスレベルのメソッドへの統合を容易にする。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。