論文の概要: Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network
- arxiv url: http://arxiv.org/abs/2301.03160v1
- Date: Mon, 9 Jan 2023 03:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:09:09.818141
- Title: Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network
- Title(参考訳): エンド・ツー・エンドグラウンドネットワークによる実時間パノプティブ・グラウンディングの実現に向けて
- Authors: Haowei Wang, Jiayi Ji, Yiyi Zhou, Yongjian Wu, Xiaoshuai Sun
- Abstract要約: Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。
我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。
提案手法は最大9.4%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 39.64953170583401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic Narrative Grounding (PNG) is an emerging cross-modal grounding task,
which locates the target regions of an image corresponding to the text
description. Existing approaches for PNG are mainly based on a two-stage
paradigm, which is computationally expensive. In this paper, we propose a
one-stage network for real-time PNG, termed End-to-End Panoptic Narrative
Grounding network (EPNG), which directly generates masks for referents.
Specifically, we propose two innovative designs, i.e., Locality-Perceptive
Attention (LPA) and a bidirectional Semantic Alignment Loss (SAL), to properly
handle the many-to-many relationship between textual expressions and visual
objects. LPA embeds the local spatial priors into attention modeling, i.e., a
pixel may belong to multiple masks at different scales, thereby improving
segmentation. To help understand the complex semantic relationships, SAL
proposes a bidirectional contrastive objective to regularize the semantic
consistency inter modalities. Extensive experiments on the PNG benchmark
dataset demonstrate the effectiveness and efficiency of our method. Compared to
the single-stage baseline, our method achieves a significant improvement of up
to 9.4% accuracy. More importantly, our EPNG is 10 times faster than the
two-stage model. Meanwhile, the generalization ability of EPNG is also
validated by zero-shot experiments on other grounding tasks.
- Abstract(参考訳): Panoptic Narrative Grounding (PNG)は、テキスト記述に対応する画像のターゲット領域を特定する、新たなクロスモーダルグラウンドタスクである。
PNGの既存のアプローチは主に計算コストのかかる2段階のパラダイムに基づいている。
本稿では,リアルタイムPNGのためのワンステージネットワーク,EPNG(End-to-End Panoptic Narrative Grounding Network)を提案する。
具体的には,テキスト表現と視覚オブジェクトの多対多関係を適切に扱うために,lpa(locality-perceptive attention)とsal(bidirectional semantic alignment loss)という2つの革新的な設計を提案する。
lpaは局所的な空間的プリエントをアテンションモデリングに組み込む。つまり、ピクセルは異なるスケールで複数のマスクに属し、セグメンテーションを改善する。
複雑な意味的関係を理解するために、salは意味的一貫性の相互モダリティを正則化するための双方向の対比目的を提案している。
PNGベンチマークデータセットの大規模な実験により,本手法の有効性と有効性を示した。
単段ベースラインと比較すると,最大9.4%の精度向上を実現している。
さらに重要なのは、EPNGは2段階モデルより10倍高速です。
一方、EPNGの一般化能力は、他の接地作業におけるゼロショット実験によっても検証される。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Fine-grained Background Representation for Weakly Supervised Semantic Segmentation [35.346567242839065]
本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。
そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。
本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2024-06-22T06:45:25Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。