論文の概要: Semi-Supervised Panoptic Narrative Grounding
- arxiv url: http://arxiv.org/abs/2310.18142v1
- Date: Fri, 27 Oct 2023 13:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:30:17.205392
- Title: Semi-Supervised Panoptic Narrative Grounding
- Title(参考訳): セミスーパービジョンパノプティカル・ナラティブ・グラウンドディング
- Authors: Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma,
Rongrong Ji
- Abstract要約: セミスーパービジョン・パノラクト・ナラティブ・グラウンディング・ラーニング・スキームについて紹介する。
ラベル付きイメージテキストペアの小さなセットとラベルなしペアのより大きなセットを駆使して、競争的なパフォーマンスを実現する。
我々は、SS-PNG-NW+を用いて、PNGデータセットに関する広範な実験を行い、有望な結果を示した。
- 参考スコア(独自算出の注目度): 73.51401386655414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite considerable progress, the advancement of Panoptic Narrative
Grounding (PNG) remains hindered by costly annotations. In this paper, we
introduce a novel Semi-Supervised Panoptic Narrative Grounding (SS-PNG)
learning scheme, capitalizing on a smaller set of labeled image-text pairs and
a larger set of unlabeled pairs to achieve competitive performance. Unlike
visual segmentation tasks, PNG involves one pixel belonging to multiple
open-ended nouns. As a result, existing multi-class based semi-supervised
segmentation frameworks cannot be directly applied to this task. To address
this challenge, we first develop a novel SS-PNG Network (SS-PNG-NW) tailored to
the SS-PNG setting. We thoroughly investigate strategies such as Burn-In and
data augmentation to determine the optimal generic configuration for the
SS-PNG-NW. Additionally, to tackle the issue of imbalanced pseudo-label
quality, we propose a Quality-Based Loss Adjustment (QLA) approach to adjust
the semi-supervised objective, resulting in an enhanced SS-PNG-NW+. Employing
our proposed QLA, we improve BCE Loss and Dice loss at pixel and mask levels,
respectively. We conduct extensive experiments on PNG datasets, with our
SS-PNG-NW+ demonstrating promising results comparable to fully-supervised
models across all data ratios. Remarkably, our SS-PNG-NW+ outperforms
fully-supervised models with only 30% and 50% supervision data, exceeding their
performance by 0.8% and 1.1% respectively. This highlights the effectiveness of
our proposed SS-PNG-NW+ in overcoming the challenges posed by limited
annotations and enhancing the applicability of PNG tasks. The source code is
available at https://github.com/nini0919/SSPNG.
- Abstract(参考訳): かなりの進歩にもかかわらず、PNG(Panoptic Narrative Grounding)の進歩は、高価なアノテーションによって妨げられている。
本稿では,より小さなラベル付き画像テキストペアとより大きなラベルなしペアを活かし,競争性能を達成するための半教師付きpanoptic narrative grounding (ss-png) 学習方式を提案する。
視覚的セグメンテーションタスクとは異なり、PNGは複数のオープンエンド名詞に属する1つのピクセルを含む。
その結果、既存のマルチクラスベースの半教師付きセグメンテーションフレームワークは、このタスクに直接適用できない。
この課題に対処するため,我々はSS-PNG設定に適した新しいSS-PNGネットワーク(SS-PNG-NW)を開発した。
SS-PNG-NWの最適構成を決定するため,バーンインやデータ拡張などの戦略を徹底的に検討する。
さらに,不均衡な擬似ラベル品質の問題に対処するため,半教師付き目標を調整し,SS-PNG-NW+を改良するQLA(Quality-Based Loss Adjustment)アプローチを提案する。
提案するqlaを用いて,bce損失とdice損失をそれぞれ画素レベルとマスクレベルで改善する。
PNGデータセットに関する広範な実験を行い、SS-PNG-NW+は全データ比で完全に教師されたモデルに匹敵する有望な結果を示す。
注目すべきは、当社のSS-PNG-NW+は、完全な教師付きモデルで30%と50%の監督データで、それぞれ0.8%と1.1%を上回っていることです。
このことは、限定アノテーションによる課題を克服し、PNGタスクの適用性を高める上で、提案したSS-PNG-NW+の有効性を強調している。
ソースコードはhttps://github.com/nini0919/SSPNGで入手できる。
関連論文リスト
- Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - W-Net: A Facial Feature-Guided Face Super-Resolution Network [8.037821981254389]
Face Super-Resolutionは、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。
既存手法は, 再建効率が低く, 事前情報の利用が不十分であるため, 理想的ではない。
本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-02T09:05:40Z) - MetaF2N: Blind Image Super-Resolution by Learning Efficient Model
Adaptation from Faces [51.42949911178461]
メタ学習フレームワークにおいて,自然画像全体に対応するためのモデルパラメータを微調整するメタF2Nという手法を提案する。
復元された顔と接地構造とのギャップを考慮すると,低信頼領域の影響を低減するために,異なる位置における損失重みを適応的に予測するMaskNetを配置する。
論文 参考訳(メタデータ) (2023-09-15T02:45:21Z) - Patch-aware Batch Normalization for Improving Cross-domain Robustness [55.06956781674986]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。
パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。
画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-04-06T03:25:42Z) - Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network [39.64953170583401]
Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。
我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。
提案手法は最大9.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-01-09T03:57:14Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly
Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。
両情報間の補完関係を完全に活用するための共同学習戦略を考案する。
提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-05-19T07:31:11Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。