論文の概要: Semi-Supervised Panoptic Narrative Grounding
- arxiv url: http://arxiv.org/abs/2310.18142v1
- Date: Fri, 27 Oct 2023 13:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:30:17.205392
- Title: Semi-Supervised Panoptic Narrative Grounding
- Title(参考訳): セミスーパービジョンパノプティカル・ナラティブ・グラウンドディング
- Authors: Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma,
Rongrong Ji
- Abstract要約: セミスーパービジョン・パノラクト・ナラティブ・グラウンディング・ラーニング・スキームについて紹介する。
ラベル付きイメージテキストペアの小さなセットとラベルなしペアのより大きなセットを駆使して、競争的なパフォーマンスを実現する。
我々は、SS-PNG-NW+を用いて、PNGデータセットに関する広範な実験を行い、有望な結果を示した。
- 参考スコア(独自算出の注目度): 73.51401386655414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite considerable progress, the advancement of Panoptic Narrative
Grounding (PNG) remains hindered by costly annotations. In this paper, we
introduce a novel Semi-Supervised Panoptic Narrative Grounding (SS-PNG)
learning scheme, capitalizing on a smaller set of labeled image-text pairs and
a larger set of unlabeled pairs to achieve competitive performance. Unlike
visual segmentation tasks, PNG involves one pixel belonging to multiple
open-ended nouns. As a result, existing multi-class based semi-supervised
segmentation frameworks cannot be directly applied to this task. To address
this challenge, we first develop a novel SS-PNG Network (SS-PNG-NW) tailored to
the SS-PNG setting. We thoroughly investigate strategies such as Burn-In and
data augmentation to determine the optimal generic configuration for the
SS-PNG-NW. Additionally, to tackle the issue of imbalanced pseudo-label
quality, we propose a Quality-Based Loss Adjustment (QLA) approach to adjust
the semi-supervised objective, resulting in an enhanced SS-PNG-NW+. Employing
our proposed QLA, we improve BCE Loss and Dice loss at pixel and mask levels,
respectively. We conduct extensive experiments on PNG datasets, with our
SS-PNG-NW+ demonstrating promising results comparable to fully-supervised
models across all data ratios. Remarkably, our SS-PNG-NW+ outperforms
fully-supervised models with only 30% and 50% supervision data, exceeding their
performance by 0.8% and 1.1% respectively. This highlights the effectiveness of
our proposed SS-PNG-NW+ in overcoming the challenges posed by limited
annotations and enhancing the applicability of PNG tasks. The source code is
available at https://github.com/nini0919/SSPNG.
- Abstract(参考訳): かなりの進歩にもかかわらず、PNG(Panoptic Narrative Grounding)の進歩は、高価なアノテーションによって妨げられている。
本稿では,より小さなラベル付き画像テキストペアとより大きなラベルなしペアを活かし,競争性能を達成するための半教師付きpanoptic narrative grounding (ss-png) 学習方式を提案する。
視覚的セグメンテーションタスクとは異なり、PNGは複数のオープンエンド名詞に属する1つのピクセルを含む。
その結果、既存のマルチクラスベースの半教師付きセグメンテーションフレームワークは、このタスクに直接適用できない。
この課題に対処するため,我々はSS-PNG設定に適した新しいSS-PNGネットワーク(SS-PNG-NW)を開発した。
SS-PNG-NWの最適構成を決定するため,バーンインやデータ拡張などの戦略を徹底的に検討する。
さらに,不均衡な擬似ラベル品質の問題に対処するため,半教師付き目標を調整し,SS-PNG-NW+を改良するQLA(Quality-Based Loss Adjustment)アプローチを提案する。
提案するqlaを用いて,bce損失とdice損失をそれぞれ画素レベルとマスクレベルで改善する。
PNGデータセットに関する広範な実験を行い、SS-PNG-NW+は全データ比で完全に教師されたモデルに匹敵する有望な結果を示す。
注目すべきは、当社のSS-PNG-NW+は、完全な教師付きモデルで30%と50%の監督データで、それぞれ0.8%と1.1%を上回っていることです。
このことは、限定アノテーションによる課題を克服し、PNGタスクの適用性を高める上で、提案したSS-PNG-NW+の有効性を強調している。
ソースコードはhttps://github.com/nini0919/SSPNGで入手できる。
関連論文リスト
- A Modular System for Enhanced Robustness of Multimedia Understanding
Networks via Deep Parametric Estimation [30.904034138920057]
マルチメディア理解タスクでは、破損したサンプルは、機械学習モデルにフィードされるとパフォーマンスが低下するので、重要な課題となる。
我々はSyMPIEを提案し、最小の計算コストで下流マルチメディア理解のための入力データを強化する。
私たちの重要な洞察は、ほとんどの入力汚職は、画像の色チャネルや小さなカーネルを持つ空間フィルタのグローバルな操作によってモデル化できるということです。
論文 参考訳(メタデータ) (2024-02-28T15:24:58Z) - MetaF2N: Blind Image Super-Resolution by Learning Efficient Model
Adaptation from Faces [51.42949911178461]
メタ学習フレームワークにおいて,自然画像全体に対応するためのモデルパラメータを微調整するメタF2Nという手法を提案する。
復元された顔と接地構造とのギャップを考慮すると,低信頼領域の影響を低減するために,異なる位置における損失重みを適応的に予測するMaskNetを配置する。
論文 参考訳(メタデータ) (2023-09-15T02:45:21Z) - Patch-aware Batch Normalization for Improving Cross-domain Robustness [60.159546669021346]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。
パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。
画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-04-06T03:25:42Z) - Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network [39.64953170583401]
Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。
我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。
提案手法は最大9.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-01-09T03:57:14Z) - AdaFace: Quality Adaptive Margin for Face Recognition [56.99208144386127]
本稿では、損失関数、すなわち画像品質における適応性の別の側面を紹介する。
そこで本稿では,画像品質に基づいて異なる難易度を示す新たな損失関数を提案する。
提案手法は,4つのデータセット上でのSoTA(State-of-the-art)による顔認識性能を向上させる。
論文 参考訳(メタデータ) (2022-04-03T01:23:41Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Exploring Smoothness and Class-Separation for Semi-supervised Medical
Image Segmentation [39.068698033394064]
本稿では,半教師付き医用画像分割作業のためのSS-Netを提案する。
ピクセルレベルの滑らかさは、逆方向の摂動の下でモデルに不変な結果を生成するように強制する。
クラス間の分離の制約は、個々のクラスの特徴が対応する高品質のプロトタイプにアプローチすべきである。
論文 参考訳(メタデータ) (2022-03-02T08:38:09Z) - Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly
Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。
両情報間の補完関係を完全に活用するための共同学習戦略を考案する。
提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-05-19T07:31:11Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z) - Pairwise Relation Learning for Semi-supervised Gland Segmentation [90.45303394358493]
病理組織像における腺分節に対するPRS2モデルを提案する。
このモデルはセグメンテーションネットワーク(S-Net)とペア関係ネットワーク(PR-Net)から構成される。
我々は,GlaSデータセットの最近の5つの手法とCRAGデータセットの最近の3つの手法を比較した。
論文 参考訳(メタデータ) (2020-08-06T15:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。