Fugu-MT 論文翻訳(概要): Semi-Supervised Panoptic Narrative Grounding

論文の概要: Semi-Supervised Panoptic Narrative Grounding

arxiv url: http://arxiv.org/abs/2310.18142v1
Date: Fri, 27 Oct 2023 13:47:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 13:30:17.205392
Title: Semi-Supervised Panoptic Narrative Grounding
Title（参考訳）: セミスーパービジョンパノプティカル・ナラティブ・グラウンドディング
Authors: Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma, Rongrong Ji
Abstract要約: セミスーパービジョン・パノラクト・ナラティブ・グラウンディング・ラーニング・スキームについて紹介する。ラベル付きイメージテキストペアの小さなセットとラベルなしペアのより大きなセットを駆使して、競争的なパフォーマンスを実現する。我々は、SS-PNG-NW+を用いて、PNGデータセットに関する広範な実験を行い、有望な結果を示した。
参考スコア（独自算出の注目度）: 73.51401386655414
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite considerable progress, the advancement of Panoptic Narrative Grounding (PNG) remains hindered by costly annotations. In this paper, we introduce a novel Semi-Supervised Panoptic Narrative Grounding (SS-PNG) learning scheme, capitalizing on a smaller set of labeled image-text pairs and a larger set of unlabeled pairs to achieve competitive performance. Unlike visual segmentation tasks, PNG involves one pixel belonging to multiple open-ended nouns. As a result, existing multi-class based semi-supervised segmentation frameworks cannot be directly applied to this task. To address this challenge, we first develop a novel SS-PNG Network (SS-PNG-NW) tailored to the SS-PNG setting. We thoroughly investigate strategies such as Burn-In and data augmentation to determine the optimal generic configuration for the SS-PNG-NW. Additionally, to tackle the issue of imbalanced pseudo-label quality, we propose a Quality-Based Loss Adjustment (QLA) approach to adjust the semi-supervised objective, resulting in an enhanced SS-PNG-NW+. Employing our proposed QLA, we improve BCE Loss and Dice loss at pixel and mask levels, respectively. We conduct extensive experiments on PNG datasets, with our SS-PNG-NW+ demonstrating promising results comparable to fully-supervised models across all data ratios. Remarkably, our SS-PNG-NW+ outperforms fully-supervised models with only 30% and 50% supervision data, exceeding their performance by 0.8% and 1.1% respectively. This highlights the effectiveness of our proposed SS-PNG-NW+ in overcoming the challenges posed by limited annotations and enhancing the applicability of PNG tasks. The source code is available at https://github.com/nini0919/SSPNG.
Abstract（参考訳）: かなりの進歩にもかかわらず、PNG(Panoptic Narrative Grounding)の進歩は、高価なアノテーションによって妨げられている。本稿では,より小さなラベル付き画像テキストペアとより大きなラベルなしペアを活かし,競争性能を達成するための半教師付きpanoptic narrative grounding (ss-png) 学習方式を提案する。視覚的セグメンテーションタスクとは異なり、PNGは複数のオープンエンド名詞に属する1つのピクセルを含む。その結果、既存のマルチクラスベースの半教師付きセグメンテーションフレームワークは、このタスクに直接適用できない。この課題に対処するため,我々はSS-PNG設定に適した新しいSS-PNGネットワーク(SS-PNG-NW)を開発した。 SS-PNG-NWの最適構成を決定するため,バーンインやデータ拡張などの戦略を徹底的に検討する。さらに,不均衡な擬似ラベル品質の問題に対処するため,半教師付き目標を調整し,SS-PNG-NW+を改良するQLA(Quality-Based Loss Adjustment)アプローチを提案する。提案するqlaを用いて,bce損失とdice損失をそれぞれ画素レベルとマスクレベルで改善する。 PNGデータセットに関する広範な実験を行い、SS-PNG-NW+は全データ比で完全に教師されたモデルに匹敵する有望な結果を示す。注目すべきは、当社のSS-PNG-NW+は、完全な教師付きモデルで30%と50%の監督データで、それぞれ0.8%と1.1%を上回っていることです。このことは、限定アノテーションによる課題を克服し、PNGタスクの適用性を高める上で、提案したSS-PNG-NW+の有効性を強調している。ソースコードはhttps://github.com/nini0919/SSPNGで入手できる。

関連論文リスト

PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition [54.642714288448744]
PETALfaceは、PEFTのパワーを低解像度の顔認識に活用した最初の作品である。バックボーンに2つの低ランク適応モジュールを導入し、入力画像の品質に基づいて重みを調整し、ギャラリーとプローブ画像の品質の違いを考慮に入れた。実験により,提案手法は高分解能・混合品質データセットの性能を保ちながら,低分解能データセットの完全な微調整よりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-10T18:59:45Z)
Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。 DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文参考訳（メタデータ） (2024-08-04T16:09:46Z)
Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。 PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文参考訳（メタデータ） (2024-07-07T13:06:34Z)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳（メタデータ） (2024-06-12T17:59:49Z)
W-Net: A Facial Feature-Guided Face Super-Resolution Network [8.037821981254389]
Face Super-Resolutionは、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。既存手法は, 再建効率が低く, 事前情報の利用が不十分であるため, 理想的ではない。本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-06-02T09:05:40Z)
MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from Faces [51.42949911178461]
メタ学習フレームワークにおいて,自然画像全体に対応するためのモデルパラメータを微調整するメタF2Nという手法を提案する。復元された顔と接地構造とのギャップを考慮すると,低信頼領域の影響を低減するために,異なる位置における損失重みを適応的に予測するMaskNetを配置する。
論文参考訳（メタデータ） (2023-09-15T02:45:21Z)
Patch-aware Batch Normalization for Improving Cross-domain Robustness [55.06956781674986]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-04-06T03:25:42Z)
Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network [39.64953170583401]
Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。提案手法は最大9.4%の精度向上を実現している。
論文参考訳（メタデータ） (2023-01-09T03:57:14Z)
Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。 SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。 Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文参考訳（メタデータ） (2022-03-19T09:19:55Z)
Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。両情報間の補完関係を完全に活用するための共同学習戦略を考案する。提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文参考訳（メタデータ） (2021-05-19T07:31:11Z)
Large Scale Image Completion via Co-Modulated Generative Adversarial Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文参考訳（メタデータ） (2021-03-18T17:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。