Fugu-MT 論文翻訳(概要): MC-PanDA: Mask Confidence for Panoptic Domain Adaptation

論文の概要: MC-PanDA: Mask Confidence for Panoptic Domain Adaptation

arxiv url: http://arxiv.org/abs/2407.14110v1
Date: Fri, 19 Jul 2024 08:28:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 18:23:52.944845
Title: MC-PanDA: Mask Confidence for Panoptic Domain Adaptation
Title（参考訳）: MC-PanDA:Panoptic Domain Adaptationにおけるマスク信頼度
Authors: Ivan Martinović, Josip Šarić, Siniša Šegvić,
Abstract要約: 本稿では,マスク変圧器の顕著な能力を利用して,予測の不確実性を推定することを提案する。提案手法は, 教師の予測の微粒化を活かして, 雑音増幅を回避する。 Synthia to Cityscapesの47.4 PQについて報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Domain adaptive panoptic segmentation promises to resolve the long tail of corner cases in natural scene understanding. Previous state of the art addresses this problem with cross-task consistency, careful system-level optimization and heuristic improvement of teacher predictions. In contrast, we propose to build upon remarkable capability of mask transformers to estimate their own prediction uncertainty. Our method avoids noise amplification by leveraging fine-grained confidence of panoptic teacher predictions. In particular, we modulate the loss with mask-wide confidence and discourage back-propagation in pixels with uncertain teacher or confident student. Experimental evaluation on standard benchmarks reveals a substantial contribution of the proposed selection techniques. We report 47.4 PQ on Synthia to Cityscapes, which corresponds to an improvement of 6.2 percentage points over the state of the art. The source code is available at https://github.com/helen1c/MC-PanDA.
Abstract（参考訳）: ドメイン適応型パノプティックセグメンテーションは、自然なシーン理解においてコーナーケースの長い尾を解消することを約束する。従来の最先端技術では、クロスタスク一貫性、注意深いシステムレベルの最適化、教師予測のヒューリスティックな改善などによってこの問題に対処している。対照的に,マスク変圧器の顕著な能力を利用して,予測の不確実性を推定することを提案する。提案手法は, 教師の予測の微粒化を活かして, 雑音増幅を回避する。特に,不確実な教師や自信ある学生を対象とする画素のマスク幅の信頼度とバックプロパゲーションの低下を補正する。標準ベンチマーク実験の結果,提案手法の有効性が示唆された。本報告では,Synthia to Cityscapesの47.4PQについて報告する。ソースコードはhttps://github.com/helen1c/MC-PanDAで入手できる。

関連論文リスト

Teaching in adverse scenes: a statistically feedback-driven threshold and mask adjustment teacher-student framework for object detection in UAV images under adverse scenes [22.941247028439477]
Unsupervised Domain Adaptation (UDA)は、ソースとターゲットのドメイン間のドメインギャップに起因するパフォーマンス劣化を効果的に軽減する。しかし、既存のUDA研究は自然画像や鮮明なUAV画像に基づいている。本稿では,UAVオブジェクト検出のための最初のベンチマークとして,統計的フィードバック駆動閾値とマスク調整教師学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-12T09:21:58Z)
The Missing Point in Vision Transformers for Universal Image Segmentation [17.571552686063335]
マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。 ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。 COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
論文参考訳（メタデータ） (2025-05-26T10:29:13Z)
AUKT: Adaptive Uncertainty-Guided Knowledge Transfer with Conformal Prediction [38.20651868834144]
本研究では,教師の予測の不確実性に基づいて,教師の指導への依存度を動的に調整する新しい枠組みを提案する。提案手法は,画像分類,模倣誘導型強化学習,自律運転など多岐にわたる。
論文参考訳（メタデータ） (2025-02-23T22:39:19Z)
BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation [30.435971066422706]
最先端のCLIPアダプタの識別性能は,その不確実性評価能力と必ずしも相関しないことを示す。ベイズ推定を利用して1点ではなく全確率分布を推定するベイズアダプタを導入する。本手法は, キャリブレーションと選択的分類において, 精度の高い不確実性推定値を得る。
論文参考訳（メタデータ） (2024-12-12T20:48:06Z)
Semi-supervised 2D Human Pose Estimation via Adaptive Keypoint Masking [2.297586471170049]
本稿では,サンプル中の情報を完全にマイニングし,より優れた推定性能が得られる適応型キーポイントマスキング法を提案する。提案手法の有効性をCOCOとMPIIで検証し,最先端の半教師によるポーズ推定をそれぞれ5.2%と0.3%で上回った。
論文参考訳（メタデータ） (2024-04-23T08:41:50Z)
Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文参考訳（メタデータ） (2023-12-21T10:27:52Z)
Regressor-Segmenter Mutual Prompt Learning for Crowd Counting [70.49246560246736]
本稿では,アノテーションの差によるバイアスや不正確性を解決するために,相互学習(mPrompt)を提案する。実験により、mPromptは平均誤差(MAE)を著しく減少させることが示された。
論文参考訳（メタデータ） (2023-12-04T07:53:59Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文参考訳（メタデータ） (2023-04-12T15:38:23Z)
Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文参考訳（メタデータ） (2020-09-16T06:33:35Z)
Deep Semi-supervised Knowledge Distillation for Overlapping Cervical Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文参考訳（メタデータ） (2020-07-21T13:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。