Fugu-MT 論文翻訳(概要): A Simple and Generalist Approach for Panoptic Segmentation

論文の概要: A Simple and Generalist Approach for Panoptic Segmentation

arxiv url: http://arxiv.org/abs/2408.16504v2
Date: Fri, 07 Mar 2025 13:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.617757
Title: A Simple and Generalist Approach for Panoptic Segmentation
Title（参考訳）: パノプティカルセグメンテーションのためのシンプルで汎用的なアプローチ
Authors: Nedyalko Prisadnikov, Wouter Van Gansbeke, Danda Pani Paudel, Luc Van Gool,
Abstract要約: 本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
参考スコア（独自算出の注目度）: 57.94892855772925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Panoptic segmentation is an important computer vision task, where the current state-of-the-art solutions require specialized components to perform well. We propose a simple generalist framework based on a deep encoder - shallow decoder architecture with per-pixel prediction. Essentially fine-tuning a massively pretrained image model with minimal additional components. Naively this method does not yield good results. We show that this is due to imbalance during training and propose a novel method for reducing it - centroid regression in the space of spectral positional embeddings. Our method achieves panoptic quality (PQ) of 55.1 on the challenging MS-COCO dataset, state-of-the-art performance among generalist methods.
Abstract（参考訳）: パノプティックセグメンテーション(英: Panoptic segmentation)は、現在の最先端のソリューションが機能するために特別なコンポーネントを必要とする重要なコンピュータビジョンタスクである。本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。基本的には、最小限の追加コンポーネントでトレーニング済みの膨大なイメージモデルを微調整する。この方法は必ずしも良い結果を出さない。これはトレーニング中の不均衡に起因することを示し、スペクトル位置埋め込みの空間におけるセントロイド回帰を減少させる新しい方法を提案する。提案手法は,MS-COCOデータセットに対する55.1のパノプティクス品質(PQ)を実現する。

関連論文リスト

Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳（メタデータ） (2024-06-17T13:49:12Z)
Space-Variant Total Variation boosted by learning techniques in few-view tomographic imaging [0.0]
本稿では,未決定の線形逆問題に対する空間変動正規化モデルの開発に焦点をあてる。提案モデルの主な目的は,ディノベーションと細部・縁の保存のバランスを良くすることである。畳み込みニューラルネットワークは、トレーニングにおいて弾性損失関数を用いて、基底真理像とその勾配を近似するように設計されている。
論文参考訳（メタデータ） (2024-04-25T08:58:41Z)
Semantic Segmentation Refiner for Ultrasound Applications with Zero-Shot Foundation Models [1.8142288667655782]
本稿では,抽象的な形状を分割するセグメンテーション基礎モデルの能力を利用した,プロンプトレスセグメンテーション手法を提案する。本手法の利点は,小型筋骨格超音波画像データセットを用いた実験で明らかにされた。
論文参考訳（メタデータ） (2024-04-25T04:21:57Z)
Panoptic Out-of-Distribution Segmentation [11.388678390784195]
連立画素レベルのセマンティック・イン・ディストリビューションとインスタンス予測を用いたアウト・オブ・ディストリビューション分類のためのパノプティカル・アウト・オブ・ディストリビューションを提案する。データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。
論文参考訳（メタデータ） (2023-10-18T08:38:31Z)
SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-23T20:55:11Z)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。 PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳（メタデータ） (2023-03-21T15:34:50Z)
Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文参考訳（メタデータ） (2023-02-28T14:01:01Z)
Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。 5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文参考訳（メタデータ） (2023-02-03T13:50:25Z)
Improving Generalization in Federated Learning by Seeking Flat Minima [23.937135834522145]
フェデレートされた設定で訓練されたモデルは、しばしば劣化したパフォーマンスに悩まされ、一般化に失敗する。本研究では,損失の幾何レンズとヘッセン固有スペクトルを用いて,そのような挙動を考察する。損失面のシャープさと一般化ギャップを接続する先行研究により,サーバ側のシャープネス・アウェア・最小化 (SAM) や適応バージョン (ASAM) をローカルにトレーニングすることで,一般化を大幅に改善できることが示されている。
論文参考訳（メタデータ） (2022-03-22T16:01:04Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)
Dense Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
本稿では,高密度ガウス過程(GP)回帰に基づく数発のセグメンテーション法を提案する。 GPの高次元出力空間を学習するために,提案手法のエンドツーエンド学習機能を利用する。提案手法では,PASCAL-5$i$とCOCO-20$i$のベンチマークで,1ショットと5ショットのFSSをそれぞれ新たな最先端に設定する。
論文参考訳（メタデータ） (2021-10-07T17:57:54Z)
Deep Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
少数ショットのセグメンテーションは難しい作業であり、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。ガウス過程(GP)回帰に基づく数ショット学習者定式化を提案する。 PASCAL-5i と COCO-20i では mIoU スコアが68.1 と 49.8 である。
論文参考訳（メタデータ） (2021-03-30T17:56:32Z)
Attention-Based Neural Networks for Chroma Intra Prediction in Video Coding [13.638411611516172]
この研究は、クロマイントラプレディションのための注意に基づくアーキテクチャの複雑さを低減することに焦点を当てている。推論過程の複雑さを低減するために,新しいサイズに依存しないマルチモデル手法を提案する。本稿では,提案した予測アーキテクチャの複雑さのオーバーヘッドを軽減するため,単純化の集合について述べる。
論文参考訳（メタデータ） (2021-02-09T18:01:22Z)
DONet: Dual Objective Networks for Skin Lesion Segmentation [77.9806410198298]
本稿では,皮膚病変のセグメンテーションを改善するために,Dual Objective Networks (DONet) という,シンプルで効果的なフレームワークを提案する。我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。皮膚内視鏡画像における多種多様な病変のスケールと形状の課題に対処するために,再帰的コンテキスト符号化モジュール(RCEM)を提案する。
論文参考訳（メタデータ） (2020-08-19T06:02:46Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)
The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-16T08:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。