論文の概要: More than the Sum of Its Parts: Ensembling Backbone Networks for
Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2402.06581v1
- Date: Fri, 9 Feb 2024 18:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:49:45.098656
- Title: More than the Sum of Its Parts: Ensembling Backbone Networks for
Few-Shot Segmentation
- Title(参考訳): 部品の総和以上のもの:小ショットセグメンテーションのためのバックボーンネットワークの構築
- Authors: Nico Catalano, Alessandro Maranelli, Agnese Chiatti, Matteo Matteucci
- Abstract要約: 異なるバックボーンから特徴を融合させることで、よりリッチな視覚的特徴を捉えることができるかどうかを検討する。
Independent Voting と Feature Fusion という2つのアンサンブル手法を提案し,比較する。
当社のアプローチは、ワンショットの学習シナリオに挑戦しても、従来の単一バックボーンPANetを標準ベンチマークで上回ります。
- 参考スコア(独自算出の注目度): 49.090592800481616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a key prerequisite to robust image understanding for
applications in \acrlong{ai} and Robotics. \acrlong{fss}, in particular,
concerns the extension and optimization of traditional segmentation methods in
challenging conditions where limited training examples are available. A
predominant approach in \acrlong{fss} is to rely on a single backbone for
visual feature extraction. Choosing which backbone to leverage is a deciding
factor contributing to the overall performance. In this work, we interrogate on
whether fusing features from different backbones can improve the ability of
\acrlong{fss} models to capture richer visual features. To tackle this
question, we propose and compare two ensembling techniques-Independent Voting
and Feature Fusion. Among the available \acrlong{fss} methods, we implement the
proposed ensembling techniques on PANet. The module dedicated to predicting
segmentation masks from the backbone embeddings in PANet avoids trainable
parameters, creating a controlled `in vitro' setting for isolating the impact
of different ensembling strategies. Leveraging the complementary strengths of
different backbones, our approach outperforms the original single-backbone
PANet across standard benchmarks even in challenging one-shot learning
scenarios. Specifically, it achieved a performance improvement of +7.37\% on
PASCAL-5\textsuperscript{i} and of +10.68\% on COCO-20\textsuperscript{i} in
the top-performing scenario where three backbones are combined. These results,
together with the qualitative inspection of the predicted subject masks,
suggest that relying on multiple backbones in PANet leads to a more
comprehensive feature representation, thus expediting the successful
application of \acrlong{fss} methods in challenging, data-scarce environments.
- Abstract(参考訳): セマンティックセグメンテーションは、\acrlong{ai}とロボティクスのアプリケーションのロバストなイメージ理解のための重要な前提条件である。
特に \acrlong{fss} は、限られた訓練例が利用できる困難な条件下での従来のセグメンテーション法の拡張と最適化に関するものである。
acrlong{fss} の主なアプローチは、視覚的な特徴抽出のために単一のバックボーンに依存することである。
どのバックボーンを利用するかを選択することは、全体的なパフォーマンスに寄与する決定要因です。
本研究では,異なるバックボーンから機能を融合させることで,よりリッチな視覚的特徴を捉えることができるかどうかを問う。
この問題に取り組むため,我々は2つのセンシング手法-独立投票法と機能融合法を提案,比較する。
利用可能な \acrlong{fss} メソッドのうち、提案手法を panet 上で実装する。
PANetのバックボーン埋め込みからセグメンテーションマスクを予測するためのモジュールは、トレーニング可能なパラメータを避け、異なるアンサンブル戦略の影響を分離するための制御された‘in vitro’設定を生成する。
異なるバックボーンの補完的な強みを活用することで、我々のアプローチは、ワンショット学習シナリオに挑戦しても、標準ベンチマークでオリジナルのシングルバックボーンpanetを上回っています。
具体的には、PASCAL-5\textsuperscript{i}で+7.37\%、COCO-20\textsuperscript{i}で+10.68\%のパフォーマンス向上を実現した。
これらの結果は、予測された被写体マスクの質的検査とともに、panetの複数のバックボーンに依存することがより包括的な特徴表現につながることを示唆し、挑戦的なデータ収集環境での \acrlong{fss} メソッドの成功を早めた。
関連論文リスト
- Face Forgery Detection with Elaborate Backbone [50.914676786151574]
Face Forgery Detectionは、デジタル顔が本物か偽物かを決定することを目的としている。
以前のFFDモデルは、偽造の手がかりを表現および抽出するために既存のバックボーンを直接使用していた。
本稿では,実顔データセットを用いた自己教師型学習でVTネットワークを活用することで,バックボーンの事前トレーニングを提案する。
次に、多様な偽の手がかりを抽出するバックボーンの能力を強化するために、競争力のあるバックボーンの微調整フレームワークを構築します。
論文 参考訳(メタデータ) (2024-09-25T13:57:16Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - GaitStrip: Gait Recognition via Effective Strip-based Feature
Representations and Multi-Level Framework [34.397404430838286]
本稿では,様々なレベルの歩行情報を抽出するために,GaitStripという名前のストリップベースマルチレベル歩行認識ネットワークを提案する。
具体的には、私たちの高レベルブランチは歩行シーケンスのコンテキストを探求し、低レベルブランチは詳細な姿勢変化に焦点を当てています。
我々のGaitStripは、通常の歩行条件と複雑な歩行条件の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-03-08T09:49:48Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - CFNet: Learning Correlation Functions for One-Stage Panoptic
Segmentation [46.252118473248316]
バックボーンの特徴を高めるために,まず,異なる場所のセマンティックレベルとインスタンスレベルの相関関係を推定することを提案する。
次に,改良された識別特徴をそれぞれ対応するセグメンテーションヘッドに供給する。
PQは45.1ドル%、ADE20kは32.6ドル%である。
論文 参考訳(メタデータ) (2022-01-13T05:31:14Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。