論文の概要: MARS: a Multimodal Alignment and Ranking System for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2504.07942v1
- Date: Thu, 10 Apr 2025 17:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:39.762040
- Title: MARS: a Multimodal Alignment and Ranking System for Few-Shot Segmentation
- Title(参考訳): MARS:Few-Shotセグメンテーションのためのマルチモーダルアライメントとランキングシステム
- Authors: Nico Catalano, Stefano Samele, Paolo Pertino, Matteo Matteucci,
- Abstract要約: 我々は,マルチモーダルキューを利用してマスクの提案を頑健にフィルタリング・マージする,プラグアンドプレイランキングシステムMARSを提案する。
ローカルおよびグローバルレベルで計算されたマルチモーダルスコアを用いて提案手法を評価する。
- 参考スコア(独自算出の注目度): 4.09225917049674
- License:
- Abstract: Current Few Shot Segmentation literature lacks a mask selection method that goes beyond visual similarity between the query and example images, leading to suboptimal predictions. We present MARS, a plug-and-play ranking system that leverages multimodal cues to filter and merge mask proposals robustly. Starting from a set of mask predictions for a single query image, we score, filter, and merge them to improve results. Proposals are evaluated using multimodal scores computed at local and global levels. Extensive experiments on COCO-20i, Pascal-5i, LVIS-92i, and FSS-1000 demonstrate that integrating all four scoring components is crucial for robust ranking, validating our contribution. As MARS can be effortlessly integrated with various mask proposal systems, we deploy it across a wide range of top-performer methods and achieve new state-of-the-art results on multiple existing benchmarks. Code will be available upon acceptance.
- Abstract(参考訳): 現在のFew Shot Segmentationの文献には、クエリとサンプルイメージの視覚的類似性を超えたマスク選択方法が欠けており、最適以下の予測につながっている。
我々は,マルチモーダルキューを利用してマスクの提案を頑健にフィルタリング・マージする,プラグアンドプレイランキングシステムMARSを提案する。
単一のクエリイメージのマスク予測セットから始めて、スコア、フィルタ、マージして結果を改善する。
ローカルおよびグローバルレベルで計算されたマルチモーダルスコアを用いて提案手法を評価する。
COCO-20i, Pascal-5i, LVIS-92i, FSS-1000の総合的な実験により, 4つのスコアリング成分の統合がロバストなランキングに不可欠であることが実証された。
MARSは様々なマスク提案システムとシームレスに統合できるため、様々なトップパフォーマンス手法にまたがってデプロイし、複数の既存ベンチマークで新しい最先端結果を達成する。
コードは受理後利用可能になる。
関連論文リスト
- Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Action Selection Learning for Multi-label Multi-view Action Recognition [2.8266810371534152]
本研究は,映像レベルのラベルが弱い広帯域領域を撮影するために,カメラを分散した実世界のシナリオに焦点を当てた。
本稿では,多視点行動選択学習法(MultiASL)を提案する。
MM-Officeデータセットを用いた実世界のオフィス環境における実験は,既存手法と比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T10:36:22Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Mask Matching Transformer for Few-Shot Segmentation [71.32725963630837]
Mask Matching Transformer (MM-Former) は、少数ショットセグメンテーションタスクのための新しいパラダイムである。
まず、MM-Formerは、まず分解し、次にブレンドするというパラダイムに従う。
一般的なCOCO-20i$とPascal-5i$ベンチマークに関する広範な実験を行っている。
論文 参考訳(メタデータ) (2022-12-05T11:00:32Z) - MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文 参考訳(メタデータ) (2022-11-06T14:58:21Z) - UniInst: Unique Representation for End-to-End Instance Segmentation [29.974973664317485]
ボックスフリーでNMSフリーなエンドツーエンドのインスタンスセグメンテーションフレームワークUniInstを提案する。
具体的には、各インスタンスに1つのユニークな表現を動的に割り当てるインスタンス対応1対1の代入スキームを設計する。
これらの技術により、最初のFCNベースのエンドツーエンドインスタンスセグメンテーションフレームワークであるUniInstは、競争力のあるパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-25T10:40:26Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote
Sensing Scene Classification [15.856162817494726]
本稿では,多言語多層特徴アンサンブルネットワーク(MGML-FENet)を提案する。
提案ネットワークは、従来の最新(SOTA)ネットワークよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-29T02:18:11Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。