論文の概要: Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations
- arxiv url: http://arxiv.org/abs/2410.16953v1
- Date: Tue, 22 Oct 2024 12:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:45.434282
- Title: Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations
- Title(参考訳): カモフラージュアノテーションのない実ゼロショットカモフラージュオブジェクトセグメンテーションに向けて
- Authors: Cheng Lei, Jie Fan, Xinran Li, Tianzhu Xiang, Ao Li, Ce Zhu, Le Zhang,
- Abstract要約: 我々は、ロバストなゼロショットCamouflaged Object (COS)フレームワークを導入する。
このフレームワークは、効率的なゼロショット転送のために、サルエントオブジェクトセグメンテーション(SOS)から派生した広い意味的特徴空間を使用する。
ゼロショットCOSでは,CAMOでは72.9%,COD10Kでは71.7%のスコアが得られた。
- 参考スコア(独自算出の注目度): 29.226550015973967
- License:
- Abstract: Camouflaged Object Segmentation (COS) faces significant challenges due to the scarcity of annotated data, where meticulous pixel-level annotation is both labor-intensive and costly, primarily due to the intricate object-background boundaries. Addressing the core question, "Can COS be effectively achieved in a zero-shot manner without manual annotations for any camouflaged object?" we affirmatively respond and introduce a robust zero-shot COS framework. This framework leverages the inherent local pattern bias of COS and employs a broad semantic feature space derived from salient object segmentation (SOS) for efficient zero-shot transfer. We incorporate an Masked Image Modeling (MIM) based image encoder optimized for Parameter-Efficient Fine-Tuning (PEFT), a Multimodal Large Language Model (M-LLM), and a Multi-scale Fine-grained Alignment (MFA) mechanism. The MIM pre-trained image encoder focuses on capturing essential low-level features, while the M-LLM generates caption embeddings processed alongside these visual cues. These embeddings are precisely aligned using MFA, enabling our framework to accurately interpret and navigate complex semantic contexts. To optimize operational efficiency, we introduce a learnable codebook that represents the M-LLM during inference, significantly reducing computational overhead. Our framework demonstrates its versatility and efficacy through rigorous experimentation, achieving state-of-the-art performance in zero-shot COS with $F_{\beta}^w$ scores of 72.9\% on CAMO and 71.7\% on COD10K. By removing the M-LLM during inference, we achieve an inference speed comparable to that of traditional end-to-end models, reaching 18.1 FPS. Code: https://github.com/R-LEI360725/ZSCOS-CaMF
- Abstract(参考訳): カモフラージュされたオブジェクトセグメンテーション(COS)は、注釈付きデータの不足により大きな課題に直面している。
カモフラージュされたオブジェクトに対して手動のアノテーションを使わずに、効果的にゼロショット方式でCan COSを実現するか?」という質問に対処するため、我々は肯定的に応答し、堅牢なゼロショットCOSフレームワークを導入します。
このフレームワークは、COSの固有の局所パターンバイアスを活用し、効率的なゼロショット転送のために、サルエントオブジェクトセグメンテーション(SOS)から派生した広い意味的特徴空間を利用する。
我々は,パラメータ効率の良いファインチューニング (PEFT) に最適化されたマスク付画像モデリング (MIM) ベースの画像エンコーダ,マルチモーダル大言語モデル (M-LLM) ,マルチスケールファインファインファインファインダライメント (MFA) 機構を組み込んだ。
MIMプリトレーニングされたイメージエンコーダは必須の低レベル特徴のキャプチャに重点を置いており、M-LLMはこれらのビジュアルキューと並行して処理されたキャプション埋め込みを生成する。
これらの埋め込みは、MFAを用いて正確に整列されているため、我々のフレームワークは複雑な意味コンテキストを正確に解釈し、ナビゲートすることができる。
動作効率を最適化するために,M-LLMを推論する学習可能なコードブックを導入し,計算オーバーヘッドを大幅に削減する。
筆者らのフレームワークは,厳密な実験により,CAMO 72.9 %,COD10K 71.7 % のスコアでゼロショット COS の最先端性能を達成し,その汎用性と有効性を示す。
推論中にM-LLMを除去することにより、従来のエンドツーエンドモデルに匹敵する推論速度を実現し、18.1FPSに達する。
コード:https://github.com/R-LEI360725/ZSCOS-CaMF
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Towards Granularity-adjusted Pixel-level Semantic Annotation [26.91350707156658]
GranSAMは、手作業による監督を必要とせずに、ラベルのないデータに対して、ユーザ定義の粒度レベルでセマンティックセグメンテーションを提供する。
安定拡散モデルやWebクローリング画像によって生成された合成画像から意味情報を蓄積する。
PASCAL VOC 2012とCOCO-80データセットの実験を行い、mIoUの+17.95%と+5.17%の増加を観測した。
論文 参考訳(メタデータ) (2023-12-05T01:37:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。