論文の概要: A Holistically Point-guided Text Framework for Weakly-Supervised Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2501.06038v1
- Date: Fri, 10 Jan 2025 15:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:17.463478
- Title: A Holistically Point-guided Text Framework for Weakly-Supervised Camouflaged Object Detection
- Title(参考訳): 弱スーパービジョンのカモフラージュ物体検出のためのホロスタティックポイント誘導型テキストフレームワーク
- Authors: Tsui Qin Mok, Shuyong Gao, Haozhe Xing, Miaoyang He, Yan Wang, Wenqiang Zhang,
- Abstract要約: WSCOD(Wakly-Supervised Camouflaged Object Detection)は、弱いラベルを持つモデルをトレーニングする約束で人気を集めている。
本稿では,WSCOD をセグメント,選択,訓練という3つのフェーズに分解することで,WSCOD のための一意的にポイントガイド付きテキストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.606879684161957
- License:
- Abstract: Weakly-Supervised Camouflaged Object Detection (WSCOD) has gained popularity for its promise to train models with weak labels to segment objects that visually blend into their surroundings. Recently, some methods using sparsely-annotated supervision shown promising results through scribbling in WSCOD, while point-text supervision remains underexplored. Hence, this paper introduces a novel holistically point-guided text framework for WSCOD by decomposing into three phases: segment, choose, train. Specifically, we propose Point-guided Candidate Generation (PCG), where the point's foreground serves as a correction for the text path to explicitly correct and rejuvenate the loss detection object during the mask generation process (SEGMENT). We also introduce a Qualified Candidate Discriminator (QCD) to choose the optimal mask from a given text prompt using CLIP (CHOOSE), and employ the chosen pseudo mask for training with a self-supervised Vision Transformer (TRAIN). Additionally, we developed a new point-supervised dataset (P2C-COD) and a text-supervised dataset (T-COD). Comprehensive experiments on four benchmark datasets demonstrate our method outperforms state-of-the-art methods by a large margin, and also outperforms some existing fully-supervised camouflaged object detection methods.
- Abstract(参考訳): WSCOD(Wakly-Supervised Camouflaged Object Detection)は、弱いラベルを持つモデルをトレーニングし、周囲に視覚的にブレンドするオブジェクトを分割するという約束で人気を集めている。
近年,WSCOD のスクリブリングによる有望な結果が得られたが,ポイントテキストの監督は未検討のままである。
そこで,本論文では,WSCODをセグメント,選択,トレーニングの3つのフェーズに分解することで,WSCODのための一意的にポイントガイド付きテキストフレームワークを提案する。
具体的には,ポイント誘導候補生成(PCG)を提案し,その前景がテキストパスの補正として機能し,マスク生成プロセス(SEGMENT)中に損失検出対象を明示的に修正・再生する。
また、CLIP(CHOOSE)を用いたテキストプロンプトから最適なマスクを選択するためのQCDを導入し、自己監督型視覚変換器(TRAIN)を用いたトレーニングに擬似マスクを用いた。
さらに,新たな点教師付きデータセット(P2C-COD)とテキスト教師付きデータセット(T-COD)を開発した。
4つのベンチマークデータセットの総合的な実験により、我々の手法は最先端の手法を大きなマージンで上回り、また、既存の完全に教師付きカモフラージュされたオブジェクト検出方法よりも上回ります。
関連論文リスト
- Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - CamoFormer: Masked Separable Attention for Camouflaged Object Detection [94.2870722866853]
カモフラージュされた物体検出のための単純なマスク付き分離型注意(MSA)を提案する。
まず,マルチヘッド・セルフアテンションを3つの部分に分割し,異なるマスキング戦略を用いて,背景からカモフラージュした物体を識別する役割を担っている。
提案手法では,MSAを用いた単純なトップダウンデコーダを用いて,高精度なセグメンテーション結果を得るために,高分解能なセグメンテーション表現を段階的にキャプチャする。
論文 参考訳(メタデータ) (2022-12-10T10:03:27Z) - Pointly-Supervised Panoptic Segmentation [106.68888377104886]
弱教師付き単眼セグメンテーションにポイントレベルのアノテーションを適用するための新しい手法を提案する。
完全に教師された方法で使用される高密度のピクセルレベルラベルの代わりに、ポイントレベルラベルは、監督対象ごとに単一のポイントしか提供しない。
我々は、ポイントレベルのラベルから同時に汎視的擬似マスクを生成し、それらから学習することで、エンドツーエンドのフレームワークにおける問題を定式化する。
論文 参考訳(メタデータ) (2022-10-25T12:03:51Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Boundary-Guided Camouflaged Object Detection [20.937071658007255]
カモフラージュ物体検出のための新しい境界誘導ネットワーク(BGNet)を提案する。
提案手法は,CODの表現学習をガイドするために,重要かつ余分なオブジェクト関連エッジセマンティクスを探索する。
提案手法は, 正確な境界位置同定を行うために, カモフラージュした物体の検出を促進する。
論文 参考訳(メタデータ) (2022-07-02T10:48:35Z) - Weakly-Supervised Salient Object Detection Using Point Supervison [17.88596733603456]
現在の最先端の精度検出モデルは、正確なピクセル単位のアノテーションの大規模なデータセットに大きく依存している。
本稿では,ポイント・インスペクタを用いた弱教師付きサルエント・オブジェクト検出手法を提案する。
我々の手法は、より強い監督力で訓練された従来の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T12:16:05Z) - Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly
Supervised Semantic Segmentation [16.560870740946275]
EPS (Explicit Pseudo-Pixel Supervision) は2つの弱い監督と組み合わせることでピクセルレベルのフィードバックから学習する。
両情報間の補完関係を完全に活用するための共同学習戦略を考案する。
提案手法は, 正確なオブジェクト境界を求め, 共起画素を破棄することにより, 擬似マスクの品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-05-19T07:31:11Z) - Unsupervised Object Detection with LiDAR Clues [70.73881791310495]
本稿では,LiDARの手がかりを用いた非教師対象検出のための最初の実用的手法を提案する。
提案手法では,まず3次元点雲に基づく候補オブジェクトセグメントを生成する。
そして、セグメントラベルを割り当て、セグメントラベルネットワークを訓練する反復的なセグメントラベル処理を行う。
ラベル付けプロセスは、長い尾とオープンエンドの分布の問題を軽減するために慎重に設計されている。
論文 参考訳(メタデータ) (2020-11-25T18:59:54Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z) - Learning Object Scale With Click Supervision for Object Detection [29.421113887739413]
本稿では,CNN視覚化をクリック管理に組み込んで擬似地下構造を生成する,シンプルで効果的な手法を提案する。
これらの擬似グラウンドトラスカンは、完全に監視された検出器の訓練に使用される。
PASCAL VOC2007 とVOC 2012 データセットによる実験結果から,提案手法はオブジェクトのスケールを推定する上で,はるかに高い精度が得られることが示された。
論文 参考訳(メタデータ) (2020-02-20T03:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。