論文の概要: ${D}^{3}${ETOR}: ${D}$ebate-Enhanced Pseudo Labeling and Frequency-Aware Progressive ${D}$ebiasing for Weakly-Supervised Camouflaged Object ${D}$etection with Scribble Annotations
- arxiv url: http://arxiv.org/abs/2512.20260v1
- Date: Tue, 23 Dec 2025 11:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.842376
- Title: ${D}^{3}${ETOR}: ${D}$ebate-Enhanced Pseudo Labeling and Frequency-Aware Progressive ${D}$ebiasing for Weakly-Supervised Camouflaged Object ${D}$etection with Scribble Annotations
- Title(参考訳): ${D}^{3}${ETOR}: ${D}$ebate-Enhanced Pseudo Labeling and Frequency-Aware Progressive ${D}$ebiasing for Weakly-Supervised Camouflaged Object ${D}$etection with Scribble Annotations
- Authors: Jiawei Ge, Jiuxin Cao, Xinyi Li, Xuelin Zhu, Chang Liu, Bo Liu, Chen Feng, Ioannis Patras,
- Abstract要約: D3$ETORは、Dbate-Enhanced Pseudo Labelingと Frequency-Aware Progressive Debiasingで構成される2段階のWSCODフレームワークである。
適応的なエントロピー駆動点サンプリング法と多エージェントの議論機構を導入し,CODのためのSAMの能力を高める。
第2段階では、多レベル周波数認識機能を融合したFADeNetを設計し、グローバルな意味理解と局所的な詳細モデリングのバランスをとる。
- 参考スコア(独自算出の注目度): 35.83125554386894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Camouflaged Object Detection (WSCOD) aims to locate and segment objects that are visually concealed within their surrounding scenes, relying solely on sparse supervision such as scribble annotations. Despite recent progress, existing WSCOD methods still lag far behind fully supervised ones due to two major limitations: (1) the pseudo masks generated by general-purpose segmentation models (e.g., SAM) and filtered via rules are often unreliable, as these models lack the task-specific semantic understanding required for effective pseudo labeling in COD; and (2) the neglect of inherent annotation bias in scribbles, which hinders the model from capturing the global structure of camouflaged objects. To overcome these challenges, we propose ${D}^{3}$ETOR, a two-stage WSCOD framework consisting of Debate-Enhanced Pseudo Labeling and Frequency-Aware Progressive Debiasing. In the first stage, we introduce an adaptive entropy-driven point sampling method and a multi-agent debate mechanism to enhance the capability of SAM for COD, improving the interpretability and precision of pseudo masks. In the second stage, we design FADeNet, which progressively fuses multi-level frequency-aware features to balance global semantic understanding with local detail modeling, while dynamically reweighting supervision strength across regions to alleviate scribble bias. By jointly exploiting the supervision signals from both the pseudo masks and scribble semantics, ${D}^{3}$ETOR significantly narrows the gap between weakly and fully supervised COD, achieving state-of-the-art performance on multiple benchmarks.
- Abstract(参考訳): Weakly-Supervised Camouflaged Object Detection (WSCOD) は、スクリブルアノテーションなどのスパース・インスペクションにのみ依存して、周囲のシーンに視覚的に隠されたオブジェクトの発見とセグメンテーションを目的としている。
近年の進歩にもかかわらず、既存のWSCOD法は、(1)汎用セグメンテーションモデル(例えばSAM)によって生成され、規則によってフィルタリングされる擬似マスクは、CODにおける効果的な擬似ラベル付けに必要なタスク固有の意味的理解が欠如しているため、しばしば信頼できない。
これらの課題を克服するために,議論強化Pseudo Labelingと周波数認識プログレッシブデバイアスからなる2段階WSCODフレームワークである${D}^{3}$ETORを提案する。
第1段階では,適応的なエントロピー駆動点サンプリング法と多エージェントの議論機構を導入し,SAM for CODの能力を高め,擬似マスクの解釈性と精度を向上させる。
第2段階ではFADeNetを設計し、多段階の周波数認識機能を段階的に融合させ、局所的な詳細モデリングとグローバルセマンティック理解のバランスを保ちながら、スクリブルバイアスを軽減するために領域間の監督強度を動的に再重み付けする。
疑似マスクとスクリブルセマンティクスの両方からの監視信号を併用することにより、${D}^{3}$ETORは弱いCODと完全に監督されたCODのギャップを著しく狭め、複数のベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Class-agnostic 3D Segmentation by Granularity-Consistent Automatic 2D Mask Tracking [10.223105883919278]
本稿では,フレーム間の時間的対応を維持する2次元マスク追跡手法を提案する。
本手法は, 整合性および高精度な3次元セグメンテーションを効果的に生成する。
論文 参考訳(メタデータ) (2025-11-02T03:52:42Z) - BEEP3D: Box-Supervised End-to-End Pseudo-Mask Generation for 3D Instance Segmentation [28.97274092946373]
3Dインスタンスのセグメンテーションは複雑な3D環境を理解するのに不可欠だが、完全に教師された手法では高濃度のポイントレベルのアノテーションを必要とする。
ボックスレベルのアノテーションは本質的に重複する領域の曖昧さを導入し、正確なポイント・ツー・インスタンスの割り当てを困難にしている。
最近の手法では、追加の訓練段階において、専用の擬似ラベルをトレーニングすることで擬似マスクを生成することで、この曖昧さに対処している。
BEEP3D-Boxによる3次元インスタンスセグメンテーションのためのエンドツーエンド擬似マスク生成を提案する。
論文 参考訳(メタデータ) (2025-10-14T06:23:18Z) - First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection [14.070196423996045]
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。
RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。
RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。
ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-08-21T07:14:18Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Just a Hint: Point-Supervised Camouflaged Object Detection [4.38858748263547]
カモフラージュされたオブジェクト検出(COD)は、環境内でシームレスにオブジェクトを迅速かつ正確に識別するモデルを要求する。
我々は,この課題を一点監督の助けを借りて遂行することを提案する。
具体的には、各オブジェクトを素早くクリックすることで、最初に元のポイントベースのアノテーションを合理的なヒント領域に適応的に拡張する。
そこで本研究では,物体全体に注意を散布するアテンションレギュレータを提案する。
論文 参考訳(メタデータ) (2024-08-20T12:17:25Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation [6.775785126617824]
信頼に足る進歩的学習(DuPL)を伴う2つの学生フレームワークを提案する。
実験結果は、PASCAL VOC 2012とMSデータセットにおける最近の最先端の代替よりも、提案されたDuPLの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T12:14:34Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。