論文の概要: CATP: Confidence-Aware Token Pruning for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2604.16854v1
- Date: Sat, 18 Apr 2026 06:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.203425
- Title: CATP: Confidence-Aware Token Pruning for Camouflaged Object Detection
- Title(参考訳): CATP:カモフラーゲ型物体検出のための信頼度対応トーケンプルーニング
- Authors: Yuhan Gao, Shuhao Kang, Xin He, Bing Li, Xu Cheng, Yun Liu,
- Abstract要約: カモフラージ対象検出(COD)に適した階層的信頼度対応トークン抽出フレームワーク(CATP)を提案する。
我々のアプローチは階層的に背景と物体の両方から容易に識別可能なトークンを識別・破棄し、重要な境界トークンに計算を集中させる。
プルーニングからの情報損失を補うために、プルーニングトークンからのコンテキスト知識をリッチな特徴に集約するデュアルパス特徴補償機構を導入する。
- 参考スコア(独自算出の注目度): 17.488230092440144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged Object Detection (COD) aims to segment targets that share extreme textural and structural similarities with their complex environments. Leveraging their capacity for long-range dependency modeling, Transformer-based detectors have become the mainstream approach and achieve state-of-the-art (SoTA) accuracy, yet their substantial computational overhead severely limits practical deployment. To address this, we propose a hierarchical Confidence-Aware Token Pruning framework (CATP) tailored for COD. Our approach hierarchically identifies and discards easily distinguishable tokens from both background and object interiors, focusing computations on critical boundary tokens. To compensate for information loss from pruning, we introduce a dual-path feature compensation mechanism that aggregates contextual knowledge from pruned tokens into enriched features. Extensive experiments on multiple COD benchmarks demonstrate that our method significantly reduces computational complexity while maintaining high accuracy, offering a promising research direction for the efficient deployment of COD models in real-world scenarios. The code will be released.
- Abstract(参考訳): Camouflaged Object Detection (COD) は、複雑な環境と極端なテクスチャ的および構造的類似性を共有するターゲットを分割することを目的としている。
長距離依存性モデリングの能力を活用することで、Transformerベースの検出器は主流のアプローチとなり、最先端(SoTA)の精度を達成したが、その計算オーバーヘッドは現実的な展開を著しく制限している。
そこで本稿では,COD に適した階層型信頼型トークン処理フレームワーク (CATP) を提案する。
我々のアプローチは、背景とオブジェクトの両方から容易に区別可能なトークンを階層的に識別し、破棄し、重要な境界トークンに計算を集中させる。
プルーニングからの情報損失を補うために、プルーニングトークンからのコンテキスト知識をリッチな特徴に集約するデュアルパス特徴補償機構を導入する。
複数のCODベンチマーク実験により,提案手法は高い精度を維持しながら計算複雑性を著しく低減し,実世界のシナリオにおけるCODモデルの効率的な展開に向けた有望な研究方向を提供する。
コードはリリースされます。
関連論文リスト
- DeCo-DETR: Decoupled Cognition DETR for efficient Open-Vocabulary Object Detection [34.77756071357519]
Open-vocabulary Object Detection (OVOD)は、モデルが事前に定義されたカテゴリを超えてオブジェクトを認識できるようにする。
Deco-DETR(Deco-DeTR:Decoupled Cognition DETR)は、統合されたデカップリングパラダイムによってこれらの課題に対処するビジョン中心のフレームワークである。
本稿では,DeCo-DETRが競合ゼロショット検出性能を実現し,推論効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-04-03T05:56:29Z) - CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - TP-Spikformer: Token Pruned Spiking Transformer [48.49025085338628]
スパイキングニューラルネットワーク(SNN)は、イベント駆動コンピューティングパラダイムのため、従来のニューラルネットワークに代わるエネルギー効率の高い代替手段を提供する。
本稿では,TP-Spikformer と呼ばれる変圧器をスパイクする簡易かつ効果的なトークンプレーニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-28T07:53:26Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Selective Convolutional Network: An Efficient Object Detector with
Ignoring Background [28.591619763438054]
Selective Convolutional Network (SCN) と呼ばれる効率的なオブジェクト検出器を導入し、意味のある情報を含む場所のみを選択的に計算する。
そこで本稿では,ネットワークの次を導くためのオーバーヘッドを無視できるような,精巧な構造を設計する。
論文 参考訳(メタデータ) (2020-02-04T10:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。