論文の概要: YCDa: YCbCr Decoupled Attention for Real-time Realistic Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2603.01602v1
- Date: Mon, 02 Mar 2026 08:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.768399
- Title: YCDa: YCbCr Decoupled Attention for Real-time Realistic Camouflaged Object Detection
- Title(参考訳): YCDa: リアルタイム実写カモフラージュオブジェクト検出のためのYCbCr分離アテンション
- Authors: PeiHuang Zheng, Yunlong Zhao, Zheng Cui, Yang Li,
- Abstract要約: YCDaは、この「クロミナンス分離とダイナミックアテンション」原理を現代のリアルタイム検出器に組み込む、効率的なアーリーステージ機能処理戦略である。
YCDaはプラグアンドプレイで、最初のダウンサンプリング層を置き換えるだけで既存の検出器に統合できる。
- 参考スコア(独自算出の注目度): 3.1373048585002254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision exhibits remarkable adaptability in perceiving objects under camouflage. When color cues become unreliable, the visual system instinctively shifts its reliance from chrominance (color) to luminance (brightness and texture), enabling more robust perception in visually confusing environments. Drawing inspiration from this biological mechanism, we propose YCDa, an efficient early-stage feature processing strategy that embeds this "chrominance-luminance decoupling and dynamic attention" principle into modern real-time detectors. Specifically, YCDa separates color and luminance information in the input stage and dynamically allocates attention across channels to amplify discriminative cues while suppressing misleading color noise. The strategy is plug-and-play and can be integrated into existing detectors by simply replacing the first downsampling layer. Extensive experiments on multiple baselines demonstrate that YCDa consistently improves performance with negligible overhead as shown in Fig. Notably, YCDa-YOLO12s achieves a 112% improvement in mAP over the baseline on COD10K-D and sets new state-of-the-art results for real-time camouflaged object detection across COD-D datasets.
- Abstract(参考訳): 人間の視覚は、カモフラージュの下で物体を知覚する際、顕著な適応性を示す。
色覚が信頼性を損なうと、視覚系は色覚(色)から輝度(明度とテクスチャ)への依存を直感的にシフトし、視覚的に混乱した環境においてより堅牢な知覚を可能にする。
この生物学的メカニズムからインスピレーションを得たYCDaは、この「クロミナンスデカップリングとダイナミックアテンション」の原理を現代のリアルタイム検出器に組み込んだ効率的なアーリーステージ特徴処理戦略である。
具体的には、YCDaは入力段階における色と輝度情報を分離し、チャネル間の注意を動的に割り当て、識別的手がかりを増幅し、誤解を招く色ノイズを抑える。
この戦略はプラグアンドプレイであり、第1のダウンサンプリング層を置き換えるだけで既存の検出器に統合することができる。
特に、YCDa-YOLO12sは、COD10K-Dベースライン上でのmAPを112%改善し、COD-Dデータセット全体でリアルタイムカモフラージュされたオブジェクト検出のための新しい最先端結果を設定する。
関連論文リスト
- Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization [14.358458317718174]
視覚的赤外設定における逆パッチを生成するための共同位置色最適化フレームワーク(AP-PCO)を提案する。
我々は、赤外線グレースケール特性に応じてパッチの外観を制約するクロスモーダルカラー適応戦略を導入する。
視覚赤外高密度予測タスクの実験は、提案したAP-PCOが一貫して強力な攻撃性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-27T19:26:17Z) - IrisNet: Infrared Image Status Awareness Meta Decoder for Infrared Small Targets Detection [92.56025546608699]
IrisNetは、入力赤外線画像ステータスに検出戦略を適用する、新しいメタ学習フレームワークである。
提案手法は,赤外線画像特徴量とデコーダパラメータ全体の動的マッピングを確立する。
NUDT-SIRST、NUAA-SIRST、IRSTD-1Kデータセットの実験は、我々のIrisNetの優位性を示している。
論文 参考訳(メタデータ) (2025-11-25T13:53:54Z) - SpikeGen: Decoupled "Rods and Cones" Visual Representation Processing with Latent Generative Framework [53.27177454390712]
本研究では,現代の潜在空間生成フレームワークとマルチモーダル視覚入力を統合することで,人間の視覚システムをエミュレートすることを目的とする。
我々はSpikeGenと命名し、条件付き画像やビデオの劣化、スパイクストリームからの高密度フレーム再構成、高速シーンノベルビュー合成など、様々なスパイクRGBタスクのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-05-23T15:54:11Z) - WSCIF: A Weakly-Supervised Color Intelligence Framework for Tactical Anomaly Detection in Surveillance Keyframes [3.5516803380598074]
本稿では,高感度戦術ミッションにおける監視映像のカラー特徴に基づく軽量な異常検出フレームワークを提案する。
RGBチャネルヒストグラムモデルを用いて教師なしKMeansクラスタリングを融合し、キーフレームにおける構造異常と色変化信号の複合的検出を実現する。
その結果, 本手法は, 戦術的暗殺警告, 不審な対象検定, 環境変動モニタリングに有効であり, 高い展開性, 戦術的解釈価値が期待できることがわかった。
論文 参考訳(メタデータ) (2025-05-14T04:24:37Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Degrade is Upgrade: Learning Degradation for Low-light Image Enhancement [52.49231695707198]
2段階の工程で細部と色を精錬しながら、内在的な劣化と低照度画像を照らし出す。
カラー画像の定式化に触発されて,まず低照度入力からの劣化を推定し,環境照明色の歪みをシミュレーションし,そのコンテンツを精錬して拡散照明色の損失を回復した。
LOL1000データセットではPSNRで0.95dB、ExDarkデータセットでは3.18%のmAPでSOTAを上回った。
論文 参考訳(メタデータ) (2021-03-19T04:00:27Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。