論文の概要: Retrospective Memory for Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2506.15244v1
- Date: Wed, 18 Jun 2025 08:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.590112
- Title: Retrospective Memory for Camouflaged Object Detection
- Title(参考訳): カモフラージュ物体検出のための振り返りメモリ
- Authors: Chenxi Zhang, Jiayun Wu, Qing Zhang, Yazhe Zhai, Youwei Pang,
- Abstract要約: 本稿では,カモフラージュパターンの認識と推論を動的に調節するリコール拡張CODアーキテクチャであるRetroMemを提案する。
本稿では,リコール段階で動的メモリ機構と推論パターン再構成を提案する。
私たちのRetroMemは、既存の最先端メソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 18.604039107883317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged object detection (COD) primarily focuses on learning subtle yet discriminative representations from complex scenes. Existing methods predominantly follow the parametric feedforward architecture based on static visual representation modeling. However, they lack explicit mechanisms for acquiring historical context, limiting their adaptation and effectiveness in handling challenging camouflage scenes. In this paper, we propose a recall-augmented COD architecture, namely RetroMem, which dynamically modulates camouflage pattern perception and inference by integrating relevant historical knowledge into the process. Specifically, RetroMem employs a two-stage training paradigm consisting of a learning stage and a recall stage to construct, update, and utilize memory representations effectively. During the learning stage, we design a dense multi-scale adapter (DMA) to improve the pretrained encoder's capability to capture rich multi-scale visual information with very few trainable parameters, thereby providing foundational inferences. In the recall stage, we propose a dynamic memory mechanism (DMM) and an inference pattern reconstruction (IPR). These components fully leverage the latent relationships between learned knowledge and current sample context to reconstruct the inference of camouflage patterns, thereby significantly improving the model's understanding of camouflage scenes. Extensive experiments on several widely used datasets demonstrate that our RetroMem significantly outperforms existing state-of-the-art methods.
- Abstract(参考訳): カモフラージュされた物体検出(COD)は、主に複雑なシーンから微妙だが識別的な表現を学ぶことに焦点を当てている。
既存の手法は主に静的視覚表現モデリングに基づくパラメトリックフィードフォワードアーキテクチャに従っている。
しかし、歴史的文脈を取得するための明確なメカニズムが欠如しており、挑戦的な迷彩シーンを扱う際の適応と効果が制限されている。
本稿では,関連する歴史的知識をプロセスに統合することにより,カモフラージュパターンの認識と推論を動的に調節するリコール拡張CODアーキテクチャであるRetroMemを提案する。
具体的には、RetroMemは学習段階とリコール段階からなる2段階のトレーニングパラダイムを使用して、メモリ表現を効率的に構築、更新、活用する。
学習段階において、トレーニング可能なパラメータがほとんどないリッチなマルチスケール視覚情報をキャプチャし、基礎的推論を提供するための事前訓練されたエンコーダの能力を改善するために、密度の高いマルチスケールアダプタ(DMA)を設計する。
本稿では,動的メモリ機構 (DMM) と推論パターン再構成 (IPR) を提案する。
これらのコンポーネントは、学習知識と現在のサンプルコンテキストの潜伏関係を完全に活用して、カモフラージュパターンの推論を再構築し、カモフラージュシーンの理解を大幅に改善する。
広く使われているデータセットに対する大規模な実験は、RetroMemが既存の最先端の手法を大幅に上回っていることを示している。
関連論文リスト
- Latent Structured Hopfield Network for Semantic Association and Retrieval [52.634915010996835]
エピソード記憶は、オブジェクト、場所、時間などの意味的要素をコヒーレントなイベント表現に関連付けることによって、過去の経験を思い出すことができる。
本稿では,連続ホップフィールドアトラクタダイナミクスを自動エンコーダアーキテクチャに統合するフレームワークであるLatent Structured Hopfield Network (LSHN)を提案する。
従来のホップフィールドネットワークとは異なり、我々のモデルは勾配勾配でエンドツーエンドに訓練され、スケーラブルで堅牢なメモリ検索を実現する。
論文 参考訳(メタデータ) (2025-06-02T04:24:36Z) - Latent Multimodal Reconstruction for Misinformation Detection [15.66049149213069]
MisCaption This!”はLVLM生成ミスキャプション画像からなるトレーニングデータセットである。
LAMAR(Latent Multimodal Reconstruction)は、真実の字幕の埋め込みを再構築するネットワークである。
実験によると、"MisCaption This!"で訓練されたモデルは、現実世界の誤報をより一般化している。
論文 参考訳(メタデータ) (2025-04-08T13:16:48Z) - Multi-View Incremental Learning with Structured Hebbian Plasticity for Enhanced Fusion Efficiency [13.512920774125776]
MVILという名前のマルチビューインクリメンタルフレームワークは、シーケンシャルに到達したビューの微粒な融合をエミュレートすることを目的としている。
MVILは、構造的ヘビアン可塑性とシナプス分割学習の2つの基本モジュールがある。
6つのベンチマークデータセットの実験結果は、MVILの最先端手法に対する有効性を示している。
論文 参考訳(メタデータ) (2024-12-17T11:10:46Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - A Framework for Inference Inspired by Human Memory Mechanisms [9.408704431898279]
本稿では,知覚,記憶,推論の構成要素からなるPMIフレームワークを提案する。
メモリモジュールは、ワーキングメモリと長期メモリから構成され、後者は、広範囲で複雑なリレーショナル知識と経験を維持するために、高次構造を備えている。
我々は、bAbI-20kやSolt-of-CLEVRデータセットのような質問応答タスクにおいて、一般的なTransformerとCNNモデルを改善するためにPMIを適用します。
論文 参考訳(メタデータ) (2023-10-01T08:12:55Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。