論文の概要: ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object
Detection
- arxiv url: http://arxiv.org/abs/2310.20208v2
- Date: Wed, 29 Nov 2023 08:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:15:19.035352
- Title: ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object
Detection
- Title(参考訳): ZoomNeXt:カモフラージュ物体検出のための統一協調ピラミッドネットワーク
- Authors: Youwei Pang, Xiaoqi Zhao, Tian-Zhu Xiang, Lihe Zhang, Huchuan Lu
- Abstract要約: 本稿では,不明瞭な画像や映像を観察する際の人間の行動を模倣する,効果的な統合型ピラミッドネットワークを提案する。
具体的には、差別的な混合スケールのセマンティクスを学習するために、ズーム戦略を用いる。
我々のタスクフレンドリーなフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 75.22007160699948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent camouflaged object detection (COD) attempts to segment objects
visually blended into their surroundings, which is extremely complex and
difficult in real-world scenarios. Apart from the high intrinsic similarity
between camouflaged objects and their background, objects are usually diverse
in scale, fuzzy in appearance, and even severely occluded. To this end, we
propose an effective unified collaborative pyramid network which mimics human
behavior when observing vague images and videos, \textit{i.e.}, zooming in and
out. Specifically, our approach employs the zooming strategy to learn
discriminative mixed-scale semantics by the multi-head scale integration and
rich granularity perception units, which are designed to fully explore
imperceptible clues between candidate objects and background surroundings. The
former's intrinsic multi-head aggregation provides more diverse visual
patterns. The latter's routing mechanism can effectively propagate inter-frame
difference in spatiotemporal scenarios and adaptively ignore static
representations. They provides a solid foundation for realizing a unified
architecture for static and dynamic COD. Moreover, considering the uncertainty
and ambiguity derived from indistinguishable textures, we construct a simple
yet effective regularization, uncertainty awareness loss, to encourage
predictions with higher confidence in candidate regions. Our highly
task-friendly framework consistently outperforms existing state-of-the-art
methods in image and video COD benchmarks. The code will be available at
\url{https://github.com/lartpang/ZoomNeXt}.
- Abstract(参考訳): 最近のcamouflaged object detection (COD)は、現実世界のシナリオでは極めて複雑で困難である、視覚的にブレンドされた物体を周囲に分割しようとする試みである。
カモフラージュされた物体とそれらの背景の間の本質的な類似性は別として、物体は通常、スケールが多様であり、外観がファジィで、さらに密閉されている。
そこで本研究では,曖昧な画像や映像を観察する際に人間の行動を模倣し,ズームインとズームアウトを行う,効果的な協調ピラミッドネットワークを提案する。
具体的には,マルチヘッドスケール統合による識別的混合スケールセマンティクスを学習するためのズーム戦略と,候補対象と背景環境との不可避な手がかりを十分に探究するために設計されたリッチな粒度知覚単位を用いる。
前者の本質的なマルチヘッドアグリゲーションは、より多様な視覚パターンを提供する。
後者のルーティング機構は、時空間シナリオにおけるフレーム間差異を効果的に伝播し、静的表現を適応的に無視することができる。
静的および動的codのための統一アーキテクチャを実現するための強固な基盤を提供する。
さらに,不明瞭なテクスチャから生じる不確実性とあいまいさを考慮し,候補領域に高い信頼を抱く予測を促進するため,単純で効果的な正規化,不確実性認識損失を構築した。
当社のタスクフレンドリーなフレームワークは、画像およびビデオcodベンチマークにおいて、既存の最先端のメソッドを一貫して上回っています。
コードは \url{https://github.com/lartpang/ZoomNeXt} で入手できる。
関連論文リスト
- HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping [29.678756772610797]
教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
論文 参考訳(メタデータ) (2023-12-29T06:46:37Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - A bioinspired three-stage model for camouflaged object detection [8.11866601771984]
本稿では,1回の繰り返しで粗い部分分割を可能にする3段階モデルを提案する。
本モデルでは, 3つのデコーダを用いて, サブサンプル特徴, 収穫特徴, および高解像度のオリジナル特徴を逐次処理する。
我々のネットワークは、不要な複雑さを伴わずに最先端のCNNベースのネットワークを上回る。
論文 参考訳(メタデータ) (2023-05-22T02:01:48Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object
Detection [0.0]
本稿では,不明瞭な画像を観察する際の人間の動作を模倣する混合スケール三重項ネットワークbf ZoomNetを提案する。
具体的には、ZoomNetは、ズーム戦略を用いて、設計されたスケール統合ユニットと階層的な混合スケールユニットによって、差別的な混合スケール意味学を学ぶ。
提案したタスクフレンドリなモデルは、4つの公開データセット上の既存の23の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-05T09:13:52Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。