論文の概要: VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning
- arxiv url: http://arxiv.org/abs/2311.15011v2
- Date: Mon, 1 Apr 2024 03:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:13:26.527595
- Title: VSCode: General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning
- Title(参考訳): VSCode: 2D Prompt Learningによる汎用ビジュアルサリエントとカモフラージュオブジェクト検出
- Authors: Ziyang Luo, Nian Liu, Wangbo Zhao, Xuguang Yang, Dingwen Zhang, Deng-Ping Fan, Fahad Khan, Junwei Han,
- Abstract要約: 4つのSODタスクと3つのCODタスクに共同で対処する新しい2Dプロンプト学習モデルであるVSCodeを紹介する。
基礎モデルとしてVSTを利用し、エンコーダ・デコーダアーキテクチャ内で2Dプロンプトを導入し、ドメインとタスク固有の知識を学習する。
VSCodeは、6つのタスクで26のデータセットで最先端のメソッドのパフォーマンスを向上する。
- 参考スコア(独自算出の注目度): 104.74705190239119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) and camouflaged object detection (COD) are related yet distinct binary mapping tasks. These tasks involve multiple modalities, sharing commonalities and unique cues. Existing research often employs intricate task-specific specialist models, potentially leading to redundancy and suboptimal results. We introduce VSCode, a generalist model with novel 2D prompt learning, to jointly address four SOD tasks and three COD tasks. We utilize VST as the foundation model and introduce 2D prompts within the encoder-decoder architecture to learn domain and task-specific knowledge on two separate dimensions. A prompt discrimination loss helps disentangle peculiarities to benefit model optimization. VSCode outperforms state-of-the-art methods across six tasks on 26 datasets and exhibits zero-shot generalization to unseen tasks by combining 2D prompts, such as RGB-D COD. Source code has been available at https://github.com/Sssssuperior/VSCode.
- Abstract(参考訳): サリアントオブジェクト検出(SOD)とカモフラージュオブジェクト検出(COD)は、全く異なるバイナリマッピングタスクである。
これらのタスクには複数のモダリティが含まれ、共通性とユニークなキューを共有する。
既存の研究はしばしば複雑なタスク固有の専門モデルを採用しており、冗長性と準最適結果をもたらす可能性がある。
4つのSODタスクと3つのCODタスクを共同で扱うために,新しい2Dプロンプト学習を備えたジェネラリストモデルであるVSCodeを紹介した。
基礎モデルとしてVSTを利用し、エンコーダ・デコーダアーキテクチャ内で2Dプロンプトを導入し、2つの異なる次元におけるドメインとタスク固有の知識を学習する。
迅速な識別損失は、モデル最適化の恩恵を受けるために特異性を歪めるのに役立つ。
VSCodeは26のデータセット上の6つのタスクの最先端メソッドよりも優れており、RGB-D CODのような2Dプロンプトを組み合わせることで、目に見えないタスクにゼロショットの一般化を示す。
ソースコードはhttps://github.com/Ssssuperior/VSCode.comで公開されている。
関連論文リスト
- A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged
Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。
大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。
提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-20T08:25:38Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - 4D Unsupervised Object Discovery [53.561750858325915]
本研究では,3次元点雲と2次元RGB画像の時間的情報を用いた4次元データからオブジェクトを共同で検出する4次元非教師対象探索を提案する。
本稿では,2次元ローカライゼーションネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-10T16:05:53Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。