Fugu-MT 論文翻訳(概要): Open-Vocabulary Camouflaged Object Segmentation

論文の概要: Open-Vocabulary Camouflaged Object Segmentation

arxiv url: http://arxiv.org/abs/2311.11241v2
Date: Thu, 21 Mar 2024 09:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:47:00.242251
Title: Open-Vocabulary Camouflaged Object Segmentation
Title（参考訳）: Open-Vocabulary Camouflaged Object Segmentation
Authors: Youwei Pang, Xiaoqi Zhao, Jiaming Zuo, Lihe Zhang, Huchuan Lu,
Abstract要約: OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
参考スコア（独自算出の注目度）: 66.94945066779988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the emergence of the large-scale vision-language model (VLM), such as CLIP, has opened the way towards open-world object perception. Many works have explored the utilization of pre-trained VLM for the challenging open-vocabulary dense prediction task that requires perceiving diverse objects with novel classes at inference time. Existing methods construct experiments based on the public datasets of related tasks, which are not tailored for open vocabulary and rarely involve imperceptible objects camouflaged in complex scenes due to data collection bias and annotation costs. To fill in the gaps, we introduce a new task, open-vocabulary camouflaged object segmentation (OVCOS), and construct a large-scale complex scene dataset (\textbf{OVCamo}) containing 11,483 hand-selected images with fine annotations and corresponding object classes. Further, we build a strong single-stage open-vocabulary \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} attached to the parameter-fixed CLIP with iterative semantic guidance and structure enhancement. By integrating the guidance of class semantic knowledge and the supplement of visual structure cues from the edge and depth information, the proposed method can efficiently capture camouflaged objects. Moreover, this effective framework also surpasses previous state-of-the-arts of open-vocabulary semantic image segmentation by a large margin on our OVCamo dataset. With the proposed dataset and baseline, we hope that this new task with more practical value can further expand the research on open-vocabulary dense prediction tasks. The code and data will be available in the future.
Abstract（参考訳）: 近年、CLIPのような大規模視覚言語モデル(VLM)が出現し、オープンワールドオブジェクト認識への道を開いた。多くの研究が、推論時に新しいクラスを持つ多様なオブジェクトを知覚する必要がある、オープン語彙の高密度な予測課題に対する事前学習VLMの利用について検討している。既存の手法は、オープン語彙に適合せず、データ収集バイアスとアノテーションコストのために複雑な場面でキャモフラージュされた知覚不可能なオブジェクトを伴わない、関連するタスクの公開データセットに基づく実験を構築している。このギャップを埋めるために、我々は新しいタスク、オープン語彙カモフラージュオブジェクトセグメンテーション(OVCOS)を導入し、11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複雑なシーンデータセット(\textbf{OVCamo})を構築した。さらに、パラメータ固定されたCLIPに反復的意味指導と構造拡張を付加した、強力な単一ステージのオープン語彙である \underline{c}amouflaged \underline{o}bject \underline{s}egmentation transform\underline{er} baseline \textbf{OVCoser} を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。さらに、この効果的なフレームワークは、OVCamoデータセットに対する大きなマージンで、従来のオープン語彙のセマンティックイメージセグメンテーションの最先端を超越している。提案したデータセットとベースラインにより、より実用的な価値を持つこの新しいタスクが、よりオープンな語彙密度予測タスクの研究をさらに拡大することを期待している。コードとデータは将来的に利用可能になる予定だ。

関連論文リスト

Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark [6.93847426808971]
3F-OVDは、教師付ききめ細かい物体検出をオープン語彙設定に拡張する新しいタスクである。両方の設定で、データセット上で最先端のオブジェクト検出器をベンチマークします。
論文参考訳（メタデータ） (2025-03-19T03:41:46Z)
Referencing Where to Focus: Improving VisualGrounding with Referential Query [30.33315985826623]
本稿ではRefFormerと呼ばれる新しい視覚的接地手法を提案する。これはクエリ適応モジュールで構成されており、CLIPにシームレスに統合できる。提案するクエリ適応モジュールはアダプタとしても機能し,バックボーンネットワークのパラメータをチューニングすることなく,CLIP内の豊富な知識を保存できる。
論文参考訳（メタデータ） (2024-12-26T10:19:20Z)
FOR: Finetuning for Object Level Open Vocabulary Image Retrieval [1.0650780147044159]
我々は、オブジェクト中心のオープン語彙画像検索のためのファインタニングを提案し、クローズドセットラベルを用いてターゲットデータセットのファインタニングを可能にする。 FORは、意図したタスク用にカスタマイズされたCLIPヘッドの特別なデコーダ版と、多言語トレーニングフレームワーク内の結合という2つの設計要素に基づいている。
論文参考訳（メタデータ） (2024-12-25T07:08:51Z)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-26T06:34:48Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-08-09T09:28:35Z)
OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-06-12T08:59:33Z)
Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文参考訳（メタデータ） (2023-12-19T18:59:53Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。