論文の概要: CoSformer: Detecting Co-Salient Object with Transformers
- arxiv url: http://arxiv.org/abs/2104.14729v1
- Date: Fri, 30 Apr 2021 02:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 01:38:55.216654
- Title: CoSformer: Detecting Co-Salient Object with Transformers
- Title(参考訳): CoSformer: トランスフォーマーによるCo-Salientオブジェクトの検出
- Authors: Lv Tang
- Abstract要約: Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.3148470932285665
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Co-Salient Object Detection (CoSOD) aims at simulating the human visual
system to discover the common and salient objects from a group of relevant
images. Recent methods typically develop sophisticated deep learning based
models have greatly improved the performance of CoSOD task. But there are still
two major drawbacks that need to be further addressed, 1) sub-optimal
inter-image relationship modeling; 2) lacking consideration of inter-image
separability. In this paper, we propose the Co-Salient Object Detection
Transformer (CoSformer) network to capture both salient and common visual
patterns from multiple images. By leveraging Transformer architecture, the
proposed method address the influence of the input orders and greatly improve
the stability of the CoSOD task. We also introduce a novel concept of
inter-image separability. We construct a contrast learning scheme to modeling
the inter-image separability and learn more discriminative embedding space to
distinguish true common objects from noisy objects. Extensive experiments on
three challenging benchmarks, i.e., CoCA, CoSOD3k, and Cosal2015, demonstrate
that our CoSformer outperforms cutting-edge models and achieves the new
state-of-the-art. We hope that CoSformer can motivate future research for more
visual co-analysis tasks.
- Abstract(参考訳): Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連画像群から共通かつ健全な物体を発見することを目的としている。
近年,高度な深層学習モデルの開発により,CoSODタスクの性能が大幅に向上した。
しかし,2つの大きな欠点は,1) 画像間関係モデリング,2) 画像間セパビリティの考慮が欠如している点である。
本稿では,複数画像から有意・共通的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
Transformer アーキテクチャを利用することで,提案手法は入力順序の影響に対処し,CoSOD タスクの安定性を大幅に向上する。
また,画像間分離性という新しい概念を提案する。
画像間の分離性をモデル化するコントラスト学習手法を構築し、より識別的な埋め込み空間を学習し、真の共通オブジェクトとノイズのあるオブジェクトを区別する。
CoCA、CoSOD3k、Cosal2015の3つの挑戦的なベンチマークに関する大規模な実験は、CoSformerが最先端モデルより優れ、新しい最先端モデルを達成することを示した。
CoSformerが将来の研究を動機付け、よりビジュアルなコアナリシスタスクを実現できることを期待しています。
関連論文リスト
- A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Unsupervised Image Decomposition with Phase-Correlation Networks [28.502280038100167]
位相相関分解ネットワーク(PCDNet)は、シーンをオブジェクトコンポーネントに分解する新しいモデルである。
実験では,PCDNetが非教師対象発見とセグメンテーションの最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-07T13:57:33Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Re-thinking Co-Salient Object Detection [170.44471050548827]
Co-Salient Object Detection (CoSOD) は、画像群において共起するサルエントオブジェクトを検出することを目的としている。
既存のCoSODデータセットは、画像の各グループに類似した視覚的外観の有能なオブジェクトが含まれていると仮定して、深刻なデータバイアスを持つことが多い。
我々はCoSOD3kと呼ばれる新しいベンチマークを野生で導入し、大量の意味的コンテキストを必要とする。
論文 参考訳(メタデータ) (2020-07-07T12:20:51Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。