論文の概要: Global-and-Local Collaborative Learning for Co-Salient Object Detection
- arxiv url: http://arxiv.org/abs/2204.08917v1
- Date: Tue, 19 Apr 2022 14:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:49:33.913533
- Title: Global-and-Local Collaborative Learning for Co-Salient Object Detection
- Title(参考訳): 協調物体検出のためのグローバル・ローカル協調学習
- Authors: Runmin Cong, Ning Yang, Chongyi Li, Huazhu Fu, Yao Zhao, Qingming
Huang, Sam Kwong
- Abstract要約: Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
- 参考スコア(独自算出の注目度): 162.62642867056385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The goal of co-salient object detection (CoSOD) is to discover salient
objects that commonly appear in a query group containing two or more relevant
images. Therefore, how to effectively extract inter-image correspondence is
crucial for the CoSOD task. In this paper, we propose a global-and-local
collaborative learning architecture, which includes a global correspondence
modeling (GCM) and a local correspondence modeling (LCM) to capture
comprehensive inter-image corresponding relationship among different images
from the global and local perspectives. Firstly, we treat different images as
different time slices and use 3D convolution to integrate all intra features
intuitively, which can more fully extract the global group semantics. Secondly,
we design a pairwise correlation transformation (PCT) to explore similarity
correspondence between pairwise images and combine the multiple local pairwise
correspondences to generate the local inter-image relationship. Thirdly, the
inter-image relationships of the GCM and LCM are integrated through a
global-and-local correspondence aggregation (GLA) module to explore more
comprehensive inter-image collaboration cues. Finally, the intra- and
inter-features are adaptively integrated by an intra-and-inter weighting fusion
(AEWF) module to learn co-saliency features and predict the co-saliency map.
The proposed GLNet is evaluated on three prevailing CoSOD benchmark datasets,
demonstrating that our model trained on a small dataset (about 3k images) still
outperforms eleven state-of-the-art competitors trained on some large datasets
(about 8k-200k images).
- Abstract(参考訳): cosod(co-salient object detection)の目的は、2つ以上の関連画像を含むクエリグループで一般的に現れるサルエントオブジェクトを見つけることである。
したがって、画像間対応を効果的に抽出する方法は、CoSODタスクに不可欠である。
本稿では,グローバル対応モデリング (GCM) とローカル対応モデリング (LCM) を含むグローバル・ローカル協調学習アーキテクチャを提案する。
まず、異なる画像を異なる時間スライスとして扱い、3D畳み込みを用いて、すべての内部機能を直感的に統合し、グローバルなグループセマンティクスをより完全に抽出することができる。
次に,ペアワイズ画像間の類似性を探索するためにペアワイズ相関変換 (pct) を設計し,複数の局所的ペアワイズ対応を結合して局所的画像間関係を生成する。
第3に、GCMとLCMの画像間関係はGLAモジュールを通じて統合され、より包括的な画像間協調方法が探索される。
最後に、機能内および機能間はAEWF(Intra-and-inter weighting fusion)モジュールによって適応的に統合され、相性の特徴を学習し、相性マップを予測する。
提案するglnetは3つのcosodベンチマークデータセットで評価され、我々のモデルは小さなデータセット(約3kイメージ)でトレーニングされているが、いくつかの大規模データセット(約8k-200kイメージ)でトレーニングされた11の最先端コンペティタを上回っていることを実証する。
関連論文リスト
- Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - PointCMC: Cross-Modal Multi-Scale Correspondences Learning for Point
Cloud Understanding [0.875967561330372]
自己教師付きポイントクラウド表現学習のためのマルチスケール対応をモダリティ間でモデル化するクロスモーダル手法
ポイントCMCは,(1) 局所的局所幾何学的特徴を最適化して局所的対応を学習する局所的-局所的(L2L)モジュール,(2) 局所的-グローバル的(L2G)モジュール,(3) 局所的-グローバル的(G2G)モジュール,(3) 局所的雲と画像間の協調的大域的コントラスト損失を利用して高レベルの意味的対応を学習するグローバル的(G2G)モジュールから構成される。
論文 参考訳(メタデータ) (2022-11-22T06:08:43Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。