論文の概要: A Visual Representation-guided Framework with Global Affinity for Weakly
Supervised Salient Object Detection
- arxiv url: http://arxiv.org/abs/2302.10697v2
- Date: Fri, 9 Jun 2023 01:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 17:26:13.784456
- Title: A Visual Representation-guided Framework with Global Affinity for Weakly
Supervised Salient Object Detection
- Title(参考訳): 大域的親和性を持つ視覚的表現誘導フレームワークによる弱教師付きサルエント物体検出
- Authors: Binwei Xu, Haoran Liang, Weihua Gong, Ronghua Liang, Peng Chen
- Abstract要約: 本稿では,スクリブルに基づくSODのためのコンテキスト意味知識を充実させた,一般的な視覚表現によってガイドされるフレームワークを提案する。
これらの一般的な視覚表現は、大規模未ラベルデータセットに基づいた自己教師付き学習によって生成される。
提案手法は,最先端の完全教師付きモデルに匹敵する,あるいは優れた性能を実現する。
- 参考スコア(独自算出の注目度): 8.823804648745487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised salient object detection (SOD) methods have made
considerable progress in performance, yet these models rely heavily on
expensive pixel-wise labels. Recently, to achieve a trade-off between labeling
burden and performance, scribble-based SOD methods have attracted increasing
attention. Previous scribble-based models directly implement the SOD task only
based on SOD training data with limited information, it is extremely difficult
for them to understand the image and further achieve a superior SOD task. In
this paper, we propose a simple yet effective framework guided by general
visual representations with rich contextual semantic knowledge for
scribble-based SOD. These general visual representations are generated by
self-supervised learning based on large-scale unlabeled datasets. Our framework
consists of a task-related encoder, a general visual module, and an information
integration module to efficiently combine the general visual representations
with task-related features to perform the SOD task based on understanding the
contextual connections of images. Meanwhile, we propose a novel global semantic
affinity loss to guide the model to perceive the global structure of the
salient objects. Experimental results on five public benchmark datasets
demonstrate that our method, which only utilizes scribble annotations without
introducing any extra label, outperforms the state-of-the-art weakly supervised
SOD methods. Specifically, it outperforms the previous best scribble-based
method on all datasets with an average gain of 5.5% for max f-measure, 5.8% for
mean f-measure, 24% for MAE, and 3.1% for E-measure. Moreover, our method
achieves comparable or even superior performance to the state-of-the-art fully
supervised models.
- Abstract(参考訳): 完全教師付きサルエントオブジェクト検出(SOD)法は性能に大きな進歩をもたらしたが、これらのモデルは高価なピクセル単位のラベルに大きく依存している。
近年,ラベル付け負荷と性能のトレードオフを実現するために,スクリブル方式のSOD法が注目されている。
従来のスクリブルモデルでは、限られた情報を持つSODトレーニングデータのみに基づいて、SODタスクを直接実装しており、画像を理解し、さらに優れたSODタスクを実現することは極めて困難である。
本稿では,スクリブルに基づくSODのためのコンテキスト意味知識が豊富である汎用視覚表現によってガイドされる,シンプルで効果的なフレームワークを提案する。
これらの一般的な視覚表現は、大規模未ラベルデータセットに基づいた自己教師付き学習によって生成される。
本フレームワークは,タスク関連エンコーダ,汎用視覚モジュール,情報統合モジュールで構成され,汎用視覚表現とタスク関連特徴を効率的に結合し,画像の文脈接続の理解に基づいてsodタスクを実行する。
一方,本研究では,このモデルが有意な対象のグローバルな構造を知覚するための,新たなグローバルなセマンティック親和性損失を提案する。
5つの公開ベンチマークデータセットによる実験結果から,余分なラベルを導入することなくスクリブルアノテーションのみを利用する手法が,最先端の弱教師付きSOD法より優れていることが示された。
具体的には、すべてのデータセットにおいて、以前の最高のスクリブルベースの手法よりも、最大F測定で平均5.5%、平均F測定で平均5.8%、MAEで24%、E測定で3.1%向上した。
さらに,本手法は,最先端の完全教師付きモデルと同等,あるいはさらに優れた性能を実現する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - The Pursuit of Human Labeling: A New Perspective on Unsupervised
Learning [6.17147517649596]
HUMEは、外部の監視なしに、与えられたデータセットの人間のラベル付けを推測するためのモデルに依存しないフレームワークである。
HUMEはこの洞察を利用して、データセットのすべてのラベリングを探索し、基礎となる人間のラベリングを発見する。
提案手法は,データセットの真理ラベル付けと極めてよく相関していることを示す。
論文 参考訳(メタデータ) (2023-11-06T08:16:41Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Semantic Distillation Guided Salient Object Detection [17.653600212923223]
CNNに基づく正当性物体検出法は、SODタスクの主観性と畳み込み層の局所性により、実際の正当性を誤解することが多い。
生成した画像キャプションから意味蒸留された知識をVision-TransformerベースのSODフレームワークに融合させて,正確な結果を生成する意味蒸留誘導型SOD(SDG-SOD)手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T13:40:51Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。