論文の概要: A General Visual Representation Guided Framework with Global Affinity
for Weakly Supervised Salient Object Detection
- arxiv url: http://arxiv.org/abs/2302.10697v1
- Date: Tue, 21 Feb 2023 14:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:53:50.289635
- Title: A General Visual Representation Guided Framework with Global Affinity
for Weakly Supervised Salient Object Detection
- Title(参考訳): 大域的親和性を持つ汎用視覚表現案内フレームワークによる弱教師付きサルエント物体検出
- Authors: Binwei Xu, Haoran Liang, Weihua Gong, Ronghua Liang, Peng Chen
- Abstract要約: ラベル付け負荷と性能のトレードオフを実現するため,スクリブル方式のSOD法が注目されている。
本研究では,スクリブルに基づくSODのための一般的な認知をシミュレートする,一般的な視覚表現によってガイドされるフレームワークを提案する。
我々の手法は最先端の教師付きSOD法よりも優れており、最先端の教師付きモデルに匹敵する、あるいは優れている。
- 参考スコア(独自算出の注目度): 8.823804648745487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully supervised salient object detection (SOD) methods have made
considerable progress in performance, yet these models rely heavily on
expensive pixel-wise labels. Recently, to achieve a trade-off between labeling
burden and performance, scribble-based SOD methods have attracted increasing
attention. Previous models directly implement the SOD task only based on
small-scale SOD training data. Due to the limited information provided by the
weakly scribble tags and such small-scale training data, it is extremely
difficult for them to understand the image and further achieve a superior SOD
task. In this paper, we propose a simple yet effective framework guided by
general visual representations that simulate the general cognition of humans
for scribble-based SOD. It consists of a task-related encoder, a general visual
module, and an information integration module to combine efficiently the
general visual representations learned from large-scale unlabeled datasets with
task-related features to perform the SOD task based on understanding the
contextual connections of images. Meanwhile, we propose a novel global semantic
affinity loss to guide the model to perceive the global structure of the
salient objects. Experimental results on five public benchmark datasets
demonstrate that our method that only utilizes scribble annotations without
introducing any extra label outperforms the state-of-the-art weakly supervised
SOD methods and is comparable or even superior to the state-of-the-art fully
supervised models.
- Abstract(参考訳): 完全教師付きサルエントオブジェクト検出(SOD)法は性能に大きな進歩をもたらしたが、これらのモデルは高価なピクセル単位のラベルに大きく依存している。
近年,ラベル付け負荷と性能のトレードオフを実現するために,スクリブル方式のSOD法が注目されている。
従来のモデルは、小規模のSODトレーニングデータのみに基づいて、SODタスクを直接実装していた。
弱いスクリブルタグとそのような小規模なトレーニングデータによって提供される限られた情報により、画像を理解し、さらに優れたSODタスクを達成することは極めて困難である。
本稿では,スクリブルに基づくSODのための一般的な認知をシミュレートする,汎用的な視覚表現によってガイドされるシンプルで効果的なフレームワークを提案する。
タスク関連エンコーダ、汎用ビジュアルモジュール、情報統合モジュールで構成され、大規模なラベルなしデータセットから学習した一般的なビジュアル表現とタスク関連機能を組み合わせて、画像のコンテキスト接続の理解に基づいてsodタスクを実行する。
一方,本研究では,このモデルが有意な対象のグローバルな構造を知覚するための,新たなグローバルなセマンティック親和性損失を提案する。
5つの公開ベンチマークデータセットによる実験結果から,余分なラベルを導入することなくスクリブルアノテーションのみを利用する手法は,最先端の弱教師付きSOD手法よりも優れ,最先端の完全教師付きモデルに匹敵するか,あるいは優れていることが示された。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - The Pursuit of Human Labeling: A New Perspective on Unsupervised
Learning [6.17147517649596]
HUMEは、外部の監視なしに、与えられたデータセットの人間のラベル付けを推測するためのモデルに依存しないフレームワークである。
HUMEはこの洞察を利用して、データセットのすべてのラベリングを探索し、基礎となる人間のラベリングを発見する。
提案手法は,データセットの真理ラベル付けと極めてよく相関していることを示す。
論文 参考訳(メタデータ) (2023-11-06T08:16:41Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Semantic Distillation Guided Salient Object Detection [17.653600212923223]
CNNに基づく正当性物体検出法は、SODタスクの主観性と畳み込み層の局所性により、実際の正当性を誤解することが多い。
生成した画像キャプションから意味蒸留された知識をVision-TransformerベースのSODフレームワークに融合させて,正確な結果を生成する意味蒸留誘導型SOD(SDG-SOD)手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T13:40:51Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。