論文の概要: Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models
- arxiv url: http://arxiv.org/abs/2501.04582v1
- Date: Wed, 08 Jan 2025 15:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:53.949004
- Title: Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models
- Title(参考訳): 大規模基礎モデルから推定した知識による有能な物体検出の促進
- Authors: Miaoyang He, Shuyong Gao, Tsui Qin Mok, Weifeng Ge, Wengqiang Zhang,
- Abstract要約: Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
- 参考スコア(独自算出の注目度): 7.898092154590899
- License:
- Abstract: Salient Object Detection (SOD) aims to identify and segment prominent regions within a scene. Traditional models rely on manually annotated pseudo labels with precise pixel-level accuracy, which is time-consuming. We developed a low-cost, high-precision annotation method by leveraging large foundation models to address the challenges. Specifically, we use a weakly supervised approach to guide large models in generating pseudo-labels through textual prompts. Since large models do not effectively focus on the salient regions of images, we manually annotate a subset of text to fine-tune the model. Based on this approach, which enables precise and rapid generation of pseudo-labels, we introduce a new dataset, BDS-TR. Compared to the previous DUTS-TR dataset, BDS-TR is more prominent in scale and encompasses a wider variety of categories and scenes. This expansion will enhance our model's applicability across a broader range of scenarios and provide a more comprehensive foundational dataset for future SOD research. Additionally, we present an edge decoder based on dynamic upsampling, which focuses on object edges while gradually recovering image feature resolution. Comprehensive experiments on five benchmark datasets demonstrate that our method significantly outperforms state-of-the-art approaches and also surpasses several existing fully-supervised SOD methods. The code and results will be made available.
- Abstract(参考訳): Salient Object Detection (SOD) は、シーン内の顕著な領域を特定し、分割することを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存しており、これは時間を要する。
本研究では,これらの課題に対処するために,大規模基盤モデルを活用した低コストで高精度なアノテーション手法を開発した。
具体的には、テキストのプロンプトを通じて擬似ラベルを生成する際に、弱教師付きアプローチを用いて大きなモデルを誘導する。
大規模モデルは画像の健全な領域に効果的に焦点を絞らないため、手動でテキストのサブセットに注釈を付け、モデルを微調整する。
擬似ラベルの正確かつ迅速な生成を可能にするこのアプローチに基づいて,新たなデータセットであるBDS-TRを導入する。
以前のDUTS-TRデータセットと比較すると、BDS-TRはスケールが顕著であり、幅広いカテゴリやシーンを含んでいる。
この拡張により、幅広いシナリオにわたるモデルの適用性を高め、将来のSOD研究のためのより包括的な基盤データセットを提供する。
さらに,動的アップサンプリングに基づくエッジデコーダを提案する。
5つのベンチマークデータセットの総合的な実験により、我々の手法は最先端のアプローチを著しく上回り、既存の完全に教師されたSOD手法をはるかに上回っていることが示された。
コードと結果は利用可能になる。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。
経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。
DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文 参考訳(メタデータ) (2022-07-15T03:31:15Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。