論文の概要: Let Human Sketches Help: Empowering Challenging Image Segmentation Task with Freehand Sketches
- arxiv url: http://arxiv.org/abs/2501.19329v1
- Date: Fri, 31 Jan 2025 17:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:40.267833
- Title: Let Human Sketches Help: Empowering Challenging Image Segmentation Task with Freehand Sketches
- Title(参考訳): 人間のスケッチを手伝う:自由なスケッチで画像セグメンテーションタスクの強化
- Authors: Ying Zang, Runlong Cao, Jianqi Zhang, Yidong Han, Ziyue Cao, Wenjun Hu, Didi Zhu, Lanyun Zhu, Zejian Li, Deyi Ji, Tianrun Chen,
- Abstract要約: 本稿では,革新的なスケッチ誘導型対話型セグメンテーションフレームワークを提案する。
スケッチ入力が既存の反復分割法の性能を大幅に改善できることを実証する。
また、カモフラージュされたオブジェクト検出のための最初のフリーハンドスケッチデータセットであるKOSCamo+を提示する。
- 参考スコア(独自算出の注目度): 11.361057754047344
- License:
- Abstract: Sketches, with their expressive potential, allow humans to convey the essence of an object through even a rough contour. For the first time, we harness this expressive potential to improve segmentation performance in challenging tasks like camouflaged object detection (COD). Our approach introduces an innovative sketch-guided interactive segmentation framework, allowing users to intuitively annotate objects with freehand sketches (drawing a rough contour of the object) instead of the traditional bounding boxes or points used in classic interactive segmentation models like SAM. We demonstrate that sketch input can significantly improve performance in existing iterative segmentation methods, outperforming text or bounding box annotations. Additionally, we introduce key modifications to network architectures and a novel sketch augmentation technique to fully harness the power of sketch input and further boost segmentation accuracy. Remarkably, our model' s output can be directly used to train other neural networks, achieving results comparable to pixel-by-pixel annotations--while reducing annotation time by up to 120 times, which shows great potential in democratizing the annotation process and enabling model training with less reliance on resource-intensive, laborious pixel-level annotations. We also present KOSCamo+, the first freehand sketch dataset for camouflaged object detection. The dataset, code, and the labeling tool will be open sourced.
- Abstract(参考訳): スケッチは表現力のあるもので、人間は粗い輪郭を通して物体の本質を伝達することができる。
我々は,この表現力を利用して,COD(camouflaged object detection)などの課題において,セグメンテーション性能を向上させる。
提案手法では,従来の有界ボックスやSAMのような古典的対話的セグメンテーションモデルで使用される点の代わりに,フリーハンドスケッチ(オブジェクトの粗い輪郭を描画する)でオブジェクトを直感的にアノテートすることができる。
スケッチ入力は、既存の反復的セグメンテーション手法やテキストやバウンディングボックスアノテーションの性能を大幅に向上させることができることを示す。
さらに,ネットワークアーキテクチャの鍵となる改良と,スケッチ入力のパワーをフル活用し,セグメンテーション精度をさらに向上する新しいスケッチ拡張技術を導入する。
注目すべきは、私たちのモデルの出力は、他のニューラルネットワークのトレーニングに直接使用することができ、ピクセル単位のアノテーションに匹敵する結果を得ることができます。
また、カモフラージュされたオブジェクト検出のための最初のフリーハンドスケッチデータセットであるKOSCamo+を提示する。
データセット、コード、ラベル付けツールがオープンソース化される。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - Open Vocabulary Semantic Scene Sketch Understanding [5.638866331696071]
フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
論文 参考訳(メタデータ) (2023-12-18T19:02:07Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。