論文の概要: No Annotations for Object Detection in Art through Stable Diffusion
- arxiv url: http://arxiv.org/abs/2412.06286v1
- Date: Mon, 09 Dec 2024 08:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:40.666494
- Title: No Annotations for Object Detection in Art through Stable Diffusion
- Title(参考訳): 安定拡散による美術品の物体検出のためのアノテーション
- Authors: Patrick Ramos, Nicolas Gonthier, Selina Khan, Yuta Nakashima, Noa Garcia,
- Abstract要約: 絵画における物体検出に拡散モデルによる知識を活用できるパイプラインであるNAD(No Annotation for Detection in Art)を,フルバウンディングボックスの監督を必要とせずに提示する。
本手法は,弱教師付きシナリオとゼロショットシナリオの両方をサポートし,事前訓練されたコンポーネントの微調整は不要である。
- 参考スコア(独自算出の注目度): 21.755357781998853
- License:
- Abstract: Object detection in art is a valuable tool for the digital humanities, as it allows for faster identification of objects in artistic and historical images compared to humans. However, annotating such images poses significant challenges due to the need for specialized domain expertise. We present NADA (no annotations for detection in art), a pipeline that leverages diffusion models' art-related knowledge for object detection in paintings without the need for full bounding box supervision. Our method, which supports both weakly-supervised and zero-shot scenarios and does not require any fine-tuning of its pretrained components, consists of a class proposer based on large vision-language models and a class-conditioned detector based on Stable Diffusion. NADA is evaluated on two artwork datasets, ArtDL 2.0 and IconArt, outperforming prior work in weakly-supervised detection, while being the first work for zero-shot object detection in art. Code is available at https://github.com/patrick-john-ramos/nada
- Abstract(参考訳): 美術品の物体検出は、芸術品や歴史画の物体を人間に比べて素早く識別できるので、デジタル人文科学にとって貴重なツールである。
しかし、そのような画像に注釈をつけることは、専門分野の専門知識を必要とするため、大きな課題となる。
絵画における物体検出に拡散モデルによる知識を活用できるパイプラインであるNAD(No Annotation for Detection in Art)を,フルバウンディングボックスの監督を必要とせずに提示する。
本手法は,弱い教師付きシナリオとゼロショットシナリオの両方をサポートし,事前訓練されたコンポーネントの微調整を必要としないため,大規模な視覚言語モデルに基づくクラスプロポーザと,安定拡散に基づくクラス条件検出器から構成される。
NADAはArtDL 2.0とIconArtという2つのアートデータセットで評価されている。
コードはhttps://github.com/patrick-john-ramos/nadaで入手できる。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images [11.217630579076237]
リモートセンシングの分野では、FSOD(Few-shot Object Detection)が注目されている。
本稿では,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) という,リモートセンシングのための新しいFSOD法を提案する。
具体的には、従来の水平有界ボックスの代わりに指向的有界ボックスを用いて、任意指向の空中オブジェクトのより優れた特徴表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T08:15:18Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - A Self-supervised GAN for Unsupervised Few-shot Object Recognition [39.79912546252623]
本稿では、教師なし数発の物体認識について述べる。
すべてのトレーニングイメージはラベル付けされておらず、テストイメージはクエリと、対象のクラス毎にラベル付きサポートイメージに分割されている。
我々は,バニラGANを2つの損失関数で拡張し,それぞれが自己教師型学習を目的とした。
論文 参考訳(メタデータ) (2020-08-16T19:47:26Z) - Co-training for On-board Deep Object Detection [0.0]
人間のラベル付きバウンディングボックスを頼りにすることにより、最高のディープビジョンベースのオブジェクト検出器を教師付きで訓練する。
共同学習は、未ラベル画像における自己ラベルオブジェクトの半教師付き学習手法である。
我々は、協調学習がオブジェクトのラベル付けを緩和し、タスクに依存しないドメイン適応と単独で作業するためのパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-08-12T19:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。