論文の概要: Learning Gaussian Data Augmentation in Feature Space for One-shot Object Detection in Manga
- arxiv url: http://arxiv.org/abs/2410.05935v1
- Date: Tue, 8 Oct 2024 11:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:00:27.596300
- Title: Learning Gaussian Data Augmentation in Feature Space for One-shot Object Detection in Manga
- Title(参考訳): マンガにおけるワンショット物体検出のための特徴空間におけるガウスデータ拡張学習
- Authors: Takara Taniguchi, Ryosuke Furuta,
- Abstract要約: 日本漫画の世界的な普及に伴い、キャラクターの物体検出がますます重要になっている。
新しいキャラクターは、新しい量のマンガが放出されるたびに出現し、オブジェクト検出器を再訓練するのは現実的ではない。
新たなキャラクタを検出するために単一のクエリ(参照)イメージのみを必要とするワンショットオブジェクト検出は,マンガ産業において必須の課題である。
- 参考スコア(独自算出の注目度): 2.800768893804362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle one-shot object detection in Japanese Manga. The rising global popularity of Japanese manga has made the object detection of character faces increasingly important, with potential applications such as automatic colorization. However, obtaining sufficient data for training conventional object detectors is challenging due to copyright restrictions. Additionally, new characters appear every time a new volume of manga is released, making it impractical to re-train object detectors each time to detect these new characters. Therefore, one-shot object detection, where only a single query (reference) image is required to detect a new character, is an essential task in the manga industry. One challenge with one-shot object detection in manga is the large variation in the poses and facial expressions of characters in target images, despite having only one query image as a reference. Another challenge is that the frequency of character appearances follows a long-tail distribution. To overcome these challenges, we propose a data augmentation method in feature space to increase the variation of the query. The proposed method augments the feature from the query by adding Gaussian noise, with the noise variance at each channel learned during training. The experimental results show that the proposed method improves the performance for both seen and unseen classes, surpassing data augmentation methods in image space.
- Abstract(参考訳): マンガにおける一発物体検出に挑戦する。
日本マンガの世界的な普及により、自動着色などの潜在的な応用により、キャラクターの物体検出がますます重要になっている。
しかし,従来のオブジェクト検出器のトレーニングに十分なデータを取得することは,著作権上の制約により困難である。
さらに、新しいキャラクタがリリースされる度に新しいキャラクタが現れ、新しいキャラクタを検出する度にオブジェクト検出器を再トレーニングすることは不可能である。
したがって,新たなキャラクタを検出するために単一のクエリ(参照)イメージのみを必要とするワンショットオブジェクト検出は,マンガ産業において不可欠な課題である。
マンガにおけるワンショットオブジェクト検出の課題の1つは、参照として1つのクエリイメージしか持たないにも関わらず、ターゲット画像中の文字のポーズと表情の大きなバリエーションである。
もう一つの課題は、キャラクタの出現頻度が長い尾の分布に従うことである。
これらの課題を克服するために,特徴空間におけるデータ拡張手法を提案する。
提案手法は,ガウス雑音を学習中に学習した各チャネルの雑音分散を伴って,クエリから特徴を増強する。
実験結果から,提案手法は画像空間におけるデータ拡張手法を超越して,目視クラスと目視クラスの両方のパフォーマンスを向上することが示された。
関連論文リスト
- Extracting Human Attention through Crowdsourced Patch Labeling [18.947126675569667]
画像分類では、データセットのバイアスから重大な問題が生じる。
このようなバイアスを軽減する1つのアプローチは、モデルが対象物の位置に注意を向けることである。
本稿では,画像から人の注意を捉えるために,クラウドソーシングとAI支援を統合した新しいパッチラベル手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T07:57:27Z) - Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection [157.18560601328534]
RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-18T17:59:41Z) - Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection [35.76765622970398]
異常検出は幅広い用途、特に工業的欠陥検出において大きな注目を集めている。
データ収集の課題に対処するため、研究者たちはゼロ/ファウショット異常検出技術を導入した。
本稿では,ゼロ/フェーショット異常検出のための,単純かつ強力なマルチスケールメモリ比較フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-09T08:28:25Z) - Unsupervised Manga Character Re-identification via Face-body and
Spatial-temporal Associated Clustering [21.696847342192072]
マンガの芸術的表現と様式的制限は、再同定問題に多くの課題をもたらす。
コンテンツに関連するいくつかの特徴がクラスタリングに役立つという考えから着想を得て,顔の身体と空間的関連クラスタリング法を提案する。
フェースボディ結合モジュールにおいて、アート創造における誇張や変形などの問題を解決するために、フェースボディグラフを構築する。
時空間関係補正モジュールにおいて,文字の出現特徴を分析し,時間空間関連三重項損失を設計し,クラスタリングを微調整する。
論文 参考訳(メタデータ) (2022-04-10T07:28:41Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language
KnowledgeDistillation [5.424015823818208]
COCOのようなデータセットは、多くの画像に広く注釈付けされているが、多数のカテゴリがあり、さまざまなドメインにまたがるすべてのオブジェクトクラスに注釈を付けるのは高価で難しい。
我々は,CLIPのようなゼロショット事前学習モデルからの画像とテキストの埋め込みを,YOLOv5のような一段検出器からの修正意味予測ヘッドに整合させるビジョン・ランゲージ蒸留法を開発した。
推論中、我々のモデルは追加のトレーニングなしで任意の数のオブジェクトクラスを検出するように適応できる。
論文 参考訳(メタデータ) (2021-09-24T16:46:36Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Any-Shot Object Detection [81.88153407655334]
「アニーショット検出」とは、全く見えず、数発のカテゴリが推論中に同時に共起できる場所である。
我々は、ゼロショットと少数ショットの両方のオブジェクトクラスを同時に検出できる、統合された任意のショット検出モデルを提案する。
我々のフレームワークは、ゼロショット検出とFewショット検出タスクにのみ使用できる。
論文 参考訳(メタデータ) (2020-03-16T03:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。