論文の概要: SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding
- arxiv url: http://arxiv.org/abs/2208.07407v1
- Date: Mon, 15 Aug 2022 19:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:32:17.821798
- Title: SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding
- Title(参考訳): SemAug: 言語接地によるオブジェクト検出のための意味のある画像拡張
- Authors: Morgan Heisler and Amin Banitalebi-Dehkordi and Yong Zhang
- Abstract要約: 本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。
本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
- 参考スコア(独自算出の注目度): 5.715548995729382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an essential technique in improving the generalization
of deep neural networks. The majority of existing image-domain augmentations
either rely on geometric and structural transformations, or apply different
kinds of photometric distortions. In this paper, we propose an effective
technique for image augmentation by injecting contextually meaningful knowledge
into the scenes. Our method of semantically meaningful image augmentation for
object detection via language grounding, SemAug, starts by calculating
semantically appropriate new objects that can be placed into relevant locations
in the image (the what and where problems). Then it embeds these objects into
their relevant target locations, thereby promoting diversity of object instance
distribution. Our method allows for introducing new object instances and
categories that may not even exist in the training set. Furthermore, it does
not require the additional overhead of training a context network, so it can be
easily added to existing architectures. Our comprehensive set of evaluations
showed that the proposed method is very effective in improving the
generalization, while the overhead is negligible. In particular, for a wide
range of model architectures, our method achieved ~2-4% and ~1-2% mAP
improvements for the task of object detection on the Pascal VOC and COCO
datasets, respectively.
- Abstract(参考訳): データ拡張はディープニューラルネットワークの一般化を改善する上で不可欠な技術である。
既存の画像領域拡張のほとんどは幾何学的および構造的変換に依存するか、異なる種類の測光歪を適用する。
本稿では,文脈的有意義な知識をシーンに注入し,画像拡張のための効果的な手法を提案する。
言語接地によるオブジェクト検出のための意味的意味的イメージ増強手法SemAugは,画像中の関連する場所(問題と場所)に配置できる意味的に適切な新しいオブジェクトを計算することから始める。
そして、それらのオブジェクトを関連するターゲットロケーションに埋め込み、オブジェクトインスタンスの分散の多様性を促進する。
この方法では、トレーニングセットに存在しない可能性のある新しいオブジェクトインスタンスとカテゴリを導入することができる。
さらに、コンテキストネットワークをトレーニングする追加のオーバーヘッドを必要としないため、既存のアーキテクチャに簡単に追加することができる。
総合的な評価の結果,提案手法は一般化に非常に有効であり,オーバーヘッドは無視できることがわかった。
特に,多種多様なモデルアーキテクチャにおいて,Pascal VOCおよびCOCOデータセットにおけるオブジェクト検出のタスクに対して,約2-4%,約1-2%のmAP改善を実現した。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - ObjectAug: Object-level Data Augmentation for Semantic Image
Segmentation [22.91204798022379]
セマンティックイメージセグメンテーションは、正確な境界を持つオブジェクトラベルを取得することを目的としている。
現在の戦略はイメージレベルで動作し、オブジェクトと背景が結合される。
我々はObjectAugを提案し、セマンティックイメージセグメンテーションのためのオブジェクトレベルの拡張を行う。
論文 参考訳(メタデータ) (2021-01-30T12:46:20Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。