論文の概要: Language-guided Learning for Object Detection Tackling Multiple Variations in Aerial Images
- arxiv url: http://arxiv.org/abs/2505.23193v1
- Date: Thu, 29 May 2025 07:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.744189
- Title: Language-guided Learning for Object Detection Tackling Multiple Variations in Aerial Images
- Title(参考訳): 空中画像の多変量に対処する物体検出のための言語誘導学習
- Authors: Sungjune Park, Hyunjun Kim, Beomchan Park, Yong Man Ro,
- Abstract要約: 本稿では,LANGuage-Guided Object Detection (LANGO) という,空中画像における新しい物体検出フレームワークを提案する。
提案する言語指導学習では,シーンレベルの変動とインスタンスレベルの変動の影響を軽減するために,提案フレームワークが設計されている。
提案手法の有効性を実証し,本手法により検出性能が向上することを示す。
- 参考スコア(独自算出の注目度): 47.29074873769022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in computer vision research, object detection in aerial images still suffers from several challenges. One primary challenge to be mitigated is the presence of multiple types of variation in aerial images, for example, illumination and viewpoint changes. These variations result in highly diverse image scenes and drastic alterations in object appearance, so that it becomes more complicated to localize objects from the whole image scene and recognize their categories. To address this problem, in this paper, we introduce a novel object detection framework in aerial images, named LANGuage-guided Object detection (LANGO). Upon the proposed language-guided learning, the proposed framework is designed to alleviate the impacts from both scene and instance-level variations. First, we are motivated by the way humans understand the semantics of scenes while perceiving environmental factors in the scenes (e.g., weather). Therefore, we design a visual semantic reasoner that comprehends visual semantics of image scenes by interpreting conditions where the given images were captured. Second, we devise a training objective, named relation learning loss, to deal with instance-level variations, such as viewpoint angle and scale changes. This training objective aims to learn relations in language representations of object categories, with the help of the robust characteristics against such variations. Through extensive experiments, we demonstrate the effectiveness of the proposed method, and our method obtains noticeable detection performance improvements.
- Abstract(参考訳): 近年のコンピュータビジョン研究の進歩にもかかわらず、空中画像の物体検出にはいくつかの課題がある。
緩和すべき主な課題の1つは、例えば照明や視点の変化など、複数の種類の空中画像が存在することである。
これらの変化は、非常に多様な画像シーンと、オブジェクトの外観の劇的な変化をもたらすため、画像シーン全体からオブジェクトをローカライズし、それらのカテゴリを認識するのがより複雑になる。
そこで本稿では,LANGuage-guided Object Detection (LANGO) という,空中画像における新しい物体検出フレームワークを提案する。
提案する言語指導学習では,シーンレベルの変動とインスタンスレベルの変動の影響を軽減するために,提案フレームワークが設計されている。
まず,シーンの環境要因(天気など)を知覚しながら,シーンの意味を人間が理解する方法に動機づけられる。
そこで我々は,与えられた画像がキャプチャされた条件を解釈することにより,画像シーンの視覚的意味論を理解する視覚意味推論器を設計する。
第2に、視点角やスケール変化といったインスタンスレベルの変動に対処するために、関係学習損失という訓練目標を考案する。
本訓練の目的は,対象カテゴリーの言語表現における関係を学習することであり,そのような変化に対する頑健な特徴の助けとなる。
提案手法の有効性を実証し,本手法により検出性能が向上することを示す。
関連論文リスト
- Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding [5.715548995729382]
本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。
本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
論文 参考訳(メタデータ) (2022-08-15T19:00:56Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning [41.044241265804125]
本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-09-30T00:13:49Z) - Improving Object Detection with Selective Self-supervised Self-training [62.792445237541145]
本研究では,Web画像を利用した人為的対象検出データセットの強化について検討する。
画像と画像の検索によりWebイメージを検索し、他の検索手法に比べて、キュレートされたデータからのドメインシフトが少なくなる。
画像分類のためのラベルのないデータを探索する2つの並列処理をモチベーションとした新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:05:01Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。