論文の概要: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection
from Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2403.03790v1
- Date: Wed, 6 Mar 2024 15:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:35:31.783120
- Title: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection
from Remote Sensing Imagery
- Title(参考訳): Popeye: リモートセンシング画像からのマルチソース船舶検出のための統一ビジュアル言語モデル
- Authors: Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang and
Xuerui Mao
- Abstract要約: RS画像から複数ソースの船舶を検出するために,Popyeと呼ばれる新しい視覚言語モデルが提案されている。
MMShipという命令データセットを新たに構築した上で実験を行った。
以上の結果から,提案するPopyeは,ゼロショットマルチソース船の検出において,現在のスペシャリストやオープンボキャブラリ,その他の視覚言語モデルよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 11.093929466443587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ship detection needs to identify ship locations from remote sensing (RS)
scenes. However, due to different imaging payloads, various appearances of
ships, and complicated background interference from the bird's eye view, it is
difficult to set up a unified paradigm for achieving multi-source ship
detection. Therefore, in this article, considering that the large language
models (LLMs) emerge the powerful generalization ability, a novel unified
visual-language model called Popeye is proposed for multi-source ship detection
from RS imagery. First, to bridge the interpretation gap between multi-source
images for ship detection, a novel image-instruction-answer way is designed to
integrate the various ship detection ways (e.g., horizontal bounding box (HBB),
oriented bounding box (OBB)) into a unified labeling paradigm. Then, in view of
this, a cross-modal image interpretation method is developed for the proposed
Popeye to enhance interactive comprehension ability between visual and language
content, which can be easily migrated into any multi-source ship detection
task. Subsequently, owing to objective domain differences, a knowledge adaption
mechanism is designed to adapt the pre-trained visual-language knowledge from
the nature scene into the RS domain for multi-source ship detection. In
addition, the segment anything model (SAM) is also seamlessly integrated into
the proposed Popeye to achieve pixel-level ship segmentation without additional
training costs. Finally, extensive experiments are conducted on the newly
constructed instruction dataset named MMShip, and the results indicate that the
proposed Popeye outperforms current specialist, open-vocabulary, and other
visual-language models for zero-shot multi-source ship detection.
- Abstract(参考訳): 船舶検知は、リモートセンシング(RS)シーンから船の位置を特定する必要がある。
しかし、異なる画像ペイロード、様々な船の外観、鳥の視線からの複雑な背景干渉のため、マルチソース船の検出を実現するための統一的なパラダイムを確立することは困難である。
そこで,本稿では,大規模言語モデル (LLM) が強力な一般化能力を持つことを考慮し,RS画像から多ソース船舶を検出するために,Popyeと呼ばれる新しい統一視覚言語モデルを提案する。
まず、船舶検出のための多元画像間の解釈ギャップを埋めるため、様々な船舶検出方法(例えば、水平境界ボックス(hbb)、指向境界ボックス(obb))を統一ラベリングパラダイムに統合する、新しいイメージインストラクション・アンサー方式が考案された。
そこで,提案するpopeyeのクロスモーダル画像解釈法を考案し,視覚コンテンツと言語コンテンツの対話的理解能力を高め,任意の多元船検出タスクに容易に移行できるようにする。
その後、客観的な領域差により、自然界から学習済みの視覚言語知識をRSドメインに適応させ、マルチソースの船舶検出を行うための知識適応機構が設計される。
さらに、セグメンテーション・アズ・モデル(SAM)は、追加の訓練コストなしでピクセルレベルの船のセグメンテーションを実現するために提案されたポーピエにシームレスに統合される。
最後に, MMShip と命名された命令データセットについて広範な実験を行い, この結果から, 提案したPopye は, ゼロショットマルチソース船舶検出のための現在のスペシャリスト, オープン語彙, その他の視覚言語モデルよりも優れていることが示された。
関連論文リスト
- AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Multimodal Transformer Using Cross-Channel attention for Object
Detection in Remote Sensing Images [1.8160945635344523]
オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。
チャネルワイズ接続によるマルチモーダル入力を直接結合するのではなく,チャネル間アテンションモジュールを提案する。
このモジュールは異なるチャネル間の関係を学習し、コヒーレントなマルチモーダル入力の構築を可能にする。
また、固定次元を維持しつつ、非シフトブロックに畳み込み層を組み込んだSwin変換器に基づく新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Locality-Aware Rotated Ship Detection in High-Resolution Remote Sensing
Imagery Based on Multi-Scale Convolutional Network [7.984128966509492]
マルチスケール畳み込みニューラルネットワーク(CNN)に基づく局所性認識型回転船検出(LARSD)フレームワークを提案する。
提案フレームワークはUNetのようなマルチスケールCNNを用いて高解像度の情報を持つマルチスケール特徴マップを生成する。
検出データセットを拡大するために、新しい高解像度船舶検出(HRSD)データセットを構築し、2499の画像と9269のインスタンスを異なる解像度でGoogle Earthから収集した。
論文 参考訳(メタデータ) (2020-07-24T03:01:42Z) - A Novel CNN-based Method for Accurate Ship Detection in HR Optical
Remote Sensing Images via Rotated Bounding Box [10.689750889854269]
船舶検出における現在のCNN法に共通する欠点を克服し, 新たなCNNに基づく船舶検出手法を提案する。
配向と他の変数を独立に予測できるが、より効果的に、新しい二分岐回帰ネットワークで予測できる。
船体検出において提案手法が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2020-04-15T14:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。