論文の概要: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2403.03790v2
- Date: Thu, 13 Jun 2024 06:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:35:40.768492
- Title: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery
- Title(参考訳): Popeye: リモートセンシング画像からのマルチソース船舶検出のための統一ビジュアル言語モデル
- Authors: Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang, Xuerui Mao,
- Abstract要約: RS画像から複数ソースの船体検出を行うために,Popyeと呼ばれる統一視覚言語モデルを提案する。
船舶検出のためのマルチソース画像間の解釈ギャップを埋めるために、新しい統一ラベル付けパラダイムを設計する。
提案されたPopyeは、ゼロショットマルチソース船検出のための現在のスペシャリスト、オープンボキャブラリ、その他のビジュアル言語モデルよりも優れています。
- 参考スコア(独自算出の注目度): 10.469765780414175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ship detection needs to identify ship locations from remote sensing (RS) scenes. Due to different imaging payloads, various appearances of ships, and complicated background interference from the bird's eye view, it is difficult to set up a unified paradigm for achieving multi-source ship detection. To address this challenge, in this article, leveraging the large language models (LLMs)'s powerful generalization ability, a unified visual-language model called Popeye is proposed for multi-source ship detection from RS imagery. Specifically, to bridge the interpretation gap between the multi-source images for ship detection, a novel unified labeling paradigm is designed to integrate different visual modalities and the various ship detection ways, i.e., horizontal bounding box (HBB) and oriented bounding box (OBB). Subsequently, the hybrid experts encoder is designed to refine multi-scale visual features, thereby enhancing visual perception. Then, a visual-language alignment method is developed for Popeye to enhance interactive comprehension ability between visual and language content. Furthermore, an instruction adaption mechanism is proposed for transferring the pre-trained visual-language knowledge from the nature scene into the RS domain for multi-source ship detection. In addition, the segment anything model (SAM) is also seamlessly integrated into the proposed Popeye to achieve pixel-level ship segmentation without additional training costs. Finally, extensive experiments are conducted on the newly constructed ship instruction dataset named MMShip, and the results indicate that the proposed Popeye outperforms current specialist, open-vocabulary, and other visual-language models for zero-shot multi-source ship detection.
- Abstract(参考訳): 船舶検知は、リモートセンシング(RS)のシーンから船の位置を特定する必要がある。
異なる画像ペイロード、様々な船の外観、鳥の視線からの複雑な背景干渉のため、マルチソース船の検出を実現するための統一的なパラダイムを設定することは困難である。
この課題に対処するために,本稿では,大規模言語モデル(LLMs)の強力な一般化能力を活用して,RS画像からのマルチソース船舶検出のために,Popyeと呼ばれる統一視覚言語モデルを提案する。
具体的には、船舶検出のための多ソース画像間の解釈ギャップを埋めるために、異なる視覚的モダリティと、水平バウンディングボックス(HBB)と指向バウンディングボックス(OBB)といった様々な船舶検出方法を統合するために、新しい統一ラベリングパラダイムが設計されている。
その後、ハイブリッドエキスパートエンコーダは、マルチスケールの視覚的特徴を洗練し、視覚知覚を高めるように設計されている。
次に、視覚コンテンツと言語コンテンツ間の対話的理解能力を高めるために、ポーピエのための視覚言語アライメント手法を開発した。
さらに、学習済みの視覚言語知識を自然界からRS領域に転送し、マルチソースの船舶検知を行うための命令適応機構を提案する。
さらに、セグメンテーション・アズ・モデル(SAM)は、追加の訓練コストなしでピクセルレベルの船のセグメンテーションを実現するため、提案されたポープアイにシームレスに統合される。
最後に, MMShip と呼ばれる新規に構築された船舶命令データセットについて広範な実験を行い, 提案手法は, ゼロショットマルチソース船舶検出のための現在の専門家, オープンボキャブラリ, その他の視覚言語モデルよりも優れていることを示す。
関連論文リスト
- Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Malicious Path Manipulations via Exploitation of Representation Vulnerabilities of Vision-Language Navigation Systems [2.021417596727425]
視覚言語ナビゲーション(VLN)は、ロボットナビゲーションに対する自然言語インタフェースへの課題に対処する効果的な方法として登場した。
視覚言語モデルにおいて、全く異なる画像と無関係なテキストの表現とを無意識に修正できることが示される。
我々は,多数のランドマークを必要とするコマンドに対して,ロボットが選択経路に従うように,最小限の画像を逆向きに修正できるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-10T06:32:58Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Locality-Aware Rotated Ship Detection in High-Resolution Remote Sensing
Imagery Based on Multi-Scale Convolutional Network [7.984128966509492]
マルチスケール畳み込みニューラルネットワーク(CNN)に基づく局所性認識型回転船検出(LARSD)フレームワークを提案する。
提案フレームワークはUNetのようなマルチスケールCNNを用いて高解像度の情報を持つマルチスケール特徴マップを生成する。
検出データセットを拡大するために、新しい高解像度船舶検出(HRSD)データセットを構築し、2499の画像と9269のインスタンスを異なる解像度でGoogle Earthから収集した。
論文 参考訳(メタデータ) (2020-07-24T03:01:42Z) - A Novel CNN-based Method for Accurate Ship Detection in HR Optical
Remote Sensing Images via Rotated Bounding Box [10.689750889854269]
船舶検出における現在のCNN法に共通する欠点を克服し, 新たなCNNに基づく船舶検出手法を提案する。
配向と他の変数を独立に予測できるが、より効果的に、新しい二分岐回帰ネットワークで予測できる。
船体検出において提案手法が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2020-04-15T14:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。