論文の概要: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection
from Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2403.03790v1
- Date: Wed, 6 Mar 2024 15:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:35:31.783120
- Title: Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection
from Remote Sensing Imagery
- Title(参考訳): Popeye: リモートセンシング画像からのマルチソース船舶検出のための統一ビジュアル言語モデル
- Authors: Wei Zhang, Miaoxin Cai, Tong Zhang, Guoqiang Lei, Yin Zhuang and
Xuerui Mao
- Abstract要約: RS画像から複数ソースの船舶を検出するために,Popyeと呼ばれる新しい視覚言語モデルが提案されている。
MMShipという命令データセットを新たに構築した上で実験を行った。
以上の結果から,提案するPopyeは,ゼロショットマルチソース船の検出において,現在のスペシャリストやオープンボキャブラリ,その他の視覚言語モデルよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 11.093929466443587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ship detection needs to identify ship locations from remote sensing (RS)
scenes. However, due to different imaging payloads, various appearances of
ships, and complicated background interference from the bird's eye view, it is
difficult to set up a unified paradigm for achieving multi-source ship
detection. Therefore, in this article, considering that the large language
models (LLMs) emerge the powerful generalization ability, a novel unified
visual-language model called Popeye is proposed for multi-source ship detection
from RS imagery. First, to bridge the interpretation gap between multi-source
images for ship detection, a novel image-instruction-answer way is designed to
integrate the various ship detection ways (e.g., horizontal bounding box (HBB),
oriented bounding box (OBB)) into a unified labeling paradigm. Then, in view of
this, a cross-modal image interpretation method is developed for the proposed
Popeye to enhance interactive comprehension ability between visual and language
content, which can be easily migrated into any multi-source ship detection
task. Subsequently, owing to objective domain differences, a knowledge adaption
mechanism is designed to adapt the pre-trained visual-language knowledge from
the nature scene into the RS domain for multi-source ship detection. In
addition, the segment anything model (SAM) is also seamlessly integrated into
the proposed Popeye to achieve pixel-level ship segmentation without additional
training costs. Finally, extensive experiments are conducted on the newly
constructed instruction dataset named MMShip, and the results indicate that the
proposed Popeye outperforms current specialist, open-vocabulary, and other
visual-language models for zero-shot multi-source ship detection.
- Abstract(参考訳): 船舶検知は、リモートセンシング(RS)シーンから船の位置を特定する必要がある。
しかし、異なる画像ペイロード、様々な船の外観、鳥の視線からの複雑な背景干渉のため、マルチソース船の検出を実現するための統一的なパラダイムを確立することは困難である。
そこで,本稿では,大規模言語モデル (LLM) が強力な一般化能力を持つことを考慮し,RS画像から多ソース船舶を検出するために,Popyeと呼ばれる新しい統一視覚言語モデルを提案する。
まず、船舶検出のための多元画像間の解釈ギャップを埋めるため、様々な船舶検出方法(例えば、水平境界ボックス(hbb)、指向境界ボックス(obb))を統一ラベリングパラダイムに統合する、新しいイメージインストラクション・アンサー方式が考案された。
そこで,提案するpopeyeのクロスモーダル画像解釈法を考案し,視覚コンテンツと言語コンテンツの対話的理解能力を高め,任意の多元船検出タスクに容易に移行できるようにする。
その後、客観的な領域差により、自然界から学習済みの視覚言語知識をRSドメインに適応させ、マルチソースの船舶検出を行うための知識適応機構が設計される。
さらに、セグメンテーション・アズ・モデル(SAM)は、追加の訓練コストなしでピクセルレベルの船のセグメンテーションを実現するために提案されたポーピエにシームレスに統合される。
最後に, MMShip と命名された命令データセットについて広範な実験を行い, この結果から, 提案したPopye は, ゼロショットマルチソース船舶検出のための現在のスペシャリスト, オープン語彙, その他の視覚言語モデルよりも優れていることが示された。
関連論文リスト
- Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Malicious Path Manipulations via Exploitation of Representation Vulnerabilities of Vision-Language Navigation Systems [2.021417596727425]
視覚言語ナビゲーション(VLN)は、ロボットナビゲーションに対する自然言語インタフェースへの課題に対処する効果的な方法として登場した。
視覚言語モデルにおいて、全く異なる画像と無関係なテキストの表現とを無意識に修正できることが示される。
我々は,多数のランドマークを必要とするコマンドに対して,ロボットが選択経路に従うように,最小限の画像を逆向きに修正できるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-10T06:32:58Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z) - Locality-Aware Rotated Ship Detection in High-Resolution Remote Sensing
Imagery Based on Multi-Scale Convolutional Network [7.984128966509492]
マルチスケール畳み込みニューラルネットワーク(CNN)に基づく局所性認識型回転船検出(LARSD)フレームワークを提案する。
提案フレームワークはUNetのようなマルチスケールCNNを用いて高解像度の情報を持つマルチスケール特徴マップを生成する。
検出データセットを拡大するために、新しい高解像度船舶検出(HRSD)データセットを構築し、2499の画像と9269のインスタンスを異なる解像度でGoogle Earthから収集した。
論文 参考訳(メタデータ) (2020-07-24T03:01:42Z) - A Novel CNN-based Method for Accurate Ship Detection in HR Optical
Remote Sensing Images via Rotated Bounding Box [10.689750889854269]
船舶検出における現在のCNN法に共通する欠点を克服し, 新たなCNNに基づく船舶検出手法を提案する。
配向と他の変数を独立に予測できるが、より効果的に、新しい二分岐回帰ネットワークで予測できる。
船体検出において提案手法が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2020-04-15T14:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。