論文の概要: A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.01445v1
- Date: Sun, 03 Nov 2024 06:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:58.817730
- Title: A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning
- Title(参考訳): SAR船の視覚的質問応答方法:マルチモーダルデータセット構築とモデルファインチューニングの必要性を打破する
- Authors: Fei Wang, Chengcheng Chen, Hongyu Chen, Yugang Chang, Weiming Zeng,
- Abstract要約: 現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
- 参考スコア(独自算出の注目度): 10.748210940033484
- License:
- Abstract: Current visual question answering (VQA) tasks often require constructing multimodal datasets and fine-tuning visual language models, which demands significant time and resources. This has greatly hindered the application of VQA to downstream tasks, such as ship information analysis based on Synthetic Aperture Radar (SAR) imagery. To address this challenge, this letter proposes a novel VQA approach that integrates object detection networks with visual language models, specifically designed for analyzing ships in SAR images. This integration aims to enhance the capabilities of VQA systems, focusing on aspects such as ship location, density, and size analysis, as well as risk behavior detection. Initially, we conducted baseline experiments using YOLO networks on two representative SAR ship detection datasets, SSDD and HRSID, to assess each model's performance in terms of detection accuracy. Based on these results, we selected the optimal model, YOLOv8n, as the most suitable detection network for this task. Subsequently, leveraging the vision-language model Qwen2-VL, we designed and implemented a VQA task specifically for SAR scenes. This task employs the ship location and size information output by the detection network to generate multi-turn dialogues and scene descriptions for SAR imagery. Experimental results indicate that this method not only enables fundamental SAR scene question-answering without the need for additional datasets or fine-tuning but also dynamically adapts to complex, multi-turn dialogue requirements, demonstrating robust semantic understanding and adaptability.
- Abstract(参考訳): 現在の視覚的質問応答(VQA)タスクは、しばしば時間とリソースを必要とするマルチモーダルデータセットと微調整されたビジュアル言語モデルを構築する必要がある。
これにより、SAR(Synthetic Aperture Radar)画像に基づく船舶情報分析など、下流タスクへのVQAの適用が著しく妨げられている。
この課題に対処するため、本稿では、オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQAアプローチを提案する。
この統合は、VQAシステムの能力を強化することを目的としており、船舶の位置、密度、サイズ分析、リスク行動の検出といった側面に焦点を当てている。
まず,2つの代表的なSAR船体検出データセットであるSSDDとHRSIDを用いたYOLOネットワークを用いたベースライン実験を行い,各モデルの性能を検出精度で評価した。
これらの結果に基づき, 最適モデル YOLOv8n を最適検出ネットワークとして選択した。
その後、視覚言語モデルQwen2-VLを用いて、SARシーンに特化したVQAタスクを設計、実装した。
このタスクでは,SAR画像のマルチターン対話とシーン記述を生成するために,検出ネットワークによって出力される船の位置とサイズ情報を利用する。
実験結果から,本手法は,追加のデータセットや微調整を必要とせずに,基本的なSARシーン質問応答を可能にするだけでなく,複雑なマルチターン対話要求に動的に対応し,堅牢なセマンティック理解と適応性を実証する。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。
このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。
本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-11T07:46:47Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation [6.032808648673282]
LfOパラダイム(Learning-from-observation、LfO)は、ロボットが実行されているのを見るだけでタスクを実行することを学ぶための、人間にインスパイアされたモードである。
タスクアクティビティの複数の視点を認識できるように,SA-Netモデルを一般化したマルチビューSA-Netを提案する。
論文 参考訳(メタデータ) (2023-11-14T18:53:28Z) - ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and
Multispectral Data Fusion [54.668445421149364]
HSI(Deep Learning-based Hyperspectral Image)は、HSI(Hyperspectral Image)とMSI(Multispectral Image)を深層ニューラルネットワーク(DNN)に融合させることにより、高空間分解能HSI(HR-HSI)を生成することを目的としている。
本稿では, HSI-MSI 融合のためのデータ多様性を向上するために, HSI-MSI サンプルペアの自動最適化と拡張を行う新しい逆自動データ拡張フレームワーク ADASR を提案する。
論文 参考訳(メタデータ) (2023-10-11T07:30:37Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - SAR-ShipNet: SAR-Ship Detection Neural Network via Bidirectional
Coordinate Attention and Multi-resolution Feature Fusion [7.323279438948967]
本稿では,ニューラルネットワークによる合成開口レーダ(SAR)画像から,事実上有意義な船舶検出問題について検討する。
本稿では,CentralNetに基づく双方向協調注意(BCA)とMRF(Multi- resolution Feature Fusion)を新たに開発したSAR-ShipNet(略してSAR-ShipNet)を提案する。
パブリックなSAR-Shipデータセットの実験結果から,SAR-ShipNetは速度と精度の両面で競争上の優位性を達成していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:27:04Z) - Context-Preserving Instance-Level Augmentation and Deformable
Convolution Networks for SAR Ship Detection [50.53262868498824]
ランダムな方向と部分的な情報損失によるSAR画像のターゲット形状の変形は、SAR船の検出において必須の課題である。
ターゲット内の部分的な情報損失に頑健なディープネットワークをトレーニングするためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-02-14T07:01:01Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。