論文の概要: Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition
- arxiv url: http://arxiv.org/abs/2605.10772v1
- Date: Mon, 11 May 2026 16:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.966476
- Title: Towards a Large Language-Vision Question Answering Model for MSTAR Automatic Target Recognition
- Title(参考訳): MSTAR自動目標認識のための大規模言語ビジョン質問応答モデルに向けて
- Authors: David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias,
- Abstract要約: 大規模言語ビジョンモデル(LLVM)は、テキストや画像を分析する強力なツールとして注目されている。
近年の変圧器を用いたLLVM研究は地理空間認識タスクの大幅な改善を示している。
本研究では,LLVMのリモートセンシング画像キャプションと視覚質問応答への応用について検討した。
- 参考スコア(独自算出の注目度): 3.3274747298291203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language-vision models (LLVM), such as OpenAI's ChatGPT and GPT-4, have gained prominence as powerful tools for analyzing text and imagery. The merging of these data domains represents a significant paradigm shift with far-reaching implications for automatic target recognition (ATR). Recent transformer-based LLVM research has shown substantial improvements for geospatial perception tasks. Our study examines the application of LLVM to remote sensing image captioning and visual question-answering (VQA), with a specific focus on synthetic aperture radar (SAR) imagery. We examine newly published LLVM methods, including CLIP and LLaVA neural network transformer architectures. We have developed a work-in-progress SAR training and evaluation benchmark derived from the MSTAR Public Dataset. This has been extended to include descriptive text captions and question-answer pairs for VQA tasks. This challenge dataset is designed to push the boundaries of an LLVM in identifying nuanced ATR details in SAR imagery. Utilizing parameter-efficient fine-tuning, we train an LLVM method to identify fine-grained target qualities at 98% accuracy. We detail our data setup and experiments, addressing potential pitfalls that could lead to misleading conclusions. Accurately identifying and differentiating military vehicle types in SAR data poses a critical challenge, especially under complex environmental conditions. Mastering this target recognition skill may require a human analyst months of training and years of practice. This research represents a unique effort to apply LLVM to SAR applications, advancing machine-assisted remote sensing ATR for military and intelligence contexts.
- Abstract(参考訳): OpenAIのChatGPTやGPT-4のような大規模言語ビジョンモデル(LLVM)は、テキストや画像を分析する強力なツールとして有名になった。
これらのデータドメインのマージは、自動ターゲット認識(ATR)に大きく影響する重要なパラダイムシフトである。
近年の変圧器を用いたLLVM研究は地理空間認識タスクの大幅な改善を示している。
本研究は,合成開口レーダ(SAR)画像に着目し,リモートセンシング画像キャプションと視覚質問応答(VQA)へのLLVMの適用について検討した。
本稿では,CLIPやLLaVAニューラルネットワークトランスフォーマアーキテクチャを含むLLVM手法について検討する。
我々は、MSTAR Public Datasetから派生した作業中のSARトレーニングおよび評価ベンチマークを開発した。
これは、VQAタスクのための記述的なテキストキャプションと質問応答ペアを含むように拡張されている。
このチャレンジデータセットは、SARイメージ内のニュアンスのあるATRの詳細を特定するためにLLVMの境界を押し上げるように設計されている。
パラメータ効率のよい微調整を用いることで,98%の精度で微粒な目標品質を識別するLLVM法を訓練する。
データの設定と実験を詳述し、誤解を招く可能性のある落とし穴に対処します。
SARデータにおける軍用車両の正確な識別と識別は、特に複雑な環境条件下では重要な課題となる。
この目標認識スキルを習得するには、人間のアナリストが何ヶ月もトレーニングし、何年にもわたって実践する必要がある。
この研究は、LLVMをSARアプリケーションに適用するためのユニークな取り組みであり、軍事および諜報の文脈において、機械支援のリモートセンシングATRを前進させる。
関連論文リスト
- Reasoning-Aware AIGC Detection via Alignment and Reinforcement [55.09684020007737]
REVEALは、分類の前に解釈可能な推論チェーンを生成するフレームワークである。
複数のベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-04-21T07:29:55Z) - Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection [53.988759250627425]
HeROD(Heuristic-inspired ROD)は、明示的で解釈可能な空間的および意味的推論を注入する軽量でモデルに依存しないフレームワークである。
HeRODは、スカーセラベル体制において強い接地ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-25T10:33:22Z) - SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation [3.3274747298291203]
合成開口レーダ(SAR)の自動目標認識(ATR)のための視覚コンテキスト画像検索補助AIエージェント(ImageRAG)を提案する。
SARは、軍用車両の位置を検知し、監視するために防衛およびセキュリティアプリケーションで使用されるリモートセンシング手法である。
新しい手法は、ニューラルネットワーク、トランスフォーマーアテンション、マルチモーダルな大規模言語モデルの能力を高める。
論文 参考訳(メタデータ) (2026-02-04T16:23:16Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。
リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。
リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T08:02:54Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Benchmarking Deep Learning Classifiers for SAR Automatic Target
Recognition [7.858656052565242]
本稿では,複数のSARデータセットを用いたSAR ATRの先進的な深層学習モデルを総合的にベンチマークする。
推論スループットと解析性能の観点から,分類精度のランタイム性能に関する5つの分類器の評価と比較を行った。
SAR ATRの領域では、すべてのモデルルールが疑わしいのです。
論文 参考訳(メタデータ) (2023-12-12T02:20:39Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。