論文の概要: SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation
- arxiv url: http://arxiv.org/abs/2602.04712v1
- Date: Wed, 04 Feb 2026 16:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.616606
- Title: SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation
- Title(参考訳): SAR-RAG:意味探索,検索,MLLM生成によるARR視覚質問応答
- Authors: David F. Ramirez, Tim Overman, Kristen Jaskie, Joe Marvin, Andreas Spanias,
- Abstract要約: 合成開口レーダ(SAR)の自動目標認識(ATR)のための視覚コンテキスト画像検索補助AIエージェント(ImageRAG)を提案する。
SARは、軍用車両の位置を検知し、監視するために防衛およびセキュリティアプリケーションで使用されるリモートセンシング手法である。
新しい手法は、ニューラルネットワーク、トランスフォーマーアテンション、マルチモーダルな大規模言語モデルの能力を高める。
- 参考スコア(独自算出の注目度): 3.3274747298291203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a visual-context image retrieval-augmented generation (ImageRAG) assisted AI agent for automatic target recognition (ATR) of synthetic aperture radar (SAR). SAR is a remote sensing method used in defense and security applications to detect and monitor the positions of military vehicles, which may appear indistinguishable in images. Researchers have extensively studied SAR ATR to improve the differentiation and identification of vehicle types, characteristics, and measurements. Test examples can be compared with known vehicle target types to improve recognition tasks. New methods enhance the capabilities of neural networks, transformer attention, and multimodal large language models. An agentic AI method may be developed to utilize a defined set of tools, such as searching through a library of similar examples. Our proposed method, SAR Retrieval-Augmented Generation (SAR-RAG), combines a multimodal large language model (MLLM) with a vector database of semantic embeddings to support contextual search for image exemplars with known qualities. By recovering past image examples with known true target types, our SAR-RAG system can compare similar vehicle categories, achieving improved ATR prediction accuracy. We evaluate this through search and retrieval metrics, categorical classification accuracy, and numeric regression of vehicle dimensions. These metrics all show improvements when SAR-RAG is added to an MLLM baseline method as an attached ATR memory bank.
- Abstract(参考訳): 本稿では、合成開口レーダ(SAR)の自動目標認識(ATR)のための視覚コンテキスト画像検索補助AIエージェント(ImageRAG)を提案する。
SARは、軍用車両の位置を検知し、監視するために、防衛およびセキュリティアプリケーションで使用されるリモートセンシング手法である。
研究者はSAR ATRを広範囲に研究し、車両の種類、特徴、測定の区別と識別を改善した。
テスト例は、認識タスクを改善するために既知の車両ターゲットタイプと比較することができる。
新しい手法は、ニューラルネットワーク、トランスフォーマーアテンション、マルチモーダルな大規模言語モデルの能力を高める。
エージェントAIメソッドは、同様の例のライブラリを検索するなど、定義されたツールセットを利用するように開発することができる。
提案手法であるSAR-RAG(Retrieval-Augmented Generation)は,マルチモーダルな大言語モデル(MLLM)とセマンティックな埋め込みのベクトルデータベースを組み合わせることで,特徴のある画像のコンテクスト検索を支援する。
我々のSAR-RAGシステムは、過去の画像例を真のターゲットタイプで復元することにより、類似の車両カテゴリを比較でき、ATR予測精度が向上する。
我々はこれを,探索・検索指標,カテゴリー分類精度,車両寸法の数値回帰によって評価する。
これらの指標はすべて、ATRメモリバンクとしてMLLMのベースラインメソッドにSAR-RAGを付加した場合の改善を示す。
関連論文リスト
- Persistent feature reconstruction of resident space objects (RSOs) within inverse synthetic aperture radar (ISAR) images [0.0]
本研究は、逐次的特徴検出と追跡による外部構造認識に焦点を当てている。
ISAR画像は、様々な展開シナリオの遭遇をモデル化できるメタヒューリスティックシミュレータによって生成される。
提案手法によるシーケンス内の特徴追跡の利用により,特徴検出と分類の信頼性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-12-17T17:24:50Z) - Few-Shot Radar Signal Recognition through Self-Supervised Learning and Radio Frequency Domain Adaptation [48.265859815346985]
レーダー信号認識は電子戦(EW)において重要な役割を果たす
近年のディープラーニングの進歩は、レーダー信号認識の改善に大きな可能性を示している。
これらの手法は、注釈付き無線周波数(RF)データが少ない、あるいは入手できないEWシナリオでは不十分である。
論文 参考訳(メタデータ) (2025-01-07T01:35:56Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - SAFE: a SAR Feature Extractor based on self-supervised learning and masked Siamese ViTs [5.961207817077044]
マスク付きシームズ・ビジョン・トランスフォーマーをベースとした新しい自己教師型学習フレームワークを提案し,SAFEと命名された汎用SAR機能エクストラクタを提案する。
提案手法は,厳密で一般化可能な特徴を抽出し,ラベルのないSARデータに基づいてモデルを訓練するために,対照的な学習原理を利用する。
サブアパーチャ分解や非特異化など,SAR画像特有のデータ拡張技術を導入する。
我々のネットワークは、評価に使用されるセンサーの訓練を受けなくても、数ショットの分類やセグメンテーションタスクにおいて、他の最先端の手法と競合したり、超えたりしています。
論文 参考訳(メタデータ) (2024-06-30T23:11:20Z) - Towards SAR Automatic Target Recognition MultiCategory SAR Image Classification Based on Light Weight Vision Transformer [11.983317593939688]
本稿では,SAR画像の分類に軽量な視覚変換器モデルを適用しようとする。
構造全体がオープンアクセスされたSARデータセットによって検証された。
論文 参考訳(メタデータ) (2024-05-18T11:24:52Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Benchmarking Deep Learning Classifiers for SAR Automatic Target
Recognition [7.858656052565242]
本稿では,複数のSARデータセットを用いたSAR ATRの先進的な深層学習モデルを総合的にベンチマークする。
推論スループットと解析性能の観点から,分類精度のランタイム性能に関する5つの分類器の評価と比較を行った。
SAR ATRの領域では、すべてのモデルルールが疑わしいのです。
論文 参考訳(メタデータ) (2023-12-12T02:20:39Z) - Autoregressive Model for Multi-Pass SAR Change Detection Based on Image
Stacks [0.0]
変化検出は重要な合成開口レーダ(SAR)アプリケーションであり、通常、異なるタイミングで地上環境の変化を検出するために使用される。
本研究では,画像スタック情報を時系列データとして扱うことができ,自己回帰モデルを用いてモデル化することができる。
画像スタック内の各画素位置に対するARモデルの適用により、基準画像として使用できる地上シーンの推定画像を得た。
論文 参考訳(メタデータ) (2022-06-05T21:46:11Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。