論文の概要: Zero-Shot Scene Understanding for Automatic Target Recognition Using Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.07396v1
- Date: Mon, 13 Jan 2025 15:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:04.931815
- Title: Zero-Shot Scene Understanding for Automatic Target Recognition Using Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルを用いたターゲット認識のためのゼロショットシーン理解
- Authors: Yasiru Ranasinghe, Vibashan VS, James Uplinger, Celso De Melo, Vishal M. Patel,
- Abstract要約: LVLM(Large Vision-Language Models)は、ゼロショット方式で様々な条件で物体を認識できる創発的特性を示す。
本稿では,LVLMの検出能力とLVLMの認識信頼性を組み合わせた新しいパイプラインを提案する。
本研究では,軍用車両の認識における各種LVLMの性能を比較する。
- 参考スコア(独自算出の注目度): 25.659420101274158
- License:
- Abstract: Automatic target recognition (ATR) plays a critical role in tasks such as navigation and surveillance, where safety and accuracy are paramount. In extreme use cases, such as military applications, these factors are often challenged due to the presence of unknown terrains, environmental conditions, and novel object categories. Current object detectors, including open-world detectors, lack the ability to confidently recognize novel objects or operate in unknown environments, as they have not been exposed to these new conditions. However, Large Vision-Language Models (LVLMs) exhibit emergent properties that enable them to recognize objects in varying conditions in a zero-shot manner. Despite this, LVLMs struggle to localize objects effectively within a scene. To address these limitations, we propose a novel pipeline that combines the detection capabilities of open-world detectors with the recognition confidence of LVLMs, creating a robust system for zero-shot ATR of novel classes and unknown domains. In this study, we compare the performance of various LVLMs for recognizing military vehicles, which are often underrepresented in training datasets. Additionally, we examine the impact of factors such as distance range, modality, and prompting methods on the recognition performance, providing insights into the development of more reliable ATR systems for novel conditions and classes.
- Abstract(参考訳): 自動目標認識(ATR)は、安全と精度が最重要であるナビゲーションや監視といったタスクにおいて重要な役割を果たす。
軍事的応用のような極端なユースケースでは、これらの要因は未知の地形、環境条件、新しい対象カテゴリーの存在によってしばしば問題となる。
オープンワールド検出器を含む現在の物体検出器は、これらの新しい条件に晒されていないため、新しい物体を確実に認識したり、未知の環境で操作する能力が欠如している。
しかし、LVLM(Large Vision-Language Models)は、ゼロショット方式で様々な条件で物体を認識できる創発的特性を示す。
それにもかかわらず、LVLMはシーン内でオブジェクトを効果的にローカライズするのに苦労する。
これらの制約に対処するために,LVLMの認識信頼度とオープンワールド検出器の検出能力を組み合わせた新しいパイプラインを提案し,新しいクラスと未知ドメインのゼロショットATRのためのロバストなシステムを構築した。
本研究では,軍用車両の認識における各種LVLMの性能を比較する。
さらに, 距離範囲, モーダリティ, モーダリティなどの要因が認識性能に与える影響について検討し, 新たな条件とクラスのための信頼性の高いATRシステムの開発について考察する。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - OSAD: Open-Set Aircraft Detection in SAR Images [1.1060425537315088]
オープンセット検出は、クローズドセットでトレーニングされた検出器によって、すべての既知のオブジェクトを検出し、オープンセット環境で未知のオブジェクトを識別することを目的としている。
これらの課題に対処するため、SAR画像のための新しいオープンセット航空機検出器、Open-Set Aircraft Detection (OSAD) が提案されている。
グローバルコンテキストモデリング(GCM)、位置品質駆動型擬似ラベル生成(LPG)、プロトタイプコントラスト学習(PCL)の3つの専用コンポーネントを備えている。
論文 参考訳(メタデータ) (2024-11-03T15:06:14Z) - Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。
既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。
本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文 参考訳(メタデータ) (2024-05-10T01:56:39Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook [19.539295469044813]
本研究は,現実シナリオ下での知覚システム評価において,精度と遅延とともに頑健性の重要性を強調した。
我々の研究は、カメラのみ、LiDARのみ、マルチモーダルな3Dオブジェクト検出アルゴリズムを広範囲に調査し、精度、レイテンシ、堅牢性の間のトレードオフを徹底的に評価する。
これらのうち、多モード3D検出手法は優れた堅牢性を示し、新しい分類法を導入し、文献を改良して明瞭性を高める。
論文 参考訳(メタデータ) (2024-01-12T12:35:45Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [68.93124785575739]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - Place recognition survey: An update on deep learning approaches [0.6352264764099531]
本稿では,場所認識における最近の手法,特に深層学習に基づく手法について検討する。
この研究の貢献は2つある: 位置認識に適用された3D LiDARやRADARといった最近のセンサーを調査する。
この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。
論文 参考訳(メタデータ) (2021-06-19T09:17:15Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。