Fugu-MT 論文翻訳(概要): Zero-Shot Scene Understanding for Automatic Target Recognition Using Large Vision-Language Models

論文の概要: Zero-Shot Scene Understanding for Automatic Target Recognition Using Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2501.07396v1
Date: Mon, 13 Jan 2025 15:11:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:14.173012
Title: Zero-Shot Scene Understanding for Automatic Target Recognition Using Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルを用いたターゲット認識のためのゼロショットシーン理解
Authors: Yasiru Ranasinghe, Vibashan VS, James Uplinger, Celso De Melo, Vishal M. Patel,
Abstract要約: LVLM(Large Vision-Language Models)は、ゼロショット方式で様々な条件で物体を認識できる創発的特性を示す。本稿では,LVLMの検出能力とLVLMの認識信頼性を組み合わせた新しいパイプラインを提案する。本研究では,軍用車両の認識における各種LVLMの性能を比較する。
参考スコア（独自算出の注目度）: 25.659420101274158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic target recognition (ATR) plays a critical role in tasks such as navigation and surveillance, where safety and accuracy are paramount. In extreme use cases, such as military applications, these factors are often challenged due to the presence of unknown terrains, environmental conditions, and novel object categories. Current object detectors, including open-world detectors, lack the ability to confidently recognize novel objects or operate in unknown environments, as they have not been exposed to these new conditions. However, Large Vision-Language Models (LVLMs) exhibit emergent properties that enable them to recognize objects in varying conditions in a zero-shot manner. Despite this, LVLMs struggle to localize objects effectively within a scene. To address these limitations, we propose a novel pipeline that combines the detection capabilities of open-world detectors with the recognition confidence of LVLMs, creating a robust system for zero-shot ATR of novel classes and unknown domains. In this study, we compare the performance of various LVLMs for recognizing military vehicles, which are often underrepresented in training datasets. Additionally, we examine the impact of factors such as distance range, modality, and prompting methods on the recognition performance, providing insights into the development of more reliable ATR systems for novel conditions and classes.
Abstract（参考訳）: 自動目標認識(ATR)は、安全と精度が最重要であるナビゲーションや監視といったタスクにおいて重要な役割を果たす。軍事的応用のような極端なユースケースでは、これらの要因は未知の地形、環境条件、新しい対象カテゴリーの存在によってしばしば問題となる。オープンワールド検出器を含む現在の物体検出器は、これらの新しい条件に晒されていないため、新しい物体を確実に認識したり、未知の環境で操作する能力が欠如している。しかし、LVLM(Large Vision-Language Models)は、ゼロショット方式で様々な条件で物体を認識できる創発的特性を示す。それにもかかわらず、LVLMはシーン内でオブジェクトを効果的にローカライズするのに苦労する。これらの制約に対処するために,LVLMの認識信頼度とオープンワールド検出器の検出能力を組み合わせた新しいパイプラインを提案し,新しいクラスと未知ドメインのゼロショットATRのためのロバストなシステムを構築した。本研究では,軍用車両の認識における各種LVLMの性能を比較する。さらに, 距離範囲, モーダリティ, モーダリティなどの要因が認識性能に与える影響について検討し, 新たな条件とクラスのための信頼性の高いATRシステムの開発について考察する。

関連論文リスト

Cognitive Guardrails for Open-World Decision Making in Autonomous Drone Swarms [31.87394696063202]
スモール・アンクルード・エアリアル・システムズ(SUAS)は、捜索救助任務において自律的な群れとしてますます配備されている。本稿では, サーチ・レスキューミッションにおける sUAS Swarm のための認知ガードレールの設計, シミュレーション, 実世界の統合について述べる。
論文参考訳（メタデータ） (2025-05-29T15:47:49Z)
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文参考訳（メタデータ） (2025-05-27T17:29:31Z)
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文参考訳（メタデータ） (2025-05-09T20:28:17Z)
From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
論文参考訳（メタデータ） (2025-02-09T10:30:54Z)
Large Models in Dialogue for Active Perception and Anomaly Detection [35.16837804526144]
本稿では,新たなシーンにおける情報収集と異常検出を行うフレームワークを提案する。 2つのディープラーニングモデルが対話を行い、ドローンを積極的に制御し、認識と異常検出の精度を高める。情報収集に加えて,本手法を異常検出に利用し,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-01-27T18:38:36Z)
Generalization-Enhanced Few-Shot Object Detection in Remote Sensing [22.411751110592842]
Few-shot Object Detection (FSOD) は、データ制限条件下でのオブジェクト検出の課題をターゲットにしている。リモートセンシングタスクにおける一般化機能を改善するために,GE-FSODモデルを提案する。我々のモデルでは、CFPAN(Cross-Level Fusion Pyramid Attention Network)、MRRPN(Multi-Stage Refinement Region Proposal Network)、GCL(Generalized Classification Loss)の3つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-01-05T08:12:25Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
OSAD: Open-Set Aircraft Detection in SAR Images [1.1060425537315088]
オープンセット検出は、クローズドセットでトレーニングされた検出器によって、すべての既知のオブジェクトを検出し、オープンセット環境で未知のオブジェクトを識別することを目的としている。これらの課題に対処するため、SAR画像のための新しいオープンセット航空機検出器、Open-Set Aircraft Detection (OSAD) が提案されている。グローバルコンテキストモデリング(GCM)、位置品質駆動型擬似ラベル生成(LPG)、プロトタイプコントラスト学習(PCL)の3つの専用コンポーネントを備えている。
論文参考訳（メタデータ） (2024-11-03T15:06:14Z)
Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文参考訳（メタデータ） (2024-09-24T13:13:34Z)
Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文参考訳（メタデータ） (2024-05-10T01:56:39Z)
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文参考訳（メタデータ） (2024-03-09T21:07:16Z)
Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文参考訳（メタデータ） (2024-03-07T08:25:27Z)
SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector [8.956773268679811]
我々は、オープンワールドの知識を言語に依存しない検出器に蒸留することでOWODタスクのためのVLMモデルを特化する。我々は,単純なtextbfknowledge蒸留法とOWODの自動擬似ラベル機構を組み合わせることで,未知の物体検出に優れた性能が得られることを観察した。オープン世界の未知の物体を検知するオープンワールド検出器の能力を評価するための2つのベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-14T04:47:20Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文参考訳（メタデータ） (2023-09-15T06:55:43Z)
Place recognition survey: An update on deep learning approaches [0.6352264764099531]
本稿では,場所認識における最近の手法,特に深層学習に基づく手法について検討する。この研究の貢献は2つある: 位置認識に適用された3D LiDARやRADARといった最近のセンサーを調査する。この調査は、さまざまなDLベースの作業について検討し、各フレームワークの要約を提示します。
論文参考訳（メタデータ） (2021-06-19T09:17:15Z)
Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文参考訳（メタデータ） (2021-04-22T12:47:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。