論文の概要: Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge
- arxiv url: http://arxiv.org/abs/2602.13324v1
- Date: Tue, 10 Feb 2026 23:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.917286
- Title: Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge
- Title(参考訳): Kill Chainの合成:エッジ上のターゲット検証と戦術推論のためのゼロショットフレームワーク
- Authors: Jesse Barkley, Abraham George, Amir Barati Farimani,
- Abstract要約: 本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
- 参考スコア(独自算出の注目度): 12.201060368447251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying autonomous edge robotics in dynamic military environments is constrained by both scarce domain-specific training data and the computational limits of edge hardware. This paper introduces a hierarchical, zero-shot framework that cascades lightweight object detection with compact Vision-Language Models (VLMs) from the Qwen and Gemma families (4B-12B parameters). Grounding DINO serves as a high-recall, text-promptable region proposer, and frames with high detection confidence are passed to edge-class VLMs for semantic verification. We evaluate this pipeline on 55 high-fidelity synthetic videos from Battlefield 6 across three tasks: false-positive filtering (up to 100% accuracy), damage assessment (up to 97.5%), and fine-grained vehicle classification (55-90%). We further extend the pipeline into an agentic Scout-Commander workflow, achieving 100% correct asset deployment and a 9.8/10 reasoning score (graded by GPT-4o) with sub-75-second latency. A novel "Controlled Input" methodology decouples perception from reasoning, revealing distinct failure phenotypes: Gemma3-12B excels at tactical logic but fails in visual perception, while Gemma3-4B exhibits reasoning collapse even with accurate inputs. These findings validate hierarchical zero-shot architectures for edge autonomy and provide a diagnostic framework for certifying VLM suitability in safety-critical applications.
- Abstract(参考訳): 動的軍事環境における自律的なエッジロボティクスの展開は、ドメイン固有の訓練データ不足とエッジハードウェアの計算限界の両方によって制約される。
本稿では,QwenファミリーとGemmaファミリー(4B-12Bパラメータ)から,コンパクトなビジョンランゲージモデル(VLM)を用いて軽量物体検出を行う階層型ゼロショットフレームワークを提案する。
グラウンドディングDINOは、ハイリコールでテキストプロンプタブルな領域プロポーサとして機能し、高い検出信頼性を持つフレームは、セマンティック検証のためにエッジクラスVLMに渡される。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55の高忠実合成ビデオで評価した。
さらに、パイプラインをエージェントScout-Commanderワークフローに拡張し、100%正確なアセットデプロイメントと9.8/10推論スコア(GPT-4oでグレード)を75秒以下のレイテンシで達成します。
Gemma3-12Bは戦術論理において優れているが視覚知覚では失敗するが、Gemma3-4Bは正確な入力でも推論崩壊を示す。
これらの結果は、エッジ自律性のための階層型ゼロショットアーキテクチャを検証し、安全クリティカルなアプリケーションにおけるVLM適合性を証明するための診断フレームワークを提供する。
関連論文リスト
- Cloud-OpsBench: A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems [51.2882705779387]
Cloud-OpsBenchは、State Snapshot Paradigmを使用して、クラウドの決定論的デジタルツインを構築する大規模なベンチマークである。
フルスタックにまたがる40の根本原因タイプに452の障害ケースがある。
論文 参考訳(メタデータ) (2026-02-28T05:04:42Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Rule-Based Spatial Mixture-of-Experts U-Net for Explainable Edge Detection [0.0]
ルールベースの空間混合U-Netは、高性能深層学習と解釈可能な論理のギャップを埋める。
提案手法をBSDS500ベンチマークで評価し, 最適データセットスケール(ODS)Fスコア0.7628を達成した。
我々のモデルは、"Rule Firing Maps"と"Strategy Maps"を通じてピクセルレベルの説明可能性を提供する。
論文 参考訳(メタデータ) (2026-02-04T22:33:18Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Quantization Blindspots: How Model Compression Breaks Backdoor Defenses [1.8646269335840449]
標準量子化パイプライン下でのバックドアディフェンスの動作について検討する。
INT8量子化は,攻撃成功率を99%以上に抑えながら,すべての評価された防御の検知率を0%に低下させることがわかった。
我々の結果は、防衛が一般的に評価される方法と、モデルが実際にどのようにデプロイされるかのミスマッチを明らかにします。
論文 参考訳(メタデータ) (2025-12-06T02:04:32Z) - SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection [6.806105013817923]
SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
論文 参考訳(メタデータ) (2025-10-20T19:14:29Z) - Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - Large Language Model-Based Framework for Explainable Cyberattack Detection in Automatic Generation Control Systems [5.99333254967625]
本稿では,機械学習(ML)と自然言語説明(LLM)を統合し,サイバー攻撃を検出するハイブリッドフレームワークを提案する。
提案するフレームワークは,解釈可能な高忠実な説明によるリアルタイム検出を効果的に実現し,スマートグリッドサイバーセキュリティにおける実行可能なAIの重要要件に対処する。
論文 参考訳(メタデータ) (2025-07-29T21:23:08Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。