論文の概要: Towards Governance-Oriented Low-Altitude Intelligence: A Management-Centric Multi-Modal Benchmark With Implicitly Coordinated Vision-Language Reasoning Framework
- arxiv url: http://arxiv.org/abs/2601.19640v1
- Date: Tue, 27 Jan 2026 14:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.345898
- Title: Towards Governance-Oriented Low-Altitude Intelligence: A Management-Centric Multi-Modal Benchmark With Implicitly Coordinated Vision-Language Reasoning Framework
- Title(参考訳): ガバナンス指向の低高度インテリジェンスを目指して - 暗黙の協調型ビジョンランゲージ推論フレームワークによるマネジメント中心のマルチモーダルベンチマーク
- Authors: Hao Chang, Zhihui Wang, Lingxiang Wu, Peijin Wang, Wenhui Diao, Jinqiao Wang,
- Abstract要約: GovLA-10Kは、低高度インテリジェンスのための管理指向のマルチモーダルベンチマークである。
GovLA-Reasonerは、ガバナンスを意識した空中認識に適した視覚言語推論フレームワークである。
- 参考スコア(独自算出の注目度): 34.329124613235045
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-altitude vision systems are becoming a critical infrastructure for smart city governance. However, existing object-centric perception paradigms and loosely coupled vision-language pipelines are still difficult to support management-oriented anomaly understanding required in real-world urban governance. To bridge this gap, we introduce GovLA-10K, the first management-oriented multi-modal benchmark for low-altitude intelligence, along with GovLA-Reasoner, a unified vision-language reasoning framework tailored for governance-aware aerial perception. Unlike existing studies that aim to exhaustively annotate all visible objects, GovLA-10K is deliberately designed around functionally salient targets that directly correspond to practical management needs, and further provides actionable management suggestions grounded in these observations. To effectively coordinate the fine-grained visual grounding with high-level contextual language reasoning, GovLA-Reasoner introduces an efficient feature adapter that implicitly coordinates discriminative representation sharing between the visual detector and the large language model (LLM). Extensive experiments show that our method significantly improves performance while avoiding the need of fine-tuning for any task-specific individual components. We believe our work offers a new perspective and foundation for future studies on management-aware low-altitude vision-language systems.
- Abstract(参考訳): 低高度ビジョンシステムは、スマートシティガバナンスにとって重要な基盤になりつつある。
しかし、既存のオブジェクト中心の認識パラダイムと疎結合のビジョン言語パイプラインは、現実の都市ガバナンスに必要な管理指向の異常理解をサポートすることは依然として困難である。
このギャップを埋めるために、ガバナンス対応の空中認識に適した統合視覚言語推論フレームワークであるGovLA-Reasonerとともに、低高度インテリジェンスのための最初の管理指向マルチモーダルベンチマークであるGovLA-10Kを紹介します。
全ての可視物体に完全に注釈を付けることを目的としている既存の研究とは異なり、GovLA-10Kは故意に、実用的な管理ニーズと直接対応して機能的に健全なターゲットを設計し、さらにこれらの観察に根ざした実用的な管理提案を提供する。
GovLA-Reasonerは,視覚検出器と大言語モデル(LLM)間の識別的表現共有を暗黙的にコーディネートする効率的な特徴アダプタを提案する。
大規模実験により,タスク固有の個別コンポーネントの微調整を回避しつつ,性能を著しく向上することが示された。
我々は,経営に配慮した低高度ビジョン言語システム研究の新たな視点と基盤を提供すると信じている。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Unleashing the Capabilities of Large Vision-Language Models for Intelligent Perception of Roadside Infrastructure [12.667510244197047]
汎用モデルは、しばしば必要なきめ細かい属性やドメイン・ルールを捉えるのに苦労する。
本稿では,Large Vision Language Modelsをインテリジェントインフラストラクチャ分析のための特殊なエージェントに変換するドメイン適応フレームワークを提案する。
本フレームワークは58.9mAPの検知性能と95.5%の属性認識精度を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:16:34Z) - Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。