論文の概要: AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval
- arxiv url: http://arxiv.org/abs/2601.01416v1
- Date: Sun, 04 Jan 2026 07:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.336138
- Title: AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval
- Title(参考訳): AirSpatialBot: 細粒化自動車属性認識と検索のための空間認識型エアエージェント
- Authors: Yue Zhou, Ran Ding, Xue Yang, Xue Jiang, Xingzhao Liu,
- Abstract要約: 空間認識型データセットAirSpatialを導入し,206K以上の命令を含む。
3DBBを提供する最初のリモートセンシンググラウンドデータセットである。
本研究では,航空機属性の微粒化認識と検索が可能な航空エージェントAirSpatialBotを開発した。
- 参考スコア(独自算出の注目度): 25.233263762328836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite notable advancements in remote sensing vision-language models (VLMs), existing models often struggle with spatial understanding, limiting their effectiveness in real-world applications. To push the boundaries of VLMs in remote sensing, we specifically address vehicle imagery captured by drones and introduce a spatially-aware dataset AirSpatial, which comprises over 206K instructions and introduces two novel tasks: Spatial Grounding and Spatial Question Answering. It is also the first remote sensing grounding dataset to provide 3DBB. To effectively leverage existing image understanding of VLMs to spatial domains, we adopt a two-stage training strategy comprising Image Understanding Pre-training and Spatial Understanding Fine-tuning. Utilizing this trained spatially-aware VLM, we develop an aerial agent, AirSpatialBot, which is capable of fine-grained vehicle attribute recognition and retrieval. By dynamically integrating task planning, image understanding, spatial understanding, and task execution capabilities, AirSpatialBot adapts to diverse query requirements. Experimental results validate the effectiveness of our approach, revealing the spatial limitations of existing VLMs while providing valuable insights. The model, code, and datasets will be released at https://github.com/VisionXLab/AirSpatialBot
- Abstract(参考訳): リモートセンシングビジョン言語モデル(VLM)の顕著な進歩にもかかわらず、既存のモデルは空間的理解に苦しむことが多く、現実の応用においてはその有効性を制限している。
遠隔センシングにおけるVLMの境界を推し進めるために、ドローンが捉えた車両画像に特に対応し、空間的に認識可能なデータセットAirSpatialを導入し、206K以上の命令と空間的グラウンドイングと空間的質問応答という2つの新しいタスクを導入する。
また、3DBBを提供する最初のリモートセンシンググラウンドデータセットでもある。
VLMの既存の画像理解を空間領域に効果的に活用するために、画像理解事前学習と空間理解微調整からなる2段階の訓練戦略を採用する。
この訓練された空間認識型VLMを用いて,微細な車両属性認識と検索が可能な航空エージェントAirSpatialBotを開発した。
タスク計画、イメージ理解、空間理解、タスク実行機能を動的に統合することにより、AirSpatialBotは多様なクエリ要求に適応する。
実験の結果,提案手法の有効性を検証し,既存のVLMの空間的限界を明らかにするとともに,貴重な洞察を提供することができた。
モデル、コード、データセットはhttps://github.com/VisionXLab/AirSpatialBotでリリースされる。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - SpatialBot: Precise Spatial Understanding with Vision Language Models [12.67089704185187]
視覚言語モデル (VLM) は2次元画像理解において優れた性能を発揮している。
彼らはまだ、Embodied AIの基盤である空間的理解に苦戦している。
本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。
論文 参考訳(メタデータ) (2024-06-19T15:41:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。