論文の概要: Edge-Optimized Multimodal Learning for UAV Video Understanding via BLIP-2
- arxiv url: http://arxiv.org/abs/2601.08408v1
- Date: Tue, 13 Jan 2026 10:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.150722
- Title: Edge-Optimized Multimodal Learning for UAV Video Understanding via BLIP-2
- Title(参考訳): BLIP-2によるUAV映像理解のためのエッジ最適化マルチモーダル学習
- Authors: Yizhan Feng, Hichem Snoussi, Jing Teng, Jian Liu, Yuyang Wang, Abel Cherouat, Tian Wang,
- Abstract要約: 本稿ではBLIP-2に基づく軽量マルチモーダルタスクプラットフォームを提案する。
YOLO-WorldとYOLOv8-Segと統合されている。
- 参考スコア(独自算出の注目度): 11.107586820291791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for real-time visual understanding and interaction in complex scenarios is increasingly critical for unmanned aerial vehicles. However, a significant challenge arises from the contradiction between the high computational cost of large Vision language models and the limited computing resources available on UAV edge devices. To address this challenge, this paper proposes a lightweight multimodal task platform based on BLIP-2, integrated with YOLO-World and YOLOv8-Seg models. This integration extends the multi-task capabilities of BLIP-2 for UAV applications with minimal adaptation and without requiring task-specific fine-tuning on drone data. Firstly, the deep integration of BLIP-2 with YOLO models enables it to leverage the precise perceptual results of YOLO for fundamental tasks like object detection and instance segmentation, thereby facilitating deeper visual-attention understanding and reasoning. Secondly, a content-aware key frame sampling mechanism based on K-Means clustering is designed, which incorporates intelligent frame selection and temporal feature concatenation. This equips the lightweight BLIP-2 architecture with the capability to handle video-level interactive tasks effectively. Thirdly, a unified prompt optimization scheme for multi-task adaptation is implemented. This scheme strategically injects structured event logs from the YOLO models as contextual information into BLIP-2's input. Combined with output constraints designed to filter out technical details, this approach effectively guides the model to generate accurate and contextually relevant outputs for various tasks.
- Abstract(参考訳): 複雑なシナリオにおけるリアルタイムの視覚的理解と相互作用の要求は、無人航空機にとってますます重要になっている。
しかし、大きなビジョン言語モデルの高い計算コストとUAVエッジデバイスで利用可能な限られた計算資源との矛盾から大きな課題が生じる。
そこで本研究では,YOLO-WorldとYOLOv8-Segモデルを統合した,BLIP-2に基づく軽量マルチモーダルタスクプラットフォームを提案する。
この統合は、ドローンデータのタスク固有の微調整を必要とせず、最小限の適応でUAVアプリケーションのためのBLIP-2のマルチタスク機能を拡張する。
まず、BLIP-2とYOLOモデルとの深い統合により、オブジェクト検出やインスタンスセグメンテーションといった基本的なタスクにおいて、YOLOの正確な知覚結果を活用することができ、視覚的意図の理解と推論がより容易になる。
第二に、K-Meansクラスタリングに基づくキーフレームサンプリング機構を設計し、インテリジェントなフレーム選択と時間的特徴結合を組み込んだ。
これにより、軽量のBLIP-2アーキテクチャにビデオレベルの対話的タスクを効果的に処理する能力が備わっている。
第3に、マルチタスク適応のための統一的なプロンプト最適化スキームを実装した。
このスキームは、BLIP-2の入力にコンテキスト情報として、YOLOモデルから構造化イベントログを戦略的に注入する。
技術的詳細をフィルタリングするために設計された出力制約と組み合わせて、このアプローチは、様々なタスクに対して正確で文脈的に関連する出力を生成するために、モデルを効果的にガイドする。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文 参考訳(メタデータ) (2025-06-29T14:19:18Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。
コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文 参考訳(メタデータ) (2025-03-27T06:08:24Z) - General-Purpose Aerial Intelligent Agents Empowered by Large Language Models [9.603293922137965]
本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
論文 参考訳(メタデータ) (2025-03-11T11:13:58Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。