論文の概要: LLM-VLM Fusion Framework for Autonomous Maritime Port Inspection using a Heterogeneous UAV-USV System
- arxiv url: http://arxiv.org/abs/2601.13096v1
- Date: Mon, 19 Jan 2026 14:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.926172
- Title: LLM-VLM Fusion Framework for Autonomous Maritime Port Inspection using a Heterogeneous UAV-USV System
- Title(参考訳): 不均一UAV-USVシステムを用いた自動海港検査のためのLLM-VLM核融合フレームワーク
- Authors: Muhayy Ud Din, Waseem Akram, Ahsan B. Bakht, Irfan Hussain,
- Abstract要約: 本研究は,自律的な海上港検査を可能にする新しい統合工学フレームワークを提案する。
提案手法は,従来のミッションプランナをLCM駆動のシンボリックプランニングに置き換えるものである。
VLMモジュールはリアルタイムなセマンティックインスペクションとコンプライアンスアセスメントを実行し、コンテキスト推論による構造化レポートを生成する。
- 参考スコア(独自算出の注目度): 1.9965927292119217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maritime port inspection plays a critical role in ensuring safety, regulatory compliance, and operational efficiency in complex maritime environments. However, existing inspection methods often rely on manual operations and conventional computer vision techniques that lack scalability and contextual understanding. This study introduces a novel integrated engineering framework that utilizes the synergy between Large Language Models (LLMs) and Vision Language Models (VLMs) to enable autonomous maritime port inspection using cooperative aerial and surface robotic platforms. The proposed framework replaces traditional state-machine mission planners with LLM-driven symbolic planning and improved perception pipelines through VLM-based semantic inspection, enabling context-aware and adaptive monitoring. The LLM module translates natural language mission instructions into executable symbolic plans with dependency graphs that encode operational constraints and ensure safe UAV-USV coordination. Meanwhile, the VLM module performs real-time semantic inspection and compliance assessment, generating structured reports with contextual reasoning. The framework was validated using the extended MBZIRC Maritime Simulator with realistic port infrastructure and further assessed through real-world robotic inspection trials. The lightweight on-board design ensures suitability for resource-constrained maritime platforms, advancing the development of intelligent, autonomous inspection systems. Project resources (code and videos) can be found here: https://github.com/Muhayyuddin/llm-vlm-fusion-port-inspection
- Abstract(参考訳): 海上港の検査は、複雑な海上環境における安全、規制の遵守、および運用効率を確保する上で重要な役割を担っている。
しかし、既存の検査手法は、拡張性や文脈理解に欠ける手動操作や従来のコンピュータビジョン技術に依存していることが多い。
本研究では,Large Language Models (LLMs) とVision Language Models (VLMs) の相乗効果を利用して,協調型空中・表面型ロボットプラットフォームを用いた自動海港検査を可能にする,新たな統合工学フレームワークを提案する。
提案するフレームワークは,従来のステートマシンのミッションプランナをLLM駆動のシンボリックプランニングに置き換え,VLMベースのセマンティックインスペクションを通じて知覚パイプラインを改善し,コンテキスト認識と適応監視を可能にする。
LLMモジュールは、自然言語のミッション命令を、運用上の制約を符号化し、安全なUAV-USV協調を保証する依存グラフで実行可能なシンボルプランに変換する。
一方、VLMモジュールはリアルタイムなセマンティックインスペクションとコンプライアンスアセスメントを実行し、コンテキスト推論による構造化レポートを生成する。
このフレームワークは、現実的な港湾インフラを備えた拡張MBZIRC Maritime Simulatorを用いて検証され、実際のロボット検査試験によってさらに評価された。
軽量なオンボード設計により、資源に制約のある海上プラットフォームへの適合性が保証され、インテリジェントで自律的な検査システムの開発が進められる。
プロジェクトリソース(コードとビデオ)については、https://github.com/Muhayyuddin/llm-vlm-fusion-port-inspectionを参照してください。
関連論文リスト
- VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents [12.383467162169703]
ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
論文 参考訳(メタデータ) (2025-12-31T13:21:21Z) - Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Semantic-Aware Ship Detection with Vision-Language Integration [9.49989812166076]
リモートセンシング画像における船舶検出は、海洋活動監視、船舶のロジスティクス、環境研究など幅広い用途において重要な課題である。
本稿では,視覚言語モデル(VLM)とマルチスケール適応型スライディングウィンドウ戦略を組み合わせた新しい検出フレームワークを提案する。
我々は3つの明確に定義されたタスクを通じてフレームワークを評価し、その性能を包括的に分析し、複数の視点からSASDを前進させる効果を実証する。
論文 参考訳(メタデータ) (2025-08-21T19:24:52Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - Maritime Mission Planning for Unmanned Surface Vessel using Large Language Model [0.932065750652415]
本稿では,Large Language Models (LLM) を用いた新しいミッションプランニングフレームワークを提案する。
LLMは、自然言語のコマンドを理解し、シンボリック推論を実行し、状況の変化に合わせて柔軟に調整する能力に長けている。
提案手法では,LLMを海洋計画に統合し,高レベルの人的指示と実行可能な計画とのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-15T09:41:55Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Integrating Large Language Models for UAV Control in Simulated Environments: A Modular Interaction Approach [0.3495246564946556]
本研究では,UAV制御における大規模言語モデルの適用について検討する。
UAVが自然言語コマンドを解釈し、応答できるようにすることで、LLMはUAVの制御と使用を簡素化する。
本稿では,自律的な意思決定,動的なミッション計画,状況認識の向上,安全プロトコルの改善など,LCMがUAV技術に影響を与えるいくつかの重要な領域について論じる。
論文 参考訳(メタデータ) (2024-10-23T06:56:53Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。