論文の概要: Semantic-Aware Ship Detection with Vision-Language Integration
- arxiv url: http://arxiv.org/abs/2508.15930v1
- Date: Thu, 21 Aug 2025 19:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.173327
- Title: Semantic-Aware Ship Detection with Vision-Language Integration
- Title(参考訳): 視覚・言語統合によるセマンティック・アウェア・シップ検出
- Authors: Jiahao Li, Jiancheng Pan, Yuze Sun, Xiaomeng Huang,
- Abstract要約: リモートセンシング画像における船舶検出は、海洋活動監視、船舶のロジスティクス、環境研究など幅広い用途において重要な課題である。
本稿では,視覚言語モデル(VLM)とマルチスケール適応型スライディングウィンドウ戦略を組み合わせた新しい検出フレームワークを提案する。
我々は3つの明確に定義されたタスクを通じてフレームワークを評価し、その性能を包括的に分析し、複数の視点からSASDを前進させる効果を実証する。
- 参考スコア(独自算出の注目度): 9.49989812166076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ship detection in remote sensing imagery is a critical task with wide-ranging applications, such as maritime activity monitoring, shipping logistics, and environmental studies. However, existing methods often struggle to capture fine-grained semantic information, limiting their effectiveness in complex scenarios. To address these challenges, we propose a novel detection framework that combines Vision-Language Models (VLMs) with a multi-scale adaptive sliding window strategy. To facilitate Semantic-Aware Ship Detection (SASD), we introduce ShipSem-VL, a specialized Vision-Language dataset designed to capture fine-grained ship attributes. We evaluate our framework through three well-defined tasks, providing a comprehensive analysis of its performance and demonstrating its effectiveness in advancing SASD from multiple perspectives.
- Abstract(参考訳): リモートセンシング画像における船舶検出は、海洋活動監視、船舶のロジスティクス、環境研究など幅広い用途において重要な課題である。
しかし、既存の手法は、複雑なシナリオにおけるそれらの有効性を制限して、細かな意味情報を捉えるのに苦労することが多い。
これらの課題に対処するために,視覚言語モデル(VLM)とマルチスケール適応型スライディングウィンドウ戦略を組み合わせた新しい検出フレームワークを提案する。
セマンティック・アウェア・シップ検出(SASD)を容易にするために,船の微粒な特性を捉えるために設計されたビジョン・ランゲージ・データセットであるShipSem-VLを導入する。
我々は3つの明確に定義されたタスクを通じてフレームワークを評価し、その性能を包括的に分析し、複数の視点からSASDを前進させる効果を実証する。
関連論文リスト
- AIS-LLM: A Unified Framework for Maritime Trajectory Prediction, Anomaly Detection, and Collision Risk Assessment with Explainable Forecasting [7.615963953174766]
時系列AISデータと大言語モデル(LLM)を統合する新しいフレームワークであるAIS-LLMを提案する。
このアーキテクチャは、軌道予測、異常検出、単一エンドツーエンドシステム内の容器衝突のリスク評価という、3つの重要なタスクを同時に実行可能にする。
AIS-LLMは,タスクアウトプットを総合的に分析して状況要約やブリーフィングを生成することにより,よりインテリジェントで効率的な海上交通管理の可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T06:39:45Z) - Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.06363342414397]
タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:06:18Z) - Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments [0.8796261172196743]
視覚に基づく目標追跡は無人表面車両にとって不可欠である。
海上環境におけるリアルタイムトラッキングは、動的なカメラの動き、視界の低さ、スケールの変動によって困難である。
本研究では,USVのための視覚誘導型物体追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T10:35:17Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Vision-Based Autonomous Navigation for Unmanned Surface Vessel in
Extreme Marine Conditions [2.8983738640808645]
本稿では,極端海洋環境下での目標物追跡のための自律的視覚に基づくナビゲーション・フレームワークを提案する。
提案手法は砂嵐や霧による可視性低下下でのシミュレーションで徹底的に検証されている。
結果は、ベンチマークしたMBZIRCシミュレーションデータセット全体にわたる最先端のデハージング手法と比較される。
論文 参考訳(メタデータ) (2023-08-08T14:25:13Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。