論文の概要: Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.19288v1
- Date: Tue, 24 Jun 2025 03:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.47502
- Title: Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding
- Title(参考訳): Da Yu: ウォーターウェイサーベイランスとシーン理解のためのUSVベースの画像キャプションを目指して
- Authors: Runwei Guan, Ningwei Ouyang, Tianhao Xu, Shaofeng Liang, Wei Dai, Yafeng Sun, Shang Gao, Songning Lai, Shanliang Yao, Xuming Hu, Ryan Wen Liu, Yutao Yue, Hui Xiong,
- Abstract要約: 水路環境に特化して設計された最初のキャプションデータセットであるWaterCaptionを紹介する。
WaterCaptionは、きめ細かいマルチリージョンの長文記述に焦点を当てている。
我々は,USVのためのエッジデプロイ可能なマルチモーダルな大規模言語モデルであるDa Yuを提案する。
- 参考スコア(独自算出の注目度): 25.87853252053879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated waterway environment perception is crucial for enabling unmanned surface vessels (USVs) to understand their surroundings and make informed decisions. Most existing waterway perception models primarily focus on instance-level object perception paradigms (e.g., detection, segmentation). However, due to the complexity of waterway environments, current perception datasets and models fail to achieve global semantic understanding of waterways, limiting large-scale monitoring and structured log generation. With the advancement of vision-language models (VLMs), we leverage image captioning to introduce WaterCaption, the first captioning dataset specifically designed for waterway environments. WaterCaption focuses on fine-grained, multi-region long-text descriptions, providing a new research direction for visual geo-understanding and spatial scene cognition. Exactly, it includes 20.2k image-text pair data with 1.8 million vocabulary size. Additionally, we propose Da Yu, an edge-deployable multi-modal large language model for USVs, where we propose a novel vision-to-language projector called Nano Transformer Adaptor (NTA). NTA effectively balances computational efficiency with the capacity for both global and fine-grained local modeling of visual features, thereby significantly enhancing the model's ability to generate long-form textual outputs. Da Yu achieves an optimal balance between performance and efficiency, surpassing state-of-the-art models on WaterCaption and several other captioning benchmarks.
- Abstract(参考訳): 自動水路環境認識は、無人表面船(USV)が周囲を理解し、情報的決定を下すために不可欠である。
既存の水路知覚モデルは、主にインスタンスレベルのオブジェクト認識パラダイム(例えば、検出、セグメンテーション)に焦点を当てている。
しかし、水路環境の複雑さのため、現在の知覚データセットとモデルは、大規模監視と構造化ログ生成を制限するため、水路のグローバルな意味理解を達成できない。
視覚言語モデル(VLM)の進歩により、画像キャプションを活用して、水路環境に特化して設計された最初のキャプションデータセットであるWaterCaptionを導入する。
WaterCaptionは、細粒度で多領域の長文記述に焦点を当て、視覚的ジオアンダーウンディングと空間的シーン認識のための新しい研究方向を提供する。
具体的には、180万の語彙を持つ20.2kの画像テキストペアデータを含んでいる。
さらに,USV用マルチモーダル大規模言語モデルであるDa Yuを提案し,Nano Transformer Adaptor (NTA) と呼ばれる新しい視覚言語プロジェクタを提案する。
NTAは、視覚特徴のグローバルな局所モデリングと微粒化の両方のキャパシティと計算効率を効果的にバランスさせ、長文出力を生成するモデルの能力を大幅に向上させる。
Da Yuはパフォーマンスと効率の最適バランスを達成し、WaterCaptionや他のいくつかのキャプションベンチマークの最先端モデルを上回っている。
関連論文リスト
- Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Inland Waterway Object Detection in Multi-environment: Dataset and Approach [12.00732943849236]
本稿では,多環境インランド・ウォーターウェイ・ベッセル・データセット(MEIWVD)を紹介する。
MEIWVDは、晴れ、雨、霧、人工照明など様々なシナリオから32,478枚の高品質な画像で構成されている。
本稿では,環境条件に応じた水面画像改善のためのシーン誘導画像強調モジュールを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:45:00Z) - AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis [40.27548815196493]
AquaticCLIP(AquaticCLIP)は、水文シーン理解に適した、新しいコントラスト言語画像事前学習モデルである。
AquaticCLIPは、画像とテキストを水生環境で整列させる、教師なしの新たな学習フレームワークを提供する。
我々のモデルは水中環境における視覚言語アプリケーションのための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-02-03T19:56:16Z) - WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar [14.984396484574509]
人間の指示に基づいて,米国における水路認識のために設計された最初の視覚的接地データセットであるWaterVGを紹介する。
WaterVGには、34,987の目標を持つ11,568のサンプルが含まれており、視覚特性とレーダー特性を統合している。
本稿では,多タスクモデルである低消費電力視覚接地モデル Potamoi を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:45:18Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。