論文の概要: MULTIAQUA: A multimodal maritime dataset and robust training strategies for multimodal semantic segmentation
- arxiv url: http://arxiv.org/abs/2512.17450v1
- Date: Fri, 19 Dec 2025 11:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.350345
- Title: MULTIAQUA: A multimodal maritime dataset and robust training strategies for multimodal semantic segmentation
- Title(参考訳): MultiAQUA:マルチモーダルなセマンティックセグメンテーションのためのマルチモーダル海洋データセットとロバストなトレーニング戦略
- Authors: Jon Muhovič, Janez Perš,
- Abstract要約: 本稿では,マルチモーダル海洋データセットであるMultimodal Aquatic datasetを提案する。
我々のデータセットには、RGB、熱、IR、LIDARなど、さまざまなモードのセンサーによってキャプチャされた同期化、校正、注釈付きデータが含まれています。
我々は,マルチモーダル手法をより堅牢に訓練し,ほぼ完全な暗黒でも信頼性の高い性能を維持する訓練手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned surface vehicles can encounter a number of varied visual circumstances during operation, some of which can be very difficult to interpret. While most cases can be solved only using color camera images, some weather and lighting conditions require additional information. To expand the available maritime data, we present a novel multimodal maritime dataset MULTIAQUA (Multimodal Aquatic Dataset). Our dataset contains synchronized, calibrated and annotated data captured by sensors of different modalities, such as RGB, thermal, IR, LIDAR, etc. The dataset is aimed at developing supervised methods that can extract useful information from these modalities in order to provide a high quality of scene interpretation regardless of potentially poor visibility conditions. To illustrate the benefits of the proposed dataset, we evaluate several multimodal methods on our difficult nighttime test set. We present training approaches that enable multimodal methods to be trained in a more robust way, thus enabling them to retain reliable performance even in near-complete darkness. Our approach allows for training a robust deep neural network only using daytime images, thus significantly simplifying data acquisition, annotation, and the training process.
- Abstract(参考訳): 無人表面車両は操作中に様々な視覚的状況に遭遇しうるが、そのうちのいくつかは解釈が非常に困難である。
ほとんどのケースはカラーカメラでしか解決できないが、天気や照明条件には追加情報が必要である。
利用可能な海洋データを拡張するために,新しいマルチモーダル海洋データセット MultiAQUA (Multimodal Aquatic Dataset) を提案する。
我々のデータセットには、RGB、熱、IR、LIDARなど、さまざまなモードのセンサーによってキャプチャされた同期化、校正、注釈付きデータが含まれています。
このデータセットは、潜在的に視認性に乏しい状況によらず、高い品質のシーン解釈を提供するために、これらのモダリティから有用な情報を抽出できる教師付き手法を開発することを目的としている。
提案したデータセットの利点を説明するために,夜間テストの難易度の高いセット上で,複数のマルチモーダル手法を評価した。
我々は,マルチモーダル手法をより堅牢に訓練し,ほぼ完全な暗黒でも信頼性の高い性能を維持する訓練手法を提案する。
当社のアプローチでは、日中の画像のみを使用して堅牢なディープニューラルネットワークのトレーニングを可能にし、データ取得、アノテーション、トレーニングプロセスを大幅に単純化する。
関連論文リスト
- Can multimodal representation learning by alignment preserve modality-specific information? [2.0816054646359805]
マルチモーダル表現学習技術は、同じ地理的領域で取得された異なるモーダルの衛星データ間の空間的アライメントを利用する。
仮定をシンプルにすると、アライメント戦略が基本的に情報損失につながることが示される。
我々は、マルチモーダル衛星データの組み合わせに関して、対照的な学習の新たな発展を支援したい。
論文 参考訳(メタデータ) (2025-09-22T16:06:10Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Multi-Modal Multi-Task (3MT) Road Segmentation [0.8287206589886879]
我々は、多くのSOTA作業で通常行われているように、代わりに生のセンサー入力を使用することに重点を置いており、高い事前処理コストを必要とするアーキテクチャを活用している。
本研究では,複数センサからのデータをマルチタスク学習アーキテクチャに組み込むことにより,道路セグメンテーションの費用対効果,高精度なソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-23T08:15:15Z) - Deep Multimodal Transfer-Learned Regression in Data-Poor Domains [0.0]
画像と特徴データのマルチモーダル学習のためのDMTL-R(Deep Multimodal Transfer-Learned Regressor)を提案する。
我々のモデルは、少量のトレーニング画像データに基づいて、与えられたトレーニング済みCNN重みのセットを微調整することができる。
各種CNNアーキテクチャからの事前学習重みを用いた位相場シミュレーションマイクロ構造画像とそれに付随する物理特徴集合を用いた結果を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。