論文の概要: Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection
- arxiv url: http://arxiv.org/abs/2509.20745v1
- Date: Thu, 25 Sep 2025 04:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.698441
- Title: Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection
- Title(参考訳): Neptune-X:Universal Maritime Object DetectionのためのアクティブX-to-Maritime生成
- Authors: Yu Guo, Shengfeng He, Yuxu Lu, Haonan An, Yihang Tao, Huilin Zhu, Jingxian Liu, Yuguang Fang,
- Abstract要約: 海上物体検出は、航行安全、監視、自律運転に不可欠である。
Neptune-Xは、トレーニングの有効性を高めるデータ中心の生成選択フレームワークである。
我々の手法は海洋シーン合成における新しいベンチマークを定めている。
- 参考スコア(独自算出の注目度): 54.1960918379255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maritime object detection is essential for navigation safety, surveillance, and autonomous operations, yet constrained by two key challenges: the scarcity of annotated maritime data and poor generalization across various maritime attributes (e.g., object category, viewpoint, location, and imaging environment). % In particular, models trained on existing datasets often underperform in underrepresented scenarios such as open-sea environments. To address these challenges, we propose Neptune-X, a data-centric generative-selection framework that enhances training effectiveness by leveraging synthetic data generation with task-aware sample selection. From the generation perspective, we develop X-to-Maritime, a multi-modality-conditioned generative model that synthesizes diverse and realistic maritime scenes. A key component is the Bidirectional Object-Water Attention module, which captures boundary interactions between objects and their aquatic surroundings to improve visual fidelity. To further improve downstream tasking performance, we propose Attribute-correlated Active Sampling, which dynamically selects synthetic samples based on their task relevance. To support robust benchmarking, we construct the Maritime Generation Dataset, the first dataset tailored for generative maritime learning, encompassing a wide range of semantic conditions. Extensive experiments demonstrate that our approach sets a new benchmark in maritime scene synthesis, significantly improving detection accuracy, particularly in challenging and previously underrepresented settings.The code is available at https://github.com/gy65896/Neptune-X.
- Abstract(参考訳): 海上物体検出は、航海安全、監視、自律的な操作には不可欠であるが、注釈付き海洋データの不足と、様々な海洋属性(例えば、対象カテゴリー、視点、位置、撮像環境)にわたる低次化という2つの主要な課題に制約されている。
特に、既存のデータセットでトレーニングされたモデルは、オープンシー環境のような、表現不足のシナリオではパフォーマンスが低いことが多い。
これらの課題に対処するために,タスク対応サンプル選択による合成データ生成を活用することにより,トレーニング効率を向上させるデータ中心の生成-選択フレームワークであるNeptune-Xを提案する。
生成の観点から,多様なリアルな海洋シーンを合成するマルチモーダル条件生成モデルであるX-to-Maritimeを開発した。
このモジュールは、オブジェクトとその水面環境間の境界相互作用をキャプチャして、視覚的忠実性を改善する。
下流のタスク処理性能をさらに向上するために,タスク関連性に基づいて動的に合成サンプルを選択する属性関連アクティブサンプリングを提案する。
強靭なベンチマークをサポートするために,我々は,多種多様な意味条件を含む生成海洋学習に適した最初のデータセットであるMaritime Generation Datasetを構築した。
大規模な実験により,本手法は海洋シーンの合成において新たなベンチマークを設定し,特に難解で表現の不十分な環境において検出精度を大幅に向上することが示された。
関連論文リスト
- MVTD: A Benchmark Dataset for Maritime Visual Object Tracking [4.956066467858057]
海中視覚追跡データセット(MVTD)は182の高解像度ビデオシーケンスで構成され、合計で15万フレームである。
MVTDは、海洋環境の現実的な複雑さを反映して、さまざまな運用状況と海洋シナリオをキャプチャする。
MVTDベンチマークで14種類のSOTA追跡アルゴリズムを評価し, 汎用データセットの性能と比較すると, 大幅な性能劣化が見られた。
論文 参考訳(メタデータ) (2025-06-03T13:30:11Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - MID: A Comprehensive Shore-Based Dataset for Multi-Scale Dense Ship Occlusion and Interaction Scenarios [10.748210940033484]
海上航行行動データセット(MID)は、複雑な海上環境における船舶検出の課題に対処するために設計されている。
MIDには5,673の画像と135,884の微調整されたターゲットインスタンスが含まれており、教師付き学習と半教師付き学習の両方をサポートしている。
MIDの画像は、43の水域を横断する現実世界のナビゲーションの高精細なビデオクリップから得られたもので、天候や照明条件も様々である。
論文 参考訳(メタデータ) (2024-12-08T09:34:23Z) - Introducing VaDA: Novel Image Segmentation Model for Maritime Object Segmentation Using New Dataset [3.468621550644668]
海上輸送産業はコンピュータビジョン人工知能(AI)の進歩によって急速に進化している
海洋環境における物体認識は、光の反射、干渉、激しい照明、様々な気象条件といった課題に直面します。
既存のAI認識モデルとデータセットは、自律ナビゲーションシステムを構成するのに限定的に適している。
論文 参考訳(メタデータ) (2024-07-12T05:48:53Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。