論文の概要: Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection
- arxiv url: http://arxiv.org/abs/2509.20745v2
- Date: Fri, 26 Sep 2025 03:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.345894
- Title: Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection
- Title(参考訳): Neptune-X:Universal Maritime Object DetectionのためのアクティブX-to-Maritime生成
- Authors: Yu Guo, Shengfeng He, Yuxu Lu, Haonan An, Yihang Tao, Huilin Zhu, Jingxian Liu, Yuguang Fang,
- Abstract要約: Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。
X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。
提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 54.1960918379255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maritime object detection is essential for navigation safety, surveillance, and autonomous operations, yet constrained by two key challenges: the scarcity of annotated maritime data and poor generalization across various maritime attributes (e.g., object category, viewpoint, location, and imaging environment). To address these challenges, we propose Neptune-X, a data-centric generative-selection framework that enhances training effectiveness by leveraging synthetic data generation with task-aware sample selection. From the generation perspective, we develop X-to-Maritime, a multi-modality-conditioned generative model that synthesizes diverse and realistic maritime scenes. A key component is the Bidirectional Object-Water Attention module, which captures boundary interactions between objects and their aquatic surroundings to improve visual fidelity. To further improve downstream tasking performance, we propose Attribute-correlated Active Sampling, which dynamically selects synthetic samples based on their task relevance. To support robust benchmarking, we construct the Maritime Generation Dataset, the first dataset tailored for generative maritime learning, encompassing a wide range of semantic conditions. Extensive experiments demonstrate that our approach sets a new benchmark in maritime scene synthesis, significantly improving detection accuracy, particularly in challenging and previously underrepresented settings. The code is available at https://github.com/gy65896/Neptune-X.
- Abstract(参考訳): 海上物体検出は、航海安全、監視、自律的な操作には不可欠であるが、注釈付き海洋データの不足と、様々な海洋属性(例えば、対象カテゴリー、視点、位置、撮像環境)にわたる低次化という2つの主要な課題に制約されている。
これらの課題に対処するために,タスク対応サンプル選択による合成データ生成を活用することにより,トレーニング効率を向上させるデータ中心の生成-選択フレームワークであるNeptune-Xを提案する。
生成の観点から,多様なリアルな海洋シーンを合成するマルチモーダル条件生成モデルであるX-to-Maritimeを開発した。
このモジュールは、オブジェクトとその水面環境間の境界相互作用をキャプチャして、視覚的忠実性を改善する。
下流のタスク処理性能をさらに向上するために,タスク関連性に基づいて動的に合成サンプルを選択する属性関連アクティブサンプリングを提案する。
強靭なベンチマークをサポートするために,我々は,多種多様な意味条件を含む生成海洋学習に適した最初のデータセットであるMaritime Generation Datasetを構築した。
大規模な実験により,本手法は海洋シーンの合成において新たなベンチマークを設定し,特に難易度と事前表現度の低い環境において,検出精度を大幅に向上することが示された。
コードはhttps://github.com/gy65896/Neptune-Xで公開されている。
関連論文リスト
- Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Expose Camouflage in the Water: Underwater Camouflaged Instance Segmentation and Dataset [76.92197418745822]
カモフラージュされたインスタンスセグメンテーション(CIS)は、周囲と密接に融合したオブジェクトを正確にセグメンテーションする際の大きな課題に直面します。
従来のカモフラージュされたインスタンスセグメンテーション法は、水中のサンプルが限られている地球上で支配的なデータセットに基づいて訓練されており、水中のシーンでは不十分な性能を示す可能性がある。
本研究は,海中カモフラージュされた海洋生物の3,953枚の画像とインスタンスレベルのアノテーションを含む,最初の水中カモフラージュされたインスタンスセグメンテーションデータセットUCIS4Kを紹介する。
論文 参考訳(メタデータ) (2025-10-20T14:34:51Z) - MVTD: A Benchmark Dataset for Maritime Visual Object Tracking [4.956066467858057]
海中視覚追跡データセット(MVTD)は182の高解像度ビデオシーケンスで構成され、合計で15万フレームである。
MVTDは、海洋環境の現実的な複雑さを反映して、さまざまな運用状況と海洋シナリオをキャプチャする。
MVTDベンチマークで14種類のSOTA追跡アルゴリズムを評価し, 汎用データセットの性能と比較すると, 大幅な性能劣化が見られた。
論文 参考訳(メタデータ) (2025-06-03T13:30:11Z) - HMPNet: A Feature Aggregation Architecture for Maritime Object Detection from a Shipborne Perspective [16.421691711725916]
様々な海洋環境と気象条件下での12の対象カテゴリに注釈付けされた新しいデータセットを提示する。
船舶搭載物体検出に適した軽量アーキテクチャであるHMPNetを提案する。
経験的評価は、HMPNetが現在の最先端の手法を精度と計算効率の両面で上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-13T05:17:53Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - World-Consistent Data Generation for Vision-and-Language Navigation [33.13590164890286]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - MID: A Comprehensive Shore-Based Dataset for Multi-Scale Dense Ship Occlusion and Interaction Scenarios [10.748210940033484]
海上航行行動データセット(MID)は、複雑な海上環境における船舶検出の課題に対処するために設計されている。
MIDには5,673の画像と135,884の微調整されたターゲットインスタンスが含まれており、教師付き学習と半教師付き学習の両方をサポートしている。
MIDの画像は、43の水域を横断する現実世界のナビゲーションの高精細なビデオクリップから得られたもので、天候や照明条件も様々である。
論文 参考訳(メタデータ) (2024-12-08T09:34:23Z) - Introducing VaDA: Novel Image Segmentation Model for Maritime Object Segmentation Using New Dataset [3.468621550644668]
海上輸送産業はコンピュータビジョン人工知能(AI)の進歩によって急速に進化している
海洋環境における物体認識は、光の反射、干渉、激しい照明、様々な気象条件といった課題に直面します。
既存のAI認識モデルとデータセットは、自律ナビゲーションシステムを構成するのに限定的に適している。
論文 参考訳(メタデータ) (2024-07-12T05:48:53Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。