論文の概要: OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models
- arxiv url: http://arxiv.org/abs/2605.00877v1
- Date: Sat, 25 Apr 2026 14:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.438396
- Title: OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models
- Title(参考訳): OceanPile: ファンデーションモデルのための大規模マルチモーダルオーシャンコーパス
- Authors: Yida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen,
- Abstract要約: OceanPileは、海洋基盤モデル用に設計された大規模マルチモーダルコーパスである。
OceanCorpus、OceanInstruction、OceanBenchmarkの3つの重要なコンポーネントで構成されている。
すべてのデータセットは、海洋人工知能の分野を前進させるために公開されている。
- 参考スコア(独自算出の注目度): 57.19693589926157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.
- Abstract(参考訳): 広大な海洋は、地球の気候を規制し、海洋生物多様性をサポートする上で重要な役割を担っているが、人工知能は基本的なデータボトルネックのために、この領域に限られた影響を与えている。
具体的には、海洋データは異なるソース間で高度に断片化され、本質的にマルチモーダル、ハイノイズ、弱ラベルの特徴を示し、統一スキーマとセマンティックアライメントが欠如している。
MLLM(Multimodal Large Language Models)は、一般的な分野において顕著な成功を収めてきたが、海洋環境に適した大規模で整列したマルチモーダルデータセットが存在しないため、海洋科学への応用は厳しい制約を受け続けている。
このギャップを埋めるために,海洋基盤モデル用に設計された大規模マルチモーダルコーパスであるOceanPileを導入する。
OceanCorpus、ソナーデータ、水中画像、海洋科学のビジュアル、さまざまな権威ソースからの科学的テキストを統合する統一的なコレクション、OceanInstruction、階層的なOcean Concept Knowledge Graphによってガイドされた新しいパイプラインを通じて合成された高品質な命令データセット、厳密な評価のための手作業による評価ベンチマークであるOceanBenchmarkの3つの重要なコンポーネントで構成されている。
我々は,多段階品質制御プロセスを構築し,モダリティ間の科学的妥当性とアライメントを確保する。
実験による検証は、データに基づいてトレーニングされたモデルの大幅な性能向上を示す。
すべてのデータセットは、海洋人工知能の分野を前進させ、ドメイン固有のMLLMを強化するために公開されている。
関連論文リスト
- Exploring the Underwater World Segmentation without Extra Training [55.291219073365546]
我々は,最初の大規模かつ微細な水中セグメンテーションデータセットである textbfAquaOV255 を紹介する。
トレーニング不要なOVセグメンテーションフレームワークである textbfEarth2Ocean も紹介する。
論文 参考訳(メタデータ) (2025-11-11T07:22:56Z) - OceanGym: A Benchmark Environment for Underwater Embodied Agents [69.56465775825275]
OceanGymは、海洋水中のエンボディエージェントに関する最初の総合的なベンチマークである。
それは、最も要求の多い現実世界環境の1つでAIを前進させるように設計されている。
高忠実で厳格に設計されたプラットフォームを提供することで、OceanGymは堅牢なエンボディAIを開発するためのテストベッドを確立する。
論文 参考訳(メタデータ) (2025-09-30T17:09:32Z) - A Sentinel-3 foundation model for ocean colour [8.571925606193703]
我々は,Sentinel-3 Ocean and Land Colour Instrument (OLCI) のデータ再構成を事前訓練した Prithvi-EO Vision Transformer アーキテクチャを用いた新しい基礎モデルについて述べる。
2つの下流海洋地球観測課題の微調整によるモデルの評価を行った。
この新世代の地理空間AIモデルは、海洋生態系とその地球温暖化プロセスにおける役割について、より堅牢でデータ駆動的な洞察を提供する可能性を秘めている、と結論付けています。
論文 参考訳(メタデータ) (2025-09-25T15:00:38Z) - Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection [54.1960918379255]
Neptune-Xは、海洋オブジェクト検出のためのデータ中心の生成-選択フレームワークである。
X-to-Maritime(X-to-Maritime)は、多様で現実的な海洋シーンを合成する多モード条件生成モデルである。
提案手法は,海上シーン合成における新しいベンチマークを設定し,検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-25T04:59:02Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - OceanGPT: A Large Language Model for Ocean Science Tasks [37.053614694078014]
我々は,海洋科学の課題に精通した,海洋領域における最初の大規模言語モデルであるOceanGPTを紹介した。
また,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるOceanGPTを提案する。
海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。
論文 参考訳(メタデータ) (2023-10-03T13:17:35Z) - OceanBench: The Sea Surface Height Edition [5.307677318971956]
オーシャンサテライトデータは、その空間性や不規則なサンプリング、信号の複雑さ、ノイズによる情報抽出の課題を示す。
機械学習(ML)技術は、大規模で複雑な信号を扱う能力を実証している。
OceanBenchは、ドメインエキスパート標準に準拠した標準化された処理ステップを提供する統一フレームワークである。
論文 参考訳(メタデータ) (2023-09-27T12:00:40Z) - AI-GOMS: Large AI-Driven Global Ocean Modeling System [3.635120568177384]
海洋モデリングは、海洋の物理的、化学的、生物学的過程をシミュレートするための強力なツールである。
本稿では,AIによる大規模海洋モデリングシステムであるAI-GOMSについて紹介する。
論文 参考訳(メタデータ) (2023-08-06T15:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。