論文の概要: YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction
- arxiv url: http://arxiv.org/abs/2505.22250v2
- Date: Thu, 29 May 2025 04:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.788391
- Title: YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction
- Title(参考訳): YH-MINER:天然サンゴ礁メトリクス抽出のためのマルチモーダルインテリジェントシステム
- Authors: Mingzhuang Wang, Yvyang Li, Xiyang Zhang, Fei Tan, Qi Shi, Guotao Zhang, Siqi Chen, Yufei Liu, Lei Lei, Ming Zhou, Qiang Lin, Hongqiang Yang,
- Abstract要約: 海洋生物多様性と生態過程を維持するために不可欠なサンゴ礁は、エスカレートする脅威に直面している。
本研究では,YH-MINERシステムを開発し,「対象検出-意味分割-優先入力」のためのインテリジェントなフレームワークを構築した。
本システムは,88%の属レベルの分類精度を達成し,同時にコア生態指標を抽出する。
- 参考スコア(独自算出の注目度): 23.4289262373633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coral reefs, crucial for sustaining marine biodiversity and ecological processes (e.g., nutrient cycling, habitat provision), face escalating threats, underscoring the need for efficient monitoring. Coral reef ecological monitoring faces dual challenges of low efficiency in manual analysis and insufficient segmentation accuracy in complex underwater scenarios. This study develops the YH-MINER system, establishing an intelligent framework centered on the Multimodal Large Model (MLLM) for "object detection-semantic segmentation-prior input". The system uses the object detection module (mAP@0.5=0.78) to generate spatial prior boxes for coral instances, driving the segment module to complete pixel-level segmentation in low-light and densely occluded scenarios. The segmentation masks and finetuned classification instructions are fed into the Qwen2-VL-based multimodal model as prior inputs, achieving a genus-level classification accuracy of 88% and simultaneously extracting core ecological metrics. Meanwhile, the system retains the scalability of the multimodal model through standardized interfaces, laying a foundation for future integration into multimodal agent-based underwater robots and supporting the full-process automation of "image acquisition-prior generation-real-time analysis".
- Abstract(参考訳): 海洋生物多様性と生態過程(例えば、栄養循環、生息地確保など)を維持するために不可欠なサンゴ礁は、効率的なモニタリングの必要性を浮き彫りにする脅威に直面している。
サンゴ礁の生態モニタリングは、手動解析における低効率と複雑な水中シナリオにおけるセグメンテーション精度の不足という2つの課題に直面している。
本研究では,YH-MINERシステムを開発し,Multimodal Large Model(MLLM)を中心としたインテリジェントなフレームワークを構築した。
このシステムは、オブジェクト検出モジュール(mAP@0.5=0.78)を使用してサンゴのインスタンスの空間的事前ボックスを生成し、低照度で密集したシナリオでピクセルレベルのセグメンテーションを完了させるようにセグメントモジュールを駆動する。
セグメンテーションマスクと微調整された分類命令は、Qwen2-VLベースのマルチモーダルモデルに事前入力として入力され、属レベルの分類精度が88%に達し、同時にコア生態指標を抽出する。
一方,本システムは,標準化されたインタフェースによるマルチモーダルモデルのスケーラビリティを維持し,将来のマルチモーダルエージェント型水中ロボットへの統合基盤を構築し,「画像取得優先世代リアルタイム分析」のフルプロセス自動化を支援する。
関連論文リスト
- Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - Towards Interpretable Physical-Conceptual Catchment-Scale Hydrological Modeling using the Mass-Conserving-Perceptron [1.1510009152620668]
本研究では, ニューラル・アーキテクチャー・サーチを用いて, 異なる気候環境下での漁獲量に対する最小限の表現を適切に決定することにより, 地域規模のMPPに基づく水文モデル(大規模なサンプルデータを用いた)の解釈の段階を定めている。
論文 参考訳(メタデータ) (2024-01-25T21:26:49Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。