論文の概要: MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data
- arxiv url: http://arxiv.org/abs/2411.07463v2
- Date: Wed, 13 Nov 2024 02:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 12:31:40.060328
- Title: MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data
- Title(参考訳): MSEG-VCUQ:高速ビデオ位相検出データのための拡張ビジョン基礎モデル、畳み込みニューラルネットワーク、不確実性定量化によるマルチモーダルセグメンテーション
- Authors: Chika Maduabuchi, Ericmoore Jossou, Matteo Bucci,
- Abstract要約: 高速ビデオ(HSV)位相検出(PD)セグメンテーションは、原子炉、化学処理、電子冷却において不可欠である。
従来のセグメンテーションモデルは、マルチモーダルデータにおいてピクセルレベルの精度と一般化の問題に直面している。
MSEG-VCUQは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのビジョンモデルを活用したハイブリッドフレームワークであるVideoSAMを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Purpose: High-speed video (HSV) phase detection (PD) segmentation is vital in nuclear reactors, chemical processing, and electronics cooling for detecting vapor, liquid, and microlayer phases. Traditional segmentation models face pixel-level accuracy and generalization issues in multimodal data. MSEG-VCUQ introduces VideoSAM, a hybrid framework leveraging convolutional neural networks (CNNs) and transformer-based vision models to enhance segmentation accuracy and generalizability across complex multimodal PD tasks. Methods: VideoSAM combines U-Net CNN and the Segment Anything Model (SAM) for advanced feature extraction and segmentation across diverse HSV PD modalities, spanning fluids like water, FC-72, nitrogen, and argon under varied heat flux conditions. The framework also incorporates uncertainty quantification (UQ) to assess pixel-based discretization errors, delivering reliable metrics such as contact line density and dry area fraction under experimental conditions. Results: VideoSAM outperforms SAM and modality-specific CNN models in segmentation accuracy, excelling in environments with complex phase boundaries, overlapping bubbles, and dynamic liquid-vapor interactions. Its hybrid architecture supports cross-dataset generalization, adapting effectively to varying modalities. The UQ module provides accurate error estimates, enhancing the reliability of segmentation outputs for advanced HSV PD research. Conclusion: MSEG-VCUQ, via VideoSAM, offers a robust solution for HSV PD segmentation, addressing previous limitations with advanced deep learning and UQ techniques. The open-source datasets and tools introduced enable scalable, precise, and adaptable segmentation for multimodal PD datasets, supporting advancements in HSV analysis and autonomous experimentation. The codes and data used for this paper are publicly available at: \url{https://github.com/chikap421/mseg_vcuq}
- Abstract(参考訳): 目的: 高速ビデオ(HSV)位相検出(PD)セグメンテーションは, 蒸気, 液体, マイクロ層相を検出するための原子炉, 化学処理, 電子冷却において不可欠である。
従来のセグメンテーションモデルは、マルチモーダルデータにおいてピクセルレベルの精度と一般化の問題に直面している。
MSEG-VCUQは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのビジョンモデルを活用するハイブリッドフレームワークであるVideoSAMを導入し、複雑なマルチモーダルPDタスク間のセグメンテーション精度と一般化性を向上させる。
方法: VideoSAMは、U-Net CNNとSAM(Segment Anything Model)を組み合わせて、様々な熱流束条件下で水、FC-72、窒素、アルゴンなどの流体にまたがる多様なHSV PDモダリティの高度な特徴抽出とセグメンテーションを行う。
このフレームワークはまた、不確実量化(UQ)を組み込んで画素ベースの離散化誤差を評価し、実験条件下で接触線密度や乾燥領域分画などの信頼性の高い指標を提供する。
結果: VideoSAM はSAM とModality-specific CNN モデルよりセグメンテーション精度が高く,複雑な相境界を持つ環境,オーバーラップバブル,動的液-蒸気相互作用に優れていた。
ハイブリッドアーキテクチャはクロスデータセットの一般化をサポートし、様々なモダリティに効果的に適応する。
UQモジュールは正確な誤差推定を提供し、高度なHSV PD研究のためのセグメンテーション出力の信頼性を高める。
結論: MSEG-VCUQは、VideoSAMを通じて、HSV PDセグメンテーションのための堅牢なソリューションを提供する。
導入されたオープンソースのデータセットとツールは、スケーラブルで正確で適応可能なマルチモーダルPDデータセットのセグメンテーションを可能にし、HSV分析と自律的な実験の進歩をサポートする。
この論文で使用されるコードとデータは、以下で公開されている。
関連論文リスト
- DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Boosting Convolution with Efficient MLP-Permutation for Volumetric
Medical Image Segmentation [32.645022002807416]
マルチレイヤパーセプトロン(MLP)ネットワークは、ViTに匹敵する結果により、研究者の間で人気を取り戻している。
本稿では,コンボリューションニューラルネットワーク(CNN)とPHNetの両方の長所を活かしたPHNetという,Vol-MedSeg用の新しい可変ハイブリッドネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T08:59:09Z) - DSNet: a simple yet efficient network with dual-stream attention for
lesion segmentation [0.0]
本稿では, 簡易かつ効率的なネットワークDSNetを提案する。
本手法は,モデル複雑性とメモリ消費の低い平均Dice係数(mDice)と平均MIoU(mIoU)のSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T12:48:17Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Multiplex-detection Based Multiple Instance Learning Network for Whole
Slide Image Classification [2.61155594652503]
マルチ・インスタンス・ラーニング(MIL)は、診断病理のためのスライド画像全体(WSI)を分類する強力な手法である。
本稿では,上記の問題に対処するために,MDMIL(Multiple-detection-based multiple instance learning)を提案する。
具体的には、MDMILは内部クエリ生成モジュール(IQGM)と多重検出モジュール(MDM)によって構成される。
論文 参考訳(メタデータ) (2022-08-06T14:36:48Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Machine Learning model for gas-liquid interface reconstruction in CFD
numerical simulations [59.84561168501493]
流体の体積(VoF)法は多相流シミュレーションにおいて2つの不混和性流体間の界面を追跡・見つけるために広く用いられている。
VoF法の主なボトルネックは、計算コストが高く、非構造化グリッド上での精度が低いため、インタフェース再構成のステップである。
一般的な非構造化メッシュ上でのインタフェース再構築を高速化するために,グラフニューラルネットワーク(GNN)に基づく機械学習拡張VoF手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T17:07:46Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。