論文の概要: MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data
- arxiv url: http://arxiv.org/abs/2411.07463v3
- Date: Thu, 14 Nov 2024 21:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:46.74312
- Title: MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data
- Title(参考訳): MSEG-VCUQ:高速ビデオ位相検出データのための拡張ビジョン基礎モデル、畳み込みニューラルネットワーク、不確実性定量化によるマルチモーダルセグメンテーション
- Authors: Chika Maduabuchi, Ericmoore Jossou, Matteo Bucci,
- Abstract要約: 高速ビデオ(HSV)位相検出(PD)セグメンテーションは、原子炉、化学処理、電子冷却において不可欠である。
従来のセグメンテーションモデルは、マルチモーダルデータにおいてピクセルレベルの精度と一般化の問題に直面している。
MSEG-VCUQは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのビジョンモデルを活用したハイブリッドフレームワークであるVideoSAMを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: High-speed video (HSV) phase detection (PD) segmentation is vital in nuclear reactors, chemical processing, and electronics cooling for detecting vapor, liquid, and microlayer phases. Traditional segmentation models face pixel-level accuracy and generalization issues in multimodal data. MSEG-VCUQ introduces VideoSAM, a hybrid framework leveraging convolutional neural networks (CNNs) and transformer-based vision models to enhance segmentation accuracy and generalizability across complex multimodal PD tasks. Methods: VideoSAM combines U-Net CNN and the Segment Anything Model (SAM) for advanced feature extraction and segmentation across diverse HSV PD modalities, spanning fluids like water, FC-72, nitrogen, and argon under varied heat flux conditions. The framework also incorporates uncertainty quantification (UQ) to assess pixel-based discretization errors, delivering reliable metrics such as contact line density and dry area fraction under experimental conditions. Results: VideoSAM outperforms SAM and modality-specific CNN models in segmentation accuracy, excelling in environments with complex phase boundaries, overlapping bubbles, and dynamic liquid-vapor interactions. Its hybrid architecture supports cross-dataset generalization, adapting effectively to varying modalities. The UQ module provides accurate error estimates, enhancing the reliability of segmentation outputs for advanced HSV PD research. Conclusion: MSEG-VCUQ, via VideoSAM, offers a robust solution for HSV PD segmentation, addressing previous limitations with advanced deep learning and UQ techniques. The open-source datasets and tools introduced enable scalable, precise, and adaptable segmentation for multimodal PD datasets, supporting advancements in HSV analysis and autonomous experimentation. The codes and data used for this paper are publicly available at https://github.com/chikap421/mseg_vcuq
- Abstract(参考訳): 目的: 高速ビデオ(HSV)位相検出(PD)セグメンテーションは, 蒸気, 液体, マイクロ層相を検出するための原子炉, 化学処理, 電子冷却において不可欠である。
従来のセグメンテーションモデルは、マルチモーダルデータにおいてピクセルレベルの精度と一般化の問題に直面している。
MSEG-VCUQは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのビジョンモデルを活用するハイブリッドフレームワークであるVideoSAMを導入し、複雑なマルチモーダルPDタスク間のセグメンテーション精度と一般化性を向上させる。
方法: VideoSAMは、U-Net CNNとSAM(Segment Anything Model)を組み合わせて、様々な熱流束条件下で水、FC-72、窒素、アルゴンなどの流体にまたがる多様なHSV PDモダリティの高度な特徴抽出とセグメンテーションを行う。
このフレームワークはまた、不確実量化(UQ)を組み込んで画素ベースの離散化誤差を評価し、実験条件下で接触線密度や乾燥領域分画などの信頼性の高い指標を提供する。
結果: VideoSAM はSAM とModality-specific CNN モデルよりセグメンテーション精度が高く,複雑な相境界を持つ環境,オーバーラップバブル,動的液-蒸気相互作用に優れていた。
ハイブリッドアーキテクチャはクロスデータセットの一般化をサポートし、様々なモダリティに効果的に適応する。
UQモジュールは正確な誤差推定を提供し、高度なHSV PD研究のためのセグメンテーション出力の信頼性を高める。
結論: MSEG-VCUQは、VideoSAMを通じて、HSV PDセグメンテーションのための堅牢なソリューションを提供する。
導入されたオープンソースのデータセットとツールは、スケーラブルで正確で適応可能なマルチモーダルPDデータセットのセグメンテーションを可能にし、HSV分析と自律的な実験の進歩をサポートする。
この論文で使用されるコードとデータはhttps://github.com/chikap421/mseg_vcuqで公開されている。
関連論文リスト
- Consistency-aware Fake Videos Detection on Short Video Platforms [4.291448222735821]
本稿では,ショートビデオプラットフォーム上でのフェイクニュースの検出に焦点をあてる。
既存のアプローチは通常、分類層を適用する前に生のビデオデータとメタデータの入力を組み合わせる。
この知見に触発された本研究では,クロスモーダルな矛盾を明示的に識別し,活用する新たな検出パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-30T10:26:04Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation [0.0]
高速ビデオ(HSV)セグメンテーションは、沸騰熱伝達などの科学・産業応用における動的物理過程の解析に不可欠である。
位相検出のための多様なHSVデータセットを微調整したSegment Anything Model (SAM) の特殊適応であるVideoSAMを提案する。
論文 参考訳(メタデータ) (2024-10-22T18:46:36Z) - TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image Segmentation [6.013821375459473]
医用画像セグメンテーションのための新しいディープラーニングアーキテクチャを提案する。
提案モデルでは,10の公開データセット上でのテクニックの現状に対して,一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-09-05T09:14:03Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Multiplex-detection Based Multiple Instance Learning Network for Whole
Slide Image Classification [2.61155594652503]
マルチ・インスタンス・ラーニング(MIL)は、診断病理のためのスライド画像全体(WSI)を分類する強力な手法である。
本稿では,上記の問題に対処するために,MDMIL(Multiple-detection-based multiple instance learning)を提案する。
具体的には、MDMILは内部クエリ生成モジュール(IQGM)と多重検出モジュール(MDM)によって構成される。
論文 参考訳(メタデータ) (2022-08-06T14:36:48Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Diagnostic data integration using deep neural networks for real-time
plasma analysis [2.770437783544638]
核融合実験のための買収の連鎖を完全に更新する可能性を探る。
特に、ニューロン伝達関数の量子化を試みると、そのようなモデルが組み込まれたファームウェアを作成するように変更できることが示されている。
このファームウェアは、深部推論モデルを一連の単純な演算に近似し、FPGAで多用される単純な論理ユニットとよく適合する。
論文 参考訳(メタデータ) (2020-10-28T18:09:44Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。