Fugu-MT 論文翻訳(概要): VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation

論文の概要: VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation

arxiv url: http://arxiv.org/abs/2410.21304v2
Date: Sun, 03 Nov 2024 15:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.479967
Title: VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation
Title（参考訳）: VideoSAM: 高速ビデオセグメンテーションのための大規模ビジョンファウンデーションモデル
Authors: Chika Maduabuchi, Ericmoore Jossou, Matteo Bucci,
Abstract要約: 高速ビデオ(HSV)セグメンテーションは、沸騰熱伝達などの科学・産業応用における動的物理過程の解析に不可欠である。位相検出のための多様なHSVデータセットを微調整したSegment Anything Model (SAM) の特殊適応であるVideoSAMを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-speed video (HSV) segmentation is essential for analyzing dynamic physical processes in scientific and industrial applications, such as boiling heat transfer. Existing models like U-Net struggle with generalization and accurately segmenting complex bubble formations. We present VideoSAM, a specialized adaptation of the Segment Anything Model (SAM), fine-tuned on a diverse HSV dataset for phase detection. Through diverse experiments, VideoSAM demonstrates superior performance across four fluid environments -- Water, FC-72, Nitrogen, and Argon -- significantly outperforming U-Net in complex segmentation tasks. In addition to introducing VideoSAM, we contribute an open-source HSV segmentation dataset designed for phase detection, enabling future research in this domain. Our findings underscore VideoSAM's potential to set new standards in robust and accurate HSV segmentation. The code and dataset used in this study are available online at https://github.com/chikap421/videosam .
Abstract（参考訳）: 高速ビデオ(HSV)セグメンテーションは、沸騰熱伝達などの科学・産業応用における動的物理過程の解析に不可欠である。 U-Netのような既存のモデルは一般化に苦慮し、複雑な気泡の形成を正確に区分する。位相検出のための多様なHSVデータセットを微調整したSegment Anything Model (SAM) の特殊適応であるVideoSAMを提案する。多様な実験を通じて、VideoSAMは複雑なセグメンテーションタスクにおいてU-Netを大幅に上回る4つの流体環境(水、FC-72、窒素、アルゴン)で優れたパフォーマンスを示す。位相検出のために設計されたオープンソースのHSVセグメンテーションデータセットを寄贈し,今後の研究を可能にする。以上の結果から, 堅牢かつ高精度なHSVセグメンテーションにおける VideoSAM の新たな標準設定の可能性が浮き彫りになった。この研究で使用されたコードとデータセットはhttps://github.com/chikap421/videosam.comで公開されている。

関連論文リスト

SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文参考訳（メタデータ） (2025-08-05T15:36:13Z)
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文参考訳（メタデータ） (2025-04-16T13:41:59Z)
Studying Image Diffusion Features for Zero-Shot Video Object Segmentation [9.79891280451409]
本稿では,Zero-Shot Video Object(ZS-VOS)における大規模拡散モデルの利用について検討する。 ImageNetでトレーニングされた拡散モデルは、ZS-VOSのためにトレーニングされたより大きな、より多様なデータセットよりも優れています。われわれの手法は、高価な画像セグメンテーションデータセットで訓練されたモデルと同等に機能する。
論文参考訳（メタデータ） (2025-04-07T19:58:25Z)
MSEG-VCUQ: Multimodal SEGmentation with Enhanced Vision Foundation Models, Convolutional Neural Networks, and Uncertainty Quantification for High-Speed Video Phase Detection Data [0.0]
高速ビデオ(HSV)位相検出(PD)セグメンテーションは、原子炉、化学処理、電子冷却において不可欠である。従来のセグメンテーションモデルは、マルチモーダルデータにおいてピクセルレベルの精度と一般化の問題に直面している。 MSEG-VCUQは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのビジョンモデルを活用したハイブリッドフレームワークであるVideoSAMを導入した。
論文参考訳（メタデータ） (2024-11-12T00:54:26Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。 SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文参考訳（メタデータ） (2024-08-19T16:13:14Z)
Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文参考訳（メタデータ） (2024-07-31T02:24:53Z)
Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。第1次大規模水中塩分分節データセット(USIS10K)を構築した。本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-06-10T06:17:33Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文参考訳（メタデータ） (2024-04-18T17:59:53Z)
GEM: Boost Simple Network for Glass Surface Segmentation via Vision Foundation Models [7.423981028880871]
ガラスの表面検出は、その透明さと反射特性に固有の曖昧さのために難しい課題である。我々は、既存の2つのビジョン基盤モデル(VFM)の能力をフル活用して、これらの問題を解決することを提案する。我々のGEMは、これらの2つのVFMの助けを借りて、新しい最先端の性能を確立し、2.1%のIoU改善でGlassSemNetを抜いた。
論文参考訳（メタデータ） (2023-07-22T08:37:23Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。