論文の概要: Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data
- arxiv url: http://arxiv.org/abs/2506.24039v1
- Date: Mon, 30 Jun 2025 16:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.160055
- Title: Foundation Models for Zero-Shot Segmentation of Scientific Images without AI-Ready Data
- Title(参考訳): AI対応データのない科学画像のゼロショットセグメンテーションのための基礎モデル
- Authors: Shubhabrata Mukherjee, Jack Lang, Obeen Kwon, Iryna Zenyuk, Valerie Brogden, Adam Weber, Daniela Ushizima,
- Abstract要約: Zenesisは、科学画像のデータ準備によって生じる障壁を最小限に抑えるために設計された、包括的なノーコードインタラクティブプラットフォームである。
我々は、生の科学データに対するゼロショット操作を可能にする軽量なマルチモーダル適応技術を開発した。
この結果は,特に高品質なアノテートデータセットが利用できない分野において,Zenesisは科学的応用の強力なツールであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot and prompt-based technologies capitalized on using frequently occurring images to transform visual reasoning tasks, which explains why such technologies struggle with valuable yet scarce scientific image sets. In this work, we propose Zenesis, a comprehensive no-code interactive platform designed to minimize barriers posed by data readiness for scientific images. We develop lightweight multi-modal adaptation techniques that enable zero-shot operation on raw scientific data, along with human-in-the-loop refinement and heuristic-based temporal enhancement options. We demonstrate the performance of our approach through comprehensive comparison and validation on challenging Focused Ion Beam Scanning Electron Microscopy (FIB-SEM) data of catalyst-loaded membranes. Zenesis significantly outperforms baseline methods, achieving an average accuracy of 0.947, an Intersection over Union (IOU) of 0.858, and a Dice score of 0.923 for amorphous catalyst samples and accuracy of 0.987, an IOU of 0.857, and a Dice score of 0.923 for crystalline samples. These results mark a substantial improvement over traditional methods like Otsu thresholding and even advanced models like Segment Anything Model (SAM) when used in isolation. Our results demonstrate that Zenesis is a powerful tool for scientific applications, particularly in fields where high-quality annotated datasets are unavailable, accelerating accurate analysis of experimental imaging.
- Abstract(参考訳): ゼロショットとプロンプトベースの技術は、頻繁に発生する画像を使って視覚的推論タスクを変換する。
本研究では,科学画像のデータの可読性による障壁を最小限に抑えるための,包括的ノンコード対話型プラットフォームZenesisを提案する。
我々は,人間のループ内改良とヒューリスティックに基づく時間的拡張オプションとともに,生の科学データに対するゼロショット操作を可能にする軽量なマルチモーダル適応技術を開発した。
触媒担持膜の集束イオンビーム走査電子顕微鏡(FIB-SEM)データに対する包括的比較と検証により,本手法の有効性を実証した。
ゼネシスは, 平均精度0.947, 一致率0.858, アモルファス触媒試料のDiceスコア0.923, 触媒試料のIOU0.957, 結晶試料のDiceスコア0.923,
これらの結果は、Ostoのしきい値設定のような従来の方法や、Segment Anything Model(SAM)のような先進的なモデルよりも大幅に改善されている。
以上の結果から,Zenesisは特に高品質なアノテートデータセットが利用できない分野において,科学的応用のための強力なツールであり,実験画像の正確な解析を加速することが示された。
関連論文リスト
- Physics Informed Generative AI Enabling Labour Free Segmentation For Microscopy Analysis [3.3176565054468714]
本稿では、シミュレーションと現実のギャップを埋めることのできる、労働自由化のための新しい枠組みを提案する。
我々は、不対向画像画像変換にCycleGAN(Cycle-Consistent Generative Adversarial Network)を用いる。
この合成データに特化して訓練されたU-Netモデルは、目に見えない実験画像に展開する際、顕著な一般化を示した。
論文 参考訳(メタデータ) (2026-02-02T06:36:06Z) - XDen-1K: A Density Field Dataset of Real-World Objects [48.479432547763025]
実世界の物理的特性推定のために設計された最初のデータセットであるXDen-1Kを紹介する。
このデータセットの中核は、148のカテゴリにまたがる1,000の現実世界のオブジェクトで構成されている。
スパースX線ビューから各オブジェクトの高忠実度体積密度場を復元する新しい最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-11T14:15:42Z) - Zero-Shot Image Anomaly Detection Using Generative Foundation Models [2.241618130319058]
本研究は,意味的異常検出のための基礎的ツールとしてスコアベース生成モデルの利用について検討する。
スタインスコアの誤差を解析することにより,各ターゲットデータセットの再学習を必要とせず,異常サンプルを識別する新しい手法を提案する。
このアプローチは最先端よりも改善され、ひとつのデータセット — CelebA -- 上で単一のモデルをトレーニングすることに依存しています。
論文 参考訳(メタデータ) (2025-07-30T13:56:36Z) - Synthesizing Reality: Leveraging the Generative AI-Powered Platform Midjourney for Construction Worker Detection [0.3011426942929757]
本研究では, 建設作業者検出に適した画像合成手法を提案する。
このアプローチでは、3000の異なるプロンプトを定式化することにより、12,000の合成画像のコレクションを生成する。
実画像データセットの評価は有望な結果を得た。
論文 参考訳(メタデータ) (2025-07-17T15:35:27Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - HistoART: Histopathology Artifact Detection and Reporting Tool [37.31105955164019]
ワイルスライドイメージング(WSI)は、組織標本の詳細な高分解能検査のために広く用いられている。
WSIは、スライドの準備とスキャンの間に導入されたアーティファクトに弱いままです。
本稿では,WSIに対する3つのロバストなアーティファクト検出手法を提案し,比較する。
論文 参考訳(メタデータ) (2025-06-23T17:22:19Z) - Appeal prediction for AI up-scaled Images [45.61706071739717]
136のベースイメージと5つの異なるアップスケーリング手法を用いて構築したデータセットについて述べる。
その結果,Real-ESRGANとBSRGANが最適であることが示唆された。
これに加えて,最先端画像の魅力と品質モデルの評価を行ったが,どのモデルも高い予測性能を示しなかった。
論文 参考訳(メタデータ) (2025-02-19T13:45:24Z) - Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms [60.35639972035727]
公開されている注釈付きデータセットの欠如は、堅牢で機械学習駆動のセグメンテーションアルゴリズムの開発を妨げている。
SMILE-UHURAチャレンジは、7T MRIで取得したTime-of-Flightアンジオグラフィーの注釈付きデータセットを提供することで、公開されている注釈付きデータセットのギャップに対処する。
Diceスコアは、それぞれのデータセットで0.838 $pm$0.066と0.716 $pm$ 0.125まで到達し、平均パフォーマンスは0.804 $pm$ 0.15までになった。
論文 参考訳(メタデータ) (2024-11-14T17:06:00Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Distributional Drift Detection in Medical Imaging with Sketching and Fine-Tuned Transformer [2.7552551107566137]
本稿では,CT-Scan医療画像における分布のドリフトを検出するための,高精度かつ高感度なアプローチを提案する。
我々は,リアルタイム異常検出のための堅牢なベースラインライブラリモデルを開発し,画像の効率的な比較を可能にした。
マンモグラフィーをケーススタディとして,訓練済みのビジョントランスモデルを微調整し,関連する特徴を抽出した。
論文 参考訳(メタデータ) (2024-08-15T23:46:37Z) - Accelerating Domain-Aware Electron Microscopy Analysis Using Deep Learning Models with Synthetic Data and Image-Wide Confidence Scoring [0.0]
我々は物理に基づく合成画像とデータ生成装置を作成し、その結果、同等の精度(0.86)、リコール(0.63)、F1スコア(0.71)、エンジニアリング特性予測(R2=0.82)を実現する機械学習モデルを得た。
本研究は,合成データがMLの人間依存を排除し,画像毎に多くの特徴を検出する必要がある場合に,ドメイン認識の手段を提供することを示す。
論文 参考訳(メタデータ) (2024-08-02T20:15:15Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - Early Diagnosis of Retinal Blood Vessel Damage via Deep Learning-Powered
Collective Intelligence Models [0.3670422696827525]
Swarmアルゴリズムのパワーは、タスクに最適なモデルを提供するために、畳み込み層、プーリング層、正規化層の様々な組み合わせを探すために使用される。
最高のTDCNモデルは90.3%、AUC ROCは0.956、Cohenスコアは0.967である。
論文 参考訳(メタデータ) (2022-10-17T21:38:38Z) - Robust deep learning for eye fundus images: Bridging real and synthetic data for enhancing generalization [0.8599177028761124]
この研究は、合成眼底画像を生成するために10の異なるGANアーキテクチャをAMDなしで比較する。
StyleGAN2は最も低いFrechet Inception Distance(166.17)に達し、臨床医は実際の画像と合成画像とを正確に区別できなかった。
精度はテストセットで82.8%、STAREデータセットで81.3%であり、モデルの一般化可能性を示している。
論文 参考訳(メタデータ) (2022-03-25T18:42:20Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - SCREENet: A Multi-view Deep Convolutional Neural Network for
Classification of High-resolution Synthetic Mammographic Screening Scans [3.8137985834223502]
本研究では,高分解能合成マンモグラム解析のための多視点深層学習手法の開発と評価を行う。
画像解像度とトレーニングセットサイズが精度に与える影響を評価する。
論文 参考訳(メタデータ) (2020-09-18T00:12:33Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。