論文の概要: Adapting Segment Anything Model (SAM) to Experimental Datasets via Fine-Tuning on GAN-based Simulation: A Case Study in Additive Manufacturing
- arxiv url: http://arxiv.org/abs/2412.11381v1
- Date: Mon, 16 Dec 2024 02:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:28.876442
- Title: Adapting Segment Anything Model (SAM) to Experimental Datasets via Fine-Tuning on GAN-based Simulation: A Case Study in Additive Manufacturing
- Title(参考訳): GANシミュレーションによる実験データセットへのセグメンテーションモデル(SAM)の適用:添加品製造を事例として
- Authors: Anika Tabassum, Amirkoushyar Ziabari,
- Abstract要約: Segment Anything Model (SAM) は汎用画像セグメンテーション用に設計されている。
本研究では,添加物製造部品の工業用X線CT検査におけるSAMの適用と限界について検討する。
本稿では,パラメータ効率の高い手法,特にConv-LoRaを用いてSAMを材料固有のデータセットに適用するための微調整手法を提案する。
- 参考スコア(独自算出の注目度): 1.8547557605937304
- License:
- Abstract: Industrial X-ray computed tomography (XCT) is a powerful tool for non-destructive characterization of materials and manufactured components. XCT commonly accompanied by advanced image analysis and computer vision algorithms to extract relevant information from the images. Traditional computer vision models often struggle due to noise, resolution variability, and complex internal structures, particularly in scientific imaging applications. State-of-the-art foundational models, like the Segment Anything Model (SAM)-designed for general-purpose image segmentation-have revolutionized image segmentation across various domains, yet their application in specialized fields like materials science remains under-explored. In this work, we explore the application and limitations of SAM for industrial X-ray CT inspection of additive manufacturing components. We demonstrate that while SAM shows promise, it struggles with out-of-distribution data, multiclass segmentation, and computational efficiency during fine-tuning. To address these issues, we propose a fine-tuning strategy utilizing parameter-efficient techniques, specifically Conv-LoRa, to adapt SAM for material-specific datasets. Additionally, we leverage generative adversarial network (GAN)-generated data to enhance the training process and improve the model's segmentation performance on complex X-ray CT data. Our experimental results highlight the importance of tailored segmentation models for accurate inspection, showing that fine-tuning SAM on domain-specific scientific imaging data significantly improves performance. However, despite improvements, the model's ability to generalize across diverse datasets remains limited, highlighting the need for further research into robust, scalable solutions for domain-specific segmentation tasks.
- Abstract(参考訳): 産業用X線CT(Industrial X-ray Computed Tomography)は、材料や製造部品の非破壊的特性評価のための強力なツールである。
XCTは通常、画像から関連する情報を抽出する高度な画像解析とコンピュータビジョンアルゴリズムを伴っている。
従来のコンピュータビジョンモデルは、ノイズ、解像度のばらつき、複雑な内部構造、特に科学画像の応用のためにしばしば苦労する。
SAM(Segment Anything Model)のような最先端の基礎モデルは、汎用的なイメージセグメンテーションのために設計された。
本研究では,添加物製造部品の工業用X線CT検査におけるSAMの適用と限界について検討する。
SAMは将来性を示すが,細調整時の分配外データ,マルチクラスセグメンテーション,計算効率に苦慮している。
これらの課題に対処するために,パラメータ効率の高い手法,特にConv-LoRaを用いた微調整手法を提案し,SAMを材料固有のデータセットに適用する。
さらに, GAN(Generative Adversarial Network)生成データを活用し, トレーニングプロセスの強化と, 複雑なX線CTデータに対するモデルのセグメンテーション性能の向上を図る。
実験の結果,精密検査のためのセグメンテーションモデルの重要性が強調され,ドメイン固有の科学的画像データに対する微調整SAMが性能を著しく向上することが確認された。
しかし、改善されているにもかかわらず、モデルがさまざまなデータセットにまたがって一般化する能力は限定的であり、ドメイン固有のセグメンテーションタスクのための堅牢でスケーラブルなソリューションに関するさらなる研究の必要性を強調している。
関連論文リスト
- Deep learning for fast segmentation and critical dimension metrology & characterization enabling AR/VR design and fabrication [0.0]
我々は,電子顕微鏡画像の多種多様なデータセットを用いて,事前訓練されたセグメンテーションモデル(SAM)の微調整について報告する。
低ランク適応(LoRA)のような手法を用いて、トレーニング時間を短縮し、ROI抽出の精度を高める。
モデルが見えない画像に一般化する能力はゼロショット学習を促進し、CD抽出モデルをサポートする。
論文 参考訳(メタデータ) (2024-09-20T23:54:58Z) - Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T11:41:35Z) - Benchmarking Embedding Aggregation Methods in Computational Pathology: A Clinical Data Perspective [32.93871326428446]
人工知能(AI)の最近の進歩は、医療画像と計算病理に革命をもたらしている。
デジタル全スライド画像(WSI)の解析における一定の課題は、何万ものタイルレベルの画像埋め込みをスライドレベルの表現に集約する問題である。
本研究は,9つの臨床的課題を対象とした10種類のスライドレベルのアグリゲーション手法のベンチマーク分析を行った。
論文 参考訳(メタデータ) (2024-07-10T17:00:57Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Domain Shift in Computer Vision models for MRI data analysis: An
Overview [64.69150970967524]
機械学習とコンピュータビジョン手法は、医用画像解析において優れた性能を示している。
しかし、現在臨床応用はごくわずかである。
異なるソースや取得ドメインのデータへのモデルの不適切な転送性は、その理由の1つです。
論文 参考訳(メタデータ) (2020-10-14T16:34:21Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。