論文の概要: An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation
- arxiv url: http://arxiv.org/abs/2409.09530v1
- Date: Sat, 14 Sep 2024 21:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:27:38.554638
- Title: An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation
- Title(参考訳): ロバスト画像分割のための拡張型モデル再適応フレームワーク
- Authors: Zheming Zuo, Joseph Smith, Jonathan Stonehouse, Boguslaw Obara,
- Abstract要約: セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
- 参考スコア(独自算出の注目度): 0.799543372823325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image segmentation is a crucial task in computer vision, with wide-ranging applications in industry. The Segment Anything Model (SAM) has recently attracted intensive attention; however, its application in industrial inspection, particularly for segmenting commercial anti-counterfeit codes, remains challenging. Unlike open-source datasets, industrial settings often face issues such as small sample sizes and complex textures. Additionally, computational cost is a key concern due to the varying number of trainable parameters. To address these challenges, we propose an Augmentation-based Model Re-adaptation Framework (AMRF). This framework leverages data augmentation techniques during training to enhance the generalisation of segmentation models, allowing them to adapt to newly released datasets with temporal disparity. By observing segmentation masks from conventional models (FCN and U-Net) and a pre-trained SAM model, we determine a minimal augmentation set that optimally balances training efficiency and model performance. Our results demonstrate that the fine-tuned FCN surpasses its baseline by 3.29% and 3.02% in cropping accuracy, and 5.27% and 4.04% in classification accuracy on two temporally continuous datasets. Similarly, the fine-tuned U-Net improves upon its baseline by 7.34% and 4.94% in cropping, and 8.02% and 5.52% in classification. Both models outperform the top-performing SAM models (ViT-Large and ViT-Base) by an average of 11.75% and 9.01% in cropping accuracy, and 2.93% and 4.83% in classification accuracy, respectively.
- Abstract(参考訳): 画像のセグメンテーションはコンピュータビジョンにおいて重要な課題であり、業界における幅広い応用がある。
SAM(Seegment Anything Model)は近年注目されているが、特に商用の反偽造コードのセグメンテーションにおける産業検査への応用は依然として困難である。
オープンソースのデータセットとは異なり、産業環境はしばしば小さなサンプルサイズや複雑なテクスチャといった問題に直面している。
さらに、トレーニング可能なパラメータの数が異なるため、計算コストが重要な問題となっている。
これらの課題に対処するため、Augmentation-based Model Re-adaptation Framework (AMRF)を提案する。
このフレームワークは、トレーニング中にデータ拡張技術を活用してセグメンテーションモデルの一般化を強化し、時間的差異のある新たにリリースされたデータセットに適応できるようにする。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
同様に、細調整されたU-Netはベースラインを7.34%、収穫で4.94%、分類で8.02%、分類で5.52%改善する。
どちらのモデルも、平均11.75%と9.01%の収穫精度、2.93%と4.83%の分類精度で最高のSAMモデル(ViT-LargeとViT-Base)を上回っている。
関連論文リスト
- Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes [12.36950265154199]
本稿では, MCA-SAM という新しいマルチスケールコントラスト適応学習手法を提案する。
MCA-SAMはトークンレベルとサンプルレベルの両方で、巧妙に設計された対照的な学習フレームワークを通じて、アダプタのパフォーマンスを向上させる。
MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的な領域で上回る結果が得られた。
論文 参考訳(メタデータ) (2024-08-12T06:23:10Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Fully Attentional Networks with Self-emerging Token Labeling [108.53230681047617]
我々は、意味的に意味のあるパッチトークンラベルを生成するためにFANトークンラベル(FAN-TL)をトレーニングし、その後、トークンラベルとオリジナルクラスラベルの両方を使用するFAN学生モデルトレーニングステージを作成した。
提案したSTLフレームワークでは,ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し,余分なデータを使用しないImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端設定を行う。
論文 参考訳(メタデータ) (2024-01-08T12:14:15Z) - A Re-Parameterized Vision Transformer (ReVT) for Domain-Generalized
Semantic Segmentation [24.8695123473653]
セマンティックセグメンテーションのためのドメイン一般化のための拡張駆動型アプローチを提案する。
我々は、小型モデルで47.3%(先行技術:46.3%)、一般的なベンチマークデータセットで中型モデルで50.1%(先行技術:47.8%)の最先端mIoU性能を達成する。
論文 参考訳(メタデータ) (2023-08-25T12:06:00Z) - Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文 参考訳(メタデータ) (2023-07-26T11:44:44Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Pre-processing training data improves accuracy and generalisability of
convolutional neural network based landscape semantic segmentation [2.8747398859585376]
オーストラリア,クイーンズランド州ウェット・トロピクスとアザートン・テーブルランズ上空の航空写真における土地利用土地被覆(LULC)の特徴のセマンティックセグメンテーションとCNN訓練のための様々なデータ準備方法を試行した。
これは、さまざまなトレーニングパッチ選択サンプリング戦略、パッチとバッチサイズ、データ拡張とスケーリングの試行とランキングによって実施された。
我々は、2018年のトレーニング画像上で5つのモデルを訓練し、2015年の試験画像に適用し、出力LULC分類により平均ユーザ精度0.84、生産精度0.87を達成した。
論文 参考訳(メタデータ) (2023-04-28T04:38:45Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Consistency and Monotonicity Regularization for Neural Knowledge Tracing [50.92661409499299]
人間の知識獲得を追跡する知識追跡(KT)は、オンライン学習と教育におけるAIの中心的なコンポーネントです。
本稿では, 新たなデータ拡張, 代替, 挿入, 削除の3種類と, 対応する正規化損失を提案する。
さまざまなKTベンチマークに関する広範な実験は、私たちの正規化スキームがモデルのパフォーマンスを一貫して改善することを示しています。
論文 参考訳(メタデータ) (2021-05-03T02:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。