論文の概要: SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality
- arxiv url: http://arxiv.org/abs/2409.08083v1
- Date: Thu, 12 Sep 2024 14:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:17:53.631206
- Title: SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality
- Title(参考訳): SimMAT: ビジョンファウンデーションモデルからあらゆるイメージモダリティへの移行可能性を探る
- Authors: Chenyang Lei, Liyi Chen, Jun Cen, Xiao Chen, Zhen Lei, Felix Heide, Ziwei Liu, Qifeng Chen, Zhaoxiang Zhang,
- Abstract要約: 大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
様々な分野のセンサーが、同じ規模の自然画像を集め、強力な基礎モデルを訓練することは極めて困難である。
この研究は、自然のRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性の他の画像モダリティへの転送可能性という、オープンな問題を研究するための、シンプルで効果的なフレームワークであるSimMATを提示する。
- 参考スコア(独自算出の注目度): 136.82569085134554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models like ChatGPT and Sora that are trained on a huge scale of data have made a revolutionary social impact. However, it is extremely challenging for sensors in many different fields to collect similar scales of natural images to train strong foundation models. To this end, this work presents a simple and effective framework SimMAT to study an open problem: the transferability from vision foundation models trained on natural RGB images to other image modalities of different physical properties (e.g., polarization). SimMAT consists of a modality-agnostic transfer layer (MAT) and a pretrained foundation model. We apply SimMAT to a representative vision foundation model Segment Anything Model (SAM) to support any evaluated new image modality. Given the absence of relevant benchmarks, we construct a new benchmark to evaluate the transfer learning performance. Our experiments confirm the intriguing potential of transferring vision foundation models in enhancing other sensors' performance. Specifically, SimMAT can improve the segmentation performance (mIoU) from 22.15% to 53.88% on average for evaluated modalities and consistently outperforms other baselines. We hope that SimMAT can raise awareness of cross-modal transfer learning and benefit various fields for better results with vision foundation models.
- Abstract(参考訳): 大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
しかし、様々な分野のセンサーが同じ規模の自然画像を収集し、強力な基礎モデルを訓練することは極めて困難である。
この目的のために、本研究では、自然のRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性(例えば、偏光)の他の画像モダリティへの転送可能性という、オープンな問題を研究するための、シンプルで効果的なフレームワークSimMATを提案する。
SimMATは、モダリティ非依存転写層(MAT)と事前訓練された基礎モデルから構成される。
我々は,SimMATを代表的視覚基盤モデルセグメンション・アプライシング・モデル(SAM)に適用し,評価された新しい画像モダリティをサポートする。
関連するベンチマークがないため、転送学習性能を評価するための新しいベンチマークを構築する。
本実験では,他のセンサの性能向上にともなう視覚基盤モデルの伝達の可能性を確認した。
具体的には、SimMATは、評価されたモダリティに対して平均22.15%から53.88%のセグメンテーション性能(mIoU)を改善し、他のベースラインを一貫して上回る。
我々は,SimMATがクロスモーダルトランスファー学習の認知を高め,ビジョン基礎モデルによるより良い結果を得るために様々な分野に利益をもたらすことを期待する。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - sim2real: Cardiac MR Image Simulation-to-Real Translation via
Unsupervised GANs [0.4433315630787158]
解剖学的に異なる仮想XCAT被験者に対して画像シミュレーションを行う。
画像リアリズムを改善するためのSIM2real Translation Networkを提案する。
我々のユーザビリティ実験は、sim2realデータにより、トレーニングデータを増強し、セグメンテーションアルゴリズムの性能を高める可能性があることを示唆している。
論文 参考訳(メタデータ) (2022-08-09T16:06:06Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z) - Contrastive Learning Meets Transfer Learning: A Case Study In Medical
Image Analysis [2.4050073971195003]
注釈付き医療画像は、ドメインの知識とプライバシーの制約によって制限されるため、ラベル付き自然画像よりも稀である。
転校とコントラスト学習の最近の進歩は、異なる視点からこれらの問題に取り組む効果的な解決策を提供してきた。
遅い収束速度が現代のコントラスト学習アプローチの重要な制限であることを考えると、トランスファー学習によるコントラスト学習を加速させるのは魅力的です。
論文 参考訳(メタデータ) (2021-03-04T17:19:54Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。