論文の概要: SimCMF: A Simple Cross-modal Fine-tuning Strategy from Vision Foundation Models to Any Imaging Modality
- arxiv url: http://arxiv.org/abs/2411.18669v1
- Date: Wed, 27 Nov 2024 16:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:29.543685
- Title: SimCMF: A Simple Cross-modal Fine-tuning Strategy from Vision Foundation Models to Any Imaging Modality
- Title(参考訳): SimCMF: ビジョンファウンデーションモデルからあらゆるイメージングモダリティまで、シンプルなクロスモーダルファインチューニング戦略
- Authors: Chenyang Lei, Liyi Chen, Jun Cen, Xiao Chen, Zhen Lei, Felix Heide, Qifeng Chen, Zhaoxiang Zhang,
- Abstract要約: 大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
様々な分野のセンサーが、同じ規模の自然画像を集め、強力な基礎モデルを訓練することは極めて困難である。
本研究は、自然なRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性の他の画像モダリティへのクロスモーダル微調整という重要な問題を研究するための、シンプルで効果的なフレームワークであるSimCMFを提案する。
- 参考スコア(独自算出の注目度): 116.54152244934775
- License:
- Abstract: Foundation models like ChatGPT and Sora that are trained on a huge scale of data have made a revolutionary social impact. However, it is extremely challenging for sensors in many different fields to collect similar scales of natural images to train strong foundation models. To this end, this work presents a simple and effective framework, SimCMF, to study an important problem: cross-modal fine-tuning from vision foundation models trained on natural RGB images to other imaging modalities of different physical properties (e.g., polarization). In SimCMF, we conduct a thorough analysis of different basic components from the most naive design and ultimately propose a novel cross-modal alignment module to address the modality misalignment problem. We apply SimCMF to a representative vision foundation model Segment Anything Model (SAM) to support any evaluated new imaging modality. Given the absence of relevant benchmarks, we construct a benchmark for performance evaluation. Our experiments confirm the intriguing potential of transferring vision foundation models in enhancing other sensors' performance. SimCMF can improve the segmentation performance (mIoU) from 22.15% to 53.88% on average for evaluated modalities and consistently outperforms other baselines. The code is available at https://github.com/mt-cly/SimCMF
- Abstract(参考訳): 大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
しかし、様々な分野のセンサーが同じ規模の自然画像を収集し、強力な基礎モデルを訓練することは極めて困難である。
この目的のために、本研究では、自然なRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性(例えば偏光)の他の画像モダリティへのクロスモーダル微調整という、単純で効果的なフレームワークであるSimCMFを提案する。
そこで,SimCMFでは,最も単純な設計から異なる基本成分を網羅的に解析し,結局,モダリティの不整合問題に対処する新たな相互アライメントモジュールを提案する。
我々は、SimCMFを代表的視覚基盤モデルセグメンツ・ア・シング・モデル(SAM)に適用し、評価された新しい画像モダリティをサポートする。
関連するベンチマークがないため、性能評価のためのベンチマークを構築します。
本実験では,他のセンサの性能向上にともなう視覚基盤モデルの伝達の可能性を確認した。
SimCMFは、評価されたモダリティに対して平均22.15%から53.88%のセグメンテーション性能(mIoU)を改善し、他のベースラインを一貫して上回る。
コードはhttps://github.com/mt-cly/SimCMFで入手できる。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality [136.82569085134554]
大量のデータを訓練するChatGPTやSoraのような基礎的なモデルは、革命的な社会的影響をもたらしている。
様々な分野のセンサーが、同じ規模の自然画像を集め、強力な基礎モデルを訓練することは極めて困難である。
この研究は、自然のRGB画像に基づいて訓練された視覚基盤モデルから、異なる物理特性の他の画像モダリティへの転送可能性という、オープンな問題を研究するための、シンプルで効果的なフレームワークであるSimMATを提示する。
論文 参考訳(メタデータ) (2024-09-12T14:38:21Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation [43.759808066264334]
本稿では,アンカー正規化と低ランク微調整を併用した弱教師付き自己学習アーキテクチャを提案する。
本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。
論文 参考訳(メタデータ) (2023-12-06T13:59:22Z) - A Simple and Robust Framework for Cross-Modality Medical Image
Segmentation applied to Vision Transformers [0.0]
単一条件モデルを用いて複数モードの公平な画像分割を実現するための簡単なフレームワークを提案する。
本研究の枠組みは,マルチモーダル全心条件課題において,他のモダリティセグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T09:51:44Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。