論文の概要: Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.04265v5
- Date: Thu, 18 Apr 2024 08:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:19:22.021681
- Title: Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
- Title(参考訳): より強く、より少ない、そして優れた:ドメイン一般化セマンティックセマンティックセグメンテーションのためのハーネスングビジョン基礎モデル
- Authors: Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng,
- Abstract要約: 私たちはまず、ドメイン一般化セマンティック(DGSS)の文脈における様々なビジョン基礎モデル(VFM)を評価し、活用する。
DGSS にパラメータ効率よく VFM を利用するための頑健な微調整手法,すなわち Rein を導入する。
トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率よく微調整し、完全なパラメータの微調整を驚くほど上回った。
- 参考スコア(独自算出の注目度): 16.12797115277337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 78.4% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git.
- Abstract(参考訳): 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。
より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための頑健な微調整手法、すなわちReinを導入する。
トレーニング可能なトークンのセット上に構築され、それぞれ異なるインスタンスにリンクされ、Reinは各レイヤからバックボーン内の次のレイヤへのフィーチャーマップを正確に洗練し、転送する。
このプロセスは、単一の画像内で異なるカテゴリに対して多様な精細化を発生させる。
トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率よく微調整し、完全なパラメータの微調整を驚くほど上回った。
さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。
注目すべきなのは、凍結したバックボーン内のトレーニング可能なパラメータの1%に過ぎず、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで78.4%のmIoUを達成したことだ。
関連論文リスト
- Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images [22.054023867495722]
クラウドセグメンテーションはリモートセンシング画像解釈において重要な課題である。
本稿では,クラウドセグメンテーションの精度とロバスト性を高めるために,Cloud-Adapterと呼ばれるパラメータ効率適応手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:37:39Z) - Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models [19.752712857873043]
本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。
モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。
SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
論文 参考訳(メタデータ) (2024-09-07T10:21:03Z) - No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。
trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。
trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文 参考訳(メタデータ) (2024-05-30T15:57:19Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - More than the Sum of Its Parts: Ensembling Backbone Networks for
Few-Shot Segmentation [49.090592800481616]
異なるバックボーンから特徴を融合させることで、よりリッチな視覚的特徴を捉えることができるかどうかを検討する。
Independent Voting と Feature Fusion という2つのアンサンブル手法を提案し,比較する。
当社のアプローチは、ワンショットの学習シナリオに挑戦しても、従来の単一バックボーンPANetを標準ベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-02-09T18:01:15Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Adaptive Recursive Circle Framework for Fine-grained Action Recognition [95.51097674917851]
ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。
既存のほとんどのメソッドは、純粋なフィードフォワード方式でレイヤの特徴を生成する。
本稿では,純粋なフィードフォワード層のための微細なデコレータであるAdaptive Recursive Circleフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-25T14:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。