論文の概要: Prompt-Matched Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2208.10159v1
- Date: Mon, 22 Aug 2022 09:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:35:30.636014
- Title: Prompt-Matched Semantic Segmentation
- Title(参考訳): 素早い一致意味セグメンテーション
- Authors: Lingbo Liu, Bruce X.B. Yu, Jianlong Chang, Qi Tian, Chang-Wen Chen
- Abstract要約: 本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
- 参考スコア(独自算出の注目度): 96.99924127527002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to explore how to effectively and efficiently
adapt pre-trained foundation models to various downstream tasks of image
semantic segmentation. Conventional methods usually fine-tuned the whole
networks for each specific dataset and it was burdensome to store the massive
parameters of these networks. A few recent works attempted to insert some
trainable parameters into the frozen network to learn visual prompts for
efficient tuning. However, these works significantly modified the original
structure of standard modules, making them inoperable on many existing
high-speed inference devices, where standard modules and their parameters have
been embedded. To facilitate prompt-based semantic segmentation, we propose a
novel Inter-Stage Prompt-Matched Framework, which maintains the original
structure of the foundation model while generating visual prompts adaptively
for task-oriented tuning. Specifically, the pre-trained model is first divided
into multiple stages, and their parameters are frozen and shared for all
semantic segmentation tasks. A lightweight module termed Semantic-aware Prompt
Matcher is then introduced to hierarchically interpolate between two stages to
learn reasonable prompts for each specific task under the guidance of interim
semantic maps. In this way, we can better stimulate the pre-trained knowledge
of the frozen model to learn semantic concepts effectively on downstream
datasets. Extensive experiments conducted on five benchmarks show that the
proposed method can achieve a promising trade-off between parameter efficiency
and performance effectiveness.
- Abstract(参考訳): 本研究の目的は,事前学習した基礎モデルを画像意味セグメンテーションの下流の様々なタスクに効果的かつ効率的に適応する方法を検討することである。
従来の手法は通常、特定のデータセットごとにネットワーク全体を微調整し、これらのネットワークの膨大なパラメータを保存するのは重荷だった。
いくつかの最近の研究は、効率的なチューニングのために視覚的なプロンプトを学ぶために、トレーニング可能なパラメータを凍結ネットワークに挿入しようと試みた。
しかし、これらの作業は標準モジュールの本来の構造を大きく変更し、標準モジュールとそのパラメータが埋め込まれた多くの既存の高速推論デバイスでは動作不能になった。
そこで本稿では,タスク指向チューニングのための視覚的プロンプトを適応的に生成しながら,基礎モデルの本来の構造を維持した新しいステージ間プロンプトマッチングフレームワークを提案する。
具体的には、事前訓練されたモデルをまず複数のステージに分割し、そのパラメータを凍結し、すべてのセマンティックセグメンテーションタスクで共有する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2段階間の階層的な補間を行い、中間意味写像のガイダンスの下で各タスクの適切なプロンプトを学習する。
このようにして、凍結モデルの事前学習された知識を刺激し、下流のデータセット上で意味概念を効果的に学習することができる。
5つのベンチマークで行った実験により,提案手法はパラメータ効率と性能効率のトレードオフを期待できることを示す。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Unfreeze with Care: Space-Efficient Fine-Tuning of Semantic Parsing
Models [5.893781742558463]
本研究は2つの有望な手法であるプレフィックスチューニングとバイアス長期チューニングについて,特に意味解析について検討する。
2つの異なるセマンティック解析データセットで比較し、また、ショット数と従来のデータ設定の両方で、フルおよび部分的な微調整と比較します。
プレフィックスチューニングはセマンティック解析タスクを棚から取り出すのに役立ちませんが、特別なトークン埋め込みを追加して修正します。
論文 参考訳(メタデータ) (2022-03-05T04:30:03Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。