論文の概要: High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement:
Establishing a Novel Baseline and Benchmark
- arxiv url: http://arxiv.org/abs/2308.08443v1
- Date: Wed, 16 Aug 2023 15:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:55:46.113070
- Title: High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement:
Establishing a Novel Baseline and Benchmark
- Title(参考訳): 2段階プロンプトエンハンスメントによる高忠実度レイク抽出:新しいベースラインとベンチマークの確立
- Authors: Ben Chen, Xuechao Zou, Kai Li, Yu Zhang, Junliang Xing, Pin Tao
- Abstract要約: 本稿では, ポイント, ボックス, マスクプロンプトを用いて, 近似的な湖沼位置を提供する, 統一的なプロンプトベースデータセット構築手法を提案する。
また,2段階のプロンプト強化フレームワークLEPrompterを提案する。
LePrompterは、追加パラメータやGFLOPを導入することなく、各データセットでmIoUスコアが91.48%、97.43%に達する。
- 参考スコア(独自算出の注目度): 19.496793189521007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction of lakes from remote sensing images is a complex challenge due
to the varied lake shapes and data noise. Current methods rely on multispectral
image datasets, making it challenging to learn lake features accurately from
pixel arrangements. This, in turn, affects model learning and the creation of
accurate segmentation masks. This paper introduces a unified prompt-based
dataset construction approach that provides approximate lake locations using
point, box, and mask prompts. We also propose a two-stage prompt enhancement
framework, LEPrompter, which involves prompt-based and prompt-free stages
during training. The prompt-based stage employs a prompt encoder to extract
prior information, integrating prompt tokens and image embeddings through self-
and cross-attention in the prompt decoder. Prompts are deactivated once the
model is trained to ensure independence during inference, enabling automated
lake extraction. Evaluations on Surface Water and Qinghai-Tibet Plateau Lake
datasets show consistent performance improvements compared to the previous
state-of-the-art method. LEPrompter achieves mIoU scores of 91.48% and 97.43%
on the respective datasets without introducing additional parameters or GFLOPs.
Supplementary materials provide the source code, pre-trained models, and
detailed user studies.
- Abstract(参考訳): リモートセンシング画像からの湖の抽出は,湖の形状やデータノイズが多岐にわたるため,複雑な課題である。
現在の方法はマルチスペクトル画像データセットに依存しているため、湖の特徴を正確にピクセル配置から学ぶことは困難である。
これは、モデル学習と正確なセグメンテーションマスクの作成に影響を与える。
本稿では,ポイント,ボックス,マスクプロンプトを用いて近似湖の位置を提供する,プロンプトに基づくデータセット構築手法を提案する。
また,トレーニング中のプロンプトベースおよびプロンプトフリーステージを含む2段階プロンプト拡張フレームワークleprompterを提案する。
プロンプトベースのステージは、プロンプトエンコーダを使用して、事前情報を抽出し、プロンプトデコーダ内の自己およびクロスアテンションを通じてプロンプトトークンとイメージ埋め込みを統合する。
モデルが推論中に独立性を確保するために訓練されると、プロンプトは非活性化される。
表層水と清海・チベット高原のデータセットの評価は,従来の最先端手法と比較して一貫した性能向上を示した。
LEPrompterは、追加パラメータやGFLOPを導入することなく、各データセットでmIoUスコアが91.48%、97.43%に達する。
補助材料はソースコード、事前訓練されたモデル、詳細なユーザー研究を提供する。
関連論文リスト
- Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Are You Copying My Prompt? Protecting the Copyright of Vision Prompt for VPaaS via Watermark [4.071771108540602]
Visual Prompt Learning (VPL) は、事前訓練されたモデルパラメータの更新を避けることで、リソース消費を大幅に削減する従来の微調整方法とは異なる。
Visual Prompts as a Service (V)の開発者が登場した。
これらの開発者は、認可された顧客に巧妙なプロンプトを提供することで利益を得る。
しかし、大きな欠点はプロンプトのコピーと再配布が簡単であり、V開発者の知的財産権を脅かすことである。
論文 参考訳(メタデータ) (2024-05-24T02:31:03Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model [60.30099369475092]
監視された群衆のカウントは、高価な手作業によるラベリングに大きく依存している。
本稿では,クラウドカウントのための新しい非教師付きフレームワークであるCrowdCLIPを提案する。
CrowdCLIPは、従来の教師なしの最先端カウント手法と比較して、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-09T12:56:54Z) - SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency [51.92434113232977]
本研究は,画像デハージングに有効な深度整合型セルフプロンプトトランスを提案する。
ヘイズ残像とその明確な像の深さが異なるという観測によって動機づけられた。
VQGANに基づくエンコーダ・デコーダネットワークにプロンプト、プロンプト埋め込み、そしてインタプリタを組み込むことにより、より優れた知覚品質を実現することができる。
論文 参考訳(メタデータ) (2023-03-13T11:47:24Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。