論文の概要: High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark
- arxiv url: http://arxiv.org/abs/2308.08443v2
- Date: Sun, 31 Mar 2024 12:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 15:44:31.035775
- Title: High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark
- Title(参考訳): 2段階のプロンプト拡張による高忠実性湖沼抽出:新しいベースラインの構築とベンチマーク
- Authors: Ben Chen, Xuechao Zou, Kai Li, Yu Zhang, Junliang Xing, Pin Tao,
- Abstract要約: リモートセンシング画像からの湖の抽出は、様々な湖の形状とデータノイズのために複雑な課題である。
本稿では,湖沼周辺に近似的なデータセット構築手法を提案する。
また,2段階のプロンプト強化フレームワークLEPrompterを提案する。
- 参考スコア(独自算出の注目度): 18.399869837003457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lake extraction from remote sensing imagery is a complex challenge due to the varied lake shapes and data noise. Current methods rely on multispectral image datasets, making it challenging to learn lake features accurately from pixel arrangements. This, in turn, affects model learning and the creation of accurate segmentation masks. This paper introduces a prompt-based dataset construction approach that provides approximate lake locations using point, box, and mask prompts. We also propose a two-stage prompt enhancement framework, LEPrompter, with prompt-based and prompt-free stages during training. The prompt-based stage employs a prompt encoder to extract prior information, integrating prompt tokens and image embedding through self- and cross-attention in the prompt decoder. Prompts are deactivated to ensure independence during inference, enabling automated lake extraction without introducing additional parameters and GFlops. Extensive experiments showcase performance improvements of our proposed approach compared to the previous state-of-the-art method. The source code is available at https://github.com/BastianChen/LEPrompter.
- Abstract(参考訳): リモートセンシング画像からの湖の抽出は、様々な湖の形状とデータノイズのために複雑な課題である。
現在の手法はマルチスペクトル画像データセットに依存しており、画素配置からレイクの特徴を正確に学習することは困難である。
これは、モデル学習と正確なセグメンテーションマスクの作成に影響を与える。
本稿では, 点, ボックス, マスクプロンプトを用いて, 近似的な湖沼位置を提供する, プロンプトに基づくデータセット構築手法を提案する。
また,2段階のプロンプト強化フレームワークLEPrompterを提案する。
プロンプトベースのステージでは、プロンプトエンコーダを使用して事前情報を抽出し、プロンプトトークンと、プロンプトデコーダ内の自己およびクロスアテンションによるイメージ埋め込みを統合する。
プロンプトは推論中に独立性を確保するために非活性化され、追加パラメータやGFlopを導入することなく自動的な湖の抽出が可能となる。
大規模実験では,従来の最先端手法と比較して,提案手法の性能改善が見られた。
ソースコードはhttps://github.com/BastianChen/LEPrompter.comで入手できる。
関連論文リスト
- Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Are You Copying My Prompt? Protecting the Copyright of Vision Prompt for VPaaS via Watermark [4.071771108540602]
Visual Prompt Learning (VPL) は、事前訓練されたモデルパラメータの更新を避けることで、リソース消費を大幅に削減する従来の微調整方法とは異なる。
Visual Prompts as a Service (V)の開発者が登場した。
これらの開発者は、認可された顧客に巧妙なプロンプトを提供することで利益を得る。
しかし、大きな欠点はプロンプトのコピーと再配布が簡単であり、V開発者の知的財産権を脅かすことである。
論文 参考訳(メタデータ) (2024-05-24T02:31:03Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model [60.30099369475092]
監視された群衆のカウントは、高価な手作業によるラベリングに大きく依存している。
本稿では,クラウドカウントのための新しい非教師付きフレームワークであるCrowdCLIPを提案する。
CrowdCLIPは、従来の教師なしの最先端カウント手法と比較して、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-09T12:56:54Z) - SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency [51.92434113232977]
本研究は,画像デハージングに有効な深度整合型セルフプロンプトトランスを提案する。
ヘイズ残像とその明確な像の深さが異なるという観測によって動機づけられた。
VQGANに基づくエンコーダ・デコーダネットワークにプロンプト、プロンプト埋め込み、そしてインタプリタを組み込むことにより、より優れた知覚品質を実現することができる。
論文 参考訳(メタデータ) (2023-03-13T11:47:24Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。