Fugu-MT 論文翻訳(概要): DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions

論文の概要: DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions

arxiv url: http://arxiv.org/abs/2310.04181v2
Date: Wed, 27 Mar 2024 02:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 22:52:43.097874
Title: DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions
Title（参考訳）: ディフプロンプター : 副次的条件における意味分離のための識別不能視覚プロンプター
Authors: Sanket Kalwar, Mihir Ungarala, Shruti Jain, Aaron Monis, Krishna Reddy Konda, Sourav Garg, K Madhava Krishna,
Abstract要約: DiffPrompterは、視覚的かつ潜時的な新しいプロンプト機構である。提案した$nabla$HFC画像処理ブロックは,特に悪天候条件下では優れている。
参考スコア（独自算出の注目度）: 14.52296033767276
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Semantic segmentation in adverse weather scenarios is a critical task for autonomous driving systems. While foundation models have shown promise, the need for specialized adaptors becomes evident for handling more challenging scenarios. We introduce DiffPrompter, a novel differentiable visual and latent prompting mechanism aimed at expanding the learning capabilities of existing adaptors in foundation models. Our proposed $\nabla$HFC image processing block excels particularly in adverse weather conditions, where conventional methods often fall short. Furthermore, we investigate the advantages of jointly training visual and latent prompts, demonstrating that this combined approach significantly enhances performance in out-of-distribution scenarios. Our differentiable visual prompts leverage parallel and series architectures to generate prompts, effectively improving object segmentation tasks in adverse conditions. Through a comprehensive series of experiments and evaluations, we provide empirical evidence to support the efficacy of our approach. Project page at https://diffprompter.github.io.
Abstract（参考訳）: 悪天候シナリオにおけるセマンティックセグメンテーションは、自律運転システムにとって重要な課題である。基礎モデルは将来性を示しているが、より困難なシナリオを扱うためには、特別なアダプタの必要性が明らかになる。 DiffPrompterは、基礎モデルにおける既存アダプタの学習能力を拡大することを目的とした、新しい視覚的および潜時的プロンプト機構である。提案した$\nabla$HFC画像処理ブロックは,特に悪天候条件下では,従来の手法が不十分な場合が多い。さらに,視覚的プロンプトと潜伏的プロンプトの併用による学習の利点について検討し,この組み合わせがアウト・オブ・ディストリビューションのシナリオにおける性能を著しく向上させることを示した。我々の微分可能視覚プロンプトは並列および直列アーキテクチャを利用してプロンプトを生成し、悪条件下でのオブジェクトセグメンテーションタスクを効果的に改善する。総合的な実験と評価を通じて、我々のアプローチの有効性を支える実証的な証拠を提供する。 Project page at https://diffprompter.github.io.com

関連論文リスト

XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文参考訳（メタデータ） (2025-03-10T08:58:05Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach [29.735863112700358]
本稿では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性について検討する。我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。本稿では,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。
論文参考訳（メタデータ） (2024-04-17T20:35:00Z)
HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文参考訳（メタデータ） (2024-01-18T04:23:21Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
Self-regulating Prompts: Foundational Model Adaptation without Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。 PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文参考訳（メタデータ） (2023-07-13T17:59:35Z)
Prompting Diffusion Representations for Cross-Domain Semantic Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文参考訳（メタデータ） (2023-07-05T09:28:25Z)
Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文参考訳（メタデータ） (2023-04-17T15:54:10Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。