論文の概要: From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You
Need
- arxiv url: http://arxiv.org/abs/2303.05266v1
- Date: Thu, 9 Mar 2023 13:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:52:33.029823
- Title: From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You
Need
- Title(参考訳): Visual Prompt LearningからZero-Shot Transferへ:マッピングは必要なすべて
- Authors: Ziqing Yang and Zeyang Sha and Michael Backes and Yang Zhang
- Abstract要約: 本稿では、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。
その結果,提案したSeMapは,視覚的即興学習とゼロショット転送の両方において,大きな進歩をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 18.42388423333944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual prompt learning, as a newly emerged technique, leverages the knowledge
learned by a large-scale pre-trained model and adapts it to downstream tasks
through the usage of prompts. While previous research has focused on designing
effective prompts, in this work, we argue that compared to prompt design, a
good mapping strategy matters more. In this sense, we propose SeMap, a more
effective mapping using the semantic alignment between the pre-trained model's
knowledge and the downstream task. Our experimental results show that SeMap can
largely boost the performance of visual prompt learning. Moreover, our
experiments show that SeMap is capable of achieving competitive zero-shot
transfer, indicating that it can perform the downstream task without any
fine-tuning on the corresponding dataset. This demonstrates the potential of
our proposed method to be used in a broader range of applications where the
zero-shot transfer is desired. Results suggest that our proposed SeMap could
lead to significant advancements in both visual prompt learning and zero-shot
transfer. We hope with SeMap, we can help the community move forward to more
efficient and lightweight utilization of large vision models.
- Abstract(参考訳): 視覚的プロンプト学習は、新しく登場したテクニックとして、大規模な事前学習モデルによって学習された知識を活用し、プロンプトの使用を通じて下流タスクに適応する。
これまでの研究は効果的なプロンプトの設計に重点を置いてきたが、本研究では、プロンプト設計に比べて良いマッピング戦略が重要であると論じている。
この意味で、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。
実験の結果,semapは視覚的プロンプト学習の性能を大きく向上できることがわかった。
さらに,semapは競合的なゼロショット転送を実現することができ,対応するデータセットを微調整することなく下流タスクを実行できることを示した。
これにより,ゼロショット転送が望まれる広い範囲のアプリケーションにおいて,提案手法が適用可能であることを示す。
その結果,提案するsemapは,視覚プロンプト学習とゼロショット転送の両方において大きな進歩をもたらす可能性が示唆された。
semapを使えば、コミュニティが大きなビジョンモデルをより効率的で軽量に利用できるようになることを願っています。
関連論文リスト
- Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Learning to Abstract Visuomotor Mappings using Meta-Reinforcement
Learning [1.0650780147044159]
De novo スキルのための複数のビズモータマッピングを人体で取得する能力について検討した。
我々は、異なる"グリッドワールド"として実装された文脈的手がかりが、参加者が2つの異なるキーマッピングをより効率的に学習できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-02-05T15:02:35Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。