論文の概要: Exploring Effective Factors for Improving Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2304.04748v1
- Date: Mon, 10 Apr 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:05:34.486827
- Title: Exploring Effective Factors for Improving Visual In-Context Learning
- Title(参考訳): 視覚インコンテキスト学習の改善のための効果的な要因の検討
- Authors: Yanpeng Sun, Qiang Chen, Jian Wang, Jingdong Wang, Zechao Li
- Abstract要約: In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
- 参考スコア(独自算出の注目度): 56.14208975380607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The In-Context Learning (ICL) is to understand a new task via a few
demonstrations (aka. prompt) and predict new inputs without tuning the models.
While it has been widely studied in NLP, it is still a relatively new area of
research in computer vision. To reveal the factors influencing the performance
of visual in-context learning, this paper shows that prompt selection and
prompt fusion are two major factors that have a direct impact on the inference
performance of visual context learning. Prompt selection is the process of
identifying the most appropriate prompt or example to help the model understand
new tasks. This is important because providing the model with relevant prompts
can help it learn more effectively and efficiently. Prompt fusion involves
combining knowledge from different positions within the large-scale visual
model. By doing this, the model can leverage the diverse knowledge stored in
different parts of the model to improve its performance on new tasks. Based
these findings, we propose a simple framework prompt-SelF for visual in-context
learning. Specifically, we first use the pixel-level retrieval method to select
a suitable prompt, and then use different prompt fusion methods to activate all
the knowledge stored in the large-scale model, and finally ensemble the
prediction results obtained from different prompt fusion methods to obtain the
final prediction results. And we conduct extensive experiments on single-object
segmentation and detection tasks to demonstrate the effectiveness of
prompt-SelF. Remarkably, the prompt-SelF has outperformed OSLSM based
meta-learning in 1-shot segmentation for the first time. This indicated the
great potential of visual in-context learning. The source code and models will
be available at \url{https://github.com/syp2ysy/prompt-SelF}.
- Abstract(参考訳): In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測する。
NLPで広く研究されているが、コンピュータビジョンにおける比較的新しい研究分野である。
本稿では,視覚内コンテキスト学習の性能に影響を与える要因を明らかにするため,プロンプト選択とプロンプト融合が,視覚内コンテキスト学習の推論性能に直接影響を与える2つの主要な要因であることを示す。
プロンプト選択は、モデルが新しいタスクを理解するのに役立つ最も適切なプロンプトや例を特定するプロセスである。
モデルに関連するプロンプトを提供することで、より効果的かつ効率的に学ぶことができるため、これは重要です。
プロンプト融合は、大規模視覚モデル内の異なる位置からの知識を組み合わせることを伴う。
これにより、モデルはモデルのさまざまな部分に格納された多様な知識を活用して、新しいタスクのパフォーマンスを向上させることができる。
これらの知見に基づき、視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
具体的には,まず画素レベルの検索手法を用いて適切なプロンプトを選択し,次に異なるプロンプト融合法を用いて大規模モデルに格納されたすべての知識を活性化し,最終的に異なるプロンプト融合法から得られた予測結果をアンサンブルして最終的な予測結果を得る。
また,単目的セグメンテーションと検出タスクについて広範な実験を行い,プロンプトSelFの有効性を実証した。
注目すべきは、プロンプトSelFがOSLSMベースのメタラーニングを初めて1ショットセグメンテーションで上回ったことだ。
これは、コンテキスト内学習の大きな可能性を示している。
ソースコードとモデルは \url{https://github.com/syp2ysy/prompt-SelF} で入手できる。
関連論文リスト
- Learning Prompt with Distribution-Based Feature Replay for Few-Shot
Class-Incremental Learning [58.4078444826737]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - What Makes Good Examples for Visual In-Context Learning? [38.68910532066619]
インコンテキスト学習(in-context learning)として知られる,大規模視覚モデルにおける創発的能力に着目する。
そこで本研究では,テキスト内サンプルの選択を自動で行うための,素早い検索フレームワークを提案する。
具体的には,(1)オフザシェルフモデルを用いた最寄りサンプル探索に基づく教師なしプロンプト検索手法,(2)ニューラルネットワークをトレーニングして,文脈内学習性能を直接最大化する事例を選択する教師なしプロンプト検索手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T14:40:05Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。