論文の概要: Exploring Effective Factors for Improving Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2304.04748v1
- Date: Mon, 10 Apr 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:05:34.486827
- Title: Exploring Effective Factors for Improving Visual In-Context Learning
- Title(参考訳): 視覚インコンテキスト学習の改善のための効果的な要因の検討
- Authors: Yanpeng Sun, Qiang Chen, Jian Wang, Jingdong Wang, Zechao Li
- Abstract要約: In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
- 参考スコア(独自算出の注目度): 56.14208975380607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The In-Context Learning (ICL) is to understand a new task via a few
demonstrations (aka. prompt) and predict new inputs without tuning the models.
While it has been widely studied in NLP, it is still a relatively new area of
research in computer vision. To reveal the factors influencing the performance
of visual in-context learning, this paper shows that prompt selection and
prompt fusion are two major factors that have a direct impact on the inference
performance of visual context learning. Prompt selection is the process of
identifying the most appropriate prompt or example to help the model understand
new tasks. This is important because providing the model with relevant prompts
can help it learn more effectively and efficiently. Prompt fusion involves
combining knowledge from different positions within the large-scale visual
model. By doing this, the model can leverage the diverse knowledge stored in
different parts of the model to improve its performance on new tasks. Based
these findings, we propose a simple framework prompt-SelF for visual in-context
learning. Specifically, we first use the pixel-level retrieval method to select
a suitable prompt, and then use different prompt fusion methods to activate all
the knowledge stored in the large-scale model, and finally ensemble the
prediction results obtained from different prompt fusion methods to obtain the
final prediction results. And we conduct extensive experiments on single-object
segmentation and detection tasks to demonstrate the effectiveness of
prompt-SelF. Remarkably, the prompt-SelF has outperformed OSLSM based
meta-learning in 1-shot segmentation for the first time. This indicated the
great potential of visual in-context learning. The source code and models will
be available at \url{https://github.com/syp2ysy/prompt-SelF}.
- Abstract(参考訳): In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測する。
NLPで広く研究されているが、コンピュータビジョンにおける比較的新しい研究分野である。
本稿では,視覚内コンテキスト学習の性能に影響を与える要因を明らかにするため,プロンプト選択とプロンプト融合が,視覚内コンテキスト学習の推論性能に直接影響を与える2つの主要な要因であることを示す。
プロンプト選択は、モデルが新しいタスクを理解するのに役立つ最も適切なプロンプトや例を特定するプロセスである。
モデルに関連するプロンプトを提供することで、より効果的かつ効率的に学ぶことができるため、これは重要です。
プロンプト融合は、大規模視覚モデル内の異なる位置からの知識を組み合わせることを伴う。
これにより、モデルはモデルのさまざまな部分に格納された多様な知識を活用して、新しいタスクのパフォーマンスを向上させることができる。
これらの知見に基づき、視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
具体的には,まず画素レベルの検索手法を用いて適切なプロンプトを選択し,次に異なるプロンプト融合法を用いて大規模モデルに格納されたすべての知識を活性化し,最終的に異なるプロンプト融合法から得られた予測結果をアンサンブルして最終的な予測結果を得る。
また,単目的セグメンテーションと検出タスクについて広範な実験を行い,プロンプトSelFの有効性を実証した。
注目すべきは、プロンプトSelFがOSLSMベースのメタラーニングを初めて1ショットセグメンテーションで上回ったことだ。
これは、コンテキスト内学習の大きな可能性を示している。
ソースコードとモデルは \url{https://github.com/syp2ysy/prompt-SelF} で入手できる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Enhancing News Summarization with ELearnFit through Efficient In-Context Learning and Efficient Fine-Tuning [0.0]
我々は,大規模言語モデル(LLM)を利用して,XSumデータセットからニュース記事のコヒーレントな要約を生成する。
その結果,プロンプトにおけるショット数の増加と簡易テンプレートの利用により,要約の質が向上することが確認された。
また、LLMの第1層を微調整すると、他の層を微調整したり、LoRAを利用するよりも優れた結果が得られることも見出した。
論文 参考訳(メタデータ) (2024-05-04T16:48:05Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。