論文の概要: Exploring Task-Level Optimal Prompts for Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2501.08841v1
- Date: Wed, 15 Jan 2025 14:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:17.635246
- Title: Exploring Task-Level Optimal Prompts for Visual In-Context Learning
- Title(参考訳): 視覚的インコンテキスト学習のためのタスクレベル最適プロンプトの探索
- Authors: Yan Zhu, Huan Ma, Changqing Zhang,
- Abstract要約: 本稿では,推論段階におけるプロンプトの探索コストを削減するためのタスクレベルプロンプトを提案する。
提案手法は最適に近いプロンプトを同定し,最小限のコストで最高のVICL性能が得られることを示す。
- 参考スコア(独自算出の注目度): 20.34945396590862
- License:
- Abstract: With the development of Vision Foundation Models (VFMs) in recent years, Visual In-Context Learning (VICL) has become a better choice compared to modifying models in most scenarios. Different from retraining or fine-tuning model, VICL does not require modifications to the model's weights or architecture, and only needs a prompt with demonstrations to teach VFM how to solve tasks. Currently, significant computational cost for finding optimal prompts for every test sample hinders the deployment of VICL, as determining which demonstrations to use for constructing prompts is very costly. In this paper, however, we find a counterintuitive phenomenon that most test samples actually achieve optimal performance under the same prompts, and searching for sample-level prompts only costs more time but results in completely identical prompts. Therefore, we propose task-level prompting to reduce the cost of searching for prompts during the inference stage and introduce two time-saving yet effective task-level prompt search strategies. Extensive experimental results show that our proposed method can identify near-optimal prompts and reach the best VICL performance with a minimal cost that prior work has never achieved.
- Abstract(参考訳): 近年、Vision Foundation Models (VFM) の開発により、ほとんどのシナリオでモデルを変更するよりも、ビジュアル・インコンテキスト・ラーニング (VICL) の方がよい選択肢となっている。
トレーニングや微調整のモデルとは異なり、VICLはモデルの重みやアーキテクチャの変更を必要としない。
現在、各テストサンプルの最適なプロンプトを見つけるための計算コストがVICLの展開を妨げる。
しかし,本稿では,ほとんどの試験試料が同一のプロンプトで実際に最適性能を達成し,サンプルレベルのプロンプトの探索に要するコストが増大する一方で,全く同じプロンプトが生じるという反直感的な現象を見出した。
そこで本研究では,推論段階におけるプロンプト探索のコスト削減を目的としたタスクレベルプロンプトを提案し,時間節約で効果的な2つのタスクレベルプロンプト探索戦略を提案する。
実験結果から,提案手法は最適に近いプロンプトを同定し,先行作業が達成しなかった最小のコストで最高のVICL性能を達成できることが示唆された。
関連論文リスト
- MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。
MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文 参考訳(メタデータ) (2024-05-03T17:34:02Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - STPrompt: Semantic-guided and Task-driven prompts for Effective Few-shot
Classification [5.6205035780719275]
本稿ではSTPrompt-Semantic-GuidedおよびTask-driven Promptモデルを提案する。
提案モデルでは,テキスト分類タスクの5つの異なるデータセットにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-29T04:42:30Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。