論文の概要: Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2504.21263v1
- Date: Wed, 30 Apr 2025 02:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:50:24.792171
- Title: Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning
- Title(参考訳): 競合に協力する:視覚的インテクスト学習のための複数のプロンプトを凝縮する
- Authors: Jinpeng Wang, Tianci Luo, Yaohua Zha, Yan Feng, Ruisheng Luo, Bin Chen, Tao Dai, Long Chen, Yaowei Wang, Shu-Tao Xia,
- Abstract要約: Visual In-Context Learning (VICL) は、視覚的タスクを適応的に解くために、ピクセルデモを活用し、アナログを通して人間の様のタスク完了を模倣する。
現在の手法では、候補者のプールに一つの「理想的」プロンプトが存在すると仮定している。
我々は,1つのプロンプトに頼るのではなく,解決を犠牲にすることなく,情報的コンテキストを効率的に統合する,という新しい視点を提案する。
- 参考スコア(独自算出の注目度): 82.76635679786732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual In-Context Learning (VICL) enables adaptively solving vision tasks by leveraging pixel demonstrations, mimicking human-like task completion through analogy. Prompt selection is critical in VICL, but current methods assume the existence of a single "ideal" prompt in a pool of candidates, which in practice may not hold true. Multiple suitable prompts may exist, but individually they often fall short, leading to difficulties in selection and the exclusion of useful context. To address this, we propose a new perspective: prompt condensation. Rather than relying on a single prompt, candidate prompts collaborate to efficiently integrate informative contexts without sacrificing resolution. We devise Condenser, a lightweight external plugin that compresses relevant fine-grained context across multiple prompts. Optimized end-to-end with the backbone, Condenser ensures accurate integration of contextual cues. Experiments demonstrate Condenser outperforms state-of-the-arts across benchmark tasks, showing superior context compression, scalability with more prompts, and enhanced computational efficiency compared to ensemble methods, positioning it as a highly competitive solution for VICL. Code is open-sourced at https://github.com/gimpong/CVPR25-Condenser.
- Abstract(参考訳): Visual In-Context Learning (VICL) は、人物のようなタスク完了をアナログで模倣し、ピクセルデモを活用することで、視覚タスクを適応的に解決する。
プロンプト選択はVICLでは重要であるが、現在の手法では候補のプールに1つの「理想的」プロンプトが存在すると仮定している。
複数の適切なプロンプトが存在するかもしれないが、個々に不足することが多く、選択の困難と有用な文脈の排除につながる。
この問題に対処するために,我々は新しい視点,即時凝縮を提案する。
単一のプロンプトに頼るのではなく、候補者は、解決を犠牲にすることなく、効率的に情報的コンテキストを統合するよう協力する。
Condenserは、複数のプロンプトにまたがって関連する細粒度コンテキストを圧縮する軽量な外部プラグインである。
バックボーンでエンドツーエンドに最適化されたCondenserは、コンテキストキューの正確な統合を保証する。
実験では、Condenserがベンチマークタスク全体にわたって最先端のパフォーマンスを誇示し、より優れたコンテキスト圧縮、より多くのプロンプトによるスケーラビリティ、アンサンブル手法と比較して計算効率の向上を示し、VICLの競争力の高いソリューションとして位置づけている。
コードはhttps://github.com/gimpong/CVPR25-Condenserで公開されている。
関連論文リスト
- Task Facet Learning: A Structured Approach to Prompt Optimization [14.223730629357178]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。
結果のアルゴリズムであるUniPromptは、各プロンプトセクションの初期候補を生成する生成モデルで構成されている。
複数のデータセットと実世界のタスクに対する経験的評価は、UniPromptを使って生成されたプロンプトが、人間のチューニングしたプロンプトよりも高い精度が得られることを示している。
論文 参考訳(メタデータ) (2024-06-15T04:54:26Z) - Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。
エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。
広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:48Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。