論文の概要: PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment
- arxiv url: http://arxiv.org/abs/2603.18891v1
- Date: Thu, 19 Mar 2026 13:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.166375
- Title: PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment
- Title(参考訳): PromptHub: 局所性、集中度、アライメントを考慮したマルチプロンプトビジュアルインコンテキスト学習の実現
- Authors: Tianci Luo, Jinpeng Wang, Shiyu Qin, Niu Lian, Yan Feng, Bin Chen, Chun Yuan, Shu-Tao Xia,
- Abstract要約: Visual In-Context Learning (VICL)は、ピクセルデモを模倣して視覚タスクを完成させることを目的としている。
最近の研究は、様々なデモの利点を組み合わせた迅速な融合を開拓し、VICLを拡張する有望な方法を示している。
本稿では,局所性を考慮した融合,濃度,アライメントを通じてマルチプロンプトを強化するフレームワークであるPromptHubを紹介する。
- 参考スコア(独自算出の注目度): 87.39378178514092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual In-Context Learning (VICL) aims to complete vision tasks by imitating pixel demonstrations. Recent work pioneered prompt fusion that combines the advantages of various demonstrations, which shows a promising way to extend VICL. Unfortunately, the patch-wise fusion framework and model-agnostic supervision hinder the exploitation of informative cues, thereby limiting performance gains. To overcome this deficiency, we introduce PromptHub, a framework that holistically strengthens multi-prompting through locality-aware fusion, concentration and alignment. PromptHub exploits spatial priors to capture richer contextual information, employs complementary concentration, alignment, and prediction objectives to mutually guide training, and incorporates data augmentation to further reinforce supervision. Extensive experiments on three fundamental vision tasks demonstrate the superiority of PromptHub. Moreover, we validate its universality, transferability, and robustness across out-of-distribution settings, and various retrieval scenarios. This work establishes a reliable locality-aware paradigm for prompt fusion, moving beyond prior patch-wise approaches. Code is available at https://github.com/luotc-why/ICLR26-PromptHub.
- Abstract(参考訳): Visual In-Context Learning (VICL)は、ピクセルデモを模倣して視覚タスクを完成させることを目的としている。
最近の研究は、様々なデモの利点を組み合わせた迅速な融合を開拓し、VICLを拡張する有望な方法を示している。
残念なことに、パッチワイドの融合フレームワークとモデルに依存しない監視は、情報的手がかりの活用を妨げるため、パフォーマンスの向上が制限される。
この欠陥を克服するために,局所性を考慮した融合,濃度,アライメントを通じてマルチプロンプトを強化するフレームワークであるPromptHubを導入する。
PromptHubは、よりリッチなコンテキスト情報を取得するために、空間的事前を利用して、相互にトレーニングをガイドするために補完的な集中度、アライメント、予測目標を採用し、監視を強化するためにデータ拡張を取り入れている。
3つの基本的なビジョンタスクに関する大規模な実験は、PromptHubの優位性を示している。
さらに,その普遍性,転送可能性,ロバスト性を,アウト・オブ・ディストリビューション・セッティングや様々な検索シナリオで検証する。
この研究は、プリミティブ・フュージョンのための信頼性の高いローカリティ・アウェア・パラダイムを確立し、以前のパッチ・ワイド・アプローチを越えている。
コードはhttps://github.com/luotc-why/ICLR26-PromptHubで入手できる。
関連論文リスト
- Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings [39.4633015395276]
我々は、多モーダル推論をよりうまく扱うために、言語を超えてチェーン・オブ・シント(CoT)を拡張する方法について研究する。
テキストトークンをラテント埋め込みとして表現したコンパクトなビジュアルスケッチでインターリーブするモードミックスCoTを提案する。
我々の手法は言語のみの手法や他のCoT手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2026-01-31T07:36:38Z) - Enhancing Visual In-Context Learning by Multi-Faceted Fusion [6.852150407828682]
単発核融合を超越した新しい枠組みを導入し, 共同核融合の実現を目指す。
提案手法は,3つの文脈表現分岐を生成し,それぞれがトップクオリティプロンプトの異なる組み合わせから情報を統合することによって生成する。
前景のセグメンテーション、単一対象の検出、画像のカラー化など様々なタスクの実験は、その強力なクロスタスクの一般化を強調している。
論文 参考訳(メタデータ) (2026-01-15T06:25:09Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - ConViTac: Aligning Visual-Tactile Fusion with Contrastive Representations [7.870120920732663]
本研究では,融合時の特徴のアライメントを高めるために,視覚触覚表現学習ネットワークであるConViTacを提案する。
我々の重要な貢献はコントラストエンコーダ機構であり、コントラストエンコーダを利用して視覚的および触覚的な入力を統一された潜伏埋め込みに投影する。
我々は,ConViTacが現在最先端の手法よりも現実的に優れていることを示すために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-06-25T18:43:35Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。