論文の概要: Beyond Single Prompts: Synergistic Fusion and Arrangement for VICL
- arxiv url: http://arxiv.org/abs/2601.10117v1
- Date: Thu, 15 Jan 2026 06:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.022229
- Title: Beyond Single Prompts: Synergistic Fusion and Arrangement for VICL
- Title(参考訳): 単一プロンプトを超えて: VICL の相乗的融合とアレンジメント
- Authors: Wenwen Liao, Jianbo Yu, Yuansong Wang, Shifu Yan, Xiaofeng Yang,
- Abstract要約: Vision In-Context Learning (VICL) は、いくつかのプロンプトから新しい視覚タスクにインペイントモデルが迅速に適応できるようにする。
VICL法は,(1)最も類似したプロンプトのみを選択すると,他の高品質なプロンプトから補完的なキューを破棄し,(2)異なるプロンプトアレンジで入力される構造化情報を利用することができない,という2つの問題に悩まされている。
まず、適応型統合モジュールは複数のプロンプトから重要なパターンやアノテーションを集約し、より正確な文脈的プロンプトを形成する。
- 参考スコア(独自算出の注目度): 4.215181054941225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision In-Context Learning (VICL) enables inpainting models to quickly adapt to new visual tasks from only a few prompts. However, existing methods suffer from two key issues: (1) selecting only the most similar prompt discards complementary cues from other high-quality prompts; and (2) failing to exploit the structured information implied by different prompt arrangements. We propose an end-to-end VICL framework to overcome these limitations. Firstly, an adaptive Fusion Module aggregates critical patterns and annotations from multiple prompts to form more precise contextual prompts. Secondly, we introduce arrangement-specific lightweight MLPs to decouple layout priors from the core model, while minimally affecting the overall model. In addition, an bidirectional fine-tuning mechanism swaps the roles of query and prompt, encouraging the model to reconstruct the original prompt from fused context and thus enhancing collaboration between the fusion module and the inpainting model. Experiments on foreground segmentation, single-object detection, and image colorization demonstrate superior results and strong cross-task generalization of our method.
- Abstract(参考訳): Vision In-Context Learning (VICL) は、いくつかのプロンプトから新しい視覚タスクにインペイントモデルが迅速に適応できるようにする。
しかし,既存の手法では,(1)最も類似したプロンプトのみを選択すると,他の高品質なプロンプトから補完的なキューを破棄する,(2)異なるプロンプトアレンジで入力される構造化情報を利用することができない,という2つの問題に悩まされている。
これらの制限を克服するエンドツーエンドのVICLフレームワークを提案する。
まず、適応型Fusion Moduleは複数のプロンプトから重要なパターンとアノテーションを集約し、より正確なコンテキストプロンプトを形成する。
第2に、レイアウト先行をコアモデルから切り離すために、配置固有の軽量MPPを導入し、全体のモデルに最小限の影響を及ぼす。
さらに、双方向の微調整機構は、クエリとプロンプトの役割を交換し、融合したコンテキストから元のプロンプトを再構築するようモデルに促し、融合モジュールと塗装モデルの協調性を高める。
前景のセグメンテーション,単目的検出,画像のカラー化実験は,提案手法の優れた結果と強力なクロスタスク一般化を示す。
関連論文リスト
- Enhancing Visual In-Context Learning by Multi-Faceted Fusion [6.852150407828682]
単発核融合を超越した新しい枠組みを導入し, 共同核融合の実現を目指す。
提案手法は,3つの文脈表現分岐を生成し,それぞれがトップクオリティプロンプトの異なる組み合わせから情報を統合することによって生成する。
前景のセグメンテーション、単一対象の検出、画像のカラー化など様々なタスクの実験は、その強力なクロスタスクの一般化を強調している。
論文 参考訳(メタデータ) (2026-01-15T06:25:09Z) - Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition [18.527513690285364]
少数のアクション認識は、限定されたラベル付きサンプルからモデルが新しいアクションカテゴリを素早く学習できるようにすることを目的としている。
本稿では、時間的モデリングと視覚的類似性の課題に対処する3つのコンポーネントを含むCLIP-SPMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T05:13:58Z) - QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models [50.51641024244313]
本稿では,複数の画像を扱う場合の視覚的情報処理について検討する。
そこで本研究では,新たなゼロショットプロンプト手法であるQG-CoC(QG-CoC)を提案する。
マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
論文 参考訳(メタデータ) (2025-11-05T05:49:48Z) - Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization [23.475411831792716]
We propose ViL-Sum to jointly model of paragraph-level textbfVision-textbfLanguage Semantic Alignment and Multi-Modal textbfSummarization。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
実験結果から,提案したViL-Sumは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-24T05:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。