論文の概要: Enhancing Visual In-Context Learning by Multi-Faceted Fusion
- arxiv url: http://arxiv.org/abs/2601.10107v1
- Date: Thu, 15 Jan 2026 06:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.014772
- Title: Enhancing Visual In-Context Learning by Multi-Faceted Fusion
- Title(参考訳): 多面融合による視覚的インテクスト学習の促進
- Authors: Wenwen Liao, Jianbo Yu, Yuansong Wang, Qingchao Jiang, Xiaofeng Yang,
- Abstract要約: 単発核融合を超越した新しい枠組みを導入し, 共同核融合の実現を目指す。
提案手法は,3つの文脈表現分岐を生成し,それぞれがトップクオリティプロンプトの異なる組み合わせから情報を統合することによって生成する。
前景のセグメンテーション、単一対象の検出、画像のカラー化など様々なタスクの実験は、その強力なクロスタスクの一般化を強調している。
- 参考スコア(独自算出の注目度): 6.852150407828682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual In-Context Learning (VICL) has emerged as a powerful paradigm, enabling models to perform novel visual tasks by learning from in-context examples. The dominant "retrieve-then-prompt" approach typically relies on selecting the single best visual prompt, a practice that often discards valuable contextual information from other suitable candidates. While recent work has explored fusing the top-K prompts into a single, enhanced representation, this still simply collapses multiple rich signals into one, limiting the model's reasoning capability. We argue that a more multi-faceted, collaborative fusion is required to unlock the full potential of these diverse contexts. To address this limitation, we introduce a novel framework that moves beyond single-prompt fusion towards an multi-combination collaborative fusion. Instead of collapsing multiple prompts into one, our method generates three contextual representation branches, each formed by integrating information from different combinations of top-quality prompts. These complementary guidance signals are then fed into proposed MULTI-VQGAN architecture, which is designed to jointly interpret and utilize collaborative information from multiple sources. Extensive experiments on diverse tasks, including foreground segmentation, single-object detection, and image colorization, highlight its strong cross-task generalization, effective contextual fusion, and ability to produce more robust and accurate predictions than existing methods.
- Abstract(参考訳): ビジュアル・イン・コンテキスト・ラーニング(VICL)は強力なパラダイムとして登場し、イン・コンテキストの例から学習することでモデルが新しい視覚的タスクを実行できるようになった。
主流の「検索・推論」アプローチは、一般的に単一の最良の視覚的プロンプトを選択することに依存しており、これは、しばしば他の適切な候補者から貴重な文脈情報を捨てるプラクティスである。
最近の研究は、トップKプロンプトを単一の拡張された表現に置き換えることを検討したが、それでも複数のリッチな信号が1つに分解され、モデルの推論能力が制限される。
より多面的かつ協調的な融合は、これらの多様なコンテキストの完全な可能性を解き放つために必要である、と私たちは主張する。
この制限に対処するため,単発核融合を超越して多連核融合を目指す新しい枠組みを導入する。
複数のプロンプトを1つにまとめる代わりに、各プロンプトの異なる組み合わせから情報を統合することによって、3つのコンテキスト表現分岐を生成する。
これらの補完的な誘導信号は、複数のソースからの協調的な情報を共同で解釈し利用するために設計されたマルチVQGANアーキテクチャーに入力される。
前景のセグメンテーション、単一対象の検出、画像のカラー化など、様々なタスクに関する広範な実験は、その強力なクロスタスクの一般化、効果的なコンテキスト融合、既存の方法よりも堅牢で正確な予測を生成する能力を強調している。
関連論文リスト
- Beyond Single Prompts: Synergistic Fusion and Arrangement for VICL [4.215181054941225]
Vision In-Context Learning (VICL) は、いくつかのプロンプトから新しい視覚タスクにインペイントモデルが迅速に適応できるようにする。
VICL法は,(1)最も類似したプロンプトのみを選択すると,他の高品質なプロンプトから補完的なキューを破棄し,(2)異なるプロンプトアレンジで入力される構造化情報を利用することができない,という2つの問題に悩まされている。
まず、適応型統合モジュールは複数のプロンプトから重要なパターンやアノテーションを集約し、より正確な文脈的プロンプトを形成する。
論文 参考訳(メタデータ) (2026-01-15T06:53:59Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings [9.344107676552408]
マルチモーダル埋め込みタスク用に設計された視覚言語モデルアーキテクチャUniMoCoを提案する。
我々は,オリジナル入力とモダリティ完了入力の両方から埋め込みを整列させる特別なトレーニング戦略を開発する。
実験によると、UniMoCoは様々な設定で一貫性のあるロバスト性を示しながら、従来の手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-17T03:53:11Z) - X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation [46.76427517818944]
クロスリフレクション・プロンプティングは、テキストと画像間の支持的および矛盾する情報を明示的に識別し、調整するように設計されている。
2つの広く利用されているベンチマーク実験により,提案手法は下流の推薦精度において,既存の基準値よりも優れていることが示された。
また,X-Reflect-keywordも導入した。X-Reflect-keywordは,キーワードを用いて画像内容を要約し,ベースモデルを小さなバックボーンに置き換える軽量版である。
論文 参考訳(メタデータ) (2024-08-27T16:10:21Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。