論文の概要: PANICL: Mitigating Over-Reliance on Single Prompt in Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2509.21926v1
- Date: Fri, 26 Sep 2025 06:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.223273
- Title: PANICL: Mitigating Over-Reliance on Single Prompt in Visual In-Context Learning
- Title(参考訳): PANICL:ビジュアルインコンテキスト学習における単一プロンプトへの過度依存の軽減
- Authors: Jiahao Zhang, Bowen Wang, Hong Liu, Yuta Nakashima, Hajime Nagahara,
- Abstract要約: Visual In-Context Learning (VICL) は、インコンテキストペア(または例)と呼ばれる入力出力イメージペアを使用して、多様な視覚タスクの実行においてモデルをガイドするクエリイメージと併用する。
VICLは、単一のコンテキスト内のペアに対する過度な信頼性に悩まされることが多く、バイアスや不安定な予測につながることがある。
我々は、複数のコンテキスト内ペアを活用することでこの問題を緩和する一般的なトレーニング不要のフレームワークである、PAtchベースの$k$-Nearestのビジュアル・インコンテキスト・ラーニング(PANICL)を紹介した。
- 参考スコア(独自算出の注目度): 38.70994263844236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual In-Context Learning (VICL) uses input-output image pairs, referred to as in-context pairs (or examples), as prompts alongside query images to guide models in performing diverse vision tasks. However, VICL often suffers from over-reliance on a single in-context pair, which can lead to biased and unstable predictions. We introduce PAtch-based $k$-Nearest neighbor visual In-Context Learning (PANICL), a general training-free framework that mitigates this issue by leveraging multiple in-context pairs. PANICL smooths assignment scores across pairs, reducing bias without requiring additional training. Extensive experiments on a variety of tasks, including foreground segmentation, single object detection, colorization, multi-object segmentation, and keypoint detection, demonstrate consistent improvements over strong baselines. Moreover, PANICL exhibits strong robustness to domain shifts, including dataset-level shift (e.g., from COCO to Pascal) and label-space shift (e.g., FSS-1000), and generalizes well to other VICL models such as SegGPT, Painter, and LVM, highlighting its versatility and broad applicability.
- Abstract(参考訳): Visual In-Context Learning (VICL) は、インコンテキストペア(または例)と呼ばれる入力出力イメージペアを使用して、多様なビジョンタスクの実行においてモデルをガイドするクエリイメージと併用する。
しかし、VICLは単一のコンテキスト内のペアに対する過度な信頼に悩まされ、バイアスや不安定な予測につながることがある。
我々は、複数のコンテキスト内ペアを活用することでこの問題を緩和する一般的なトレーニング不要のフレームワークである、PAtchベースの$k$-Nearestのビジュアル・インコンテキスト・ラーニング(PANICL)を紹介した。
PANICLは、ペア間の割り当てスコアを円滑にし、追加のトレーニングを必要とせずにバイアスを低減します。
前景のセグメンテーション、単一オブジェクト検出、色付け、多目的セグメンテーション、キーポイント検出など、さまざまなタスクに関する大規模な実験は、強いベースラインよりも一貫した改善を示している。
さらに、PANICLはデータセットレベルのシフト(COCOからPascalへの移行など)やラベル空間シフト(FSS-1000など)など、ドメインシフトに対する強い堅牢性を示し、SegGPT、Paperer、LVMといった他のVICLモデルと同様に、その汎用性と幅広い適用性を強調している。
関連論文リスト
- CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment [28.2773807732662]
大規模な自然画像テキストデータセットは、監督の弱いため、しばしば緩やかなセマンティックアライメントに悩まされる。
私たちはCLIPスタイルのアーキテクチャにシームレスに統合できる統合された非コントラストプラグインであるCLIPinを提案する。
2つの共有ロバスト性事前プロジェクタは、コントラスト学習と非コントラスト学習の統合を容易にするために、それぞれ画像とテキストのモダリティのために設計されている。
論文 参考訳(メタデータ) (2025-08-08T16:23:05Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - Refining Skewed Perceptions in Vision-Language Contrastive Models through Visual Representations [0.033483662989441935]
大規模視覚言語コントラストモデル(VLCM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。