論文の概要: Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction
- arxiv url: http://arxiv.org/abs/2601.22570v1
- Date: Fri, 30 Jan 2026 05:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.235388
- Title: Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction
- Title(参考訳): Noと言うデータを活用する: メモリ拡張されたプラグインとプレイの選択予測
- Authors: Aditya Sarkar, Yi Li, Jiacheng Cheng, Shlok Mishra, Nuno Vasconcelos,
- Abstract要約: 本稿では,視覚言語基盤モデルの選択的予測について考察する。
我々は、どんな基礎モデルにも適用可能な、低複雑さのトレーニング不要なアプローチを模索する。
我々は,(1)視覚言語表現の不安定性,(2)画像テキストの埋め込みのばらつき,(2)類似度スコアのキャリブレーションの低下,の2つの主要な課題を識別する。
- 参考スコア(独自算出の注目度): 40.16419917667614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective prediction aims to endow predictors with a reject option, to avoid low confidence predictions. However, existing literature has primarily focused on closed-set tasks, such as visual question answering with predefined options or fixed-category classification. This paper considers selective prediction for visual language foundation models, addressing a taxonomy of tasks ranging from closed to open set and from finite to unbounded vocabularies, as in image captioning. We seek training-free approaches of low-complexity, applicable to any foundation model and consider methods based on external vision-language model embeddings, like CLIP. This is denoted as Plug-and-Play Selective Prediction (PaPSP). We identify two key challenges: (1) instability of the visual-language representations, leading to high variance in image-text embeddings, and (2) poor calibration of similarity scores. To address these issues, we propose a memory augmented PaPSP (MA-PaPSP) model, which augments PaPSP with a retrieval dataset of image-text pairs. This is leveraged to reduce embedding variance by averaging retrieved nearest-neighbor pairs and is complemented by the use of contrastive normalization to improve score calibration. Through extensive experiments on multiple datasets, we show that MA-PaPSP outperforms PaPSP and other selective prediction baselines for selective captioning, image-text matching, and fine-grained classification. Code is publicly available at https://github.com/kingston-aditya/MA-PaPSP.
- Abstract(参考訳): 選択予測は、信頼性の低い予測を避けるために、拒否オプションで予測者を支援することを目的としている。
しかし、既存の文献は主にクローズド・セットのタスクに焦点を当てており、例えば、事前に定義された選択肢を使った視覚的質問応答や固定カテゴリー分類などである。
本稿では,クローズドからオープンセット,有限からアンバウンド語彙までのタスクの分類をイメージキャプションとして,視覚言語基盤モデルの選択的予測について考察する。
我々は、どんな基礎モデルにも適用可能な、低複雑さのトレーニング不要なアプローチを模索し、CLIPのような外部視覚言語モデル埋め込みに基づく手法を検討する。
これはPlug-and-Play Selective Prediction (PaPSP)と呼ばれる。
我々は,(1)視覚言語表現の不安定性,(2)画像テキストの埋め込みのばらつき,(2)類似度スコアのキャリブレーションの低下,の2つの主要な課題を識別する。
これらの問題に対処するため,メモリ拡張型PAPSP(MA-PaPSP)モデルを提案する。
得られた最寄りのペアを平均化することで埋め込み分散を低減し、コントラスト正規化を用いてスコアキャリブレーションを改善することで補完する。
複数のデータセットに対する広範な実験により、MA-PaPSPは、選択的キャプション、画像テキストマッチング、きめ細かな分類において、PaPSPや他の選択的予測基準よりも優れていることを示す。
コードはhttps://github.com/kingston-aditya/MA-PaPSPで公開されている。
関連論文リスト
- Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning [36.25732435294088]
2視点対応学習は,イメージペア間の真と偽の対応を識別することを目的としている。
Mamba固有の選択性にインスパイアされ、textbfCorrMamba, textbfCor correspondingence filterを提案する。
我々の方法は、AUC@20textdegreeにおいて、以前のSOTAを2.58ドルの絶対パーセンテージポイントで上回っている。
論文 参考訳(メタデータ) (2025-03-23T04:44:21Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Dual Caption Preference Optimization for Diffusion Models [53.218293277964165]
テキストから画像への拡散モデルを改善するために、Dual Caption Preference Optimization (DCPO)を導入する。
DCPOは2つの異なるキャプションをそれぞれの好みペアに割り当て、学習信号を強化する。
実験の結果,DCPOは画像品質とプロンプトとの関連性を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization [26.63463867095924]
我々は、近隣住民間の凸結合一貫性(C$3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペット間の多様性を高めるマイクロデータ拡張戦略と、マクロ-マイクロ整合性正規化の2つの重要な要素で構成されている。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$3$BNの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2022-05-01T05:30:53Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。