論文の概要: Improved Probabilistic Image-Text Representations
- arxiv url: http://arxiv.org/abs/2305.18171v5
- Date: Tue, 9 Apr 2024 13:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:36:08.086476
- Title: Improved Probabilistic Image-Text Representations
- Title(参考訳): 確率的画像テキスト表現の改善
- Authors: Sanghyuk Chun,
- Abstract要約: 基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
- 参考スコア(独自算出の注目度): 20.00929281001257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further: first, the incorporation of pseudo-positives to prevent the negative effect under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt-filtering for zero-shot classification is shown. The code is available at https://github.com/naver-ai/pcmepp
- Abstract(参考訳): 基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
決定論的関数は曖昧さを捉えるのに十分強力ではないため、確率論的埋め込みを探索して課題に取り組む。
しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。
そこで本論文では,PCME++ と命名された確率的クロスモーダル埋め込み(PCME++)を改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。
さらに、PCME++をさらに強化する2つの最適化手法が提案されている。第1に、偽陰性による負の効果を防ぐために擬陽性を組み込むこと、第2に、確率的マッチングのための混合サンプルデータ拡張である。
MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
さらに、ゼロショット分類のための自動プロンプトフィルタにおけるPCME++の適用可能性を示す。
コードはhttps://github.com/naver-ai/pcmeppで公開されている。
関連論文リスト
- ProTA: Probabilistic Token Aggregation for Text-Video Retrieval [15.891020334480826]
本稿では,コンテンツ非対称性との相互相互作用を扱うための確率的トークン集約(ProTA)を提案する。
ProTAはMSR-VTT(50.9%)、SMDC(25.8%)、DiDeMo(47.2%)を大幅に改善する
論文 参考訳(メタデータ) (2024-04-18T14:20:30Z) - MAFA: Managing False Negatives for Vision-Language Pre-training [17.836155361629718]
視覚言語前訓練における偽陰性の重要な問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。
我々は最近開発されたGRouped mIni-batch サンプリング (GRIT) 戦略に基づいて構築された2つの主成分からなるMAFA(managing FAlse negatives)を提案する。
論文 参考訳(メタデータ) (2023-12-11T04:33:35Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。