論文の概要: Improved Probabilistic Image-Text Representations
- arxiv url: http://arxiv.org/abs/2305.18171v1
- Date: Mon, 29 May 2023 16:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:21:53.335008
- Title: Improved Probabilistic Image-Text Representations
- Title(参考訳): 確率的画像テキスト表現の改善
- Authors: Sanghyuk Chun
- Abstract要約: 基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。
MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。
- 参考スコア(独自算出の注目度): 11.256959274636724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Text Matching (ITM) task, a fundamental vision-language (VL) task,
suffers from the inherent ambiguity arising from multiplicity and imperfect
annotations. Deterministic functions are not sufficiently powerful to capture
ambiguity, prompting the exploration of probabilistic embeddings to tackle the
challenge. However, the existing probabilistic ITM approach encounters two key
shortcomings; the burden of heavy computations due to the Monte Carlo
approximation, and the loss saturation issue in the face of abundant false
negatives. To overcome the issues, this paper presents an improved
Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new
probabilistic distance with a closed-form solution. In addition, two
optimization techniques are proposed to enhance PCME++ further; first, the
incorporation of pseudo-positives to prevent the loss saturation problem under
massive false negatives; second, mixed sample data augmentation for
probabilistic matching. Experimental results on MS-COCO Caption and two
extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of
PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is
also evaluated under noisy image-text correspondences. In addition, the
potential applicability of PCME++ in automatic prompt tuning for zero-shot
classification is shown. The code is available at
https://naver-ai.github.io/pcmepp/.
- Abstract(参考訳): 基本視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションに起因する固有の曖昧さに悩まされている。
決定論的関数はあいまいさを捉えるのに十分強力ではないため、挑戦に取り組む確率的埋め込みの探求が促進される。
しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。
そこで本論文では,PCME++ という名称の確率的クロスモーダル埋め込みを改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。
さらに,pcme++をさらに強化するための2つの最適化手法が提案されている。第1に,大規模偽陰性下での損失飽和問題を防ぐための擬似正定式化,第2に確率的マッチングのための混合サンプルデータ拡張である。
MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
さらに、ゼロショット分類のための自動プロンプトチューニングにおけるPCME++の適用可能性を示す。
コードはhttps://naver-ai.github.io/pcmepp/で入手できる。
関連論文リスト
- PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - Reducing Semantic Ambiguity In Domain Adaptive Semantic Segmentation Via Probabilistic Prototypical Pixel Contrast [7.092718945468069]
ドメイン適応は、ソースとターゲットドメイン間のドメインシフトに起因するターゲットドメインのモデル劣化を低減することを目的としています。
確率的原型画素コントラスト(probabilistic proto-typeal pixel contrast、PPPC)は、各画素の埋め込みを確率としてモデル化する普遍的な適応フレームワークである。
PPPCは、画素レベルでの曖昧さに対処するだけでなく、識別的表現をもたらすだけでなく、合成からリアルタイム、および日毎の適応タスクにおいて大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-09-27T08:25:03Z) - MAFA: Managing False Negatives for Vision-Language Pre-training [17.836155361629718]
視覚言語前訓練における偽陰性の重要な問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。
我々は最近開発されたGRouped mIni-batch サンプリング (GRIT) 戦略に基づいて構築された2つの主成分からなるMAFA(managing FAlse negatives)を提案する。
論文 参考訳(メタデータ) (2023-12-11T04:33:35Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。