論文の概要: Probabilistic Language-Image Pre-Training
- arxiv url: http://arxiv.org/abs/2410.18857v1
- Date: Thu, 24 Oct 2024 15:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:53.139955
- Title: Probabilistic Language-Image Pre-Training
- Title(参考訳): 確率的言語画像事前学習
- Authors: Sanghyuk Chun, Wonjae Kim, Song Park, Sangdoo Yun,
- Abstract要約: ProLIP(Probabilistic Language- Image Pre-Training)は,10億規模の画像テキストデータセット上に事前トレーニングされた最初の確率的VLMである。
ProLIPは、余分なパラメータなしで「不確実性トークン」によって不確実性を効率的に推定する。
また,画像とテキストのペア間の分布的包摂関係と,原文とマスクの入力の関係を強制する新たな包摂損失も導入する。
- 参考スコア(独自算出の注目度): 40.52631899695682
- License:
- Abstract: Vision-language models (VLMs) embed aligned image-text pairs into a joint space but often rely on deterministic embeddings, assuming a one-to-one correspondence between images and texts. This oversimplifies real-world relationships, which are inherently many-to-many, with multiple captions describing a single image and vice versa. We introduce Probabilistic Language-Image Pre-training (ProLIP), the first probabilistic VLM pre-trained on a billion-scale image-text dataset using only probabilistic objectives, achieving a strong zero-shot capability (e.g., 74.6% ImageNet zero-shot accuracy with ViT-B/16). ProLIP efficiently estimates uncertainty by an "uncertainty token" without extra parameters. We also introduce a novel inclusion loss that enforces distributional inclusion relationships between image-text pairs and between original and masked inputs. Experiments demonstrate that, by leveraging uncertainty estimates, ProLIP benefits downstream tasks and aligns with intuitive notions of uncertainty, e.g., shorter texts being more uncertain and more general inputs including specific ones. Utilizing text uncertainties, we further improve ImageNet accuracy from 74.6% to 75.8% (under a few-shot setting), supporting the practical advantages of our probabilistic approach. The code is available at https://github.com/naver-ai/prolip
- Abstract(参考訳): 視覚言語モデル(VLM)は、整列した画像テキストペアを結合空間に埋め込むが、画像とテキストの1対1の対応を前提として、決定論的埋め込みに依存することが多い。
これは、本質的に多対多である現実世界の関係を単純化し、複数のキャプションで単一のイメージを記述する。
確率的言語-画像事前学習(ProLIP)は,確率的目的のみを用いて10億規模の画像テキストデータセット上で事前訓練された最初の確率的VLMであり,強力なゼロショット能力(例えば,74.6%のImageNetゼロショット精度とViT-B/16)を実現する。
ProLIPは、余分なパラメータなしで「不確実性トークン」によって不確実性を効率的に推定する。
また,画像とテキストのペア間の分布的包摂関係と,原文とマスクの入力の関係を強制する新たな包摂損失も導入する。
実験により、不確実性推定を活用することにより、ProLIPは下流タスクの利点を享受し、不確実性という直感的な概念、例えば、短いテキストがより不確実で、特定のテキストを含むより一般的な入力と整合することを示した。
テキストの不確実性を生かして、画像ネットの精度を74.6%から75.8%に改善し、確率的アプローチの実用的優位性をサポートする。
コードはhttps://github.com/naver-ai/prolipで公開されている。
関連論文リスト
- LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
長いテキスト理解は、言語イメージ事前学習モデルにおいて大きな要求である。
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
自己構築型大規模データセットを用いて,提案手法の有効性を検証する。
長文画像検索のタスクでは、11.1%改善した長文キャプションで競合相手に勝っている点が注目に値する。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - Deep Learning based Novel View Synthesis [18.363945964373553]
本稿では,与えられた画像の集合からシーンの新たなビューを予測することを学ぶディープ畳み込みニューラルネットワーク(CNN)を提案する。
従来の深層学習に基づくアプローチと比較して、新しいビューを予測するために一定数の入力画像しか処理できないのに対し、提案手法は異なる入力画像で機能する。
論文 参考訳(メタデータ) (2021-07-14T16:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。