論文の概要: I0T: Embedding Standardization Method Towards Zero Modality Gap
- arxiv url: http://arxiv.org/abs/2412.14384v1
- Date: Wed, 18 Dec 2024 22:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:46.161646
- Title: I0T: Embedding Standardization Method Towards Zero Modality Gap
- Title(参考訳): I0T: ゼロモダリティギャップに向けた標準化手法
- Authors: Na Min An, Eunki Kim, James Thorne, Hyunjung Shim,
- Abstract要約: Contrastive Language-Image Pretraining (CLIP)は、画像テキスト検索や分類などの下流タスクにおけるゼロショット推論を可能にする。
CLIPを拡張する最近の作業は、モダリティギャップの問題に悩まされている。
本稿では,モダリティギャップに対処する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.032635790176464
- License:
- Abstract: Contrastive Language-Image Pretraining (CLIP) enables zero-shot inference in downstream tasks such as image-text retrieval and classification. However, recent works extending CLIP suffer from the issue of modality gap, which arises when the image and text embeddings are projected to disparate manifolds, deviating from the intended objective of image-text contrastive learning. We discover that this phenomenon is linked to the modality-specific characteristic that each image/text encoder independently possesses and propose two methods to address the modality gap: (1) a post-hoc embedding standardization method, $\text{I0T}_{\text{post}}$ that reduces the modality gap approximately to zero and (2) a trainable method, $\text{I0T}_{\text{async}}$, to alleviate the modality gap problem by adding two normalization layers for each encoder. Our I0T framework can significantly reduce the modality gap while preserving the original embedding representations of trained models with their locked parameters. In practice, $\text{I0T}_{\text{post}}$ can serve as an alternative explainable automatic evaluation metric of widely used CLIPScore (CLIP-S).
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP)は、画像テキスト検索や分類などの下流タスクにおけるゼロショット推論を可能にする。
しかし、最近のCLIPの拡張はモダリティギャップの問題に悩まされており、これは画像とテキストの埋め込みが、画像テキストのコントラスト学習の意図した目的から逸脱して、多様体を異方化するために投影されるときに発生する。
この現象は、各画像/テキストエンコーダが独立に持つモダリティ特化特性と関連付けられており、(1)ポストホック埋め込み標準化法である$\text{I0T}_{\text{post}}$と(2)トレーニング可能なメソッドである$\text{I0T}_{\text{async}}$の2つの正規化レイヤを追加して、モダリティギャップ問題を緩和する$\text{I0T}_{\text{post}}$の2つの方法を提案する。
我々のI0Tフレームワークは、トレーニングされたモデルのオリジナルの埋め込み表現をロックパラメータで保存しながら、モダリティギャップを著しく低減することができる。
実際には、$\text{I0T}_{\text{post}}$は、広く使われているCLIPScore(CLIP-S)の別の説明可能な自動評価指標として機能する。
関連論文リスト
- Adapt CLIP as Aggregation Instructor for Image Dehazing [17.29370328189668]
ほとんどの脱ヘイジング法は、限られた受容領域に悩まされており、視覚言語モデルにカプセル化される前の豊かな意味を探索しない。
先駆的なハイブリッドフレームワークであるCLIPHazeを紹介し、Mambaの効率的なグローバルモデリングとCLIPの事前知識とゼロショット機能とを相乗化する。
並列状態空間モデルとウィンドウベースの自己アテンションを用いて,グローバルな文脈依存性と局所的な微粒化知覚を得る。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Semantically Grounded Visual Embeddings for Zero-Shot Learning [17.86691047421871]
本稿では,2ストリームネットワークを用いた共同画像とテキストモデルをプロキシタスクで計算することにより,意味的基盤とリッチな視覚情報を学習することを提案する。
ゼロショット学習のためのジョイント埋め込みと呼ばれる手法を,いくつかのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2022-01-03T10:43:15Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。