Fugu-MT 論文翻訳(概要): Enhancing Vision-Language Model with Unmasked Token Alignment

論文の概要: Enhancing Vision-Language Model with Unmasked Token Alignment

arxiv url: http://arxiv.org/abs/2405.19009v2
Date: Fri, 14 Jun 2024 14:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:23:16.553637
Title: Enhancing Vision-Language Model with Unmasked Token Alignment
Title（参考訳）: 未知のトークンアライメントを用いたビジョンランゲージモデルの強化
Authors: Jihao Liu, Jinliang Zheng, Boxiao Liu, Yu Liu, Hongsheng Li,
Abstract要約: 本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。 UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
参考スコア（独自算出の注目度）: 37.12838142681491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive pre-training on image-text pairs, exemplified by CLIP, becomes a standard technique for learning multi-modal visual-language representations. Although CLIP has demonstrated remarkable performance, training it from scratch on noisy web-scale datasets is computationally demanding. On the other hand, mask-then-predict pre-training approaches, like Masked Image Modeling (MIM), offer efficient self-supervised learning for single-modal representations. This paper introduces Unmasked Token Alignment (UTA), a method that leverages existing CLIP models to further enhance its vision-language representations. UTA trains a Vision Transformer (ViT) by aligning unmasked visual tokens to the corresponding image tokens from a frozen CLIP vision encoder, which automatically aligns the ViT model with the CLIP text encoder. The pre-trained ViT can be directly applied for zero-shot evaluation even without training on image-text pairs. Compared to MIM approaches, UTA does not suffer from training-finetuning inconsistency and is much more training-efficient by avoiding using the extra [MASK] tokens. Extensive experimental results demonstrate that UTA can enhance CLIP models and outperform existing MIM methods on various uni- and multi-modal benchmarks. Code and models are available at https://github.com/jihaonew/UTA.
Abstract（参考訳）: CLIPで実証された画像テキストペアのコントラスト事前学習は、マルチモーダルな視覚言語表現を学習するための標準技術となる。 CLIPは目覚ましいパフォーマンスを示しているが、ノイズの多いWebスケールデータセットをスクラッチからトレーニングすることは、計算的に要求されている。一方,Masked Image Modeling (MIM)のようなマスクテーマ予測事前学習アプローチは,単一モーダル表現に対する効率的な自己教師付き学習を提供する。本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。 UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。トレーニング済みのViTは、画像とテキストのペアをトレーニングすることなく、ゼロショット評価に直接適用することができる。 MIMアプローチと比較して、UTAはトレーニングファインタニングの不整合に悩まされず、余分な[MASK]トークンの使用を避けることで、トレーニング効率が向上する。 UTAはCLIPモデルを強化し、様々なユニモーダルおよびマルチモーダルベンチマークで既存のMIM法より優れていることを示す。コードとモデルはhttps://github.com/jihaonew/UTA.comで公開されている。

関連論文リスト

When LLaVA Meets Objects: Token Composition for Vision-Language-Models [31.554057603168214]
Mask-LLaVAは、様々なレベルの視覚的特徴を活用して、自己回帰視覚言語モデルのためのコンパクトで情報に富んだ視覚表現を作成するフレームワークである。すべてのトークンはトレーニング中に使用されるが、結果として得られるモデルは、特にテスト時にマスクベースのオブジェクトトークンの数を柔軟に減少させることができる。分析の結果,マルチレベル機能を組み合わせることで,より少ないトークンで効率的な学習が可能であり,テスト時に動的トークン選択を可能とし,性能を向上できることがわかった。
論文参考訳（メタデータ） (2026-02-04T18:50:46Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。 DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-12-10T02:21:39Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。 UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文参考訳（メタデータ） (2024-03-14T03:29:58Z)
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-01T15:54:55Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。