論文の概要: TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
- arxiv url: http://arxiv.org/abs/2604.12012v1
- Date: Mon, 13 Apr 2026 20:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.096608
- Title: TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment
- Title(参考訳): TIPSv2: 拡張パッチテキストアライメントによるビジョンランゲージ事前トレーニングの強化
- Authors: Bingyi Cao, Koert Chen, Kevis-Kokitsi Maninis, Kaifeng Chen, Arjun Karpur, Ye Xia, Sahil Dua, Tanmaya Dabral, Guangxing Han, Bohyung Han, Joshua Ainslie, Alex Bewley, Mithun Jacob, René Wagner, Washington Ramos, Krzysztof Choromanski, Mojtaba Seyedhosseini, Howard Zhou, André Araujo,
- Abstract要約: iBOT++は、一般的に使用されるiBOTマスクの画像目的のアップグレードである。
視覚言語による事前学習の効率と有効性を改善するため,学習レシピの指数移動平均設定を変更した。
我々は,幅広い下流アプリケーションに適した画像テキストエンコーダモデルであるTIPSv2を開発した。
- 参考スコア(独自算出の注目度): 43.16091854849133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in vision-language pretraining has enabled significant improvements to many downstream computer vision applications, such as classification, retrieval, segmentation and depth prediction. However, a fundamental capability that these models still struggle with is aligning dense patch representations with text embeddings of corresponding concepts. In this work, we investigate this critical issue and propose novel techniques to enhance this capability in foundational vision-language models. First, we reveal that a patch-level distillation procedure significantly boosts dense patch-text alignment -- surprisingly, the patch-text alignment of the distilled student model strongly surpasses that of the teacher model. This observation inspires us to consider modifications to pretraining recipes, leading us to propose iBOT++, an upgrade to the commonly-used iBOT masked image objective, where unmasked tokens also contribute directly to the loss. This dramatically enhances patch-text alignment of pretrained models. Additionally, to improve vision-language pretraining efficiency and effectiveness, we modify the exponential moving average setup in the learning recipe, and introduce a caption sampling strategy to benefit from synthetic captions at different granularities. Combining these components, we develop TIPSv2, a new family of image-text encoder models suitable for a wide range of downstream applications. Through comprehensive experiments on 9 tasks and 20 datasets, we demonstrate strong performance, generally on par with or better than recent vision encoder models. Code and models are released via our project page at https://gdm-tipsv2.github.io/ .
- Abstract(参考訳): 視覚言語事前学習の最近の進歩は、分類、検索、セグメンテーション、深度予測など、多くの下流コンピュータビジョンアプリケーションに大きな改善をもたらした。
しかし、これらのモデルがいまだに苦戦している基本的な機能は、密集したパッチ表現と対応する概念のテキスト埋め込みの整合性である。
本研究では,この重要な課題を考察し,基礎的な視覚言語モデルにおいて,その能力を高める新しい手法を提案する。
まず、パッチレベルの蒸留処理によって、密集したパッチテキストのアライメントが大幅に向上することを明らかにします。驚くべきことに、蒸留された学生モデルのパッチテキストアライメントは、教師モデルのアライメントをはるかに上回っています。
この観察は、事前学習のレシピの変更を検討するきっかけとなり、一般的に使用されるiBOTマスクの画像目的へのアップグレードであるiBOT++を提案することになった。
これにより、事前訓練されたモデルのパッチテキストアライメントが劇的に向上する。
さらに、視覚言語による事前学習の効率と効果を向上させるため、学習レシピにおける指数的な移動平均設定を変更し、異なる粒度の合成キャプションの恩恵を受けるためのキャプションサンプリング戦略を導入する。
これらのコンポーネントを組み合わせることで、幅広い下流アプリケーションに適した画像テキストエンコーダモデルであるTIPSv2を開発する。
9つのタスクと20のデータセットに関する包括的な実験を通じて、私たちは、一般的に、最近のビジョンエンコーダモデルと同等以上のパフォーマンスを示す。
コードとモデルは、プロジェクトのページ(https://gdm-tipsv2.github.io/)からリリースされます。
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [36.59100450109841]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。