論文の概要: Language-Image Alignment with Fixed Text Encoders
- arxiv url: http://arxiv.org/abs/2506.04209v1
- Date: Wed, 04 Jun 2025 17:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.507855
- Title: Language-Image Alignment with Fixed Text Encoders
- Title(参考訳): 固定テキストエンコーダを用いた言語画像のアライメント
- Authors: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma,
- Abstract要約: 現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、テキストと画像エンコーダを共同で事前訓練することである。
本研究では,事前学習した固定大言語モデル(LLM)が,視覚表現学習の指導に十分なテキストエンコーダを提供するかどうかを検討する。
- 参考スコア(独自算出の注目度): 28.898689028197005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
- Abstract(参考訳): 現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、CLIPとその変種のような対照的な学習を通じて、テキストと画像エンコーダを共同で事前訓練することである。
本研究は,このようなコストのかかる共同トレーニングが必要かどうかを問うものである。
特に、事前訓練された固定大言語モデル(LLM)が、視覚表現学習を導くのに十分なテキストエンコーダを提供するかどうかを検討する。
すなわち、画像エンコーダのみを訓練することで、LLMから固定テキストエンコーダ(LIFT)とLanguage-Imageアライメントを学習することを提案する。
驚くべきことに、包括的なベンチマークとアブレーション研究を通じて、この非常に単純化されたフレームワークLIFTは、構成的理解と長いキャプションを含むほとんどのシナリオにおいてCLIPよりも優れており、計算効率のかなりの向上を実現していることがわかった。
我々の研究は、LLMからのテキスト埋め込みが視覚学習をガイドする方法を体系的に探求する第一歩を踏み出し、言語に沿った視覚表現を学ぶための代替設計選択を提案する。
関連論文リスト
- Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:35:18Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。