論文の概要: TextTeacher: What Can Language Teach About Images?
- arxiv url: http://arxiv.org/abs/2605.22098v1
- Date: Thu, 21 May 2026 07:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.143371
- Title: TextTeacher: What Can Language Teach About Images?
- Title(参考訳): TextTeacher: 何を教えることができるのか?
- Authors: Tobias Christian Nauen, Stanislav Frolov, Brian Bernhard Moser, Federico Raue, Ahmed Anwar, Andreas Dengel,
- Abstract要約: TextTeacherは、画像分類トレーニングに追加情報としてテキスト埋め込みを注入する。
標準的なViTバックボーンを持つImageNetでは、TextTeacherは最大2.7ポイントの精度を向上させる。
TextTeacherは無視可能なオーバーヘッドを追加し、ターゲットモデルのマルチモーダルなトレーニングを必要とせず、純粋な視覚モデルの単純さとレイテンシを保持する。
- 参考スコア(独自算出の注目度): 8.667488983401844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The platonic representation hypothesis suggests that sufficiently large models converge to a shared representation geometry, even across modalities. Motivated by this, we ask: Can the semantic knowledge of a language model efficiently improve a vision model? As an answer, we introduce TextTeacher, a simple auxiliary objective that injects text embeddings as additional information into image classification training. TextTeacher uses readily available image captions, a pre-trained and frozen text encoder, and a lightweight projection to produce semantic anchors that efficiently guide representations during training while leaving the inference-time model unchanged. On ImageNet with standard ViT backbones, TextTeacher improves accuracy by up to +2.7 percentage points (p.p.) and yields consistent transfer gains (on average +1.0 p.p.) under the same recipe and compute. It outperforms vision knowledge distillation, yielding more accuracy at a constant compute budget or similar accuracy, but 33% faster. Our analysis indicates that TextTeacher acts as a feature-space preconditioner, shaping deeper layers in the first stages of training, and aiding generalization by supplying complementary semantic cues. TextTeacher adds negligible overhead, requires no costly multimodal training of the target model and preserves the simplicity and latency of pure vision models. Project page with code and captions: https://nauen-it.de/publications/text-teacher
- Abstract(参考訳): プラトニックな表現仮説は、十分に大きなモデルがモダリティを越えても共有表現幾何学に収束することを示唆している。
言語モデルのセマンティック知識は、ビジョンモデルをより効率的に改善できますか?
そこで本研究では,テキスト埋め込みを画像分類訓練に追加情報として注入する,簡単な補助的目的であるTextTeacherを紹介する。
TextTeacherは、簡単に利用できるイメージキャプション、事前訓練された凍結されたテキストエンコーダ、および軽量なプロジェクションを使用して、推論時間モデルのままでトレーニング中の表現を効率的にガイドするセマンティックアンカーを生成する。
標準的なViTバックボーンを持つImageNetでは、TextTeacherは最大2.7ポイント(p.p.)の精度を向上し、同じレシピと計算で一貫した転送ゲイン(平均+1.0 p.p.)を得る。
視覚知識の蒸留よりも優れ、一定の計算予算や類似の精度で精度が向上するが、33%高速である。
分析の結果,TextTeacherは機能空間プレコンディショナーとして機能し,トレーニングの第一段階で深い層を形成し,補完的な意味的手がかりを提供することで一般化を支援することが示唆された。
TextTeacherは無視可能なオーバーヘッドを追加し、ターゲットモデルのマルチモーダルなトレーニングを必要とせず、純粋な視覚モデルの単純さとレイテンシを保持する。
コードとキャプション付きのプロジェクトページ:https://nauen-it.de/publications/text-teacher
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつグローバルな視覚タスクのために,棚から効果的に利用可能な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Linearly Mapping from Image to Text Space [22.290431852705662]
テキストのみのモデルで学習した概念表現は、視覚タスクで学習したモデルと機能的に等価であることを示す。
3つの画像エンコーダと事前訓練中に見られる言語指導量の増大を比較した。
3つのエンコーダはいずれも、視覚特性情報を言語モデルに転送する際にも等しく機能することがわかった。
論文 参考訳(メタデータ) (2022-09-30T01:17:18Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。