論文の概要: Text-Conditional JEPA for Learning Semantically Rich Visual Representations
- arxiv url: http://arxiv.org/abs/2605.03245v1
- Date: Tue, 05 May 2026 00:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.694854
- Title: Text-Conditional JEPA for Learning Semantically Rich Visual Representations
- Title(参考訳): 意味的にリッチな視覚表現を学習するためのテキスト記述型JEPA
- Authors: Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind,
- Abstract要約: 本稿では,画像キャプションを用いて予測の不確実性を低減するテキスト記述型JEPAを提案する。
TC-JEPAはダウンストリーム性能とトレーニングの安定性を向上し、将来性のあるスケーリング特性を示す。
TC-JEPAはまた、機能予測のみに基づく新しい視覚言語事前訓練パラダイムを提供し、多様なタスクにおける対照的な手法よりも優れています。
- 参考スコア(独自算出の注目度): 18.194102334040817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based Joint-Embedding Predictive Architecture (I-JEPA) offers a promising approach to visual self-supervised learning through masked feature prediction. However with the inherent visual uncertainty at masked positions, feature prediction remains challenging and may fail to learn semantic representations. In this work, we propose Text-Conditional JEPA (TC-JEPA) that uses image captions to reduce the prediction uncertainty. Specifically, we modulate the predicted patch features using a fine-grained text conditioner that computes sparse cross-attention over input text tokens. With such conditioning, patch features become predictable as a function of text, thus are more semantically meaningful. We show TC-JEPA improves downstream performance and training stability, with promising scaling properties. TC-JEPA also offers a new vision-language pretraining paradigm based on feature prediction only, outperforming contrastive methods on diverse tasks, especially those requiring fine-grained visual understanding and reasoning.
- Abstract(参考訳): 画像ベース統合埋め込み予測アーキテクチャ(I-JEPA)は、マスク付き特徴予測を通じて視覚的自己教師型学習に有望なアプローチを提供する。
しかし、マスクされた位置で固有の視覚的不確実性のため、特徴予測は依然として困難であり、意味表現を学ばない可能性がある。
本研究では,画像キャプションを用いて予測の不確実性を低減するテキストコンテンツJEPA(TC-JEPA)を提案する。
具体的には,入力されたテキストトークンに対するスパースなクロスアテンションを演算する微細なテキストコンディショナーを用いて,予測されたパッチ機能を変調する。
このような条件付けにより、パッチ機能はテキストの関数として予測可能になり、意味的に意味のあるものになる。
TC-JEPAはダウンストリーム性能とトレーニングの安定性を向上し、将来性のあるスケーリング特性を示す。
TC-JEPAはまた、機能予測のみに基づく新しい視覚言語事前訓練パラダイムを提供し、様々なタスク、特にきめ細かい視覚的理解と推論を必要とするタスクにおいて、コントラスト的手法よりも優れている。
関連論文リスト
- JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation [10.00677022779314]
画像とキャプションを個別の視覚的およびテキスト的トークンに符号化する統合マルチモーダルフレームワークを提案する。
タスク非依存のバックボーンを維持しながら条件付き認知のための特徴予測器のクロスアテンションを組み込んだ。
提案手法は, トークンベースのT2Iにおいて, 遅延アーキテクチャ融合と目的レベルのアライメントを組み合わせることで, コンディショニング強度とバックボーンの汎用性とを効果的にバランスできることを示す。
論文 参考訳(メタデータ) (2025-10-01T14:51:10Z) - Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning [7.083341587100975]
Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Autoencoder (MAE)に代わる魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-10-14T17:46:24Z) - FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [5.163945166074474]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。