論文の概要: VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
- arxiv url: http://arxiv.org/abs/2512.10942v1
- Date: Thu, 11 Dec 2025 18:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.567745
- Title: VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
- Title(参考訳): VL-JEPA: 視覚言語のための予測アーキテクチャの共同埋め込み
- Authors: Delong Chen, Mustafa Shukor, Theo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung,
- Abstract要約: 我々は,JEPA(Joint Embedding Predictive Architecture)上に構築された視覚言語モデルであるVL-JEPAを紹介する。
抽象表現空間で学習することにより、そのモデルは、表面レベルの言語的多様性を抽象化しながら、タスク関連セマンティクスに焦点を当てる。
推測時には、VL-JEPA予測埋め込みをテキストに変換する必要のある場合にのみ、軽量テキストデコーダが呼び出される。
- 参考スコア(独自算出の注目度): 54.86811250366009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VL-JEPA, a vision-language model built on a Joint Embedding Predictive Architecture (JEPA). Instead of autoregressively generating tokens as in classical VLMs, VL-JEPA predicts continuous embeddings of the target texts. By learning in an abstract representation space, the model focuses on task-relevant semantics while abstracting away surface-level linguistic variability. In a strictly controlled comparison against standard token-space VLM training with the same vision encoder and training data, VL-JEPA achieves stronger performance while having 50% fewer trainable parameters. At inference time, a lightweight text decoder is invoked only when needed to translate VL-JEPA predicted embeddings into text. We show that VL-JEPA natively supports selective decoding that reduces the number of decoding operations by 2.85x while maintaining similar performance compared to non-adaptive uniform decoding. Beyond generation, the VL-JEPA's embedding space naturally supports open-vocabulary classification, text-to-video retrieval, and discriminative VQA without any architecture modification. On eight video classification and eight video retrieval datasets, the average performance VL-JEPA surpasses that of CLIP, SigLIP2, and Perception Encoder. At the same time, the model achieves comparable performance as classical VLMs (InstructBLIP, QwenVL) on four VQA datasets: GQA, TallyQA, POPE and POPEv2, despite only having 1.6B parameters.
- Abstract(参考訳): 本稿では,JEPA(Joint Embedding Predictive Architecture)上に構築された視覚言語モデルであるVL-JEPAを紹介する。
古典的なVLMのように自動回帰的にトークンを生成する代わりに、VL-JEPAはターゲットテキストの連続的な埋め込みを予測する。
抽象表現空間で学習することにより、そのモデルは、表面レベルの言語的多様性を抽象化しながら、タスク関連セマンティクスに焦点を当てる。
同じビジョンエンコーダとトレーニングデータによる標準トークン空間VLMトレーニングと厳密に制御された比較では、VL-JEPAはトレーニング可能なパラメータを50%減らしながら、より強力なパフォーマンスを達成する。
推測時には、VL-JEPA予測埋め込みをテキストに変換する必要のある場合にのみ、軽量テキストデコーダが呼び出される。
我々は,VL-JEPAが選択復号化をネイティブにサポートし,非適応的均一復号化と同等の性能を維持しつつ,復号化操作数を2.85倍に削減することを示した。
世代を超えて、VL-JEPAの埋め込み空間は自然にオープン語彙分類、テキストからビデオへの検索、そしてアーキテクチャの変更なしに差別的なVQAをサポートする。
8つのビデオ分類と8つのビデオ検索データセットにおいて、平均的なパフォーマンスのVL-JEPAはCLIP、SigLIP2、Perception Encoderを上回っている。
同時に、モデルは1.6Bパラメータしか持たないにもかかわらず、4つのVQAデータセット(GQA、TallyQA、POPE、POPEv2)上で、古典的なVLM(InstructBLIP、QwenVL)と同等のパフォーマンスを達成する。
関連論文リスト
- LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文 参考訳(メタデータ) (2025-11-26T08:11:10Z) - CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning [7.083341587100975]
Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Autoencoder (MAE)に代わる魅力的な代替手段を提供する。
IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。
我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-10-14T17:46:24Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。