論文の概要: Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning
- arxiv url: http://arxiv.org/abs/2606.05173v1
- Date: Thu, 16 Apr 2026 22:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.623399
- Title: Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning
- Title(参考訳): 予測と再構成:自己監督型言語表現学習のための共同目的
- Authors: Aimen Boukhari,
- Abstract要約: Masked Language Modelling (MLM) は BERT 以降,テキストエンコーダの事前学習の主流となっている。
視覚とオーディオにおけるJEPA(Joint Embedding Predictive Architectures)の成功に触発されて,我々はハイブリッドな目的を提案する。
我々は、同じアーキテクチャと計算予算を用いて、ハイブリッドモデルと純粋MLMベースラインの両方を英語ウィキペディアで事前訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modelling (MLM) has been the dominant pre-training objective for text encoders since BERT, yet it encourages representations that are strongly anchored to surface-form token identity rather than deeper semantic structure. Inspired by the success of Joint Embedding Predictive Architectures (JEPA) (LeCun, 2022) in vision and audio, we propose a hybrid pre-training objective that combines a JEPA-style latent-space prediction loss with a standard MLM objective over a single shared encoder. A learnable scalar parameter continuously balances the two objectives during training. We pre-train both a hybrid model and a pure-MLM baseline on English Wikipedia using identical architectures and compute budgets (NVIDIA H100). Extensive representation analysis across five GLUE benchmarks (SST-2, MRPC, MNLI, CoLA, STS-B) using four pooling strategies reveals that the hybrid encoder produces significantly more uniform embeddings (uniformity less than -0.16 vs -0.05 for MLM), exhibits richer spectral geometry under max pooling, encodes less surface-level lexical information, and achieves a better semantic-to-lexical balance. Despite similar linear-probe downstream accuracy, the geometric differences are consistent and significant, suggesting that the JEPA predictive objective reshapes the latent space in ways that standard accuracy metrics alone cannot capture.
- Abstract(参考訳): Masked Language Modelling (MLM) はBERT以来、テキストエンコーダの主要な事前学習対象となっているが、より深い意味構造ではなく、表面形状のトークンアイデンティティに強く固定された表現を推奨している。
視覚とオーディオにおけるJEPA(LeCun,2022)の成功に触発されて,JEPAスタイルの潜在空間予測損失と,単一の共有エンコーダ上での標準MLM目標を組み合わせたハイブリッド事前学習目標を提案する。
学習可能なスカラーパラメータは、トレーニング中に2つの目標を継続的にバランスさせる。
我々は、同じアーキテクチャと計算予算(NVIDIA H100)を使用して、ハイブリッドモデルと純粋MLMベースラインの両方を英語ウィキペディアで事前訓練する。
4つのプール戦略を用いた5つのGLUEベンチマーク(SST-2, MRPC, MNLI, CoLA, STS-B)の広範な表現解析により、ハイブリッドエンコーダは、より均一な埋め込み(MLMでは-0.16 対-0.05 以下)を実現し、最大プーリングの下でよりリッチなスペクトル幾何学を示し、表面レベルの語彙情報をエンコードし、セマンティック・レキシカルバランスを向上していることが明らかとなった。
類似した線形プローブ下流の精度にもかかわらず、幾何的な違いは一貫性と重要なものであり、JEPA予測目的が標準精度メトリクスだけでは捉えられない方法で潜伏空間を再認識していることを示唆している。
関連論文リスト
- HQ-JEPA: Hybrid Quantum Joint-Embedding Predictive Architecture for Cross-Modal Remote Sensing Representation Learning [17.65267962254814]
HQ-JEPAは、クロスモーダルリモートセンシング表現学習のためのハイブリッド量子古典型共同埋め込み予測アーキテクチャである。
その結果、HQ-JEPAは、強力な自己監視・リモートセンシング基盤モデルベースラインよりも、競争力があり、しばしば優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2026-05-29T09:37:35Z) - Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation [3.0739122323721766]
MoA-DepthCLIPは、最小限の監督で単眼深度推定に事前訓練されたCLIP表現を適用する。
本手法では,Mixture-of-Adapters (MoA) モジュールを事前学習したビジョントランス (ViT-B/32) のバックボーンに統合する。
NYU Depth V2ベンチマークでは、MoA-DepthCLIPは、DepthCLIPベースラインを大幅に上回る競争結果を得る。
論文 参考訳(メタデータ) (2026-04-01T16:41:04Z) - SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy [12.070587084660096]
走査型プローブ顕微鏡(SPM)に特化して設計されたPhDレベルのマルチモーダルベンチマークを提案する。
AGS(Anchor-Gated Sieve)技術を用いて,2023年から2025年にかけて発行されたarXivとジャーナル論文から高価値画像テキストペアを効率よく抽出する。
当社のパイプラインは,高データセットの純度を維持しながら,極端なトークン保存を実現しています。
論文 参考訳(メタデータ) (2026-02-26T13:08:56Z) - VL-JEPA: Joint Embedding Predictive Architecture for Vision-language [54.86811250366009]
我々は,JEPA(Joint Embedding Predictive Architecture)上に構築された視覚言語モデルであるVL-JEPAを紹介する。
抽象表現空間で学習することにより、そのモデルは、表面レベルの言語的多様性を抽象化しながら、タスク関連セマンティクスに焦点を当てる。
推測時には、VL-JEPA予測埋め込みをテキストに変換する必要のある場合にのみ、軽量テキストデコーダが呼び出される。
論文 参考訳(メタデータ) (2025-12-11T18:59:22Z) - LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics [53.247652209132376]
JEPA(Joint-Embedding Predictive Architectures)は、有望な青写真を提供するが、実践的なガイダンスや理論の欠如がアドホックな研究開発につながっている。
我々はJEPAの包括的な理論を示し、それをbf LeJEPAでインスタンス化する。
論文 参考訳(メタデータ) (2025-11-11T18:21:55Z) - Enhancing DNA Foundation Models to Address Masking Inefficiencies [18.54660252939211]
マスク付きオートエンコーダフレームワークをベースとした改良型エンコーダデコーダアーキテクチャを提案する。
我々は,BIOSCAN-5Mデータセットに対するアプローチを,200万以上のユニークなDNAバーコードから評価した。
論文 参考訳(メタデータ) (2025-02-25T17:56:25Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks [14.338754598043968]
データ表現の自己教師型学習には2つの競合パラダイムが存在する。
JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。
論文 参考訳(メタデータ) (2024-07-03T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。