論文の概要: Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
- arxiv url: http://arxiv.org/abs/2602.22617v1
- Date: Thu, 26 Feb 2026 04:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.52894
- Title: Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
- Title(参考訳): セマンティックチューブ予測:JEPAによるLCMデータの効率向上
- Authors: Hai Huang, Yann LeCun, Randall Balestriero,
- Abstract要約: 我々は、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。
本稿では,この制約により信号対雑音比が向上し,軌道中の衝突を防止することにより多様性が保たれることを示す。
幾何学的先行性は、ブルートフォーススケーリングを超越できることを実証する。
- 参考スコア(独自算出の注目度): 50.494504099850325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available at https://github.com/galilai-group/llm-jepa#stp.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一貫したスケーリング法則に従う -- 計算、データ、パラメータによる損失の減少を予測する実証的なパワーローが適合する。
予測的ではあるが、これらの法則は規範的ではなく記述的であり、最適な訓練ではなく、典型的な訓練を特徴付ける。
驚くべきことに、これらの法律によって示されるデータ効率の限界に挑戦する研究はほとんどありません。
そのために、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。
この原理に基づいて,隠れ状態軌道をジオデシックの管状近傍に閉じ込めるJEPA型正規化器であるセマンティックチューブ予測(STP)タスクを提案する。
STPは明示的なマルチビュー拡張を必要とせずにJEPAを言語に一般化する。
この制約によって信号と雑音の比が向上し、推論中の軌道衝突を防止して多様性が保たれることを示す。
経験的に、STPはLLMをベースライン精度を16$\times$でNL-RX-SYNTHデータセットのトレーニングデータと一致させ、チンチラスタイルのスケーリング法則のデータ項を直接違反し、原理化された幾何学的事前がブルートフォーススケーリングを超過できることを実証する。
コードはhttps://github.com/galilai-group/llm-jepa#stp.comで入手できる。
関連論文リスト
- Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。