Fugu-MT 論文翻訳(概要): Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

論文の概要: Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

arxiv url: http://arxiv.org/abs/2602.22617v1
Date: Thu, 26 Feb 2026 04:45:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.52894
Title: Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA
Title（参考訳）: セマンティックチューブ予測:JEPAによるLCMデータの効率向上
Authors: Hai Huang, Yann LeCun, Randall Balestriero,
Abstract要約: 我々は、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。本稿では,この制約により信号対雑音比が向上し,軌道中の衝突を防止することにより多様性が保たれることを示す。幾何学的先行性は、ブルートフォーススケーリングを超越できることを実証する。
参考スコア（独自算出の注目度）: 50.494504099850325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available at https://github.com/galilai-group/llm-jepa#stp.
Abstract（参考訳）: 大規模言語モデル(LLM)は、一貫したスケーリング法則に従う -- 計算、データ、パラメータによる損失の減少を予測する実証的なパワーローが適合する。予測的ではあるが、これらの法則は規範的ではなく記述的であり、最適な訓練ではなく、典型的な訓練を特徴付ける。驚くべきことに、これらの法律によって示されるデータ効率の限界に挑戦する研究はほとんどありません。そのために、トークン列が滑らかな意味多様体上の測地線を辿り、従って局所線型であることを示す測地論仮説を導入する。この原理に基づいて,隠れ状態軌道をジオデシックの管状近傍に閉じ込めるJEPA型正規化器であるセマンティックチューブ予測(STP)タスクを提案する。 STPは明示的なマルチビュー拡張を必要とせずにJEPAを言語に一般化する。この制約によって信号と雑音の比が向上し、推論中の軌道衝突を防止して多様性が保たれることを示す。経験的に、STPはLLMをベースライン精度を16$\times$でNL-RX-SYNTHデータセットのトレーニングデータと一致させ、チンチラスタイルのスケーリング法則のデータ項を直接違反し、原理化された幾何学的事前がブルートフォーススケーリングを超過できることを実証する。コードはhttps://github.com/galilai-group/llm-jepa#stp.comで入手できる。

関連論文リスト

Perplexity-Aware Data Scaling Law: Perplexity Landscapes Predict Performance for Continual Pre-training [46.54209378000497]
事前トレーニングのスケーリング法則は、データセットのサイズとLLMのテスト損失との間には、ゆるい関係がある。本稿では,ドメイン固有データの難易度景観とテスト損失との予測的関係を確立するために,新しいパープレキシティ対応データスケーリング法を提案する。本手法は, ほぼ最適トレーニングサブセットを一貫して同定し, 医用および一般のベンチマークにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-12-25T05:40:46Z)
Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文参考訳（メタデータ） (2025-10-28T16:55:22Z)
Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Temporal Scaling Law for Large Language Models [70.74571133406958]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Scaling Laws for Downstream Task Performance in Machine Translation [27.278023091494507]
BLEU や COMET などの指標を用いて,事前学習データの選択が下流のパフォーマンス(翻訳品質)に与える影響について検討した。十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
論文参考訳（メタデータ） (2024-02-06T17:31:20Z)
Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-04T01:55:00Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。