論文の概要: BRo-JEPA: Learning Modular Arithmetic in Latent Space
- arxiv url: http://arxiv.org/abs/2606.01372v1
- Date: Sun, 31 May 2026 18:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.668253
- Title: BRo-JEPA: Learning Modular Arithmetic in Latent Space
- Title(参考訳): BRo-JEPA: 潜在空間におけるモジュラー算術の学習
- Authors: Divyansh Jha, Yuanfang Xie, Varan Mehra, Brennen Yu,
- Abstract要約: 我々はMNIST桁を状態として、モジュール演算をJEPAスタイルの潜在世界モデルにおけるアクションとして使用する。
本稿では,ラテント空間におけるModulo-10演算の円形構造を強制するブロック回転予測器を提案する。
この結果から,潜在世界モデルは,アーキテクチャが問題の構造に一致する場合に,象徴的変換規則を学習できることが示唆された。
- 参考スコア(独自算出の注目度): 0.7697947254265372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can neural networks learn abstract algebraic rules, or do they merely memorize training patterns? We investigate this using MNIST digits as states and modular arithmetic operations as actions in a JEPA-style latent world model. Standard supervised baselines and JEPA models with additive operation embeddings fit seen operations but fail to extrapolate reliably to unseen ones. To bridge this gap, we introduce a block-rotation predictor that imposes the circular structure of modulo-10 arithmetic in latent space. This enables strong zero-shot generalization, with the best ResNet-based JEPA block-rotation model achieving 99.46\% zero-shot and 99.46\% rollout accuracy. Our results suggest that latent world models can learn symbolic transformation rules when architecture matches the structure of the problem. Our code can be \href{https://github.com/DL-World-Models/mnist-math}{accessed here}.
- Abstract(参考訳): ニューラルネットワークは抽象代数規則を学習できるのか、それとも単にトレーニングパターンを記憶するだけなのか?
我々は、MNIST桁を状態とし、モジュール演算をJEPAスタイルの潜在世界モデルにおけるアクションとして検討する。
標準的な教師付きベースラインと追加操作の埋め込みを備えたJEPAモデルは、見知らぬ操作に適合するが、見つからない操作に確実に外挿することができない。
このギャップを埋めるために、ラテント空間における modulo-10 算術の円形構造を強制するブロック回転予測器を導入する。
これにより、強力なゼロショットの一般化が可能になり、最高のResNetベースのJEPAブロックローテーションモデルが99.46\%ゼロショットと99.46\%ロールアウト精度を達成した。
この結果から,潜在世界モデルは,アーキテクチャが問題の構造に一致する場合に,象徴的変換規則を学習できることが示唆された。
私たちのコードは \href{https://github.com/DL-World-Models/mnist-math}{ accessed here} です。
関連論文リスト
- A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures [58.26804959656713]
JEPA(Joint-Embedding Predictive Architectures)を用いた表現と世界モデルを学習するためのオープンソースのライブラリであるEB-JEPAを提案する。
JEPAsは、ピクセル空間ではなく表現空間で予測することを学び、生成モデリングの落とし穴を避ける。
これらの表現がどのように行動条件付き世界モデルを駆動し、Two Roomsナビゲーションタスクで97%の計画成功率を達成するかを示す。
論文 参考訳(メタデータ) (2026-02-03T14:56:24Z) - LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics [53.247652209132376]
JEPA(Joint-Embedding Predictive Architectures)は、有望な青写真を提供するが、実践的なガイダンスや理論の欠如がアドホックな研究開発につながっている。
我々はJEPAの包括的な理論を示し、それをbf LeJEPAでインスタンス化する。
論文 参考訳(メタデータ) (2025-11-11T18:21:55Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - State space models can express n-gram languages [51.823427608117626]
我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。
我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。
n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Classification of integers based on residue classes via modern deep
learning algorithms [3.6396223542930772]
素数で分割した場合の残差に基づいて、複数のディープラーニングアーキテクチャと特徴工学的手法を検証した。
また、Amazon、Google、MicrosoftのAutomated Machine Learningプラットフォームを評価しました。
結論として、機能エンジニアリングは、パフォーマンスを改善し、機械学習モデルの解釈可能性を高めるための重要なタスクである。
論文 参考訳(メタデータ) (2023-04-03T19:53:31Z) - Privacy-Preserving Machine Learning with Fully Homomorphic Encryption
for Deep Neural Network [8.2840469490081]
ホモモルフィック暗号化(FHE)は、プライバシ保護機械学習(PPML)のためのツールの1つである。
FHEデータ上の従来のPPMLモデルは、単純な機械学習モデルと非標準的な機械学習モデルにのみ暗号化される。
本研究では,ReLUのような非算術的関数を十分精度で評価するために,最先端の近似法を用いる。
論文 参考訳(メタデータ) (2021-06-14T08:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。