論文の概要: Social-JEPA: Emergent Geometric Isomorphism
- arxiv url: http://arxiv.org/abs/2603.02263v1
- Date: Sat, 28 Feb 2026 07:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.479452
- Title: Social-JEPA: Emergent Geometric Isomorphism
- Title(参考訳): 社会JEPA:創発的な幾何学的同型
- Authors: Haoran Zhang, Youjin Wang, Yi Duan, Rong Fu, Dianyu Zhao, Sicheng Fan, Shuaishuai Cao, Wentao Guo, Xiao Zhou,
- Abstract要約: 世界モデルは、リッチな感覚ストリームを圧縮して、将来の観測を期待するコンパクトな潜在コードにします。
我々は、パラメータ共有や調整を行わずに、同じ環境の異なる視点からそのようなモデルを取得する。
訓練後、それらの内部表現は顕著な創発性を示し、2つの潜在空間は近似線型等距離によって関連付けられる。
- 参考スコア(独自算出の注目度): 11.526381612918549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models compress rich sensory streams into compact latent codes that anticipate future observations. We let separate agents acquire such models from distinct viewpoints of the same environment without any parameter sharing or coordination. After training, their internal representations exhibit a striking emergent property: the two latent spaces are related by an approximate linear isometry, enabling transparent translation between them. This geometric consensus survives large viewpoint shifts and scant overlap in raw pixels. Leveraging the learned alignment, a classifier trained on one agent can be ported to the other with no additional gradient steps, while distillation-like migration accelerates later learning and markedly reduces total compute. The findings reveal that predictive learning objectives impose strong regularities on representation geometry, suggesting a lightweight path to interoperability among decentralized vision systems. The code is available at https://anonymous.4open.science/r/Social-JEPA-5C57.
- Abstract(参考訳): 世界モデルは、リッチな感覚ストリームを圧縮して、将来の観測を期待するコンパクトな潜在コードにします。
我々は、パラメータ共有や調整を行わずに、同じ環境の異なる視点からそのようなモデルを取得する。
トレーニングの後、それらの内部表現は顕著な創発性を示す: 2つの潜在空間は近似線型等距離によって関連付けられ、それらの間の透明な翻訳を可能にする。
この幾何学的コンセンサスは、大きな視点シフトを生き残り、生のピクセルの重なりを走査する。
学習されたアライメントを活用することで、あるエージェントで訓練された分類器を、追加の勾配ステップなしで別のエージェントに移植することができる一方で、蒸留のようなマイグレーションは後の学習を加速し、全体の計算を著しく削減する。
その結果,予測学習の目的が表現幾何学に強い規則性を与えることが明らかとなり,分散視覚システム間の相互運用への軽量な経路が示唆された。
コードはhttps://anonymous.4open.science/r/Social-JEPA-5C57で公開されている。
関連論文リスト
- HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - Two-Stream Interactive Joint Learning of Scene Parsing and Geometric Vision Tasks [24.19752468668527]
Two Interactive Streams (TwInS)は、シーン解析と幾何学的視覚タスクを同時に実行可能な、バイオインスパイアされた新しい共同学習フレームワークである。
TwInSは、費用がかかる人手による通信基盤の真理への依存をなくすため、調整された半教師付き訓練戦略を備えている。
論文 参考訳(メタデータ) (2026-02-14T04:11:19Z) - Gauge-invariant representation holonomy [1.078600700827543]
深層ネットワークは、幾何学的特徴を持つ内部表現(曲がり、回転、進化)を学習し、一般化と堅牢性の両方に影響を及ぼす。
CKAやSVCCAのような既存の類似度尺度は、アクティベーションセット間でポイントワイドに重なるが、入力パスに沿って表現がどのように変化するかを見逃す。
この経路依存性を測定するゲージ不変統計量である表現ホロノミーを導入する。
論文 参考訳(メタデータ) (2026-01-29T12:51:17Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Learning Abstract World Models with a Group-Structured Latent Space [12.685414866379366]
学習された遷移モデルの表現多様体に幾何的事前を課すことができるかを示す。
実験により、これは完全な非構造的アプローチよりも潜伏遷移モデルのより良い予測に繋がることを示した。
論文 参考訳(メタデータ) (2025-06-02T10:43:18Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - Understanding and Mitigating Hyperbolic Dimensional Collapse in Graph Contrastive Learning [70.0681902472251]
双曲空間における高品質グラフ埋め込みを学習するための新しいコントラスト学習フレームワークを提案する。
具体的には、階層的なデータ不変情報を効果的にキャプチャするアライメントメトリックを設計する。
双曲空間において、木の性質に関連する葉と高さの均一性に対処する必要があることを示す。
論文 参考訳(メタデータ) (2023-10-27T15:31:42Z) - Semi-Supervised Manifold Learning with Complexity Decoupled Chart Autoencoders [45.29194877564103]
本研究は、クラスラベルなどの半教師付き情報を付加できる非対称符号化復号プロセスを備えたチャートオートエンコーダを導入する。
このようなネットワークの近似力を議論し、周囲空間の次元ではなく、本質的にデータ多様体の内在次元に依存する境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T19:58:03Z) - Geometry Contrastive Learning on Heterogeneous Graphs [50.58523799455101]
本稿では,幾何学コントラスト学習(Geometry Contrastive Learning, GCL)と呼ばれる,新しい自己指導型学習手法を提案する。
GCLはユークリッドと双曲的な視点からヘテロジニアスグラフを同時に見ることができ、リッチな意味論と複雑な構造をモデル化する能力の強い融合を目指している。
4つのベンチマークデータセットの大規模な実験は、提案手法が強いベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-25T03:54:53Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。