論文の概要: Akasha 2: Hamiltonian State Space Duality and Visual-Language Joint Embedding Predictive Architectur
- arxiv url: http://arxiv.org/abs/2601.06212v1
- Date: Thu, 08 Jan 2026 18:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.681986
- Title: Akasha 2: Hamiltonian State Space Duality and Visual-Language Joint Embedding Predictive Architectur
- Title(参考訳): Akasha 2: ハミルトンのステートスペースの二重性と予測アーキテクチャを組み込んだビジュアルランゲージ
- Authors: Yani Meziani,
- Abstract要約: Akasha 2は、Handian State Space Duality (H-SSD)とVisual-Language Joint Embedding Predictive Architecture (VL-JEPA)を統合した最先端アーキテクチャである。
視覚合成にはハミルトンフローマッチング(HFM)と持続3次元ガウススプラッティング(3DGS)を導入する。
我々のアプローチは、物理学にインスパイアされた帰納バイアスを神経推論に組み込むことで、大きな改善をもたらすことを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Akasha 2, a state-of-the-art multimodal architecture that integrates Hamiltonian State Space Duality (H-SSD) with Visual-Language Joint Embedding Predictive Architecture (VL-JEPA). The system leverages the Mamba-3 Selective State Space Model (SSM) augmented by a Sparse Mixture of Hamiltonian Experts (SMoE-HE) that enforces latent physical conservation laws through symplectic integration. For visual synthesis, we introduce Hamiltonian Flow Matching (HFM) and persistent 3D Gaussian Splatting (3DGS), enabling ultra-low latency (<50ms) on mobile hardware. This work establishes a new paradigm in latent world models, achieving unprecedented spatiotemporal coherence through a holographic memory architecture. Our approach demonstrates that incorporating physics-inspired inductive biases into neural architectures yields significant improvements: state-of-the-art video prediction (FVD: 287), 4x faster visual synthesis than diffusion models, and 3-18x inference speedup over transformer baselines while maintaining energy conservation over extended horizons.
- Abstract(参考訳): 本稿では,Handian State Space Duality(H-SSD)とVisual-Language Joint Embedding Predictive Architecture(VL-JEPA)を統合した最先端のマルチモーダルアーキテクチャであるAkasha 2を紹介する。
このシステムは、シンプレクティック統合を通じて潜伏した物理保護法を施行するハミルトン専門家のスパースミキチャー(SMoE-HE)によって強化されたマンバ3選択状態空間モデル(SSM)を利用する。
視覚合成において,HMMと3次元ガウススプラッティング(3DGS)を導入し,モバイルハードウェア上での超低レイテンシ(50ms)を実現する。
この研究は、ホログラフィックメモリアーキテクチャを通じて、前例のない時空間コヒーレンスを達成する潜在世界モデルにおいて、新しいパラダイムを確立する。
提案手法は, 物理に着想を得た帰納的バイアスをニューラルネットワークに組み込むことで, 最先端のビデオ予測 (FVD: 287), 拡散モデルよりも4倍高速な視覚合成, 変圧器ベースライン上での3-18倍高速化, 拡張地平線上でのエネルギー保存の維持など, 大幅な改善をもたらすことを示す。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics [60.737929335600015]
4つの協調エージェントを通して幾何学的および生成的モデリングを統合するフレームワークである textbfHumanGenesis を提示する。
HumanGenesisは、テキスト誘導合成、ビデオ再現、新規目的一般化といったタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T14:50:19Z) - DSG-World: Learning a 3D Gaussian World Model from Dual State Videos [14.213608866611784]
本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
論文 参考訳(メタデータ) (2025-06-05T16:33:32Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation [10.843503146808839]
HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
論文 参考訳(メタデータ) (2025-03-10T04:01:48Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [49.36767999382054]
周期振動ガウスモデル(PVG)を提案する。
PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。
PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文 参考訳(メタデータ) (2023-11-30T13:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。