Fugu-MT 論文翻訳(概要): Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

論文の概要: Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

arxiv url: http://arxiv.org/abs/2604.28122v1
Date: Thu, 30 Apr 2026 17:12:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:54.214544
Title: Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces
Title（参考訳）: Gassian Bottlenecksを超えて - 視覚変換器の特徴空間のトポロジ的符号化
Authors: Andrew Bond, Ilkin Umut Melanlioglu, Erkut Erdem, Aykut Erdem,
Abstract要約: S$2$VAEは,シーンの潜伏状態の圧縮と表現に焦点を当てた幾何学第一の潜伏学習フレームワークである。深度推定, カメラポーズ復元, 点雲再構成では, 幾何配向超球面潜水剤が従来のガウスボトルネックよりも常に優れていたことを示す。
参考スコア（独自算出の注目度）: 18.19675060489249
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern visual world modeling systems increasingly rely on high-capacity architectures and large-scale data to produce plausible motion, yet they often fail to preserve underlying 3D geometry or physically consistent camera dynamics. A key limitation lies not only in model capacity, but in the latent representations used to encode geometric structure. We propose S$^2$VAE, a geometry-first latent learning framework that focuses on compressing and representing the latent 3D state of a scene, including camera motion, depth, and point-level structure, rather than modeling appearance alone. Building on representations from a Visual Geometry Grounded Transformer (VGGT), we introduce a novel type of variational autoencoder using a product of Power Spherical latent distributions, explicitly enforcing hyperspherical structure in the bottleneck to preserve directional and geometric semantics under strong compression. Across depth estimation, camera pose recovery, and point cloud reconstruction, we show that geometry-aligned hyperspherical latents consistently outperform conventional Gaussian bottlenecks, particularly in high-compression regimes. Our results highlight latent geometry as a first-class design choice for physically grounded visual and world models.
Abstract（参考訳）: 現代のビジュアルワールドモデリングシステムは、高容量のアーキテクチャや大規模データに頼り、可視な動きを生成するが、基礎となる3D幾何学や物理的に一貫したカメラダイナミクスを維持できないことが多い。鍵となる制限は、モデルキャパシティだけでなく、幾何学的構造をエンコードするために使われる潜在表現にある。 S$^2$VAEは、外観のみをモデル化するのではなく、カメラの動き、深さ、点レベルの構造を含むシーンの潜伏状態の圧縮と表現に焦点を当てた幾何学第一の潜伏学習フレームワークである。 VGGT (Visual Geometry Grounded Transformer) の表現に基づいて, 強圧縮下での方向的および幾何学的セマンティクスを維持するために, 超球面ラテント分布の積を用いた新しいタイプの変分オートエンコーダを提案する。奥行き推定, カメラポーズ復元, 点雲再構成により, 幾何配向超球面潜水剤が従来のガウス的ボトルネック, 特に高圧状態において一貫して上回っていることを示す。本研究の結果は,物理接地型視覚モデルと世界モデルのための一級設計選択として,潜時幾何学に注目した。

関連論文リスト

Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors [61.34273238077091]
本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
論文参考訳（メタデータ） (2026-04-14T05:35:46Z)
SpatialStack: Layered Geometry-Language Fusion for 3D VLM Spatial Reasoning [22.547972947051765]
大規模な視覚言語モデル(VLM)は、まだ信頼性の高い3次元空間推論に苦戦している。本研究では,階層的な融合フレームワークであるSpatialStackを提案する。この枠組みに基づいて,複数次元空間推論ベンチマークにおける最先端性能を実現するモデル VLM-SpatialStack を開発した。
論文参考訳（メタデータ） (2026-03-28T22:49:40Z)
VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward [14.297118875382871]
VGGRPO(VGGRPO)は、幾何学を意識したポストトレーニング用フレームワークである。ビデオ拡散潜像を幾何学基礎モデルに縫い付け、潜像空間からのシーン幾何学の直接復号を可能にする。カメラの安定性、幾何の整合性、全体的な品質を改善しながら、コストのかかるVAEデコードを排除する。
論文参考訳（メタデータ） (2026-03-27T16:57:51Z)
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。 GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文参考訳（メタデータ） (2026-03-19T17:59:58Z)
RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文参考訳（メタデータ） (2025-12-03T05:11:57Z)
GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文参考訳（メタデータ） (2025-11-28T13:55:45Z)
WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文参考訳（メタデータ） (2025-10-24T17:39:52Z)
Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文参考訳（メタデータ） (2025-10-24T16:21:37Z)
LIST: Learning Implicitly from Spatial Transformers for Single-View 3D Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文参考訳（メタデータ） (2023-07-23T01:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。