論文の概要: LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
- arxiv url: http://arxiv.org/abs/2603.03269v1
- Date: Tue, 03 Mar 2026 18:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.940012
- Title: LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
- Title(参考訳): LoGeR: ハイブリッドメモリを用いた長期幾何学的再構成
- Authors: Junyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun,
- Abstract要約: 提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
- 参考スコア(独自算出の注目度): 97.14005794889134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.
- Abstract(参考訳): フィードフォワード幾何学的基礎モデルは、強いショートウインドウの再構成を実現するが、それを数分の動画に拡大することは、2次的注意の複雑さや再帰的な設計における有効メモリの制限によってボトルネックとなる。
提案するLoGeR(Long-context Geometric Reconstruction)は,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
チャンク境界間のコヒーレンスに関する重要な課題を管理するために,学習に基づくハイブリッドメモリモジュールを提案する。
このデュアルコンポーネントシステムは、パラメトリックテストタイムトレーニング(TTT)メモリを組み合わせて、グローバル座標フレームをアンカーし、スケールドリフトを防止し、非パラメトリックスライディングウィンドウアテンション(SWA)機構と組み合わせて、非圧縮コンテキストを高精度な隣接アライメントのために保持する。
注目すべきは、このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できることだ。
標準ベンチマークと、最大19kフレームのシーケンスを新たに再利用したVBRデータセットで評価されたLoGeRは、最先端のフィードフォワードメソッドを大幅に上回り、KITTI上のATEを74%以上削減し、前例のない地平線上で堅牢で一貫した再構築を実現している。
関連論文リスト
- MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry [6.060187129166582]
MERG3Rは、幾何学的基礎モデルのためのトレーニング不要な分母・分母フレームワークである。
MERG3Rは、無秩序な画像を、独立して再構成できる重なり合った幾何学的に多様なサブセットに分割する。
その後、効率的な大域的アライメントと信頼重み付きバンドル調整手順を通じて、得られた局所的な再構成をマージする。
7シーン、NRGBD、Tarms & Temples、Cambridge Landmarksを含む大規模なデータセット全体にわたって、MERG3Rは、再構築精度、メモリ効率、スケーラビリティを一貫して改善している。
論文 参考訳(メタデータ) (2026-03-02T19:49:25Z) - AllMem: A Memory-centric Recipe for Efficient Long-context Modeling [32.025154452526856]
大規模言語モデル(LLM)は、長時間のタスクにおいて重大なパフォーマンスボトルネックに直面する。
SWA(Sliding Window Attention)とTTT(Non-linear Test-Time Training)メモリネットワークを統合した,新規で効率的なハイブリッドアーキテクチャであるtextscAllMemを紹介する。
論文 参考訳(メタデータ) (2026-02-14T09:04:28Z) - Warp-Cortex: An Asynchronous, Memory-Efficient Architecture for Million-Agent Cognitive Scaling on Consumer Hardware [0.0]
Warp Cortexは、理論的には百万単位の認知スケーリングを可能にする非同期アーキテクチャである。
計算遅延がボトルネックになる前に、100個の並行エージェントを2.2GBの全VRAMで実証し、理論的能力は1,000個を超えることを示した。
さらに,非侵入的KV-cache更新機構であるReferential Injectionを導入する。
論文 参考訳(メタデータ) (2026-01-03T23:11:21Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction of Dynamic Scenes [41.108974064267436]
ReCon-GSは、高忠実なオンライン動的シーン再構築とリアルタイムレンダリングを可能にするストレージ対応フレームワークである。
本稿では,ReCon-GSがトレーニング効率を約15%向上し,FVV合成品質が向上することを示す。
同等のレンダリング品質では、ReCon-GSは最先端の方法と比較して、メモリ要求を50%以上削減する。
論文 参考訳(メタデータ) (2025-09-29T06:23:47Z) - mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。