論文の概要: FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.18493v1
- Date: Thu, 19 Mar 2026 04:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.962777
- Title: FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction
- Title(参考訳): FILT3R:3次元再構成のための潜在状態適応カルマンフィルタ
- Authors: Seonghyun Jin, Jong Chul Ye,
- Abstract要約: ストリーミング3D再構築は、受信フレームからオンラインで更新される永続的な潜伏状態を維持する。
FILT3Rは、トークン空間における状態推定として、リカレントな状態更新をキャストする。
コードはhttps://github.com/jinotter3/FILT3Rでリリースされる。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming 3D reconstruction maintains a persistent latent state that is updated online from incoming frames, enabling constant-memory inference. A key failure mode is the state update rule: aggressive overwrites forget useful history, while conservative updates fail to track new evidence, and both behaviors become unstable beyond the training horizon. To address this challenge, we propose FILT3R, a training-free latent filtering layer that casts recurrent state updates as stochastic state estimation in token space. FILT3R maintains a per-token variance and computes a Kalman-style gain that adaptively balances memory retention against new observations. Process noise -- governing how much the latent state is expected to change between frames -- is estimated online from EMA-normalized temporal drift of candidate tokens. Using extensive experiments, we demonstrate that FILT3R yields an interpretable, plug-in update rule that generalizes common overwrite and gating policies as special cases. Specifically, we show that gains shrink in stable regimes as uncertainty contracts with accumulated evidence, and rise when genuine scene change increases process uncertainty, improving long-horizon stability for depth, pose, and 3D reconstruction, compared to the existing methods. Code will be released at https://github.com/jinotter3/FILT3R.
- Abstract(参考訳): ストリーミング3D再構成は、入ってくるフレームからオンラインに更新される永続的な潜伏状態を維持し、定数メモリ推論を可能にする。
攻撃的な上書きは有用な履歴を忘れるが、保守的な更新は新しい証拠を追跡できず、両方の動作がトレーニングの地平を越えて不安定になる。
この課題に対処するために、トークン空間における確率的状態推定として、繰り返し状態の更新をキャストするトレーニング不要の遅延フィルタリング層であるFILT3Rを提案する。
FILT3Rは、トークンごとの分散を維持し、新しい観測に対してメモリ保持を適応的にバランスさせるカルマン式ゲインを計算する。
プロセスノイズ -- フレーム間の潜伏状態がどの程度変化するかを決定する -- は、EMAが正規化した候補トークンの時間的ドリフトからオンラインで推定される。
FILT3Rは,一般的なオーバライトとゲーティングポリシを特殊なケースとして一般化した,解釈可能なプラグイン更新ルールを出力することを示した。
具体的には、蓄積された証拠を伴う不確実性契約が成立し、実際のシーン変化がプロセスの不確実性を高め、奥行き・ポーズ・3次元再構成の長期安定性を向上させることにより、安定した状態のゲインが減少することを示す。
コードはhttps://github.com/jinotter3/FILT3Rでリリースされる。
関連論文リスト
- SSR: A Training-Free Approach for Streaming 3D Reconstruction [53.19807901585702]
自己表現型シーケンス規則化(Self Expressive Sequence Regularization、SSR)は、推論中にグラスマン列の正則性を強制するプラグアンドプレイ演算子である。
本研究では,SSRが連続的にドリフトを低減し,複数のストリーミング3D再構成タスクにおける再構成品質を向上させることを示す。
論文 参考訳(メタデータ) (2026-03-16T02:55:14Z) - HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising [52.237486207964245]
HiARは階層的なデノベーションフレームワークで、従来の世代順を逆転させる。
発声ステップ毎に全てのブロックを因果生成し、各ブロックが常に同じノイズレベルでコンテキストで条件付けされるようにする。
VBench(20世代)では、HiARは比較したすべての方法の中で最高の総合スコアと最低時間ドリフトを達成する。
論文 参考訳(メタデータ) (2026-03-09T17:58:16Z) - OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction [11.124244013253806]
ストリーミングリカレントモデルは、永続的な状態表現を維持することで効率的な3D再構成を可能にする。
近年の手法では、アダプティブシグナルを注意視点から導き出すことによってこれを緩和している。
本稿では,時間的状態の進化と空間的観察品質の両面を活用する,TTSA3Rというトレーニングフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:14:42Z) - Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression [53.48692193399171]
Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。
テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-11-26T03:26:37Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。