論文の概要: Stream3D: Sequential Multi-View 3D Generation via Evidential Memory
- arxiv url: http://arxiv.org/abs/2605.21472v1
- Date: Wed, 20 May 2026 17:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.830369
- Title: Stream3D: Sequential Multi-View 3D Generation via Evidential Memory
- Title(参考訳): Stream3D: 証拠記憶による連続多視点3D生成
- Authors: Kaichen Zhou, Zeyang Bai, Xinhai Chang, Mengyu Wang, Paul Liang, Fangneng Zhan,
- Abstract要約: Stream3Dは、凍結したビューコンディショニングされた3Dジェネレータを、一定のクロスチャンクメモリを備えたストリーミングジェネレータに変える、トレーニング不要のストリーミングメカニズムである。
リアル・ストリーミング・ベンチマークと シンセサイザー・ストリーミング・ベンチマークで評価しました
- 参考スコア(独自算出の注目度): 20.313446116978586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: View-conditioned 3D generators such as SAM 3D, TRELLIS and Hunyuan3D produce high-quality object reconstructions from a single view, but real-world visual observation often arrives as long monocular streams. Naively applying these generators to each streaming frame independently leads to severe temporal inconsistency in the generated results. To address this problem, we propose Stream3D, the first training-free streaming mechanism that turns a frozen view-conditioned 3D generator into a streaming generator with constant cross-chunk memory. Stream3D achieves this by maintaining a compact evidential memory, which selectively caches the most informative historical frames based on a proposed evidence score mechanism. As the stream progresses, the memory dynamically updates to retain a fixed number of informative frames, preventing the memory footprint from growing linearly with sequence length. This also prevents degradation over long sequences and keeps the underlying generator completely unchanged without retraining, architectural modifications, or auxiliary losses. Evaluated on both realistic and synthetic streaming benchmarks, Stream3D outperforms latent-transport baselines, including KV-cache reuse and flow-based feature editing, across both photometric and geometric metrics. More details can be found at: https://anonymous-submission-20.github.io/streaming3D.github.io/.
- Abstract(参考訳): SAM 3D、TRELLIS、Hunyuan 3Dなどのビューコンディショナブルな3Dジェネレータは、単一のビューから高品質なオブジェクト再構成を生成するが、現実の視覚観察は長い単分子ストリームとして現れることが多い。
これらのジェネレータを個別にストリーミングフレームに適用すると、生成した結果に時間的不整合が発生する。
この問題に対処するために,凍結したビューコンディショニングされた3Dジェネレータを一定のクロスチャンクメモリを持つストリーミングジェネレータに変換する,最初のトレーニング不要なストリーミング機構であるStream3Dを提案する。
Stream3Dは、提案したエビデンススコア機構に基づいて、最も情報性の高い歴史的フレームを選択的にキャッシュする、コンパクトな明細メモリを維持することでこれを実現している。
ストリームが進行するにつれて、メモリは動的に更新され、一定数の情報フレームを保持する。
これはまた、長いシーケンスの劣化を防ぎ、下層のジェネレータを完全に変更することなく、再トレーニング、アーキテクチャの変更、補助的な損失を発生させる。
Stream3Dは、リアルなストリーミングベンチマークと合成ストリーミングベンチマークの両方で評価され、KV-cacheの再利用やフローベースの機能編集を含む遅延トランスポートベースラインを、測光と測度の両方で上回る。
詳しくは、https://anonymous-submission-20.github.io/streaming3D.github.io/を参照のこと。
関連論文リスト
- Geometric Context Transformer for Streaming 3D Reconstruction [51.19524805829903]
LingBot-Mapは、ストリーミングデータからシーンを再構築するためのフィードフォワード3Dファウンデーションモデルである。
LingBot-Mapの定義的な側面は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを統合した、慎重に設計されたアテンションメカニズムにある。
この設計は、リッチな幾何学的コンテキストを維持しながら、ストリーミング状態をコンパクトに保ち、518 x 378の解像度入力に対して、20FPS程度の安定した効率的な推論を可能にする。
論文 参考訳(メタデータ) (2026-04-15T17:58:13Z) - Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - Mem3R: Streaming 3D Reconstruction with Hybrid Memory via Test-Time Training [8.037339305506656]
ハイブリッドメモリ設計によるストリーミング3D再構成モデルであるMem3Rを提案する。
カメラトラッキングでは、Mem3Rは軽量のMulti-Layer Perceptronとして実装された暗黙の高速メモリを使用している。
幾何学的マッピングでは、Mem3Rは明示的なトークンベースの固定サイズ状態を維持している。
論文 参考訳(メタデータ) (2026-04-08T16:41:22Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - STAC: Plug-and-Play Spatio-Temporal Aware Cache Compression for Streaming 3D Reconstruction [16.772404929988507]
ストリーミング入力からの3D再構成には、長期的な時間的一貫性と効率的なメモリ使用の両方が必要である。
STACは大きな因果変換器で3D再構成を行うためのフレームワークである。
実験の結果,STACはメモリ消費を10倍近く削減し,VG 4xによる推論を高速化しながら,最先端の再構築品質を実現することがわかった。
論文 参考訳(メタデータ) (2026-03-18T06:36:46Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。