論文の概要: SceneTok: A Compressed, Diffusable Token Space for 3D Scenes
- arxiv url: http://arxiv.org/abs/2602.18882v1
- Date: Sat, 21 Feb 2026 16:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.373245
- Title: SceneTok: A Compressed, Diffusable Token Space for 3D Scenes
- Title(参考訳): SceneTok:3Dシーンのための圧縮・拡散可能なトーケンスペース
- Authors: Mohammad Asim, Christopher Wewer, Jan Eric Lenssen,
- Abstract要約: SceneTokは、シーンのビューセットを圧縮・拡散可能な非構造化トークンセットにエンコードする新しいトークンである。
圧縮が他の表現よりも1~3桁強く、なおも最先端の復元品質に到達していることを示す。
- 参考スコア(独自算出の注目度): 18.094424146923892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SceneTok, a novel tokenizer for encoding view sets of scenes into a compressed and diffusable set of unstructured tokens. Existing approaches for 3D scene representation and generation commonly use 3D data structures or view-aligned fields. In contrast, we introduce the first method that encodes scene information into a small set of permutation-invariant tokens that is disentangled from the spatial grid. The scene tokens are predicted by a multi-view tokenizer given many context views and rendered into novel views by employing a light-weight rectified flow decoder. We show that the compression is 1-3 orders of magnitude stronger than for other representations while still reaching state-of-the-art reconstruction quality. Further, our representation can be rendered from novel trajectories, including ones deviating from the input trajectory, and we show that the decoder gracefully handles uncertainty. Finally, the highly-compressed set of unstructured latent scene tokens enables simple and efficient scene generation in 5 seconds, achieving a much better quality-speed trade-off than previous paradigms.
- Abstract(参考訳): SceneTokは、シーンのビューセットを圧縮・拡散可能な非構造化トークンセットにエンコードする新しいトークンである。
既存の3Dシーン表現と生成のアプローチでは、3Dデータ構造やビューアライメントフィールドが一般的である。
対照的に,シーン情報を空間格子から切り離された小集合の置換不変トークンに符号化する最初の手法を導入する。
シーントークンは、多くのコンテキストビューが与えられたマルチビュートークンザによって予測され、軽量の整流デコーダを用いて新しいビューに描画される。
圧縮が他の表現よりも1~3桁強く、なおも最先端の復元品質に到達していることを示す。
さらに、入力軌跡から逸脱するような新しい軌跡から表現できるので、デコーダが不確かさを適切に扱えることを示す。
最後に、高度に圧縮された非構造的なシーントークンセットは、単純で効率的なシーン生成を5秒で実現し、以前のパラダイムよりもはるかに優れた品質と速度のトレードオフを実現する。
関連論文リスト
- CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering [20.916387646203273]
本稿では,シーンを「圧縮光フィールドトークン(CLiFT)」として表現するニューラルレンダリング手法を提案する。
CLiFTは、圧縮されたトークンによる計算効率のレンダリングを可能にし、シーンを表すトークンの数を変更したり、トレーニングされたネットワークで新しいビューをレンダリングすることができる。
論文 参考訳(メタデータ) (2025-07-11T17:38:52Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-25T16:18:56Z) - 3D Scene Compression through Entropy Penalized Neural Representation
Functions [19.277502420759653]
新しいビジュアルメディアは、元のビューの離散セットを補間することにより、視聴者が任意の視点から3dシーンを探索できるようにする。
これらのタイプのアプリケーションには、はるかに大量のストレージスペースが必要です。
3Dシーンを圧縮するための既存のアプローチは、圧縮とレンダリングの分離に基づいている。
我々は、空間座標を放射ベクトル場にマッピングする関数であるシーンの暗黙の表現を直接圧縮することでこれらのステップを統一し、任意の視点を描画するためにクエリすることができる。
本手法はシーン圧縮の最先端手法を著しく上回り,同時に高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-04-26T10:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。