論文の概要: SEGAR: Selective Enhancement for Generative Augmented Reality
- arxiv url: http://arxiv.org/abs/2603.24541v1
- Date: Wed, 25 Mar 2026 17:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.405508
- Title: SEGAR: Selective Enhancement for Generative Augmented Reality
- Title(参考訳): SEGAR: ジェネレーティブ拡張現実のための選択的拡張
- Authors: Fanjun Bu, Chenyang Yuan, Hiroshi Yasuda,
- Abstract要約: このビジョンを支援するために,拡散型世界モデルと選択的補正段階を組み合わせた予備的フレームワークSEGARを提案する。
世界モデルは、他の領域を保存しながら、地域固有の編集を施した拡張将来のフレームを生成し、修正段階はその後、他の領域に意図した拡張を保存しながら、現実の観察と安全クリティカルな領域を整列させる。
我々はこれを、生成的世界モデルに向けた初期段階として、将来のフレームを生成し、キャッシュし、必要に応じて選択的に修正できる実用的なARインフラストラクチャとして見ている。
- 参考スコア(独自算出の注目度): 10.847045805138407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models offer a compelling foundation for augmented-reality (AR) applications: by predicting future image sequences that incorporate deliberate visual edits, they enable temporally coherent, augmented future frames that can be computed ahead of time and cached, avoiding per-frame rendering from scratch in real time. In this work, we present SEGAR, a preliminary framework that combines a diffusion-based world model with a selective correction stage to support this vision. The world model generates augmented future frames with region-specific edits while preserving others, and the correction stage subsequently aligns safety-critical regions with real-world observations while preserving intended augmentations elsewhere. We demonstrate this pipeline in driving scenarios as a representative setting where semantic region structure is well defined and real-world feedback is readily available. We view this as an early step toward generative world models as practical AR infrastructure, where future frames can be generated, cached, and selectively corrected on demand.
- Abstract(参考訳): 故意に視覚的な編集を取り入れた将来の画像シーケンスを予測することによって、時間とともに計算され、キャッシュされるような、時間的に一貫性のある、拡張された将来のフレームを可能にし、フレーム毎のレンダリングをリアルタイムでゼロから回避する。
本研究では,拡散に基づく世界モデルと選択的補正段階を組み合わせた予備的フレームワークSEGARを提案する。
世界モデルは、他の領域を保存しながら、地域固有の編集を施した拡張将来のフレームを生成し、修正段階はその後、他の領域に意図した拡張を保存しながら、現実の観察と安全クリティカルな領域を整列させる。
このパイプラインは、セマンティックな領域構造が適切に定義され、現実のフィードバックが容易に利用できる代表的な設定として、シナリオを駆動する際の例を示す。
我々はこれを、生成的世界モデルに向けた初期段階として、将来のフレームを生成し、キャッシュし、必要に応じて選択的に修正できる実用的なARインフラストラクチャとして見ている。
関連論文リスト
- Cross-Scenario Deraining Adaptation with Unpaired Data: Superpixel Structural Priors and Multi-Stage Pseudo-Rain Synthesis [48.809049043865905]
低レベルのコンピュータビジョンでは,イメージデライン化が重要な役割を担っている。
ディープラーニングのパラダイムは、目に見えないアウト・オブ・ディストリビューションシナリオに一般化された場合、厳しいパフォーマンス劣化に悩まされることが多い。
本稿では,クロスシナリオ・デライニング適応フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T07:38:55Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-27T02:48:45Z) - Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models [28.777224599594717]
Implicit Residual World Modelは、世界の現在の状態と進化をモデル化することに焦点を当てている。
IR-WMは4次元占有予測と軌道計画の両方において最高性能を達成する。
論文 参考訳(メタデータ) (2025-10-19T06:45:37Z) - Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。
本研究では,時間領域毎に最適な因果予測値が得られることを示す。
合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文 参考訳(メタデータ) (2025-06-21T14:05:37Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - LOPR: Latent Occupancy PRediction using Generative Models [28.49346874213506]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。