論文の概要: Resolving Representation Ambiguity in Feedforward Novel View Synthesis Transformer via Semantic-Spatial Decoupling
- arxiv url: http://arxiv.org/abs/2605.18599v1
- Date: Mon, 18 May 2026 16:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.004019
- Title: Resolving Representation Ambiguity in Feedforward Novel View Synthesis Transformer via Semantic-Spatial Decoupling
- Title(参考訳): セマンティック・空間デカップリングによるフィードフォワード新規合成変換器における表現の曖昧さの解消
- Authors: Yihang Wu, Yihang Sun, Shaofeng Zhang, Zuxuan Wu, Junchi Yan, Xiaosong Jia, Yu-gang Jiang,
- Abstract要約: トランスフォーマーモデルによるフィードフォワード新規ビュー合成(NVS)
現在のアーキテクチャは意味情報(例えば、RGB)と空間情報(例えば、チャンカー線)を共有特徴空間に混ぜる。
本稿では,フィードフォワード型NVSトランスフォーマーの表現を意味トークンと空間トークンに分離することを提案する。
- 参考スコア(独自算出の注目度): 117.72367737965048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have advanced feedforward novel view synthesis (NVS). Current architectures such as GS-LRM and LVSM mix semantic information (e.g., RGB) and spatial information (e.g., Plücker rays) into a shared feature space. Since Plücker rays naturally carry lattice-like spatial structure, these designs can make the spatial bias interfere with appearance representation and degrade rendering fidelity. To this end, we propose to decouple the representation of feedforward NVS transformers into separate semantic and spatial tokens. The decoupled design keeps semantic and spatial information explicit in their branches while preserving cross-branch interaction through shared attention routing. Built on this design, we introduce optional categorized supervision and bidirectional modulation: the former provides branch-specific training signals, while the latter improves interaction between the two branches. Notably, the base decoupled design introduces virtually zero additional inference latency due to its architectural design. The proposed designs achieve consistent improvements, demonstrating effectiveness across decoder-only and encoder-decoder feedforward NVS models.
- Abstract(参考訳): トランスフォーマーベースのモデルは、高度なフィードフォワードノベルビュー合成(NVS)を備えている。
GS-LRMやLVSMのような現在のアーキテクチャは、意味情報(例えば、RGB)と空間情報(例えば、プリュッカー線)を共有特徴空間に混ぜる。
プリュッカー線は自然に格子状の空間構造を持つため、これらの設計は空間バイアスを外観表現に干渉させ、レンダリングの忠実さを低下させる。
そこで本稿では,フィードフォワード型NVSトランスフォーマーの表現を意味トークンと空間トークンに分離することを提案する。
分離された設計は、意味的および空間的な情報を枝に明示し、共有されたアテンションルーティングを通して横断的な相互作用を保存する。
この設計に基づいて、任意に分類された監督と双方向の変調を導入し、前者は分岐固有の訓練信号を提供し、後者は2つの分岐間の相互作用を改善する。
特に、基本分離設計では、アーキテクチャ設計のため、ほとんど追加の推論遅延が生じる。
提案した設計は、デコーダのみとエンコーダ-デコーダ-フィードフォワードNVSモデル間で有効性を実証し、一貫した改善を実現している。
関連論文リスト
- Beyond Point-Wise Matching: Structural Representation Alignment for Accelerating Diffusion Transformers [93.3976834364707]
本稿では,特徴写像のリレーショナル幾何における整合性を実現する構造的RePresentation AlignmentフレームワークであるsREPAを提案する。
モデルが事前訓練された特徴から全体的空間配置と構造的相関を内包するように促すことにより、sREPAはより高速でより安定した収束を達成する。
論文 参考訳(メタデータ) (2026-05-16T12:01:04Z) - DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis [41.99844472131922]
DSS-GANは,Mambaを階層型ジェネレータのバックボーンとして使用し,ノイズ・ツー・イメージ合成に利用した最初の生成逆ネットワークである。
中心的な貢献はDLR(Directional Latent)であり、これは遅延ベクトルを方向特異的なサブベクターに分解する新しい条件付け機構である。
論文 参考訳(メタデータ) (2026-03-18T11:58:47Z) - From Points to Spheres: A Geometric Reinterpretation of Variational Autoencoders [0.0]
変分オートエンコーダは一般に確率的推論の観点から理解される。
本研究では,確率論的視点を補完し,その直感性を向上する新しい幾何学的解釈を提案する。
論文 参考訳(メタデータ) (2025-07-23T06:52:00Z) - Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。