論文の概要: Positional Encoding Field
- arxiv url: http://arxiv.org/abs/2510.20385v1
- Date: Thu, 23 Oct 2025 09:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.7309
- Title: Positional Encoding Field
- Title(参考訳): 位置エンコードフィールド
- Authors: Yunpeng Bai, Haoxiang Li, Qixing Huang,
- Abstract要約: Diffusion Transformer (DiTs) は視覚生成の主要なアーキテクチャである。
われわれは、DiTがどのようにしてビジュアルコンテンツを整理し、パッチトークンが驚くほどの独立性を示すことを発見したかを再考する。
位置情報を導入します。
フィールド (PE-Field) は2次元平面から構造化された3次元場へ位置エンコーディングを拡張する。
- 参考スコア(独自算出の注目度): 44.0217294710719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as the dominant architecture for visual generation, powering state-of-the-art image and video models. By representing images as patch tokens with positional encodings (PEs), DiTs combine Transformer scalability with spatial and temporal inductive biases. In this work, we revisit how DiTs organize visual content and discover that patch tokens exhibit a surprising degree of independence: even when PEs are perturbed, DiTs still produce globally coherent outputs, indicating that spatial coherence is primarily governed by PEs. Motivated by this finding, we introduce the Positional Encoding Field (PE-Field), which extends positional encodings from the 2D plane to a structured 3D field. PE-Field incorporates depth-aware encodings for volumetric reasoning and hierarchical encodings for fine-grained sub-patch control, enabling DiTs to model geometry directly in 3D space. Our PE-Field-augmented DiT achieves state-of-the-art performance on single-image novel view synthesis and generalizes to controllable spatial image editing.
- Abstract(参考訳): Diffusion Transformers (DiTs) は、最先端の画像モデルとビデオモデルに電力を供給し、視覚生成の主要なアーキテクチャとして登場した。
イメージをポジショナルエンコーディング(PE)でパッチトークンとして表現することで、Transformerのスケーラビリティと空間的および時間的帰納バイアスを組み合わせることができる。
PEが摂動しても、DiTは世界のコヒーレントな出力を生成し、空間コヒーレンスは主にPEによって支配されていることを示す。
この発見により,2次元平面から3次元構造体への位置符号化を拡張可能な位置符号化場(PE-Field)が導入された。
PE-Fieldは、ボリューム推論のための奥行き認識エンコーディングと、細粒度のサブパッチ制御のための階層エンコーディングを組み込んでいる。
PE-Field-augmented DiTは、単一画像の新規ビュー合成における最先端性能を実現し、制御可能な空間画像編集に一般化する。
関連論文リスト
- FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - Cameras as Relative Positional Encoding [37.675563572777136]
マルチビュートランスは3次元空間で視覚トークンを接地するためにカメラジオメトリを使用する必要がある。
フィードフォワード新規ビュー合成における相対カメラコンディショニングによる性能向上効果を示す。
次に、これらの利点が様々なタスク、ステレオ深度推定、識別的認知、およびより大きなモデルサイズに持続していることを検証する。
論文 参考訳(メタデータ) (2025-07-14T17:22:45Z) - CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。
異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。
合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文 参考訳(メタデータ) (2025-01-16T20:56:32Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - PSFormer: Point Transformer for 3D Salient Object Detection [8.621996554264275]
PSFormerはエンコーダとデコーダのネットワークであり、コンテクスト情報をモデル化するためにトランスフォーマーを最大限に活用する。
エンコーダではポイントコンテキスト変換器(PCT)モジュールを開発し、ポイントレベルでの領域コンテキストの特徴をキャプチャする。
デコーダでは,シーンレベルでコンテキスト表現を学習するためのSCT (Scene Context Transformer) モジュールを開発した。
論文 参考訳(メタデータ) (2022-10-28T06:34:28Z) - Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning [8.944233327731245]
本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-10-01T11:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。