論文の概要: WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation
- arxiv url: http://arxiv.org/abs/2603.15132v1
- Date: Mon, 16 Mar 2026 11:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.100153
- Title: WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation
- Title(参考訳): WiT:トラジェクトリ・コンフリクト・ナビゲーションによるウェイポイント拡散変換器
- Authors: Hainuo Wang, Mingjia Li, Xiaojie Guo,
- Abstract要約: We propose Waypoint Diffusion Transformer (WiT) to unangle pixel-space trajectories。
WiTは、中間的セマンティック・ウェイポイントを通して連続ベクトル場を分解する。
最適なトランスポートをウェイポイントセグメントとウェイポイント・ツー・ピクセルセグメントに分割することで、ジェネレーショントラジェクトリを効果的に切り離す。
- 参考スコア(独自算出の注目度): 10.929870165378908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.
- Abstract(参考訳): 最近のフローマッチングモデルは、ピクセル空間で直接操作することで遅延オートエンコーダの再構築ボトルネックを回避するが、画素多様体における意味的連続性の欠如は、最適な輸送経路を著しく干渉する。
これにより、交点付近で激しい軌道衝突が起こり、準最適解が得られる。
情報ロッキーな潜在表現によってこの問題を回避するのではなく、Waypoint Diffusion Transformer (WiT)を提案することによって、ピクセル空間の軌跡を直接解き放つ。
WiTは、事前訓練された視覚モデルから投影された中間的意味的ウェイポイントを介して連続ベクトル場を分解する。
最適なトランスポートをウェイポイントセグメントとウェイポイント・ツー・ピクセルセグメントに分割することで、ジェネレーショントラジェクトリを効果的に切り離す。
具体的には、反復復調過程において、軽量発生器は、これらの中間経路点を現在の雑音状態から動的に推定する。
その後、Just-Pixel AdaLN機構を介して一次拡散変換器を連続的に条件付け、次の状態へと進化し、最終的に最終RGBピクセルを生成する。
ImageNet 256x256で評価されたWiTは、強力なピクセル空間ベースラインを破り、JiTトレーニングの収束を2.2倍に加速する。
コードはhttps://github.com/hainuo-wang/WiT.git.comで公開される。
関連論文リスト
- VTinker: Guided Flow Upsampling and Texture Mapping for High-Resolution Video Frame Interpolation [55.93266219195357]
本稿では,ガイドフローアップサンプリング (GFU) とテクスチャマッピング (Texture Mapping) の2つのコアコンポーネントからなるビデオフレーム補間 (VFI) パイプライン VTinker を提案する。
本研究では,ガイドフローアップサンプリング (GFU) とテクスチャマッピング (Texture Mapping) の2つのコアコンポーネントからなる新しいVFIパイプラインであるVTinkerを提案する。
論文 参考訳(メタデータ) (2025-11-20T07:30:16Z) - Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。
提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文 参考訳(メタデータ) (2024-07-26T10:45:57Z) - DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains [1.5124439914522694]
DeDiNATはDilated Neighborhood Attentionに基づくデブロアリングトランスフォーマーである。
チャンネル横断学習者は、隣接するチャンネル間の短距離関係を理解するためにトランスフォーマーブロックを支援する。
最先端モデルと比較して、コンパクトなDeDiNATはより優れた一般化能力を示し、知覚的メトリクスにおいて顕著な性能を達成する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - Spatial-Temporal Deep Embedding for Vehicle Trajectory Reconstruction
from High-Angle Video [1.8520147498637294]
車両セグメンテーションのためのインスタンス認識埋め込みをSTMap上に生成するために,画素レベルとインスタンスレベルの両方でパリティ制約を課すモデルを開発した。
デザインされたモデルは、すべてのNGSIM US-101ビデオを処理して完全な車両軌道を生成するために適用される。
論文 参考訳(メタデータ) (2022-09-17T22:32:05Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。