論文の概要: VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement
- arxiv url: http://arxiv.org/abs/2601.13664v2
- Date: Wed, 21 Jan 2026 09:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.177691
- Title: VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement
- Title(参考訳): VIAFormer:Voxel- Image Alignment Transformer for High-Fidelity Voxel Refinement
- Authors: Tiancheng Fang, Bowen Pan, Lingxi Chen, Jiangjing Lyu, Chengfei Lyu, Chaoyue Niu, Fan Wu,
- Abstract要約: 本稿では,Voxel-Image Alignment Transformerモデルを提案する。
VIAFormerは, 重度の合成汚損と, ボクセル形状のアーティファクトの両面を補正する技術として, 新たな状態を確立している。
- 参考スコア(独自算出の注目度): 10.658692341972802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VIAFormer, a Voxel-Image Alignment Transformer model designed for Multi-view Conditioned Voxel Refinement--the task of repairing incomplete noisy voxels using calibrated multi-view images as guidance. Its effectiveness stems from a synergistic design: an Image Index that provides explicit 3D spatial grounding for 2D image tokens, a Correctional Flow objective that learns a direct voxel-refinement trajectory, and a Hybrid Stream Transformer that enables robust cross-modal fusion. Experiments show that VIAFormer establishes a new state of the art in correcting both severe synthetic corruptions and realistic artifacts on the voxel shape obtained from powerful Vision Foundation Models. Beyond benchmarking, we demonstrate VIAFormer as a practical and reliable bridge in real-world 3D creation pipelines, paving the way for voxel-based methods to thrive in large-model, big-data wave.
- Abstract(参考訳): マルチビュー条件付きボクセルリファインメント用に設計されたVoxel- Image Alignment TransformerモデルであるVIAFormerを提案する。
その効果はシナジスティックな設計に起因しており、2次元画像トークンの空間的接地を明示的に提供するイメージインデックス、直接のボクセルリファインメント軌道を学習する補正フロー目標、堅牢なクロスモーダル融合を可能にするハイブリッドストリームトランスフォーマーである。
実験により、VIAFormerは強力なVision Foundation Modelsから得られたボクセル形状の深刻な合成腐敗と現実的な人工物の両方を補正する新しい最先端技術を確立していることが示された。
ベンチマークの他に、VIAFormerは実世界の3D生成パイプラインにおいて実用的で信頼性の高いブリッジであり、大規模なモデル、ビッグデータ波で成長するボクセルベースの方法の道を開いた。
関連論文リスト
- LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)は、よく構造化されたBEV表現を構成する新しい3Dオブジェクト検出フレームワークである。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3% NDSの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。