論文の概要: UniT: Unified Geometry Learning with Group Autoregressive Transformer
- arxiv url: http://arxiv.org/abs/2605.21131v1
- Date: Wed, 20 May 2026 13:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.683768
- Title: UniT: Unified Geometry Learning with Group Autoregressive Transformer
- Title(参考訳): UniT:グループ自己回帰変換器を用いた統一幾何学習
- Authors: Haotian Wang, Yusong Huang, Zhaonian Kuang, Hongliang Lu, Xinhu Zheng, Meng Yang, Gang Hua,
- Abstract要約: グループ自己回帰変換器をベースとした統一モデルUniTを提案する。
鍵となる考え方は、センサー観測のグループを基本的な自己回帰単位として扱うことである。
オンラインモードはシングルフレームグループで複数の自動回帰ステップで動作し、オフラインモードはシングルフォワードパスで複数のフレームグループを集約する。
- 参考スコア(独自算出の注目度): 19.286852063925803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent feed-forward models have significantly advanced geometry perception for inferring dense 3D structure from sensor observations. However, its essential capabilities remain fragmented across multiple incompatible paradigms, including online perception, offline reconstruction, multi-modal integration, long-horizon scalability, and metric-scale estimation. We present UniT, a unified model built upon a novel Group Autoregressive Transformer, which reformulates these seemingly disparate capabilities within a single framework. The key idea is to treat groups of sensor observations as the basic autoregressive units and predict the corresponding point maps in an anchor-free and scale-adaptive manner. More specifically, diverse view configurations in both online and offline settings are naturally unified within a single group autoregression process. By varying the group size, online mode operates over multiple autoregressive steps with single-frame groups, whereas offline mode aggregates a multi-frame group in a single forward pass. Meanwhile, a queue-style KV caching mechanism ensures bounded autoregressive memory over long horizons. This is enabled by reducing long-range dependencies on early frames through anchor-free relational modeling, thereby allowing outdated memory to be discarded on the fly. To improve metric-scale generalization across scenes, a scale-adaptive geometry loss is further introduced within this framework. It couples relative geometric constraints with a partial absolute scale term, implicitly regularizing global scale and inducing a progressive transition from scale-invariant geometry to metric-scale solutions. Together with a dedicated modal attention module for integrating auxiliary modalities, UniT achieves state-of-the-art performance in unified geometry perception, as validated on ten benchmarks spanning seven representative tasks.
- Abstract(参考訳): 近年のフィードフォワードモデルでは、センサ観測から密度の高い3次元構造を推定するための幾何認識が著しく進歩している。
しかしながら、オンライン認識、オフライン再構築、マルチモーダル統合、長期拡張性、メトリックスケール推定など、複数の非互換パラダイムでその重要な機能は断片化されている。
我々は,新しいグループ自動回帰変換器上に構築された統一モデルUniTを提案する。
キーとなる考え方は、センサ観測のグループを基本的な自己回帰単位として扱い、アンカーフリーでスケール適応的な方法で対応する点マップを予測することである。
より具体的には、オンライン設定とオフライン設定の両方における多様なビュー設定は、自然に単一のグループ自動回帰プロセスに統合される。
グループサイズを変えることで、オンラインモードは単一のフレームグループを持つ複数の自動回帰ステップで動作し、オフラインモードは単一のフォワードパスで複数のフレームグループを集約する。
一方、キュースタイルのKVキャッシュ機構により、長い水平線上でのバインドされた自己回帰メモリが保証される。
これにより、アンカーフリーリレーショナルモデリングにより、初期フレームへの長距離依存を低減し、古いメモリをオンザフライで破棄できる。
シーン間の計量スケールの一般化を改善するため、このフレームワークにはスケール適応幾何学的損失がさらに導入されている。
相対幾何学的制約を部分絶対的スケール項に分割し、大域的スケールを暗黙的に正則化し、スケール不変幾何から計量スケール解への進行的遷移を誘導する。
補助モダリティを統合するための専用のモーダルアテンションモジュールとともに、UniTは7つの代表的なタスクにまたがる10のベンチマークで検証されるように、統一幾何知覚における最先端のパフォーマンスを達成する。
関連論文リスト
- MC-RFM: Geometry-Aware Few-Shot Adaptation via Mixed-Curvature Riemannian Flow Matching [0.764671395172401]
textscMC-RFMは、凍結した視覚バックボーンの少数ショット適応のための混合曲率フローマッチングフレームワークである。
適応は、凍結した特徴からサポートセットプロトタイプへのタスク条件付き連続輸送として定式化されている。
その結果, 混合曲率ヘッド, タスク条件付け, 適応分岐ゲーティング, プロトタイプ縮小, 識別的監督がそれぞれ性能に寄与していることが示唆された。
論文 参考訳(メタデータ) (2026-05-08T23:36:37Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - Simba: Towards High-Fidelity and Geometrically-Consistent Point Cloud Completion via Transformation Diffusion [31.34032485865941]
分散学習問題として,ポイントワイズ変換の回帰を再構成する新しいフレームワークであるSimbaを紹介する。
提案手法は, 対称性の先行と拡散モデルの強力な生成能力を統合し, インスタンス固有の記憶を避ける。
論文 参考訳(メタデータ) (2025-11-20T09:02:42Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition [0.0]
既存のモデルマージと継続的学習へのアプローチは、しばしばタスクの干渉、破滅的な忘れ込み、あるいは可逆性の欠如に悩まされる。
本稿では, 拡張性, 干渉フリー, 微調整モデルの構成が可能な新しいフレームワークである Orthogonal Constraints (MDM-OC) を用いた Modular Delta Merging を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:08:49Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。