論文の概要: $R^3$: 3D Reconstruction via Relative Regression
- arxiv url: http://arxiv.org/abs/2605.26519v2
- Date: Thu, 28 May 2026 20:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 13:54:20.978152
- Title: $R^3$: 3D Reconstruction via Relative Regression
- Title(参考訳): R^3$:相対回帰による3次元再構成
- Authors: Congrong Xu, Huachen Gao, Xingyu Chen, Yuliang Xiu, Jun Gao, Anpei Chen,
- Abstract要約: R3$は、フルコンテキストのオフライン再構築と因果的、バウンドメモリストリーミングの両方をサポートする。
オフラインとストリーミングの両方の設定における評価は、我々の相対的なメカニズムの有効性を検証する。
- 参考スコア(独自算出の注目度): 45.709068651036795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent feed-forward geometry foundation models have demonstrated impressive generalization by recovering depth and poses in a single forward pass. However, these models are typically constrained by a global coordinate frame assumption. This dependency becomes a significant bottleneck for long-context and streaming reconstruction, as it forces the network to maintain an arbitrary temporal origin and handle translation magnitudes that grow unbounded over time. Our solution, which we call $R^3$, employs relative regression. We employ a lightweight MLP to predict confidence-weighted relative constraints. These confidences serve as a unified anchor: weighting losses during training and guiding pose aggregation during inference. $R^3$ supports both full-context offline reconstruction and causal, bounded-memory streaming. Our evaluation in both offline and streaming settings validates the effectiveness of our relative mechanism. Project page: https://kevinxu02.github.io/r3-site
- Abstract(参考訳): 最近のフィードフォワード幾何基礎モデルでは、深度とポーズを1つの前方通過で再現することで、印象的な一般化が示されている。
しかしながら、これらのモデルは通常、グローバル座標フレームの仮定によって制約される。
この依存関係は、任意の時間的起源をネットワークに維持させ、時間とともに無拘束で成長する翻訳マグニチュードを処理させるため、長いコンテキストとストリーミングの再構築において重要なボトルネックとなる。
R^3$ と呼ぶ我々の解は相対回帰を用いる。
我々は、信頼度重み付き相対制約を予測するために軽量MLPを用いる。
これらの信頼感は、トレーニング中の損失を重み付け、推論中のポーズアグリゲーションを導く、統一アンカーとして機能する。
R^3$は、フルコンテキストのオフライン再構築と因果的、バウンダリメモリストリーミングの両方をサポートする。
オフラインとストリーミングの両方の設定における評価は、我々の相対的なメカニズムの有効性を検証する。
プロジェクトページ: https://kevinxu02.github.io/r3-site
関連論文リスト
- Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself [38.95274911975506]
Free Geometryは、フィードフォワードの3D再構成モデルが3D基底の真理なしにテスト時に自己進化することを可能にするフレームワークである。
当社のアプローチは、4つのベンチマークデータセットにまたがって、Depth Anything 3やVGGTといった最先端の基礎モデルを継続的に改善しています。
論文 参考訳(メタデータ) (2026-04-15T16:24:03Z) - SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing [77.91660464664615]
Diffusion Transformers (DiTs) はビデオ生成において主要なバックボーンとなっているが、その二次的注意コストは依然として大きなボトルネックとなっている。
本稿では,不足しているコントリビューションをトレーニングなしで回収できることを示す。
パラメータフリーな線形補償分岐であるSVG-EARを導入する。
論文 参考訳(メタデータ) (2026-03-09T22:15:31Z) - TTT3R: 3D Reconstruction as Test-Time Training [69.51086319339662]
テストタイムトレーニングの観点から3次元再構築基盤モデルを再考する。
メモリ状態と受信した観測値のアライメントの信頼性を利用して、クローズドフォーム学習率を導出する。
この訓練のない介入はTTT3Rと呼ばれ、長さの一般化を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-30T17:59:51Z) - DOR3D-Net: Dense Ordinal Regression Network for 3D Hand Pose Estimation [6.327974053228352]
我々は高次回帰問題として3次元手ポーズ推定を再定式化する。
我々はDOR3D-Net(Dense Ordinal Regression 3D Pose Network)を提案する。
我々の設計はSOTA法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-20T08:47:51Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。