論文の概要: Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning
- arxiv url: http://arxiv.org/abs/2602.20157v1
- Date: Mon, 23 Feb 2026 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.968999
- Title: Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning
- Title(参考訳): Flow3r: スケーラブルなビジュアル幾何学学習のための因子フロー予測
- Authors: Zhongxiao Cong, Qitao Zhao, Minsik Jeon, Shubham Tulsiani,
- Abstract要約: Flow3rは、高密度な2D対応(flow')を監督として視覚幾何学学習を強化するフレームワークである。
私たちのキーとなる洞察は、フロー予測モジュールは2つの画像間のフローを1つの幾何学的潜像から予測し、もう1つの幾何学的潜像から潜像をポーズさせることである。
- 参考スコア(独自算出の注目度): 28.722572714606112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current feed-forward 3D/4D reconstruction systems rely on dense geometry and pose supervision -- expensive to obtain at scale and particularly scarce for dynamic real-world scenes. We present Flow3r, a framework that augments visual geometry learning with dense 2D correspondences (`flow') as supervision, enabling scalable training from unlabeled monocular videos. Our key insight is that the flow prediction module should be factored: predicting flow between two images using geometry latents from one and pose latents from the other. This factorization directly guides the learning of both scene geometry and camera motion, and naturally extends to dynamic scenes. In controlled experiments, we show that factored flow prediction outperforms alternative designs and that performance scales consistently with unlabeled data. Integrating factored flow into existing visual geometry architectures and training with ${\sim}800$K unlabeled videos, Flow3r achieves state-of-the-art results across eight benchmarks spanning static and dynamic scenes, with its largest gains on in-the-wild dynamic videos where labeled data is most scarce.
- Abstract(参考訳): 現在のフィードフォワード3D/4Dリコンストラクションシステムは、密集した幾何学に頼っており、特にダイナミックな現実世界のシーンでは、大規模に入手するのにコストがかかる。
Flow3rは、高密度な2D対応(flow')で視覚幾何学学習を強化するフレームワークで、ラベルなしモノクロビデオからのスケーラブルなトレーニングを可能にする。
私たちのキーとなる洞察は、フロー予測モジュールは2つの画像間のフローを1つの幾何学的潜像から予測し、もう1つの幾何学的潜像から潜像をポーズさせることである。
この因子化は、シーン幾何学とカメラモーションの両方の学習を直接ガイドし、動的シーンに自然に拡張する。
制御された実験では,因子フロー予測が代替設計より優れ,ラベルなしデータと連続的にスケールすることを示す。
Flow3rは既存のビジュアルジオメトリアーキテクチャにファクターフローを統合し、ラベルなしのビデオを${\sim}800$Kでトレーニングすることで、静的および動的シーンにまたがる8つのベンチマークで最先端の結果を得る。
関連論文リスト
- Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow [61.297800738187355]
Flow4Rは、Vision Transformerを用いて、画素当たりのプロパティセット3Dポイント位置、シーンフロー、ポーズウェイト、および2ビュー入力からの信頼度を最小限に予測する。
静的データセットと動的データセットを併用してトレーニングされたFlow4Rは、4D再構築とトラッキングタスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T06:58:08Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images [23.731451842621933]
実世界の任意の単一視点画像から光フロー推定を学習するための大規模データ生成フレームワークを開発した。
大規模な実世界の画像から光フロートレーニングデータを生成する利点を初めて示す。
我々のモデルは、基礎モデルとして機能し、様々なダウンストリームビデオタスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-06-09T13:23:44Z) - VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction [46.31516096522758]
カメラによる占領予測の最近の進歩は、3Dセマンティクスとシーンフローの同時予測に焦点を当てている。
本稿では,これらの課題とその根本原因を解決するために,VoxelSplatという新たな正規化フレームワークを提案する。
本フレームワークは,ガウス運動をモデル化するために,予測されたシーンフローを用いて,移動物体のシーンフローを自己監督的に学習することができる。
論文 参考訳(メタデータ) (2025-06-05T20:19:35Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Semantic Flow: Learning Semantic Field of Dynamic Scenes from Monocular Videos [23.275595857385884]
モノクロビデオから動的シーンをニューラルネットワークで表現するセマンティックフローのパイオニアです。
まず、動的シーン内のフローを予測するフローネットワークを学習し、ビデオフレームからフロー特徴を抽出するフロー特徴集約モジュールを提案する。
そして,フローの特徴から動き情報を抽出するフローアテンションモジュールを提案し,それに続いてセマンティックネットワークを用いてフローの意味ロジットを出力する。
論文 参考訳(メタデータ) (2024-04-08T03:06:19Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。