論文の概要: Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images
- arxiv url: http://arxiv.org/abs/2506.07740v1
- Date: Mon, 09 Jun 2025 13:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.968691
- Title: Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images
- Title(参考訳): Flow-Anything:大規模単一視点画像から実世界の光フロー推定を学習する
- Authors: Yingping Liang, Ying Fu, Yutao Hu, Wenqi Shao, Jiaming Liu, Debing Zhang,
- Abstract要約: 実世界の任意の単一視点画像から光フロー推定を学習するための大規模データ生成フレームワークを開発した。
大規模な実世界の画像から光フロートレーニングデータを生成する利点を初めて示す。
我々のモデルは、基礎モデルとして機能し、様々なダウンストリームビデオタスクのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 23.731451842621933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical flow estimation is a crucial subfield of computer vision, serving as a foundation for video tasks. However, the real-world robustness is limited by animated synthetic datasets for training. This introduces domain gaps when applied to real-world applications and limits the benefits of scaling up datasets. To address these challenges, we propose \textbf{Flow-Anything}, a large-scale data generation framework designed to learn optical flow estimation from any single-view images in the real world. We employ two effective steps to make data scaling-up promising. First, we convert a single-view image into a 3D representation using advanced monocular depth estimation networks. This allows us to render optical flow and novel view images under a virtual camera. Second, we develop an Object-Independent Volume Rendering module and a Depth-Aware Inpainting module to model the dynamic objects in the 3D representation. These two steps allow us to generate realistic datasets for training from large-scale single-view images, namely \textbf{FA-Flow Dataset}. For the first time, we demonstrate the benefits of generating optical flow training data from large-scale real-world images, outperforming the most advanced unsupervised methods and supervised methods on synthetic datasets. Moreover, our models serve as a foundation model and enhance the performance of various downstream video tasks.
- Abstract(参考訳): 光フロー推定はコンピュータビジョンの重要なサブフィールドであり、ビデオタスクの基盤となっている。
しかし、実世界の堅牢性は、トレーニングのためのアニメーション合成データセットによって制限されている。
これにより、現実世界のアプリケーションに適用した場合のドメインギャップが発生し、データセットのスケールアップのメリットが制限される。
これらの課題に対処するために,実世界の任意の単視点画像から光フロー推定を学習するための大規模データ生成フレームワークである‘textbf{Flow-Anything} を提案する。
データスケーリングを有望なものにするために、私たちは2つの効果的なステップを採用しています。
まず,先進的な単眼深度推定ネットワークを用いて,単一視点画像を3次元表現に変換する。
これにより、仮想カメラの下で光フローと新しいビューイメージを描画することができる。
第2に、3次元表現における動的オブジェクトをモデル化するオブジェクト独立ボリュームレンダリングモジュールとDepth-Aware Inpaintingモジュールを開発する。
これら2つのステップにより、大規模な単一ビューイメージ、すなわち \textbf{FA-Flow Dataset} からトレーニング用の現実的なデータセットを生成することができる。
大規模な実世界の画像から光フロートレーニングデータを生成することの利点を初めて示し、最も先進的な教師なし手法や、合成データセットの教師なし手法よりも優れていることを示す。
さらに,本モデルは基礎モデルとして機能し,様々な下流映像タスクの性能を向上させる。
関連論文リスト
- IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Improving Unsupervised Video Object Segmentation via Fake Flow Generation [20.89278343723177]
本稿では,単一画像からの擬似光フローをシミュレートする新しいデータ生成手法を提案する。
光フローマップは深度マップに大きく依存していることから着想を得て,各画像の深度マップを精細化し,拡大することにより,偽の光フローを生成する。
論文 参考訳(メタデータ) (2024-07-16T13:32:50Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - MPI-Flow: Learning Realistic Optical Flow with Multiplane Images [18.310665144874775]
実世界の画像からリアルな光フローデータセットを生成する。
高度に現実的な新しい画像を生成するため,単視点画像から多平面画像(MPI)と呼ばれる層状深度表現を構築した。
動きの現実性を確保するため,MPI内のカメラと動的物体の動きを分離できる独立な物体運動モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-13T04:31:00Z) - RealFlow: EM-based Realistic Optical Flow Dataset Generation from Videos [28.995525297929348]
RealFlowは、ラベルのないリアルなビデオから直接、大規模な光フローデータセットを作成することができるフレームワークである。
まず,一対のビデオフレーム間の光フローを推定し,予測されたフローに基づいて,このペアから新たな画像を生成する。
本手法は,教師付きおよび教師なしの光流法と比較して,2つの標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T13:33:03Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。