論文の概要: Zero-Shot Monocular Scene Flow Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2501.10357v2
- Date: Mon, 20 Jan 2025 02:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:52.147157
- Title: Zero-Shot Monocular Scene Flow Estimation in the Wild
- Title(参考訳): 野生におけるゼロショット単眼のシーンフロー推定
- Authors: Yiqing Liang, Abhishek Badki, Hang Su, James Tompkin, Orazio Gallo,
- Abstract要約: 我々は、正確な予測のために、幾何学と運動を共同で推定する手法を作成する。
第二に、シーンフローデータの不足を、100万の注釈付きトレーニングサンプルを提供するデータレシピで軽減します。
第3に、シーンフロー予測のための異なるパラメータ化を評価し、自然かつ効果的なパラメータ化を採用する。
- 参考スコア(独自算出の注目度): 19.022578229424678
- License:
- Abstract: Large models have shown generalization across datasets for many low-level vision tasks, like depth estimation, but no such general models exist for scene flow. Even though scene flow has wide potential use, it is not used in practice because current predictive models do not generalize well. We identify three key challenges and propose solutions for each. First, we create a method that jointly estimates geometry and motion for accurate prediction. Second, we alleviate scene flow data scarcity with a data recipe that affords us 1M annotated training samples across diverse synthetic scenes. Third, we evaluate different parameterizations for scene flow prediction and adopt a natural and effective parameterization. Our resulting model outperforms existing methods as well as baselines built on large-scale models in terms of 3D end-point error, and shows zero-shot generalization to the casually captured videos from DAVIS and the robotic manipulation scenes from RoboTAP. Overall, our approach makes scene flow prediction more practical in-the-wild.
- Abstract(参考訳): 大規模モデルは、深度推定のような多くの低レベル視覚タスクのためのデータセット全体の一般化を示しているが、シーンフローのためのそのような一般的なモデルは存在しない。
シーンフローは広い可能性を持つが、現在の予測モデルはうまく一般化しないため、実際には使われない。
3つの重要な課題を特定し、それぞれに解決策を提案します。
まず、正確な予測のために、幾何学と運動を共同で推定する手法を作成する。
第2に、シーンフローデータの不足を、さまざまな合成シーンに100万の注釈付きトレーニングサンプルを提供するデータレシピで緩和する。
第3に、シーンフロー予測のための異なるパラメータ化を評価し、自然かつ効果的なパラメータ化を採用する。
その結果,DAVISのカジュアルな撮影映像やロボティックな操作シーンにゼロショットの一般化を図った。
全体として,本手法はシーンフローの予測をより実用的なものにする。
関連論文リスト
- Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - Self-SuperFlow: Self-supervised Scene Flow Prediction in Stereo
Sequences [12.650574326251023]
本稿では,シーンフロー予測のための自己監督型損失の拡張について検討する。
KITTIのシーンフローベンチマークでは,本手法は同一ネットワークの教師付き事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-06-30T13:55:17Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。
実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。
フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文 参考訳(メタデータ) (2021-03-01T20:56:05Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z) - Do not trust the neighbors! Adversarial Metric Learning for
Self-Supervised Scene Flow Estimation [0.0]
シーンフローは動的3次元シーンの個々の点に3次元運動ベクトルを推定するタスクである。
本稿では,3次元シーンフローベンチマークと,トレーニングフローモデルのための新しい自己教師型セットアップを提案する。
我々は,移動コヒーレンスを保ち,多くの自監督ベースラインが把握できない局所的なジオメトリーを維持できることを発見した。
論文 参考訳(メタデータ) (2020-11-01T17:41:32Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。