Fugu-MT 論文翻訳(概要): Zero-Shot Monocular Scene Flow Estimation in the Wild

論文の概要: Zero-Shot Monocular Scene Flow Estimation in the Wild

arxiv url: http://arxiv.org/abs/2501.10357v2
Date: Mon, 20 Jan 2025 02:14:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 13:05:35.334183
Title: Zero-Shot Monocular Scene Flow Estimation in the Wild
Title（参考訳）: 野生におけるゼロショット単眼のシーンフロー推定
Authors: Yiqing Liang, Abhishek Badki, Hang Su, James Tompkin, Orazio Gallo,
Abstract要約: 我々は、正確な予測のために、幾何学と運動を共同で推定する手法を作成する。第二に、シーンフローデータの不足を、100万の注釈付きトレーニングサンプルを提供するデータレシピで軽減します。第3に、シーンフロー予測のための異なるパラメータ化を評価し、自然かつ効果的なパラメータ化を採用する。
参考スコア（独自算出の注目度）: 19.022578229424678
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large models have shown generalization across datasets for many low-level vision tasks, like depth estimation, but no such general models exist for scene flow. Even though scene flow has wide potential use, it is not used in practice because current predictive models do not generalize well. We identify three key challenges and propose solutions for each. First, we create a method that jointly estimates geometry and motion for accurate prediction. Second, we alleviate scene flow data scarcity with a data recipe that affords us 1M annotated training samples across diverse synthetic scenes. Third, we evaluate different parameterizations for scene flow prediction and adopt a natural and effective parameterization. Our resulting model outperforms existing methods as well as baselines built on large-scale models in terms of 3D end-point error, and shows zero-shot generalization to the casually captured videos from DAVIS and the robotic manipulation scenes from RoboTAP. Overall, our approach makes scene flow prediction more practical in-the-wild.
Abstract（参考訳）: 大規模モデルは、深度推定のような多くの低レベル視覚タスクのためのデータセット全体の一般化を示しているが、シーンフローのためのそのような一般的なモデルは存在しない。シーンフローは広い可能性を持つが、現在の予測モデルはうまく一般化しないため、実際には使われない。 3つの重要な課題を特定し、それぞれに解決策を提案します。まず、正確な予測のために、幾何学と運動を共同で推定する手法を作成する。第2に、シーンフローデータの不足を、さまざまな合成シーンに100万の注釈付きトレーニングサンプルを提供するデータレシピで緩和する。第3に、シーンフロー予測のための異なるパラメータ化を評価し、自然かつ効果的なパラメータ化を採用する。その結果,DAVISのカジュアルな撮影映像やロボティックな操作シーンにゼロショットの一般化を図った。全体として,本手法はシーンフローの予測をより実用的なものにする。

関連論文リスト

Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。 KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文参考訳（メタデータ） (2025-07-11T23:59:38Z)
Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。 Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2025-05-27T05:17:49Z)
Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。 SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。従来のモデルに比べて大幅な改善が見られた。
論文参考訳（メタデータ） (2023-01-15T03:43:45Z)
Self-SuperFlow: Self-supervised Scene Flow Prediction in Stereo Sequences [12.650574326251023]
本稿では,シーンフロー予測のための自己監督型損失の拡張について検討する。 KITTIのシーンフローベンチマークでは,本手法は同一ネットワークの教師付き事前学習よりも優れていた。
論文参考訳（メタデータ） (2022-06-30T13:55:17Z)
Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文参考訳（メタデータ） (2022-03-20T13:06:15Z)
Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文参考訳（メタデータ） (2021-08-26T17:55:11Z)
Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文参考訳（メタデータ） (2021-03-01T20:56:05Z)
Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。 4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文参考訳（メタデータ） (2021-02-17T18:58:02Z)
FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-19T23:23:48Z)
Do not trust the neighbors! Adversarial Metric Learning for Self-Supervised Scene Flow Estimation [0.0]
シーンフローは動的3次元シーンの個々の点に3次元運動ベクトルを推定するタスクである。本稿では,3次元シーンフローベンチマークと,トレーニングフローモデルのための新しい自己教師型セットアップを提案する。我々は,移動コヒーレンスを保ち,多くの自監督ベースラインが把握できない局所的なジオメトリーを維持できることを発見した。
論文参考訳（メタデータ） (2020-11-01T17:41:32Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。