論文の概要: EffiScene: Efficient Per-Pixel Rigidity Inference for Unsupervised Joint
Learning of Optical Flow, Depth, Camera Pose and Motion Segmentation
- arxiv url: http://arxiv.org/abs/2011.08332v3
- Date: Sat, 15 May 2021 03:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:44:02.391487
- Title: EffiScene: Efficient Per-Pixel Rigidity Inference for Unsupervised Joint
Learning of Optical Flow, Depth, Camera Pose and Motion Segmentation
- Title(参考訳): 光流・奥行き・カメラポーズ・運動セグメンテーションの教師なし関節学習のための効率の良いピクセル単位の剛性推定
- Authors: Yang Jiao, Trac D. Tran and Guangming Shi
- Abstract要約: 本稿では、4つの低レベル視覚サブタスクを共同学習することで、教師なしシーンフロー推定の問題に対処する。
我々の重要な洞察は、シーンの剛性は、物体の動きとシーンの深さと同じ固有の幾何学的構造を共有することである。
本稿では,効率的な関節剛性学習を実現するための新しいシーンフローフレームワークであるEffiSceneを提案する。
- 参考スコア(独自算出の注目度): 43.89073423471664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenging unsupervised scene flow estimation
problem by jointly learning four low-level vision sub-tasks: optical flow
$\textbf{F}$, stereo-depth $\textbf{D}$, camera pose $\textbf{P}$ and motion
segmentation $\textbf{S}$. Our key insight is that the rigidity of the scene
shares the same inherent geometrical structure with object movements and scene
depth. Hence, rigidity from $\textbf{S}$ can be inferred by jointly coupling
$\textbf{F}$, $\textbf{D}$ and $\textbf{P}$ to achieve more robust estimation.
To this end, we propose a novel scene flow framework named EffiScene with
efficient joint rigidity learning, going beyond the existing pipeline with
independent auxiliary structures. In EffiScene, we first estimate optical flow
and depth at the coarse level and then compute camera pose by
Perspective-$n$-Points method. To jointly learn local rigidity, we design a
novel Rigidity From Motion (RfM) layer with three principal components:
\emph{}{(i)} correlation extraction; \emph{}{(ii)} boundary learning; and
\emph{}{(iii)} outlier exclusion. Final outputs are fused based on the rigid
map $M_R$ from RfM at finer levels. To efficiently train EffiScene, two new
losses $\mathcal{L}_{bnd}$ and $\mathcal{L}_{unc}$ are designed to prevent
trivial solutions and to regularize the flow boundary discontinuity. Extensive
experiments on scene flow benchmark KITTI show that our method is effective and
significantly improves the state-of-the-art approaches for all sub-tasks, i.e.
optical flow ($5.19 \rightarrow 4.20$), depth estimation ($3.78 \rightarrow
3.46$), visual odometry ($0.012 \rightarrow 0.011$) and motion segmentation
($0.57 \rightarrow 0.62$).
- Abstract(参考訳): 本稿では,光フロー$\textbf{f}$,ステレオディテール$\textbf{d}$,カメラポーズ$\textbf{p}$,モーションセグメンテーション$\textbf{s}$という4つの低レベル視覚サブタスクを共同で学習することで,課題のないシーンフロー推定問題に対処する。
我々の重要な洞察は、シーンの剛性は、物体の動きとシーンの深さと同じ固有の幾何学的構造を共有することである。
したがって、$\textbf{S}$ の剛性はより堅牢な推定を達成するために $\textbf{F}$, $\textbf{D}$ と $\textbf{P}$ の結合によって推論できる。
そこで本研究では,独立な補助構造を持つ既存のパイプラインを超えて,効率の良い関節剛性学習が可能なシーンフローフレームワークEffiSceneを提案する。
EffiSceneでは、まず粗いレベルで光学的流れと深さを推定し、パースペクティブ=n$ポイント法でカメラのポーズを計算する。
局所剛性を共同で学習するために、3つの主成分を持つ新しいRifM(Rigidity From Motion)層を設計する。
(i)相関抽出; \emph{}{
(ii)境界学習,および \emph{}{
(iii) 外れ値排除。
最終的な出力はRfMからの厳密な写像$M_R$に基づいてより細かいレベルで融合される。
EffiScene を効率的に訓練するために、2つの新しい損失 $\mathcal{L}_{bnd}$ と $\mathcal{L}_{unc}$ は、自明な解を避け、フロー境界の不連続性を規則化するように設計されている。
シーンフローベンチマークKITTIにおける大規模な実験により,本手法は全サブタスクに対する最先端のアプローチ,すなわち光フロー(5.19 \rightarrow 4.20$),深度推定(3.78 \rightarrow 3.46$),ビジュアルオドメトリー(0.012 \rightarrow 0.011$),モーションセグメンテーション(0.57 \rightarrow 0.62$)を大幅に改善した。
関連論文リスト
- Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization [77.3396841985172]
我々は、構造化された非極小最適化問題の解法として、2時間勾配上昇(TTGDA)を統一的に解析する。
我々の貢献はTTGDAアルゴリズムを設計することであり、設定を超えて効果的です。
論文 参考訳(メタデータ) (2024-08-21T20:14:54Z) - Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on
Double Covering [28.268387694075415]
非符号距離場(UDF)からゼロレベルセットを抽出する新しい手法を提案する。
DoubleCoverUDFは学習したUDFとユーザが指定したパラメータ $r$ を入力として取ります。
計算されたアイソ曲面は、対象ゼロレベルセット$S$の$r$オフセット体積の境界であることを示す。
論文 参考訳(メタデータ) (2023-10-05T10:17:30Z) - CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation [15.98323974821097]
同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
そこで本研究では,CamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
論文 参考訳(メタデータ) (2021-11-20T02:58:38Z) - Projection-Free Algorithm for Stochastic Bi-level Optimization [17.759493152879013]
本研究は、目的関数が他の最適化問題に依存する二段階最適化問題を解く最初のプロジェクションフリーアルゴリズムを示す。
提案されている$textbfStochastic $textbfF$rank-$textbfW$olfe ($textbfSCFW$)は、凸目的に対して$mathcalO(epsilon-2)$のサンプル複雑性を実現するために示されている。
論文 参考訳(メタデータ) (2021-10-22T11:49:15Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。