論文の概要: Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction
- arxiv url: http://arxiv.org/abs/2407.07587v2
- Date: Thu, 18 Jul 2024 18:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 21:58:59.131267
- Title: Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction
- Title(参考訳): Occ Flow: 自己監督型3D作業フロー予測
- Authors: Yili Liu, Linzhan Mou, Xuan Yu, Chenrui Han, Sitong Mao, Rong Xiong, Yue Wang,
- Abstract要約: Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
提案手法では,動的オブジェクト依存を捉えるために,後向きの時間的アテンションモジュールを組み込んでおり,次いで3次元洗練されたボリューム表現を行う。
- 参考スコア(独自算出の注目度): 14.866463843514156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate perception of the dynamic environment is a fundamental task for autonomous driving and robot systems. This paper introduces Let Occ Flow, the first self-supervised work for joint 3D occupancy and occupancy flow prediction using only camera inputs, eliminating the need for 3D annotations. Utilizing TPV for unified scene representation and deformable attention layers for feature aggregation, our approach incorporates a backward-forward temporal attention module to capture dynamic object dependencies, followed by a 3D refine module for fine-gained volumetric representation. Besides, our method extends differentiable rendering to 3D volumetric flow fields, leveraging zero-shot 2D segmentation and optical flow cues for dynamic decomposition and motion optimization. Extensive experiments on nuScenes and KITTI datasets demonstrate the competitive performance of our approach over prior state-of-the-art methods.
- Abstract(参考訳): 動的環境の正確な認識は、自律運転とロボットシステムの基本課題である。
本稿では, カメラ入力のみを用いて, 3Dアノテーションの必要をなくし, 関節の3D占有率と占有率の予測を行う最初の自己教師型作業であるLet Occ Flowを紹介する。
本手法では,統合されたシーン表現のためのTPVと,特徴集約のための変形可能なアテンション層を用いて,動的オブジェクトの依存関係をキャプチャするための後方向きの時間的アテンションモジュールと,詳細なボリューム表現のための3Dリファインメントモジュールを併用する。
さらに, 動的分解と運動最適化のために, ゼロショット2次元セグメンテーションと光学フローキューを活用することで, 3次元フロー場に微分可能レンダリングを拡張した。
nuScenesとKITTIデータセットに関する大規模な実験は、従来の最先端手法に対する我々のアプローチの競争性能を実証している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving [18.88208422580103]
連続したLiDARスキャンで各点における3次元運動を予測する。
現在の最先端の手法は、シーンフローネットワークをトレーニングするために注釈付きデータを必要とする。
本研究では,効率的な動的分類を学習に基づくシーンフローパイプラインに統合するSeFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T18:22:54Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Do not trust the neighbors! Adversarial Metric Learning for
Self-Supervised Scene Flow Estimation [0.0]
シーンフローは動的3次元シーンの個々の点に3次元運動ベクトルを推定するタスクである。
本稿では,3次元シーンフローベンチマークと,トレーニングフローモデルのための新しい自己教師型セットアップを提案する。
我々は,移動コヒーレンスを保ち,多くの自監督ベースラインが把握できない局所的なジオメトリーを維持できることを発見した。
論文 参考訳(メタデータ) (2020-11-01T17:41:32Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。