論文の概要: SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow
- arxiv url: http://arxiv.org/abs/2408.07825v1
- Date: Wed, 31 Jul 2024 02:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 03:35:49.353262
- Title: SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow
- Title(参考訳): SSRFlow: 実世界のシーンフローのための空間的時間的再埋め込みによる意味認識融合
- Authors: Zhiyang Lu, Qinghan Chen, Zhimin Yuan, Ming Cheng,
- Abstract要約: シーンフローは、2つの連続する点雲から第1フレームの3次元運動場を提供する。
本稿では,2つのフレーム間の融合とアライメントのためのDCA(Dual Cross Attentive)という新しい手法を提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。
- 参考スコア(独自算出の注目度): 6.995663556921384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene flow, which provides the 3D motion field of the first frame from two consecutive point clouds, is vital for dynamic scene perception. However, contemporary scene flow methods face three major challenges. Firstly, they lack global flow embedding or only consider the context of individual point clouds before embedding, leading to embedded points struggling to perceive the consistent semantic relationship of another frame. To address this issue, we propose a novel approach called Dual Cross Attentive (DCA) for the latent fusion and alignment between two frames based on semantic contexts. This is then integrated into Global Fusion Flow Embedding (GF) to initialize flow embedding based on global correlations in both contextual and Euclidean spaces. Secondly, deformations exist in non-rigid objects after the warping layer, which distorts the spatiotemporal relation between the consecutive frames. For a more precise estimation of residual flow at next-level, the Spatial Temporal Re-embedding (STR) module is devised to update the point sequence features at current-level. Lastly, poor generalization is often observed due to the significant domain gap between synthetic and LiDAR-scanned datasets. We leverage novel domain adaptive losses to effectively bridge the gap of motion inference from synthetic to real-world. Experiments demonstrate that our approach achieves state-of-the-art (SOTA) performance across various datasets, with particularly outstanding results in real-world LiDAR-scanned situations. Our code will be released upon publication.
- Abstract(参考訳): 2つの連続する点雲から第1フレームの3次元運動場を提供するシーンフローは、動的シーン知覚に不可欠である。
しかし、現代のシーンフロー法は3つの大きな課題に直面している。
まず、グローバルなフローの埋め込みが欠けているか、あるいは埋め込む前に個々のポイントクラウドのコンテキストだけを考慮するだけで、埋め込みポイントは他のフレームの一貫性のあるセマンティックな関係を理解するのに苦労する。
この問題に対処するために,意味的文脈に基づく2フレーム間の潜伏融合とアライメントのためのDCA (Dual Cross Attentive) という新しい手法を提案する。
その後、これはGlobal Fusion Flow Embedding (GF)に統合され、文脈空間とユークリッド空間の両方のグローバル相関に基づいてフロー埋め込みを初期化する。
第二に、反り層の後、非剛体物体に変形が存在し、連続するフレーム間の時空間関係を歪ませる。
次レベルでの残留流れをより正確に推定するために、時空間再埋め込み(STR)モジュールを現段階での点列の特徴を更新するために考案した。
最後に、合成データセットとLiDARスキャンデータセットの間に大きな領域ギャップがあるため、一般化の低さがしばしば観測される。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。
実験により,本手法は各種データセットにおけるSOTA(State-of-the-art)性能を実現し,実世界のLiDARスキャン環境では特に顕著な結果が得られた。
私たちのコードは出版時に公開される。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow [5.476991379461233]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency [3.124750429062221]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。
また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-12T11:00:39Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Residual 3D Scene Flow Learning with Context-Aware Feature Extraction [11.394559627312743]
ユークリッド空間の文脈構造情報を活用するために,新しいコンテキスト対応集合 conv 層を提案する。
また, 遠距離移動に対処するため, 残留流微細化層に明示的な残留流学習構造を提案する。
提案手法は, これまでのすべての成果を, 少なくとも25%以上の知識に上回りながら, 最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-09-10T06:15:18Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。