Fugu-MT 論文翻訳(概要): STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow

論文の概要: STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow

arxiv url: http://arxiv.org/abs/2403.07032v2
Date: Thu, 14 Nov 2024 06:36:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.308925
Title: STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow
Title（参考訳）: STARFlow:現実世界のシーンフローに対する注意学習による時空間的特徴の再埋め込み
Authors: Zhiyang Lu, Qinghan Chen, Ming Cheng,
Abstract要約: 両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
参考スコア（独自算出の注目度）: 5.476991379461233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene flow prediction is a crucial underlying task in understanding dynamic scenes as it offers fundamental motion information. However, contemporary scene flow methods encounter three major challenges. Firstly, flow estimation solely based on local receptive fields lacks long-dependency matching of point pairs. To address this issue, we propose global attentive flow embedding to match all-to-all point pairs in both feature space and Euclidean space, providing global initialization before local refinement. Secondly, there are deformations existing in non-rigid objects after warping, which leads to variations in the spatiotemporal relation between the consecutive frames. For a more precise estimation of residual flow, a spatial temporal feature re-embedding module is devised to acquire the sequence features after deformation. Furthermore, previous methods perform poor generalization due to the significant domain gap between the synthesized and LiDAR-scanned datasets. We leverage novel domain adaptive losses to effectively bridge the gap of motion inference from synthetic to real-world. Experiments demonstrate that our approach achieves state-of-the-art performance across various datasets, with particularly outstanding results on real-world LiDAR-scanned datasets. Our code is available at https://github.com/O-VIGIA/StarFlow.
Abstract（参考訳）: シーンフロー予測は、基本的な動き情報を提供する動的なシーンを理解する上で、重要な基礎となるタスクである。しかし、現代のシーンフロー手法は3つの大きな課題に直面している。第一に、局所受容場のみに基づくフロー推定は、点対の長距離マッチングを欠いている。この問題に対処するために,特徴空間とユークリッド空間の両方における全点対に一致した大域的注意流の埋め込みを提案し,局所改善前の大域的初期化を提供する。第二に、反りの後に非剛体物体に存在する変形があり、連続するフレーム間の時空間的関係のばらつきをもたらす。残留流れをより正確に推定するために、空間的時間的特徴再埋め込みモジュールを設計し、変形後のシーケンス特徴を取得する。さらに、合成されたデータセットとLiDARスキャンされたデータセットの間に大きな領域ギャップがあるため、従来の手法では一般化が不十分であった。我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。実験により, 実世界のLiDARスキャンデータセットにおいて, 特に顕著な結果が得られた。私たちのコードはhttps://github.com/O-VIGIA/StarFlow.comで公開されています。

関連論文リスト

Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
Learning Normal Flow Directly From Event Neighborhoods [18.765370814655626]
正規フロー推定のための新しい教師付き点ベース手法を提案する。ローカル・ポイント・クラウド・エンコーダを用いて,本手法は生イベントからのイベント当たりの通常の流れを直接推定する。提案手法は, 異なるデータセット間で転送される場合の最先端手法よりも, より優れた, より一貫性のある性能を実現する。
論文参考訳（メタデータ） (2024-12-15T19:09:45Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow [6.995663556921384]
シーンフローは、2つの連続する点雲から第1フレームの3次元運動場を提供する。本稿では,2つのフレーム間の融合とアライメントのためのDCA(Dual Cross Attentive)という新しい手法を提案する。我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。
論文参考訳（メタデータ） (2024-07-31T02:28:40Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
Let-It-Flow: Simultaneous Optimization of 3D Flow and Object Clustering [2.763111962660262]
実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題点について検討する。重なり合うソフトクラスタと非重なり合う固いクラスタを組み合わせられる新しいクラスタリング手法を提案する。本手法は,複数の独立移動物体が互いに近接する複雑な動的シーンにおける流れの解消に優れる。
論文参考訳（メタデータ） (2024-04-12T10:04:03Z)
Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency [3.124750429062221]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文参考訳（メタデータ） (2023-12-12T11:00:39Z)
Multi-Body Neural Scene Flow [37.31530794244607]
本研究では, 剛体のSE(3)$パラメータを制約する, 煩雑で不安定な戦略を使わずに, 多体剛性を実現することができることを示す。これは、剛体に対する流れ予測における等尺性を促進するために、シーンフロー最適化を規則化することによって達成される。実世界のデータセットに関する広範な実験を行い、我々の手法が3次元シーンフローにおける最先端の4次元軌道予測と長期的ポイントワイドの4次元軌道予測より優れていることを実証した。
論文参考訳（メタデータ） (2023-10-16T11:37:53Z)
Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文参考訳（メタデータ） (2023-03-30T03:22:52Z)
SCOOP: Self-Supervised Correspondence and Optimization-Based Scene Flow [25.577386156273256]
シーンフロー推定は、連続した観察からシーンの3次元運動を見つけることを目的として、コンピュータビジョンにおける長年の課題である。そこで本研究では,少量のデータから学習可能なシーンフロー推定手法であるSCOOPについて紹介する。
論文参考訳（メタデータ） (2022-11-25T10:52:02Z)
Domain-incremental Cardiac Image Segmentation with Style-oriented Replay and Domain-sensitive Feature Whitening [67.6394526631557]
M&Mは、各受信データセットから漸進的に学習し、時間が経つにつれて改善された機能で漸進的に更新する必要がある。医学的シナリオでは、データのプライバシのため、過去のデータへのアクセスや保存が一般的に許可されないため、これは特に困難である。本稿では,まず過去のドメイン入力を復元し,モデル最適化中に定期的に再生する新しいドメイン増分学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-09T13:07:36Z)
Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文参考訳（メタデータ） (2021-04-06T10:32:03Z)
ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework for LiDAR Point Cloud Segmentation [111.56730703473411]
LiDARデータ上でディープニューラルネットワーク(DNN)をトレーニングするには、大規模なポイントワイドアノテーションが必要である。シミュレーション・トゥ・リアル・ドメイン適応(SRDA)は、DNNを無制限の合成データと自動生成されたラベルで訓練する。 ePointDAは、自己教師付きドロップアウトノイズレンダリング、統計不変および空間適応型特徴アライメント、転送可能なセグメンテーション学習の3つのモジュールで構成されている。
論文参考訳（メタデータ） (2020-09-07T23:46:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。