論文の概要: FastPCI: Motion-Structure Guided Fast Point Cloud Frame Interpolation
- arxiv url: http://arxiv.org/abs/2410.19573v1
- Date: Fri, 25 Oct 2024 14:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:31.662215
- Title: FastPCI: Motion-Structure Guided Fast Point Cloud Frame Interpolation
- Title(参考訳): FastPCI: ファストポイントクラウドフレーム補間のためのモーション構造ガイド
- Authors: Tianyu Zhang, Guocheng Qian, Jin Xie, Jian Yang,
- Abstract要約: この研究は、ポイントクラウドフレームのためのPraamid Convolution-Transformerアーキテクチャを導入したFast PCIを示す。
我々のハイブリッドConvolution-Transformerは、局所的および長距離的な特徴学習を改善し、ピラミッドネットワークはマルチレベル機能を提供し、計算量を削減する。
この設計は,(1)正確なシーンフローが3次元構造を保存すること,(2)前の時刻の点雲が将来の時刻からの逆運動で再構成可能であること,の2つの事実によって動機付けられている。
- 参考スコア(独自算出の注目度): 33.03296549547926
- License:
- Abstract: Point cloud frame interpolation is a challenging task that involves accurate scene flow estimation across frames and maintaining the geometry structure. Prevailing techniques often rely on pre-trained motion estimators or intensive testing-time optimization, resulting in compromised interpolation accuracy or prolonged inference. This work presents FastPCI that introduces Pyramid Convolution-Transformer architecture for point cloud frame interpolation. Our hybrid Convolution-Transformer improves the local and long-range feature learning, while the pyramid network offers multilevel features and reduces the computation. In addition, FastPCI proposes a unique Dual-Direction Motion-Structure block for more accurate scene flow estimation. Our design is motivated by two facts: (1) accurate scene flow preserves 3D structure, and (2) point cloud at the previous timestep should be reconstructable using reverse motion from future timestep. Extensive experiments show that FastPCI significantly outperforms the state-of-the-art PointINet and NeuralPCI with notable gains (e.g. 26.6% and 18.3% reduction in Chamfer Distance in KITTI), while being more than 10x and 600x faster, respectively. Code is available at https://github.com/genuszty/FastPCI
- Abstract(参考訳): 点雲フレーム補間は、フレーム間の正確なシーンフロー推定と幾何学的構造の維持を伴う、困難な作業である。
一般的な技術は、しばしば事前訓練された運動推定器や集中的なテスト時間最適化に頼り、補間精度が損なわれ、推論が長くなる。
この研究は、ポイントクラウドフレーム補間のためのPraamid Convolution-Transformerアーキテクチャを導入したFastPCIを紹介する。
我々のハイブリッドConvolution-Transformerは、局所的および長距離的な特徴学習を改善し、ピラミッドネットワークはマルチレベル機能を提供し、計算量を削減する。
さらにFastPCIは、より正確なシーンフロー推定のための独自のデュアル方向運動構造ブロックを提案する。
この設計は,(1)正確なシーンフローが3次元構造を保存すること,(2)前の時刻の点雲は,将来の時刻からの逆運動を用いて再構成可能であること,の2つの事実によって動機付けられている。
大規模な実験により、FastPCIは最先端のPointINetとNeuralPCIをそれぞれ10倍、600倍の速度で、顕著な利益(KITTIのChamfer Distanceの26.6%と18.3%の減少)で著しく上回っていることが示されている。
コードはhttps://github.com/genuszty/FastPCIで入手できる。
関連論文リスト
- Track Everything Everywhere Fast and Robustly [46.362962852140015]
ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-03-26T17:58:22Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - FlatFormer: Flattened Window Attention for Efficient Point Cloud
Transformer [30.596658616831945]
トランスフォーマーはCNNに代わるものとして、多くのモダリティで有効であることが証明されている。
本稿では、FlatFormerを用いて、空間近接を交換することで、より優れた計算正則性を実現することにより、このレイテンシギャップを解消する。
論文 参考訳(メタデータ) (2023-01-20T18:59:57Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation [101.75999290175412]
補間フレーム内のエッジを保存することにより,画像のぼかしを低減し,オブジェクトの明確な形状を得る。
提案するエッジアウェアネットワーク(eanet)は、エッジ情報をフレームタスクに統合する。
フローマップの推定において,フレームエッジを強調する3つのエッジアウェア機構が開発されている。
論文 参考訳(メタデータ) (2021-05-17T08:44:34Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - PointINet: Point Cloud Frame Interpolation Network [9.626246913697427]
Point Cloud Frame Interpolationは、2つの連続したポイントクラウドフレームを付与し、中間フレームを生成します。
提案手法に基づいて,低フレームレート点のクラウドストリームを高フレームレートにアップサンプリングすることができる。
そこで本研究では,2つの点雲を同時に考慮した新しい学習型点融合モジュールを提案する。
論文 参考訳(メタデータ) (2020-12-18T06:15:01Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。