論文の概要: HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow
Prediction
- arxiv url: http://arxiv.org/abs/2206.10118v1
- Date: Tue, 21 Jun 2022 05:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:53:42.951340
- Title: HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow
Prediction
- Title(参考訳): HOPE:階層型時空間ネットワークによる活動フロー予測
- Authors: Yihan Hu, Wenxin Shao, Bo Jiang, Jiajie Chen, Siqi Chai, Zhening Yang,
Jingyu Qian, Helong Zhou, Qiang Liu
- Abstract要約: CVPR 2022のオープンチャレンジにおけるOccupancy and Flow Predictionチャレンジに対する私たちのソリューションを紹介します。
我々は,空間時間エンコーダ,潜伏変数に富んだマルチスケールアグリゲータ,階層型3Dデコーダを備えた新しい階層型空間時空間ネットワークを開発した。
本手法は,フローグラウンドのAUCを0.8389で達成し,他のすべてのチームよりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 10.02342218798102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce our solution to the Occupancy and Flow
Prediction challenge in the Waymo Open Dataset Challenges at CVPR 2022, which
ranks 1st on the leaderboard. We have developed a novel hierarchical
spatial-temporal network featured with spatial-temporal encoders, a multi-scale
aggregator enriched with latent variables, and a recursive hierarchical 3D
decoder. We use multiple losses including focal loss and modified flow trace
loss to efficiently guide the training process. Our method achieves a
Flow-Grounded Occupancy AUC of 0.8389 and outperforms all the other teams on
the leaderboard.
- Abstract(参考訳): 本報告では, cvpr 2022 における waymo open dataset challenge における占有とフロー予測の課題に対するソリューションについて紹介する。
本研究では,空間時間エンコーダ,潜伏変数に富んだマルチスケールアグリゲータ,再帰的階層型3Dデコーダを備えた新しい階層型空間時間ネットワークを開発した。
トレーニングプロセスの効率的な指導には,焦点損失やフロートレース損失の修正など,複数の損失を用いる。
本手法は0.8389のフローグラウンド占有率aucを達成し,他のすべてのチームよりも優れる。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Regularizing Self-supervised 3D Scene Flows with Surface Awareness and
Cyclic Consistency [3.352375855433873]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。
また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-12T11:00:39Z) - Spatio-Temporal Contrastive Self-Supervised Learning for POI-level Crowd
Flow Inference [23.8192952068949]
S-temporal data(CSST)のための新しいコントラスト型自己学習フレームワークを提案する。
提案手法は,POI(Points of Interest)とその距離に基づく空間隣接グラフの構築から始める。
我々は、類似した事例から対象部分グラフの表現を予測するために、スワップした予測手法を採用する。
実世界の2つのデータセットで実施した実験では、広範囲のノイズデータに基づいて事前トレーニングされたCSSTが、ゼロからトレーニングされたモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-09-06T02:51:24Z) - Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly
Detection [14.721615285883423]
弱教師付き異常検出(WS-VAD)はビデオレベルのアノテーションだけでVADモデルを学習することを目的とした課題である。
提案手法は,異なる期間の異常や微妙な異常に対処できる。
論文 参考訳(メタデータ) (2023-03-31T13:28:06Z) - Pyramid Correlation based Deep Hough Voting for Visual Object Tracking [16.080776515556686]
我々は、ピラミド相関に基づくDeep Hough Voting(PCDHV用ショート)という、投票に基づく分類専用追跡アルゴリズムを提案する。
具体的には、埋め込み特徴に微細な局所構造と大域的空間的文脈を持たせるために、ピラミド相関モジュールを革新的に構築する。
精巧に設計されたDeep Hough Votingモジュールがさらに引き継ぎ、ピクセルの長距離依存を隅々まで知覚する。
論文 参考訳(メタデータ) (2021-10-15T10:37:00Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - Top-1 Solution of Multi-Moments in Time Challenge 2019 [56.15819266653481]
一般的な画像に基づく行動認識手法であるTRN, TSN, TSMを用いて, 実験を行った。
高速かつ正確な認識に向けて,新しい時間的インターレースネットワークを提案する。
我々は上記の全てのモデルをアンサンブルし、検証セットで67.22%、テストセットで60.77%を獲得し、最終リーダーボードで1位となった。
論文 参考訳(メタデータ) (2020-03-12T15:11:38Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。