論文の概要: Accurate Grid Keypoint Learning for Efficient Video Prediction
- arxiv url: http://arxiv.org/abs/2107.13170v1
- Date: Wed, 28 Jul 2021 05:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 13:59:37.150198
- Title: Accurate Grid Keypoint Learning for Efficient Video Prediction
- Title(参考訳): 効率的な映像予測のための正確なグリッドキーポイント学習
- Authors: Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, and Pheng-Ann Heng
- Abstract要約: キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
- 参考スコア(独自算出の注目度): 87.71109421608232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction methods generally consume substantial computing resources in
training and deployment, among which keypoint-based approaches show promising
improvement in efficiency by simplifying dense image prediction to light
keypoint prediction. However, keypoint locations are often modeled only as
continuous coordinates, so noise from semantically insignificant deviations in
videos easily disrupt learning stability, leading to inaccurate keypoint
modeling. In this paper, we design a new grid keypoint learning framework,
aiming at a robust and explainable intermediate keypoint representation for
long-term efficient video prediction. We have two major technical
contributions. First, we detect keypoints by jumping among candidate locations
in our raised grid space and formulate a condensation loss to encourage
meaningful keypoints with strong representative capability. Second, we
introduce a 2D binary map to represent the detected grid keypoints and then
suggest propagating keypoint locations with stochasticity by selecting entries
in the discrete grid space, thus preserving the spatial structure of keypoints
in the longterm horizon for better future frame generation. Extensive
experiments verify that our method outperforms the state-ofthe-art stochastic
video prediction methods while saves more than 98% of computing resources. We
also demonstrate our method on a robotic-assisted surgery dataset with
promising results. Our code is available at
https://github.com/xjgaocs/Grid-Keypoint-Learning.
- Abstract(参考訳): ビデオ予測手法は一般に、トレーニングやデプロイメントにおいてかなりの計算資源を消費するが、その中でキーポイントベースのアプローチは、高密度な画像予測を軽量なキーポイント予測に単純化することにより、効率が向上することを示す。
しかし、キーポイントの位置はしばしば連続座標としてのみモデル化されるため、ビデオにおける意味的に重要でない偏差によるノイズは学習の安定性を損なうことが容易であり、キーポイントのモデリングが不正確なものとなる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
技術的な貢献は2つあります。
まず,隆起したグリッド空間の候補位置間をジャンプしてキーポイントを検出し,凝縮損失を定式化し,強力な代表能力を持つ有意義なキーポイントを奨励する。
次に,検出されたグリッドキーポイントを表す2次元バイナリマップを導入し,離散格子空間のエントリを選択することで,キーポイントの位置を確率的に伝播させることを提案する。
広範な実験により,計算資源の98%以上を節約しつつ,最先端の確率的ビデオ予測手法を上回っていることを確認した。
また,ロボット支援手術データセット上でも有望な結果が得られた。
私たちのコードはhttps://github.com/xjgaocs/grid-keypoint-learningで利用可能です。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - SD-Net: Symmetric-Aware Keypoint Prediction and Domain Adaptation for 6D Pose Estimation In Bin-picking Scenarios [2.786599193929693]
対称認識型キーポイント予測と自己学習領域適応(SD-Net)を備えた新しい6次元ポーズ推定ネットワークを提案する。
キーポイント予測段階では,高度に隠蔽されたシーンにおいても,ロバストな3Dキーポイント選択戦略を設計し,3Dキーポイントを特定する。
ドメイン適応段階において,学生-教員養成方式を用いた自己学習フレームワークを提案する。
パブリックなSil'eaneデータセットでは、SD-Netは最先端の結果を達成し、平均精度は96%である。
論文 参考訳(メタデータ) (2024-03-14T12:08:44Z) - Unsupervised Keypoints from Pretrained Diffusion Models [31.147785019795347]
我々は、テキストから画像への拡散モデルにおける創発的な知識を、より堅牢な教師なしキーポイントに活用する。
私たちの中核となる考え方は、生成モデルが画像のコンパクトな領域に一貫して従う原因となるテキスト埋め込みを見つけることです。
CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。
論文 参考訳(メタデータ) (2023-11-29T19:43:38Z) - KGNv2: Separating Scale and Pose Prediction for Keypoint-based 6-DoF
Grasp Synthesis on RGB-D input [16.897624250286487]
画像入力によるキーポイント型グリップ検出器は有望な結果を示した。
そこで我々は,キーポイント推定への依存性を低減できる新たなグリップ生成ネットワークを考案した。
論文 参考訳(メタデータ) (2023-03-09T23:11:52Z) - Long-Lived Accurate Keypoints in Event Streams [28.892653505044425]
イベントストリームにおけるキーポイントの検出とトラッキングに対する,新たなエンドツーエンドアプローチを提案する。
その結果,従来の最先端手法の3倍近い精度のキーポイントトラックが得られた。
論文 参考訳(メタデータ) (2022-09-21T14:25:31Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Keypoint Autoencoders: Learning Interest Points of Semantics [4.551313396927381]
キーポイント検出のための教師なし学習手法であるキーポイントオートエンコーダを提案する。
キーポイントから元のポイントクラウドへの再構成を強制することで、疎いセマンティックキーポイントの選択を奨励する。
選択したキーポイントの特異性を示すために、スパースキーポイントで形状を分類する下流タスクを行う。
論文 参考訳(メタデータ) (2020-08-11T03:43:18Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。