論文の概要: ProMotion: Prototypes As Motion Learners
- arxiv url: http://arxiv.org/abs/2406.04999v1
- Date: Fri, 7 Jun 2024 15:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:32:11.984971
- Title: ProMotion: Prototypes As Motion Learners
- Title(参考訳): ProMotion:モーション学習者としてのプロトタイプ
- Authors: Yawen Lu, Dongfang Liu, Qifan Wang, Cheng Han, Yiming Cui, Zhiwen Cao, Xueling Zhang, Yingjie Victor Chen, Heng Fan,
- Abstract要約: 本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
- 参考スコア(独自算出の注目度): 46.08051377180652
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce ProMotion, a unified prototypical framework engineered to model fundamental motion tasks. ProMotion offers a range of compelling attributes that set it apart from current task-specific paradigms. We adopt a prototypical perspective, establishing a unified paradigm that harmonizes disparate motion learning approaches. This novel paradigm streamlines the architectural design, enabling the simultaneous assimilation of diverse motion information. We capitalize on a dual mechanism involving the feature denoiser and the prototypical learner to decipher the intricacies of motion. This approach effectively circumvents the pitfalls of ambiguity in pixel-wise feature matching, significantly bolstering the robustness of motion representation. We demonstrate a profound degree of transferability across distinct motion patterns. This inherent versatility reverberates robustly across a comprehensive spectrum of both 2D and 3D downstream tasks. Empirical results demonstrate that ProMotion outperforms various well-known specialized architectures, achieving 0.54 and 0.054 Abs Rel error on the Sintel and KITTI depth datasets, 1.04 and 2.01 average endpoint error on the clean and final pass of Sintel flow benchmark, and 4.30 F1-all error on the KITTI flow benchmark. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.
- Abstract(参考訳): 本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は、異なる動作学習アプローチを調和させる統一パラダイムを確立し、プロトタイプ的な視点を採用する。
このパラダイムはアーキテクチャ設計を合理化し、多様な動作情報の同時同化を可能にする。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
このアプローチは、画素単位の特徴マッチングにおけるあいまいさの落とし穴を効果的に回避し、動き表現のロバスト性を著しく強化する。
異なる動きのパターンにまたがる転送可能性を示す。
この本質的な汎用性は、2Dと3Dの両方の下流タスクの包括的なスペクトルにわたって頑健に反響する。
ProMotion は Sintel と KITTI の深さデータセットで 0.54 と 0.054 Abs Rel エラー、Sintel フローベンチマークのクリーンパスおよび最終パスで 1.04 と 2.01 の平均エンドポイントエラー、KITTI フローベンチマークで 4.30 F1-all エラーを達成している。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
関連論文リスト
- 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation [4.386035726986601]
3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。
点雲の異なる2次元表現からモーションセマンティックな特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。
提案するマルチブランチ融合MOSフレームワークの有効性を総合実験により検証した。
論文 参考訳(メタデータ) (2024-08-20T07:30:00Z) - Prototypical Transformer as Unified Motion Learners [38.31482767855841]
Prototypeal Transformer(ProtoFormer)は、プロトタイプの観点から様々な動作タスクにアプローチするフレームワークである。
ProtoFormerは、モーションダイナミクスを慎重に検討することで、Transformerとプロトタイプ学習をシームレスに統合する。
論文 参考訳(メタデータ) (2024-06-03T17:41:28Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。