論文の概要: Prototypical Transformer as Unified Motion Learners
- arxiv url: http://arxiv.org/abs/2406.01559v1
- Date: Mon, 3 Jun 2024 17:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:51:15.523966
- Title: Prototypical Transformer as Unified Motion Learners
- Title(参考訳): 統一運動学習者としての原型変換器
- Authors: Cheng Han, Yawen Lu, Guohao Sun, James C. Liang, Zhiwen Cao, Qifan Wang, Qiang Guan, Sohail A. Dianat, Raghuveer M. Rao, Tong Geng, Zhiqiang Tao, Dongfang Liu,
- Abstract要約: Prototypeal Transformer(ProtoFormer)は、プロトタイプの観点から様々な動作タスクにアプローチするフレームワークである。
ProtoFormerは、モーションダイナミクスを慎重に検討することで、Transformerとプロトタイプ学習をシームレスに統合する。
- 参考スコア(独自算出の注目度): 38.31482767855841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce the Prototypical Transformer (ProtoFormer), a general and unified framework that approaches various motion tasks from a prototype perspective. ProtoFormer seamlessly integrates prototype learning with Transformer by thoughtfully considering motion dynamics, introducing two innovative designs. First, Cross-Attention Prototyping discovers prototypes based on signature motion patterns, providing transparency in understanding motion scenes. Second, Latent Synchronization guides feature representation learning via prototypes, effectively mitigating the problem of motion uncertainty. Empirical results demonstrate that our approach achieves competitive performance on popular motion tasks such as optical flow and scene depth. Furthermore, it exhibits generality across various downstream tasks, including object tracking and video stabilization.
- Abstract(参考訳): 本稿では,プロトタイプの観点から様々な動作タスクにアプローチする汎用かつ統一的なフレームワークであるPrototypeal Transformer(ProtoFormer)を紹介する。
ProtoFormerは、モーションダイナミクスを慎重に検討し、2つの革新的なデザインを導入することで、Transformerとプロトタイプ学習をシームレスに統合する。
まず、クロスアテンションプロトタイピングは、シグネチャモーションパターンに基づくプロトタイプを発見し、モーションシーンの理解に透明性を提供する。
第二に、Latent Synchronizationはプロトタイプによる特徴表現学習をガイドし、運動の不確実性の問題を効果的に緩和する。
実験により,光学的流れやシーン深度といった一般的な動作課題に対して,本手法が競合性能を発揮することを示す。
さらに、オブジェクト追跡やビデオ安定化など、さまざまな下流タスクにまたがる汎用性を示す。
関連論文リスト
- ProMotion: Prototypes As Motion Learners [46.08051377180652]
本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。
ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。
我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。
論文 参考訳(メタデータ) (2024-06-07T15:10:33Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - UniST: Towards Unifying Saliency Transformer for Video Saliency
Prediction and Detection [9.063895463649414]
このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。
私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
論文 参考訳(メタデータ) (2023-09-15T07:39:53Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。