論文の概要: Learning Appearance and Motion Cues for Panoptic Tracking
- arxiv url: http://arxiv.org/abs/2503.09191v1
- Date: Wed, 12 Mar 2025 09:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:44.548020
- Title: Learning Appearance and Motion Cues for Panoptic Tracking
- Title(参考訳): パンオプティカルトラッキングのための学習外観と運動キュー
- Authors: Juana Valeria Hurtado, Sajad Marvi, Rohit Mohan, Abhinav Valada,
- Abstract要約: パノプティカルトラッキングは、パノプティカルセグメンテーションにインスタンストラッキングを統合することで、ビデオのピクセルレベルのシーンを可能にする。
本稿では、情報とインスタンス固有の外観と動作特徴を同時にキャプチャする、パノプティカルトラッキングのための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 13.062016289815057
- License:
- Abstract: Panoptic tracking enables pixel-level scene interpretation of videos by integrating instance tracking in panoptic segmentation. This provides robots with a spatio-temporal understanding of the environment, an essential attribute for their operation in dynamic environments. In this paper, we propose a novel approach for panoptic tracking that simultaneously captures general semantic information and instance-specific appearance and motion features. Unlike existing methods that overlook dynamic scene attributes, our approach leverages both appearance and motion cues through dedicated network heads. These interconnected heads employ multi-scale deformable convolutions that reason about scene motion offsets with semantic context and motion-enhanced appearance features to learn tracking embeddings. Furthermore, we introduce a novel two-step fusion module that integrates the outputs from both heads by first matching instances from the current time step with propagated instances from previous time steps and subsequently refines associations using motion-enhanced appearance embeddings, improving robustness in challenging scenarios. Extensive evaluations of our proposed \netname model on two benchmark datasets demonstrate that it achieves state-of-the-art performance in panoptic tracking accuracy, surpassing prior methods in maintaining object identities over time. To facilitate future research, we make the code available at http://panoptictracking.cs.uni-freiburg.de
- Abstract(参考訳): Panoptic Trackingは、Panoptic segmentationにインスタンス追跡を統合することで、ビデオのピクセルレベルのシーン解釈を可能にする。
これによりロボットは、動的環境における動作に不可欠な特性である環境を時空間的に理解することができる。
本稿では、一般的な意味情報と、インスタンス固有の外観と動きの特徴を同時にキャプチャする、パノプティカルトラッキングのための新しいアプローチを提案する。
動的シーン特性を見渡す既存の手法とは異なり、我々の手法は専用のネットワークヘッドを通して外観と動きの手がかりを利用する。
これらの相互接続された頭部は多スケールの変形可能な畳み込みを用いており、シーンの動きのオフセットを意味的コンテキストと動きの強化された外観特徴に関連づけることで、トラッキングの埋め込みを学習する。
さらに,2段階の融合モジュールを導入し,両頭部からの出力を,現在の時間ステップからの最初のマッチングインスタンスと,以前の時間ステップからの伝播インスタンスとで統合し,その後,動作強化された外観埋め込みを用いて関連性を洗練し,挑戦シナリオにおける堅牢性を向上させる。
提案した2つのベンチマークデータセットのネット名モデルに対する広範囲な評価により,パン光学的追跡精度において,時間とともにオブジェクトの同一性を維持するための従来の手法を超越した,最先端のパフォーマンスを実現していることが示された。
将来の研究を容易にするため、コードについてはhttp://panoptictracking.cs.uni-freiburg.deで公開しています。
関連論文リスト
- Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。
具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。
この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文 参考訳(メタデータ) (2025-02-15T00:35:34Z) - Temporally Consistent Dynamic Scene Graphs: An End-to-End Approach for Action Tracklet Generation [1.6584112749108326]
TCDSG、Temporally Consistent Dynamic Scene Graphsは、時間を通して対象と対象の関係を検出し、追跡し、リンクするエンドツーエンドのフレームワークである。
私たちの研究は、マルチフレームビデオ分析における新しい標準を設定し、監視、自律ナビゲーションなどにおける、高インパクトなアプリケーションのための新たな道を開く。
論文 参考訳(メタデータ) (2024-12-03T20:19:20Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。