論文の概要: Track Everything Everywhere Fast and Robustly
- arxiv url: http://arxiv.org/abs/2403.17931v1
- Date: Tue, 26 Mar 2024 17:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:08:24.516250
- Title: Track Everything Everywhere Fast and Robustly
- Title(参考訳): あらゆる場所を高速かつロバストに追跡する
- Authors: Yunzhou Song, Jiahui Lei, Ziyun Wang, Lingjie Liu, Kostas Daniilidis,
- Abstract要約: ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
- 参考スコア(独自算出の注目度): 46.362962852140015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel test-time optimization approach for efficiently and robustly tracking any pixel at any time in a video. The latest state-of-the-art optimization-based tracking technique, OmniMotion, requires a prohibitively long optimization time, rendering it impractical for downstream applications. OmniMotion is sensitive to the choice of random seeds, leading to unstable convergence. To improve efficiency and robustness, we introduce a novel invertible deformation network, CaDeX++, which factorizes the function representation into a local spatial-temporal feature grid and enhances the expressivity of the coupling blocks with non-linear functions. While CaDeX++ incorporates a stronger geometric bias within its architectural design, it also takes advantage of the inductive bias provided by the vision foundation models. Our system utilizes monocular depth estimation to represent scene geometry and enhances the objective by incorporating DINOv2 long-term semantics to regulate the optimization process. Our experiments demonstrate a substantial improvement in training speed (more than \textbf{10 times} faster), robustness, and accuracy in tracking over the SoTA optimization-based method OmniMotion.
- Abstract(参考訳): 本稿では,ビデオ中の任意のピクセルを効率的に,かつ頑健に追跡するための新しいテスト時間最適化手法を提案する。
最新の最先端の最適化ベースのトラッキング技術であるOmniMotionは、非常に長い最適化時間を必要とし、下流アプリケーションでは実用的ではない。
OmniMotionはランダムな種の選択に敏感であり、不安定な収束をもたらす。
効率性とロバスト性を向上させるために,関数表現を局所的な時空間特徴格子に分解し,非線型関数との結合ブロックの表現性を向上する,新しい非可逆変形ネットワークCaDeX++を導入する。
CaDeX++はアーキテクチャ設計に強力な幾何学的バイアスを組み込んでいるが、ビジョン基盤モデルが提供する帰納的バイアスも活用している。
本システムでは,DINOv2の長期意味論を取り入れて最適化プロセスの制御を行うことにより,シーン形状を表現するために単眼深度推定を利用する。
本実験は,SoTA最適化手法であるOmniMotionによる学習速度(textbf{10倍),ロバスト性,精度の大幅な向上を実証した。
関連論文リスト
- Universal Online Temporal Calibration for Optimization-based Visual-Inertial Navigation Systems [13.416013522770905]
最適化に基づくビジュアル慣性ナビゲーションシステムのための汎用的なオンライン時間的キャリブレーション戦略を提案する。
我々は、最適化残差モデルにおいて、タイムオフセットtdを状態パラメータとして使用し、IMU状態を対応する画像のタイムスタンプに整列させる。
我々のアプローチは、特にノイズの多いセンサデータの存在下で、より正確な時間オフセット推定とより高速な収束を提供する。
論文 参考訳(メタデータ) (2025-01-03T12:41:25Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - HGSLoc: 3DGS-based Heuristic Camera Pose Refinement [13.393035855468428]
視覚的ローカライゼーションは、既知のシーン表現内のカメラのポーズと方向を決定するプロセスを指す。
本稿では,3次元再構成と改良戦略を統合したHGSLocを提案する。
提案手法は,NeRFベースのニューラルレンダリング手法と比較して,高速なレンダリング速度とローカライズ精度を示す。
論文 参考訳(メタデータ) (2024-09-17T06:48:48Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields [54.8553158441296]
統一された点ベース表現に基づく新しい視覚的ローカライゼーションフレームワーク PNeRFLoc を提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点をマッチングして初期ポーズ推定をサポートする。
一方、レンダリングベースの最適化を用いた新しいビュー合成によるポーズ改善も実現している。
論文 参考訳(メタデータ) (2023-12-17T08:30:00Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport [18.717832661972896]
新しいアプローチは、思慮深い設計の連続力学と離散力学の相互作用に基づいて、初めて提案される。
方法は多様体の構造を正確に保存するが、一般的に使われる射影や引き抜きを必要としない。
適応学習率への一般化も示されている。
論文 参考訳(メタデータ) (2022-05-27T18:01:45Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Efficient Global Optimization of Non-differentiable, Symmetric
Objectives for Multi Camera Placement [0.0]
複数台のカメラを3Dシーンに最適に配置・配向するための新しい反復手法を提案する。
サンプルアプリケーションには、3D再構築の精度の向上、監視対象エリアの最大化、多視点歩行者追跡のカバレッジ向上が含まれる。
論文 参考訳(メタデータ) (2021-03-20T17:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。