論文の概要: Track Everything Everywhere Fast and Robustly
- arxiv url: http://arxiv.org/abs/2403.17931v1
- Date: Tue, 26 Mar 2024 17:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:08:24.516250
- Title: Track Everything Everywhere Fast and Robustly
- Title(参考訳): あらゆる場所を高速かつロバストに追跡する
- Authors: Yunzhou Song, Jiahui Lei, Ziyun Wang, Lingjie Liu, Kostas Daniilidis,
- Abstract要約: ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
- 参考スコア(独自算出の注目度): 46.362962852140015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel test-time optimization approach for efficiently and robustly tracking any pixel at any time in a video. The latest state-of-the-art optimization-based tracking technique, OmniMotion, requires a prohibitively long optimization time, rendering it impractical for downstream applications. OmniMotion is sensitive to the choice of random seeds, leading to unstable convergence. To improve efficiency and robustness, we introduce a novel invertible deformation network, CaDeX++, which factorizes the function representation into a local spatial-temporal feature grid and enhances the expressivity of the coupling blocks with non-linear functions. While CaDeX++ incorporates a stronger geometric bias within its architectural design, it also takes advantage of the inductive bias provided by the vision foundation models. Our system utilizes monocular depth estimation to represent scene geometry and enhances the objective by incorporating DINOv2 long-term semantics to regulate the optimization process. Our experiments demonstrate a substantial improvement in training speed (more than \textbf{10 times} faster), robustness, and accuracy in tracking over the SoTA optimization-based method OmniMotion.
- Abstract(参考訳): 本稿では,ビデオ中の任意のピクセルを効率的に,かつ頑健に追跡するための新しいテスト時間最適化手法を提案する。
最新の最先端の最適化ベースのトラッキング技術であるOmniMotionは、非常に長い最適化時間を必要とし、下流アプリケーションでは実用的ではない。
OmniMotionはランダムな種の選択に敏感であり、不安定な収束をもたらす。
効率性とロバスト性を向上させるために,関数表現を局所的な時空間特徴格子に分解し,非線型関数との結合ブロックの表現性を向上する,新しい非可逆変形ネットワークCaDeX++を導入する。
CaDeX++はアーキテクチャ設計に強力な幾何学的バイアスを組み込んでいるが、ビジョン基盤モデルが提供する帰納的バイアスも活用している。
本システムでは,DINOv2の長期意味論を取り入れて最適化プロセスの制御を行うことにより,シーン形状を表現するために単眼深度推定を利用する。
本実験は,SoTA最適化手法であるOmniMotionによる学習速度(textbf{10倍),ロバスト性,精度の大幅な向上を実証した。
関連論文リスト
- D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields [54.8553158441296]
統一された点ベース表現に基づく新しい視覚的ローカライゼーションフレームワーク PNeRFLoc を提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点をマッチングして初期ポーズ推定をサポートする。
一方、レンダリングベースの最適化を用いた新しいビュー合成によるポーズ改善も実現している。
論文 参考訳(メタデータ) (2023-12-17T08:30:00Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for
Enhanced Indoor View Synthesis [51.49008959209671]
本稿では,室内ビュー合成の品質と効率を高めるために,ボリューム表現を活用する新しいアプローチであるVoxNeRFを紹介する。
我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。
我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks [12.90962626557934]
コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
論文 参考訳(メタデータ) (2022-07-19T04:38:01Z) - Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport [18.717832661972896]
新しいアプローチは、思慮深い設計の連続力学と離散力学の相互作用に基づいて、初めて提案される。
方法は多様体の構造を正確に保存するが、一般的に使われる射影や引き抜きを必要としない。
適応学習率への一般化も示されている。
論文 参考訳(メタデータ) (2022-05-27T18:01:45Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Efficient Global Optimization of Non-differentiable, Symmetric
Objectives for Multi Camera Placement [0.0]
複数台のカメラを3Dシーンに最適に配置・配向するための新しい反復手法を提案する。
サンプルアプリケーションには、3D再構築の精度の向上、監視対象エリアの最大化、多視点歩行者追跡のカバレッジ向上が含まれる。
論文 参考訳(メタデータ) (2021-03-20T17:01:15Z) - Enhanced data efficiency using deep neural networks and Gaussian
processes for aerodynamic design optimization [0.0]
随伴型最適化法は空気力学的形状設計において魅力的である。
複数の最適化問題が解決されている場合、それらは違法に高価になる可能性がある。
本稿では,高コストな随伴解法に取って代わる機械学習を実現するサロゲートベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-15T15:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。