論文の概要: Can Visual Foundation Models Achieve Long-term Point Tracking?
- arxiv url: http://arxiv.org/abs/2408.13575v1
- Date: Sat, 24 Aug 2024 12:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:59:33.845593
- Title: Can Visual Foundation Models Achieve Long-term Point Tracking?
- Title(参考訳): Visual Foundation Modelsは長期的ポイントトラッキングを実現することができるか?
- Authors: Görkay Aydemir, Weidi Xie, Fatma Güney,
- Abstract要約: 点追跡の文脈における視覚基盤モデルの幾何学的認識を評価する。
以上の結果より, 安定拡散とDINOv2の特徴は, ゼロショット設定において優れた幾何対応能力を示すことが示唆された。
- 参考スコア(独自算出の注目度): 37.95592121632532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision foundation models have demonstrated remarkable success across various tasks, underscoring their robust generalization capabilities. While their proficiency in two-view correspondence has been explored, their effectiveness in long-term correspondence within complex environments remains unexplored. To address this, we evaluate the geometric awareness of visual foundation models in the context of point tracking: (i) in zero-shot settings, without any training; (ii) by probing with low-capacity layers; (iii) by fine-tuning with Low Rank Adaptation (LoRA). Our findings indicate that features from Stable Diffusion and DINOv2 exhibit superior geometric correspondence abilities in zero-shot settings. Furthermore, DINOv2 achieves performance comparable to supervised models in adaptation settings, demonstrating its potential as a strong initialization for correspondence learning.
- Abstract(参考訳): 大規模ビジョンファウンデーションモデルは、様々なタスクで顕著な成功を示し、その堅牢な一般化能力を強調している。
両面対応能力は検討されているが, 複合環境における長期対応の有効性は未解明のままである。
これを解決するために,視覚基盤モデルの幾何学的認識を点追跡の文脈で評価する。
(i) 訓練を受けずに、ゼロショット設定で
(二)低容量層で探すこと
(iii)低位順応(LoRA)による微調整。
以上より, 安定拡散とDINOv2の特徴は, ゼロショット設定において優れた幾何対応能力を示すことが示唆された。
さらに、DINOv2は適応設定における教師付きモデルに匹敵する性能を実現し、対応学習の強力な初期化の可能性を実証している。
関連論文リスト
- Unsupervised Non-Rigid Point Cloud Matching through Large Vision Models [1.3030624795284795]
非剛点クラウドマッチングのための学習ベースのフレームワークを提案する。
重要な洞察は、大きな視覚モデル(LVM)から派生した意味的特徴を統合することである。
本フレームワークは,局所的な地形間の自己相似性から生じるあいまいさに対処するために,意味的特徴に含まれる構造情報を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-16T07:02:19Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps [39.00415825387414]
そこで本研究では, 識別的特徴を3次元的理解で補う意味対応推定手法を提案する。
より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。
本研究では,SPair-71kデータセットを用いて,複数のオブジェクトカテゴリにまたがる対称なビューと繰り返し部分の区別が可能であることを実証した。
論文 参考訳(メタデータ) (2023-12-20T17:35:24Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。