論文の概要: A Study of Finetuning Video Transformers for Multi-view Geometry Tasks
- arxiv url: http://arxiv.org/abs/2512.18684v1
- Date: Sun, 21 Dec 2025 10:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.456497
- Title: A Study of Finetuning Video Transformers for Multi-view Geometry Tasks
- Title(参考訳): 多視点幾何課題のための微調整映像変換器の検討
- Authors: Huimin Wu, Kwang-Ting Cheng, Stephen Lin, Zhirong Wu,
- Abstract要約: ビデオに事前訓練された汎用モデルは、最小限の適応を伴う多視点問題に容易に移行できる。
Sintel clean, Sintel final, and KITTI datasetsにおいて、終点誤差(EPE)0.69, 1.78, 3.15の光学フロー推定のためのトップデータセットの一般化結果が得られた。
- 参考スコア(独自算出の注目度): 38.47908309127428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an investigation of vision transformer learning for multi-view geometry tasks, such as optical flow estimation, by fine-tuning video foundation models. Unlike previous methods that involve custom architectural designs and task-specific pretraining, our research finds that general-purpose models pretrained on videos can be readily transferred to multi-view problems with minimal adaptation. The core insight is that general-purpose attention between patches learns temporal and spatial information for geometric reasoning. We demonstrate that appending a linear decoder to the Transformer backbone produces satisfactory results, and iterative refinement can further elevate performance to stateof-the-art levels. This conceptually simple approach achieves top cross-dataset generalization results for optical flow estimation with end-point error (EPE) of 0.69, 1.78, and 3.15 on the Sintel clean, Sintel final, and KITTI datasets, respectively. Our method additionally establishes a new record on the online test benchmark with EPE values of 0.79, 1.88, and F1 value of 3.79. Applications to 3D depth estimation and stereo matching also show strong performance, illustrating the versatility of video-pretrained models in addressing geometric vision tasks.
- Abstract(参考訳): 本稿では,光学的フロー推定などの多視点幾何課題に対する視覚変換器学習について,微調整ビデオ基礎モデルを用いて検討する。
従来のカスタムアーキテクチャ設計やタスク固有の事前トレーニングとは違って,ビデオに事前トレーニングされた汎用モデルは,最小限の適応で容易にマルチビュー問題に移行できることがわかった。
中心となる洞察は、パッチ間の汎用的な注意は、幾何学的推論のために時間的および空間的な情報を学ぶことである。
線形デコーダをトランスフォーマーのバックボーンに付加することで良好な結果が得られることを示す。
この概念的に単純なアプローチは、Sintel clean, Sintel final, KITTI データセット上で、それぞれ0.69, 1.78, 3.15の終点誤差(EPE)を持つ光フロー推定のためのトップデータセットの一般化結果を達成する。
さらに,EPE値0.79,1.88,F1値3.79のオンラインテストベンチマークに新たな記録を樹立した。
3次元深度推定とステレオマッチングの応用も高い性能を示し、幾何学的視覚課題に対処するビデオ事前学習モデルの汎用性を示す。
関連論文リスト
- Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes [56.936178608296906]
我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。
近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。
MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
論文 参考訳(メタデータ) (2025-05-03T08:28:15Z) - MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。