論文の概要: UFM: A Simple Path towards Unified Dense Correspondence with Flow
- arxiv url: http://arxiv.org/abs/2506.09278v1
- Date: Tue, 10 Jun 2025 22:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.128973
- Title: UFM: A Simple Path towards Unified Dense Correspondence with Flow
- Title(参考訳): UFM:一貫した密度と流れの対応へ向けた簡単な道
- Authors: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang,
- Abstract要約: Unified Flow & Matching Model (UFM) は、ソース画像とターゲット画像の両方で同一視できるピクセルの統一データに基づいて訓練される。
UFMは最先端の流れ法よりも28%精度が高い。
- 参考スコア(独自算出の注目度): 40.97394594672024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense image correspondence is central to many applications, such as visual odometry, 3D reconstruction, object association, and re-identification. Historically, dense correspondence has been tackled separately for wide-baseline scenarios and optical flow estimation, despite the common goal of matching content between two images. In this paper, we develop a Unified Flow & Matching model (UFM), which is trained on unified data for pixels that are co-visible in both source and target images. UFM uses a simple, generic transformer architecture that directly regresses the (u,v) flow. It is easier to train and more accurate for large flows compared to the typical coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than state-of-the-art flow methods (Unimatch), while also having 62% less error and 6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to demonstrate that unified training can outperform specialized approaches across both domains. This result enables fast, general-purpose correspondence and opens new directions for multi-modal, long-range, and real-time correspondence tasks.
- Abstract(参考訳): 複雑な画像対応は、視覚計測、3次元再構成、オブジェクトの関連付け、再同定など、多くの応用の中心である。
歴史的に、2つの画像間の内容の一致という共通の目標にもかかわらず、広義のシナリオと光フロー推定のために、密接な対応が個別に取り組まれてきた。
本稿では,ソース画像とターゲット画像の両方で同一視可能な画素の統一データに基づいて訓練された統一フロー・マッチング・モデル(UFM)を開発する。
UFMは(u,v)フローを直接回帰する単純で汎用的なトランスフォーマーアーキテクチャを使用している。
トレーニングが容易で、従来の粗大なコストのボリュームに比べれば、大きなフローに対してより正確である。
UFMは最先端の流れ法(Unimatch)よりも28%正確であり、エラーは62%少なく、6.7倍高速である。
UFMは、統合トレーニングが両方のドメインにまたがる特殊なアプローチより優れていることを示す最初のものである。
これにより、高速で汎用的な対応が可能となり、マルチモーダル、長距離、リアルタイム対応タスクのための新しい方向が開かれる。
関連論文リスト
- LeDiFlow: Learned Distribution-guided Flow Matching to Accelerate Image Generation [1.1847464266302488]
Flow Matching(FM)は、DMで使用されるスコアベースではなく、シミュレーションなしのトレーニング目標に基づく強力な生成モデリングパラダイムである。
本稿では,FMベースの画像生成モデルを学習するための新しいスケーラブルな手法であるLearted Distribution-guided Flow Matching(LeDiFlow)を提案する。
提案手法では,ステートオフ・ザ・アルト (SOTA) トランスフォーマーアーキテクチャと遅延空間サンプリングを併用し,コンシューマー向けワークステーションでトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T05:07:37Z) - Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution [14.57591222028278]
クロスモーダルフローマッチングのための汎用的でシンプルなフレームワークであるCrossFlowを提案する。
本稿では、入力データに変分法を適用することの重要性を示し、フリーガイダンスを実現する方法を提案する。
また,本手法の一般化可能性を示すため,CrossFlowは多種多様なクロスモーダル/イントラモーダルマッピングタスクの最先端性に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - FLD+: Data-efficient Evaluation Metric for Generative Models [4.093503153499691]
本稿では,より信頼性が高く,データ効率が高く,計算効率が高く,新しい領域に適応可能な生成画像の品質を評価するための新しい指標を提案する。
提案した計量は、任意の領域からの画像の密度(正確には対数のような)の計算を可能にする正規化フローに基づいている。
論文 参考訳(メタデータ) (2024-11-23T15:12:57Z) - Exploring Straighter Trajectories of Flow Matching with Diffusion
Guidance [66.4153984834872]
フローマッチング(StraightFM)のストレートトラジェクトリを提案する。
分布レベル全体から拡散モデルによって導かれる結合戦略により軌道を直線化する。
拡散法と従来のフローマッチング法の間で、FIDが低い視覚的に魅力的な画像を生成する。
論文 参考訳(メタデータ) (2023-11-28T06:19:30Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Rethinking Coarse-to-Fine Approach in Single Image Deblurring [19.195704769925925]
マルチインプットマルチアウトプットU-netを用いた高速かつ高精度なデブロアリングネットワーク設計を提案する。
提案したネットワークは、精度と計算複雑性の両方の観点から最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-08-11T06:37:01Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。