論文の概要: HomoFM: Deep Homography Estimation with Flow Matching
- arxiv url: http://arxiv.org/abs/2601.18222v1
- Date: Mon, 26 Jan 2026 07:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.716549
- Title: HomoFM: Deep Homography Estimation with Flow Matching
- Title(参考訳): HomoFM:フローマッチングによる深部ホログラフィー推定
- Authors: Mengfan He, Liangzheng Sun, Chunyu Li, Ziyang Meng,
- Abstract要約: HomoFMは、生成モデリングからホモグラフィー推定タスクにフローマッチング技術を導入する新しいフレームワークである。
我々は,HomoFMが標準ベンチマークにおける評価精度とロバスト性の両方において最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 2.0260360833154913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep homography estimation has broad applications in computer vision and robotics. Remarkable progresses have been achieved while the existing methods typically treat it as a direct regression or iterative refinement problem and often struggling to capture complex geometric transformations or generalize across different domains. In this work, we propose HomoFM, a new framework that introduces the flow matching technique from generative modeling into the homography estimation task for the first time. Unlike the existing methods, we formulate homography estimation problem as a velocity field learning problem. By modeling a continuous and point-wise velocity field that transforms noisy distributions into registered coordinates, the proposed network recovers high-precision transformations through a conditional flow trajectory. Furthermore, to address the challenge of domain shifts issue, e.g., the cases of multimodal matching or varying illumination scenarios, we integrate a gradient reversal layer (GRL) into the feature extraction backbone. This domain adaptation strategy explicitly constrains the encoder to learn domain-invariant representations, significantly enhancing the network's robustness. Extensive experiments demonstrate the effectiveness of the proposed method, showing that HomoFM outperforms state-of-the-art methods in both estimation accuracy and robustness on standard benchmarks. Code and data resource are available at https://github.com/hmf21/HomoFM.
- Abstract(参考訳): ディープホモグラフィー推定はコンピュータビジョンやロボティクスに広く応用されている。
既存の手法は直接回帰的あるいは反復的洗練問題として扱うのが一般的であり、複雑な幾何学的変換を捉えたり、異なる領域にまたがる一般化に苦慮することが多い。
本研究では,生成モデルからのフローマッチング手法をホモグラフィー推定タスクに導入した新しいフレームワークであるHomoFMを提案する。
従来の手法とは異なり、速度場学習問題としてホモグラフィー推定問題を定式化する。
雑音分布を登録座標に変換する連続的および点速度場をモデル化することにより,条件付き流路を通した高精度な変換を復元する。
さらに、ドメインシフト問題、例えばマルチモーダルマッチングや様々な照明シナリオの問題に対処するために、機能抽出バックボーンに勾配反転層(GRL)を統合する。
このドメイン適応戦略は、エンコーダにドメイン不変表現の学習を明示的に制限し、ネットワークの堅牢性を大幅に向上させる。
提案手法の有効性を実証し,HomoFMが標準ベンチマークにおける評価精度とロバスト性の両方において最先端の手法より優れていることを示す。
コードとデータリソースはhttps://github.com/hmf21/HomoFMで入手できる。
関連論文リスト
- Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection [58.25418970608328]
Single-Domain Generalized Object Detection (Single-DGOD)は、あるソースドメインで訓練された検出器を複数の未知のドメインに転送することを目的としている。
シングルDGODの既存の方法は通常、データの多様性を拡大するために離散的なデータ拡張や静的摂動法に依存している。
そこで本研究では,ソース領域から潜伏分布のシミュレーションに至るまでの機能の進化をシミュレートする手法を提案する。
論文 参考訳(メタデータ) (2025-11-13T03:10:39Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - AbHE: All Attention-based Homography Estimation [0.0]
本研究では,局所的な特徴を持つ畳み込みニューラルネットワークとグローバルな特徴を持つトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。
ホモグラフィ回帰段階では、相関ボリュームのチャネルに注意層を導入し、いくつかの弱い相関特徴点を排除できる。
実験の結果,8自由度(DOF)ホモグラフィーでは,我々の手法が最先端の手法をオーバーパフォーマンスすることがわかった。
論文 参考訳(メタデータ) (2022-12-06T15:00:00Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。