論文の概要: CodingHomo: Bootstrapping Deep Homography With Video Coding
- arxiv url: http://arxiv.org/abs/2504.12165v1
- Date: Wed, 16 Apr 2025 15:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:20.792731
- Title: CodingHomo: Bootstrapping Deep Homography With Video Coding
- Title(参考訳): CodingHomo:ビデオコーディングによるディープホモグラフィーのブートストラップ
- Authors: Yike Liu, Haipeng Li, Shuaicheng Liu, Bing Zeng,
- Abstract要約: ホログラフィー推定はコンピュータビジョンの基本課題であり、様々な分野で応用されている。
ディープラーニングの最近の進歩は、特に教師なし学習アプローチで、ホモグラフィー推定を改善している。
ホモグラフィー推定のための教師なしフレームワークであるCodingHomoを提案する。
- 参考スコア(独自算出の注目度): 49.69268313796418
- License:
- Abstract: Homography estimation is a fundamental task in computer vision with applications in diverse fields. Recent advances in deep learning have improved homography estimation, particularly with unsupervised learning approaches, offering increased robustness and generalizability. However, accurately predicting homography, especially in complex motions, remains a challenge. In response, this work introduces a novel method leveraging video coding, particularly by harnessing inherent motion vectors (MVs) present in videos. We present CodingHomo, an unsupervised framework for homography estimation. Our framework features a Mask-Guided Fusion (MGF) module that identifies and utilizes beneficial features among the MVs, thereby enhancing the accuracy of homography prediction. Additionally, the Mask-Guided Homography Estimation (MGHE) module is presented for eliminating undesired features in the coarse-to-fine homography refinement process. CodingHomo outperforms existing state-of-the-art unsupervised methods, delivering good robustness and generalizability. The code and dataset are available at: \href{github}{https://github.com/liuyike422/CodingHomo
- Abstract(参考訳): ホログラフィー推定はコンピュータビジョンの基本課題であり、様々な分野で応用されている。
近年のディープラーニングの進歩により、ホモグラフィー推定、特に教師なし学習アプローチが向上し、堅牢性と一般化性が向上した。
しかし、特に複雑な運動において、正確にホモグラフィーを予測することは依然として困難である。
そこで本研究では,ビデオに内在する動きベクトル(MV)を活用することによって,映像符号化を利用した新しい手法を提案する。
ホモグラフィー推定のための教師なしフレームワークであるCodingHomoを提案する。
本フレームワークは,MV間の有益な特徴を識別・活用するMask-Guided Fusion (MGF) モジュールを備え,ホモグラフィー予測の精度を向上させる。
さらに、粗大な微細なホモグラフィ精細化過程における不要な特徴を除去するために、Mask-Guided Homography Estimation (MGHE) モジュールが提示される。
CodingHomoは、既存の最先端の教師なしメソッドよりも優れ、堅牢性と一般化性を提供する。
コードとデータセットは以下の通りである。 \href{github}{https://github.com/liuyike422/CodingHomo
関連論文リスト
- Video-based Sequential Bayesian Homography Estimation for Soccer Field Registration [0.0]
1つのビデオフレームのホモグラフィーをアフィン変換によって次のビデオフレームに明示的に関連付ける新しいベイズフレームワークが提案されている。
提案手法は,2段階カルマンフィルタを用いて既存の手法を大幅に改善する。
論文 参考訳(メタデータ) (2023-11-17T07:30:00Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Unsupervised Homography Estimation with Coplanarity-Aware GAN [39.477228263736905]
画像ペアからホモグラフィーを推定することは、画像アライメントの根本的な問題である。
HomoGANは、教師なしのホモグラフィー推定を誘導し、支配的な平面に焦点を合わせるように設計されている。
その結果, マッチング誤差は従来のSOTA法よりも22%低いことがわかった。
論文 参考訳(メタデータ) (2022-05-08T09:26:47Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Bayesian Deep Learning for Graphs [6.497816402045099]
論文は、この分野のほとんどのメソッドが構築される原則のレビューから始まり、続いてグラフ分類問題の研究が続く。
そこから、ディープアーキテクチャを漸進的に構築することで、グラフのディープラーニングに関する基本的なアイデアをベイジアンの世界に橋渡しします。
このフレームワークにより、離散的かつ連続的なエッジ特徴を持つグラフを考慮し、いくつかの分類タスクで最先端に達するのに十分な教師なしの埋め込みを生成することができる。
論文 参考訳(メタデータ) (2022-02-24T20:18:41Z) - Depth-Aware Multi-Grid Deep Homography Estimation with Contextual
Correlation [38.95610086309832]
ホログラフィー推定は、画像ステッチ、ビデオ安定化、カメラキャリブレーションなどのコンピュータビジョンにおいて重要なタスクである。
従来のホモグラフィー推定法は特徴点の量と分布に依存するため、テクスチャレスシーンではロバスト性が低い。
特徴写像上の長距離相関を捉えることができ、学習フレームワークに柔軟にブリッジできるコンテキスト相関層を提案する。
我々は,新しい深度認識型形状保存損失を導入することで,ネットワークに深度知覚能力を持たせる。
論文 参考訳(メタデータ) (2021-07-06T10:33:12Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。