論文の概要: Unsupervised Homography Estimation on Multimodal Image Pair via Alternating Optimization
- arxiv url: http://arxiv.org/abs/2411.13036v1
- Date: Wed, 20 Nov 2024 04:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:10.715441
- Title: Unsupervised Homography Estimation on Multimodal Image Pair via Alternating Optimization
- Title(参考訳): 交互最適化によるマルチモーダル画像ペアの教師なしホログラフィー推定
- Authors: Sanghyeob Song, Jaihyun Lew, Hyemi Jang, Sungroh Yoon,
- Abstract要約: 2つの画像間のホモグラフィーを推定することは、中高レベルの視覚タスクに不可欠である。
マルチモーダル画像対におけるホモグラフィーを推定するための教師なし学習フレームワークAltOを提案する。
- 参考スコア(独自算出の注目度): 32.78378595686787
- License:
- Abstract: Estimating the homography between two images is crucial for mid- or high-level vision tasks, such as image stitching and fusion. However, using supervised learning methods is often challenging or costly due to the difficulty of collecting ground-truth data. In response, unsupervised learning approaches have emerged. Most early methods, though, assume that the given image pairs are from the same camera or have minor lighting differences. Consequently, while these methods perform effectively under such conditions, they generally fail when input image pairs come from different domains, referred to as multimodal image pairs. To address these limitations, we propose AltO, an unsupervised learning framework for estimating homography in multimodal image pairs. Our method employs a two-phase alternating optimization framework, similar to Expectation-Maximization (EM), where one phase reduces the geometry gap and the other addresses the modality gap. To handle these gaps, we use Barlow Twins loss for the modality gap and propose an extended version, Geometry Barlow Twins, for the geometry gap. As a result, we demonstrate that our method, AltO, can be trained on multimodal datasets without any ground-truth data. It not only outperforms other unsupervised methods but is also compatible with various architectures of homography estimators. The source code can be found at:~\url{https://github.com/songsang7/AltO}
- Abstract(参考訳): 2つの画像間のホモグラフィーを推定することは、画像縫合や融合といった中高レベルの視覚タスクに不可欠である。
しかし,地上データ収集が困難であるため,教師あり学習手法の使用は困難あるいは費用がかかることが多い。
これに対し、教師なし学習アプローチが出現した。
しかし、初期の方法のほとんどは、与えられた画像ペアが同じカメラのものであるか、小さな光の違いがあると仮定している。
したがって、これらの手法はそのような条件下で効果的に機能するが、入力画像対が異なる領域から来ている場合、一般的にはマルチモーダル画像対と呼ばれる。
これらの制約に対処するために,マルチモーダル画像対におけるホモグラフィーを推定するための教師なし学習フレームワークAltOを提案する。
提案手法は,2相交互最適化の枠組みを用いており,一方の位相が幾何学的ギャップを減らし,他方の位相がモダリティギャップに対処する期待最大化(EM)と同様である。
これらのギャップに対処するために、モダリティギャップにBarlow Twins損失を用い、幾何学的ギャップにGeometry Barlow Twinsの拡張版を提案する。
その結果,提案手法であるAltOが,基盤構造データなしでマルチモーダルデータセット上で学習できることが実証された。
他の教師なしの手法よりも優れているだけでなく、ホモグラフィー推定器の様々なアーキテクチャとも互換性がある。
ソースコードは以下の通り。~\url{https://github.com/songsang7/AltO}
関連論文リスト
- Learning from small data sets: Patch-based regularizers in inverse
problems for image reconstruction [1.1650821883155187]
機械学習の最近の進歩は、ネットワークを訓練するために大量のデータとコンピュータ能力を必要とする。
本稿は,ごく少数の画像のパッチを考慮に入れることで,小さなデータセットから学習する問題に対処する。
本稿では,Langevin Monte Carlo法を用いて後部を近似することにより,不確実な定量化を実現する方法を示す。
論文 参考訳(メタデータ) (2023-12-27T15:30:05Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Manifold-Inspired Single Image Interpolation [17.304301226838614]
単画像への多くのアプローチは半局所類似性を利用するために多様体モデルを使用する。
入力画像のエイリアス化は どちらの部分も困難です
本稿では,重度のエイリアス領域におけるエイリアス除去のための適応手法を提案する。
この技術は、強いエイリアスが存在する場合でも、類似したパッチを確実に識別することができる。
論文 参考訳(メタデータ) (2021-07-31T04:29:05Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Dual Contrastive Learning for Unsupervised Image-to-Image Translation [16.759958400617947]
unsupervised image-to-image translationタスクは、非ペアトレーニングデータからソースドメインxとターゲットドメインyとのマッピングを見つけることを目的としている。
画像対画像翻訳におけるコントラスト学習は最先端の成果をもたらす。
本論文では, 対比学習に基づく新しい手法と, 対比データ間の効率的なマッピングを推定するデュアルラーニング設定を提案する。
論文 参考訳(メタデータ) (2021-04-15T18:00:22Z) - Multi-temporal and multi-source remote sensing image classification by
nonlinear relative normalization [17.124438150480326]
emカーネル化により,異なるドメインのデータを非線形に整列する手法を検討する。
我々は,超スペクトルイメージングのためのシャドウイングに不変なモデルを作成する作業に加えて,多時間的および多元的超高分解能分類タスクにおいてkemaのテストに成功した。
論文 参考訳(メタデータ) (2020-12-07T08:46:11Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。