論文の概要: RANSAC-Flow: generic two-stage image alignment
- arxiv url: http://arxiv.org/abs/2004.01526v2
- Date: Fri, 17 Jul 2020 13:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:47:57.200603
- Title: RANSAC-Flow: generic two-stage image alignment
- Title(参考訳): RANSAC-Flow:一般的な2段階画像アライメント
- Authors: Xi Shen, Fran\c{c}ois Darmon, Alexei A. Efros, Mathieu Aubry
- Abstract要約: 単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
- 参考スコア(独自算出の注目度): 53.11926395028508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the generic problem of dense alignment between two
images, whether they be two frames of a video, two widely different views of a
scene, two paintings depicting similar content, etc. Whereas each such task is
typically addressed with a domain-specific solution, we show that a simple
unsupervised approach performs surprisingly well across a range of tasks. Our
main insight is that parametric and non-parametric alignment methods have
complementary strengths. We propose a two-stage process: first, a feature-based
parametric coarse alignment using one or more homographies, followed by
non-parametric fine pixel-wise alignment. Coarse alignment is performed using
RANSAC on off-the-shelf deep features. Fine alignment is learned in an
unsupervised way by a deep network which optimizes a standard structural
similarity metric (SSIM) between the two images, plus cycle-consistency.
Despite its simplicity, our method shows competitive results on a range of
tasks and datasets, including unsupervised optical flow on KITTI, dense
correspondences on Hpatches, two-view geometry estimation on YFCC100M,
localization on Aachen Day-Night, and, for the first time, fine alignment of
artworks on the Brughel dataset. Our code and data are available at
http://imagine.enpc.fr/~shenx/RANSAC-Flow/
- Abstract(参考訳): 本稿では,映像の2つのフレーム,シーンの2つの広く異なるビュー,類似した内容を描いた2つの絵画など,2つの画像間の密接なアライメントの一般的な問題について考察する。
これらのタスクは一般的にドメイン固有のソリューションで処理されるが、単純な教師なしのアプローチは様々なタスクで驚くほどうまく機能する。
パラメトリックアライメント法と非パラメトリックアライメント法には相補的な強みがある。
まず, 1 つ以上のホモグラフを用いた特徴量に基づくパラメトリック粗いアライメントと,非パラメトリックな精細な画素方向アライメントの2段階プロセスを提案する。
既設の深部特徴に対してransacを用いて粗いアライメントを行う。
微細なアライメントは、2つの画像間の標準構造類似度メトリック(ssim)とサイクル一貫性を最適化するディープネットワークによって教師なしの方法で学習される。
その単純さにもかかわらず、KITTI上の教師なし光学フロー、Hpatches上の高密度対応、YFCC100M上の2ビュー幾何推定、Aachen Day-Nightのローカライゼーション、Brughelデータセット上のアートワークの微調整など、さまざまなタスクやデータセットの競合結果を示す。
私たちのコードとデータはhttp://imagine.enpc.fr/~shenx/RANSAC-Flow/で利用可能です。
関連論文リスト
- Skeleton-Guided Instance Separation for Fine-Grained Segmentation in
Microscopy [23.848474219551818]
顕微鏡(MS)画像解析における基本的な課題の1つは、インスタンスセグメンテーション(IS)である。
我々は,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
提案手法は2つの大規模MSデータセットに対して徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-18T11:14:32Z) - RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in
Dynamic Environments [55.864869961717424]
視覚的・視覚的慣性オドメトリーシステムでは、動的シーンや純粋な回転の問題に対処することが通常困難である。
我々はこれらの問題に対処するためにRD-VIOと呼ばれる新しい視覚-慣性オドメトリーシステム(VIO)を設計する。
論文 参考訳(メタデータ) (2023-10-23T16:30:39Z) - Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-26T08:34:35Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。