論文の概要: RUBIK: A Structured Benchmark for Image Matching across Geometric Challenges
- arxiv url: http://arxiv.org/abs/2502.19955v1
- Date: Thu, 27 Feb 2025 10:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:28.999427
- Title: RUBIK: A Structured Benchmark for Image Matching across Geometric Challenges
- Title(参考訳): RUBIK: 幾何学的課題にまたがる画像マッチングのための構造化ベンチマーク
- Authors: Thibaut Loiseau, Guillaume Bourmaud,
- Abstract要約: RUBIKは、よく定義された幾何学的難易度で画像マッチング手法を体系的に評価する新しいベンチマークである。
提案手法を総合的に評価した結果,近年の検出器フリー手法が最高の性能(>47%成功率)を達成する一方で,計算オーバーヘッドが著しく大きいことが判明した。
最高のパフォーマンス方法でさえ、54.8%のペアで成功し、改善の余地がかなり浮かび上がっている。
- 参考スコア(独自算出の注目度): 5.497180371291631
- License:
- Abstract: Camera pose estimation is crucial for many computer vision applications, yet existing benchmarks offer limited insight into method limitations across different geometric challenges. We introduce RUBIK, a novel benchmark that systematically evaluates image matching methods across well-defined geometric difficulty levels. Using three complementary criteria - overlap, scale ratio, and viewpoint angle - we organize 16.5K image pairs from nuScenes into 33 difficulty levels. Our comprehensive evaluation of 14 methods reveals that while recent detector-free approaches achieve the best performance (>47% success rate), they come with significant computational overhead compared to detector-based methods (150-600ms vs. 40-70ms). Even the best performing method succeeds on only 54.8% of the pairs, highlighting substantial room for improvement, particularly in challenging scenarios combining low overlap, large scale differences, and extreme viewpoint changes. Benchmark will be made publicly available.
- Abstract(参考訳): カメラのポーズ推定は多くのコンピュータビジョンアプリケーションにとって重要であるが、既存のベンチマークでは様々な幾何学的課題にまたがる手法の限界について限定的な洞察を提供している。
本稿では,厳密な幾何学的難易度で画像マッチング手法を体系的に評価する新しいベンチマークRUBIKを紹介する。
オーバーラップ、スケール比、視点角の3つの相補的な基準を用いて、16.5Kの画像対をヌースシーンから33の難易度に整理する。
提案手法を総合的に評価した結果, 検出器フリーアプローチが最高の性能(>47%成功率)を達成する一方で, 検出器ベース手法(150-600ms vs. 40-70ms)と比較して計算オーバーヘッドが著しく大きいことがわかった。
最高のパフォーマンスの方法でさえ、54.8%のペアで成功し、特に低いオーバーラップ、大規模な差異、極端な視点の変化を組み合わせた挑戦的なシナリオにおいて、改善の余地が顕著である。
Benchmarkは一般公開される予定だ。
関連論文リスト
- Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - A Comparative Attention Framework for Better Few-Shot Object Detection
on Aerial Images [2.292003207440126]
Few-Shot Object Detection (FSOD) 法は主に自然画像データセットに基づいて設計・評価されている。
自然画像の最良の方法が空中画像の最良の方法であるかどうかは不明だ。
本稿では,アテンションベースのFSOD手法の実装と比較を行うフレキシブルな環境を提供するベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-25T11:20:31Z) - Deep PatchMatch MVS with Learned Patch Coplanarity, Geometric
Consistency and Adaptive Pixel Sampling [19.412014102866507]
我々は、コプランナリティのパッチを学習し、幾何整合性を促進することにより、測光スコアを改善するための学習ベースのアプローチを構築した。
本稿では,より高解像度かつ高解像度なエンコーダでメモリを削減し,より大きな解像度でのトレーニングを可能にするための,適応的画素サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T07:29:03Z) - Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。
EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。
最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文 参考訳(メタデータ) (2022-06-08T06:34:24Z) - Large-Scale Unsupervised Object Discovery [80.60458324771571]
教師なしオブジェクトディスカバリ(UOD)は、パフォーマンスを損なう近似なしでは、大規模なデータセットにスケールアップしない。
本稿では,固有値問題やリンク解析に利用できる分散手法の武器として,ランク付け問題としてのUODの新たな定式化を提案する。
論文 参考訳(メタデータ) (2021-06-12T00:29:49Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - Understanding Image Retrieval Re-Ranking: A Graph Neural Network
Perspective [52.96911968968888]
本稿では,GNN(High-parallelism Graph Neural Network)関数として再ランク化が可能であることを示す。
market-1501データセットでは、1k40m gpuで89.2sから9.4msへのリランキング処理を高速化し、リアルタイムのポストプロセッシングを容易にする。
論文 参考訳(メタデータ) (2020-12-14T15:12:36Z) - Few-shot Action Recognition with Implicit Temporal Alignment and Pair
Similarity Optimization [37.010005936995334]
ほとんどラベル付きサンプルのない新しいクラスからインスタンスを認識することを目的としていない。
ビデオベースの数発のアクション認識は、まだ十分に調査されておらず、まだ挑戦的だ。
本稿では,(1)少数ショットの動作認識アルゴリズムの性能を評価するための具体的設定,(2)ビデオレベルの類似性比較のための暗黙的なシーケンスアライメントアルゴリズム,(3)限定データを用いたペア類似性最適化のための複数ショット学習における高度な損失について述べる。
論文 参考訳(メタデータ) (2020-10-13T07:56:06Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z) - Depth-Based Selective Blurring in Stereo Images Using Accelerated
Framework [5.647516208808729]
本稿では,ブロックと領域ベースステレオマッチングを組み合わせたステレオ異方性推定手法を提案する。
画像画素の18%の差分測定から高密度の深度マップを生成する。
本手法は, Java Thread Pool と APARAPI をベースとした CPU および GPU フレームワークを用いて並列化可能である。
論文 参考訳(メタデータ) (2020-01-21T23:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。