論文の概要: GIM: Learning Generalizable Image Matcher From Internet Videos
- arxiv url: http://arxiv.org/abs/2402.11095v1
- Date: Fri, 16 Feb 2024 21:48:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:23:29.096970
- Title: GIM: Learning Generalizable Image Matcher From Internet Videos
- Title(参考訳): GIM:インターネットビデオから一般的な画像マッチングを学習
- Authors: Xuelun Shen, Zhipeng Cai, Wei Yin, Matthias M\"uller, Zijun Li,
Kaixuan Wang, Xiaozhi Chen, Cheng Wang
- Abstract要約: 我々は,任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。
また、画像マッチングのための最初のゼロショット評価ベンチマークであるZEBを提案する。
- 参考スコア(独自算出の注目度): 18.974842517202365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matching is a fundamental computer vision problem. While learning-based
methods achieve state-of-the-art performance on existing benchmarks, they
generalize poorly to in-the-wild images. Such methods typically need to train
separate models for different scene types and are impractical when the scene
type is unknown in advance. One of the underlying problems is the limited
scalability of existing data construction pipelines, which limits the diversity
of standard image matching datasets. To address this problem, we propose GIM, a
self-training framework for learning a single generalizable model based on any
image matching architecture using internet videos, an abundant and diverse data
source. Given an architecture, GIM first trains it on standard domain-specific
datasets and then combines it with complementary matching methods to create
dense labels on nearby frames of novel videos. These labels are filtered by
robust fitting, and then enhanced by propagating them to distant frames. The
final model is trained on propagated data with strong augmentations. We also
propose ZEB, the first zero-shot evaluation benchmark for image matching. By
mixing data from diverse domains, ZEB can thoroughly assess the cross-domain
generalization performance of different methods. Applying GIM consistently
improves the zero-shot performance of 3 state-of-the-art image matching
architectures; with 50 hours of YouTube videos, the relative zero-shot
performance improves by 8.4%-18.1%. GIM also enables generalization to extreme
cross-domain data such as Bird Eye View (BEV) images of projected 3D point
clouds (Fig. 1(c)). More importantly, our single zero-shot model consistently
outperforms domain-specific baselines when evaluated on downstream tasks
inherent to their respective domains. The video presentation is available at
https://www.youtube.com/watch?v=FU_MJLD8LeY.
- Abstract(参考訳): 画像マッチングは基本的なコンピュータビジョンの問題である。
学習に基づく手法は、既存のベンチマークで最先端のパフォーマンスを達成する一方で、画像の幅を低く一般化する。
このような方法は、通常、異なるシーンタイプのための別々のモデルをトレーニングする必要がある。
根底にある問題の1つは、既存のデータ構築パイプラインのスケーラビリティの制限であり、標準画像マッチングデータセットの多様性を制限する。
この問題に対処するために,インターネットビデオを用いた任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。
アーキテクチャを与えられたgimは、まず標準のドメイン固有のデータセットでトレーニングし、それを補完的マッチングメソッドと組み合わせて、新しいビデオのフレームに密接なラベルを作成する。
これらのラベルは堅牢なフィッティングによってフィルタリングされ、その後遠くのフレームに伝播することによって強化される。
最終モデルは、強力な拡張を伴う伝播データに基づいて訓練される。
また,画像マッチングのためのゼロショット評価ベンチマークZEBを提案する。
多様なドメインからのデータを混合することにより、ZEBは異なるメソッドのクロスドメイン一般化性能を徹底的に評価することができる。
GIMの適用により、3つの最先端画像マッチングアーキテクチャのゼロショット性能が一貫して改善され、50時間のYouTubeビデオにより、相対ゼロショット性能は8.4%から18.1%向上した。
GIMはまた、投影された3Dポイントクラウド(図)のバードアイビュー(BEV)画像のような極端なクロスドメインデータへの一般化を可能にする。
1(c))であった。
さらに重要なことは、我々の単一のゼロショットモデルは、それぞれのドメイン固有の下流タスクで評価されると、ドメイン固有のベースラインを一貫して上回ります。
ビデオプレゼンテーションはhttps://www.youtube.com/watch?
v=FU_MJLD8LeY。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - We're Not Using Videos Effectively: An Updated Domain Adaptive Video
Segmentation Baseline [19.098970392639476]
Video-DASの研究は歴史的にImage-DASと異なるベンチマークのセットを最小のベンチマークで研究してきた。
我々は,データとモデルアーキテクチャを慎重に制御した後でも,既存のビデオDASベンチマークにおいて,最先端のImage-DAS法がビデオDAS法より優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - GeneCIS: A Benchmark for General Conditional Image Similarity [21.96493413291777]
我々は「相似性」には多くの概念があり、人間のようにモデルがこれらのモデルに動的に適応できるべきだと論じている。
我々は、モデルが様々な類似性条件に適応する能力を測定するGeneCISベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:58Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。