論文の概要: Match me if you can: Semantic Correspondence Learning with Unpaired
Images
- arxiv url: http://arxiv.org/abs/2311.18540v1
- Date: Thu, 30 Nov 2023 13:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:32:17.354265
- Title: Match me if you can: Semantic Correspondence Learning with Unpaired
Images
- Title(参考訳): 出来ればマッチする: 意味的対応学習と非ペア画像
- Authors: Jiwon Kim, Byeongho Heo, Sangdoo Yun, Seungryong Kim, Dongyoon Han
- Abstract要約: 制限された画像対とスパース点対の両方を補完する、ラベルのないペアでトレーニングを行う、単純で効果的な方法を提案する。
簡単な教師/学生の枠組みを用いて,学生ネットワークに信頼性の高い擬似通信を機械の監督を通じて提供する。
我々のモデルは,セマンティック対応ベンチマークの最先端手法を含む,マイルストーンベースラインを上回ります。
- 参考スコア(独自算出の注目度): 82.05105090432025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches for semantic correspondence have focused on obtaining
high-quality correspondences using a complicated network, refining the
ambiguous or noisy matching points. Despite their performance improvements,
they remain constrained by the limited training pairs due to costly point-level
annotations. This paper proposes a simple yet effective method that performs
training with unlabeled pairs to complement both limited image pairs and sparse
point pairs, requiring neither extra labeled keypoints nor trainable modules.
We fundamentally extend the data quantity and variety by augmenting new
unannotated pairs not primitively provided as training pairs in benchmarks.
Using a simple teacher-student framework, we offer reliable pseudo
correspondences to the student network via machine supervision. Finally, the
performance of our network is steadily improved by the proposed iterative
training, putting back the student as a teacher to generate refined labels and
train a new student repeatedly. Our models outperform the milestone baselines,
including state-of-the-art methods on semantic correspondence benchmarks.
- Abstract(参考訳): 意味対応の最近のアプローチは、複雑なネットワークを用いて高品質な対応を得ることに重点を置いており、あいまいまたはノイズの多いマッチングポイントを精査している。
パフォーマンスは向上したが、コストのかかるポイントレベルのアノテーションのため、トレーニングペアが制限されている。
本稿では,制限された画像対とスパースな点対の両方を補完するラベル付きペアによる訓練を簡易かつ効果的に行う方法を提案する。
ベンチマークのトレーニングペアとしてプリミティブに提供されていない新しい無注釈ペアを補強することで、データ量と多様性を根本的に拡張します。
簡単な教師/学生の枠組みを用いて,学生ネットワークに信頼性の高い擬似通信を機械の監督を通じて提供する。
最後に,提案した反復学習によってネットワークの性能が着実に向上し,教師として学生を振り返り,洗練されたラベルを作成し,新しい学生を繰り返し訓練する。
我々のモデルは,セマンティック対応ベンチマークの最先端手法を含む,マイルストーンベースラインを上回ります。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - iMatching: Imperative Correspondence Learning [5.568520539073218]
特徴対応学習のための自己指導型命令型学習(IL)を導入する。
カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にする。
特徴マッチングやポーズ推定などのタスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:58:20Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。