論文の概要: Affine steerers for structured keypoint description
- arxiv url: http://arxiv.org/abs/2408.14186v1
- Date: Mon, 26 Aug 2024 11:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:13:24.767957
- Title: Affine steerers for structured keypoint description
- Title(参考訳): 構造化キーポイント記述のためのアフィンステア
- Authors: Georg Bökman, Johan Edstedt, Michael Felsberg, Fredrik Kahl,
- Abstract要約: 画像平面の局所的なアフィン変換にほぼ同値な深層学習に基づくキーポイント記述子を訓練する方法を提案する。
画像マッチングにこの制御を用いることの可能性を示す。
- 参考スコア(独自算出の注目度): 26.31402935889126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a way to train deep learning based keypoint descriptors that makes them approximately equivariant for locally affine transformations of the image plane. The main idea is to use the representation theory of GL(2) to generalize the recently introduced concept of steerers from rotations to affine transformations. Affine steerers give high control over how keypoint descriptions transform under image transformations. We demonstrate the potential of using this control for image matching. Finally, we propose a way to finetune keypoint descriptors with a set of steerers on upright images and obtain state-of-the-art results on several standard benchmarks. Code will be published at github.com/georg-bn/affine-steerers.
- Abstract(参考訳): 画像平面の局所的なアフィン変換にほぼ同値な深層学習に基づくキーポイント記述子を訓練する方法を提案する。
主な考えは、GL(2) の表現論を用いて、最近導入された回転からアフィン変換へのステアラーの概念を一般化することである。
アフィンステアラーは、キーポイント記述が画像変換の下でどのように変換されるかに対して高い制御を与える。
画像マッチングにこの制御を用いることの可能性を示す。
最後に,一組のステアラーを直立画像上に配置してキーポイント記述子を微調整し,いくつかの標準ベンチマークで最新の結果を得る方法を提案する。
コードはgithub.com/georg-bn/affine-steerersで公開される。
関連論文リスト
- Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need [3.218600495900291]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - Steerers: A framework for rotation equivariant keypoint descriptors [26.31402935889126]
大きな視点の変化に対して差別的で一致可能なキーポイント記述は、3次元再構成に不可欠である。
入力画像の回転を符号化する記述空間における線形変換を学習する。
回転不変画像マッチングベンチマークであるAIMSとRoto-360の最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-04T18:59:44Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Self-Supervised Equivariant Learning for Oriented Keypoint Detection [35.94215211409985]
我々は、回転同変CNNを用いた自己教師付き学習フレームワークを導入し、ロバスト指向キーポイントの検出を学習する。
ヒストグラムに基づく配向マップのトレーニングのために,合成変換により生成した画像対による高密度配向損失を提案する。
提案手法は,画像マッチングベンチマークとカメラポーズ推定ベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T02:26:07Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Grounded Situation Recognition with Transformers [11.202435939275675]
グラウンドドコンディション認識(GSR)は、適切なアクション(動詞)を分類するだけでなく、セマンティックロールと関連付けられたエンティティ(名詞)や、与えられたイメージ内のそれらの位置を予測するタスクである。
視覚タスクにおけるトランスフォーマーの顕著な成功に着想を得て,トランスフォーマーエンコーダデコーダアーキテクチャに基づくGSRモデルを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:10:03Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。