論文の概要: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- arxiv url: http://arxiv.org/abs/2304.08014v5
- Date: Wed, 10 May 2023 07:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:19:29.139800
- Title: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- Title(参考訳): 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習
- Authors: Taeho Kim, Jong-Min Lee
- Abstract要約: 本稿では幾何学的変換に敏感な幾何学的変換感性アーキテクチャを提案する。
本手法は, 回転予測や変換の異なる目標の利用により, 学生に敏感になるよう促す。
提案手法は,非対象中心画像を事前学習データとして用いる際の性能向上を示す。
- 参考スコア(独自算出の注目度): 7.825153552141346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most invariance-based self-supervised methods rely on single object-centric
images (e.g., ImageNet images) for pretraining, learning invariant features
from geometric transformations. However, when images are not object-centric,
the semantics of the image can be significantly altered due to cropping.
Furthermore, as the model becomes insensitive to geometric transformations, it
may struggle to capture location information. For this reason, we propose a
Geometric Transformation Sensitive Architecture designed to be sensitive to
geometric transformations, specifically focusing on four-fold rotation, random
crop, and multi-crop. Our method encourages the student to be sensitive by
predicting rotation and using targets that vary with those transformations
through pooling and rotating the teacher feature map. Additionally, we use
patch correspondence loss to encourage correspondence between patches with
similar features. This approach allows us to capture long-term dependencies in
a more appropriate way than capturing long-term dependencies by encouraging
local-to-global correspondence, which occurs when learning to be insensitive to
multi-crop. Our approach demonstrates improved performance when using
non-object-centric images as pretraining data compared to other methods that
train the model to be insensitive to geometric transformation. We surpass
DINO[\citet{caron2021emerging}] baseline in tasks including image
classification, semantic segmentation, detection, and instance segmentation
with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$.
Code and pretrained models are publicly available at:
\url{https://github.com/bok3948/GTSA}
- Abstract(参考訳): ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変な特徴を事前学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。
しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。
さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。
そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な幾何学的変換センシティブなアーキテクチャを提案する。
本手法は,教師特徴マップのプーリングと回転を通じて,その変換によって変化する目標を用いて,生徒の自転を予測し,センシティブ化を促す。
さらに、パッチ対応損失を利用して、類似した特徴を持つパッチ間の対応を促進する。
このアプローチは、学習がマルチクロップに敏感でない場合に発生する局所的対グローバル対応を奨励することで、長期的な依存関係を捉えるよりも適切な方法で長期的な依存関係を捉えることができます。
提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換に敏感であるようにモデルを訓練する他の方法と比較して,性能向上を示す。
DINO[\citet{caron2021emerging}]ベースラインをイメージ分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションといったタスクで上回り、4.9$Top-1 Acc$、3.3 $mIoU$、3.4 $AP^b$、2.7 $AP^m$の改善がある。
コードおよび事前訓練されたモデルは、以下の通り公開されている。
関連論文リスト
- Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文 参考訳(メタデータ) (2024-11-19T03:39:43Z) - Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。