論文の概要: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- arxiv url: http://arxiv.org/abs/2304.08014v4
- Date: Tue, 9 May 2023 03:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:37:34.412227
- Title: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- Title(参考訳): 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習
- Authors: Taeho Kim, Jong-Min Lee
- Abstract要約: 幾何学的変換に敏感な特徴を学習するための幾何学的変換感性アーキテクチャを提案する。
提案手法は,これらの変換に敏感なターゲットを用いて,学生に敏感になるよう促す。
提案手法は,非対象中心画像を事前学習データとして用いる際の性能向上を示す。
- 参考スコア(独自算出の注目度): 7.825153552141346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most invariance-based self-supervised methods rely on single object-centric
images (e.g., ImageNet images) for pretraining, learning invariant
representations from geometric transformations. However, when images are not
object-centric, the semantics of the image can be significantly altered due to
cropping. Furthermore, as the model becomes insensitive to geometric
transformations, it may struggle to capture location information. For this
reason, we propose a Geometric Transformation Sensitive Architecture designed
to learn features that are sensitive to geometric transformations, specifically
focusing on four-fold rotation, random crop, and multi-crop. Our method
encourages the student to be sensitive by using targets that are sensitive to
those transforms via pooling and rotating of the teacher feature map and
predicting rotation. Additionally, as training insensitively to multi-crop
encourages local-to-global correspondence, the model can capture long-term
dependencies. We use patch correspondence loss to encourage correspondence
between patches with similar features, instead of enforcing correspondence
between views of the image. This approach allows us to capture long-term
dependencies in a more appropriate way. Our approach demonstrates improved
performance when using non-object-centric images as pretraining data compared
to other methods that learn geometric transformation-insensitive
representations. We surpass the DINO baseline in tasks including image
classification, semantic segmentation, detection, and instance segmentation
with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$.
Code and pretrained models are publicly available at:
https://github.com/bok3948/GTSA
- Abstract(参考訳): ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。
しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。
さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。
そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な特徴を学習するために設計された幾何学的変換センシティブアーキテクチャを提案する。
本手法は,教師の特徴マップのプーリングと回転,回転予測を通じて,これらの変換に敏感な目標を用いて,学生に感性を持たせることを促す。
さらに、マルチクロップに敏感にトレーニングすることで、ローカルとグローバルの対応が促進されるため、モデルは長期的な依存関係をキャプチャすることができる。
画像のビュー間の対応を強制するのではなく,類似した特徴のパッチ間の対応を促進するためにパッチ対応損失を利用する。
このアプローチにより、長期的な依存関係をより適切な方法で捉えることができます。
提案手法は,非対象中心の画像を事前学習データとして用いる場合,幾何学的変換非感性表現を学習する他の方法と比較して,性能向上を示す。
画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションを含むタスクのdinoベースラインを4.9$top-1 acc$、3.3$miou$、3.4$ap^b$、2.7$ap^m$で越えた。
コードおよび事前訓練されたモデルは、https://github.com/bok3948/GTSAで公開されている。
関連論文リスト
- Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文 参考訳(メタデータ) (2024-11-19T03:39:43Z) - Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。