論文の概要: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- arxiv url: http://arxiv.org/abs/2304.08014v1
- Date: Mon, 17 Apr 2023 06:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 16:14:03.968486
- Title: Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture
- Title(参考訳): 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習
- Authors: Taeho Kim Jong-Min Lee
- Abstract要約: 本稿では幾何学的変換に敏感な特徴を学習する幾何学的変換感性アーキテクチャを提案する。
提案手法は,重なり合う領域間の類似度を増大させることで,学生に繊細な特徴の学習を促す。
画像分類,セマンティックセグメンテーション,検出,インスタンスセグメンテーションといったタスクにおいて,DINOベースラインを超えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most invariance-based self-supervised methods rely on single object-centric
images (e.g., ImageNet images) for pretraining, learning invariant
representations from geometric transformations. However, when images are not
object-centric, the semantics of the image can be significantly altered due to
geometric transformations such as random crops and multi-crops. Furthermore,
the model may struggle to capture location information. For this reason, we
propose a Geometric Transformation Sensitive Architecture that learns features
sensitive to geometric transformation like four-fold rotation, random crop, and
multi-crop. Our method encourages the student to learn sensitive features by
increasing the similarity between overlapping regions not entire views. and
applying rotations to the target feature map. Additionally, we use a patch
correspondence loss to capture long-term dependencies. Our approach
demonstrates improved performance when using non-object-centric images as
pretraining data compared to other methods that learn geometric
transformation-invariant representations. We surpass DINO baseline in tasks
such as image classification, semantic segmentation, detection, and instance
segmentation with improvements of 6.1 $Acc$, 0.6 $mIoU$, 0.4 $AP^b$, and 0.1
$AP^m$.
- Abstract(参考訳): ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。
しかし、画像がオブジェクト中心でない場合、画像のセマンティクスはランダム作物やマルチクロップなどの幾何学的変換によって大きく変化する。
さらに、このモデルは位置情報の取得に苦労する可能性がある。
そこで,我々は4次元回転,ランダム作物,マルチクロップといった幾何学的変換に敏感な特徴を学習する幾何学的変換センシティブアーキテクチャを提案する。
本手法は,視界全体ではなく,重なり合う領域間の類似性を高めることにより,学生に繊細な特徴の学習を促す。
ターゲットの特徴マップに回転を適用します
さらに、長期依存関係をキャプチャするためにパッチ対応損失を使用します。
提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換不変表現を学習する他の方法と比較して,性能向上を示す。
画像分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションといったタスクにおいて、DINOのベースラインを上回り、6.1$Acc$、0.6$mIoU$、0.4$AP^b$、0.1$AP^m$の改善を行った。
関連論文リスト
- Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文 参考訳(メタデータ) (2024-11-19T03:39:43Z) - Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。