Fugu-MT 論文翻訳(概要): Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

論文の概要: Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

arxiv url: http://arxiv.org/abs/2304.08014v1
Date: Mon, 17 Apr 2023 06:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 16:14:03.968486
Title: Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture
Title（参考訳）: 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習
Authors: Taeho Kim Jong-Min Lee
Abstract要約: 本稿では幾何学的変換に敏感な特徴を学習する幾何学的変換感性アーキテクチャを提案する。提案手法は,重なり合う領域間の類似度を増大させることで,学生に繊細な特徴の学習を促す。画像分類,セマンティックセグメンテーション,検出,インスタンスセグメンテーションといったタスクにおいて,DINOベースラインを超えている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to geometric transformations such as random crops and multi-crops. Furthermore, the model may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture that learns features sensitive to geometric transformation like four-fold rotation, random crop, and multi-crop. Our method encourages the student to learn sensitive features by increasing the similarity between overlapping regions not entire views. and applying rotations to the target feature map. Additionally, we use a patch correspondence loss to capture long-term dependencies. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-invariant representations. We surpass DINO baseline in tasks such as image classification, semantic segmentation, detection, and instance segmentation with improvements of 6.1 $Acc$, 0.6 $mIoU$, 0.4 $AP^b$, and 0.1 $AP^m$.
Abstract（参考訳）: ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。しかし、画像がオブジェクト中心でない場合、画像のセマンティクスはランダム作物やマルチクロップなどの幾何学的変換によって大きく変化する。さらに、このモデルは位置情報の取得に苦労する可能性がある。そこで,我々は4次元回転,ランダム作物,マルチクロップといった幾何学的変換に敏感な特徴を学習する幾何学的変換センシティブアーキテクチャを提案する。本手法は,視界全体ではなく,重なり合う領域間の類似性を高めることにより,学生に繊細な特徴の学習を促す。ターゲットの特徴マップに回転を適用しますさらに、長期依存関係をキャプチャするためにパッチ対応損失を使用します。提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換不変表現を学習する他の方法と比較して,性能向上を示す。画像分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションといったタスクにおいて、DINOのベースラインを上回り、6.1$Acc$、0.6$mIoU$、0.4$AP^b$、0.1$AP^m$の改善を行った。

関連論文リスト

GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-23T16:46:59Z)
Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文参考訳（メタデータ） (2024-11-19T03:39:43Z)
MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations [2.2954246824369218]
本稿では,幾何変形の多モード潜在空間における拡張変換を生成する新しいモデルを提案する。実験結果から,提案手法は予測精度を大幅に向上させることで,全てのベースラインよりも優れた性能を示すことがわかった。
論文参考訳（メタデータ） (2023-12-20T21:30:55Z)
Variable Radiance Field for Real-Life Category-Specifc Reconstruction from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文参考訳（メタデータ） (2023-06-08T12:12:02Z)
Learning Transformations To Reduce the Geometric Shift in Object Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-01-13T11:55:30Z)
RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文参考訳（メタデータ） (2023-01-04T15:12:57Z)
Prediction of Geometric Transformation on Cardiac MRI via Convolutional Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文参考訳（メタデータ） (2022-11-12T11:29:14Z)
Adapting the Mean Teacher for keypoint-based lung registration under geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文参考訳（メタデータ） (2022-07-01T12:16:42Z)
TransformNet: Self-supervised representation learning through predicting geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文参考訳（メタデータ） (2022-02-08T22:41:01Z)
DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文参考訳（メタデータ） (2021-04-08T04:27:32Z)
Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文参考訳（メタデータ） (2021-03-04T15:34:43Z)
Improving Few-shot Learning by Spatially-aware Matching and CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文参考訳（メタデータ） (2020-01-06T14:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。