論文の概要: Analysis of Spatial augmentation in Self-supervised models in the purview of training and test distributions
- arxiv url: http://arxiv.org/abs/2409.18228v1
- Date: Thu, 26 Sep 2024 19:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:01:18.569214
- Title: Analysis of Spatial augmentation in Self-supervised models in the purview of training and test distributions
- Title(参考訳): 自己教師型モデルにおける空間拡張の分析 : トレーニングとテスト分布のパービュー
- Authors: Abhishek Jha, Tinne Tuytelaars,
- Abstract要約: 本稿では,自己指導型表現学習における空間拡張手法の実証的研究について述べる。
a) ランダムトリミングを2つの別々の拡張に分解し、オーバーラップとパッチを行い、重複領域とパッチサイズがダウンストリームタスクの精度に与える影響を詳細に分析する。
以前の文献で報告されたように、なぜカットアウト強化が良い表現を学ばないのかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 38.77816582772029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an empirical study of typical spatial augmentation techniques used in self-supervised representation learning methods (both contrastive and non-contrastive), namely random crop and cutout. Our contributions are: (a) we dissociate random cropping into two separate augmentations, overlap and patch, and provide a detailed analysis on the effect of area of overlap and patch size to the accuracy on down stream tasks. (b) We offer an insight into why cutout augmentation does not learn good representation, as reported in earlier literature. Finally, based on these analysis, (c) we propose a distance-based margin to the invariance loss for learning scene-centric representations for the downstream task on object-centric distribution, showing that as simple as a margin proportional to the pixel distance between the two spatial views in the scence-centric images can improve the learned representation. Our study furthers the understanding of the spatial augmentations, and the effect of the domain-gap between the training augmentations and the test distribution.
- Abstract(参考訳): 本稿では,自己指導型表現学習手法(対照的・非対照的),すなわちランダムな作物と切り抜きに使用される典型的な空間拡張技術について,実証的研究を行う。
私たちの貢献は次のとおりです。
(a) 乱作を2つの別個の増補, オーバーラップ, パッチに分解し, ダウンストリームタスクの精度に対するオーバーラップ面積とパッチサイズの影響を詳細に解析する。
b) 以前の文献で報告されたように, カットアウト増強がよい表現を学ばない理由について考察する。
最後に、これらの分析に基づいて。
(c) オブジェクト中心の分布における下流タスクのシーン中心の表現を学習するための不分散損失に対する距離ベースマージンを提案し, シーン中心の画像における2つの空間ビュー間の画素距離に比例するマージンとして, 学習された表現を改善することができることを示した。
本研究は, 空間拡張の理解と, トレーニング強化とテスト分布の領域ギャップの影響について検討した。
関連論文リスト
- Impact of Regularization on Calibration and Robustness: from the Representation Space Perspective [16.123727386404312]
近年の研究では,ソフトラベルを用いた正規化技術により画像分類精度が向上し,モデル校正と対向攻撃に対する堅牢性が改善されている。
本稿では、表現空間の観点から、新しい説明を提供する。
本研究はまず,正規化の有無にかかわらず,表現空間内の決定領域がトレーニング後の原点付近の円錐状形状を形成することを明らかにした。
論文 参考訳(メタデータ) (2024-10-05T02:09:03Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - From Patches to Objects: Exploiting Spatial Reasoning for Better Visual
Representations [2.363388546004777]
本研究では,空間的推論に基づく新しい予備的事前学習手法を提案する。
本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。
論文 参考訳(メタデータ) (2023-05-21T07:46:46Z) - Learning to search for and detect objects in foveal images using deep
learning [3.655021726150368]
本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
論文 参考訳(メタデータ) (2023-04-12T09:50:25Z) - Augmentation Invariance and Adaptive Sampling in Semantic Segmentation
of Agricultural Aerial Images [16.101248613062292]
農業用航空画像におけるセマンティックの問題点について検討する。
この作業に用いられている既存の手法は,2つの特徴を考慮せずに設計されている。
i) 上向きの視点に典型的な測光的および幾何学的シフトに不変な意味表現を学習するために、モデルに適切な拡張と整合性損失のセットを併用した2つのアイデアに基づく解を提案する。
本研究は,農業ビジョンデータセットを用いた広範囲な実験により,提案手法が現在の最先端手法の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2022-04-17T10:19:07Z) - Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:02:42Z) - Ranking Distance Calibration for Cross-Domain Few-Shot Learning [91.22458739205766]
数ショット学習の最近の進歩は、より現実的なクロスドメイン設定を促進する。
ドメインギャップとソースとターゲットデータセット間のラベル空間の相違により、共有される知識は極めて限られている。
我々は,タスク内の相互k-アネレスト近傍を発見することで,目標距離行列の校正を行う。
論文 参考訳(メタデータ) (2021-12-01T03:36:58Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment [34.38172454910976]
Cross-view Saliency Alignment (CVSA)は、画像のサリエンシ領域を新しいビュー生成としてトリミングし、交換し、その後、クロスビューアライメント損失を通じて、前景オブジェクトのローカライズを誘導する、対照的な学習フレームワークである。
4つの一般的な詳細な分類ベンチマークの実験により、CVSAは学習された表現を著しく改善することが示された。
論文 参考訳(メタデータ) (2021-06-30T02:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。