論文の概要: Self-Supervised Learning based on Transformed Image Reconstruction for Equivariance-Coherent Feature Representation
- arxiv url: http://arxiv.org/abs/2503.18753v1
- Date: Mon, 24 Mar 2025 15:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:33.338097
- Title: Self-Supervised Learning based on Transformed Image Reconstruction for Equivariance-Coherent Feature Representation
- Title(参考訳): 等分散コヒーレントな特徴表現のための変換画像再構成に基づく自己教師付き学習
- Authors: Qin Wang, Benjamin Bruns, Hanno Scharr, Kai Krajsek,
- Abstract要約: コンピュータビジョンの特徴を学習するための自己教師付き学習手法を提案する。
このシステムは、これまで見つからなかった変換を行ったイメージを再構成することで、変換を独立に学習する。
私たちのアプローチは、リッチな現実的なコンピュータビジョンの下流タスクで強く機能し、ほぼ常にすべてのベースラインを改善しています。
- 参考スコア(独自算出の注目度): 3.7622885602373626
- License:
- Abstract: The equivariant behaviour of features is essential in many computer vision tasks, yet popular self-supervised learning (SSL) methods tend to constrain equivariance by design. We propose a self-supervised learning approach where the system learns transformations independently by reconstructing images that have undergone previously unseen transformations. Specifically, the model is tasked to reconstruct intermediate transformed images, e.g. translated or rotated images, without prior knowledge of these transformations. This auxiliary task encourages the model to develop equivariance-coherent features without relying on predefined transformation rules. To this end, we apply transformations to the input image, generating an image pair, and then split the extracted features into two sets per image. One set is used with a usual SSL loss encouraging invariance, the other with our loss based on the auxiliary task to reconstruct the intermediate transformed images. Our loss and the SSL loss are linearly combined with weighted terms. Evaluating on synthetic tasks with natural images, our proposed method strongly outperforms all competitors, regardless of whether they are designed to learn equivariance. Furthermore, when trained alongside augmentation-based methods as the invariance tasks, such as iBOT or DINOv2, we successfully learn a balanced combination of invariant and equivariant features. Our approach performs strong on a rich set of realistic computer vision downstream tasks, almost always improving over all baselines.
- Abstract(参考訳): 特徴の同変挙動は多くのコンピュータビジョンタスクにおいて必須であるが、一般的な自己教師付き学習(SSL)手法は設計による同変を制約する傾向がある。
本稿では,これまで見つからなかった変換を行った画像の再構成により,システムが独立して変換を学習する自己教師型学習手法を提案する。
具体的には、これらの変換を事前に知ることなく、中間変換された画像、例えば翻訳された画像や回転された画像の再構成を行う。
この補助的なタスクは、事前定義された変換規則に頼ることなく、モデルに同値コヒーレントな特徴を開発することを奨励する。
この目的のために、入力画像に変換を適用し、画像ペアを生成し、抽出した特徴を画像毎に2つのセットに分割する。
1つのセットは通常のSSL損失を奨励する不変性とともに使用され、もう1つは中間変換画像の再構成のための補助的なタスクに基づいて損失を誘導する。
私たちの損失とSSL損失は重み付き用語と線形に結合されます。
提案手法は, 自然画像を用いた合成課題の評価において, 等式を学習するよう設計されているかどうかに関わらず, 全競合より優れている。
さらに、iBOT や DINOv2 などの不変タスクとして拡張ベースの手法と共に訓練された場合、不変および同変の特徴のバランスの取れた組み合わせをうまく学習する。
私たちのアプローチは、リッチな現実的なコンピュータビジョンの下流タスクで強く機能し、ほぼ常にすべてのベースラインを改善しています。
関連論文リスト
- Self-supervised Transformation Learning for Equivariant Representations [26.207358743969277]
教師なし表現学習は、様々な機械学習タスクを大幅に進歩させた。
本稿では,変換ラベルを画像ペアから派生した変換表現に置き換える自己教師あり変換学習(STL)を提案する。
さまざまな分類タスクと検出タスクにまたがって、アプローチの有効性を実証し、11のベンチマークのうち7つで既存の手法より優れています。
論文 参考訳(メタデータ) (2025-01-15T10:54:21Z) - Equivariant Representation Learning for Augmentation-based Self-Supervised Learning via Image Reconstruction [3.7003845808210594]
本稿では,拡張型自己教師型学習アルゴリズムにおいて,画像再構成タスクを補助的コンポーネントとして統合することを提案する。
提案手法は,2つの拡張ビューから学習した特徴をブレンドし,そのうちの1つを再構築するクロスアテンション機構を実装した。
結果は、標準強化に基づく自己教師あり学習法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-04T13:47:37Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - Imaging with Equivariant Deep Learning [9.333799633608345]
我々は、同変イメージングの出現する分野を概観し、それが一般化と新たなイメージングの機会をいかに向上させるかを示す。
獲得物理と集団行動の相互作用と、反復的再構成、ブラインド圧縮センシング、自己教師型学習との関連を示す。
論文 参考訳(メタデータ) (2022-09-05T02:13:57Z) - Equivariant Contrastive Learning [20.369942206674576]
最先端の自己教師型学習(SSL)では、事前学習は意味的に良い表現を生成する。
私たちは人気のあるSSLメソッドを、Equivariant Self-Supervised Learning (E-SSL)という名前のより一般的なフレームワークに拡張します。
いくつかのコンピュータビジョンベンチマークにおいて,E-SSLの有効性を実証的に示す。
論文 参考訳(メタデータ) (2021-10-28T17:21:33Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - On Compositions of Transformations in Contrastive Self-Supervised
Learning [66.15514035861048]
本稿では,コントラスト学習をより広範な変換集合に一般化する。
特定の変換に不変であり、他の変換に特有であることは、効果的なビデオ表現の学習に不可欠である。
論文 参考訳(メタデータ) (2020-03-09T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。