論文の概要: DILEMMA: Self-Supervised Shape and Texture Learning with Transformers
- arxiv url: http://arxiv.org/abs/2204.04788v1
- Date: Sun, 10 Apr 2022 22:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 06:49:38.846612
- Title: DILEMMA: Self-Supervised Shape and Texture Learning with Transformers
- Title(参考訳): ジレンマ:自己教師形とトランスフォーマーによるテクスチャ学習
- Authors: Sepehr Sameni, Simon Jenni, Paolo Favaro
- Abstract要約: 自己教師型学習により学習したモデルにおいて,形状とテクスチャの識別性を明示的に向上する擬似タスクを提案する。
我々は提案手法をDILEMMAと呼び,MAsked入力による不正確な位置EMベディングの検出を行う。
- 参考スコア(独自算出の注目度): 33.296154476701055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing belief that deep neural networks with a shape bias may
exhibit better generalization capabilities than models with a texture bias,
because shape is a more reliable indicator of the object category. However, we
show experimentally that existing measures of shape bias are not stable
predictors of generalization and argue that shape discrimination should not
come at the expense of texture discrimination. Thus, we propose a pseudo-task
to explicitly boost both shape and texture discriminability in models trained
via self-supervised learning. For this purpose, we train a ViT to detect which
input token has been combined with an incorrect positional embedding. To retain
texture discrimination, the ViT is also trained as in MoCo with a
student-teacher architecture and a contrastive loss over an extra learnable
class token. We call our method DILEMMA, which stands for Detection of
Incorrect Location EMbeddings with MAsked inputs. We evaluate our method
through fine-tuning on several datasets and show that it outperforms MoCoV3 and
DINO. Moreover, we show that when downstream tasks are strongly reliant on
shape (such as in the YOGA-82 pose dataset), our pre-trained features yield a
significant gain over prior work. Code will be released upon publication.
- Abstract(参考訳): 形状バイアスを持つディープニューラルネットワークは、形状バイアスを持つモデルよりもより高度な一般化能力を示すと信じられている。
しかし,既存の形状バイアス尺度は一般化の安定な予測因子ではないことを実験的に示し,テクスチャ識別を犠牲にすべきではないと主張する。
そこで本稿では,自己教師型学習による学習モデルにおいて,形状とテクスチャの識別性を明示的に向上する擬似タスクを提案する。
この目的のために、入力トークンと不正な位置埋め込みの組み合わせを検出するためにViTを訓練する。
テクスチャの識別を維持するため、vitはmocoでも学生教師アーキテクチャで訓練され、追加学習可能なクラストークンに対して対照的な損失を与える。
我々は提案手法をDILEMMAと呼び,MAsked入力による不正確な位置EMベディングの検出を行う。
いくつかのデータセットを微調整し,MoCoV3とDINOより優れていることを示す。
さらに,ダウンストリームタスクが(yoga-82のポーズデータセットのように)形状に強く依存している場合,事前トレーニングされた機能によって,事前作業よりも大きな利益が得られることを示す。
コードは出版時に公開される。
関連論文リスト
- MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance [7.411571833582691]
このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
論文 参考訳(メタデータ) (2022-07-19T15:44:59Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Understanding Robustness in Teacher-Student Setting: A New Perspective [42.746182547068265]
適応的な例は機械学習モデルで、有界な対向的摂動はモデルを誤解させ、任意に誤った予測をすることができる。
広範な研究は、逆例の存在を説明し、モデルのロバスト性を改善する方法を提供する。
我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。
論文 参考訳(メタデータ) (2021-02-25T20:54:24Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Trade-offs between membership privacy & adversarially robust learning [13.37805637358556]
標準モデルがロバストモデルよりもはるかに過度に適合する設定を特定します。
オーバーフィッティングの度合いは、トレーニングに利用可能なデータの量に依存する。
論文 参考訳(メタデータ) (2020-06-08T14:20:12Z) - REST: Performance Improvement of a Black Box Model via RL-based Spatial
Transformation [15.691668909002892]
ブラックボックス画像分類器が与えられる特定の条件下での幾何変換に対するロバスト性について検討する。
我々は,入力データをブラックボックスモデルで非分布と見なされるサンプルに変換する学習者,EmphREinforcement Spatial Transform (REST)を提案する。
論文 参考訳(メタデータ) (2020-02-16T16:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。