論文の概要: Time to augment contrastive learning
- arxiv url: http://arxiv.org/abs/2207.13492v1
- Date: Wed, 27 Jul 2022 12:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:03:04.360565
- Title: Time to augment contrastive learning
- Title(参考訳): コントラスト学習を補強する時間
- Authors: Arthur Aubret, Markus Ernst, C\'eline Teuli\`ere, Jochen Triesch
- Abstract要約: 機械学習において、対照的な学習は、教師なしの方法でオブジェクト表現を形成する上で大きな進歩をもたらした。
対照的に、生物学的視覚システムは視覚経験の時間構造を利用する。
以上の結果から,時間に基づく拡張は,最先端の画像拡張よりも大きなパフォーマンス向上を実現することが示された。
- 参考スコア(独自算出の注目度): 3.7468898363447654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biological vision systems are unparalleled in their ability to learn visual
representations without supervision. In machine learning, contrastive learning
(CL) has led to major advances in forming object representations in an
unsupervised fashion. These systems learn representations invariant to
augmentation operations over images, like cropping or flipping. In contrast,
biological vision systems exploit the temporal structure of the visual
experience. This gives access to augmentations not commonly used in CL, like
watching the same object from multiple viewpoints or against different
backgrounds. Here, we systematically investigate and compare the potential
benefits of such time-based augmentations for learning object categories. Our
results show that time-based augmentations achieve large performance gains over
state-of-the-art image augmentations. Specifically, our analyses reveal that:
1) 3-D object rotations drastically improve the learning of object categories;
2) viewing objects against changing backgrounds is vital for learning to
discard background-related information. Overall, we conclude that time-based
augmentations can greatly improve contrastive learning, narrowing the gap
between artificial and biological vision systems.
- Abstract(参考訳): 生体視覚システムは、監督なしで視覚表現を学習する能力に無関係である。
機械学習において、コントラスト学習(cl)は教師なしの方法でオブジェクト表現を形成するための大きな進歩をもたらした。
これらのシステムは、トリミングやフリップのような画像上の拡張操作に不変な表現を学ぶ。
対照的に、生物学的視覚システムは視覚経験の時間構造を利用する。
これにより、複数の視点から同じオブジェクトを見たり、異なるバックグラウンドに対して、CLで一般的に使われていない拡張へのアクセスが可能になる。
本稿では,学習対象のカテゴリに対する時間に基づく拡張の利点を体系的に調査し,比較する。
以上の結果から,時間に基づく増補は最先端の画像増補よりも大きな性能向上を実現することが示された。
特に我々の分析は
1)3次元物体回転は対象カテゴリーの学習を大幅に改善する。
2)背景情報を捨てる学習には,背景変化から物体を見ることが不可欠である。
全体的に、時間に基づく強化はコントラスト学習を大幅に改善し、人工視覚と生体視覚システムの間のギャップを狭めることができると結論づける。
関連論文リスト
- Self-supervised visual learning from interactions with objects [7.324459578044213]
自己教師付き学習(SSL)は視覚表現学習に革命をもたらしたが、人間の視覚の堅牢性は達成できていない。
オブジェクトとの具体的相互作用はオブジェクトカテゴリのSSLを改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-09T09:31:15Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Vision-Based Manipulators Need to Also See from Their Hands [58.398637422321976]
本研究では,視覚的視点の選択が,生のセンサ観測から身体操作の文脈における学習と一般化にどう影響するかを検討する。
手中心(目の)視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化を一貫して改善する。
論文 参考訳(メタデータ) (2022-03-15T18:46:18Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Data augmentation and image understanding [2.123756175601459]
論文は、機械学習、認知科学、神経科学の間の有利なシナジーを探求する。
論文は、視覚知覚や生物学的視覚とより整合した学習表現に焦点を当てている。
論文 参考訳(メタデータ) (2020-12-28T11:00:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。