論文の概要: Robust Self-Supervised Learning with Lie Groups
- arxiv url: http://arxiv.org/abs/2210.13356v1
- Date: Mon, 24 Oct 2022 16:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:57:44.884033
- Title: Robust Self-Supervised Learning with Lie Groups
- Title(参考訳): リーグループによる頑健な自己指導型学習
- Authors: Mark Ibrahim, Diane Bouchacourt, Ari Morcos
- Abstract要約: ディープラーニングはコンピュータビジョンの顕著な進歩につながった。
モデルは、トレーニング中に見られるものと若干異なるバリエーションを示すと、不安定である。
より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.507267560064669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has led to remarkable advances in computer vision. Even so,
today's best models are brittle when presented with variations that differ even
slightly from those seen during training. Minor shifts in the pose, color, or
illumination of an object can lead to catastrophic misclassifications.
State-of-the art models struggle to understand how a set of variations can
affect different objects. We propose a framework for instilling a notion of how
objects vary in more realistic settings. Our approach applies the formalism of
Lie groups to capture continuous transformations to improve models' robustness
to distributional shifts. We apply our framework on top of state-of-the-art
self-supervised learning (SSL) models, finding that explicitly modeling
transformations with Lie groups leads to substantial performance gains of
greater than 10% for MAE on both known instances seen in typical poses now
presented in new poses, and on unknown instances in any pose. We also apply our
approach to ImageNet, finding that the Lie operator improves performance by
almost 4%. These results demonstrate the promise of learning transformations to
improve model robustness.
- Abstract(参考訳): ディープラーニングはコンピュータビジョンの顕著な進歩につながった。
それでも、現在の最高のモデルでは、トレーニング中に見られるモデルと微妙に異なるバリエーションを示すと、壊れやすい。
物体のポーズ、色、照明のわずかな変化は、壊滅的な誤分類につながる可能性がある。
最先端のモデルは、一連のバリエーションが異なるオブジェクトにどのように影響するかを理解するのに苦労する。
より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するフレームワークを提案する。
本手法はリー群の形式化を連続変換に応用し,モデルの分散シフトに対する頑健性を改善する。
我々は、最先端の自己教師型学習(SSL)モデルにフレームワークを適用し、Lieグループによる変換を明示的にモデル化することで、典型的なポーズで現在見られるような、新しいポーズや、どんなポーズでも未知のインスタンスでも、MAEが10%以上のパフォーマンス向上をもたらすことを発見した。
また、このアプローチをImageNetに適用し、Lie演算子の性能が約4%向上することを発見した。
これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を実証する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery [23.464350453312584]
非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。
ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか?
本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
論文 参考訳(メタデータ) (2024-04-17T23:30:48Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - The Robustness Limits of SoTA Vision Models to Natural Variation [8.459177309094686]
我々は、ポーズ、位置、背景、照明、サイズを制御した700万枚以上の画像のデータセットを開発する。
我々は、視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデルを含む、最近の視覚モデルのカタログを考える。
今日の最高のモデルでさえ、ポーズ、サイズ、バックグラウンドの一般的な変更に対して堅牢ではないことが分かりました。
論文 参考訳(メタデータ) (2022-10-24T21:09:53Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Robustness and Generalization via Generative Adversarial Training [21.946687274313177]
本稿では,テストセットとドメイン外サンプルに対するモデルの一般化を同時に改善する手法であるジェネレーティブ・アドバイサル・トレーニングを提案する。
提案手法は、クリーンな画像やドメイン外サンプルのモデルの性能を向上させるだけでなく、予期せぬ攻撃に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2021-09-06T22:34:04Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。