論文の概要: Robust Self-Supervised Learning with Lie Groups
- arxiv url: http://arxiv.org/abs/2210.13356v1
- Date: Mon, 24 Oct 2022 16:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:57:44.884033
- Title: Robust Self-Supervised Learning with Lie Groups
- Title(参考訳): リーグループによる頑健な自己指導型学習
- Authors: Mark Ibrahim, Diane Bouchacourt, Ari Morcos
- Abstract要約: ディープラーニングはコンピュータビジョンの顕著な進歩につながった。
モデルは、トレーニング中に見られるものと若干異なるバリエーションを示すと、不安定である。
より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.507267560064669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has led to remarkable advances in computer vision. Even so,
today's best models are brittle when presented with variations that differ even
slightly from those seen during training. Minor shifts in the pose, color, or
illumination of an object can lead to catastrophic misclassifications.
State-of-the art models struggle to understand how a set of variations can
affect different objects. We propose a framework for instilling a notion of how
objects vary in more realistic settings. Our approach applies the formalism of
Lie groups to capture continuous transformations to improve models' robustness
to distributional shifts. We apply our framework on top of state-of-the-art
self-supervised learning (SSL) models, finding that explicitly modeling
transformations with Lie groups leads to substantial performance gains of
greater than 10% for MAE on both known instances seen in typical poses now
presented in new poses, and on unknown instances in any pose. We also apply our
approach to ImageNet, finding that the Lie operator improves performance by
almost 4%. These results demonstrate the promise of learning transformations to
improve model robustness.
- Abstract(参考訳): ディープラーニングはコンピュータビジョンの顕著な進歩につながった。
それでも、現在の最高のモデルでは、トレーニング中に見られるモデルと微妙に異なるバリエーションを示すと、壊れやすい。
物体のポーズ、色、照明のわずかな変化は、壊滅的な誤分類につながる可能性がある。
最先端のモデルは、一連のバリエーションが異なるオブジェクトにどのように影響するかを理解するのに苦労する。
より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するフレームワークを提案する。
本手法はリー群の形式化を連続変換に応用し,モデルの分散シフトに対する頑健性を改善する。
我々は、最先端の自己教師型学習(SSL)モデルにフレームワークを適用し、Lieグループによる変換を明示的にモデル化することで、典型的なポーズで現在見られるような、新しいポーズや、どんなポーズでも未知のインスタンスでも、MAEが10%以上のパフォーマンス向上をもたらすことを発見した。
また、このアプローチをImageNetに適用し、Lie演算子の性能が約4%向上することを発見した。
これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を実証する。
関連論文リスト
- Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。
我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。
本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:06:41Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery [23.464350453312584]
非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。
ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか?
本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
論文 参考訳(メタデータ) (2024-04-17T23:30:48Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - The Robustness Limits of SoTA Vision Models to Natural Variation [8.459177309094686]
我々は、ポーズ、位置、背景、照明、サイズを制御した700万枚以上の画像のデータセットを開発する。
我々は、視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデルを含む、最近の視覚モデルのカタログを考える。
今日の最高のモデルでさえ、ポーズ、サイズ、バックグラウンドの一般的な変更に対して堅牢ではないことが分かりました。
論文 参考訳(メタデータ) (2022-10-24T21:09:53Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。