Fugu-MT 論文翻訳(概要): Robust Self-Supervised Learning with Lie Groups

論文の概要: Robust Self-Supervised Learning with Lie Groups

arxiv url: http://arxiv.org/abs/2210.13356v1
Date: Mon, 24 Oct 2022 16:00:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 14:57:44.884033
Title: Robust Self-Supervised Learning with Lie Groups
Title（参考訳）: リーグループによる頑健な自己指導型学習
Authors: Mark Ibrahim, Diane Bouchacourt, Ari Morcos
Abstract要約: ディープラーニングはコンピュータビジョンの顕著な進歩につながった。モデルは、トレーニング中に見られるものと若干異なるバリエーションを示すと、不安定である。より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 9.507267560064669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning has led to remarkable advances in computer vision. Even so, today's best models are brittle when presented with variations that differ even slightly from those seen during training. Minor shifts in the pose, color, or illumination of an object can lead to catastrophic misclassifications. State-of-the art models struggle to understand how a set of variations can affect different objects. We propose a framework for instilling a notion of how objects vary in more realistic settings. Our approach applies the formalism of Lie groups to capture continuous transformations to improve models' robustness to distributional shifts. We apply our framework on top of state-of-the-art self-supervised learning (SSL) models, finding that explicitly modeling transformations with Lie groups leads to substantial performance gains of greater than 10% for MAE on both known instances seen in typical poses now presented in new poses, and on unknown instances in any pose. We also apply our approach to ImageNet, finding that the Lie operator improves performance by almost 4%. These results demonstrate the promise of learning transformations to improve model robustness.
Abstract（参考訳）: ディープラーニングはコンピュータビジョンの顕著な進歩につながった。それでも、現在の最高のモデルでは、トレーニング中に見られるモデルと微妙に異なるバリエーションを示すと、壊れやすい。物体のポーズ、色、照明のわずかな変化は、壊滅的な誤分類につながる可能性がある。最先端のモデルは、一連のバリエーションが異なるオブジェクトにどのように影響するかを理解するのに苦労する。より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するフレームワークを提案する。本手法はリー群の形式化を連続変換に応用し,モデルの分散シフトに対する頑健性を改善する。我々は、最先端の自己教師型学習(SSL)モデルにフレームワークを適用し、Lieグループによる変換を明示的にモデル化することで、典型的なポーズで現在見られるような、新しいポーズや、どんなポーズでも未知のインスタンスでも、MAEが10%以上のパフォーマンス向上をもたらすことを発見した。また、このアプローチをImageNetに適用し、Lie演算子の性能が約4%向上することを発見した。これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を実証する。

関連論文リスト

Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳（メタデータ） (2024-12-09T21:36:10Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery [23.464350453312584]
非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか? 本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
論文参考訳（メタデータ） (2024-04-17T23:30:48Z)
Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文参考訳（メタデータ） (2024-03-09T17:17:07Z)
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文参考訳（メタデータ） (2024-03-07T17:48:48Z)
Interpretable Computer Vision Models through Adversarial Training: Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文参考訳（メタデータ） (2023-07-04T13:51:55Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
The Robustness Limits of SoTA Vision Models to Natural Variation [8.459177309094686]
我々は、ポーズ、位置、背景、照明、サイズを制御した700万枚以上の画像のデータセットを開発する。我々は、視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデルを含む、最近の視覚モデルのカタログを考える。今日の最高のモデルでさえ、ポーズ、サイズ、バックグラウンドの一般的な変更に対して堅牢ではないことが分かりました。
論文参考訳（メタデータ） (2022-10-24T21:09:53Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)
Robustness and Generalization via Generative Adversarial Training [21.946687274313177]
本稿では,テストセットとドメイン外サンプルに対するモデルの一般化を同時に改善する手法であるジェネレーティブ・アドバイサル・トレーニングを提案する。提案手法は、クリーンな画像やドメイン外サンプルのモデルの性能を向上させるだけでなく、予期せぬ攻撃に対して堅牢であることを示す。
論文参考訳（メタデータ） (2021-09-06T22:34:04Z)
Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文参考訳（メタデータ） (2021-01-16T23:44:09Z)
Learning Predictive Representations for Deformable Objects Using Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文参考訳（メタデータ） (2020-03-11T17:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。