Fugu-MT 論文翻訳(概要): Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers

論文の概要: Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers

arxiv url: http://arxiv.org/abs/2106.16198v1
Date: Wed, 30 Jun 2021 16:49:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-01 13:49:48.474388
Title: Small in-distribution changes in 3D perspective and lighting fool both CNNs and Transformers
Title（参考訳）: 3次元視界の小さな分布変化と照明はCNNとトランスフォーマーの両方を騙す
Authors: Spandan Madan, Tomotake Sasaki, Tzu-Mao Li, Xavier Boix, Hanspeter Pfister
Abstract要約: ネットワークは、小さな3D視点の変化や照明の変化に対して脆弱であることを示す。我々は、CMA-Searchと呼ばれる進化戦略(ES)ベースのアプローチを導入する。我々は、ResNetとOpenAIのCLIPモデルの両方に対して、ImageNet画像の近傍で誤分類を見つけるために、この手法を拡張した。
参考スコア（独自算出の注目度）: 25.637284029226493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural networks are susceptible to small transformations including 2D rotations and shifts, image crops, and even changes in object colors. This is often attributed to biases in the training dataset, and the lack of 2D shift-invariance due to not respecting the sampling theorem. In this paper, we challenge this hypothesis by training and testing on unbiased datasets, and showing that networks are brittle to both small 3D perspective changes and lighting variations which cannot be explained by dataset bias or lack of shift-invariance. To find these in-distribution errors, we introduce an evolution strategies (ES) based approach, which we call CMA-Search. Despite training with a large-scale (0.5 million images), unbiased dataset of camera and light variations, in over 71% cases CMA-Search can find camera parameters in the vicinity of a correctly classified image which lead to in-distribution misclassifications with < 3.6% change in parameters. With lighting changes, CMA-Search finds misclassifications in 33% cases with < 11.6% change in parameters. Finally, we extend this method to find misclassifications in the vicinity of ImageNet images for both ResNet and OpenAI's CLIP model.
Abstract（参考訳）: ニューラルネットワークは、2次元回転やシフト、画像作物、さらにはオブジェクトの色の変化など、小さな変換に影響を受けやすい。これは、トレーニングデータセットのバイアスと、サンプリング定理を尊重しないため、2次元シフト不変性の欠如に起因することが多い。本稿では,偏りのないデータセットをトレーニングし,テストすることで,ネットワークが小さな3次元視点の変化や,データセットのバイアスやシフト不変性の欠如で説明できない光の変動に対して脆弱であることを示す。これらの分散エラーを見つけるために,我々はCMA-Searchと呼ぶ進化戦略(ES)ベースのアプローチを導入する。大規模(0.5万枚の画像)でのトレーニング、カメラの偏りのないデータセットと光の変動にもかかわらず、71%以上のケースでCMA-Searchは、正しく分類された画像の近傍でカメラパラメータを見つけることができ、パラメータが3.6%変化した。照明の変更により、CMA-Searchはパラメータが11.6%以下の33%のケースで誤分類を発見した。最後に、この手法を拡張して、ResNetとOpenAIのCLIPモデルの両方に対して、ImageNet画像の近傍で誤分類を見つける。

関連論文リスト

Bayesian generative models can flag performance loss, bias, and out-of-distribution image content [15.835055687646507]
生成モデルは、異常検出、特徴抽出、データの可視化、画像生成などの医療画像タスクに人気がある。ディープラーニングモデルによってパラメータ化されているため、分散シフトに敏感であり、アウト・オブ・ディストリビューションデータに適用しても信頼できないことが多い。我々は,インク,定規,パッチなどの分布外画像コンテンツを検出する画素ワイド不確実性を示す。
論文参考訳（メタデータ） (2025-03-21T18:45:28Z)
Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Feature Corrective Transfer Learning: End-to-End Solutions to Object Detection in Non-Ideal Visual Conditions [11.90136900277127]
障害シナリオにおけるオブジェクトのエンドツーエンド検出を容易にする新しい手法として,"Feature Corrective Transfer Learning"がある。非理想画像は、初期理想RGBモデルと特徴マップを比較して処理される。このアプローチは、直接特徴写像補正により、様々な条件にまたがってオブジェクト検出を行うモデルの能力を洗練させる。
論文参考訳（メタデータ） (2024-04-17T09:58:53Z)
The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。 i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文参考訳（メタデータ） (2023-12-11T08:39:43Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Revisiting Data Augmentation for Rotational Invariance in Convolutional Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文参考訳（メタデータ） (2023-10-12T15:53:24Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文参考訳（メタデータ） (2023-08-21T01:59:45Z)
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2023-06-20T17:53:00Z)
GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文参考訳（メタデータ） (2023-05-22T15:27:20Z)
Scale-Equivariant Deep Learning for 3D Data [44.52688267348063]
畳み込みニューラルネットワーク(CNN)は、画像の位置に関係なく物体を認識する。本稿では,3次元データに対するスケール・等価な畳み込みネットワーク層を提案する。本実験は,3次元医用画像解析の尺度等式化における提案手法の有効性を実証するものである。
論文参考訳（メタデータ） (2023-04-12T13:56:12Z)
Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-03-06T11:51:28Z)
DC4L: Distribution Shift Recovery via Data-Driven Control for Deep Learning Models [4.374569172244273]
学習したモデルに対する制御を用いて、オンライン配信のシフトから回復することを提案する。提案手法では, 学習セットにシフトしたデータを近づけるために, セマンティック保存変換のシーケンスを適用した。本稿では,ImageNet-Cベンチマークからのシフトの合成に一般化し,平均精度を最大9.81%向上することを示す。
論文参考訳（メタデータ） (2023-02-20T22:06:26Z)
Learning Transformations To Reduce the Geometric Shift in Object Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-01-13T11:55:30Z)
Fast Unsupervised Brain Anomaly Detection and Segmentation with Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文参考訳（メタデータ） (2022-06-07T17:30:43Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)
Anomaly Detection in Image Datasets Using Convolutional Neural Networks, Center Loss, and Mahalanobis Distance [0.0]
ユーザーアクティビティは、品質や無関係な画像やデータベクターのかなりの数を生成します。ニューラルネットワークの場合、異常は通常分布外サンプルとして定義される。本研究では,画像データセットにおける非分布サンプルの監督的および半監督的検出手法を提案する。
論文参考訳（メタデータ） (2021-04-13T13:44:03Z)
Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。 ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文参考訳（メタデータ） (2021-03-30T19:18:31Z)
What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文参考訳（メタデータ） (2020-11-09T01:16:30Z)
Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文参考訳（メタデータ） (2020-09-18T17:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。