論文の概要: Invariant Shape Representation Learning For Image Classification
- arxiv url: http://arxiv.org/abs/2411.12201v1
- Date: Tue, 19 Nov 2024 03:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:42.068666
- Title: Invariant Shape Representation Learning For Image Classification
- Title(参考訳): 画像分類のための不変形状表現学習
- Authors: Tonmoy Hossain, Jing Ma, Jundong Li, Miaomiao Zhang,
- Abstract要約: 本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
- 参考スコア(独自算出の注目度): 41.610264291150706
- License:
- Abstract: Geometric shape features have been widely used as strong predictors for image classification. Nevertheless, most existing classifiers such as deep neural networks (DNNs) directly leverage the statistical correlations between these shape features and target variables. However, these correlations can often be spurious and unstable across different environments (e.g., in different age groups, certain types of brain changes have unstable relations with neurodegenerative disease); hence leading to biased or inaccurate predictions. In this paper, we introduce a novel framework that for the first time develops invariant shape representation learning (ISRL) to further strengthen the robustness of image classifiers. In contrast to existing approaches that mainly derive features in the image space, our model ISRL is designed to jointly capture invariant features in latent shape spaces parameterized by deformable transformations. To achieve this goal, we develop a new learning paradigm based on invariant risk minimization (IRM) to learn invariant representations of image and shape features across multiple training distributions/environments. By embedding the features that are invariant with regard to target variables in different environments, our model consistently offers more accurate predictions. We validate our method by performing classification tasks on both simulated 2D images, real 3D brain and cine cardiovascular magnetic resonance images (MRIs). Our code is publicly available at https://github.com/tonmoy-hossain/ISRL.
- Abstract(参考訳): 幾何学的形状特徴は画像分類の強力な予測器として広く用いられている。
それでも、ディープニューラルネットワーク(DNN)のような既存の分類器の多くは、これらの形状特徴とターゲット変数の間の統計的相関を直接利用している。
しかし、これらの相関はしばしば異なる環境(例えば、年齢の異なるグループでは、ある種の脳の変化が神経変性疾患と不安定な関係を持つ)で急激で不安定になり、バイアスや不正確な予測につながる。
本稿では,画像分類器のロバスト性を高めるために,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
画像空間の特徴を主に導出する既存のアプローチとは対照的に、我々のモデルISRLは、変形可能な変換によってパラメータ化された潜在形状空間における不変特徴を共同にキャプチャするように設計されている。
この目標を達成するために、複数のトレーニング分布/環境にまたがる画像および形状特徴の不変表現を学習するための、不変リスク最小化(IRM)に基づく新しい学習パラダイムを開発する。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
シミュレーション2次元画像, 実脳3次元画像, 血管内磁気共鳴画像(MRI)のいずれにおいても分類作業を行うことで, 本手法の有効性を検証した。
私たちのコードはhttps://github.com/tonmoy-hossain/ISRL.comで公開されています。
関連論文リスト
- MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image
Deformations [2.711740183729759]
本稿では,幾何変形の多モード潜在空間における拡張変換を生成する新しいモデルを提案する。
実験結果から,提案手法は予測精度を大幅に向上させることで,全てのベースラインよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-20T21:30:55Z) - Affine-Transformation-Invariant Image Classification by Differentiable
Arithmetic Distribution Module [8.125023712173686]
畳み込みニューラルネットワーク(CNN)は画像分類において有望な結果を得た。
CNNは回転、翻訳、フリップ、シャッフルなどのアフィン変換に弱い。
本研究では,分散学習手法を取り入れた,より堅牢な代替手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T22:31:32Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。