論文の概要: Grassmannian learning mutual subspace method for image set recognition
- arxiv url: http://arxiv.org/abs/2111.04352v1
- Date: Mon, 8 Nov 2021 09:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:49:11.026037
- Title: Grassmannian learning mutual subspace method for image set recognition
- Title(参考訳): 画像集合認識のためのグラスマン学習相互部分空間法
- Authors: Lincon S. Souza, Naoya Sogi, Bernardo B. Gatto, Takumi Kobayashi and
Kazuhiro Fukui
- Abstract要約: 本稿では,画像の集合を入力とするオブジェクト認識の問題に対処する(例えば,複数のカメラソースとビデオフレーム)。
本稿では,CNN上に埋め込まれたNN層であるG-LMSM(Grassmannian Learning mutual subspace method)を提案する。
提案手法は,手形認識,顔の識別,顔の感情認識における有効性を示す。
- 参考スコア(独自算出の注目度): 43.24089871099157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of object recognition given a set of images
as input (e.g., multiple camera sources and video frames). Convolutional neural
network (CNN)-based frameworks do not exploit these sets effectively,
processing a pattern as observed, not capturing the underlying feature
distribution as it does not consider the variance of images in the set. To
address this issue, we propose the Grassmannian learning mutual subspace method
(G-LMSM), a NN layer embedded on top of CNNs as a classifier, that can process
image sets more effectively and can be trained in an end-to-end manner. The
image set is represented by a low-dimensional input subspace; and this input
subspace is matched with reference subspaces by a similarity of their canonical
angles, an interpretable and easy to compute metric. The key idea of G-LMSM is
that the reference subspaces are learned as points on the Grassmann manifold,
optimized with Riemannian stochastic gradient descent. This learning is stable,
efficient and theoretically well-grounded. We demonstrate the effectiveness of
our proposed method on hand shape recognition, face identification, and facial
emotion recognition.
- Abstract(参考訳): 本稿では,画像の集合を入力とするオブジェクト認識の問題に対処する(例えば,複数のカメラソースとビデオフレーム)。
畳み込みニューラルネットワーク(CNN)ベースのフレームワークは、これらのセットを効果的に利用せず、観測されたパターンを処理し、セット内の画像のばらつきを考慮していないため、基盤となる特徴分布をキャプチャしない。
そこで本研究では,cnn上に埋め込まれたnn層であるグラスマン学習相互部分空間法(g-lmsm)を分類器として提案する。
画像集合は低次元の入力部分空間で表現され、この入力部分空間は標準角度の類似性によって参照部分空間と一致し、解釈可能で計算が容易である。
G-LMSMの鍵となる考え方は、参照部分空間がリーマン確率勾配勾配で最適化されたグラスマン多様体上の点として学習されることである。
この学習は安定し、効率的で、理論上はしっかりしている。
提案手法は,手形認識,顔の識別,顔の感情認識における有効性を示す。
関連論文リスト
- SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
本稿ではセマンティック・空間適応(SSA-Seg)を提案し,セマンティックセグメンテーションの課題に対処する。
具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。
その結果,提案したSSA-Segは,計算コストを最小限に抑えながら,ベースラインモデルのセグメンテーション性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-10T15:14:23Z) - Deep Gaussian mixture model for unsupervised image segmentation [1.3654846342364308]
多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に困難である。
本稿では,ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。
マルチシーケンスMRI画像における梗塞領域分割の例について, 様々な実験において本手法の利点を実証する。
論文 参考訳(メタデータ) (2024-04-18T15:20:59Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Feature Activation Map: Visual Explanation of Deep Learning Models for
Image Classification [17.373054348176932]
本研究では,機能活性化マップ (FAM) と呼ばれるポストホック解釈ツールを提案する。
FAMは、FC層を分類器として使用せずにディープラーニングモデルを解釈できる。
提案したFAMアルゴリズムの有効性を実証するために,10種類の深層学習モデルを用いて,少数ショット画像分類,コントラスト学習画像分類,画像検索タスクを行った。
論文 参考訳(メタデータ) (2023-07-11T05:33:46Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Subspace Nonnegative Matrix Factorization for Feature Representation [14.251799988700558]
非負行列分解(NMF)は、すべての特徴を等しく扱うことを意味するデータ空間全体の特徴表現を学習する。
本稿では, 適応重みを導入して, 部分空間だけが新しい表現を生成するように, 元の空間における重要な特徴を識別する新しいNMF法を提案する。
いくつかの実世界のデータセットに対する実験結果から,提案手法が既存手法よりも正確な特徴表現を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-04-18T16:07:06Z) - A singular Riemannian geometry approach to Deep Neural Networks II.
Reconstruction of 1-D equivalence classes [78.120734120667]
入力空間における出力多様体内の点の事前像を構築する。
我々は、n-次元実空間から(n-1)-次元実空間へのニューラルネットワークマップの場合の簡易性に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-17T11:47:45Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。