論文の概要: flexgrid2vec: Learning Efficient Visual Representations Vectors
- arxiv url: http://arxiv.org/abs/2007.15444v6
- Date: Wed, 29 Sep 2021 09:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:15:19.500022
- Title: flexgrid2vec: Learning Efficient Visual Representations Vectors
- Title(参考訳): flexgrid2vec: 視覚表現ベクトルの学習
- Authors: Ali Hamdi, Du Yong Kim, Flora D. Salim
- Abstract要約: flexgrid2vecは画像表現学習の新しいアプローチである。
それぞれの画像を、フレキシブルでユニークなノード位置とエッジ距離のグラフで表現する。
flexgrid2vecはCIFAR-10で96.23%、CIFAR-100で83.05%、STL-10で94.50%、ASIRRAで98.8%、COCOデータセットで89.69%を達成している。
- 参考スコア(独自算出の注目度): 5.5217350574838875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose flexgrid2vec, a novel approach for image representation learning.
Existing visual representation methods suffer from several issues, including
the need for highly intensive computation, the risk of losing in-depth
structural information and the specificity of the method to certain shapes or
objects. flexgrid2vec converts an image to a low-dimensional feature vector. We
represent each image with a graph of flexible, unique node locations and edge
distances. flexgrid2vec is a multi-channel GCN that learns features of the most
representative image patches. We have investigated both spectral and
non-spectral implementations of the GCN node-embedding. Specifically, we have
implemented flexgrid2vec based on different node-aggregation methods, such as
vector summation, concatenation and normalisation with eigenvector centrality.
We compare the performance of flexgrid2vec with a set of state-of-the-art
visual representation learning models on binary and multi-class image
classification tasks. Although we utilise imbalanced, low-size and
low-resolution datasets, flexgrid2vec shows stable and outstanding results
against well-known base classifiers. flexgrid2vec achieves 96.23% on CIFAR-10,
83.05% on CIFAR-100, 94.50% on STL-10, 98.8% on ASIRRA and 89.69% on the COCO
dataset.
- Abstract(参考訳): 画像表現学習の新しいアプローチであるflexgrid2vecを提案する。
既存の視覚表現法は、高度に集約された計算の必要性、深部構造情報を失うリスク、特定の形状や物体に対する方法の特異性など、いくつかの問題に悩まされている。
flexgrid2vecは画像を低次元特徴ベクトルに変換する。
それぞれの画像を、フレキシブルでユニークなノード位置とエッジ距離のグラフで表現する。
flexgrid2vecは、最も代表的なイメージパッチの機能を学ぶマルチチャネルgcnです。
我々はgcnノード埋め込みのスペクトル実装と非スペクトル実装の両方を調査した。
具体的には、ベクトル和、連結、固有ベクトル中心性による正規化など、異なるノード集約法に基づいてflexgrid2vecを実装した。
我々は、flexgrid2vecの性能を、バイナリおよびマルチクラス画像分類タスクにおける最先端のビジュアル表現学習モデルと比較する。
不均衡、低解像度、低解像度のデータセットを利用するが、flexgrid2vecはよく知られた基底分類器に対して安定かつ優れた結果を示す。
flexgrid2vecはCIFAR-10で96.23%、CIFAR-100で83.05%、STL-10で94.50%、ASIRRAで98.8%、COCOデータセットで89.69%を達成している。
関連論文リスト
- Seg-HGNN: Unsupervised and Light-Weight Image Segmentation with Hyperbolic Graph Neural Networks [5.872014229110214]
画像セグメンテーションのための軽量なハイパーボリックグラフニューラルネットワークを導入し、パッチレベルの特徴を非常に小さな埋め込みサイズで包含する。
我々のソリューションであるSeg-HGNNは、現在の最高の教師なし手法を2.5%、VOC-07では4%、ローカライゼーションではVOC-12、セグメンテーションではCUB-200では1.3%、セグメンテーションではECSSDを0.8%上回る。
論文 参考訳(メタデータ) (2024-09-10T15:30:20Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - vox2vec: A Framework for Self-supervised Contrastive Learning of
Voxel-level Representations in Medical Images [0.055997926295092294]
vox2vecは、ボクセルレベルの表現の自己教師付き学習(SSL)のための対照的な方法である。
我々は、vox2vecを使って、6500以上の公開計算トモグラフィ画像上にフィーチャーピラミッドネットワーク(FPN)を事前トレーニングする。
Vox2vec は既存の医療画像 SSL 技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T09:30:22Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Beyond Fixed Grid: Learning Geometric Image Representation with a
Deformable Grid [70.83353059694531]
本稿では,学習可能なニューラルネットワークモジュールであるemphDeformable Grid DefGridを紹介する。
DefGridは、2次元三角格子の頂点の位置オフセットを予測する。
セマンティックセグメンテーションのための一様グリッド上でCNNを使用する場合と比較して,同じグリッド解像度で有意に改善された結果を示す。
論文 参考訳(メタデータ) (2020-08-21T02:22:06Z) - Representative Graph Neural Network [113.67254049938629]
いくつかの代表的特徴を動的にサンプリングするために、代表グラフ層を提示する。
すべての位置からメッセージを伝搬する代わりに、RepGraphレイヤは1つのノードの応答を数個の代表ノードで計算します。
論文 参考訳(メタデータ) (2020-08-12T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。