論文の概要: R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition
- arxiv url: http://arxiv.org/abs/2211.11085v1
- Date: Sun, 20 Nov 2022 21:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:32:00.107323
- Title: R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition
- Title(参考訳): R2-MLP:マルチビュー3次元物体認識のためのラウンドロールMLP
- Authors: Shuo Chen, Tan Yu, Ping Li
- Abstract要約: 多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 33.53114929452528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision architectures based exclusively on multi-layer perceptrons
(MLPs) have gained much attention in the computer vision community. MLP-like
models achieve competitive performance on a single 2D image classification with
less inductive bias without hand-crafted convolution layers. In this work, we
explore the effectiveness of MLP-based architecture for the view-based 3D
object recognition task. We present an MLP-based architecture termed as
Round-Roll MLP (R$^2$-MLP). It extends the spatial-shift MLP backbone by
considering the communications between patches from different views. R$^2$-MLP
rolls part of the channels along the view dimension and promotes information
exchange between neighboring views. We benchmark MLP results on ModelNet10 and
ModelNet40 datasets with ablations in various aspects. The experimental results
show that, with a conceptually simple structure, our R$^2$-MLP achieves
competitive performance compared with existing state-of-the-art methods.
- Abstract(参考訳): 近年,多層パーセプトロン(mlps)を主体としたビジョンアーキテクチャがコンピュータビジョンコミュニティで注目を集めている。
mlpライクなモデルは、手作りの畳み込み層を使わずに、誘導バイアスの少ない単一の2次元画像分類で競合性能を達成する。
本研究では,ビューベース3Dオブジェクト認識タスクにおけるMLPアーキテクチャの有効性を検討する。
本稿では,ラウンドロール型MLP(R$^2$-MLP)と呼ばれるMLPアーキテクチャを提案する。
異なるビューからのパッチ間の通信を考慮して、空間シフトMLPバックボーンを拡張する。
r$^2$-mlpはビュー次元に沿ってチャネルの一部をロールし、隣り合うビュー間の情報交換を促進する。
ModelNet10 と ModelNet40 のデータセットに対する MLP 結果のベンチマークを行った。
実験の結果,R$^2$-MLPは概念的に単純な構造であり,既存の最先端手法と比較して競争性能が向上することがわかった。
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。