論文の概要: Gram Regularization for Multi-view 3D Shape Retrieval
- arxiv url: http://arxiv.org/abs/2011.07733v1
- Date: Mon, 16 Nov 2020 05:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:23:17.597261
- Title: Gram Regularization for Multi-view 3D Shape Retrieval
- Title(参考訳): 多視点3次元形状検索のためのグラム正規化
- Authors: Zhaoqun Li
- Abstract要約: 本稿では,グラム正規化という新しい正規化用語を提案する。
重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。
提案したグラム正規化はデータ独立であり、ベルやホイッスルを使わずに安定かつ迅速に収束することができる。
- 参考スコア(独自算出の注目度): 3.655021726150368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to obtain the desirable representation of a 3D shape is a key challenge
in 3D shape retrieval task. Most existing 3D shape retrieval methods focus on
capturing shape representation with different neural network architectures,
while the learning ability of each layer in the network is neglected. A common
and tough issue that limits the capacity of the network is overfitting. To
tackle this, L2 regularization is applied widely in existing deep learning
frameworks. However,the effect on the generalization ability with L2
regularization is limited as it only controls large value in parameters. To
make up the gap, in this paper, we propose a novel regularization term called
Gram regularization which reinforces the learning ability of the network by
encouraging the weight kernels to extract different information on the
corresponding feature map. By forcing the variance between weight kernels to be
large, the regularizer can help to extract discriminative features. The
proposed Gram regularization is data independent and can converge stably and
quickly without bells and whistles. Moreover, it can be easily plugged into
existing off-the-shelf architectures. Extensive experimental results on the
popular 3D object retrieval benchmark ModelNet demonstrate the effectiveness of
our method.
- Abstract(参考訳): 3次元形状の望ましい表現の獲得は,3次元形状検索タスクにおいて重要な課題である。
既存の3d形状検索手法のほとんどは、異なるニューラルネットワークアーキテクチャによる形状表現の取得に重点を置いているが、ネットワークの各レイヤの学習能力は無視されている。
ネットワークの容量を制限している一般的で難しい問題は、過度に適合することです。
これを解決するため、L2正規化は既存のディープラーニングフレームワークに広く適用されている。
しかし、L2正則化による一般化能力への影響は、パラメータの大きな値のみを制御するため制限される。
そこで本稿では,重みカーネルに対応する特徴マップの異なる情報を抽出するよう促すことにより,ネットワークの学習能力を強化する「グラム正規化」という新しい正規化用語を提案する。
重みカーネル間の分散を強要することにより、正規化器は識別的特徴を抽出するのに役立つ。
提案するグラム正則化はデータ独立であり、ベルやホイッスルなしで安定かつ迅速に収束することができる。
さらに、既存のオフ・ザ・シェルフ・アーキテクチャに簡単に接続できる。
人気のある3dオブジェクト検索ベンチマーク・モデルネットの広範な実験結果から,本手法の有効性を実証した。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。