論文の概要: A hierarchical residual network with compact triplet-center loss for
sketch recognition
- arxiv url: http://arxiv.org/abs/2109.13536v1
- Date: Tue, 28 Sep 2021 07:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:45:11.464383
- Title: A hierarchical residual network with compact triplet-center loss for
sketch recognition
- Title(参考訳): スケッチ認識のためのコンパクトトリプレット中心損失を持つ階層的残差ネットワーク
- Authors: Lei Wang, Shihui Zhang, Huan He, Xiaoxiao Zhang, Yu Sang
- Abstract要約: 本稿では, 従来の基本残差ブロックと比較して, マルチスケール情報をよりよく知覚できるような, 新規なマルチスケール残差ブロックを設計する。
階層的残差構造は,マルチスケールの残差ブロックを特定の方法で積み重ねることによって構築される。
- 参考スコア(独自算出の注目度): 7.468154988277025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of touch-screen devices, it is more and more
convenient for people to draw sketches on screen. This results in the demand
for automatically understanding the sketches. Thus, the sketch recognition task
becomes more significant than before. To accomplish this task, it is necessary
to solve the critical issue of improving the distinction of the sketch
features. To this end, we have made efforts in three aspects. First, a novel
multi-scale residual block is designed. Compared with the conventional basic
residual block, it can better perceive multi-scale information and reduce the
number of parameters during training. Second, a hierarchical residual structure
is built by stacking multi-scale residual blocks in a specific way. In contrast
with the single-level residual structure, the learned features from this
structure are more sufficient. Last but not least, the compact triplet-center
loss is proposed specifically for the sketch recognition task. It can solve the
problem that the triplet-center loss does not fully consider too large
intra-class space and too small inter-class space in sketch field. By studying
the above modules, a hierarchical residual network as a whole is proposed for
sketch recognition and evaluated on Tu-Berlin benchmark thoroughly. The
experimental results show that the proposed network outperforms most of
baseline methods and it is excellent among non-sequential models at present.
- Abstract(参考訳): タッチスクリーンデバイスが普及するにつれ、人々は画面にスケッチを描くのがますます便利になっている。
これにより、スケッチを自動的に理解する必要性が生じる。
これにより、スケッチ認識タスクが従来よりも重要になる。
この課題を達成するためには,スケッチの特徴の区別を改善するという重要な課題を解決する必要がある。
この目的のために、私たちは3つの側面に取り組みました。
まず, 新規なマルチスケール残差ブロックの設計を行った。
従来の基本残差ブロックと比較して,マルチスケール情報を知覚し,トレーニング中のパラメータ数を減らすことができる。
第二に、階層的残差構造は、特定の方法でマルチスケール残差ブロックを積み重ねることで構築される。
単層残留構造とは対照的に、この構造から得られた特徴はより十分である。
最後に,スケッチ認識タスクにおいて,コンパクトな三重項中心損失が特に提案されている。
三重項中心損失は、スケッチ場において、クラス内空間が大きすぎることとクラス間空間が小さすぎることを十分に考慮していない。
上記のモジュールを調べた結果,スケッチ認識のための階層的残差ネットワークが提案され,Tu-Berlinベンチマークで徹底的に評価された。
実験の結果,提案手法はベースライン法よりも優れており,非系列モデルでは優れた性能を示している。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Uncertainty-Aware Cross-Modal Transfer Network for Sketch-Based 3D Shape
Retrieval [8.765045867163646]
本稿では,この問題に対処する不確実性を考慮したクロスモーダルトランスファーネットワーク(UACTN)を提案する。
まず、スケッチ機能と不確実性を同時に学習するエンドツーエンドの分類ベースのアプローチを導入する。
そして、3D形状特徴を予め学習したスケッチ埋め込み空間にマッピングして特徴アライメントを行う。
論文 参考訳(メタデータ) (2023-08-11T05:46:52Z) - Generative-Contrastive Learning for Self-Supervised Latent
Representations of 3D Shapes from Multi-Modal Euclidean Input [44.10761155817833]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - PointResNet: Residual Network for 3D Point Cloud Segmentation and
Classification [18.466814193413487]
ポイントクラウドのセグメンテーションと分類は、3Dコンピュータビジョンの主要なタスクである。
本稿では,残差ブロックベースアプローチであるPointResNetを提案する。
我々のモデルは、セグメント化と分類タスクのためのディープニューラルネットワークを用いて、3Dポイントを直接処理する。
論文 参考訳(メタデータ) (2022-11-20T17:39:48Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - LC3Net: Ladder context correlation complementary network for salient
object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。
FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。
DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。
BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文 参考訳(メタデータ) (2021-10-21T03:12:32Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。