論文の概要: Hyperdimensional computing as a framework for systematic aggregation of
image descriptors
- arxiv url: http://arxiv.org/abs/2101.07720v1
- Date: Tue, 19 Jan 2021 16:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:13:18.770869
- Title: Hyperdimensional computing as a framework for systematic aggregation of
image descriptors
- Title(参考訳): 画像記述子の体系的アグリゲーションの枠組みとしての超次元計算
- Authors: Peer Neubert and Stefan Schubert
- Abstract要約: 我々は超次元計算(HDC)を、同じ次元の1つのベクトルにおけるベクトルの集合からの情報を組み合わせるアプローチとして用いている。
本稿では,既存および将来の画像記述子(深層学習ベース)の出力処理に適したhdc実装を提案する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video descriptors are an omnipresent tool in computer vision and
its application fields like mobile robotics. Many hand-crafted and in
particular learned image descriptors are numerical vectors with a potentially
(very) large number of dimensions. Practical considerations like memory
consumption or time for comparisons call for the creation of compact
representations. In this paper, we use hyperdimensional computing (HDC) as an
approach to systematically combine information from a set of vectors in a
single vector of the same dimensionality. HDC is a known technique to perform
symbolic processing with distributed representation in numerical vectors with
thousands of dimensions. We present a HDC implementation that is suitable for
processing the output of existing and future (deep-learning based) image
descriptors. We discuss how this can be used as a framework to process
descriptors together with additional knowledge by simple and fast vector
operations. A concrete outcome is a novel HDC-based approach to aggregate a set
of local image descriptors together with their image positions in a single
holistic descriptor. The comparison to available holistic descriptors and
aggregation methods on a series of standard mobile robotics place recognition
experiments shows a 20% improvement in average performance compared to
runner-up and 3.6x better worst-case performance.
- Abstract(参考訳): 画像とビデオのディスクリプタは、コンピュータビジョンとそのモバイルロボティクスなどの応用分野において、一貫したツールである。
手作りで特に学習された画像記述子の多くは、潜在的に(非常に)多くの次元を持つ数値ベクトルである。
メモリ消費や比較時間といった実践的な考慮事項は、コンパクトな表現の作成を要求する。
本稿では,一組のベクトルから得られる情報を同一次元のベクトルに体系的に結合する手法として,超次元計算(HDC)を用いる。
HDCは、数千次元の数値ベクトルで分散表現を用いた記号処理を行うための既知の技術である。
本稿では,既存および将来の画像記述子(深層学習ベース)の出力処理に適したhdc実装を提案する。
簡単なベクトル演算による追加知識とともに記述子を処理するためのフレームワークとしてどのように使用できるかについて議論する。
具体的な結果は、局所的な画像記述子の集合を1つの全体的記述子のイメージ位置とともに集約する、HDCベースの新しいアプローチである。
一連の標準的な移動ロボットの配置認識実験で利用可能な総体的記述子と集約法と比較すると、ランナーアップと3.6倍の最悪のパフォーマンスに比べて平均性能が20%向上している。
関連論文リスト
- Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Efficient Multiscale Object-based Superpixel Framework [62.48475585798724]
我々は,SICLE(Iterative CLEarcutting)によるスーパーピクセルという,新しいスーパーピクセルフレームワークを提案する。
SICLEは、複数スケールのセグメンテーションをオンザフライで生成できるオブジェクト情報を利用する。
これは最近のスーパーピクセル法を一般化し、複数のデライン化指標に従って効率と効率性に関する最先端のアプローチを超越している。
論文 参考訳(メタデータ) (2022-04-07T15:59:38Z) - Centre Symmetric Quadruple Pattern: A Novel Descriptor for Facial Image
Recognition and Retrieval [20.77994516381]
手作りのディスクリプタは、カーネルによって定義された局所的な近傍のピクセルの関係を識別する。
本稿では,四重空間における顔の非対称性を符号化する手書き記述子であるCentral Symmetric Quadruple Pattern (CSQP)を提案する。
結果分析の結果,提案する記述子は,ポーズ,照明,背景,表現の制御不能な変化とともに,制御下において良好に動作していることがわかった。
論文 参考訳(メタデータ) (2022-01-03T07:56:24Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Efficient data-driven encoding of scene motion using Eccentricity [0.993963191737888]
本稿では,映像・映像ストリームから生成した静的マップを用いて動的視覚シーンを表現する新しい手法を提案する。
地図はピクセル単位で計算された2次元行列であり、偏心データ解析の概念に基づいている。
潜在的なアプリケーションのリストには、ビデオベースのアクティビティ認識、意図認識、オブジェクト追跡、ビデオ記述が含まれる。
論文 参考訳(メタデータ) (2021-03-03T23:11:21Z) - Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。
本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文 参考訳(メタデータ) (2021-03-03T01:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。