論文の概要、ライセンス

# (参考訳) Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 [全文訳有]

Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold ( http://arxiv.org/abs/2106.05965v1 )

ライセンス: CC BY 4.0
Kieran Murphy, Carlos Esteves, Varun Jampani, Srikumar Ramalingam, Ameesh Makadia(参考訳) 単一画像のポーズ推定は多くの視覚やロボティクスのタスクにおいて基本的な問題であり、既存のディープラーニングアプローチは、完全にモデリングやハンドリングに苦しむ:i)予測の不確実性、i)複数の(時には無限)正しいポーズを持つ対称オブジェクト。 そこで本研究では,SO(3)上の任意の非パラメトリック分布を推定する手法を提案する。 私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。 グリッドサンプリングや勾配上昇は最も可能性の高いポーズを見つけるために用いられるが、任意のポーズで確率を評価することもでき、対称性や不確実性についての推論を可能にする。 これは多様体上の分布を表現する最も一般的な方法であり、豊かな表現力を示すために、対称でほぼ対称な物体のデータセットを導入する。 ポーズの不確実性に関する監督は必要ありません -- モデルでは、例毎に1つのポーズのみをトレーニングします。 それにもかかわらず、我々の暗黙のモデルは、3dポーズ上の複雑な分布を扱うために非常に表現力があり、標準の非曖昧な環境で正確なポーズ推定を得て、pascal3d+とmodelnet10-so(3)ベンチマークで最先端のパフォーマンスを達成しています。

Single image pose estimation is a fundamental problem in many vision and robotics tasks, and existing deep learning approaches suffer by not completely modeling and handling: i) uncertainty about the predictions, and ii) symmetric objects with multiple (sometimes infinite) correct poses. To this end, we introduce a method to estimate arbitrary, non-parametric distributions on SO(3). Our key idea is to represent the distributions implicitly, with a neural network that estimates the probability given the input image and a candidate pose. Grid sampling or gradient ascent can be used to find the most likely pose, but it is also possible to evaluate the probability at any pose, enabling reasoning about symmetries and uncertainty. This is the most general way of representing distributions on manifolds, and to showcase the rich expressive power, we introduce a dataset of challenging symmetric and nearly-symmetric objects. We require no supervision on pose uncertainty -- the model trains only with a single pose per example. Nonetheless, our implicit model is highly expressive to handle complex distributions over 3D poses, while still obtaining accurate pose estimation on standard non-ambiguous environments, achieving state-of-the-art performance on Pascal3D+ and ModelNet10-SO(3) benchmarks.
公開日: Thu, 10 Jun 2021 17:57:23 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on Implicit-PDF:確率分布の非パラメトリック表現 0.88
the Rotation Manifold Kieran Murphy * 1 Carlos Esteves * 1 Varun Jampani 1 Srikumar Ramalingam 1 Ameesh Makadia 1 回転多様体 Kieran Murphy * 1 Carlos Esteves * 1 Varun Jampani 1 Srikumar Ramalingam 1 Ameesh Makadia 1 0.71
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] V C . 0 1 ] 略称はC。 0.73
s c [ 1 v 5 6 9 5 0 sc [ 1 v 5 6 9 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Single image pose estimation is a fundamental problem in many vision and robotics tasks, and existing deep learning approaches suffer by not completely modeling and handling: i) uncertainty about the predictions, and ii) symmetric objects with multiple (sometimes infinite) correct poses. 概要 単一画像のポーズ推定は多くの視覚やロボティクスのタスクにおいて基本的な問題であり、既存のディープラーニングアプローチは、完全にモデリングやハンドリングに苦しむ:i)予測の不確実性、i)複数の(時には無限)正しいポーズを持つ対称オブジェクト。 0.58
To this end, we introduce a method to estimate arbitrary, non-parametric distributions on SO(3). そこで本研究では,SO(3)上の任意の非パラメトリック分布を推定する手法を提案する。 0.78
Our key idea is to represent the distributions implicitly, with a neural network that estimates the probability given the input image and a candidate pose. 私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。 0.81
Grid sampling or gradient ascent can be used to find the most likely pose, but it is also possible to evaluate the probability at any pose, enabling reasoning about symmetries and uncertainty. グリッドサンプリングや勾配上昇は最も可能性の高いポーズを見つけるために用いられるが、任意のポーズで確率を評価することもでき、対称性や不確実性についての推論を可能にする。 0.57
This is the most general way of representing distributions on manifolds, and to showcase the rich expressive power, we introduce a dataset of challenging symmetric and nearly-symmetric objects. これは多様体上の分布を表現する最も一般的な方法であり、豊かな表現力を示すために、対称でほぼ対称な物体のデータセットを導入する。 0.74
We require no supervision on pose uncertainty – the model trains only with a single pose per example. ポーズの不確実性に関する監視は不要です – モデルでは,例毎にひとつのポーズのみをトレーニングします。 0.54
Nonetheless, our implicit model is highly expressive to handle complex distributions over 3D poses, while still obtaining accurate pose estimation on standard non-ambiguous environments, achieving state-of-the-art performance on Pascal3D+ and ModelNet10-SO(3) benchmarks. それにもかかわらず、我々の暗黙のモデルは、3dポーズ上の複雑な分布を扱うために非常に表現力があり、標準の非曖昧な環境で正確なポーズ推定を得て、pascal3d+とmodelnet10-so(3)ベンチマークで最先端のパフォーマンスを達成しています。 0.48
Code, data, and visualizations may be found at implicit-pdf.github. io. コード、データ、視覚化は暗黙のpdf.github.ioで見ることができる。 0.52
1. Introduction There is a growing realization in deep learning that bestowing a network with the ability to express uncertainty is universally beneficial and of crucial importance to systems where safety and interpretability are primary concerns (Leibig et al , 2017; Han et al , 2007; Ching et al , 1. はじめに 不確実性を表現する能力を持つネットワークが普遍的に有用であり、安全性と解釈可能性が主要な関心事であるシステムにとって重要な意味を持つ、深層学習の進歩がある(Leibig et al , 2017; Han et al , 2007; Ching et al )。 0.79
*Equal contribution 1Google Research, New York, NY, USA. ※同貢献1Google Research, New York, NY, USA。 0.75
Correspondence to: <implicitpdf@gmail.co m>. 対応文: <implicitpdf@gmail.co m> 0.80
Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. 第38回機械学習国際会議(PMLR 139, 2021)の開催報告 0.68
Copyright 2021 by the author(s). 著作者による著作権2021。 0.53
2018). A quintessential example is the task of 3D pose estimation – pose estimation is both a vital ingredient in many real-world robotics and computer vision applications where propagating uncertainty can facilitate complex downstream reasoning (McAllister et al , 2017), as well as an inherently ambiguous problem due to the abundant approximate and exact symmetries in our 3D world. 2018). 基本的な例は3dポーズ推定のタスクです – ポーズ推定は、不確実性が伝播することで複雑な下流推論(mcallister et al, 2017)が容易になる、多くの現実世界のロボットやコンピュータビジョンアプリケーションにおいて不可欠な要素です。 0.71
Many everyday objects possess symmetries such as the box or vase depicted in Fig 1 (a). 多くの日常の物体は、図1(a)に描かれた箱や花瓶のような対称性を持っている。 0.52
It is tempting to formulate a model of uncertainty that precisely mirrors the pose ambiguities of such shapes; however it becomes immediately evident that such an approach is not scalable, as it is unrealistic to enumerate or characterize all sources of pose uncertainty. そのような形状のポーズの曖昧さを正確に反映する不確かさのモデルを定式化するのは誘惑的であるが、すべてのポーズの不確かさの源を列挙したり特徴付けたりすることは現実的ではないため、そのようなアプローチがスケーラブルでないことはすぐに明らかになる。 0.62
Even in a simple scenario such as a coffee mug with self-occlusion, the pose uncertainty manifests as a complex distribution over 3D orientations, as in Fig 1 (b). 自己閉塞のコーヒーマグのような単純なシナリオであっても、図1(b)のように、ポーズの不確実性は3次元配向上の複素分布として現れる。 0.64
This paper addresses two long-standing and open challenges in pose estimation (a) what is the most general representation for expressing arbitrary pose distributions, including the challenging ones arising from symmetrical and nearsymmetrical objects, in a neural network and (b) how do we effectively train the model in typical scenarios where the supervision is a single 3D pose per observation (as in Pascal3D+ (Xiang et al , 2014), ObjectNet3D (Xiang et al , 2016), ModelNet10-SO(3) (Liao et al , 2019)), i.e. This paper addresses two long-standing and open challenges in pose estimation (a) what is the most general representation for expressing arbitrary pose distributions, including the challenging ones arising from symmetrical and nearsymmetrical objects, in a neural network and (b) how do we effectively train the model in typical scenarios where the supervision is a single 3D pose per observation (as in Pascal3D+ (Xiang et al , 2014), ObjectNet3D (Xiang et al , 2016), ModelNet10-SO(3) (Liao et al , 2019)), i.e. 0.93
without supervision on the distribution, or priors on the symmetries. 分布や対称性の事前の監督なしに 0.48
To this end, we propose an implicit representation for nonparametric probability distributions over the rotation manifold SO(3) (we refer to our model as implicit-PDF, or IPDF for short). この目的のために、回転多様体 SO(3) 上の非パラメトリック確率分布の暗黙表現を提案する(ここでは、我々のモデルを暗黙のPDF、略してICPと呼ぶ)。 0.77
Such an implicit representation can be parameterized with a neural network and successfully trained with straightforward sampling strategies – uniform or even random querying of the implicit function is sufficient to reconstruct the unnormalized distribution and approximate the normalizing term. このような暗黙の表現はニューラルネットワークでパラメータ化することができ、単純なサンプリング戦略でうまく訓練される。暗黙の関数の均一なクエリやランダムなクエリは、正規化されていない分布を再構築し、正規化項を近似するのに十分である。
訳抜け防止モード: このような暗黙的な表現はニューラルネットワークでパラメータ化できる 簡単なサンプリング戦略でトレーニングに成功した – 暗黙の関数の統一的あるいはランダムなクエリだけで十分だ 非正規化分布を再構築し、正規化項を近似する。
0.75
For inference, in addition to reconstructing the full probability distribution we can combine the sampling strategy with gradient ascent to make pose predictions at arbitrary (continuous) resolution. 推論のために、完全な確率分布の再構成に加えて、サンプリング戦略と勾配上昇を組み合わせて任意の(連続)解像度でポーズ予測を行うことができる。 0.76
The use of a non-parametric distribution, while being simple, offers maximal expressivity for arbitrary densities and poses arising from symmetrical and near symmetrical 3D objects. 非パラメトリック分布の使用は単純であるが、任意の密度に対して最大表現性を提供し、対称および近対称の3Dオブジェクトから生じるポーズを与える。 0.76
The simplicity of our approach is in stark contrast to com- 私たちのアプローチの単純さはcomとは対照的です。 0.57
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Figure 1. We introduce a method to predict arbitrary distributions over the rotation manifold. 図1。 回転多様体上の任意の分布を予測する手法を提案する。 0.77
This is particularly useful for pose estimation of symmetric and nearly symmetric objects, since output distributions can include both uncertainty on the estimation and the symmetries of the object. これは、出力分布は、推定における不確実性と対象の対称性の両方を含むことができるため、対称オブジェクトとほぼ対称オブジェクトのポーズ推定に特に有用である。 0.76
a-top: The cube has 24 symmetries, which are represented by 24 points on SO(3), and all modes are correctly inferred by our model. a-top:立方体は24の対称性を持ち、so(3)上の24の点で表され、全てのモードはモデルによって正しく推測される。 0.75
a-bottom: The cylinder has a continuous symmetry around one axis, which traces a cycle on SO(3). a-ボトム(a-bottom):シリンダーは1軸まわりに連続した対称性を持ち、so(3) の周期をたどる。
訳抜け防止モード: a - ボトム シリンダーは1軸の周りの連続対称性を持ち、so(3) 上のサイクルをたどる。
0.80
It also has a discrete 2-fold symmetry (a “flip”), so the distribution is represented as two cycles. また、離散的な2倍対称性(フリップ)を持つので、分布は2つのサイクルとして表される。 0.77
The true pose distribution for the vase depicted on the left would trace a single cycle on SO(3) since it does not have a flip symmetry. 左に描かれた花瓶の真のポーズ分布は、フリップ対称性を持たないため、SO(3)上の1つのサイクルを辿る。 0.74
b: This cylinder has a mark that uniquely identifies its pose, when visible (top). b:このシリンダーには、そのポーズを独特に識別するマークがある(上図)。 0.78
When the mark is not visible (bottom), our model correctly distributes the probability over poses where the mark is invisible. マークが見えない場合(ボットトム)、我々のモデルは、マークが見えないポーズで確率を正しく分配します。 0.75
This example is analogous to a coffee cup when the handle is not visible. この例は、ハンドルが見えないときにコーヒーカップに似ている。 0.76
The resulting intricate distribution cannot be easily approximated with usual unimodal or mixture distributions on SO(3), but is easily handled by our IPDF model. 結果として得られる複雑な分布は、SO(3)上の通常の単調分布や混合分布と容易に近似することはできないが、我々のICPモデルで容易に扱うことができる。
訳抜け防止モード: 結果として生じる複雑な分布は、SO(3)上の通常の単調分布や混合分布と容易に近似できない。 IPDFモデルで簡単に処理できます。
0.78
Visualization: Points with non-negligible probability are displayed as dots on the sphere according to their first canonical axis, colored according to the rotation about that axis. 可視化:非無視確率の点は、その軸の回転に応じて色づけられた最初の正準軸に従って球面上の点として表示される。 0.72
The ground truth (used for evaluation only, not training) is shown as a solid outline. 基礎的真理(評価にのみ使用されるが、訓練には使われない)は堅実な輪郭として示される。 0.60
Refer to Section 3.5 for more details. 詳細は第3.5条を参照。 0.72
monly used parametric distributions on SO(3) that require complicated approximations for computing the normalizing term and further are not flexible enough to fit complex distributions accurately (Gilitschenski et al , 2019; Deng et al , 2020; Mohlin et al , 2020). 正規化項の計算に複雑な近似を必要とするSO(3)上の一意に使用されるパラメトリック分布は、複雑な分布に正確に適合するほど柔軟ではない(Gilitschenski et al , 2019; Deng et al , 2020; Mohlin et al , 2020)。 0.87
Our primary contributions are • Implicit-PDF, a novel approach for modeling nonparametric distributions on the rotation manifold. 私たちの主な貢献は • implicit-pdf 回転多様体上の非パラメトリック分布をモデリングするための新しいアプローチ。 0.76
Our implicit representation can be applied to realistic challenging pose estimation problems where uncertainty can arise from approximate or exact symmetries, selfocclusion, and noise. 我々の暗黙の表現は、近似的あるいは正確な対称性、自己閉塞、ノイズから不確実性が発生するような現実的な挑戦的なポーズ推定問題に適用できる。 0.53
We propose different sampling strategies which allow us to both efficiently reconstruct full distributions on SO(3) as well as generate multiple pose candidates with continuous precision. 我々は,SO(3)上の全分布を効率的に再構成し,連続的精度で複数のポーズ候補を生成することのできる異なるサンプリング戦略を提案する。 0.80
• SYMSOL, a new dataset with inherent ambiguities for analyzing pose estimation with uncertainty. • SYMSOLは、不確実性のあるポーズ推定を解析するための固有の曖昧性を持つ新しいデータセットである。 0.59
The dataset contains shapes with high order of symmetry, as well as nearly-symmetric shapes, that challenge probabilistic approaches to accurately learn complex pose distributions. データセットには高次対称性の形状とほぼ対称な形状が含まれており、複雑なポーズ分布を正確に学習するための確率論的アプローチに挑戦する。 0.73
When possible, objects are paired with their ground truth “symmetry maps”, which allows quantitative evaluation of predicted distributions. 可能な場合、オブジェクトは、予測された分布を定量的に評価する「対称性マップ」と組み合わせられる。 0.85
Our IPDF method is extensively evaluated on the new SYMSOL dataset as well as traditional pose estimation benchmarks. 提案手法は,新しいSYMSOLデータセットと従来のポーズ推定ベンチマークで広く評価されている。 0.76
To aid our analysis, we develop a novel visualization method for distributions on SO(3) that provides an intuitive 解析を支援するために,直感的なSO(3)上の分布を可視化する新しい手法を開発した。 0.81
way to qualitatively assess predicted distributions. 予測分布を定性的に評価する方法です 0.72
Through evaluation of predicted distributions and poses, we obtain a broad assessment of our method: IPDF is the only technique that can consistently accurately recover the complex pose uncertainty distributions arising from a high degree of symmetry or self-occlusion, while being supervised by only a single pose per example. ipdfは高次対称性や自己完結性から生じる複雑なポーズの不確かさ分布を、一例に1つのポーズのみによって監督されながら、一貫して正確に回復できる唯一の手法である。
訳抜け防止モード: 予測分布とポーズの評価を通じて,提案手法の広範な評価を行った。 : ipdfは,高次対称性や自己咬合から生じる複雑なポーズの不確かさ分布を一貫して回復できる唯一の手法である。 例の1つのポーズだけで監督されています
0.79
Further, while IPDF has the expressive power to model non-trivial distributions, it does not sacrifice in ability to predict poses in non-ambiguous situations and reaches state-of-the-art performance with the usual metrics on many categories of Pascal3D+ (Xiang et al , 2014) and ModelNet10-SO(3) (Liao et al , 2019). さらに、ipdfは非自明な分布をモデル化する表現力を持っているが、非曖昧な状況でポーズを予測する能力は犠牲にせず、pascal3d+(xiang et al , 2014)とmodelnet10-so(3)(lia o et al , 2019)の多くのカテゴリで通常の指標を用いて最先端のパフォーマンスを達成している。 0.68
2. Related work Symmetries are plentiful in our natural and human-made worlds, and so it is not surprising there is a history in computer vision of exploiting strong priors or assumptions on shape or texture symmetry to recover 3D structure from a single image (Poggio & Vetter, 1992; Hong et al , 2004; Rothwell et al , 1993). 2. 関連する研究は自然や人為的な世界において豊富であるため、単一の画像から3D構造を復元するために、形状やテクスチャ対称性に関する強い先入観や仮定を利用するコンピュータビジョンの歴史がある(Poggio & Vetter, 1992; Hong et al , 2004; Rothwell et al , 1993)。 0.83
However, among the more recent machine learning approaches for pose estimation, symmetries are treated as nuisances and strategies have been developed to utilize symmetry annotations at training. しかし、最近の機械学習によるポーズ推定手法では、対称性はニュアンスとして扱われ、トレーニングにおいて対称性アノテーションを利用するための戦略が開発されている。 0.63
With known symmetries at training, a canonical normalization of rotation space unambiguously resolves each set of equivalent rotations to a single one, allowing training to proceed as in single-valued regression (Pitteri et al , 2019). 訓練中の既知の対称性により、回転空間の標準正規化は、各同値な回転の集合を1つの回転に曖昧に解決し、訓練を単値回帰のように進めることができる(pitteri et al , 2019)。 0.71
In Corona et al コロナなどでは 0.40
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
(2018), manually annotated symmetries on 3D shapes are required to jointly learn image embedding and classification of the object’s symmetry order. (2018)3次元形状を手動でアノテートした対称性は、画像の埋め込みと物体の対称性秩序の分類を共同で学習するために必要である。 0.71
Learning representations that cover a few specific symmetry classes is considered in Saxena et al (2009). いくつかの特定の対称性クラスをカバーする学習表現は saxena et al (2009) で検討されている。 0.67
In contrast to these works, Sundermeyer et al (2019) make pose or symmetry supervision unnecessary by using a denoising autoencoder to isolate pose information. これらの作品とは対照的に、sundermeyer et al (2019) はポーズ情報を分離するために消音オートエンコーダを使用することでポーズや対称性の監督を不要にする。
訳抜け防止モード: これらの作品とは対照的に Sundermeyer et al (2019 ) は 不要なポーズまたは対称性の監督 自動エンコーダを使って ポーズ情報を分離する
0.66
Neither Sundermeyer et al (2019) nor Corona et al (2018) directly predict pose, and thus require comparing against many rendered images of the same exact object for pose inference. Sundermeyer et al (2019) もCorona et al (2018) も直接ポーズを予測せず、従って同じ正確なオブジェクトの多くのレンダリング画像と比較する必要がある。 0.67
In a similar vein, Okorn et al (2020) use a learned comparison against a dictionary of images to construct a histogram over poses. 同様の例では、Okorn et al (2020) は画像の辞書と比較し、ポーズ上のヒストグラムを構築する。
訳抜け防止モード: 類似の静脈では、Okorn et al (2020 ) は画像の辞書と比較して学習した比較を用いる ポーズの上にヒストグラムを作るのです
0.77
Deng et al (2019) propose a particle filter framework for 6D object pose tracking, where each particle represents a discrete distribution over SO(3) with 191K bins. deng et al (2019) は6次元物体ポーズ追跡のための粒子フィルタフレームワークを提案し、各粒子は191kビンのso(3)上の離散分布を表す。 0.82
Similar to the previously mentioned works, this discrete rotation likelihood is estimated by codebook matching and an autoencoder is trained to generate the codes. 前述のように、この離散回転確率はコードブックマッチングによって推定され、オートエンコーダがトレーニングされてコードを生成する。 0.78
As noted earlier, symmetries are not the only source of pose uncertainty. 先に述べたように、対称性はポーズの不確かさの唯一の源ではない。 0.54
Aiming to utilize more flexible representations, a recent direction of work has looked to directional statistics (Mardia & Jupp, 2000) to consider parameteric probability distributions. より柔軟な表現を活用するために、最近の研究の方向性は、パラメータ的確率分布を検討するために方向統計(Mardia & Jupp, 2000)に注目している。 0.69
Regression to the parameters of a von Mises distribution over (Euler) angles (Prokudin et al , 2018), as well as regression to the Bingham (Peretroukhin et al , 2020; Deng et al , 2020; Gilitschenski et al , 2019) and Matrix Fisher distributions (Mohlin et al , 2020) over SO(3) have been proposed. フォン・ミセス分布の(オイラー)角度への回帰(Prokudin et al , 2018)と、Bingham (Peretroukhin et al , 2020; Deng et al , 2020; Gilitschenski et al , 2019)およびMatrix Fisher distributions (Mohlin et al , 2020)のSO(3)への回帰(Peretroukhin et al , 2020; Deng et al , 2020; Gilitschenski et al , 2019)が提案されている。 0.73
Since it is preferable to train these probabilistic models with a likelihood loss, the distribution’s normalizing term must be computed, which is itself a challenge (it is a hypergeometric function of a matrix argument for Bingham and Matrix Fisher distributions). これらの確率モデルを潜在的な損失で訓練することが好ましいので、分布の正規化項は計算されなければならない(これはビンガムとマトリクス・フィッシャーの行列論の超幾何学的関数である)。 0.78
Gilitschenski et al (2019) and Deng et al (2020) approximate this function and gradient via interpolation in a lookup table, Mohlin et al (2020) use a hand-crafted approximation scheme to compute the gradient, and Peretroukhin et al (2020) simply forgo the likelihood loss. Gilitschenski et al (2019) と Deng et al (2020) は、ルックアップテーブルでの補間によるこの関数と勾配を近似し、Mohlin et al (2020) は勾配を計算するために手作りの近似スキームを使い、Peretroukhin et al (2020) は単に可能性損失を許す。 0.81
In the simplest setting these models are unimodal, and thus ill equipped to deal with non-trivial distributions. 最も単純な設定では、これらのモデルは単調であり、したがって非自明な分布を扱うことができない。 0.58
To this end, Prokudin et al (2018), Gilitschenski et al (2019), and Deng et al (2020) propose using multimodal mixture distributions. この目的のために、Prokudin et al (2018), Gilitschenski et al (2019), Deng et al (2020) はマルチモーダル混合分布を用いて提案する。 0.76
One challenge to training the mixtures is avoiding mode collapse, for which a winner-take-all strategy can be used (Deng et al , 2020). 混合の訓練の1つの課題はモード崩壊を回避し、勝者の戦略を利用できることである(Deng et al , 2020)。 0.81
An alternative to the mixture models is to directly predict multiple pose hypotheses (Manhardt et al , 2019), but this does not share any of the benefits of a probabilistic representation. 混合モデルに代わる方法として、複数のポーズ仮説を直接予測すること(manhardt et al , 2019)があるが、これは確率的表現の利点を一切共有していない。 0.77
Bayesian deep learning provides a general framework to reason about model uncertainty, and in Kendall & Cipolla (2016) test time dropout (Gal & Ghahramani, 2016) was used to approximate Bayesian inference for camera relo- ベイズ深層学習はモデルの不確かさを推論するための一般的なフレームワークであり、kendall & cipolla (2016) ではテストタイムドロップアウト(gal & ghahramani, 2016)がカメラレロのベイズ推定の近似に使用された。 0.69
calization. Inference with random dropout applied to the trained model is used to generate Monte Carlo pose samples, and thus this approach does not offer a way to estimate the density at arbitrary poses (sampling large numbers of poses would also be impractical). 石灰化 訓練されたモデルに適用されたランダムなドロップアウトによる推論はモンテカルロのポーズサンプルを生成するために使用され、したがってこのアプローチは任意のポーズで密度を推定する方法を提供しない(多数のポーズをサンプリングするのも現実的ではない)。 0.49
An alternative framework for representing arbitrary complex distributions is Normalizing Flows (Rezende & Mohamed, 2015). 任意の複素分布を表す別のフレームワークは正規化フロー(Rezende & Mohamed, 2015)である。 0.81
In principle, the reparameterization trick for Lie groups introduced in Falorsi et al (2019) allows for constructing flows to the Lie algebra of SO(3). 原則として、Falorsi et al (2019) で導入されたリー群の再パラメータ化トリックは、SO(3) のリー環へのフローを構成することができる。 0.61
Rezende et al (2020) develop normalizing flows for compact and connected differentiable manifolds, however it is still unclear how to effectively construct flows on non-Euclidean manifolds, and so far there has been little evidence of a successful application to realistic problems at the complexity of learning arbitrary distributions on SO(3). Rezende et al (2020) はコンパクトで連結な微分可能多様体に対する正規化フローを開発するが、非ユークリッド多様体上のフローを効果的に構築する方法は未だ不明であり、SO(3) 上の任意の分布を学習する複雑性において現実的な問題に成功する証拠はほとんどない。 0.80
The technical design choices of our implicit pose model are inspired by the very successful implicit shape (Mescheder et al , 2019) and scene (Mildenhall et al , 2020) representations, which can represent detailed geometry with a multilayer perceptron that takes low-dimensional position and/or directions as inputs. 暗黙のポーズモデルの技術的選択は、非常に成功した暗黙の形状(Mescheder et al , 2019)とシーン(Mildenhall et al , 2020)表現にインスパイアされ、低次元の位置と/または方向を入力とする多層パーセプトロンで詳細な幾何学を表現することができる。 0.73
We introduce the details of our approach next. 次に我々のアプローチの詳細を紹介する。 0.72
3. Methods The method centers upon a multilayer perceptron (MLP) which implicitly represents probability distributions over SO(3). 3. 方法 この方法は、SO(3)上の確率分布を暗黙的に表す多層パーセプトロン(MLP)を中心にしている。 0.79
The input to the MLP is a pair comprising a rotation and a visual representation of an image obtained using a standard feature extractor such as a residual network; the output is an unnormalized log probability. MLPへの入力は、残差ネットワークなどの標準特徴抽出器を用いて得られる画像の回転と視覚表現からなる対であり、出力は正規化されていないログ確率である。 0.84
Roughly speaking, we construct the distribution for a given image by populating the space of rotations with such queries, and then normalizing the probabilities. 大まかに言えば、そのようなクエリで回転空間をポピュレートし、確率を正規化することで、与えられた画像の分布を構築する。 0.66
This procedure is highly parallelizable and efficient (see Supp. この手順は高度に並列化可能で効率的である(Supp参照)。 0.60
for time ablations). In the following we provide details for the key ingredients of our method. 時間の短縮)。 以下、本手法の重要な成分について詳述する。 0.51
3.1. Formalism Our goal is, given an input x ∈ X (for example, an image), to obtain a conditional probability distribution p(·|x) : SO(3) (cid:55)→ R+, that represents the pose of x. 3.1. 形式主義 我々のゴールは、入力 x ∈ X (例えば、画像) が与えられたとき、x のポーズを表す条件確率分布 p(·|x) : SO(3) (cid:55) → R+ を得ることである。 0.80
We achieve this by training a neural network to estimate the unnormalized joint log probability function f : X × SO(3) (cid:55)→ R. Let α be the normalization term such that p(x, R) = α exp(f (x, R)), where p is the joint distribution. 非正規化ジョイントログ確率関数 f : x × so(3) (cid:55)→ r. α を正規化項とし、p をジョイント分布とする。
訳抜け防止モード: 我々は、非正規化ジョイントログ確率関数 f : x × so(3 ) ( cid:55)→ r を推定するためにニューラルネットワークを訓練することでこれを達成する。 r ) = α exp(f ( x, r ) ) である。 p はジョイント分布である。
0.73
The computation of α is infeasible, requiring integration over X . α の計算は不可能であり、X 上の積分を必要とする。 0.55
From the product rule, p(R|x) = p(x, R)/p(x). 積則から、p(R|x) = p(x, R)/p(x) となる。 0.84
We estimate p(x) by marginalizing over SO(3), and since SO(3) is low-dimensional, we approximate the integral with a dis- 我々は p(x) を SO(3) 上の辺化により推定し、SO(3) は低次元であるため、積分は dis- と近似する。 0.75
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
crete sum as follows, crete sum (複数形 crete sums) 0.41
p(x) = p(x, R) dR p(x) = p(x, R) dR 0.85
R∈SO(3) (cid:90) ルンソ(3) (cid:90) 0.69
= α ≈ α (cid:90) N(cid:88) = α ≈ α (cid:90)n(cid:88) 0.82
i R∈SO(3) exp(f (x, R)) dR 私は ルンソ(3) exp(f (x, R)) dR 0.66
exp(f (x, Ri))V, exp(f (x, Ri))V, 0.85
(1) where the {Ri} are centers of an equivolumetric partitioning of SO(3) with N partitions of volume V = π2/N. (1) ここで {Ri} は、体積 V = π2/N の N 分割を持つ SO(3) の等量分割の中心である。 0.83
(see Section 3.4 for details). (詳細は3.4節参照)。 0.78
Now α cancels out in the expression for p(R|x), giving α は p(R|x) の式でキャンセルされ、与えられる 0.78
p(R|x) ≈ 1 V p(R|x) = 1 V 0.90
exp(f (x, R)) i exp(f (x, Ri)) exp(f (x, R)) i exp(f (x, Ri)) 0.85
, (2) (cid:80)N , (2) (cid:80)n 0.83
where all the RHS terms are obtained from querying the neural network. ニューラルネットワークをクエリすることで、すべての RHS 用語が得られます。 0.65
During training, the model receives pairs of inputs x and corresponding ground truth R, and the objective is to maximize p(R|x). 訓練中、モデルは入力 x と対応する基底真理 R のペアを受け取り、目的は p(R|x) を最大化することである。 0.73
See Section 3.3 for details. 詳細は3.3項を参照。 0.60
Inference – single pose. To make a single pose prediction, we solve 単座 - 単座。 一つのポーズの予測をするために 0.50
R∗ x = arg max R∈SO(3) R∗ x = arg max R∂SO(3) 0.81
f (x, R), (3) f (x, R) (3) 0.78
with gradient ascent, since f is differentiable. 勾配の上昇で fは微分可能であるからです 0.56
The initial guess comes from evaluating a grid {Ri}. 最初の推測は、グリッド {Ri} を評価することから得られる。 0.63
Since the domain of this optimization problem is SO(3), we project the values back into the manifold after each gradient ascent step. この最適化問題の領域は SO(3) であるため、各勾配上昇ステップの後に値を多様体に投影する。 0.70
Inference – full distribution. 推測 - 完全な分布。 0.75
Alternatively, we may want to predict a full probability distribution. あるいは、完全な確率分布を予測したいかもしれない。 0.78
In this case p(Ri|x) is evaluated over the SO(3) equivolumetric partition {Ri}. この場合、p(Ri|x) は SO(3) 等量分割 {Ri} 上で評価される。 0.77
This representation allows us to reason about uncertainty and observe complex patterns of symmetries and nearsymmetries. この表現は不確かさを推論し、対称性と近似対称性の複雑なパターンを観察することができる。 0.62
Our method can estimate intricate distributions on the manifold without direct supervision of such distributions. これらの分布を直接監督することなく、多様体上の複雑な分布を推定できる。 0.68
By learning to maximize the likelihood of a single ground truth pose per object over a dataset, with no prior knowledge of each object’s symmetries, appropriate patterns expressing symmetries and uncertainty naturally emerge in our model’s outputs, as shown in Fig 1. データセット上の1つの基底的真理の確率を最大化するために学習することで、各対象の対称性に関する事前の知識なしに、モデルの出力に自然に対称性と不確実性を表す適切なパターンが出現する。 0.76
3.2. Network 3.2. ネットワーク 0.75
Inspired by recent breakthroughs in implicit shape and scene representations (Mescheder et al , 2019; Park et al , 2019; Sitzmann et al , 2019), we adopt a multilayer perceptron 暗黙の形状とシーン表現の最近のブレークスルー(Mescheder et al , 2019; Park et al , 2019; Sitzmann et al , 2019)に触発されて、我々は多層パーセプトロンを採用した。 0.80
(MLP) to implicitly represent the pose distribution. (MLP)はポーズ分布を暗黙的に表現する。 0.73
Differently from most implicit models, we train a single model to represent the pose of any instance of multiple categories, so an input descriptor (e g pre-trained CNN features for image inputs) is also fed to the MLP, which we produce with a pre-trained ResNet (He et al , 2015). ほとんどの暗黙的なモデルと異なり、複数のカテゴリの任意のインスタンスのポーズを表現するために単一のモデルをトレーニングしているので、入力記述子(例えば、画像入力のために事前訓練されたCNN機能)もMLPに供給され、事前訓練されたResNet(He et al , 2015)で生成します。 0.69
Most implicit representation methods for shapes and scenes take a position in Euclidean space and/or a viewing direction as inputs. 形状やシーンの暗黙的な表現法は、ユークリッド空間と/または観察方向を入力として位置づける。 0.64
In our case, we take an arbitrary 3D rotation, so we must revisit the longstanding question of how to represent rotations (Levinson et al , 2020). 我々の場合、任意の3次元回転を取るので、回転をどのように表現するかという長年の疑問を再考する必要がある(Levinson et al , 2020)。 0.72
We found it best to use a 3× 3 rotation matrix to avoid discontinuities present in other representations (Saxena et al , 2009). 他の表現に存在する不連続を避けるために、3×3回転行列を使うのが最善であることがわかった(saxena et al , 2009)。 0.65
Following Mildenhall et al (2020), we found positionally encoding each element of the input to be beneficial. Mildenhall et al (2020) に続いて、入力の各要素の位置的エンコーディングが有益であることが判明した。 0.71
See the supplement for ablative studies on these design choices. これらの設計選択に関する聖書研究の補足を参照。 0.65
3.3. Loss We train our model by minimizing the predicted negative log-likelihood of the (single) ground truth pose. 3.3. 損失 我々は、(単一)基底真理ポーズの予測された負の対数類似度を最小化し、モデルを訓練する。 0.64
This requires normalizing the output distribution, which we approximate by evaluating Eq (2) using the method described in Section 3.4 to obtain an equivolumetric grid over SO(3), in which case the normalization is straightforward. このためには出力分布の正規化が必要であり、第3.4節で記述された方法を用いてEq (2) を評価して、正規化が簡単な場合、SO(3) 上の等方格子を得る。 0.72
During training, we rotate the grid such that R0 coincides with the ground truth. 訓練中、R0が基底真理と一致するように格子を回転させる。 0.70
Then, we evaluate p(R0|x) as in Eq (2), and the loss is simply そして、p(R0|x) を Eq (2) で評価し、損失は単純である。 0.84
L(x, R0) = − log(p(R0|x)) L(x, R0) = − log(p(R0|x)) 0.94
(4) We noticed that the method is robust enough to be trained without an equivolumetric grid; evaluating Eq (2) for randomly sampled Ri ∈ SO(3), provided that one of them coincides with the ground truth, works similarly well. (4) この手法は等体積格子を使わずに訓練できるほど頑健であることに気付き、ランダムにサンプリングされた ri ∈ so(3) に対する eq (2) の評価は、その一方が基底真理と一致することを条件として、同様に機能する。 0.75
The equivolumetric partition is still required during inference for accurate representation of the probabilities. 等体積分割は、確率の正確な表現のための推論の間にも必要である。 0.53
3.4. Sampling the rotation manifold 3.4. 回転多様体のサンプリング 0.74
Training and producing an estimate of the most likely pose does not require precise normalization of the probabilities predicted by the network. 最も可能性の高いポーズのトレーニングと見積もりは、ネットワークによって予測される確率の正確な正規化を必要としない。
訳抜け防止モード: 最も可能性の高いポーズのトレーニングと生成 ネットワークによって予測される確率の正確な正規化は不要である。
0.76
However, when the distribution is the object of interest (e g an accurate distribution will be used in a downstream task), we can normalize by evaluating on a grid of points with equal volume in SO(3) and approximating the distribution as a histogram. しかし、分布が興味の対象である場合(例えば、下流タスクで正確な分布が使用される)、so(3)において同じ体積の点の格子上で評価し、分布をヒストグラムとして近似することで正規化することができる。 0.83
We employ a method of generating equivolumetric grids developed by Yershova et al (2010), which uses as its starting point the HEALPix method of generating equal area grids on the 2-sphere (Gorski et al , 2005). 我々は、Yershova et al (2010) によって開発された等量格子を生成する方法を用いて、その出発点として、2次元球面上の等面積格子を生成するHEALPix法(Gorski et al , 2005)を用いる。 0.73
A useful property of this sampling is that it is generated hierarchically, permitting multi-resolution sampling if desired. このサンプリングの便利な特性は階層的に生成され、必要に応じてマルチレゾリューションサンプリングが可能になることである。 0.57
The Hopf fibration is leveraged to cover SO(3) by threading a great circle through each point on the surface of a 2-sphere. ホップファイバーは、2次元球面上の各点を通して大円をスレッディングすることでso(3)を覆うために利用される。 0.75
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Figure 2. Equivolumetric grid on SO(3). 図2。 SO(3)上の平衡格子 0.65
In order to normalize the output distribution, we sample unnormalized densities on an equivolumetric grid following Yershova et al (2010). 出力分布を正規化するために、Yershova et al (2010) に続く等量格子上の非正規化密度をサンプリングする。 0.73
This iterative method starts with HEALPix (Gorski et al , 2005) which generates equal-area grids hierarchically on the sphere. この反復法はHEALPix (Gorski et al , 2005) から始まり、球面上の等距離格子を階層的に生成する。 0.67
Left: a grid with 576 samples, right: 4608 samples. 左: 576 サンプルのグリッド、右: 4608 サンプル。 0.64
The grids are generated recursively from a starting seed of 72 points, and grow by a factor of eight each iteration. グリッドは72点の開始シードから再帰的に生成され、各イテレーション毎に8倍に成長する。 0.69
Figure 2 shows grids after one and two subdivisions. 図 2 は 1 と 2 の分割の後にグリッドを示す。 0.66
For evaluation, we use the grid after 5 subdivisions, with a little more than two million points. 評価には5つの小区分の後にグリッドを使用し、200万以上のポイントを持つ。 0.65
3.5. Visualization We introduce a novel method to display distributions over SO(3). 3.5. 可視化 我々はSO(3)上の分布を表示する新しい方法を提案する。 0.70
A common approach to visualizing such distributions is via multiple marginal distributions, e g over each of the three canonical axes (Lee et al , 2008; Mohlin et al , 2020). このような分布を可視化するための一般的なアプローチは、例えば3つの正準軸のそれぞれ(lee et al , 2008; mohlin et al , 2020)上の複数の辺分布である。 0.78
This is in general incomplete as it is not able to fully specify the joint distribution. これは、ジョイント分布を完全に特定できないため、一般に不完全である。 0.75
In order to show the full joint distribution, we display the entire space of rotations with the help of the Hopf fibration. 完全なジョイント分布を示すために,ホップフィブリケーションの助けを借りて回転空間全体を表示する。 0.61
With this method, we project a great circle of points on SO(3) to each point on the 2-sphere, and then use the color wheel to indicate the location on the great circle. この方法を用いて, 2次元球面上の各点に対してso(3) 上の点の大円を投影し, カラーホイールを用いて大円上の位置を示す。 0.70
More intuitively, we may view each point on the 2-sphere as the direction of a canonical z-axis, and the color indicates the tilt angle about that axis. より直感的に、2次元球面上の各点を正準z軸の方向と見なすことができ、色はその軸の傾き角を示す。 0.76
To represent probability density, we vary the size of the points on the plot. 確率密度を表すために、プロット上の点のサイズが変化する。 0.63
Finally, we display the surface of the 2-sphere using the Mollweide projection. 最後に,Mollweideプロジェクションを用いて2次元球面を表示する。 0.64
As the method projects to a lower dimensional space, there are limitations arising from occlusions, but also a freedom in the projection axis which allows finding more or less informative views. この手法は低次元空間に投影されるため、オクルージョンから生じる制限があるが、射影軸における自由は、多かれ少なかれ情報的視点の発見を可能にする。 0.67
The visualization benefits from relatively sparse distributions where much of the space has negligible probability. 可視化は、空間の大部分が無視できる確率を持つ比較的スパースな分布の恩恵を受ける。 0.63
We did not find this to be limiting in practice: even the 60 modes of a distribution expressing icosahedral symmetry are readily resolved (Fig. これは実際には限定的なものとは見なされなかった: icosahedral symmetryを表す分布の60モードでさえ容易に解決される(図)。 0.75
3b). 3.6. 3b)であった。 3.6. 0.58
Evaluation metrics The appropriateness of different metrics depends on the nature of predictions (a probability distribution or a set of values) and on the state of knowledge of the ground truth. 評価指標 異なる指標の適切性は、予測(確率分布または値の集合)の性質と基底真理の知識の状態に依存する。
訳抜け防止モード: 評価指標 異なるメトリクスの適切性は、予測の性質(確率分布または値の集合)に依存する。 そして 根底にある真実の 知識の状況について。
0.74
Prediction as a distribution: Log likelihood In the most general perspective, ground truth annotations accompanying an image are observations from an unknown distri- 分布としての予測:最も一般的な視点では、画像に付随する根拠真理の注釈は未知のディトリからの観察である。
訳抜け防止モード: 分布としての予測 : 最も一般的な視点で 画像に付随する根拠真理の注釈は未知のディトリからの観察である
0.84
bution which incorporates symmetry, ambiguity, and human error involved in the process of annotation. アノテーションのプロセスに関わる対称性、あいまいさ、ヒューマンエラーを組み込んだbution。 0.59
The task of evaluation is a comparison between two distributions given samples from one, for which likelihood is standard (Goodfellow et al , 2014; Clauset et al , 2009; Okorn et al , 2020; Gilitschenski et al , 2019). 評価の課題は、1つのサンプルから与えられた2つの分布の比較であり、その確率は標準である(Goodfellow et al , 2014; Clauset et al , 2009; Okorn et al , 2020; Gilitschenski et al , 2019)。 0.87
We report the log likelihood averaged over test set annotations, Ex∼p(x),R∼pGT(R|x)[log p(R|x)]. テストセットアノテーションよりも平均化されたログの確率を報告します, Ex\p(x),R\pGT(R|x)[log p(R|x)]。 0.69
Importantly, the average log likelihood is invariant to whether one ground truth annotation is available or a set of all equivalent annotations. 重要なことは、平均ログの可能性は、1つの基底真理アノテーションが利用可能かどうか、または全ての等価アノテーションの集合であるかどうかに不変である。
訳抜け防止モード: 重要なのは 平均的な対数確率が 1つの根拠の真理のアノテーション、または、すべての同等のアノテーションのセットが利用可能です。
0.50
Prediction as a distribution: Spread When a complete set of equivalent ground truth values is known (e g a value for each equivalent rotation under symmetry), the expected angular deviation to any of the ground truth values is ER∼p(R|x)[minR(cid:48)∈{RGT} d(R, R(cid:48))] and d : SO(3) × SO(3) (cid:55)→ R+ is the geodesic distance between rotations. 分布としての予測: 等価基底真理値の完全な集合が知られている場合(例えば、対称性の下で各等価回転の値)、基底真理値のいずれにも期待される角偏差は ER\p(R|x)[minR(cid:48)~{RGT} d(R, R(cid:48))] と d : SO(3) × SO(3) (cid:55)→ R+ は回転間の測地距離である。 0.88
This measure has been referred to as the Mean Absolute Angular Deviation (MAAD) (Prokudin et al , 2018; Gilitschenski et al , 2019), and encapsulates both the deviation from the ground truths and the uncertainty around them. この尺度は、平均絶対角偏差(英語版)(maad) (prokudin et al , 2018; gilitschenski et al , 2019) と呼ばれ、基底真理からの偏差と周囲の不確実性の両方をカプセル化している。 0.67
Prediction as a finite set: precision The most common evaluation scenario in pose estimation tasks is a one-to-one comparison between a single-valued prediction and a ground truth annotation. 有限集合としての予測:精度 ポーズ推定タスクにおける最も一般的な評価シナリオは、単値予測と基底真理アノテーションの1対1の比較である。 0.77
However, in general, both the prediction and ground truth may be multi-valued, though often only one of the ground truths is available for evaluation. しかしながら、一般には、予測と基底真理の両方が多値であるが、しばしば基礎真理の一つのみが評価に利用できる。 0.78
To compensate, sometimes symmetries are implicitly imposed on the entire dataset by reporting flip-invariant metrics (Suwajanakorn et al , 2018; Esteves et al , 2019). 補うために、フリップ不変なメトリクスを報告することでデータセット全体に対称性が暗黙的に課されることがある(suwajanakorn et al , 2018; esteves et al , 2019)。
訳抜け防止モード: 補償する 時として、対称性はデータセット全体に暗黙的に課される。 reporting flip - invariant metrics (suwajanakorn et al, 2018 ; esteves et al, 2019)。
0.68
These metrics evaluate precision, where a prediction need only be close to one of the ground truths to score well. これらの指標は精度を評価し、予測は良いスコアを取るために基礎となる真理の1つにしか近づかない。 0.65
Usually, the median angular error and accuracy at some angular threshold θ are reported in this setting. 通常、ある角閾値θにおける中央角誤差と精度は、この設定で報告される。 0.74
Prediction as a finite set: recall We can also evaluate the coverage of multiple ground truths given multiple predictions, indicating recall. 有限集合としての予測:リコール 複数予測された複数の基底真理のカバレッジも評価でき、リコールを示す。 0.62
We employ a simple method of clustering by connected components to extract multiple predictions from an output distribution, and rank by probability mass, to return top-k recall metrics; median error and accuracy at θ are evaluated in this setting. 本稿では,接続されたコンポーネントによるクラスタリング手法を用いて,出力分布から複数の予測を抽出し,確率質量でランク付けし,トップkリコールの基準値を返す。
訳抜け防止モード: 出力分布から複数の予測を抽出するために,接続されたコンポーネントによる単純なクラスタリング手法を用いる。 確率質量でランク付けしてトップを返す - kリコールメトリクス この設定でθにおける中央値誤差と精度を評価する。
0.77
When k = 1 and the ground truth is unique, these coincide with the precision metrics. k = 1 で基底真理が一意であるとき、これらは精度指標と一致する。 0.76
See the supplement for extended discussion. さらなる議論のサプリメントをご覧ください。 0.66
4. Experiments 4.1. Datasets 4. 実験4.1。 データセット 0.73
To highlight the strengths of our method, we put it to the test on a range of challenging pose estimation datasets. 提案手法の強みを強調するために,様々な難易度評価データセットを用いてテストを行った。 0.67
First, we introduce a new dataset (SYMSOL I) of images rendered around simple symmetric solids. まず、単純な対称固体を囲む画像の新しいデータセット(SYMSOL I)を紹介する。 0.74
It includes images of platonic solids (tetrahedron, cube, icosahedron) and プラトニック固体(テトラエドロン、立方体、イコサヘドロン)の像とそれを含む。 0.70
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Figure 3. IPDF predicted distributions for SYMSOL. 図3。 IPDFはSYMSOLの分布を予測した。 0.70
(a) The cone has one great circle of equivalent orientations under symmetry. (a)円錐は、対称性の下で同値な向きを持つ一大円を有する。 0.65
(b) The 60 modes of icosahedral symmetry would be exceedingly difficult for a mixture density network based approach, but IPDF can get quite close (we omit the ground truths from the left and middle visualizations for clarity). b) 混合密度ネットワークに基づくアプローチでは,60モードの icosahedral symmetry は極めて困難であるが,ipdf はかなり近くなる可能性がある(左および中央の可視化から基礎的真理を省略して明快に表現する)。 0.88
(c) The marked tetrahedron (“tetX”) has one red face. c) マークされた四面体(tetx)は1つの赤い顔を持つ。 0.73
When it is visible, the 12-fold tetrahedral symmetry reduces to only three equivalent rotations. 可視であれば、12倍四面体対称性は3つの等価回転のみに還元される。 0.65
With less information about the location of the red face, more orientations are possible: 6 when two white faces are visible (middle) and 9 when only one white face is visible (right). 2つの白い顔が見える(中間)6つ、白い顔が1つだけ見える(右)9つである。
訳抜け防止モード: 赤面の位置に関する情報が少なくなると、より多くの配向が可能となる。 2つの白い顔が見える(中)と9のとき 白い顔が1つしか見えない場合(右)
0.78
(d) The orientation of the marked sphere (“sphereX”) is unambiguous when both markings are visible (left). (d)マークされた球面(「球面X」)の向きは、両方のマークが(左)見えるときに曖昧である。 0.74
When they are not (middle), all orientations with the markings on the hidden side of the sphere are possible. それらが(中間)でない場合、球面の隠れた側にマーキングのあるすべての向きが可能となる。 0.79
When only a portion of the markings are visible (right; inset is a magnification showing several pixels of the X are visible), the IPDF distribution captures the partial information. マーキングの一部だけが見える場合(初期はxの複数のピクセルが見える拡大である)、ipdfディストリビューションは部分的な情報をキャプチャする。
訳抜け防止モード: マーキングの一部しか見えない場合(右 ; inset は X のいくつかのピクセルが可視であることを示す倍率である) IPDFディストリビューションは部分的な情報をキャプチャする。
0.82
surfaces of revolution (cone, cylinder), with 100,000 renderings of each shape from poses sampled uniformly at random from SO(3). 回転面(円錐、シリンダー)は、so(3)からランダムにサンプリングされたポーズから各形状を10万個レンダリングする。 0.70
Each image is paired with its ground truth symmetries (the set of rotations of the source object that would not change the image), which are easily derived for these shapes. 各画像は基底的真理対称性(画像を変えないソースオブジェクトの回転の集合)と対になっていて、これらの形状に対して容易に導出される。 0.85
As would be the case in most practical situations, where symmetries are not known and/or only approximate, we use such annotations only for evaluation and not for training. ほとんどの実践的な状況では、対称性が知られていないり、あるいは近似していない場合のように、そのようなアノテーションは評価のためだけに、トレーニングのためだけに使用します。
訳抜け防止モード: ほとんどの現実的な状況では、対称性が知られていないか、あるいは近似していない。 このようなアノテーションは 評価のためだけに トレーニングのためではなく
0.63
Access to the full set of equivalent rotations opens new avenues of evaluating model performance rarely possible with pose estimation datasets. 等価回転の完全なセットへのアクセスは、ポーズ推定データセットで不可能なモデルパフォーマンスを評価する新たな方法を開く。 0.68
While the textureless solids generate a challenging variety of distributions, they can still be approximated with mixtures of simple unimodal distributions such as the Bingham (Deng et al , 2020; Gilitschenski et al , 2019). テクスチャレスな固体は様々な分布を生み出すが、ビンガム(deng et al , 2020; gilitschenski et al , 2019)のような単純なユニモーダル分布の混合物と近似することができる。 0.74
We go one step further and break the symmetry of objects by texturing with small markers (SYMSOL II). 我々はさらに一歩進んで、小さなマーカーでテキスト化することで物体の対称性を破る(SYMSOL II)。 0.68
When the marker is visible, the pose distribution is no longer ambiguous and collapses given the extra information. マーカーが見えるとき、ポーズの分布はもはや曖昧ではなく、余分な情報によって崩壊する。 0.62
When the marker is not visible, only a subspace of the symmetric rotations for the textureless shape are possible. マーカーが見えない場合は、テクスチャレス形状の対称回転の部分空間のみが可能である。 0.64
For example, consider a textureless sphere. 例えば、テクスチャのない球体を考える。 0.72
Its pose distribution is uniform – rotations will not change the input image. そのポーズ分布は均一であり、回転は入力画像を変えない。 0.76
Now suppose we mark this sphere with a small arrow. さて、この球体を小さな矢印でマークするとしよう。 0.71
If the arrow is visible, the pose distribution collapses to an impulse. 矢印が見えると、ポーズの分布はインパルスに崩壊する。 0.59
If the arrow is not visible, the distribution is no longer uniform, since about half of the space of possible rotations can now be eliminated. 矢印が見えなければ、その分布は一様ではなくなり、可能な回転の空間の約半分が排除される。 0.62
This distribution cannot be easily approximated by mixtures of unimodals. この分布はユニモダルの混合によって容易に近似できない。 0.77
SYMSOL II objects include a sphere marked with a small letter “X” capped with a dot to break flip symmetry when visible (sphX), a tetrahedron with one red and three white faces (tetX), and a cylinder marked with a small filled offcentered circle (cylO). SYMSOL II の物体は、ドットでキャップされた小さな文字 "X" で示される球体(sphX)、赤と白の面が1つ、白の面が3つある四面体(tetX)、そして小さな外心円(cylO)で示されるシリンダー(シリンダー)を含む。 0.80
We render 100,000 images for each. それぞれ10万枚の画像を作成します 0.57
The two SYMSOL datasets test expressiveness, but the solids are relatively simple and the dataset does not require generalization to unseen objects. 2つのSYMSOLデータセットは表現性をテストするが、ソリッドは比較的単純であり、データセットは見えないオブジェクトへの一般化を必要としない。 0.64
ModelNet10-SO(3) was introduced by Liao et al (2019) to study pose estimation on rendered images of CAD models from ModelNet10 (Wu et al , 2015). modelnet10-so(3)は、liao et al (2019) が modelnet10 (wu et al, 2015) からcadモデルのレンダリング画像におけるポーズ推定を研究するために導入した。 0.72
As in SYMSOL, the rotations of the objects cover all of SO(3) and therefore present a difficulty for methods that rely on particular rotation formats such as Euler angles (Liao et al , 2019; Prokudin et al , 2018). SYMSOL のように、物体の回転は SO(3) の全てをカバーするため、オイラー角など特定の回転形式に依存する手法では困難である(Liao et al , 2019; Prokudin et al , 2018)。 0.70
The Pascal3D+ dataset (Xiang et al , 2014) is a popular benchmark for pose estimation on real images, consisting Pascal3D+データセット(Xiang et al , 2014)は、実際の画像のポーズ推定のための人気のあるベンチマークである。 0.70
abcd abcd 0.85
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Table 1. Distribution estimation on SYMSOL I and II. 表1。 SYMSOL I, IIの分布推定 0.66
We report the average log likelihood on both parts of the SYMSOL dataset, as a measure for how well the multiple equivalent ground truth orientations are represented by the output distribution. 我々は,SYMSOLデータセットの両部分の平均ログ確率を,複数の等価基底真理方向が出力分布によってどれだけうまく表現されているかを示す尺度として報告する。 0.77
For reference, a minimally informative uniform distribution over SO(3) has an average log likelihood of -2.29. 参考までに、SO(3) 上の最小情報の均一分布は平均対数 -2.29 である。 0.78
IPDF’s expressivity allows it to more accurately represent the complicated pose distributions across all of the shapes. ipdfの表現性は、あらゆる形にまたがる複雑なポーズ分布をより正確に表現できる。
訳抜け防止モード: IPDFの表現力は許される 全ての形にまたがる複雑なポーズの分布をより正確に表現します
0.81
A separate model was trained for each shape for all baselines and for all of SYMSOL II, but only a single IPDF model was trained on all five shapes of SYMSOL I. 全ベースラインおよび全SYMSOL IIのそれぞれの形状について個別のモデルが訓練されたが、SYMSOL Iの5つの形状について単一のIPDFモデルのみが訓練された。 0.84
SYMSOL II (log likelihood ↑) tetX avg. SYMSOL II (log chance ?) tetX avg。 0.74
sphX cylO 2.57 1.12 3.70 3.32 0.48 −4.19 7.30 7.57 sphX cylO 2.57 1.12 3.70 3.32 0.48 −4.19 7.30 7.57 0.63
2.99 4.88 4.16 6.91 2.99 4.88 4.16 6.91 0.45
3.61 2.90 1.48 8.49 3.61 2.90 1.48 8.49 0.45
avg. −1.48 Deng et al (2020) Gilitschenski et al (2019) −0.43 Prokudin et al (2018) IPDF (Ours) avgだ −1.48 Deng et al (2020) Gilitschenski et al (2019) −0.43 Prokudin et al (2018) IPDF (Ours) 0.87
SYMSOL I (log likelihood ↑) cone cube cyl. SYMSOL I (log chance s) cone cube cyl. 0.79
0.16 −0.95 3.84 0.16 −0.95 3.84 0.43
tet. ico. 0.27 −4.44 −2.45 0.88 −2.29 −2.29 −2.29 −1.87 −3.34 −1.28 −1.86 −0.50 −2.39 1.28 4.10 テット icoだ 0.27 −4.44 −2.45 0.88 −2.29 −2.29 −2.29 −1.87 −3.34 −1.28 −1.86 −0.50 −2.39 1.28 4.10 0.48
4.45 4.81 4.26 4.45 4.81 4.26 0.59
5.70 of twelve categories of objects. 5.70 12のカテゴリーに分類できます 0.59
Though some of the categories contain instances with symmetries (e g bottle and table), the ground truth annotations have generally been disambiguated and restricted to subsets of SO(3). 圏のいくつかは対称性を持つ例(例えばボトルとテーブル)を含んでいるが、基底真理アノテーションは一般に曖昧でSO(3)の部分集合に制限されている。 0.67
This allows methods which regress to a single pose to perform competitively (Liao et al , 2019). これにより、1つのポーズに回帰する手法が競争力を発揮する(Liao et al , 2019)。 0.63
Nevertheless, the dataset is a challenging test on real images. それでも、データセットは実際のイメージでは難しいテストです。 0.70
Finally, we evaluate on T-LESS (Hodaˇn et al , 2017), consisting of texture-less industrial parts with various discrete and continuous approximate symmetries. 最後に,テクスチャレス産業部品と様々な離散的かつ連続的な近似対称性からなるT-LESSについて検討した。 0.76
As in Gilitschenski et al (2019), we use the Kinect RGB single-object images, tight-cropped and color-normalized. Gilitschenski et al (2019)のように、Kinect RGBのシングルオブジェクトイメージ、タイトクロッピング、カラー正規化を使用します。 0.71
Although the objects are nearly symmetric, their symmetry-breaking features are visible in most instances. オブジェクトはほぼ対称だが、その対称性を破る特徴はほとんどの例で見える。 0.79
Nonetheless, it serves as a useful benchmark to compare distribution metrics with Gilitschenski et al (2019). それでも、分布メトリクスを Gilitschenski et al (2019) と比較するのに有用なベンチマークとして機能する。 0.59
We find that IPDF proves competitive across the board. IPDFは全社的に競争力があることがわかりました。 0.63
4.2. Baselines 4.2. ベースライン 0.70
We compare to several recent works which parameterize distributions on SO(3) for the purpose of pose estimation. ポーズ推定のためにso(3)上の分布をパラメータ化する最近のいくつかの研究と比較する。 0.71
Gilitschenski et al (2019) and Deng et al (2020) output the parameters for mixtures of Bingham distributions and interpolate from a large lookup table to compute the normalization constant. Gilitschenski et al (2019) と Deng et al (2020) はビンガム分布の混合に対するパラメータを出力し、正規化定数を計算するために大きなルックアップテーブルから補間する。 0.82
Mohlin et al (2020) output the parameters for a unimodal matrix Fisher distribution and similarly employ an approximation scheme to compute the normalization constant. Mohlin et al (2020) は単調行列フィッシャー分布のパラメータを出力し、同様に正規化定数を計算する近似スキームを用いる。 0.80
Prokudin et al (2018) decompose SO(3) into the product of three independent distributions over Euler angles, with the capability for multimodality through an ‘infinite mixture’ approach. Prokudin et al (2018) は、SO(3) をオイラー角上の3つの独立分布の積に分解し、「無限混合」アプローチによる多重モジュラリティの能力を持つ。 0.80
Finally we compare to the spherical regression work of Liao et al (2019), which directly regresses to Euler angles, to highlight the comparative advantages of distribution-based methods. 最後に,分布に基づく手法の利点を強調するために,直接オイラー角度に回帰するliao et al(2019)の球面回帰手法との比較を行った。 0.83
We quote reported values and run publicly released code when values are unavailable. 報告された値を引用し、値が利用できないときに公開コードを実行します。 0.56
See Supplemental Material for additional details. 詳細は補足資料を参照。 0.49
Table 2. ModelNet10-SO(3) accuracy and median angle error. 表2。 ModelNet10-SO(3)精度と中央角度誤差。 0.75
Metrics are averaged over categories. メトリクスはカテゴリごとに平均化されます。 0.51
Our model can output pose candidates, so we also evaluate top-k metrics, which are more robust to the lack of symmetry annotations in this dataset. 提案モデルでは,提案する候補を出力できるため,このデータセットにおける対称性アノテーションの欠如に対してより堅牢なトップk指標も評価できる。 0.67
See Supplementary Material for the complete table with per-category metrics. カテゴリ毎のメトリクスを備えた完全なテーブルの補足資料を参照してください。 0.50
Acc@15°↑ Acc@30°↑ Med. Acc@15° ^ Acc@30° ^ Med 0.75
(◦) ↓ Liao et al (2019) Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) (◦) ↓ Liao et al (2019) Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (InfoQ) 0.84
IPDF (ours), top-2 IPDF (ours), top-4 IPDF (ours), top-2 IPDF (ours), top-4 0.98
0.496 0.562 0.456 0.693 0.719 0.496 0.562 0.456 0.693 0.719 0.44
0.868 0.904 0.868 0.904 0.50
0.658 0.694 0.528 0.757 0.735 0.658 0.694 0.528 0.757 0.735 0.44
0.888 0.926 0.888 0.926 0.50
28.7 32.6 49.3 17.1 21.5 28.7 32.6 49.3 17.1 21.5 0.44
4.9 4.8 4.3. 4.9 4.8 4.3. 0.61
SYMSOL I: symmetric solids シンソルi:対称固体 0.84
We report the average log likelihood in Table 1, and the gap between IPDF and the baselines is stark. 表1では, 平均ログ確率を報告し, IPDF とベースラインの差は小さくなっている。 0.75
The average log likelihood indicates how successful the prediction is at distributing probability mass around all of the ground truths. 平均ログ確率は、確率質量を全ての基底真理に分散させることで、その予測がどれほど成功したかを示す。
訳抜け防止モード: 平均的なログの確率は 予測は全ての根拠の真理に確率質量を分配することである。
0.80
The expressivity afforded by our method allows it to capture both the continuous and discrete symmetries present in the dataset. 提案手法によって得られた表現性により,データセット内の連続対称性と離散対称性の両方を捉えることができる。
訳抜け防止モード: この方法が与える表現力は データセットに存在する連続的および離散的対称性の両方をキャプチャする。
0.73
As the order of the symmetry increases from 12 for the tetrahedron, to 24 for the cube, and finally 60 for the icosahedron, the baselines struggle and tend to perform at same level as a minimally informative (uniform) distribution over SO(3). 対称性の順序が四面体では12位から立方体では24位に、イコサヘドロンでは最終的に60位に上昇すると、ベースラインはso(3)上の最小の情報的(一様)分布と同じレベルに収まる傾向がある。 0.76
The difference between IPDF and the baselines in Table 1 is further cemented by the fact that a single IPDF model was trained on all five shapes while the baselines were allowed a separate model per shape. IPDFと表1のベースラインの違いは、単一のICPモデルが5つの形状全てで訓練され、ベースラインは1つの形状ごとに別々のモデルが許されたという事実によってさらに強調される。
訳抜け防止モード: IPDFと表1のベースラインの違いは、単一のIPDFモデルが5つの形状全てで訓練されたという事実によってさらに強調される。 ベースラインは 形状ごとに別々に
0.82
Interestingly, while the winner-take-all strategy of Deng et al (2020) enabled training with more Bingham modes than Gilitschenski et al (2019), it seems to have hindered the ability to faithfully represent the continuous symmetries of the cone and cylinder, as suggested by the relative performance of these methods. 興味深いことに、Deng et al (2020) の勝敗戦略は Gilitschenski et al (2019) よりも多くのビンガムモードでの訓練を可能にしたが、これらの手法の相対的な性能から示唆されるように、円錐とシリンダーの連続した対称性を忠実に表現する能力を妨げていたようである。 0.67
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Table 3. Results on a standard pose estimation benchmark, Pascal3D+. 表3。 標準ポーズ推定ベンチマーク、pascal3d+の結果。 0.70
As is common, we show accuracy at 30◦ (top) and median error in degrees (bottom), for each category and also averaged over categories. 一般的なように,各カテゴリにおいて30度 (トップ) と中央値 (ボットトム) の誤差の精度を示し,またカテゴリの平均値も示している。 0.76
Our IPDF is at or near state-of-the-art on many categories. 当社のipdfは、多くのカテゴリで最先端のものです。 0.56
‡ The results for Liao et al (2019) and Mohlin et al (2020) differ from their published numbers. The results for Liao et al (2019) and Mohlin et al (2020) from their published numbers。 0.59
For Liao et al (2019), published errors are known to be incorrectly scaled by a 2 factor, and Mohlin et al (2020) evaluates on a non-standard test set. Liao et al (2019) について、公表された誤りは2因子によって誤ってスケールすることが知られ、Mohlin et al (2020) は非標準テストセットで評価する。 0.78
See Supplemental for details. √ 詳細は補足を参照。 √ 0.78
Acc@30°↑ Median error (◦) ↓ Acc@30°! メディアエラー(メディアエラー) 0.60
‡Liao et al (2019) ‡Mohlin et al (2020) Prokudin et al (2018) Tulsiani & Malik (2015) Mahendran et al (2018) IPDF (Ours) al (2019) al Mohlin et al (2020) Prokudin et al (2018) Tulsiani & Malik (2015) Mahendran et al (2018) IPDF (Ours) 0.76
‡Liao et al (2019) ‡Mohlin et al (2020) Prokudin et al (2018) Tulsiani & Malik (2015) Mahendran et al (2018) IPDF (Ours) al (2019) al Mohlin et al (2020) Prokudin et al (2018) Tulsiani & Malik (2015) Mahendran et al (2018) IPDF (Ours) 0.76
avg. 0.819 0.825 0.838 0.808 0.859 0.837 avgだ 0.819 0.825 0.838 0.808 0.859 0.837 0.61
13.0 11.5 12.2 13.6 10.1 10.3 13.0 11.5 12.2 13.6 10.1 10.3 0.43
aero 0.82 0.90 0.89 0.81 0.87 0.81 エアロ 0.82 0.90 0.89 0.81 0.87 0.81 0.52
13.0 10.1 9.7 13.8 8.5 10.8 13.0 10.1 9.7 13.8 8.5 10.8 0.43
bike 0.77 0.85 0.83 0.77 0.81 0.85 自転車 0.77 0.85 0.83 0.77 0.81 0.85 0.55
16.4 15.6 15.5 17.7 14.8 12.9 16.4 15.6 15.5 17.7 14.8 12.9 0.43
boat 0.55 0.57 0.46 0.59 0.64 0.56 ボート 0.55 0.57 0.46 0.59 0.64 0.56 0.58
29.1 24.3 45.6 21.3 20.5 23.4 29.1 24.3 45.6 21.3 20.5 23.4 0.43
bottle bus car chair table mbike 瓶 バス 車 椅子 table + mbike 0.75
0.93 0.94 0.96 0.93 0.96 0.93 0.93 0.94 0.96 0.93 0.96 0.93 0.43
10.3 7.8 5.4 12.9 7.0 8.8 10.3 7.8 5.4 12.9 7.0 8.8 0.43
0.95 0.95 0.93 0.98 0.97 0.95 0.95 0.95 0.93 0.98 0.97 0.95 0.43
4.8 3.3 2.9 5.8 3.1 3.4 4.8 3.3 2.9 5.8 3.1 3.4 0.43
0.94 0.96 0.90 0.89 0.95 0.94 0.94 0.96 0.90 0.89 0.95 0.94 0.43
6.8 5.3 4.5 9.1 5.1 5.3 6.8 5.3 4.5 9.1 5.1 5.3 0.43
0.85 0.78 0.80 0.80 0.92 0.87 0.85 0.78 0.80 0.80 0.92 0.87 0.43
11.6 13.5 13.1 14.8 9.3 10.0 11.6 13.5 13.1 14.8 9.3 10.0 0.43
0.61 0.62 0.76 0.62 0.67 0.78 0.61 0.62 0.76 0.62 0.67 0.78 0.43
12.0 12.5 12.6 15.2 11.3 7.3 12.0 12.5 12.6 15.2 11.3 7.3 0.43
0.80 0.87 0.90 0.88 0.85 0.85 0.80 0.87 0.90 0.88 0.85 0.85 0.43
17.1 12.9 11.8 14.7 14.2 13.6 17.1 12.9 11.8 14.7 14.2 13.6 0.43
sofa 0.95 0.85 0.90 0.82 0.97 0.88 ソファー 0.95 0.85 0.90 0.82 0.97 0.88 0.54
12.3 13.8 9.1 13.7 10.2 9.5 12.3 13.8 9.1 13.7 10.2 9.5 0.43
train tv 0.83 0.77 0.82 0.80 0.82 0.78 列車 テレビ 0.83 0.77 0.82 0.80 0.82 0.78 0.64
8.6 7.4 4.3 8.7 5.6 6.4 8.6 7.4 4.3 8.7 5.6 6.4 0.43
0.82 0.84 0.91 0.80 0.88 0.86 0.82 0.84 0.91 0.80 0.88 0.86 0.43
14.3 11.7 12.0 15.4 11.7 12.3 14.3 11.7 12.0 15.4 11.7 12.3 0.43
Figure 4. Bathtubs may have exact or approximate 2-fold symmetries around one or more axes. 図4。 バスタブは、1つまたは複数の軸の周りの正確なまたは近似2倍の対称性を持つ。 0.62
We show our predicted probabilities as solid disks, the ground truth as circles, and the predictions of Liao et al (2019) as crosses. 我々は、予測された確率を固体円盤、基底真理を円とし、liao et al (2019) を交差として予測する。 0.62
Our model assigns high probabilities to all symmetries, while the regression method ends up far from every symmetry mode (note the difference in position and color between circles and crosses). 我々のモデルはすべての対称性に高い確率を割り当て、回帰法はすべての対称性モードから遠く離れている(円と交差の位置と色の違いに注意)。 0.79
4.4. SYMSOL II: nearly-symmetric solids 4.4. SYMSOL II: ほぼ対称な固体 0.77
When trained on the solids with distinguishing features which are visible only from a subset of orientations, IPDF is far ahead of the baselines (Table 1). 向きのサブセットからのみ見える特徴を区別してsolid上でトレーニングすると、ipdfはベースライン(表1)よりもずっと先にある。 0.69
The prediction serves as a sort of ‘belief state’, with the flexibility of being unconstrained by a particular parameterization of the distribution. 予測は一種の「信頼できる状態」として機能し、分布の特定のパラメータ化によって拘束されない柔軟性がある。 0.77
The marked cylinder in the right half of Figure 1 displays this nicely. 図1の右半分のマーク付きシリンダーは、これをきれいに表示します。 0.69
When the red marking is visible, the pose is well defined from the image and the network outputs a sharp peak at the correct, unambiguous location. 赤いマーキングが見えれば、画像からポーズが明確に定義され、ネットワークは、正しい曖昧な場所で鋭いピークを出力する。
訳抜け防止モード: 赤いマークが見えたら ポーズはイメージから明確に定義されています そしてネットワークは、正しい、曖昧な場所で鋭いピークを出力する。
0.74
When the cylinder marking is not visible, there is irreducible ambiguity conveyed in the output with half of the full cylindrical symmetry shown in the left side of the figure. シリンダーマーキングが見えない場合は、図の左側に示す全円筒対称性の半分の出力で伝達される既約な曖昧さが存在する。 0.73
The pose distribution of the marked tetrahedron in Figure 3c takes a discrete form. 図3cのマークされた四面体のポーズ分布は離散形式を取る。 0.71
Depending on which faces are visible, a subset of the full 12-fold tetrahedral symmetry can be どの顔が見えるかによって、12倍の四面体対称性の完全な部分集合は
訳抜け防止モード: どの顔が見えるかによって 完全な12倍四面体対称性の部分集合は
0.78
ruled out. For example, with the one red face visible in the left subplot of Figure 3c, there is nothing to distinguish the three remaining faces, and the implicit distribution reflects this state with three modes. 除外された 例えば、図3cの左部分の1つの赤い顔は、残りの3つの顔と区別するものはなく、暗黙の分布はこの状態を3つのモードで反映する。 0.68
Figure 3d show the IPDF prediction for various views of the marked sphere. 図3dは、マークされた球面の様々なビューに対するPDF予測を示す。 0.66
When the marking is not visible at all (middle subplot), the half of SO(3) where the marking faces the camera can be ruled out; IPDF assigns zero probability to half of the space. マーキングが全く見えていない場合(中間部分プロット)、カメラが対向するSO(3)の半分は排除され、ICPは空間の半分にゼロ確率を割り当てる。 0.63
When only a portion of the marking is visible (right subplot), IPDF yields a nontrivial distribution with an intermediate level of ambiguity, capturing the partial information contained in the image. マーキングの一部だけが見える場合(右サブプロット)、ipdfは画像に含まれる部分情報をキャプチャし、中間レベルの曖昧さを持つ非自明な分布を生成する。 0.77
4.5. ModelNet10-SO(3) 4.5. ModelNet10-SO(3) 0.72
Unimodal methods perform poorly on categories with rotational symmetries such as bathtub, desk and table (see the supplementary material for complete per-category results). 一様法は、浴槽、机、テーブルなどの回転対称性を持つカテゴリでは不十分である(カテゴリーごとの結果の補足資料を参照)。 0.53
When trained with a single ground truth pose selected randomly from among multiple distinct rotations, these methods tend to split the difference and predict a rotation equidistant from all equivalent possibilities. 複数の異なる回転からランダムに選択された1つの基底真理で訓練された場合、これらの方法は差を分割し、全ての等価可能性から同値な回転を予測する傾向がある。 0.65
The most extreme example of this behavior is the bathtub category, which contains instances with approximate or exact twofold symmetry around one or more axes (see Fig 4). この挙動の最も極端な例は浴槽圏であり、これは1つ以上の軸に近似的あるいは正確な2倍対称性を持つ例を含む(図4参照)。 0.82
With two modes of symmetry separated by 180◦, the outputs tend to be 90◦ away from each mode. 2つの対称モードを180度に分けると、出力は各モードから90度離れる傾向がある。 0.84
We observe this behavior in Liao et al (2019); Mohlin et al (2020). We observed this behavior in Liao et al (2019), Mohlin et al (2020)。 0.75
Since our model can easily represent any kind of symmetry, it does not suffer from this problem, as illustrated in Fig. 我々のモデルはどんな対称性でも容易に表現できるので、図に示すようにこの問題に苦しむことはない。 0.80
4. The predicted distribution captures the symmetry of the object but returns only one of the possibilities during inference. 4. 予測された分布はオブジェクトの対称性を捉えるが、推論中にその可能性の1つだけを返す。 0.78
This is penalized by metrics that rely on a single ground truth, since picking the mode that is not annotated これは、アノテーションされていないモードを選択するため、単一の根拠の真理に依存するメトリクスによってペナルティされる。
訳抜け防止モード: これは、単一の根拠の真実に依存するメトリクスによって罰せられる。 注釈のないモードを選ぶと
0.63
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
constitute a variety of methods to tackle the pose estimation problem. ポーズ推定問題に取り組むための様々な方法を構成する。 0.74
The feat is remarkable given that our method was designed for maximal expressiveness and not for the singleprediction, single-ground truth scenario. 本手法は最大表現性のために設計されており, 単変量単座の真理シナリオのために設計されているわけではない。 0.54
IPDF performance in terms of median angular error, while good, overlooks the wealth of information contained in the full predicted distribution. 中央値角誤差の点ではipdfのパフォーマンスは良いが、予測された全分布に含まれる豊富な情報を見落としている。 0.68
Sample pose predictions are shown in Figure 5 and in the Supplemental; the distributions express uncertainty and category-level pose ambiguities. サンプルポーズ予測は図5および補題で示され、分布は不確実性やカテゴリーレベルのポーズのあいまいさを表す。 0.79
Table 4. Pose estimation on T-LESS. 表4。 T-LESSのポース推定 0.71
LL is the log-likelihood, spread is the mean angular error, and Med. ll は log-likelihood、スプレッドは平均角誤差、med は med である。 0.53
is the median angular error for single-valued predictions. 単値予測の中央値角誤差である。 0.69
Gilitschenski et al (2019) underestimate its evaluation of spread, disregarding the dispersion. Gilitschenski et al (2019) は拡散の評価を過小評価し、分散を無視した。 0.65
Spread (◦) ↓ Med. メド(Med) メド(Med)の略。 0.34
(◦) ↓ LL ↑ Deng et al (2020) Gilitschenski et al (2019) Prokudin et al (2018) Liao et al (2019) IPDF (Ours) (◦) ↓ LL! Deng et al (2020) Gilitschenski et al (2019) Prokudin et al (2018) Liao et al (2019) IPDF (Ours) 0.74
5.3 6.9 8.89.8 5.3 6.9 8.89.8 0.39
23.1 3.4 34.3 23.1 3.4 34.3 0.47
4.1 3.1 2.7 1.2 2.6 1.3 4.1 3.1 2.7 1.2 2.6 1.3 0.51
4.7. T-LESS 4.7. T-LESS 0.65
The results of Table 4, and specifically the success of the regression method of Liao et al (2019), show that approximate or exact symmetries are not an issue in the particular split of the T-LESS dataset used in Gilitschenski et al (2019). 表4の結果、特にLiao et al (2019) の回帰法の成功は、近似的あるいは正確な対称性が Gilitschenski et al (2019) で使用されるT-LESSデータセットの特定の分割における問題ではないことを示している。 0.78
All methods are able to achieve median angular errors of less than 4◦. すべての手法は、中央値の角誤差が 4 より小さいことを達成できる。 0.64
Among the methods which predict a probability distribution over pose, IPDF maximizes the average log likelihood and minimizes the spread, when correctly factoring in the uncertainty into the metric evaluation. ポーズ上の確率分布を予測する手法のうち、ipdfは平均ログ確率を最大化し、計量評価に不確かさを正しく分解するときに拡散を最小化する。 0.79
5. Conclusion In this work we have demonstrated the capacity of an implicit function to represent highly expressive, nonparametric distributions on the rotation manifold. 5. 結論 本研究では, 回転多様体上の高表現的非パラメトリック分布を表現するための暗黙的関数の容量を実証した。 0.82
It performs as well as or better than state-of-the-art parameterized distribution methods, on standard pose estimation benchmarks where the ground truth is a single pose. 基本真理が1つのポーズである標準的なポーズ推定ベンチマークにおいて、最先端のパラメータ化分布法と同等以上の性能を発揮する。 0.62
On the new and difficult SYMSOL dataset, the implicit method is far superior while being simple to implement as it does not require any onerous calculations of a normalization constant. 新しくて困難なSYMSOLデータセットでは、正規化定数の面倒な計算を必要としないため、暗黙的手法の方が実装が簡単であり、はるかに優れている。 0.70
Particularly, we show in SYMSOL II that our method can represent distributions that cannot be approximated well by current mixture-based models. 特にSYMSOL IIでは,現在の混合モデルでは近似できない分布を表現できることが示されている。 0.78
See the Supplementary Material for additional visualizations, ablation studies and timing evaluations, extended discussion about metrics, and implementation details. 追加の可視化、アブレーション研究、タイミング評価、メトリクスに関するさらなる議論、実装の詳細については補足資料を参照してください。 0.53
Figure 5. IPDF predicted distributions on Pascal3D+. 図5。 IPDFはPascal3D+の分布を予測した。 0.62
We display a sampling of IPDF pose predictions to highlight the richness of information contained in the full distribution output, as compared to a single pose estimate. 我々は,全分布出力に含まれる情報の豊かさを,単一のポーズ推定と比較するために,ICPのポーズ予測のサンプリングを表示する。 0.76
Uncertainty regions and multi-modal predictions are freely expressed, owing to the nonparametric nature of IPDF. 不確実領域とマルチモーダル予測は、ipdfの非パラメトリック性のために自由に表現される。 0.64
results in an 180◦ error, while picking the midpoint between two modes (which is far from both) results in a 90◦ error. 結果として180度エラーとなり、2つのモード間の中間点(どちらのモードもそう遠くない)を選択すると90度エラーとなる。 0.66
Since some bathtub instances have two-fold symmetries over more than one axis (like the top-right of Fig 4), our median error ends up closer to 180◦ when the symmetry annotation is incomplete, which in turn significantly increases the average over all categories. いくつかの浴槽のインスタンスは1つの軸(図4の右上など)に2倍の対称性を持つため、対称性のアノテーションが不完全である場合、我々の中央値誤差は、すべてのカテゴリの平均を著しく増加させる。 0.78
We observe the same for other multi-modal methods (Prokudin et al , 2018; Deng et al , 2020). 我々は、他のマルチモーダル手法(Prokudin et al , 2018; Deng et al , 2020)についても、同じことを観察する。 0.70
Our performance increases dramatically in the top-k evaluation even for k = 2 (see Table S4). k = 2 であっても、トップk 評価ではパフォーマンスが劇的に向上する(表 S4 参照)。 0.64
The ability to output pose candidates is an advantage of our model, and is not possible for direct regression (Liao et al , 2019) or unimodal methods (Mohlin et al , 2020). ポーズ候補を出力する能力は、我々のモデルに利点があり、直接回帰(Liao et al , 2019)やユニモーダル法(Mohlin et al , 2020)では不可能である。 0.72
While models based on mixtures of unimodal distributions could, in theory, produce pose candidates, their current implementations (Gilitschenski et al , 2019; Deng et al , 2020) suffer from mode collapse and are constrained to a fixed number of modes. 単調分布の混合に基づくモデルは、理論的にはポーズ候補を生成することができるが、現在の実装(Gilitschenski et al , 2019; Deng et al , 2020)はモード崩壊に悩まされ、一定の数のモードに制約される。 0.80
4.6. Pascal3D+ 4.6. Pascal3D+ 0.59
In contrast to the full coverage of SO(3) and the presence of symmetries and ambiguities in the SYMSOL and ModelNet10-SO(3) datasets, Pascal3D+ serves as a check that pose estimation performance in the unambiguous case is not sacrificed. so(3) の完全なカバレッジと symsol と modelnet10-so(3) データセットにおける対称性とあいまいさとは対照的に、pascal3d+ は曖昧なケースにおける推定性能を犠牲にしないチェックとして機能する。 0.72
In fact, as the results of Table 3 show, IPDF performs as well as or better than the baselines which 実際、表3の結果が示すように、ipdfはベースラインと同等かそれ以上の性能を発揮する。 0.74
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
References Ching, T., Himmelstein, D. S., Beaulieu-Jones, B. K., Kalinin, A. Ching, T., Himmelstein, D. S., Beaulieu-Jones, B. K., Kalinin, A。 0.91
A., Do, B. T., Way, G. P., Ferrero, E., Agapow, P.-M., Zietz, M., Hoffman, M. M., et al Opportunities and obstacles for deep learning in biology and medicine. A., Do, B. T., Way, G. P., Ferrero, E., Agapow, P.-M., Zietz, M., Hoffman, M. M., et al Opportunities and obstacles for Deep Learning in biological and Medicine。 0.91
Journal of The Royal Society Interface, 15 (141):20170387, 2018. journal of the royal society interface, 15 (141):20170387, 2018年。 0.79
Clauset, A., Shalizi, C. R., and Newman, M. E. Powerlaw distributions in empirical data. Clauset, A., Shalizi, C. R., and Newman, M. E. Powerlaw distributions in empirical data。 0.94
SIAM review, 51(4): 661–703, 2009. SIAM Review, 51(4): 661–703, 2009 0.85
Corona, E., Kundu, K., and Fidler, S. Pose Estimation for Objects with Rotational Symmetry. 回転対称性を持つ物体に対するCorona, E., Kundu, K. and Fidler, S. Pose Estimation 0.84
In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 2018年、IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS, pp。 0.86
7215–7222. 7215–7222. 0.71
IEEE, 2018. 2018年、IEEE。 0.52
The Astrophysical Journal, 622(2):759–771, Apr 2005. The Astrophysical Journal, 622(2):759–771, Apr 2005 0.92
ISSN 1538-4357. doi: 10.1086/427976. ISSN 1538-4357. doi: 10.1086/427976 0.61
URL http: //dx.doi.org/10.1086 /427976. URL http: //dx.doi.org/10.1086 /427976 0.41
Han, D., Kwong, T., and Li, S. Uncertainties in real-time flood forecasting with neural networks. Han, D., Kwong, T., Li, S. Uncertainties in real-time flood forecasting with neural network。 0.85
Hydrological Processes: An International Journal, 21(2):223–228, 2007. 水文処理:国際雑誌、21(2):223-228、2007年。 0.63
He, K., Zhang, X., Ren, S., and Sun, J. He, K., Zhang, X., Ren, S., and Sun, J。 0.82
Deep Residual Learning for Image Recognition. 画像認識のための深い残差学習 0.78
arXiv preprint arXiv:1512.03385, 2015. arXiv preprint arXiv:1512.03385, 2015 0.80
Hodaˇn, T., Haluza, P., Obdrˇz´alek, ˇS., Matas, J., Lourakis, M., and Zabulis, X. T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects. hodasn, t., haluza, p., obdríz ́alek, s., matas, j., lourakis, m., zabulis, x. t-less: テクスチャレスオブジェクトの6次元ポーズ推定のためのrgb-dデータセット。
訳抜け防止モード: Hoda'n, T., Haluza, P。 Matas, J., Lourakis, M. and Zabulis, X. T - LESS : A RGB - D Dataset for 6D Pose Estimation of Texture - less Objects
0.85
IEEE Winter Conference on Applications of Computer Vision (WACV), 2017. IEEE Winter Conference on Applications of Computer Vision (WACV) 2017 0.70
Deng, H., Bui, M., Navab, N., Guibas, L., Ilic, S., and Birdal, T. Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose Estimation. Deng, H., Bui, M., Navab, N., Guibas, L., Ilic, S., and Birdal, T. Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose Estimation。 0.84
arXiv preprint arXiv:2012.11002, 2020. arXiv preprint arXiv:2012.11002, 2020 0.81
Hong, W., Yang, A. Y., Huang, K., and Ma, Y. Hong, W., Yang, A. Y., Huang, K., Ma, Y. 0.84
On Symmetry and Multiple-View Geometry: Structure, Pose, and Calibration from a Single Image. 対称性とマルチビュー幾何:単一画像からの構造, 詩, 校正 0.65
International Journal of Computer Vision, 60(3):241–265, 2004. International Journal of Computer Vision, 60(3):241–265, 2004 0.91
Deng, X., Mousavian, A., Xiang, Y., Xia, F., Bretl, T., and Fox, D. PoseRBPF: A Rao-Blackwellized Particle Filter for 6D Object Pose Estimation. Deng, X., Mousavian, A., Xiang, Y., Xia, F., Bretl, T., Fox, D. PoseRBPF: A Rao-Blackwellized Particle Filter for 6D Object Pose Estimation。 0.89
In Proceedings of Robotics: Science and Systems, FreiburgimBreisgau, Germany, June 2019. doi: 10.15607/RSS.2019.XV .049. Proceedings of Robotics: Science and Systems, FreiburgimBreisgau, Germany, June 2019. doi: 10.15607/RSS.2019.XV .049 0.80
Esteves, C., Sud, A., Luo, Z., Daniilidis, K., and Makadia, A. Cross-Domain 3D Equivariant Image Embeddings. Esteves, C., Sud, A., Luo, Z., Daniilidis, K., and Makadia, A. Cross-Domain 3D Equivariant Image Embeddings 0.93
In International Conference on Machine Learning (ICML), 2019. International Conference on Machine Learning (ICML) 2019に参加。 0.80
Falorsi, L., de Haan, P., Davidson, T. R., and Forr´e, P. Reparameterizing Distributions on Lie Groups. Falorsi, L., de Haan, P., Davidson, T. R. and Forr ́e, P. Reparameterizing Distributions on Lie Groups。 0.95
In The 22nd International Conference on Artificial Intelligence and Statistics, pp. 第22回人工知能・統計国際会議に参加して 0.60
3244–3253. 3244–3253. 0.71
PMLR, 2019. 2019年、PMLR。 0.72
Gal, Y. and Ghahramani, Z. Gal, Y. and Ghahramani, Z 0.80
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. ベイズ近似としてのドロップアウト:ディープラーニングにおけるモデル不確かさの表現 0.61
In International Conference on Machine Learning (ICML), pp. The International Conference on Machine Learning (ICML), pp。 0.73
1050–1059. 1050–1059. 0.71
PMLR, 2016. 2016年、PMLR。 0.69
Gilitschenski, I., Sahoo, R., Schwarting, W., Amini, A., Karaman, S., and Rus, D. Deep Orientation Uncertainty Learning Based on a Bingham Loss. Gilitschenski, I., Sahoo, R., Schwarting, W., Amini, A., Karaman, S., and Rus, D. Deep Orientation Uncertainty Learning Based on a Bingham Loss。 0.86
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. goodfellow, i., pouget-abadie, j., mirza, m., xu, b., warde-farley, d., ozair, s., courville, a., and bengio, y. generative adversarial nets. 0.77
In Advances in Neural Information Processing Systems 27, pp. ニューラル情報処理システム27, pp。 0.46
2672–2680, 2014. 2672–2680, 2014. 0.84
Gorski, K. M., Hivon, E., Banday, A. J., Wandelt, B. D., Hansen, F. K., Reinecke, M., and Bartelmann, M. HEALPix: A Framework for High-Resolution Discretization and Fast Analysis of Data Distributed on the Sphere. gorski, k. m., hivon, e., banday, a. j., wandelt, b. d., hansen, f. k., reinecke, m., and bartelmann, m. healpix: a framework for high- resolution discretization and fast analysis of data distributed on the sphere (英語)
訳抜け防止モード: Gorski, K. M., Hivon, E., Banday, A. J. Wandelt, B. D., Hansen, F. K., Reinecke M., and Bartelmann, M. HEALPix : 高分解能離散化のためのフレームワーク Sphere上に分散したデータの高速解析
0.93
Kendall, A. and Cipolla, R. Modelling uncertainty in deep learning for camera relocalization. Kendall, A. and Cipolla, R. Modelling in Deep Learning for camera relocalization 0.74
In 2016 IEEE international conference on Robotics and Automation (ICRA), pp. 2016年、IEEE International Conference on Robotics and Automation (ICRA) に参加。 0.77
4762–4769. 4762–4769. 0.71
IEEE, 2016. 2016年、IEEE。 0.61
Lee, T., Leok, M., and McClamroch, N. H. Global symplectic uncertainty propagation on SO(3). Lee, T., Leok, M. and McClamroch, N. H. Global symplectic uncertainty propagation on SO(3) 0.86
In Proceedings of the 47th IEEE Conference on Decision and Control, CDC 2008, December 9-11, 2008, Canc´un, Mexico, pp. 第47回IEEE Conference on Decision and Control, CDC 2008 December 9-11, 2008 Canc ́un, Mexico, pp。 0.71
61–66, 2008. doi: 10.1109/CDC.2008.473 9058. 61-66, 2008年: 10.1109/CDC.2008.473 9058。 0.47
URL https: //doi.org/10.1109/CD C.2008.4739058. URL https: //doi.org/10.1109/CD C.2008.4739058 0.36
Leibig, C., Allken, V., Ayhan, M. S., Berens, P., and Wahl, S. Leveraging uncertainty information from deep neural networks for disease detection. Leibig, C., Allken, V., Ayhan, M. S., Berens, P., Wahl, S. Leveraging uncertainty information from Deep Neural Network for disease detection。 0.82
Scientific reports, 7(1): 1–14, 2017. 2017年7月7日:1-14日。 0.48
Levinson, J., Esteves, C., Chen, K., Snavely, N., Kanazawa, A., Rostamizadeh, A., and Makadia, A. Levinson, J., Esteves, C., Chen, K., Snavely, N., Kanazawa, A., Rostamizadeh, A., Makadia, A。 0.80
An Analysis of SVD for Deep Rotation Estimation. 深部回転推定のためのSVDの解析 0.71
In Advances in Neural Information Processing Systems 34, 2020. ニューラル情報処理システム34,2020の進歩 0.57
Liao, S., Gavves, E., and Snoek, C. G. M. Spherical Regression: Learning Viewpoints, Surface Normals and 3D Rotations on n-Spheres. Liao, S., Gavves, E., and Snoek, C. G. M. Spherical Regression: Learning Viewpoints, Surface Normals and 3D Rotations on n-Spheres 0.97
In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019で発表された。 0.90
Mahendran, S., Ali, H., and Vidal, R. A mixed classificationregression framework for 3d pose estimation from 2d images. Mahendran, S., Ali, H., Vidal, R. 2次元画像からの3次元ポーズ推定のための混合分類回帰フレームワーク。 0.81
The British Machine Vision Conference (BMVC), 2018. The British Machine Vision Conference (BMVC) 2018年。 0.79
Manhardt, F., Arroyo, D. M., Rupprecht, C., Busam, B., Birdal, T., Navab, N., and Tombari, F. Explaining the Ambiguity of Object Detection and 6D Pose From Visual Manhardt, F., Arroyo, D. M., Rupprecht, C., Busam, B., Birdal, T., Navab, N., Tombari, F. Explaining the Ambiguity of Object Detection and 6D Pose from Visual 0.89
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
In Proceedings of the IEEE/CVF International Data. In Proceedings of the IEEE/CVF International Data 0.87
Conference on Computer Vision (ICCV), October 2019. コンピュータビジョン会議(ICCV)、2019年10月。 0.75
Mardia, K. V. and Jupp, P. E. Directional Statistics. Mardia, K. V. and Jupp, P. E. Directional Statistics 0.94
John Wiley and Sons, LTD, London, 2000. ジョン Wiley and Sons, LTD, London, 2000 (英語) 0.78
McAllister, R., Gal, Y., Kendall, A., Van Der Wilk, M., Shah, A., Cipolla, R., and Weller, A. McAllister, R., Gal, Y., Kendall, A., Van Der Wilk, M., Shah, A., Cipolla, R., Weller, A。 0.81
Concrete problems for autonomous vehicle safety: Advantages of bayesian deep learning. 自動運転車の安全性に関する具体的な問題:ベイズ深層学習の利点 0.65
International Joint Conferences on Artificial Intelligence, Inc., 2017. International Joint Conferences on Artificial Intelligence, Inc., 2017 0.75
Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., and Geiger, A. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A。 0.77
Occupancy Networks: Learning 3D Reconstruction in Function Space. Occupancy Networks: 関数空間で3D再構成を学ぶ。 0.80
In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2019. IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2019。 0.76
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., and Ng, R. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R. and Ng, R. NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis。 0.90
In ECCV, 2020. 2020年、ECCV。 0.70
Mohlin, D., Bianchi, G., and Sullivan, J. Probabilistic Orientation Estimation with Matrix Fisher Distributions. マトリックス水産分布を用いたMohlin, D., Bianchi, G. and Sullivan, J. Probabilistic Orientation Estimation 0.79
In Advances in Neural Information Processing Systems 33, 2020. 2020年 神経情報処理システム33号の進歩です 0.66
Okorn, B., Xu, M., Hebert, M., and Held, D. Learning Orientation Distributions for Object Pose Estimation. Okorn, B., Xu, M., Hebert, M. and Held, D. Learning Orientation Distributions for Object Pose Estimation 0.82
In IEEE International Conference on Robotics and Automation (ICRA), 2020. IEEE International Conference on Robotics and Automation (ICRA)、2020年。 0.79
Park, J. J., Florence, P., Straub, J., Newcombe, R. A., and Lovegrove, S. Deepsdf: Learning continuous signed In IEEE distance functions for shape representation. Park, J. J., Florence, P., Straub, J., Newcombe, R. A., and Lovegrove, S. Deepsdf: 連続署名を学ぶ IEEE 距離関数で形状表現を行う。 0.91
Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, June 16-20, 2019, pp. Conference on Computer Vision and Pattern Recognition, CVPR 2019, Long Beach, CA, USA, June 16-20, 2019, pp. 0.92
165–174, 2019. doi: 10.1109/CVPR.2019.00 025. 165–174, 2019. doi: 10.1109/cvpr.2019.00 025 0.51
Peretroukhin, V., Giamou, M., Rosen, D. M., Greene, W. N., Roy, N., and Kelly, J. Peretroukhin, V., Giamou, M., Rosen, D. M., Greene, W. N., Roy, N., Kelly, J。 0.86
A Smooth Representation of SO(3) for Deep Rotation Learning with Uncertainty. 不確かさを伴う深部回転学習のためのSO(3)の平滑表現 0.74
In Proceedings of Robotics: Science and Systems (RSS), Jul. Proceedings of Robotics: Science and Systems (RSS), Jul 0.61
12–16 2020. 12–16 2020. 0.78
Pitteri, G., Ramamonjisoa, M., Ilic, S., and Lepetit, V. On Object Symmetries and 6D Pose Estimation from Images. Pitteri, G., Ramamonjisoa, M., Ilic, S. and Lepetit, V. On Object Symmetries and 6D Pose Estimation from Images 0.86
CoRR, abs/1908.07640, 2019. CoRR, abs/1908.07640, 2019 0.78
URL http://arxiv. url http://arxiv。 0.79
org/abs/1908.07640. org/abs/1908.07640。 0.37
Prokudin, S., Gehler, P., and Nowozin, S. Deep Directional Statistics: Pose Estimation with Uncertainty Quantification. Prokudin, S., Gehler, P., and Nowozin, S. Deep Directional Statistics: Pose Estimation with Uncertainty Quantification 0.81
In Proceedings of the European Conference on Computer Vision (ECCV), pp. in Proceedings of the European Conference on Computer Vision (ECCV), pp。 0.75
534–551, 2018. 534–551, 2018. 0.84
Rezende, D. and Mohamed, S. Variational Inference with Normalizing Flows. rezende, d. and mohamed, s. variational inference with normalizing flow. 0.85
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
1530–1538. 1530–1538. 0.71
PMLR, 2015. 2015年、PMLR。 0.70
Rezende, D. J., Papamakarios, G., Racaniere, S., Albergo, M., Kanwar, G., Shanahan, P., and Cranmer, K. Normalizing Flows on Tori and Spheres. Rezende, D. J., Papamakarios, G., Racaniere, S., Albergo, M., Kanwar, G., Shanahan, P., Cranmer, K. Normalizing Flows on Tori and Spheres。 0.86
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
8083–8092. 8083–8092. 0.71
PMLR, 2020. PMLR、2020年。 0.88
Rothwell, C., Forsyth, D. A., Zisserman, A., and Mundy, J. L. Extracting Projective Structure from Single Perspective Views of 3D Point Sets. Rothwell, C., Forsyth, D. A., Zisserman, A. and Mundy, J. L. Extracting Projective Structureing Single Perspectives of 3D Point Sets 0.86
In 1993 (4th) International Conference on Computer Vision, pp. 1993年(平成5年)、第4回コンピュータビジョン国際会議。 0.77
573–582. IEEE, 1993. 573–582. 1993年、IEEE。 0.71
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., et al ImageNet Large Scale Visual Recognition Challenge. Russakovsky, O., Deng, Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., et al ImageNet Large Scale Visual Recognition Challenge。 0.81
International Journal of Computer Vision, 115(3):211–252, 2015. International Journal of Computer Vision, 115(3):211–252, 2015 0.93
Saxena, A., Driemeyer, J., and Ng, A. Y. Saxena, A., Driemeyer, J., and Ng, A. Y。 0.89
Learning 3-D Object Orientation from Images. 画像から3次元オブジェクトを学習する。 0.71
In IEEE International Conference on Robotics and Automation (ICRA), 2009. 2009年、IEEE International Conference on Robotics and Automation(ICRA)に参加。 0.83
Sitzmann, V., Zollh¨ofer, M., and Wetzstein, G. Scene representation networks: Continuous 3d-structure-aware neural scene representations. Sitzmann, V., Zollh sofer, M., and Wetzstein, G. Scene representation network: Continuous 3d-structure-aware Neural scene representations。 0.85
In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pp. Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pp。 0.81
1119–1130, 2019. 1119–1130, 2019. 0.84
Sundermeyer, M., Marton, Z., Durner, M., Brucker, M., and Triebel, R. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images. Sundermeyer, M., Marton, Z., Durner, M., Brucker, M. and Triebel, R. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images。 0.91
CoRR, abs/1902.01275, 2019. CoRR, abs/1902.01275, 2019。 0.72
Suwajanakorn, S., Snavely, N., Tompson, J. J., and Norouzi, M. Discovery of Latent 3D Keypoints via End-to-end Geometric Reasoning. Suwajanakorn, S., Snavely, N., Tompson, J. J. and Norouzi, M. Discovery of Latent 3D Keypoints via End-to-end Geometric Reasoning。 0.92
In Advances in Neural Information Processing Systems (NIPS), pp. ニューラル情報処理システム(NIPS, pp。 0.45
2063–2074, 2018. 2063–2074, 2018. 0.84
Tulsiani, S. and Malik, J. Viewpoints and keypoints. Tulsiani, S. and Malik, J. Viewpoints and Keypoints 0.87
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2015年6月開催。 0.70
Poggio, T. and Vetter, T. Recognition and Structure from one 2D Model View: Observations on Prototypes, Object Classes and Symmetries. Poggio, T. and Vetter, T. Recognition and Structure from one 2D Model View: Observations on Prototypes, Object Classes and Symmetries 0.89
Technical report, MASSACHUSETTS INST OF TECH CAMBRIDGE ARTIFICIAL INTELLIGENCE LAB, 1992. 1992年(平成4年)技術系機械工学研究会報告 0.49
Wu, Z., Song, S., Khosla, A., Yu, F., Zhang, L., Tang, X., and Xiao, J. Wu, Z., Song, S., Khosla, A., Yu, F., Zhang, L., Tang, X., Xiao, J. 0.82
3D ShapeNets: A Deep Representation for Volumetric Shapes. 3D ShapeNets: ボリューム形状の詳細な表現。 0.79
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. IEEE Conference on Computer Vision and Pattern Recognition, pp。 0.55
1912–1920, 2015. 1912–1920, 2015. 0.84
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Xiang, Y., Mottaghi, R., and Savarese, S. Beyond PASCAL: A benchmark for 3D object detection in the wild. Xiang, Y., Mottaghi, R., and Savarese, S. Beyond PASCAL: 野生の3Dオブジェクト検出のためのベンチマーク。 0.83
In 2014 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 2014年、IEEE Winter Conference on Applications of Computer Vision (WACV) に参加。 0.75
75–82, March 2014. 75-82, 2014年3月。 0.55
Xiang, Y., Kim, W., Chen, W., Ji, J., Choy, C., Su, H., Mottaghi, R., Guibas, L., and Savarese, S. ObjectNet3D: A Large Scale Database for 3D Object Recognition. Xiang, Y., Kim, W., Chen, W., Ji, J., Choy, C., Su, H., Mottaghi, R., Guibas, L., and Savarese, S. ObjectNet3D: A Large Scale Database for 3D Object Recognition。 0.91
In European Conference Computer Vision (ECCV), 2016. European Conference Computer Vision (ECCV) 2016に登場。 0.76
Yershova, A., Jain, S., Lavalle, S. M., and Mitchell, J. C. Generating Uniform Incremental Grids on SO (3) Using the Hopf Fibration. Yershova, A., Jain, S., Lavalle, S. M. and Mitchell, J. C. Generating Uniform Incremental Grids on SO (3) using the Hopf Fibration。 0.90
The International journal of robotics research, 29(7):801–812, 2010. the international journal of robotics research, 29(7):801-812, 2010年。 0.84
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Supplemental Material for Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF の補助材料:回転多様体上の確率分布の非パラメトリック表現 0.85
S1. Additional IPDF predictions for objects from Pascal3D+ S1。 pascal3d+のオブジェクトに対する追加ipdf予測 0.70
Figure S1. Sample IPDF outputs on Pascal3D+ objects. 図 s1。 Pascal3D+オブジェクトのサンプルIPDF出力。 0.74
We visualize predictions by the IPDF model, trained on all twelve object categories, which yielded the results in Table 3 of the main text. IPDF モデルによる予測を可視化し,12 つの対象カテゴリすべてで学習し,本文表3 で結果を得た。 0.70
The ground truth rotations are displayed as the colored open circles. 基底真理回転は、有色開円として表示される。 0.69
In Figure S1 we show sample predictions from IPDF trained on the objects in Pascal3D+. 図s1では、pascal3d+のオブジェクトでトレーニングされたipdfからのサンプル予測を示します。 0.55
The network outputs much more information about the pose of the object in the image than can be expressed in a single estimate. ネットワークは、単一の推定で表現できるよりも、画像中のオブジェクトのポーズに関する情報をはるかに多く出力する。 0.77
Even in the examples where the distribution is unimodal, and the pose is relatively unambiguous, IPDF provides rich information about the uncertainty around the most likely pose. 分布がユニモーダルであり、姿勢が比較的曖昧である例でさえ、ipdfは、最も可能性の高いポーズに関する不確実性に関する豊富な情報を提供する。 0.59
The expressivity of IPDF allows it to express category-level symmetries, which appear as multiple modes in the distributions above. ipdfの表現性は、上述の分布において複数のモードとして現れるカテゴリレベルの対称性を表現することができる。
訳抜け防止モード: IPDFの表現力は 上述の分布に複数のモードとして現れるカテゴリ-レベル対称性を表現する。
0.86
The most stand-out example in Figure S1 is of the bicycle in the second row: the pose estimate of IPDF is incredibly uncertain, yet still there is information in the exclusion of certain regions of SO(3) which have been ‘ruled out’. 図 S1 の最も際立った例は、自転車の2列目である: IPDF のポーズ推定は驚くほど不確実であるが、それでも 'ruled out' されたSO(3) の特定の領域を除外する情報がある。 0.79
The expressivity of IPDF allows an unprecedented level of information to be contained in the predicted pose distributions. ipdfの表現性は、予測されたポーズ分布に前例のないレベルの情報を含むことができる。 0.71
S2. Extension of IPDF beyond SO(3) IPDF is not limited to probability distributions on SO(3), which nevertheless served as a challenging and practical testing ground for the method. S2。 IPDF を SO(3) を超えて拡張することは SO(3) 上の確率分布に限らないが、それでもこの手法の挑戦的で実用的な試験場として機能する。 0.77
With minor modifications, IPDF can be extended to the problem of pose with six degrees of freedom (6DOF): we append translation coordinates to the rotation query, and use 10× more samples during training to adequately わずかな修正により、ipdfは6自由度(6dof)のポーズ問題に拡張できる: ローテーションクエリに翻訳座標を追加し、トレーニング中に10倍以上のサンプルを使用して適切に使用します。 0.74
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
cover the full joint space. 全関節空間をカバーしろ 0.66
Normalizing the distributions is similarly straightforward, by querying over a product of Cartesian and HealPix-derived grids. 分布の正規化も同様に単純で、CartesianとHealPix由来のグリッドの製品に問い合わせる。 0.70
Predicted distributions on modified images of SYMSOL are shown in Figure S2. SYMSOLの修正画像上の予測分布を図S2に示す。 0.83
For two renderings of a cone from identical orientation but different translations, only the predicted distribution over translation differs between the two images. 同一方向から異なる翻訳から円錐の2つのレンダリングでは、2つの画像間で予測される変換上の分布のみが異なる。 0.76
Figure S2. Extension to 6DOF rotation+translation estimation. 図S2。 6DOF回転+翻訳推定の拡張 0.78
We train IPDF on a modified SYMSOL I dataset, where the objects are also translated in space. 我々は、修正されたSYMSOL IデータセットでIPDFをトレーニングし、そこではオブジェクトも空間で変換される。 0.64
Shown above are two images of a cone with the same orientation but shifted in space. 上の図は、同じ向きの円錐の2つの画像であるが、空間にシフトしている。 0.59
We query the network over the full joint space of translations and rotations, and visualize the marginal distributions. 翻訳と回転の完全なジョイント空間上でネットワークを照会し,限界分布を可視化する。 0.72
Each point in rotation space has a corresponding point in translation space, and we color them the same to indicate as such. 回転空間の各点が翻訳空間内の対応する点を持ち、それを示すように色分けする。 0.61
While uninformative in the above plots, this scheme of coloring allows nontrivial joint distributions to be expressed. 上記のプロットでは非形式的であるが、この色付けのスキームは非自明な関節分布を表現できる。 0.63
S3. SYMSOL spread evaluation, compared to multimodal Bingham S3。 マルチモーダルビンガムとの比較によるSYMSOL拡散評価 0.82
Table S1. Spread estimation on SYMSOL. 表S1。 SYMSOLのスプレッド推定 0.66
This metric evaluates how closely the probability mass is centered on any of the equivalent ground truths. この計量は、確率質量が同等の基底真理のいずれかにどれだけ近いかを評価する。 0.70
For this reason, we can only evaluate it on SYMSOL I, where all ground truths are known at test time. このため、全ての基底真理がテスト時に知られている symsol i 上でのみ評価することができる。 0.71
Values are in degrees. 価値はある程度ある。 0.49
cone cyl. tet. コーン シル テット 0.38
cube ico. Deng et al Ours 立方体 icoだ Deng et al Ours 0.76
10.1 1.4 15.2 1.4 10.1 1.4 15.2 1.4 0.50
16.7 4.6 40.7 4.0 16.7 4.6 40.7 4.0 0.50
29.5 8.4 We evaluate the spread metric on the SYMSOL I dataset, where the full set of ground truths is known at test time, for IPDF and the method of Deng et al (2020). 29.5 8.4 ipdf と deng et al (2020) の手法を用いて、テスト時に基底真理の完全な集合が知られている symsol i データセット上の拡散計量を評価する。 0.59
The results are shown in Table S1. 結果は表S1に示されます。 0.81
The metric values, in degrees, show how well the implicit method is able to home in on the ground truths. 計量値の度合いは、暗黙の手法が根底にある真実をいかにうまく表現できるかを示している。 0.63
For the cone and cylinder, the spread of probability mass away from the continuous rotational symmetry has a typical scale of just over one degree. 円錐とシリンダーに対して、連続回転対称性から離れた確率質量の拡散は、典型的に1度を超えるスケールを持つ。 0.77
The predicted distributions in Figure S3 for a tetrahedron and cone visually ground the values of Table S1. 四面体と円錐の図S3の予測分布は表S1の値を視覚的にグラウンドする。 0.70
Many of the individual unimodal Bingham components can be identified for the output distributions of Deng et al (2020), highlighting the difficulty covering the great circle of ground truth rotations for the cone with only a limited number of unimodal distributions (bottom). 個々の単調ビンガム成分の多くは、Deng et al (2020) の出力分布と同一視でき、単調分布(bottom)の限られた数しか持たない円錐の接地真理回転の大円をカバーすることの難しさを強調している。 0.71
The spread around the ground truths for both shapes is significantly larger and more diffuse than for IPDF, shown on the right. 両方の形に対する根拠の真理のまわりの広がりは、右に示すipdfよりもかなり大きく、より拡散している。 0.78
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Figure S3. Comparison of predicted distributions: tetrahedron and cone. 図S3。 予測分布の比較:四面体と円錐 0.79
We show predicted pose distributions for a tetrahedron (top) and cone (bottom). 四面体(トップ)と円錐(ボトム)のポーズ分布を予測した。 0.64
Displayed on the left is the method of Deng et al (2020), which outputs parameters for a mixture of Bingham distributions. 左側に表示されているのは deng et al (2020) 法であり、ビンガム分布の混合物のパラメータを出力する。 0.77
The right side shows IPDF. 右側にipdfがある。 0.65
The predicted distributions from the implicit method are much more densely concentrated around the ground truth, providing a visual grounding for the significant difference in the spread values of Table S1. 暗黙の手法から予測された分布は、地上の真理にはるかに集中しており、表S1の拡散値の有意差の視覚的基盤となっている。 0.74
S4. Computational cost We evaluate the computational cost of our method by measuring the time it takes to obtain the pose distribution for a single image, which corresponds to the frequency it could run on real time. S4。 計算コストを1つの画像のポーズ分布を得るのに要する時間を測定することで,提案手法の計算コストを評価する。
訳抜け防止モード: S4。 計算コスト 単一画像のポーズ分布を得るのに要する時間を測定することにより,提案手法の計算コストを評価する。 リアルタイムに動作可能な周波数に対応しています
0.84
The fair baseline here is the direct regression method of Liao et al (2019), using the same ResNet-50 backbone and the same size of MLP. ここでの公平なベースラインはliao et al(2019)の直接回帰法であり、同じresnet-50バックボーンとmlpと同じサイズを使用している。 0.69
The only difference is that while Liao et al (2019) only feeds the image descriptor to the MLP, our model concatenates the descriptor to a number of query poses from a grid. 唯一の違いは、liao et al (2019) がイメージディスクリプタを mlp にのみ供給するのに対して、我々のモデルは、ディスクリプタをグリッドからの多くのクエリポーズに結合する。 0.67
Table S2 shows the results. 表 S2 の結果を示す。 0.76
When using the coarser grid, the performance overhead is negligible with respect to the baseline. 粗いグリッドを使用する場合、性能オーバーヘッドはベースラインに対して無視される。 0.61
This grid has approximately 5◦ between nearest neighbors, which might be enough for some applications. この格子は、最寄りの近傍同士の約5分の1を持ち、いくつかの用途には十分である。 0.45
When increased accuracy is required, our model can use more samples, trading speed for accuracy. 精度を高める必要がある場合、我々のモデルはより多くのサンプルを使うことができる。 0.67
Note that the MLP operations are highly parallelizable on GPUs so the processing time grows slower than linear with the grid size. MLP演算はGPU上で高度に並列化可能であるので、処理時間はグリッドサイズで線形よりも遅い。 0.73
Table S2. Inference time evaluation. 表S2。 推論時間評価。 0.70
For our method, we measure the time needed to generate the normalized distribution over SO(3) given a single 224 × 224 image. 本研究では,so(3)上の正規化分布を224×224画像で生成するのに要する時間を測定する。 0.73
The number of samples correspond to the HEALPix-SO(3) grids of levels 3, 4, and 5, respectively. サンプルの数は、レベル3、レベル4、レベル5のHEALPix-SO(3)グリッドに対応している。 0.70
The coarser grid has an average distance of approximately 5◦ between nearest neighbors. 粗い格子は、近傍の隣人との平均距離が約5フィートである。 0.62
The processing time growth is slower than linear. 処理時間の成長は線形よりも遅い。 0.82
Method Number of samples Liao et al Ours Ours Ours 方法 サンプル数 Liaoとals Ours Ours Ours 0.73
- 37 k 295 k 2359 k - 37 k 295 k 2359 k 0.85
frames/s ↓ Acc@15°↑ Acc@30°↑ Med. フレームは Acc@15° の Acc@30° の Med。 0.65
(◦) ↓ 18.2 18.3 9.1 2.4 (◦) ↓ 18.2 18.3 9.1 2.4 0.65
0.522 0.717 0.723 0.723 0.522 0.717 0.723 0.723 0.45
0.652 0.735 0.738 0.738 0.652 0.735 0.738 0.738 0.45
38.2 25.1 17.6 18.7 38.2 25.1 17.6 18.7 0.45
S5. Ablations In Figure S4, we show the average log likelihood on the five shapes of SYMSOL I through ablations to various aspects of the method. S5。 アブレーション 図S4では,SYMSOL Iの5つの形状の平均ログ率は,手法の様々な側面へのアブレーションを通して示している。 0.78
The top row shows the dependence on the size of the dataset. トップ行はデータセットのサイズへの依存を示しています。 0.76
Performance levels off after 50,000 images per shape, but is greatly diminished for only 10,000 examples. パフォーマンスは1つの形につき5万枚の画像の後で低下するが、わずか1万枚の例で大幅に低下する。 0.41
Note almost all of the values for 10,000 images are less than the log likelihood of a uniform distribution over SO(3), − log A = −2 log π = −2.29, the ‘safest’ distribution to output if 1万枚の画像のほぼ全ての値は、SO(3), − log A = −2 log π = −2.29 上の均一分布の対数率よりも小さいことに注意してください。 0.68
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Figure S4. Ablative studies. 図S4。 アブレーション研究。 0.77
We report the average log likelihood for the shapes of SYMSOL I with various aspects of the method ablated. 本稿では,SYMSOL Iの形状に対する平均ログ可能性について報告する。 0.49
Error bars are the standard deviation over five networks trained with different random seeds. エラーバーは、異なるランダムシードで訓練された5つのネットワークの標準偏差である。 0.61
In the top row, we show the dependence on the size of the dataset, with performance leveling off after 50,000 images per shape. 一番上の行では、データセットのサイズに依存することを示し、パフォーマンスは1行あたり5万のイメージでレベルアップします。 0.57
The subsequent row varies the positional encoding, with 0 positional encoding terms corresponding to no positional encoding at all: the flattened rotation matrix is the query rotation. 続く行は位置エンコーディングに変化があり、0の位置エンコーディング用語は位置エンコーディングとは無関係である:平坦な回転行列はクエリローテーションである。 0.75
The third row examines the role of the rotation format when querying the MLP (before positional encoding is applied). 第3行は、MLPをクエリする際の回転形式の役割を調べる(位置エンコーディングが適用される前に)。 0.69
The final row shows that, during training, inexact normalization arising from the queries being randomly sampled over SO(3) leads to roughly equivalent performance as the proper normalization from using the equivolumetric grid as the query points. 最終行は、訓練中、SO(3)上でランダムにサンプリングされたクエリから生じる不正確な正規化が、クエリポイントとして同値グリッドを使用することから、適切な正規化とほぼ同等のパフォーマンスをもたらすことを示している。 0.54
Note that evaluation makes use of an equivolumetric grid in both cases, to calculate the log likelihood. 評価は両ケースで等体積格子を用いてログの確率を計算することに注意されたい。 0.74
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
training is unsuccessful. This indicates overfitting: with only one rotation for each training example, a minimal number of examples is needed to connect all the ground truths with each view of a shape. 訓練は失敗です トレーニングの例ごとに1つの回転しか持たない場合、すべての基底真理と形状のビューを結びつけるために、最小限の例が必要とされる。 0.66
The network becomes confident about the rotations it has seen paired with a particular view, and assigns small probability to the unseen ground truths, resulting in large negative log likelihood values. ネットワークは、ある特定のビューとペアリングされた回転に対して自信を持ち、認識できない基礎的真理に小さな確率を割り当て、大きな負の対数可能性値をもたらす。 0.70
The second row varies the positional encoding applied to the rotations when querying the MLP. 2番目の行は、MLPをクエリするときに回転に適用される位置エンコーディングを変える。 0.61
0 positional encoding terms corresponds to no positional encoding at all: the flattened rotation matrix is used as the query rotation. 0位置符号化項は位置符号化に全く対応しない: 平坦な回転行列はクエリ回転として用いられる。 0.80
The positional encoding benefits the three shapes with discrete symmetries and is neutral or even slightly negative for the cone and cylinder. 位置符号化は、離散対称性を持つ3つの形状に利点があり、円錐とシリンダーに対して中性またはわずかに負である。 0.62
Intended to facilitate the representation of high frequency features (Mildenhall et al , 2020), positional encoding helps capture the twelve modes of tetrahedral symmetry with two terms, whereas four are necessary for peak performance on the cube and icosahedron. 高周波特性の表現を容易にするため(mildenhall et al , 2020)、位置符号化は四面体対称性の12のモードを2項で捉えるのに役立つが、4つのモードは立方体とイコサヘドロンでのピーク性能に必要である。 0.72
For all shapes, including more positional encoding terms eventually degrades the performance. より位置エンコーディングの用語を含む全ての形状では、最終的には性能が低下する。 0.55
In the third row, we compare different formats for the query rotation, pre-positional encoding. 3行目では,クエリローテーションと前置エンコーディングの異なるフォーマットを比較した。 0.64
For all shapes, representing rotations as matrices is optimal, with axis-angle and quaternion formats comparable to each other and a fair amount worse. すべての形状に対して、回転を行列として表すのが最適であり、軸角と四元数形式は互いに同等であり、かなり悪い。
訳抜け防止モード: あらゆる形に。 回転を行列として表現する 軸 - 角度と四元数フォーマットが互いに匹敵する最適です さらに悪いことに
0.75
Representing rotations via Euler angles averages out near the log likelihood of a uniform distribution (−2.29), though with a large spread which indicates most but not all runs fail to train. オイラー角を通した回転の表現は、一様分布(−2.29)の対数確率付近で平均されるが、大きな展開は、全てのランが訓練に失敗することを意味する。
訳抜け防止モード: オイラー角による回転の表現 均一分布(−2.29 )の対数確率に近い平均 広範に広まっていますが ほとんどだが全ての走者が 訓練に失敗するわけではない
0.80
Finally, the fourth row examines the effect of normalization in the likelihood loss during training. 最後に、第4列は、訓練中の確率損失における正規化の効果を調べる。 0.64
Randomly sampling queries from SO(3) offers simplicity and freedom over the exact number of queries, but results in inexact normalization of the probability distribution. so(3)からランダムにクエリをサンプリングすることは、クエリの正確な数に対する単純さと自由度を提供するが、確率分布の正規化には不向きである。 0.64
During training, this leads to roughly equivalent performance as when an equivolumetric grid of queries is used, which can be exactly normalized. トレーニング中、これはクエリの均等なグリッドが使われる場合とほぼ同等のパフォーマンスをもたらすが、これは正確に正規化することができる。 0.62
Figure S5. The efficacy of gradient ascent on Pascal3D+. 図S5。 Pascal3D+に対する勾配上昇の効果 0.80
We report the average performance across classes on Pascal3D+, for the same IPDF model, using different means to extract a single-valued pose estimate. 我々は、pascal3d+ のクラスの平均パフォーマンスを同じ ipdf モデルで報告し、異なる方法を用いて単一値のポーズ推定値を抽出する。 0.71
The error bars are the standard deviation among random sampling attempts, and the curves are slightly offset horizontally for clarity. 誤差バーはランダムサンプリング試行における標準偏差であり、曲線は明瞭にするために水平にずれている。 0.81
In Figure S5 we show the efficacy of performing gradient ascent to extract the most likely pose from IPDF, given an image. 図 s5では、画像からipdfから最も可能性が高いポーズを抽出するために勾配上昇を行うことの有効性を示します。 0.65
The first way to find the rotation with maximal probability is by sampling from SO(3) and taking the argmax over the unnormalized outputs of IPDF. 最大確率で回転を見つける最初の方法は、so(3)からサンプリングし、ipdfの非正規化出力に対してargmaxを取ることである。 0.80
Predictably, finer resolution of the samples yields more accurate predictions, indicated by shrinking median angular error (left) and growing accuracy at 30◦ (right) averaged over the categories of Pascal3D+. 予想通り、サンプルのより詳細な分解能は、中央値の角誤差(左)を縮小し、パスカル3d+のカテゴリで平均30度(右)で精度を上げることによって、より正確な予測をもたらす。 0.54
The second way to produce an estimate leverages the fact that IPDF is fully differentiable. 見積もりを生成する2番目の方法は、PDFが完全に微分可能であるという事実を活用する。 0.49
We use the best guess from a sampling of queries as a starting value for gradient ascent on the output of IPDF. ipdfの出力に基づく勾配上昇の出発値として、クエリのサンプリングから最良の推測を用いる。 0.63
The space of valid rotations is embedded in a much larger query space, so we project the updated query back to SO(3) after every step of gradient ascent, and run it for 100 steps. 有効なローテーションの空間は、はるかに大きなクエリ空間に埋め込まれているので、更新されたクエリを勾配上昇のステップごとにso(3)に投影し、100ステップにわたって実行します。 0.71
The estimates returned by gradient ascent yield optimal performance for anything more than 10,000 queries, whereas argmax requires more than 500,000 queries for similar results. gradient ascentが返した見積は、10,000以上のクエリに対して最適なパフォーマンスを提供するが、argmaxは同様の結果を得るために50万以上のクエリを必要とする。 0.58
The difference between the argmax and gradient ascent is primarily in the median angular error (left): improvements of an estimate on the order of a degree would benefit this statistic more than the accuracy at 30◦. argmaxと勾配上昇の差は、主に中央の角誤差(左)にある: 次数に対する推定値の改善は、この統計学の正確性よりも30セントの値の方が有益である。 0.74
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
S6. Metrics for evaluation: extended discussion S6.1. S6。 評価基準:拡張議論 S6.1。 0.81
Prediction as a distribution: spread and average log likelihood 分布としての予測:スプレッドと平均ログ確率 0.90
Here we compare the metrics used in the main text on a simplified example in one dimension, where the ground truth consists of two values: {xGT} = ±1. ここで、1次元の単純化された例のメインテキストで使われるメトリクスを比較し、基底真理は2つの値からなる: {xgt} = ±1。 0.76
We evaluate the four distributions (P1, P2, P3, P4)) shown in Figure S6 which model the ground truth to varying degree. 基底真理を様々な程度にモデル化した図S6に示す4つの分布(P1,P2,P3,P4)を評価する。 0.80
Figure S6. Distributions modelling a scenario with multiple ground truths. 図S6。 シナリオを複数の基底真理でモデル化する分布。 0.81
P1 and P2 are mixtures of two normal distributions, with the components centered on the ground truths at x = ±1. P1 と P2 は2つの正規分布の混合であり、成分は x = ±1 の基底真理に集中している。 0.76
P3 is a normal distribution centered on only one of the two ground truths. P3 は2つの基底の真理の1つにのみ基づく正規分布である。 0.73
P4 is a uniform distribution over the interval [−2, 2]. P4 は区間 [−2, 2] 上の一様分布である。 0.83
Distribution Table S3. Distribution-based evaluation metrics from the main text. 分布 表S3。 主文からの分布に基づく評価指標。 0.77
Full GT at evaluation Partial GT at evaluation 評価における全GT 評価における部分GT 0.66
Spread ↓ Average log likelihood ↑ Spread > Average log chance > 0.39
Spread ↓ Average log likelihood ↑ Spread > Average log chance > 0.39
2 (N (−1, 0.12) + N (1, 0.12)) 2 (N (−1, 0.252) + N (1, 0.252)) 2 (−1, 0.12) + N (1, 0.12)) 2 (N (−1, 0.252) + N (1, 0.252)) 0.93
P1 = 1 P2 = 1 P3 = N (−1, 0.12) P4 = U(−2, 2) P1 = 1 P2 = 1 P3 = N (−1, 0.12) P4 = U(−2, 2) 0.87
0.08 0.20 0.08 0.50 0.08 0.20 0.08 0.50 0.45
0.69 −0.23 −98.62 −1.39 0.69 −0.23 −98.62 −1.39 0.37
1.04 1.10 1.04 1.25 1.04 1.10 1.04 1.25 0.45
0.69 −0.23 −98.62 −1.39 0.69 −0.23 −98.62 −1.39 0.37
The results for the spread and average log likelihood, defined in the main text, are shown in Table S3. 表 s3 に示すように、主文で定義されたスプレッドおよび平均ログラブルの結果を表 s3 に示す。 0.67
There are several takeaways from this simplified example. この単純化された例にはいくつかの点がある。 0.50
The spread, being the average over the ground truths of the minimum error, captures how well any of the ground truths are represented. スプレッドは、最小誤差の基底真理の平均値であり、基底真理がどれだけうまく表現されているかを捉えている。 0.70
By this metric, P1 and P3 are equivalent. この計量により、P1 と P3 は同値である。 0.66
When the full set of ground truths is not known at evaluation, the spread ceases to be meaningful. 基礎的真理の完全な集合が評価されていない場合、その拡散は意味をなさない。 0.62
The average log likelihood measures how well all ground truths are represented and is invariant to whether the full set of GTs is provided with each test example, or only a subset. 平均対数確率は、すべての基底真理がどれだけうまく表現され、GTの完全な集合がそれぞれのテスト例で提供されるか、あるいはサブセットのみを提供するかに不変である。 0.66
The latter is the predominant scenario for pose estimation datasets, where annotations are not provided for near or exact symmetries. 後者は、ほぼあるいは正確な対称性のためのアノテーションが提供されない、ポーズ推定データセットの主要なシナリオである。 0.66
This means only one ground truth is provided for each test example, out of possibly several equivalent values. これは、おそらく複数の等価値のうち、各テスト例に対して1つの根拠真理だけを提供することを意味する。 0.63
In Table S3, the average log likelihood ranks the distributions in the order one would expect, with the ‘ignorant’ uniform distribution (P4) performing slightly worse than P1 and P2, and with P3 severely penalized for failing to cover both of the ground truths. 表 S3 では、平均対数確率は、P1 と P2 よりわずかに劣る '無知' な均一分布 (P4) と、P3 は、両方の基底真理をカバーできないとして厳しい罰則を課している。
訳抜け防止モード: 表 S3 では、平均ログ確率は、期待する順に分布をランク付けする。 の均一分布 (P4 ) は P1 と P2 よりわずかに悪い。 そしてP3は、両方の真実をカバーできなかったために厳しい罰を受けた。
0.82
S6.2. Prediction as a finite set and unknown symmetries: top-k S6.2。 有限集合としての予測と未知対称性:トップk 0.64
For the case where only a single ground truth is available, despite potential symmetries, the log-likelihood metric is the only one that is still meaningful unchanged. 単一の基底真理しか得られない場合、潜在的な対称性にもかかわらず、対数類似度計量は、まだ有意義である唯一のものとなる。 0.70
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Precision and spread metrics are misleading because they penalize correct predictions that don’t have a corresponding annotation. 精度と拡散の指標は、対応するアノテーションを持たない正確な予測をペナルティ化するので誤解を招く。 0.76
Our solution is to drop the precision metric and split the distribution into different modes to compute the spreads, by finding connected components in probability distribution predicted. 提案手法は,確率分布における連結成分を見つけることで,分布を異なるモードに分割してスプレッドを計算することである。 0.79
The recall metrics are problematic when viewed independently of precision, since they can be easily optimized for by returning a large number of candidate poses covering the whole space. 空間全体をカバーする多数の候補ポーズを返すことで、容易に最適化できるため、正確性から独立して見れば、リコールメトリクスは問題となる。 0.66
Our solution here is to limit the number of output pose candidates to k, yielding metrics that we denote the top-k accuracy@15°, top-k accuracy@30°, and top-k error. ここでの解決策は、出力候補の数をkに制限し、トップk精度@15°、トップk精度@30°、トップkエラーを示すメトリクスを得ることです。 0.72
For example, the metrics reported by Liao et al (2019); Mohlin et al (2020) on ModelNet10-SO(3) are equivalent to our top-1. 例えば、Liao et al (2019), Mohlin et al (2020) が ModelNet10-SO(3) で報告した指標は、私たちのトップ1に相当します。 0.65
One issue with the top-k evaluation is that we cannot disentangle if errors are due to the dataset (lack of symmetry annotations), or due to the model. トップk評価の1つの問題は、エラーがデータセット(対称性アノテーションの欠如)によるものか、あるいはモデルによるものであるかを判断できないことである。 0.72
Since there is no way around it without expensive annotation, we find it useful to report the top-k for different k, including k = 1, where no model errors are forgiven. 高価なアノテーションなしでは回避できないので、モデルエラーが許されないk = 1を含む異なるkに対してトップkを報告するのに便利である。
訳抜け防止モード: 高価な注釈なしで回避する方法がない。 トップ - k を異なる k に対して報告するのに役立ちます。 k = 1 を含むと、モデルエラーは許されない。
0.72
Now, for each entry in the dataset, RGT is the single annotated ground truth, the top-k pose predictions are { ˆRi}1≤i≤k, and we have k normalized probability distributions corresponding to each of the top-k modes, {ˆpi}1≤i≤k. 現在、データセットの各エントリについて、RGT は単一の注釈付き基底真理であり、トップk のポーズ予測は { >Ri}1≤i≤k であり、各トップk モードに対応する k の正規化確率分布 {>pi}1≤i≤k を持つ。
訳抜け防止モード: さて、データセットの各エントリについて、RGTは単一の注釈付き基底真理である。 トップ - k のポーズ予測は { >Ri}1≤i≤k, そして k の正規化確率分布は、トップ - k モードのそれぞれに対応する。
0.76
The following equations describe the metrics, 以下の式はメトリクスを記述する。 0.68
(cid:20) (cid:110) (cid:40)(cid:90) (cid:20) (cid:110)(cid:40)(ci d:90) 0.75
(cid:111) (cid:21) (cid:111) (cid:21) 0.78
< α , (cid:41) < α , (cid:41) 0.83
top-k accuracy@α = top-k accuracy@α = 0.88
min 1≤j≤k d(RGT , ˆRj) min 1≤j≤k d(RGT, >Rj) 0.70
top-k error = min 1≤j≤k top-k error = min 1servletjhtmlk 0.67
top-k spread = min 1≤j≤k top-k spread = min 1servletjhtmlk 0.69
d(RGT , ˆRj), d(RGT , >Rj) 0.73
ˆpj(R)d(R, RGT ) dR ~pj(R)d(R, RGT ) dR 0.90
. SO(3) (5) . SO(3) (5) 0.85
(6) (7) Typically, accuracy and spread are averaged over the whole dataset, while the median error over all entries is reported. (6) (7) 通常、精度と拡散はデータセット全体に平均化され、全てのエントリに対する中央値エラーが報告される。 0.82
S7. ModelNet10-SO(3) detailed results Table S4 extends the ModelNet10-SO(3) table in the main paper and shows per-category metrics. S7。 modelnet10-so(3) 詳細な結果表 s4 は modelnet10-so(3) テーブルをメインペーパーに拡張し、カテゴリごとのメトリクスを示す。 0.75
Since our model predicts a full distribution of rotations, we find the modes of this distribution, by first thresholding by density and then assigning to the same mode any two points that are closer than a second threshold. 我々のモデルは回転の完全な分布を予測するので、この分布のモードは、まず密度による閾値付けを行い、次に第2しきい値よりも近い2点を同じモードに割り当てる。 0.87
This method outputs a variable number of modes for each input, as opposed to methods based on mixtures of unimodal distributions (Gilitschenski et al , 2019; Deng et al , 2020), where the number of modes is a fixed hyperparameter. この方法は、モード数が固定ハイパーパラメータであるユニモーダル分布(gilitschenski et al , 2019; deng et al , 2020)の混合に基づく手法とは対照的に、入力毎に可変数のモードを出力する。 0.77
We then rank the modes by their total probability mass, assign their most likely pose as the mode center, and return the top-k centers for a given k. The evaluation takes the minimum error over the list of candidates, as described in Section S6.2. 次に、モードをその全確率質量でランク付けし、最も可能性が高いポーズをモードセンタとして割り当て、与えられたkに対してトップkセンターを返す。
訳抜け防止モード: 次に、モードをその全確率質量でランク付けし、最も可能性の高いポーズをモード中心に割り当てる。 評価は、候補リストに対する最小エラーを取ります。 セクションS6.2に記載されている。
0.70
This kind of top-k evaluation is common practice for image classification tasks like ImageNet (Russakovsky et al , 2015). この種のトップk評価は、ImageNet(Russakovsky et al , 2015)のような画像分類タスクの一般的なプラクティスである。 0.73
As expected, all metrics improve by increasing k, but the symmetric categories, where the single ground-truth evaluation is inappropriate, improve dramatically, suggesting that the lower top-1 performance can indeed be attributed to the lack of symmetry annotations for evaluation and is not a limitation of our model. 予想通り、すべての指標は k の増加によって改善されるが、単一の基底構造評価が不適切である対称圏は劇的に改善され、低いトップ-1 性能は実際、評価のための対称性アノテーションの欠如によるものであり、我々のモデルの制限ではないことが示唆された。 0.69
S8. Implementation specifics We train with the Adam optimizer (β1 = 0.9, β2 = 0.999) with a linear warm up to the base learning rate of 10−4 over 1000 steps, and then cosine decay to zero over the remainder of training. S8。 我々はadamオプティマイザ(β1 = 0.9, β2 = 0.999)で訓練を行い、1000ステップ以上ベース学習率10−4まで直線ウォームし、残りのトレーニングでコサインがゼロに崩壊する。 0.78
Efficient implementation The input to the MLP is a concatenation of the image descriptor produced by a CNN and a query pose. 効率的な実装 MLPへの入力は、CNNによって生成された画像記述子とクエリポーズの結合である。 0.71
During both training and inference, we evaluate densities for a large number of poses per image. トレーニングと推論の両方において、画像毎に多数のポーズの密度を評価する。 0.59
A naive implementation would replicate and tile image descriptors {di}0≤i<NB and pose queries {qj}0≤j<NQ, where NB is the mini-batch size and NQ is the number of pose queries, and evaluate the first fully connected operation with weights W (before applying bias and nonlinearity) in a batched fashion, as follows, NB はミニバッチサイズ、NQ はポーズクエリの数、NQ はポーズクエリの数であり、バッチ方式でウェイト W (バイアスと非線形性を適用する前に) で最初の完全に接続された操作を評価する。
訳抜け防止モード: ナイーブな実装は複製され、タイル画像記述子 { di}0≤i < NB qj}0≤j < NQ, ここでは NB は mini - バッチサイズと NQ ポーズクエリの数であり、以下のバッチ方式でウェイトW(バイアスと非線形性を適用する前に)で最初に完全に接続された操作を評価する。
0.81
(cid:34) (cid:35) (cid:34) (cid:35) 0.78
W d1 q1 d1 q2 W d1 q1 d1 q2 0.75
d1 q3 ··· d2 ··· q1 d1 q3 ···d2····q1 0.57
d2 q2 d2 q3 d2 q2 d2 q3 0.71
··· ··· . (8) ··· ··· . (8) 0.73
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Acc@15° Acc@30° Acc@15° Acc@30° 0.94
Median Error (◦) median (複数形 medians) 0.62
avg. bathtub bed avgだ 浴槽 ベッド 0.72
chair desk dresser 椅子 机 ドレッサー 0.58
tv n. stand テレビ n.スタンド 0.72
sofa table toilet ソファー テーブル トイレ 0.71
Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) 0.85
IPDF (ours), top-2 IPDF (ours), top-4 IPDF (ours), top-2 IPDF (ours), top-4 0.98
Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) 0.85
IPDF (ours), top-2 IPDF (ours), top-4 IPDF (ours), top-2 IPDF (ours), top-4 0.98
Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) Deng et al (2020) Prokudin et al (2018) Mohlin et al (2020) IPDF (ours) 0.85
IPDF (ours), top-2 IPDF (ours), top-4 IPDF (ours), top-2 IPDF (ours), top-4 0.98
0.562 0.456 0.693 0.719 0.562 0.456 0.693 0.719 0.45
0.868 0.904 0.868 0.904 0.50
0.694 0.528 0.757 0.735 0.694 0.528 0.757 0.735 0.45
0.888 0.926 0.888 0.926 0.50
32.6 49.3 17.1 21.5 32.6 49.3 17.1 21.5 0.45
4.9 4.8 0.140 0.114 0.322 0.392 4.9 4.8 0.140 0.114 0.322 0.392 0.48
0.735 0.806 0.735 0.806 0.50
0.325 0.175 0.403 0.410 0.325 0.175 0.403 0.410 0.45
0.770 0.846 0.770 0.846 0.50
147.8 122.8 89.1 161.0 147.8 122.8 89.1 161.0 0.45
6.8 6.0 0.788 0.822 0.882 0.877 6.8 6.0 0.788 0.822 0.882 0.877 0.48
0.946 0.966 0.946 0.966 0.50
0.880 0.847 0.908 0.883 0.880 0.847 0.908 0.883 0.45
0.953 0.973 0.953 0.973 0.50
9.2 3.6 4.4 4.4 9.2 3.6 4.4 4.4 0.45
4.1 4.1 0.800 0.662 0.881 0.874 4.1 4.1 0.800 0.662 0.881 0.874 0.48
0.900 0.905 0.900 0.905 0.50
0.908 0.777 0.935 0.917 0.908 0.777 0.935 0.917 0.45
0.946 0.953 0.946 0.953 0.50
8.3 9.6 5.2 5.5 8.3 9.6 5.2 5.5 0.45
5.5 5.4 0.345 0.023 0.536 0.615 5.5 5.4 0.345 0.023 0.536 0.615 0.48
0.803 0.862 0.803 0.862 0.50
0.556 0.061 0.674 0.629 0.556 0.061 0.674 0.629 0.45
0.825 0.889 0.825 0.889 0.50
25.0 117.2 13.0 7.1 25.0 117.2 13.0 7.1 0.45
5.3 5.1 0.563 0.406 0.682 0.687 5.3 5.1 0.563 0.406 0.682 0.687 0.48
0.810 0.870 0.810 0.870 0.50
0.649 0.500 0.739 0.688 0.649 0.500 0.739 0.688 0.45
0.812 0.874 0.812 0.874 0.50
11.9 29.9 6.3 5.5 11.9 29.9 6.3 5.5 0.45
4.9 4.7 0.708 0.704 0.790 0.799 4.9 4.7 0.708 0.704 0.790 0.799 0.48
0.883 0.899 0.883 0.899 0.50
0.807 0.788 0.863 0.832 0.807 0.788 0.863 0.832 0.45
0.918 0.939 0.918 0.939 0.50
9.8 6.7 5.8 5.7 9.8 6.7 5.8 5.7 0.45
5.3 5.2 0.279 0.187 0.516 0.567 5.3 5.2 0.279 0.187 0.516 0.567 0.48
0.756 0.842 0.756 0.842 0.50
0.466 0.306 0.614 0.570 0.466 0.306 0.614 0.570 0.45
0.762 0.851 0.762 0.851 0.50
36.9 73.0 13.5 7.5 36.9 73.0 13.5 7.5 0.45
5.1 4.8 0.733 0.590 0.919 0.914 5.1 4.8 0.733 0.590 0.919 0.914 0.48
0.959 0.966 0.959 0.966 0.50
0.902 0.673 0.944 0.921 0.902 0.673 0.944 0.921 0.45
0.968 0.975 0.968 0.975 0.50
10.0 10.4 4.0 4.1 10.0 10.4 4.0 4.1 0.45
3.9 3.9 0.440 0.108 0.446 0.523 3.9 3.9 0.440 0.108 0.446 0.523 0.48
0.932 0.956 0.932 0.956 0.50
0.485 0.183 0.511 0.531 0.485 0.183 0.511 0.531 0.45
0.945 0.972 0.945 0.972 0.50
58.6 115.5 25.8 9.0 58.6 115.5 25.8 9.0 0.45
3.7 3.7 0.832 0.946 0.957 0.945 3.7 3.7 0.832 0.946 0.957 0.945 0.48
0.960 0.963 0.960 0.963 0.50
0.958 0.972 0.981 0.967 0.958 0.972 0.981 0.967 0.45
0.982 0.988 0.982 0.988 0.50
8.5 4.1 4.0 4.8 8.5 4.1 4.0 4.8 0.45
4.8 4.8 Table S4. 4.8 4.8 表S4。 0.65
ModelNet10-SO(3) per-category results. ModelNet10-SO(3) カテゴリごとの結果。 0.63
(cid:34) (cid:35) (cid:34) (cid:35) 0.78
di qj (cid:34) ディ・qj (cid:34) 0.65
(cid:35) di 0 (cid:35) di 0 0.82
(cid:34) (cid:35) (cid:34) (cid:35) 0.78
0 qj When computed this way, this single step is the computational bottleneck. 0qj このように計算すると、この単一のステップが計算ボトルネックとなる。 0.66
An alternative, much more efficient method is to observe that もう1つのもっと効率的な方法は 0.54
W = W + W = Wddi + Wqqj, W =w +W = wddi + wqqj, 0.75
(9) where W = [Wd Wq]. (9) W = [Wd Wq] である。 0.84
In this manner, Wd can be applied batchwise to image descriptors, yielding a NO × NB output, and Wq can be applied to all query poses independently, yielding a NO × NQ output, where NO is the number of output channels (number of rows in W ). このように、Wdは画像記述子にバッチ的に適用でき、NO×NB出力が得られ、Wqは全てのクエリポーズに独立して適用でき、NOは出力チャネルの数(Wの行数)であるNO×NQ出力が得られる。 0.68
An NO × NQ × NB tensor equivalent to Eq (8) is then obtained via a broadcasting sum, drastically reducing the number of operations. eq (8) と等価な no × nq × nb テンソルはブロードキャスト和によって得られ、操作数を劇的に減少させる。 0.65
SYMSOL For the SYMSOL experiments, three positional encoding terms were used for the query, and four fully connected layers of 256 units with ReLU activation for the MLP. シンソル実験では,問合せには3つの位置符号化用語,mlpにreluアクティベーションを付与した256ユニットの4つの完全連結層を用いた。 0.69
One network was trained for all five shapes of SYMSOL I with a batch size of 128 images for 100,000 steps (28 epochs). 1つのネットワークは10万ステップ(28エポック)で128枚の画像からなる5つのシンソルiの形状を訓練された。 0.71
A different network was trained for each of the three textured shapes of SYMSOL II; these trained with a batch size of 64 images for 50,000 steps (36 epochs). SYMSOL IIの3つのテクスチャ形状それぞれに異なるネットワークをトレーニングし、64枚の画像で5万歩(36エポックス)のバッチサイズでトレーニングした。 0.72
The loss calculation requires evaluating a coverage of points on SO(3) along with the ground truth in order to find the approximate normalization rescaling of the likelihoods. 損失計算では、確率の近似正規化再スケーリングを見つけるために、SO(3)上の点のカバレッジと基底真理を評価する必要がある。 0.71
We found that this coverage did not need to be particularly dense, and used 4096 points for training. このカバレッジは特に高密度である必要はないことが分かり、トレーニングには4096ポイントを使用しました。 0.68
T-LESS For T-LESS, only one positional encoding term was used, and the MLP consisted of a single layer of 256 units with ReLU activation. T-LESS T-LESSは1つの位置符号化語しか使われておらず、MLPはReLUアクティベートされた256個のユニットで構成されていた。 0.59
The images were color-normalized and tight-cropped as in Gilitschenski et al (2019). 画像はgilitschenski et al (2019)のようにカラー正規化され、タイトクロッピングされた。 0.55
Training was with a batch size of 64 images for 50,000 steps (119 epochs). 訓練は64枚の画像で5万段(119エポックス)で行われました。 0.64
ModelNet10-SO(3) For ModelNet10-SO(3) (Liao et al , 2019), we use four fully connected layers of 256 units with ReLU activation as in SYMSOL. ModelNet10-SO(3) ModelNet10-SO(3) (Liao et al , 2019)では、SYMSOLのように、ReLUアクティベートされた256ユニットの4つの完全に接続されたレイヤを使用する。 0.65
We train a single model for the whole dataset, for 100,000 steps with batch size of 64. データセット全体の単一のモデルを、バッチサイズ64の10000ステップでトレーニングしています。 0.69
Following Liao et al (2019) and Mohlin et al (2020), we concatenate a one-hot encoding of the class label to the image descriptor before feeding it to the MLP. Liao et al (2019) と Mohlin et al (2020) に続いて、クラスラベルを画像記述子にワンホット符号化し、MLPに供給する。
訳抜け防止モード: Liao et al (2019 ) と Mohlin et al (2020 ) に続く。 イメージ記述子へのクラスラベルのホットエンコーディングを、MLPに渡す前に結合します。
0.73
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
Layer Activation Output Vision Description Input 層 活性化 出力 視覚記述入力 0.70
Rotation Input Flatten Positional Encoding 回転入力 平坦 位置符号化 0.70
Concatenate Dense Dense - 連結 密集 密集 - 0.58
ReLU None 2048 [3, 3] ReLU なし 2048 [3, 3] 0.79
9 [2m×9] [2048 + 2m×9] 9 [2m×9] 2048 + 2m×9] 0.84
256 . . . 1 256 . . . 1 0.85
×n Table S5. IPDF architecture. ×n 表S5。 IPDFアーキテクチャ。 0.80
m is the number of positional encoding frequencies and n is the number of fully connected layers in the MLP. m は位置符号化周波数の数、n は MLP の完全連結層の数である。 0.70
The factor of 2 comes from using both sines and cosines in the positional encoding. 2の因子は、位置エンコーディングにおける罪とコサインの両方を使用することから生じる。 0.67
The vision description is the result of applying global average pooling to the output of an ImageNet pre-trained ResNet to obtain a 2048-dimensional vector. ビジョン記述は、imagenet事前訓練されたresnetの出力に大域平均プーリングを適用して2048次元ベクトルを得る結果である。 0.75
We use an ImageNet pre-trained Resnet50 for SYMSOL, T-LESS, and ModelNet10-SO(3), and Resenet101 for Pascal3D+. 我々は、SYMSOL、T-LESS、ModelNet10-SO(3)にImageNet事前訓練されたResnet50、Pascal3D+にResenet101を使用する。 0.59
S8.1. Baseline methods [Deng et al (2020)] We trained the multi-modal Bingham distribution model from Deng et al (2020) using their PyTorch code.1 Note, this is a follow-up work of an earlier paper which references the same implementation (Deng et al , 2020). S8.1。 ベースライン手法 [Deng et al (2020)] 我々は、Deng et al (2020) から PyTorch コードを用いてマルチモーダルビンガム分布モデルを訓練した。
訳抜け防止モード: S8.1。 Deng et al (2020 ) ] Deng et al (2020 ) からマルチモーダルビンガム分布モデルを訓練した。 PyTorch コードを使用する 1.1 注意。 これは後続の論文で、それ以前の論文のアップワークです。 同じ実装(Deng et al, 2020)を参照。
0.62
Our only modification was a minor one to remove the translation component from the model as only the rotation representation needs to be learned. 私たちの唯一の修正は、回転表現だけを学ぶ必要があるため、モデルから翻訳コンポーネントを取り除くための小さな修正でした。 0.80
We found the model performed best with the same general settings as used in the reference paper (rWTA loss with two stage training – first stage trains rotations only, the second stage trains both rotations and mixture coefficients). その結果,本モデルが標準紙と同じ一般設定で最高の性能を示した(rwtaロスと2ステージトレーニング(第1ステージの列車のみ,第2ステージの列車は回転と混合係数の両方)。 0.75
For the ModelNet10-SO(3) and SYMSOL datasets we trained a single model per shape category, and we found no benefit with increasing the number of components (we used 10 for ModelNet10 and 16 for SYMSOL). ModelNet10-SO(3)とSYMSOLデータセットでは、形状ごとにひとつのモデルをトレーニングしましたが、コンポーネントの数を増やすメリットはありませんでした(ModelNet10では10、SYMSOLでは16)。 0.73
[Gilitschenski et al (2019)] We trained the multi-modal Bingham distribution model from Gilitschenski et al (2019) using their PyTorch code.2 For this baseline we again trained a single model per shape for ModelNet10-SO(3) and SYMSOL. [Gilitschenski et al (2019)] Gilitschenski et al (2019) のマルチモーダルビンガム分布モデルを PyTorch コードを用いてトレーニングした。
訳抜け防止モード: gilitschenski et al (2019 ) ] gilitschenski et al (2019 ) から、pytorch code.2 を使って multi-modal bingham distribution model をトレーニングしました。 そして シンソル
0.44
We followed the published approach and trained the model in two stages – first stage with fixed dispersion and second stage updates all distribution parameters. 発表されたアプローチに従い、モデルを2つの段階 – 第1段階 – 固定分散と第2段階 – でトレーニングし、すべての分布パラメータを更新した。 0.67
For a batch size of 32, a single training step for a 4-component distribution takes almost 2 seconds on a NVIDIA TESLA P100 GPU. バッチサイズ32の場合、4成分分散のための単一のトレーニングステップはNVIDIA TESLA P100 GPUで約2秒かかる。 0.81
The time is dominated by the lookup table interpolation to calculate the distribution’s normalizing term (and gradient), and is linear in the number of mixture components (training with 12 mixture components took over 7 seconds per step). この時間は、分布の正規化項(および勾配)を計算するためのルックアップテーブル補間によって支配され、混合成分の数(ステップあたり7秒以上かかる12の混合成分のトレーニング)で線形である。 0.86
This limited our ability to tune hyperparameters effectively or train with a large number of mixture components. これにより、ハイパーパラメータを効果的にチューニングしたり、多数の混合コンポーネントでトレーニングする能力が制限された。
訳抜け防止モード: これは我々の能力を制限し ハイパーパラメータを効果的にチューニングしたり、多数の混合成分で訓練する。
0.60
[Prokudin et al (2018)] We trained the infinite mixture model from Prokudin et al (2018) using their Tensorflow code.3 The only modification was during evaluation: the log likelihood required our method of normalization via equivolumetric grid because representing a distribution over SO(3) as the product of three individually normalized von Mises distributions lacks the necessary Jacobian. prokudin et al (2018)] tensorflowコードを使用して、prokudin et al (2018) から無限混合モデルをトレーニングした。 3つの個別正規化された von mises 分布の積として so(3) 上の分布を表現するため、ログの確率は等体積格子による正規化の方法を必要とした。 0.71
We left the improperly normalized log likelihood in their loss, as it was originally formulated. もともとは定式化されていたので、不適切に正規化されたログの確率を損失に残しました。 0.44
A different model was trained per shape category of SYMSOL and ModelNet10-SO(3). SYMSOLとModelNet10-SO(3)の形状カテゴリー毎に異なるモデルが訓練された。 0.72
Note that our implicit pose distribution is trained as a single model for the whole of SYMSOL I and ModelNet10-SO(3) datasets, so the comparisons against Deng et al (2020), Gilitschenski et al (2019), and Prokudin et al (2018) favor the baselines. 我々の暗黙のポーズ分布はSYMSOL I と ModelNet10-SO(3) データセット全体の単一のモデルとして訓練されているので、Deng et al (2020), Gilitschenski et al (2019), Prokudin et al (2018) との比較はベースラインを好んでいる。 0.84
Our method outperforms them nevertheless. 私たちの方法はそれでも彼らより優れています。 0.34
S8.2. A note on Pascal3D+ evaluations with respect to Liao et al and Mohlin et al S8.2。 Liao et al と Mohlin et al に関する Pascal3D+ の評価について 0.72
In the Pascal3D+ table in the main paper, and mentioned in that caption, we report numbers for Liao et al (2019) and Mohlin et al (2020) which differ from the numbers reported in their papers (these are the rows marked with ‡). 本文のPascal3D+の表では、そのキャプションで言及されているように、Liao et al (2019) と Mohlin et al (2020) の数字は、彼らの論文で報告されている数字と異なる(これらの行は y でマークされている)。
訳抜け防止モード: 本文のPascal3D+テーブルで、そのキャプションで言及されている。 We report numbers for Liao et al (2019 ) and Mohlin et al (2020 ) which are different from the number in their papers () 以下に示す列は、s で示される)。
0.77
1https://github.com/ Multimodal3DVision/t orch_bingham. 1https://github.com/ Multimodal3DVision/t orch_bingham 0.34
2https://github.com/ igilitschenski/deep_ bingham. 2https://github.com/ igilitschenski/deep_ bingham 0.38
3https://github.com/ sergeyprokudin/deep_ direct_stat. 3https://github.com/ sergeyprokudin/deep_ direct_stat。 0.32
英語(論文から抽出)日本語訳スコア
Implicit-PDF: Non-Parametric Representation of Probability Distributions on the Rotation Manifold Implicit-PDF:回転多様体上の確率分布の非パラメトリック表現 0.83
√ Liao et al (2019) An error in the evaluation code, reported on github4, incorrectly measured the angular error – reported numbers were incorrectly lower by a factor of 2. √ Liao et al (2019) github4で報告された評価符号の誤差は角誤差を誤って測定した - 報告された数値は2。 0.77
The authors corrected the evaluation code for ModelNet10-SO(3) and posted updated numbers, which we show in our paper. 筆者らはModelNet10-SO(3)の評価コードを修正し,更新された数値を掲載した。 0.76
However, their evaluation code used for Pascal3D+ still contains the 2 factor: comparing the corrected ModelNet10-SO(3) geodesic distance function5 and the Pascal3D+ geodesic incorrect distance function6 the 2 difference is clear. 補正されたModelNet10-SO(3)測地距離関数5とPascal3D+測地距離関数6を比較すると、2つの差は明らかである。 0.65
We sanity checked this by running their Pascal3D+ code with the incorrect metric and were able to closely match the numbers in the paper. 私たちは、Pascal3D+コードを誤ったメトリックで実行し、紙の数字と密に一致させることで、これをチェックしました。 0.63
In the main paper, we report performance obtained using the corrected evaluation code. 本稿では,修正された評価コードを用いて得られた性能を報告する。 0.66
√ √ Mohlin et al (2020) We found that the code released by (Mohlin et al , 2020) uses different dataset splits for training and testing on Pascal3D+ than many of the other baselines we compared against. √ √ mohlin et al (2020) では、(mohlin et al , 2020) がリリースしたコードは、pascal3d+ のトレーニングとテストに異なるデータセットスプリットを使用していることが分かりました。 0.83
Annotated images in the Pascal3D+ dataset are selected from one of four source image sets: ImageNet train, ImageNet val, PASCALVOC train, and PASCALVOC val. Pascal3D+データセットの注釈付き画像は、ImageNet train、ImageNet val、PASCALVOC train、PASCALVOC valの4つのソースイメージセットのうちの1つから選択される。 0.70
Methods like Mahendran et al and Liao et al place all the ImageNet images (ImageNet train, ImageNet val) in the training partition (i.e. Mahendran et al や Liao et al のようなメソッドは、ImageNetイメージ(ImageNet train, ImageNet val)をトレーニングパーティション(つまり、トレーニングパーティション)に配置する。 0.79
used for training and/or validation): “We use the ImageNet-trainval and Pascal-train images as our training data and the Pascal-val images as our testing data.” Mahendran et al (2018), Sec 4. トレーニングおよび/または検証に使用される): “imagenet-trainvalおよびpascal-trainイメージをトレーニングデータとして、pascal-valイメージをテストデータとして使用します。 0.70
However, in the code released by Mohlin et al (2020), we observe the test set is sourced from the ImageNet data7. しかし、Mohlin et al (2020) がリリースしたコードでは、テストセットは ImageNet data7 から出力されている。 0.75
We reran the Mohlin et al code as-is and were able to match their published numbers. mohlin et al code as-isを再設計し、公開済みの数字を一致させた。 0.53
After logging both evaluation loops, we confirmed the test data differs between Mohlin et al and Liao et al . 両評価ループをロギングした結果,Mohlin et al と Liao et al との違いが確認された。 0.62
The numbers we report in the main paper for Mohlin et al are after modifying the data pipeline to match Liao et al , which is also what we follow for our IPDF experiments. Mohlin et al のメインペーパーで報告されている数字は、Liao et al と一致するようにデータパイプラインを変更した後である。
訳抜け防止モード: Mohlin et al の本文で紹介する数字 データパイプラインを変更した後 Liao et al にマッチするためには、IPDF の実験にも従っています。
0.62
We ran Mohlin et al with and without augmentation and warping in the data pipeline and chose the best results (which was with warping and augmentation). 私たちはデータパイプラインで増分やワープなしでMohlinなどを実行し、最高の結果(ワープと増分)を選択しました。 0.61
4https://github.com/ leoshine/Spherical_R egression/issues/8 5https://github.com/ leoshine/Spherical_R egression/blob/a941c 732927237a2c70656953 35ed949e0163922/ 4https://github.com/ leoshine/Spherical_R egression/ Issues/8 5https://github.com/ leoshine/Spherical_R egression/blob/a941c 732927237a2c70656953 35ed949e0163922/ 0.17
S3.3D_Rotation/lib/e val/GTbox/eval_quat_ multilevel.py#L45 S3.3D_Rotation/lib/e val/GTbox/eval_quat_ multilevel.py#L45 0.19
6https://github.com/ leoshine/Spherical_R egression/blob/a941c 732927237a2c70656953 35ed949e0163922/ 6https://github.com/ leoshine/Spherical_R egression/blob/a941c 732927237a2c70656953 35ed949e0163922/ 0.15
S1.Viewpoint/lib/eva l/eval_aet_multileve l.py#L135 S1.Viewpoint/lib/eva l/eval_aet_multileve l.py#L135 0.24
7https://github.com/ Davmo049/Public_prob _orientation_estimat ion_with_matrix_fish er_ 7https://github.com/ Davmo049/Public_prob _orientation_estimat ion_with_matrix_fish er_ 0.17
distributions/blob/4 baba6d06ca36db4d4cf8 c905c5c3b70ab5fb54a/ Pascal3D/Pascal3D.py #L558-L583 分布/blob/4baba6d06ca36d 4d4cf8c905c5c3b70ab5 fb54a/Pascal3D/Pasca l3D.py#L558-L583 0.10
                                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。