このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210315となっている論文です。

PDF登録状況(公開日: 20210315)

TitleAuthorsAbstract論文公表日・翻訳日
# モデルフリー線形二次レギュレータ問題に対する勾配法の収束とサンプル複雑性

Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem ( http://arxiv.org/abs/1912.11899v3 )

ライセンス: Link先を確認
Hesameddin Mohammadi, Armin Zare, Mahdi Soltanolkotabi, Mihailo R. Jovanovi\'c(参考訳) モデルフリー強化学習は、コントローラのパラメータ空間を直接探索することで未知の力学系の最適制御動作を見つけようとする。 これらのアプローチの収束挙動と統計特性は、基礎となる最適化問題の非凸性と正確な勾配計算の欠如のためによく理解されていない。 本稿では,未知状態空間パラメータを持つ連続時間系の標準無限ホライゾン線形二次レギュレータ問題に着目し,その性能と効率を非神秘化する。 安定化フィードバックゲインの集合上で勾配-流れのダイナミクスを支配できる常微分方程式(ODE)に対して指数的安定性を確立し、対応するODEの前方オイラー離散化から生じる勾配降下法に対して同様の結果が成り立つことを示す。 また, 2点勾配推定を用いたランダム探索法の収束率とサンプル複雑性に関する理論的境界を与える。 モデルフリー設定において$\epsilon$-accuracyを達成するために必要なシミュレーション時間と関数評価の総数はともに$\log \, (1/\epsilon)$であることを示す。

Model-free reinforcement learning attempts to find an optimal control action for an unknown dynamical system by directly searching over the parameter space of controllers. The convergence behavior and statistical properties of these approaches are often poorly understood because of the nonconvex nature of the underlying optimization problems and the lack of exact gradient computation. In this paper, we take a step towards demystifying the performance and efficiency of such methods by focusing on the standard infinite-horizon linear quadratic regulator problem for continuous-time systems with unknown state-space parameters. We establish exponential stability for the ordinary differential equation (ODE) that governs the gradient-flow dynamics over the set of stabilizing feedback gains and show that a similar result holds for the gradient descent method that arises from the forward Euler discretization of the corresponding ODE. We also provide theoretical bounds on the convergence rate and sample complexity of the random search method with two-point gradient estimates. We prove that the required simulation time for achieving $\epsilon$-accuracy in the model-free setup and the total number of function evaluations both scale as $\log \, (1/\epsilon)$.
翻訳日:2023-06-10 08:11:11 公開日:2021-03-15
# 静電容量充電によるノードチャージグラフに基づくオンラインカーシェアリバランシングポリシー

A node-charge graph-based online carshare rebalancing policy with capacitated electric charging ( http://arxiv.org/abs/2001.07282v4 )

ライセンス: Link先を確認
Theodoros P. Pantelidis, Li Li, Tai-Yu Ma, Joseph Y. J. Chow, Saif Eddin G. Jabari(参考訳) カーシェアリングの有効性はリバランスアルゴリズムに依存する。 文献の初期の手法では、待ち行列原理を用いた非筋覚アルゴリズムへの傾向が示唆されている。 コスト関数近似を用いた新しいリバランス政策を提案する。 コスト関数は、静的ノードチャージグラフ構造上の最小コストフロー保存とパスベースの充電ステーション容量を有するp中間転位問題としてモデル化される。 コスト関数はnp完全であるため、オンラインシステムで解決可能な実現可能なソリューションを保証するヒューリスティックが提案されている。 このアルゴリズムは、ニューヨーク州ブルックリンの電動カーシェアリングのケーススタディで検証され、2017年9月のbmw reachnow operations(車両262台、1日231台、交通分析ゾーン(tazs)303台)と充電ステーションの位置データ(4ポート容量の充電ステーション18台)の需要データが共有されている。 提案する非筋性リバランスヒューリスティックは、筋性リバランスに比べてコスト増加を38%減少させる。 その他の管理上の洞察をさらに議論する。

Viability of electric car-sharing operations depends on rebalancing algorithms. Earlier methods in the literature suggest a trend toward non-myopic algorithms using queueing principles. We propose a new rebalancing policy using cost function approximation. The cost function is modeled as a p-median relocation problem with minimum cost flow conservation and path-based charging station capacities on a static node-charge graph structure. The cost function is NP-complete, so a heuristic is proposed that ensures feasible solutions that can be solved in an online system. The algorithm is validated in a case study of electric carshare in Brooklyn, New York, with demand data shared from BMW ReachNow operations in September 2017 (262 vehicle fleet, 231 pickups per day, 303 traffic analysis zones (TAZs)) and charging station location data (18 charging stations with 4 port capacities). The proposed non-myopic rebalancing heuristic reduces the cost increase compared to myopic rebalancing by 38%. Other managerial insights are further discussed.
翻訳日:2023-06-07 06:10:13 公開日:2021-03-15
# 双極子キャビティ量子電気力学の空隙

The Vacua of Dipolar Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2004.13738v4 )

ライセンス: Link先を確認
Michael Schuler, Daniele De Bernardis, Andreas M. L\"auchli, and Peter Rabl(参考訳) 固体とそれらの相の構造は、主に静電クーロン力によって決定されるが、電荷と力学、すなわち電磁場の量子化自由度との結合は二次的な役割しか果たさない。 近年、この一般則をキャビティ量子電磁力学(qed)の文脈で克服し、双極子と単一磁場モードの結合を劇的に強化できると推測されている。 本稿では,非摂動結合系における双極子キャビティqed系の基底状態について,静電相互作用と動的相互作用が等しく重要な役割を担う最初の精密解析を行う。 具体的には, 強い, 長距離の真空揺らぎが双極性物質の状態を変化させ, 特異な性質を持つ新しい相を誘導することを示す。 純粋に基本的な関心だけでなく、これらの一般的なメカニズムはキャビティアシスト化学から超強結合回路QEDシステムに基づく量子技術まで、潜在的な応用にとって重要である。

The structure of solids and their phases is mainly determined by static Coulomb forces while the coupling of charges to the dynamical, i.e., quantized degrees of freedom of the electromagnetic field plays only a secondary role. Recently, it has been speculated that this general rule can be overcome in the context of cavity quantum electrodynamics (QED), where the coupling of dipoles to a single field mode can be dramatically enhanced. Here we present a first exact analysis of the ground states of a dipolar cavity QED system in the non-perturbative coupling regime, where electrostatic and dynamical interactions play an equally important role. Specifically, we show how strong and long-range vacuum fluctuations modify the states of dipolar matter and induce novel phases with unusual properties. Beyond a purely fundamental interest, these general mechanisms can be important for potential applications, ranging from cavity-assisted chemistry to quantum technologies based on ultrastrongly coupled circuit QED systems.
翻訳日:2023-05-21 21:43:46 公開日:2021-03-15
# 半直線上のアフィン量子化

Affine Quantization on the Half Line ( http://arxiv.org/abs/2005.08696v7 )

ライセンス: Link先を確認
Laure Gouba(参考訳) 古典物理学と量子物理学の類似性は、量子化法の研究に価値ある努力を与えるのに十分である。 歴史が示すように、diracの正準量子化法は、$\mathbb{r}^n$ 上の従来の量子力学では合理的に機能するが、非自明な位相空間では失敗する可能性があり、順序問題も発生する。 アフィン量子化(英: affine quantization)は、正準量子化と類似の方法であり、正準量子化が失敗する状況において正の結果を与える。 本稿では,半直線上のアフィン量子化法を再検討する。 我々はいくつかの単純なモデル、自由粒子と調和振動子を定式化し、解く。

The similarity between classical and quantum physics is large enough to make an investigation of quantization methods a worthwhile endeavour. As history has shown, Dirac's canonical quantization method works reasonably well in the case of conventional quantum mechanics over $\mathbb{R}^n$ but it may fail in non-trivial phase spaces and also suffer from ordering problems. Affine quantization is an alternative method, similar to the canonical quantization, that may offer a positive result in situations for which canonical quantization fails. In this paper we revisit the affine quantization method on the half line. We formulate and solve some simple models, the free particle and the harmonic oscillator.
翻訳日:2023-05-19 11:24:52 公開日:2021-03-15
# 立方相状態生成のためのガウス変換プロトコル

Gaussian conversion protocols for cubic phase state generation ( http://arxiv.org/abs/2007.03295v2 )

ライセンス: Link先を確認
Yu Zheng, Oliver Hahn, Pascal Stadler, Patric Holmvall, Fernando Quijandr\'ia, Alessandro Ferraro, Giulia Ferrini(参考訳) 連続変数を持つ普遍量子コンピューティングはガウス演算に加えて非ガウス的資源を必要とする。 普遍量子計算を可能にする既知の資源は立方相状態(英語版)であり、実験的な実装がまだ解明されていない非ガウス状態である。 本稿では,三重項状態(Sandbo Changet al., Phys. Rev. X10, 011011 (2020)))の立方相状態への変換を実験的に実現した非ガウス状態のガウス変換プロトコルを2つ導入する。 最初のプロトコルは決定論的であり、アクティブな(インラインな)スクイージングを含み、決定論的ガウスプロトコルの境界を飽和させる大きなフィディティを達成する。 第2のプロトコルは確率的であり、補助的なスクイーズ状態を含むため、インラインスクイーズの必要性は排除されるが、決定論的な場合よりも大きな成功確率とフィデリティは維持される。 これらのプロトコルの成功は、普遍的な量子計算の資源として三重項状態を使うことの強い証拠となる。

Universal quantum computing with continuous variables requires non-Gaussian resources, in addition to a Gaussian set of operations. A known resource enabling universal quantum computation is the cubic phase state, a non-Gaussian state whose experimental implementation has so far remained elusive. In this paper, we introduce two Gaussian conversion protocols that allow for the conversion of a non-Gaussian state that has been achieved experimentally, namely the trisqueezed state [Sandbo Changet al., Phys. Rev. X10, 011011 (2020)],to a cubic phase state. The first protocol is deterministic and it involves active (in-line) squeezing, achieving large fidelities that saturate the bound for deterministic Gaussian protocols. The second protocol is probabilistic and it involves an auxiliary squeezed state, thus removing the necessity of in-line squeezing but still maintaining significant success probabilities and fidelities even larger than for the deterministic case. The success of these protocols provides strong evidence for using trisqueezed states as resources for universal quantum computation.
翻訳日:2023-05-11 01:58:15 公開日:2021-03-15
# 忠実な絡み合いの幾何学

Geometry of faithful entanglement ( http://arxiv.org/abs/2008.05961v2 )

ライセンス: Link先を確認
Otfried G\"uhne, Yuanyuan Mao, Xiao-Dong Yu(参考訳) 量子状態解析における典型的な概念は、ある純粋な絡み合った状態の近傍にある状態が同じ性質を共有するという考えに基づいている。 絡み合いがこのような方法で検出できる状態は「忠実」とも呼ばれる。 我々は、対応する忠実性に基づく絡み合い証人に対する構造的結果を示し、その結果、二者状態の忠実性が簡単な条件となることを証明した。 最も単純な場合、2つのキュービットの忠実度を直接決定でき、高次元では正確な解析基準が与えられる。 最後に, 忠実な絡み合いが有用な絡み合いであることを示すとともに, 計算複雑性とのつながりを確立し, 絡み合い理論におけるいくつかの結果を単純化した。

A typical concept in quantum state analysis is based on the idea that states in the vicinity of some pure entangled state share the same properties; implying that states with a high fidelity must be entangled. States whose entanglement can be detected in this way are also called faithful. We prove a structural result on the corresponding fidelity-based entanglement witnesses, resulting in a simple condition for faithfulness of a two-party state. For the simplest case of two qubits faithfulness can directly be decided and for higher dimensions accurate analytical criteria are given. Finally, our results show that faithful entanglement is, in a certain sense, useful entanglement; moreover, they establish connections to computational complexity and simplify several results in entanglement theory.
翻訳日:2023-05-06 09:16:34 公開日:2021-03-15
# ワイル基底における量子過程の効率的な古典シミュレーションとベンチマーク

Efficient classical simulation and benchmarking of quantum processes in the Weyl basis ( http://arxiv.org/abs/2008.12250v2 )

ライセンス: Link先を確認
Daniel Stilck Fran\c{c}a, Sergii Strelchuk, Micha{\l} Studzi\'nski(参考訳) スケーラブルな量子コンピュータを構築する上で重要なステップの1つは、量子進化の過程でエラーを引き起こすノイズ源を特定することである。 異なる実装には複数のハードウェア依存のノイズとデコヒーレンスがあるため、検出の問題はより複雑になる。 Weylユニタリを用いたランダム化ベンチマークアルゴリズムを開発し,計算中に発生する誤りモデルの混在を効率よく同定し,学習する。 ノイズ回路の出力に対する期待値の計算に要するオーバーヘッドを、相互作用の局所性にのみ依存し、回路構造にさらに仮定しない、効率的に計算可能な推定値を提供する。 ノイズ率によってオーバーヘッドが減少し,古典的シミュラビリティを示唆する解析的ノイズ境界を計算することができる。 本手法を変分量子固有解法に現れるアンサッツ回路に適用し、古典的シミュレーション複雑性の上限をノイズの関数として定め、古典的に効率的にシミュラブルになるときのレジームを同定する。

One of the crucial steps in building a scalable quantum computer is to identify the noise sources which lead to errors in the process of quantum evolution. Different implementations come with multiple hardware-dependent sources of noise and decoherence making the problem of their detection manyfoldly more complex. We develop a randomized benchmarking algorithm which uses Weyl unitaries to efficiently identify and learn a mixture of error models which occur during the computation. We provide an efficiently computable estimate of the overhead required to compute expectation values on outputs of the noisy circuit relying only on locality of the interactions and no further assumptions on the circuit structure. The overhead decreases with the noise rate and this enables us to compute analytic noise bounds that imply efficient classical simulability. We apply our methods to ansatz circuits that appear in the Variational Quantum Eigensolver and establish an upper bound on classical simulation complexity as a function of noise, identifying regimes when they become classically efficiently simulatable.
翻訳日:2023-05-04 19:40:01 公開日:2021-03-15
# ブレイディング量子ゲートの局所不変量 --関連リンク多項式と絡み合いパワー

Local invariants of braiding quantum gates -- associated link polynomials and entangling power ( http://arxiv.org/abs/2010.00270v2 )

ライセンス: Link先を確認
Pramod Padmanabhan, Fumihiko Sugino, Diego Trancanelli(参考訳) 一般的な$n$-qubit系に対して、$SL(2,\mathbb{C})^{\otimes n}$ の作用による局所不変量は、絡み合いの非局所性質を特徴づける。 一般に、そのような性質はすぐには見えず、構成が困難である。 ここで、ある種の2量子yang-baxter作用素を考察し、それらの固有値がシステムの非局所的性質を完全に決定することを示す。 さらに,これらの演算子に対してturaevプロシージャを適用し,関連するlink/knot多項式を得る。 また、エンタングリングパワーを計算し、一般的な2量子ビット演算子と比較する。

For a generic $n$-qubit system, local invariants under the action of $SL(2,\mathbb{C})^{\otimes n}$ characterize non-local properties of entanglement. In general, such properties are not immediately apparent and hard to construct. Here we consider certain two-qubit Yang-Baxter operators, which we dub of the `X-type', and show that their eigenvalues completely determine the non-local properties of the system. Moreover, we apply the Turaev procedure to these operators and obtain their associated link/knot polynomials. We also compute their entangling power and compare it with that of a generic two-qubit operator.
翻訳日:2023-04-30 12:08:20 公開日:2021-03-15
# 計測に基づく変分量子固有解法

A measurement-based variational quantum eigensolver ( http://arxiv.org/abs/2010.13940v3 )

ライセンス: Link先を確認
Ryan R. Ferguson, Luca Dellantonio, Karl Jansen, Abdulrahim Al Balushi, Wolfgang D\"ur, and Christine A. Muschik(参考訳) 変分量子固有解法(VQE)は、古典最適化と量子コンピュータの効率的なコスト関数評価を組み合わせたものである。 本稿では,測定に基づく量子計算の原理を用いた新しいVQE手法を提案する。 この戦略は、タグ付きリソース状態と局所的な測定を使用する。 測定に基づく2つのVQEスキームを提案する。 まず、変分族を構築するための新しいアプローチを紹介する。 2つめは、回路ベースから測定ベースのスキームへの変換を提供する。 どちらのスキームも、必要なリソースとコヒーレンス時間の観点から問題固有の利点を提供する。

Variational quantum eigensolvers (VQEs) combine classical optimization with efficient cost function evaluations on quantum computers. We propose a new approach to VQEs using the principles of measurement-based quantum computation. This strategy uses entagled resource states and local measurements. We present two measurement-based VQE schemes. The first introduces a new approach for constructing variational families. The second provides a translation of circuit-based to measurement-based schemes. Both schemes offer problem-specific advantages in terms of the required resources and coherence times.
翻訳日:2023-04-27 11:12:13 公開日:2021-03-15
# 曲線時空における完全相補関係

Complete complementarity relations in curved spacetimes ( http://arxiv.org/abs/2011.00736v3 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) 我々は、無限小局所ローレンツ変換の連続性を考えることにより、曲線化された時空に対する完全相補性関係を拡張し、このことは、量子論がその世界線を通過し、時空の異なる点における相補性相が連結されるときに相補性が有効であることを意味する。 この結果は、時空を移動する量子系のこれらの異なる相補的な側面の研究を可能にする。 特に、シュワルツシルト時空における質量スピン-1/2$粒子のこれらの異なる相補的性質の挙動について研究する。 測地学的な円軌道では、1つの粒子のスピン状態が分離可能な状態と絡み合っている状態の間で振動する。 非楕円軌道の場合、軌道がシュワルツシルト半径 $r_s$ に近づくにつれて、これらの振動の周波数が大きくなることに気付く。

We extend complete complementarity relations to curved spacetimes by considering a succession of infinitesimal local Lorentz transformations, which implies that complementarity remains valid as the quanton travels through its world line and the complementarity aspects in different points of spacetime are connected. This result allows the study of these different complementary aspects of a quantum system as it travels through spacetime. In particular, we study the behavior of these different complementary properties of massive spin-$1/2$ particles in the Schwarzschild spacetime. For geodetic circular orbits, we find that the spin state of one particle oscillates between a separable and an entangled state. For non-geodetic circular orbits, we notice that the frequency of these oscillations gets bigger as the orbit gets nearer to the Schwarzschild radius $r_s$.
翻訳日:2023-04-26 07:31:33 公開日:2021-03-15
# 真空中における金属表面上を滑り落ちる中性粒子の脱コヒーレンス向上

Enhanced decoherence for a neutral particle sliding on a metallic surface in vacuum ( http://arxiv.org/abs/2011.03485v3 )

ライセンス: Link先を確認
Ludmila Viotti and Fernando C. Lombardo and Paula I. Villar(参考訳) 真空で空間的に分離された相対運動の物体は、量子摩擦と呼ばれる小さな摩擦力を経験する。 この力は、その小ささと短距離のため、これまで実験的な検出を免れた。 ここでは、原子内のコヒーレンスを測定することにより、量子摩擦の痕跡を追跡するための定量的な詳細を与える。 環境に誘起された脱コヒーレンスを,誘電体シートの存在下での電磁真空による補正と粒子の動きによる補正という,異なる署名の寄与に分解できることに気付いた。 この方法では、非接触摩擦が移動原子の非一貫性を高めることが示される。 さらに、その効果は、2レベル粒子と材料のドルド・ロレンツパラメータの徹底的な選択によって拡大することができる。 この文脈では、コヒーレンスの速度依存性によるデコヒーレンス時間の測定は、間接的に量子摩擦の存在を実証できる。

Bodies in relative motion, spatially separated in vacuum, experience a tiny friction force known as quantum friction. This force has eluded experimental detection so far due to its small magnitude and short range. Herein, we give quantitative details so as to track traces of the quantum friction by measuring coherences in the atom. We notice that the environmentally induced decoherence can be decomposed into contributions of different signature: corrections induced by the electromagnetic vacuum in presence of the dielectric sheet and those induced by the motion of the particle. In this direction, we show that non-contact friction enhances the decoherence of the moving atom. Further, its effect can be enlarged by a thorough selection of the two-level particle and the Drude-Lorentz parameters of the material. In this context, we suggest that measuring decoherence times through velocity dependence of coherences could indirectly demonstrate the existence of quantum friction.
翻訳日:2023-04-25 03:15:33 公開日:2021-03-15
# 損失1次元ボース気体中のタンの関係の破壊

Breakdown of Tan's relation in lossy one-dimensional Bose gases ( http://arxiv.org/abs/2011.13250v2 )

ライセンス: Link先を確認
Isabelle Bouchoule and J\'er\^ome Dubail(参考訳) 接触反発を持つ量子気体では、原子のモーメントの分布は、通常、大きな運動量で$\sim 1/|p|^4$で崩壊する。 タンの関係は、その1/|p|^4$テールの振幅と、気体のカップリング定数や散乱長さに関するエネルギーの断熱誘導体を関連付けている。 この関係は, 定常状態の特異なクラスに対して, 接触反発を伴う1次元ボース気体において崩壊することを示した。 これらの状態は系の無限個の保存量によって存在し、1/|p|^4$で減少する急速分布によって特徴づけられる。 運動量分布において、その急速尾は通常のタン接触項に付加される。 驚くべきことに、原子の損失は実験においてユビキタスであり、そのような特異な状態を生み出す。 急速分布のテールの発達は、各損失イベントの直後の波動関数のゴースト特異性に由来する。 この現象は任意の相互作用強度について議論され、無限と弱い反発の2つの漸近状態における正確な計算によって支持される。

In quantum gases with contact repulsion, the distribution of momenta of the atoms typically decays as $\sim 1/|p|^4$ at large momentum $p$. Tan's relation connects the amplitude of that $1/|p|^4$ tail to the adiabatic derivative of the energy with respect to the gas' coupling constant or scattering length. Here it is shown that the relation breaks down in the one-dimensional Bose gas with contact repulsion, for a peculiar class of stationary states. These states exist thanks to the infinite number of conserved quantities in the system, and they are characterized by a rapidity distribution which itself decreases as $1/|p|^4$. In the momentum distribution, that rapidity tail adds to the usual Tan contact term. Remarkably, atom losses, which are ubiquitous in experiments, do produce such peculiar states. The development of the tail of the rapidity distribution originates from the ghost singularity of the wavefunction immediately after each loss event. This phenomenon is discussed for arbitrary interaction strengths, and it is supported by exact calculations in the two asymptotic regimes of infinite and weak repulsion.
翻訳日:2023-04-22 22:45:32 公開日:2021-03-15
# 脳磁図用単一ビーム全光非零電界磁力センサ

Single-beam all-optical non-zero field magnetometric sensor for magnetoencephalography applications ( http://arxiv.org/abs/2103.00967v2 )

ライセンス: Link先を確認
M.V. Petrenko, A.S. Pazgalev, and A.K. Vershovskii(参考訳) 本稿では,超微細・ゼーマン光ポンピング,励起,磁気共鳴の検出を,時間変調楕円性を持つ単一レーザビームを用いて行う磁場測定法を提案する。 この改良により、感度を保ちながらベルブルーム磁力計のスキームを大幅に単純化できる。 この方法は、センサーの配列を作成するのに必須の周波数場の使用を必要としない。 実験の結果, 提案法の有効性と, 最も困難な脳磁図課題への適用性が示された。

We present a method for measuring the magnetic field that allows hyperfine and Zeeman optical pumping, excitation and detection of magnetic resonance by means of a single laser beam with time-modulated ellipticity. This improvement allows us to significantly simplify the Bell-Bloom magnetometric scheme, while retaining its sensitivity. The method does not require the use of radio frequency fields, which is essential when creating arrays of sensors. The results of experimental studies demonstrate the efficiency of the proposed method and its potential applicability in most challenging magnetoencephalographic tasks.
翻訳日:2023-04-09 14:43:56 公開日:2021-03-15
# 社会的受容のより良い理解に向けて

Towards a Better Understanding of Social Acceptability ( http://arxiv.org/abs/2103.01637v2 )

ライセンス: Link先を確認
Alarith Uhde and Marc Hassenzahl(参考訳) 社会的文脈は、テクノロジーの受容と利用を理解する上で重要な役割を果たす。 しかし、hciで文脈的影響を記述するために使われる現在のアプローチは、それを適切に捉えていない。 一方で、しばしば使用される技術受容モデルと関連するフレームワークは、社会的状況の微妙な変化を考慮に入れられないほど厳格である。 一方、ゴフマンの劇的な社会的相互作用モデルは、対人関係を強調するが、主にHCIの中心となる物質(例えば技術)を見落としている。 代替として,社会実践理論に基づくアプローチを提案する。 我々は,社会的文脈を,同位置の社会的実践と受容性の間の相互作用として概念化する。 最後に、このアプローチがデザイナーに様々な種類の社会的受容性の問題をより深く理解させ、適切な解決策を見つけるのに役立つかを概説する。

Social contexts play an important role in understanding acceptance and use of technology. However, current approaches used in HCI to describe contextual influence do not capture it appropriately. On the one hand, the often used Technology Acceptance Model and related frameworks are too rigid to account for the nuanced variations of social situations. On the other hand, Goffman's dramaturgical model of social interactions emphasizes interpersonal relations but mostly overlooks the material (e.g., technology) that is central to HCI. As an alternative, we suggest an approach based on Social Practice Theory. We conceptualize social context as interactions between co-located social practices and acceptability as a matter of their (in)compatibilities. Finally, we outline how this approach provides designers with a better understanding of different types of social acceptability problems and helps finding appropriate solutions.
翻訳日:2023-04-09 12:22:34 公開日:2021-03-15
# 不確実性原理の非統計的解釈のファルシフィケーションと統計的解釈の突破 --不確実性原理から決定論的規則へ-

The falsification of the non-statistical interpretation of the uncertainty principle and the breakthrough of the statistical interpretation -- From the Uncertainty Principle to the Deterministic Rule ( http://arxiv.org/abs/2103.03513v2 )

ライセンス: Link先を確認
De-Long Duan(参考訳) 不確実性原理から生じる量子力学の物理的解釈における分岐の問題はまだ解決されていないことはよく知られている。 量子技術のさらなる発展のために、この状況の制約と混乱を解消しようとする試みは、ハイゼンベルクの不確実性原理の元々の導出と物理的意味をたどり、アインシュタインの光子ボックス思考実験を分析し、異なる作用シナリオの下での関係の限界を研究する。 By analyzing the statistical distribution of quantum mechanical quantities, the result of the destruction of the non-statistical interpretation uncertainty relation in the electromagnetic interaction scenarios is obtained; through analyzing of the photon box thought experiment, the logical contradiction of Bohr's argument was discovered; by examining the set of interaction scenarios, a description method for determining the mechanical state of microscopic particles was put forward; according to the analysis of the hydrogen atom transition radiation process, basing on the principle of conservation of energy, the result of the lower limit of the uncertainty relation in the gravitational scene is much smaller than that in the existing electromagnetic scene is obtained, which mean the lower limit of uncertainty principle is broken. この論文の研究は、アインシュタインの神が宇宙とサイコロをしないという肯定的な回答を得た。 この論文の研究は、微視的世界における量子物理現象の理解を深める上で有用であり、量子技術の物理基盤の研究に理論的に支援できることを願っている。

It is well known that the problem of divergence in the physical interpretation of quantum mechanics originating from the uncertainty principle has not yet been resolved. Attempting to clear the constraints and confusion of this situation for the further development of quantum technology, this article traces the original derivation and the physical meaning of the Heisenberg uncertainty principle, analyzes the Einstein photon-box thought-experiment, and studies the limits of the relationships under different action scenarios. By analyzing the statistical distribution of quantum mechanical quantities, the result of the destruction of the non-statistical interpretation uncertainty relation in the electromagnetic interaction scenarios is obtained; through analyzing of the photon box thought experiment, the logical contradiction of Bohr's argument was discovered; by examining the set of interaction scenarios, a description method for determining the mechanical state of microscopic particles was put forward; according to the analysis of the hydrogen atom transition radiation process, basing on the principle of conservation of energy, the result of the lower limit of the uncertainty relation in the gravitational scene is much smaller than that in the existing electromagnetic scene is obtained, which mean the lower limit of uncertainty principle is broken. The research in this article has received an affirmative answer to Einstein's God does not play dice with the Universe. The research of this article is helpful to enhance the understanding of quantum physical phenomena in the microscopic world, and we hope it could render some theoretical support to investigating the physical basis of quantum technology.
翻訳日:2023-04-09 00:19:21 公開日:2021-03-15
# ゲーミフィケーションの除去:研究課題

Removing Gamification: A Research Agenda ( http://arxiv.org/abs/2103.05862v2 )

ライセンス: Link先を確認
Katie Seaborn(参考訳) インタラクティブシステムからゲーミフィケーション要素を取り除く効果は、ゲーミフィケーション研究における長年の疑問である。 初期の研究と基礎理論は、ポジティブエフェクトの持続性とネガティブエフェクトの出現に関する懸念を提起した。 しかし10年近く経った今、これらの問題について合意を求める研究は行われていない。 ここでは,芸術の現状とゲーム化の排除の影響について,迅速なレビューを行う。 2012年から2020年の間に8つの論文からなる小さなコーパスが発見された。 発見は、ゲーミフィケーションの除去に関連するプラス効果とマイナス効果の混合を示唆している。 顕著なことに、報告不足、方法論的弱さ、限定的な措置、および「否定的」結果の表層的解釈は、確固たる結論を妨げている。 ゲーミフィケーション除去の性質をよりよく理解するための研究課題を提示します。 私は最終的に、システムが非ゲーミフィケーションされた後に発する可能性のある効果を照明する経験的および理論的研究を求める。

The effect of removing gamification elements from interactive systems has been a long-standing question in gamification research. Early work and foundational theories raised concerns about the endurance of positive effects and the emergence of negative ones. Yet, nearly a decade later, no work to date has sought consensus on these matters. Here, I offer a rapid review on the state of the art and what is known about the impact of removing gamification. A small corpus of 8 papers published between 2012 and 2020 were found. Findings suggest a mix of positive and negative effects related to removing gamification. Significantly, insufficient reporting, methodological weaknesses, limited measures, and superficial interpretations of "negative" results prevent firm conclusions. I offer a research agenda towards better understanding the nature of gamification removal. I end with a call for empirical and theoretical work on illuminating the effects that may linger after systems are un-gamified.
翻訳日:2023-04-08 13:51:38 公開日:2021-03-15
# 異常フロッケ位相相の対称性解析

Symmetry Analysis of Anomalous Floquet Topological Phases ( http://arxiv.org/abs/2103.08230v1 )

ライセンス: Link先を確認
Weiwei Zhu, Yidong Chong, and Jiangbin Gong(参考訳) 非平衡トポロジカル物質のトポロジカルキャラクタリゼーションは、平衡トポロジカル位相のために設計されたよく知られたアプローチが適用されないため、非常に非自明である。 結晶対称性の存在下では、フロケ位相絶縁体状態はブリルアンゾーンの高対称性点における対称性固有値の集合によって通常の絶縁体と容易に区別できない。 この研究は、様々なフロケ位相位相を区別するために対称性解析を強化する物理的に動機づけられ、容易に実装できるアプローチを提唱する。 2次元逆対称周期駆動系を例に、一階と二階の両方の異常なフロケ位相状態の対称性固有値は、通常の原子絶縁体と同じであることを示す。 しかし、トポロジカルな状態は、その微視的力学における安定対称性の反転点の発生を検査することで、通常の絶縁体と区別することができる。 この解析は、位相境界状態が異常なフロッケ位相相における局所化されたバルク状態とどのように共存するかを理解するための単純な図を示している。

The topological characterization of nonequilibrium topological matter is highly nontrivial because familiar approaches designed for equilibrium topological phases may not apply. In the presence of crystal symmetry, Floquet topological insulator states cannot be easily distinguished from normal insulators by a set of symmetry eigenvalues at high symmetry points in the Brillouin zone. This work advocates a physically motivated, easy-to-implement approach to enhance the symmetry analysis to distinguish between a variety of Floquet topological phases. Using a two-dimensional inversion-symmetric periodically-driven system as an example, we show that the symmetry eigenvalues for anomalous Floquet topological states, of both first-order and second-order, are the same as for normal atomic insulators. However, the topological states can be distinguished from one another and from normal insulators by inspecting the occurrence of stable symmetry inversion points in their microscopic dynamics. The analysis points to a simple picture for understanding how topological boundary states can coexist with localized bulk states in anomalous Floquet topological phases.
翻訳日:2023-04-08 02:28:42 公開日:2021-03-15
# 有限次元量子力学における還元-対称性から作用素代数まで

Reductions in finite-dimensional quantum mechanics: from symmetries to operator algebras and beyond ( http://arxiv.org/abs/2103.08226v1 )

ライセンス: Link先を確認
Oleg Kabernik(参考訳) 対称性はシステムの複雑さを単純化または軽減するという考えは、物理学、特に量子力学において著しく実りがある。 数学のレベルでは、対称性群はヒルベルト空間の特定の構造を抽出し、還元をもたらす。 この構造は群の既約表現によって与えられ、一般には作用素代数(例えば c*-代数やフォン・ノイマン代数)と同一視することができる。 この論文の主な焦点は対称性から作用素代数への還元の枠組みの拡張であり、その有限次元量子力学への応用である。 既約表現構造を見つけることは、作用素代数を扱う際の主要な問題である。 したがって、有限次元作用素代数の表現論をレビューし、この問題を2つの新しい概念、最小等距離と二分割テーブルの助けを借りて解明する。 私たちが提示する主要な技術的成果の1つは、作用素代数の既約表現構造の解析的導出のための散乱アルゴリズムである。 応用には、対称性を識別する非自明なタスクを回避し、ハミルトニアンが生成する力学を直接減少させる、動力学の低減に対する対称性非依存的アプローチを導入する。 また、部分的トレースやツワールマップといった運用上の制約から生じる量子状態の低減についても検討し、運用上の制約がデコヒーレンスにどのように寄与するかを検討する。 それとは別に、作用素代数から作用素系への還元の概念を拡張し、これまで古典確率論にしか存在しなかった粗粒化の量子概念を定式化する。 また、粗粒度測定において、不確実性原理が古典的体制にどのように移行するかを特徴付け、有限次元の設定における含意について論じる。

The idea that symmetries simplify or reduce the complexity of a system has been remarkably fruitful in physics, and especially in quantum mechanics. On a mathematical level, symmetry groups single out a certain structure in the Hilbert space that leads to a reduction. This structure is given by the irreducible representations of the group, and in general it can be identified with an operator algebra (a.k.a. C*-algebra or von Neumann algebra). The primary focus of this thesis is the extension of the framework of reductions from symmetries to operator algebras, and its applications in finite-dimensional quantum mechanics. Finding the irreducible representations structure is the principal problem when working with operator algebras. We will therefore review the representation theory of finite-dimensional operator algebras and elucidate this problem with the help of two novel concepts: minimal isometries and bipartition tables. One of the main technical results that we present is the Scattering Algorithm for analytical derivations of the irreducible representations structure of operator algebras. For applications, we will introduce a symmetry-agnostic approach to the reduction of dynamics where we circumvent the non-trivial task of identifying symmetries, and directly reduce the dynamics generated by a Hamiltonian. We will also consider quantum state reductions that arise from operational constraints, such as the partial trace or the twirl map, and study how operational constraints lead to decoherence. Apart from that, we will extend the idea of reduction beyond operator algebras to operator systems, and formulate a quantum notion of coarse-graining that so far only existed in classical probability theory. We will also characterize how the uncertainty principle transitions to the classical regime under coarse-grained measurements and discuss the implications in a finite-dimensional setting.
翻訳日:2023-04-08 02:28:24 公開日:2021-03-15
# 固定基底の電子構造はqma完全である

Electronic Structure in a Fixed Basis is QMA-complete ( http://arxiv.org/abs/2103.08215v1 )

ライセンス: Link先を確認
Bryan O'Gorman, Sandy Irani, James Whitfield, Bill Fefferman(参考訳) 外部電場に従属する電子の基底状態エネルギーを求めることは、計算化学における根本的な問題である。 この電子構造問題は、固定された単一粒子基底と固定数の電子に制限された場合、QMA完全であることが証明される。 Schuch と Verstraete は、追加のサイト固有の外部磁場を持つ電子構造問題に対する硬さを示したが、固定基底に制限はない。 その還元では、量子ビット上の局所ハミルトニアンがサイト固有の磁場に符号化される。 この還元では、局所ハミルトニアンは電子構造ハミルトニアンを離散化するために使われる空間軌道の選択で符号化される。 彼らの証明のステップとして、シューチとヴェルシュレートは反強磁性ハイゼンベルクハミルトニアンからフェルミ・ハバードハミルトニアンへの還元を示す。 この還元と反強磁性ハイゼンベルクハミルトニアンが qma-hard であるという事実を組み合わせることにより、すべてのホッピング係数が同じ符号を持つ場合でも、ジェネリックグラフ上のフェルミ・ハバードハミルトニアンが qma-hard であることが分かる。 次に、Fermi-Hubbard のインスタンスが固定基底の電子構造ハミルトニアンのインスタンスによって密接に近似できることを示すことにより、Fermi-Hubbard から減少する。 最後に、最低エネルギー Slater-Determinant 状態(すなわちハートリー・フォック状態)のエネルギーを一定条件で推定することは、電子構造ハミルトニアンに対してNP完全であることを示す。

Finding the ground state energy of electrons subject to an external electric field is a fundamental problem in computational chemistry. We prove that this electronic-structure problem, when restricted to a fixed single-particle basis and fixed number of electrons, is QMA-complete. Schuch and Verstraete have shown hardness for the electronic-structure problem with an additional site-specific external magnetic field, but without the restriction to a fixed basis. In their reduction, a local Hamiltonian on qubits is encoded in the site-specific magnetic field. In our reduction, the local Hamiltonian is encoded in the choice of spatial orbitals used to discretize the electronic-structure Hamiltonian. As a step in their proof, Schuch and Verstraete show a reduction from the antiferromagnetic Heisenberg Hamiltonian to the Fermi-Hubbard Hamiltonian. We combine this reduction with the fact that the antiferromagnetic Heisenberg Hamiltonian is QMA-hard to observe that the Fermi-Hubbard Hamiltonian on generic graphs is QMA-hard, even when all the hopping coefficients have the same sign. We then reduce from Fermi-Hubbard by showing that an instance of Fermi-Hubbard can be closely approximated by an instance of the Electronic-Structure Hamiltonian in a fixed basis. Finally, we show that estimating the energy of the lowest-energy Slater-determinant state (i.e., the Hartree-Fock state) is NP-complete for the Electronic-Structure Hamiltonian in a fixed basis.
翻訳日:2023-04-08 02:27:56 公開日:2021-03-15
# 滑らかなパルス制御を用いた多ビット系における量子ゲートの相関誤差の補正

Correcting correlated errors for quantum gates in multi-qubit systems using smooth pulse control ( http://arxiv.org/abs/2103.08169v1 )

ライセンス: Link先を確認
Xiu-Hao Deng, Yong-Ju Hai, Jun-Ning Li, and Yao Song(参考訳) マルチキュービットシステムでは、他のキュービットとの不要な相互作用による相関誤差が、適用すべき量子コンピュータのスケールアップの大きな障害の1つである。 このようなノイズを補正する2つの手法を提案し,高い忠実度とロバスト性を示す。 我々は,spectator と intruder を用いて,異なるパラメータ領域における対象 qubit と相互作用する環境を識別する。 提案手法は解析理論と数値最適化を組み合わせて,様々な量子ビット系に対する滑らかな制御パルスを得るのが一般的である。 理論と数値シミュレーションの両方がこれらの誤りを効率的に修正することを示した。 ゲートフィデリティは一般に、1量子ゲートと2量子エンタングゲートのセットの幅広いパラメータ変動に対して0.9999$以上である。 良く知られた制御波形との比較は、我々のソリューションの大きな利点を示している。

In multi-qubit system, correlated errors subject to unwanted interactions with other qubits is one of the major obstacles for scaling up quantum computers to be applicable. We present two approaches to correct such noise and demonstrate with high fidelity and robustness. We use spectator and intruder to discriminate the environment interacting with target qubit in different parameter regime. Our proposed approaches combines analytical theory and numerical optimization, and are general to obtain smooth control pulses for various qubit systems. Both theory and numerical simulations demonstrate to correct these errors efficiently. Gate fidelities are generally above $0.9999$ over a large range of parameter variation for a set of single-qubit gates and two-qubit entangling gates. Comparison with well-known control waveform demonstrates the great advantage of our solutions.
翻訳日:2023-04-08 02:26:36 公開日:2021-03-15
# 空間分散非同期並列プロセスを用いた人工細胞の複雑さと適合性の向上

Increased Complexity and Fitness of Artificial Cells that Reproduce Using Spatially Distributed Asynchronous Parallel Processes ( http://arxiv.org/abs/2103.08406v1 )

ライセンス: Link先を確認
Lance R. Williams(参考訳) 複製時間は、細菌細胞の生殖能の最も重要な構成要素の一つである。 逆説的に、大きな細胞はより小さな細胞よりも少ない時間で複製するが、大きな細胞を作るには大量の原料とエネルギーを必要とする。 この偉業は主にリボソームの過剰発現によって達成され、これはmRNAのタンパク質への翻訳を、並列処理を使わなければ不可能なスケールで行うことができる。 計算機科学において、空間並列性とは分散メモリマルチコンピュータシステムのノード間での作業の分散である。 空間的平行な基質に基づく定式化によって、非無視的な人工生命の研究が根底にあるという事実にもかかわらず、空間的並列性を用いてより小さな生物よりも少ない時間で複製する人工生物の例はない。 本稿では、コンビネータベースの人工化学を用いて、より小さな細胞よりも少ない時間で複製する人工細胞について述べる。 これは、細胞がコンポーネント部品を合成するために使用するプロセスの制限ステップを実装するプログラムの余分なコピーを利用することによって達成される。 並列レプリケーション戦略によって必要となる制御およびエクスポートプロセスの複雑さにもかかわらず、大幅なスピードアップが実証されている。

Replication time is among the most important components of a bacterial cell's reproductive fitness. Paradoxically, larger cells replicate in less time than smaller cells despite the fact that building a larger cell requires increased quantities of raw materials and energy. This feat is primarily accomplished by the massive over expression of ribosomes, which permits translation of mRNA into protein, the limiting step in reproduction, to occur at a scale that would be impossible were it not for the use of parallel processing. In computer science, spatial parallelism is the distribution of work across the nodes of a distributed-memory multicomputer system. Despite the fact that a non-negligible fraction of artificial life research is grounded in formulations based on spatially parallel substrates, there have been no examples of artificial organisms that use spatial parallelism to replicate in less time than smaller organisms. This paper describes artificial cells defined using a combinator-based artificial chemistry that replicate in less time than smaller cells. This is achieved by employing extra copies of programs implementing the limiting steps in the process used by the cells to synthesize their component parts. Significant speedup is demonstrated, despite the increased complexity of control and export processes necessitated by the use of a parallel replication strategy.
翻訳日:2023-04-08 02:19:20 公開日:2021-03-15
# 安定エルミート行列を駆動する量子アルゴリズム

Quantum algorithms for powering stable Hermitian matrices ( http://arxiv.org/abs/2103.08329v1 )

ライセンス: Link先を確認
Guillermo Gonz\'alez, Rahul Trivedi, J. Ignacio Cirac(参考訳) 行列のパワーリングは線形代数における基本的な計算プリミティブである。 科学計算や工学に広く応用されており、時間同次線型常微分方程式の解、離散時間マルコフ連鎖のシミュレーション、あるいは反復法による行列のスペクトル特性の発見の基盤となっている。 本稿では,量子コンピュータ上でのスパース安定エルミート行列の行列パワー化の高速化の可能性を検討する。 古典行列パワーリングアルゴリズムを高速化する2つの量子アルゴリズムを提案する。 (i)量子ウォークに基づく高速転送アルゴリズムの適応 (ii)ハミルトンシミュレーションに基づくアルゴリズム。 さらに、nビットパリティ決定問題を行列動力問題にマッピングすることにより、非エルミート行列を駆動する量子スピードアップを制限できるno-go定理を与える。

Matrix powering is a fundamental computational primitive in linear algebra. It has widespread applications in scientific computing and engineering, and underlies the solution of time-homogeneous linear ordinary differential equations, simulation of discrete-time Markov chains, or discovering the spectral properties of matrices with iterative methods. In this paper, we investigate the possibility of speeding up matrix powering of sparse stable Hermitian matrices on a quantum computer. We present two quantum algorithms that can achieve speedup over the classical matrix powering algorithms -- (i) an adaption of quantum-walk based fast forwarding algorithm (ii) an algorithm based on Hamiltonian simulation. Furthermore, by mapping the N-bit parity determination problem to a matrix powering problem, we provide no-go theorems that limit the quantum speedups achievable in powering non-Hermitian matrices.
翻訳日:2023-04-08 02:18:33 公開日:2021-03-15
# 量子アルゴリズムのための関数表現の効率的な構築

Efficient Construction of Functional Representations for Quantum Algorithms ( http://arxiv.org/abs/2103.08281v1 )

ライセンス: Link先を確認
Lukas Burgholzer, Rudy Raymond, Indranil Sengupta and Robert Wille(参考訳) 量子ハードウェアの実装において顕著な進歩により、対応するアルゴリズムを設計する効率的な方法やツールがますます重要になる。 これらのツールの多くは、特定の構成要素や量子アルゴリズム全体の関数表現に依存するが、本質的に指数関数的複雑性を示す。 この複雑さに対処するために、いくつかの代替表現が提案されているが、これらの表現の構成は依然としてボトルネックである。 本研究では, 決定図を代表的機能記述として用いることで, 可能な限り少ない中間表現で可能な限り多くの演算を実行するという考え方に基づいて, 量子関数の表現を効率的に構築するための解を提案する。 実験により、これらの解を適用することで、最先端の手法よりも高速に所望の表現を構築できることが示されている。 さらに、繰り返し構造(量子アルゴリズムで頻繁に発生する)が明示的に悪用される場合、指数関数的な改善が可能で、特定のアルゴリズムの機能を数秒で構築することができる。

Due to the significant progress made in the implementation of quantum hardware, efficient methods and tools to design corresponding algorithms become increasingly important. Many of these tools rely on functional representations of certain building blocks or even entire quantum algorithms which, however, inherently exhibit an exponential complexity. Although several alternative representations have been proposed to cope with this complexity, the construction of those representations remains a bottleneck. In this work, we propose solutions for efficiently constructing representations of quantum functionality based on the idea of conducting as many operations as possible on as small as possible intermediate representations -- using Decision Diagrams as a representative functional description. Experimental evaluations show that applying these solutions allows to construct the desired representations several factors faster than with state-of-the-art methods. Moreover, if repeating structures (which frequently occur in quantum algorithms) are explicitly exploited, exponential improvements are possible -- allowing to construct the functionality of certain algorithms within seconds, whereas the state of the art fails to construct it in an entire day.
翻訳日:2023-04-08 02:18:02 公開日:2021-03-15
# 量子メモリを用いたベル型絡み合いの大規模多重化

Massively-multiplexed generation of Bell-type entanglement using a quantum memory ( http://arxiv.org/abs/2103.08269v1 )

ライセンス: Link先を確認
Micha{\l} Lipka, Mateusz Mazelanik, Adam Leszczy\'nski, Wojciech Wasilewski, Micha{\l} Parniak(参考訳) 量子セキュア通信や量子分散コンピューティングなどのプロトコルを実現するための量子ネットワークアーキテクチャの基本構築ブロックとして、ハイレートな光子・マターの絡み合いがある。 現在のシステムの効率性とコヒーレンス時間を制限する技術的制約を克服するために、非常に多くの努力がなされているが、並列および多重化アーキテクチャを採用することが重要な相補的アプローチである。 ここでは、500以上のモードにまたがる2部分極偏光子状態の生成を実験的に実証し、量子ビット保存により2次光子のプログラム可能な遅延をウェーブベクター多重冷原子量子メモリで実現する。 Clauser, Horne, Shimony, Holtの不等式違反を3回以上の標準偏差で証明し、少なくとも45 {\mu}の保存時間を半分のモードで持続する。 偏光と波動ベクトル自由度の間のハイブリッドな絡み合いを形成する能力は、多重化能力だけでなく、新しいプロトコルの展望をもたらす。

High-rate generation of hybrid photon-matter entanglement remains a fundamental building block of quantum network architectures enabling protocols such as quantum secure communication or quantum distributed computing. While a tremendous effort has been made to overcome technological constraints limiting the efficiency and coherence times of current systems, an important complementary approach is to employ parallel and multiplexed architectures. Here we follow this approach experimentally demonstrating the generation of bipartite polarization-entangled photonic states across more than 500 modes, with a programmable delay for the second photon enabled by qubit storage in a wavevector multiplexed cold-atomic quantum memory. We demonstrate Clauser, Horne, Shimony, Holt inequality violation by over 3 standard deviations, lasting for at least 45 {\mu}s storage time for half of the modes. The ability to shape hybrid entanglement between the polarization and wavevector degrees of freedom provides not only multiplexing capabilities but also brings prospects for novel protocols.
翻訳日:2023-04-08 02:17:46 公開日:2021-03-15
# 共振・非共振系Jaynes-Cummings系の空洞損失に関する解析的アプローチ

Analytic approach to dynamics of the resonant and off-resonant Jaynes-Cummings systems with cavity losses ( http://arxiv.org/abs/2103.08257v1 )

ライセンス: Link先を確認
Soshun Ozaki, Hiromichi Nakazato(参考訳) キャビティ損失を伴うjaynes-cummings系のゼロ温度時間発展に関する新しい解析的手法を開発した。 キャビティと環境の現実的な結合を仮定すると、単純なマスター方程式が導出され、共鳴の場合の明示的な解析解が導かれる。 この解法は、単一励起状態だけでなく、多くの励起状態でも解析に適しており、光子コヒーレント状態の調査や、消散下での急激な崩壊や回復を観察することができる。 一方,オフ・リゾナントの場合,本研究は解析的・系統的手法を提案する。 小型・大規模の調律限界について検討し,広く用いられている現象学的治療が正当化される条件について検討した。 有限デチューニングを持つ様々な初期状態に対する時間発展の明示的な評価も提示される。

A new analytic approach to investigate the zero-temperature time evolution of the Jaynes-Cummings system with cavity losses is developed. With the realistic coupling between the cavity and the environment assumed, a simple master equation is derived, leading to the explicit analytic solution for the resonant case. This solution is suitable for the analyses not only on the single excitation states but also on many excitation states, which enables us to investigate the photon coherent state and to observe sharp collapses and revivals under dissipation. For the off-resonant case, on the other hand, the present study presents an analytic, systematic method instead. We examine the small and large detuning limits and discuss the condition where the widely-used phenomenological treatment is justified. Explicit evaluations of the time evolutions for various initial states with finite detuning are also presented.
翻訳日:2023-04-08 02:17:20 公開日:2021-03-15
# UrbanVCA: 土地・区画レベルでの都市土地利用変化をシミュレートするためのベクトルベースセルオートマトンフレームワーク

UrbanVCA: a vector-based cellular automata framework to simulate the urban land-use change at the land-parcel level ( http://arxiv.org/abs/2103.08538v1 )

ライセンス: Link先を確認
Yao Yao, Linlong Li, Zhaotang Liang, Tao Cheng, Zhenhui Sun, Peng Luo, Qingfeng Guan, Yaqian Zhai, Shihao Kou, Yuyang Cai, Lefei Li, Xinyue Ye(参考訳) 近年の都市開発シミュレーション研究において,リアルランドパーセルに基づくベクトルベースセルオートマトン (CA) が重要なトレンドとなっている。 ラスターベースおよびパーセルベースCAモデルと比較して、ベクトルCAモデルは複雑なデータ構造と技術的困難のために広く使用されることは困難である。 複数の機械学習モデルをサポートする新しいベクトルcaベースの都市開発シミュレーションフレームワークであるurbanvcaが本研究で提案されている。 シミュレーションの精度を向上するために,本研究では,実地空間に基づくベクトルベース景観指標(VecLI)モデルも提案する。 研究エリアとして広東省春手市を用いて、土地・区画レベルでの複数の都市土地利用変化をシミュレートし(fom=0.243)、景観指数の類似度は87.3%に達した。 2030年のシミュレーションの結果,エコ保護シナリオは都市集積を促進し,生態的侵略と耕作地喪失を少なくとも60%低減できることが示された。 また,都市プランナーや研究者向けのUrbanVCAソフトウェアを開発した。

Vector-based cellular automata (CA) based on real land-parcel has become an important trend in current urban development simulation studies. Compared with raster-based and parcel-based CA models, vector CA models are difficult to be widely used because of their complex data structures and technical difficulties. The UrbanVCA, a brand-new vector CA-based urban development simulation framework was proposed in this study, which supports multiple machine-learning models. To measure the simulation accuracy better, this study also first proposes a vector-based landscape index (VecLI) model based on the real land-parcels. Using Shunde, Guangdong as the study area, the UrbanVCA simulates multiple types of urban land-use changes at the land-parcel level have achieved a high accuracy (FoM=0.243) and the landscape index similarity reaches 87.3%. The simulation results in 2030 show that the eco-protection scenario can promote urban agglomeration and reduce ecological aggression and loss of arable land by at least 60%. Besides, we have developed and released UrbanVCA software for urban planners and researchers.
翻訳日:2023-04-08 02:10:44 公開日:2021-03-15
# 超伝導スルーシリコンviaの作製

Fabrication of superconducting through-silicon vias ( http://arxiv.org/abs/2103.08536v1 )

ライセンス: Link先を確認
Justin L. Mallek and Donna-Ruth W. Yost and Danna Rosenberg and Jonilyn L. Yoder and Gregory Calusine and Matt Cook and Rabindra Das and Alexandra Day and Evan Golden and David K. Kim and Jeffery Knecht and Bethany M. Niedzielski and Mollie Schwartz and Arjan Sevi and Corey Stull and Wayne Woods and Andrew J. Kerman and William D. Oliver(参考訳) 超伝導量子ビットに基づく量子システム内の回路複雑性の増大は、量子ビットコヒーレンスを維持しながら高い接続性を必要とする。 古典的なマイクロエレクトロニクスシステムは、スルーシリコンバイス(TSV)を含むインターポーラと3次元統合することで、相互接続密度の課題に対処してきたが、これらの統合技術を超伝導量子系に拡張することは困難である。 本稿では,高アスペクト比超伝導体 tsvs\textemdash 10 $\mu$m wide by 20 $\mu$m long by 200 $\mu$m deep\textemdash を実現する手法について検討する。 超伝導TSVの低温における直流およびマイクロ波特性を特徴付け,20mA以上の超伝導臨界電流を示す。 これらの高アスペクト比、高臨界電流超伝導TSVは超伝導量子プロセッサ内で高密度の垂直信号ルーティングを可能にする。

Increasing circuit complexity within quantum systems based on superconducting qubits necessitates high connectivity while retaining qubit coherence. Classical micro-electronic systems have addressed interconnect density challenges by using 3D integration with interposers containing through-silicon vias (TSVs), but extending these integration techniques to superconducting quantum systems is challenging. Here, we discuss our approach for realizing high-aspect-ratio superconducting TSVs\textemdash 10 $\mu$m wide by 20 $\mu$m long by 200 $\mu$m deep\textemdash with densities of 100 electrically isolated TSVs per square millimeter. We characterize the DC and microwave performance of superconducting TSVs at cryogenic temperatures and demonstrate superconducting critical currents greater than 20 mA. These high-aspect-ratio, high critical current superconducting TSVs will enable high-density vertical signal routing within superconducting quantum processors.
翻訳日:2023-04-08 02:10:24 公開日:2021-03-15
# 共鳴メタサーフェスからの自発的パラメトリックダウンコンバージョン

Spontaneous Parametric Down-Conversion from Resonant Metasurfaces ( http://arxiv.org/abs/2103.08524v1 )

ライセンス: Link先を確認
Tom\'as Santiago-Cruz, Anna Fedotova, Vitaliy Sultanov, Maximilian A. Weissflog, Dennis Arslan, Mohammadreza Younesi, Thomas Pertsch, Isabelle Staude, Frank Setzpfandt and Maria V. Chekhova(参考訳) 全誘電体光学メタ曲面は、異なる自由度で光を操作する能力と光周波数変換における優れた性能の両方から、ナノ光学におけるワークホースである。 ここでは、ニオブ酸リチウム量子光学メタサイトにおける光子対の自発的パラメトリックダウン変換による光子対の初回生成を、様々な波長で電気的および磁気的ミエ様共鳴で示す。 量子光学的準曲面の工学により、光子対スペクトルを制御的に調整する。 共鳴の周りの狭い帯域内では、同じ厚さと材質の未形成フィルムと比較して、対生成の速度が最大2桁に向上する。 これらの結果は、量子光学実験の新しい有望なプラットフォームである絡み合った光子のフラット光学ソースを可能にする。

All-dielectric optical metasurfaces are a workhorse in nano-optics due to both their ability to manipulate light in different degrees of freedom and their excellent performance at light frequency conversion. Here, we demonstrate first-time generation of photon pairs via spontaneous parametric-down conversion in lithium niobate quantum optical metasurfaces with electric and magnetic Mie-like resonances at various wavelengths. By engineering the quantum optical metasurface, we tailor the photon-pair spectrum in a controlled way. Within a narrow bandwidth around the resonance, the rate of pair production is enhanced up to two orders of magnitude compared to an unpatterned film of the same thickness and material. These results enable flat-optics sources of entangled photons -- a new promising platform for quantum optics experiments.
翻訳日:2023-04-08 02:09:56 公開日:2021-03-15
# 垂直時間依存雑音に対して頑健な任意の単軸回転の設計

Designing arbitrary single-axis rotations robust against perpendicular time-dependent noise ( http://arxiv.org/abs/2103.08506v1 )

ライセンス: Link先を確認
Bikun Li, F. A. Calderon-Vargas, Junkai Zeng, and Edwin Barnes(参考訳) 低周波時間依存ノイズは、完全にスケーラブルな量子コンピュータへの道のりの主な障害の1つである。 超伝導回路から半導体のスピンまで、ほとんどの固体量子ビットプラットフォームは1/f$のノイズの影響を受けている。 システムにおけるノイズ対策として用いられる様々な制御手法のうち、動的デカップリングシーケンスは最も効果的である。 しかし、ほとんどの動的疎結合列は、非物理的でアイデンティティ操作しか実装できない非有界および瞬時パルスを必要とする。 有界制御フィールドに制限される手法の中には、ラボ対応制御フィールドを持つ任意のゲートを実装するプロトコルが必要である。 本研究では,制御軸に垂直な低周波時間依存ノイズからシステムを遮蔽しながら,任意の単軸回転を実現する有界連続制御体の設計手法を提案する。 本手法は,一重項スピン量子ビットなどの制約付き制御を持つ量子システムに適用可能な非負の制御パルスのセットを提示することにより,汎用性を示す。 最後に、ランダムな量子バスでモデル化された古典的な1/f$のノイズとノイズに対する制御パルスのロバスト性を実証し、パルスが理想的な動的デカップリングシーケンスよりも優れていることを示した。

Low-frequency time-dependent noise is one of the main obstacles on the road towards a fully scalable quantum computer. The majority of solid-state qubit platforms, from superconducting circuits to spins in semiconductors, are greatly affected by $1/f$ noise. Among the different control techniques used to counteract noise effects on the system, dynamical decoupling sequences are one of the most effective. However, most dynamical decoupling sequences require unbounded and instantaneous pulses, which are unphysical and can only implement identity operations. Among methods that do restrict to bounded control fields, there remains a need for protocols that implement arbitrary gates with lab-ready control fields. In this work, we introduce a protocol to design bounded and continuous control fields that implement arbitrary single-axis rotations while shielding the system from low-frequency time-dependent noise perpendicular to the control axis. We show the versatility of our method by presenting a set of non-negative-only control pulses that are immediately applicable to quantum systems with constrained control, such as singlet-triplet spin qubits. Finally, we demonstrate the robustness of our control pulses against classical $1/f$ noise and noise modeled with a random quantum bath, showing that our pulses can even outperform ideal dynamical decoupling sequences.
翻訳日:2023-04-08 02:09:19 公開日:2021-03-15
# 量子鍵分布のためのラウンドロビン微分位相時間シフトプロトコル:理論と実験

Round-robin differential phase-time-shifting protocol for quantum key distribution: theory and experiment ( http://arxiv.org/abs/2103.08452v1 )

ライセンス: Link先を確認
Kai Wang, Ilaria Vagniluca, Jie Zhang, S{\o}ren Forchhammer, Alessandro Zavatta, Jesper B. Christensen, Davide Bacco(参考訳) 量子鍵分布(QKD)は、遠隔者間で共通の暗号鍵の確立を可能にする。 過去に導入されたQKDプロトコルの多くは、潜在的な盗聴者への情報漏洩を評価するために、通信回線上の信号妨害を監視するという課題を含む。 近年,信号の乱れの監視を回避できるQKDプロトコルが提案され,初期の実験で実証されている。 本稿では,実験の複雑さを高めたり,セキュリティ上の前提を緩和することなく,時間と位相の双方をヒルベルト空間次元の拡大に利用する,いわゆるラウンドロビン微分位相シフト(rrdps)プロトコルの新バージョンを提案する。 我々は,ラウンドロビン差動位相シフト(RRDPTS)プロトコルの攻撃シナリオにおけるセキュリティ証明を導き,実験パラメータの異なるRDPSに対して新しいプロトコルをベンチマークする。 さらに,弱いコヒーレントパルスとデコイ状態法を用いたrrdptsプロトコルの概念実証実験を行い,80km以上のファイバリンクを実証した。 その結果,RRDPTSプロトコルは高い量子ビット誤り率の条件下で,RDPSと比較して高い秘密鍵レートが得られることがわかった。

Quantum key distribution (QKD) allows the establishment of common cryptographic keys among distant parties. Many of the QKD protocols that were introduced in the past involve the challenge of monitoring the signal disturbance over the communication line, in order to evaluate the information leakage to a potential eavesdropper. Recently, a QKD protocol that circumvents the need for monitoring signal disturbance, has been proposed and demonstrated in initial experiments. Here, we propose a new version of this so-called round-robin differential phase-shifting (RRDPS) protocol, in which both time and phase degrees-of-freedom are utilized to enlarge the Hilbert space dimensionality, without increasing experimental complexity or relaxing security assumptions. We derive the security proofs of the round-robin differential phase-time-shifting (RRDPTS) protocol in the collective attack scenario and benchmark the new protocol against RRDPS for different experimental parameters. Furthermore, a proof-of-concept experiment of the RRDPTS protocol, using weak coherent pulses and decoy-state method, is demonstrated over 80 km of fiber link. Our results show that the RRDPTS protocol can achieve higher secret key rate in comparison with the RRDPS, in the condition of high quantum bit error rate.
翻訳日:2023-04-08 02:08:07 公開日:2021-03-15
# 雑音推定回路を用いた量子コンピュータにおける分極ノイズの緩和

Mitigating depolarizing noise on quantum computers with noise-estimation circuits ( http://arxiv.org/abs/2103.08591v1 )

ライセンス: Link先を確認
Miroslav Urbanek, Benjamin Nachman, Vincent R. Pascuzzi, Andre He, Christian W. Bauer, Wibe A. de Jong(参考訳) 現在の量子コンピュータの大きな問題はノイズである。 多くの異なるノイズチャネルがあるが、デポーラライズノイズモデルは、多くの量子ビットやゲートを含む大きな回路の平均ノイズを適切に記述することが多い。 本稿では,まずその周波数を雑音推定回路で推定し,その推定レートを用いて目標回路の出力を補正することにより,除極雑音を軽減する手法を提案する。 この手法はハイゼンベルク模型のシミュレーションによって実験的に検証される。 我々は,数百個のCNOTゲートを含む回路であっても,読み出し誤り訂正,ランダム化コンパイル,ゼロノイズ外挿と組み合わせることで,正確な結果が得られることを確認した。

A significant problem for current quantum computers is noise. While there are many distinct noise channels, the depolarizing noise model often appropriately describes average noise for large circuits involving many qubits and gates. We present a method to mitigate the depolarizing noise by first estimating its rate with a noise-estimation circuit and then correcting the output of the target circuit using the estimated rate. The method is experimentally validated on the simulation of the Heisenberg model. We find that our approach in combination with readout-error correction, randomized compiling, and zero-noise extrapolation produces results close to exact results even for circuits containing hundreds of CNOT gates.
翻訳日:2023-04-08 02:00:23 公開日:2021-03-15
# 超伝導量子ビットにおけるミリ秒コヒーレンス

Millisecond coherence in a superconducting qubit ( http://arxiv.org/abs/2103.08578v1 )

ライセンス: Link先を確認
Aaron Somoroff, Quentin Ficheux, Raymond A. Mencia, Haonan Xiong, Roman V. Kuzmin, Vladimir E. Manucharyan(参考訳) 物理量子ビットに対する制御の度合いの増大は、量子コンピューティング研究の重要な要素である。 ラムゼイコヒーレンスタイムが$t_2^*= 1.48 \pm 0.13 \mathrm{~ms}$ に達するフラックスニウム型の超伝導量子ビットを報告し,その値の大きさを1桁超えた。 その結果、平均的な単一量子ビットゲートの忠実度は、我々の知識、その他の固体量子システムに勝る0.999ドル以上成長した。 さらに, 2次励起状態へのパリティ・forbidden遷移のエネルギー緩和を測定することにより, 回路内のコヒーレンスに対する非平衡準粒子の影響を除外した。 最近のフラックスニウム上の2量子ビットゲートのデモンストレーションと組み合わせることで、次世代の量子プロセッサへの道を開いた。

Increasing the degree of control over physical qubits is a crucial component of quantum computing research. We report a superconducting qubit of fluxonium type with the Ramsey coherence time reaching $T_2^*= 1.48 \pm 0.13 \mathrm{~ms}$, which exceeds the state of the art value by an order of magnitude. As a result, the average single-qubit gate fidelity grew above $0.9999$, surpassing, to our knowledge, any other solid-state quantum system. Furthermore, by measuring energy relaxation of the parity-forbidden transition to second excited state, we exclude the effect of out-of-equilibrium quasiparticles on coherence in our circuit. Combined with recent demonstrations of two-qubit gates on fluxoniums, our result paves the way for the next generation of quantum processors.
翻訳日:2023-04-08 02:00:13 公開日:2021-03-15
# ビッグバンの遺物としての古典物理学とハミルトン量子力学

Classical Physics and Hamiltonian Quantum Mechanics as Relics of the Big Bang ( http://arxiv.org/abs/2103.08574v1 )

ライセンス: Link先を確認
James B. Hartle(参考訳) 宇宙全体のような閉システムの量子力学の基本的な定式化では、閉システムの代替時間履歴の確率を予測するために3種類の情報が必要である。 これらは素粒子の作用汎関数であり、宇宙の量子状態であり、我々の特定の歴史の記述である。 このような量子宇宙論の定式化において、慣れ親しんだ経験とハミルトン量子力学の「準古典的領域」の起源と、その好ましい時間について論じる。 これらの宇宙の特徴は量子論の一般的な性質ではなく、閉じた系の量子状態とダイナミクスの理論の結果としてプランク時間後に生じる近似的な性質であると論じられている。

In a fundamental formulation of the quantum mechanics of a closed system such as the universe as a whole, three forms of information are needed to make predictions for the probabilities of alternative time histories of the closed system . These are the action functional of the elementary particles, the quantum istate of the universe, and the description of our specific history. We discuss the origin of the "quasiclassical realm" of familiar experience and Hamiltonian quantum mechanics with its preferred time in such a formulation of quantum cosmology. It is argued that these features of the universe are not general properties of quantum theory, but rather approximate features that are emergent after the Planck time as a consequence of theories of the closed system's quantum state and dynamics.
翻訳日:2023-04-08 01:59:55 公開日:2021-03-15
# パラメータの関数推定におけるハイゼンベルクスケーリング精度

Heisenberg scaling precision in the estimation of functions of parameters ( http://arxiv.org/abs/2103.08564v1 )

ライセンス: Link先を確認
Danilo Triggiani, Paolo Facchi, Vincenzo Tamma(参考訳) 一般の$M$チャネル線形ネットワークで符号化された任意のパラメータの任意の数$l$の関数の推定において,ハイゼンベルクのスケーリング精度に達するメトロジー戦略を提案する。 この方式は単一モードの圧縮真空とホモダインのみを単一の出力チャネルで検出するため、実験的に実現可能である。 2つの補助線形ネットワークが必要であり、その役割は2つある: 干渉計と相互作用した後、信号が単一チャネルに再焦点され、線形ネットワークの分析により推定されるパラメータの関数が固定される。 再焦点はパラメータに関する知識を必要とするが,事前測定に必要な精度はショットノイズであり,古典的な測定で実現可能であることを示す。 最後に,補助ステージの選択によって未知パラメータの関数を推定できる2つのパラダイムスキームについて考察する。

We propose a metrological strategy reaching Heisenberg scaling precision in the estimation of functions of any number $l$ of arbitrary parameters encoded in a generic $M$-channel linear network. This scheme is experimentally feasible since it only employs a single-mode squeezed vacuum and homodyne detection on a single output channel. Two auxiliary linear network are required and their role is twofold: to refocus the signal into a single channel after the interaction with the interferometer, and to fix the function of the parameters to be estimated according to the linear network analysed. Although the refocusing requires some knowledge on the parameters, we show that the required precision on the prior measurement is shot-noise, and thus achievable with a classic measurement. We conclude by discussing two paradigmatic schemes in which the choice of the auxiliary stages allows to change the function of the unknown parameter to estimate.
翻訳日:2023-04-08 01:58:59 公開日:2021-03-15
# ハードウェア効率の良い大型核スピンの誤り訂正符号

Hardware-efficient error-correcting codes for large nuclear spins ( http://arxiv.org/abs/2103.08548v1 )

ライセンス: Link先を確認
Jonathan A. Gross, Cl\'ement Godfrin, Alexandre Blais, Eva Dupont-Ferrier(参考訳) 普遍量子コンピュータは、エラーに対して堅牢な大規模な量子ビットネットワークを必要とする。 半導体プラットフォームを用いたシリコンのドナー核スピンに関する最近の理論的および実験的研究は、そのコヒーレントな挙動とスケーラビリティの可能性を示している。 本稿では,原子核スピンの位相反転を明示的な実験によって補正する,ハードウェア効率の高い量子プロトコルを提案する。 本稿では、ドナーの核スピンによって提供される大きなヒルベルト空間を用いて情報をエンコードし、ドナーの電子スピンを誤差補正のアンシラとして用いるmahs符号化(moment angular system encoding)を紹介する。 現在の実験的な操作フィリティを用いたシミュレーションは、既存のスピン量子エラー補正プロトコルよりも論理的量子ビットフィリティが大幅に向上することを予測している。 これらの結果は、修正されたスピンベースの量子ビットに対して実現可能なブループリントを提供する。

Universal quantum computers require a large network of qubits robust against errors. Recent theoretical and experimental studies on donor nuclear spins in silicon, engineered on semiconductor platforms compatible with industrial fabrication, show their coherent behavior and potential for scalability. Here we present a hardware-efficient quantum protocol that corrects phase flips of a nuclear spin using explicit experimentally feasible operations. We introduce the MAUS encoding (Moment AngUlar System encoding) which uses the large Hilbert space provided by the nuclear spin of the donor to encode the information and employ the electron spin of the donor as an ancilla for error correction. Simulations using present-day experimental manipulation fidelities predict significant improvement in logical qubit fidelity over existing spin quantum-error-correction protocols. These results provides a realizable blueprint for a corrected spin-based qubit.
翻訳日:2023-04-08 01:58:22 公開日:2021-03-15
# エントロピーとは何か? 偶然のゲームからの新しい視点

What is Entropy? A new perspective from games of chance ( http://arxiv.org/abs/2103.08681v1 )

ライセンス: Link先を確認
Sarah Brandsen, Isabelle Jianing Geng, Gilad Gour(参考訳) エントロピーの様々な分野における中心的な役割を考えると、一つの重要な課題はエントロピーを定義するための体系的で統一的なアプローチを開発することである。 ギャンブルゲームにおけるシステムの性能は、その出力の不確実性にのみ依存するため、物理的なシステムの不確実性を特徴づける自然な候補となる。 本研究では,主観化,条件付き主観化,チャネル主観化に対応するプレオーダーを誘導するゲーム群を構築する。 最後に,すべてのプレオーダーに対して操作的解釈を提供し,これらの結果が動的資源理論と関連性を示し,漸近的に連続する古典的動的エントロピーを求める。

Given entropy's central role in multiple areas of physics and science, one important task is to develop a systematic and unifying approach to defining entropy. Games of chance become a natural candidate for characterising the uncertainty of a physical system, as a system's performance in gambling games depends solely on the uncertainty of its output. In this work, we construct families of games which induce pre-orders corresponding to majorization, conditional majorization, and channel majorization. Finally, we provide operational interpretations for all pre-orders, show the relevance of these results to dynamical resource theories, and find the only asymptotically continuous classical dynamic entropy.
翻訳日:2023-04-08 01:52:43 公開日:2021-03-15
# HDTest:脳にインスパイアされた超次元コンピューティングのファズテスト

HDTest: Differential Fuzz Testing of Brain-Inspired Hyperdimensional Computing ( http://arxiv.org/abs/2103.08668v1 )

ライセンス: Link先を確認
Dongning Ma, Jianmin Guo, Yu Jiang, Xun Jiao(参考訳) 脳インスパイアされた超次元コンピューティング(英: brain-inspired hyperdimensional computing、HDC)は、脳の認識を模倣し、完全に分散されたホログラフィック表現と(擬似)ランダム性を持つ超次元ベクトルを利用する新しい計算パラダイムである。 ディープニューラルネットワーク(DNN)のような他の機械学習(ML)手法と比較して、HDCは高エネルギー効率、低レイテンシ、ワンショット学習などいくつかの利点があり、幅広いアプリケーションにおいて有望な代替候補となっている。 しかし、HDCモデルの信頼性と堅牢性はまだ検討されていない。 本稿では,稀な入力下での予期せぬ動作や誤動作を自動的に顕在化することにより,HDTestのHDCモデルの設計,実装,評価を行う。 HDTestのコアアイデアは、ガイド付き差分ファズテストに基づいている。 hdcにおけるクエリハイパーベクトルと参照ハイパーベクトルの間の距離によって誘導されたhdtestは、元の入力を継続的に変更して、hdcモデルの不正確な振る舞いを誘発する新しい入力を生成する。 従来のMLテストメソッドと比較して、HDTestはオリジナルの入力を手動でラベル付けする必要はない。 手書きの数字の分類を例にとると、hdtestは何千もの逆入力を生成し、不可解な摂動でhdcモデルをうまく騙すことができる。 平均してHDTestは、コモディティコンピュータ上で1分以内に約400の逆入力を生成することができる。 最後に、HDTest生成した入力を用いてHDCモデルをトレーニングすることにより、HDCモデルの堅牢性を強化することができる。 本稿では,脳に触発された計算モデルを体系的にテストする最初の試みについて述べる。

Brain-inspired hyperdimensional computing (HDC) is an emerging computational paradigm that mimics brain cognition and leverages hyperdimensional vectors with fully distributed holographic representation and (pseudo)randomness. Compared to other machine learning (ML) methods such as deep neural networks (DNNs), HDC offers several advantages including high energy efficiency, low latency, and one-shot learning, making it a promising alternative candidate on a wide range of applications. However, the reliability and robustness of HDC models have not been explored yet. In this paper, we design, implement, and evaluate HDTest to test HDC model by automatically exposing unexpected or incorrect behaviors under rare inputs. The core idea of HDTest is based on guided differential fuzz testing. Guided by the distance between query hypervector and reference hypervector in HDC, HDTest continuously mutates original inputs to generate new inputs that can trigger incorrect behaviors of HDC model. Compared to traditional ML testing methods, HDTest does not need to manually label the original input. Using handwritten digit classification as an example, we show that HDTest can generate thousands of adversarial inputs with negligible perturbations that can successfully fool HDC models. On average, HDTest can generate around 400 adversarial inputs within one minute running on a commodity computer. Finally, by using the HDTest-generated inputs to retrain HDC models, we can strengthen the robustness of HDC models. To the best of our knowledge, this paper presents the first effort in systematically testing this emerging brain-inspired computational model.
翻訳日:2023-04-08 01:51:48 公開日:2021-03-15
# 量子コインフリップ、量子ビット計測および一般化フィボナッチ数

Quantum Coin Flipping, Qubit Measurement and Generalized Fibonacci Numbers ( http://arxiv.org/abs/2103.08639v1 )

ライセンス: Link先を確認
Oktay K. Pashaev(参考訳) ハダマール量子硬貨測定の問題は、繰り返し連続する最後の状態の任意の数を、重複状態のフィボナッチ列、三重項状態のトリボナッチ数、任意のn$-倍状態のn$-ボナッチ数を用いて定式化する。 繰り返し状態の任意の位置の確率公式はルーカス数とフィボナッチ数によって導かれる。 一般の qubit コインの場合、公式は Fibonacci で表され、より一般的には qubit 確率の$N$-Bonacci 多項式で表される。 これらの確率の生成関数、これらの確率の黄金比制限、および対応する状態のシャノンエントロピーを決定する。 一般化されたボルン則と$n$-qubit測度ゲートの普遍性により、一般の$n$-qubit状態の項で問題を定式化し、ヒルベルト空間における射影作用素を状態のフィボナッチ木に制約する。 結果は、一般化されたFibonacci-$N$-Bonacciシーケンスによって記述された、クォートおよびキューディット硬貨に一般化される。

The problem of Hadamard quantum coin measurement in $n$ trials, with arbitrary number of repeated consecutive last states is formulated in terms of Fibonacci sequences for duplicated states, Tribonacci numbers for triplicated states and $N$-Bonacci numbers for arbitrary $N$-plicated states. The probability formulas for arbitrary position of repeated states are derived in terms of Lucas and Fibonacci numbers. For generic qubit coin, the formulas are expressed by Fibonacci and more general, $N$-Bonacci polynomials in qubit probabilities. The generating function for probabilities, the Golden Ratio limit of these probabilities and Shannon entropy for corresponding states are determined. By generalized Born rule and universality of $n$-qubit measurement gate, we formulate problem in terms of generic $n$-qubit states and construct projection operators in Hilbert space, constrained on the Fibonacci tree of the states. The results are generalized to qutrit and qudit coins, described by generalized Fibonacci-$N$-Bonacci sequences.
翻訳日:2023-04-08 01:51:06 公開日:2021-03-15
# 超不変MERA:電力線相関による近似ホログラフィック誤差補正符号

Hyper-Invariant MERA: Approximate Holographic Error Correction Codes with Power-Law Correlations ( http://arxiv.org/abs/2103.08631v1 )

ライセンス: Link先を確認
ChunJun Cao, Jason Pollack, Yixu Wang(参考訳) 我々は,量子誤り訂正符号を顕在的に (ほぼ) 生成し, パワーロー相関関数をサポート可能なホログラフィックテンソルネットワークのクラスを考える。 ネットワークが消去補正符号としても機能する単一タイプのテンソルで構成されている場合、局所的に収縮可能であり、電力-法則相関関数を持続できないことを示す。 このノーゴー定理と、効率的な変分アンザッツに対する局所縮約性の所望性により、パワー-ロー相関を支持する複数のテンソルからなるネットワークを構築するためのガイドラインを提供する。 また、変動パラメータが小さい極限におけるホログラフィックHaPPYペンタゴン符号を近似したそのようなネットワークを明示的に構築する。

We consider a class of holographic tensor networks that are efficiently contractible variational ansatze, manifestly (approximate) quantum error correction codes, and can support power-law correlation functions. In the case when the network consists of a single type of tensor that also acts as an erasure correction code, we show that it cannot be both locally contractible and sustain power-law correlation functions. Motivated by this no-go theorem, and the desirability of local contractibility for an efficient variational ansatz, we provide guidelines for constructing networks consisting of multiple types of tensors that can support power-law correlation. We also provide an explicit construction of one such network, which approximates the holographic HaPPY pentagon code in the limit where variational parameters are taken to be small.
翻訳日:2023-04-08 01:50:45 公開日:2021-03-15
# 三次元空間における自己補正量子メモリの対称性

Symmetry protected self correcting quantum memory in three space dimensions ( http://arxiv.org/abs/2103.08622v1 )

ライセンス: Link先を確認
Charles Stahl and Rahul Nandkishore(参考訳) 自己補正量子メモリが非ゼロ温度で物理的に妥当な環境で存在できるかどうかは、まだ大きな未解決問題である。 最近、対称性は3次元の空間における位相的(spt)系を保護し、1-形式対称性を尊重する量子力学がそのような量子記憶を実現するという強い制約を受けることが議論されている。 これはWalker-Wang符号でどのように機能するかを説明し、これらのデシダータを具体化する。 この設定では、1-形式対称性が熱力学的極限でゼロとなる系のサブボリュームに強制されるには十分であることを示す。 これは州の「SPT」文字は必須ではないことを強く示唆している。 我々は、自己補正量子メモリを実現する自明な(パラ磁性)バルクを持つ明示的な例を構築してこれを確認する。 したがって、3次元系の測度0サブボリュームにおける1-形式対称性の強制は、非零温度での自己補正量子メモリの安定化に十分であることを示す。

Whether self correcting quantum memories can exist at non-zero temperature in a physically reasonable setting remains a great open problem. It has recently been argued [1] that symmetry protected topological (SPT) systems in three space dimensions subject to a strong constraint -- that the quantum dynamics respect a 1-form symmetry -- realize such a quantum memory. We illustrate how this works in Walker-Wang codes, which provide a specific realization of these desiderata. In this setting we show that it is sufficient for the 1-form symmetry to be enforced on a sub-volume of the system which is measure zero in the thermodynamic limit. This strongly suggests that the `SPT' character of the state is not essential. We confirm this by constructing an explicit example with a trivial (paramagnetic) bulk that realizes a self correcting quantum memory. We therefore show that the enforcement of a 1-form symmetry on a measure zero sub-volume of a three dimensional system can be sufficient to stabilize a self correcting quantum memory at non-zero temperature.
翻訳日:2023-04-08 01:50:31 公開日:2021-03-15
# インターリービング:フォールトトレラントフォトニック量子コンピューティングのためのモジュールアーキテクチャ

Interleaving: Modular architectures for fault-tolerant photonic quantum computing ( http://arxiv.org/abs/2103.08612v1 )

ライセンス: Link先を確認
Hector Bombin, Isaac H. Kim, Daniel Litinski, Naomi Nickerson, Mihir Pant, Fernando Pastawski, Sam Roberts, Terry Rudolph(参考訳) 有用なフォールトトレラント量子コンピュータは、非常に多くの物理キュービットを必要とする。 量子コンピュータは、しばしばゲートと測定を実行する静的量子ビットの配列として設計される。 フォトニック量子ビットは異なるアプローチを必要とする。 フォトニック核融合ベースの量子コンピューティング(FBQC)では、主要なハードウェアコンポーネントはリソース状態発生器(RSG)と、導波路とスイッチを介して接続される融合装置である。 rsgsは数個のフォトニック量子ビットの小さな絡み合い状態を生成するが、融合装置は異なる資源状態間の絡み合い測定を行い、計算を実行する。 さらに、光ファイバーなどの低損失フォトニック遅延は、数千のフォトニック量子ビットを同時に記憶する固定時間量子メモリとして使用できる。 本稿では,FBQCのモジュールアーキテクチャについて述べる。これらのコンポーネントを結合して1つのRSGとそれに関連する融合デバイスと数個のファイバ遅延からなる「インターリービングモジュール」を形成する。 遅延の乗法力を利用すると、各加群は計算ヒルベルト空間に数千の物理キュービットを加えることができる。 モジュールのネットワークは普遍的なフォールトトレラント量子コンピュータであり,その例として表面符号と格子手術を用いる。 数値解析により,1km長繊維遅延を含むモジュールのネットワークにおいて,各RSGは4つの論理的距離-35面符号量子ビットを生成するとともに,光子損失率を2%以上許容する。 本研究では, インターリーブと非局所ファイバー接続のさらなる利用の組み合わせにより, 論理演算のコストを低減し, 周期境界や星状表面符号など, 従来型でないジオメトリの実装が容易になることを示す。 インターリービングは純粋に光学的アーキテクチャを超えて適用され、多くの小さな非接続の物質量子ビットデバイスを光子に変換して大規模量子コンピュータに変換することもできる。

Useful fault-tolerant quantum computers require very large numbers of physical qubits. Quantum computers are often designed as arrays of static qubits executing gates and measurements. Photonic qubits require a different approach. In photonic fusion-based quantum computing (FBQC), the main hardware components are resource-state generators (RSGs) and fusion devices connected via waveguides and switches. RSGs produce small entangled states of a few photonic qubits, whereas fusion devices perform entangling measurements between different resource states, thereby executing computations. In addition, low-loss photonic delays such as optical fiber can be used as fixed-time quantum memories simultaneously storing thousands of photonic qubits. Here, we present a modular architecture for FBQC in which these components are combined to form "interleaving modules" consisting of one RSG with its associated fusion devices and a few fiber delays. Exploiting the multiplicative power of delays, each module can add thousands of physical qubits to the computational Hilbert space. Networks of modules are universal fault-tolerant quantum computers, which we demonstrate using surface codes and lattice surgery as a guiding example. Our numerical analysis shows that in a network of modules containing 1-km-long fiber delays, each RSG can generate four logical distance-35 surface-code qubits while tolerating photon loss rates above 2% in addition to the fiber-delay loss. We illustrate how the combination of interleaving with further uses of non-local fiber connections can reduce the cost of logical operations and facilitate the implementation of unconventional geometries such as periodic boundaries or stellated surface codes. Interleaving applies beyond purely optical architectures, and can also turn many small disconnected matter-qubit devices with transduction to photons into a large-scale quantum computer.
翻訳日:2023-04-08 01:50:01 公開日:2021-03-15
# ドメイン適応によるAIフェアネス

AI Fairness via Domain Adaptation ( http://arxiv.org/abs/2104.01109v1 )

ライセンス: Link先を確認
Neil Joshi and Phil Burlina(参考訳) ディープラーニング(DL)アプローチは、診断AIを含む多くのタスクにおいて、人間レベルのパフォーマンスに到達しているが、現在では、AIプライバシ、ドメインの一般化、公正性など、DLデプロイメントに影響を与える可能性のある課題に焦点を当てている。 この研究でこの最後の課題に対処する。 本稿では,保護的あるいは敏感な要因に対して,aiの公平性を保証する新しい手法について考察する。 この方法は、トレーニングセット強化によるドメイン適応を用いて、バイアスカウンティングトレーニングデータ不均衡に取り組む。 より具体的には、人口不足に対するより合成的なトレーニングサンプルの生成を可能にする生成モデルを使用する。 本稿では,年齢関連黄斑変性症(AMD)の診断に本手法を適用した。 我々の実験では、元々バイアスのあるamd診断モデルから始めると、この方法が公平性を改善する能力を持つことが示されている。

While deep learning (DL) approaches are reaching human-level performance for many tasks, including for diagnostics AI, the focus is now on challenges possibly affecting DL deployment, including AI privacy, domain generalization, and fairness. This last challenge is addressed in this study. Here we look at a novel method for ensuring AI fairness with respect to protected or sensitive factors. This method uses domain adaptation via training set enhancement to tackle bias-causing training data imbalance. More specifically, it uses generative models that allow the generation of more synthetic training samples for underrepresented populations. This paper applies this method to the use case of detection of age related macular degeneration (AMD). Our experiments show that starting with an originally biased AMD diagnostics model the method has the ability to improve fairness.
翻訳日:2023-04-08 01:42:18 公開日:2021-03-15
# please don't go -- オープンソースソフトウェアへの女性参加を促進するための包括的アプローチ

Please Don't Go -- A Comprehensive Approach to Increase Women's Participation in Open Source Software ( http://arxiv.org/abs/2103.08763v1 )

ライセンス: Link先を確認
Bianca Trinkenreich(参考訳) 女性はソフトウェア開発業界の従業員の24%未満であり、さまざまな偏見や偏見を経験しています。 多様性とマルチジェンダーの参加を促進する様々な努力にもかかわらず、女性はオープンソースソフトウェア(OSS)プロジェクトにおいてさらに過小評価されている。 OSSコミュニティはどのようにして女性によるプロジェクトへの参加を増やすことができるのか? 私は、異なるOSSキャリアパスを特定し、OSSに参加または離脱する女性のモチベーションの全体像と成功の定義を開発します。 この経験的な調査に基づいて、Linux Foundationと協力して、女性に焦点を当てたアトラクションと維持戦略を設計します。 戦略の実施前後において、実践の状況を評価し、戦略の意味を理解するための実証研究を行います。

Women represent less than 24% of employees in the software development industry and experience various types of prejudice and bias. Despite various efforts to increase diversity and multi-gendered participation, women are even more underrepresented in Open Source Software (OSS) projects. In my PhD, I investigate the following question: How can OSS communities increase women's participation in their projects? I will identify different OSS career pathways and develop a holistic view of women's motivations to join or leave OSS, as well as their definitions of success. Based on this empirical investigation, I will work together with the Linux Foundation to design attraction and retention strategies focused on women. Before and after implementing the strategies, I will conduct empirical studies to evaluate the state of the practice and understand the implications of the strategies.
翻訳日:2023-04-08 01:41:29 公開日:2021-03-15
# 電子アンシラを有する分子核キュディット[VO(TPP)]の制御されたコヒーレントダイナミクス

Controlled coherent dynamics of [VO(TPP)], a prototype molecular nuclear qudit with an electronic ancilla ( http://arxiv.org/abs/2103.08730v1 )

ライセンス: Link先を確認
Simone Chicco, Alessandro Chiesa, Giuseppe Allodi, Elena Garlatti, Matteo Atzori, Lorenzo Sorace, Roberto De Renzi, Roberta Sessoli, and Stefano Carretta(参考訳) 我々は,[VO(TPP)] (バナジルテトラフェニルポルフィリン酸塩) が,マルチレベル(量子)単位の符号化情報に基づく量子計算アルゴリズムの実装に適した有望なシステムであることを示す。 実際、超微細な相互作用によって結合された電子スピン1/2を核スピン7/2に埋め込む。 我々はこれを広範にブロードバンド核磁気共鳴研究により示し、これは核スピン-ハミルトンを特徴づけ、磁場の関数としてスピン脱落時間を計測することを可能にする。 さらに,電子量子ビットの状態によって条件付けられた核スピン遷移が,強い超微細結合によって引き起こされる極めて長いコヒーレンス時間と有効四極結合のおかげで,共振型高周波パルスによって個別に対処およびコヒーレントに操作可能であることを示すために,ターゲット測定と数値シミュレーションを組み合わせる。 このアプローチは、新しい分子量子化システムを開発するための新しい視点を開くかもしれない。

We show that [VO(TPP)] (vanadyl tetraphenylporphyrinate) is a promising system suitable to implement quantum computation algorithms based on encoding information in multi-level (qudit) units. Indeed, it embeds an electronic spin 1/2 coupled through hyperfine interaction to a nuclear spin 7/2, both characterized by remarkable coherence. We demonstrate this by an extensive broadband nuclear magnetic resonance study, which allow us to characterize the nuclear spin-Hamiltonian and to measure the spin dephasing time as a function of the magnetic field. In addition, we combine targeted measurements and numerical simulations to show that nuclear spin transitions conditioned by the state of the electronic qubit can be individually addressed and coherently manipulated by resonant radio-frequency pulses, thanks to the remarkably long coherence times and the effective quadrupolar coupling induced by the strong hyperfine coupling. This approach may open new perspectives for developing new molecular qubit-qudit systems.
翻訳日:2023-04-08 01:41:07 公開日:2021-03-15
# 量子ネットワークにおける匿名・秘密通信

Anonymous and secret communication in quantum networks ( http://arxiv.org/abs/2103.08722v1 )

ライセンス: Link先を確認
Christopher Thalacker, Frederik Hahn, Jarn de Jong, Anna Pappa, Stefanie Barz(参考訳) セキュア通信は量子ネットワークの重要な応用の1つである。 近年、古典的通信プロトコルにおけるアイデンティティ保護の要求に続き、量子ネットワークにも匿名性の必要性が出現している。 ここでは、量子物理学によって、ネットワーク上のセキュアな通信に加えて、当事者のアイデンティティを秘密にすることができることを実証する。 このような匿名な量子会議鍵契約は、量子ネットワーク内で多部交絡状態を共有することによって実現される。 このプロトコルを4つのパーティで実証し,ネットワークのサブセット – 2つのパーティと3つのパーティの異なる組み合わせ – にキーを設定しながら,参加者を匿名にしておく。 さらに、プロトコルが検証可能であることを示し、複数の鍵生成および検証ルーチンを実行する。 私たちの研究は、ネットワーク化されたコミュニケーションの鍵となる課題の1つに対処しています。

Secure communication is one of the key applications of quantum networks. In recent years, following the demands for identity protection in classical communication protocols, the need for anonymity has also emerged for quantum networks. Here, we demonstrate that quantum physics allows parties - besides communicating securely over a network - to also keep their identities secret. We implement such an anonymous quantum conference key agreement by sharing multipartite entangled states in a quantum network. We demonstrate the protocol with four parties and establish keys in subsets of the network - different combinations of two and three parties - whilst keeping the participating parties anonymous. We additionally show that the protocol is verifiable and run multiple key generation and verification routines. Our work thus addresses one of the key challenges of networked communication: keeping the identities of the communicating parties private.
翻訳日:2023-04-08 01:40:45 公開日:2021-03-15
# $\mathbb{C}^6$ における Zauner の MUB Conjecture の証明と反対

Evidence for and against Zauner's MUB Conjecture in $\mathbb{C}^6$ ( http://arxiv.org/abs/2103.08703v1 )

ライセンス: Link先を確認
Gary McConnell, Harry Spencer and Afaq Tahir(参考訳) 素数ではない合成次元の$d$に対して、$\mathbb{C}^d$における互いにバイアスのない基底の証明可能な極大集合を見つけるという問題は、完全に開である。 最初の興味深い場合、$d=6$で、Zaunerは3つの MUB しか存在しないと予測した。 有限体上のベクトル空間におけるそれらの 'shadows' を見て、$d=6$で可能な代数解を探る。 主な結果は、ザウナー予想の反例が存在すれば、数個の異なる素数を減少させることでそのような影を残さず、その代数的複雑性レベルは、現在のよく知られた例よりもずっと高いものとなる。 しかし、素数 $q \equiv 5 \bmod 12$ の場合には、少なくとも正式には反対方向を指し示すいくつかの興味深い証拠を示すことができる。 $\mathbb{C}^6$ では、3つの MUB の集合に互いに偏りのないベクトルが1つも発見されていない。 しかし、これらの有限体において、3つの「一般化された MUBs」の集合と、命題 4 番目の MUB の4つのベクトルの正規直交集合は、すべて自然に数体に持ち上げられる。

The problem of finding provably maximal sets of mutually unbiased bases in $\mathbb{C}^d$, for composite dimensions $d$ which are not prime powers, remains completely open. In the first interesting case, $d=6$, Zauner predicted that there can exist no more than three MUBs. We explore possible algebraic solutions in $d=6$ by looking at their `shadows' in vector spaces over finite fields. The main result is that if a counter-example to Zauner's conjecture were to exist, then it would leave no such shadow upon reduction modulo several different primes, forcing its algebraic complexity level to be much higher than that of current well-known examples. In the case of prime powers $q \equiv 5 \bmod 12$, however, we are able to show some curious evidence which -- at least formally -- points in the opposite direction. In $\mathbb{C}^6$, not even a single vector has ever been found which is mutually unbiased to a set of three MUBs. Yet in these finite fields we find sets of three `generalised MUBs' together with an orthonormal set of four vectors of a putative fourth MUB, all of which lifts naturally to a number field.
翻訳日:2023-04-08 01:40:31 公開日:2021-03-15
# 大きな捕捉イオン結晶による変位・電界の量子エンハンスセンシング

Quantum-enhanced sensing of displacements and electric fields with large trapped-ion crystals ( http://arxiv.org/abs/2103.08690v1 )

ライセンス: Link先を確認
Kevin A. Gilmore, Matthew Affolter, Robert J. Lewis-Swan, Diego Barberena, Elena Jordan, Ana Maria Rey, John J. Bollinger(参考訳) 超低温原子系の単一量子レベルへの分離と制御の開発は、量子センシングの大幅な進歩をもたらしたが、絡み合いを利用した現実世界の応用における量子優位性は依然として核となる課題である。 そこで本研究では,多体量子エンハンス型センサを用いて,$\sim 150$ 捕獲イオンの大きな結晶を用いて弱変位と電界を検出する。 結晶の質量振動モードの中心は、測定装置として高Q機械振動子、集合電子スピンとして機能する。 変位前に発振器と集合スピンを絡み合わせることにより、多体エコーを介してコヒーレントダイナミクスを制御することにより、微妙なスピン運動絡みを利用して、変位をスピン回転にマッピングし、量子バックアクションを避け、不規則な熱ノイズをキャンセルすることができる。 我々は、標準量子限界以下の8.8 \pm 0.4~$dbの変位に対する量子高感度と、240\pm10~\mathrm{nv}\mathrm{m}^{-1}$ in $1$ second (240~\mathrm{nv}\mathrm{m}^{-1}/\sqrt{\mathrm{hz}}$)の電界測定感度を報告する。

Developing the isolation and control of ultracold atomic systems to the level of single quanta has led to significant advances in quantum sensing, yet demonstrating a quantum advantage in real world applications by harnessing entanglement remains a core task. Here, we realize a many-body quantum-enhanced sensor to detect weak displacements and electric fields using a large crystal of $\sim 150$ trapped ions. The center of mass vibrational mode of the crystal serves as high-Q mechanical oscillator and the collective electronic spin as the measurement device. By entangling the oscillator and the collective spin before the displacement is applied and by controlling the coherent dynamics via a many-body echo we are able to utilize the delicate spin-motion entanglement to map the displacement into a spin rotation such that we avoid quantum back-action and cancel detrimental thermal noise. We report quantum enhanced sensitivity to displacements of $8.8 \pm 0.4~$dB below the standard quantum limit and a sensitivity for measuring electric fields of $240\pm10~\mathrm{nV}\mathrm{m}^{-1}$ in $1$ second ($240~\mathrm{nV}\mathrm{m}^{-1}/\sqrt{\mathrm{Hz}}$).
翻訳日:2023-04-08 01:40:06 公開日:2021-03-15
# 自発的ダウンコンバージョンにおける相関光子対のフルモード特性

Full-mode Characterisation of Correlated Photon Pairs Generated in Spontaneous Downconversion ( http://arxiv.org/abs/2103.08689v1 )

ライセンス: Link先を確認
Alessio D'Errico, Felix Hufnagel, Filippo Miatto, Mohammadreza Rezaee, Ebrahim Karimi(参考訳) 自然パラメトリックダウンコンバージョンは、量子フォトニクス研究所で絡み合った光子対を生成する主要な源である。 実験的な設計により、生成された光子対は周波数スペクトル、偏光、位置運動量、空間モードに相関することができる。 空間モードの相関の探索は極座標の方位角に限られており、ウォルシュモードの放射状態を研究する試みもいくつかある。 本稿では,タイプI結晶で生成した光子対間の全モード相関について,ラゲール・ガウス法に基づいて検討する。 さらに, 異なる空間モードを有する構造ポンプビームが2光子空間相関に与える影響について検討する。 最後に,任意の空間モード重ね合わせを投影し,16次元部分空間内でbi-photon状態の完全な量子トモグラフィーを行う。

Spontaneous parametric downconversion is the primary source to generate entangled photon pairs in quantum photonics laboratories. Depending on the experimental design, the generated photon pairs can be correlated in the frequency spectrum, polarisation, position-momentum, and spatial modes. Exploring the spatial modes' correlation has hitherto been limited to the polar coordinates' azimuthal angle, and a few attempts to study Walsh modes radial states. Here, we study the full-mode correlation, on a Laguerre-Gauss basis, between photon pairs generated in a type-I crystal. Furthermore, we explore the effect of a structured pump beam possessing different spatial modes onto bi-photon spatial correlation. Finally, we use the capability to project over arbitrary spatial mode superpositions to perform the bi-photon state's full quantum tomography in a 16-dimensional subspace.
翻訳日:2023-04-08 01:39:36 公開日:2021-03-15
# 行動を形成するインセンティブは

The Incentives that Shape Behaviour ( http://arxiv.org/abs/2001.07118v2 )

ライセンス: Link先を確認
Ryan Carey, Eric Langlois, Tom Everitt and Shane Legg(参考訳) エージェントは、その決定で制御するインセンティブを持つか、どの変数に対応するインセンティブを持つのか? 我々は、これらのインセンティブを形式化し、単一の決定因果影響図でそれらを検出するためのユニークなグラフィカルな基準を示す。 この目的のために,構造的因果影響モデル,影響図のハイブリッド化,構造的因果モデルフレームワークを提案する。 最後に、これらのインセンティブが公正性とAI安全アプリケーションの両方においてエージェントインセンティブを予測する方法について説明する。

Which variables does an agent have an incentive to control with its decision, and which variables does it have an incentive to respond to? We formalise these incentives, and demonstrate unique graphical criteria for detecting them in any single decision causal influence diagram. To this end, we introduce structural causal influence models, a hybrid of the influence diagram and structural causal model frameworks. Finally, we illustrate how these incentives predict agent incentives in both fairness and AI safety applications.
翻訳日:2023-01-08 05:04:43 公開日:2021-03-15
# 一般化のためのディープダイナミクスモデルへの対称性の導入

Incorporating Symmetry into Deep Dynamics Models for Improved Generalization ( http://arxiv.org/abs/2002.03061v4 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Rose Yu(参考訳) 近年の研究では、深層学習が数値解法と比較して物理力学の予測を加速できることが示されている。 しかし、物理的精度の制限と分布シフトの下で一般化できないことは、実世界への適用性を制限している。 本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。 具体的には、それぞれ異なる対称性を強制するために調整された様々な方法を用いる。 我々のモデルは理論上も実験上も対称群変換による分布シフトに対して堅牢であり、良好なサンプル複雑性を享受する。 我々は,rayleigh b\'enard対流や実世界の海流や温度など,様々な物理力学における我々のアプローチの利点を実証する。 画像やテキストアプリケーションと比較して,本研究は,複雑なダイナミクスを持つ高次元システムに対して等変ニューラルネットワークを適用するための重要なステップである。 我々は、シミュレーション、データ、コードを、 \url{https://github.com/Rose-STL-Lab/Equivariant-Net}でオープンソース化します。

Recent work has shown deep learning can accelerate the prediction of physical dynamics relative to numerical solvers. However, limited physical accuracy and an inability to generalize under distributional shift limit its applicability to the real world. We propose to improve accuracy and generalization by incorporating symmetries into convolutional neural networks. Specifically, we employ a variety of methods each tailored to enforce a different symmetry. Our models are both theoretically and experimentally robust to distributional shift by symmetry group transformations and enjoy favorable sample complexity. We demonstrate the advantage of our approach on a variety of physical dynamics including Rayleigh B\'enard convection and real-world ocean currents and temperatures. Compared with image or text applications, our work is a significant step towards applying equivariant neural networks to high-dimensional systems with complex dynamics. We open-source our simulation, data, and code at \url{https://github.com/Rose-STL-Lab/Equivariant-Net}.
翻訳日:2023-01-02 22:39:02 公開日:2021-03-15
# 非凸ゲームのための限定容量ミニマックス定理、または:混合ナッシュと愛のニューラルネットの心配をやめる方法

A Limited-Capacity Minimax Theorem for Non-Convex Games or: How I Learned to Stop Worrying about Mixed-Nash and Love Neural Nets ( http://arxiv.org/abs/2002.05820v3 )

ライセンス: Link先を確認
Gauthier Gidel, David Balduzzi, Wojciech Marian Czarnecki, Marta Garnelo and Yoram Bachrach(参考訳) GANベースの生成モデリングや、GoやPokerといった複雑なゲームに応用された強化学習における自己再生技術など、最も注目すべき応用は、多目的最適化の特殊なケースである。 実際、emph{single} 対のネットワークは通常、非凸非凸対問題の近似平衡を求めるために訓練される。 しかし、ゲーム理論の古典的な結果では、そのような平衡は凸ゲームに存在するが、ペイオフが非凸ゲームである場合の類似の保証はない。 我々の主な貢献は、プレイヤーがwgan、starcraft ii、blotto gameなどのニューラルネットワークを選択する大規模なゲームに対する近似的ミニマックス定理を提供することです。 ニューラルネットワークパラメータに関して非凹凸であるにもかかわらず、これらのゲームは実際のモデル(例えば、関数や分布)に関して凹凸であるという事実に依存している。

Adversarial training, a special case of multi-objective optimization, is an increasingly prevalent machine learning technique: some of its most notable applications include GAN-based generative modeling and self-play techniques in reinforcement learning which have been applied to complex games such as Go or Poker. In practice, a \emph{single} pair of networks is typically trained in order to find an approximate equilibrium of a highly nonconcave-nonconvex adversarial problem. However, while a classic result in game theory states such an equilibrium exists in concave-convex games, there is no analogous guarantee if the payoff is nonconcave-nonconvex. Our main contribution is to provide an approximate minimax theorem for a large class of games where the players pick neural networks including WGAN, StarCraft II, and Blotto Game. Our findings rely on the fact that despite being nonconcave-nonconvex with respect to the neural networks parameters, these games are concave-convex with respect to the actual models (e.g., functions or distributions) represented by these neural networks.
翻訳日:2023-01-01 04:21:45 公開日:2021-03-15
# ブラックボックス分類器のアクティブベイズ評価

Active Bayesian Assessment for Black-Box Classifiers ( http://arxiv.org/abs/2002.06532v3 )

ライセンス: Link先を確認
Disi Ji, Robert L. Logan IV, Padhraic Smyth, Mark Steyvers(参考訳) 機械学習の最近の進歩は、さまざまなアプリケーションにわたるブラックボックス分類器のデプロイを増加させた。 このような状況の多くでは、これらの事前訓練されたモデルの性能を確実に評価し、ラベル効率のよい方法でこの評価を行う必要がある(ラベルの収集に要する費用が少なくなる)。 本稿では,信頼性とラベル効率の両方のデシデラタを満たすため,分類器の性能評価のためのアクティブベイズ法を提案する。 まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論戦略を開発する。 次に,推測不確実性を用いたベイズ評価のための一般的な枠組みを提案し,ラベルの少ない場合の効率的な選択を導出する。 いくつかの標準画像およびテキスト分類データセット上での現代のニューラル分類器(ResNetやBERTなど)の性能を評価する一連の系統的実験により,提案したベイズ的アプローチから大きな成果が得られた。

Recent advances in machine learning have led to increased deployment of black-box classifiers across a wide variety of applications. In many such situations there is a critical need to both reliably assess the performance of these pre-trained models and to perform this assessment in a label-efficient manner (given that labels may be scarce and costly to collect). In this paper, we introduce an active Bayesian approach for assessment of classifier performance to satisfy the desiderata of both reliability and label-efficiency. We begin by developing inference strategies to quantify uncertainty for common assessment metrics such as accuracy, misclassification cost, and calibration error. We then propose a general framework for active Bayesian assessment using inferred uncertainty to guide efficient selection of instances for labeling, enabling better performance assessment with fewer labels. We demonstrate significant gains from our proposed active Bayesian approach via a series of systematic empirical experiments assessing the performance of modern neural classifiers (e.g., ResNet and BERT) on several standard image and text classification datasets.
翻訳日:2022-12-31 17:40:29 公開日:2021-03-15
# hypoNLI: 自然言語推論における仮説のみのバイアスの人工パターンの探索

HypoNLI: Exploring the Artificial Patterns of Hypothesis-only Bias in Natural Language Inference ( http://arxiv.org/abs/2003.02756v2 )

ライセンス: Link先を確認
Tianyu Liu, Xin Zheng, Baobao Chang and Zhifang Sui(参考訳) 最近の多くの研究は、自然言語推論(NLI)のためのデータセットで訓練されたモデルに対して、仮説を単に見ながら前提を完全に無視することで正しい予測を行うことができることを示した。 本研究は,仮説のみのバイアスの観点から,敵対的事例を導出し,そのバイアスを緩和するための適格な方法を探索する。 具体的には、トレーニングセットの仮説(人工パターン)から様々なフレーズを抽出し、それらが特定のラベルに対して強い指標であることを示す。 次に、ラベルがそれらの表示と反対または一致している元のテストセットから、`hard' と `easy' のインスタンスを見つけます。 また,事前学習モデル (BERT, RoBERTa, XLNet) と非事前学習モデル (InferSent, DAM, ESIM) の両方を含むベースラインを設定した。 ベンチマークとベースラインとは別に,このような仮説のみのバイアスを緩和するために,人工パターンモデリングを利用する2つのデバイアスアプローチについても検討した。 我々は,これらの手法をNLI脱バイアスタスクの競争ベースラインとして扱うことができると考えている。

Many recent studies have shown that for models trained on datasets for natural language inference (NLI), it is possible to make correct predictions by merely looking at the hypothesis while completely ignoring the premise. In this work, we manage to derive adversarial examples in terms of the hypothesis-only bias and explore eligible ways to mitigate such bias. Specifically, we extract various phrases from the hypotheses (artificial patterns) in the training sets, and show that they have been strong indicators to the specific labels. We then figure out `hard' and `easy' instances from the original test sets whose labels are opposite to or consistent with those indications. We also set up baselines including both pretrained models (BERT, RoBERTa, XLNet) and competitive non-pretrained models (InferSent, DAM, ESIM). Apart from the benchmark and baselines, we also investigate two debiasing approaches which exploit the artificial pattern modeling to mitigate such hypothesis-only bias: down-sampling and adversarial training. We believe those methods can be treated as competitive baselines in NLI debiasing tasks.
翻訳日:2022-12-26 06:15:41 公開日:2021-03-15
# 復元からの復元:疑似クリーンビデオによる映像復元

Restore from Restored: Video Restoration with Pseudo Clean Video ( http://arxiv.org/abs/2003.04279v3 )

ライセンス: Link先を確認
Seunghwan Lee, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim(参考訳) 本研究では,自己監督型ビデオ復号化手法"restore-from-restored"を提案する。 テストフェーズ中に擬似クリーンビデオを用いて事前学習したネットワークを微調整する。 ベースラインネットワークにノイズのあるビデオを適用することにより、擬似クリーンビデオを得る。 ベースラインとして完全畳み込みニューラルネットワーク(FCN)を採用することにより、FCNの翻訳同変性のため、従来の多くのビデオ復元手法とは対照的に、正確な光フロー推定や登録手順を使わずに、ビデオ復調性能を向上させることができる。 具体的には、複数の連続するフレームにまたがる多くの類似したパッチ(パッチ・リカレンス)を利用することができ、これらのパッチはベースラインネットワークの性能を大幅に向上させることができる。 提案する自己スーパービジョンに基づく学習アルゴリズムを用いて,微調整映像の復元性能を解析し,fcnが隣接フレーム間の正確な登録を必要とせずに繰り返しパッチを活用できることを実証した。 実験では,提案手法を最先端のデノイザに適用し,細調整されたネットワークが性能を著しく向上することを示す。

In this study, we propose a self-supervised video denoising method called "restore-from-restored." This method fine-tunes a pre-trained network by using a pseudo clean video during the test phase. The pseudo clean video is obtained by applying a noisy video to the baseline network. By adopting a fully convolutional neural network (FCN) as the baseline, we can improve video denoising performance without accurate optical flow estimation and registration steps, in contrast to many conventional video restoration methods, due to the translation equivariant property of the FCN. Specifically, the proposed method can take advantage of plentiful similar patches existing across multiple consecutive frames (i.e., patch-recurrence); these patches can boost the performance of the baseline network by a large margin. We analyze the restoration performance of the fine-tuned video denoising networks with the proposed self-supervision-based learning algorithm, and demonstrate that the FCN can utilize recurring patches without requiring accurate registration among adjacent frames. In our experiments, we apply the proposed method to state-of-the-art denoisers and show that our fine-tuned networks achieve a considerable improvement in denoising performance.
翻訳日:2022-12-25 09:10:35 公開日:2021-03-15
# 抽象要約のファクチュアル整合性向上

Enhancing Factual Consistency of Abstractive Summarization ( http://arxiv.org/abs/2003.08612v8 )

ライセンス: Link先を確認
Chenguang Zhu, William Hinthorn, Ruochen Xu, Qingkai Zeng, Michael Zeng, Xuedong Huang, Meng Jiang(参考訳) 自動抽象要約は、記事の事実を歪めたり、形成したりすることが多い。 この要約と原文の矛盾は、その適用性に大きな影響を与えている。 本稿では,グラフ注目による要約生成プロセスに事実関係を抽出・統合するために,事実認識型要約モデルfasumを提案する。 次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。 経験的な結果から,事実認識要約は,既存のシステムに比べて事実整合性が高い抽象要約を生成でき,補正モデルは,数個のキーワードのみを修飾することで,与えられた要約の事実整合性を向上させる。

Automatic abstractive summaries are found to often distort or fabricate facts in the article. This inconsistency between summary and original text has seriously impacted its applicability. We propose a fact-aware summarization model FASum to extract and integrate factual relations into the summary generation process via graph attention. We then design a factual corrector model FC to automatically correct factual errors from summaries generated by existing systems. Empirical results show that the fact-aware summarization can produce abstractive summaries with higher factual consistency compared with existing systems, and the correction model improves the factual consistency of given summaries via modifying only a few keywords.
翻訳日:2022-12-22 04:15:29 公開日:2021-03-15
# 因果分類の一般的な枠組み

A general framework for causal classification ( http://arxiv.org/abs/2003.11940v4 )

ライセンス: Link先を確認
Jiuyong Li, Weijia Zhang, Lin Liu, Kui Yu, Thuc Duy Le and Jixue Liu(参考訳) 多くのアプリケーションでは、データから異なる個人に対する介入の効果を予測する必要がある。 例えば、どの顧客がプロダクトのプロモーションによって説得できるのか? どのような患者に ある種の治療をすべきでしょうか? これらは、介入による効果や結果の変化を伴う典型的な因果問題である。 従来の分類法では、結果を予測するために関連性のみを使用するため、これらの疑問に答えることはできない。 パーソナライズされたマーケティングでは、これらの質問はしばしばアップリフトモデルで答えられる。 隆起モデルの目的は因果効果を推定することであるが、その文献は隆起が因果効果を表す時期について論じていない。 因果的不均質性モデリングは問題を解くことができるが、その根拠のない仮定はデータではテストできない。 そのため、実践者は、メソッドを使用する際に、アプリケーションにガイドラインが必要です。 本稿では,個人化された意思決定問題の集合に対して因果分類を行い,分類と区別する。 因果分類をuplift(およびcausal heterogeneity)モデリングによって解決できる条件について考察する。 また,既成の教師付き手法を柔軟な実装に利用することにより,因果分類の汎用フレームワークを提案する。 実験により、因果分類とアップリフト (causal heterogeneity) モデリングのためのフレームワークの2つのインスタンス化が示され、他のアップリフト (causal heterogeneity) モデリング法と競合する。

In many applications, there is a need to predict the effect of an intervention on different individuals from data. For example, which customers are persuadable by a product promotion? which patients should be treated with a certain type of treatment? These are typical causal questions involving the effect or the change in outcomes made by an intervention. The questions cannot be answered with traditional classification methods as they only use associations to predict outcomes. For personalised marketing, these questions are often answered with uplift modelling. The objective of uplift modelling is to estimate causal effect, but its literature does not discuss when the uplift represents causal effect. Causal heterogeneity modelling can solve the problem, but its assumption of unconfoundedness is untestable in data. So practitioners need guidelines in their applications when using the methods. In this paper, we use causal classification for a set of personalised decision making problems, and differentiate it from classification. We discuss the conditions when causal classification can be resolved by uplift (and causal heterogeneity) modelling methods. We also propose a general framework for causal classification, by using off-the-shelf supervised methods for flexible implementations. Experiments have shown two instantiations of the framework work for causal classification and for uplift (causal heterogeneity) modelling, and are competitive with the other uplift (causal heterogeneity) modelling methods.
翻訳日:2022-12-20 02:56:29 公開日:2021-03-15
# 動的領域認識畳み込み

Dynamic Region-Aware Convolution ( http://arxiv.org/abs/2003.12243v3 )

ライセンス: Link先を確認
Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,動的領域認識畳み込み(DRConv)と呼ばれる新しい畳み込みを提案する。 このように、DRConvはセマンティックなバリエーションのモデリングにおいて標準的な畳み込みよりも優れています。 標準畳み込み層は、より視覚的な要素を抽出するためにファイル数を増やすが、計算コストは高い。 より優雅に、我々のdrconvは、増大するチャンネルワイズフィルタを学習可能なインストラクターで空間次元に転送し、畳み込みの表現能力を向上させるだけでなく、標準畳み込み線量として計算コストと翻訳不変性を維持する。 DRConvは複雑な空間情報の分散を扱うための効率的かつエレガントな手法である。 既存のネットワークの標準的な畳み込みを、特に効率的なネットワークにおける電力畳み込み層に置き換えることができる。 我々は,幅広いモデル(MobileNetシリーズ,ShuffleNetV2など)とタスク(識別,顔認識,検出,セグメンテーション)でDRConvを評価する。 ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。

We propose a new convolution called Dynamic Region-Aware Convolution (DRConv), which can automatically assign multiple filters to corresponding spatial regions where features have similar representation. In this way, DRConv outperforms standard convolution in modeling semantic variations. Standard convolutional layer can increase the number of filers to extract more visual elements but results in high computational cost. More gracefully, our DRConv transfers the increasing channel-wise filters to spatial dimension with learnable instructor, which not only improve representation ability of convolution, but also maintains computational cost and the translation-invariance as standard convolution dose. DRConv is an effective and elegant method for handling complex and variable spatial information distribution. It can substitute standard convolution in any existing networks for its plug-and-play property, especially to power convolution layers in efficient networks. We evaluate DRConv on a wide range of models (MobileNet series, ShuffleNetV2, etc.) and tasks (Classification, Face Recognition, Detection and Segmentation). On ImageNet classification, DRConv-based ShuffleNetV2-0.5x achieves state-of-the-art performance of 67.1% at 46M multiply-adds level with 6.3% relative improvement.
翻訳日:2022-12-19 05:02:13 公開日:2021-03-15
# 可逆生成流による大域表現と局所表現の分離

Decoupling Global and Local Representations via Invertible Generative Flows ( http://arxiv.org/abs/2004.11820v2 )

ライセンス: Link先を確認
Xuezhe Ma, Xiang Kong, Shanghang Zhang, Eduard Hovy(参考訳) 本稿では,vaeフレームワークに生成フローを組み込んでデコーダをモデル化することにより,完全に教師なしな設定で画像のグローバル表現とローカル表現を自動的に分離できる新しい生成モデルを提案する。 具体的には,フローベース非可逆デコーダに条件入力として入力される画像のグローバルな情報を,スタイル転送文献から借用したアーキテクチャを用いて,遅延変数の(低次元)ベクトルを学習する。 標準画像ベンチマーク実験の結果, 密度推定, 画像生成, 教師なし表現学習において, モデルの有効性が示された。 重要なことは、アーキテクチャ的帰納バイアスだけでは、可能性に基づく目的を持つ生成モデルは疎結合表現を学習でき、明示的な監督を必要としないことを示している。 私たちのモデルのコードはhttps://github.com/xuezhemax/wolf.orgから入手できます。

In this work, we propose a new generative model that is capable of automatically decoupling global and local representations of images in an entirely unsupervised setting, by embedding a generative flow in the VAE framework to model the decoder. Specifically, the proposed model utilizes the variational auto-encoding framework to learn a (low-dimensional) vector of latent variables to capture the global information of an image, which is fed as a conditional input to a flow-based invertible decoder with architecture borrowed from style transfer literature. Experimental results on standard image benchmarks demonstrate the effectiveness of our model in terms of density estimation, image generation and unsupervised representation learning. Importantly, this work demonstrates that with only architectural inductive biases, a generative model with a likelihood-based objective is capable of learning decoupled representations, requiring no explicit supervision. The code for our model is available at https://github.com/XuezheMax/wolf.
翻訳日:2022-12-14 05:05:26 公開日:2021-03-15
# 波の破れ:低ビットカーネルマシンの非対称ランダム周期的特徴

Breaking the waves: asymmetric random periodic features for low-bitrate kernel machines ( http://arxiv.org/abs/2004.06560v3 )

ライセンス: Link先を確認
Vincent Schellekens and Laurent Jacques(参考訳) 多くの信号処理および機械学習アプリケーションは、例えば、既知の信号のデータベースへの入力クエリの類似性を評価するために、信号ペアのカーネルを評価することから構築されている。 この非線形評価は、これらの信号のランダムフーリエ特徴の線形内積(ランダム射影と周期写像、複素指数関数)に単純化することができる。 これらの特徴の単純な量子化(二重値を取る異なる周期写像によって複素指数を置き換えることに対応する)が、実際には望ましくない近似された核を歪めることが知られている。 我々の持ち帰りメッセージは、2つの信号のうち1つだけの特徴が量子化されると、元のカーネルは歪みなく復元される。 具体的には,無作為な周期的特徴から興味のある2つの信号が観測される非対称ランダム周期的特徴の一般的な枠組みについて紹介する。 これらの周期写像が近似核に与える影響を導出し、無限低複素集合から全ての信号対に対する一様確率的誤差境界を証明した。 興味深いことに、我々の結果は、新しい数学的ツール、すなわち平均リプシッツ滑らかさのおかげで、周期写像を不連続にすることができる。 次に、この汎用フレームワークを半量子化されたカーネルマシンに適用し(一方の信号が量子化された特徴を持ち、他方の信号が古典的ランダムなフーリエ特徴を持つ)、近似されたカーネルが(関連するエラー境界を持つ)変化しないことを示す。

Many signal processing and machine learning applications are built from evaluating a kernel on pairs of signals, e.g. to assess the similarity of an incoming query to a database of known signals. This nonlinear evaluation can be simplified to a linear inner product of the random Fourier features of those signals: random projections followed by a periodic map, the complex exponential. It is known that a simple quantization of those features (corresponding to replacing the complex exponential by a different periodic map that takes binary values, which is appealing for their transmission and storage), distorts the approximated kernel, which may be undesirable in practice. Our take-home message is that when the features of only one of the two signals are quantized, the original kernel is recovered without distortion; its practical interest appears in several cases where the kernel evaluations are asymmetric by nature, such as a client-server scheme. Concretely, we introduce the general framework of asymmetric random periodic features, where the two signals of interest are observed through random periodic features: random projections followed by a general periodic map, which is allowed to be different for both signals. We derive the influence of those periodic maps on the approximated kernel, and prove uniform probabilistic error bounds holding for all signal pairs from an infinite low-complexity set. Interestingly, our results allow the periodic maps to be discontinuous, thanks to a new mathematical tool, i.e. the mean Lipschitz smoothness. We then apply this generic framework to semi-quantized kernel machines (where only one signal has quantized features and the other has classical random Fourier features), for which we show theoretically that the approximated kernel remains unchanged (with the associated error bound), and confirm the power of the approach with numerical simulations.
翻訳日:2022-12-13 10:17:33 公開日:2021-03-15
# ビデオにおける多人数ポーズ推定と追跡のための自己教師付きキーポイント対応

Self-supervised Keypoint Correspondences for Multi-Person Pose Estimation and Tracking in Videos ( http://arxiv.org/abs/2004.12652v3 )

ライセンス: Link先を確認
Umer Rafi, Andreas Doering, Bastian Leibe, Juergen Gall(参考訳) ビデオアノテーションは高価で時間がかかります。 その結果、多人数のポーズ推定と追跡のためのデータセットは多様性が低く、人間のポーズ推定のための大規模な画像データセットと比較して、より疎いアノテーションがある。 これにより、複数の人物のポーズトラッキングのタスクにおいて、動きのぼやけや閉塞といったニュアンス要因に頑健なフレーム間でキーポイントを関連付けるためのディープラーニングベースのモデルを学ぶことが困難になる。 この問題に対処するために,ビデオ中の人物を関連付けるためのキーポイント対応方式を提案する。 映像データ上でキーポイント対応を推定するためにネットワークをトレーニングする代わりに、自己監督を用いて人間のポーズ推定のための大規模な画像データセットで訓練する。 人間のポーズ推定のためのトップダウンフレームワークと組み合わせることで,キーポイント対応を用いる。 (i)見逃したポーズ検出を回収する (ii)ビデオフレーム間のポーズ検出を関連づける。 提案手法は,postrack $2017$ と posetrack 2018$ のデータセット上で,マルチフレームポーズ推定とマルチパーソンポーズトラッキングのための最先端の結果を得る。

Video annotation is expensive and time consuming. Consequently, datasets for multi-person pose estimation and tracking are less diverse and have more sparse annotations compared to large scale image datasets for human pose estimation. This makes it challenging to learn deep learning based models for associating keypoints across frames that are robust to nuisance factors such as motion blur and occlusions for the task of multi-person pose tracking. To address this issue, we propose an approach that relies on keypoint correspondences for associating persons in videos. Instead of training the network for estimating keypoint correspondences on video data, it is trained on a large scale image datasets for human pose estimation using self-supervision. Combined with a top-down framework for human pose estimation, we use keypoints correspondences to (i) recover missed pose detections (ii) associate pose detections across video frames. Our approach achieves state-of-the-art results for multi-frame pose estimation and multi-person pose tracking on the PosTrack $2017$ and PoseTrack $2018$ data sets.
翻訳日:2022-12-09 05:29:51 公開日:2021-03-15
# CRUDE: 漸進的不確実性分布のキャリブレーション

CRUDE: Calibrating Regression Uncertainty Distributions Empirically ( http://arxiv.org/abs/2005.12496v6 )

ライセンス: Link先を確認
Eric Zelikman, Christopher Healy, Sharon Zhou, Anand Avati(参考訳) 機械学習における不確実性推定の校正は、自動運転車、医療、気象・気候予報など多くの分野に不可欠である。 分類の不確実性校正に関する文献は多数存在するが, 分類結果は必ずしも回帰に変換されない。 その結果、回帰設定における不確実性を予測する現代のモデルは、通常、不正確で過剰な推定を生成する。 これらのギャップに対処するため、回帰不確実性分布の校正法として、特定の不確実性分布を誤差の上に想定しない回帰設定の校正法を提案する。 CRUDEは、誤差分布が出力空間全体に一定の任意の形状を持ち、予測平均によってシフトし、予測標準偏差によってスケールされるという仮定を弱める。 CRUDEと共形推論の理論的関係を詳述する。 大規模なレグレッションタスク全体にわたって、CRUDEは、最先端の技術よりも一貫してシャープで、校正され、より正確な不確実性の推定値を示す。

Calibrated uncertainty estimates in machine learning are crucial to many fields such as autonomous vehicles, medicine, and weather and climate forecasting. While there is extensive literature on uncertainty calibration for classification, the classification findings do not always translate to regression. As a result, modern models for predicting uncertainty in regression settings typically produce uncalibrated and overconfident estimates. To address these gaps, we present a calibration method for regression settings that does not assume a particular uncertainty distribution over the error: Calibrating Regression Uncertainty Distributions Empirically (CRUDE). CRUDE makes the weaker assumption that error distributions have a constant arbitrary shape across the output space, shifted by predicted mean and scaled by predicted standard deviation. We detail a theoretical connection between CRUDE and conformal inference. Across an extensive set of regression tasks, CRUDE demonstrates consistently sharper, better calibrated, and more accurate uncertainty estimates than state-of-the-art techniques.
翻訳日:2022-11-28 23:29:46 公開日:2021-03-15
# GS-WGAN: 差分自家発電機の学習方法

GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators ( http://arxiv.org/abs/2006.08265v2 )

ライセンス: Link先を確認
Dingfan Chen, Tribhuvanesh Orekondy, Mario Fritz(参考訳) リッチなデータの広範にわたる利用は、多くの領域で機械学習アプリケーションの成長を促した。 しかし、高感度データ(例えば医療)を持つ領域の成長は、データのプライベートな性質が共有を妨げているため、ほとんど妨げられている。 そこで,本研究では,厳密なプライバシー保証を伴い,機密データの公衆衛生形態を解放することを可能にする,グラデーション・サニタイズされたwasserstein generative adversarial networks (gs-wgan)を提案する。 先行研究とは対照的に,グラデーション情報をより正確に歪め,より有用なサンプルを生成する深層モデルのトレーニングを可能にした。 さらに,本定式化により,集中型および連合型(分散型)データシナリオにおけるganのトレーニングが自然に可能になる。 広範な実験を通じて、我々のアプローチは複数のメトリクス(例:サンプルの品質)とデータセットにまたがる最先端のアプローチを一貫して上回ります。

The wide-spread availability of rich data has fueled the growth of machine learning applications in numerous domains. However, growth in domains with highly-sensitive data (e.g., medical) is largely hindered as the private nature of data prohibits it from being shared. To this end, we propose Gradient-sanitized Wasserstein Generative Adversarial Networks (GS-WGAN), which allows releasing a sanitized form of the sensitive data with rigorous privacy guarantees. In contrast to prior work, our approach is able to distort gradient information more precisely, and thereby enabling training deeper models which generate more informative samples. Moreover, our formulation naturally allows for training GANs in both centralized and federated (i.e., decentralized) data scenarios. Through extensive experiments, we find our approach consistently outperforms state-of-the-art approaches across multiple metrics (e.g., sample quality) and datasets.
翻訳日:2022-11-21 03:52:03 公開日:2021-03-15
# 6 dofにおける局所化と密度3次元写像のための変分状態空間モデル

Variational State-Space Models for Localisation and Dense 3D Mapping in 6 DoF ( http://arxiv.org/abs/2006.10178v3 )

ライセンス: Link先を確認
Atanas Mirchev, Baris Kayalibay, Patrick van der Smagt and Justin Bayer(参考訳) 深部状態空間モデルにおける近似ベイズ推定として,空間環境における6-DoF局所化と3次元密度再構成の問題を解く。 このアプローチは多視点幾何学と剛体力学から学習とドメイン知識の両方を活用する。 この結果、現在の最先端のビジュアルSLAMソリューションに欠ける、世界の表現力のある予測モデルが生まれる。 変分推論、ニューラルネットワーク、微分可能なレイキャスターの組み合わせにより、われわれのモデルはエンドツーエンドの勾配に基づく最適化に適応できる。 我々は,実写的な無人航空機飛行データに対するアプローチを評価し,最先端の視覚慣性オドメトリシステムの性能に近づいた。 生成予測と計画へのモデルの適用性を実証する。

We solve the problem of 6-DoF localisation and 3D dense reconstruction in spatial environments as approximate Bayesian inference in a deep state-space model. Our approach leverages both learning and domain knowledge from multiple-view geometry and rigid-body dynamics. This results in an expressive predictive model of the world, often missing in current state-of-the-art visual SLAM solutions. The combination of variational inference, neural networks and a differentiable raycaster ensures that our model is amenable to end-to-end gradient-based optimisation. We evaluate our approach on realistic unmanned aerial vehicle flight data, nearing the performance of state-of-the-art visual-inertial odometry systems. We demonstrate the applicability of the model to generative prediction and planning.
翻訳日:2022-11-19 19:17:06 公開日:2021-03-15
# 人的援助による分類

Classification Under Human Assistance ( http://arxiv.org/abs/2006.11845v2 )

ライセンス: Link先を確認
Abir De, Nastaran Okati, Ali Zarezade, Manuel Gomez-Rodriguez(参考訳) ほとんどの教師付き学習モデルは、完全な自動化のために訓練される。 しかし、その予測は特定の事例で人間の専門家の予測よりも悪いこともある。 この経験的観察によって動機付けられた目標は、さまざまな自動化レベルで動作するように最適化された分類器を設計することです。 より具体的には、凸マージンに基づく分類に焦点をあて、まず問題がNPハードであることを示す。 さらに、サポートベクトルマシンでは、対応する目的関数を2つの関数 f = g - c の差として表すことができ、g は単調、非負、および {\gamma}-弱部分モジュラーであり、c は非負かつモジュラーである。 この表現により、最近導入された決定論的欲望アルゴリズムと、より効率的なアルゴリズムのランダム化変種が、問題を解く際の近似保証を享受することができる。 医療診断におけるいくつかの応用から得られた合成および実世界のデータに関する実験は、我々の理論的知見を示し、人間の援助の下では、異なる自動化レベル下での運用を訓練された教師付き学習モデルが、人間の単独運転だけでなく、完全な自動化のために訓練された学習モデルよりも優れていることを実証する。

Most supervised learning models are trained for full automation. However, their predictions are sometimes worse than those by human experts on some specific instances. Motivated by this empirical observation, our goal is to design classifiers that are optimized to operate under different automation levels. More specifically, we focus on convex margin-based classifiers and first show that the problem is NP-hard. Then, we further show that, for support vector machines, the corresponding objective function can be expressed as the difference of two functions f = g - c, where g is monotone, non-negative and {\gamma}-weakly submodular, and c is non-negative and modular. This representation allows a recently introduced deterministic greedy algorithm, as well as a more efficient randomized variant of the algorithm, to enjoy approximation guarantees at solving the problem. Experiments on synthetic and real-world data from several applications in medical diagnosis illustrate our theoretical findings and demonstrate that, under human assistance, supervised learning models trained to operate under different automation levels can outperform those trained for full automation as well as humans operating alone.
翻訳日:2022-11-18 11:39:22 公開日:2021-03-15
# 点過程と自己組織化決定木を用いた時空間系列予測

Spatio-temporal Sequence Prediction with Point Processes and Self-organizing Decision Trees ( http://arxiv.org/abs/2006.14426v2 )

ライセンス: Link先を確認
Oguzhan Karaahmetoglu (1 and 2) and Suleyman S. Kozat (1 and 2) ((1) Bilkent University (2) Databoss A.S.)(参考訳) 時空間予測問題を研究し,新しい点過程に基づく予測アルゴリズムを提案する。 時空間予測は、犯罪、地震、社会イベント予測といった重要な現実の応用のために機械学習文学において広く研究されている。 これらの徹底的な研究にもかかわらず、アプリケーションドメイン固有の特定の問題は、まだ完全には研究されていない。 本稿では,非定常時空間予測問題を,密分布と疎分布の両方で解決する。 我々は,空間領域を部分領域に分割する確率論的アプローチを導入し,相互作用するポイントプロセスを用いて各領域のイベント到着をモデル化する。 本アルゴリズムは,勾配に基づく最適化手法により,空間分割とこれらの領域間の相互作用を共同で学習することができる。 最後に、シミュレーションデータと2つの実生活データセット上でのアルゴリズムの性能を示す。 当社のアプローチをベースラインと最先端のディープラーニングベースのアプローチと比較することで,大幅なパフォーマンス向上を実現しています。 さらに,実験結果を通じて,異なるパラメータが全体の性能に与える影響についても説明し,パラメータの選択手順を説明する。

We study the spatio-temporal prediction problem and introduce a novel point-process-based prediction algorithm. Spatio-temporal prediction is extensively studied in Machine Learning literature due to its critical real-life applications such as crime, earthquake, and social event prediction. Despite these thorough studies, specific problems inherent to the application domain are not yet fully explored. Here, we address the non-stationary spatio-temporal prediction problem on both densely and sparsely distributed sequences. We introduce a probabilistic approach that partitions the spatial domain into subregions and models the event arrivals in each region with interacting point-processes. Our algorithm can jointly learn the spatial partitioning and the interaction between these regions through a gradient-based optimization procedure. Finally, we demonstrate the performance of our algorithm on both simulated data and two real-life datasets. We compare our approach with baseline and state-of-the-art deep learning-based approaches, where we achieve significant performance improvements. Moreover, we also show the effect of using different parameters on the overall performance through empirical results and explain the procedure for choosing the parameters.
翻訳日:2022-11-17 03:12:42 公開日:2021-03-15
# 言語事前学習における位置エンコーディングの再考

Rethinking Positional Encoding in Language Pre-training ( http://arxiv.org/abs/2006.15595v4 )

ライセンス: Link先を確認
Guolin Ke, Di He, Tie-Yan Liu(参考訳) 本研究では,言語事前学習(例えばBERT)で使用される位置符号化手法について検討し,既存の定式化におけるいくつかの問題を明らかにする。 まず, 絶対位置符号化において, 位置埋め込みと単語埋め込みに適用される加算演算は, 二つの異種情報資源間の混合相関をもたらすことを示す。 注意に不必要なランダム性をもたらし、モデルの表現性をさらに制限する可能性がある。 第二に、記号 \textt{[cls]} の位置を他の単語と同様に扱うことは、下流タスクにおける特別な役割(文全体の表現)を考慮して合理的な設計であるかどうかを問う。 上記の解析から動機づけられた新しい位置符号化法として, \textbf{u}ntied \textbf{p}ositional \textbf{e}ncoding (tupe) を提案する。 自己認識モジュールでは、TUPEは単語の文脈的相関と位置的相関を異なるパラメータ化と別々に計算し、それらを結合する。 この設計は、異種埋め込みに対する混合と雑音の相関を取り除き、異なる射影行列を用いてより表現性を高める。 さらに、TUPEは \texttt{[CLS]} のシンボルを他の位置から切り離し、全ての位置から情報を取得するのを容易にする。 GLUEベンチマークの大規模な実験とアブレーション研究により,提案手法の有効性が示された。 コードとモデルはhttps://github.com/guolinke/TUPEで公開されている。

In this work, we investigate the positional encoding methods used in language pre-training (e.g., BERT) and identify several problems in the existing formulations. First, we show that in the absolute positional encoding, the addition operation applied on positional embeddings and word embeddings brings mixed correlations between the two heterogeneous information resources. It may bring unnecessary randomness in the attention and further limit the expressiveness of the model. Second, we question whether treating the position of the symbol \texttt{[CLS]} the same as other words is a reasonable design, considering its special role (the representation of the entire sentence) in the downstream tasks. Motivated from above analysis, we propose a new positional encoding method called \textbf{T}ransformer with \textbf{U}ntied \textbf{P}ositional \textbf{E}ncoding (TUPE). In the self-attention module, TUPE computes the word contextual correlation and positional correlation separately with different parameterizations and then adds them together. This design removes the mixed and noisy correlations over heterogeneous embeddings and offers more expressiveness by using different projection matrices. Furthermore, TUPE unties the \texttt{[CLS]} symbol from other positions, making it easier to capture information from all positions. Extensive experiments and ablation studies on GLUE benchmark demonstrate the effectiveness of the proposed method. Codes and models are released at https://github.com/guolinke/TUPE.
翻訳日:2022-11-16 01:56:01 公開日:2021-03-15
# 構造設計問題の機械学習モデルに対するハイパーパラメータ最適化の効果の理解

Understanding the effect of hyperparameter optimization on machine learning models for structure design problems ( http://arxiv.org/abs/2007.04431v2 )

ライセンス: Link先を確認
Xianping Du, Hongyi Xu, Feng Zhu(参考訳) 高価な有限要素シミュレーションを用いた設計評価の計算コストを軽減するため、サロゲートモデルは計算機支援工学設計に広く適用されてきた。 機械学習アルゴリズム(MLA)は、設計変数と大きなデータセットからの応答の間の複雑な相互関係を学習する能力のために代理モデルとして実装されている。 通常、MLA回帰モデルはモデルパラメータとハイパーパラメータを含む。 モデルパラメータは、トレーニングデータに適合して得られる。 モデル構造とトレーニングプロセスを管理するハイパーパラメータは、トレーニング前にユーザによって割り当てられる。 代理モデルの精度とロバスト性に対するハイパーパラメータの影響に関する体系的な研究の欠如がある。 本研究では,ハイパーパラメータ最適化(hopt)フレームワークの構築を提案し,その効果の理解を深めた。 gpr(gaussian process regression)、svm(support vector machine)、rfr(random forest regression)、ann(artificial neural network)という4つの頻繁に使用されるmlasが、4つのベンチマーク例でテストされた。 MLAモデル毎に,HOpt前後のモデル精度とロバスト性を比較する。 その結果,HOpt は一般に MLA モデルの性能を向上させることができることがわかった。 hoptは複雑な問題に対するmlasの精度とロバスト性が改善され、高次元の混合変数設計空間が特徴となっている。 HOptは中間複雑性を持つ設計問題に対して推奨される。 また,HOptによる計算コストについても検討した。 トレーニングコストは、MLAアーキテクチャと密接に関連している。 HOpt後、ANNとRFRのトレーニングコストはGPRとSVMのトレーニングコストよりも増加する。 要約すると, この研究は, 複雑度に基づく設計問題の種類によってHOpt法を選択することに有効である。

To relieve the computational cost of design evaluations using expensive finite element simulations, surrogate models have been widely applied in computer-aided engineering design. Machine learning algorithms (MLAs) have been implemented as surrogate models due to their capability of learning the complex interrelations between the design variables and the response from big datasets. Typically, an MLA regression model contains model parameters and hyperparameters. The model parameters are obtained by fitting the training data. Hyperparameters, which govern the model structures and the training processes, are assigned by users before training. There is a lack of systematic studies on the effect of hyperparameters on the accuracy and robustness of the surrogate model. In this work, we proposed to establish a hyperparameter optimization (HOpt) framework to deepen our understanding of the effect. Four frequently used MLAs, namely Gaussian Process Regression (GPR), Support Vector Machine (SVM), Random Forest Regression (RFR), and Artificial Neural Network (ANN), are tested on four benchmark examples. For each MLA model, the model accuracy and robustness before and after the HOpt are compared. The results show that HOpt can generally improve the performance of the MLA models in general. HOpt leads to few improvements in the MLAs accuracy and robustness for complex problems, which are featured by high-dimensional mixed-variable design space. The HOpt is recommended for the design problems with intermediate complexity. We also investigated the additional computational costs incurred by HOpt. The training cost is closely related to the MLA architecture. After HOpt, the training cost of ANN and RFR is increased more than that of the GPR and SVM. To sum up, this study benefits the selection of HOpt method for the different types of design problems based on their complexity.
翻訳日:2022-11-13 13:55:44 公開日:2021-03-15
# LSTMテキスト分類システムにおけるバックドア攻撃のバックドアキーワード同定による軽減

Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification ( http://arxiv.org/abs/2007.12070v3 )

ライセンス: Link先を確認
Chuanshuai Chen, Jiazhu Dai(参考訳) ディープニューラルネットワークはバックドア攻撃と呼ばれる新たな脅威に直面しており、敵はトレーニングデータセットを汚染することで、ニューラルネットワークモデルにバックドアを注入することができる。 バックドアトリガーと呼ばれる特別なパターンを含む入力の場合、バックドア付きモデルは敵が指定した誤分類のような悪意のあるタスクを実行する。 テキスト分類システムでは、モデルに挿入されたバックドアがスパムや悪意のある音声を検知から逃れる可能性がある。 コンピュータビジョンにおけるバックドア攻撃の防御に焦点を当てた以前の研究は、テキスト分類に関するRNNバックドア攻撃の防御方法にはほとんど注目されなかった。 本稿では,内LSTMニューロンの変化を分析することによって,データ中毒によるLSTMテキスト分類に対して敵が行うバックドア攻撃を緩和する,バックドアキーワード識別(BKI)と呼ばれる防御手法を提案する。 この方法は、検証された信頼できるデータセットを必要とせず、トレーニングデータからモデルにバックドアを挿入するために作られた毒物サンプルを識別して排除することができる。 本手法は,IMDB,DBpediaオントロジー,20のニュースグループ,Reuters-21578データセットの4つの異なるテキスト分類ダットセットで評価する。 トリガー文に関係なく、すべてが優れたパフォーマンスを達成する。

It has been proved that deep neural networks are facing a new threat called backdoor attacks, where the adversary can inject backdoors into the neural network model through poisoning the training dataset. When the input containing some special pattern called the backdoor trigger, the model with backdoor will carry out malicious task such as misclassification specified by adversaries. In text classification systems, backdoors inserted in the models can cause spam or malicious speech to escape detection. Previous work mainly focused on the defense of backdoor attacks in computer vision, little attention has been paid to defense method for RNN backdoor attacks regarding text classification. In this paper, through analyzing the changes in inner LSTM neurons, we proposed a defense method called Backdoor Keyword Identification (BKI) to mitigate backdoor attacks which the adversary performs against LSTM-based text classification by data poisoning. This method can identify and exclude poisoning samples crafted to insert backdoor into the model from training data without a verified and trusted dataset. We evaluate our method on four different text classification datset: IMDB, DBpedia ontology, 20 newsgroups and Reuters-21578 dataset. It all achieves good performance regardless of the trigger sentences.
翻訳日:2022-11-11 13:28:20 公開日:2021-03-15
# cahn-hilliard画像インパインティングによる損傷画像予測の促進

Enhancement of damaged-image prediction through Cahn-Hilliard Image Inpainting ( http://arxiv.org/abs/2007.10753v2 )

ライセンス: Link先を確認
Jos\'e A. Carrillo, Serafim Kalliadasis, Fuyue Liang and Sergio P. Perez(参考訳) 我々は、損傷した画像を分類ニューラルネットワークに渡す前に、画像塗布フィルタを組み込むことの利点を評価する。 これに対し,cahn-hilliard方程式を画像処理フィルタとして適用し,計算コストを低減し,エネルギー安定性と有界性に十分な特性を有する有限体積スキームを用いて解く。 ここで使用されるベンチマークデータセットはmnistで、手書き桁のバイナリイメージで構成され、画像処理方法論を検証する標準データセットである。 我々は、MNISTのトレーニングセットで高密度層に基づくニューラルネットワークをトレーニングし、その後、異なるタイプの損傷と強度でテストセットを汚染する。 次に,損傷画像にcahn-hilliardフィルタを適用することなく,ニューラルネットワークの予測精度を比較する。 以上の結果から,カーン・ヒリアードフィルタの適用による損傷画像予測の精度向上を定量的に評価した。

We assess the benefit of including an image inpainting filter before passing damaged images into a classification neural network. For this we employ a modified Cahn-Hilliard equation as an image inpainting filter, which is solved via a finite volume scheme with reduced computational cost and adequate properties for energy stability and boundedness. The benchmark dataset employed here is MNIST, which consists of binary images of handwritten digits and is a standard dataset to validate image-processing methodologies. We train a neural network based of dense layers with the training set of MNIST, and subsequently we contaminate the test set with damage of different types and intensities. We then compare the prediction accuracy of the neural network with and without applying the Cahn-Hilliard filter to the damaged images test. Our results quantify the significant improvement of damaged-image prediction due to applying the Cahn-Hilliard filter, which for specific damages can increase up to 50% and is in general advantageous for low to moderate damage.
翻訳日:2022-11-08 05:50:51 公開日:2021-03-15
# FastLR:Integrate-and-Fireを用いた非自己回帰リリーディングモデル

FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire ( http://arxiv.org/abs/2008.02516v4 )

ライセンス: Link先を確認
Jinglin Liu, Yi Ren, Zhou Zhao, Chen Zhang, Baoxing Huai, Nicholas Jing Yuan(参考訳) リップリーディングは印象的なテクニックであり、近年は確実に精度が向上している。 しかし,従来のリップリーディング手法は主に自己回帰(AR)モデルに基づいており,ターゲットトークンをひとつずつ生成し,高い推論遅延に悩まされている。 この制約を突破するために,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 ナリー・リップリードは多くの困難を抱えた課題です 1) ソースとターゲット間のシーケンス長の差は,出力シーケンスの長さを推定することが困難になる。 2)nar生成の条件付き独立挙動は,目標分布の近似性を損なう時間間の相関を欠いている。 3)エンコーダの特徴表現能力は,効果的なアライメント機構の欠如により弱くなり得る。 4)AR言語モデルの除去は,リップリーディングの本来の曖昧性問題を悪化させる。 本稿では,FastLRとARモデルのギャップを低減するための3つの手法を提案する。 1) 課題 1 と 2 に対処するため,I\&F (Integration-and-fire) モジュールを活用し,ソース映像フレームと出力テキストシーケンスの対応性をモデル化する。 2) 課題3に取り組むために, エンコーダの上部に補助接続性時間分類(CTC)デコーダを付加し, 余分なCTC損失を伴って最適化する。 また,エンコーダの特徴抽出を支援する補助的な自己回帰デコーダも追加する。 3) 課題4を克服するために,I\&Fのための新しいNuisy Parallel Decoding (NPD) を提案し,Byte-Pair Encoding (BPE) をLipreadingに導入する。 実験の結果,FastLR は GRID と LRS2 でそれぞれ 1.5 % と 5.5 % の精度で,最先端のリップリーディングモデルと比較して 10.97$\times$ の高速化を実現し,提案手法の有効性を示した。

Lipreading is an impressive technique and there has been a definite improvement of accuracy in recent years. However, existing methods for lipreading mainly build on autoregressive (AR) model, which generate target tokens one by one and suffer from high inference latency. To breakthrough this constraint, we propose FastLR, a non-autoregressive (NAR) lipreading model which generates all target tokens simultaneously. NAR lipreading is a challenging task that has many difficulties: 1) the discrepancy of sequence lengths between source and target makes it difficult to estimate the length of the output sequence; 2) the conditionally independent behavior of NAR generation lacks the correlation across time which leads to a poor approximation of target distribution; 3) the feature representation ability of encoder can be weak due to lack of effective alignment mechanism; and 4) the removal of AR language model exacerbates the inherent ambiguity problem of lipreading. Thus, in this paper, we introduce three methods to reduce the gap between FastLR and AR model: 1) to address challenges 1 and 2, we leverage integrate-and-fire (I\&F) module to model the correspondence between source video frames and output text sequence. 2) To tackle challenge 3, we add an auxiliary connectionist temporal classification (CTC) decoder to the top of the encoder and optimize it with extra CTC loss. We also add an auxiliary autoregressive decoder to help the feature extraction of encoder. 3) To overcome challenge 4, we propose a novel Noisy Parallel Decoding (NPD) for I\&F and bring Byte-Pair Encoding (BPE) into lipreading. Our experiments exhibit that FastLR achieves the speedup up to 10.97$\times$ comparing with state-of-the-art lipreading model with slight WER absolute increase of 1.5\% and 5.5\% on GRID and LRS2 lipreading datasets respectively, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-11-02 06:25:54 公開日:2021-03-15
# Degree-Quant: グラフニューラルネットワークの量子化対応トレーニング

Degree-Quant: Quantization-Aware Training for Graph Neural Networks ( http://arxiv.org/abs/2008.05000v3 )

ライセンス: Link先を確認
Shyam A. Tailor, Javier Fernandez-Marques, Nicholas D. Lane(参考訳) グラフニューラルネットワーク(gnns)は、非一様構造化データをモデル化する能力により、さまざまなタスクにおいて強力なパフォーマンスを示している。 彼らの約束にもかかわらず、推論時により効率的にする方法を探る研究はほとんどない。 本研究では, 量子化gnnの学習能力について検討し, 推論中に低精度整数演算を利用可能とする。 我々は,GNNの量子化に際し一意に発生するエラーの原因を特定し,CNNなどの他のアーキテクチャで一般的に使用されている既存の量子化対応トレーニングベースラインよりも性能を向上させるために,アーキテクチャに依存しないDegree-Quantを提案する。 提案手法を6つのデータセット上で検証し,従来の試みと異なり,モデルが未知のグラフに一般化することを示す。 INT8量子化のためにDegree-Quantで訓練されたモデルは、ほとんどの場合FP32モデルと同様に性能が向上する。 int8演算を使用する場合、cpu上で最大4.7倍の高速化が可能となる。

Graph neural networks (GNNs) have demonstrated strong performance on a wide variety of tasks due to their ability to model non-uniform structured data. Despite their promise, there exists little research exploring methods to make them more efficient at inference time. In this work, we explore the viability of training quantized GNNs, enabling the usage of low precision integer arithmetic during inference. We identify the sources of error that uniquely arise when attempting to quantize GNNs, and propose an architecturally-agnostic method, Degree-Quant, to improve performance over existing quantization-aware training baselines commonly used on other architectures, such as CNNs. We validate our method on six datasets and show, unlike previous attempts, that models generalize to unseen graphs. Models trained with Degree-Quant for INT8 quantization perform as well as FP32 models in most cases; for INT4 models, we obtain up to 26% gains over the baselines. Our work enables up to 4.7x speedups on CPU when using INT8 arithmetic.
翻訳日:2022-10-31 10:45:41 公開日:2021-03-15
# AIPerf:AI-HPCベンチマークとしての機械学習の自動化

AIPerf: Automated machine learning as an AI-HPC benchmark ( http://arxiv.org/abs/2008.07141v7 )

ライセンス: Link先を確認
Zhixiang Ren, Yongheng Liu, Tianhui Shi, Lei Xie, Yue Zhou, Jidong Zhai, Youhui Zhang, Yunquan Zhang, Wenguang Chen(参考訳) 複雑な人工知能(AI)アルゴリズムと利用可能なハイパフォーマンスコンピューティング(HPC)パワーは、異種設計によるAIコンポーネントの迅速な開発を促進する。 その結果,AI-HPCシステムのクロススタック性能ベンチマークの必要性が急速に高まった。 HPCベンチマークの事実上のLINPACKは、代表的ワークロードなしでAIコンピューティングパワーとI/Oパフォーマンスを反映することはできない。 MLPerfのような現在の一般的なAIベンチマークは、固定された問題サイズであるため、スケーラビリティが制限されている。 これらの問題に対処するために,我々は,自動機械学習(automl)を利用したエンドツーエンドのベンチマークスイートを提案する。 アルゴリズムを並列かつ柔軟な方法で実装し、カスタマイズ可能な構成を持つ多様なシステムにおける効率性と最適化の可能性を保証する。 我々は、分析的かつ体系的なアプローチで測定される1秒当たりの操作(OPS)を、AIのパフォーマンスを定量化する主要な指標として利用する。 ベンチマークの安定性とスケーラビリティを確保するため,32個のNVIDIA Tesla T4(56.1 Tera-OPS)の4ノードから,4096個のHuawei Ascend 910(194.53 Peta-OPS)の512ノードまで,さまざまなシステムの評価を行った。 柔軟なワークロードとシングルメトリックを使用することで、ai-hpcのスケールとランク付けが容易になります。

The plethora of complex artificial intelligence (AI) algorithms and available high performance computing (HPC) power stimulates the expeditious development of AI components with heterogeneous designs. Consequently, the need for cross-stack performance benchmarking of AI-HPC systems emerges rapidly. The de facto HPC benchmark LINPACK can not reflect AI computing power and I/O performance without representative workload. The current popular AI benchmarks like MLPerf have fixed problem size therefore limited scalability. To address these issues, we propose an end-to-end benchmark suite utilizing automated machine learning (AutoML), which not only represents real AI scenarios, but also is auto-adaptively scalable to various scales of machines. We implement the algorithms in a highly parallel and flexible way to ensure the efficiency and optimization potential on diverse systems with customizable configurations. We utilize operations per second (OPS), which is measured in an analytical and systematic approach, as the major metric to quantify the AI performance. We perform evaluations on various systems to ensure the benchmark's stability and scalability, from 4 nodes with 32 NVIDIA Tesla T4 (56.1 Tera-OPS measured), up to 512 nodes with 4096 Huawei Ascend 910 (194.53 Peta-OPS measured), and the results show near-linear weak scalability. With flexible workload and single metric, our benchmark can scale and rank AI-HPC easily.
翻訳日:2022-10-28 04:29:23 公開日:2021-03-15
# ニューラルネットワークと量子場理論

Neural Networks and Quantum Field Theory ( http://arxiv.org/abs/2008.08601v2 )

ライセンス: Link先を確認
James Halverson, Anindita Maiti, and Keegan Stoner(参考訳) 我々はウィルソン有効場理論の観点からニューラルネットワークの理論的理解を提案する。 この対応は、多くの漸近ニューラルネットワークが非相互作用場理論の類似であるガウス過程から引き出されるという事実に依存している。 漸近極限から離れると非ガウス過程となり、粒子相互作用の反転に対応し、フェインマン図によるニューラルネットワーク出力の相関関数の計算が可能となる。 最小の非ガウス過程確率は、ウィルソン再正規化群によって誘導される係数のフローに従って、最も関連する非ガウス項によって決定される。 これにより、オーバーパラメータ化とニューラルネットワークの可能性の単純さの直接的な接続が得られる。 係数が定数であるか関数であるかは't Hooft'の技術的自然性から予想されるように、GP極限対称性の観点から理解することができる。 一般的な理論計算は、対応を許容する最も単純なモデルのニューラルネットワーク実験と一致する。 我々の形式主義は、ある種類の訓練の下で保存される特性である漸近的極限においてGPとなる多くのアーキテクチャのいずれかに有効である。

We propose a theoretical understanding of neural networks in terms of Wilsonian effective field theory. The correspondence relies on the fact that many asymptotic neural networks are drawn from Gaussian processes, the analog of non-interacting field theories. Moving away from the asymptotic limit yields a non-Gaussian process and corresponds to turning on particle interactions, allowing for the computation of correlation functions of neural network outputs with Feynman diagrams. Minimal non-Gaussian process likelihoods are determined by the most relevant non-Gaussian terms, according to the flow in their coefficients induced by the Wilsonian renormalization group. This yields a direct connection between overparameterization and simplicity of neural network likelihoods. Whether the coefficients are constants or functions may be understood in terms of GP limit symmetries, as expected from 't Hooft's technical naturalness. General theoretical calculations are matched to neural network experiments in the simplest class of models allowing the correspondence. Our formalism is valid for any of the many architectures that becomes a GP in an asymptotic limit, a property preserved under certain types of training.
翻訳日:2022-10-27 09:07:28 公開日:2021-03-15
# ロバスト強化学習:線形二次規則の事例研究

Robust Reinforcement Learning: A Case Study in Linear Quadratic Regulation ( http://arxiv.org/abs/2008.11592v3 )

ライセンス: Link先を確認
Bo Pang and Zhong-Ping Jiang(参考訳) 本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。 具体的には, 離散時間線形二次規則(lqr)のベンチマーク問題を再検討し, 長期にわたるオープン質問について検討する。 制御理論における高度な安定性を用いて、LQRのポリシー反復は学習過程における小さなエラーに対して本質的に堅牢であり、各イテレーションにおける誤差が境界付けられたり小さくなったりすると、ポリシー反復アルゴリズムの解も境界付けられ、さらに最適なLQRソリューションの小さな近傍に参入して留まる。 システムダイナミクスを付加的確率外乱(addmented stochastic disturbances)としたときのlqr問題に対する新しいオフ・ポリティカル・楽観的最小二乗政策反復を提案する。 提案する強固な強化学習の新たな結果を数値例で検証する。

This paper studies the robustness of reinforcement learning algorithms to errors in the learning process. Specifically, we revisit the benchmark problem of discrete-time linear quadratic regulation (LQR) and study the long-standing open question: Under what conditions is the policy iteration method robustly stable from a dynamical systems perspective? Using advanced stability results in control theory, it is shown that policy iteration for LQR is inherently robust to small errors in the learning process and enjoys small-disturbance input-to-state stability: whenever the error in each iteration is bounded and small, the solutions of the policy iteration algorithm are also bounded, and, moreover, enter and stay in a small neighbourhood of the optimal LQR solution. As an application, a novel off-policy optimistic least-squares policy iteration for the LQR problem is proposed, when the system dynamics are subjected to additive stochastic disturbances. The proposed new results in robust reinforcement learning are validated by a numerical example.
翻訳日:2022-10-25 03:33:02 公開日:2021-03-15
# 敵攻撃に対するNVMクロスバーの固有のロバスト性について

On the Intrinsic Robustness of NVM Crossbars Against Adversarial Attacks ( http://arxiv.org/abs/2008.12016v2 )

ライセンス: Link先を確認
Deboleena Roy, Indranil Chakraborty, Timur Ibrayev and Kaushik Roy(参考訳) ディープラーニングの計算需要の増大は、新たな非揮発性メモリ(NVM)技術に基づく特殊目的推論アクセラレータの研究を推進している。 このようなNVMクロスバーは高速かつエネルギー効率のマトリックスベクトル乗算(MVM)を約束し、今日のデジタルハードウェアにおける長年のフォン・ノイマンのボトルネックを軽減する。 しかし、これらのクロスバーにおける計算の類似性は本質的に近似的であり、理想的な出力値から逸脱し、通常の状況下でのディープニューラルネットワーク(DNN)全体の性能を低下させる。 本稿では,これらの非理想性が敵対的状況に与えた影響について検討する。 アナログコンピューティングの非理想的動作は、ブラックボックスとホワイトボックスの攻撃シナリオにおいて、敵攻撃の有効性を低下させることを示す。 CIFAR-10, CIFAR-100, ImageNet の PGD (epsilon=1/255, iter=30) に対して, 攻撃者がアナログハードウェアを知らない非適応攻撃において, アナログコンピューティングは, それぞれ35.34%, 22.69%, 9.90% の正逆精度向上を実現している。 また、NVMモデルの知識を活用して、この堅牢性を回避する「ハードウェア・イン・ループ」適応攻撃を実証する。

The increasing computational demand of Deep Learning has propelled research in special-purpose inference accelerators based on emerging non-volatile memory (NVM) technologies. Such NVM crossbars promise fast and energy-efficient in-situ Matrix Vector Multiplication (MVM) thus alleviating the long-standing von Neuman bottleneck in today's digital hardware. However, the analog nature of computing in these crossbars is inherently approximate and results in deviations from ideal output values, which reduces the overall performance of Deep Neural Networks (DNNs) under normal circumstances. In this paper, we study the impact of these non-idealities under adversarial circumstances. We show that the non-ideal behavior of analog computing lowers the effectiveness of adversarial attacks, in both Black-Box and White-Box attack scenarios. In a non-adaptive attack, where the attacker is unaware of the analog hardware, we observe that analog computing offers a varying degree of intrinsic robustness, with a peak adversarial accuracy improvement of 35.34%, 22.69%, and 9.90% for white box PGD (epsilon=1/255, iter=30) for CIFAR-10, CIFAR-100, and ImageNet respectively. We also demonstrate "Hardware-in-Loop" adaptive attacks that circumvent this robustness by utilizing the knowledge of the NVM model.
翻訳日:2022-10-24 08:37:55 公開日:2021-03-15
# 3d_den:動的拡張ネットワークを用いたオープンエンド3dオブジェクト認識

3D_DEN: Open-ended 3D Object Recognition using Dynamically Expandable Networks ( http://arxiv.org/abs/2009.07213v2 )

ライセンス: Link先を確認
Sudhakaran Jain and Hamidreza Kasaei(参考訳) サービスロボットは一般的に、独立して働き、リアルタイムで環境の動的な変化に対応しなければならない。 そのようなシナリオにおける1つの重要な側面は、新しいオブジェクトカテゴリが利用可能になったとき、継続的に認識することである。 これは連続学習と3Dオブジェクト認識という2つの主要な研究課題を組み合わせたものである。 既存の研究アプローチには、画像データセットに重点を置く深層畳み込みニューラルネットワーク(CNN)の使用が含まれる。 3Dオブジェクトカテゴリを継続的に学習するために、修正されたアプローチが必要になるかもしれない。 CNNを使用する際の大きな懸念は、モデルが新しいタスクを学習しようとするときの破滅的な忘れの問題である。 この問題を緩和するための様々な解決策が提案されているが、計算の複雑さ、特に相当数のタスクを学習する場合など、そのようなソリューションの欠点は残っている。 これらの欠点は、リアルタイム応答が重要な役割を果たすロボットシナリオにおいて大きな問題を引き起こす可能性がある。 この課題に取り組むために,ロボットに新しい3dオブジェクトカテゴリを開放的に学習させる動的なアーキテクチャ手法に基づく新しい深層伝達学習手法を提案する。 さらに、上記の欠点が十分に最小化されていることを確認します。 実験の結果,提案手法は精度に優れ,計算オーバーヘッドを大幅に最小化することがわかった。

Service robots, in general, have to work independently and adapt to the dynamic changes happening in the environment in real-time. One important aspect in such scenarios is to continually learn to recognize newer object categories when they become available. This combines two main research problems namely continual learning and 3D object recognition. Most of the existing research approaches include the use of deep Convolutional Neural Networks (CNNs) focusing on image datasets. A modified approach might be needed for continually learning 3D object categories. A major concern in using CNNs is the problem of catastrophic forgetting when a model tries to learn a new task. Despite various proposed solutions to mitigate this problem, there still exist some downsides of such solutions, e.g., computational complexity, especially when learning substantial number of tasks. These downsides can pose major problems in robotic scenarios where real-time response plays an essential role. Towards addressing this challenge, we propose a new deep transfer learning approach based on a dynamic architectural method to make robots capable of open-ended learning about new 3D object categories. Furthermore, we make sure that the mentioned downsides are minimized to a great extent. Experimental results showed that the proposed model outperformed state-of-the-art approaches with regards to accuracy and also substantially minimizes computational overhead.
翻訳日:2022-10-18 05:59:20 公開日:2021-03-15
# テキスト・アタックにおける文脈的摂動

Contextualized Perturbation for Textual Adversarial Attack ( http://arxiv.org/abs/2009.07502v2 )

ライセンス: Link先を確認
Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett, Ming-Ting Sun, Bill Dolan(参考訳) 敵対的な例は自然言語処理(nlp)モデルの脆弱性を公開し、その堅牢性の評価と改善に使用できる。 そのような例を生成する既存の技術は、典型的には文脈に依存しない局所的ヒューリスティックな規則によって駆動され、しばしば非自然で非文法的な出力をもたらす。 そこで本稿では,マスク-then-infillプロシージャを用いて,流動的で文法的な出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。 CLAREはトレーニング済みのマスク付き言語モデルに基づいて構築され、コンテキスト対応の方法で入力を変更する。 コンテクスト化された3つの摂動(Replace, Insert, Merge)を提案し,様々な長さの出力を生成する。 利用可能な戦略が豊富なため、CLAREはより少ない編集で犠牲者モデルをより効率的に攻撃することができる。 大規模な実験と人的評価により、CLAREは攻撃の成功率、テキストの類似性、流布性、文法性においてベースラインを上回っていることが示された。

Adversarial examples expose the vulnerabilities of natural language processing (NLP) models, and can be used to evaluate and improve their robustness. Existing techniques of generating such examples are typically driven by local heuristic rules that are agnostic to the context, often resulting in unnatural and ungrammatical outputs. This paper presents CLARE, a ContextuaLized AdversaRial Example generation model that produces fluent and grammatical outputs through a mask-then-infill procedure. CLARE builds on a pre-trained masked language model and modifies the inputs in a context-aware manner. We propose three contextualized perturbations, Replace, Insert and Merge, allowing for generating outputs of varied lengths. With a richer range of available strategies, CLARE is able to attack a victim model more efficiently with fewer edits. Extensive experiments and human evaluation demonstrate that CLARE outperforms the baselines in terms of attack success rate, textual similarity, fluency and grammaticality.
翻訳日:2022-10-17 23:54:54 公開日:2021-03-15
# 動的グラフィカルモデルの効率的な変分ベイズ構造学習

Efficient Variational Bayesian Structure Learning of Dynamic Graphical Models ( http://arxiv.org/abs/2009.07703v2 )

ライセンス: Link先を確認
Hang Yu, Songwei Wu, and Justin Dauwels(参考訳) 様々な社会的、財務的、生物学的、工学的システムにおいて、時間変化のグラフィカルモデルの推定が最重要であり、このようなネットワークの進化は、例えば、トレンドを見つけ、異常を検出し、脆弱性を予測し、介入の影響を評価するために利用することができる。 既存の手法では、グラフの間隔と時間的滑らかさを制御するパラメータを広範囲に調整する必要がある。 さらに、これらの手法はp変数とnの時間点の時間複雑性o(np^3)を計算的に負担する。 そこで本研究では,BADGEという低複素性チューニング自由ベイズアプローチを提案する。 具体的には,グラフに時間依存のスパイク・アンド・スラブプリエントを課すことにより,時間的にばらばらで変化する。 その後、変分推論アルゴリズムが導出され、データからグラフ構造を自動的に学習する。 擬似類似性と平均場近似を所有すると、BADGEの時間複雑性は O(NP^2) のみとなる。 さらに,時間変化型グラフィカルモデルと周波数領域の類似性を同定することにより,BADGEが周波数変化型逆スペクトル密度行列の学習に拡張可能であることを示す。 合成データと実データの両方の数値的な結果から、BADGEは、特に高次元の場合において、既存の手法よりも効率的でありながら、基礎となる真のグラフをよりよく復元できることが示された。

Estimating time-varying graphical models are of paramount importance in various social, financial, biological, and engineering systems, since the evolution of such networks can be utilized for example to spot trends, detect anomalies, predict vulnerability, and evaluate the impact of interventions. Existing methods require extensive tuning of parameters that control the graph sparsity and temporal smoothness. Furthermore, these methods are computationally burdensome with time complexity O(NP^3) for P variables and N time points. As a remedy, we propose a low-complexity tuning-free Bayesian approach, named BADGE. Specifically, we impose temporally-dependent spike-and-slab priors on the graphs such that they are sparse and varying smoothly across time. A variational inference algorithm is then derived to learn the graph structures from the data automatically. Owning to the pseudo-likelihood and the mean-field approximation, the time complexity of BADGE is only O(NP^2). Additionally, by identifying the frequency-domain resemblance to the time-varying graphical models, we show that BADGE can be extended to learning frequency-varying inverse spectral density matrices, and yields graphical models for multivariate stationary time series. Numerical results on both synthetic and real data show that that BADGE can better recover the underlying true graphs, while being more efficient than the existing methods, especially for high-dimensional cases.
翻訳日:2022-10-17 23:36:58 公開日:2021-03-15
# ExGAN:極端サンプルの逆生成

ExGAN: Adversarial Generation of Extreme Samples ( http://arxiv.org/abs/2009.08454v3 )

ライセンス: Link先を確認
Siddharth Bhatia, Arjit Jain, Bryan Hooi(参考訳) 極端な出来事から生じるリスクを緩和することは、自然災害のモデル化、金融事故、疫病など、多くのアプリケーションにとって基本的な目標である。 このリスクを管理するために重要なステップは、幅広い極端なシナリオを理解したり、生成したりすることです。 GAN(Generative Adversarial Networks)に基づく既存のアプローチは、現実的なサンプルを生成する上で優れているが、極端なサンプルではなく、典型的なサンプルを生成することを目指している。 そこで本研究では,現実的で極端なサンプルを生成するGANベースのアプローチであるExGANを提案する。 学習分布の極端を原則的にモデル化するために、我々の研究は分布の極端尾をモデル化するための確率論的アプローチである極値理論(EVT)から導かれる。 実用上,本フレームワークは,ユーザが希望する極端度測定値と,サンプリングしたい極端度確率の両方を指定できる。 実際の米国降水量データを用いた実験では,視覚検査と定量的測定に基づく実例を効率よく生成する。 さらに、 exGAN を用いてますます極端な例を生成することは、ベースラインアプローチで必要とされる $\mathcal{O}(\frac{1}{\tau})$時間とは対照的に、一定の時間(極性確率 $\tau$ に関して)で行うことができる。

Mitigating the risk arising from extreme events is a fundamental goal with many applications, such as the modelling of natural disasters, financial crashes, epidemics, and many others. To manage this risk, a vital step is to be able to understand or generate a wide range of extreme scenarios. Existing approaches based on Generative Adversarial Networks (GANs) excel at generating realistic samples, but seek to generate typical samples, rather than extreme samples. Hence, in this work, we propose ExGAN, a GAN-based approach to generate realistic and extreme samples. To model the extremes of the training distribution in a principled way, our work draws from Extreme Value Theory (EVT), a probabilistic approach for modelling the extreme tails of distributions. For practical utility, our framework allows the user to specify both the desired extremeness measure, as well as the desired extremeness probability they wish to sample at. Experiments on real US Precipitation data show that our method generates realistic samples, based on visual inspection and quantitative measures, in an efficient manner. Moreover, generating increasingly extreme examples using ExGAN can be done in constant time (with respect to the extremeness probability $\tau$), as opposed to the $\mathcal{O}(\frac{1}{\tau})$ time required by the baseline approach.
翻訳日:2022-10-17 08:09:08 公開日:2021-03-15
# 適応型キーフレームマイニングによるビデオクリップのマイクロ表現認識

Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame Mining ( http://arxiv.org/abs/2009.09179v3 )

ライセンス: Link先を確認
Min Peng, Chongyang Wang, Yuan Gao, Tao Bi, Tong Chen, Yu Shi, Xiang-Dong Zhou(参考訳) 顔の感情の自発的な表現として、マイクロ表現は人間では制御できない基礎的な感情を明らかにする。 微小表現では、顔の動きは過渡的であり、時間を通じて緩やかに局所化される。 しかし、フルビデオクリップから学習した様々なディープラーニング技術に基づく既存の表現は通常冗長である。 さらに、各ビデオクリップの1つの頂点フレームを利用する方法には、専門家の注釈と時間的ダイナミクスの犠牲が必要となる。 このような顔の動きを同時にローカライズし認識するために,適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる,エンドツーエンドのディープラーニングアーキテクチャを提案する。 akmnetは、マイクロ表現の動画クリップ上で動作し、自己学習したローカルキーフレームの空間的特徴とグローバルな時間的ダイナミクスを組み合わせることで、識別的時空間表現を学習することができる。 理論的解析と経験的評価により,提案手法は複数のベンチマークデータセットの最先端手法と比較して認識精度を向上した。

As a spontaneous expression of emotion on face, micro-expression reveals the underlying emotion that cannot be controlled by human. In micro-expression, facial movement is transient and sparsely localized through time. However, the existing representation based on various deep learning techniques learned from a full video clip is usually redundant. In addition, methods utilizing the single apex frame of each video clip require expert annotations and sacrifice the temporal dynamics. To simultaneously localize and recognize such fleeting facial movements, we propose a novel end-to-end deep learning architecture, referred to as adaptive key-frame mining network (AKMNet). Operating on the video clip of micro-expression, AKMNet is able to learn discriminative spatio-temporal representation by combining spatial features of self-learned local key frames and their global-temporal dynamics. Theoretical analysis and empirical evaluation show that the proposed approach improved recognition accuracy in comparison with state-of-the-art methods on multiple benchmark datasets.
翻訳日:2022-10-16 21:29:22 公開日:2021-03-15
# MSR-DARTS: 微分可能なアーキテクチャ検索の最小安定ランク

MSR-DARTS: Minimum Stable Rank of Differentiable Architecture Search ( http://arxiv.org/abs/2009.09209v2 )

ライセンス: Link先を確認
Kengo Machida, Kuniaki Uto, Koichi Shinoda and Taiji Suzuki(参考訳) ニューラル・アーキテクチャ・サーチ(nas)では,近年,その効率性から微分可能アーキテクチャサーチ(darts)が注目されている。 エッジが混在した過パラメータネットワークを定義し、それぞれがすべての演算子候補を表現し、ネットワークとそのアーキテクチャの重みを交互に最適化する。 しかし,本手法では重みが他のモデルよりも高速に収束するモデルが見出され,収束速度の速いモデルはしばしば過度に適合する。 したがって、結果のモデルは必ずしも well-generalized できない。 この問題を克服するために,最小安定ランク基準を用いてアーキテクチャ最適化を選択プロセスに置き換え,最良一般化誤差のモデルを求める手法であるminimum stable rank darts (msr-darts)を提案する。 具体的には、畳み込み演算子は行列で表され、MSR-DARTSは最小の安定ランクの行列を選択する。 CIFAR-10 と ImageNet を用いた MSR-DARTS の評価を行った。 CIFAR-10で0.3GPU日間で2.54%、ImageNetで23.9%のエラー率を達成した。 公式コードはhttps://github.com/mtaecchhi/msrdarts.gitで入手できる。

In neural architecture search (NAS), differentiable architecture search (DARTS) has recently attracted much attention due to its high efficiency. It defines an over-parameterized network with mixed edges, each of which represents all operator candidates, and jointly optimizes the weights of the network and its architecture in an alternating manner. However, this method finds a model with the weights converging faster than the others, and such a model with fastest convergence often leads to overfitting. Accordingly, the resulting model cannot always be well-generalized. To overcome this problem, we propose a method called minimum stable rank DARTS (MSR-DARTS), for finding a model with the best generalization error by replacing architecture optimization with the selection process using the minimum stable rank criterion. Specifically, a convolution operator is represented by a matrix, and MSR-DARTS selects the one with the smallest stable rank. We evaluated MSR-DARTS on CIFAR-10 and ImageNet datasets. It achieves an error rate of 2.54% with 4.0M parameters within 0.3 GPU-days on CIFAR-10, and a top-1 error rate of 23.9% on ImageNet. The official code is available at https://github.com/mtaecchhi/msrdarts.git.
翻訳日:2022-10-16 20:52:42 公開日:2021-03-15
# Age-Net:脳の生物学的年齢推定のためのMRIベースの反復的フレームワーク

Age-Net: An MRI-Based Iterative Framework for Brain Biological Age Estimation ( http://arxiv.org/abs/2009.10765v2 )

ライセンス: Link先を確認
Karim Armanious, Sherif Abdulatif, Wenbin Shi, Shashank Salian, Thomas K\"ustner, Daniel Weiskopf, Tobias Hepp, Sergios Gatidis, Bin Yang(参考訳) 生物学的年齢(ba)の概念は臨床において重要であるが、主に明確な基準基準が欠如しているため、把握が困難である。 特定の応用、特に小児科における医療画像データは、日常的な臨床状況におけるBA推定に使用される。 この若年層以外にも、BA推定は血液バイオマーカー、遺伝子および細胞データなどの非イメージング指標を用いた全身評価に限られている。 しかし、様々な臓器系は生活習慣や遺伝的要因によって異なる老化特性を示す可能性がある。 したがって、BAの全身評価は、臓器間の加齢挙動のずれを反映していない。 そこで本研究では,臓器特異的BA推定のための新しい画像ベースフレームワークを提案する。 この最初の研究では、主に脳mriに焦点を当てた。 第1段階として,深層畳み込みニューラルネットワーク(age-net)を用いた時系列推定フレームワークを提案する。 本稿では,既存のCA推定手法と比較して,このフレームワークの性能を定量的に評価する。 さらに,新たな反復的データクリーニングアルゴリズムにより,高齢者から非定型高齢者(BA $\not \approx$ CA)を分離する。 残りの人口は真のBA行動に近似すべきである。 脳磁気共鳴画像(MRI)データセットに,健常者および認知症評価の異なるアルツハイマー病患者を対象に,提案手法を適用した。 アルツハイマー病患者の予測BAと認知機能低下との関連について検討した。 統計的および可視化に基づく分析は、提案手法の可能性と現在の課題に関する証拠を提供している。

The concept of biological age (BA), although important in clinical practice, is hard to grasp mainly due to the lack of a clearly defined reference standard. For specific applications, especially in pediatrics, medical image data are used for BA estimation in a routine clinical context. Beyond this young age group, BA estimation is mostly restricted to whole-body assessment using non-imaging indicators such as blood biomarkers, genetic and cellular data. However, various organ systems may exhibit different aging characteristics due to lifestyle and genetic factors. Thus, a whole-body assessment of the BA does not reflect the deviations of aging behavior between organs. To this end, we propose a new imaging-based framework for organ-specific BA estimation. In this initial study, we focus mainly on brain MRI. As a first step, we introduce a chronological age (CA) estimation framework using deep convolutional neural networks (Age-Net). We quantitatively assess the performance of this framework in comparison to existing state-of-the-art CA estimation approaches. Furthermore, we expand upon Age-Net with a novel iterative data-cleaning algorithm to segregate atypical-aging patients (BA $\not \approx$ CA) from the given population. We hypothesize that the remaining population should approximate the true BA behavior. We apply the proposed methodology on a brain magnetic resonance image (MRI) dataset containing healthy individuals as well as Alzheimer's patients with different dementia ratings. We demonstrate the correlation between the predicted BAs and the expected cognitive deterioration in Alzheimer's patients. A statistical and visualization-based analysis has provided evidence regarding the potential and current challenges of the proposed methodology.
翻訳日:2022-10-15 23:09:19 公開日:2021-03-15
# 幾何学グラフの高次スペクトルクラスタリング

Higher-Order Spectral Clustering for Geometric Graphs ( http://arxiv.org/abs/2009.11353v2 )

ライセンス: Link先を確認
Konstantin Avrachenkov, Andrei Bobu, Maximilien Dreveton(参考訳) 本稿では,幾何グラフのクラスタリングについて述べる。 標準的なスペクトルクラスタリングは幾何学グラフには有効ではないが、より高階のスペクトルクラスタリングと呼ばれる効果的な一般化を示す。 概念的には古典的なスペクトルクラスタリング法に似ているが、高次固有値に関連する固有ベクトルを分割するために用いられる。 ソフト幾何ブロックモデル(soft geometry block model)と呼ばれる幅広い幾何グラフのクラスに対して,このアルゴリズムの弱い一貫性を確立する。 アルゴリズムの小さな調整は、強い一貫性を提供する。 また,本手法は極小グラフにおいても数値実験に有効であることを示す。

The present paper is devoted to clustering geometric graphs. While the standard spectral clustering is often not effective for geometric graphs, we present an effective generalization, which we call higher-order spectral clustering. It resembles in concept the classical spectral clustering method but uses for partitioning the eigenvector associated with a higher-order eigenvalue. We establish the weak consistency of this algorithm for a wide class of geometric graphs which we call Soft Geometric Block Model. A small adjustment of the algorithm provides strong consistency. We also show that our method is effective in numerical experiments even for graphs of modest size.
翻訳日:2022-10-15 16:03:14 公開日:2021-03-15
# 低品質心エコー図による心筋梗塞の早期診断

Early Detection of Myocardial Infarction in Low-Quality Echocardiography ( http://arxiv.org/abs/2010.02281v2 )

ライセンス: Link先を確認
Aysen Degerli, Morteza Zabihi, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Ridha Hamila, and Moncef Gabbouj(参考訳) 心筋梗塞(英: myocardial infarction、略称:MI)は、毎年324万人が苦しんでいる健康上の問題である。 MIの早期診断と治療は、さらなる心臓組織の損傷や死亡を防ぐために不可欠である。 虚血の最も早期かつ最も確実な兆候は、心室筋の損傷部位の局所壁運動異常(RWMA)である。 心エコー図はrwmaを簡便に、安価に、非侵襲的に呈示することができる。 本稿では,低品質心エコー図における早期MI検出のための3段階的アプローチを紹介する。 1)最先端深層学習モデルを用いた左室壁全体(LV)のセグメンテーション 2)機能工学によるセグメント状LV壁の解析,及び 3) 早期mi検出。 本研究の主な貢献は、低品質心エコー図によるLV壁の高精度セグメンテーション、無注LV壁の地下構造形成のための擬似ラベリングアプローチ、MI検出のための最初の公開心エコーデータセット(HMC-QU)*である。 さらに, 提案手法の出力は, 心臓科医のlv壁特性の評価を著しく向上させる。 提案手法は、LV壁セグメンテーションの感度95.72%、特異99.58%、感度85.97%、特異74.03%、HMC-QUデータセットでのMI検出の精度86.85%を達成した。 ※ベンチマークHMC-QUデータセットはリポジトリhttps://www.kaggle.com/aysendegerli/hmcqu-datasetで公開されています。

Myocardial infarction (MI), or commonly known as heart attack, is a life-threatening health problem worldwide from which 32.4 million people suffer each year. Early diagnosis and treatment of MI are crucial to prevent further heart tissue damages or death. The earliest and most reliable sign of ischemia is regional wall motion abnormality (RWMA) of the affected part of the ventricular muscle. Echocardiography can easily, inexpensively, and non-invasively exhibit the RWMA. In this article, we introduce a three-phase approach for early MI detection in low-quality echocardiography: 1) segmentation of the entire left ventricle (LV) wall using a state-of-the-art deep learning model, 2) analysis of the segmented LV wall by feature engineering, and 3) early MI detection. The main contributions of this study are highly accurate segmentation of the LV wall from low-quality echocardiography, pseudo labeling approach for ground-truth formation of the unannotated LV wall, and the first public echocardiographic dataset (HMC-QU)* for MI detection. Furthermore, the outputs of the proposed approach can significantly help cardiologists for a better assessment of the LV wall characteristics. The proposed approach has achieved 95.72% sensitivity and 99.58% specificity for the LV wall segmentation, and 85.97% sensitivity, 74.03% specificity, and 86.85% precision for MI detection on the HMC-QU dataset. *The benchmark HMC-QU dataset is publicly shared at the repository https://www.kaggle.com/aysendegerli/hmcqu-dataset
翻訳日:2022-10-10 22:16:23 公開日:2021-03-15
# eqco: 自己教師付きコントラスト学習の等価ルール

EqCo: Equivalent Rules for Self-supervised Contrastive Learning ( http://arxiv.org/abs/2010.01929v3 )

ライセンス: Link先を確認
Benjin Zhu, Junqiang Huang, Zeming Li, Xiangyu Zhang, Jian Sun(参考訳) 本稿では,EqCo (Equivalent Rules for Contrastive Learning) という手法を提案する。 InfoMaxの原理に着想を得た結果,相対的損失の限界項は負の対の数に応じて適応的にスケールする必要があることが示唆された。 EqCoは、幅広い負のサンプルサイズ間のパフォーマンスギャップを橋渡しし、少数の負のペア(例えばクエリ毎に16)しか使用せず、ImageNetのような大規模ビジョンデータセットで自己教師付きコントラストトレーニングを実行できるが、精度の低下はほとんどない。 これは、現在のプラクティスで広く使われている大規模バッチトレーニングやメモリバンクメカニズムとはかなり対照的である。 EqCoを組み込んだシンプルなMoCo(SiMo)は、ImageNet(線形評価プロトコル)上でMoCo v2と同等の精度を実現していますが、クエリ毎に65536ではなく4つの負のペアしか必要とせず、大量の負のサンプルがInfoNCE損失の重要な要因ではないことを示唆しています。

In this paper, we propose a method, named EqCo (Equivalent Rules for Contrastive Learning), to make self-supervised learning irrelevant to the number of negative samples in InfoNCE-based contrastive learning frameworks. Inspired by the InfoMax principle, we point that the margin term in contrastive loss needs to be adaptively scaled according to the number of negative pairs in order to keep steady mutual information bound and gradient magnitude. EqCo bridges the performance gap among a wide range of negative sample sizes, so that we can use only a few negative pairs (e.g. 16 per query) to perform self-supervised contrastive training on large-scale vision datasets like ImageNet, while with almost no accuracy drop. This is quite a contrast to the widely used large batch training or memory bank mechanism in current practices. Equipped with EqCo, our simplified MoCo (SiMo) achieves comparable accuracy with MoCo v2 on ImageNet (linear evaluation protocol) while only involves 4 negative pairs per query instead of 65536, suggesting that large quantities of negative samples might not be a critical factor in InfoNCE loss.
翻訳日:2022-10-10 21:59:55 公開日:2021-03-15
# SPLAT:音声言語理解のための音声言語共同事前学習

SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding ( http://arxiv.org/abs/2010.02295v3 )

ライセンス: Link先を確認
Yu-An Chung, Chenguang Zhu, Michael Zeng(参考訳) 音声言語理解(SLU)は、入力音響信号を解析して言語内容を理解し、予測するモデルを必要とする。 モデルの性能を向上させるために,大規模無注釈音声やテキストからリッチな表現を学習するための事前学習手法が提案されている。 しかし、2つの様相の固有の相違は相互分析を必要とする。 本稿では,音声と言語モジュールを協調的に事前学習するための,半教師付き学習フレームワークSPLATを提案する。 SPLATは、2つのモジュールに対して、ペアなしの音声とテキストを用いて、自己教師付きマスキング言語モデリングタスクを行うとともに、少量のペア付き音声とテキストを使用して、共有潜在空間内の2つのモジュールからの表現を調整する。 したがって、微調整中のみ、音声モジュールは入力された音響信号の音響情報と文脈意味知識の両方を含む表現を生成することができる。 実験により,SLUタスクに対するアプローチの有効性が検証された。 例えば、SPLATは、Spken SQuADデータセットの以前の最先端パフォーマンスを10%以上改善している。

Spoken language understanding (SLU) requires a model to analyze input acoustic signal to understand its linguistic content and make predictions. To boost the models' performance, various pre-training methods have been proposed to learn rich representations from large-scale unannotated speech and text. However, the inherent disparities between the two modalities necessitate a mutual analysis. In this paper, we propose a novel semi-supervised learning framework, SPLAT, to jointly pre-train the speech and language modules. Besides conducting a self-supervised masked language modeling task on the two individual modules using unpaired speech and text, SPLAT aligns representations from the two modules in a shared latent space using a small amount of paired speech and text. Thus, during fine-tuning, the speech module alone can produce representations carrying both acoustic information and contextual semantic knowledge of an input acoustic signal. Experimental results verify the effectiveness of our approach on various SLU tasks. For example, SPLAT improves the previous state-of-the-art performance on the Spoken SQuAD dataset by more than 10%.
翻訳日:2022-10-10 21:41:21 公開日:2021-03-15
# 明示的熱カーネル学習による急激なマニフォールド学習

Learning Manifold Implicitly via Explicit Heat-Kernel Learning ( http://arxiv.org/abs/2010.01761v3 )

ライセンス: Link先を確認
Yufan Zhou, Changyou Chen, Jinhui Xu(参考訳) マニフォールド学習は多くのアプリケーションで機械学習の基本的な問題である。 既存の手法のほとんどは、高次元空間にデータの低次元埋め込みを直接学習し、ダウンストリームアプリケーションに直接適用できる柔軟性を欠いている。 本稿では,関連する熱核を学習することにより,多様体情報が暗黙的に得られる暗黙的多様体学習の概念を提案する。 熱核は対応する熱方程式の解であり、「熱」が多様体上でどのように転移するかを記述するため、多様体の幾何学的情報を豊富に含む。 フレームワークの実用的なアルゴリズムと理論的解析を提供する。 学習した熱カーネルは、データ生成のための深層生成モデル(DGM)やベイズ推論のためのスタイン変分勾配Descentなど、さまざまなカーネルベースの機械学習モデルに適用することができる。 広範な実験により,この2つのタスクに対する既存の手法と比較して,最先端の結果を得ることができた。

Manifold learning is a fundamental problem in machine learning with numerous applications. Most of the existing methods directly learn the low-dimensional embedding of the data in some high-dimensional space, and usually lack the flexibility of being directly applicable to down-stream applications. In this paper, we propose the concept of implicit manifold learning, where manifold information is implicitly obtained by learning the associated heat kernel. A heat kernel is the solution of the corresponding heat equation, which describes how "heat" transfers on the manifold, thus containing ample geometric information of the manifold. We provide both practical algorithm and theoretical analysis of our framework. The learned heat kernel can be applied to various kernel-based machine learning models, including deep generative models (DGM) for data generation and Stein Variational Gradient Descent for Bayesian inference. Extensive experiments show that our framework can achieve state-of-the-art results compared to existing methods for the two tasks.
翻訳日:2022-10-10 19:54:04 公開日:2021-03-15
# 相対的ピアソン発散による近位政策最適化

Proximal Policy Optimization with Relative Pearson Divergence ( http://arxiv.org/abs/2010.03290v2 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 深層強化学習(DRL)の最近の顕著な進歩は、安定的で効率的な学習のための政策の規則化にある。 この目的のために、PPO (proximal policy optimization) と呼ばれる一般的な手法が導入された。 PPOは最新の方針と基準方針の密度比を閾値でクリップするが、最小化ターゲットは不明確である。 PPOの別の問題として、密度比自体が非対称領域にある間に対称閾値が数値的に与えられ、したがってポリシーの不均衡な正規化が生じる。 そこで本稿では,PPO-RPEと呼ばれる相対ピアソン発散の正規化問題を考慮し,PPOの新たな変種を提案する。 この正規化は、最新のポリシーをベースラインに制約する明確な最小化ターゲットをもたらす。 その解析により、閾値の非対称性と密度比の領域と一致する直感的なしきい値に基づく設計を導出することができる。 4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。

The recent remarkable progress of deep reinforcement learning (DRL) stands on regularization of policy for stable and efficient learning. A popular method, named proximal policy optimization (PPO), has been introduced for this purpose. PPO clips density ratio of the latest and baseline policies with a threshold, while its minimization target is unclear. As another problem of PPO, the symmetric threshold is given numerically while the density ratio itself is in asymmetric domain, thereby causing unbalanced regularization of the policy. This paper therefore proposes a new variant of PPO by considering a regularization problem of relative Pearson (RPE) divergence, so-called PPO-RPE. This regularization yields the clear minimization target, which constrains the latest policy to the baseline one. Through its analysis, the intuitive threshold-based design consistent with the asymmetry of the threshold and the domain of density ratio can be derived. Through four benchmark tasks, PPO-RPE performed as well as or better than the conventional methods in terms of the task performance by the learned policy.
翻訳日:2022-10-10 00:13:59 公開日:2021-03-15
# 残留分散を用いた深部ポリシー勾配の学習値関数

Learning Value Functions in Deep Policy Gradients using Residual Variance ( http://arxiv.org/abs/2010.04440v3 )

ライセンス: Link先を確認
Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, Philippe Preux(参考訳) ポリシー勾配アルゴリズムは多様な意思決定と制御タスクで成功している。 しかし、これらの手法は高いサンプルの複雑さと不安定な問題に苦しむ。 本稿では,アクター-批判的枠組みにおいて,批判者を訓練するための異なるアプローチを提供することにより,これらの課題に対処する。 我々の研究は、従来のアクター批判アルゴリズムが真の価値関数に適合しないことを示す最近の研究に基づいており、批判者にとってより良い目的を特定する必要性を訴えている。 本手法では,従来のアクター-クリティックのように絶対値ではなく,平均値に対して状態(状態-アクションペア)の値を学ぶ新しい状態値(状態-アクション-バリュー)関数近似を用いる。 我々は,新しい勾配推定器の理論的一貫性を証明し,様々な連続制御タスクとアルゴリズムにわたる劇的な経験的改善を観察する。 さらに,提案手法を小額な報酬を伴うタスクで検証し,実験的なエビデンスと理論的洞察を提供する。

Policy gradient algorithms have proven to be successful in diverse decision making and control tasks. However, these methods suffer from high sample complexity and instability issues. In this paper, we address these challenges by providing a different approach for training the critic in the actor-critic framework. Our work builds on recent studies indicating that traditional actor-critic algorithms do not succeed in fitting the true value function, calling for the need to identify a better objective for the critic. In our method, the critic uses a new state-value (resp. state-action-value) function approximation that learns the value of the states (resp. state-action pairs) relative to their mean value rather than the absolute value as in conventional actor-critic. We prove the theoretical consistency of the new gradient estimator and observe dramatic empirical improvement across a variety of continuous control tasks and algorithms. Furthermore, we validate our method in tasks with sparse rewards, where we provide experimental evidence and theoretical insights.
翻訳日:2022-10-09 04:04:12 公開日:2021-03-15
# グラフベースのディープラーニングを現実のネットワークシナリオに適用する

Applying Graph-based Deep Learning To Realistic Network Scenarios ( http://arxiv.org/abs/2010.06686v2 )

ライセンス: Link先を確認
Miquel Ferriol-Galm\'es and Jos\'e Su\'arez-Varela and Pere Barlet-Ros and Albert Cabellos-Aparicio(参考訳) 機械学習(ML)の最近の進歩は、多くのネットワーク関連の問題に対して、データ駆動型ソリューションを構築する大きな可能性を示している。 この文脈では、ネットワークのための機能最適化ツールを実現するためには、高速で正確なネットワークモデルを構築することが不可欠である。 しかし、最新のMLベースのネットワークモデリング技術では、高度なキュースケジューリング構成を持つ現実的なネットワークシナリオにおいて、遅延やジッタといった重要なパフォーマンス指標を正確に見積もることができない。 本稿では,ネットワーク内のパス平均遅延を正確に推定可能なグラフベース深層学習モデルを提案する。 提案モデルでは,トレーニングフェーズ中に見つからないトポロジ,ルーティング構成,キュースケジューリングポリシ,トラフィック行列をうまく一般化することができる。

Recent advances in Machine Learning (ML) have shown a great potential to build data-driven solutions for a plethora of network-related problems. In this context, building fast and accurate network models is essential to achieve functional optimization tools for networking. However, state-of-the-art ML-based techniques for network modelling are not able to provide accurate estimates of important performance metrics such as delay or jitter in realistic network scenarios with sophisticated queue scheduling configurations. This paper presents a new Graph-based deep learning model able to estimate accurately the per-path mean delay in networks. The proposed model can generalize successfully over topologies, routing configurations, queue scheduling policies and traffic matrices unseen during the training phase.
翻訳日:2022-10-08 00:48:38 公開日:2021-03-15
# 高分解能乱流DNSデータの効率的な再構成のための深層学習

Deep Learning for Efficient Reconstruction of High-Resolution Turbulent DNS Data ( http://arxiv.org/abs/2010.11348v2 )

ライセンス: Link先を確認
Pranshu Pant, Amir Barati Farimani(参考訳) 数値流体力学の領域において、直接数値シミュレーション(dns)は流体の流れの高精度な数値解を得るために用いられる。 しかし、Navier-Stokes方程式の数値解法は、大きく洗練された格子を必要とするため、計算コストが非常に高い。 大規模渦シミュレーション(LES)は、低分解能(LR)グリッド上での流体流れの解法をより効率的に行うが、解の忠実度は全体的に低下する。 本稿では,画像超解法で使用される深層学習技術を活用することにより,解の忠実度と計算複雑性のトレードオフを軽減することを目的とした,新しいディープラーニングフレームワークSR-DNS Netを提案する。 本モデルを用いて,高精細グリッド上でDNSを実行する必要がなくなるように,粗いLRソリューションから高分解能(HR)DNSソリューションへのマッピングを学習したい。 提案モデルでは,LESの高忠実度DNSデータを低解像度の解のように効率的に再構成し,良好な再現基準を得る。 そこで,本実装では,学習型ディープラーニングモデルのデプロイに必要な計算コストがわずかに増加するだけで,lrソリューションの解精度が向上する。

Within the domain of Computational Fluid Dynamics, Direct Numerical Simulation (DNS) is used to obtain highly accurate numerical solutions for fluid flows. However, this approach for numerically solving the Navier-Stokes equations is extremely computationally expensive mostly due to the requirement of greatly refined grids. Large Eddy Simulation (LES) presents a more computationally efficient approach for solving fluid flows on lower-resolution (LR) grids but results in an overall reduction in solution fidelity. Through this paper, we introduce a novel deep learning framework SR-DNS Net, which aims to mitigate this inherent trade-off between solution fidelity and computational complexity by leveraging deep learning techniques used in image super-resolution. Using our model, we wish to learn the mapping from a coarser LR solution to a refined high-resolution (HR) DNS solution so as to eliminate the need for performing DNS on highly refined grids. Our model efficiently reconstructs the high-fidelity DNS data from the LES like low-resolution solutions while yielding good reconstruction metrics. Thus our implementation improves the solution accuracy of LR solutions while incurring only a marginal increase in computational cost required for deploying the trained deep learning model.
翻訳日:2022-10-05 00:52:17 公開日:2021-03-15
# 中国語単語セグメンテーションのためのメタ学習による事前学習

Pre-training with Meta Learning for Chinese Word Segmentation ( http://arxiv.org/abs/2010.12272v2 )

ライセンス: Link先を確認
Zhen Ke, Liang Shi, Songtao Sun, Erli Meng, Bin Wang, Xipeng Qiu(参考訳) 近年の研究では、事前学習モデル(PTM)が中国語の単語セグメンテーション(CWS)に有用であることが示されている。 しかしながら、以前の研究で使用されるPTMは、通常、言語モデリングを事前訓練タスクとして採用し、タスク固有の事前セグメンテーション知識を欠き、事前訓練タスクと下流CWSタスクの相違を無視している。 本稿では,CWS固有の事前学習モデルMETASEGを提案する。 実験の結果, メタセグメンテーションは, 既存の異なる基準からの共通事前セグメンテーション知識を活用でき, 学習済みモデルと下流cwsタスクとの差異を緩和できることがわかった。 さらに、metasegは12の広く使用されているcwsデータセットで新たな最先端のパフォーマンスを実現し、低リソース設定でのモデルパフォーマンスを大幅に向上することができる。

Recent researches show that pre-trained models (PTMs) are beneficial to Chinese Word Segmentation (CWS). However, PTMs used in previous works usually adopt language modeling as pre-training tasks, lacking task-specific prior segmentation knowledge and ignoring the discrepancy between pre-training tasks and downstream CWS tasks. In this paper, we propose a CWS-specific pre-trained model METASEG, which employs a unified architecture and incorporates meta learning algorithm into a multi-criteria pre-training task. Empirical results show that METASEG could utilize common prior segmentation knowledge from different existing criteria and alleviate the discrepancy between pre-trained models and downstream CWS tasks. Besides, METASEG can achieve new state-of-the-art performance on twelve widely-used CWS datasets and significantly improve model performance in low-resource settings.
翻訳日:2022-10-03 22:35:12 公開日:2021-03-15
# RSPNet:教師なしビデオ表現学習のための相対速度知覚

RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning ( http://arxiv.org/abs/2011.07949v2 )

ライセンス: Link先を確認
Peihao Chen and Deng Huang and Dongliang He and Xiang Long and Runhao Zeng and Shilei Wen and Mingkui Tan and Chuang Gan(参考訳) 動作認識などの下流タスクに再利用可能な、ラベルのないビデオのみから、動きと外観の特徴の両方を学習するための教師なしビデオ表現学習について検討する。 しかし、この課題は、非常に困難です。 1)ビデオにおける高度に複雑な時空間情報,及び 2) 学習のためのラベル付きデータの欠如。 静的画像の表現学習とは異なり、動きと外観の両方をうまくモデル化する適切な自己教師付きタスクを構築することは困難である。 近年,ビデオ再生速度予測により映像表現を学習する試みがいくつか行われている。 しかし、ビデオの正確な速度ラベルを得るのは簡単ではない。 より重要なことは、学習したモデルは動きパターンにフォーカスする傾向があるため、外観の特徴をうまく学ばない可能性がある。 本稿では,相対再生速度が運動パターンとより整合していることを観察し,表現学習においてより効果的で安定した監督を行う。 そこで本稿では,再生速度を知覚し,2つのビデオクリップ間の相対速度をラベルとして利用する方法を提案する。 このようにして、私たちは、速度をよく認識し、より優れた動きの特徴を学ぶことができます。 さらに,外観特徴の学習を確実にするために,2つのビデオクリップ間の外観差を知覚するためにモデルを適用し,外観に着目したタスクを提案する。 この2つのタスクの最適化は、アクション認識とビデオ検索という2つの下流タスクのパフォーマンスを一貫して改善することを示す。 注目すべきは、UCF101データセット上のアクション認識において、ラベル付きデータを事前トレーニングに使わずに93.7%の精度を達成することだ。 コードと事前トレーニングされたモデルはhttps://github.com/peihaochen/rspnetで見ることができる。

We study unsupervised video representation learning that seeks to learn both motion and appearance features from unlabeled video only, which can be reused for downstream tasks such as action recognition. This task, however, is extremely challenging due to 1) the highly complex spatial-temporal information in videos; and 2) the lack of labeled data for training. Unlike the representation learning for static images, it is difficult to construct a suitable self-supervised task to well model both motion and appearance features. More recently, several attempts have been made to learn video representation through video playback speed prediction. However, it is non-trivial to obtain precise speed labels for the videos. More critically, the learnt models may tend to focus on motion pattern and thus may not learn appearance features well. In this paper, we observe that the relative playback speed is more consistent with motion pattern, and thus provide more effective and stable supervision for representation learning. Therefore, we propose a new way to perceive the playback speed and exploit the relative speed between two video clips as labels. In this way, we are able to well perceive speed and learn better motion features. Moreover, to ensure the learning of appearance features, we further propose an appearance-focused task, where we enforce the model to perceive the appearance difference between two video clips. We show that optimizing the two tasks jointly consistently improves the performance on two downstream tasks, namely action recognition and video retrieval. Remarkably, for action recognition on UCF101 dataset, we achieve 93.7% accuracy without the use of labeled data for pre-training, which outperforms the ImageNet supervised pre-trained model. Code and pre-trained models can be found at https://github.com/PeihaoChen/RSPNet.
翻訳日:2022-10-02 12:23:13 公開日:2021-03-15
# タスクアウェアニューラルアーキテクチャ探索

Task-Aware Neural Architecture Search ( http://arxiv.org/abs/2010.13962v3 )

ライセンス: Link先を確認
Cat P. Le, Mohammadreza Soltani, Robert Ravier, Vahid Tarokh(参考訳) 手作りニューラルネットワークの設計には多くの時間とリソースが必要です。 最近のニューラル・アーキテクチャ・サーチ(nas)の技術は、従来の手作りデザインよりも競争力があるか優れていることが証明されている。 本稿では, ベースタスクのモデル辞書と, 対象タスクと辞書の原子との類似性を利用して, ベースモデルに基づく適応探索空間を生成する, ニューラルアーキテクチャ探索のための新しいフレームワークを提案する。 勾配に基づく探索アルゴリズムを導入することにより、ネットワークを完全に訓練することなく、検索空間の最良のアーキテクチャを評価し、発見することができる。 実験の結果,提案手法の有効性が示された。

The design of handcrafted neural networks requires a lot of time and resources. Recent techniques in Neural Architecture Search (NAS) have proven to be competitive or better than traditional handcrafted design, although they require domain knowledge and have generally used limited search spaces. In this paper, we propose a novel framework for neural architecture search, utilizing a dictionary of models of base tasks and the similarity between the target task and the atoms of the dictionary; hence, generating an adaptive search space based on the base models of the dictionary. By introducing a gradient-based search algorithm, we can evaluate and discover the best architecture in the search space without fully training the networks. The experimental results show the efficacy of our proposed task-aware approach.
翻訳日:2022-10-02 11:11:58 公開日:2021-03-15
# モデルロバスト性の評価とデータセットシフトの安定性

Evaluating Model Robustness and Stability to Dataset Shift ( http://arxiv.org/abs/2010.15100v2 )

ライセンス: Link先を確認
Adarsh Subbaswamy, Roy Adams, Suchi Saria(参考訳) 高影響領域での機械学習の利用が広まるにつれて、安全性の評価の重要性が高まっている。 この重要な側面は、モデルが設定や人口の変化に対してどの程度堅牢であるかを評価することである。 このようなデータセットの収集コストは、しばしば禁止されるため、本稿では、利用可能なデータを用いて、この種の安定性を分析するためのフレームワークを提案する。 アルゴリズムの性能の悪い分布を判断するために元の評価データを使用し, "worst-case" 分布におけるアルゴリズムの性能を推定する。 ユーザ定義条件分布のシフトを考慮し、データ分布の他の部分を固定しながら、一部の分布をシフトさせることができる。 例えば、医療の文脈では、患者人口を固定しながら臨床実践の変化を検討することができる。 複雑な高次元分布における推定に伴う課題に対処するために,収束率の遅い機械学習手法を用いてニュアンスパラメータを推定した場合においても,$\sqrt{N}$-consistencyを維持する「偏り」推定器を導出する。 実際の医療リスク予測タスクの実験では、この推定器を用いて、これまで表現できなかった現実的なシフトの安定性と説明を行うことができる。 提案フレームワークでは,データ収集を必要とせず,積極的にモデルの安全性を評価することができる。

As the use of machine learning in high impact domains becomes widespread, the importance of evaluating safety has increased. An important aspect of this is evaluating how robust a model is to changes in setting or population, which typically requires applying the model to multiple, independent datasets. Since the cost of collecting such datasets is often prohibitive, in this paper, we propose a framework for analyzing this type of stability using the available data. We use the original evaluation data to determine distributions under which the algorithm performs poorly, and estimate the algorithm's performance on the "worst-case" distribution. We consider shifts in user defined conditional distributions, allowing some distributions to shift while keeping other portions of the data distribution fixed. For example, in a healthcare context, this allows us to consider shifts in clinical practice while keeping the patient population fixed. To address the challenges associated with estimation in complex, high-dimensional distributions, we derive a "debiased" estimator which maintains $\sqrt{N}$-consistency even when machine learning methods with slower convergence rates are used to estimate the nuisance parameters. In experiments on a real medical risk prediction task, we show this estimator can be used to analyze stability and accounts for realistic shifts that could not previously be expressed. The proposed framework allows practitioners to proactively evaluate the safety of their models without requiring additional data collection.
翻訳日:2022-10-02 04:54:09 公開日:2021-03-15
# 費用補助付きマルチアームバンド

Multi-armed Bandits with Cost Subsidy ( http://arxiv.org/abs/2011.01488v3 )

ライセンス: Link先を確認
Deeksha Sinha, Karthik Abinav Sankararama, Abbas Kazerouni, Vashist Avadhanula(参考訳) 本稿では,マルチアーム・バンディット(MAB)問題(MAB)の新たな変種として,学習エージェントがアームの選択に支払わなければならない多くの実生活応用をモデル化し,累積コストと報酬の最適化を懸念するコスト補助付きMABについて考察する。 我々は,複数の企業(特にオンラインプラットフォーム)が直面する,インテリジェントなsmsルーティング問題と広告オーディエンス最適化問題という2つのアプリケーションを提示する。 上信頼境界やトンプソンサンプリングのような既存のMABアルゴリズムの素早い一般化はこの問題に対してうまく機能しないことを示す。 次に,本問題に対するオンライン学習アルゴリズムの性能に関する基礎的下限を定め,古典的mab問題と比較して,問題の難易度を強調する。 また,このアルゴリズムに対して,探索定理の簡単な変種を提示し,ほぼ最適な後悔境界を確立する。 最後に,様々なインスタンスに対するアルゴリズムの組の挙動を理解するために,広範な数値シミュレーションを行い,異なるアルゴリズムを利用するための実践的ガイドを推薦する。

In this paper, we consider a novel variant of the multi-armed bandit (MAB) problem, MAB with cost subsidy, which models many real-life applications where the learning agent has to pay to select an arm and is concerned about optimizing cumulative costs and rewards. We present two applications, intelligent SMS routing problem and ad audience optimization problem faced by several businesses (especially online platforms), and show how our problem uniquely captures key features of these applications. We show that naive generalizations of existing MAB algorithms like Upper Confidence Bound and Thompson Sampling do not perform well for this problem. We then establish a fundamental lower bound on the performance of any online learning algorithm for this problem, highlighting the hardness of our problem in comparison to the classical MAB problem. We also present a simple variant of explore-then-commit and establish near-optimal regret bounds for this algorithm. Lastly, we perform extensive numerical simulations to understand the behavior of a suite of algorithms for various instances and recommend a practical guide to employ different algorithms.
翻訳日:2022-09-30 03:59:18 公開日:2021-03-15
# Google TPUにおける機械学習トレーニングにおける並行性の限界を探る

Exploring the limits of Concurrency in ML Training on Google TPUs ( http://arxiv.org/abs/2011.03641v3 )

ライセンス: Link先を確認
Sameer Kumar and James Bradbury and Cliff Young and Yu Emma Wang and Anselm Levskaya and Blake Hechtman and Dehao Chen and HyoukJoong Lee and Mehmet Deveci and Naveen Kumar and Pankaj Kanwar and Shibo Wang and Skye Wanderman-Milne and Steve Lacy and Tao Wang and Tayo Oguntebi and Yazhou Zu and Yuanzhong Xu and Andy Swing(参考訳) ニューラルネットワークを用いた最近の言語理解の結果、何千ものチップが1回のトレーニング実行で協調し、前例のない規模のトレーニングハードウェアが必要になった。 本稿では,4096 TPU-v3チップを備えたメッシュであるGoogle TPU Multipod上でMLモデルをスケールする手法を提案する。 データ並列性における固定バッチサイズからのスケーリング制限、通信/集約最適化、トレーニングメトリクスの分散評価、ホストの入力処理スケーリング最適化について論じる。 これらのテクニックはTensorFlowとJAXプログラミングフレームワークの両方で実証されている。 また、Google TPU-v3 Multipodマシン上の4つのMLPerfモデルにおいて、MLPerf-v0.7ベンチマークコンテストへの最近のGoogleの提出によるパフォーマンス結果を示す。

Recent results in language understanding using neural networks have required training hardware of unprecedentedscale, with thousands of chips cooperating on a single training run. This paper presents techniques to scaleML models on the Google TPU Multipod, a mesh with 4096 TPU-v3 chips. We discuss model parallelism toovercome scaling limitations from the fixed batch size in data parallelism, communication/collective optimizations,distributed evaluation of training metrics, and host input processing scaling optimizations. These techniques aredemonstrated in both the TensorFlow and JAX programming frameworks. We also present performance resultsfrom the recent Google submission to the MLPerf-v0.7 benchmark contest, achieving record training times from16 to 28 seconds in four MLPerf models on the Google TPU-v3 Multipod machine.
翻訳日:2022-09-28 22:52:03 公開日:2021-03-15
# カーネル型教師付き学習のための特徴空間近似

Feature space approximation for kernel-based supervised learning ( http://arxiv.org/abs/2011.12651v2 )

ライセンス: Link先を確認
Patrick Gel{\ss}, Stefan Klus, Ingmar Schuster, Christof Sch\"utte(参考訳) 本研究では,教師付き学習において重要な役割を果たす高次元あるいは無限次元特徴ベクトルの近似法を提案する。 目標は、トレーニングデータのサイズを削減し、ストレージの消費と計算の複雑さを低下させることだ。 さらに,本手法は,学習対象関数の一般化性を向上させる正規化手法とみなすことができる。 完全なトレーニングデータセットを含むデータ駆動予測の計算と比較して,大幅な改善を示す。 本手法は, 画像認識, システム識別, 海洋時系列解析などの異なる応用領域の分類と回帰問題に適用する。

We propose a method for the approximation of high- or even infinite-dimensional feature vectors, which play an important role in supervised learning. The goal is to reduce the size of the training data, resulting in lower storage consumption and computational complexity. Furthermore, the method can be regarded as a regularization technique, which improves the generalizability of learned target functions. We demonstrate significant improvements in comparison to the computation of data-driven predictions involving the full training data set. The method is applied to classification and regression problems from different application areas such as image recognition, system identification, and oceanographic time series analysis.
翻訳日:2022-09-21 02:01:45 公開日:2021-03-15
# (参考訳) 確率的タンパク質配列モデルの生成能

Generative Capacity of Probabilistic Protein Sequence Models ( http://arxiv.org/abs/2012.02296v2 )

ライセンス: CC BY 4.0
Francisco McGee, Quentin Novinger, Ronald M. Levy, Vincenzo Carnevale, Allan Haldane(参考訳) ポッツモデルと変分オートエンコーダ(VAE)は近年、フィットネスランドスケープを探索し、突然変異の影響を予測するために、生成タンパク質配列モデル(GPSM)として人気を集めている。 奨励的な結果にもかかわらず、GPSM生成確率分布の定量的特徴と比較はいまだに欠落している。 GPSMsが転移によって引き起こされる自然配列で観察される複雑な多重残基変異パターンを忠実に再現できるかどうかは現在不明である。 我々は,最近注目されている3つのGPSM(Potts Hamiltonian, VAE, サイト非依存モデル)の「生成能力」を評価するために,自然および合成データセットを用いた一連の統計データを開発した。 ポッツハミルトニアンモデルの生成能力は、モデルによって生成された高次突然変異統計量と自然数列で観測されるものとの一致が最大であることを示す。 対照的に、VAEの生成能力は、ペアのポットとサイト非依存モデルの間にある。 重要な点は,我々が開発した高次シーケンス共変統計量の観点からgpsm生成能力を測定し,エピスタシスの役割を強調したgpsm精度の評価と解釈のための新しい枠組みを提供することである。

Potts models and variational autoencoders (VAEs) have recently gained popularity as generative protein sequence models (GPSMs) to explore fitness landscapes and predict the effect of mutations. Despite encouraging results, quantitative characterization and comparison of GPSM-generated probability distributions is still lacking. It is currently unclear whether GPSMs can faithfully reproduce the complex multi-residue mutation patterns observed in natural sequences arising due to epistasis. We develop a set of sequence statistics to assess the "generative capacity" of three GPSMs of recent interest: the pairwise Potts Hamiltonian, the VAE, and the site-independent model, using natural and synthetic datasets. We show that the generative capacity of the Potts Hamiltonian model is the largest, in that the higher order mutational statistics generated by the model agree with those observed for natural sequences. In contrast, we show that the VAE's generative capacity lies between the pairwise Potts and site-independent models. Importantly, our work measures GPSM generative capacity in terms of higher-order sequence covariation statistics which we have developed, and provides a new framework for evaluating and interpreting GPSM accuracy that emphasizes the role of epistasis.
翻訳日:2021-05-23 16:21:44 公開日:2021-03-15
# (参考訳) 逆転学習は時間逆転型逆転ゲームである

Contrastive Divergence Learning is a Time Reversal Adversarial Game ( http://arxiv.org/abs/2012.03295v3 )

ライセンス: CC BY 4.0
Omer Yair, Tomer Michaeli(参考訳) 対照的発散(CD)学習は、非正規化統計モデルをデータサンプルに適合させる古典的な方法である。 その広範にわたる使用にもかかわらず、このアルゴリズムの収束特性はまだよく分かっていない。 難易度の主な源は、損失の勾配を導出するために使われる不当な近似である。 本稿では,アルゴリズムによって実際に最適化されている目的に対して,いかなる近似も必要とせず,新たな光を放つCDの別の導出を提案する。 具体的には,CDは,モデルから生成したマルコフ連鎖が時間反転したかどうかを識別する逆学習法であることを示す。 したがって、GAN (Generative Adversarial Network) は10年以上前から存在するが、CDは実際にはこれらの技術と密接に関連している。 私たちの導出は、cdの更新ステップは任意の固定目的関数の勾配として表現できないと結論づけた以前の観測とよく一致する。 加えて、副産物として、我々の導出は、下層のマルコフ鎖が欠如している場合に必要となるメトロポリス・ハスティング拒否の代替として使用できる単純な修正を明らかにする(例えば、)。 大きなステップでランジュバンダイナミクスを使用する場合)。

Contrastive divergence (CD) learning is a classical method for fitting unnormalized statistical models to data samples. Despite its wide-spread use, the convergence properties of this algorithm are still not well understood. The main source of difficulty is an unjustified approximation which has been used to derive the gradient of the loss. In this paper, we present an alternative derivation of CD that does not require any approximation and sheds new light on the objective that is actually being optimized by the algorithm. Specifically, we show that CD is an adversarial learning procedure, where a discriminator attempts to classify whether a Markov chain generated from the model has been time-reversed. Thus, although predating generative adversarial networks (GANs) by more than a decade, CD is, in fact, closely related to these techniques. Our derivation settles well with previous observations, which have concluded that CD's update steps cannot be expressed as the gradients of any fixed objective function. In addition, as a byproduct, our derivation reveals a simple correction that can be used as an alternative to Metropolis-Hastings rejection, which is required when the underlying Markov chain is inexact (e.g. when using Langevin dynamics with a large step).
翻訳日:2021-05-22 05:30:27 公開日:2021-03-15
# 物理系の非線形ダイナミクス学習のための変分オートエンコーダ

Variational Autoencoders for Learning Nonlinear Dynamics of Physical Systems ( http://arxiv.org/abs/2012.03448v2 )

ライセンス: Link先を確認
Ryan Lopez and Paul J. Atzberger(参考訳) パラメータ化されたPDEとメカニクスから生じる非線形システムのパジュネート表現を学習するために,事前の物理情報を組み込むデータ駆動手法を開発した。 本手法は、非線形状態空間モデルから学習するための変分オートエンコーダ(VAE)に基づく。 我々は、一般多様体潜在空間表現を通して幾何学的および位相的先行を組み込む方法を開発した。 非線形バーガース方程式と制約付き機械システムの低次元表現を学習する手法の性能について検討した。

We develop data-driven methods for incorporating physical information for priors to learn parsimonious representations of nonlinear systems arising from parameterized PDEs and mechanics. Our approach is based on Variational Autoencoders (VAEs) for learning from observations nonlinear state space models. We develop ways to incorporate geometric and topological priors through general manifold latent space representations. We investigate the performance of our methods for learning low dimensional representations for the nonlinear Burgers equation and constrained mechanical systems.
翻訳日:2021-05-16 21:32:34 公開日:2021-03-15
# 最小値近傍における多クラスロジスティック回帰の収束率

Convergence Rates for Multi-classs Logistic Regression Near Minimum ( http://arxiv.org/abs/2012.04576v3 )

ライセンス: Link先を確認
Dwight Nwaigwe, Marek Rychlik(参考訳) 本稿では、ニューラルネットワークの既知のクラスである多クラスロジスティック回帰をトレーニングするための収束率の構成的推定について述べる。 数十年にわたる成功にもかかわらず、我々の厳格な結果は、実践と機械学習理論の間のギャップを反映して、新しいように見える。 ニューラルネットワークのトレーニングは通常、勾配降下法のバリエーションを通じて行われる。 損失関数の最小値が存在し、勾配降下が訓練方法として使用される場合、学習率と収束率を最小値に関連付ける式を提供する。 この方法は、損失関数のヘッセンの条件数の推定を含む。 また、最小が存在するのは自動ではないため、最小の存在も議論する。 収束を保証する1つの方法は、トレーニングデータセットの各クラスに正の確率を割り当てることである。

In the current paper we provide constructive estimation of the convergence rate for training a known class of neural networks: the multi-class logistic regression. Despite several decades of successful use, our rigorous results appear new, reflective of the gap between practice and theory of machine learning. Training a neural network is typically done via variations of the gradient descent method. If a minimum of the loss function exists and gradient descent is used as the training method, we provide an expression that relates learning rate to the rate of convergence to the minimum. The method involves an estimate of the condition number of the Hessian of the loss function. We also discuss the existence of a minimum, as it is not automatic that a minimum exists. One method of ensuring convergence is by assigning positive probabiity to every class in the training dataset.
翻訳日:2021-05-16 20:42:50 公開日:2021-03-15
# イベントカメラによる二進二乗四乗マーカーの検出

Detection of Binary Square Fiducial Markers Using an Event Camera ( http://arxiv.org/abs/2012.06516v3 )

ライセンス: Link先を確認
Hamid Sarmadi, Rafael Mu\~noz-Salinas, Miguel A. Olivares-Mendez, Rafael Medina-Carnicer(参考訳) イベントカメラは、絶対強度値ではなく、光強度(イベント)の変化を出力する新しいタイプのイメージセンサーである。 非常に高い時間分解能と高いダイナミックレンジを持つ。 本稿では,イベントカメラを用いて二進二乗マーカーの検出と復号を行う手法を提案する。 我々は,現在のパケットのイベントから生成された画像中の線分を検出することにより,マーカーのエッジを検出する。 線分を結合してマーカー候補を形成する。 マーカーセルのビット値は、境界上のイベントを使用してデコードされる。 我々の知る限りでは、リアルタイムにCPUユニットのみを使用してイベントカメラから直接正方形のバイナリマーカーを検出する方法は他にない。 実験の結果,提案手法の性能はrgb arucoマーカー検出器より優れていることがわかった。 提案手法は単一のcpuスレッドでリアルタイム性能を実現することができる。

Event cameras are a new type of image sensors that output changes in light intensity (events) instead of absolute intensity values. They have a very high temporal resolution and a high dynamic range. In this paper, we propose a method to detect and decode binary square markers using an event camera. We detect the edges of the markers by detecting line segments in an image created from events in the current packet. The line segments are combined to form marker candidates. The bit value of marker cells is decoded using the events on their borders. To the best of our knowledge, no other approach exists for detecting square binary markers directly from an event camera using only the CPU unit in real-time. Experimental results show that the performance of our proposal is much superior to the one from the RGB ArUco marker detector. The proposed method can achieve the real-time performance on a single CPU thread.
翻訳日:2021-05-11 02:57:24 公開日:2021-03-15
# 心電図の学習準備はできているか?

Are We Ready For Learned Cardinality Estimation? ( http://arxiv.org/abs/2012.06743v3 )

ライセンス: Link先を確認
Xiaoying Wang, Changbo Qu, Weiyuan Wu, Jiannan Wang, Qingqing Zhou(参考訳) 基数推定はクエリ最適化において基本だが長い未解決問題である。 近年、異なる研究グループの複数の論文は、学習モデルが既存の濃度推定器を置き換える可能性を常に報告している。 本論文では,先進的な疑問を提起する。 これらの学習された濃度モデルを本番環境に展開する準備はできているか? 私たちの研究は3つの主要部分からなる。 まず、静的環境(すなわちデータ更新なし)に注目し、5つの新しい学習方法と4つの実世界のデータセット上の8つの伝統的な方法を比較する。 その結果,学習モデルの精度は従来の手法よりも高いが,高いトレーニングと推論コストに苦しむことが少なくないことがわかった。 次に、これらの学習モデルが動的環境(すなわち頻繁なデータ更新)の準備ができているかどうかを調べる。 最新の高速なデータに追いつき、さまざまな理由で大きなエラーを返せないことが分かっています。 頻繁でない更新では、パフォーマンスが向上するが、その間に明確な勝者は存在しない。 第3に、学習したモデルについてより深く検討し、いつそれがうまくいかなくなるかを探る。 以上の結果から,学習手法の性能は相関,歪度,ドメインサイズの変化に大きく影響することが示された。 さらに重要なことに、彼らの行動は解釈がずっと難しく、しばしば予測できない。 これらの結果から,2つの有望な研究方向性(学習モデルのコストの制御と学習モデルの信頼性の確保)を特定し,多くの研究機会を提案する。 私たちの研究は、研究者と実践者が協力して、最終的に学習された濃度推定器を実際のデータベースシステムにプッシュするのに役立つことを願っています。

Cardinality estimation is a fundamental but long unresolved problem in query optimization. Recently, multiple papers from different research groups consistently report that learned models have the potential to replace existing cardinality estimators. In this paper, we ask a forward-thinking question: Are we ready to deploy these learned cardinality models in production? Our study consists of three main parts. Firstly, we focus on the static environment (i.e., no data updates) and compare five new learned methods with eight traditional methods on four real-world datasets under a unified workload setting. The results show that learned models are indeed more accurate than traditional methods, but they often suffer from high training and inference costs. Secondly, we explore whether these learned models are ready for dynamic environments (i.e., frequent data updates). We find that they cannot catch up with fast data up-dates and return large errors for different reasons. For less frequent updates, they can perform better but there is no clear winner among themselves. Thirdly, we take a deeper look into learned models and explore when they may go wrong. Our results show that the performance of learned methods can be greatly affected by the changes in correlation, skewness, or domain size. More importantly, their behaviors are much harder to interpret and often unpredictable. Based on these findings, we identify two promising research directions (control the cost of learned models and make learned models trustworthy) and suggest a number of research opportunities. We hope that our study can guide researchers and practitioners to work together to eventually push learned cardinality estimators into real database systems.
翻訳日:2021-05-10 05:12:03 公開日:2021-03-15
# 記号表現を学習したアタリの画素からの計画

Planning from Pixels in Atari with Learned Symbolic Representations ( http://arxiv.org/abs/2012.09126v2 )

ライセンス: Link先を確認
Andrea Dittadi, Frederik K. Drachmann, Thomas Bolander(参考訳) 幅ベース計画法は, 画素入力を用いたAtari 2600領域の最先端性能を示すことが示されている。 1つの成功したアプローチであるRolloutIWは、B-PROSTのブール関数セットで状態を表す。 RolloutIWの強化版である$\pi$-IWは、学習した機能が幅に基づく検索のために手作りのものと競合できることを示している。 本稿では,変分オートエンコーダ(VAE)を利用して,原理的に,かつ監督することなく,画素から直接特徴を学習する。 トレーニングされたVAEの推論モデルは、画素からブール特徴を抽出し、RolloutIWはこれらの特徴を計画している。 その結果、atari 2600のオリジナルのrolloutiwとヒューマン・プロフェッショナル・プレイを上回り、機能セットのサイズを大幅に削減した。

Width-based planning methods have been shown to yield state-of-the-art performance in the Atari 2600 domain using pixel input. One successful approach, RolloutIW, represents states with the B-PROST boolean feature set. An augmented version of RolloutIW, $\pi$-IW, shows that learned features can be competitive with handcrafted ones for width-based search. In this paper, we leverage variational autoencoders (VAEs) to learn features directly from pixels in a principled manner, and without supervision. The inference model of the trained VAEs extracts boolean features from pixels, and RolloutIW plans with these features. The resulting combination outperforms the original RolloutIW and human professional play on Atari 2600 and drastically reduces the size of the feature set.
翻訳日:2021-05-03 03:10:14 公開日:2021-03-15
# ハイプを超えて:機械学習に基づくマルウェア検出の効果とコストの実世界評価

Beyond the Hype: A Real-World Evaluation of the Impact and Cost of Machine Learning-Based Malware Detection ( http://arxiv.org/abs/2012.09214v2 )

ライセンス: Link先を確認
Robert A. Bridges, Sean Oesch, Miki E. Verma, Michael D. Iannacone, Kelly M.T. Huffer, Brian Jewell, Jeff A. Nichols, Brian Weber, Justin M. Beaver, Jared M. Smith, Daniel Scofield, Craig Miles, Thomas Plummer, Mark Daniell, Anne M. Tall(参考訳) 商用で利用可能なマルウェア検出装置の科学的テストが欠如しており、特に機械学習(ML)を用いて目にしない(ゼロデイ)ファイルを正確に分類している。 その結果、利用可能なアプローチの有効性とギャップは不透明であり、エンドユーザがネットワークのセキュリティ決定をインフォームドすることや、研究者が現在の検出器のギャップを狙うことを妨げている。 本稿では,市場をリードする4つのマルウェア検出ツールの科学的評価を行った。 (第1報)MLベースのツールは,既知のファイルに対する検出能力を犠牲にすることなく,どの程度正確なファイル分類を行うのか? (Q2)ホストベースの検出を補完するネットワークレベルのマルウェア検出器を購入する価値はあるか? それぞれのツールを,400以上のゼロデイマルウェアを含む3,536のファイル(2,554,72%,悪質982,28%)に対してテストし,さまざまなファイルタイプとプロトコルでテストしました。 本稿では,検出時間と精度に関する統計的結果を示し,(複数のツールを用いた)補完的分析を考察し,iannaconne & bridgesによる最近のコスト・ベネフィット評価手順の2つの新しい応用法を提案する。 mlベースのツールはゼロデイファイルや実行ファイルの検出に効果的だが、シグネチャベースのツールは全体的な選択肢として優れている。 どちらのネットワークベースのツールも、ホストツールとペアリングした場合にかなりの(シミュレーションされた)節約を提供するが、httpやsmtp以外のプロトコルでは検出率が低い。 以上の結果から,4つのツールはすべてほぼ完璧に正確だが,特に実行ファイルやオフィスファイル以外のファイルタイプではリコールが極めて少ないことが判明した。

There is a lack of scientific testing of commercially available malware detectors, especially those that boast accurate classification of never-before-seen (i.e., zero-day) files using machine learning (ML). The result is that the efficacy and gaps among the available approaches are opaque, inhibiting end users from making informed network security decisions and researchers from targeting gaps in current detectors. In this paper, we present a scientific evaluation of four market-leading malware detection tools to assist an organization with two primary questions: (Q1) To what extent do ML-based tools accurately classify never-before-seen files without sacrificing detection ability on known files? (Q2) Is it worth purchasing a network-level malware detector to complement host-based detection? We tested each tool against 3,536 total files (2,554 or 72% malicious, 982 or 28% benign) including over 400 zero-day malware, and tested with a variety of file types and protocols for delivery. We present statistical results on detection time and accuracy, consider complementary analysis (using multiple tools together), and provide two novel applications of a recent cost-benefit evaluation procedure by Iannaconne & Bridges that incorporates all the above metrics into a single quantifiable cost. While the ML-based tools are more effective at detecting zero-day files and executables, the signature-based tool may still be an overall better option. Both network-based tools provide substantial (simulated) savings when paired with either host tool, yet both show poor detection rates on protocols other than HTTP or SMTP. Our results show that all four tools have near-perfect precision but alarmingly low recall, especially on file types other than executables and office files -- 37% of malware tested, including all polyglot files, were undetected.
翻訳日:2021-05-03 02:47:23 公開日:2021-03-15
# Multi-FinGAN:Multi-Finger Graspsの粗結合サンプリング

Multi-FinGAN: Generative Coarse-To-Fine Sampling of Multi-Finger Grasps ( http://arxiv.org/abs/2012.09696v2 )

ライセンス: Link先を確認
Jens Lundell, Enric Corona, Tran Nguyen Le, Francesco Verdoja, Philippe Weinzaepfel, Gregory Rogez, Francesc Moreno-Noguer, Ville Kyrki(参考訳) パラレルジャウグリップで剛体物体を操作する方法は数多く存在するが、多指ロボットハンドでつかむことは、まだ未解明の研究トピックである。 数本の指の自由度の追加による衝突のない軌道の推論と計画は、これまでのところ計算コストのかかる低速なプロセスを伴う重要な課題である。 本研究では,rgb-d画像から直接高画質把握を合成する高速生成型多指把持サンプリング手法であるmulti-finganを提案する。 特定の分類法に従って把握タイプを区別する分類ネットワークと、洗練された把持ポーズと関節角度を生成する改良ネットワークとからなる粗・細かなモデルを用いて、エンドツーエンドのトレーニングを行うことにより、これを実現する。 本手法を790把持法,20把持法を実フランカ・エミカ・パンダで実験的に検証し,ベンチマークを行った。 本手法を用いた実験はすべて, 把握品質指標と把握成功率の両面で一貫した改善を示した。 注目すべきは,我々のアプローチがベースラインよりも最大20~30倍高速であることだ。 コードはhttps://irobotics.aalto.fi/multi-fingan/で入手できる。

While there exists many methods for manipulating rigid objects with parallel-jaw grippers, grasping with multi-finger robotic hands remains a quite unexplored research topic. Reasoning and planning collision-free trajectories on the additional degrees of freedom of several fingers represents an important challenge that, so far, involves computationally costly and slow processes. In this work, we present Multi-FinGAN, a fast generative multi-finger grasp sampling method that synthesizes high quality grasps directly from RGB-D images in about a second. We achieve this by training in an end-to-end fashion a coarse-to-fine model composed of a classification network that distinguishes grasp types according to a specific taxonomy and a refinement network that produces refined grasp poses and joint angles. We experimentally validate and benchmark our method against a standard grasp-sampling method on 790 grasps in simulation and 20 grasps on a real Franka Emika Panda. All experimental results using our method show consistent improvements both in terms of grasp quality metrics and grasp success rate. Remarkably, our approach is up to 20-30 times faster than the baseline, a significant improvement that opens the door to feedback-based grasp re-planning and task informative grasping. Code is available at https://irobotics.aalto.fi/multi-fingan/.
翻訳日:2021-05-02 07:13:47 公開日:2021-03-15
# 深部ネットワークにおける分離と集中

Separation and Concentration in Deep Networks ( http://arxiv.org/abs/2012.10424v2 )

ライセンス: Link先を確認
John Zarka, Florentin Guth, St\'ephane Mallat(参考訳) 数値実験により、ディープニューラルネットワーク分類器は、平均付近のクラス分布を段階的に分離し、トレーニングセット上で線形分離性を達成し、フィッシャー判別比を増大させることを示した。 このメカニズムを2種類の演算子で説明する。 符号不変なタイトフレームに適用したバイアスのない整流器は、クラス平均を分離し、フィッシャー比を増大させることができることを示す。 反対に、タイトなフレームに対するソフトスレッショルドはクラス平均を維持しながらクラス内変数を減らすことができる。 分散還元境界はガウス混合モデルで証明される。 画像分類では,学習されていないウェーブレットタイトフレームを用いてクラス平均の分離を実現できることを示す。 散乱変換を定義する。 $1 \times 1$ convolutional tight frames along scattered channel and applied a soft-thresholding lesss in-class variable。 得られた散乱ネットワークは、CIFAR-10とImageNet上のResNet-18の分類精度に達する。

Numerical experiments demonstrate that deep neural network classifiers progressively separate class distributions around their mean, achieving linear separability on the training set, and increasing the Fisher discriminant ratio. We explain this mechanism with two types of operators. We prove that a rectifier without biases applied to sign-invariant tight frames can separate class means and increase Fisher ratios. On the opposite, a soft-thresholding on tight frames can reduce within-class variabilities while preserving class means. Variance reduction bounds are proved for Gaussian mixture models. For image classification, we show that separation of class means can be achieved with rectified wavelet tight frames that are not learned. It defines a scattering transform. Learning $1 \times 1$ convolutional tight frames along scattering channels and applying a soft-thresholding reduces within-class variabilities. The resulting scattering network reaches the classification accuracy of ResNet-18 on CIFAR-10 and ImageNet, with fewer layers and no learned biases.
翻訳日:2021-05-01 18:21:54 公開日:2021-03-15
# (参考訳) ディープラーニングを用いた最適な木探索に向けて

Towards Optimally Efficient Tree Search with Deep Learning ( http://arxiv.org/abs/2101.02420v4 )

ライセンス: CC BY 4.0
Le He, Ke He, Lisheng Fan, Xianfu Lei, Arumugam Nallanathan and George K. Karagiannidis(参考訳) 本稿では,線形モデルから整数信号を推定する古典整数最小二乗問題について検討する。 問題はnpハードであり、信号処理、バイオインフォマティクス、コミュニケーション、機械学習など、いくつかのアプリケーションで発生することが多い。 既存の最適探索戦略には禁欲の複雑さが伴うため、大規模な問題に採用することは困難である。 この問題に対処するために,深層ニューラルネットワークを用いて,単純化メモリバウンドa*アルゴリズムの最適ヒューリスティックを推定し,提案アルゴリズムを他のヒューリスティック探索アルゴリズムで容易に一般化できる汎用的なハイパーアクセラレーション木探索(hats)アルゴリズムを提案する。 さらに,時間差学習に触発されて,ネットワークが最適ヒューリスティックに正確かつ一貫してアプローチできるトレーニング戦略を提案し,推定誤差が十分小さい場合には最適効率に到達できることを示す。 実験により,提案アルゴリズムは大規模問題において,時間と空間の両面で非常に低い複雑さで,最大推定性能をほぼ最大にすることができることが示された。 本論文のコードはhttps://github.com/skypitcher/hats.comで検証可能である。

This paper investigates the classical integer least-squares problem which estimates integer signals from linear models. The problem is NP-hard and often arises in diverse applications such as signal processing, bioinformatics, communications and machine learning, to name a few. Since the existing optimal search strategies involve prohibitive complexities, they are hard to be adopted in large-scale problems. To address this issue, we propose a general hyper-accelerated tree search (HATS) algorithm by employing a deep neural network to estimate the optimal heuristic for the underlying simplified memory-bounded A* algorithm, and the proposed algorithm can be easily generalized with other heuristic search algorithms. Inspired by the temporal difference learning, we further propose a training strategy which enables the network to approach the optimal heuristic precisely and consistently, thus the proposed algorithm can reach nearly the optimal efficiency when the estimation error is small enough. Experiments show that the proposed algorithm can reach almost the optimal maximum likelihood estimate performance in large-scale problems, with a very low complexity in both time and space. The code of this paper is avaliable at https://github.com/skypitcher/hats.
翻訳日:2021-04-10 18:38:05 公開日:2021-03-15
# 接続性, 複雑度, リビングシステム:人工ニューラルネットワークと生体ニューラルネットワークの比較

Connectionism, Complexity, and Living Systems: a comparison of Artificial and Biological Neural Networks ( http://arxiv.org/abs/2103.15553v1 )

ライセンス: Link先を確認
Krishna Katyal, Jesse Parent, Bradly Alicea(参考訳) ANN(Artificial Neural Networks)は、シミュレーションされた知的行動の領域において、印象的な結果をもたらしたが、それらは、BNN(Biological Neural Networks)のまばらな近似ではないことを忘れてはならない。 我々は、ANNとBNNの比較を超えて、BNNの原則を導入し、ANNを具体的ニューラルネットワークとして発展させるかもしれない。 これらの原則には、表現複雑性、複雑なネットワーク構造/エネルギー、ロバスト関数が含まれる。 次に、これらの原則をannの将来の開発に実装する方法で検討する。 結論として,この比較の有用性,特に強固でダイナミックなアンの構築について考察する。 さらに、BNNの組織的および機能的な利点を補完することで、ライフライクなネットワークの適応的ポテンシャルを解き放ちます。

While Artificial Neural Networks (ANNs) have yielded impressive results in the realm of simulated intelligent behavior, it is important to remember that they are but sparse approximations of Biological Neural Networks (BNNs). We go beyond comparison of ANNs and BNNs to introduce principles from BNNs that might guide the further development of ANNs as embodied neural models. These principles include representational complexity, complex network structure/energetics, and robust function. We then consider these principles in ways that might be implemented in the future development of ANNs. In conclusion, we consider the utility of this comparison, particularly in terms of building more robust and dynamic ANNs. This even includes constructing a morphology and sensory apparatus to create an embodied ANN, which when complemented with the organizational and functional advantages of BNNs unlocks the adaptive potential of lifelike networks.
翻訳日:2021-04-05 01:06:19 公開日:2021-03-15
# 双対マルコフモデルに対するビタビ過程の再生率

Regenerativity of Viterbi process for pairwise Markov models ( http://arxiv.org/abs/2103.11821v1 )

ライセンス: Link先を確認
J\"uri Lember, Joonas Sova(参考訳) 隠れマルコフモデルにとって、隠れ鎖の最も一般的な推定の1つは、ビテルビ経路(後確率を最大化する経路)である。 ここでは、有限状態隠れ過程と観測過程からなる結合過程をマルコフ連鎖と仮定する、ペアワイズマルコフモデル (PMM) と呼ばれるより一般的な設定を考える。 いくつかの条件下では、PMMのビタビ経路はほぼ確実に無限大に拡張でき、ビタビ過程と呼ばれる観測シーケンスの無限のビタビ復号を定義することが最近証明された。 これはバリアと呼ばれる観測ブロックを構築し、ビタビ経路が観測シーケンスでこのブロックが発生するたびに所定の状態になるようにするものである。 本稿では,ビタビプロセスとPMMからなる接合プロセスが再生可能であることを示す。 この証明は、バリアの発生と一致する再生時間の微妙な構成を含む。 我々の理論の応用の1つとして、ビタビ訓練アルゴリズムの漸近性に関するいくつかの結果が導出される。

For hidden Markov models one of the most popular estimates of the hidden chain is the Viterbi path -- the path maximising the posterior probability. We consider a more general setting, called the pairwise Markov model (PMM), where the joint process consisting of finite-state hidden process and observation process is assumed to be a Markov chain. It has been recently proven that under some conditions the Viterbi path of the PMM can almost surely be extended to infinity, thereby defining the infinite Viterbi decoding of the observation sequence, called the Viterbi process. This was done by constructing a block of observations, called a barrier, which ensures that the Viterbi path goes trough a given state whenever this block occurs in the observation sequence. In this paper we prove that the joint process consisting of Viterbi process and PMM is regenerative. The proof involves a delicate construction of regeneration times which coincide with the occurrences of barriers. As one possible application of our theory, some results on the asymptotics of the Viterbi training algorithm are derived.
翻訳日:2021-04-05 01:04:54 公開日:2021-03-15
# 強化学習を用いた定常連続プロセスの自動合成

Automated Synthesis of Steady-State Continuous Processes using Reinforcement Learning ( http://arxiv.org/abs/2101.04422v2 )

ライセンス: Link先を確認
Quirin G\"ottl, Dominik G. Grimm, Jakob Burger(参考訳) 自動フローシート合成はコンピュータ支援プロセス工学の重要な分野である。 本研究は, 従来の概念設計知識のヒューリスティックを伴わない自動フローシート合成において, 強化学習をいかに活用できるかを示す。 環境は、すべての物理的知識を含む定常フローシートシミュレータで構成されている。 エージェントは個別のアクションを取るように訓練され、所定のプロセス問題を解決するフローシートを順次構築する。 SynGameZero という新しい手法が開発され,複雑な問題に対する適切な探索手法が確立された。 フローシート合成は、競合する2人のプレイヤーのゲームとしてモデル化される。 エージェントはこのゲームをトレーニング中に自力でプレイし、ニューラルネットワークとフォワードプランニングのツリー検索で構成される。 この方法は四元系における反応蒸留プロセスにうまく適用される。

Automated flowsheet synthesis is an important field in computer-aided process engineering. The present work demonstrates how reinforcement learning can be used for automated flowsheet synthesis without any heuristics of prior knowledge of conceptual design. The environment consists of a steady-state flowsheet simulator that contains all physical knowledge. An agent is trained to take discrete actions and sequentially built up flowsheets that solve a given process problem. A novel method named SynGameZero is developed to ensure good exploration schemes in the complex problem. Therein, flowsheet synthesis is modelled as a game of two competing players. The agent plays this game against itself during training and consists of an artificial neural network and a tree search for forward planning. The method is applied successfully to a reaction-distillation process in a quaternary system.
翻訳日:2021-04-04 01:48:22 公開日:2021-03-15
# ファウショット学習のためのフリーランチ:分散校正

Free Lunch for Few-shot Learning: Distribution Calibration ( http://arxiv.org/abs/2101.06395v2 )

ライセンス: Link先を確認
Shuo Yang, Lu Liu, Min Xu(参考訳) 限られた数のサンプルから学ぶことは、学習したモデルが、ほんの少数のトレーニング例で作られたバイアス分布に基づいて簡単に過度に適合できるため、難しい。 本稿では,各クラスから統計を十分な例で伝達することにより,これらの少数サンプルクラスの分布を校正し,その校正分布から十分な数のサンプルを抽出し,インプットを分類器に拡張する。 特徴表現のすべての次元はガウス分布に従うと仮定し、分布の平均と分散は、十分な数のサンプルでよりよく推定される統計値の類似クラスから借りることができる。 提案手法は,事前訓練された特徴抽出器と,余分なパラメータを伴わない分類モデルに基づいて構築することができる。 キャリブレーションされた分布から抽出した特徴を用いて学習した単純なロジスティック回帰分類器は、2つのデータセットにおける最先端の精度(次回に比べて miniImageNet が約5%向上)より優れていることを示す。 これらの特徴の可視化は、校正分布が正確な推定であることを示す。

Learning from a limited number of samples is challenging since the learned model can easily become overfitted based on the biased distribution formed by only a few training examples. In this paper, we calibrate the distribution of these few-sample classes by transferring statistics from the classes with sufficient examples, then an adequate number of examples can be sampled from the calibrated distribution to expand the inputs to the classifier. We assume every dimension in the feature representation follows a Gaussian distribution so that the mean and the variance of the distribution can borrow from that of similar classes whose statistics are better estimated with an adequate number of samples. Our method can be built on top of off-the-shelf pretrained feature extractors and classification models without extra parameters. We show that a simple logistic regression classifier trained using the features sampled from our calibrated distribution can outperform the state-of-the-art accuracy on two datasets (~5% improvement on miniImageNet compared to the next best). The visualization of these generated features demonstrates that our calibrated distribution is an accurate estimation.
翻訳日:2021-03-28 04:35:49 公開日:2021-03-15
# 生存回帰のための深部cox混合液

Deep Cox Mixtures for Survival Regression ( http://arxiv.org/abs/2101.06536v2 )

ライセンス: Link先を確認
Chirag Nagpal, Steve Yadlowsky, Negar Rostamzadeh and Katherine Heller(参考訳) サバイバル分析は、検閲の存在によって、例えばフォローアップの損失によって結果測定が部分的にしか知られていないため、回帰モデリングの難解な変種である。 このような問題は医療応用において頻繁に発生し、生存分析はバイオ統計学や医療のための機械学習において重要な取り組みとなり、コックス回帰モデルは最もよく用いられるモデルの一つである。 本稿では,Cox回帰の学習混合物をモデルとした生存分析回帰モデルに対する新しいアプローチについて述べる。 本稿では,混合群へのハード代入を行い,最適化を効率的に行うモデルに対する期待最大化アルゴリズムの近似を提案する。 各グループ割り当てにおいて、ディープニューラルネットワークを用いて各グループ内のハザード比と、非パラメトリックに各混合コンポーネントに対するベースラインハザードを適合させる。 我々は、複数の実世界のデータセットで実験を行い、民族や性別にまたがる患者の死亡率を調べる。 我々は,医療環境におけるキャリブレーションの重要性を強調し,差別的パフォーマンスとキャリブレーションの両面で,我々のアプローチが古典的・現代的サバイバル分析のベースラインより優れていることを示す。

Survival analysis is a challenging variation of regression modeling because of the presence of censoring, where the outcome measurement is only partially known, due to, for example, loss to follow up. Such problems come up frequently in medical applications, making survival analysis a key endeavor in biostatistics and machine learning for healthcare, with Cox regression models being amongst the most commonly employed models. We describe a new approach for survival analysis regression models, based on learning mixtures of Cox regressions to model individual survival distributions. We propose an approximation to the Expectation Maximization algorithm for this model that does hard assignments to mixture groups to make optimization efficient. In each group assignment, we fit the hazard ratios within each group using deep neural networks, and the baseline hazard for each mixture component non-parametrically. We perform experiments on multiple real world datasets, and look at the mortality rates of patients across ethnicity and gender. We emphasize the importance of calibration in healthcare settings and demonstrate that our approach outperforms classical and modern survival analysis baselines, both in terms of discriminative performance and calibration, with large gains in performance on the minority demographics.
翻訳日:2021-03-28 04:33:23 公開日:2021-03-15
# (参考訳) 時系列外部回帰の解釈可能な特徴構成

Interpretable Feature Construction for Time Series Extrinsic Regression ( http://arxiv.org/abs/2103.10247v1 )

ライセンス: CC BY 4.0
Dominique Gay, Alexis Bondu, Vincent Lemaire, Marc Boull\'e(参考訳) 分類的対象変数の場合,時系列データの教師付き学習が広く研究されている。 エネルギー、環境、健康モニタリングといったいくつかのアプリケーション領域では、対象変数が数値であり、問題は時系列外部回帰(TSER)として知られている。 文献では、TSER問題のためによく知られた時系列分類器が拡張されている。 最初のベンチマーク研究は予測性能に焦点を当てており、解釈可能性にはほとんど注目されていない。 このギャップを埋めるため,本論文では,tserの文脈におけるロバストかつ解釈可能な特徴構成と選択のためのベイズ法の拡張を提案する。 i) 関係データスキームに格納された時系列の多種多様な単純な表現を構築し, (ii) 関係データフィールドからの古典的集約/選択関数に基づく命題化手法を適用して, 二次テーブルからデータを「フラット化」するための解釈可能な特徴を構築し, (iii) 構築した特徴をベイジアン最大 A Posteriori アプローチでフィルタリングする。 得られた変換データは、さまざまな既存のレグレッシャで処理できる。 様々なベンチマークデータセットに対する実験的検証は提案手法の利点を示している。

Supervised learning of time series data has been extensively studied for the case of a categorical target variable. In some application domains, e.g., energy, environment and health monitoring, it occurs that the target variable is numerical and the problem is known as time series extrinsic regression (TSER). In the literature, some well-known time series classifiers have been extended for TSER problems. As first benchmarking studies have focused on predictive performance, very little attention has been given to interpretability. To fill this gap, in this paper, we suggest an extension of a Bayesian method for robust and interpretable feature construction and selection in the context of TSER. Our approach exploits a relational way to tackle with TSER: (i), we build various and simple representations of the time series which are stored in a relational data scheme, then, (ii), a propositionalisation technique (based on classical aggregation / selection functions from the relational data field) is applied to build interpretable features from secondary tables to "flatten" the data; and (iii), the constructed features are filtered out through a Bayesian Maximum A Posteriori approach. The resulting transformed data can be processed with various existing regressors. Experimental validation on various benchmark data sets demonstrates the benefits of the suggested approach.
翻訳日:2021-03-20 10:23:51 公開日:2021-03-15
# (参考訳) MLPを最適化したCOVID-19分類のための深層機能に基づく分類フレームワーク

Fused Deep Features Based Classification Framework for COVID-19 Classification with Optimized MLP ( http://arxiv.org/abs/2103.09904v1 )

ライセンス: CC BY 4.0
Saban Ozturk, Enes Yigit and Umut Ozkaya(参考訳) 新型の新型コロナウイルス(covid-19)は急速に広がり続けている。 この病気は特定の症状を呈するが、ほぼすべての個人で異なる症状を示す可能性があるため、何十万人もの患者が死亡した。 医療専門家は、さらなる生命の喪失を防ぐために一生懸命働くが、病気の拡散率は非常に高い。 そのため、コンピュータ支援診断(CAD)と人工知能(AI)アルゴリズムの助けが不可欠である。 本研究では,現在最も有効な画像解析手法である畳み込みニューラルネットワーク(CNN)アーキテクチャの最適化に基づく手法を提案する。 まず、COVID-19イメージはResNet-50とVGG-16アーキテクチャを使ってトレーニングされる。 そして、これらの2つのアーキテクチャの最後のレイヤの機能と機能融合が組み合わされる。 これらの新しい画像特徴行列は、HIV検出のために分類される。 クジラ最適化アルゴリズムによって最適化された多層パーセプトロン(MLP)構造を用いて分類する。 その結果,提案フレームワークの性能はVGG-16よりも約4.5%高く,ResNet-50よりも約3.5%高いことがわかった。

The new type of Coronavirus disease called COVID-19 continues to spread quite rapidly. Although it shows some specific symptoms, this disease, which can show different symptoms in almost every individual, has caused hundreds of thousands of patients to die. Although healthcare professionals work hard to prevent further loss of life, the rate of disease spread is very high. For this reason, the help of computer aided diagnosis (CAD) and artificial intelligence (AI) algorithms is vital. In this study, a method based on optimization of convolutional neural network (CNN) architecture, which is the most effective image analysis method of today, is proposed to fulfill the mentioned COVID-19 detection needs. First, COVID-19 images are trained using ResNet-50 and VGG-16 architectures. Then, features in the last layer of these two architectures are combined with feature fusion. These new image features matrices obtained with feature fusion are classified for COVID detection. A multi-layer perceptron (MLP) structure optimized by the whale optimization algorithm is used for the classification process. The obtained results show that the performance of the proposed framework is almost 4.5% higher than VGG-16 performance and almost 3.5% higher than ResNet-50 performance.
翻訳日:2021-03-20 10:07:23 公開日:2021-03-15
# (参考訳) pytorchを用いた1次元アドベクション方程式の物理インフォームドニューラルネットワーク法

Physics-Informed Neural Network Method for Solving One-Dimensional Advection Equation using PyTorch ( http://arxiv.org/abs/2103.09662v1 )

ライセンス: CC BY 4.0
S.R. Vadyala, S.N. Betgeri(参考訳) 対流方程式の数値解は、解析解を許容する条件下で、異なる有限差分近似と物理情報ニューラルネットワーク(PINN)を用いて決定される。 それらの精度を解析解と比較することにより検証する。 PyTorchのような機械学習フレームワークを使ってPINNを実装しました。 PINNのアプローチでは、PDEを損失関数の一部とする最適化の強い制約として尊重しながら、ニューラルネットワークをトレーニングすることができる。 標準の小規模循環シミュレーションでは, 乱流拡散モデルの影響とほぼ同程度の大きさの擬似拡散効果が組み込まれており, 数値解はpdesと一致しないことがわかった。 この振動は不正確さと計算の不確実性を引き起こす。 テストされた全てのスキームのうち、ピンズ近似のみが結果を正確に予測した。 PINNのアプローチは,大規模スーパーコンピュータ上でのコストと時間を要するシミュレーションを伴わずに,実時間物理シミュレーションと幾何最適化を可能とし,物理シミュレーション領域を変換できると仮定する。

Numerical solutions to the equation for advection are determined using different finite-difference approximations and physics-informed neural networks (PINNs) under conditions that allow an analytical solution. Their accuracy is examined by comparing them to the analytical solution. We used a machine learning framework like PyTorch to implement PINNs. PINNs approach allows training neural networks while respecting the PDEs as a strong constraint in the optimization as apposed to making them part of the loss function. In standard small-scale circulation simulations, it is shown that the conventional approach incorporates a pseudo diffusive effect that is almost as large as the effect of the turbulent diffusion model; hence the numerical solution is rendered inconsistent with the PDEs. This oscillation causes inaccuracy and computational uncertainty. Of all the schemes tested, only the PINNs approximation accurately predicted the outcome. We assume that the PINNs approach can transform the physics simulation area by allowing real-time physics simulation and geometry optimization without costly and time-consuming simulations on large supercomputers.
翻訳日:2021-03-19 01:09:56 公開日:2021-03-15
# フェア・アフェクティブ・ロボティクスに向けて:顔表情と行動単位認識におけるバイアスの軽減のための継続的な学習

Towards Fair Affective Robotics: Continual Learning for Mitigating Bias in Facial Expression and Action Unit Recognition ( http://arxiv.org/abs/2103.09233v1 )

ライセンス: Link先を確認
Ozgur Kara, Nikhil Churamani and Hatice Gunes(参考訳) 感情ロボットが人間の生活に不可欠なものとなるにつれ、これらのエージェントは特定の人口集団を識別することなく、人間の感情表現を適切に評価できなければならない。 機械学習(ML)システムにおけるバイアスの同定は重要な問題であり、データレベルとアルゴリズムレベルでモデル内のバイアスを軽減するために異なるアプローチが提案されている。 本研究では,顔表情認識(FER)システムにおける公平性を高めるための効果的な戦略として連続学習(CL)を提案する。 表現認識と行動単位(au)検出タスクの公平性に関するclベースの戦略と, raf-db と bp4d の各ベンチマークを用いて, 異なるバイアス軽減手法を比較した。 実験の結果,clベースの手法は,平均的に一般的なバイアス緩和手法を上回っており,よりフェアなferアルゴリズム開発のためのclのさらなる調査の必要性が強まった。

As affective robots become integral in human life, these agents must be able to fairly evaluate human affective expressions without discriminating against specific demographic groups. Identifying bias in Machine Learning (ML) systems as a critical problem, different approaches have been proposed to mitigate such biases in the models both at data and algorithmic levels. In this work, we propose Continual Learning (CL) as an effective strategy to enhance fairness in Facial Expression Recognition (FER) systems, guarding against biases arising from imbalances in data distributions. We compare different state-of-the-art bias mitigation approaches with CL-based strategies for fairness on expression recognition and Action Unit (AU) detection tasks using popular benchmarks for each; RAF-DB and BP4D. Our experiments show that CL-based methods, on average, outperform popular bias mitigation techniques, strengthening the need for further investigation into CL for the development of fairer FER algorithms.
翻訳日:2021-03-18 13:02:51 公開日:2021-03-15
# 畳み込みニューラルネットワークを用いたスターダスト星間ダスト収集装置からのアルフォイルへの衝突クレーターの自動検出

Automatic detection of impact craters on Al foils from the Stardust interstellar dust collector using convolutional neural networks ( http://arxiv.org/abs/2103.09673v1 )

ライセンス: Link先を確認
Logan Jaeger, Anna L. Butterworth, Zack Gainsforth, Robert Lettieri, Augusto Ardizzone, Michael Capraro, Mark Burchell, Penny Wozniakiewicz, Ryan C. Ogliore, Bradley T. De Gregorio, Rhonda M. Stroud, Andrew J. Westphal(参考訳) NASAのスターダストミッションでは、エアロゲルとアルミホイルからなるサンプル収集機を使用して彗星と星間粒子を地球に戻す。 アルミニウムホイルの分析は、彗星と星間塵の超高速衝突によって生じるクレーターの配置から始まる。 星間塵のクレーターは、通常1マイクロメートル未満の大きさで、ばらばらに分布しており、発見が困難である。 本稿では、スターダスト星間コレクターホイルにおける衝突クレーターの特定性と感度を高めるVGG16アーキテクチャに基づく畳み込みニューラルネットワークについて述べる。 スターダスト試料の現在および将来の分析におけるその意義を評価する。

NASA's Stardust mission utilized a sample collector composed of aerogel and aluminum foil to return cometary and interstellar particles to Earth. Analysis of the aluminum foil begins with locating craters produced by hypervelocity impacts of cometary and interstellar dust. Interstellar dust craters are typically less than one micrometer in size and are sparsely distributed, making them difficult to find. In this paper, we describe a convolutional neural network based on the VGG16 architecture that achieves high specificity and sensitivity in locating impact craters in the Stardust interstellar collector foils. We evaluate its implications for current and future analyses of Stardust samples.
翻訳日:2021-03-18 12:50:31 公開日:2021-03-15
# (参考訳) MENYO-20k: 機械翻訳とドメイン適応のための多ドメイン英語Yor\`ub\'aコーパス

MENYO-20k: A Multi-domain English-Yor\`ub\'a Corpus for Machine Translation and Domain Adaptation ( http://arxiv.org/abs/2103.08647v1 )

ライセンス: CC BY 4.0
David I. Adelani, Dana Ruiter, Jesujoba O. Alabi, Damilola Adebonojo, Adesina Ayeni, Mofe Adeyemi, Ayodele Awokoya, Cristina Espa\~na-Bonet(参考訳) 大規模な多言語機械翻訳(mt)は、低リソース言語ペア間のゼロおよびマイショット翻訳など、素晴らしい機能を示している。 しかし、これらのモデルは、低リソース言語に一般化するという仮定で、高リソース言語でしばしば評価される。 低リソースペアでのMTモデル評価の難しさは、標準化された評価データセットの欠如によることが多い。 本稿では,ローリソースyor\ `ub\'a- english (yo-en) 言語ペアに対して,ベンチマークのための標準トレインテスト分割を用いた,最初のマルチドメイン並列コーパスであるmenyo-20kを提案する。 このデータセット上でいくつかのニューラルMT(NMT)ベンチマークを提供し、一般的な事前学習(多言語)MTモデルの性能と比較し、ほぼすべてのケースにおいて、我々の単純なベンチマークが事前訓練されたMTモデルより優れていることを示す。 BLEU $+9.9$と$+8.6$(en2yo)の主な利益は、MENYO-20kを使用してジェネリックモデルを微調整する際に、FacebookのM2M-100とGoogleの多言語NTTと比較して達成される。

Massively multilingual machine translation (MT) has shown impressive capabilities, including zero and few-shot translation between low-resource language pairs. However, these models are often evaluated on high-resource languages with the assumption that they generalize to low-resource ones. The difficulty of evaluating MT models on low-resource pairs is often due the lack of standardized evaluation datasets. In this paper, we present MENYO-20k, the first multi-domain parallel corpus for the low-resource Yor\`ub\'a--English (yo--en) language pair with standardized train-test splits for benchmarking. We provide several neural MT (NMT) benchmarks on this dataset and compare to the performance of popular pre-trained (massively multilingual) MT models, showing that, in almost all cases, our simple benchmarks outperform the pre-trained MT models. A major gain of BLEU $+9.9$ and $+8.6$ (en2yo) is achieved in comparison to Facebook's M2M-100 and Google multilingual NMT respectively when we use MENYO-20k to fine-tune generic models.
翻訳日:2021-03-18 01:21:39 公開日:2021-03-15
# (参考訳) パラメータ$\{0,\pm \frac{1}{2}, \pm 1, 2\}$のディープニューラルネットワークによる関数近似

Function approximation by deep neural networks with parameters $\{0,\pm \frac{1}{2}, \pm 1, 2\}$ ( http://arxiv.org/abs/2103.08659v1 )

ライセンス: CC BY 4.0
Aleksandr Beknazaryan(参考訳) 本稿では,$C_\beta$-smooth関数をパラメータ $\{0,\pm \frac{1}{2}, \pm 1, 2\}$ のニューラルネットワークで近似できることを示す。 構築されたネットワークの深さ、幅、アクティブパラメータの数は、対数係数まで、パラメータが$[-1,1]$のネットワークと同じ近似誤差に依存する。 特に、構成されたネットワークによる非パラメトリック回帰推定は、パラメータが$[-1,1]$のスパースネットワークと同じ収束率に達することを意味する。

In this paper it is shown that $C_\beta$-smooth functions can be approximated by neural networks with parameters $\{0,\pm \frac{1}{2}, \pm 1, 2\}$. The depth, width and the number of active parameters of constructed networks have, up to a logarithimc factor, the same dependence on the approximation error as the networks with parameters in $[-1,1]$. In particular, this means that the nonparametric regression estimation with constructed networks attain the same convergence rate as with the sparse networks with parameters in $[-1,1]$.
翻訳日:2021-03-18 00:56:57 公開日:2021-03-15
# (参考訳) dNNsolve: NNベースの効率的なPDEソルバ

dNNsolve: an efficient NN-based PDE solver ( http://arxiv.org/abs/2103.08662v1 )

ライセンス: CC BY 4.0
Veronica Guidetti, Francesco Muia, Yvette Welling and Alexander Westphal(参考訳) ニューラルネットワーク(nns)は、問題を最適化問題として再定義することで、通常の偏微分方程式(odesとpdes)を解くのに使うことができる。 最適化すべき目的関数は、解決すべきPDEの平方と初期/境界条件の和である。 フィードフォワードnnは、問題の定義領域からサンプリングされた一連のコロケーションポイントで評価されたこの損失関数を最小化するように訓練される。 訓練されたNNの重みにのみ依存するコンパクトで滑らかな解が得られる。 この手法はしばしば PINN と呼ばれ、物理情報ニューラルネットワーク~\cite{raissi2017physics_1, raissi2017physics_2} に由来する。 PDEの様々なクラスを解決するためのPINNアプローチの成功にもかかわらず、ネットワークのハイパーパラメータを微調整する必要がなく、高い精度で多数のODEとPDEを解くことができるこのアイデアの実装はまだ利用できない。 本稿では,この概念の新たな実装であるdNNsolveを紹介し,ODE/PDEを解くためにデュアルニューラルネットワークを利用する。 i) 正弦およびシグモイド活性化関数は、解の周期的パターンと周期的パターンの両方を捉えるためのより効率的な基礎を提供し、ii) nnが上記の基底関数を用いて解を近似することを容易にする、新しく設計されたアーキテクチャである。 DNNsolveは1, 2, 3の時空次元において,ハイパーパラメータの微調整を必要とせずに,幅広いODE/PDEを解くことができることを示す。

Neural Networks (NNs) can be used to solve Ordinary and Partial Differential Equations (ODEs and PDEs) by redefining the question as an optimization problem. The objective function to be optimized is the sum of the squares of the PDE to be solved and of the initial/boundary conditions. A feed forward NN is trained to minimise this loss function evaluated on a set of collocation points sampled from the domain where the problem is defined. A compact and smooth solution, that only depends on the weights of the trained NN, is then obtained. This approach is often referred to as PINN, from Physics Informed Neural Network~\cite{raissi2017physics_1, raissi2017physics_2}. Despite the success of the PINN approach in solving various classes of PDEs, an implementation of this idea that is capable of solving a large class of ODEs and PDEs with good accuracy and without the need to finely tune the hyperparameters of the network, is not available yet. In this paper, we introduce a new implementation of this concept - called dNNsolve - that makes use of dual Neural Networks to solve ODEs/PDEs. These include: i) sine and sigmoidal activation functions, that provide a more efficient basis to capture both secular and periodic patterns in the solutions; ii) a newly designed architecture, that makes it easy for the the NN to approximate the solution using the basis functions mentioned above. We show that dNNsolve is capable of solving a broad range of ODEs/PDEs in 1, 2 and 3 spacetime dimensions, without the need of hyperparameter fine-tuning.
翻訳日:2021-03-18 00:42:37 公開日:2021-03-15
# (参考訳) 差分私的問合せ解答のための中心極限定理

A Central Limit Theorem for Differentially Private Query Answering ( http://arxiv.org/abs/2103.08721v1 )

ライセンス: CC BY 4.0
Jinshuo Dong, Weijie J. Su, Linjun Zhang(参考訳) 差分プライバシーの唯一の重要なユースケースは、一般に答えベクトルにノイズを加えることで達成される数値クエリにプライベートに答えることだろう。 したがって,どのノイズ分布がプライバシと精度のトレードオフを最適化するか,特に回答ベクトルの次元が高い場合の理解が重要となる。 したがって、この問題に広範な文献が注がれており、上下の境界は定数因子 [BUV18, SU17] に一致している。 本稿では,この重要な最適性問題に対処するための新しいアプローチを提案する。 まず,高次元環境において興味深い中心極限定理現象を示す。 より正確には、付加ノイズが特定の条件を満たす場合、そのメカニズムがガウス微分プライベート[DRS21]にほぼ一致することを示す。 特に、$\mathrm{e}^{-\|x\|_p^\alpha}$に比例する密度では、$\|x\|_p$は標準の$\ell_p$-normであり、条件を満たす。 この観点からは、cracker-raoの不等式を用いて、プライバシパラメータとメカニズムの$\ell_2$-lossの積は次元によって境界が低くなるという「不確実性原理」スタイルの結果を示す。 さらに、ガウスのメカニズムは、そのような全てのノイズの間で、一定のシャープな最適プライバシー・正確性トレードオフを達成する。 我々の発見は数値実験によって裏付けられている。

Perhaps the single most important use case for differential privacy is to privately answer numerical queries, which is usually achieved by adding noise to the answer vector. The central question, therefore, is to understand which noise distribution optimizes the privacy-accuracy trade-off, especially when the dimension of the answer vector is high. Accordingly, extensive literature has been dedicated to the question and the upper and lower bounds have been matched up to constant factors [BUV18, SU17]. In this paper, we take a novel approach to address this important optimality question. We first demonstrate an intriguing central limit theorem phenomenon in the high-dimensional regime. More precisely, we prove that a mechanism is approximately Gaussian Differentially Private [DRS21] if the added noise satisfies certain conditions. In particular, densities proportional to $\mathrm{e}^{-\|x\|_p^\alpha}$, where $\|x\|_p$ is the standard $\ell_p$-norm, satisfies the conditions. Taking this perspective, we make use of the Cramer--Rao inequality and show an "uncertainty principle"-style result: the product of the privacy parameter and the $\ell_2$-loss of the mechanism is lower bounded by the dimension. Furthermore, the Gaussian mechanism achieves the constant-sharp optimal privacy-accuracy trade-off among all such noises. Our findings are corroborated by numerical experiments.
翻訳日:2021-03-17 23:46:52 公開日:2021-03-15
# (参考訳) カテゴリーを意識した説明可能な会話推薦

Category Aware Explainable Conversational Recommendation ( http://arxiv.org/abs/2103.08733v1 )

ライセンス: CC BY 4.0
Nikolaos Kondylidis, Jie Zou and Evangelos Kanoulas(参考訳) ほとんどの会話レコメンデーションアプローチは説明できないか、あるいは説明のために外部ユーザーの知識を必要とするか、あるいは計算上の制限のためにリアルタイムでは適用できない。 本研究では,ユーザの事前知識を必要とせずに簡潔な説明を提供するリアルタイムカテゴリーに基づく会話推薦手法を提案する。 まず,説明可能なユーザモデルを,項目のカテゴリに対する選好という形式で実行し,次にカテゴリ選好を使用して項目を推薦する。 ユーザモデルは、会話にBERTベースのニューラルアーキテクチャを適用して実行される。 次に、フィードフォワードネットワークを用いて、ユーザモデルをアイテムレコメンデーションスコアに変換する。 会話中のユーザの好みは、直接解釈可能なカテゴリベクトルによって表現されます。 実際の会話レコメンデーションデータセットであるReDialの実験結果は、最先端技術に匹敵する性能を示し、我々のアプローチは説明可能である。 当社のフレームワークの潜在的なパワーは,oracleによるカテゴリ選好予測の設定によるものです。

Most conversational recommendation approaches are either not explainable, or they require external user's knowledge for explaining or their explanations cannot be applied in real time due to computational limitations. In this work, we present a real time category based conversational recommendation approach, which can provide concise explanations without prior user knowledge being required. We first perform an explainable user model in the form of preferences over the items' categories, and then use the category preferences to recommend items. The user model is performed by applying a BERT-based neural architecture on the conversation. Then, we translate the user model into item recommendation scores using a Feed Forward Network. User preferences during the conversation in our approach are represented by category vectors which are directly interpretable. The experimental results on the real conversational recommendation dataset ReDial demonstrate comparable performance to the state-of-the-art, while our approach is explainable. We also show the potential power of our framework by involving an oracle setting of category preference prediction.
翻訳日:2021-03-17 23:45:33 公開日:2021-03-15
# (参考訳) S3Net: 3D LiDARスパースセマンティックセマンティックセグメンテーションネットワーク

S3Net: 3D LiDAR Sparse Semantic Segmentation Network ( http://arxiv.org/abs/2103.08745v1 )

ライセンス: CC BY 4.0
Ran Cheng, Ryan Razani, Yuan Ren and Liu Bingbing(参考訳) セマンティックセグメンテーションは、正確な環境認識と理解に依存するロボット工学や自律運転など、多くのアプリケーションの知覚システムにおいて重要な構成要素である。 文献では、プロジェクションベース(レンジビューまたは鳥眼ビュー)やボクセルベースアプローチなど、LiDARセマンティックセマンティックセマンティックセマンティクスタスクを試みるためにいくつかのアプローチが導入されている。 しかし、それらは貴重な3次元トポロジーと幾何学的関係を捨て、投影プロセスで導入された情報損失に苦しむか、あるいは非効率である。 したがって、3D空間で3次元駆動シーンの点雲を処理できる正確なモデルが必要である。 本稿では,LiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークであるS3Netを提案する。 sparse intra-channel attention module(sintraam)とsparse inter-channel attention module(sinteram)で構成されるエンコーダ/デコーダバックボーンを採用し、各フィーチャーマップ内と近くのフィーチャーマップ間の詳細を強調する。 より深い層におけるグローバルなコンテキストを抽出するために,LiDAR点雲の幅の異なるスパース畳み込みに基づくスパース残差タワーを導入する。 さらに、ジオアウェアな異方性損失を利用して、意味的境界を強調し、各予測領域内のノイズを罰し、堅牢な予測を行う。 実験の結果,提案手法は,semantickitti \cite{dblp:conf/iccv/behleygmqbsg19}テストセットのベースライン(minknet42 \cite{choy20194d})と比較して大幅に改善し,意味セグメンテーションアプローチの最先端miou精度を実現した。

Semantic Segmentation is a crucial component in the perception systems of many applications, such as robotics and autonomous driving that rely on accurate environmental perception and understanding. In literature, several approaches are introduced to attempt LiDAR semantic segmentation task, such as projection-based (range-view or birds-eye-view), and voxel-based approaches. However, they either abandon the valuable 3D topology and geometric relations and suffer from information loss introduced in the projection process or are inefficient. Therefore, there is a need for accurate models capable of processing the 3D driving-scene point cloud in 3D space. In this paper, we propose S3Net, a novel convolutional neural network for LiDAR point cloud semantic segmentation. It adopts an encoder-decoder backbone that consists of Sparse Intra-channel Attention Module (SIntraAM), and Sparse Inter-channel Attention Module (SInterAM) to emphasize the fine details of both within each feature map and among nearby feature maps. To extract the global contexts in deeper layers, we introduce Sparse Residual Tower based upon sparse convolution that suits varying sparsity of LiDAR point cloud. In addition, geo-aware anisotrophic loss is leveraged to emphasize the semantic boundaries and penalize the noise within each predicted regions, leading to a robust prediction. Our experimental results show that the proposed method leads to a large improvement (12\%) compared to its baseline counterpart (MinkNet42 \cite{choy20194d}) on SemanticKITTI \cite{DBLP:conf/iccv/BehleyGMQBSG19} test set and achieves state-of-the-art mIoU accuracy of semantic segmentation approaches.
翻訳日:2021-03-17 23:31:33 公開日:2021-03-15
# (参考訳) 行列分解による動的畳み込みの再検討

Revisiting Dynamic Convolution via Matrix Decomposition ( http://arxiv.org/abs/2103.08756v1 )

ライセンス: CC BY 4.0
Yunsheng Li, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Ye Yu, Lu Yuan, Zicheng Liu, Mei Chen, Nuno Vasconcelos(参考訳) 動的畳み込みの最近の研究は、K静的畳み込みカーネルの適応的アグリゲーションにより、効率的なCNNの性能が大幅に向上したことを示している。 a) k-時間による畳み込み重み数の増加、(b)動的注意と静的畳み込み核の合同最適化は困難である。 本稿では,行列分解の新たな視点から再考し,動的畳み込みが高次元の潜在空間に射影した後,チャネル群に対して動的に注意を払っていることを明らかにする。 この問題に対処するため,チャネル群に対する動的注意を代替する動的チャネル融合を提案する。 動的チャネル融合は潜在空間の大幅な次元縮小を可能にするだけでなく、協調最適化の困難さを緩和する。 その結果,本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく少なくすることができる。 ソースコードはhttps://github.com/liyunsheng13/dcdにある。

Recent research in dynamic convolution shows substantial performance boost for efficient CNNs, due to the adaptive aggregation of K static convolution kernels. It has two limitations: (a) it increases the number of convolutional weights by K-times, and (b) the joint optimization of dynamic attention and static convolution kernels is challenging. In this paper, we revisit it from a new perspective of matrix decomposition and reveal the key issue is that dynamic convolution applies dynamic attention over channel groups after projecting into a higher dimensional latent space. To address this issue, we propose dynamic channel fusion to replace dynamic attention over channel groups. Dynamic channel fusion not only enables significant dimension reduction of the latent space, but also mitigates the joint optimization difficulty. As a result, our method is easier to train and requires significantly fewer parameters without sacrificing accuracy. Source code is at https://github.com/liyunsheng13/dcd.
翻訳日:2021-03-17 23:12:02 公開日:2021-03-15
# (参考訳) 支援ベクターマシン回帰による住宅保険リスクのモデル化

Modeling Weather-induced Home Insurance Risks with Support Vector Machine Regression ( http://arxiv.org/abs/2103.08761v1 )

ライセンス: CC BY 4.0
Asim K. Dey, Vyacheslav Lyubchich, and Yulia R. Gel(参考訳) 保険業界は気候変動の最も脆弱な分野の1つである。 将来のクレーム数と損失の評価は災害対応とリスク管理に不可欠である。 本研究は,気象による住宅保険請求と損失の連立動態に及ぼす降水の影響について検討する。 本稿では,今後のクレームダイナミクスの予測と関連する不確実性の評価において,サポートベクターマシンやニューラルネットワークといった機械学習手法の有用性と限界について論じる。 カナダ平原の中規模都市における気象による住宅保険請求の帰属分析と予測へのアプローチについて述べる。

Insurance industry is one of the most vulnerable sectors to climate change. Assessment of future number of claims and incurred losses is critical for disaster preparedness and risk management. In this project, we study the effect of precipitation on a joint dynamics of weather-induced home insurance claims and losses. We discuss utility and limitations of such machine learning procedures as Support Vector Machines and Artificial Neural Networks, in forecasting future claim dynamics and evaluating associated uncertainties. We illustrate our approach by application to attribution analysis and forecasting of weather-induced home insurance claims in a middle-sized city in the Canadian Prairies.
翻訳日:2021-03-17 22:54:10 公開日:2021-03-15
# (参考訳) 映像強調のためのLiDARガイドフレームワーク

A LiDAR-Guided Framework for Video Enhancement ( http://arxiv.org/abs/2103.08764v1 )

ライセンス: CC BY 4.0
Yu Feng, Patrick Hansen, Paul N. Whatmough, Guoyu Lu, and Yuhao Zhu(参考訳) 本稿では,スーパーサンプリング,デブラリング,デノイジングなどの映像エンハンスメントタスクの品質と実行速度を同時に向上させる汎用フレームワークを提案する。 我々のフレームワークの鍵となるのは、低品質のビデオから高精度な動きを生成するピクセル運動推定アルゴリズムである。 私たちのモーション推定アルゴリズムは、今日の自律デバイスで容易に利用できるポイントクラウド情報を利用しており、将来的にはより一般的になるでしょう。 動き情報を利用して高品質な画像再構成を導く汎用フレームワークを実証する。 実験により,我々のフレームワークは,最先端の映像強調アルゴリズムより一貫した性能を示しながら,実行速度を桁違いに向上させた。

This paper presents a general framework that simultaneously improves the quality and the execution speed of a range of video enhancement tasks, such as super-sampling, deblurring, and denoising. The key to our framework is a pixel motion estimation algorithm that generates accurate motion from low-quality videos while being computationally very lightweight. Our motion estimation algorithm leverages point cloud information, which is readily available in today's autonomous devices and will only become more common in the future. We demonstrate a generic framework that leverages the motion information to guide high-quality image reconstruction. Experiments show that our framework consistently outperforms the state-of-the-art video enhancement algorithms while improving the execution speed by an order of magnitude.
翻訳日:2021-03-17 22:44:33 公開日:2021-03-15
# 一般化H-Criterionに基づく確率的文脈自由文法の識別学習

Discriminative Learning for Probabilistic Context-Free Grammars based on Generalized H-Criterion ( http://arxiv.org/abs/2103.08656v1 )

ライセンス: Link先を確認
Mauricio Maca, Jos\'e Miguel Bened\'i and Joan Andreu S\'anchez(参考訳) まず, H-criterion を目的関数として, 成長変換を最適化法として提案し, PCFG のパラメータ推定のための最終式の開発を可能にする。 次に,H-criterionを一般化し,参照解釈の集合と競合解釈の集合を考慮し,PCFGに対する推定変換の表現を開発するための目的関数の新しいファミリーを提案する。

We present a formal framework for the development of a family of discriminative learning algorithms for Probabilistic Context-Free Grammars (PCFGs) based on a generalization of criterion-H. First of all, we propose the H-criterion as the objective function and the Growth Transformations as the optimization method, which allows us to develop the final expressions for the estimation of the parameters of the PCFGs. And second, we generalize the H-criterion to take into account the set of reference interpretations and the set of competing interpretations, and we propose a new family of objective functions that allow us to develop the expressions of the estimation transformations for PCFGs.
翻訳日:2021-03-17 13:36:46 公開日:2021-03-15
# 表情のバイアス軽減と行動単位認識のためのドメインインクリメンタル連続学習

Domain-Incremental Continual Learning for Mitigating Bias in Facial Expression and Action Unit Recognition ( http://arxiv.org/abs/2103.08637v1 )

ライセンス: Link先を確認
Nikhil Churamani, Ozgur Kara and Hatice Gunes(参考訳) 顔表情認識(FER)システムが私たちの日常生活に統合されるにつれて、より高い個人精度のスコアではなく、公平な判断を優先する必要がある。 監視システムから個人の精神的および感情的な健康状態の診断まで、これらのシステムは正確さと公平さのトレードオフのバランスをとる必要がある。 顔分析システムでは, 偏見を重要な問題として同定し, 偏見をデータレベルとアルゴリズムレベルで緩和する手法が提案されている。 本研究では,特にドメイン・インクリメンタル・ラーニング(Domain-IL)の設定を,スキューデータ分布から生じるバイアスから保護しながら,FERシステムの公平性を高めるための強力なバイアス緩和手法として利用することを提案する。 RAF-DB と BP4D の2つのベンチマークを用いて,表現認識と行動単位(AU)検出タスクの分類精度と公平度を評価するために,CL ベースとCL ベースの異なる手法を比較した。 実験の結果,CLに基づく手法は,精度と公正度の両方において,他の一般的なバイアス緩和手法よりも優れていた。

As Facial Expression Recognition (FER) systems become integrated into our daily lives, these systems need to prioritise making fair decisions instead of aiming at higher individual accuracy scores. Ranging from surveillance systems to diagnosing mental and emotional health conditions of individuals, these systems need to balance the accuracy vs fairness trade-off to make decisions that do not unjustly discriminate against specific under-represented demographic groups. Identifying bias as a critical problem in facial analysis systems, different methods have been proposed that aim to mitigate bias both at data and algorithmic levels. In this work, we propose the novel usage of Continual Learning (CL), in particular, using Domain-Incremental Learning (Domain-IL) settings, as a potent bias mitigation method to enhance the fairness of FER systems while guarding against biases arising from skewed data distributions. We compare different non-CL-based and CL-based methods for their classification accuracy and fairness scores on expression recognition and Action Unit (AU) detection tasks using two popular benchmarks, the RAF-DB and BP4D datasets, respectively. Our experimental results show that CL-based methods, on average, outperform other popular bias mitigation techniques on both accuracy and fairness metrics.
翻訳日:2021-03-17 13:35:58 公開日:2021-03-15
# ハイパースペクトル画像分類におけるバンド選択のための深層強化学習

Deep Reinforcement Learning for Band Selection in Hyperspectral Image Classification ( http://arxiv.org/abs/2103.08741v1 )

ライセンス: Link先を確認
Lichao Mou and Sudipan Saha and Yuansheng Hua and Francesca Bovolo and Lorenzo Bruzzone and Xiao Xiang Zhu(参考訳) 帯域選択とは、ハイパースペクトル画像において最も関連性の高い帯域を選択する過程を指す。 限られた数の最適帯域を選択することで、モデルのトレーニングの高速化、精度の向上、あるいはその両方を目指す。 スペクトルバンド間の冗長性を低減し、元の画像情報を保存しようとする。 現在までに、教師なしのバンド選択手法の開発に多くの努力がなされており、その大半は試行錯誤によって考案されたヒューリスティックアルゴリズムである。 本稿では,ハイパースペクトル画像を用いて,手作業による推論を伴わずに最適なバンドサブセットを選択するためのポリシーを自動学習できるインテリジェントエージェントの訓練に関心がある。 そこで本研究では,教師なし帯域選択の問題をマルコフ決定過程とし,パラメータ化のための効果的な手法を提案し,さらに深層強化学習によって解決する。 エージェントが訓練されると、ハイパースペクトル画像と以前に選択されたバンドをフル活用することにより、エージェントが順次バンドを選択するためのバンド選択ポリシーを学ぶ。 さらに,深層強化学習の環境シミュレーションのための2つの報奨スキームを提案し,実験で比較した。 これは、我々の知る限り、ハイパースペクトル画像解析のための深層強化学習モデルを探求する最初の研究であり、将来の研究のための新たな扉を開き、リモートセンシングアプリケーションにおける深部強化学習の大きな可能性を示す。 4つの超スペクトルデータセットを用いて実験を行い,提案手法の有効性を実験的に検証した。

Band selection refers to the process of choosing the most relevant bands in a hyperspectral image. By selecting a limited number of optimal bands, we aim at speeding up model training, improving accuracy, or both. It reduces redundancy among spectral bands while trying to preserve the original information of the image. By now many efforts have been made to develop unsupervised band selection approaches, of which the majority are heuristic algorithms devised by trial and error. In this paper, we are interested in training an intelligent agent that, given a hyperspectral image, is capable of automatically learning policy to select an optimal band subset without any hand-engineered reasoning. To this end, we frame the problem of unsupervised band selection as a Markov decision process, propose an effective method to parameterize it, and finally solve the problem by deep reinforcement learning. Once the agent is trained, it learns a band-selection policy that guides the agent to sequentially select bands by fully exploiting the hyperspectral image and previously picked bands. Furthermore, we propose two different reward schemes for the environment simulation of deep reinforcement learning and compare them in experiments. This, to the best of our knowledge, is the first study that explores a deep reinforcement learning model for hyperspectral image analysis, thus opening a new door for future research and showcasing the great potential of deep reinforcement learning in remote sensing applications. Extensive experiments are carried out on four hyperspectral data sets, and experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2021-03-17 13:33:33 公開日:2021-03-15
# 非鏡視的論理形式のための遷移型解析器

A Transition-based Parser for Unscoped Episodic Logical Forms ( http://arxiv.org/abs/2103.08759v1 )

ライセンス: Link先を確認
Gene Louis Kim, Viet Duong, Xin Lu, Lenhart Schubert(参考訳) The Episodic Logic:Unscoped Logical Form (EL-ULF) は、述語論の構造を捉えた意味表現であり、エピソード論理形式論における言語のより困難な側面である。 注釈付きサンプルを用いて,文章をULFにパースするための最初の学習手法を提案する。 結果は、将来の改善のための強力なベースラインを提供する。 本手法は,キャッシュ遷移システム内の遷移動作シーケンスを予測するシーケンス・ツー・シーケンスモデルを学習する。 本研究は,タイプ文法に基づく制約,単語と記号のレキシコン,および遷移系状態の特徴の有効性を評価する。 私たちのシステムはhttps://github.com/genelkim/ulf-transition-parserで利用可能です。

"Episodic Logic:Unscoped Logical Form" (EL-ULF) is a semantic representation capturing predicate-argument structure as well as more challenging aspects of language within the Episodic Logic formalism. We present the first learned approach for parsing sentences into ULFs, using a growing set of annotated examples. The results provide a strong baseline for future improvement. Our method learns a sequence-to-sequence model for predicting the transition action sequence within a modified cache transition system. We evaluate the efficacy of type grammar-based constraints, a word-to-symbol lexicon, and transition system state features in this task. Our system is available at https://github.com/genelkim/ulf-transition-parser We also present the first official annotated ULF dataset at https://www.cs.rochester.edu/u/gkim21/ulf/resources/.
翻訳日:2021-03-17 13:32:55 公開日:2021-03-15
# UPANets: Universal Pixel Attention Networksから学ぶ

UPANets: Learning from the Universal Pixel Attention Networks ( http://arxiv.org/abs/2103.08640v1 )

ライセンス: Link先を確認
Ching-Hsun Tseng, Shin-Jye Lee, Jia-Nan Feng, Shengzhong Mao, Yu-Ping Wu, Jia-Yu Shang, Mou-Chung Tseng, and Xiao-Jun Zeng(参考訳) 画像分類では、スキップと密結合に基づくネットワークがほとんどのリーダーボードを支配している。 近年,自然言語処理における多面的注目の高まりから,トランスフォーマー型モデルやハイブリッドCNNのいずれにも注目が集まっていることが確認されている。 しかし、前者は訓練に膨大なリソースを必要とし、後者は、この方向への完全なバランスにある。 本研究では,cnnがグローバル情報とローカル情報を扱うために,チャネル毎の注意とハイブリッドなスキップ・センス接続構造を備えたupanetsを提案する。 また、極端な接続構造により、upanetsはよりスムーズなロスランドスケープで堅牢になる。 実験では、UPANetsはCifar-10で96.47%、Cifar-100で80.29%、Tiny Imagenetで67.67%の精度で、最も有名で広く使われているSOTAを上回った。 最も重要なことは、これらのパフォーマンスは高いパラメータ効率を持ち、1つの顧客ベースのGPUでのみトレーニングされることだ。 UPANetsの実装コードはhttps://github.com/hanktseng131415go/UPANetsで共有しています。

Among image classification, skip and densely-connection-based networks have dominated most leaderboards. Recently, from the successful development of multi-head attention in natural language processing, it is sure that now is a time of either using a Transformer-like model or hybrid CNNs with attention. However, the former need a tremendous resource to train, and the latter is in the perfect balance in this direction. In this work, to make CNNs handle global and local information, we proposed UPANets, which equips channel-wise attention with a hybrid skip-densely-connection structure. Also, the extreme-connection structure makes UPANets robust with a smoother loss landscape. In experiments, UPANets surpassed most well-known and widely-used SOTAs with an accuracy of 96.47% in Cifar-10, 80.29% in Cifar-100, and 67.67% in Tiny Imagenet. Most importantly, these performances have high parameters efficiency and only trained in one customer-based GPU. We share implementing code of UPANets in https://github.com/hanktseng131415go/UPANets.
翻訳日:2021-03-17 13:30:04 公開日:2021-03-15
# 仮想フロー計測のためのマルチタスク学習

Multi-task learning for virtual flow metering ( http://arxiv.org/abs/2103.08713v1 )

ライセンス: Link先を確認
Anders T. Sandnes (1 and 2), Bjarne Grimstad (1 and 3), Odd Kolbj{\o}rnsen (2) ((1) Solution Seeker AS, (2) Department of Mathematics, University of Oslo, (3) Department of Engineering Cybernetics, Norwegian University of Science and Technology)(参考訳) 仮想フローメータリング(virtual flow metering, vfm)は、石油資産の多相流量を推算するコスト効率と非インタラクティブな技術である。 流量に関する推測は、オペレーターが広く依存する意思決定支援システムの基本である。 メカニスティックモデルを機械学習モデルに置き換えるデータ駆動型VFMは、メンテナンスコストの低減を約束して最近注目を集めている。 小標本研究における優れた性能は文献で報告されているが、データ駆動型vfmの堅牢性には疑いの余地がある。 本稿では,データ駆動型VFMのためのマルチタスク学習(MTL)アーキテクチャを提案する。 本手法は,石油・ガス井を横断する学習を可能にする従来の方法と異なる。 4つの石油資産から55の井戸をモデル化した。 以上の結果から,MTLは単一タスク法よりも堅牢性を向上し,性能を損なわないことがわかった。 MTLは、単一タスクアーキテクチャが苦労している資産に対して平均25-50%のエラー削減をもたらす。

Virtual flow metering (VFM) is a cost-effective and non-intrusive technology for inferring multi-phase flow rates in petroleum assets. Inferences about flow rates are fundamental to decision support systems which operators extensively rely on. Data-driven VFM, where mechanistic models are replaced with machine learning models, has recently gained attention due to its promise of lower maintenance costs. While excellent performance in small sample studies have been reported in the literature, there is still considerable doubt towards the robustness of data-driven VFM. In this paper we propose a new multi-task learning (MTL) architecture for data-driven VFM. Our method differs from previous methods in that it enables learning across oil and gas wells. We study the method by modeling 55 wells from four petroleum assets. Our findings show that MTL improves robustness over single task methods, without sacrificing performance. MTL yields a 25-50% error reduction on average for the assets where single task architectures are struggling.
翻訳日:2021-03-17 13:25:33 公開日:2021-03-15
# ニューラルセルオートマタによる三次元人工物と機能機械の育成

Growing 3D Artefacts and Functional Machines with Neural Cellular Automata ( http://arxiv.org/abs/2103.08737v1 )

ライセンス: Link先を確認
Shyam Sudhakaran, Djordje Grbic, Siyan Li, Adam Katona, Elias Najarro, Claire Glanois, Sebastian Risi(参考訳) 神経細胞オートマタ(NCAs)は、ごくわずかな開始細胞から複雑な構造を連続的に構築する形態形成過程のシミュレーションに有効であることが証明されている。 NCAの最近の発展は2D領域にあり、すなわち、単一のピクセルまたは無限に成長する2Dテクスチャからターゲットイメージを再構成する。 本研究では,提案するニューラルネットワークアーキテクチャにおける3次元畳み込みを利用して,ncasを3dに拡張する手法を提案する。 minecraftは、静的な構造と動くマシンの両方を生成できるので、automattonの環境に選ばれています。 単純さにもかかわらず、NCAは城、マンション、木などの複雑な実体を育むことができ、その一部は3,000ブロック以上で構成されている。 さらに、再生のために訓練されたシステムは、単純な機能機械の一部を再成長させ、シミュレートされた形態形成システムの能力を著しく拡張することができる。

Neural Cellular Automata (NCAs) have been proven effective in simulating morphogenetic processes, the continuous construction of complex structures from very few starting cells. Recent developments in NCAs lie in the 2D domain, namely reconstructing target images from a single pixel or infinitely growing 2D textures. In this work, we propose an extension of NCAs to 3D, utilizing 3D convolutions in the proposed neural network architecture. Minecraft is selected as the environment for our automaton since it allows the generation of both static structures and moving machines. We show that despite their simplicity, NCAs are capable of growing complex entities such as castles, apartment blocks, and trees, some of which are composed of over 3,000 blocks. Additionally, when trained for regeneration, the system is able to regrow parts of simple functional machines, significantly expanding the capabilities of simulated morphogenetic systems.
翻訳日:2021-03-17 13:25:19 公開日:2021-03-15
# 深部強化学習による自律型ドローンレース

Autonomous Drone Racing with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08624v1 )

ライセンス: Link先を確認
Yunlong Song, Mats Steinweg, Elia Kaufmann, and Davide Scaramuzza(参考訳) ドローンレースのような多くのロボットタスクにおいて、ゴールはできるだけ速くコースポイントを移動することである。 この課題の鍵となる課題は、通常、経路ポイントの完全な知識を事前に通過させることによって解決される最小時間軌道を計画することである。 結果として得られるソリューションは、シングルトラックのレイアウトに高度に特化するか、プラットフォームダイナミクスに関する仮定を単純化するため、副最適である。 本研究では,四元数に対する最小時間軌道生成に対する新しいアプローチを提案する。 深部強化学習と相対ゲート観測の活用により、ランダムなトラックレイアウトのための近時最適軌道を適応的に計算できる。 本手法は,非自明なトラック構成に対する軌道最適化に基づくアプローチよりも大きな計算上の優位性を示す。 提案手法は,シミュレーションと実世界におけるレーストラックのセットで評価され,最大17m/sの速さを物理クオータで達成する。

In many robotic tasks, such as drone racing, the goal is to travel through a set of waypoints as fast as possible. A key challenge for this task is planning the minimum-time trajectory, which is typically solved by assuming perfect knowledge of the waypoints to pass in advance. The resulting solutions are either highly specialized for a single-track layout, or suboptimal due to simplifying assumptions about the platform dynamics. In this work, a new approach to minimum-time trajectory generation for quadrotors is presented. Leveraging deep reinforcement learning and relative gate observations, this approach can adaptively compute near-time-optimal trajectories for random track layouts. Our method exhibits a significant computational advantage over approaches based on trajectory optimization for non-trivial track configurations. The proposed approach is evaluated on a set of race tracks in simulation and the real world, achieving speeds of up to 17 m/s with a physical quadrotor.
翻訳日:2021-03-17 13:24:01 公開日:2021-03-15
# 胸部X線分析のためのディープラーニング:サーベイ

Deep Learning for Chest X-ray Analysis: A Survey ( http://arxiv.org/abs/2103.08700v1 )

ライセンス: Link先を確認
Ecem Sogancioglu, Erdi \c{C}all{\i}, Bram van Ginneken, Kicky G. van Leeuwen, Keelin Murphy(参考訳) 近年のディープラーニングの進歩は、多くの医療画像解析タスクにおいて有望なパフォーマンスをもたらしている。 最も一般的に行われる放射線検査として、胸部x線撮影は様々な応用が研究されている特に重要な形態である。 近年、複数の大きな胸部x線データセットがリリースされ、研究の関心が高まり、出版物数が増加した。 本稿では,胸部x線写真における深層学習を用いたすべての研究について,画像レベルの予測(分類と回帰),セグメンテーション,局所化,画像生成,ドメイン適応について検討する。 商業的に利用可能なアプリケーションの詳細が述べられ、その技術の現状と今後の方向性について総合的な議論がなされている。

Recent advances in deep learning have led to a promising performance in many medical image analysis tasks. As the most commonly performed radiological exam, chest radiographs are a particularly important modality for which a variety of applications have been researched. The release of multiple, large, publicly available chest X-ray datasets in recent years has encouraged research interest and boosted the number of publications. In this paper, we review all studies using deep learning on chest radiographs, categorizing works by task: image-level prediction (classification and regression), segmentation, localization, image generation and domain adaptation. Commercially available applications are detailed, and a comprehensive discussion of the current state of the art and potential future directions are provided.
翻訳日:2021-03-17 13:22:56 公開日:2021-03-15
# 暗号api提案のための埋め込みコードコンテキスト:新しい手法と比較

Embedding Code Contexts for Cryptographic API Suggestion:New Methodologies and Comparisons ( http://arxiv.org/abs/2103.08747v1 )

ライセンス: Link先を確認
Ya Xiao, Salman Ahmed, Wenjia Song, Xinyang Ge, Bimal Viswanath, Danfeng (Daphne) Yao(参考訳) 最近の研究努力にもかかわらず、api推奨による自動コード生成のビジョンは実現されていない。 APIレコメンデーションの正確性と表現性の課題には、体系的に対処する必要がある。 APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。 Multi-HyLSTMは、プログラム分析を利用して、APIの埋め込みとレコメンデーションをガイドする。 apiメソッドのデータ依存パスを分析することで、次のapiメソッド呼び出しを正確に予測するapiレコメンデーションタスクのためのマルチパスニューラルネットワークアーキテクチャをトレーニングし、専門化する。 これまでに報告されていない2つのプログラミング言語固有の課題に対処し、機能的に類似したAPIを区別し、低周波長範囲の影響を捉える。 提案手法は,プログラム解析支援組込み,マルチパスコード提案アーキテクチャ,低周波長距離エンハンスシーケンス学習,top-1レコメンデーションの精度向上など,設計選択の有効性を確認した。 最先端ツールSLANGの77.44%と比較してトップ1の精度は91.41%である。 245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%であり、Codotaの64.90%よりもはるかに優れている。 私たちは、データとコードを巨大なJava暗号コードデータセットとして公開します。

Despite recent research efforts, the vision of automatic code generation through API recommendation has not been realized. Accuracy and expressiveness challenges of API recommendation needs to be systematically addressed. We present a new neural network-based approach, Multi-HyLSTM for API recommendation --targeting cryptography-related code. Multi-HyLSTM leverages program analysis to guide the API embedding and recommendation. By analyzing the data dependence paths of API methods, we train embedding and specialize a multi-path neural network architecture for API recommendation tasks that accurately predict the next API method call. We address two previously unreported programming language-specific challenges, differentiating functionally similar APIs and capturing low-frequency long-range influences. Our results confirm the effectiveness of our design choices, including program-analysis-guided embedding, multi-path code suggestion architecture, and low-frequency long-range-enhanced sequence learning, with high accuracy on top-1 recommendations. We achieve a top-1 accuracy of 91.41% compared with 77.44% from the state-of-the-art tool SLANG. In an analysis of 245 test cases, compared with the commercial tool Codota, we achieve a top-1 recommendation accuracy of 88.98%, which is significantly better than Codota's accuracy of 64.90%. We publish our data and code as a large Java cryptographic code dataset.
翻訳日:2021-03-17 13:21:27 公開日:2021-03-15
# 機械学習による時間依存量子スピンネットワークのトモグラフィ

Tomography of time-dependent quantum spin networks with machine learning ( http://arxiv.org/abs/2103.08645v1 )

ライセンス: Link先を確認
Chen-Di Han, Bryan Glaz, Mulugeta Haile, and Ying-Cheng Lai(参考訳) 相互作用するスピンネットワークは量子コンピューティングの基本である。 データに基づく時間非依存スピンネットワークのトモグラフィーが達成されているが、スピンの小さな部分集合から局所的に得られる時系列測定を用いて、時間依存スピンネットワークの構造を確認することがオープンな課題である。 物理的には、時間依存駆動または摂動下でのスピンネットワークの動的進化はハイゼンベルク運動方程式によって記述される。 この基本的な事実に動機づけられ、コアがハイゼンベルクニューラルネットワークである物理学で強化された機械学習フレームワークを特徴付ける。 特に, スピン変数の量子進化に追従するようにニューラルネットワークを「強制」するハイゼンベルク方程式に基づく, いくつかの物理動機損失関数に基づく深層学習アルゴリズムを開発した。 局所的な測定から,局所的なハミルトニアンを回収できるだけでなく,系全体の相互作用構造を反映したハミルトニアンも忠実に再構成できることを示した。 我々は、様々な構造のスピンネットワーク上で、ハイゼンベルクニューラルマシンをテストする。 1本のスピンのみから測定を行う極端な場合、達成されたトモグラフィーの忠実度値はおよそ90%に達する。 開発された機械学習フレームワークは、量子力学進化がハイゼンベルク運動方程式によって制御される任意の時間依存システムに適用できる。

Interacting spin networks are fundamental to quantum computing. Data-based tomography of time-independent spin networks has been achieved, but an open challenge is to ascertain the structures of time-dependent spin networks using time series measurements taken locally from a small subset of the spins. Physically, the dynamical evolution of a spin network under time-dependent driving or perturbation is described by the Heisenberg equation of motion. Motivated by this basic fact, we articulate a physics-enhanced machine learning framework whose core is Heisenberg neural networks. In particular, we develop a deep learning algorithm according to some physics motivated loss function based on the Heisenberg equation, which "forces" the neural network to follow the quantum evolution of the spin variables. We demonstrate that, from local measurements, not only the local Hamiltonian can be recovered but the Hamiltonian reflecting the interacting structure of the whole system can also be faithfully reconstructed. We test our Heisenberg neural machine on spin networks of a variety of structures. In the extreme case where measurements are taken from only one spin, the achieved tomography fidelity values can reach about 90%. The developed machine learning framework is applicable to any time-dependent systems whose quantum dynamical evolution is governed by the Heisenberg equation of motion.
翻訳日:2021-03-17 13:20:21 公開日:2021-03-15
# (参考訳) カプセルネットワークの限界を押し上げる

Pushing the Limits of Capsule Networks ( http://arxiv.org/abs/2103.08074v1 )

ライセンス: CC BY 4.0
Prem Nair, Rohan Doshi, Stefan Keselj(参考訳) 畳み込みニューラルネットワークは、機能検出のための翻訳不変性を維持するためにプーリングやその他のダウンスケーリング操作を使用するが、そのアーキテクチャでは、互いに相対的に特徴の場所の表現を明示的に保持していない。 つまり、同じオブジェクトの2つのインスタンスを人間と同じように異なる向きで表現していないため、トレーニングには大規模なデータ拡張と極めて深いネットワークが必要です。 Google Brainのチームが最近、この問題を解決しようとしている: Capsule Networks。 通常のCNNは機能の存在を表すスカラー出力で動作するが、CapsNetはエンティティの存在を表すベクトル出力で動作する。 CapsNetのパフォーマンスと表現性をよりよく理解するために、さまざまなインクリメンタルな方法でテストしたいと思っています。 本研究の目的は,(1)mnistに近いが特定の方法では難しいデータセットのcapsnetsをテストすること,(2)capsnetsの内部埋め込み空間とエラーの原因を探索すること,である。

Convolutional neural networks use pooling and other downscaling operations to maintain translational invariance for detection of features, but in their architecture they do not explicitly maintain a representation of the locations of the features relative to each other. This means they do not represent two instances of the same object in different orientations the same way, like humans do, and so training them often requires extensive data augmentation and exceedingly deep networks. A team at Google Brain recently made news with an attempt to fix this problem: Capsule Networks. While a normal CNN works with scalar outputs representing feature presence, a CapsNet works with vector outputs representing entity presence. We want to stress test CapsNet in various incremental ways to better understand their performance and expressiveness. In broad terms, the goals of our investigation are: (1) test CapsNets on datasets that are like MNIST but harder in a specific way, and (2) explore the internal embedding space and sources of error for CapsNets.
翻訳日:2021-03-17 02:19:17 公開日:2021-03-15
# (参考訳) 乳癌における遺伝組織学的関係の探索

Exploring Genetic-histologic Relationships in Breast Cancer ( http://arxiv.org/abs/2103.08082v1 )

ライセンス: CC BY 4.0
Ruchi Chauhan, PK Vinod, CV Jawahar(参考訳) デジタル病理学の出現は、組織病理学的画像のための迅速で正確で客観的なソリューションと知識発見を支援するためのコンピュータビジョンの機会を提供します。 この研究は深層学習を用いて、乳癌の病理組織像からTP53変異、PIK3CA変異、ERステータス、PRステータス、HER2ステータス、内因性サブタイプを予測する。 さらに,これらのゲノムバイオマーカーが画像にどのように現れるのか,その基礎的形態を理解することを試みた。 遺伝子シークエンシングは高価であり、必ずしも利用可能ではないため、画像からこれらのバイオマーカーを予測することは、診断、予後、および効果的な治療計画に役立ちます。 全タスクで0.02の最小改善と最大0.13のAUROCスコアで既存の作業より優れています。 また、リンパ球やkaryorrhexisの存在など、さらなる実験のための仮説として役立つ洞察を得ます。 さらに、当社のフル自動化ワークフローは、他のがんサブタイプにわたる他のタスクにも拡張できます。

The advent of digital pathology presents opportunities for computer vision for fast, accurate, and objective solutions for histopathological images and aid in knowledge discovery. This work uses deep learning to predict genomic biomarkers - TP53 mutation, PIK3CA mutation, ER status, PR status, HER2 status, and intrinsic subtypes, from breast cancer histopathology images. Furthermore, we attempt to understand the underlying morphology as to how these genomic biomarkers manifest in images. Since gene sequencing is expensive, not always available, or even feasible, predicting these biomarkers from images would help in diagnosis, prognosis, and effective treatment planning. We outperform the existing works with a minimum improvement of 0.02 and a maximum of 0.13 AUROC scores across all tasks. We also gain insights that can serve as hypotheses for further experimentations, including the presence of lymphocytes and karyorrhexis. Moreover, our fully automated workflow can be extended to other tasks across other cancer subtypes.
翻訳日:2021-03-17 02:07:47 公開日:2021-03-15
# (参考訳) EnHMM: バグレポートフィールドの再割り当て予測のためのHMMとスタックトレースのアンサンブル利用について

EnHMM: On the Use of Ensemble HMMs and Stack Traces to Predict the Reassignment of Bug Report Fields ( http://arxiv.org/abs/2103.08083v1 )

ライセンス: CC BY 4.0
Md Shariful Islam, Abdelwahab Hamou-Lhadj, Korosh K. Sabor, Mohammad Hamdaqa, Haipeng Cai(参考訳) バグレポート(BR)には、チームが優先順位付けし、修正を提供する開発者にバグを割り当てるのに役立つ重要な情報が含まれています。 しかし、BRフィールドはしばしば再割り当てが必要な誤った情報を含んでおり、バグ修正プロセスを遅らせることが研究で示されています。 BR フィールドが再割り当てされるべきかどうかを予測する方法は存在する。 これらの研究は主にBR記述と従来の機械学習アルゴリズム(SVM、KNNなど)を使用している。 したがって、brスタックトレースの関数呼び出しシーケンスのようなbrデータ内の情報の逐次的な順序の恩恵を受けず、予測精度を向上させるのに有用である。 本稿では,スタックトレースに基づいて学習したアンサンブル隠れマルコフモデル(HMM)を用いてBRフィールドの再割り当てを予測する,EnHMMと呼ばれる新しい手法を提案する。 EnHMM は HMM の自然能力を利用してシーケンシャルデータを表現して BR スタックトレースにおける関数呼び出しの時系列順序をモデル化します。 EclipseとGnome BRリポジトリに適用すると、EnHMMは、Eclipseデータセットで54%、76%、60%、Gnomeデータセットで41%、69%、および51%の平均精度、リコール、およびF測定を実現します。 また、EnHMMはEclipseで36%、Gnomeで76%、最高のシングルHMMで36%改善しています。 最後に,EnHMMと最近のアプローチであるIm.ML.KNNを比較すると,EnHMMの平均F値スコアが平均F値の6.80%向上し,Im.ML.KNNの平均リコール率が36.09%向上することがわかった。 しかし、EnHMMの平均精度はIm.ML.KNNよりも低い(56.71%に対して53.93%)。

Bug reports (BR) contain vital information that can help triaging teams prioritize and assign bugs to developers who will provide the fixes. However, studies have shown that BR fields often contain incorrect information that need to be reassigned, which delays the bug fixing process. There exist approaches for predicting whether a BR field should be reassigned or not. These studies use mainly BR descriptions and traditional machine learning algorithms (SVM, KNN, etc.). As such, they do not fully benefit from the sequential order of information in BR data, such as function call sequences in BR stack traces, which may be valuable for improving the prediction accuracy. In this paper, we propose a novel approach, called EnHMM, for predicting the reassignment of BR fields using ensemble Hidden Markov Models (HMMs), trained on stack traces. EnHMM leverages the natural ability of HMMs to represent sequential data to model the temporal order of function calls in BR stack traces. When applied to Eclipse and Gnome BR repositories, EnHMM achieves an average precision, recall, and F-measure of 54%, 76%, and 60% on Eclipse dataset and 41%, 69%, and 51% on Gnome dataset. We also found that EnHMM improves over the best single HMM by 36% for Eclipse and 76% for Gnome. Finally, when comparing EnHMM to Im.ML.KNN, a recent approach in the field, we found that the average F-measure score of EnHMM improves the average F-measure of Im.ML.KNN by 6.80% and improves the average recall of Im.ML.KNN by 36.09%. However, the average precision of EnHMM is lower than that of Im.ML.KNN (53.93% as opposed to 56.71%).
翻訳日:2021-03-17 02:01:06 公開日:2021-03-15
# (参考訳) エゴセントリックデータにおけるサイクリングハザードの分類

Classifying Cycling Hazards in Egocentric Data ( http://arxiv.org/abs/2103.08102v1 )

ライセンス: CC BY 4.0
Jayson Haebich, Christian Sandor and Alvaro Cassinelli(参考訳) この提案は、危険を伴うサイクリング状況のエゴセントリックなビデオデータセットの作成とアノテーションである。 得られたデータセットは、サイクリストの安全と経験を改善するプロジェクトを促進する。 サイクリストは路面状況や危険に敏感であるため、ルートを移動する際に道路状況についてより詳細に説明する必要があります。 路面電車、石畳、格子、ユーティリティアクセスポイントなどの特徴は、旅行に危険や不快なライディング条件をもたらす可能性がある。 データセットの考えられる用途は、自治体のサイクリングインフラストラクチャにおける既存のハザードの特定、サイクリストのリアルタイムハザードと表面条件の警告、そしてサイクリストが直ちに経路を急変させるような状況の特定である。

This proposal is for the creation and annotation of an egocentric video data set of hazardous cycling situations. The resulting data set will facilitate projects to improve the safety and experience of cyclists. Since cyclists are highly sensitive to road surface conditions and hazards they require more detail about road conditions when navigating their route. Features such as tram tracks, cobblestones, gratings, and utility access points can pose hazards or uncomfortable riding conditions for their journeys. Possible uses for the data set are identifying existing hazards in cycling infrastructure for municipal authorities, real time hazard and surface condition warnings for cyclists, and the identification of conditions that cause cyclists to make sudden changes in their immediate route.
翻訳日:2021-03-17 01:41:01 公開日:2021-03-15
# (参考訳) 強化学習による歩行時の運動と運動のモデル化

Modelling Human Kinetics and Kinematics during Walking using Reinforcement Learning ( http://arxiv.org/abs/2103.08125v1 )

ライセンス: CC BY 4.0
Visak Kumar(参考訳) 本研究では,現実の人間の動作に匹敵するシミュレーションで3次元歩行運動を生成する自動手法を開発した。 本研究の核心は,環境力学の変動に頑健なまま,高次元運動スキルを習得する深層強化学習手法の活用である。 本手法は,実世界のバイオメカニカル・ヒューマン・データに適合するために,ポリシー学習とパラメータ識別を繰り返す。 我々は,学習した仮想人体エージェントが生み出すキネマティクス,運動学,地中反応力の徹底的な評価を行った。 また, この手法は, 異なる運動構造と歩行特性を持つヒト-サブジェクトをまたいでよく一般化することを示した。

In this work, we develop an automated method to generate 3D human walking motion in simulation which is comparable to real-world human motion. At the core, our work leverages the ability of deep reinforcement learning methods to learn high-dimensional motor skills while being robust to variations in the environment dynamics. Our approach iterates between policy learning and parameter identification to match the real-world bio-mechanical human data. We present a thorough evaluation of the kinematics, kinetics and ground reaction forces generated by our learned virtual human agent. We also show that the method generalizes well across human-subjects with different kinematic structure and gait-characteristics.
翻訳日:2021-03-17 01:37:05 公開日:2021-03-15
# (参考訳) R-PointHop: グリーンで正確で教師なしのポイントクラウド登録方法

R-PointHop: A Green, Accurate and Unsupervised Point Cloud Registration Method ( http://arxiv.org/abs/2103.08129v1 )

ライセンス: CC BY 4.0
Pranav Kadam, Min Zhang, Shan Liu, C.-C. Jay Kuo(参考訳) 近年のPointHop分類法に触発されて,R-PointHopと呼ばれる教師なしの3Dポイントクラウド登録法が提案されている。 R-PointHopは、まず最も近い隣人を使用して各点のローカル参照フレーム(LRF)を決定し、そのローカル属性を見つけます。 次に、R-PointHopは点ダウンサンプリング、近傍展開、属性構成、次元減少ステップによって局所-グローバル階層的特徴を得る。 したがって、最寄りの規則を用いて階層的特徴空間内の点の対応を構築することができる。 その後、良好な対応点のサブセットを選択し、3D変換を推定する。 lrfを使用することで、回転と変換に関して点の階層的特徴が不変になり、回転角が大きい場合でもr-pointhopはビルディングポイント対応においてより頑健になる。 実験はModelNet40とStanford Bunnyデータセット上で行われ、3Dポイントクラウド登録タスクにおけるR-PointHopの有効性を示す。 R-PointHopは、モデルのサイズとトレーニング時間は、登録エラーが小さい間、深層学習方法よりも桁違いに小さいため、緑で正確なソリューションです。 コードはGitHubで入手できます。

Inspired by the recent PointHop classification method, an unsupervised 3D point cloud registration method, called R-PointHop, is proposed in this work. R-PointHop first determines a local reference frame (LRF) for every point using its nearest neighbors and finds its local attributes. Next, R-PointHop obtains local-to-global hierarchical features by point downsampling, neighborhood expansion, attribute construction and dimensionality reduction steps. Thus, we can build the correspondence of points in the hierarchical feature space using the nearest neighbor rule. Afterwards, a subset of salient points of good correspondence is selected to estimate the 3D transformation. The use of LRF allows for hierarchical features of points to be invariant with respect to rotation and translation, thus making R-PointHop more robust in building point correspondence even when rotation angles are large. Experiments are conducted on the ModelNet40 and the Stanford Bunny dataset, which demonstrate the effectiveness of R-PointHop on the 3D point cloud registration task. R-PointHop is a green and accurate solution since its model size and training time are smaller than those of deep learning methods by an order of magnitude while its registration errors are smaller. Our codes are available on GitHub.
翻訳日:2021-03-17 01:27:12 公開日:2021-03-15
# (参考訳) 不完全なドメイン知識とVoxel-to-Mesh推定を用いたメッシュ表現に基づく衣服操作計画

Cloth Manipulation Planning on Basis of Mesh Representations with Incomplete Domain Knowledge and Voxel-to-Mesh Estimation ( http://arxiv.org/abs/2103.08137v1 )

ライセンス: CC BY 4.0
Solvi Arnold (1), Daisuke Tanaka (1), Kimitoshi Yamazaki (1) ((1) Shinshu University)(参考訳) ロボット布操作におけるオープンゴール計画の問題点を考察する。 我々のシステムの中核は、操作中の布の挙動のフォワードモデルとして訓練されたニューラルネットワークであり、バックプロパゲーションによって計画を実行する。 本稿では,voxel入力からメッシュ表現を推定するニューラルネットワークベースのルーチンを導入し,メッシュ形式の計画を行う。 明示的な認識の不確実性信号を用いて,不完全領域知識を持つ計画の問題に対処する。 この信号は、フォワードモデルネットワークの2つのインスタンス間の予測発散から計算され、計画中の認識の不確実性を避けるために使用される。 最後に,ロボットハードウェアに課される把持性制約に対応するために,個別の候補集合に対する把持点制限を扱う論理を導入する。 シミュレーション布のメッシュ推定,予測,計画能力を1~3回の操作で評価した。 比較実験により、推定メッシュに基づく計画がボクセルに基づく計画よりも精度が向上し、認識の不確実性回避が不完全なドメイン知識の条件下でのパフォーマンスを向上させることが確認された。 さらに,ロボットハードウェアに関する質的結果も提示する。

We consider the problem of open-goal planning for robotic cloth manipulation. Core of our system is a neural network trained as a forward model of cloth behaviour under manipulation, with planning performed through backpropagation. We introduce a neural network-based routine for estimating mesh representations from voxel input, and perform planning in mesh format internally. We address the problem of planning with incomplete domain knowledge by means of an explicit epistemic uncertainty signal. This signal is calculated from prediction divergence between two instances of the forward model network and used to avoid epistemic uncertainty during planning. Finally, we introduce logic for handling restriction of grasp points to a discrete set of candidates, in order to accommodate graspability constraints imposed by robotic hardware. We evaluate the system's mesh estimation, prediction, and planning ability on simulated cloth for sequences of one to three manipulations. Comparative experiments confirm that planning on basis of estimated meshes improves accuracy compared to voxel-based planning, and that epistemic uncertainty avoidance improves performance under conditions of incomplete domain knowledge. We additionally present qualitative results on robot hardware.
翻訳日:2021-03-17 01:05:04 公開日:2021-03-15
# (参考訳) S$^*$:マルチゴール経路探索のためのヒューリスティック情報に基づく近似フレームワーク

S$^*$: A Heuristic Information-Based Approximation Framework for Multi-Goal Path Finding ( http://arxiv.org/abs/2103.08155v1 )

ライセンス: CC BY 4.0
Kenny Chour, Sivakumar Rathinam, Ramamoorthi Ravi(参考訳) 移動セールスマン問題に対する一方向および双方向のヒューリスティック探索のアイデアと近似アルゴリズムを組み合わせて,2近似保証を提供する多方向経路探索(mgpf)問題の新たな枠組みを開発する。 MGPFは、特定の目標セット内の各ノードが少なくとも1回はパスに沿って訪問されるように、原点から目的地までの最小コストのパスを見つけることを目指しています。 拡張ノード数と実行時間の観点から,従来の代替よりもフレームワークが優れていることを示す数値的結果を提示する。

We combine ideas from uni-directional and bi-directional heuristic search, and approximation algorithms for the Traveling Salesman Problem, to develop a novel framework for a Multi-Goal Path Finding (MGPF) problem that provides a 2-approximation guarantee. MGPF aims to find a least-cost path from an origin to a destination such that each node in a given set of goals is visited at least once along the path. We present numerical results to illustrate the advantages of our framework over conventional alternates in terms of the number of expanded nodes and run time.
翻訳日:2021-03-17 00:31:17 公開日:2021-03-15
# (参考訳) 医療診断の機能選択:心臓病の診断におけるハイブリッドスタックジェネティックアプローチの使用評価

Feature selection for medical diagnosis: Evaluation for using a hybrid Stacked-Genetic approach in the diagnosis of heart disease ( http://arxiv.org/abs/2103.08175v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam(参考訳) 背景と目的: 心臓病は過去10年間に死因の最も重要な原因の1つであり、心臓病を診断し予測するための分類方法の使用は非常に重要です。 月経前にこの疾患が予測された場合、高い死亡率を予防し、より正確で効率的な治療法を提供することができる。 材料と方法:入力機能の選択のために、基本的なアルゴリズムの使用は非常に時間がかかります。 ディメンジョンの削減や機能の優れたサブセットの選択は、精度を損なうことなく、この領域での使用に成功するための基本的なアルゴリズムにとって非常に重要である。 本論文では,ラッパー機能低減を用いたアンサンブルジェネティック学習法を提案し,疾患分類の特徴を選定する。 発見: 心疾患を予測するためのアンサンブル学習に基づく医療診断システムの開発は、従来の方法よりも正確な診断を提供し、治療コストを低減させる。 結論: タリウムスキャンと血管閉塞は心疾患の診断において最も重要な特徴であり, 97.57%の精度で疾患と健康の区別が可能であった。

Background and purpose: Heart disease has been one of the most important causes of death in the last 10 years, so the use of classification methods to diagnose and predict heart disease is very important. If this disease is predicted before menstruation, it is possible to prevent high mortality of the disease and provide more accurate and efficient treatment methods. Materials and Methods: Due to the selection of input features, the use of basic algorithms can be very time-consuming. Reducing dimensions or choosing a good subset of features, without risking accuracy, has great importance for basic algorithms for successful use in the region. In this paper, we propose an ensemble-genetic learning method using wrapper feature reduction to select features in disease classification. Findings: The development of a medical diagnosis system based on ensemble learning to predict heart disease provides a more accurate diagnosis than the traditional method and reduces the cost of treatment. Conclusion: The results showed that Thallium Scan and vascular occlusion were the most important features in the diagnosis of heart disease and can distinguish between sick and healthy people with 97.57% accuracy.
翻訳日:2021-03-17 00:14:33 公開日:2021-03-15
# (参考訳) 深層学習に基づく2021年9月22日までのイランにおける新型コロナ流行のモデル化と予測

Modeling and forecasting Spread of COVID-19 epidemic in Iran until Sep 22, 2021, based on deep learning ( http://arxiv.org/abs/2103.08178v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Amir Jalili Irani, Babak Nouri-Moghaddam(参考訳) 最近のコビッド-19の世界的な流行は、世界中の多くの国に影響を与えています。 新規感染者の増加と医療システムのボトルネックにより、今後の患者の数を予測することが有用になります。 本研究は、イラン保健医療省の公式データセットと、新型コロナウイルスの感染拡大に対する対策の効果を用いて、イランにおける新たな症例、死亡者数、回復患者数を180日間にわたって効率的に予測することを目的としている。 予測手法、時系列、機械学習アルゴリズムの4つの異なるタイプが開発され、与えられたケーススタディに最適なパフォーマンス方法が決定されます。 時系列では,prophet,long short-term memory,autoregressive,autoregressive integrated moving average modelの4つのアルゴリズムを検討する。 異なる手法を比較すると、ディープラーニング手法は時系列予測アルゴリズムよりも優れた結果をもたらすことが分かりました。 より具体的には、エラー対策の最小値は、季節ANNおよびLSTMモデルで観察されます。 以上の結果から,予防措置が真剣に取られた場合,新たな症例や死亡件数は減少し,2021年9月の死亡件数はゼロとなることが明らかとなった。

The recent global outbreak of covid-19 is affecting many countries around the world. Due to the growing number of newly infected individuals and the health-care system bottlenecks, it will be useful to predict the upcoming number of patients. This study aims to efficiently forecast the is used to estimate new cases, number of deaths, and number of recovered patients in Iran for 180 days, using the official dataset of the Iranian Ministry of Health and Medical Education and the impact of control measures on the spread of COVID-19. Four different types of forecasting techniques, time series, and machine learning algorithms, are developed and the best performing method for the given case study is determined. Under the time series, we consider the four algorithms including Prophet, Long short-term memory, Autoregressive, Autoregressive Integrated Moving Average models. On comparing the different techniques, we found that deep learning methods yield better results than time series forecasting algorithms. More specifically, the least value of the error measures is observed in seasonal ANN and LSTM models. Our findings showed that if precautionary measures are taken seriously, the number of new cases and deaths will decrease, and the number of deaths in September 2021 will reach zero.
翻訳日:2021-03-17 00:00:32 公開日:2021-03-15
# (参考訳) 深層ニューラルネットワークを用いた医療システムのためのアンサンブル学習アルゴリズム(慢性疾患の診断)

Deep Neural Network Based Ensemble learning Algorithms for the healthcare system (diagnosis of chronic diseases) ( http://arxiv.org/abs/2103.08182v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam, Mehdi Ghazanfari(参考訳) 学習アルゴリズム。 本稿では,医療システム(慢性疾患)における分類アルゴリズムについて概説し,ニューラルネットワークを用いたアンサンブル学習法を提案する。 一般的なアルゴリズムを簡潔に説明し,その重要な性質について述べる。 材料と方法: 医療で用いられる最新の分類アルゴリズムを用いて、これらの方法とガイドラインの原理を検証し、慢性疾患の正確な診断と予測のために、ニューラルネットワークに基づくアンサンブル学習を用いた優れた機械学習アルゴリズムを用いる。 このために、UCIサイトで利用可能な慢性患者(糖尿病、心臓、がん)の実際のデータである実験データを使用します。 結果: 慢性疾患を診断するためのグループアルゴリズムは, 基本アルゴリズムよりも効果的であることがわかった。 また、慢性疾患の診断における機械学習の分類をさらに進めるためのいくつかの課題を特定します。 結論: 本研究では, 脳疾患の診断と予測のためのニューラルネットワークに基づくエンサンブル学習法が, 98.5, 99, 100%の精度に到達した。

learning algorithms. In this paper, we review the classification algorithms used in the health care system (chronic diseases) and present the neural network-based Ensemble learning method. We briefly describe the commonly used algorithms and describe their critical properties. Materials and Methods: In this study, modern classification algorithms used in healthcare, examine the principles of these methods and guidelines, and to accurately diagnose and predict chronic diseases, superior machine learning algorithms with the neural network-based ensemble learning Is used. To do this, we use experimental data, real data on chronic patients (diabetes, heart, cancer) available on the UCI site. Results: We found that group algorithms designed to diagnose chronic diseases can be more effective than baseline algorithms. It also identifies several challenges to further advancing the classification of machine learning in the diagnosis of chronic diseases. Conclusion: The results show the high performance of the neural network-based Ensemble learning approach for the diagnosis and prediction of chronic diseases, which in this study reached 98.5, 99, and 100% accuracy, respectively.
翻訳日:2021-03-16 23:48:54 公開日:2021-03-15
# (参考訳) 糖尿病の予測のための遺伝的アルゴリズムとハイブリッドスタックアンサンブル

Hybrid stacked ensemble combined with genetic algorithms for Prediction of Diabetes ( http://arxiv.org/abs/2103.08186v1 )

ライセンス: CC BY 4.0
Jafar Abdollahi, Babak Nouri-Moghaddam(参考訳) 糖尿病は、現在、血糖値の上昇または体内のインスリンの減少によって引き起こされる世界で最も一般的で危険で高価な疾患の1つです。 糖尿病は、診断が遅ければ人の健康に有害な影響を与えることがある。 今日、糖尿病は健康と政府の役人の課題の1つとなっています。 予防は最優先事項であり、快適さを損なうことなく人々の健康を守ることが不可欠である。 本研究では,遺伝子アルゴリズムに基づくエンサンブルトレーニング手法を用いて,糖尿病の正確な診断と予後の予測を行う。 本研究では、カリフォルニア大学のウェブサイトで、インドの糖尿病に関する実際のデータである実験データを用いています。 モノのインターネット、機械学習、データマイニングなどのICTの現在の発展により、日常生活や病院における病気の結果を正確に予測し、この病気とその多くの合併症の進行を防ぐためのよりインテリジェントな機能を備えた健康戦略を提供することができます。 その結果,本研究は98.8%に達し,99%の精度を示した。

Diabetes is currently one of the most common, dangerous, and costly diseases in the world that is caused by an increase in blood sugar or a decrease in insulin in the body. Diabetes can have detrimental effects on people's health if diagnosed late. Today, diabetes has become one of the challenges for health and government officials. Prevention is a priority, and taking care of people's health without compromising their comfort is an essential need. In this study, the Ensemble training methodology based on genetic algorithms are used to accurately diagnose and predict the outcomes of diabetes mellitus. In this study, we use the experimental data, real data on Indian diabetics on the University of California website. Current developments in ICT, such as the Internet of Things, machine learning, and data mining, allow us to provide health strategies with more intelligent capabilities to accurately predict the outcomes of the disease in daily life and the hospital and prevent the progression of this disease and its many complications. The results show the high performance of the proposed method in diagnosing the disease, which has reached 98.8%, and 99% accuracy in this study.
翻訳日:2021-03-16 23:20:18 公開日:2021-03-15
# (参考訳) 教師なし医用画像登録のためのカスケード特徴ウォーピングネットワーク

Cascaded Feature Warping Network for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2103.08213v1 )

ライセンス: CC BY 4.0
Liutong Zhang, Lei Zhou, Ruiyang Li, Xianyu Wang, Boxuan Han, Hongen Liao(参考訳) 変形可能な画像登録は医用画像解析で広く利用されているが、提案手法のほとんどは複雑な変形の場合には失敗する。 本稿では,細部への粗い登録を行うために,カスケード型特徴変形ネットワークを事前入力する。 これを実現するために、共有重みエンコーダネットワークを採用し、不整合画像の特徴ピラミッドを生成する。 次に、特徴ワープ登録モジュールを使用して各レベルにおける変形場を推定する。 モジュールをボトムレベルからトップレベルにカスケードすることにより、粒度の粗い方法で実装する。 さらに、登録性能を高めるために、マルチスケールの損失も導入する。 公開ベンチマークデータセットを2つ採用し, 各種実験を行い, 評価を行った。 その結果,本手法は最先端手法よりも優れており,また,カスケード特徴ウォーピングネットワークが効果的かつ効率的に粗い登録を行うことができることを示した。

Deformable image registration is widely utilized in medical image analysis, but most proposed methods fail in the situation of complex deformations. In this paper, we pre-sent a cascaded feature warping network to perform the coarse-to-fine registration. To achieve this, a shared-weights encoder network is adopted to generate the feature pyramids for the unaligned images. The feature warping registration module is then used to estimate the deformation field at each level. The coarse-to-fine manner is implemented by cascading the module from the bottom level to the top level. Furthermore, the multi-scale loss is also introduced to boost the registration performance. We employ two public benchmark datasets and conduct various experiments to evaluate our method. The results show that our method outperforms the state-of-the-art methods, which also demonstrates that the cascaded feature warping network can perform the coarse-to-fine registration effectively and efficiently.
翻訳日:2021-03-16 23:06:18 公開日:2021-03-15
# (参考訳) Adapt Everywhere:マルチモーダル心画像分割のためのポイントクラウドの教師なし適応とエントロピー最小化

Adapt Everywhere: Unsupervised Adaptation of Point-Clouds and Entropy Minimisation for Multi-modal Cardiac Image Segmentation ( http://arxiv.org/abs/2103.08219v1 )

ライセンス: CC BY-SA 4.0
Sulaiman Vesal, Mingxuan Gu, Ronak Kosti, Andreas Maier, Nishant Ravikumar(参考訳) ディープラーニングモデルはドメインシフト現象に敏感である。 あるドメインの画像で訓練されたモデルは、類似の解剖学的構造をキャプチャするにもかかわらず、異なるドメインの画像でテストするとうまく一般化できない。 主に、2つのドメイン間のデータ分布が異なるためです。 さらに、すべての新しいモダリティに対するアノテーションを作成することは退屈で時間を要する作業であり、高い観察者間および観察者内変動に悩まされる。 unsupervised domain adaptation (uda)メソッドは、ソースドメインラベルデータを利用してターゲットドメインのラベルを生成することで、ソースドメインとターゲットドメインの間のギャップを減らすことを目的としている。 しかし、現在の最新(SOTA)UDAメソッドは、ソースドメインとターゲットドメインに不十分なデータがある場合、パフォーマンスが低下します。 本稿では、マルチモーダル心臓画像分割のための新しいUDA法を提案する。 提案手法は、逆学習に基づいて、異なる空間におけるソースとターゲットドメイン間のネットワーク特徴を適応する。 本稿では,a)エントロピー最小化,b)アウトプット特徴空間アライメント,c)セグメンテーションモデルで学習した潜在特徴に基づく新しいポイントクラウド形状適応を組み込んだエンドツーエンドフレームワークを提案する。 本手法は,アノテートソースドメインであるbSSFP-MRI(Stady-State Free Procession-MRI)からマルチシーケンスデータセットのLGE-MRI(Late-gadolinium enhance-MRI)への適応,およびクロスモーダルデータセットのMRI(source)からCT(target)への適応により,2つの心臓データセットに対して検証を行った。 その結果,他のSOTA法と比較して,ネットワークの異なる部分における対角学習を強制することにより,提案手法は有望な性能を示した。

Deep learning models are sensitive to domain shift phenomena. A model trained on images from one domain cannot generalise well when tested on images from a different domain, despite capturing similar anatomical structures. It is mainly because the data distribution between the two domains is different. Moreover, creating annotation for every new modality is a tedious and time-consuming task, which also suffers from high inter- and intra- observer variability. Unsupervised domain adaptation (UDA) methods intend to reduce the gap between source and target domains by leveraging source domain labelled data to generate labels for the target domain. However, current state-of-the-art (SOTA) UDA methods demonstrate degraded performance when there is insufficient data in source and target domains. In this paper, we present a novel UDA method for multi-modal cardiac image segmentation. The proposed method is based on adversarial learning and adapts network features between source and target domain in different spaces. The paper introduces an end-to-end framework that integrates: a) entropy minimisation, b) output feature space alignment and c) a novel point-cloud shape adaptation based on the latent features learned by the segmentation model. We validated our method on two cardiac datasets by adapting from the annotated source domain, bSSFP-MRI (balanced Steady-State Free Procession-MRI), to the unannotated target domain, LGE-MRI (Late-gadolinium enhance-MRI), for the multi-sequence dataset; and from MRI (source) to CT (target) for the cross-modality dataset. The results highlighted that by enforcing adversarial learning in different parts of the network, the proposed method delivered promising performance, compared to other SOTA methods.
翻訳日:2021-03-16 22:59:49 公開日:2021-03-15
# (参考訳) 確率構造推定によるアルゴリズムによる強化学習

Reinforcement Learning with Algorithms from Probabilistic Structure Estimation ( http://arxiv.org/abs/2103.08241v1 )

ライセンス: CC BY 4.0
Jonathan P. Epperlein, Roman Overko, Sergiy Zhuk, Christopher King, Djallel Bouneffouf, Andrew Cullen and Robert Shorten(参考訳) 強化学習(RL)アルゴリズムは、行動を取り、得られた報酬を観察する経験を通じて、未知の環境で最適な決定を学ぶことを目指しています。 環境はRLエージェントの作用の影響を受けない場合もあるが、その場合、その問題を文脈的マルチアームバンディットとしてモデル化し、軽量な 'emph{myopic} アルゴリズムを用いることができる。 一方、RLエージェントのアクションが環境に影響を与える場合、問題はマルコフ決定プロセスとしてモデル化され、アクションの将来の影響を考慮するより複雑なRLアルゴリズムが必要です。 さらに、多くの現代のRL設定では、エージェントのアクションが環境に影響を与えるかどうかは最初から不明であり、どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。 本研究では、このジレンマを完全に回避し、RLフレームワークに選択メカニズムを組み込むことを提案する。 特定の問題構造を仮定するのではなく,確率比(LR)テストに基づく確率的構造推定手法を用いて,学習アルゴリズムのより深い選択を行う。 我々は、筋電図のポリシーが最適である十分な条件を導出し、この条件に対するLRテストを示し、我々の枠組みの後悔に縛られることを導出する。 フレームワークが必要な実世界のシナリオの例を提供し、アプローチを検証するための広範なシミュレーションを提供します。

Reinforcement learning (RL) algorithms aim to learn optimal decisions in unknown environments through experience of taking actions and observing the rewards gained. In some cases, the environment is not influenced by the actions of the RL agent, in which case the problem can be modeled as a contextual multi-armed bandit and lightweight \emph{myopic} algorithms can be employed. On the other hand, when the RL agent's actions affect the environment, the problem must be modeled as a Markov decision process and more complex RL algorithms are required which take the future effects of actions into account. Moreover, in many modern RL settings, it is unknown from the outset whether or not the agent's actions will impact the environment and it is often not possible to determine which RL algorithm is most fitting. In this work, we propose to avoid this dilemma entirely and incorporate a choice mechanism into our RL framework. Rather than assuming a specific problem structure, we use a probabilistic structure estimation procedure based on a likelihood-ratio (LR) test to make a more informed selection of learning algorithm. We derive a sufficient condition under which myopic policies are optimal, present an LR test for this condition, and derive a bound on the regret of our framework. We provide examples of real-world scenarios where our framework is needed and provide extensive simulations to validate our approach.
翻訳日:2021-03-16 22:16:12 公開日:2021-03-15
# (参考訳) 一定ランダム摂動による逆ロバスト性 : 最小効果の精度

Constant Random Perturbations Provide Adversarial Robustness with Minimal Effect on Accuracy ( http://arxiv.org/abs/2103.08265v1 )

ライセンス: CC BY 4.0
Bronya Roni Chernyak, Bhiksha Raj, Tamir Hazan, Joseph Keshet(参考訳) 本稿では,標準精度の損失を最小限に抑えながら,ニューラルネットワークモデルの敵対的ロバスト性を改善するための攻撃非依存(非敵訓練)手法を提案する。 各トレーニング例の周辺に,その地区内のすべての入力に対してラベルが一定に維持されるような地区を作成することを提案する。 同様の原則に従う以前の作業とは異なり、トレーニングセットを各トレーニング例に対する複数の摂動で拡張し、近隣から引き出すことにより、このアイデアを適用します。 これらの摂動はモデル独立であり、トレーニングプロセス全体を通して一定である。 我々は,MNIST,SVHN,CIFAR-10を異なる攻撃条件下で実験的に解析した。 提案手法は,バニラ対人訓練と比較してロバスト性を高めつつ,他の防御に対する標準精度を向上させることが示唆された。

This paper proposes an attack-independent (non-adversarial training) technique for improving adversarial robustness of neural network models, with minimal loss of standard accuracy. We suggest creating a neighborhood around each training example, such that the label is kept constant for all inputs within that neighborhood. Unlike previous work that follows a similar principle, we apply this idea by extending the training set with multiple perturbations for each training example, drawn from within the neighborhood. These perturbations are model independent, and remain constant throughout the entire training process. We analyzed our method empirically on MNIST, SVHN, and CIFAR-10, under different attacks and conditions. Results suggest that the proposed approach improves standard accuracy over other defenses while having increased robustness compared to vanilla adversarial training.
翻訳日:2021-03-16 21:03:14 公開日:2021-03-15
# (参考訳) GRIHA: スマートフォンで撮影した画像から2次元の建物レイアウトを合成する

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone ( http://arxiv.org/abs/2103.08297v1 )

ライセンス: CC BY 4.0
Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay, Gaurav Bhatnagar(参考訳) 屋内シーンを再構築し、3Dまたは2Dのレイアウト/フロアプランを生成することは、広く知られている問題です。 最近の文献では、かなり多くのアルゴリズムが提案されている。 しかし、ほとんどの既存の方法は、RGB-D画像を使用するため、深度カメラを必要とするか、またはパノラマ写真に依存し、室内に閉塞がほとんどないことを前提としています。 本研究では,シンプルな携帯電話カメラを用いたRGB画像を用いたレイアウト生成フレームワークであるGRIHA(Generating Room Insideor of a House using ARCore)を提案する。 レイアウト生成に必要な3次元変換を評価するために,同時ローカライゼーションとマッピング(slam)を利用する。 SLAM技術は、GoogleのARCoreのような最近のモバイルライブラリに組み込まれている。 したがって,提案手法は迅速かつ効率的である。 これは、特殊な深度ハードウェアや閉塞のないパノラマ画像に頼るのではなく、従来の写真を数枚撮影するだけでレイアウトを生成する自由を与えます。 我々はGRIHAを既存の手法と比較し,優れた結果を得た。 また、システムは複数のハードウェアプラットフォーム上でテストされ、依存関係と効率をテストする。

Reconstructing an indoor scene and generating a layout/floor plan in 3D or 2D is a widely known problem. Quite a few algorithms have been proposed in the literature recently. However, most existing methods either use RGB-D images, thus requiring a depth camera, or depending on panoramic photos, assuming that there is little to no occlusion in the rooms. In this work, we proposed GRIHA (Generating Room Interior of a House using ARCore), a framework for generating a layout using an RGB image captured using a simple mobile phone camera. We take advantage of Simultaneous Localization and Mapping (SLAM) to assess the 3D transformations required for layout generation. SLAM technology is built-in in recent mobile libraries such as ARCore by Google. Hence, the proposed method is fast and efficient. It gives the user freedom to generate layout by merely taking a few conventional photos, rather than relying on specialized depth hardware or occlusion-free panoramic images. We have compared GRIHA with other existing methods and obtained superior results. Also, the system is tested on multiple hardware platforms to test the dependency and efficiency.
翻訳日:2021-03-16 20:45:27 公開日:2021-03-15
# (参考訳) フロアプラン解釈のための知識駆動記述合成

Knowledge driven Description Synthesis for Floor Plan Interpretation ( http://arxiv.org/abs/2103.08298v1 )

ライセンス: CC BY 4.0
Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar(参考訳) 画像キャプションはAIの分野で広く知られている問題である。 フロアプランイメージからのキャプション生成は、屋内経路計画、不動産、建築ソリューションに応用されています。 フロアプラン画像からキャプションや半構造化記述を生成するためのいくつかの手法が文献で研究されている。 キャプションだけが細かな詳細を捉えるには不十分であるため、研究者は画像から記述段落も提案した。 しかしながら、これらの記述は厳密な構造を持ち、柔軟性に欠けており、リアルタイムシナリオで使用するのが困難である。 本稿では,画像キュー(DSIC)とトランスフォーマーベース記述生成(TBDG)の2つのモデルについて,フロアプラン画像からテキスト生成への変換を行い,既存の手法のギャップを埋める。 これら2つのモデルは、視覚特徴抽出とテキスト生成に現代のディープニューラルネットワークを利用する。 両方のモデルの違いは、フロアプランの画像から入力する方法にあります。 DSICモデルは深層ニューラルネットワークによって自動的に抽出される視覚的特徴のみを取り、TBDGモデルは入力フロアプラン画像から抽出されたテキストキャプションを段落で学習する。 TBDGで生成された特定のキーワードとパラグラフで理解することで、一般的なフロアプランイメージでより堅牢になります。 大規模データセット上で実験を行い,提案モデルの優越性を示すための最先端技術と比較した。

Image captioning is a widely known problem in the area of AI. Caption generation from floor plan images has applications in indoor path planning, real estate, and providing architectural solutions. Several methods have been explored in literature for generating captions or semi-structured descriptions from floor plan images. Since only the caption is insufficient to capture fine-grained details, researchers also proposed descriptive paragraphs from images. However, these descriptions have a rigid structure and lack flexibility, making it difficult to use them in real-time scenarios. This paper offers two models, Description Synthesis from Image Cue (DSIC) and Transformer Based Description Generation (TBDG), for the floor plan image to text generation to fill the gaps in existing methods. These two models take advantage of modern deep neural networks for visual feature extraction and text generation. The difference between both models is in the way they take input from the floor plan image. The DSIC model takes only visual features automatically extracted by a deep neural network, while the TBDG model learns textual captions extracted from input floor plan images with paragraphs. The specific keywords generated in TBDG and understanding them with paragraphs make it more robust in a general floor plan image. Experiments were carried out on a large-scale publicly available dataset and compared with state-of-the-art techniques to show the proposed model's superiority.
翻訳日:2021-03-16 20:23:40 公開日:2021-03-15
# (参考訳) 専門家リスクアナリストによる属性アライメントによる信用リスク評価の解説

Explaining Credit Risk Scoring through Feature Contribution Alignment with Expert Risk Analysts ( http://arxiv.org/abs/2103.08359v1 )

ライセンス: CC BY 4.0
Ayoub El Qadi, Natalia Diaz-Rodriguez, Maria Trocan and Thomas Frossard(参考訳) 金融機関にとって信用評価活動は不可欠であり、グローバル経済の成長を可能にします。 企業のデフォルト確率を推定する堅牢で堅牢で正確なモデルを構築することは、信用保険会社にとって必須であり、さらに貿易金融のギャップを埋めることになる。 リスクアセスメントプロセスを自動化することで、信用リスクの専門家は業務負荷を減らし、重要かつ複雑なケースに集中し、アプリケーションを処理する時間を短縮することでローン承認プロセスを改善することができます。 人工知能の最近の発展は、新しい強力な機会を提供しています。 しかし、ほとんどのai技術は説明可能性の欠如によりブラックボックスモデルとして分類されている。 ユーザーと規制当局の両方にとって、そのような技術を大規模に展開するためには、モデルロジックを理解することが正確で倫理的な意思決定を付与する必要があります。 本研究では,企業のクレジットスコアリングに注目し,さまざまな機械学習モデルをベンチマークする。 目標は、企業が一定の期間内に金融問題を経験しているかどうかを予測するモデルを構築することです。 我々は,eXplainable Artificial Techniquesを用いたブラックボックス問題,特にSHapley Additive exPlanationsを用いたポストホックな説明に対処する。 我々は、信用リスクエキスパートとモデル機能帰属説明の相違点を強調する専門家指向の機能関連スコアを提供することにより、より人間指向の意思決定に向けた収束をより定量化する。

Credit assessments activities are essential for financial institutions and allow the global economy to grow. Building robust, solid and accurate models that estimate the probability of a default of a company is mandatory for credit insurance companies, moreover when it comes to bridging the trade finance gap. Automating the risk assessment process will allow credit risk experts to reduce their workload and focus on the critical and complex cases, as well as to improve the loan approval process by reducing the time to process the application. The recent developments in Artificial Intelligence are offering new powerful opportunities. However, most AI techniques are labelled as blackbox models due to their lack of explainability. For both users and regulators, in order to deploy such technologies at scale, being able to understand the model logic is a must to grant accurate and ethical decision making. In this study, we focus on companies credit scoring and we benchmark different machine learning models. The aim is to build a model to predict whether a company will experience financial problems in a given time horizon. We address the black box problem using eXplainable Artificial Techniques in particular, post-hoc explanations using SHapley Additive exPlanations. We bring light by providing an expert-aligned feature relevance score highlighting the disagreement between a credit risk expert and a model feature attribution explanation in order to better quantify the convergence towards a better human-aligned decision making.
翻訳日:2021-03-16 20:05:40 公開日:2021-03-15
# (参考訳) コミュニケーションの観点からの同時音声翻訳の評価に向けて

Towards the evaluation of simultaneous speech translation from a communicative perspective ( http://arxiv.org/abs/2103.08364v1 )

ライセンス: CC BY 4.0
claudio Fantinuoli, Bianca Prandi(参考訳) 近年, 音声認識や機械翻訳の分野では, 人工知能の進歩により, 機械語から音声への翻訳や音声への翻訳が勢いを増している。 そのようなアプリケーションの品質は、主にリリースの改善または評価キャンペーンの文脈で評価することを目標として、BLEUなどの自動メトリクスで一般的にテストされます。 しかし、同様のコミュニケーションタスクにおける人間のパフォーマンスとどのように比較されるか、または最終ユーザーによってそのようなシステムのパフォーマンスがどのように認識されるかについてはほとんど知られていません。 本稿では,同時翻訳エンジンの性能評価を専門のインタプリタの性能と比較し,その品質評価を目的とした実験結果について述べる。 そこで我々は,人間インタプリタの評価のために開発されたフレームワークを選択し,それを用いて人的・機械的なパフォーマンスを手動で評価する。 私たちのサンプルでは、機械が情報性の観点からわずかによく機能する一方で、人間の通訳者のためのより良いパフォーマンスを発見しました。 研究の限界と選択されたフレームワークの拡張の可能性について論じる。 固有の制限にもかかわらず、このフレームワークの使用は、同時音声翻訳を評価するためのユーザ中心でコミュニケーション指向の方法論への第一歩である。

In recent years, machine speech-to-speech and speech-to-text translation has gained momentum thanks to advances in artificial intelligence, especially in the domains of speech recognition and machine translation. The quality of such applications is commonly tested with automatic metrics, such as BLEU, primarily with the goal of assessing improvements of releases or in the context of evaluation campaigns. However, little is known about how such systems compare to human performances in similar communicative tasks or how the performance of such systems is perceived by final users. In this paper, we present the results of an experiment aimed at evaluating the quality of a simultaneous speech translation engine by comparing it to the performance of professional interpreters. To do so, we select a framework developed for the assessment of human interpreters and use it to perform a manual evaluation on both human and machine performances. In our sample, we found better performance for the human interpreters in terms of intelligibility, while the machine performs slightly better in terms of informativeness. The limitations of the study and the possible enhancements of the chosen framework are discussed. Despite its intrinsic limitations, the use of this framework represents a first step towards a user-centric and communication-oriented methodology for evaluating simultaneous speech translation.
翻訳日:2021-03-16 19:45:40 公開日:2021-03-15
# (参考訳) 明示的公平性を考慮したフレキシブルFOND計画

Flexible FOND Planning with Explicit Fairness Assumptions ( http://arxiv.org/abs/2103.08391v1 )

ライセンス: CC BY 4.0
Ivan D. Rodriguez and Blai Bonet and Sebastian Sardina and Hector Geffner(参考訳) 完全可観測型非決定論的計画(fond)において、明確に与えられた公平性仮定の一般クラスの下で命題的目標条件に達する問題を考える。 公平性の仮定は A/B の形であり、状態 s における A からの作用の無限発生と B からの作用の有限発生を含む状態の軌跡は、その可能な結果のそれぞれが続く s における作用の無限発生も含まなければならない。 この条件に違反する無限軌跡は不公平と見なされ、解は全ての公正軌跡が目標状態に達するための方針である。 一般化計画のために最近導入された計画モデルであるQNP計画とともに、強大かつ強大なFOND計画が、この形態の公平性を仮定したFOND計画の特別な事例であることを示す。 FOND+プランニングは、この形式のプランニングと呼ばれ、FONDプランニングの構文と、フェアネス制約を表現するLTLの汎用性を組み合わせたものである。 セットプログラムに回答するためにFOND+計画を減らして新しいプランナを実装し、FONDおよびQNP計画者、およびLTL合成ツールと比較してプランナの性能を評価します。

We consider the problem of reaching a propositional goal condition in fully-observable non-deterministic (FOND) planning under a general class of fairness assumptions that are given explicitly. The fairness assumptions are of the form A/B and say that state trajectories that contain infinite occurrences of an action a from A in a state s and finite occurrence of actions from B, must also contain infinite occurrences of action a in s followed by each one of its possible outcomes. The infinite trajectories that violate this condition are deemed as unfair, and the solutions are policies for which all the fair trajectories reach a goal state. We show that strong and strong-cyclic FOND planning, as well as QNP planning, a planning model introduced recently for generalized planning, are all special cases of FOND planning with fairness assumptions of this form which can also be combined. FOND+ planning, as this form of planning is called, combines the syntax of FOND planning with some of the versatility of LTL for expressing fairness constraints. A new planner is implemented by reducing FOND+ planning to answer set programs, and the performance of the planner is evaluated in comparison with FOND and QNP planners, and LTL synthesis tools.
翻訳日:2021-03-16 19:27:37 公開日:2021-03-15
# (参考訳) ラジアル基底関数ネットワークを用いたオンライン学習

Online Learning with Radial Basis Function Networks ( http://arxiv.org/abs/2103.08414v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro, Nick Firoozye and Paolo Barucca(参考訳) 金融時系列予測を用いた特徴選択,非線形モデリング,オンライン学習の利点について検討する。 オンライン学習の逐次学習と連続学習について考察する。 毎日のサンプル・クロスアセスト・フューチャーにおける長期予測と、少額のサンプル・キャッシュ・通貨対における短期予測を含む実証実験により、オンライン学習技術はオフライン学習よりも優れていることがわかった。 また、私たちが使用するモデルのサブセットでは、オンラインリッジ回帰に合わせて順次学習し、オンラインラジアルベース関数ネットワークを使用して、最良の次のステップの予測を提供し、継続的な学習は、最高のマルチステップの予測を提供します。 予測誤差の正確な重み付きアンサンブルの両方の利点を組み合わせて、優れた予測パフォーマンスを総合的に見つけます。

We investigate the benefits of feature selection, nonlinear modelling and online learning with forecasting in financial time series. We consider the sequential and continual learning sub-genres of online learning. Through empirical experimentation, which involves long term forecasting in daily sampled cross-asset futures, and short term forecasting in minutely sampled cash currency pairs, we find that the online learning techniques outperform the offline learning ones. We also find that, in the subset of models we use, sequential learning in time with online Ridge regression, provides the best next step ahead forecasts, and continual learning with an online radial basis function network, provides the best multi-step ahead forecasts. We combine the benefits of both in a precision weighted ensemble of the forecast errors and find superior forecast performance overall.
翻訳日:2021-03-16 18:50:07 公開日:2021-03-15
# (参考訳) メタ学習のためのタスク間でデータを分散する方法?

How to distribute data across tasks for meta-learning? ( http://arxiv.org/abs/2103.08463v1 )

ライセンス: CC BY 4.0
Alexandru Cioba, Michael Bromberg, Qian Wang, Ritwik Niyogi, Georgios Batzolis, Da-shan Shiu, Alberto Bernacchia(参考訳) メタ学習モデルは、以前のタスクから得た知識を素早く新しいタスクを学習するために転送する。 トレーニングタスク毎に一定の数のデータポイントを持つベンチマークでテストされる。 この数は通常任意であり、パフォーマンスにどのように影響するかは不明である。 データのラベル付けは高価であるため、トレーニングタスク間でラベルの最適な割り当てを見つけることでコストが削減される可能性がある。 1) タスク毎のデータポイントの最適数は予算に依存するが,大きな予算に対して一意の定数値に収束し,2) モデルの補間しきい値付近に収束する。 我々は,混合線形回帰を数学的に証明し,CIFAR-FS と mini-ImageNet による非線形回帰と少数ショット画像の分類において,同じ結果が成り立つことを実証的に示す。 この結果から,データ収集の簡便かつ効率的な手順が示唆された。データの最適な割り当ては比較的小さなデータを用いて低コストで計算でき,データの収集は最適なアロケーションの知識によって最適化できる。

Meta-learning models transfer the knowledge acquired from previous tasks to quickly learn new ones. They are tested on benchmarks with a fixed number of data points per training task. This number is usually arbitrary and it is unknown how it affects the performance. Since labelling of data is expensive, finding the optimal allocation of labels across training tasks may reduce costs: given a fixed budget of labels, should we use a small number of highly labelled tasks, or many tasks with few labels each? We show that: 1) The optimal number of data points per task depends on the budget, but it converges to a unique constant value for large budgets; 2) Convergence occurs around the interpolation threshold of the model. We prove our results mathematically on mixed linear regression, and we show empirically that the same results hold for nonlinear regression and few-shot image classification on CIFAR-FS and mini-ImageNet. Our results suggest a simple and efficient procedure for data collection: the optimal allocation of data can be computed at low cost, by using relatively small data, and collection of additional data can be optimized by the knowledge of the optimal allocation.
翻訳日:2021-03-16 18:04:11 公開日:2021-03-15
# (参考訳) 画像から深度まで:エコーによる深度予測の改善

Beyond Image to Depth: Improving Depth Prediction using Echoes ( http://arxiv.org/abs/2103.08468v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma(参考訳) マルチモーダルオーディオビジュアルデータを用いた深度推定の課題に対処します。 コウモリやイルカといった動物のエコーロケーションを持つ物体の距離を推定する能力に触発された最近の手法では、エコーを深度推定に利用している。 RGB画像、バイノーラルエコー、およびシーン内のさまざまなオブジェクトの推定材料特性を利用したエンドツーエンドのディープラーニングベースのパイプラインを提案します。 異なるシーン要素に対する画像,エコー,奥行きの関係は,これらの要素の特性に大きく影響し,この情報を利用するように設計された手法は,視聴覚入力からの奥行き推定を大幅に改善する可能性がある。 本研究では,映像の深度を予測するために,音声(echoes)と視覚的モダリティを組み合わせて材料特性を明示的に組み込んだマルチモーダル融合手法を提案する。 本研究では,Replicaデータセットを用いた実験により,最新のオーディオビジュアル深度予測手法と比較し,RMSEの28%の改善が得られたことを実証的に示した。 大規模データセットにおける本手法の有効性を示すために,matterport3dにおける競合性能を報告し,エコーを用いたマルチモーダル深度予測ベンチマークとして利用することを提案する。 また,提案手法を完全アブレーション実験と定性的な結果を用いて解析する。 コードとモデルはhttps://krantiparida.github.io/projects/bimgdepth.htmlで入手できる。

We address the problem of estimating depth with multi modal audio visual data. Inspired by the ability of animals, such as bats and dolphins, to infer distance of objects with echolocation, some recent methods have utilized echoes for depth estimation. We propose an end-to-end deep learning based pipeline utilizing RGB images, binaural echoes and estimated material properties of various objects within a scene. We argue that the relation between image, echoes and depth, for different scene elements, is greatly influenced by the properties of those elements, and a method designed to leverage this information can lead to significantly improve depth estimation from audio visual inputs. We propose a novel multi modal fusion technique, which incorporates the material properties explicitly while combining audio (echoes) and visual modalities to predict the scene depth. We show empirically, with experiments on Replica dataset, that the proposed method obtains 28% improvement in RMSE compared to the state-of-the-art audio-visual depth prediction method. To demonstrate the effectiveness of our method on larger dataset, we report competitive performance on Matterport3D, proposing to use it as a multimodal depth prediction benchmark with echoes for the first time. We also analyse the proposed method with exhaustive ablation experiments and qualitative results. The code and models are available at https://krantiparida.github.io/projects/bimgdepth.html
翻訳日:2021-03-16 17:42:28 公開日:2021-03-15
# (参考訳) マルチビューサブワード正規化

Multi-view Subword Regularization ( http://arxiv.org/abs/2103.08490v1 )

ライセンス: CC BY 4.0
Xinyi Wang, Sebastian Ruder, Graham Neubig(参考訳) 多言語事前訓練された表現は、一般に、共有多言語語彙を作成するためにサブワードセグメンテーションアルゴリズムに依存する。 しかし、標準的なヒューリスティックアルゴリズムは、特に限られた量のデータを持つ言語において、しばしば準最適セグメンテーションをもたらす。 本稿では,この問題を緩和するための2つの大きなステップについて述べる。 まず,事前学習された多言語表現の微調整中に既存のサブワード正規化手法(kudo,2018,provilkov,2020)を適用することで,言語間転送の有効性が向上することを示す。 第2に,様々な入力セグメンテーションを最大限に活用するために,標準でトークン化された入力と確率的セグメンテーションとの一貫性を実現するマルチビューサブワード正則化(mvr)を提案する。 XTREMEマルチ言語ベンチマーク(Hu et al., 2020)の結果、MVRは標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことが示された。

Multilingual pretrained representations generally rely on subword segmentation algorithms to create a shared multilingual vocabulary. However, standard heuristic algorithms often lead to sub-optimal segmentation, especially for languages with limited amounts of data. In this paper, we take two major steps towards alleviating this problem. First, we demonstrate empirically that applying existing subword regularization methods(Kudo, 2018; Provilkov et al., 2020) during fine-tuning of pre-trained multilingual representations improves the effectiveness of cross-lingual transfer. Second, to take full advantage of different possible input segmentations, we propose Multi-view Subword Regularization (MVR), a method that enforces the consistency between predictions of using inputs tokenized by the standard and probabilistic segmentations. Results on the XTREME multilingual benchmark(Hu et al., 2020) show that MVR brings consistent improvements of up to 2.5 points over using standard segmentation algorithms.
翻訳日:2021-03-16 17:15:41 公開日:2021-03-15
# (参考訳) diaret:統合勾配を有する糖尿病網膜症の評価のためのブラウザベースのアプリケーション

DiaRet: A browser-based application for the grading of Diabetic Retinopathy with Integrated Gradients ( http://arxiv.org/abs/2103.08501v1 )

ライセンス: CC BY 4.0
Shaswat Patel, Maithili Lohakare, Samyak Prajapati, Shaanya Singh, Nancy Patel(参考訳) 糖尿病は、タイプ1の自己免疫β細胞破壊の欠陥に起因する代謝障害であり、タイプ2のインスリン作用に対する末梢抵抗性または、最も一般的には、両方。 長期糖尿病の患者は、しばしば糖尿病網膜症(DR)にかかり、人間の目の網膜の変化を引き起こし、極端なケースで視力の喪失につながる可能性があります。 本研究の目的は2つある: (a) 劣化した網膜眼底画像のグレードに訓練されたディープラーニングモデルを作成し、 (b) 眼底画像の重要な特徴を強調して診断手順を支援するブラウザベースのアプリケーションを作成することである。 深層学習はコンピュータ支援型DR診断で成功し、早期発見と盲目の予防に繋がった。 本研究では、光伝送障害、画像ブレイリングおよび網膜人工物の挿入の複数の異なる組み合わせに基づいて画像を劣化させることにより、歪みに悩まされた画像をエミュレートした。 これらの劣化画像は、複数のディープラーニングに基づく畳み込みニューラルネットワークのトレーニングに使用された。 InceptionV3、ResNet-50、InceptionResNetV2を複数のデータセットでトレーニングしました。 これらのモデルは、DRの重症度レベルで基礎画像の分類に使用された。 モデルはさらに、各クラスに関連するモデル予測と確率を示すブラウザベースのアプリケーションの作成に使用された。 また、入力画像に重畳された統合グラデーション(IG)アトリビューションマスクも表示されます。 ブラウザベースのアプリケーションの作成は、モデルによる教育を受けた予測に基づいて、眼科医による眼底画像の重要な特徴を強調することで、診断手順を支援するだろう。

Diabetes is a metabolic disorder that results from defects in autoimmune beta-cell destruction in Type 1, peripheral resistance to insulin action in Type 2 or, most commonly, both. Patients with long-standing diabetes often fall prey to Diabetic Retinopathy (DR) resulting in changes in the retina of the human eye, which may lead to loss of vision in extreme cases. The aim of this study is two-fold: (a) create deep learning models that were trained to grade degraded retinal fundus images and (b) to create a browser-based application that will aid in diagnostic procedures by highlighting the key features of the fundus image. Deep learning has proven to be a success for computer-aided DR diagnosis resulting in early-detection and prevention of blindness. In this research work, we have emulated the images plagued by distortions by degrading the images based on multiple different combinations of Light Transmission Disturbance, Image Blurring and insertion of Retinal Artifacts. These degraded images were used for the training of multiple Deep Learning based Convolutional Neural Networks. We have trained InceptionV3, ResNet-50 and InceptionResNetV2 on multiple datasets. These models were used to classify the fundus images in terms of DR severity level. The models were further used in the creation of a browser-based application, which demonstrates the models prediction and the probability associated with each class. It will also show the Integration Gradient (IG) Attribution Mask superimposed onto the input image. The creation of the browser-based application would aid in the diagnostic procedures performed by ophthalmologists by highlighting the key features of the fundus image based on an educated prediction made by the model.
翻訳日:2021-03-16 16:46:20 公開日:2021-03-15
# (参考訳) siamese network features for endoscopy image and video localization

Siamese Network Features for Endoscopy Image and Video Localization ( http://arxiv.org/abs/2103.08504v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Seyed Shahim Vedaei, Khan A. Wahid and Paul Babyn(参考訳) 従来型内視鏡(CE)とワイヤレスカプセル内視鏡(WCE)は消化管疾患(GI)の診断ツールとして知られている。 局所化フレームは異常部位に関する貴重な情報を提供し、臨床医がより適切な治療計画を決定するのに役立つ。 異常を検出する自動アルゴリズムは多数存在する。 しかし、既存の作品の多くはローカリゼーションの問題に対処している。 本研究では,メタラーニングと深層学習を組み合わせることで,内視鏡画像とビデオの両方をローカライズする。 ヒトの消化管の10の異なる解剖学的位置からデータセットを収集する。 メタラーニングセクションでは、78 CEと27 WCEの注釈付きフレームに修正されたシームズニューラルネットワーク(SNN)を用いて、1つの画像/フレームの位置を予測した。 次に、フレーム列のローカライズのために、双方向長短期メモリを用いた後処理部を提案する。 ここでは,訓練したsnから得られた特徴ベクトル,距離,予測位置を用いた。 後処理セクションは、CEおよびWCEビデオの1,028秒と365秒でホールドアウトバリデーション(50%)を使用して訓練およびテストされ、それぞれ86.3%と83.0%のF1スコアを達成した。 また,9名の消化器科医による主観的評価を行った。 以上の結果から,コンピュータ支援手法は胃腸内科医の局在評価を上回りうることが示された。 提案手法は,手作業による支援ベクトルマシン,畳み込みニューラルネットワーク,転送学習に基づく手法など,様々な手法と比較し,より良い結果を示した。 従って、それはビデオ要約および異常な検出で助けることができるフレームのローカライゼーションで使用することができます。

Conventional Endoscopy (CE) and Wireless Capsule Endoscopy (WCE) are known tools for diagnosing gastrointestinal (GI) tract disorders. Localizing frames provide valuable information about the anomaly location and also can help clinicians determine a more appropriate treatment plan. There are many automated algorithms to detect the anomaly. However, very few of the existing works address the issue of localization. In this study, we present a combination of meta-learning and deep learning for localizing both endoscopy images and video. A dataset is collected from 10 different anatomical positions of human GI tract. In the meta-learning section, the system was trained using 78 CE and 27 WCE annotated frames with a modified Siamese Neural Network (SNN) to predict the location of one single image/frame. Then, a postprocessing section using bidirectional long short-term memory is proposed for localizing a sequence of frames. Here, we have employed feature vector, distance and predicted location obtained from a trained SNN. The postprocessing section is trained and tested on 1,028 and 365 seconds of CE and WCE videos using hold-out validation (50%), and achieved F1-score of 86.3% and 83.0%, respectively. In addition, we performed subjective evaluation using nine gastroenterologists. The results show that the computer-aided methods can outperform gastroenterologists assessment of localization. The proposed method is compared with various approaches, such as support vector machine with hand-crafted features, convolutional neural network and the transfer learning-based methods, and showed better results. Therefore, it can be used in frame localization, which can help in video summarization and anomaly detection.
翻訳日:2021-03-16 16:38:19 公開日:2021-03-15
# (参考訳) 不均衡データセットにおける最適化深部1クラス分類を用いたGI内視鏡画像のマルチクラス異常検出

Multiclass Anomaly Detection in GI Endoscopic Images using Optimized Deep One-class Classification in an Imbalanced Dataset ( http://arxiv.org/abs/2103.08508v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Seyed Shahim Vedaei, Khan A. Wahid and Paul Babyn(参考訳) ワイヤレスカプセル内視鏡(Wireless Capsule Endoscopy)は、医師が非侵襲的に消化管(GI)を検査するのに役立つ。 KID2やKvasirのような利用可能なデータセットの多くは、効果的な人工知能(AI)システムのトレーニングを難しくする不均衡な問題に悩まされている。 さらに、クラス数の増加は問題を悪化させる。 本研究では,一類分類器のアンサンブルを用いて異常を検出する。 本手法は,単一クラスからのサンプルのみを用いた単一モデル学習と,多クラス分類のための全モデルの統合に着目した。 正常1,778例,炎症227例,血管疾患303例,ポリープ画像44例がKID2データセットから得られた。 最初のステップでは、前処理された画像からオートエンコーダアーキテクチャに基づいて深い特徴を抽出する。 次に、これらの機能は、Synthetic Minority Over-Sampling Techniqueを使ってオーバーサンプリングされ、順序付けポイントを使用してクラスタリング構造を識別する。 1クラスの分類モデルを作成するために、サポートベクトルデータ記述は、F1スコアを改善するためのクラスタリングパラメータのチューニングにも使用されるAnt Colony Optimizationの助けを借りて、各クラスタでトレーニングされています。 このプロセスは、マルチクラス分類に使用される最終モデルの各クラスとアンサンブルに適用されます。 アルゴリズム全体が5回実行され、F1スコア96.3 +- 0.2%、マクロ平均85.0 +- 0.4%の異常検出とマルチクラス分類が得られた。 その結果、GoogleNet、AlexNet、Resnet50、VGG16などのアルゴリズムと比較し、提案手法がGI画像におけるマルチクラス異常検出の競合選択であることを示した。

Wireless Capsule Endoscopy helps physicians examine the gastrointestinal (GI) tract noninvasively, with the cost of generating many images. Many available datasets, such as KID2 and Kvasir, suffer from imbalance issue which make it difficult to train an effective artificial intelligence (AI) system. Moreover, increasing number of classes makes the problem worse. In this study, an ensemble of one-class classifiers is used for detecting anomaly. This method focuses on learning single models using samples from only one class, and ensemble all models for multiclass classification. A total of 1,778 normal, 227 inflammation, 303 vascular diseases, and 44 polyp images have been used from the KID2 dataset. In the first step, deep features are extracted based on an autoencoder architecture from the preprocessed images. Then, these features are oversampled using Synthetic Minority Over-sampling Technique and clustered using Ordering Points to Identify the Clustering Structure. To create one-class classification model, the Support Vector Data Descriptions are trained on each cluster with the help of Ant Colony Optimization, which is also used for tuning clustering parameters for improving F1-score. This process is applied on each classes and ensemble of final models used for multiclass classification. The entire algorithm ran 5 times and obtained F1-score 96.3 +- 0.2% and macro-average F1-score 85.0 +- 0.4%, for anomaly detection and multiclass classification, respectively. The results are compared with GoogleNet, AlexNet, Resnet50, VGG16 and other published algorithms, and demonstrate that the proposed method is a competitive choice for multiclass class anomaly detection in GI images.
翻訳日:2021-03-16 16:19:30 公開日:2021-03-15
# (参考訳) 磁気共鳴イメージングにおけるモーションアーティファクト検出に適したK空間サンプリング方式は?

Which K-Space Sampling Schemes is good for Motion Artifact Detection in Magnetic Resonance Imaging? ( http://arxiv.org/abs/2103.08516v1 )

ライセンス: CC BY 4.0
Mohammad Reza Mohebbian, Ekta Walia, Khan A. Wahid(参考訳) モーションアーティファクトは、磁気共鳴イメージング(MRI)試験で一般的な発生です。 獲得中の動きはワークフローの効率に大きな影響を与え、繰り返しのシーケンスを必要とすることが多い。 さらに、運動アーチファクトは技術者の注意を逸らす可能性があり、放射線科医による読解時にのみ明らかとなり、診断の質に影響を及ぼす。 自動動作検出・除去のためのコンピュータ支援ツールの設計は診断を改善することができるが,動作特性の深い理解が必要である。 MRIの運動アーティファクトは複雑な性質を持ち、k空間サンプリングスキームに直接関係している。 本研究では, カルテシアン, 均一スパイラル, ラジアルを含む3種類のk空間サンプラーが運動誘起画像歪みに及ぼす影響について検討する。 この点で、T1およびT2強調MRI画像に変位および回転の異なる軌道を持つ様々な合成運動が適用され、畳み込みニューラルネットワークが運動分類の難しさを示すように訓練される。 その結果、渦状k空間サンプリング法は、ラジアルk空間サンプリング画像に比べて画像空間における運動アーティファクトの効果が少なく、ラジアルk空間サンプリング画像はデカルト画像よりも頑健であることがわかった。 一方、カルテシアン検体は、動きをよりよく反映できるため、深層学習による動き検出の分野では最高である。

Motion artifacts are a common occurrence in the Magnetic Resonance Imaging (MRI) exam. Motion during acquisition has a profound impact on workflow efficiency, often requiring a repeat of sequences. Furthermore, motion artifacts may escape notice by technologists, only to be revealed at the time of reading by the radiologists, affecting their diagnostic quality. Designing a computer-aided tool for automatic motion detection and elimination can improve the diagnosis, however, it needs a deep understanding of motion characteristics. Motion artifacts in MRI have a complex nature and it is directly related to the k-space sampling scheme. In this study we investigate the effect of three conventional k-space samplers, including Cartesian, Uniform Spiral and Radial on motion induced image distortion. In this regard, various synthetic motions with different trajectories of displacement and rotation are applied to T1 and T2-weighted MRI images, and a convolutional neural network is trained to show the difficulty of motion classification. The results show that the spiral k-space sampling method get less effect of motion artifact in image space as compared to radial k-space sampled images, and radial k-space sampled images are more robust than Cartesian ones. Cartesian samplers, on the other hand, are the best in terms of deep learning motion detection because they can better reflect motion.
翻訳日:2021-03-16 16:03:25 公開日:2021-03-15
# (参考訳) DHASP:区別可能な補聴器音声処理

DHASP: Differentiable Hearing Aid Speech Processing ( http://arxiv.org/abs/2103.08569v1 )

ライセンス: CC BY 4.0
Zehai Tu, Ning Ma, Jon Barker(参考訳) 補聴器は聴覚障害者の音声明瞭度を向上させることが期待されている。 聴き手の聴力に調整された適切な増幅具は、良好な演奏には不可欠である。 ほとんどの規範的なフィッティングの開発は、通常高価で時間を要する主観的な聴取実験で収集されたデータに基づいている。 本稿では,HASPI の生理的聴覚モデルに基づく知能目標関数を用いて,適応度を自動的に最適化する補聴器音声処理フレームワークを導入することで,最適な適合度を求めるための代替手法を提案する。 このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。 最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。

Hearing aids are expected to improve speech intelligibility for listeners with hearing impairment. An appropriate amplification fitting tuned for the listener's hearing disability is critical for good performance. The developments of most prescriptive fittings are based on data collected in subjective listening experiments, which are usually expensive and time-consuming. In this paper, we explore an alternative approach to finding the optimal fitting by introducing a hearing aid speech processing framework, in which the fitting is optimised in an automated way using an intelligibility objective function based on the HASPI physiological auditory model. The framework is fully differentiable, thus can employ the back-propagation algorithm for efficient, data-driven optimisation. Our initial objective experiments show promising results for noise-free speech amplification, where the automatically optimised processors outperform one of the well recognised hearing aid prescriptions.
翻訳日:2021-03-16 15:57:38 公開日:2021-03-15
# (参考訳) RoRD:ローテーション-ロバストディスクリプタとローカル機能マッチングのためのオーソグラフィビュー

RoRD: Rotation-Robust Descriptors and Orthographic Views for Local Feature Matching ( http://arxiv.org/abs/2103.08573v1 )

ライセンス: CC BY 4.0
Udit Singh Parihar, Aniket Gujarathi, Kinal Mehta, Satyajit Tourani, Sourav Garg, Michael Milford and K. Madhava Krishna(参考訳) 典型的なコンピュータビジョンパイプラインにおけるローカル検出器とディスクリプタの使用は、視点や外観の変化が極端に変化するまでうまく機能する。 この領域における過去の研究は、一般的にこの課題に対する2つのアプローチの1つに焦点を当てている: 極端な視点変化下での機能マッチングに適した空間への射影の使用と、本質的に視点変化に頑健な特徴の学習である。 本論文では,データ拡張と直交的視点投影による不変記述子の学習を組み合わせた新しい枠組みを提案する。 本稿では,回転ロバストな局所記述子を提案し,回転ホモグラフに基づくトレーニングデータ拡張を通じて学習し,バニラ特徴対応と回転ロバスト特徴を併用する対応アンサンブル手法を提案する。 本研究領域のベンチマークデータセットと独自のデータセットのコントリビューションを用いて,ポーズ推定や視覚的位置認識などの重要課題に対する提案手法の有効性を評価した。 本システムは,対向する視点において高い位置認識精度を実現し,極端な視点変化においても実用レベルのパフォーマンスを実現するなど,様々なベースラインや最先端技術に勝る。

The use of local detectors and descriptors in typical computer vision pipelines work well until variations in viewpoint and appearance change become extreme. Past research in this area has typically focused on one of two approaches to this challenge: the use of projections into spaces more suitable for feature matching under extreme viewpoint changes, and attempting to learn features that are inherently more robust to viewpoint change. In this paper, we present a novel framework that combines learning of invariant descriptors through data augmentation and orthographic viewpoint projection. We propose rotation-robust local descriptors, learnt through training data augmentation based on rotation homographies, and a correspondence ensemble technique that combines vanilla feature correspondences with those obtained through rotation-robust features. Using a range of benchmark datasets as well as contributing a new bespoke dataset for this research domain, we evaluate the effectiveness of the proposed approach on key tasks including pose estimation and visual place recognition. Our system outperforms a range of baseline and state-of-the-art techniques, including enabling higher levels of place recognition precision across opposing place viewpoints and achieves practically-useful performance levels even under extreme viewpoint changes.
翻訳日:2021-03-16 15:46:47 公開日:2021-03-15
# (参考訳) ACDCチャレンジデータセットを用いた心MRIセグメンテーションの応用におけるディープラーニングモデルの解釈可能性

Interpretability of a Deep Learning Model in the Application of Cardiac MRI Segmentation with an ACDC Challenge Dataset ( http://arxiv.org/abs/2103.08590v1 )

ライセンス: CC BY 4.0
Adrianna Janik, Jonathan Dodd, Georgiana Ifrim, Kris Sankaran, Kathleen Curran(参考訳) 心臓磁気共鳴(英: Cardiac Magnetic Resonance, CMR)は、心臓疾患の評価と診断に最も効果的なツールであり、この疾患は世界有数の死因である。 人工知能を活用したソフトウェアツールは、すでに心臓状態の評価において放射線学者や心臓科医を増強しているが、透明性の欠如は問題である。 本研究は, 定性概念のスコアに基づく値と主要な性能指標を提供することにより, 分類システムを強化する説明可能性法を用いて, 左室(lv), 右室(rv), 心筋(myo)のcrdiac構造を区分する訓練を受けた深層ネットワークから, 異なる心状態を示す概念を発見できるかどうかを検討するものである。 GDPRの説明の必要性の導入により、AIシステムの説明可能性が必要です。 本研究では,MRIデータから心疾患の診断に重要な特徴を抽出するインタープリタビリティー法であるDiscovering and Testing with Concept Activation Vectors (D-TCAV)を適用した。 この方法は、病気分類における概念の重要性の定量的概念を提供する。 前報では, 心臓疾患の分類に基礎的手法を適用し, ブラックボックス深層学習分類器の予測に臨床的に有意な説明を提供する。 本研究では、ディスカバリングフェーズ(D-TCAV)を用いたTCAV拡張法を心臓MRI解析に適用する。 ベースメソッドよりもD-TCAVメソッドの利点は、それがユーザーに依存しないことです。 本研究の貢献は,D-TCAV法を心臓MRIアナリシスに応用した新しい方法である。 D-TCAVは基礎方法より臨床医に短い前処理時間を提供します。

Cardiac Magnetic Resonance (CMR) is the most effective tool for the assessment and diagnosis of a heart condition, which malfunction is the world's leading cause of death. Software tools leveraging Artificial Intelligence already enhance radiologists and cardiologists in heart condition assessment but their lack of transparency is a problem. This project investigates if it is possible to discover concepts representative for different cardiac conditions from the deep network trained to segment crdiac structures: Left Ventricle (LV), Right Ventricle (RV) and Myocardium (MYO), using explainability methods that enhances classification system by providing the score-based values of qualitative concepts, along with the key performance metrics. With introduction of a need of explanations in GDPR explainability of AI systems is necessary. This study applies Discovering and Testing with Concept Activation Vectors (D-TCAV), an interpretaibilty method to extract underlying features important for cardiac disease diagnosis from MRI data. The method provides a quantitative notion of concept importance for disease classified. In previous studies, the base method is applied to the classification of cardiac disease and provides clinically meaningful explanations for the predictions of a black-box deep learning classifier. This study applies a method extending TCAV with a Discovering phase (D-TCAV) to cardiac MRI analysis. The advantage of the D-TCAV method over the base method is that it is user-independent. The contribution of this study is a novel application of the explainability method D-TCAV for cardiac MRI anlysis. D-TCAV provides a shorter pre-processing time for clinicians than the base method.
翻訳日:2021-03-16 15:29:24 公開日:2021-03-15
# (参考訳) 医療用胸部X線データは匿名か?

Is Medical Chest X-ray Data Anonymous? ( http://arxiv.org/abs/2103.08562v1 )

ライセンス: CC BY 4.0
Kai Packh\"auser, Sebastian G\"undel, Nicolas M\"unster, Christopher Syben, Vincent Christlein, Andreas Maier(参考訳) 近年の深層学習技術の普及と可能性の高まりにより、公開医療データセットは、医療領域における診断アルゴリズムの再現可能な開発を可能にする重要な要因となりました。 医療データには機密性のある患者関連情報が含まれているため、通常、公表前の患者名などの患者識別子を削除して匿名化される。 我々の知る限りでは、よく訓練された深層学習システムが胸部X線データから患者の身元を復元できることを初めて示す。 30,805人の患者から112,120個の胸部X線画像を集めた大規模なChestX-ray14データセットを用いてこれを実証した。 私たちの検証システムは、2つの前頭胸部X線画像が0.9940のAUCと95.55%の分類精度を持つ同一人物であるかどうかを識別することができる。 提案システムは、最初のスキャンから10年以上経っても、同じ人物を明らかにすることができることを強調します。 検索手法を追求する場合,0.9748の mAP@R と0.9963の precision@1 を観測する。 この高い識別率に基づいて、潜在的な攻撃者は患者関連情報を漏洩し、さらに相互参照画像を追加してより多くの情報を得ることができる。 したがって、機密コンテンツが無許可の手に落ちたり、患者の意志に反して散布される大きなリスクがある。 特に新型コロナウイルス(COVID-19)パンデミックの間、多くの胸部X線データセットが研究を進めるために公開された。 したがって、これらのデータは深層学習に基づく再同定アルゴリズムによる潜在的な攻撃に弱い可能性がある。

With the rise and ever-increasing potential of deep learning techniques in recent years, publicly available medical data sets became a key factor to enable reproducible development of diagnostic algorithms in the medical domain. Medical data contains sensitive patient-related information and is therefore usually anonymized by removing patient identifiers, e.g., patient names before publication. To the best of our knowledge, we are the first to show that a well-trained deep learning system is able to recover the patient identity from chest X-ray data. We demonstrate this using the publicly available large-scale ChestX-ray14 dataset, a collection of 112,120 frontal-view chest X-ray images from 30,805 unique patients. Our verification system is able to identify whether two frontal chest X-ray images are from the same person with an AUC of 0.9940 and a classification accuracy of 95.55%. We further highlight that the proposed system is able to reveal the same person even ten and more years after the initial scan. When pursuing a retrieval approach, we observe an mAP@R of 0.9748 and a precision@1 of 0.9963. Based on this high identification rate, a potential attacker may leak patient-related information and additionally cross-reference images to obtain more information. Thus, there is a great risk of sensitive content falling into unauthorized hands or being disseminated against the will of the concerned patients. Especially during the COVID-19 pandemic, numerous chest X-ray datasets have been published to advance research. Therefore, such data may be vulnerable to potential attacks by deep learning-based re-identification algorithms.
翻訳日:2021-03-16 14:49:02 公開日:2021-03-15
# 教師なし単語と音素発見のための韻律付き二重調音解析器

Double Articulation Analyzer with Prosody for Unsupervised Word and Phoneme Discovery ( http://arxiv.org/abs/2103.08199v1 )

ライセンス: Link先を確認
Yasuaki Okuda, Ryo Ozaki, and Tadahiro Taniguchi(参考訳) 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。 プロセスを表す既存の計算モデルの多くは、分布的または韻律的なキューにフォーカスする傾向がある。 本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。 HDP-HLMの拡張であるProsodic HDP-HLMは、単一の統合生成モデル内の韻律的キューと分布的キューの両方を検討する。 各種データセットについて3つの実験を行い,提案手法の有効性を実証した。 その結果, 韻律DAAは韻律的手がかりをうまく利用し, 分布的手がかりのみを用いる手法よりも優れていた。 The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.

Infants acquire words and phonemes from unsegmented speech signals using segmentation cues, such as distributional, prosodic, and co-occurrence cues. Many pre-existing computational models that represent the process tend to focus on distributional or prosodic cues. This paper proposes a nonparametric Bayesian probabilistic generative model called the prosodic hierarchical Dirichlet process-hidden language model (Prosodic HDP-HLM). Prosodic HDP-HLM, an extension of HDP-HLM, considers both prosodic and distributional cues within a single integrative generative model. We conducted three experiments on different types of datasets, and demonstrate the validity of the proposed method. The results show that the Prosodic DAA successfully uses prosodic cues and outperforms a method that solely uses distributional cues. The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.
翻訳日:2021-03-16 14:31:42 公開日:2021-03-15
# 文書レベル関係抽出のための言及中心グラフニューラルネットワーク

Mention-centered Graph Neural Network for Document-level Relation Extraction ( http://arxiv.org/abs/2103.08200v1 )

ライセンス: Link先を確認
Jiaxin Pan, Min Peng, Yiyan Zhang(参考訳) ドキュメントレベルの関係抽出は、ドキュメント全体のエンティティ間の関係を見つけることを目的としている。 ドキュメント内の異なる文からエンティティの依存性を構築する方法は、依然として大きな課題です。 現在のアプローチでは、構文木を利用して文書レベルのグラフを構築するか、異なる文から推論情報を集約する。 本稿では,文間参照間の構成関係を推測し,文間依存性を構築する。 積極的なリンク戦略を採用すると、中間関係は畳み込みに言及して文書レベルのグラフ上で推論される。 さらに、NAインスタンスの一般化問題は、不完全なアノテーションによって引き起こされ、完全に接続された参照ペアによって悪化する。 この問題に対応するため、ランキング損失の改善が提案されている。 実験では、異なる言及間の接続は文書レベルの関係抽出に不可欠であり、モデルがより意味のある高レベルの構成関係を抽出できるようにする。

Document-level relation extraction aims to discover relations between entities across a whole document. How to build the dependency of entities from different sentences in a document remains to be a great challenge. Current approaches either leverage syntactic trees to construct document-level graphs or aggregate inference information from different sentences. In this paper, we build cross-sentence dependencies by inferring compositional relations between inter-sentence mentions. Adopting aggressive linking strategy, intermediate relations are reasoned on the document-level graphs by mention convolution. We further notice the generalization problem of NA instances, which is caused by incomplete annotation and worsened by fully-connected mention pairs. An improved ranking loss is proposed to attend this problem. Experiments show the connections between different mentions are crucial to document-level relation extraction, which enables the model to extract more meaningful higher-level compositional relations.
翻訳日:2021-03-16 14:31:23 公開日:2021-03-15
# 自然言語解説評価のための自動測定法の検討

A Study of Automatic Metrics for the Evaluation of Natural Language Explanations ( http://arxiv.org/abs/2103.08545v1 )

ライセンス: Link先を確認
Miruna Clinciu, Arash Eshghi, and Helen Hastie(参考訳) ロボット工学やAIにとって透明性が鍵となるため、自動生成された自然言語(NL)の説明を含む透明性を提供する方法を評価する必要がある。 本稿では,このような説明の生成と,自然言語生成(NLG)の評価分野との類似性について検討する。 具体的には,NLG評価尺度のどれが説明によく対応しているかを検討する。 本稿では,ベイズネットワークのためのnl説明のクラウドソースコーパスであるexban corpusを提案する。 人間の主観的評価とNLG自動測定とを相関関係で比較した。 BERTScore や BLEURT などの埋め込みベースの自動 NLG 評価手法は、BLEU や ROUGE などのワードオーバーラップ指標と比較して、人間の評価と高い相関性を有することが分かりました。 この研究は、説明可能なAIと透明なロボットと自律システムに影響を及ぼす。

As transparency becomes key for robotics and AI, it will be necessary to evaluate the methods through which transparency is provided, including automatically generated natural language (NL) explanations. Here, we explore parallels between the generation of such explanations and the much-studied field of evaluation of Natural Language Generation (NLG). Specifically, we investigate which of the NLG evaluation measures map well to explanations. We present the ExBAN corpus: a crowd-sourced corpus of NL explanations for Bayesian Networks. We run correlations comparing human subjective ratings with NLG automatic measures. We find that embedding-based automatic NLG evaluation methods, such as BERTScore and BLEURT, have a higher correlation with human ratings, compared to word-overlap metrics, such as BLEU and ROUGE. This work has implications for Explainable AI and transparent robotic and autonomous systems.
翻訳日:2021-03-16 14:31:10 公開日:2021-03-15
# 3次元機械学習を用いたデジタルツインの幾何変化検出

Geometric Change Detection in Digital Twins using 3D Machine Learning ( http://arxiv.org/abs/2103.08201v1 )

ライセンス: Link先を確認
Tiril Sundby, Julia Maria Graham, Adil Rasheed, Mandar Tabib, Omer San(参考訳) デジタル双子は現実世界の物理的システムと仮想表現の間のギャップを埋めることを目的としている。 スタンドアローンと記述型デジタルツインには、デジタルレプリカ内のオブジェクトの物理的表現である3D幾何学モデルが組み込まれている。 デジタルツインアプリケーションは、物理的に進化した内部パラメータを迅速に更新する必要がある。 正確な物理表現のために高品質な幾何学モデルを持つことが必須であるため、3dモデル情報を格納するためのストレージと帯域幅要件は、利用可能なストレージと帯域容量を迅速に超えることができる。 本研究では,デジタル双子の文脈における幾何学的変化検出に対する新しいアプローチを実証する。 動作検出のための動的モード分解(DMD)、オブジェクト検出のためのYOLOv5、ポーズ推定のための3D機械学習を組み合わせることでこの問題に対処する。 dmdはバックグラウンドサブトラクションに適用され、移動前景オブジェクトをリアルタイムで検出できる。 検出された動きを含むビデオフレームを抽出し、変更検出ネットワークへの入力として使用する。 オブジェクト検出アルゴリズムYOLOv5を適用して、ビデオフレーム内の検出対象の境界ボックスを抽出する。 さらに、3dポーズ推定ネットワークにおいて、各オブジェクトの回転ポーズを推定する。 一連の畳み込みニューラルネットワークは、画像と3Dモデル形状から特徴抽出を行う。 次に、ネットワークは、入力画像内のオブジェクトに対してカメラ方向の推定オイラー角度を出力する。 検出されたポーズの変化に関連するデータを保存するだけで、必要なストレージと帯域幅の要件を最小限に抑えながら、オンデマンドで3Dシーンを再現できます。

Digital twins are meant to bridge the gap between real-world physical systems and virtual representations. Both stand-alone and descriptive digital twins incorporate 3D geometric models, which are the physical representations of objects in the digital replica. Digital twin applications are required to rapidly update internal parameters with the evolution of their physical counterpart. Due to an essential need for having high-quality geometric models for accurate physical representations, the storage and bandwidth requirements for storing 3D model information can quickly exceed the available storage and bandwidth capacity. In this work, we demonstrate a novel approach to geometric change detection in the context of a digital twin. We address the issue through a combined solution of Dynamic Mode Decomposition (DMD) for motion detection, YOLOv5 for object detection, and 3D machine learning for pose estimation. DMD is applied for background subtraction, enabling detection of moving foreground objects in real-time. The video frames containing detected motion are extracted and used as input to the change detection network. The object detection algorithm YOLOv5 is applied to extract the bounding boxes of detected objects in the video frames. Furthermore, the rotational pose of each object is estimated in a 3D pose estimation network. A series of convolutional neural networks conducts feature extraction from images and 3D model shapes. Then, the network outputs the estimated Euler angles of the camera orientation with respect to the object in the input image. By only storing data associated with a detected change in pose, we minimize necessary storage and bandwidth requirements while still being able to recreate the 3D scene on demand.
翻訳日:2021-03-16 14:30:40 公開日:2021-03-15
# OCR制約GANを用いた合成手書き歴史文書の生成

Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs ( http://arxiv.org/abs/2103.08236v1 )

ライセンス: Link先を確認
Lars V\"ogtlin, Manuel Drazyk, Vinaychandran Pondenkandath, Michele Alberti, Rolf Ingold(参考訳) 我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。 大きなラベル付きデータセットを取得することは、ドキュメント画像解析(DIA)の教師付きディープラーニングメソッドを効果的に使用するための制限要因であることが多い。 合成データ生成に対する以前のアプローチでは、専門知識が必要か、あるいは合成文書の精度が低かった。 専門知識を必要とせずに高精度な変換を実現するため、2つのステップで課題に取り組みます。 まず、ユーザー指定のコンテンツと構造を持つテンプレートドキュメントを作成します。 第2に,テキストやレイアウトを維持しつつ,これらのテンプレート文書にラベルなしの歴史的画像の集合のスタイルを転送する。 事前学習環境での合成履歴文書の使用を評価し、ベースライン(ランダムに初期化および事前トレーニング)を上回っていることを見つけます。 さらに,視覚的な例を用いて,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成を実演する。

We present a framework to generate synthetic historical documents with precise ground truth using nothing more than a collection of unlabeled historical images. Obtaining large labeled datasets is often the limiting factor to effectively use supervised deep learning methods for Document Image Analysis (DIA). Prior approaches towards synthetic data generation either require expertise or result in poor accuracy in the synthetic documents. To achieve high precision transformations without requiring expertise, we tackle the problem in two steps. First, we create template documents with user-specified content and structure. Second, we transfer the style of a collection of unlabeled historical images to these template documents while preserving their text and layout. We evaluate the use of our synthetic historical documents in a pre-training setting and find that we outperform the baselines (randomly initialized and pre-trained). Additionally, with visual examples, we demonstrate a high-quality synthesis that makes it possible to generate large labeled historical document datasets with precise ground truth.
翻訳日:2021-03-16 14:30:17 公開日:2021-03-15
# 相補的事前訓練によるSAR画像の船体検出

Boosting ship detection in SAR images with complementary pretraining techniques ( http://arxiv.org/abs/2103.08251v1 )

ライセンス: Link先を確認
Wei Bao, Meiyu Huang, Yaqin Zhang, Yao Xu, Xuejiao Liu, Xueshuang Xiang(参考訳) 深層学習法は, 合成開口レーダ(SAR)画像における船体検出に大きな進歩をもたらした。 プレトレーニング技術は通常、SAR画像が不足しているため、ディープニューラルネットワークベースのSAR船検出器をサポートするために採用されている。 しかし,イメージネットの事前学習の直接利用は,画像の視点や形状が異なっており,良好な船舶検出器を得ることは困難である。 本論文では,画像ネットと地球観測との一貫性のない画像視点の問題を解決するため,大規模空中画像データセットから地球観測中の船舶の特性をsar画像に転送するosd(optical ship detector)プリトレーニング手法を提案する。 一方、光学画像とSAR画像の異なる撮像ジオメトリの問題に対処するために、光-SARマッチングタスクの共通表現学習により、光学画像からSAR画像に豊富なテクスチャー特性を転送する光-SARマッチング(OSM)プリトレーニング技術を提案します。 最後に,OSD事前訓練型SAR船検知器は,海面でのリコールが良好であるのに対して,OSM事前訓練型SAR船検出器は陸域での誤報を低減し,重み付きボックス融合による2つの検出器の予測を組み合わせることにより,検出結果をさらに改善する。 4つのSAR船体検出データセットと2つの代表的CNNベース検出ベンチマークの広範囲な実験を行い、提案した2つの検出器の有効性と相補性、および2つの検出器の組み合わせの最先端性能を示す。 提案手法は、2020年のGaofenチャレンジでSAR画像の船舶検出第6位を獲得しました。

Deep learning methods have made significant progress in ship detection in synthetic aperture radar (SAR) images. The pretraining technique is usually adopted to support deep neural networks-based SAR ship detectors due to the scarce labeled SAR images. However, directly leveraging ImageNet pretraining is hardly to obtain a good ship detector because of different imaging perspective and geometry. In this paper, to resolve the problem of inconsistent imaging perspective between ImageNet and earth observations, we propose an optical ship detector (OSD) pretraining technique, which transfers the characteristics of ships in earth observations to SAR images from a large-scale aerial image dataset. On the other hand, to handle the problem of different imaging geometry between optical and SAR images, we propose an optical-SAR matching (OSM) pretraining technique, which transfers plentiful texture features from optical images to SAR images by common representation learning on the optical-SAR matching task. Finally, observing that the OSD pretraining based SAR ship detector has a better recall on sea area while the OSM pretraining based SAR ship detector can reduce false alarms on land area, we combine the predictions of the two detectors through weighted boxes fusion to further improve detection results. Extensive experiments on four SAR ship detection datasets and two representative CNN-based detection benchmarks are conducted to show the effectiveness and complementarity of the two proposed detectors, and the state-of-the-art performance of the combination of the two detectors. The proposed method won the sixth place of ship detection in SAR images in 2020 Gaofen challenge.
翻訳日:2021-03-16 14:30:01 公開日:2021-03-15
# Sent2Matrix:2次元文のためのSerpentine ManifoldsにおけるFolding Character Sequences

Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for Two-Dimensional Sentence ( http://arxiv.org/abs/2103.08387v1 )

ライセンス: Link先を確認
Hongyang Gao, Yi Liu, Xuan Zhang, Shuiwang Ji(参考訳) 深層モデルを用いたテキスト表現手法の研究を行う。 現在のメソッド、例えば単語レベルの埋め込みや文字レベルの埋め込みスキームは、テキストをアトミックワードのシーケンスまたは文字のシーケンスとして扱う。 これらの手法は単語形態や単語境界を無視する。 これらの制限を克服するために、テキストを2次元表現に変換し、Sent2Matrix法を開発する。 この手法は単語形態と境界の両方を明示的に組み込むことができる。 新しいサーペンタインパディング法と組み合わせると、Sent2Matrix法は、1-D文字配列を2-Dサーペンタイン多様体に折り畳む興味深い視覚化につながります。 特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。 テキスト分類タスクにおける実験結果から,本手法は従来手法よりも優れていた。

We study text representation methods using deep models. Current methods, such as word-level embedding and character-level embedding schemes, treat texts as either a sequence of atomic words or a sequence of characters. These methods either ignore word morphologies or word boundaries. To overcome these limitations, we propose to convert texts into 2-D representations and develop the Sent2Matrix method. Our method allows for the explicit incorporation of both word morphologies and boundaries. When coupled with a novel serpentine padding method, our Sent2Matrix method leads to an interesting visualization in which 1-D character sequences are folded into 2-D serpentine manifolds. Notably, our method is the first attempt to represent texts in 2-D formats. Experimental results on text classification tasks shown that our method consistently outperforms prior embedding methods.
翻訳日:2021-03-16 14:29:32 公開日:2021-03-15
# ニューラルネットワークと意味付け

Neural Networks and Denotation ( http://arxiv.org/abs/2103.08315v1 )

ライセンス: Link先を確認
Eric E. Allen(参考訳) 訓練されたニューラルネットワークでニューロンがどのような意味を捉えているのかを推論するためのフレームワークを紹介します。 基礎となるデータセットの属性に関連して、観察するモデル(オブジェクトモデル)の状態を分類するために、第2モデル(オブザーバーモデルと呼ばれる)を訓練することによって意味を発見する戦略を提供する。 我々は,特定の分類問題の文脈におけるオブザーバモデルの実装と評価を行い,線形オブザーバモデルにおけるオブジェクトモデルのコンポーネントの関連性を可視化するヒートマップを用いて,ニューラルネットワークが入力の健全な特性を識別する方法についての知見を抽出する。 トレーニングニューラルネットワークにおいて決定的に捕捉された重要な特性を同定する。 最後に、ニューロンによって表される特性のラベル比率が、ネットワーク内のニューロンの深さに依存することを観測し、それらの依存性を分析し、それらの解釈を提供する。

We introduce a framework for reasoning about what meaning is captured by the neurons in a trained neural network. We provide a strategy for discovering meaning by training a second model (referred to as an observer model) to classify the state of the model it observes (an object model) in relation to attributes of the underlying dataset. We implement and evaluate observer models in the context of a specific set of classification problems, employ heat maps for visualizing the relevance of components of an object model in the context of linear observer models, and use these visualizations to extract insights about the manner in which neural networks identify salient characteristics of their inputs. We identify important properties captured decisively in trained neural networks; some of these properties are denoted by individual neurons. Finally, we observe that the label proportion of a property denoted by a neuron is dependent on the depth of a neuron within a network; we analyze these dependencies, and provide an interpretation of them.
翻訳日:2021-03-16 14:27:43 公開日:2021-03-15
# 自律運転における時空間特徴を用いたドメイン間移動学習の一般化

Improving Generalization of Transfer Learning Across Domains Using Spatio-Temporal Features in Autonomous Driving ( http://arxiv.org/abs/2103.08116v1 )

ライセンス: Link先を確認
Shivam Akhauri, Laura Zheng, Tom Goldstein, Ming Lin(参考訳) 現実世界でのビジョンに基づく自動運転のトレーニングは、非効率で非現実的です。 車両シミュレーションは仮想世界での学習に利用することができ、取得したスキルを実際のシナリオをより効果的に扱うために転送することができる。 仮想と現実の視覚領域の間では、道路の端と他の車両との相対的な距離などの共通の特徴は一定である。 これらの視覚的要素は、運転中の人間の意思決定に直感的に重要です。 これらの時空間的要因は、ドメイン間の一般化を改善するための転送学習にも利用できると仮定する。 まず,シーンから車両の動特性を表す時空間的特徴を抽出するCNN+LSTM転送学習フレームワークを提案する。 次に,運転システム決定における様々な特徴の意義を定量的に推定するアブレーション研究を行う。 物理的に解釈可能な要因はネットワーク決定と高い相関関係にあるが,シーン間の表現的差異は認められない。 最後に、アブレーション研究の結果に基づいて、ソースモデルから抽出されたサリエンシーマップと物理的特徴を使用して、ターゲットモデルのパフォーマンスを向上させるトランスファーラーニングパイプラインを提案します。 ネットワークのトレーニングは、CNNおよびLSTM潜伏特性(移動車w.r.tの固有物理を捉える)から学習した重量で初期化される。 あるドメインから別のドメインに転送される(その周囲)。 提案手法は,二分分類学習タスクにおけるベースラインcnnモデルと比較して,未知領域をまたいでより一般化することを示す。

Training vision-based autonomous driving in the real world can be inefficient and impractical. Vehicle simulation can be used to learn in the virtual world, and the acquired skills can be transferred to handle real-world scenarios more effectively. Between virtual and real visual domains, common features such as relative distance to road edges and other vehicles over time are consistent. These visual elements are intuitively crucial for human decision making during driving. We hypothesize that these spatio-temporal factors can also be used in transfer learning to improve generalization across domains. First, we propose a CNN+LSTM transfer learning framework to extract the spatio-temporal features representing vehicle dynamics from scenes. Next, we conduct an ablation study to quantitatively estimate the significance of various features in the decisions of driving systems. We observe that physically interpretable factors are highly correlated with network decisions, while representational differences between scenes are not. Finally, based on the results of our ablation study, we propose a transfer learning pipeline that uses saliency maps and physical features extracted from a source model to enhance the performance of a target model. Training of our network is initialized with the learned weights from CNN and LSTM latent features (capturing the intrinsic physics of the moving vehicle w.r.t. its surroundings) transferred from one domain to another. Our experiments show that this proposed transfer learning framework better generalizes across unseen domains compared to a baseline CNN model on a binary classification learning task.
翻訳日:2021-03-16 14:24:13 公開日:2021-03-15
# DMN4: 識別的近接近傍ニューラルネットワークによる短ショット学習

DMN4: Few-shot Learning via Discriminative Mutual Nearest Neighbor Neural Network ( http://arxiv.org/abs/2103.08160v1 )

ライセンス: Link先を確認
Yang Liu, Tu Zheng, Jie Song, Deng Cai, Xiaofei He(参考訳) FSL(Few-shot Learning)は、従来のプールされたグローバル表現が有用なローカル特性を失う可能性がある低データ体制下での画像の分類を目的とする。 近年の業績は深層ディスクリプタを用いて有望なパフォーマンスを達成している。 彼らは一般に、ニューラルネットワークからの深い記述子をすべて考慮し、それらのいくつかは、その限定された受容領域のために分類において役に立たないことを無視し、例えば、タスク非関連記述子は誤解を招く可能性があり、背景クラッターからの複数の集約記述子はオブジェクトの存在を圧倒する可能性さえある。 本稿では、各タスクに最も関連するクエリ記述子を明示的に選択し、FSLの集約的クラッタから関連性の低いものを破棄するために、MNN(Mutual Nearest Neighbor)関係を確立するべきであると論じる。 具体的には、FSLの識別的近接近傍ニューラルネットワーク(DMN4)を提案する。 本手法は, タスク関連ディスクリプタを定性的に選択するだけでなく, CUBでは1.8~4.9%, miniImagenetでは1.4~2.2%, 階層イメージネットでは1.4%と, 従来の技術水準を定量的に上回っていることを実証した。

Few-shot learning (FSL) aims to classify images under low-data regimes, where the conventional pooled global representation is likely to lose useful local characteristics. Recent work has achieved promising performances by using deep descriptors. They generally take all deep descriptors from neural networks into consideration while ignoring that some of them are useless in classification due to their limited receptive field, e.g., task-irrelevant descriptors could be misleading and multiple aggregative descriptors from background clutter could even overwhelm the object's presence. In this paper, we argue that a Mutual Nearest Neighbor (MNN) relation should be established to explicitly select the query descriptors that are most relevant to each task and discard less relevant ones from aggregative clutters in FSL. Specifically, we propose Discriminative Mutual Nearest Neighbor Neural Network (DMN4) for FSL. Extensive experiments demonstrate that our method not only qualitatively selects task-relevant descriptors but also quantitatively outperforms the existing state-of-the-arts by a large margin of 1.8~4.9% on fine-grained CUB, a considerable margin of 1.4~2.2% on both supervised and semi-supervised miniImagenet, and ~1.4% on challenging tieredimagenet.
翻訳日:2021-03-16 14:23:53 公開日:2021-03-15
# DeepOPG:Weak Supervisionで要約したオルトポアンモグラムの改善

DeepOPG: Improving Orthopantomogram Finding Summarization with Weak Supervision ( http://arxiv.org/abs/2103.08290v1 )

ライセンス: Link先を確認
Tzu-Ming Hsu, Yin-Chih Wang(参考訳) 整形外科または歯科パノラマラジオグラフィーからの要約を見つけることは、患者のコミュニケーションを改善し、臨床判断をスピードアップする大きな可能性を秘めています。 整形パントモグラムは歯科検査の第一線ツールであるが, 既存の研究ではその成果の要約は検討されていない。 検索要約は、画像研究で歯を見つけるだけでなく、いくつかの種類の治療で歯をラベル付けする必要がある。 そこで我々は,DeepOPGを開発した。このプロセスは機能的セグメンテーションと歯の局所化に分解され,後者は新規な歯科コヒーレンスモジュールによってさらに洗練されている。 また,強化学習シナリオにおける検出結果を改善するために,弱い監督ラベルを活用する。 実験では、DeepOPGが要約の発見に高い効果を示し、6種類の発見を総合して88.2%のAUCを達成した。 提案法により,AP@IoU=0.5に5.9%,0.4%を加えることにより,DeepOPGの改善が図られた。

Finding summaries from an orthopantomogram, or a dental panoramic radiograph, has significant potential to improve patient communication and to speed up clinical judgments. While orthopantomogram is a first-line tool for dental examinations, no existing work has explored the summarization of findings from it. A finding summary has to not only find teeth in the imaging study but also label the teeth with several types of treatments. To tackle the problem, we develop DeepOPG that breaks the summarization process into functional segmentation and teeth localization, the latter of which is further refined by a novel dental coherence module. We also leverage weak supervision labels to improve detection results in a reinforcement learning scenario. Experiments show high efficacy of DeepOPG on finding summarization, achieving an overall AUC of 88.2% in detecting six types of findings. The proposed dental coherence and weak supervision both are shown to improve DeepOPG by adding 5.9% and 0.4% to AP@IoU=0.5 respectively.
翻訳日:2021-03-16 14:23:28 公開日:2021-03-15
# 深層感覚学習

Deep Consensus Learning ( http://arxiv.org/abs/2103.08475v1 )

ライセンス: Link先を確認
Wei Sun and Tianfu Wu(参考訳) 生成学習と判別学習は、最近ディープニューラルネットワーク(dnn)を用いた驚くべき進歩を目撃している。 構造化入力合成と構造化出力予測問題(例えば、それぞれレイアウト・ツー・イメージ合成と画像意味セマンティクスセグメンテーション)については、これらはしばしば別々に研究される。 本稿では,画像合成と弱教師付き画像セマンティクスセグメンテーションを組み合わせた深層コンセンサス学習(dcl)を提案する。 前者は最近提案されたLostGANアプローチにより実現され、後者はLostGANの2プレイヤーゲームに参加する3番目のプレイヤーとして推論ネットワークを導入する。 2つの深いコンセンサスマッピングを使用して、3つのネットワークをエンドツーエンドでトレーニングします。入力レイアウト(オブジェクト境界ボックスのリスト)を与えられた場合、ジェネレーターはマスク(ラベルマップ)を生成し、それを画像合成に使用します。 推論ネットワークは、合成画像のマスクを推論する。 そして、ジェネレータによって生成されたマスクと推論ネットワークによって推定されたマスクとの間に潜在コンセンサスを測定する。 入力レイアウトに対応する実画像についても、そのマスクは推論ネットワークによって計算され、生成器が実画像の再構成に使用する。 そして、実画像とその再構成画像との間でデータコンセンサスを測定する。 判別器は、実画像の現実性スコア、再構成画像、合成画像の計算によって、まだ敵の役割を担っている。 実験では、DCLはCOCO-Stuffデータセットでテストされます。 レイアウト・画像合成結果と弱教師付き画像セマンティックセグメンテーション結果を得る。

Both generative learning and discriminative learning have recently witnessed remarkable progress using Deep Neural Networks (DNNs). For structured input synthesis and structured output prediction problems (e.g., layout-to-image synthesis and image semantic segmentation respectively), they often are studied separately. This paper proposes deep consensus learning (DCL) for joint layout-to-image synthesis and weakly-supervised image semantic segmentation. The former is realized by a recently proposed LostGAN approach, and the latter by introducing an inference network as the third player joining the two-player game of LostGAN. Two deep consensus mappings are exploited to facilitate training the three networks end-to-end: Given an input layout (a list of object bounding boxes), the generator generates a mask (label map) and then use it to help synthesize an image. The inference network infers the mask for the synthesized image. Then, the latent consensus is measured between the mask generated by the generator and the one inferred by the inference network. For the real image corresponding to the input layout, its mask also is computed by the inference network, and then used by the generator to reconstruct the real image. Then, the data consensus is measured between the real image and its reconstructed image. The discriminator still plays the role of an adversary by computing the realness scores for a real image, its reconstructed image and a synthesized image. In experiments, our DCL is tested in the COCO-Stuff dataset. It obtains compelling layout-to-image synthesis results and weakly-supervised image semantic segmentation results.
翻訳日:2021-03-16 14:23:08 公開日:2021-03-15
# 乗法的アクティベーション雑音を有するニューラルネットワークのサンプリング不要変分推定

Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise ( http://arxiv.org/abs/2103.08497v1 )

ライセンス: Link先を確認
Jannik Schmitt and Stefan Roth(参考訳) 安全クリティカルな領域にニューラルネットワークを導入するには、予測を信頼できるかどうかを知ることが重要です。 ベイズニューラルネットワーク(BNN)は、後部重量分布に関する予測の平均化によって不確実性推定を提供する。 BNNの変分推定法は, トラクタブル分布とトラクタブル分布とを近似するが, トレーニングや推論において, 変分分布のサンプリングに大きく依存する。 最近のサンプリング不要なアプローチは代替手段を提供するが、かなりのパラメーターオーバーヘッドをもたらす。 本稿では,多乗的ガウスアクティベーションノイズによる分布に依存するサンプリング不要な変分推定のための後方近似のより効率的なパラメータ化を提案する。 これにより、パラメータ効率とサンプリングフリーの変動推論の利点を組み合わせることができます。 提案手法は,イメージネットを含む大規模画像分類タスクに対して,標準回帰問題に対する競合的な結果をもたらす。

To adopt neural networks in safety critical domains, knowing whether we can trust their predictions is crucial. Bayesian neural networks (BNNs) provide uncertainty estimates by averaging predictions with respect to the posterior weight distribution. Variational inference methods for BNNs approximate the intractable weight posterior with a tractable distribution, yet mostly rely on sampling from the variational distribution during training and inference. Recent sampling-free approaches offer an alternative, but incur a significant parameter overhead. We here propose a more efficient parameterization of the posterior approximation for sampling-free variational inference that relies on the distribution induced by multiplicative Gaussian activation noise. This allows us to combine parameter efficiency with the benefits of sampling-free variational inference. Our approach yields competitive results for standard regression problems and scales well to large-scale image classification tasks including ImageNet.
翻訳日:2021-03-16 14:22:43 公開日:2021-03-15
# ビタミンCを入手! 確率的エビデンスを用いたロバスト事実検証

Get Your Vitamin C! Robust Fact Verification with Contrastive Evidence ( http://arxiv.org/abs/2103.08541v1 )

ライセンス: Link先を確認
Tal Schuster, Adam Fisch, Regina Barzilay(参考訳) 典型的な事実検証モデルは、検索された証拠を用いてクレームを検証する。 しかし、証拠源は、より多くの情報が収集され、修正されるにつれて、しばしば変化します。 適応するために、モデルはサポート証拠の微妙な違いに敏感でなければなりません。 本稿では, 事実検証モデルを用いて, 微妙な事実変化を識別・調整する, 挑戦的なケースを取り入れたベンチマークであるVitaminCを提案する。 私たちは、基礎となる事実を修正する100,000以上のWikipediaリビジョンを収集し、これらのリビジョンと追加の合成リビジョンを活用して、合計40,000以上のクレーム証拠ペアを作成します。 以前の資源とは異なり、ビタミンcの例は対照的であり、言語と内容でほぼ同一の証拠ペアを含んでいるが、一方は与えられた主張を支持し、もう一方はそうではない。 この設計を用いたトレーニングは堅牢性を高め、対人的事実検証の精度を10%向上し、対人的自然言語推論(NLI)の6%向上させることを示した。 さらに、VitaminCの構造は、クレーム検証の証拠に関連語をタグ付けし、事実修正を識別し、事実整合性のあるテキスト生成による自動編集を提供することによって、ファクトチェックリソースのための追加タスクを定義する。

Typical fact verification models use retrieved written evidence to verify claims. Evidence sources, however, often change over time as more information is gathered and revised. In order to adapt, models must be sensitive to subtle differences in supporting evidence. We present VitaminC, a benchmark infused with challenging cases that require fact verification models to discern and adjust to slight factual changes. We collect over 100,000 Wikipedia revisions that modify an underlying fact, and leverage these revisions, together with additional synthetically constructed ones, to create a total of over 400,000 claim-evidence pairs. Unlike previous resources, the examples in VitaminC are contrastive, i.e., they contain evidence pairs that are nearly identical in language and content, with the exception that one supports a given claim while the other does not. We show that training using this design increases robustness -- improving accuracy by 10% on adversarial fact verification and 6% on adversarial natural language inference (NLI). Moreover, the structure of VitaminC leads us to define additional tasks for fact-checking resources: tagging relevant words in the evidence for verifying the claim, identifying factual revisions, and providing automatic edits via factually consistent text generation.
翻訳日:2021-03-16 14:22:03 公開日:2021-03-15
# スパイクニューラルネットワークにおける周波数と重み制御の自然な方法としての制約可塑性リザーブ

Constrained plasticity reserve as a natural way to control frequency and weights in spiking neural networks ( http://arxiv.org/abs/2103.08143v1 )

ライセンス: Link先を確認
Oleg Nikitin and Olga Lukyanova and Alex Kunin(参考訳) 生物ニューロンは適応的な性質を持ち、冗長な情報のフィルタリングを含む複雑な計算を行う。 このような処理はベイズ推論としばしば関連づけられる。 しかし、Hodgkin-HuxleyやIzhikevichのような生物学的に実行可能な神経細胞の最も一般的なモデルは、単一の細胞のレベルで予測ダイナミクスを持っていない。 現代のシナプス可塑性や相互結合重み適応の規則は、ニューロンが常に変化する入力信号強度に適応する能力の基盤を提供しない。 天然ニューロンのシナプス成長はタンパク質の供給とリサイクルによって正確に制御され制限されているが、広く使われているstdpのような重量補正規則は、変化率とスケールにおいて効率良く無制限である。 本稿では、細胞内最適化アルゴリズムにより制御された抽象タンパク質の蓄積によるSTDP成長によるニューロンの発火速度のホメオスタシスと体重変化の相互関係の新たなメカニズムを紹介する。 これらの細胞動態がニューロンの強力なシグナルをフィルタリングし、ニューロンが安定した発射速度を維持するのにどのように役立つかを示します。 また、そのようなフィルタリングは、非監視モードでの相関入力を認識するニューロンの能力に影響を与えないことも検討する。 このようなアプローチは、AIシステムの堅牢性を改善するために、機械学習領域で使用される可能性がある。

Biological neurons have adaptive nature and perform complex computations involving the filtering of redundant information. Such processing is often associated with Bayesian inference. Yet most common models of neural cells, including biologically plausible, such as Hodgkin-Huxley or Izhikevich do not possess predictive dynamics on the level of a single cell. The modern rules of synaptic plasticity or interconnections weights adaptation also do not provide grounding for the ability of neurons to adapt to the ever-changing input signal intensity. While natural neuron synaptic growth is precisely controlled and restricted by protein supply and recycling, weight correction rules such as widely used STDP are efficiently unlimited in change rate and scale. In the present article, we will introduce new mechanics of interconnection between neuron firing rate homeostasis and weight change by means of STDP growth bounded by abstract protein reserve, controlled by the intracellular optimization algorithm. We will show, how these cellular dynamics help neurons to filter out the intense signals to help neurons keep a stable firing rate. We will also examine that such filtering does not affect the ability of neurons to recognize the correlated inputs in unsupervised mode. Such an approach might be used in the machine learning domain to improve the robustness of AI systems.
翻訳日:2021-03-16 14:20:13 公開日:2021-03-15
# ロバストMAML:モデルに依存しないメタ学習のための適応学習プロセスによる優先順位付けタスクバッファ

Robust MAML: Prioritization task buffer with adaptive learning process for model-agnostic meta-learning ( http://arxiv.org/abs/2103.08233v1 )

ライセンス: Link先を確認
Thanh Nguyen, Tung Luu, Trung Pham, Sanzhar Rakhimkul, Chang D. Yoo(参考訳) モデル非依存メタラーニング(MAML)は、さまざまな学習タスクを与えられたモデルの良いウェイト初期化を提供する、最新のメタラーニングアルゴリズムです。 供給された重量によって初期化されたモデルは、少量のサンプルと数段の適応ステップのみを使用しながら、目に見えないタスクに微調整することができる。 MAMLは単純で汎用性があるが、そのスケーラビリティと一般化に影響を与えるタスク分布の学習率チューニングと注意深い設計を必要とする。 本稿では、適応学習方式に基づくより堅牢なMTLと、トレーニングプロセスのスケーラビリティを改善し、分散ミスマッチの問題を軽減するためにRobust MAML(RMAML)と呼ばれる優先順位付けタスクバッファ(PTB)を提案する。 RMAMLは勾配に基づくハイパーパラメータ最適化を用いて、最適学習率を自動的に検出し、PTBを使用して、トレーニングの過程でタスク分布をテストするためのトレーニングタスク分布を徐々に調整する。 メタ強化学習環境における実験結果は,超パラメータ選択に対する感度が低く,分布ミスマッチに頑健であるとともに,大幅な性能向上を示す。

Model agnostic meta-learning (MAML) is a popular state-of-the-art meta-learning algorithm that provides good weight initialization of a model given a variety of learning tasks. The model initialized by provided weight can be fine-tuned to an unseen task despite only using a small amount of samples and within a few adaptation steps. MAML is simple and versatile but requires costly learning rate tuning and careful design of the task distribution which affects its scalability and generalization. This paper proposes a more robust MAML based on an adaptive learning scheme and a prioritization task buffer(PTB) referred to as Robust MAML (RMAML) for improving scalability of training process and alleviating the problem of distribution mismatch. RMAML uses gradient-based hyper-parameter optimization to automatically find the optimal learning rate and uses the PTB to gradually adjust train-ing task distribution toward testing task distribution over the course of training. Experimental results on meta reinforcement learning environments demonstrate a substantial performance gain as well as being less sensitive to hyper-parameter choice and robust to distribution mismatch.
翻訳日:2021-03-16 14:19:49 公開日:2021-03-15
# 好奇性コントラストフォワードダイナミクスモデルを用いたサンプル効率強化学習表現学習

Sample-efficient Reinforcement Learning Representation Learning with Curiosity Contrastive Forward Dynamics Model ( http://arxiv.org/abs/2103.08255v1 )

ライセンス: Link先を確認
Thanh Nguyen, Tung M. Luu, Thang Vu and Chang D. Yoo(参考訳) 生画素などの高次元観察から複雑な制御タスクを直接行うことができる強化学習(RL)のエージェントの開発は、サンプル効率の向上と一般化に向けた取り組みとして、まだ課題です。 本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、生のピクセルを直接ベースとするサンプル効率の高いRLを実現する。 CCFDMは、フォワードダイナミクスモデル(FDM)を組み込んで、その深い畳み込みニューラルネットワークベースの画像エンコーダ(IE)を訓練するためにコントラスト学習を行い、RLのサンプル効率を向上させるための空間的および時間的情報を抽出します。 さらに、トレーニング中にCFDMは、FDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。 比較学習で利用可能な探索戦略とデータ拡張の両方によってもたらされる多様性と非反復的な観察は、サンプル効率だけでなく一般化も改善します。 CCFDM上に構築されたSoft Actor-Criticのような既存のモデルフリーRLメソッドのパフォーマンスは、DeepMind Control Suiteベンチマークで最先端のピクセルベースのRLメソッドよりも優れています。

Developing an agent in reinforcement learning (RL) that is capable of performing complex control tasks directly from high-dimensional observation such as raw pixels is yet a challenge as efforts are made towards improving sample efficiency and generalization. This paper considers a learning framework for Curiosity Contrastive Forward Dynamics Model (CCFDM) in achieving a more sample-efficient RL based directly on raw pixels. CCFDM incorporates a forward dynamics model (FDM) and performs contrastive learning to train its deep convolutional neural network-based image encoder (IE) to extract conducive spatial and temporal information for achieving a more sample efficiency for RL. In addition, during training, CCFDM provides intrinsic rewards, produced based on FDM prediction error, encourages the curiosity of the RL agent to improve exploration. The diverge and less-repetitive observations provide by both our exploration strategy and data augmentation available in contrastive learning improve not only the sample efficiency but also the generalization. Performance of existing model-free RL methods such as Soft Actor-Critic built on top of CCFDM outperforms prior state-of-the-art pixel-based RL methods on the DeepMind Control Suite benchmark.
翻訳日:2021-03-16 14:19:29 公開日:2021-03-15
# ニュースレコメンダーシステムにおける精度と多様性のトレードオフのためのディープダイナミックニューラルネットワーク

Deep Dynamic Neural Network to trade-off between Accuracy and Diversity in a News Recommender System ( http://arxiv.org/abs/2103.08458v1 )

ライセンス: Link先を確認
Shaina Raza andChen Ding(参考訳) ニュースレコメンデータシステムは、ニュースドメイン特有のいくつかのユニークな課題によって特徴付けられる。 これらの課題は、継続的に変化する動的に生成されたニュースアイテムに対する読者の関心から生まれます。 ニュース読みは、読者の長期的および短期的利益のブレンドによっても駆動される。 さらに、ニュースレコメンデーションシステムでは、読者を読書プロセスに参加させるだけでなく、異なる見解や意見に露出させるため、多様性が要求される。 本稿では,情報的ニュースと読者の関心を統合されたフレームワークに共同で学習するディープニューラルネットワークを提案する。 私たちはニュースの見出し、スニペット(ボディ)、分類学(カテゴリ、サブカテゴリ)からニュース表現(機能)を学びます。 読者のクリック履歴から読者の長期的関心、LSTMSによる最近のクリックからの短期的関心、および注意メカニズムを通じて多様な読者の興味を学びます。 モデルにもさまざまなレベルの注意を向けています。 我々は,2つのニュースデータセットについて広範な実験を行い,その効果を実証した。

The news recommender systems are marked by a few unique challenges specific to the news domain. These challenges emerge from rapidly evolving readers' interests over dynamically generated news items that continuously change over time. News reading is also driven by a blend of a reader's long-term and short-term interests. In addition, diversity is required in a news recommender system, not only to keep the reader engaged in the reading process but to get them exposed to different views and opinions. In this paper, we propose a deep neural network that jointly learns informative news and readers' interests into a unified framework. We learn the news representation (features) from the headlines, snippets (body) and taxonomy (category, subcategory) of news. We learn a reader's long-term interests from the reader's click history, short-term interests from the recent clicks via LSTMSs and the diversified reader's interests through the attention mechanism. We also apply different levels of attention to our model. We conduct extensive experiments on two news datasets to demonstrate the effectiveness of our approach.
翻訳日:2021-03-16 14:19:07 公開日:2021-03-15
# Lasry-Lions Envelopes and Nonconvex Optimization: A Homotopy Approach

Lasry-Lions Envelopes and Nonconvex Optimization: A Homotopy Approach ( http://arxiv.org/abs/2103.08533v1 )

ライセンス: Link先を確認
Miguel Sim\~oes, Andreas Themelis, Panagiotis Patrinos(参考訳) 大規模最適化では、与えられた問題における非滑らかな項と非凸項の存在は典型的に解決を難しくする。 凸最適化の非滑らかな用語に対処するための一般的なアプローチは、それらをそれぞれのモロー封筒で近似することです。 本研究では,ラズリーライオン二重封筒を用いて,凸でない非平滑項を近似する。 これらのエンベロープはMoreauの拡張ですが、高速最適化アルゴリズムに適応できるように、さらなる滑らかさ特性を示します。 Lasry-Lionsエンベロープは、与えられた関数とその凸エンベロープの間の「中間」と見なすことができ、この特性を利用して、元の問題よりも解くのが簡単な近似部分問題列を構築する方法を開発する。 本手法は,複合最小化問題に対する収束特性について論じるとともに,いくつかの実験に基づいて,信号復号法とスペクトルアンミックス法という2領域の古典的代替法よりも有用であると考えられる設定について検討する。

In large-scale optimization, the presence of nonsmooth and nonconvex terms in a given problem typically makes it hard to solve. A popular approach to address nonsmooth terms in convex optimization is to approximate them with their respective Moreau envelopes. In this work, we study the use of Lasry-Lions double envelopes to approximate nonsmooth terms that are also not convex. These envelopes are an extension of the Moreau ones but exhibit an additional smoothness property that makes them amenable to fast optimization algorithms. Lasry-Lions envelopes can also be seen as an "intermediate" between a given function and its convex envelope, and we make use of this property to develop a method that builds a sequence of approximate subproblems that are easier to solve than the original problem. We discuss convergence properties of this method when used to address composite minimization problems; additionally, based on a number of experiments, we discuss settings where it may be more useful than classical alternatives in two domains: signal decoding and spectral unmixing.
翻訳日:2021-03-16 14:18:49 公開日:2021-03-15
# ガウススケール混合分布に基づく因果推定のためのベイズモデル平均化とその近似

Bayesian Model Averaging for Causality Estimation and its Approximation based on Gaussian Scale Mixture Distributions ( http://arxiv.org/abs/2103.08195v1 )

ライセンス: Link先を確認
Shunsuke Horii(参考訳) 線形構造因果モデル(scms)に基づく因果効果の推定では、まず因果構造を特定し、確率分布を推定し、次に因果効果を計算することが一般的である。 しかし、因果効果の推定が目的であれば、1つの因果構造や確率分布を固定する必要はありません。 本稿では,ベイズ的視点から,固定単一モデルの下で因果効果を推定するのではなく,各モデルで推定される因果効果の重み付け(平均)に最適なベイズであることを示す。 この考え方はベイズモデル平均化(bayesian model averaging)とも呼ばれる。 ベイズ平均化は最適であるが、候補モデルの数が増加するにつれて重み付け計算は計算的に困難になる。 ガウススケール混合分布を用いたベイズ最適推定器の近似法を開発した。

In the estimation of the causal effect under linear Structural Causal Models (SCMs), it is common practice to first identify the causal structure, estimate the probability distributions, and then calculate the causal effect. However, if the goal is to estimate the causal effect, it is not necessary to fix a single causal structure or probability distributions. In this paper, we first show from a Bayesian perspective that it is Bayes optimal to weight (average) the causal effects estimated under each model rather than estimating the causal effect under a fixed single model. This idea is also known as Bayesian model averaging. Although the Bayesian model averaging is optimal, as the number of candidate models increases, the weighting calculations become computationally hard. We develop an approximation to the Bayes optimal estimator by using Gaussian scale mixture distributions.
翻訳日:2021-03-16 14:18:22 公開日:2021-03-15
# 独立レベル予測のトップダウンアライメントによる調整予測

Forecasting reconciliation with a top-down alignment of independent level forecasts ( http://arxiv.org/abs/2103.08250v1 )

ライセンス: Link先を確認
Matthias Anderer and Feng Li(参考訳) 断続的な時間系列による階層予測は、研究と実証的研究の両方において課題である。 全体予測性能は,下層部における断続時系列の予測精度に大きく影響している。 本稿では,階層の上位レベルでの予測精度を高めるために,ボトムレベル予測を潜在性として扱う予測調整手法を提案する。 我々は,トップレベルの連続時系列に純粋なディープラーニング予測手法n-beatsと,ボトムレベル間欠時系列に広く使用されている木ベースアルゴリズムlightgbmを用いる。 階層的予測とアライメントアプローチは、実装がシンプルで簡単なものです。 和解を予測するための直交方向の光を放つ。 最適和解を見つけるのが困難である場合には、低いレベルの最適下限予測が全体の性能を維持することができる。 この実証的研究のアプローチは、M5予測精度競争ランキング2位で最初の著者によって開発されました。 このアプローチはビジネス指向であり、ビジネス戦略的計画に有益である。

Hierarchical forecasting with intermittent time series is a challenge in both research and empirical studies. The overall forecasting performance is heavily affected by the forecasting accuracy of intermittent time series at bottom levels. In this paper, we present a forecasting reconciliation approach that treats the bottom level forecast as latent to ensure higher forecasting accuracy on the upper levels of the hierarchy. We employ a pure deep learning forecasting approach N-BEATS for continuous time series on top levels and a widely used tree-based algorithm LightGBM for the bottom level intermittent time series. The hierarchical forecasting with alignment approach is simple and straightforward to implement in practice. It sheds light on an orthogonal direction for forecasting reconciliation. When there is difficulty finding an optimal reconciliation, allowing suboptimal forecasts at a lower level could retain a high overall performance. The approach in this empirical study was developed by the first author during the M5 Forecasting Accuracy competition ranking second place. The approach is business orientated and could be beneficial for business strategic planning.
翻訳日:2021-03-16 14:18:07 公開日:2021-03-15
# マトリックス製品状態の表現理論

Representation Theorem for Matrix Product States ( http://arxiv.org/abs/2103.08277v1 )

ライセンス: Link先を確認
Erdong Guo and David Draper(参考訳) 本研究では, 行列積状態(MPS)の普遍的表現能力について, ブール関数と連続関数の観点から検討する。 任意に与えられたブールゲートに対して対応するMPS構造を構築することにより,MPSが任意のブール関数を正確に実現できることを示す。 さらに、スケール不変なシグモイド活性化を持つ MPS の函数空間は、$n$-次元実座標空間 $\mathbb{R^{n}}$ のコンパクト部分空間上で定義される連続函数の空間において密であることを証明する。 我々は,MPSとニューラルネットワークの関係について検討し,スケール不変なシグモダル関数を持つMPSが,カーネル関数を持つ一層ニューラルネットワークと等価であることを示す。 我々は,複数のMPSモデルに対して等価ニューラルネットワークを構築し,入力の異なる成分間の結合をモデルに導入する多項式カーネルなどの非線形カーネルが,同等のニューラルネットワークに自然に現れることを示す。 最後に, 無限幅mpを用いたガウス過程(gp)の実現について, 等価ニューラルネットワークを用いて検討する。

In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
翻訳日:2021-03-16 14:17:54 公開日:2021-03-15
# 有限和最適化問題の低次複素性境界:結果と構成

Lower Complexity Bounds of Finite-Sum Optimization Problems: The Results and Construction ( http://arxiv.org/abs/2103.08280v1 )

ライセンス: Link先を確認
Yuze Han, Guangzeng Xie, Zhihua Zhang(参考訳) 本論文の貢献には2つの側面がある。 まず、目的関数が$ n$の個々の滑らかなコンポーネント関数の平均であるミニマックス最適化問題のより低い境界の複雑さを研究します。 我々は、個々のコンポーネントごとに勾配および近位オラクルにアクセスできる近位インクリメンタルファーストオーダー(PIFO)アルゴリズムを検討する。 古典的な例の三対角行列を$n$群に分割する逆問題を構築するための新しいアプローチを開発する。 この構成は漸進的勾配と近位オラクルの分析に好都合である。 このアプローチでは、異なる設定で$\varepsilon$-suboptimal pointと$\varepsilon$-stationary pointを見つけるための1次アルゴリズムの下位境界を実証する。 第2に、PIFOアルゴリズムによる最小化最適化の下位境界も提案手法から導出し、その結果をcitep{woodworth2016tight} でカバーし、その結果をcitep{zhou2019lower} で改善する。

The contribution of this paper includes two aspects. First, we study the lower bound complexity for the minimax optimization problem whose objective function is the average of $n$ individual smooth component functions. We consider Proximal Incremental First-order (PIFO) algorithms which have access to gradient and proximal oracle for each individual component. We develop a novel approach for constructing adversarial problems, which partitions the tridiagonal matrix of classical examples into $n$ groups. This construction is friendly to the analysis of incremental gradient and proximal oracle. With this approach, we demonstrate the lower bounds of first-order algorithms for finding an $\varepsilon$-suboptimal point and an $\varepsilon$-stationary point in different settings. Second, we also derive the lower bounds of minimization optimization with PIFO algorithms from our approach, which can cover the results in \citep{woodworth2016tight} and improve the results in \citep{zhou2019lower}.
翻訳日:2021-03-16 14:17:40 公開日:2021-03-15
# DSNEを用いたデータ速度の可視化

Visualizing Data Velocity using DSNE ( http://arxiv.org/abs/2103.08509v1 )

ライセンス: Link先を確認
Songting Shi(参考訳) そこで本研究では, 低次元写像点の速度埋め込みを, 高次元データ点に速度を与えて学習する手法「DSNE」を提案する。 この手法は、点の単位長速度と近傍の点から近傍までの単位長方向の間の単位球面上のユークリッド距離を用いて類似性を定義し、高次元空間と低次元空間における2種類の類似性を一致させて、低次元空間上の速度埋め込みを見つけようとする確率的近傍埋め込みのバリエーションである。 DSNEは、データポイントが高次元空間でどのように動くかを、2次元または3次元空間で示すことで視覚化するのに役立つ。 それは細胞分化および胚発生のメカニズムを理解するのに有用です。

We present a new technique called "DSNE" which learns the velocity embeddings of low dimensional map points when given the high-dimensional data points with its velocities. The technique is a variation of Stochastic Neighbor Embedding, which uses the Euclidean distance on the unit sphere between the unit-length velocity of the point and the unit-length direction from the point to its near neighbors to define similarities, and try to match the two kinds of similarities in the high dimension space and low dimension space to find the velocity embeddings on the low dimension space. DSNE can help to visualize how the data points move in the high dimension space by presenting the movements in two or three dimensions space. It is helpful for understanding the mechanism of cell differentiation and embryo development.
翻訳日:2021-03-16 14:17:21 公開日:2021-03-15
# SAR-Optical Data Fusionにおける深層学習のためのQXS-SAROPTデータセット

The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion ( http://arxiv.org/abs/2103.08259v1 )

ライセンス: Link先を確認
Meiyu Huang, Yao Xu, Lixin Qian, Weili Shi, Yaqin Zhang, Wei Bao, Nan Wang, Xuejiao Liu, Xueshuang Xiang(参考訳) 深層学習技術はリモートセンシングの分野に影響を与えている。 しかし,多彩な特徴を有する異なるリモートセンサからのマルチモーダルデータの融合は,高分解能の多彩なシーン,特に合成開口レーダ(sar)データや光学画像において,大規模に完全に整列したマルチセンサ画像データが得られていないため,十分に検討されていない。 本稿では、QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合における深層学習研究を促進する。 QXS-SAROPTは、SAR衛星GaoFen-3とGoogle Earthの光学衛星によって取得されたサンディエゴ、上海、清道の3つの港湾都市から収集された2万枚の画像パッチで構成されている。 データセットの詳細な説明に加えて、光学画像からのクロスモーダル情報によって後押しされたSAR光学画像マッチングとSAR船舶検出という2つの代表的なアプリケーションの例結果を示します。 QXS-SAROPTは、この種の高解像度の複数のシーンを持つ大規模なオープンデータセットであるため、深層学習に基づくSAR-光データ融合の分野でのさらなる発展を支援すると信じている。

Deep learning techniques have made an increasing impact on the field of remote sensing. However, deep neural networks based fusion of multimodal data from different remote sensors with heterogenous characteristics has not been fully explored, due to the lack of availability of big amounts of perfectly aligned multi-sensor image data with diverse scenes of high resolution, especially for synthetic aperture radar (SAR) data and optical imagery. In this paper, we publish the QXS-SAROPT dataset to foster deep learning research in SAR-optical data fusion. QXS-SAROPT comprises 20,000 pairs of corresponding image patches, collected from three port cities: San Diego, Shanghai and Qingdao acquired by the SAR satellite GaoFen-3 and optical satellites of Google Earth. Besides a detailed description of the dataset, we show exemplary results for two representative applications, namely SAR-optical image matching and SAR ship detection boosted by cross-modal information from optical images. Since QXS-SAROPT is a large open dataset with multiple scenes of the highest resolution of this kind, we believe it will support further developments in the field of deep learning based SAR-optical data fusion for remote sensing.
翻訳日:2021-03-16 14:16:47 公開日:2021-03-15
# CCG カテゴリの生成

Generating CCG Categories ( http://arxiv.org/abs/2103.08139v1 )

ライセンス: Link先を確認
Yufang Liu, Tao Ji, Yuanbin Wu, Man Lan(参考訳) 以前のCCGスーパータガーは、通常、多クラス分類を用いてカテゴリを予測する。 その単純さにもかかわらず、カテゴリの内部構造は通常無視される。 これらの構造内のリッチなセマンティクスは、カテゴリ間の関係をよりよく扱い、既存のスーパータガーにより堅牢性をもたらすのに役立つでしょう。 本稿では,分類ではなくカテゴリを生成することを提案する。各カテゴリはより小さなアトミックタグのシーケンスに分解され,タガーは正しいシーケンスを生成することを目指す。 このカテゴリに関する詳細なビューにより、異なるカテゴリのアノテーションを共有でき、文コンテキストとのインタラクションが強化できることを示した。 提案されたカテゴリジェネレータは、標準的なCCGBankで最先端のタグ付け(95.5%の精度)と解析(89.8%のラベル付きF1)を行うことができる。 さらに、まれな(見えない)カテゴリ、ドメイン外テキスト、低リソース言語のパフォーマンスは、一般的なCG分析に生成モデルを導入することに有望な結果をもたらします。

Previous CCG supertaggers usually predict categories using multi-class classification. Despite their simplicity, internal structures of categories are usually ignored. The rich semantics inside these structures may help us to better handle relations among categories and bring more robustness into existing supertaggers. In this work, we propose to generate categories rather than classify them: each category is decomposed into a sequence of smaller atomic tags, and the tagger aims to generate the correct sequence. We show that with this finer view on categories, annotations of different categories could be shared and interactions with sentence contexts could be enhanced. The proposed category generator is able to achieve state-of-the-art tagging (95.5% accuracy) and parsing (89.8% labeled F1) performances on the standard CCGBank. Furthermore, its performances on infrequent (even unseen) categories, out-of-domain texts and low resource language give promising results on introducing generation models to the general CCG analyses.
翻訳日:2021-03-16 14:14:55 公開日:2021-03-15
# 発達ロボットの認知的アーキテクチャ実現に向けた全脳確率遺伝モデル

Whole brain Probabilistic Generative Model toward Realizing Cognitive Architecture for Developmental Robots ( http://arxiv.org/abs/2103.08183v1 )

ライセンス: Link先を確認
Tadahiro Taniguchi, Hiroshi Yamakawa, Takayuki Nagai, Kenji Doya, Masamichi Sakagami, Masahiro Suzuki, Tomoaki Nakamura, Akira Taniguchi(参考訳) 人間のような統合型人工認知システム、すなわち人工知能を構築することは、人工知能と開発ロボティクスの目標の1つだ。 さらに、人工認知システムが認知発達を達成することを可能にする計算モデルは、脳および認知科学にとって優れた基準となる。 本稿では、確率的生成モデル(PGM)を用いて人間の認知システムを完全に反映する認知アーキテクチャの開発について述べる。 積分モデルは全脳PGM (WB-PGM) と呼ばれる。 脳に触発され、PGMベースです。 本稿では,WB-PGMの構築プロセスと人間の脳から学習して認知アーキテクチャを構築する方法について述べる。

Building a humanlike integrative artificial cognitive system, that is, an artificial general intelligence, is one of the goals in artificial intelligence and developmental robotics. Furthermore, a computational model that enables an artificial cognitive system to achieve cognitive development will be an excellent reference for brain and cognitive science. This paper describes the development of a cognitive architecture using probabilistic generative models (PGMs) to fully mirror the human cognitive system. The integrative model is called a whole-brain PGM (WB-PGM). It is both brain-inspired and PGMbased. In this paper, the process of building the WB-PGM and learning from the human brain to build cognitive architectures is described.
翻訳日:2021-03-16 14:13:40 公開日:2021-03-15
# 解釈可能な深層強化学習のための記号規則の学習

Learning Symbolic Rules for Interpretable Deep Reinforcement Learning ( http://arxiv.org/abs/2103.08228v1 )

ライセンス: Link先を確認
Zhihao Ma, Yuzheng Zhuang, Paul Weng, Hankui Zhuo, Dong Li, Wulong Liu, Jianye Hao(参考訳) 深層強化学習(DRL)の最近の進歩は、主にニューラルネットワークの使用に起因する可能性があります。 しかし、このブラックボックスアプローチは、学習したポリシーを人間の理解可能な方法で説明できない。 この課題に対処し、透明性を向上させるために、DRLにシンボリックロジックを導入し、ニューラルシンボリック強化学習フレームワークを提案する。 このフレームワークは推論と学習モジュールの受精を特徴とし、事前に象徴的な知識を持つエンドツーエンドの学習を可能にする。 さらに、推論モジュールで学んだ論理ルールをシンボリックなルール空間に抽出することで、解釈可能性を実現する。 実験結果から,我々のフレームワークは,最先端のアプローチと比較して,より優れた解釈性を持つことがわかった。

Recent progress in deep reinforcement learning (DRL) can be largely attributed to the use of neural networks. However, this black-box approach fails to explain the learned policy in a human understandable way. To address this challenge and improve the transparency, we propose a Neural Symbolic Reinforcement Learning framework by introducing symbolic logic into DRL. This framework features a fertilization of reasoning and learning modules, enabling end-to-end learning with prior symbolic knowledge. Moreover, interpretability is achieved by extracting the logical rules learned by the reasoning module in a symbolic rule space. The experimental results show that our framework has better interpretability, along with competing performance in comparison to state-of-the-art approaches.
翻訳日:2021-03-16 14:13:30 公開日:2021-03-15
# 小型データセットを用いた画像分類学習のためのパラメトリズドロスの進化

Evolving parametrized Loss for Image Classification Learning on Small Datasets ( http://arxiv.org/abs/2103.08249v1 )

ライセンス: Link先を確認
Zhaoyang Hai, Xiabi Liu(参考訳) 本稿では,メタロスネットワーク(mln)と呼ばれるパラメータ付き損失関数を進化させ,画像分類学習を小規模データセットで学習するメタラーニング手法を提案する。 私たちのアプローチでは、MLNは微分可能な客観的関数として分類学習のフレームワークに埋め込まれています。 MLNは進化戦略アルゴリズム(ES)によって最適化された損失関数に進化し、この損失を最小限に抑えるために最適化された分類器が良好な一般化効果を達成する。 分類器は、小さなトレーニングデータセットから学習し、Stochastic Gradient Descent (SGD)でMLNを最小化し、その後、大規模な検証データセット上の小データセット更新分類器の精度でMLNを進化させる。 本手法を評価するため,MLNはFashionMNISTから採取した多数のサンプル学習タスクを訓練し,FashionMNISTとCIFAR10から採取した検証タスクを試験した。 実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。

This paper proposes a meta-learning approach to evolving a parametrized loss function, which is called Meta-Loss Network (MLN), for training the image classification learning on small datasets. In our approach, the MLN is embedded in the framework of classification learning as a differentiable objective function. The MLN is evolved with the Evolutionary Strategy algorithm (ES) to an optimized loss function, such that a classifier, which optimized to minimize this loss, will achieve a good generalization effect. A classifier learns on a small training dataset to minimize MLN with Stochastic Gradient Descent (SGD), and then the MLN is evolved with the precision of the small-dataset-updated classifier on a large validation dataset. In order to evaluate our approach, the MLN is trained with a large number of small sample learning tasks sampled from FashionMNIST and tested on validation tasks sampled from FashionMNIST and CIFAR10. Experiment results demonstrate that the MLN effectively improved generalization compared to classical cross-entropy error and mean squared error.
翻訳日:2021-03-16 14:13:20 公開日:2021-03-15
# 2段階自然言語ビデオローカライズのための境界提案ネットワーク

Boundary Proposal Network for Two-Stage Natural Language Video Localization ( http://arxiv.org/abs/2103.08109v1 )

ライセンス: Link先を確認
Shaoning Xiao, Long Chen, Songyang Zhang, Wei Ji, Jian Shao, Lu Ye, Jun Xiao(参考訳) 自然言語ビデオローカライズ(nlvl)の問題に対処し,自然言語記述に対応する映像セグメントを長大で難解なビデオにローカライズすることを目的とする。 State-of-the-art NLVL法はほぼ1段階の手法であり、典型的には2つのカテゴリに分類される: 1) アンカーベースアプローチ: まず一連のビデオセグメント候補(例えば、スライドウィンドウ)を事前に定義し、次に各候補を分類する; 2) アンカーフリーアプローチ: 各ビデオフレームの確率を直接、正のセグメント内の境界または中間フレームとして予測する。 しかし、両方のタイプのワンステージアプローチには固有の欠点があります。アンカーベースのアプローチは、ヒューリスティックルールの影響を受けやすく、可変長のビデオの処理能力をさらに制限します。 アンカーフリーアプローチはセグメントレベルの相互作用をうまく利用できないため、結果が劣る。 本稿では,上述の問題を解消する普遍的な二段階フレームワークである境界提案ネットワーク(bpnet)を提案する。 特に第1段階では,BPNetはアンカーフリーなモデルを用いて,高品質なビデオセグメントを境界付きで生成する。 第2段階では、候補と言語クエリ間のマルチモーダルな相互作用を共同でモデル化する視覚言語融合層が提案され、次いで各候補に対するアライメントスコアを出力するマッチングスコア評価層が提案される。 BPNetを3つの挑戦的NLVLベンチマーク(Charades-STA,TACoS,ActivityNet-Captions)で評価した。 これらのデータセットに関する広範な実験とアブレーション研究は、BPNetが最先端の方法よりも優れていることを実証している。

We aim to address the problem of Natural Language Video Localization (NLVL)-localizing the video segment corresponding to a natural language description in a long and untrimmed video. State-of-the-art NLVL methods are almost in one-stage fashion, which can be typically grouped into two categories: 1) anchor-based approach: it first pre-defines a series of video segment candidates (e.g., by sliding window), and then does classification for each candidate; 2) anchor-free approach: it directly predicts the probabilities for each video frame as a boundary or intermediate frame inside the positive segment. However, both kinds of one-stage approaches have inherent drawbacks: the anchor-based approach is susceptible to the heuristic rules, further limiting the capability of handling videos with variant length. While the anchor-free approach fails to exploit the segment-level interaction thus achieving inferior results. In this paper, we propose a novel Boundary Proposal Network (BPNet), a universal two-stage framework that gets rid of the issues mentioned above. Specifically, in the first stage, BPNet utilizes an anchor-free model to generate a group of high-quality candidate video segments with their boundaries. In the second stage, a visual-language fusion layer is proposed to jointly model the multi-modal interaction between the candidate and the language query, followed by a matching score rating layer that outputs the alignment score for each candidate. We evaluate our BPNet on three challenging NLVL benchmarks (i.e., Charades-STA, TACoS and ActivityNet-Captions). Extensive experiments and ablative studies on these datasets demonstrate that the BPNet outperforms the state-of-the-art methods.
翻訳日:2021-03-16 14:08:36 公開日:2021-03-15
# 顔表現マニピュレーションの検出と局在化

Detection and Localization of Facial Expression Manipulations ( http://arxiv.org/abs/2103.08134v1 )

ライセンス: Link先を確認
Ghazal Mazaheri, Amit K. Roy-Chowdhury(参考訳) ソーシャルメディアでの不正画像/ビデオの広範な使用に関する懸念は、そのような詐欺の正確な検出を必要とします。 コミュニケーションにおける表情の重要性は広く知られており、敵対的攻撃はしばしば表情に関連する特徴を操作することに焦点を当てている。 したがって、表情の操作を検知し、操作領域を局所化する手法を開発することが重要である。 この問題に対処するために,表情認識と画像操作の密接な組み合わせを用いて,表情の操作を検出できるフレームワークを提案する。 顔認識フレームワークから抽出された特徴マップの追加により、操作された領域を局在化することができます。 表現操作が豊富であるFace2Faceデータセットでは,操作の分類と局所化の精度が,最先端の手法と比較して3%以上向上していることを示す。 さらに、口領域に対応する表情が変更されたNeuralTexturesデータセットの結果は、操作の分類と局在の両方において2%高い精度を示しています。 本手法は,表現が操作されない場合には最先端の手法と同等に動作し,同一性が変更され,そのアプローチの一般化性が保証されることを示す。

Concern regarding the wide-spread use of fraudulent images/videos in social media necessitates precise detection of such fraud. The importance of facial expressions in communication is widely known, and adversarial attacks often focus on manipulating the expression related features. Thus, it is important to develop methods that can detect manipulations in facial expressions, and localize the manipulated regions. To address this problem, we propose a framework that is able to detect manipulations in facial expression using a close combination of facial expression recognition and image manipulation methods. With the addition of feature maps extracted from the facial expression recognition framework, our manipulation detector is able to localize the manipulated region. We show that, on the Face2Face dataset, where there is abundant expression manipulation, our method achieves over 3% higher accuracy for both classification and localization of manipulations compared to state-of-the-art methods. In addition, results on the NeuralTextures dataset where the facial expressions corresponding to the mouth regions have been modified, show 2% higher accuracy in both classification and localization of manipulation. We demonstrate that the method performs at-par with the state-of-the-art methods in cases where the expression is not manipulated, but rather the identity is changed, thus ensuring generalizability of the approach.
翻訳日:2021-03-16 14:08:06 公開日:2021-03-15
# LARNet:プロフィール顔認識のためのLie Algebra残存ネットワーク

LARNet: Lie Algebra Residual Network for Profile Face Recognition ( http://arxiv.org/abs/2103.08147v1 )

ライセンス: Link先を確認
Xiaolong Yang(参考訳) プロファイルと前面の顔に大きな変化があるため、プロファイルベースの顔認識は、多くの実用的なビジョンシナリオで大きな課題として残っています。 従来の手法では、正面顔の合成やポーズ不変学習によってこの問題に対処している。 本稿では,3次元空間における顔の回転が畳み込みニューラルネットワーク(CNN)の深い特徴生成過程にどのように影響するかを,リー代数理論を用いた新しい手法を提案する。 画像空間における顔の回転は、回転によってのみ決定されるCNNの特徴空間における付加残留成分と等価であることが証明される。 この理論的発見に基づいて、プロファイルに基づく顔認識に対処するためのLie代数残差ネットワーク(LARNet)をさらに設計する。 ラーネットは、入力された顔画像から回転情報を復号する残差サブネットと、特徴学習プロセスに寄与する残差成分の数を制御する回転大きさを学習するゲーティングサブネットとからなる。 正面顔データセットと一般顔認識データセットに関する総合的な実験的評価は、我々の手法が常に最先端の手法より優れていることを示す。

Due to large variations between profile and frontal faces, profile-based face recognition remains as a tremendous challenge in many practical vision scenarios. Traditional techniques address this challenge either by synthesizing frontal faces or by pose-invariants learning. In this paper, we propose a novel method with Lie algebra theory to explore how face rotation in the 3D space affects the deep feature generation process of convolutional neural networks (CNNs). We prove that face rotation in the image space is equivalent to an additive residual component in the feature space of CNNs, which is determined solely by the rotation. Based on this theoretical finding, we further design a Lie algebraic residual network (LARNet) for tackling profile-based face recognition. Our LARNet consists of a residual subnet for decoding rotation information from input face images, and a gating subnet to learn rotation magnitude for controlling the number of residual components contributing to the feature learning process. Comprehensive experimental evaluations on frontal-profile face datasets and general face recognition datasets demonstrate that our method consistently outperforms the state-of-the-arts.
翻訳日:2021-03-16 14:07:45 公開日:2021-03-15
# 3DCaricShop:シングルビュー3次元顔再構成のためのデータセットとベースライン法

3DCaricShop: A Dataset and A Baseline Method for Single-view 3D Caricature Face Reconstruction ( http://arxiv.org/abs/2103.08204v1 )

ライセンス: Link先を確認
Yuda Qiu, Xiaojie Xu, Lingteng Qiu, Yan Pan, Yushuang Wu, Weikai Chen, Xiaoguang Han(参考訳) Caricatureは、意図的に人間の顔の特徴を誇張してユーモアやサーカスムを伝える芸術的表現です。 しかし、2D画像から3D画像の再構成は、主にデータ不足のため、依然として困難な課題である。 3DCaricShopは,プロのアーティストが手作業で作成する2000種類の高品質な3Dキャラクチュアを含む,最初の大規模3Dキャラクチュアデータセットである。 3DCaricShopはまた、ペアの2Dマニキュア画像、カメラパラメータ、3D顔のランドマークを含む豊富なアノテーションを提供します。 3dcaricshopの利点を示すために,single-view 3d caricature reconstructionのための新しいベースラインアプローチを提案する。 顔の変形が妥当な忠実な再構築を実現するために,詳細な暗黙関数とパラメトリックメッシュ表現のよい端をつなぐことを提案する。 特に,まず暗黙発生器の出力にテンプレートメッシュを登録し,事前学習したPCA空間に登録結果を反復的に投影し,人工物や自己切断を解消する。 非リギッド登録時の大きな変形に対処するために,暗黙のメッシュからキーポイントを抽出して正確なアライメントを行う新しいビューコラボレーティブグラフ畳み込みネットワーク(vcgcn)を提案する。 本手法は,アニメーション対応のメッシュトポロジで高忠実度3D画像を生成することができる。 データベースの意義と提案手法の有効性を検証するため, 3DCaricShopで大規模な実験を行った。

Caricature is an artistic representation that deliberately exaggerates the distinctive features of a human face to convey humor or sarcasm. However, reconstructing a 3D caricature from a 2D caricature image remains a challenging task, mostly due to the lack of data. We propose to fill this gap by introducing 3DCaricShop, the first large-scale 3D caricature dataset that contains 2000 high-quality diversified 3D caricatures manually crafted by professional artists. 3DCaricShop also provides rich annotations including a paired 2D caricature image, camera parameters and 3D facial landmarks. To demonstrate the advantage of 3DCaricShop, we present a novel baseline approach for single-view 3D caricature reconstruction. To ensure a faithful reconstruction with plausible face deformations, we propose to connect the good ends of the detailrich implicit functions and the parametric mesh representations. In particular, we first register a template mesh to the output of the implicit generator and iteratively project the registration result onto a pre-trained PCA space to resolve artifacts and self-intersections. To deal with the large deformation during non-rigid registration, we propose a novel view-collaborative graph convolution network (VCGCN) to extract key points from the implicit mesh for accurate alignment. Our method is able to generate highfidelity 3D caricature in a pre-defined mesh topology that is animation-ready. Extensive experiments have been conducted on 3DCaricShop to verify the significance of the database and the effectiveness of the proposed method.
翻訳日:2021-03-16 14:07:28 公開日:2021-03-15
# 合成学習による物体間相互作用の検出

Detecting Human-Object Interaction via Fabricated Compositional Learning ( http://arxiv.org/abs/2103.08214v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng, Dacheng Tao(参考訳) 画像やビデオから人間と物体の関係を推定するHuman-Object Interaction (HOI) 検出は、高レベルのシーン理解の基本的な課題である。 しかし、HOI検出は通常、オブジェクトとの相互作用の開いた長い尾の性質に苦しむ一方、人間はまれまたは見えないHOIサンプルを認識する非常に強力な組成知覚能力を有する。 これから着想を得て、オープン長尾HOI検出の問題に対処するために、製造構成学習(Fabricated Compositional Learning、FCL)と呼ばれる新しいHOI構成学習フレームワークを考案しました。 具体的には,効果的なオブジェクト表現を生成し,動詞と合成オブジェクトを組み合わせて新しいhoiサンプルを生成するオブジェクト作成器を提案する。 提案するオブジェクトファブリケータにより,比較的希少なカテゴリを対象とした大規模HOIサンプルを作成でき,HOI検出における長期化問題を緩和できる。 最も一般的なHOI検出データセットであるHICO-DETの大規模な実験は、不均衡なHOI検出のための提案手法の有効性を実証し、希少かつ未確認のHOIカテゴリにおける最先端性能を著しく改善した。 コードはhttps://github.com/zhihou7/FCLで入手できる。

Human-Object Interaction (HOI) detection, inferring the relationships between human and objects from images/videos, is a fundamental task for high-level scene understanding. However, HOI detection usually suffers from the open long-tailed nature of interactions with objects, while human has extremely powerful compositional perception ability to cognize rare or unseen HOI samples. Inspired by this, we devise a novel HOI compositional learning framework, termed as Fabricated Compositional Learning (FCL), to address the problem of open long-tailed HOI detection. Specifically, we introduce an object fabricator to generate effective object representations, and then combine verbs and fabricated objects to compose new HOI samples. With the proposed object fabricator, we are able to generate large-scale HOI samples for rare and unseen categories to alleviate the open long-tailed issues in HOI detection. Extensive experiments on the most popular HOI detection dataset, HICO-DET, demonstrate the effectiveness of the proposed method for imbalanced HOI detection and significantly improve the state-of-the-art performance on rare and unseen HOI categories. Code is available at https://github.com/zhihou7/FCL.
翻訳日:2021-03-16 14:06:59 公開日:2021-03-15
# ニューラルネットワークによる4次元キャプチャの合成表現の学習

Learning Compositional Representation for 4D Captures with Neural ODE ( http://arxiv.org/abs/2103.08271v1 )

ライセンス: Link先を確認
Boyan Jiang, Yinda Zhang, Xingkui Wei, Xiangyang Xue, Yanwei Fu(参考訳) 学習に基づく表現は多くのコンピュータビジョンシステムの成功の鍵となっている。 多くの3D表現が提案されているが、動的に変化する3Dオブジェクトを表現する方法は未解決の問題である。 本稿では,4Dキャプチャの構成表現について述べる。 時間的スパン上の変形する3Dオブジェクトで、それぞれ形状、初期状態、動きを歪めます。 各コンポーネントは、トレーニングされたエンコーダを介して潜在コードで表現される。 動作をモデル化するために、学習された動作コードに条件付けられた初期状態を更新するためにニューラル正規微分方程式(ODE)を訓練し、デコーダは形状コードと更新されたポーズコードを取り、各スタンプで4Dキャプチャを再構成する。 この目的のために、ネットワークが各コンポーネントを効果的に分離することを促すIET(Identity Exchange Training)戦略を提案する。 広範な実験により,提案手法は4次元再構成における既存の最先端の深層学習手法を上回り,運動伝達や完了など,さまざまなタスクにおいて有意に改善することを実証した。

Learning based representation has become the key to the success of many computer vision systems. While many 3D representations have been proposed, it is still an unaddressed problem for how to represent a dynamically changing 3D object. In this paper, we introduce a compositional representation for 4D captures, i.e. a deforming 3D object over a temporal span, that disentangles shape, initial state, and motion respectively. Each component is represented by a latent code via a trained encoder. To model the motion, a neural Ordinary Differential Equation (ODE) is trained to update the initial state conditioned on the learned motion code, and a decoder takes the shape code and the updated pose code to reconstruct 4D captures at each time stamp. To this end, we propose an Identity Exchange Training (IET) strategy to encourage the network to learn effectively decoupling each component. Extensive experiments demonstrate that the proposed method outperforms existing state-of-the-art deep learning based methods on 4D reconstruction, and significantly improves on various tasks, including motion transfer and completion.
翻訳日:2021-03-16 14:06:37 公開日:2021-03-15
# 自己教育による自己精錬:自己知識蒸留による特徴精錬

Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge Distillation ( http://arxiv.org/abs/2103.08273v1 )

ライセンス: Link先を確認
Mingi Ji, Seungjae Shin, Seunghyun Hwang, Gibeom Park, Il-Chul Moon(参考訳) 知識蒸留は、事前訓練された複雑な教師モデルから学生モデルに知識を伝達する方法であり、より小さなネットワークは、展開段階で大きな教師ネットワークを置き換えることができる。 大規模な教師モデルの訓練の必要性を減らすために、最近の文献では、事前訓練された教師ネットワークなしで独自の知識を蒸留するために学生ネットワークを段階的に訓練する自己知識蒸留を導入しました。 自己認識蒸留は、主にデータ拡張に基づくアプローチと補助ネットワークベースのアプローチに分けられるが、データ拡張アプローチは、その局所的な情報を拡張プロセスでゆるめ、セマンティックセグメンテーションのような多様な視覚タスクへの適用を妨げている。 さらに、これらの知識蒸留アプローチは、オブジェクト検出やセマンティクスセグメンテーションコミュニティで広く使われている洗練された特徴マップを受け付けていない。 本稿では, 補助的な自己学習者ネットワークを用いて, 分類器ネットワークの洗練された知識を伝達する, 自己学習蒸留法, 自己学習蒸留法(FRSKD)を提案する。 提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。 したがって、FRSKDは、ローカル情報を保存することを強調する分類やセマンティックセグメンテーションに適用することができる。 様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。 実装されたコードはhttps://github.com/MingiJi/FRSKDで入手できる。

Knowledge distillation is a method of transferring the knowledge from a pretrained complex teacher model to a student model, so a smaller network can replace a large teacher network at the deployment stage. To reduce the necessity of training a large teacher model, the recent literatures introduced a self-knowledge distillation, which trains a student network progressively to distill its own knowledge without a pretrained teacher network. While Self-knowledge distillation is largely divided into a data augmentation based approach and an auxiliary network based approach, the data augmentation approach looses its local information in the augmentation process, which hinders its applicability to diverse vision tasks, such as semantic segmentation. Moreover, these knowledge distillation approaches do not receive the refined feature maps, which are prevalent in the object detection and semantic segmentation community. This paper proposes a novel self-knowledge distillation method, Feature Refinement via Self-Knowledge Distillation (FRSKD), which utilizes an auxiliary self-teacher network to transfer a refined knowledge for the classifier network. Our proposed method, FRSKD, can utilize both soft label and feature-map distillations for the self-knowledge distillation. Therefore, FRSKD can be applied to classification, and semantic segmentation, which emphasize preserving the local information. We demonstrate the effectiveness of FRSKD by enumerating its performance improvements in diverse tasks and benchmark datasets. The implemented code is available at https://github.com/MingiJi/FRSKD.
翻訳日:2021-03-16 14:06:19 公開日:2021-03-15
# 回転座標の高速なグローバル最適回転平均化

Rotation Coordinate Descent for Fast Globally Optimal Rotation Averaging ( http://arxiv.org/abs/2103.08292v1 )

ライセンス: Link先を確認
\'Alvaro Parra, Shin-Fang Chng, Tat-Jun Chin, Anders Eriksson, Ian Reid(参考訳) 測定の騒音レベルの穏やかな条件下では、回転平均は強い双対性を満たし、半定プログラミング(SDP)リラクゼーションによってグローバルなソリューションを得ることができます。 しかし、SDPの一般的な解法は、適度な大きさの回転平均化の場合でさえ、実際にはかなり遅いため、特殊化アルゴリズムの開発は不可欠である。 本稿では,回転座標降下 (RCD) と呼ばれる大域的最適性を実現する高速アルゴリズムを提案する。 半定値行列を行ごと更新することでSDPを解くブロック座標降下(BCD)とは異なり、RCDは繰り返しを通して全ての有効な回転を直接維持・更新する。 これにより、大きな密度の半定義行列を格納する必要がなくなる。 アルゴリズムの収束を数学的に証明し、様々な問題構成に関する最先端のグローバル手法よりも優れた効率を実証的に示す。 有効な回転を維持することで、さらなるスピードアップのためにローカル最適化ルーチンを組み込むことができます。 さらに,本アルゴリズムは実装が容易であり,デモプログラムの補足資料も参照する。

Under mild conditions on the noise level of the measurements, rotation averaging satisfies strong duality, which enables global solutions to be obtained via semidefinite programming (SDP) relaxation. However, generic solvers for SDP are rather slow in practice, even on rotation averaging instances of moderate size, thus developing specialised algorithms is vital. In this paper, we present a fast algorithm that achieves global optimality called rotation coordinate descent (RCD). Unlike block coordinate descent (BCD) which solves SDP by updating the semidefinite matrix in a row-by-row fashion, RCD directly maintains and updates all valid rotations throughout the iterations. This obviates the need to store a large dense semidefinite matrix. We mathematically prove the convergence of our algorithm and empirically show its superior efficiency over state-of-the-art global methods on a variety of problem configurations. Maintaining valid rotations also facilitates incorporating local optimisation routines for further speed-ups. Moreover, our algorithm is simple to implement; see supplementary material for a demonstration program.
翻訳日:2021-03-16 14:05:54 公開日:2021-03-15
# 3D-FFS:センサフュージョンネットワークにおけるフォーカスフラストラムサーチによる高速3次元物体検出

3D-FFS: Faster 3D object detection with Focused Frustum Search in sensor fusion based networks ( http://arxiv.org/abs/2103.08294v1 )

ライセンス: Link先を確認
Aniruddha Ganguly, Tasin Ishmam, Khandker Aftarul Islam, Md Zahidur Rahman and Md. Shamsuzzoha Bayzid(参考訳) 本研究では,センサフュージョンに基づく3Dオブジェクト検出ネットワークを,計算コストの低いヒューリスティックスを用いて大幅に高速化する手法である3D-FFSを提案する。 既存のセンサフュージョンベースネットワークは、2Dオブジェクト検出器からの推論を利用して3D領域の提案を生成する。 しかし、画像に深度情報がないため、これらのネットワークはシーン全体からポイントのセマンティックな特徴を抽出してオブジェクトを見つける。 集約した固有の特性(例えば)を活用することで 3Dポイントクラウドデータの3D−FFSは、3D検索空間を著しく制約し、精度を犠牲にすることなく、トレーニング時間、推論時間、メモリ消費を著しく低減することができる。 3D-FFSの有効性を実証するため、Frustum ConvNet(F-ConvNet)と統合しました。 KITTIデータセットにおける3D-FFSの性能を評価する。 F-ConvNetと比較して62.84%、56.46%のトレーニングと推論時間の改善を実現し、メモリ使用量を58.53%削減しました。 さらに, 自動車, 歩行者, 自転車の精度が0.59%, 2.03%, 3.34%向上した。 3D-FFSは、LiDAR-Cameraベースのセンサー融合認識システムが広く使用されている自動運転車、ドローン、ロボットなど、限られた計算能力を持つ領域で多くの約束を示しています。

In this work we propose 3D-FFS, a novel approach to make sensor fusion based 3D object detection networks significantly faster using a class of computationally inexpensive heuristics. Existing sensor fusion based networks generate 3D region proposals by leveraging inferences from 2D object detectors. However, as images have no depth information, these networks rely on extracting semantic features of points from the entire scene to locate the object. By leveraging aggregated intrinsic properties (e.g. point density) of the 3D point cloud data, 3D-FFS can substantially constrain the 3D search space and thereby significantly reduce training time, inference time and memory consumption without sacrificing accuracy. To demonstrate the efficacy of 3D-FFS, we have integrated it with Frustum ConvNet (F-ConvNet), a prominent sensor fusion based 3D object detection model. We assess the performance of 3D-FFS on the KITTI dataset. Compared to F-ConvNet, we achieve improvements in training and inference times by up to 62.84% and 56.46%, respectively, while reducing the memory usage by up to 58.53%. Additionally, we achieve 0.59%, 2.03% and 3.34% improvements in accuracy for the Car, Pedestrian and Cyclist classes, respectively. 3D-FFS shows a lot of promise in domains with limited computing power, such as autonomous vehicles, drones and robotics where LiDAR-Camera based sensor fusion perception systems are widely used.
翻訳日:2021-03-16 14:05:38 公開日:2021-03-15
# 抗圧縮顔面フォジェリー検出のためのメトリラーニング

Metric Learning for Anti-Compression Facial Forgery Detection ( http://arxiv.org/abs/2103.08397v1 )

ライセンス: Link先を確認
Shenhao Cao and Qin Zou and Xiuqing Mao and Zhongyuan Wang(参考訳) 顔の偽造画像やビデオを検出することは、マルチメディアフォレンジックにおいてますます重要なトピックです。 偽造画像や動画は通常、jpegやh264などの異なるフォーマットに圧縮されるため、未圧縮データで訓練された既存の偽造検出手法は、それらの識別性能を著しく低下させる。 そこで本研究では,オリジナル版と圧縮版の両方を用いた圧縮非感受性埋め込み特徴空間を学習する,新しいアンチ圧縮顔偽造検出フレームワークを提案する。 具体的には, (i) 敵対的学習戦略を用いて非圧縮・圧縮フォジェリーから圧縮非感受性な特徴を抽出すること, (ii) 組込み空間における組込み原像と圧縮画像の距離を小さくする指標損失を構築することによって, 堅牢な分割を学習することである。 実験の結果, 提案手法は, 圧縮顔と非圧縮顔の偽画像の両方を扱うのに極めて有効であることがわかった。

Detecting facial forgery images and videos is an increasingly important topic in multimedia forensics. As forgery images and videos are usually compressed to different formats such as JPEG and H264 when circulating on the Internet, existing forgery-detection methods trained on uncompressed data often have significantly decreased performance in identifying them. To solve this problem, we propose a novel anti-compression facial forgery detection framework, which learns a compression-insensitive embedding feature space utilizing both original and compressed forgeries. Specifically, our approach consists of two novel ideas: (i) extracting compression-insensitive features from both uncompressed and compressed forgeries using an adversarial learning strategy; (ii) learning a robust partition by constructing a metric loss that can reduce the distance of the paired original and compressed images in the embedding space. Experimental results demonstrate that, the proposed method is highly effective in handling both compressed and uncompressed facial forgery images.
翻訳日:2021-03-16 14:05:13 公開日:2021-03-15
# S-AT GCN:空間アテンショングラフ畳み込みネットワークによる3次元物体検出機能強化

S-AT GCN: Spatial-Attention Graph Convolution Network based Feature Enhancement for 3D Object Detection ( http://arxiv.org/abs/2103.08439v1 )

ライセンス: Link先を確認
Li Wang, Chenfei Wang, Xinyu Zhang, Tianwei Lan, Jun Li(参考訳) 3dオブジェクト検出は、意思決定と制御の前提となる自動運転車の環境認識において重要な役割を果たす。 本稿では分割法固有の欠点を解析する。 パーティション操作では、歩行者のような単一のインスタンスを複数の部分にスライスし、それをパーティション効果と呼びます。 本稿では,空間アテンショングラフ変換(S-AT GCN)を提案し,その欠点を克服するために特徴拡張(FE)層を形成する。 s-at gcnはグラフ畳み込みと空間注意機構を利用して局所幾何学的構造特徴を抽出する。 これにより、ネットワークはフォアグラウンドでより有意義な機能を持つことができる。 KITTIの3Dオブジェクトと鳥の目視検出実験により,S-AT ConvおよびFE層は特に小物体に対して有効であることが判明した。 FE層は歩行者クラスのパフォーマンスを3.62\%、サイクリストクラスを4.21\% 3D mAP向上させる。 これらの余分なfe層の時間コストは限られている。 FE層のPointPillarsは48 PFSを達成し、リアルタイムの要件を満たすことができます。

3D object detection plays a crucial role in environmental perception for autonomous vehicles, which is the prerequisite of decision and control. This paper analyses partition-based methods' inherent drawbacks. In the partition operation, a single instance such as a pedestrian is sliced into several pieces, which we call it the partition effect. We propose the Spatial-Attention Graph Convolution (S-AT GCN), forming the Feature Enhancement (FE) layers to overcome this drawback. The S-AT GCN utilizes the graph convolution and the spatial attention mechanism to extract local geometrical structure features. This allows the network to have more meaningful features for the foreground. Our experiments on the KITTI 3D object and bird's eye view detection show that S-AT Conv and FE layers are effective, especially for small objects. FE layers boost the pedestrian class performance by 3.62\% and cyclist class by 4.21\% 3D mAP. The time cost of these extra FE layers are limited. PointPillars with FE layers can achieve 48 PFS, satisfying the real-time requirement.
翻訳日:2021-03-16 14:04:53 公開日:2021-03-15
# 医学画像分割のための領域適応に向けた自己ペースコントラスト学習のマージン

Margin Preserving Self-paced Contrastive Learning Towards Domain Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2103.08454v1 )

ライセンス: Link先を確認
Zhizhe Liu, Zhenfeng Zhu, Shuai Zheng, Yang Liu, Jiayu Zhou and Yao Zhao(参考訳) 教師なしドメイン適応(UDA)におけるソースとターゲットドメインのギャップを埋めるために、最も一般的な戦略は、敵対的学習を通じて特徴空間の限界分布のマッチングに焦点を当てる。 しかし、そのようなカテゴリーに依存しないグローバルアライメントは、クラスレベルのジョイント分布を活用できないため、アライメント分布の識別性が低下する。 そこで本論文では,クロスモーダル医療画像セグメンテーションのための自己ペースコントラスト学習(MPSCL)モデルを保存する新しいマージンを提案する。 コントラスト学習におけるコントラストペアの従来の構成とは異なり、ドメイン適応カテゴリのプロトタイプは正と負のサンプルペアを構成するために利用される。 プログレッシブに洗練されたセマンティックプロトタイプの指導により、埋め込み表現空間の識別性を高めるために、コントラスト損失を減少させる新しいマージンが提案される。 コントラスト学習の監督を強化するために、より情報性の高い擬似ラベルを自己ペースでターゲットドメインに生成し、UDAのカテゴリ認識分布アライメントの恩恵を受ける。 さらに、ドメイン不変表現は2つのドメイン間の共同コントラスト学習によって学習される。 クロスモーダル心セグメンテーションタスクの広範囲な実験により、MPSCLは意味セグメンテーション性能を著しく改善し、様々な最先端手法を大きなマージンで上回ることを示した。

To bridge the gap between the source and target domains in unsupervised domain adaptation (UDA), the most common strategy puts focus on matching the marginal distributions in the feature space through adversarial learning. However, such category-agnostic global alignment lacks of exploiting the class-level joint distributions, causing the aligned distribution less discriminative. To address this issue, we propose in this paper a novel margin preserving self-paced contrastive Learning (MPSCL) model for cross-modal medical image segmentation. Unlike the conventional construction of contrastive pairs in contrastive learning, the domain-adaptive category prototypes are utilized to constitute the positive and negative sample pairs. With the guidance of progressively refined semantic prototypes, a novel margin preserving contrastive loss is proposed to boost the discriminability of embedded representation space. To enhance the supervision for contrastive learning, more informative pseudo-labels are generated in target domain in a self-paced way, thus benefiting the category-aware distribution alignment for UDA. Furthermore, the domain-invariant representations are learned through joint contrastive learning between the two domains. Extensive experiments on cross-modal cardiac segmentation tasks demonstrate that MPSCL significantly improves semantic segmentation performance, and outperforms a wide variety of state-of-the-art methods by a large margin.
翻訳日:2021-03-16 14:04:37 公開日:2021-03-15
# 大型内燃機関の非破壊摩耗評価のための機械学習

Machine Learning for Nondestructive Wear Assessment in Large Internal Combustion Engines ( http://arxiv.org/abs/2103.08482v1 )

ライセンス: Link先を確認
Christoph Angermann, Steinbj\"orn J\'onsson, Markus Haltmeier, Ad\'ela Moravov\'a, Christian Laubichler, Constantin Kiesling, Martin Kober, Wolfgang Fimml(参考訳) デジタル化は、コンディション監視やコンディションベースのメンテナンスなど、大規模な内燃機関に多くの有望なツールを提供する。 これには、ピストンに対する動きにより内面が一定の摩耗を受けるシリンダーライナーなどの主要なエンジンコンポーネントの状態評価が含まれます。 現行の摩耗定量法では, 測定したライナーの分解・切断, および耐力荷重曲線(アボット・ファイアストーン曲線)に基づいて摩耗を定量的に評価する高分解能表面深さ測定が必要となる。 このような参照方法は破壊的であり、時間がかかり、コストがかかる。 本研究の目的は, よりシンプルで非破壊的で信頼性が高く, 有意義な摩耗状態の評価方法を開発することである。 単純なハンドヘルドデバイスで収集可能なライナー表面の反射RGB画像から表面表現軸受荷重曲線を計算できるディープラーニングフレームワークを提案し、調査されたライナーを削除して破壊する必要がない。 この目的のために、畳み込みニューラルネットワークを訓練し、対応する深さプロファイルの軸受荷重曲線を推定し、さらに摩耗評価に使用することができます。 ネットワークのトレーニングは、大型ガスエンジンのライナー面の深度プロファイルと反射像を含むカスタム構築のデータベースを用いて行われる。 提案手法の結果は, 確率的距離指標と, 地中真理とモデル予測の粗さ指標の比較から, 視覚的に検討し, 定量化した。 提案手法の成功は,エンジンおよびサービスを直接現場で定量的な摩耗評価を行う大きな可能性を示唆している。

Digitalization offers a large number of promising tools for large internal combustion engines such as condition monitoring or condition-based maintenance. This includes the status evaluation of key engine components such as cylinder liners, whose inner surfaces are subject to constant wear due to their movement relative to the pistons. Existing state-of-the-art methods for quantifying wear require disassembly and cutting of the examined liner followed by a high-resolution microscopic surface depth measurement that quantitatively evaluates wear based on bearing load curves (also known as Abbott-Firestone curves). Such reference methods are destructive, time-consuming and costly. The goal of the research presented here is to develop simpler and nondestructive yet reliable and meaningful methods for evaluating wear condition. A deep-learning framework is proposed that allows computation of the surface-representing bearing load curves from reflection RGB images of the liner surface that can be collected with a simple handheld device, without the need to remove and destroy the investigated liner. For this purpose, a convolutional neural network is trained to estimate the bearing load curve of the corresponding depth profile, which in turn can be used for further wear evaluation. Training of the network is performed using a custom-built database containing depth profiles and reflection images of liner surfaces of large gas engines. The results of the proposed method are visually examined and quantified considering several probabilistic distance metrics and comparison of roughness indicators between ground truth and model predictions. The observed success of the proposed method suggests its great potential for quantitative wear assessment on engines and service directly on site.
翻訳日:2021-03-16 14:04:13 公開日:2021-03-15
# 識別訓練された分類器のフィードフォワード反転による不変性理解

Understanding invariance via feedforward inversion of discriminatively trained classifiers ( http://arxiv.org/abs/2103.07470v1 )

ライセンス: Link先を確認
Piotr Teterwak, Chiyuan Zhang, Dilip Krishnan, Michael C. Mozer(参考訳) 判別訓練されたニューラルネットワーク分類器は、クラスメンバシップ以外の入力に関する情報が出力層の前に破棄された場合に最適な性能を達成する。 驚くべきことに、過去の研究で、出力ログに余計な視覚的詳細が残っていることが判明した。 この発見は、深い埋め込みを画像にマッピングする反転技術に基づいている。 ロジットの反転は、コヒーレントで自然なイメージや認識可能なオブジェクトクラスをほとんど生成しないが、視覚的な詳細を復元する。 我々はこの現象を新しい手法の合成によりさらに探求し、過去の手法よりも質的に優れている極めて高い忠実度を再現するフィードフォワード逆転モデルを導出する。 逆向きに頑健な分類器モデルに適用した場合、再構成には、元の画像と簡単に混同されるような十分な局所的詳細と大域的構造が含まれており、その復元から対象カテゴリーを明確に把握することができる。 私たちのアプローチはBigGAN(Brock, 2019)をベースにしています。 モデルアーキテクチャとトレーニング目標(特にロバストな損失)の影響、ネットワークが達成する不分散の形式、正しく分類された画像と不正確な分類画像の表現の違い、ロジットとイメージを操作することの影響など、表現の性質を探索するためのツールとして、再構成モデルを使用します。 我々は,ニューラルネットにおける情報フローの性質に関する今後の研究を刺激し,識別モデルを改善するための診断を行うことができると考えている。

A discriminatively trained neural net classifier achieves optimal performance if all information about its input other than class membership has been discarded prior to the output layer. Surprisingly, past research has discovered that some extraneous visual detail remains in the output logits. This finding is based on inversion techniques that map deep embeddings back to images. Although the logit inversions seldom produce coherent, natural images or recognizable object classes, they do recover some visual detail. We explore this phenomenon further using a novel synthesis of methods, yielding a feedforward inversion model that produces remarkably high fidelity reconstructions, qualitatively superior to those of past efforts. When applied to an adversarially robust classifier model, the reconstructions contain sufficient local detail and global structure that they might be confused with the original image in a quick glance, and the object category can clearly be gleaned from the reconstruction. Our approach is based on BigGAN (Brock, 2019), with conditioning on logits instead of one-hot class labels. We use our reconstruction model as a tool for exploring the nature of representations, including: the influence of model architecture and training objectives (specifically robust losses), the forms of invariance that networks achieve, representational differences between correctly and incorrectly classified images, and the effects of manipulating logits and images. We believe that our method can inspire future investigations into the nature of information flow in a neural net and can provide diagnostics for improving discriminative models.
翻訳日:2021-03-16 14:03:36 公開日:2021-03-15
# 相互情報状態固有の制御

Mutual Information State Intrinsic Control ( http://arxiv.org/abs/2103.08107v1 )

ライセンス: Link先を確認
Rui Zhao, Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu(参考訳) 強化学習は多くの困難なタスクで非常に成功したことが示されている。 しかし、成功は見事な報酬に大きく依存している。 本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。 心理学における自己意識の概念に動機づけられ、エージェントが自身を構成するものを知っていると仮定し、エージェントが環境を最大限に制御することを奨励する新しい本質的な目的を提案する。 我々は,現行のエージェントポリシーの下で,エージェント状態と周辺状態の相互情報として,この報酬を数学的に定式化する。 この新しい本質的な動機により、タスク報酬を使わずに初めてピックアンドプレースタスクを完了できるなど、以前の方法よりも優れた結果を得ることができます。 実験結果を示すビデオがhttps://youtu.be/aucwc9rthpkで公開されている。

Reinforcement learning has been shown to be highly successful at many challenging tasks. However, success heavily relies on well-shaped rewards. Intrinsically motivated RL attempts to remove this constraint by defining an intrinsic reward function. Motivated by the self-consciousness concept in psychology, we make a natural assumption that the agent knows what constitutes itself, and propose a new intrinsic objective that encourages the agent to have maximum control on the environment. We mathematically formalize this reward as the mutual information between the agent state and the surrounding state under the current agent policy. With this new intrinsic motivation, we are able to outperform previous methods, including being able to complete the pick-and-place task for the first time without using any task reward. A video showing experimental results is available at https://youtu.be/AUCwc9RThpk.
翻訳日:2021-03-16 14:02:44 公開日:2021-03-15
# 局所性に基づく自己監督学習によるニューラルネットワーク探索コントローラの事前学習

Pretraining Neural Architecture Search Controllers with Locality-based Self-Supervised Learning ( http://arxiv.org/abs/2103.08157v1 )

ライセンス: Link先を確認
Kwanghee Choi, Minyoung Choe, Hyelee Lee(参考訳) neural architecture search(nas)は、機械学習のさまざまな分野を育んでいる。 その顕著な献身にもかかわらず、多くは高い計算コストの本質的な制限を批判してきた。 コントローラベースのNASに一般的に適用できるプリトレーニングスキームを提案することで、これを改善することを目指しています。 本手法は局所性に基づく自己教師付き分類タスクであり,ネットワークアーキテクチャの構造的類似性を活用し,優れたアーキテクチャ表現を得る。 この手法をneural architecture optimization(nao)に組み込んで,事前学習した組込みとその有効性を分析し,メトリック学習損失がnasに好影響を与えることを強調する。 コードは \url{https://github.com/Multi-Objective-NAS/self-supervised-nas} で入手できます。

Neural architecture search (NAS) has fostered various fields of machine learning. Despite its prominent dedications, many have criticized the intrinsic limitations of high computational cost. We aim to ameliorate this by proposing a pretraining scheme that can be generally applied to controller-based NAS. Our method, locality-based self-supervised classification task, leverages the structural similarity of network architectures to obtain good architecture representations. We incorporate our method into neural architecture optimization (NAO) to analyze the pretrained embeddings and its effectiveness and highlight that adding metric learning loss brings a favorable impact on NAS. Our code is available at \url{https://github.com/Multi-Objective-NAS/self-supervised-nas}.
翻訳日:2021-03-16 14:02:32 公開日:2021-03-15
# 対人訓練はロボット学習の準備ができていない

Adversarial Training is Not Ready for Robot Learning ( http://arxiv.org/abs/2103.08187v1 )

ライセンス: Link先を確認
Mathias Lechner, Ramin Hasani, Radu Grosu, Daniela Rus, Thomas A. Henzinger(参考訳) 対人訓練は、正規有界摂動に耐性を持つディープラーニングモデルを、名目性能低下のコストで訓練する効果的な方法である。 敵対的トレーニングは、オープンワールド決定クリティカルなアプリケーションに展開されるディープモデルの堅牢性と安全性を高めるように見えるが、ロボット学習設定における望ましくない振る舞いを誘発する。 そこで本研究では,神経制御系が過渡的,系統的,条件的エラーの3種類の欠陥に陥っていることを理論的および実験的に示す。 我々はまず,より汎用的な仕様を可能にする安全領域最適化スキームに敵意訓練を一般化する。 そして、そのような学習プロセスが特定のエラープロファイルを引き起こす傾向があることを証明します。 ロボット学習課題における実験的安全性分析により理論的結果を支援する。 この結果から, ロボット学習にはまだ対応できていないことが示唆された。

Adversarial training is an effective method to train deep learning models that are resilient to norm-bounded perturbations, with the cost of nominal performance drop. While adversarial training appears to enhance the robustness and safety of a deep model deployed in open-world decision-critical applications, counterintuitively, it induces undesired behaviors in robot learning settings. In this paper, we show theoretically and experimentally that neural controllers obtained via adversarial training are subjected to three types of defects, namely transient, systematic, and conditional errors. We first generalize adversarial training to a safety-domain optimization scheme allowing for more generic specifications. We then prove that such a learning process tends to cause certain error profiles. We support our theoretical results by a thorough experimental safety analysis in a robot-learning task. Our results suggest that adversarial training is not yet ready for robot learning.
翻訳日:2021-03-16 14:02:21 公開日:2021-03-15
# 信頼度推定による擬似ラベルによる選択的学習による半教師付き学習

Semi-supervised learning by selective training with pseudo labels via confidence estimation ( http://arxiv.org/abs/2103.08193v1 )

ライセンス: Link先を確認
Masato Ishii(参考訳) 疑似ラベルを用いた選択的トレーニングを採用した,新しい半教師付き学習(SSL)手法を提案する。 本手法では, 疑似ラベルを生成し, その信頼度を推定し, 疑似ラベルの正しさを推定する。 次に、モデル更新に使用する擬似ラベル付きデータを明示的に選択する。 具体的には、擬似ラベル付きデータの損失がデータ増強に対して敏感に増加すると仮定し、データ増強を適用した後、比較的小さな損失に対応するデータを選択する。 信頼度は、選択すべき擬似ラベルデータ候補のスクリーニングだけでなく、ミニバッチ内で選択すべき擬似ラベルデータの数を自動的に決定するためにも用いられる。 また,本手法では信頼度を正確に推定することが重要であるため,トレーニングデータ数が小さい場合でも信頼度保証モデルを得ることが可能な,mixconfと呼ばれる新しいデータ拡張手法を提案する。 いくつかのベンチマークデータセットによる実験結果は、当社のSSLメソッドとMixConfの利点を検証します。

We propose a novel semi-supervised learning (SSL) method that adopts selective training with pseudo labels. In our method, we generate hard pseudo-labels and also estimate their confidence, which represents how likely each pseudo-label is to be correct. Then, we explicitly select which pseudo-labeled data should be used to update the model. Specifically, assuming that loss on incorrectly pseudo-labeled data sensitively increase against data augmentation, we select the data corresponding to relatively small loss after applying data augmentation. The confidence is used not only for screening candidates of pseudo-labeled data to be selected but also for automatically deciding how many pseudo-labeled data should be selected within a mini-batch. Since accurate estimation of the confidence is crucial in our method, we also propose a new data augmentation method, called MixConf, that enables us to obtain confidence-calibrated models even when the number of training data is small. Experimental results with several benchmark datasets validate the advantage of our SSL method as well as MixConf.
翻訳日:2021-03-16 14:02:07 公開日:2021-03-15
# 神経常微分方程式のメタソルバ

Meta-Solver for Neural Ordinary Differential Equations ( http://arxiv.org/abs/2103.08561v1 )

ライセンス: Link先を確認
Julia Gusak, Alexandr Katrutsa, Talgat Daulbaev, Andrzej Cichocki, Ivan Oseledets(参考訳) ニューラル常微分方程式(ODE)を訓練する従来の手法は、ODEソルバを固定し、ニューラルネットワークの重みを学習して目標損失関数を最適化する。 しかし、そのようなアプローチは特定の離散化法とその特性のために調整されており、選択された応用には最適ではなく、与えられた解法に過度に適合する可能性がある。 本論文では,ソルバ空間の変動がニューラルODEの性能をいかに向上させるかについて検討する。 2つ以上のスカラー変数によってパラメータ化されるrunge-kuttaメソッドの族を考える。 本研究では,ソルバの特性に基づいて,事前定義されたソルバにオーバーフィットする神経ODEの低減と,それらの挙動を評価するための基準を提案する。 さらに, 解法パラメータ化の適切な選択は, 敵攻撃に対するロバスト性の観点から, ニューラルODEモデルに大きく影響することを示した。 近年,ニューラルネットワークは従来のCNNよりも頑健性が高いことが示されている。 本研究は,与えられたタスクの解法選択を最適化することで,モデルのロバスト性をさらに向上できることを実証する。 実験を再現するソースコードは、https://github.com/juliagusak/neural-ode-metasolverで閲覧できます。

A conventional approach to train neural ordinary differential equations (ODEs) is to fix an ODE solver and then learn the neural network's weights to optimize a target loss function. However, such an approach is tailored for a specific discretization method and its properties, which may not be optimal for the selected application and yield the overfitting to the given solver. In our paper, we investigate how the variability in solvers' space can improve neural ODEs performance. We consider a family of Runge-Kutta methods that are parameterized by no more than two scalar variables. Based on the solvers' properties, we propose an approach to decrease neural ODEs overfitting to the pre-defined solver, along with a criterion to evaluate such behaviour. Moreover, we show that the right choice of solver parameterization can significantly affect neural ODEs models in terms of robustness to adversarial attacks. Recently it was shown that neural ODEs demonstrate superiority over conventional CNNs in terms of robustness. Our work demonstrates that the model robustness can be further improved by optimizing solver choice for a given task. The source code to reproduce our experiments is available at https://github.com/juliagusak/neural-ode-metasolver.
翻訳日:2021-03-16 14:00:24 公開日:2021-03-15
# 確率的文法進化

Probabilistic Grammatical Evolution ( http://arxiv.org/abs/2103.08389v1 )

ライセンス: Link先を確認
Jessica M\'egane, Nuno Louren\c{c}o, Penousal Machado(参考訳) Grammatical Evolution (GE) は、最もポピュラーな遺伝的プログラミング (GP) の一種であり、いくつかの問題領域で成功を収めている。 当初の提案以来、GEの主な問題に対処し、パフォーマンスを改善するために、多くの拡張が提案されている。 本稿では,geのための新しい遺伝子型表現と新しいマッピング機構を導入する確率論的文法進化(pge)を提案する。 具体的には、最適な個人を構築するために選ばれた生産を考慮して、進化プロセス中に確率が適応される確率的コンテキストフリー文法(PCFG)に頼っています。 ジェノタイプは実値のリストであり、各値は導出規則を選択する可能性を表す。 2つの回帰問題におけるPGEの性能を評価し、それをGEおよびStructured Grammatical Evolution (SGE)と比較する。 その結果、PGEはGEよりも優れた性能を示し、統計的に有意な差があり、SGEと比較すると同様の性能を示した。

Grammatical Evolution (GE) is one of the most popular Genetic Programming (GP) variants, and it has been used with success in several problem domains. Since the original proposal, many enhancements have been proposed to GE in order to address some of its main issues and improve its performance. In this paper we propose Probabilistic Grammatical Evolution (PGE), which introduces a new genotypic representation and new mapping mechanism for GE. Specifically, we resort to a Probabilistic Context-Free Grammar (PCFG) where its probabilities are adapted during the evolutionary process, taking into account the productions chosen to construct the fittest individual. The genotype is a list of real values, where each value represents the likelihood of selecting a derivation rule. We evaluate the performance of PGE in two regression problems and compare it with GE and Structured Grammatical Evolution (SGE). The results show that PGE has a a better performance than GE, with statistically significant differences, and achieved similar performance when comparing with SGE.
翻訳日:2021-03-16 13:58:08 公開日:2021-03-15
# iWarded: データログ+/-推論のベンチマークシステム(技術報告)

iWarded: A System for Benchmarking Datalog+/- Reasoning (technical report) ( http://arxiv.org/abs/2103.08588v1 )

ライセンス: Link先を確認
Teodoro Baldazzi (Universit\`a Roma Tre), Luigi Bellomarini (Banca d'Italia), Emanuel Sallinger (University of Oxford and TU Wien), Paolo Atzeni (Universit\`a Roma Tre)(参考訳) 近年、論理に基づく推論システムの人気が高まっており、研究や工業的関心や知識グラフの分野における多くの応用が盛んになっている。 それにもかかわらず、非自明な推論設定とベンチマークシナリオを生成できる特定のツールの欠如を観察できる。 結果として、推論システムの評価、分析、比較は複雑なタスクであり、特に、採用した論理断片の理論的基盤を生かした洗練された最適化と実行テクニックを具現化している場合である。 本稿では,このギャップを埋めるために,過去数年間で復活を遂げてきたデータログの拡張系であるDatalog+/-を採用した論理ベースの推論システムのベンチマークに使用する,非常に大きく,複雑で,現実的な推論設定を生成するシステムiWardedを導入することを目的とする。 特に、iWardedは、計算複雑性と表現力の非常に良いトレードオフを持つ言語であるWarded Datalog+/-の推論設定を生成する。 本稿では,iWardedシステムと,有効シナリオを生成するための新しい理論結果の集合について述べる。 データログベースの言語は一般的に関心があり、採用が増えているため、iWardedは現在および将来のシステムの実証的評価の一歩であると考えています。

Recent years have seen increasing popularity of logic-based reasoning systems, with research and industrial interest as well as many flourishing applications in the area of Knowledge Graphs. Despite that, one can observe a substantial lack of specific tools able to generate nontrivial reasoning settings and benchmark scenarios. As a consequence, evaluating, analysing and comparing reasoning systems is a complex task, especially when they embody sophisticated optimizations and execution techniques that leverage the theoretical underpinnings of the adopted logic fragment. In this paper, we aim at filling this gap by introducing iWarded, a system that can generate very large, complex, realistic reasoning settings to be used for the benchmarking of logic-based reasoning systems adopting Datalog+/-, a family of extensions of Datalog that has seen a resurgence in the last few years. In particular, iWarded generates reasoning settings for Warded Datalog+/-, a language with a very good tradeoff between computational complexity and expressive power. In the paper, we present the iWarded system and a set of novel theoretical results adopted to generate effective scenarios. As Datalog-based languages are of general interest and see increasing adoption, we believe that iWarded is a step forward in the empirical evaluation of current and future systems.
翻訳日:2021-03-16 13:57:51 公開日:2021-03-15
# XLST:低リソース音声認識のための多言語表現学習のためのクロスリンガルセルフトレーニング

XLST: Cross-lingual Self-training to Learn Multilingual Representation for Low Resource Speech Recognition ( http://arxiv.org/abs/2103.08207v1 )

ライセンス: Link先を確認
Zi-Qiang Zhang, Yan Song, Ming-Hui Wu, Xin Fang, Li-Rong Dai(参考訳) 本稿では,クロスリンガル自己訓練(XLST)と呼ばれる弱監督型多言語表現学習フレームワークを提案する。 XLSTは、多言語非注釈データの表現学習を改善するために、高リソース言語からの少量の注釈付きデータを利用することができる。 具体的には、XLSTは、これらの2つのモデルの出力埋め込みの類似性を最大化することにより、初期表現を生成するために教師付きトレーニングモデルと、それらから学習する別のモデルを使用する。 さらに、移動平均機構とマルチビューデータ拡張がxlstにとって重要なものであることが実験的に示される。 XLSTの有効性を評価するため,CommonVoice corpusの総合的な実験を行った。 5 下流低リソース ASR タスクの結果から,我々の多言語事前学習モデルは,100 時間追加の注釈付き英語データを活用することにより,最先端の自己教師付き手法よりも比較的 18.6% の削減を実現していることがわかった。

In this paper, we propose a weakly supervised multilingual representation learning framework, called cross-lingual self-training (XLST). XLST is able to utilize a small amount of annotated data from high-resource languages to improve the representation learning on multilingual un-annotated data. Specifically, XLST uses a supervised trained model to produce initial representations and another model to learn from them, by maximizing the similarity between output embeddings of these two models. Furthermore, the moving average mechanism and multi-view data augmentation are employed, which are experimentally shown to be crucial to XLST. Comprehensive experiments have been conducted on the CommonVoice corpus to evaluate the effectiveness of XLST. Results on 5 downstream low-resource ASR tasks shows that our multilingual pretrained model achieves relatively 18.6% PER reduction over the state-of-the-art self-supervised method, with leveraging additional 100 hours of annotated English data.
翻訳日:2021-03-16 13:57:04 公開日:2021-03-15
# メタン/空気燃焼の速度論的モデル学習に向けて

Toward Machine Learned Highly Reduce Kinetic Models For Methane/Air Combustion ( http://arxiv.org/abs/2103.08377v1 )

ライセンス: Link先を確認
Mark Kelly, Stephen Dooley, Gilles Bourque(参考訳) メタンの正確な低次元化学動力学モデルは、効率的なガスタービン燃焼器の設計に不可欠なコンポーネントです。 計算流体力学(CFD)に結合された運動モデルは、物理実験と比較して、運転条件、燃料組成、燃焼器設計の影響を迅速かつ効率的にテストする方法を提供する。 しかし、詳細な化学動力学モデルはCFDでの使用には計算コストがかかりすぎる。 対象とする詳細なモデル特性を高い忠実度で再現するコンパクトモデルを作成するための,新しいデータ指向三段階法を提案する。 最初のステップでは、パスフラックス分析(PFA)を使用して118種を含む詳細なモデルからすべての非必須種を取り除くことによって、減少した運動モデルを得る。 まず、選択された種(OH,H,CO,CH4)のプロファイルを完全にかき混ぜた反応器(PSR)シミュレーションで再現し、その後、詳細なモデルによる層火炎速度の予測に再最適化する。 これは、MLOCK(Machine Learned Optimization of Chemical Kinetics)アルゴリズムによって実装されている。 MLOCKアルゴリズムは、選択された反応に対する3つのアレニウスパラメータを体系的に摂動させ、最適化対象のコンパクトモデルの計算における誤差を定量化する客観的な誤差関数を通じて新しいパラメータの適合性を評価する。 この戦略は、メタン/空気燃焼のための19種と15種のコンパクトモデルによって実証される。 両方のコンパクトなモデルは、リーン条件とリッチ条件の両方で0Dおよび1D計算の範囲にわたって検証され、親の詳細なメカニズムと良好な一致を示します。 15種モデルは、現在の最先端モデルよりも精度とモデルが有効な条件の範囲の両方で優れていることが示されている。

Accurate low dimension chemical kinetic models for methane are an essential component in the design of efficient gas turbine combustors. Kinetic models coupled to computational fluid dynamics (CFD) provide quick and efficient ways to test the effect of operating conditions, fuel composition and combustor design compared to physical experiments. However, detailed chemical kinetic models are too computationally expensive for use in CFD. We propose a novel data orientated three-step methodology to produce compact models that replicate a target set of detailed model properties to a high fidelity. In the first step, a reduced kinetic model is obtained by removing all non-essential species from the detailed model containing 118 species using path flux analysis (PFA). It is then numerically optimised to replicate the detailed model's prediction in two rounds; First, to selected species (OH,H,CO and CH4) profiles in perfectly stirred reactor (PSR) simulations and then re-optimised to the detailed model's prediction of the laminar flame speed. This is implemented by a purposely developed Machine Learned Optimisation of Chemical Kinetics (MLOCK) algorithm. The MLOCK algorithm systematically perturbs all three Arrhenius parameters for selected reactions and assesses the suitability of the new parameters through an objective error function which quantifies the error in the compact model's calculation of the optimisation target. This strategy is demonstrated through the production of a 19 species and a 15 species compact model for methane/air combustion. Both compact models are validated across a range of 0D and 1D calculations across both lean and rich conditions and shows good agreement to the parent detailed mechanism. The 15 species model is shown to outperform the current state-of-art models in both accuracy and range of conditions the model is valid over.
翻訳日:2021-03-16 13:56:29 公開日:2021-03-15
# 多変量サイバーリスクのモデル化--Deep Learning Dating Extreme Value Theory

Modeling Multivariate Cyber Risks: Deep Learning Dating Extreme Value Theory ( http://arxiv.org/abs/2103.08450v1 )

ライセンス: Link先を確認
Mingyue Zhang Wu, Jinzhu Luo, Xing Fang, Maochao Xu, Peng Zhao(参考訳) サイバーリスクのモデリングは、サイバーセキュリティの分野では重要だが困難なタスクである。 主に、リスクパターンの高次元性と重い尾が原因である。 これらの障害は、多変量サイバーリスクの統計モデルの開発を妨げる。 本研究では,深層学習と極値理論に依存する多変量サイバーリスクをモデル化するための新しいアプローチを提案する。 提案モデルでは, 深層学習による高精度な点予測だけでなく, 極値理論による高量子化予測も実現可能である。 シミュレーション研究は,提案モデルが多変量サイバーリスクをモデル化し,良好な予測性能が得られることを示した。 実際のハニーポット攻撃データに基づく実証的な証拠は、提案モデルが極めて良好な予測性能を有することを示している。

Modeling cyber risks has been an important but challenging task in the domain of cyber security. It is mainly because of the high dimensionality and heavy tails of risk patterns. Those obstacles have hindered the development of statistical modeling of the multivariate cyber risks. In this work, we propose a novel approach for modeling the multivariate cyber risks which relies on the deep learning and extreme value theory. The proposed model not only enjoys the high accurate point predictions via deep learning but also can provide the satisfactory high quantile prediction via extreme value theory. The simulation study shows that the proposed model can model the multivariate cyber risks very well and provide satisfactory prediction performances. The empirical evidence based on real honeypot attack data also shows that the proposed model has very satisfactory prediction performances.
翻訳日:2021-03-16 13:55:59 公開日:2021-03-15
# MBAPose: Mask and Bounding-Box Aware Pose estimate of Surgical Instruments with Photorealistic Domain Randomization

MBAPose: Mask and Bounding-Box Aware Pose Estimation of Surgical Instruments with Photorealistic Domain Randomization ( http://arxiv.org/abs/2103.08105v1 )

ライセンス: Link先を確認
Masakazu Yoshimura and Murilo Marques Marinho and Kanako Harada and Mamoru Mitsuishi(参考訳) 手術ロボットは、手術前に校正されるロボットの幾何学的パラメータに基づいて、事前モデルを用いて制御される。 実際の手術環境でロボットを使用する際の課題の1つは、パラメータが時間とともに変化し、結果として制御精度が低下することである。 この状況下で、当社グループはセンサーを追加せずにオンライン校正戦略を調査しています。 その目標に向かって、我々は内視鏡画像における楽器の軸のポーズを推定するアルゴリズムを開発しました。 そこで本研究では,その先行研究を基礎として,剛体手術器具の姿勢をより正確に推定するための新しい枠組みを提案する。 我々の戦略はMBAPoseと呼ばれる新しいポーズ推定モデルと合成学習データの利用に基づいている。 本実験では, 翻訳誤差が21%, 合成試験データのオリエンテーション誤差が26%と改善した。 実際のテストデータによる結果は、さらなる研究のベースラインを提供する。

Surgical robots are controlled using a priori models based on robots' geometric parameters, which are calibrated before the surgical procedure. One of the challenges in using robots in real surgical settings is that parameters change over time, consequently deteriorating control accuracy. In this context, our group has been investigating online calibration strategies without added sensors. In one step toward that goal, we have developed an algorithm to estimate the pose of the instruments' shafts in endoscopic images. In this study, we build upon that earlier work and propose a new framework to more precisely estimate the pose of a rigid surgical instrument. Our strategy is based on a novel pose estimation model called MBAPose and the use of synthetic training data. Our experiments demonstrated an improvement of 21 % for translation error and 26 % for orientation error on synthetic test data with respect to our previous work. Results with real test data provide a baseline for further research.
翻訳日:2021-03-16 13:53:36 公開日:2021-03-15
# IMUを信頼する: IMUドリフトを無視する理由

Trust Your IMU: Consequences of Ignoring the IMU Drift ( http://arxiv.org/abs/2103.08286v1 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,慣性測定単位(imus)の現代的な事前積分法は,短時間のドリフトを無視できるほど正確であると主張する。 これにより、単純化されたカメラモデルを考えることができ、それによってさらに固有のキャリブレーションが可能となる。 IMUデータを活用しながら、未知で等価な焦点距離とラジアル歪みプロファイルで相対ポーズ問題を共同で解決する初のソルバを開発しています。 さらに,一部校正されたセットアップでは,精度が小さく,あるいは無視できるような,最先端アルゴリズムに比べて大幅な高速化を示す。 提案するアルゴリズムは合成データと実データの両方でテストされ、後者は無人航空機(uavs)によるナビゲーションに焦点を当てている。 市販の異なる低コストのUAV上で提案されたソルバーを評価し、IMUドリフトに関する新しい仮定が実用アプリケーションで実現可能であることを実証する。 拡張された内在的自己校正により、歪んだ入力画像の使用が可能となり、現在の最先端の方法に比べて退屈な校正プロセスが時代遅れになる。

In this paper, we argue that modern pre-integration methods for inertial measurement units (IMUs) are accurate enough to ignore the drift for short time intervals. This allows us to consider a simplified camera model, which in turn admits further intrinsic calibration. We develop the first-ever solver to jointly solve the relative pose problem with unknown and equal focal length and radial distortion profile while utilizing the IMU data. Furthermore, we show significant speed-up compared to state-of-the-art algorithms, with small or negligible loss in accuracy for partially calibrated setups. The proposed algorithms are tested on both synthetic and real data, where the latter is focused on navigation using unmanned aerial vehicles (UAVs). We evaluate the proposed solvers on different commercially available low-cost UAVs, and demonstrate that the novel assumption on IMU drift is feasible in real-life applications. The extended intrinsic auto-calibration enables us to use distorted input images, making tedious calibration processes obsolete, compared to current state-of-the-art methods.
翻訳日:2021-03-16 13:53:20 公開日:2021-03-15
# 高効率スーパーリゾリューションのための学習周波数認識ダイナミックネットワーク

Learning Frequency-aware Dynamic Network for Efficient Super-Resolution ( http://arxiv.org/abs/2103.08357v1 )

ライセンス: Link先を確認
Wenbin Xie, Dehua Song, Chang Xu, Chunjing Xu, Hui Zhang, Yunhe Wang(参考訳) 深層学習に基づく手法、特に畳み込みニューラルネットワーク(cnns)は、単一画像超解像(sisr)の分野でうまく適用されている。 より良い忠実性と視覚的品質を得るために、既存のネットワークのほとんどは、大規模な計算を備えた重い設計です。 しかし、現代のモバイル機器の計算資源は限られており、コストを抑えることは容易ではない。 本稿では,離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。 実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。 画素や画像パッチは低周波領域に属するため、テクスチャの詳細は比較的少ないため、この動的ネットワークは結果の超解像度画像の品質に影響を与えない。 さらに,提案する動的ネットワークに予測器を組み込んで,手作りの周波数認識マスクをエンド・ツー・エンドで調整する。 ベンチマークSISRモデルおよびデータセット上で実施された広範な実験は、視覚的品質と計算的複雑さのより良いトレードオフを得るために、様々なSISR神経アーキテクチャに周波数認識動的ネットワークを使用できることを示している。 例えば、最新のSISR性能を維持しながら、約$50\%$でEDSRモデルのFLOPを減らすことができます。

Deep learning based methods, especially convolutional neural networks (CNNs) have been successfully applied in the field of single image super-resolution (SISR). To obtain better fidelity and visual quality, most of existing networks are of heavy design with massive computation. However, the computation resources of modern mobile devices are limited, which cannot easily support the expensive cost. To this end, this paper explores a novel frequency-aware dynamic network for dividing the input into multiple parts according to its coefficients in the discrete cosine transform (DCT) domain. In practice, the high-frequency part will be processed using expensive operations and the lower-frequency part is assigned with cheap operations to relieve the computation burden. Since pixels or image patches belong to low-frequency areas contain relatively few textural details, this dynamic network will not affect the quality of resulting super-resolution images. In addition, we embed predictors into the proposed dynamic network to end-to-end fine-tune the handcrafted frequency-aware masks. Extensive experiments conducted on benchmark SISR models and datasets show that the frequency-aware dynamic network can be employed for various SISR neural architectures to obtain the better tradeoff between visual quality and computational complexity. For instance, we can reduce the FLOPs of EDSR model by approximate $50\%$ while preserving state-of-the-art SISR performance.
翻訳日:2021-03-16 13:53:03 公開日:2021-03-15
# Beyond ANN: 効率的な場所認識のための構造知識の探索

Beyond ANN: Exploiting Structural Knowledge for Efficient Place Recognition ( http://arxiv.org/abs/2103.08366v1 )

ライセンス: Link先を確認
Stefan Schubert, Peer Neubert, Peter Protzel(参考訳) 視覚的な場所認識は、日時、天候、季節によって潜在的条件が変化しても、データベースイメージのセットで同じ場所の問い合わせ画像を認識するタスクである。 SLAMにおけるループ閉鎖検出とグローバルなローカライゼーションのための候補選択に重要である。 文献における多くのアプローチは、クエリとすべてのデータベースイメージ間の計算効率の悪いフルイメージ比較を行う。 パフォーマンスを損なうことなく、最も有望な画像ペアのみを迅速かつスパースに比較できる、効率的な位置認識のための適切な方法がまだ欠落している。 これは部分的にANNベースの方法によって与えられるが、それらは精度と追加のメモリ消費のために速度を交換し、多くはデータベース内のループの場合に一致するデータベースイメージの任意の数を見つけることができません。 本稿では,オンラインに適用可能な効率的な位置認識のための高速シーケンスベース手法を提案する。 シーケンスの損失から回復するために再ローカライズを使用し、通常利用可能なが、データベース内の不使用の類似性を利用して、データベース内のループや停止の場合には、クエリ毎に一致するデータベースイメージを検出できる。 5つのデータセットと21のシーケンスの組み合わせについて広範な実験を行い,本手法が2つの最先端手法,さらにはフルイメージ比較よりも優れており,その性能と評価画像ペアの割合とのトレードオフも良好であることを示す。 Matlabのソースコードは、この論文の公開を予定している。

Visual place recognition is the task of recognizing same places of query images in a set of database images, despite potential condition changes due to time of day, weather or seasons. It is important for loop closure detection in SLAM and candidate selection for global localization. Many approaches in the literature perform computationally inefficient full image comparisons between queries and all database images. There is still a lack of suited methods for efficient place recognition that allow a fast, sparse comparison of only the most promising image pairs without any loss in performance. While this is partially given by ANN-based methods, they trade speed for precision and additional memory consumption, and many cannot find arbitrary numbers of matching database images in case of loops in the database. In this paper, we propose a novel fast sequence-based method for efficient place recognition that can be applied online. It uses relocalization to recover from sequence losses, and exploits usually available but often unused intra-database similarities for a potential detection of all matching database images for each query in case of loops or stops in the database. We performed extensive experimental evaluations over five datasets and 21 sequence combinations, and show that our method outperforms two state-of-the-art approaches and even full image comparisons in many cases, while providing a good tradeoff between performance and percentage of evaluated image pairs. Source code for Matlab will be provided with publication of this paper.
翻訳日:2021-03-16 13:52:41 公開日:2021-03-15
# 脳MRI画像における不確かさに基づく生体年齢推定

Uncertainty-Based Biological Age Estimation of Brain MRI Scans ( http://arxiv.org/abs/2103.08491v1 )

ライセンス: Link先を確認
Karim Armanious, Sherif Abdulatif, Wenbin Shi, Tobias Hepp, Sergios Gatidis, Bin Yang(参考訳) 年齢は現代の診断手順の重要な要因です。 しかし, 実際の生物年代 (BA) の評価は, 基準地味ラベルが欠如しているため, 依然として大変な課題である。 現在のBA推定手法は骨格画像に制限されるか、または全身BA評価をもたらす非画像モダリティに依存している。 しかし、様々な臓器系は生活習慣や遺伝的要因によって異なる老化特性を示す可能性がある。 本研究では3次元磁気共鳴画像(MRI)を用いた臓器特異的BA推定のための新しい枠組みを提案する。 第1のステップとして、このフレームワークは、患者に依存したアリュータ性不確実性とともに、年表年齢(ca)を予測する。 次に、予測不確実性スコアに基づいて、非定型老化患者を所定の人口から分離する反復訓練アルゴリズムを用いる。 この方法では、残りの人口に対する新しいモデルの訓練は、真のbaの振る舞いを近似すべきであると仮定する。 本研究では, 健常者およびアルツハイマー病患者を含む脳MRIデータセットに対して, 提案手法を適用した。 アルツハイマー病患者における予期したBAと予期される認知低下との相関性を示す。

Age is an essential factor in modern diagnostic procedures. However, assessment of the true biological age (BA) remains a daunting task due to the lack of reference ground-truth labels. Current BA estimation approaches are either restricted to skeletal images or rely on non-imaging modalities that yield a whole-body BA assessment. However, various organ systems may exhibit different aging characteristics due to lifestyle and genetic factors. In this initial study, we propose a new framework for organ-specific BA estimation utilizing 3D magnetic resonance image (MRI) scans. As a first step, this framework predicts the chronological age (CA) together with the corresponding patient-dependent aleatoric uncertainty. An iterative training algorithm is then utilized to segregate atypical aging patients from the given population based on the predicted uncertainty scores. In this manner, we hypothesize that training a new model on the remaining population should approximate the true BA behavior. We apply the proposed methodology on a brain MRI dataset containing healthy individuals as well as Alzheimer's patients. We demonstrate the correlation between the predicted BAs and the expected cognitive deterioration in Alzheimer's patients.
翻訳日:2021-03-16 13:52:18 公開日:2021-03-15
# テッパー線を横切る:具体化aiの動的社会性を記述するための新しいオントロジー

Crossing the Tepper Line: An Emerging Ontology for Describing the Dynamic Sociality of Embodied AI ( http://arxiv.org/abs/2103.08079v1 )

ライセンス: Link先を確認
Katie Seaborn, Peter Pennefather, Norihisa P. Miyake, Mihoko Otake-Matsuura(参考訳) 人工知能(AI)は、タスクを実行し、人々と意思決定をサポートするために、世界に具体化され、組み込まれている。 ロボット、レコメンダーシステム、音声アシスタント、仮想人間 - これらの異なるタイプの具体化されたAIには共通点がありますか? ここでは、どのようにして「社会的に具体化されたAI」として現れるかを示す。 私たちはこれを、人間によって社会的かつエージェント的と認識された場合、対話的なコンテキスト内でaiを「循環的に」実施する状態と定義します。 私たちは、具体化されたAIが社会的に具体化されたAIに動的に遷移する方法を説明する作業オントロジーを提供します。 テッパーラインのしきい値を記述するためのオントロジ的ヒューリスティックを提案する。 カードソートワークショップのエキスパートインサイトで理論的な作業を強化します。 このヒューリスティックの動的および文脈的性質を説明するための2つのケーススタディで終わる。

Artificial intelligences (AI) are increasingly being embodied and embedded in the world to carry out tasks and support decision-making with and for people. Robots, recommender systems, voice assistants, virtual humans - do these disparate types of embodied AI have something in common? Here we show how they can manifest as "socially embodied AI." We define this as the state that embodied AI "circumstantially" take on within interactive contexts when perceived as both social and agentic by people. We offer a working ontology that describes how embodied AI can dynamically transition into socially embodied AI. We propose an ontological heuristic for describing the threshold: the Tepper line. We reinforce our theoretical work with expert insights from a card sort workshop. We end with two case studies to illustrate the dynamic and contextual nature of this heuristic.
翻訳日:2021-03-16 13:51:01 公開日:2021-03-15
# インスタンスとオントロジー概念を融合した知識基盤の普遍的表現学習

Universal Representation Learning of Knowledge Bases by Jointly Embedding Instances and Ontological Concepts ( http://arxiv.org/abs/2103.08115v1 )

ライセンス: Link先を確認
Junheng Hao, Muhao Chen, Wenchao Yu, Yizhou Sun, Wei Wang(参考訳) 多くの大規模知識基盤は、抽象概念と常識概念のオントロジービューと、存在論的概念からインスタンス化される特定のエンティティのインスタンスビューという、2つの知識グラフ(KG)のビューを同時に表現する。 しかし、既存のKG埋め込みモデルは、単に2つのビューの1つを表現することに集中するだけです。 本稿では,より優れた知識の埋め込みを実現し,多視点知識に依存した新しいアプリケーションを実現することを目的とした,新しい2視点KG埋め込みモデルJOIEを提案する。 JOIEは、知識基盤の複数の側面を学習するクロスビューとイントラビューの両方のモデリングを採用しています。 クロスビュー関連モデルは、オントロジーの概念とその対応するインスタンスビューエンティティの埋め込みを橋渡しするために学習される。 ビュー内モデルは、階層構造を持つオントロジーで利用できる階層型エンコーディング技術を用いて、個別の埋め込み空間におけるインスタンスおよびオントロジービューの構造的知識をキャプチャするために訓練される。 2つのモデルコンポーネントの複数の表現手法を探索し、JOIEの9つの変種について検討する。 私たちのモデルは、大規模なインスタンスと(小さな)クロスビューリンクを介して接続された対応するオントロジ概念からなる大規模な知識ベースで訓練されます。 パブリックデータセットの実験結果から、JOIEの最良のバリエーションは、インスタンスビュートリプル予測タスクの以前のモデルとオントロジービューKGのオントロジー人口を大幅に上回ることが示された。 さらに,本モデルでは,KG埋め込みの使用を,有望な性能でエンティティタイピングに拡張することに成功した。

Many large-scale knowledge bases simultaneously represent two views of knowledge graphs (KGs): an ontology view for abstract and commonsense concepts, and an instance view for specific entities that are instantiated from ontological concepts. Existing KG embedding models, however, merely focus on representing one of the two views alone. In this paper, we propose a novel two-view KG embedding model, JOIE, with the goal to produce better knowledge embedding and enable new applications that rely on multi-view knowledge. JOIE employs both cross-view and intra-view modeling that learn on multiple facets of the knowledge base. The cross-view association model is learned to bridge the embeddings of ontological concepts and their corresponding instance-view entities. The intra-view models are trained to capture the structured knowledge of instance and ontology views in separate embedding spaces, with a hierarchy-aware encoding technique enabled for ontologies with hierarchies. We explore multiple representation techniques for the two model components and investigate with nine variants of JOIE. Our model is trained on large-scale knowledge bases that consist of massive instances and their corresponding ontological concepts connected via a (small) set of cross-view links. Experimental results on public datasets show that the best variant of JOIE significantly outperforms previous models on instance-view triple prediction task as well as ontology population on ontologyview KG. In addition, our model successfully extends the use of KG embeddings to entity typing with promising performance.
翻訳日:2021-03-16 13:50:46 公開日:2021-03-15
# CartPole」ゲームにおけるグラデーション政策とF1Tenth自動運転車への拡張性

Gradient Policy on "CartPole" game and its' expansibility to F1Tenth Autonomous Vehicles ( http://arxiv.org/abs/2103.08396v1 )

ライセンス: Link先を確認
Mingwei Shi(参考訳) 政策勾配は環境に対する継続的な行動を評価する効果的な方法である。 本稿では,数式とコード実装の説明について述べる。 最後に、CartPoleのスティックの回転角度と回転時の自動運転車の角度を比較し、単純なキネマティックダイナミックモデルである自転車モデルを活用することは、これらの2つのモデル間の類似性を発見し、CartPoleからF1tenth自動運転車へのモデル転送を容易にすることを目的としています。

Policy gradient is an effective way to estimate continuous action on the environment. This paper, it about explaining the mathematical formula and code implementation. In the end, comparing between the rotation angle of the stick on CartPole , and the angle of the Autonomous vehicle when turning, and utilizing the Bicycle Model, a simple Kinematic dynamic model, are the purpose to discover the similarity between these two models, so as to facilitate the model transfer from CartPole to the F1tenth Autonomous vehicle.
翻訳日:2021-03-16 13:50:22 公開日:2021-03-15
# DIPPA: 双線形サドル点問題の改良手法

DIPPA: An improved Method for Bilinear Saddle Point Problems ( http://arxiv.org/abs/2103.08270v1 )

ライセンス: Link先を確認
Guangzeng Xie, Yuze Han, Zhihua Zhang(参考訳) 本稿では,函数 $g, h$ が滑らかかつ強凸である双線型saddle point problem $\min_{\bf{x}} \max_{\bf{y}} g(\bf{x}) + \bf{x}^{\top} \bf{a} \bf{y} -h(\bf{y})$ について検討する。 g$ と $h$ に関連する勾配および近位オラクルがアクセス可能であるとき、最適アルゴリズムはすでに文献 \cite{chambolle2011First, palaniappan2016stochastic} で開発されている。 しかし、近位演算子は、特に制約ゼロサム行列ゲーム \cite{zhang2020sparsified} において、計算が必ずしも容易ではない。 この研究では、$g, h$の勾配にのみアクセスする必要がある新しいアルゴリズムを提案する。 我々のアルゴリズムは、結合条件番号 $\frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}}$ 対数係数への最適依存性を持つ複雑性上界 $\tilde{\mathcal{O}}\left( \frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}} + \sqrt[4]{\kappa_x \kappa_y (\kappa_x + \kappa_y)} \right)$ を達成する。

This paper studies bilinear saddle point problems $\min_{\bf{x}} \max_{\bf{y}} g(\bf{x}) + \bf{x}^{\top} \bf{A} \bf{y} - h(\bf{y})$, where the functions $g, h$ are smooth and strongly-convex. When the gradient and proximal oracle related to $g$ and $h$ are accessible, optimal algorithms have already been developed in the literature \cite{chambolle2011first, palaniappan2016stochastic}. However, the proximal operator is not always easy to compute, especially in constraint zero-sum matrix games \cite{zhang2020sparsified}. This work proposes a new algorithm which only requires the access to the gradients of $g, h$. Our algorithm achieves a complexity upper bound $\tilde{\mathcal{O}}\left( \frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}} + \sqrt[4]{\kappa_x \kappa_y (\kappa_x + \kappa_y)} \right)$ which has optimal dependency on the coupling condition number $\frac{\|\bf{A}\|_2}{\sqrt{\mu_x \mu_y}}$ up to logarithmic factors.
翻訳日:2021-03-16 13:48:16 公開日:2021-03-15
# 競争力のある航空会社市場における itinerary level booking prediction への機械学習アプローチ

A machine learning approach to itinerary-level booking prediction in competitive airline markets ( http://arxiv.org/abs/2103.08405v1 )

ライセンス: Link先を確認
Daniel Hopman, Ger Koole and Rob van der Mei(参考訳) 需要予測は収益管理において極めて重要である。 結局のところ、収益を最大化することを目的とした最適化手法への入力の1つである。 ほとんどの予測手法は、未来を予測するために歴史的データを使用し、「なぜ」を無視しています。 本稿では、競合データ、価格、ソーシャルメディア、安全性、航空会社のレビューなど、複数の情報源のデータを組み合わせる。 次に,一連のイテレーションを提示した場合の顧客の行動に影響を及ぼす5つの競合価格運動について検討する。 10種類のODペアの実際の航空会社データとExtreme Gradient Boostingを用いて、顧客の行動は価格に敏感でスケジュールに敏感で快適なODに分類できることを示す。 シミュレーション研究を通じて,このモデルが従来の時系列予測よりも高い収益をもたらす予測を生成することを示した。

Demand forecasting is extremely important in revenue management. After all, it is one of the inputs to an optimisation method which aim is to maximize revenue. Most, if not all, forecasting methods use historical data to forecast the future, disregarding the "why". In this paper, we combine data from multiple sources, including competitor data, pricing, social media, safety and airline reviews. Next, we study five competitor pricing movements that, we hypothesize, affect customer behavior when presented a set of itineraries. Using real airline data for ten different OD-pairs and by means of Extreme Gradient Boosting, we show that customer behavior can be categorized into price-sensitive, schedule-sensitive and comfort ODs. Through a simulation study, we show that this model produces forecasts that result in higher revenue than traditional, time series forecasts.
翻訳日:2021-03-16 13:47:36 公開日:2021-03-15
# エビデンス理論を用いた効率的な侵入検出

Efficient Intrusion Detection Using Evidence Theory ( http://arxiv.org/abs/2103.08585v1 )

ライセンス: Link先を確認
Islam Debicha, Thibault Debatty, Wim Mees and Jean-Michel Dricot(参考訳) 侵入検知システム(IDS)は、コンピュータやネットワークの安全に関して重要な要素となっている。 この分野で行われている膨大な研究努力にもかかわらず、ソースの信頼性は依然としてオープンな問題です。 そこで本論文では, ソースの信頼性と, 正常行動と異常行動の区別能力に基づいて, 新たなコンテキストディスカウント手法を提案する。 不確実性の下で推論する一般的な枠組みであるデンプスター・シェーファー理論は、証明的分類器を構成するために用いられる。 既存のKDDCUP'99データセットの大幅な改訂と改善版であるNSL-KDDデータセットは、新しい検出アプローチのパフォーマンスを評価する基礎を提供します。 KDDTest+データセットに匹敵する結果を与える一方で、私たちのアプローチはKDDTest-21データセットの他の最先端のメソッドよりも優れています。

Intrusion Detection Systems (IDS) are now an essential element when it comes to securing computers and networks. Despite the huge research efforts done in the field, handling sources' reliability remains an open issue. To address this problem, this paper proposes a novel contextual discounting method based on sources' reliability and their distinguishing ability between normal and abnormal behavior. Dempster-Shafer theory, a general framework for reasoning under uncertainty, is used to construct an evidential classifier. The NSL-KDD dataset, a significantly revised and improved version of the existing KDDCUP'99 dataset, provides the basis for assessing the performance of our new detection approach. While giving comparable results on the KDDTest+ dataset, our approach outperformed some other state-of-the-art methods on the KDDTest-21 dataset which is more challenging.
翻訳日:2021-03-16 13:47:21 公開日:2021-03-15
# 新規治療の長期効果の推定

Estimating the Long-Term Effects of Novel Treatments ( http://arxiv.org/abs/2103.08390v1 )

ライセンス: Link先を確認
Keith Battocchi, Eleanor Dillon, Maggie Hei, Greg Lewis, Miruna Oprescu, Vasilis Syrgkanis(参考訳) 政策立案者は通常、新しい治療法の長期的な効果を見積りたいという問題に直面し、古い治療法の履歴データしか持っていない。 我々は,過去治療のみを施した長期データセットと,新規治療を施した短期データセットへのアクセスを想定した。 長期効果が多数の短期プロキシを介してチャネルされることを想定したサロゲートベースのアプローチを提案する。 私たちの研究は、サーロゲート指標、動的治療効果推定、二重機械学習の3つの主要な最近の手法を統合パイプラインで組み合わせています。 本手法は,データと観測ポリシーに関するマルコフ的仮定の下で,ルートn漸近的に正規な推定値を提供する。 3年間にわたる顧客投資を含む大手企業のデータセットを使用して、実際のデータセットの主要な定性的な特性が保持される半合成データ分布を作成します。 我々は,本手法の性能を評価し,形式的方法論の展開に関する実践的課題と対処方法について議論する。

Policy makers typically face the problem of wanting to estimate the long-term effects of novel treatments, while only having historical data of older treatment options. We assume access to a long-term dataset where only past treatments were administered and a short-term dataset where novel treatments have been administered. We propose a surrogate based approach where we assume that the long-term effect is channeled through a multitude of available short-term proxies. Our work combines three major recent techniques in the causal machine learning literature: surrogate indices, dynamic treatment effect estimation and double machine learning, in a unified pipeline. We show that our method is consistent and provides root-n asymptotically normal estimates under a Markovian assumption on the data and the observational policy. We use a data-set from a major corporation that includes customer investments over a three year period to create a semi-synthetic data distribution where the major qualitative properties of the real dataset are preserved. We evaluate the performance of our method and discuss practical challenges of deploying our formal methodology and how to address them.
翻訳日:2021-03-16 13:47:09 公開日:2021-03-15
# I-Nema:線虫認識のための生体画像データセット

I-Nema: A Biological Image Dataset for Nematode Recognition ( http://arxiv.org/abs/2103.08335v1 )

ライセンス: Link先を確認
Xuequan Lu, Yihao Wang, Sheldon Fung, and Xue Qing(参考訳) 線虫は地球上で最も豊富な中生代グループの一つであり、多様な生態的ニッチを占有している。 ネマトドの正確な認識または識別は、害虫駆除、土壌生態学、生物地理学、生息地の保全、気候変動に対する大きな重要性を有する。 コンピュータビジョンと画像処理は、線虫の種認識にいくつかの成功をおさめたが、依然として大きな需要がある。 本稿では,(1)野外作業においてかなりの人材と分類学の専門家を必要とする多種多様な線虫(特に自然環境にのみ存在する種)を対象とした画像データセットの欠如,(2)コンピュータ科学の規律的背景を必要とするこのデータセットにおける最先端ディープラーニング技術の標準ベンチマークの欠如,の2つの主なボトルネックを明らかにする。 これらのことを念頭に置いて,多様な線虫(実験室培養と自然分離の両方)からなる画像データセットを提案する。 さらに,このデータセットに最先端のディープラーニングネットワークを用い,種認識ベンチマークを設定した。 実験結果について検討し、異なるネットワークの認識精度を比較し、データセットの課題を示す。 データセットはhttps://github.com/xuequanlu/I-Nemaで公開しています。

Nematode worms are one of most abundant metazoan groups on the earth, occupying diverse ecological niches. Accurate recognition or identification of nematodes are of great importance for pest control, soil ecology, bio-geography, habitat conservation and against climate changes. Computer vision and image processing have witnessed a few successes in species recognition of nematodes; however, it is still in great demand. In this paper, we identify two main bottlenecks: (1) the lack of a publicly available imaging dataset for diverse species of nematodes (especially the species only found in natural environment) which requires considerable human resources in field work and experts in taxonomy, and (2) the lack of a standard benchmark of state-of-the-art deep learning techniques on this dataset which demands the discipline background in computer science. With these in mind, we propose an image dataset consisting of diverse nematodes (both laboratory cultured and naturally isolated), which, to our knowledge, is the first time in the community. We further set up a species recognition benchmark by employing state-of-the-art deep learning networks on this dataset. We discuss the experimental results, compare the recognition accuracy of different networks, and show the challenges of our dataset. We make our dataset publicly available at: https://github.com/xuequanlu/I-Nema
翻訳日:2021-03-16 13:46:16 公開日:2021-03-15
# エンドツーエンド音声システムの敵対攻撃に対するマルチディスクリミネータSobolev Defense-GAN

Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for End-to-End Speech Systems ( http://arxiv.org/abs/2103.08086v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras Koerich(参考訳) 本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。 提案する防衛アルゴリズムには4つの大きなステップがある。 まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。 第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。 この操作は、追加の正規化項でスペクトログラム間のコード距離調整を最小化する。 第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。 モデルの性能を安定性と学習モードの総数の観点から向上させるため,我々はジェネレータネットワークにさらなる制約を課した。 最後に、合成スペクトログラムとグリフィン-リム位相近似法からの信号を再構成する。 提案手法は,deepspeech,kaldi,lingvoモデルを用いた6つの強力な白黒ボックス敵攻撃に対する防御手法を評価する。 実験の結果,本アルゴリズムは精度と信号品質の両面で,最先端の防御アルゴリズムよりも優れていることがわかった。

This paper introduces a defense approach against end-to-end adversarial attacks developed for cutting-edge speech-to-text systems. The proposed defense algorithm has four major steps. First, we represent speech signals with 2D spectrograms using the short-time Fourier transform. Second, we iteratively find a safe vector using a spectrogram subspace projection operation. This operation minimizes the chordal distance adjustment between spectrograms with an additional regularization term. Third, we synthesize a spectrogram with such a safe vector using a novel GAN architecture trained with Sobolev integral probability metric. To improve the model's performance in terms of stability and the total number of learned modes, we impose an additional constraint on the generator network. Finally, we reconstruct the signal from the synthesized spectrogram and the Griffin-Lim phase approximation technique. We evaluate the proposed defense approach against six strong white and black-box adversarial attacks benchmarked on DeepSpeech, Kaldi, and Lingvo models. Our experimental results show that our algorithm outperforms other state-of-the-art defense algorithms both in terms of accuracy and signal quality.
翻訳日:2021-03-16 13:44:51 公開日:2021-03-15
# ロバストな音声対テキスト対敵攻撃に向けて

Towards Robust Speech-to-Text Adversarial Attack ( http://arxiv.org/abs/2103.08095v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras Koerich(参考訳) 本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。 我々のアプローチは、Cram\`er積分確率メトリックを用いた逆最適化公式の従来の歪み条件の拡張の開発に基づいています。 元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。 これにより、トランスフォーメーション操作やスタティックルームのインパルス応答シミュレーションに費用がかからないことなく、より堅牢な対向信号の再生をオンザエアで行うことができる。 提案手法は, 単語誤り率と文レベルの精度において, 対人信号の品質の競争性能において, 他目標・非目標のアルゴリズムよりも優れる。 他の7つの強い白と黒の箱の敵攻撃と比較して、提案手法は複数回の連続的な再生に対してより弾力性があり、ノイズの多い環境では高い強靭性を裏付ける。

This paper introduces a novel adversarial algorithm for attacking the state-of-the-art speech-to-text systems, namely DeepSpeech, Kaldi, and Lingvo. Our approach is based on developing an extension for the conventional distortion condition of the adversarial optimization formulation using the Cram\`er integral probability metric. Minimizing over this metric, which measures the discrepancies between original and adversarial samples' distributions, contributes to crafting signals very close to the subspace of legitimate speech recordings. This helps to yield more robust adversarial signals against playback over-the-air without employing neither costly expectation over transformation operations nor static room impulse response simulations. Our approach outperforms other targeted and non-targeted algorithms in terms of word error rate and sentence-level-accuracy with competitive performance on the crafted adversarial signals' quality. Compared to seven other strong white and black-box adversarial attacks, our proposed approach is considerably more resilient against multiple consecutive playbacks over-the-air, corroborating its higher robustness in noisy environments.
翻訳日:2021-03-16 13:44:37 公開日:2021-03-15
# TinyOL: マイクロコントローラ上でオンライン学習するTinyML

TinyOL: TinyML with Online-Learning on Microcontrollers ( http://arxiv.org/abs/2103.08295v1 )

ライセンス: Link先を確認
Haoyu Ren, Darko Anicic and Thomas Runkler(参考訳) Tiny Machine Learning(TinyML)は、全普及型マイクロコントローラ(MCU)のディープラーニングの民主化を目指す、急成長中の研究分野です。 TinyMLは電力、メモリ、計算の制約に悩まされ、ここ数年で大幅な進歩を遂げている。 しかし、現在のTinyMLソリューションはバッチ/オフライン設定に基づいており、MCUでのニューラルネットワークの推論のみをサポートする。 ニューラルネットワークは、まず、強力なマシン上の大量の事前コンパイルデータを使用してトレーニングされ、次にMCUにフラッシュされる。 これにより、静的モデル、新しいデータへの適応が難しく、さまざまなシナリオの調整が不可能になり、IoT(Internet of Things)の柔軟性を損なうことになる。 そこで本研究では,TinyOL(TinyML with Online-Learning)と呼ばれる,ストリーミングデータに関するデバイス上のトレーニングをインクリメンタルに行うシステムを提案する。 TinyOLはオンライン学習の概念に基づいており、制約付きIoTデバイスに適している。 オートエンコーダニューラルネットワークを用いて,TinyOLの監視下および非監視下セットアップ実験を行った。 最後に,提案手法の性能を報告し,その有効性と実現性を示す。

Tiny machine learning (TinyML) is a fast-growing research area committed to democratizing deep learning for all-pervasive microcontrollers (MCUs). Challenged by the constraints on power, memory, and computation, TinyML has achieved significant advancement in the last few years. However, the current TinyML solutions are based on batch/offline settings and support only the neural network's inference on MCUs. The neural network is first trained using a large amount of pre-collected data on a powerful machine and then flashed to MCUs. This results in a static model, hard to adapt to new data, and impossible to adjust for different scenarios, which impedes the flexibility of the Internet of Things (IoT). To address these problems, we propose a novel system called TinyOL (TinyML with Online-Learning), which enables incremental on-device training on streaming data. TinyOL is based on the concept of online learning and is suitable for constrained IoT devices. We experiment TinyOL under supervised and unsupervised setups using an autoencoder neural network. Finally, we report the performance of the proposed solution and show its effectiveness and feasibility.
翻訳日:2021-03-16 13:44:19 公開日:2021-03-15
# 量子アニールによる画像生成の評価

Assessment of image generation by quantum annealer ( http://arxiv.org/abs/2103.08373v1 )

ライセンス: Link先を確認
Takehito Sato, Masayuki Ohzeki, and Kazuyuki Tanaka(参考訳) 量子アニールは、量子効果を用いた組合せ最適化問題の解法として提案された。 D-Wave Systemsは量子アニーリングハードウェアの生産モデルをリリースした。 しかし、ハードウェアの固有のノイズとさまざまな環境要因は、最適なソリューションの決定を妨げる。 さらに、弱い量子変動を持つ領域の凍結効果は、極低温でのギブス-ボルツマン分布にほぼ従った出力を生成する。 したがって、量子アニーラはイジングスピングラス問題の高速サンプラーとしても機能し、いくつかの研究は量子アニーラを用いたボルツマン機械学習を調査している。 従来のコンピュータにおける従来の方法と量子アニールによるサンプリングの間での分布の標準距離における性能の比較に焦点が当てられていた。 本研究では,生成モデルとしての量子アニールの性能に着目した。 その性能を評価するために、優先順位データセットで訓練されたニューラルネットワークによって与えられる識別器を用意した。 その結果,ボルツマン機械学習の古典的手法と比較して量子アニーリングの性能が向上した。

Quantum annealing was originally proposed as an approach for solving combinatorial optimisation problems using quantum effects. D-Wave Systems has released a production model of quantum annealing hardware. However, the inherent noise and various environmental factors in the hardware hamper the determination of optimal solutions. In addition, the freezing effect in regions with weak quantum fluctuations generates outputs approximately following a Gibbs--Boltzmann distribution at an extremely low temperature. Thus, a quantum annealer may also serve as a fast sampler for the Ising spin-glass problem, and several studies have investigated Boltzmann machine learning using a quantum annealer. Previous developments have focused on comparing the performance in the standard distance of the resulting distributions between conventional methods in classical computers and sampling by a quantum annealer. In this study, we focused on the performance of a quantum annealer as a generative model. To evaluate its performance, we prepared a discriminator given by a neural network trained on an a priori dataset. The evaluation results show a higher performance of quantum annealing compared with the classical approach for Boltzmann machine learning.
翻訳日:2021-03-16 13:44:01 公開日:2021-03-15
# Blind Quantum Computingによる量子プライベート分散学習

Quantum Private Distributed Learning Through Blind Quantum Computing ( http://arxiv.org/abs/2103.08403v1 )

ライセンス: Link先を確認
Weikang Li, Sirui Lu, Dong-Ling Deng(参考訳) プライベート分散学習(private distributed learning)は、複数の分散エンティティが共有ディープネットワークとプライベートデータとを協調的にトレーニングする方法の問題を研究する。 ブラインド量子計算のプロトコルによって提供されるセキュリティにより、量子物理学と機械学習の協力は、プライベート分散学習タスクを解くための例外のない見通しをもたらす可能性がある。 本稿では,プライベートデータを安全に保ちつつ,リモート量子サーバの計算能力を利用することができる分散学習用量子プロトコルを提案する。 具体的には、まず、盲目量子コンピューティングに基づく変分量子分類器のプライベートな単一パーティデリゲートトレーニングのためのプロトコルを導入し、そのプロトコルを差分プライバシーを組み込んだマルチパーティ分散学習に拡張する。 実生活の異なるデータセットを用いて広範な数値シミュレーションを行い,提案プロトコルの有効性をベンチマークする。 私たちのプロトコルは実験的な欠陥に対して堅牢であり、差分プライバシーを組み込んだ後の勾配攻撃下で安全です。 その結果、計算上高価な分散学習タスクをプライバシ保証で処理する可能性を示し、現実のアプリケーションで機械学習の分野におけるセキュリティの観点から量子の利点を探究する貴重なガイドを提供します。

Private distributed learning studies the problem of how multiple distributed entities collaboratively train a shared deep network with their private data unrevealed. With the security provided by the protocols of blind quantum computation, the cooperation between quantum physics and machine learning may lead to unparalleled prospect for solving private distributed learning tasks. In this paper, we introduce a quantum protocol for distributed learning that is able to utilize the computational power of the remote quantum servers while keeping the private data safe. For concreteness, we first introduce a protocol for private single-party delegated training of variational quantum classifiers based on blind quantum computing and then extend this protocol to multiparty private distributed learning incorporated with differential privacy. We carry out extensive numerical simulations with different real-life datasets and encoding strategies to benchmark the effectiveness of our protocol. We find that our protocol is robust to experimental imperfections and is secure under the gradient attack after the incorporation of differential privacy. Our results show the potential for handling computationally expensive distributed learning tasks with privacy guarantees, thus providing a valuable guide for exploring quantum advantages from the security perspective in the field of machine learning with real-life applications.
翻訳日:2021-03-16 13:43:48 公開日:2021-03-15
# 留守中に自動的にニューラルネットワークをロックする

Automatically Lock Your Neural Networks When You're Away ( http://arxiv.org/abs/2103.08472v1 )

ライセンス: Link先を確認
Ge Ren, Jun Wu, Gaolei Li, Shenghong Li(参考訳) スマートフォンとラップトップは顔や指紋認証でアンロックできるが、毎日多くのリクエストに直面するニューラルネットワークは、信頼できないユーザーと信頼できるユーザーを区別する能力がほとんどない。 モデルは商品として取引されるリスクがある。 既存の研究は、商用モデルの知的財産権の所有権に焦点を当てるか、海賊モデルが現れた後にリークの原因を追跡するかのどちらかである。 それにもかかわらず、アウトプットを予測する前のアクティブ識別ユーザーの正当性はまだ検討されていません。 本稿では,スマートフォンの自動ロック機能に類似した,ローカルな動的アクセス制御を備えたエンドツーエンドのニューラルネットワークを実現するモデルロック(M-LOCK)を提案する。 3種類のモデルトレーニング戦略は、1つのニューラルネットワークで認証された入力と疑似入力の間の膨大なパフォーマンスの相違を達成するために不可欠である。 MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHNおよびGTSRBデータセットに基づく広範な実験は、提案されたスキームの実現可能性と有効性を示した。

The smartphone and laptop can be unlocked by face or fingerprint recognition, while neural networks which confront numerous requests every day have little capability to distinguish between untrustworthy and credible users. It makes model risky to be traded as a commodity. Existed research either focuses on the intellectual property rights ownership of the commercialized model, or traces the source of the leak after pirated models appear. Nevertheless, active identifying users legitimacy before predicting output has not been considered yet. In this paper, we propose Model-Lock (M-LOCK) to realize an end-to-end neural network with local dynamic access control, which is similar to the automatic locking function of the smartphone to prevent malicious attackers from obtaining available performance actively when you are away. Three kinds of model training strategy are essential to achieve the tremendous performance divergence between certified and suspect input in one neural network. Extensive experiments based on MNIST, FashionMNIST, CIFAR10, CIFAR100, SVHN and GTSRB datasets demonstrated the feasibility and effectiveness of the proposed scheme.
翻訳日:2021-03-16 13:43:27 公開日:2021-03-15
# (参考訳) ソフト Jaccard Index と 3D Keypoint Set を用いた効率的なペアワイズ神経画像解析

Efficient Pairwise Neuroimage Analysis using the Soft Jaccard Index and 3D Keypoint Sets ( http://arxiv.org/abs/2103.06966v2 )

ライセンス: CC BY-SA 4.0
Laurent Chauvin, Kuldeep Kumar, Christian Desrosiers, William Wells III and Matthew Toews(参考訳) 大規模医用画像インデクシングを目的とした可変サイズの画像キーポイント間のペアワイズ距離測定法を提案する。 本手法は,キーポイントの出現と形状の不確実性を考慮した適応カーネルフレームワークを用いて,集合要素間のソフトセット等価性(sse)を考慮したjaccardインデックスを一般化する。 位置とスケールにおけるキーポイント幾何のばらつきを定量化するために,新しいカーネルを提案する。 我々の距離測度は、キーポイントインデックスによる$O(N~\log~N)$演算の$N^2$画像対の間で推定できる。 実験では,T1強調MRI脳量,双生児双生児,兄弟姉妹,異型児の509,545対の関係を,多型遺伝子の100%-25%に分けて評価した。 ソフトセット等価性およびキーポイントジオメトリカーネルは、家族関係の予測において標準ハードセット等価性(HSE)を上回っている。 遺伝子型決定過程の誤りにより、一卵性双生児の識別が100%近くなり、未知の家族ラベルのいくつかのケースは、正しく家族とペアリングされる。 大規模で汎用的な画像データセットの効率的な細かなキュレーションのためのソフトウェアを提供する。

We propose a novel pairwise distance measure between variable-sized sets of image keypoints for the purpose of large-scale medical image indexing. Our measure generalizes the Jaccard index to account for soft set equivalence (SSE) between set elements, via an adaptive kernel framework accounting for uncertainty in keypoint appearance and geometry. Novel kernels are proposed to quantify the variability of keypoint geometry in location and scale. Our distance measure may be estimated between $N^2$ image pairs in $O(N~\log~N)$ operations via keypoint indexing. Experiments validate our method in predicting 509,545 pairwise relationships from T1-weighted MRI brain volumes of monozygotic and dizygotic twins, siblings and half-siblings sharing 100%-25% of their polymorphic genes. Soft set equivalence and keypoint geometry kernels outperform standard hard set equivalence (HSE) in predicting family relationships. High accuracy is achieved, with monozygotic twin identification near 100% and several cases of unknown family labels, due to errors in the genotyping process, are correctly paired with family members. Software is provided for efficient fine-grained curation of large, generic image datasets.
翻訳日:2021-03-16 13:09:13 公開日:2021-03-15
# (参考訳) ヒトポース推定のための深層二重連続ネットワーク

Deep Dual Consecutive Network for Human Pose Estimation ( http://arxiv.org/abs/2103.07254v2 )

ライセンス: CC BY 4.0
Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji, Bailin Yang, Xun Wang(参考訳) 複雑な状況下でのマルチフレーム人間のポーズ推定は困難です。 最先端のヒト関節検出器は静的画像に対して顕著な結果を示したが,これらのモデルをビデオシーケンスに適用した場合,その性能は短かった。 一般的な欠点は、モーションボケ、ビデオデフォーカス、またはビデオフレーム間の時間依存性をキャプチャできないことから生じる閉塞を処理できないことです。 一方、従来のリカレントニューラルネットワークを直接利用すると、特にポーズオクルージョンを扱う場合、空間コンテキストのモデリングにおいて経験的な困難が生じる。 本稿では,ビデオフレーム間の豊富な時間的手がかりを活用し,キーポイント検出を容易にするマルチフレームの人物ポーズ推定フレームワークを提案する。 3つのモジュールコンポーネントがフレームワークで設計されています。 ポーズ時間マージはキーポイント時空間を符号化して効果的な探索スコープを生成し、ポーズ残差融合モジュールは重み付きポーズ残差を2方向で計算する。 これらは、ポーズ推定の効率的な精錬のためにPose Correction Networkを介して処理されます。 提案手法は,大規模ベンチマークデータセットPoseTrack2017とPoseTrack2018において,多フレームPerson Pose Estimation Challengeの1位にランクインする。 将来の研究に刺激を与えることを期待して、コードをリリースしました。

Multi-frame human pose estimation in complicated situations is challenging. Although state-of-the-art human joints detectors have demonstrated remarkable results for static images, their performances come short when we apply these models to video sequences. Prevalent shortcomings include the failure to handle motion blur, video defocus, or pose occlusions, arising from the inability in capturing the temporal dependency among video frames. On the other hand, directly employing conventional recurrent neural networks incurs empirical difficulties in modeling spatial contexts, especially for dealing with pose occlusions. In this paper, we propose a novel multi-frame human pose estimation framework, leveraging abundant temporal cues between video frames to facilitate keypoint detection. Three modular components are designed in our framework. A Pose Temporal Merger encodes keypoint spatiotemporal context to generate effective searching scopes while a Pose Residual Fusion module computes weighted pose residuals in dual directions. These are then processed via our Pose Correction Network for efficient refining of pose estimations. Our method ranks No.1 in the Multi-frame Person Pose Estimation Challenge on the large-scale benchmark datasets PoseTrack2017 and PoseTrack2018. We have released our code, hoping to inspire future research.
翻訳日:2021-03-16 12:18:40 公開日:2021-03-15
# CANINE:言語表現のための効率的なトークン化フリーエンコーダの事前トレーニング

CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation ( http://arxiv.org/abs/2103.06874v2 )

ライセンス: Link先を確認
Jonathan H. Clark, Dan Garrette, Iulia Turc, John Wieting(参考訳) パイプライン化されたNLPシステムは、主にエンドツーエンドのニューラルモデリングに取って代わられているが、一般的に使われているほとんどのモデルは、まだ明示的なトークン化ステップを必要とする。 データ由来のサブワードレキシコンに基づく最近のトークン化アプローチは手作業によるトークン化よりも脆くはないが、これらの手法はすべての言語に等しく適合せず、固定語彙の使用はモデルの適応能力を制限する可能性がある。 本稿では,明示的なトークン化や語彙を伴わず,文字列上で直接動作するニューラルネットワークエンコーダである canine と,ハードトークン境界の代わりにソフトインダクティブバイアスを持つ事前学習戦略を提案する。 微細な入力を効果的かつ効率的に使用するために、入力シーケンスの長さを減少させるダウンサンプリングと、コンテキストをエンコードするディープトランススタックを組み合わせる。 CANINEは、モデルパラメータが28%少ないにもかかわらず、TyDi QAにおいて、同等のmBERTモデルを >= 1 F1 で上回っている。

Pipelined NLP systems have largely been superseded by end-to-end neural modeling, yet nearly all commonly-used models still require an explicit tokenization step. While recent tokenization approaches based on data-derived subword lexicons are less brittle than manually engineered tokenizers, these techniques are not equally suited to all languages, and the use of any fixed vocabulary may limit a model's ability to adapt. In this paper, we present CANINE, a neural encoder that operates directly on character sequences, without explicit tokenization or vocabulary, and a pre-training strategy with soft inductive biases in place of hard token boundaries. To use its finer-grained input effectively and efficiently, CANINE combines downsampling, which reduces the input sequence length, with a deep transformer stack, which encodes context. CANINE outperforms a comparable mBERT model by >= 1 F1 on TyDi QA, a challenging multilingual benchmark, despite having 28% fewer model parameters.
翻訳日:2021-03-16 11:56:15 公開日:2021-03-15
# MagFace: 顔認識と品質評価のためのユニバーサル表現

MagFace: A Universal Representation for Face Recognition and Quality Assessment ( http://arxiv.org/abs/2103.06627v2 )

ライセンス: Link先を確認
Qiang Meng, Shichao Zhao, Zhida Huang, Feng Zhou(参考訳) 顔認識システムの性能は、取得した顔の変動が増加すると低下する。 先行作業は、前処理の顔品質を監視するか、顔機能と一緒にデータの不確実性を予測することにより、この問題を緩和します。 本論文では,与えられた顔の質を測ることができる普遍的特徴埋め込みを学習する損失のカテゴリであるMagFaceを提案する。 新しい損失の下では、主題が認識される可能性が高い場合、単調に埋め込み機能の大きさが増加することが証明できます。 さらに、MagFaceは、ハードサンプルを押しながら、簡単なサンプルをクラスセンターに引っ張ることで、よく構造化されたクラス内機能分布を学ぶための適応メカニズムを導入している。 これにより、ノイズの多い低品質サンプルでのモデルオーバーフィットを防ぎ、野生の顔認識を改善します。 顔認識、品質評価、クラスタリングに関する広範な実験は、最先端のものよりも優位性を示しています。 コードはhttps://github.com/IrvingMeng/MagFace.comで入手できる。

The performance of face recognition system degrades when the variability of the acquired faces increases. Prior work alleviates this issue by either monitoring the face quality in pre-processing or predicting the data uncertainty along with the face feature. This paper proposes MagFace, a category of losses that learn a universal feature embedding whose magnitude can measure the quality of the given face. Under the new loss, it can be proven that the magnitude of the feature embedding monotonically increases if the subject is more likely to be recognized. In addition, MagFace introduces an adaptive mechanism to learn a wellstructured within-class feature distributions by pulling easy samples to class centers while pushing hard samples away. This prevents models from overfitting on noisy low-quality samples and improves face recognition in the wild. Extensive experiments conducted on face recognition, quality assessments as well as clustering demonstrate its superiority over state-of-the-arts. The code is available at https://github.com/IrvingMeng/MagFace.
翻訳日:2021-03-16 11:55:35 公開日:2021-03-15
# タイムスタンプからの時間的アクションセグメンテーション

Temporal Action Segmentation from Timestamp Supervision ( http://arxiv.org/abs/2103.06669v2 )

ライセンス: Link先を確認
Zhe Li, Yazan Abu Farha, Juergen Gall(参考訳) テンポラリアクションセグメンテーションアプローチは、最近非常に成功しています。 しかし、そのようなモデルを訓練するためにフレームワイズラベルでビデオに注釈をつけるのは、非常に高価で時間がかかります。 順序付けられたアクションリストのみを使用してトレーニングされた弱い教師付きメソッドは、アノテーションの労力をはるかに少なくするが、完全に監督されたアプローチよりもパフォーマンスはずっと悪い。 本稿では,時間的行動分割タスクのタイムスタンプ管理について紹介する。 タイムスタンプは弱い教師のアプローチに対して同等のアノテーションを必要とするが、より監督的なシグナルを提供する。 タイムスタンプの監視の有効性を示すために,タイムスタンプアノテーションのみを用いてセグメンテーションモデルを訓練する手法を提案する。 提案手法では, モデル出力とアノテーション付きタイムスタンプを用いて, 動作変化を検出してフレームワイズラベルを生成する。 さらに、予測確率がタイムスタンプまでの距離が増加するにつれて単調に減少させる信頼損失を導入する。 これにより、アクションの最も独特なフレームだけでなく、すべてがトレーニング中に学習されることが保証される。 4つのデータセットの評価は、タイムスタンプアノテーションで訓練されたモデルが、完全に監視されたアプローチに匹敵するパフォーマンスを達成することを示している。

Temporal action segmentation approaches have been very successful recently. However, annotating videos with frame-wise labels to train such models is very expensive and time consuming. While weakly supervised methods trained using only ordered action lists require much less annotation effort, the performance is still much worse than fully supervised approaches. In this paper, we introduce timestamp supervision for the temporal action segmentation task. Timestamps require a comparable annotation effort to weakly supervised approaches, and yet provide a more supervisory signal. To demonstrate the effectiveness of timestamp supervision, we propose an approach to train a segmentation model using only timestamps annotations. Our approach uses the model output and the annotated timestamps to generate frame-wise labels by detecting the action changes. We further introduce a confidence loss that forces the predicted probabilities to monotonically decrease as the distance to the timestamps increases. This ensures that all and not only the most distinctive frames of an action are learned during training. The evaluation on four datasets shows that models trained with timestamps annotations achieve comparable performance to the fully supervised approaches.
翻訳日:2021-03-16 11:55:19 公開日:2021-03-15
# 音声表現の多形式コントラスト学習

Multi-Format Contrastive Learning of Audio Representations ( http://arxiv.org/abs/2103.06508v2 )

ライセンス: Link先を確認
Luyu Wang, Aaron van den Oord(参考訳) 近年の進歩は、シングルモーダル法と比較してマルチモーダルトレーニングの利点を示唆している。 この見解とは対照的に、我々の研究では、同様の利益は単一のモダリティの異なる形式で訓練することで得られる。 特に,生音声とそのスペクトル表現との一致を最大化することにより,音声表現の学習におけるコントラスト学習フレームワークの利用について検討する。 このマルチフォーマット戦略によるシングルフォーマット戦略による大きな利益が得られます。 さらに,下流オーディオセットとesc-50分類タスクにおいて,音声のみの手法により,平均精度0.376,精度90.5%の新たな最先端結果が得られた。

Recent advances suggest the advantage of multi-modal training in comparison with single-modal methods. In contrast to this view, in our work we find that similar gain can be obtained from training with different formats of a single modality. In particular, we investigate the use of the contrastive learning framework to learn audio representations by maximizing the agreement between the raw audio and its spectral representation. We find a significant gain using this multi-format strategy against the single-format counterparts. Moreover, on the downstream AudioSet and ESC-50 classification task, our audio-only approach achieves new state-of-the-art results with a mean average precision of 0.376 and an accuracy of 90.5%, respectively.
翻訳日:2021-03-16 11:54:34 公開日:2021-03-15