このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201117となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 重力赤方偏移と自由落下の普遍性に関する原子干渉試験 Atom-interferometric test of the universality of gravitational redshift and free fall ( http://arxiv.org/abs/2001.09754v3 ) ライセンス: Link先を確認 | Christian Ufrecht, Fabio Di Pumpo, Alexander Friedrich, Albert Roura, Christian Schubert, Dennis Schlippert, Ernst M. Rasel, Wolfgang P. Schleich, Enno Giese | (参考訳) 光パルス原子干渉計は慣性力の強力な量子センサーを構成する。
これらは非局在化された空間重ね合わせに基づいており、内部遷移と組み合わせることで原子時計と直結する。
重力赤方偏移の古典的試験は、重力下の異なる位置に配置された2つの時計の比較に基づいているため、上記の干渉計が一般相対性理論のテストの代替となるかどうかを探究することが期待できる。
ここでは、状態遷移とともに、自由落下の普遍性と一般相対性理論の2つの前提である重力赤方偏移の両違反に同時に敏感なスキームをもたらす特定の幾何学を示す。
干渉計は内部状態の重ね合わせに依存するのではなく、それらの間の遷移のみに依存するため、物理原子時計や量子時計干渉計の概念を一般化する。
実験的な実現は、最先端の施設で既に実証済みの技術で実現可能と思われる。 Light-pulse atom interferometers constitute powerful quantum sensors for inertial forces. They are based on delocalised spatial superpositions and the combination with internal transitions directly links them to atomic clocks. Since classical tests of the gravitational redshift are based on a comparison of two clocks localised at different positions under gravity, it is promising to explore whether the aforementioned interferometers constitute a competitive alternative for tests of general relativity. Here we present a specific geometry which together with state transitions leads to a scheme that is concurrently sensitive to both violations of the universality of free fall and gravitational redshift, two premises of general relativity. The proposed interferometer does not rely on a superposition of internal states, but merely on transitions between them, and therefore generalises the concept of physical atomic clocks and quantum-clock interferometry. An experimental realisation seems feasible with already demonstrated techniques in state-of-the-art facilities. | 翻訳日:2023-06-05 11:52:25 公開日:2020-11-17 |
# 複製データの分散量子証明 Distributed Quantum Proofs for Replicated Data ( http://arxiv.org/abs/2002.10018v2 ) ライセンス: Link先を確認 | Pierre Fraigniaud, Fran\c{c}ois Le Gall, Harumichi Nishimura, Ami Paz | (参考訳) 論文は、ネットワークの複数のノードで複製された大きなデータセットのコピーはすべて同一である、$\textit{checking}$の問題に取り組んでいる。
レプリカが遠方のノードにあるという事実は、各ノードが近傍のノードのみに相談させることで、システムが局所的にその等価性を検証することを妨げる。
一方、$\textit{certificates}$をノードに割り当てることは可能であり、レプリカの一貫性を検証することはローカルで実現できる。
しかし,データセットが大きいため,分散Merlin-Arthurプロトコルを含む古典的な認証機構は,非常に大きな証明書を使用しない限り,完全性と健全性を同時に保証することはできない。
この論文の主な結果は分散された$\textit{quantum}$ merlin-arthurプロトコルであり、ノードは小さな証明書に基づいてレプリカの一貫性を集合的にチェックでき、隣人同士の1ラウンドのメッセージ交換で短いメッセージを送れる。
特に、証明書サイズはデータセットのサイズで対数的であり、古典的な認証メカニズムよりも指数関数的に有利である。 The paper tackles the issue of $\textit{checking}$ that all copies of a large data set replicated at several nodes of a network are identical. The fact that the replicas may be located at distant nodes prevents the system from verifying their equality locally, i.e., by having each node consult only nodes in its vicinity. On the other hand, it remains possible to assign $\textit{certificates}$ to the nodes, so that verifying the consistency of the replicas can be achieved locally. However, we show that, as the data set is large, classical certification mechanisms, including distributed Merlin-Arthur protocols, cannot guarantee good completeness and soundness simultaneously, unless they use very large certificates. The main result of this paper is a distributed $\textit{quantum}$ Merlin-Arthur protocol enabling the nodes to collectively check the consistency of the replicas, based on small certificates, and in a single round of message exchange between neighbors, with short messages. In particular, the certificate-size is logarithmic in the size of the data set, which gives an exponential advantage over classical certification mechanisms. | 翻訳日:2023-06-02 05:25:33 公開日:2020-11-17 |
# Clebsch-Gordan係数による$r$の相対論的期待値の表現 Expression of relativistic expectation values of powers of $r$ in terms of Clebsch-Gordan coefficients ( http://arxiv.org/abs/2003.14197v2 ) ライセンス: Link先を確認 | Jean-Christophe Pain | (参考訳) 相対論的水素近似では、$\langle n\ell j|r^k|n\ell j\rangle$の期待値はクレブシュ=ゴルダン係数または3jm$の記号で表される。
これは、Varshalovich と Karpova [Opt. Spectrosc. 118, 1-5 (2015); Opt. Spektrosk. 118, 3-7] による非相対論的水素の場合の結果を一般化する。 It is shown that, in the relativistic hydrogenic approximation, expectation values of the type $\langle n\ell j|r^k|n\ell j\rangle$ can be expressed in terms of Clebsch-Gordan coefficients or $3jm$ symbols. This generalizes the results obtained by Varshalovich and Karpova [Opt. Spectrosc. 118, 1-5 (2015); Opt. Spektrosk. 118, 3-7] in the non-relativistic hydrogenic case. | 翻訳日:2023-05-27 07:53:54 公開日:2020-11-17 |
# ブレイディング演算子によるw状態の生成 Generating W states with braiding operators ( http://arxiv.org/abs/2007.05660v2 ) ライセンス: Link先を確認 | Pramod Padmanabhan, Fumihiko Sugino, Diego Trancanelli | (参考訳) ブレイディング作用素は積状態から絡み合った状態を作るのに使われ、トポロジカルな絡み合いと量子の絡み合いの間の対応を確立することができる。
これは、ベルとGHZの最大絡み合い状態と、確率的局所演算と古典的通信の下でのそれらの等価状態でよく知られているが、これまではW状態も同様の結果が失われていた。
ここでは、特別でない 2-群の生成器を用いて、四量子空間の W 状態と分割代数を取得し、3-量子空間の W 状態を生成する。
また、w$_n$状態を$(2n-1)$-キュービット空間に埋め込むユニタリ一般化yang-baxter演算子も提示する。 Braiding operators can be used to create entangled states out of product states, thus establishing a correspondence between topological and quantum entanglement. This is well-known for maximally entangled Bell and GHZ states and their equivalent states under Stochastic Local Operations and Classical Communication, but so far a similar result for W states was missing. Here we use generators of extraspecial 2-groups to obtain the W state in a four-qubit space and partition algebras to generate the W state in a three-qubit space. We also present a unitary generalized Yang-Baxter operator that embeds the W$_n$ state in a $(2n-1)$-qubit space. | 翻訳日:2023-05-10 08:18:16 公開日:2020-11-17 |
# 多重量子チャネル識別の究極の限界 Ultimate limits for multiple quantum channel discrimination ( http://arxiv.org/abs/2007.14566v2 ) ライセンス: Link先を確認 | Quntao Zhuang and Stefano Pirandola | (参考訳) 量子仮説テストは、量子情報理論の全分野における中心的なタスクである。
究極の限界を理解することで、センシングから通信まで、幅広い量子プロトコルやアプリケーションに関する洞察が得られる。
量子状態間の仮説テストの限界は、70年代のヘルストロムの先駆的な研究によって完全に解明されているが、量子チャネルを用いた仮説テストのより難しい問題、すなわちチャネルの識別は理解されていない。
これは主に、入力の絡み合いの使用による複雑さと、適応戦略を採用する可能性に起因する。
本稿では、任意の数の量子チャネルの識別に影響を与える究極の誤差確率の上限を定式化する。
また、チャネルが特定の対称性を持つ場合、この下界は達成可能であることを示す。
一例として、チャネル位置探索の問題に適用し、複数のバックグラウンドチャネル間のターゲットチャネルの位置を特定することを目的とする。
この一般的な設定では、エンタングルメントの使用は、データ読み出し、ターゲット検出、量子分光に非自明な意味を持ち、絡みのない戦略に対して大きな優位性をもたらす。 Quantum hypothesis testing is a central task in the entire field of quantum information theory. Understanding its ultimate limits will give insight into a wide range of quantum protocols and applications, from sensing to communication. Although the limits of hypothesis testing between quantum states have been completely clarified by the pioneering works of Helstrom in the 70s, the more difficult problem of hypothesis testing with quantum channels, i.e., channel discrimination, is less understood. This is mainly due to the complications coming from the use of input entanglement and the possibility of employing adaptive strategies. In this paper, we establish a lower limit for the ultimate error probability affecting the discrimination of an arbitrary number of quantum channels. We also show that this lower bound is achievable when the channels have certain symmetries. As an example, we apply our results to the problem of channel position finding, where the goal is to identify the location of a target channel among multiple background channels. In this general setting, we find that the use of entanglement offers a great advantage over strategies without entanglement, with non-trivial implications for data readout, target detection and quantum spectroscopy. | 翻訳日:2023-05-07 20:49:32 公開日:2020-11-17 |
# 横場における長距離異方性$XY$-チェインの量子臨界性と励起 Quantum criticality and excitations of a long-range anisotropic $XY$-chain in a transverse field ( http://arxiv.org/abs/2007.16128v2 ) ライセンス: Link先を確認 | P. Adelhardt, J.A. Koziol, A. Schellenberger, K.P. Schmidt | (参考訳) 強磁性および反強磁性の場合の非等方性xyモデルの高磁場偏波位相を調べることにより、長距離相互作用を有する1次元量子磁石の臨界破壊について研究した。
While for the limiting case of the isotropic long-range XY model we can extract the elementary one quasi-particle dispersion analytically and calculate two quasi-particle excitation energies quantitatively in a numerical fashion, for the long-range Ising limit as well as in the intermediate regime we use perturbative continuous unitary transformations on white graphs in combination with classical Monte Carlo simulations for the graph embedding to extract high-order series expansions in the thermodynamic limit.
これにより、関連する臨界指数と乗法対数補正を含むギャップ閉鎖の解析により、高磁場偏極相の量子臨界分解を決定することができる。
さらに、強磁性等方性XYモデルでは、ボソニック量子場理論により臨界指数$z$と$\nu$を解析的に決定する。 The critical breakdown of a one-dimensional quantum magnet with long-range interactions is studied by investigating the high-field polarized phase of the anisotropic XY model in a transverse field for the ferro- and antiferromagnetic case. While for the limiting case of the isotropic long-range XY model we can extract the elementary one quasi-particle dispersion analytically and calculate two quasi-particle excitation energies quantitatively in a numerical fashion, for the long-range Ising limit as well as in the intermediate regime we use perturbative continuous unitary transformations on white graphs in combination with classical Monte Carlo simulations for the graph embedding to extract high-order series expansions in the thermodynamic limit. This enables us to determine the quantum-critical breakdown of the high-field polarized phase by analyzing the gap-closing including associated critical exponents and multiplicative logarithmic corrections. In addition, for the ferromagnetic isotropic XY model we determined the critical exponents $z$ and $\nu$ analytically by a bosonic quantum-field theory. | 翻訳日:2023-05-07 12:43:49 公開日:2020-11-17 |
# dc原子超伝導量子干渉デバイスにおけるdc to ac Josephson転移 dc to ac Josephson transition in a dc atom superconducting quantum interference device ( http://arxiv.org/abs/2008.00527v3 ) ライセンス: Link先を確認 | H. M. Cataldo | (参考訳) 有名なdc超伝導量子干渉装置 (squid) のコールド原子アナログである1対のジョセフソン接合により遮断されたリング状ボース・アインシュタイン凝縮体のボース・ハバード・ハミルトニアンに対する障壁運動の影響を解析した。
このような効果はまた、ボソン場作用素の運動のハイゼンベルク方程式を2モード近似で修正し、加速または重なり合う障壁の力学に影響を及ぼすヒステリックな寄与が同定される。
エネルギーのランドスケープを秩序と制御パラメータの関数として研究することにより、直流と交流のジョセフソンのレジームの位置と、接合位置に依存することが示される臨界点とでダイアグラムを決定する。
最終的な一様流速,あるいは対称流速経路を導く断熱障壁軌道に対するdcからac Josephson遷移の解析を行う。
このような対称軌道は、臨界点に達すると、ac系における抵抗流の作用から生じるヒステリシスループと同様に、dc系内で高いヒステリシス振動するリターンパスを誘導する可能性がある。
また, 接合の両側における有限位相差から生じる非平衡初期条件と, このようなパラメータの臨界特性についても考察する。
Gross-Pitaevskiiシミュレーションと2モードの結果との優れた一致がすべてのケースで見られる。 We analyze the effect of the barrier motion on the Bose-Hubbard Hamiltonian of a ring-shaped Bose-Einstein condensate interrupted by a pair of Josephson junctions, a configuration which is the cold atom analog of the well-known dc superconducting quantum interference device (SQUID). Such an effect is also shown to modify the Heisenberg equation of motion of the boson field operator in the two-mode approximation, where a hysteretic contribution that could affect the dynamics for accelerated or overlapping barriers is identified. By studying the energy landscape as a function of order and control parameters, we determine the diagram with the location of the dc and ac Josephson regimes, along with the critical points that are shown to depend on the junctions position. We analyze the dc to ac Josephson transition for adiabatic barrier trajectories that lead to a final uniform velocity, or which perform symmetric velocity paths. We show that such symmetric trajectories may induce, when reaching the critical point, highly hysteretic oscillating return paths within the dc regime, similar to the underdamped hysteresis loops arising from the action of a resistive flow in the ac regime. We also consider nonequilibrium initial conditions resulting from a finite phase difference on either side of the junctions, along with the critical features of such a parameter. An excellent agreement between the Gross-Pitaevskii simulations and the two-mode results is found in all cases. | 翻訳日:2023-05-07 08:38:06 公開日:2020-11-17 |
# 量子コンピュータ上の最小波動関数を持つ密度汎関数とコーンシャムポテンシャル Density functionals and Kohn-Sham potentials with minimal wavefunction preparations on a quantum computer ( http://arxiv.org/abs/2008.05592v3 ) ライセンス: Link先を確認 | Thomas E. Baker and David Poulin | (参考訳) 量子コンピュータの潜在的な応用の1つは、量子化学系の解法である。
古典的に幾分正確な解を得る最速の方法の1つは密度汎関数論の近似を用いることである。
本稿では,十分に強力な量子コンピュータから機械学習モデルとして機能する汎用的な手法を示す。
量子コンピュータ上の解の実現可能性に関する既存の仮定のみが用いられる。
量子位相推定、量子振幅推定、および量子勾配法などの既知のアルゴリズムを用いて、学習されたモデルのトレーニングを行う。
このアルゴリズムの組み合わせの利点の1つは、量子波動関数が各ステップで完全に再準備される必要がなく、かなりの事前因子を下げることである。
量子コンピュータ上の基底状態アルゴリズムの解に対する仮定を用いて、コーン・シャムポテンシャルの発見は基底状態密度よりも必ずしも困難ではないことを示す。
学習された近似が入力システムに十分正確であれば、システム構築後、古典的な利用者は学習した関数を用いてシステムの基底状態を自己整合的に解くことができる。
また、古典的ユーザは、基底状態モデルから一般に使用される時間および温度依存近似にどのようにアクセスできるかを実証する。
アルゴリズムのマイナーな修正は、正確な時間と温度依存性を含む他の種類の機能理論を学ぶことができる。
量子機械学習を含む他のいくつかのアルゴリズムは、この問題の一般的なケースでは実用的でないことが示されている。 One of the potential applications of a quantum computer is solving quantum chemical systems. It is known that one of the fastest ways to obtain somewhat accurate solutions classically is to use approximations of density functional theory. We demonstrate a general method for obtaining the exact functional as a machine learned model from a sufficiently powerful quantum computer. Only existing assumptions for the current feasibility of solutions on the quantum computer are used. Several known algorithms including quantum phase estimation, quantum amplitude estimation, and quantum gradient methods are used to train a machine learned model. One advantage of this combination of algorithms is that the quantum wavefunction does not need to be completely re-prepared at each step, lowering a sizable pre-factor. Using the assumptions for solutions of the ground-state algorithms on a quantum computer, we demonstrate that finding the Kohn-Sham potential is not necessarily more difficult than the ground state density. Once constructed, a classical user can use the resulting machine learned functional to solve for the ground state of a system self-consistently, provided the machine learned approximation is accurate enough for the input system. It is also demonstrated how the classical user can access commonly used time- and temperature-dependent approximations from the ground state model. Minor modifications to the algorithm can learn other types of functional theories including exact time- and temperature-dependence. Several other algorithms--including quantum machine learning--are demonstrated to be impractical in the general case for this problem. | 翻訳日:2023-05-06 11:16:30 公開日:2020-11-17 |
# 浮上マイクロマグネットを用いた散逸崩壊モデルの試験 Testing Dissipative Collapse Models with a Levitated Micromagnet ( http://arxiv.org/abs/2008.06245v2 ) ライセンス: Link先を確認 | A. Vinante, G. Gasbarri, C. Timberlake, M. Toro\v{s}, H. Ulbricht | (参考訳) 超低散逸の浮揚型マイクロマグネットを用いた自発的波動関数崩壊モデルの散逸拡張の実験実験を行った。
半径$R=27$$\mu$mの球状マイクロマグネットはリードトラップにおけるマイスナー効果により4.2ドルKで浮上し、その動きはSQUIDによって検出される。
周波数5,7$Hzの垂直翻訳モードで正確なリングダウン測定を行い,残差減衰を消滅圧力$\gamma/2\pi<9$$$\mu$Hzで推定する。
この上限からcslモデル(連続的自発的局在化)とdpモデル(di\'{o}si-penrose)モデル(参照質量の適切な選択)の散逸的バージョンの境界を導出する。
特に、散逸モデルでは、温度定数でパラメータ化された効果を持つ孤立系の本質減衰が生じ、散逸型cslモデルは1 nk以下では除外され、散逸型dpモデルは10^{-13}$k以下の温度では除外される。 We present experimental tests of dissipative extensions of spontaneous wave function collapse models based on a levitated micromagnet with ultralow dissipation. The spherical micromagnet, with radius $R=27$ $\mu$m, is levitated by Meissner effect in a lead trap at $4.2$ K and its motion is detected by a SQUID. We perform accurate ringdown measurements on the vertical translational mode with frequency $57$ Hz, and infer the residual damping at vanishing pressure $\gamma/2\pi<9$ $\mu$Hz. From this upper limit we derive improved bounds on the dissipative versions of the CSL (continuous spontaneous localization) and the DP (Di\'{o}si-Penrose) models with proper choices of the reference mass. In particular, dissipative models give rise to an intrinsic damping of an isolated system with the effect parameterized by a temperature constant; the dissipative CSL model with temperatures below 1 nK is ruled out, while the dissipative DP model is excluded for temperatures below $10^{-13}$ K. Furthermore, we present the first bounds on dissipative effects in a more recent model, which relates the wave function collapse to fluctuations of a generalized complex-valued spacetime metric. | 翻訳日:2023-05-06 07:19:29 公開日:2020-11-17 |
# 無限射影エンタングル対状態から非可換位相次数を決定する Determining non-Abelian topological order from infinite projected entangled pair states ( http://arxiv.org/abs/2008.06391v2 ) ライセンス: Link先を確認 | Anna Francuz and Jacek Dziarmaga | (参考訳) Physで導入された手法を一般化する。
B 101, 041108 (2020) は、無限射影絡み合った対状態 (iPEPS) で表される強相関の強い2次元系の基底状態から非アベリア位相秩序への位相秩序に関する情報を抽出する。
トーラスに包むと、ユニークなiPEPSは縮退状態と局所的に区別できない基底状態の重ね合わせとなる。
無限行列積演算子(MPO)で表されるiPEPSの数値対称性とその融合規則を求める。
規則は、対称性をプロジェクタに結合する方法を、適切に定義されたanyon fluxとステートに示す。
MPOプロジェクターの線形構造は、無限長の円筒上の2番目のレニイ位相エンタングルメントエントロピーを、無限円筒の幅の極限で直接決定することができる。
同じプロジェクタは、創発的アノンの相互統計と自己統計を符号化する位相的$s$と$t$行列を計算するために使われる。
このアルゴリズムはfibonacciやising non-abelian string netモデルの例によって示される。 We generalize the method introduced in Phys. Rev. B 101, 041108 (2020) of extracting information about topological order from the ground state of a strongly correlated two-dimensional system represented by an infinite projected entangled pair state (iPEPS) to non-Abelian topological order. When wrapped on a torus the unique iPEPS becomes a superposition of degenerate and locally indistinguishable ground states. We find numerically symmetries of the iPEPS, represented by infinite matrix product operators (MPO), and their fusion rules. The rules tell us how to combine the symmetries into projectors onto states with well defined anyon flux. A linear structure of the MPO projectors allows for efficient determination for each state its second Renyi topological entanglement entropy on an infinitely long cylinder directly in the limit of infinite cylinder's width. The same projectors are used to compute topological $S$ and $T$ matrices encoding mutual- and self-statistics of emergent anyons. The algorithm is illustrated by examples of Fibonacci and Ising non-Abelian string net models. | 翻訳日:2023-05-06 07:11:19 公開日:2020-11-17 |
# k$-forrelationは量子と古典的なクエリの複雑さを最適に分離する $k$-Forrelation Optimally Separates Quantum and Classical Query Complexity ( http://arxiv.org/abs/2008.07003v3 ) ライセンス: Link先を確認 | Nikhil Bansal and Makrand Sinha | (参考訳) Aaronson and Ambainis (SICOMP `18) は、$N$ビット上の任意の部分関数が、$q$の量子クエリによってランダムな推測よりも$\delta$で計算できることを示し、また、${O}_q(N^{1-\frac{1}{2q}}\delta^{-2})$クエリをランダム化された決定ツリーによって$\delta/2$で古典的に計算できることを示した。
さらに彼らは、$k$-forrelation問題($q = \lceil k/2 \rceil$ 量子クエリで計算できる部分関数)を、そのような極値分離を示すのに適した候補として予想した。
この予想は、$\delta = 2^{-o(k)}$ という利点を持つ、$k$-forrelation のランダム化されたクエリ複雑性に対して、$\widetilde{\omega}(n^{1-1/k})$ という厳密な下限を示して証明する。
標準的な増幅引数により、$O_\epsilon(1)$ vs $\Omega(N^{1-\epsilon})$境界量子とランダム化されたクエリ複雑度の間の分離を示す明示的な部分関数が得られ、$\epsilon>0$は任意に小さくすることができる。
この証明はまた、tal (focs `20) によって導入された密接な関係があるが非説明の $k$-rorrelation 関数に対する同じ境界を与える。
我々の手法は古典ガウス的ツール、特にガウス的補間とガウス的部分積分に依存しており、実際にはより一般的な記述を与える。
関数の族に対する$k$-Forrelationの低い境界を証明するために、$k$と$(k-1)k$の間のフーリエ係数の$\ell_1$-weightを束縛することが十分であることを示す。
また、高次元ガウスベクトルの丸めの文脈において独立した関心を持つ部分の同一性による新たな補間と積分も証明する。 Aaronson and Ambainis (SICOMP `18) showed that any partial function on $N$ bits that can be computed with an advantage $\delta$ over a random guess by making $q$ quantum queries, can also be computed classically with an advantage $\delta/2$ by a randomized decision tree making ${O}_q(N^{1-\frac{1}{2q}}\delta^{-2})$ queries. Moreover, they conjectured the $k$-Forrelation problem -- a partial function that can be computed with $q = \lceil k/2 \rceil$ quantum queries -- to be a suitable candidate for exhibiting such an extremal separation. We prove their conjecture by showing a tight lower bound of $\widetilde{\Omega}(N^{1-1/k})$ for the randomized query complexity of $k$-Forrelation, where the advantage $\delta = 2^{-O(k)}$. By standard amplification arguments, this gives an explicit partial function that exhibits an $O_\epsilon(1)$ vs $\Omega(N^{1-\epsilon})$ separation between bounded-error quantum and randomized query complexities, where $\epsilon>0$ can be made arbitrarily small. Our proof also gives the same bound for the closely related but non-explicit $k$-Rorrelation function introduced by Tal (FOCS `20). Our techniques rely on classical Gaussian tools, in particular, Gaussian interpolation and Gaussian integration by parts, and in fact, give a more general statement. We show that to prove lower bounds for $k$-Forrelation against a family of functions, it suffices to bound the $\ell_1$-weight of the Fourier coefficients between levels $k$ and $(k-1)k$. We also prove new interpolation and integration by parts identities that might be of independent interest in the context of rounding high-dimensional Gaussian vectors. | 翻訳日:2023-05-06 03:10:51 公開日:2020-11-17 |
# 高次非エルミート皮膚効果 Higher-order non-Hermitian skin effect ( http://arxiv.org/abs/2008.07237v2 ) ライセンス: Link先を確認 | Kohei Kawabata, Masatoshi Sato, Ken Shiozaki | (参考訳) 非エルミート皮膚効果は非エルミート系の特異な特徴であり、開境界条件下では多数の境界モードが現れる。
ここでは、新しい境界物理学を示す非エルミートスキン効果の高次効果を発見する。
システムサイズが$l \times l$の2次元システムでは、従来の(l^{2} )スキン効果は$o\,(l^{2} )$スキンモードに対応し、2階スキン効果は$o\,(l )$コーナースキンモードに対応している。
これはまた、エルミート二階位相絶縁体と対照的であり、ここでは$o\,(1 )$ corner zeroモードしか現れない。
さらに、3次元の3次スキン効果に対して、$O\,(L )$ corner skin modes はすべての $O\,(L^{3} )$ modes から現れる。
高次皮膚効果は空間対称性によって保護される固有非エルミートトポロジーに由来する。
また,高次元での非ブロッホバンド理論の修正に付随することを示した。 The non-Hermitian skin effect is a unique feature of non-Hermitian systems, in which an extensive number of boundary modes appear under the open boundary conditions. Here, we discover higher-order counterparts of the non-Hermitian skin effect that exhibit new boundary physics. In two-dimensional systems with the system size $L \times L$, while the conventional (first-order) skin effect accompanies $O\,( L^{2} )$ skin modes, the second-order skin effect accompanies $O\,( L )$ corner skin modes. This also contrasts with Hermitian second-order topological insulators, in which only $O\,( 1 )$ corner zero modes appear. Moreover, for the third-order skin effect in three dimensions, $O\,( L )$ corner skin modes appear from all $O\,( L^{3} )$ modes. We demonstrate that the higher-order skin effect originates from intrinsic non-Hermitian topology protected by spatial symmetry. We also show that it accompanies the modification of the non-Bloch band theory in higher dimensions. | 翻訳日:2023-05-06 01:08:09 公開日:2020-11-17 |
# オープンフェルミ・ハバードモデル:ランダウアー対マスター方程式アプローチ Open Fermi-Hubbard model: Landauer's vs. master equation approaches ( http://arxiv.org/abs/2009.04868v2 ) ライセンス: Link先を確認 | A. R. Kolovsky | (参考訳) 鉛で接続された2つの接点間のフェルミ粒子の量子輸送に関する簡単なモデルを導入する。
接触の緩和過程を明示的に考慮してランダウアー形式を一般化する。
本研究では, 鉛中のキャリアの接触抵抗および非平衡準モーメント分布を計算し, 緩和過程の速度に強く依存していることを示す。 We introduce a simple model for the quantum transport of Fermi particles between two contacts connected by a lead. It generalizes the Landauer formalizm by explicitly taken into account the relaxation processes in the contacts. We calculate the contact resistance and non-equilibrium quasi-momentum distribution of the carriers in the lead and show that they strongly depend on the rate of relaxation processes. | 翻訳日:2023-05-03 00:46:03 公開日:2020-11-17 |
# パッシブデコイ状態を有する双フィールド量子鍵分布 Twin-field quantum key distribution with passive-decoy state ( http://arxiv.org/abs/2011.07443v2 ) ライセンス: Link先を確認 | Jun Teng, Feng-Yu Lu, Zhen-Qiang Yin, Guan-Jie Fan-Yuan, Rong Wang, Shuang Wang, Wei Chen, Wei Huang, Bing-Jie Xu, Guang-Can Guo, Zheng-Fu Han | (参考訳) Twin-Field量子鍵分布(TF-QKD)とその変種、例えば、フェーズマッチQKD、Sending-or-not-sending QKD、No Phase Post-Selection TFQKDは、リピータなしでレート距離制限を破るために長距離で高いキーレートを約束する。
これらのプロトコルのセキュリティ証明はデコイ状態法(decoy-state method)に基づいており、実際の実験では可変光減衰器と乱数発生器を積極的に変調して行われるが、このような能動デコイスキームはサイドチャネルにつながり、セキュリティホールを開く可能性がある。
本稿では、TF-QKDのソースセキュリティを高めるために、TF-QKDと受動デコイ法を組み合わせた受動デコイに基づくTF-QKDを提案する。
そこで本研究では,本手法が有効デコイtf-qkdと同等の性能を持つことを示すとともに,数個の光子検出器で十分な秘密鍵速度が得られることを示す。
これは私たちの仕事が実際有意義であることを示している。 Twin-Field quantum key distribution (TF-QKD) and its variants, e.g. Phase-Matching QKD, Sending-or-not-sending QKD, and No Phase Post-Selection TFQKD promise high key rates at long distance to beat the rate distance limit without a repeater. The security proof of these protocols are based on decoy-state method, which is usually performed by actively modulating a variable optical attenuator together with a random number generator in practical experiments, however, active-decoy schemes like this may lead to side channel and could open a security loophole. To enhance the source security of TF-QKD, in this paper, we propose passive-decoy based TF-QKD, in which we combine TF-QKD with the passive-decoy method. And we present a simulation comparing the key generation rate with that in active-decoy, the result shows our scheme performs as good as active decoy TF-QKD, and our scheme could reach satisfactory secret key rates with just a few photon detectors. This shows our work is meaningful in practice. | 翻訳日:2023-04-24 01:46:38 公開日:2020-11-17 |
# 量子鍵分布系のための普遍的シミュレーションフレームワーク A universal simulating framework for quantum key distribution systems ( http://arxiv.org/abs/2011.08460v1 ) ライセンス: Link先を確認 | Guan-Jie Fan-Yuan, Wei Chen, Feng-Yu Lu, Zhen-Qiang Yin, Shuang Wang, Guang-Can Guo, Zheng-Fu Han | (参考訳) 量子キー分散(QKD)は、リモートユーザ間でキーをセキュアに調合する物理ベースの方法を提供する。
シミュレーションはQKDシステムの設計と最適化に不可欠である。
我々は光子信号と光デバイスに関する量子演算子記述に基づく普遍的なシミュレーションフレームワークを開発する。
光デバイスは光子励起イベントによって自由に結合および駆動することができ、原理的には任意のQKDシステムに適している。
本フレームワークは,光学デバイスとシステム構造の現実的な特徴に着目している。
デバイスの不完全性と量子システムの非局所的性質はモデリング時に考慮される。
我々はQKDシステムの基本となる単一光子と香港・ウー・マンデル干渉光学ユニットをシミュレートする。
このイベント駆動フレームワークを用いた結果は、QKDの可能性を示す理論的結果とよく一致している。 Quantum key distribution (QKD) provides a physical-based way to conciliate keys between remote users securely. Simulation is an essential method for designing and optimizing QKD systems. We develop a universal simulation framework based on quantum operator descriptions of photon signals and optical devices. The optical devices can be freely combined and driven by the photon excitation events, which make it appropriate for arbitrary QKD systems in principle. Our framework focuses on realistic characters of optical devices and system structures. The imperfections of the devices and the non-local properties of a quantum system are taken into account when modeling. We simulate the single-photon and Hong-Ou-Mandel (HOM) interference optical units, which are fundamental of QKD systems. The results using this event-driven framework agree well with the theoretical results, which indicate its feasibility for QKD. | 翻訳日:2023-04-23 21:37:17 公開日:2020-11-17 |
# ニオブ-シリコン界面における欠陥の化学的・電気的性質 Characterization of the Chemical and Electrical Properties of Defects at the Niobium-Silicon Interface ( http://arxiv.org/abs/2011.08359v1 ) ライセンス: Link先を確認 | Cameron Kopas, Madhu Krishna Murthy, Christopher Gregory, Bryan Ibarra Mercado, Daniel R. Queen, Brian Wagner, Nathan Newman | (参考訳) シリコン表面処理を施したニオブ-シリコン界面近傍の欠陥の性質と濃度は, 電流電圧 (I-V) , 深層遷移分光 (DLTS) , 二次イオン質量分析 (SIMS) を用いて測定した。
すべての試料は表面50nm以内のSi中でのH, C, O, F, Clの化学汚染と、原子価帯最大値(E$_{vbm}$)の0.147, 0.247, 0.339, 0.556 eVの活性化エネルギーを持つ電気活性欠陥を有する。
いずれの場合も、深いレベルの欠陥濃度は E$_{vbm}$ + 0.556eV のホールトラップによって支配され、これはSi のNb点欠陥、おそらく Nb$_\textrm{Si}$ に割り当てられる。
この欠陥は7\times10^{13}$から5\times10^{14}$cm$^{-3}$までの濃度で存在し、最終的な表面清浄過程に依存する。
本研究で用いた最適表面処理はHFエッチング, 続いて100eVのAr-ガスイオンミリング法である。
高エネルギーイオンミリングによりSi中の電気活性Nb欠陥濃度が増加し、欠陥濃度が増加する。
HFエッチングのみはOを界面から除去するが、大きなHおよびF汚染、電気的に活性な点欠陥濃度、ショックレー・リード=ハル再結合のレベル(理想係数 n, $\approx$1.6 のNb/Siショットキーダイオード)をもたらす。
RCAクリーンはH,F,C,Nb汚染の深さと濃度を増加させる。 The nature and concentration of defects near niobium-silicon interfaces prepared with different silicon surface treatments were characterized using current-voltage (I-V), deep level transient spectroscopy (DLTS), and secondary ion mass spectroscopy (SIMS). All samples have H, C, O, F, and Cl chemical contamination in the Si within 50 nm of the interface and electrically active defects with activation energies of 0.147, 0.247, 0.339, and 0.556 eV above the valence band maximum (E$_{vbm}$). In all cases, the deep level defect concentration is dominated by the hole trap at E$_{vbm}$ + 0.556eV, which we assign to a Nb point defect in Si, presumably Nb$_\textrm{Si}$. This defect is present with concentrations ranging from $7\times10^{13}$ to $5\times10^{14}$ cm$^{-3}$ and depends on the final surface clean process. The optimum surface treatment used in this study is an HF etch followed by an in-situ 100 eV Ar-gas ion milling process. Higher energy ion milling is found to increase the electrically active Nb defect concentration in the Si, and increase the concentration of defects. The HF etch alone removes O from the interface, but results in significant H and F contamination, electrically-active point defect concentrations, and levels of Shockley-Reed-Hall recombination (i.e. Nb/Si Schottky diodes with an ideality factor, n, of $\approx$ 1.6). The RCA clean increases the depth and concentration of H, F, C, and Nb contamination. | 翻訳日:2023-04-23 21:36:38 公開日:2020-11-17 |
# 超高速プラズモン崩壊による分子光解離 Molecular photodissociation enabled by ultrafast plasmon decay ( http://arxiv.org/abs/2011.08705v1 ) ライセンス: Link先を確認 | Jos\'e Torres-S\'anchez, Johannes Feist | (参考訳) 本稿では, ナノ粒子プラズモンとの結合により, 通常の光可視分子の光解離を可能にする方法を提案する。
単一分子レベルの大きなカップリングは、プラズモンモードの非常に損失の少ない性質と組み合わされ、フェムト秒のオーダーで寿命が長くなり、分子の超高速な崩壊チャネルが開く。
分子の垂直光励起エネルギー以下のプラズモンモードの周波数では、励起と放出エネルギーの差はラマン様過程において分子基底状態の振動エネルギーに変換される。
正しい条件下では、このエネルギーは電子基底状態の効率的な光解離を可能にするのに十分高い。
本稿では,アルミニウムナノ粒子近傍の水素分子に対するリンドブラッドマスター方程式の数値シミュレーションを用いて,光解離効率を種々のシステムパラメータの関数として検討する。 We propose a strategy for enabling photodissociation of a normally photostable molecule through coupling to a nanoparticle plasmon. The large possible coupling on the single-molecule level combined with the highly lossy nature of plasmonic modes, with lifetimes on the order of femtoseconds, opens an ultrafast decay channel for the molecule. For plasmon mode frequencies below the vertical photoexcitation energy of the molecule, the difference between excitation and emission energy is converted into vibrational energy on the molecular ground state in a Raman-like process. Under the correct conditions, this energy can be high enough to enable efficient photodissociation on the electronic ground state. We demonstrate the concept using numerical simulations of the Lindblad master equation for the hydrogen molecule in the vicinity of an aluminum nanoparticle, and explore the photodissociation efficiency as a function of various system parameters. | 翻訳日:2023-04-23 21:32:29 公開日:2020-11-17 |
# 量子グラフモデルにおける二層および三層ベルナルスタックグラフェンのディラック錐 Dirac cones for bi- and trilayer Bernal-stacked graphene in a quantum graph model ( http://arxiv.org/abs/2011.08658v1 ) ライセンス: Link先を確認 | Cesar R. de Oliveira, Vinicius L. Rocha | (参考訳) グラフェン1枚分の量子グラフモデルを二層および三層ベルナル重ね合わせグラフェンに拡張し、スペクトルを特徴とし、分散関係を明示的に取得する。
本モデルでは, 強結合計算, 有効2次元モデル, 最近傍トンネルを用いた$\pi$-orbital連続体モデルによる基礎的事実を, 物理文献で論じられている。 A quantum graph model for a single sheet of graphene is extended to bilayer and trilayer Bernal-stacked graphene; the spectra are characterized and the dispersion relations explicitly obtained; Dirac cones are then proven to be present only for trilayer graphene, although the bilayer has a gapless parabolic band component. Our model rigorously exhibits basic facts from tight-binding calculations, effective two-dimensional models and a $\pi$-orbital continuum model with nearest-neighbour tunneling that have been discussed in the physics literature. | 翻訳日:2023-04-23 21:31:52 公開日:2020-11-17 |
# スピン双極子相互作用によるマルチホップ絡みネットワークの生成 Generating multi-hops entangled network via spin Dipolar interaction ( http://arxiv.org/abs/2011.08617v1 ) ライセンス: Link先を確認 | A. R. Mohammed, T. M. El-Shahat and N. Metwally | (参考訳) スピン双極子相互作用による異なるエンタングルノード(量子ビット)間のマルチホップネットワーク生成の可能性について検討した。
生成した量子相関の量子化器として、負性、絡み合い、非局所コヒーレント優位が用いられる。
絡み合った2つのノードに対して、突然の死亡/出産の現象を表示し、すべての絡み合った3つのノードに対して、突然の変化現象(増加/減少)を描写する。
異なるノード間の相関の量は初期ネットワーク設定に依存しており、ネットワークが最初に最大絡み合ったノードによって実行される場合、最も多く予測される。
生成した3つのノード間の量子相関は、2つのノード間で生成されたものよりも堅牢である。
生成した絡み合った2つのノードに対して、相互作用の方向とその強さは相関挙動に顕著な影響を及ぼし、3つのノードの相関にわずかに影響を及ぼす。 The possibility of generating a multi-hops network between different entangled nodes (qubits) via spin Dipolar interaction is examined. The negativity, tangle and the non-local coherent advantage are used as quantifiers of the generated quantum correlations. The phenomena of the sudden death/birth is displayed for the entangled two nodes, while the sudden changes phenomena (increasing/ decreasing) is depicted for all entangled three nodes. The amount of correlations between the different nodes depend on the initial network settings, where the largest amount is predicted if the network is initially conducted via maximum entangled nodes. The generated quantum correlations between each three nodes are more robust than those generated between two nodes. For the generated entangled two nodes, the direction of the interaction and its strength have a remarkable effect on the correlation behavior, while they has a slightly effect on the correlation of the three nodes. | 翻訳日:2023-04-23 21:31:40 公開日:2020-11-17 |
# プライバシー・匿名・安全のためのCCTV対応ルーティングとナビゲーションに関するフィージビリティスタディ
Jyvaskyla - CCTV対応技術による最初の都市からベネフィットへのケーススタディ。
(プレプリント) Feasibility Study on CCTV-aware Routing and Navigation for Privacy, Anonymity, and Safety. Jyvaskyla -- Case-study of the First City to Benefit from CCTV-aware Technology. (Preprint) ( http://arxiv.org/abs/2011.08598v1 ) ライセンス: Link先を確認 | Tuomo Lahtinen and Lauri Sintonen and Hannu Turtiainen and Andrei Costin | (参考訳) CCTVカメラや技術によるプライバシーの継続的な侵略に対処するためには、プライバシー、安全性、サイバーセキュリティ機能を提供するCCTV対応のソリューションが存在している必要がある。
このようなcctv対応ソリューションへの第1の重要なステップは、プライバシと安全の両方のルーティングとナビゲーションオプションを提供するマッピングシステムである必要があります。
私たちの知る限りでは、プライバシと安全ルーティングオプションをサポートするマッピングやナビゲーションシステムはありません。
本稿では,CCTV対応ルーティングおよびナビゲーションソリューションの実現可能性について検討する。
この実現可能性調査の目的は、CCTVのプライバシーに対する主な影響と、そのような技術を構築する上での課題とメリットを理解することである。
フィンランドのjyvaskyla市中心街における7(7)歩行者歩行経路のアプローチを評価した。
まず450台のCCTVカメラをマップし、いくつかの異なる構成でルーティングとナビゲーションを実験して、考えられるカメラのパラメータと実世界からのカバレッジを粗くモデル化する。
主な結果を2つ報告します
まず,本手法の総合的実現可能性について予備的考察を行った。
第2に、プライバシーと匿名性を維持したい人のために、データ駆動型で心配する現実も明らかになった。
カメラを低性能でモデル化する場合、プライバシ保護経路は一般的なルーティングに比べて平均1.5倍の距離が増加する。
中~ハイパフォーマンスでカメラをモデル化する場合、プライバシ保存経路は平均5.0倍の距離で増加し、場合によってはプライバシ保存経路が全くない。
これらの結果は、CCTVカメラのグローバルマッピングと、カメラモデリングおよび基盤技術への改良の両方をサポートし、奨励する。 In order to withstand the ever-increasing invasion of privacy by CCTV cameras and technologies, on par CCTV-aware solutions must exist that provide privacy, safety, and cybersecurity features. We argue that a first important step towards such CCTV-aware solutions must be a mapping system that provides both privacy and safety routing and navigation options. To the best of our knowledge, there are no mapping nor navigation systems that support privacy and safety routing options. In this paper, we explore the feasibility of a CCTV-aware routing and navigation solution. The aim of this feasibility exploration is to understand what are the main impacts of CCTV on privacy, and what are the challenges and benefits to building such technology. We evaluate our approach on seven (7) pedestrian walking routes within the downtown area of the city of Jyvaskyla, Finland. We first map a total of 450 CCTV cameras, and then experiment with routing and navigation under several different configurations to coarsely model the possible cameras' parameters and coverage from the real-world. We report two main results. First, our preliminary findings support the overall feasibility of our approach. Second, the results also reveal a data-driven worrying reality for persons wishing to preserve their privacy/anonymity as their main living choice. When modelling cameras at their low performance end, a privacy-preserving route has on average a 1.5x distance increase when compared to generic routing. When modelling cameras at their medium-to-high performance end, a privacy-preserving route has on average a 5.0x distance increase, while in some cases there are no privacy-preserving routes possible at all. These results further support and encourage both global mapping of CCTV cameras and refinements to camera modelling and underlying technology. | 翻訳日:2023-04-23 21:31:25 公開日:2020-11-17 |
# 電荷変換パルス列を用いた窒素空孔一重項エネルギーレベルの探索 Finding the nitrogen-vacancy singlet manifold energy level using charge conversion pulse sequences ( http://arxiv.org/abs/2011.08537v1 ) ライセンス: Link先を確認 | Idan Meirzada, Sigal A. Wolf, Nir Bar-Gill | (参考訳) 近年、ダイヤモンド中の窒素空洞(NV)中心に関する大規模な研究が、幅広いNVベースの応用の扉を開いた。
しかしながら、NV中心動力学とエネルギー準位のいくつかの性質はいまだに不明である。
本研究では,NV中心一重項多様体エネルギーレベルをチューナブルレーザーを用いた多色励起により位置決めする電荷変換パルスシーケンス方式を提案する。
そこで本研究では,リードアウトフォト誘導電流とNV$^0$集団に対する2つのアプローチを提案し,関連するスペクトルの異なる状態に対する効率について論じる。 The vast research conducted on Nitrogen-Vacancy (NV) centers in diamond in recent years opened the door for a wide range of NV based applications. However, some properties of the NV center dynamics and energy levels remain unknown. In this work, we propose a charge conversion pulsed sequence scheme for locating the NV center singlet manifold energy level, by multi-color excitation using a tunable laser. We present two approaches for readout - photo-induced current and NV$^0$ population - and discuss their efficiency for different regimes in the relevant spectrum. | 翻訳日:2023-04-23 21:30:50 公開日:2020-11-17 |
# インシデントカタログ作成による現実世界のai障害の繰り返し防止 - aiインシデントデータベース Preventing Repeated Real World AI Failures by Cataloging Incidents: The AI Incident Database ( http://arxiv.org/abs/2011.08512v1 ) ライセンス: Link先を確認 | Sean McGregor | (参考訳) 成熟した産業部門(例えば航空)は、安全改善を知らせるためにインシデントデータベースに現実世界の障害を収集します。
インテリジェントシステムは現在、失敗の集合記憶なしで現実世界の害を引き起こしている。
その結果、企業はインテリジェントシステムの設計、開発、デプロイにおいて繰り返し同じ間違いを犯した。
実世界で経験したインテリジェントなシステム障害(インシデント)のコレクションは、インテリジェントなシステムが人々や社会に利益をもたらすために必要です。
AIインシデントデータベース(AI Incident Database)は、AIインシデント回避と緩和を可能にする産業・非営利団体によるインシデントコレクションである。
このデータベースは、これまでにアーカイブされた1000件以上のインシデントレポートに対して、顔と全文検索を備えたさまざまな研究および開発ユースケースをサポートしている。 Mature industrial sectors (e.g., aviation) collect their real world failures in incident databases to inform safety improvements. Intelligent systems currently cause real world harms without a collective memory of their failings. As a result, companies repeatedly make the same mistakes in the design, development, and deployment of intelligent systems. A collection of intelligent system failures experienced in the real world (i.e., incidents) is needed to ensure intelligent systems benefit people and society. The AI Incident Database is an incident collection initiated by an industrial/non-profit cooperative to enable AI incident avoidance and mitigation. The database supports a variety of research and development use cases with faceted and full text search on more than 1,000 incident reports archived to date. | 翻訳日:2023-04-23 21:30:41 公開日:2020-11-17 |
# Covid-19に関するオンライン討論会における政治参加と反科学態度 Political Partisanship and Anti-Science Attitudes in Online Discussions about Covid-19 ( http://arxiv.org/abs/2011.08498v1 ) ライセンス: Link先を確認 | Ashwin Rao, Fred Morstatter, Minda Hu, Emily Chen, Keith Burghardt, Emilio Ferrara and Kristina Lerman | (参考訳) 新型コロナウイルスのパンデミックは米国中のコミュニティを壊滅させ続けている。
世論調査は、パンデミックの認識の形成と予防措置の遵守における政治的イデオロギーの重要性を明らかにした。
ここではソーシャルメディアデータを用いて分極の複雑さを研究する。
我々は、2020年1月から5月にかけて収集されたパンデミックに関連するツイートの大規模なデータセットを分析し、モデラシ(ハードライン対中道)、政治的(リベラル対保守)、科学(アンチサイエンス対プロサイエンス)の次元に沿ってユーザーのイデオロギー的アライメントを分類する方法を開発した。
科学と政治的側面に沿った偏極は相関するが、政治的に穏健なユーザーは、反科学的な見解を持つ政治的に強硬なユーザーと、プロサイエンスの見解に合致する傾向にある。
期待とは対照的に、偏光は時間の経過とともに成長するわけではなく、むしろ中程度のプロサイエンスユーザーによる活動の増加が見られます。
また、反科学保守派は南部からツイートする傾向があり、反科学派は西部州からのツイートが多いことも示している。
本研究は,多次元の偏光の性質と,ソーシャルメディアデータを通じて,パンデミックに関する偏光的意見を追跡する可能性について明らかにした。 The novel coronavirus pandemic continues to ravage communities across the US. Opinion surveys identified importance of political ideology in shaping perceptions of the pandemic and compliance with preventive measures. Here, we use social media data to study complexity of polarization. We analyze a large dataset of tweets related to the pandemic collected between January and May of 2020, and develop methods to classify the ideological alignment of users along the moderacy (hardline vs moderate), political (liberal vs conservative) and science (anti-science vs pro-science) dimensions. While polarization along the science and political dimensions are correlated, politically moderate users are more likely to be aligned with the pro-science views, and politically hardline users with anti-science views. Contrary to expectations, we do not find that polarization grows over time; instead, we see increasing activity by moderate pro-science users. We also show that anti-science conservatives tend to tweet from the Southern US, while anti-science moderates from the Western states. Our findings shed light on the multi-dimensional nature of polarization, and the feasibility of tracking polarized opinions about the pandemic across time and space through social media data. | 翻訳日:2023-04-23 21:30:27 公開日:2020-11-17 |
# 量子コンピュータにおける散逸時間スケールの多体階層 Many-body Hierarchy of Dissipative Timescales in a Quantum Computer ( http://arxiv.org/abs/2011.08853v1 ) ライセンス: Link先を確認 | Oscar Emil Sommer, Francesco Piazza, and David J. Luitz | (参考訳) 現在の雑音量子コンピュータは、汎用オープンシステムにおける量子多体力学シミュレーションの理想的なプラットフォームであることを示す。
我々は、IBM Quantum Computerを実験用プラットフォームとして使用し、異なる数の量子ビットを含む多体観測可能量の緩和時間スケールの創発的階層の[Phys. Lett.124, 100604 (2020)]から理論予測を確認する。
異なるプロトコルを用いて、ゲートエラーの原因となる機械の固有散逸を利用して、汎用的(すなわち構造のない)局所散逸相互作用の量子シミュレーションを実現する。 We show that current noisy quantum computers are ideal platforms for the simulation of quantum many-body dynamics in generic open systems. We demonstrate this using the IBM Quantum Computer as an experimental platform for confirming the theoretical prediction from [Phys. Rev. Lett.124, 100604 (2020)] of an emergent hierarchy of relaxation timescales of many-body observables involving different numbers of qubits. Using different protocols, we leverage the intrinsic dissipation of the machine responsible for gate errors, to implement a quantum simulation of generic (i.e. structureless) local dissipative interactions. | 翻訳日:2023-04-23 21:23:30 公開日:2020-11-17 |
# COVID19のインフォデミック。
科学コミュニケーションにおける学術者の役割と場所 The COVID19 infodemic. The role and place of academics in science communication ( http://arxiv.org/abs/2011.08787v1 ) ライセンス: Link先を確認 | Jennifer Cole | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中に広まり、同時に情報のパンデミックが広がった。
世界保健機関(who)のインフォデミックと見なされ、情報の過剰さとして記述され、流行の時に起こる正確で、そうでないものもあるが、このデータ、研究、意見の急増は、学者の機会と挑戦の両方を提供する。
教育者、影響力者、コミュニケーターとして、その専門性と経験がsars-cov2ウイルスとその影響と正確に一致していない場合でも、学者や科学者はインフォデミックチャレンジの解決策において重要な役割を担っている。
しかし、専門家が伝統的なソーシャルメディアやソーシャルメディアと関わる方法の最大化と、そのような取り組みが、それへの対抗や挑戦の努力と共に混乱や誤情報に繋がらないことを確実にするためには、大衆が科学的情報を探し、理解し、処理する方法をよりよく理解する必要がある。
本稿は、COVID19とより深く関わること、そのような議論が盛んに行われること、そして情報を広めることから得られる重要な利点を概説する。
また、参加を選択した人が遭遇する可能性のある共通の落とし穴に対して警告する一方で、その不利益はそのような関与の利点によってはるかに上回っていると強調する。 As the COVID19 pandemic has spread across the world, a concurrent pandemic of information has spread with it. Deemed an infodemic by the World Health Organization, and described as an overabundance of information, some accurate, some not, that occurs during an epidemic, this proliferation of data, research and opinions provides both opportunities and challenges for academics. Academics and scientists have a key role to play in the solutions to the infodemic challenge: as educators, influences and communicators, even where their expertise and experience does not align precisely with the SARS-Cov2 virus and its impacts. Successful communication requires a better understanding of how the public seeks, understands and processes scientific information, however, in order to maximise the ways in which experts engage with traditional and social media and to make sure that such engagement does not add to confusion and misinformation alongside efforts to counter or challenge it. This paper will outline the key advantages to be had from greater engagement with COVID19 discussions, the popular channels through which such discussions take place and through which information is disseminated. It also warns against the common pitfalls those who choose to engage might encounter, whilst stressing that the disadvantages of doing so are far outweighed by the advantages such engagement offers. | 翻訳日:2023-04-23 21:22:47 公開日:2020-11-17 |
# 光子の粒子交換相の直接観察 Direct observation of the particle exchange phase of photons ( http://arxiv.org/abs/2011.08777v1 ) ライセンス: Link先を確認 | Konrad Tschernig, Chris M\"uller, Malte Smoor, Tim Kroh, Janik Wolters, Oliver Benson, Kurt Busch and Armando P\'erez-Leija | (参考訳) 量子論は、2つの粒子が全ての物理的側面で同一であれば、系の許容状態は粒子ラベルの置換に関して対称または非対称である。
実験的に、状態の対称性は、理論解析における正しい交換対称性の無視が観測と劇的な不一致をもたらすという事実から間接的に推測することができる。
状態の対称性を直接露光する唯一の方法は、2つの同一粒子が元の状態と物理的に置換された粒子の干渉によって、置換過程、いわゆる粒子交換相に関連する位相を測定することである。
このアイデアに従うと、区別不可能な光子の交換位相を測定し、光子のボゾン特性の直接的証拠を提供する。 Quantum theory stipulates that if two particles are identical in all physical aspects, the allowed states of the system are either symmetric or antisymmetric with respect to permutations of the particle labels. Experimentally, the symmetry of the states can be inferred indirectly from the fact that neglecting the correct exchange symmetry in the theoretical analysis leads to dramatic discrepancies with the observations. The only way to directly unveil the symmetry of the states for, say, two identical particles is through the interference of the original state and the physically permuted one, and measure the phase associated with the permutation process, the so-called particle exchange phase. Following this idea, we have measured the exchange phase of indistinguishable photons, providing direct evidence of the bosonic character of photons. | 翻訳日:2023-04-23 21:22:22 公開日:2020-11-17 |
# 有限と無限のアダマール量子ウォークをランダムウォークプロセスの一意な場合にマッピングする Mapping a finite and an infinite Hadamard quantum walk onto a unique case of a random walk process ( http://arxiv.org/abs/2011.08767v1 ) ライセンス: Link先を確認 | Arie Bar-Haim | (参考訳) ハダマール作用素によって記述された量子ランダムウォークをランダムウォークの特定のケースにマッピングする新しいモデルを提案する。
このモデルは確率行列を持つマルコフ連鎖、すなわち全ての遷移率は正であるが、ハダマール作用素は負の成分を含む。
n段階後のランダムウォーク分布に適用される適切な変換を用いて、2つの量子状態 |1>, |0> の空間における確率分布を明らかにする。
これらの結果は、量子ウォークがランダムウォークモデルの高次元の特定の場合に完全にマッピングできることを示している。
ランダムウォークモデルとそのアダマールウォークへの同値性は、2つの反射点を持つ有限鎖のような他の場合にも拡張できる。 A new model that maps a quantum random walk described by a Hadamard operator to a particular case of a random walk is presented. The model is represented by a Markov chain with a stochastic matrix, i.e., all the transition rates are positive, although the Hadamard operator contains negative entries. Using a proper transformation that is applied to the random walk distribution after n steps, the probability distributions in space of the two quantum states |1>, |0> are revealed. These show that a quantum walk can be entirely mapped to a particular case of a higher dimension of a random walk model. The random walk model and its equivalence to a Hadamard walk can be extended for other cases, such as a finite chain with two reflecting points | 翻訳日:2023-04-23 21:22:10 公開日:2020-11-17 |
# 高周波TiN共振器の3次元積分による半導体二重量子ドットの分散測定 Dispersive measurement of a semiconductor double quantum dot via 3D integration of a high-impedance TiN resonator ( http://arxiv.org/abs/2011.08759v1 ) ライセンス: Link先を確認 | Nathan Holman, D. Rosenberg, D. Yost, J.L. Yoder, R. Das, William D. Oliver, R. McDermott, M.A. Eriksson | (参考訳) 半導体量子ドットのスピンは、非常に長いコヒーレンス時間のため、低温量子プロセッサの候補である。
量子ドットスピン量子ビットのスケーリングにおける大きな課題の1つは、高密度な配線要件である。
本稿では,2次元グリッド単位セル面積が0.16〜\text{mm}^2$の高インピーダンス超伝導共振器を用いて,量子ビットを分散させてこの問題を解決する方法について述べる。
このアプローチの実現可能性を証明するため,Si/SiGeヘテロ構造の二重量子ドットに結合した高インピーダンスTiN共振器の3次元積分を実証した。
共振器を分散ゲートセンサとして使用し、共振器-ドット容量に制限されたSNR = 5.36の単一電子状態に調整する。
ドットと共振器の特性は、量子ドットの低電荷ノイズ測定値を維持しつつ、超伝導共振器(Q_L = 2.14 \times 10^4$)の負荷品質を向上し、高感度の電荷検出と高忠実度2ビットゲートの可能性を示す。
この研究は、空洞を介する相互作用を持つ2次元量子ドット量子ビットアレイの道を開いた。 Spins in semiconductor quantum dots are a candidate for cryogenic quantum processors due to their exceptionally long coherence times. One major challenge to scaling quantum dot spin qubits is the dense wiring requirements, making it difficult to envision fabricating large arrays of nearest-neighbor-coupled qubits necessary for error correction. We describe a method to solve this problem by spacing the qubits out using high-impedance superconducting resonators with a 2D grid unit cell area of $0.16~\text{mm}^2$ using 3D integration. To prove the viability of this approach, we demonstrate 3D integration of a high-impedance TiN resonator coupled to a double quantum dot in a Si/SiGe heterostructure. Using the resonator as a dispersive gate sensor, we tune the device down to the single electron regime with an SNR = 5.36 limited by the resonator-dot capacitance. Characterization of the dot and resonator systems shows such integration can be done while maintaining low charge noise metrics for the quantum dots and with improved loaded quality factors for the superconducting resonator ($Q_L = 2.14 \times 10^4$), allowing for high-sensitivity charge detection and the potential for high fidelity 2-qubit gates. This work paves the way for 2D quantum dot qubit arrays with cavity mediated interactions. | 翻訳日:2023-04-23 21:21:56 公開日:2020-11-17 |
# 2次元ラマン格子における相関チャーン絶縁体:強結合四フェルミ場理論のコールド原子正則化 Correlated Chern insulators in two-dimensional Raman lattices: a cold-atom regularization of strongly-coupled four-Fermi field theories ( http://arxiv.org/abs/2011.08744v1 ) ライセンス: Link先を確認 | L. Ziegler, E. Tirrito, M. Lewenstein, S. Hands, and A. Bermudez | (参考訳) ラマン格子に合成スピン軌道結合を持つ超低温原子は、(2+1)次元のグロス・ネヴェウモデルに関連する相関チャーン絶縁体と強結合4フェルミ場理論の間の接続を探索するために多用途量子シミュレータとして使用できる。
この多分野的な観点で、外部磁場が存在しない場合、大きな$N$量子異常ホール(QAH)効果を特定し、これらの相関位相が現れるパラメータ空間内の領域を分離するために利用し、その境界は4-フェルミ相対論的場理論の強く結合した固定点によって制御される。
さらに, 強い相互作用に対して, qah効果が2次元量子コンパスモデルで記述された磁性相にどのように影響するかを示す。
本稿では,大容量N$有効ポテンシャルを用いた位相図の詳細な記述と,射影絡み組などの変分手法について述べる。 We show that ultra-cold atoms with synthetic spin-orbit coupling in Raman lattices can be used as versatile quantum simulators to explore the connections between correlated Chern insulators and strongly-coupled four-Fermi field theories related to the Gross-Neveu model in (2+1) dimensions. Exploiting this multidisciplinary perspective, we identify a large-$N$ quantum anomalous Hall (QAH) effect in absence of any external magnetic field, and use it to delimit regions in parameter space where these correlated topological phases appear, the boundaries of which are controlled by strongly-coupled fixed points of the four-Fermi relativistic field theory. We further show how, for strong interactions, the QAH effect gives way to magnetic phases described by a two-dimensional quantum compass model in a transverse field. We present a detailed description of the phase diagram using the large-$N$ effective potential, and variational techniques such as projected entangled pairs. | 翻訳日:2023-04-23 21:21:02 公開日:2020-11-17 |
# 量子機械学習とその高エネルギー物理学における優位性 Quantum Machine Learning and its Supremacy in High Energy Physics ( http://arxiv.org/abs/2011.11478v1 ) ライセンス: Link先を確認 | Kapil K. Sharma | (参考訳) 本稿では,高エネルギー物理学における量子アルゴリズムの将来展望を明らかにする。
粒子の同定, 特性, 特性を知ることは実験用HEPにおいて難しい問題である。
これらの問題を解決する主要な技術はパターン認識であり、機械学習の重要な応用であり、HEP問題に無条件で使用される。
追跡と頂点再構成のためのパターン認識タスクを実行するために、粒子物理学コミュニティは統計機械学習手法を大いに利用している。
これらの方法は検出器から検出器の形状や実験で使われる磁場によって異なる。
本稿では,量子計算とhepにおける量子機械学習のルーシッド応用について,この領域で発生した手法の深い数学的構造に焦点をあてるのではなく,今後の可能性について述べる。 This article reveals the future prospects of quantum algorithms in high energy physics (HEP). Particle identification, knowing their properties and characteristics is a challenging problem in experimental HEP. The key technique to solve these problems is pattern recognition, which is an important application of machine learning and unconditionally used for HEP problems. To execute pattern recognition task for track and vertex reconstruction, the particle physics community vastly use statistical machine learning methods. These methods vary from detector to detector geometry and magnetic field used in the experiment. Here in the present introductory article, we deliver the future possibilities for the lucid application of quantum computation and quantum machine learning in HEP, rather than focusing on deep mathematical structures of techniques arise in this domain. | 翻訳日:2023-04-23 21:13:41 公開日:2020-11-17 |
# ハニカム-カゴメ複合格子の実験的実現としてのマイクロ波フォトニック結晶 Microwave photonic crystals as an experimental realization of a combined honeycomb-kagome lattice ( http://arxiv.org/abs/2011.09371v1 ) ライセンス: Link先を確認 | Wulayimu Maimaiti, Barbara Dietz, and Alexei Andreanov | (参考訳) 2015年、人工グラフェンb. dietz, t. klaus, m. miski-oglu, a. richter, physをエミュレートしたマイクロ波フォトニック結晶を用いて実験を行った。
b 91, 035411 (2015) 参照。
関連する状態密度は、バンホーブ特異点を含む隣接するバンドを持つ2つのディラック点からなり、グラフェンの異常電子バンド構造に由来する特徴を示す。
バンド構造のほぼ平らなバンドに対応する特に高い共鳴密度の狭い領域によって分離され、これはホノム格子(ハニカムとカゴメの2つの亜格子の組み合わせ)を連想させる。
実際、状態密度、および固有モード特性、共鳴周波数スペクトルのゆらぎは、ホノメ格子に基づく密結合モデルによってよく再現される。
逆モンテカルロ法により良好な説明が得られ、これにより、マイクロ波フォトニック結晶をホロノム格子の実験的実現として理解し、長年の課題、すなわち、異なる形状のマイクロ波フォトニック結晶で一般的に見られる2つのディラック点に接するフラットバンドの起源の理解に答えることができた。 In 2015 experiments were performed with superconducting microwave photonic crystals emulating artificial graphene B. Dietz, T. Klaus, M. Miski-Oglu, and A. Richter, Phys. Rev. B 91, 035411 (2015)]. The associated density of states comprises two Dirac points with adjacent bands including van Hove singularities, thus exhibiting the characteristic features originating from the extraordinary electronic band structure of graphene. They are separated by a narrow region of particularly high resonance density corresponding to a nearly flatband in the band structure, which is reminiscent of that of a honome lattice -- a combination of two sublattices: honeycomb and kagome. We demonstrate that, indeed, the density of states, and also the eigenmode properties and the fluctuations in the resonance-frequency spectra are well reproduced by a tight-binding model based on the honome lattice. A good description was achieved by means of the reverse Monte-Carlo approach, thereby confirming our intepretation of the microwave photonic crystal as an experimental realization of a honome lattice and providing an answer to longstanding problem, namely the understanding of the origin of the flatband bordered by two Dirac points, generally observed in microwave photonic crystals of different shapes. | 翻訳日:2023-04-23 21:13:17 公開日:2020-11-17 |
# 隠れたキュービットのキャラクタリゼーションとトモグラフィー Characterization and tomography of a hidden qubit ( http://arxiv.org/abs/2011.08987v1 ) ライセンス: Link先を確認 | M. Pechal, G. Salis, M. Ganzhorn, D. J. Egger, M. Werninghaus, S. Filipp | (参考訳) 回路ベースの量子コンピューティングでは、利用可能なゲートセットは通常、個々のキュービットに作用する単一キュービットゲートと、ペアのキュービット間で少なくとも1つのエンタングゲートからなる。
しかし、特定の物理アーキテクチャでは、例えばオンチップのルーティング能力の制限や、多くの量子ビットシステムでは制御行数が制限要因になるなど、一部のキュービットは「隠れ」であり、専用の制御と読み出しラインによる直接アドレスを欠いている可能性がある。
この場合、隠れたキュービットに対してシングルキュービット演算を適用できず、その状態を直接測定することはできない。
代わりに、接続された「制御」キュービットと適切な2キュービットゲートのセット上のシングルキュービット操作を通してのみ制御および読み出すことができる。
まず,特定の量子ビット結合ネットワークの量子体積に対する制限制御能力の影響について論じる。
次に、局所的な単一量子ビット制御とiSWAPと制御相の2量子ビット相互作用を持つ超伝導2量子ビットデバイスにおいて、チューナブルカプラで可能な完全な制御と測定能力を実験的に示す。
さらに,量子プロセストモグラフィに使用するゲートセットを完全に特徴付けし,その結果のゲートフィダリティを評価するのに必要な反復的なチューニングプロセスについても紹介する。 In circuit-based quantum computing, the available gate set typically consists of single-qubit gates acting on each individual qubit and at least one entangling gate between pairs of qubits. In certain physical architectures, however, some qubits may be 'hidden' and lacking direct addressability through dedicated control and readout lines, for instance because of limited on-chip routing capabilities, or because the number of control lines becomes a limiting factor for many-qubit systems. In this case, no single-qubit operations can be applied to the hidden qubits and their state cannot be measured directly. Instead, they may be controlled and read out only via single-qubit operations on connected 'control' qubits and a suitable set of two-qubit gates. We first discuss the impact of such restricted control capabilities on the quantum volume of specific qubit coupling networks. We then experimentally demonstrate full control and measurement capabilities in a superconducting two-qubit device with local single-qubit control and iSWAP and controlled-phase two-qubit interactions enabled by a tunable coupler. We further introduce an iterative tune-up process required to completely characterize the gate set used for quantum process tomography and evaluate the resulting gate fidelities. | 翻訳日:2023-04-23 21:12:23 公開日:2020-11-17 |
# 蝶形状を持つStern-Gerlach原子干渉計を用いた磁場勾配測定 Field-gradient measurement using a Stern-Gerlach atomic interferometer with butterfly geometry ( http://arxiv.org/abs/2011.08955v1 ) ライセンス: Link先を確認 | Changhun Oh, Hyukjoon Kwon, Liang Jiang, and M. S. Kim | (参考訳) 原子干渉計は、外部磁場を正確に感知するための有望な装置として研究されている。
様々な形状において、蝶形形状の特定の形状は、感度の高い磁場勾配を観測するために設計されている。
従来の蝶形形状に磁場を取り入れたStern-Gerlach(SG)バタフライ干渉計を導入する。
干渉計の原子軌道は磁場を制御して柔軟に調整し、干渉計の感度を高めることができるが、従来のラマン遷移を用いた蝶干渉計は特別な場合と解釈できる。
また,sg干渉計は磁場勾配による位置・運動量の不一致に対して高いコントラストを保てることを示した。 Atomic interferometers have been studied as a promising device for precise sensing of external fields. Among various configurations, a particular configuration with a butterfly-shaped geometry has been designed to sensitively probe field gradients. We introduce a Stern-Gerlach (SG) butterfly interferometer by incorporating magnetic field in the conventional butterfly-shaped configuration. Atomic trajectories of the interferometer can be flexibly adjusted by controlling magnetic fields to increase the sensitivity of the interferometer, while the conventional butterfly interferometer using Raman transitions can be understood as a special case. We also show that the SG interferometer can keep high contrast against a misalignment in position and momentum caused by the field gradient. | 翻訳日:2023-04-23 21:12:00 公開日:2020-11-17 |
# 任意の線形作用素に対するパウリ座標の効率的な生成アルゴリズム Efficient algorithm for generating Pauli coordinates for an arbitrary linear operator ( http://arxiv.org/abs/2011.08942v1 ) ライセンス: Link先を確認 | Daniel Gunlycke, Mark C. Palenik, Alex R. Emmert, and Sean A. Fischer | (参考訳) 量子コンピューティングのいくつかの線形代数ルーチンは、等式のテンソル積とパウリ作用素の基底を使い、行列表現から任意の線型作用素の座標を得るには基底変換が必要であり、これは一般に$\mathcal O(\mathrm N^4)$演算を伴う。
ここでは、特定の基底変換に対して$\mathcal O(\mathrm N^2\log_2\mathrm N)$演算のみを含む効率的なアルゴリズムを提案する。
このアルゴリズムは$\mathcal O(\mathrm N^3)$演算よりも少ないので、大きな$\mathrm N$の場合、特定のアプリケーションに対する量子コンピューティングアルゴリズムの事前処理ステップとして使用できる。
その結果,本アルゴリズムを相対論的に相互作用するスピン零ボソン系のハミルトニアンに適用し,量子コンピュータ上の変分量子固有解法を用いて基底状態エネルギーを計算する。 Several linear algebra routines for quantum computing use a basis of tensor products of identity and Pauli operators to describe linear operators, and obtaining the coordinates for any given linear operator from its matrix representation requires a basis transformation, which for an $\mathrm N\times\mathrm N$ matrix generally involves $\mathcal O(\mathrm N^4)$ arithmetic operations. Herein, we present an efficient algorithm that for our particular basis transformation only involves $\mathcal O(\mathrm N^2\log_2\mathrm N)$ operations. Because this algorithm requires fewer than $\mathcal O(\mathrm N^3)$ operations, for large $\mathrm N$, it could be used as a preprocessing step for quantum computing algorithms for certain applications. As a demonstration, we apply our algorithm to a Hamiltonian describing a system of relativistic interacting spin-zero bosons and calculate the ground-state energy using the variational quantum eigensolver algorithm on a quantum computer. | 翻訳日:2023-04-23 21:11:36 公開日:2020-11-17 |
# 近単位系検出効率による赤外単一光子の検出 Detecting Infrared Single Photons with Near-Unity System Detection Efficiency ( http://arxiv.org/abs/2011.08941v1 ) ライセンス: Link先を確認 | Jin Chang, Johannes W. N. Los, Jaime Oscar Tenorio-Pearl, Niels Noordzij, Ronan Gourgues, Antonio Guardiani, Julien R. Zichi, Silvania F. Pereira, H. Paul Urbach, Val Zwiller, Sander N. Dorenbos, and Iman Esmaeil Zadeh | (参考訳) 単一光子検出器は、基本的な測定から量子情報処理まで光学において必須のツールである。
ナノワイヤ単光子検出器を超伝導することで、前例のない効率、短命時間、高分解能で単一光子を検出することができ、量子光学に大きな進歩をもたらした。
しかし、近単位系検出効率と高いタイミング性能の組み合わせは依然として大きな課題である。
本研究では, 94-99.5 (+マイナス2.07%) の波長領域1280-1500nmの薄膜上に作製した超伝導ナノワイヤ単一光子検出器を提案する。
SiO2/Au膜は小さなSNSPDのブロードバンド吸収を可能にし、高いタイミング性能と高い検出効率を提供する。
低温増幅器を同じ低温で動作させると、15-26ppsの範囲で効率的な検出器がタイミングジッタに達する。
我々は,光学設計,デバイス製造,高精度かつ信頼性の高い検出効率測定の課題について論じ,高性能な単光子検出を実現する。
その結果、量子情報科学、量子メトロロジー、赤外線イメージング、量子ネットワークの急速な発展は、この広範囲にわたる量子検出技術から大きな恩恵を受けるだろう。 Single photon detectors are indispensable tools in optics, from fundamental measurements to quantum information processing. The ability of superconducting nanowire single photon detectors to detect single photons with unprecedented efficiency, short dead time and high time resolution over a large frequency range enabled major advances in quantum optics. However, combining near-unity system detection efficiency with high timing performance remains an outstanding challenge. In this work, we show novel superconducting nanowire single photon detectors fabricated on membranes with 94-99.5 (plus minus 2.07%) system detection efficiency in the wavelength range 1280-1500 nm. The SiO2/Au membrane enables broadband absorption in small SNSPDs, offering high detection efficiency in combination with high timing performance. With low noise cryogenic amplifiers operated in the same cryostat, our efficient detectors reach timing jitter in the range of 15-26 ps. We discuss the prime challenges in optical design, device fabrication as well as accurate and reliable detection efficiency measurements to achieve high performance single-photon detection. As a result, the fast-developing fields of quantum information science, quantum metrology, infrared imaging and quantum networks will greatly benefit from this far-reaching quantum detection technology. | 翻訳日:2023-04-23 21:11:15 公開日:2020-11-17 |
# 磁場存在下での2電子量子ドットの振動特性について On the oscillating properties of a two-electron quantum dot in the presence of a magnetic field ( http://arxiv.org/abs/2011.08918v1 ) ライセンス: Link先を確認 | Angelo M. Maniero, Carlos R. de Carvalho, Frederico V. Prudente and Ginette Jalbert | (参考訳) 我々は、静磁場の存在下での2電子量子ドットの物理量の振動特性に関する基本的な説明を与える。
この振る舞いは、我々の以前の研究[AM Maniero, {\it et al} で論じられた。
J. Phys
B: はい。
モル
オプト
Phys
53:185001, 2020]と同定され、もともと30年代の金属の反磁性の枠組みで観察された Haas-van Alphen} 効果の現れとして同定された。
この挙動は、磁場の一定間隔において、最低エネルギー一重項状態と三重項状態の条件を仮定した、システムの異なる固有状態の結果であることを示している。 We give a basic explanation for the oscillating properties of some physical quantities of a two-electron quantum dot in the presence of a static magnetic field. This behaviour was discussed in a previous work of ours [AM Maniero, {\it et al}. J. Phys. B: At. Mol. Opt. Phys. 53:185001, 2020] and was identified as a manifestation of the {\it de Haas-van Alphen} effect, originally observed in the framework of diamagnetism of metals in the 30's. We show that this behaviour is a consequence of different eigenstates of the system assuming, in a certain interval of the magnetic field, the condition of the lowest energy singlet and triplet states. | 翻訳日:2023-04-23 21:10:54 公開日:2020-11-17 |
# ドープクロネッカー製品を用いた圧縮言語モデル Compressing Language Models using Doped Kronecker Products ( http://arxiv.org/abs/2001.08896v5 ) ライセンス: Link先を確認 | Urmish Thakker, Paul N. Whatmough, Zhi-Gang Liu, Matthew Mattina, Jesse Beu | (参考訳) Kronecker Products (KP)は、IoT RNNアプリケーションを15~38倍圧縮係数で圧縮するために使われ、従来の圧縮方法よりも優れた結果が得られる。
しかし、大規模な自然言語処理タスクにKPを適用すると、かなりの精度の損失(約26%)が発生する。
本稿では,KP行列に新たな自由度を持たせることで,大規模なNLPタスクにKPを適用した場合に失われる精度を回復する方法を提案する。
より正式には、事前に定義されたKP構造の上に非常にスパースなオーバーレイ行列を追加するプロセスであるドーピングを提案する。
我々はこの圧縮手法をドップドクロネッカー製品圧縮と呼ぶ。
これらのモデルをトレーニングするために、コマトリックスドロップアウト正規化(CMR)と呼ばれる新しい正規化スキームを用いて、コマトリックス適応(CMA)現象に対する新しい解を提案する。
本研究では,25mb×25倍のlstm層を有する大規模言語モデルの圧縮とパープレキシティスコアの1.4%の損失を示す実験結果を示す。
25倍の圧縮では、等価なprunedネットワークは7.9%のパープレキシティスコアを失うが、hmdとlmfはそれぞれ15%と27%のパープレキシティスコアを失う。 Kronecker Products (KP) have been used to compress IoT RNN Applications by 15-38x compression factors, achieving better results than traditional compression methods. However when KP is applied to large Natural Language Processing tasks, it leads to significant accuracy loss (approx 26%). This paper proposes a way to recover accuracy otherwise lost when applying KP to large NLP tasks, by allowing additional degrees of freedom in the KP matrix. More formally, we propose doping, a process of adding an extremely sparse overlay matrix on top of the pre-defined KP structure. We call this compression method doped kronecker product compression. To train these models, we present a new solution to the phenomenon of co-matrix adaption (CMA), which uses a new regularization scheme called co matrix dropout regularization (CMR). We present experimental results that demonstrate compression of a large language model with LSTM layers of size 25 MB by 25x with 1.4% loss in perplexity score. At 25x compression, an equivalent pruned network leads to 7.9% loss in perplexity score, while HMD and LMF lead to 15% and 27% loss in perplexity score respectively. | 翻訳日:2023-01-07 04:40:23 公開日:2020-11-17 |
# クラウドにおける強化学習ベースのアプリケーション自動スケーリング:調査 Reinforcement Learning-based Application Autoscaling in the Cloud: A Survey ( http://arxiv.org/abs/2001.09957v3 ) ライセンス: Link先を確認 | Yisel Gar\'i, David A. Monge, Elina Pacini, Cristian Mateos, and Carlos Garc\'ia Garino | (参考訳) 強化学習(rl)は、複雑な不確実性環境における意思決定問題を自動的に解決する大きな可能性を示している。
RLは、エージェントがいくつかの累積的短期的および長期的報酬を最大化するために行動を起こす確率的行動を伴う環境での相互作用を通じて学習できる計算手法を提案する。
ゲーム理論では、エージェントがgoやstarcraft 2といったゲームで超人的なパフォーマンスを示した結果、クラウドコンピューティングを含む多くの領域で徐々に採用されていった。
したがって、rlは、透明(人間の介入なしに)、動的(静的な計画無し)、適応可能な(常に更新された)リソース管理ポリシーを学習してアプリケーションを実行することができるため、クラウドにおける自動スケーリングの有望なアプローチである。
これらは、アドホックな方法で定義されたり、メタヒューリスティックスに基づいたソリューションで静的に計算された他の広く使われているオートスケーリングポリシーと比べて考慮すべき3つの重要な特徴である。
自動スケーリングはクラウドの弾力性を利用して、所定の最適化基準に従ってアプリケーションの実行を最適化し、いつ、どのように計算リソースをスケールアップ/ダウンするかを決定し、それらを次の処理ワークロードに割り当てるかを決定する。
このようなアクションは、クラウドが動的で不確定な環境であることを考慮する必要がある。
これを受けて、多くの研究がクラウドのオートスケーリング問題にRLを適用した。
本研究は,これらの提案を大規模施設から徹底的に調査し,提案する分類群に基づいて一様に比較する。
また、オープンな問題や今後の研究についても論じる。 Reinforcement Learning (RL) has demonstrated a great potential for automatically solving decision-making problems in complex uncertain environments. RL proposes a computational approach that allows learning through interaction in an environment with stochastic behavior, where agents take actions to maximize some cumulative short-term and long-term rewards. Some of the most impressive results have been shown in Game Theory where agents exhibited superhuman performance in games like Go or Starcraft 2, which led to its gradual adoption in many other domains, including Cloud Computing. Therefore, RL appears as a promising approach for Autoscaling in Cloud since it is possible to learn transparent (with no human intervention), dynamic (no static plans), and adaptable (constantly updated) resource management policies to execute applications. These are three important distinctive aspects to consider in comparison with other widely used autoscaling policies that are defined in an ad-hoc way or statically computed as in solutions based on meta-heuristics. Autoscaling exploits the Cloud elasticity to optimize the execution of applications according to given optimization criteria, which demands to decide when and how to scale-up/down computational resources, and how to assign them to the upcoming processing workload. Such actions have to be taken considering that the Cloud is a dynamic and uncertain environment. Motivated by this, many works apply RL to the autoscaling problem in the Cloud. In this work, we survey exhaustively those proposals from major venues, and uniformly compare them based on a set of proposed taxonomies. We also discuss open problems and prospective research in the area. | 翻訳日:2023-01-06 07:58:26 公開日:2020-11-17 |
# オーバーフィッティングは基礎追跡には無害ですが ある程度は Overfitting Can Be Harmless for Basis Pursuit, But Only to a Degree ( http://arxiv.org/abs/2002.00492v2 ) ライセンス: Link先を確認 | Peizhong Ju, Xiaojun Lin, Jia Liu | (参考訳) 近年、過パラメータ化・過適合化体制下での線形回帰モデルの一般化誤差のいわゆる「二重発散」の研究に大きな関心が寄せられ、なぜ過パラメータ化深層ニューラルネットワーク(DNN)がまだ一般化されているのかを理解するための第一歩として期待されている。
しかしながら、これらの研究のほとんどは、データに過度に適合するmin $\ell_2$-normソリューションに焦点を当てている。
対照的に,本研究では圧縮センシング文献において基底追従(bp)として知られる$\ell_1$-normを最小化するオーバーフィッティング解について検討する。
p$ i.i.d.ガウス的特徴を持つまばらな真の線形回帰モデルの下では、サンプル数n$で指数関数的に増加する限界まで、広範囲の p$ に対して、bp のモデル誤差は、$p$ で減少する値によって上限を上回ることを示します。
我々の知る限りでは、これは文献における最初の分析結果であり、有限$n$と$p$に対する過剰適合BPの二重双曲性を確立する。
さらに, BPとmin $\ell_2$-norm溶液の二重発色に有意な差が認められた。
具体的には、BPの二重蛍光上界は信号強度とは独立であり、高いSNRおよびスパースモデルでは、BPの降下床はmin$\ell_2$-norm溶液よりもはるかに小さく、より広い。 Recently, there have been significant interests in studying the so-called "double-descent" of the generalization error of linear regression models under the overparameterized and overfitting regime, with the hope that such analysis may provide the first step towards understanding why overparameterized deep neural networks (DNN) still generalize well. However, to date most of these studies focused on the min $\ell_2$-norm solution that overfits the data. In contrast, in this paper we study the overfitting solution that minimizes the $\ell_1$-norm, which is known as Basis Pursuit (BP) in the compressed sensing literature. Under a sparse true linear regression model with $p$ i.i.d. Gaussian features, we show that for a large range of $p$ up to a limit that grows exponentially with the number of samples $n$, with high probability the model error of BP is upper bounded by a value that decreases with $p$. To the best of our knowledge, this is the first analytical result in the literature establishing the double-descent of overfitting BP for finite $n$ and $p$. Further, our results reveal significant differences between the double-descent of BP and min $\ell_2$-norm solutions. Specifically, the double-descent upper-bound of BP is independent of the signal strength, and for high SNR and sparse models the descent-floor of BP can be much lower and wider than that of min $\ell_2$-norm solutions. | 翻訳日:2023-01-04 19:55:54 公開日:2020-11-17 |
# ニューラルネットワークによるチャームモデル学習 Learning CHARME models with neural networks ( http://arxiv.org/abs/2002.03237v2 ) ライセンス: Link先を確認 | Jos\'e G. G\'omez Garc\'ia, Jalal Fadili, Christophe Chesneau | (参考訳) 本稿では、非線形非パラメトリックAR-ARCH時系列の一般化混合のクラスであるCHARME(Conditional Heteroscedastic Autoregressive Mixture of Experts)というモデルを検討する。
自己回帰およびボラティリティ関数上のある種のリプシッツ型条件の下では、このモデルが定常、エルゴード、および$\tau$-弱依存であることが証明される。
これらの条件は、このモデルを扱う文献で示されたものよりもはるかに弱い。
さらに、この結果は、基礎となる(非)パラメトリック推定の漸近理論を導出するための理論的基礎を形成し、このモデルに提示する。
ニューラルネットワーク(nn)の普遍近似性から,nn重みとバイアスの推算値の強い一貫性と漸近的正規性が弱条件下で保証されるモデルにおけるnnに基づく自己回帰関数の学習理論を考案する。 In this paper, we consider a model called CHARME (Conditional Heteroscedastic Autoregressive Mixture of Experts), a class of generalized mixture of nonlinear nonparametric AR-ARCH time series. Under certain Lipschitz-type conditions on the autoregressive and volatility functions, we prove that this model is stationary, ergodic and $\tau$-weakly dependent. These conditions are much weaker than those presented in the literature that treats this model. Moreover, this result forms the theoretical basis for deriving an asymptotic theory of the underlying (non)parametric estimation, which we present for this model. As an application, from the universal approximation property of neural networks (NN), we develop a learning theory for the NN-based autoregressive functions of the model, where the strong consistency and asymptotic normality of the considered estimator of the NN weights and biases are guaranteed under weak conditions. | 翻訳日:2023-01-02 22:37:04 公開日:2020-11-17 |
# 空白言語モデル Blank Language Models ( http://arxiv.org/abs/2002.03079v2 ) ライセンス: Link先を確認 | Tianxiao Shen, Victor Quach, Regina Barzilay, Tommi Jaakkola | (参考訳) Blank Language Model (BLM) は,ブランクを動的に生成・充填することでシーケンスを生成するモデルである。
空白はシーケンスのどの部分が拡張されるべきかを制御し、BLMは様々なテキスト編集や書き換えタスクに最適である。
モデルは、特定の場所で空白のある1つの空白または部分的に完成したテキストから始めることができる。
空白にどの単語を置くか、新しい空白を挿入するかを反復的に決定し、空白が空白を埋めることなく生成を停止する。
BLMは、限界データ確率の低い境界を用いて効率的に訓練することができる。
欠落したテキストスニペットを埋める作業において、BLMは他のすべてのベースラインを精度と流線型の両方で大幅に上回っている。
スタイル転送と破損した古代のテキスト復元の実験は、このフレームワークの幅広い応用の可能性を示している。 We propose Blank Language Model (BLM), a model that generates sequences by dynamically creating and filling in blanks. The blanks control which part of the sequence to expand, making BLM ideal for a variety of text editing and rewriting tasks. The model can start from a single blank or partially completed text with blanks at specified locations. It iteratively determines which word to place in a blank and whether to insert new blanks, and stops generating when no blanks are left to fill. BLM can be efficiently trained using a lower bound of the marginal data likelihood. On the task of filling missing text snippets, BLM significantly outperforms all other baselines in terms of both accuracy and fluency. Experiments on style transfer and damaged ancient text restoration demonstrate the potential of this framework for a wide range of applications. | 翻訳日:2023-01-02 22:21:47 公開日:2020-11-17 |
# 不均一分散データセットに対する適応サンプリング分散確率変数の勾配 Adaptive Sampling Distributed Stochastic Variance Reduced Gradient for Heterogeneous Distributed Datasets ( http://arxiv.org/abs/2002.08528v3 ) ライセンス: Link先を確認 | Ilqar Ramazanli, Han Nguyen, Hai Pham, Sashank J. Reddi, Barnabas Poczos | (参考訳) 本研究では,複数のマシンに分散する関数の平均を最小化するための分散最適化アルゴリズムを,通信効率に着目して検討する。
このような設定では、古典的確率勾配勾配(SGD)またはその変種(SVRGなど)を一様にサンプリングすることで、通常は性能が低下する。
これはしばしば、デバイス全体の勾配の最大リプシッツ定数への収束率の依存性をもたらす。
本稿では,これらの設定に特化して動作するマシンの新規な'emph{adaptive"サンプリングを提案する。
本手法は,過去の勾配情報に基づく局所リプシッツ定数の適応推定に依存する。
この手法により, 最大リプシッツ定数からマシン間でのリプシッツ定数への収束速度依存性が向上し, コンバージェンスを著しく加速することを示した。
本手法は,異種環境における標準svrgアルゴリズムの収束を実際に高速化することを示す。 We study distributed optimization algorithms for minimizing the average of \emph{heterogeneous} functions distributed across several machines with a focus on communication efficiency. In such settings, naively using the classical stochastic gradient descent (SGD) or its variants (e.g., SVRG) with a uniform sampling of machines typically yields poor performance. It often leads to the dependence of convergence rate on maximum Lipschitz constant of gradients across the devices. In this paper, we propose a novel \emph{adaptive} sampling of machines specially catered to these settings. Our method relies on an adaptive estimate of local Lipschitz constants base on the information of past gradients. We show that the new way improves the dependence of convergence rate from maximum Lipschitz constant to \emph{average} Lipschitz constant across machines, thereby, significantly accelerating the convergence. Our experiments demonstrate that our method indeed speeds up the convergence of the standard SVRG algorithm in heterogeneous environments. | 翻訳日:2022-12-30 07:16:41 公開日:2020-11-17 |
# private stochastic convex optimization: non-smooth objectivesの効率的なアルゴリズム Private Stochastic Convex Optimization: Efficient Algorithms for Non-smooth Objectives ( http://arxiv.org/abs/2002.09609v3 ) ライセンス: Link先を確認 | Raman Arora, Teodor V. Marinov, Enayat Ullah | (参考訳) 本稿では,私的確率凸最適化の問題を再検討する。
本研究では,プライバシパラメータがサンプル数に反比例する場合に,一階確率オラクルに対して,統計的複雑性とクエリ数の両方の観点から最適レートを達成する,ノイズミラー降下に基づくアルゴリズムを提案する。 In this paper, we revisit the problem of private stochastic convex optimization. We propose an algorithm based on noisy mirror descent, which achieves optimal rates both in terms of statistical complexity and number of queries to a first-order stochastic oracle in the regime when the privacy parameter is inversely proportional to the number of samples. | 翻訳日:2022-12-29 18:53:50 公開日:2020-11-17 |
# NeurIPS 2019 Disentanglement Challenge: 畳み込み特徴マップの学習的集約による絡み合いの改善 NeurIPS 2019 Disentanglement Challenge: Improved Disentanglement through Learned Aggregation of Convolutional Feature Maps ( http://arxiv.org/abs/2002.12356v2 ) ライセンス: Link先を確認 | Maximilian Seitzer, Andreas Foltyn, Felix P. Kemeth | (参考訳) 本報告は,NeurIPS 2019 disentanglement Challengeへのステージ2への提出であり,非絡み付き潜伏因子を学習するための簡単な画像前処理手法を提案する。
本稿では,これらの特徴に含まれる暗黙的帰納バイアスを利用して,ImageNetデータベース上で事前学習したネットワークから得られる地域集約特徴マップに基づいて,変分オートエンコーダを訓練することを提案する。
このバイアスは、角度、位置推定、色分類などの課題に有用な補助タスクに特徴マップを明示的に微調整することでさらに強化することができる。
私たちのアプローチは、チャレンジのステージ2で2位を獲得しました。
コードはhttps://github.com/mseitzer/neurips2019-disentanglement-challengeで入手できる。 This report to our stage 2 submission to the NeurIPS 2019 disentanglement challenge presents a simple image preprocessing method for learning disentangled latent factors. We propose to train a variational autoencoder on regionally aggregated feature maps obtained from networks pretrained on the ImageNet database, utilizing the implicit inductive bias contained in those features for disentanglement. This bias can be further enhanced by explicitly fine-tuning the feature maps on auxiliary tasks useful for the challenge, such as angle, position estimation, or color classification. Our approach achieved the 2nd place in stage 2 of the challenge. Code is available at https://github.com/mseitzer/neurips2019-disentanglement-challenge. | 翻訳日:2022-12-28 07:21:09 公開日:2020-11-17 |
# LCP:画像認識における高速ニューラルネットワーク推論のための低コミュニケーション並列化手法 LCP: A Low-Communication Parallelization Method for Fast Neural Network Inference in Image Recognition ( http://arxiv.org/abs/2003.06464v2 ) ライセンス: Link先を確認 | Ramyad Hadidi, Bahar Asgari, Jiashen Cao, Younmin Bae, Da Eun Shim, Hyojong Kim, Sung-Kyu Lim, Michael S. Ryoo, Hyesoon Kim | (参考訳) ディープニューラルネットワーク(DNN)は、ロボット、自律エージェント、IoT(Internet-of-Things)デバイスによる無数のエッジアプリケーションにおける新たな研究に影響を与えた。
しかし、DNNの集中的なリソース要求と複数のエッジドメインにおけるリソースの厳密な可用性との間に矛盾があるため、エッジでのDNNの推測は依然として深刻な課題である。
さらに通信コストが高いため,データ並列方式やモデル並列方式による他のエッジデバイスの利用は有効ではない。
通信オーバヘッドの少ない計算資源を活用するため,分散システムにおける通信オーバヘッドを低減するための最初のDNN並列化手法を提案する。
本稿では,モデルが非依存な枝と狭枝からなる低通信並列化(lcp)手法を提案する。
LCPは、データおよびモデル並列方式と比較してメモリフットプリントと計算を著しく削減しつつ、分散と並列化の機会を向上した、最小間通信オーバーヘッドを提供する。
lcpモデルを3つの分散システム(awsインスタンス、raspberry pi、pynqボード)にデプロイします。
また、小型FPGAと16mW 0.107mm2 ASIC @7nmチップ上に実装されたカスタマイズハードウェア(低レイテンシに適した)上でのLCPモデルの性能を評価する。
lcpモデルでは、オリジナルモデルと比較して最大56倍と平均7倍のスピードアップを達成しており、プラニングや量子化といった一般的な最適化を取り入れることで、平均33倍のスピードアップを実現できる。 Deep neural networks (DNNs) have inspired new studies in myriad edge applications with robots, autonomous agents, and Internet-of-things (IoT) devices. However, performing inference of DNNs in the edge is still a severe challenge, mainly because of the contradiction between the intensive resource requirements of DNNs and the tight resource availability in several edge domains. Further, as communication is costly, taking advantage of other available edge devices by using data- or model-parallelism methods is not an effective solution. To benefit from available compute resources with low communication overhead, we propose the first DNN parallelization method for reducing the communication overhead in a distributed system. We propose a low-communication parallelization (LCP) method in which models consist of several almost-independent and narrow branches. LCP offers close-to-minimum communication overhead with better distribution and parallelization opportunities while significantly reducing memory footprint and computation compared to data- and model-parallelism methods. We deploy LCP models on three distributed systems: AWS instances, Raspberry Pis, and PYNQ boards. We also evaluate the performance of LCP models on a customized hardware (tailored for low latency) implemented on a small edge FPGA and as a 16mW 0.107mm2 ASIC @7nm chip. LCP models achieve a maximum and average speedups of 56x and 7x, compared to the originals, which could be improved by up to an average speedup of 33x by incorporating common optimizations such as pruning and quantization. | 翻訳日:2022-12-24 02:15:31 公開日:2020-11-17 |
# 自己監督型映像表現学習のための時間的コヒーレントな埋め込み Temporally Coherent Embeddings for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2004.02753v5 ) ライセンス: Link先を確認 | Joshua Knights, Ben Harwood, Daniel Ward, Anthony Vanderkop, Olivia Mackenzie-Ross, Peyman Moghadam | (参考訳) 本稿では,自己教師型ビデオ表現学習のためのテンポラリコヒーレントな埋め込みについて述べる。
提案手法では,非ラベル映像データの固有構造を利用して,ランキングや予測プロキシタスクを通じて間接的に学習するのではなく,埋め込み空間における時間的一貫性を明示的に強制する。
世界の高レベルの視覚情報がスムーズに変化するのと同じように、学習された表現の近傍のフレームは、類似した特性を示すことの恩恵を受けると信じている。
この仮定を用いて、tceモデルを訓練し、隣接するフレームが互いに近接し、ビデオが互いに分離するように動画をエンコードします。
TCEを用いて大量の未ラベルビデオデータからロバストな表現を学習する。
我々は,複数の挑戦的ベンチマーク(kinetics400, ucf101, hmdb51)を用いて,映像動作認識の下流課題における自己教師付き学習tceモデルの解析と評価を行った。
単純な2D-CNNバックボーンとRGBストリーム入力のみにより、TCE事前訓練された表現は、UCF101で事前訓練された以前の2D-CNNと3D-CNNよりも優れていた。
この論文のコードと事前訓練されたモデルは、https://github.com/csiro-robotics/TCEでダウンロードできる。 This paper presents TCE: Temporally Coherent Embeddings for self-supervised video representation learning. The proposed method exploits inherent structure of unlabeled video data to explicitly enforce temporal coherency in the embedding space, rather than indirectly learning it through ranking or predictive proxy tasks. In the same way that high-level visual information in the world changes smoothly, we believe that nearby frames in learned representations will benefit from demonstrating similar properties. Using this assumption, we train our TCE model to encode videos such that adjacent frames exist close to each other and videos are separated from one another. Using TCE we learn robust representations from large quantities of unlabeled video data. We thoroughly analyse and evaluate our self-supervised learned TCE models on a downstream task of video action recognition using multiple challenging benchmarks (Kinetics400, UCF101, HMDB51). With a simple but effective 2D-CNN backbone and only RGB stream inputs, TCE pre-trained representations outperform all previous selfsupervised 2D-CNN and 3D-CNN pre-trained on UCF101. The code and pre-trained models for this paper can be downloaded at: https://github.com/csiro-robotics/TCE | 翻訳日:2022-12-21 12:59:28 公開日:2020-11-17 |
# 単一画像GANの訓練技術の改善 Improved Techniques for Training Single-Image GANs ( http://arxiv.org/abs/2003.11512v2 ) ライセンス: Link先を確認 | Tobias Hinz, Matthew Fisher, Oliver Wang, Stefan Wermter | (参考訳) 近年,大規模なデータセットとは対照的に,単一の画像から生成モデルを学ぶ可能性への関心が高まっている。
このタスクは、大規模なデータセットの収集が不可能である領域で生成モデルが使用できることを意味するため、実用的な意味を持つ。
しかし、1つのサンプルから現実的なイメージを生成できるモデルのトレーニングは難しい問題である。
本研究では,これらの手法を訓練する上での課題を理解するために,いくつかの実験を行い,この分野におけるこれまでの作業よりも優れた結果を生み出すためのベストプラクティスを提案する。
1つの重要な点は、以前の単一画像生成方法とは異なり、複数のステージを連続的に多重ステージで訓練し、画像解像度の増大の少ないモデルを学ぶことができることである。
最近のアートベースラインと比較すると、我々のモデルはトレーニングの最大6倍速く、パラメータが少なく、画像のグローバルな構造をよりよく捉えることができる。 Recently there has been an interest in the potential of learning generative models from a single image, as opposed to from a large dataset. This task is of practical significance, as it means that generative models can be used in domains where collecting a large dataset is not feasible. However, training a model capable of generating realistic images from only a single sample is a difficult problem. In this work, we conduct a number of experiments to understand the challenges of training these methods and propose some best practices that we found allowed us to generate improved results over previous work in this space. One key piece is that unlike prior single image generation methods, we concurrently train several stages in a sequential multi-stage manner, allowing us to learn models with fewer stages of increasing image resolution. Compared to a recent state of the art baseline, our model is up to six times faster to train, has fewer parameters, and can better capture the global structure of images. | 翻訳日:2022-12-20 03:33:33 公開日:2020-11-17 |
# 読み理解におけるドメインと言語横断的一般化のためのadversarial augmentation policy search Adversarial Augmentation Policy Search for Domain and Cross-Lingual Generalization in Reading Comprehension ( http://arxiv.org/abs/2004.06076v4 ) ライセンス: Link先を確認 | Adyasha Maharana, Mohit Bansal | (参考訳) 理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過剰に適合し、逆評価に失敗する。
逆拡張データセットによるトレーニングは、これらの敵攻撃に対する堅牢性を改善するが、モデルの一般化を損なう。
本研究は, 学習理解モデルをより堅牢にし, 情報源領域や新しいドメイン, 言語への一般化を向上することを目的として, いくつかの効果的な敵と自動データ拡張ポリシー探索手法を提案する。
まず, 文脈内の混乱点を複数導入し, 邪魔者の挿入位置依存性を示し, 構文的および意味的パラフレージング法を混合した複合効果を明らかにする, qa敵生成のための3つの新しい手法を提案する。
次に,学習データセットを一様にサンプリングして拡張することで,攻撃に対する頑健性が向上するが,未知のデータセットでは性能が低下することが分かった。
大規模検索空間における各敵に対する変換確率の最適な拡張ポリシーの組み合わせを自動的に学習する、RLおよびより効率的なベイズポリシー探索手法を用いてこの問題に対処する。
これらの学習方針を用いて、敵対的な訓練がドメイン内、ドメイン外、言語間(ドイツ語、ロシア語、トルコ語)の一般化を著しく改善することを示す。 Reading comprehension models often overfit to nuances of training datasets and fail at adversarial evaluation. Training with adversarially augmented dataset improves robustness against those adversarial attacks but hurts generalization of the models. In this work, we present several effective adversaries and automated data augmentation policy search methods with the goal of making reading comprehension models more robust to adversarial evaluation, but also improving generalization to the source domain as well as new domains and languages. We first propose three new methods for generating QA adversaries, that introduce multiple points of confusion within the context, show dependence on insertion location of the distractor, and reveal the compounding effect of mixing adversarial strategies with syntactic and semantic paraphrasing methods. Next, we find that augmenting the training datasets with uniformly sampled adversaries improves robustness to the adversarial attacks but leads to decline in performance on the original unaugmented dataset. We address this issue via RL and more efficient Bayesian policy search methods for automatically learning the best augmentation policy combinations of the transformation probability for each adversary in a large search space. Using these learned policies, we show that adversarial training can lead to significant improvements in in-domain, out-of-domain, and cross-lingual (German, Russian, Turkish) generalization. | 翻訳日:2022-12-13 22:58:17 公開日:2020-11-17 |
# 境界化、集中化、および停止 - データ分析のためのプライバシ損失構成の統一 Bounding, Concentrating, and Truncating: Unifying Privacy Loss Composition for Data Analytics ( http://arxiv.org/abs/2004.07223v3 ) ライセンス: Link先を確認 | Mark Cesar, Ryan Rogers | (参考訳) ディファレンシャルプライバシ(dp)は、個人のデータに対する厳密なプライバシー保証を提供すると同時に、全体的な機密性の高いデータセット上で正確な統計処理を可能にする。
プライベートシステムを設計するには、リリースされる各結果のプライバシー損失を定量化できる最初のプライベートアルゴリズムを設計する必要がある。
しかし、計算にノイズを注入するプライベートアルゴリズムは、多くのノイズの結果が最終的に真の非民営化結果に集中するため、個人のデータを保護するには不十分である。
したがって、プライバシ損失がプライベートアルゴリズムとの複数のインタラクションにどのように蓄積されるかの正確な公式を提供するいくつかの研究がある。
しかし、これらの公式は、特定の種類のプライベートアルゴリズムに対して過度に悲観的であるか、一般的なプライバシシステムに適用するにはスコープが狭すぎるために、プライバシー損失に非常に一般的な境界を提供する。
本研究では、差分プライベート(DP)アルゴリズムの特殊クラスに対する既存のプライバシー損失構成境界と一般DP構成境界を統一する。
特に、アナリストが純粋なDP、境界範囲(指数的メカニズムなど)、あるいは集中的なDPメカニズムを任意の順序で選択できる場合、強いプライバシー損失境界を提供する。
また、分析者がバッチ内で純粋DPと有界範囲のメカニズム、すなわち非適応的に選択できる場合に適用される最適なプライバシー損失境界を提供する。
さらに、分析者が各クラス内のメカニズムを適応的に選択した場合、純粋DPと有界範囲機構の異なる所定の順序のプライバシー損失の違いを示す。
最後に,ラプラス機構とガウス機構の組成境界をヒストグラムデータセットに基づいて比較する。 Differential privacy (DP) provides rigorous privacy guarantees on individual's data while also allowing for accurate statistics to be conducted on the overall, sensitive dataset. To design a private system, first private algorithms must be designed that can quantify the privacy loss of each outcome that is released. However, private algorithms that inject noise into the computation are not sufficient to ensure individuals' data is protected due to many noisy results ultimately concentrating to the true, non-privatized result. Hence there have been several works providing precise formulas for how the privacy loss accumulates over multiple interactions with private algorithms. However, these formulas either provide very general bounds on the privacy loss, at the cost of being overly pessimistic for certain types of private algorithms, or they can be too narrow in scope to apply to general privacy systems. In this work, we unify existing privacy loss composition bounds for special classes of differentially private (DP) algorithms along with general DP composition bounds. In particular, we provide strong privacy loss bounds when an analyst may select pure DP, bounded range (e.g. exponential mechanisms), or concentrated DP mechanisms in any order. We also provide optimal privacy loss bounds that apply when an analyst can select pure DP and bounded range mechanisms in a batch, i.e. non-adaptively. Further, when an analyst selects mechanisms within each class adaptively, we show a difference in privacy loss between different, predetermined orderings of pure DP and bounded range mechanisms. Lastly, we compare the composition bounds of Laplace and Gaussian mechanisms based on histogram datasets. | 翻訳日:2022-12-13 04:15:17 公開日:2020-11-17 |
# インハンドマニピュレーションのためのローラーグラッパーV2の設計と制御 Design and Control of Roller Grasper V2 for In-Hand Manipulation ( http://arxiv.org/abs/2004.08499v2 ) ライセンス: Link先を確認 | Shenli Yuan, Lin Shao, Connor L. Yako, Alex Gruebele, and J. Kenneth Salisbury | (参考訳) ロボットが手動操作を行う能力は依然として未解決の課題であり、この能力があれば、把握された物体の再配置と再配置を必要とする高度なタスクをロボットが実行できるようになる。
本稿では,指先における能動面を用いて物体を操作できるロボット把持器を提案する。
アクティブな表面は、2度の自由度を持つ球状回転指先(DoF)と、物体を動かすための連続的な回転運動によって達成される。
さらにDoFは各指の基部にあり、指は大きさと形状の幅で物体をつかむことができる。
瞬時運動学が導出され、オブジェクトはカスタムな手作りの制御スキームと模倣学習で学んだものの両方で、シミュレーションと実験でうまく操作された。 The ability to perform in-hand manipulation still remains an unsolved problem; having this capability would allow robots to perform sophisticated tasks requiring repositioning and reorienting of grasped objects. In this work, we present a novel non-anthropomorphic robot grasper with the ability to manipulate objects by means of active surfaces at the fingertips. Active surfaces are achieved by spherical rolling fingertips with two degrees of freedom (DoF) -- a pivoting motion for surface reorientation -- and a continuous rolling motion for moving the object. A further DoF is in the base of each finger, allowing the fingers to grasp objects over a range of size and shapes. Instantaneous kinematics was derived and objects were successfully manipulated both with a custom handcrafted control scheme as well as one learned through imitation learning, in simulation and experimentally on the hardware. | 翻訳日:2022-12-12 05:50:53 公開日:2020-11-17 |
# Commonsense Reasoningのための生成データ拡張 Generative Data Augmentation for Commonsense Reasoning ( http://arxiv.org/abs/2004.11546v3 ) ライセンス: Link先を確認 | Yiben Yang, Chaitanya Malaviya, Jared Fernandez, Swabha Swayamdipta, Ronan Le Bras, Ji-Ping Wang, Chandra Bhagavatula, Yejin Choi, Doug Downey | (参考訳) 近年のコモンセンス推論の進歩は、ピーク性能を達成するための大規模人手によるトレーニングデータに依存している。
しかし、トレーニングサンプルのマニュアルキュレーションは高価であり、ニューラルモデルが容易に活用し過度に適合できるアノテーションアーティファクトを導入することが示されている。
低リソース環境下でより正確で堅牢な学習を実現するために,G-DAUG^Cを提案する。
本手法は,事前学習した言語モデルを用いて合成例を生成し,データ拡張のための最も有益で多様な例を選択する。
複数のコモンセンス推論ベンチマークを用いた実験では、G-DAUG^Cは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回り、WinoGrande、CODAH、CommonsenseQAの新たな最先端を確立する。
さらに, 分配精度の向上に加えて, G-DAUG^C増強訓練により分布外一般化が促進され, 対向的, 摂動的事例に対する堅牢性が向上した。
分析の結果,g-daug^cは多種多様な学習例を生成し,その選択と訓練アプローチはパフォーマンスにとって重要であることが示された。
本研究は, 分布内学習と分布外一般化の両方を強化するために, 生成的データ拡張に向けた今後の研究を奨励する。 Recent advances in commonsense reasoning depend on large-scale human-annotated training data to achieve peak performance. However, manual curation of training examples is expensive and has been shown to introduce annotation artifacts that neural models can readily exploit and overfit on. We investigate G-DAUG^C, a novel generative data augmentation method that aims to achieve more accurate and robust learning in the low-resource setting. Our approach generates synthetic examples using pretrained language models, and selects the most informative and diverse set of examples for data augmentation. In experiments with multiple commonsense reasoning benchmarks, G-DAUG^C consistently outperforms existing data augmentation methods based on back-translation, and establishes a new state-of-the-art on WinoGrande, CODAH, and CommonsenseQA. Further, in addition to improvements in in-distribution accuracy, G-DAUG^C-augmented training also enhances out-of-distribution generalization, showing greater robustness against adversarial or perturbed examples. Our analysis demonstrates that G-DAUG^C produces a diverse set of fluent training examples, and that its selection and training approaches are important for performance. Our findings encourage future research toward generative data augmentation to enhance both in-distribution learning and out-of-distribution generalization. | 翻訳日:2022-12-10 03:36:30 公開日:2020-11-17 |
# 持続可能な開発を実現するための自然言語処理 : コミュニティプロファイリングを強化するニューラルラベリングの事例 Natural language processing for achieving sustainable development: the case of neural labelling to enhance community profiling ( http://arxiv.org/abs/2004.12935v2 ) ライセンス: Link先を確認 | Costanza Conforti, Stephanie Hirmer, David Morgan, Marco Basaldella, Yau Ben Or | (参考訳) 近年、人工知能(特に機械学習)の持続可能な開発(sd)分野への応用への関心が高まっている。
しかし、これまでのところ、NLPはこの文脈では適用されていない。
本稿では,プロジェクトの持続可能性を高めるためのnlpアプリケーションの可能性について述べる。
特に,発展途上国におけるコミュニティ・プロファイリングの事例に注目し,先進国とは対照的に,注目すべきデータギャップが存在する。
この文脈では、NLPは、その広範な使用と関連する利益を禁止している定性的データを構造化するコストと時間の障壁に対処するのに役立つ。
本稿では,超多クラス多ラベル分類問題である自動PV分類の課題を提案する。
専門家が注釈付けしたデータセットであるStories2Insightsをリリースし、詳細なコーパス分析を提供し、タスクに対処する強力なニューラルネットワークを実装しています。
実験結果から,NLPとSDの交差点で今後の研究に十分な余地が残されていることが明らかとなった。 In recent years, there has been an increasing interest in the application of Artificial Intelligence - and especially Machine Learning - to the field of Sustainable Development (SD). However, until now, NLP has not been applied in this context. In this research paper, we show the high potential of NLP applications to enhance the sustainability of projects. In particular, we focus on the case of community profiling in developing countries, where, in contrast to the developed world, a notable data gap exists. In this context, NLP could help to address the cost and time barrier of structuring qualitative data that prohibits its widespread use and associated benefits. We propose the new task of Automatic UPV classification, which is an extreme multi-class multi-label classification problem. We release Stories2Insights, an expert-annotated dataset, provide a detailed corpus analysis, and implement a number of strong neural baselines to address the task. Experimental results show that the problem is challenging, and leave plenty of room for future research at the intersection of NLP and SD. | 翻訳日:2022-12-09 05:20:32 公開日:2020-11-17 |
# 構成句の視覚的接地連続学習 Visually Grounded Continual Learning of Compositional Phrases ( http://arxiv.org/abs/2005.00785v5 ) ライセンス: Link先を確認 | Xisen Jin, Junyi Du, Arka Sadhu, Ram Nevatia, Xiang Ren | (参考訳) 人間は、現代のNLPシステムと比較して、一度にデータサンプルへのアクセスがはるかに制限されたまま、言語を継続的に取得する。
この人間の言語習得能力を研究するために,映像シーンからの合成フレーズの連続的獲得をシミュレートした視覚的基礎言語学習タスクVisCOLLを提案する。
このタスクでは、モデルがオブジェクトの分布をシフトするペアイメージキャプチャストリームでトレーニングされると同時に、ホールドアウトテストセット上で視覚的に接地したマスク付き言語予測タスクによって常に評価される。
VisCOLLは、連続的な学習(すなわち、連続的なデータ分布のシフトから学ぶ)と構成一般化(すなわち、新しい構成に一般化する)の課題を合成する。
VisCOLLの研究を容易にするために、COCOシフトとFlickrシフトという2つのデータセットを構築し、異なる連続学習手法を用いてそれらをベンチマークする。
結果から, sota連続学習のアプローチは, 全合成のサンプルを格納することは不可能であるため, 粘性についてほとんど, まったく改善しないことが明らかとなった。
今後の作業の指針として,さらなる改善と分析を実施します。 Humans acquire language continually with much more limited access to data samples at a time, as compared to contemporary NLP systems. To study this human-like language acquisition ability, we present VisCOLL, a visually grounded language learning task, which simulates the continual acquisition of compositional phrases from streaming visual scenes. In the task, models are trained on a paired image-caption stream which has shifting object distribution; while being constantly evaluated by a visually-grounded masked language prediction task on held-out test sets. VisCOLL compounds the challenges of continual learning (i.e., learning from continuously shifting data distribution) and compositional generalization (i.e., generalizing to novel compositions). To facilitate research on VisCOLL, we construct two datasets, COCO-shift and Flickr-shift, and benchmark them using different continual learning methods. Results reveal that SoTA continual learning approaches provide little to no improvements on VisCOLL, since storing examples of all possible compositions is infeasible. We conduct further ablations and analysis to guide future work. | 翻訳日:2022-12-07 12:35:20 公開日:2020-11-17 |
# マルチホップQAはダイレ条件か?
切り離された推論の測定と削減 Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected Reasoning ( http://arxiv.org/abs/2005.00789v3 ) ライセンス: Link先を確認 | Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal | (参考訳) マルチホップ質問応答の本当の進歩は?
モデルは、しばしばデータセットの成果物を利用して正しい回答を生成する。
これにより、真の進捗を測定する能力が制限され、マルチホップのQAデータセットを構築する目的が失われます。
これに対処するために3つの貢献をします。
まず、支援事実のサブセットにまたがる不連結推論のような望ましくない振る舞いを定式化する。
これにより、接続不能な推論によって、どんなモデルでもどの程度の不正を計測できるモデルに依存しないプローブの開発が可能になる。
第二に、emph{contrastive support sufficiency}の概念を用いて、既存のデータセットの自動変換を導入し、断続的な推論の量を削減する。
第3に,本実験では,読解環境におけるマルチホップQAがあまり進展していないことが示唆された。
最近の大規模モデル (XLNet) において、HotpotQAにおけるF1スコア72のうち18点のみが、より単純なRNNベースラインとほぼ同等の乗法により得られることを示す。
我々の変換は、非連結な推論を著しく減少させる(答え F1 の19点)。
敵対的なアプローチを補完するものであり、同時にさらなる削減をもたらす。 Has there been real progress in multi-hop question-answering? Models often exploit dataset artifacts to produce correct answers, without connecting information across multiple supporting facts. This limits our ability to measure true progress and defeats the purpose of building multi-hop QA datasets. We make three contributions towards addressing this. First, we formalize such undesirable behavior as disconnected reasoning across subsets of supporting facts. This allows developing a model-agnostic probe for measuring how much any model can cheat via disconnected reasoning. Second, using a notion of \emph{contrastive support sufficiency}, we introduce an automatic transformation of existing datasets that reduces the amount of disconnected reasoning. Third, our experiments suggest that there hasn't been much progress in multi-hop QA in the reading comprehension setting. For a recent large-scale model (XLNet), we show that only 18 points out of its answer F1 score of 72 on HotpotQA are obtained through multifact reasoning, roughly the same as that of a simpler RNN baseline. Our transformation substantially reduces disconnected reasoning (19 points in answer F1). It is complementary to adversarial approaches, yielding further reductions in conjunction. | 翻訳日:2022-12-07 11:30:44 公開日:2020-11-17 |
# マルチプレイヤーゲームの景観をナビゲートする Navigating the Landscape of Multiplayer Games ( http://arxiv.org/abs/2005.01642v3 ) ライセンス: Link先を確認 | Shayegan Omidshafiei, Karl Tuyls, Wojciech M. Czarnecki, Francisco C. Santos, Mark Rowland, Jerome Connor, Daniel Hennes, Paul Muller, Julien Perolat, Bart De Vylder, Audrunas Gruslys, Remi Munos | (参考訳) マルチプレイヤーゲームは人工知能の研究において長い間テストベッドとして使われており、しばしば人工知能のショウジョウバエと呼ばれる。
伝統的に研究者は、よく知られたゲームを使って強力なエージェントを構築することに集中してきた。
しかし、この進歩はゲームとそのトポロジカルな景観を特徴づけることでよりよく理解できる。
この後者の問題に取り組むことでエージェントの理解が容易になり、エージェントが次にターゲットとするゲームを決定するのに役立つ。
本稿では,大規模ゲームの応答グラフに適用したネットワーク計測により,ゲームの景観を創造し,サイズや特性の異なるゲーム間の関係を定量化する手法を示す。
我々は,カノニカルゲームから複雑な経験的ゲームまで幅広い領域において,訓練されたエージェントが互いに対戦する様子を捉えた結果を示す。
実世界のゲームから合成された経験ゲームを含む,新しい興味深いゲームを生成するために,この情報を活用した実演を行った。 Multiplayer games have long been used as testbeds in artificial intelligence research, aptly referred to as the Drosophila of artificial intelligence. Traditionally, researchers have focused on using well-known games to build strong agents. This progress, however, can be better informed by characterizing games and their topological landscape. Tackling this latter question can facilitate understanding of agents and help determine what game an agent should target next as part of its training. Here, we show how network measures applied to response graphs of large-scale games enable the creation of a landscape of games, quantifying relationships between games of varying sizes and characteristics. We illustrate our findings in domains ranging from canonical games to complex empirical games capturing the performance of trained agents pitted against one another. Our results culminate in a demonstration leveraging this information to generate new and interesting games, including mixtures of empirical games synthesized from real world games. | 翻訳日:2022-12-07 01:22:41 公開日:2020-11-17 |
# sEMG電極(re)配置と特徴セットサイズが手の動き認識に及ぼす影響 Effect of the sEMG electrode (re)placement and feature set size on the hand movement recognition ( http://arxiv.org/abs/2005.02105v2 ) ライセンス: Link先を確認 | Nadica Miljkovi\'c and Milica S. Isakovi\'c | (参考訳) 繰り返し筋電図測定における記録電極アレイの再配置は手動分類システムにおける変位誤差をもたらす可能性がある。
対象者の前腕に電極アレイを移動させたり回転させたりすると, 分類器の再訓練が満足できるかどうかを調べるため, 健常者10名を対象に, 3種類の握力と6種類の手首運動の計測を行った。
特徴抽出のために主成分分析を適用し,特徴集合のサイズは主成分1から8に変化した。
LDA (Linear Discriminant Analysis) , QDA (Quadratic Discriminant Analysis) , ANN (Artificial Neural Network) の3つの分類器について再訓練した分類器の結果を比較した。
その結果,アレイ電極を再配置した場合の分類精度に有意な差は認められなかった。
また,主成分の数が許容範囲の分類精度(90%程度)において重要な役割を担っていることも予想された。
最大のデータセット(9手の動き)では,LDAとQDAがANNを上回っ,3つの把握動作ではANNが有望な結果を示した。
興味深いことに,電極アレイ位置と特徴セットサイズとの相互作用は統計的に有意ではない。
本研究は,手の動き認識システムの設計指針を確立するために,分類精度と分類器選択に影響を及ぼす要因の相互作用と,その影響を独立して検証することの重要性を強調する。
この研究のために記録されたデータは善導リポジトリに格納されている(doi: 10.5281/zenodo.4039550)。 Repositioning of recording electrode array across repeated electromyography measurements may result in a displacement error in hand movement classification systems. In order to examine if the classifier re-training could reach satisfactory results when electrode array is translated along or rotated around subject's forearm for varying number of features, we recorded surface electromyography signals in 10 healthy volunteers for three types of grasp and 6 wrist movements. For feature extraction we applied principal component analysis and the feature set size varied from one to 8 principal components. We compared results of re-trained classifier with results from leave-one-out cross-validation classification procedure for three classifiers: LDA (Linear Discriminant Analysis), QDA (Quadratic Discriminant Analysis), and ANN (Artificial Neural Network). Our results showed that there was no significant difference in classification accuracy when the array electrode was repositioned indicating successful classification re-training and optimal feature set selection. The results also indicate expectedly that the number of principal components plays a key role for acceptable classification accuracy ~90 %. For the largest dataset (9 hand movements), LDA and QDA outperformed ANN, while for three grasping movements ANN showed promising results. Interestingly, we showed that interaction between electrode array position and the feature set size is not statistically significant. This study emphasizes the importance of testing the interaction of factors that influence classification accuracy and classifier selection altogether with their impact independently in order to establish guiding principles for design of hand movement recognition system. Data recorded for this study are stored on Zenodo repository (doi: 10.5281/zenodo.4039550). | 翻訳日:2022-12-06 14:35:39 公開日:2020-11-17 |
# ポイントクラウド分類とセグメンテーションのための高分解能ネットワーク Dense-Resolution Network for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2005.06734v2 ) ライセンス: Link先を確認 | Shi Qiu, Saeed Anwar, Nick Barnes | (参考訳) ポイントクラウド分析は、ロボティクス、拡張現実、自動運転といったアプリケーションで広く使用できるため、人工知能研究から注目を集めている。
しかし、不規則さ、不秩序さ、疎さのために常に挑戦している。
本稿では,ポイントクラウド解析のためのDense-Resolution Network (DRNet) という新しいネットワークを提案する。
私たちのDRNetは、異なる解像度でポイントクラウドからローカルポイント機能を学ぶように設計されています。
局所点群をより効果的に学習するために,局所近傍探索のための新しいグループ化手法と,局所特徴をキャプチャする誤差最小化モジュールを提案する。
広く使われているポイントクラウドセグメンテーションと分類ベンチマークでネットワークを検証することに加えて、コンポーネントのパフォーマンスをテストし視覚化する。
他の最先端の手法と比較すると、modelnet40、shapenet synthetic、scanobjectnnのリアルポイントクラウドデータセットが優れていることが分かる。 Point cloud analysis is attracting attention from Artificial Intelligence research since it can be widely used in applications such as robotics, Augmented Reality, self-driving. However, it is always challenging due to irregularities, unorderedness, and sparsity. In this article, we propose a novel network named Dense-Resolution Network (DRNet) for point cloud analysis. Our DRNet is designed to learn local point features from the point cloud in different resolutions. In order to learn local point groups more effectively, we present a novel grouping method for local neighborhood searching and an error-minimizing module for capturing local features. In addition to validating the network on widely used point cloud segmentation and classification benchmarks, we also test and visualize the performance of the components. Comparing with other state-of-the-art methods, our network shows superiority on ModelNet40, ShapeNet synthetic and ScanObjectNN real point cloud datasets. | 翻訳日:2022-12-03 05:15:49 公開日:2020-11-17 |
# 観測データおよび限定実験データからの学習調整セット Learning Adjustment Sets from Observational and Limited Experimental Data ( http://arxiv.org/abs/2005.08749v2 ) ライセンス: Link先を確認 | Sofia Triantafillou and Gregory Cooper | (参考訳) 観測データから因果効果を推定することは、必ずしも欠点のため不可能ではない。
適切な共変量の集合(調整集合)を同定し、その影響を調整すれば、共変バイアスを取り除くことができるが、そのような集合は通常観測データだけでは識別できない。
実験データは共起バイアスを持たないが、通常サンプルサイズに制限があり、したがって不正確な推定が得られる。
さらに、実験データは限られた共変量を含むことが多いため、基礎となるシステムの因果構造についての洞察は限られている。
本研究では,大規模な観測データと限られた実験データを組み合わせて調整セットを同定し,因果効果の推定を改善する手法を提案する。
この方法は、ポテンシャル調整器セットの観測による事前確率が与えられた実験データの限界確率を計算して(可能であれば)調整セットを特定する。
このようにして、この手法は全ての観測データおよび実験データで条件付き依存性と無依存のみを使用して、不可能となる推論をすることができる。
本手法は, 実験データと観測データを組み合わせた最新手法と比較して, 適応セットの同定に成功し, シミュレーションデータの因果効果推定を改善した。 Estimating causal effects from observational data is not always possible due to confounding. Identifying a set of appropriate covariates (adjustment set) and adjusting for their influence can remove confounding bias; however, such a set is typically not identifiable from observational data alone. Experimental data do not have confounding bias, but are typically limited in sample size and can therefore yield imprecise estimates. Furthermore, experimental data often include a limited set of covariates, and therefore provide limited insight into the causal structure of the underlying system. In this work we introduce a method that combines large observational and limited experimental data to identify adjustment sets and improve the estimation of causal effects. The method identifies an adjustment set (if possible) by calculating the marginal likelihood for the experimental data given observationally-derived prior probabilities of potential adjustmen sets. In this way, the method can make inferences that are not possible using only the conditional dependencies and independencies in all the observational and experimental data. We show that the method successfully identifies adjustment sets and improves causal effect estimation in simulated data, and it can sometimes make additional inferences when compared to state-of-the-art methods for combining experimental and observational data. | 翻訳日:2022-12-02 00:33:48 公開日:2020-11-17 |
# 身体的エージェントに対する時空間攻撃 Spatiotemporal Attacks for Embodied Agents ( http://arxiv.org/abs/2005.09161v3 ) ライセンス: Link先を確認 | Aishan Liu, Tairan Huang, Xianglong Liu, Yitao Xu, Yuqing Ma, Xinyun Chen, Stephen J. Maybank, Dacheng Tao | (参考訳) 敵対的攻撃は、ディープラーニングモデルの盲点に関する洞察を与え、その堅牢性を改善するのに役立つ。
既存の敵攻撃の研究は主に静的な場面に焦点を当てているが、そのような攻撃が動的環境をナビゲートし操作できるエンボディエージェントに対して有効かどうかは不明だ。
本研究では,具体化エージェントに対する敵意攻撃を研究するための第一歩を踏み出す。
特に,時空間次元と時空間次元の両方の相互作用履歴を利用する3次元対角線例を形成する時空間摂動を生成する。
時間次元については, エージェントが過去の観測に基づいて予測を行うため, シーンビューの寄与を探索するための軌道注意モジュールを開発し, 高刺激で出現する3次元物体の局所化をさらに支援する。
空間的次元に沿った時間的次元からの手がかりと調和することにより、最も重要なシーンビューに現れるコンテキストオブジェクトの物理的特性(テクスチャや3次元形状など)を逆向きに摂動する。
ホワイトボックス設定とブラックボックス設定の両方において,いくつかの具体化タスクに対するEQA-v1データセットの大規模な実験が行われ,我々の摂動が強い攻撃力と一般化能力を持つことが示されている。 Adversarial attacks are valuable for providing insights into the blind-spots of deep learning models and help improve their robustness. Existing work on adversarial attacks have mainly focused on static scenes; however, it remains unclear whether such attacks are effective against embodied agents, which could navigate and interact with a dynamic environment. In this work, we take the first step to study adversarial attacks for embodied agents. In particular, we generate spatiotemporal perturbations to form 3D adversarial examples, which exploit the interaction history in both the temporal and spatial dimensions. Regarding the temporal dimension, since agents make predictions based on historical observations, we develop a trajectory attention module to explore scene view contributions, which further help localize 3D objects appeared with the highest stimuli. By conciliating with clues from the temporal dimension, along the spatial dimension, we adversarially perturb the physical properties (e.g., texture and 3D shape) of the contextual objects that appeared in the most important scene views. Extensive experiments on the EQA-v1 dataset for several embodied tasks in both the white-box and black-box settings have been conducted, which demonstrate that our perturbations have strong attack and generalization abilities. | 翻訳日:2022-12-01 14:07:13 公開日:2020-11-17 |
# 変圧器を用いたエンドツーエンド音声認識のための簡易自己認識 Simplified Self-Attention for Transformer-based End-to-End Speech Recognition ( http://arxiv.org/abs/2005.10463v2 ) ライセンス: Link先を確認 | Haoneng Luo, Shiliang Zhang, Ming Lei, Lei Xie | (参考訳) トランスフォーマーモデルは、長期依存のモデリングにおける優位性から、様々なタスクにおける最先端の性能を持つエンドツーエンド音声認識に導入された。
しかし、このような改善は通常、非常に大きなニューラルネットワークを使うことで得られる。
トランスフォーマーモデルは、主に2つのサブモジュール - 位置対応フィードフォワード層と自己注意層 (SAN) を含む。
本稿では,予測層の代わりにFSMNメモリブロックを用いて,トランスフォーマーに基づくエンドツーエンド音声認識のためのクエリとキーベクトルを生成する,簡易な自己注意層(SSAN)を提案する。
我々は,公用AISHELL-1,内部1000時間,大規模マンダリンタスクのSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
その結果,提案手法はモデルパラメータを20%以上削減し,AISHELL-1タスクのCERを6.7%削減できることがわかった。
約20%のパラメータ削減により,2万時間の大規模タスクにおいて認識性能の損失はみられなかった。 Transformer models have been introduced into end-to-end speech recognition with state-of-the-art performance on various tasks owing to their superiority in modeling long-term dependencies. However, such improvements are usually obtained through the use of very large neural networks. Transformer models mainly include two submodules - position-wise feedforward layers and self-attention (SAN) layers. In this paper, to reduce the model complexity while maintaining good performance, we propose a simplified self-attention (SSAN) layer which employs FSMN memory block instead of projection layers to form query and key vectors for transformer-based end-to-end speech recognition. We evaluate the SSAN-based and the conventional SAN-based transformers on the public AISHELL-1, internal 1000-hour and 20,000-hour large-scale Mandarin tasks. Results show that our proposed SSAN-based transformer model can achieve over 20% relative reduction in model parameters and 6.7% relative CER reduction on the AISHELL-1 task. With impressively 20% parameter reduction, our model shows no loss of recognition performance on the 20,000-hour large-scale task. | 翻訳日:2022-11-30 23:57:59 公開日:2020-11-17 |
# DJEnsemble:Deep Learning Black-Box Spatio-Temporal Modelの解離アンサンブルの選択について DJEnsemble: On the Selection of a Disjoint Ensemble of Deep Learning Black-Box Spatio-Temporal Models ( http://arxiv.org/abs/2005.11093v3 ) ライセンス: Link先を確認 | Yania Molina Souto, Rafael Pereira, Roc\'io Zorrilla, Anderson Chaves, Brian Tsan, Florin Rusu, Eduardo Ogasawara, Artur Ziviani, Fabio Porto | (参考訳) 本稿では,予測時空間クエリに応答するブラックボックス予測器の非結合アンサンブルの自動選択と割り当てのためのコストベースアプローチを提案する。
私たちのアプローチは、オフラインとオンラインの2つの部分に分かれています。
オフライン部分では、予測ドメインデータ -- 通常のグリッドに変換する -- とブラックボックスモデル -- を事前処理して、時空間学習関数を演算します。
オンライン部分では,予測誤差と実行コストの見積に基づいて,多変量コスト関数を最小化するDJEnsemble Planを計算し,最適なアンサンブルプランを実行する。
我々は、DJEnsembleアプローチを評価し、その効率を強調するための広範な実験を行う。
我々のコストモデルは、実際の最良の計画に近いパフォーマンスで計画を生成することを示す。
従来のアンサンブルアプローチと比較すると、djensembleは実行時間の最大4倍、予測精度の約9倍の改善を達成している。
私たちの知る限りでは、これは予測時空間クエリに答えるためにブラックボックスモデルの割り当てを最適化する問題を解決する最初の仕事です。 In this paper, we present a cost-based approach for the automatic selection and allocation of a disjoint ensemble of black-box predictors to answer predictive spatio-temporal queries. Our approach is divided into two parts -- offline and online. During the offline part, we preprocess the predictive domain data -- transforming it into a regular grid -- and the black-box models -- computing their spatio-temporal learning function. In the online part, we compute a DJEnsemble plan which minimizes a multivariate cost function based on estimates for the prediction error and the execution cost -- producing a model spatial allocation matrix -- and run the optimal ensemble plan. We conduct a set of extensive experiments that evaluate the DJEnsemble approach and highlight its efficiency. We show that our cost model produces plans with performance close to the actual best plan. When compared against the traditional ensemble approach, DJEnsemble achieves up to $4X$ improvement in execution time and almost $9X$ improvement in prediction accuracy. To the best of our knowledge, this is the first work to solve the problem of optimizing the allocation of black-box models to answer predictive spatio-temporal queries. | 翻訳日:2022-11-30 08:21:39 公開日:2020-11-17 |
# PolyDL: 高性能DLプリミティブの作成のための多面的最適化 PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives ( http://arxiv.org/abs/2006.02230v2 ) ライセンス: Link先を確認 | Sanket Tavarageri, Alexander Heinecke, Sasikanth Avancha, Gagandeep Goyal, Ramakrishna Upadrasta, Bharat Kaul | (参考訳) ディープニューラルネットワーク(DNN)は、私たちの生活の多くの側面に革命をもたらした。
DNNの使用は、画像認識、音声認識、音声合成、言語翻訳などのソフトウェアを含む、ユビキタスになってきている。
しかし、DNNアーキテクチャのトレーニングは計算コストがかかる。
モデルが作成されると、意図されたアプリケーション(推論タスク)での使用も計算的に重くなり、リアルタイムの使用には推論が高速でなければならない。
今日、ハイパフォーマンスを得るためには、ライブラリ経由で公開するエキスパートプログラマによる特定のアーキテクチャに最適化されたディープラーニング(dl)プリミティブのコードが標準となっている。
しかし、新しいDNNアーキテクチャが常に出現していることを考えると、手動最適化コードの作成は高価で、遅く、スケーラブルではない。
本稿では,手動最適化ライブラリの性能によく適合するDLプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
本研究では,多面体モデルを用いた新しいデータ再利用解析アルゴリズムを開発し,効率的な実行スケジュールを自動的に導出する。
加えて、ほとんどのdlプリミティブは、コアでいくつかのマトリックス乗算の変種を使っているので、ループのサブセットの代わりに同じライブラリ実装をプラグインできる柔軟なフレームワークを開発します。
このようなハイブリッドコンパイラと最小限のライブラリ利用アプローチが最先端のパフォーマンスをもたらすことを示す。
我々は,コンピュータシステムのメモリ階層によるデータ移動を低減する演算子融合も行うコンパイラアルゴリズムを開発した。 Deep Neural Networks (DNNs) have revolutionized many aspects of our lives. The use of DNNs is becoming ubiquitous including in softwares for image recognition, speech recognition, speech synthesis, language translation, to name a few. he training of DNN architectures however is computationally expensive. Once the model is created, its use in the intended application - the inference task, is computationally heavy too and the inference needs to be fast for real time use. For obtaining high performance today, the code of Deep Learning (DL) primitives optimized for specific architectures by expert programmers exposed via libraries is the norm. However, given the constant emergence of new DNN architectures, creating hand optimized code is expensive, slow and is not scalable. To address this performance-productivity challenge, in this paper we present compiler algorithms to automatically generate high performance implementations of DL primitives that closely match the performance of hand optimized libraries. We develop novel data reuse analysis algorithms using the polyhedral model to derive efficient execution schedules automatically. In addition, because most DL primitives use some variant of matrix multiplication at their core, we develop a flexible framework where it is possible to plug in library implementations of the same in lieu of a subset of the loops. We show that such a hybrid compiler plus a minimal library-use approach results in state-of-the-art performance. We develop compiler algorithms to also perform operator fusions that reduce data movement through the memory hierarchy of the computer system. | 翻訳日:2022-11-26 01:05:17 公開日:2020-11-17 |
# マルチビュー再記述マイニングへのアプローチ Approaches For Multi-View Redescription Mining ( http://arxiv.org/abs/2006.12227v2 ) ライセンス: Link先を確認 | Matej Mihel\v{c}i\'c and Tomislav \v{S}muc | (参考訳) マイニングのタスクは、データセットに含まれるエンティティの異なるサブセットを再記述する方法を探り、ビューと呼ばれる属性の異なるサブセット間の非自明な関連を明らかにする。
この興味深く挑戦的なタスクは、異なる科学分野において遭遇し、再記述を得て属性関係の探索と分析を可能にする多くのアプローチによって対処される。
このタスクに対する既存のアプローチの主な制限は、2つ以上のビューを使用することができないことである。
私たちの仕事はこの欠点を和らげる。
我々は,複数,すなわち2つ以上のビュー,つまり1つのエンティティを記述する属性の分離セットを関連付けるために使用できる,メモリ効率が高く拡張可能なマルチビュー再記述マイニングフレームワークを提案する。
このフレームワークは、ルールの集合として表現できるモデルで、任意のマルチターゲット回帰またはマルチラベル分類アルゴリズムを使用することができる。
マルチビュー再記述は、当初作成された2ビューの再記述からインクリメンタルビュー拡張ヒューリスティックを使用して構築される。
本研究では,様々な種類の予測クラスタリング木アルゴリズム(正規,余分,ランダムな出力選択)とランダムフォレストを用いて,最終再記述集合の品質向上と生成に必要な実行時間の改善を行った。
本稿では,提案フレームワークの性能解析を行い,マルチビュー再記述マイニングに対するナイーブなアプローチと比較する。
本稿では、機械学習モデルの理解に関するユースケースを含む、いくつかのデータセットで提案されたマルチビュー拡張の有用性を実証する。 The task of redescription mining explores ways to re-describe different subsets of entities contained in a dataset and to reveal non-trivial associations between different subsets of attributes, called views. This interesting and challenging task is encountered in different scientific fields, and is addressed by a number of approaches that obtain redescriptions and allow for the exploration and analyses of attribute associations. The main limitation of existing approaches to this task is their inability to use more than two views. Our work alleviates this drawback. We present a memory efficient, extensible multi-view redescription mining framework that can be used to relate multiple, i.e. more than two views, disjoint sets of attributes describing one set of entities. The framework can use any multi-target regression or multi-label classification algorithm, with models that can be represented as sets of rules, to generate redescriptions. Multi-view redescriptions are built using incremental view-extending heuristic from initially created two-view redescriptions. In this work, we use different types of Predictive Clustering trees algorithms (regular, extra, with random output selection) and the Random Forest thereof in order to improve the quality of final redescription sets and/or execution time needed to generate them. We provide multiple performance analyses of the proposed framework and compare it against the naive approach to multi-view redescription mining. We demonstrate the usefulness of the proposed multi-view extension on several datasets, including a use-case on understanding of machine learning models - a topic of growing importance in machine learning and artificial intelligence in general. | 翻訳日:2022-11-18 05:04:39 公開日:2020-11-17 |
# ランダム初期化固定重み付きニューラルネットワーク内の高効率コネクティビティのトレーニング Training highly effective connectivities within neural networks with randomly initialized, fixed weights ( http://arxiv.org/abs/2006.16627v2 ) ライセンス: Link先を確認 | Cristian Ivan, Razvan Florian | (参考訳) 本稿では,無作為初期化ニューラルネットワークの接続グラフを重み付けを訓練することなく学習する方法を提案する。
これらの方法はカットオフしきい値を定義するハイパーパラメータを使用しないため、そのようなハイパーパラメータの最適値を反復的に探索する必要がなくなる。
すべての重みをトレーニングする場合と同等またはそれ以上のパフォーマンスを達成でき、標準的なトレーニング技術と同様に計算コストがかかる。
接続をオン/オフするだけでなく、重みの符号を反転させることでネットワークをトレーニングする方法も導入する。
変更したコネクションの数を最小化しようとすると、合計の10%未満に変更することで、標準トレーニングによって達成された精度の90%以上に達することができる。
定数等級の重みでも,高次非対称分布から重みを引いた場合でも良好な結果が得られる。
これらの結果は、ニューラルネットワークの過度パラメータ化と、それらの有効サイズにどのように還元されるかに光を当てた。 We present some novel, straightforward methods for training the connection graph of a randomly initialized neural network without training the weights. These methods do not use hyperparameters defining cutoff thresholds and therefore remove the need for iteratively searching optimal values of such hyperparameters. We can achieve similar or higher performances than in the case of training all weights, with a similar computational cost as for standard training techniques. Besides switching connections on and off, we introduce a novel way of training a network by flipping the signs of the weights. If we try to minimize the number of changed connections, by changing less than 10% of the total it is already possible to reach more than 90% of the accuracy achieved by standard training. We obtain good results even with weights of constant magnitude or even when weights are drawn from highly asymmetric distributions. These results shed light on the over-parameterization of neural networks and on how they may be reduced to their effective size. | 翻訳日:2022-11-15 04:19:18 公開日:2020-11-17 |
# スケーラブルでプライバシーを保った連合学習のための無線チャネルの利用 Harnessing Wireless Channels for Scalable and Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2007.01790v2 ) ライセンス: Link先を確認 | Anis Elgabli, Jihong Park, Chaouki Ben Issaid, Mehdi Bennis | (参考訳) 無線接続はスケーラブルなフェデレーション学習(FL)を実現する上で有効であるが、無線チャネルはモデルのトレーニングに課題をもたらす。
これらの課題に対処するため,本研究では,新しい制約付き最適化問題を定式化し,プライバシー,帯域効率,スケーラビリティを改善するための無線チャネルの摂動と干渉を利用したflフレームワークを提案する。
このアルゴリズムは、アナログ伝送と乗算器の交互方向法に基づいて、アナログフェデレーションADMM(A-FADMM)を作成した。
A-FADMMでは、すべての作業者は、アナログ送信を介して単一のチャネルを使用して、モデル更新をパラメータサーバ(PS)にアップロードする。
これは通信帯域幅を節約するだけでなく、誠実だが正確なPSを含む任意の盗聴者から各作業者の正確なモデル更新軌跡を隠蔽する。
我々は,時間変化チャネル下での凸関数に対するA-FADMMの収束とプライバシ保証を正式に証明し,収束速度とスケーラビリティ,通信帯域幅とエネルギー効率の観点から,ノイズチャネルおよび確率的非凸関数の下でのA-FADMMの有効性を数値的に示す。 Wireless connectivity is instrumental in enabling scalable federated learning (FL), yet wireless channels bring challenges for model training, in which channel randomness perturbs each worker's model update while multiple workers' updates incur significant interference under limited bandwidth. To address these challenges, in this work we formulate a novel constrained optimization problem, and propose an FL framework harnessing wireless channel perturbations and interference for improving privacy, bandwidth-efficiency, and scalability. The resultant algorithm is coined analog federated ADMM (A-FADMM) based on analog transmissions and the alternating direction method of multipliers (ADMM). In A-FADMM, all workers upload their model updates to the parameter server (PS) using a single channel via analog transmissions, during which all models are perturbed and aggregated over-the-air. This not only saves communication bandwidth, but also hides each worker's exact model update trajectory from any eavesdropper including the honest-but-curious PS, thereby preserving data privacy against model inversion attacks. We formally prove the convergence and privacy guarantees of A-FADMM for convex functions under time-varying channels, and numerically show the effectiveness of A-FADMM under noisy channels and stochastic non-convex functions, in terms of convergence speed and scalability, as well as communication bandwidth and energy efficiency. | 翻訳日:2022-11-14 05:19:27 公開日:2020-11-17 |
# ニューラルネットワーク分類器を用いた重力波選択効果 Gravitational-wave selection effects using neural-network classifiers ( http://arxiv.org/abs/2007.06585v2 ) ライセンス: Link先を確認 | Davide Gerosa, Geraint Pratten, Alberto Vecchio | (参考訳) 重力波観測における選択効果を推定するための新しい機械学習手法を提案する。
画像分類やパターン認識によく使われる技術と同様の技術を用いて、ニューラルネットワーク分類器を訓練し、コンパクト・バイナリ合併による重力波信号のligo/virgo検出可能性を予測する。
スピン沈降,高次モード,複数検出器の影響を考慮し,多くの個体群でよく見られるように,パラメータ空間の選択領域における推定合併率を過大評価する傾向にあることを示す。
ここでは、単純な信号対雑音比の閾値を用いて分類器を訓練するが、我々は完全なパイプライン注入と併用して、重力波の集団解析に天体物理およびノイズトリガーの実際の分布を含める道を開くことができる。 We present a novel machine-learning approach to estimate selection effects in gravitational-wave observations. Using techniques similar to those commonly employed in image classification and pattern recognition, we train a series of neural-network classifiers to predict the LIGO/Virgo detectability of gravitational-wave signals from compact-binary mergers. We include the effect of spin precession, higher-order modes, and multiple detectors and show that their omission, as it is common in large population studies, tends to overestimate the inferred merger rate in selected regions of the parameter space. Although here we train our classifiers using a simple signal-to-noise ratio threshold, our approach is ready to be used in conjunction with full pipeline injections, thus paving the way toward including actual distributions of astrophysical and noise triggers into gravitational-wave population analyses. | 翻訳日:2022-11-11 00:51:24 公開日:2020-11-17 |
# 単一画像超解像のためのプログレッシブマルチスケール残差ネットワーク Progressive Multi-Scale Residual Network for Single Image Super-Resolution ( http://arxiv.org/abs/2007.09552v3 ) ライセンス: Link先を確認 | Yuqing Liu and Xinfeng Zhang and Shanshe Wang and Siwei Ma and Wen Gao | (参考訳) マルチスケール畳み込みニューラルネットワーク(CNN)は、異なる受容領域からの包括的情報を考慮した単一画像超解像(SISR)において、大きな成功を収めている。
しかし、近年のマルチスケールネットワークは通常、異なる大きさのフィルタで階層的な探索を構築することを目的としており、計算複雑性のコストが高く、異なるスケール間の固有の相関にはほとんど注目しない。
本稿では,マルチスケール探索を逐次的に変換し,SISR問題に対するプログレッシブ・マルチスケール残差ネットワーク(PMRN)を提案する。
具体的には、より大きなフィルタを小さなフィルタの組み合わせで置き換えるプログレッシブマルチスケール残差ブロック(pmrb)を考案し、階層的情報を徐々に探究する。
さらに,重み付けやバイアス要因による画像特徴の関連性を見出すために,CPA(Channel- and pixel-wise attention mechanism)が設計されている。
実験の結果,提案したPMRNは,他の小型ネットワークよりも優れたPSNR/SSIM結果により,構造的テクスチャをより効率的に回収できることがわかった。
拡張モデル pmrn$^+$ with self-ensemble は、パラメータがはるかに少なく計算の複雑さが低い大規模ネットワークに比べて、競合性や優れた結果をもたらす。 Multi-scale convolutional neural networks (CNNs) achieve significant success in single image super-resolution (SISR), which considers the comprehensive information from different receptive fields. However, recent multi-scale networks usually aim to build the hierarchical exploration with different sizes of filters, which lead to high computation complexity costs, and seldom focus on the inherent correlations among different scales. This paper converts the multi-scale exploration into a sequential manner, and proposes a progressive multi-scale residual network (PMRN) for SISR problem. Specifically, we devise a progressive multi-scale residual block (PMRB) to substitute the larger filters with small filter combinations, and gradually explore the hierarchical information. Furthermore, channel- and pixel-wise attention mechanism (CPA) is designed for finding the inherent correlations among image features with weighting and bias factors, which concentrates more on high-frequency information. Experimental results show that the proposed PMRN recovers structural textures more effectively with superior PSNR/SSIM results than other small networks. The extension model PMRN$^+$ with self-ensemble achieves competitive or better results than large networks with much fewer parameters and lower computation complexity. | 翻訳日:2022-11-09 00:44:28 公開日:2020-11-17 |
# 状態空間におけるインタラクティブな模倣学習 Interactive Imitation Learning in State-Space ( http://arxiv.org/abs/2008.00524v2 ) ライセンス: Link先を確認 | Snehal Jauhri, Carlos Celemin, Jens Kober | (参考訳) 模倣学習技術は、手動工学ではなくデモを通してエージェントの振る舞いをプログラミングすることができる。
しかし、これらは利用可能なデモデータの品質によって制限されている。
エージェントがタスクを実行する間、教師がフィードバックを提供するので、インタラクティブな模倣学習技術は学習の有効性を向上させることができる。
本研究では, エージェント行動の訓練と改善(行動空間におけるフィードバックを利用する代替手法とは対照的に)のために, 状態空間における人間フィードバックを用いた対話型学習手法を提案する。
状態空間における模倣政策の指導(tips)という題の手法は,人間にとってより直感的な「状態の交換」という観点でエージェントへの指導を可能にする。
修正フィードバックによる継続的な改善を通じて、TIPSを用いた非専門家のデモストレーターによって訓練されたエージェントは、デモレーターや従来の模倣学習エージェントよりも優れていた。 Imitation Learning techniques enable programming the behavior of agents through demonstrations rather than manual engineering. However, they are limited by the quality of available demonstration data. Interactive Imitation Learning techniques can improve the efficacy of learning since they involve teachers providing feedback while the agent executes its task. In this work, we propose a novel Interactive Learning technique that uses human feedback in state-space to train and improve agent behavior (as opposed to alternative methods that use feedback in action-space). Our method titled Teaching Imitative Policies in State-space~(TIPS) enables providing guidance to the agent in terms of `changing its state' which is often more intuitive for a human demonstrator. Through continuous improvement via corrective feedback, agents trained by non-expert demonstrators using TIPS outperformed the demonstrator and conventional Imitation Learning agents. | 翻訳日:2022-11-03 19:55:05 公開日:2020-11-17 |
# 概念レベル解釈のための概念グラフへのディープニューラルネットワークの抽象化 Abstracting Deep Neural Networks into Concept Graphs for Concept Level Interpretability ( http://arxiv.org/abs/2008.06457v2 ) ライセンス: Link先を確認 | Avinash Kori, Parth Natekar, Ganapathy Krishnamurthi, Balaji Srinivasan | (参考訳) 深層学習モデルのブラックボックスの性質は、バイオメディシンのような領域で完全に信頼されることを防ぐ。
ほとんどの説明可能性のテクニックは、人間が従う概念に基づく推論を捉えない。
本研究では,医療領域で画像処理タスクを行うトレーニングモデルの振る舞いを,学習する概念の図式表現を構築して理解することを試みる。
このような抽象的な概念レベルでのモデル行動のグラフィカルな表現を抽出すると、これらのモデルの学習が明らかになり、予測のためにモデルによって取られたステップを評価するのに役立ちます。
本稿では,脳腫瘍の分節化と基底画像の分類という2つの生体医学的問題に対する提案手法の適用について述べる。
上記のように概念レベルのグラフを定式化することで、モデルに代替的なグラフィカルな表現を提供する。
これらのトレイルを理解することは、モデルに続く意思決定プロセスの階層を理解させるだろう。
[模型の全体的性質と同様に]
私たちのフレームワークはhttps://github.com/koriavinash1/BioExpで利用可能です。 The black-box nature of deep learning models prevents them from being completely trusted in domains like biomedicine. Most explainability techniques do not capture the concept-based reasoning that human beings follow. In this work, we attempt to understand the behavior of trained models that perform image processing tasks in the medical domain by building a graphical representation of the concepts they learn. Extracting such a graphical representation of the model's behavior on an abstract, higher conceptual level would unravel the learnings of these models and would help us to evaluate the steps taken by the model for predictions. We show the application of our proposed implementation on two biomedical problems - brain tumor segmentation and fundus image classification. We provide an alternative graphical representation of the model by formulating a concept level graph as discussed above, which makes the problem of intervention to find active inference trails more tractable. Understanding these trails would provide an understanding of the hierarchy of the decision-making process followed by the model. [As well as overall nature of model]. Our framework is available at https://github.com/koriavinash1/BioExp | 翻訳日:2022-10-30 16:37:17 公開日:2020-11-17 |
# AID:情報ドロップ増強による人文推定の性能境界を押し上げる AID: Pushing the Performance Boundary of Human Pose Estimation with Information Dropping Augmentation ( http://arxiv.org/abs/2008.07139v2 ) ライセンス: Link先を確認 | Junjie Huang, Zheng Zhu, Guan Huang, Dalong Du | (参考訳) 人間のポーズ推定には、外観手がかりと制約手がかりの両方が不可欠である。
しかし、現存する作品の多くは前者を過度に見落とし、後者を見落としている傾向にある。
本稿では,このジレンマを検証・対処するために,AID(Augmentation by Information Dropping)を提案する。
AIDを有効活用するための前提条件として,情報提供の観点から学習過程における損失パターンと性能パターンを解析し,カスタマイズしたトレーニングスケジュールを提案する。
実験では、モデルに依存しないアプローチとして、AIDは、さまざまな入力サイズ、フレームワーク、バックボーン、トレーニング、テストセットを持つボトムアップおよびトップダウンのパラダイムにおいて、様々な最先端のメソッドを促進する。
一般的なCOCOヒューマンポーズ推定テストセットでは、AIDはトップダウンパラダイムでは0.6 AP、ボトムアップパラダイムでは1.5APまで、さまざまな構成のパフォーマンスを一貫して向上させる。
より難しいCrowdPoseデータセットでは、改善は1.5 AP以上である。
AIDは、人間のポーズ推定問題の性能境界をかなりの差で押し上げ、新しい最先端を設定できるので、AIDが人間のポーズ推定者のトレーニングのための定期的な構成になることを期待する。
ソースコードは、さらなる研究のために公開されます。 Both appearance cue and constraint cue are vital for human pose estimation. However, there is a tendency in most existing works to overfitting the former and overlook the latter. In this paper, we propose Augmentation by Information Dropping (AID) to verify and tackle this dilemma. Alone with AID as a prerequisite for effectively exploiting its potential, we propose customized training schedules, which are designed by analyzing the pattern of loss and performance in training process from the perspective of information supplying. In experiments, as a model-agnostic approach, AID promotes various state-of-the-art methods in both bottom-up and top-down paradigms with different input sizes, frameworks, backbones, training and testing sets. On popular COCO human pose estimation test set, AID consistently boosts the performance of different configurations by around 0.6 AP in top-down paradigm and up to 1.5 AP in bottom-up paradigm. On more challenging CrowdPose dataset, the improvement is more than 1.5 AP. As AID successfully pushes the performance boundary of human pose estimation problem by considerable margin and sets a new state-of-the-art, we hope AID to be a regular configuration for training human pose estimators. The source code will be publicly available for further research. | 翻訳日:2022-10-28 04:02:33 公開日:2020-11-17 |
# ニューロモルフィック研究チップloihiのロボット制御のためのロバスト軌道生成 Robust trajectory generation for robotic control on the neuromorphic research chip Loihi ( http://arxiv.org/abs/2008.11642v2 ) ライセンス: Link先を確認 | Carlo Michaelis, Andrew B. Lehr and Christian Tetzlaff | (参考訳) ニューロモルフィックハードウェアはフォン・ノイマンのアーキテクチャに比べて有望な利点がいくつかあり、ロボット制御に非常に興味深い。
しかし、ニューロモルフィックコンピューティングの高速かつエネルギー効率にもかかわらず、制御シナリオでこのハードウェアを利用するアルゴリズムは依然として稀である。
問題のひとつは、数ミリ秒のタイムスケールで動作するハードウェア上の高速なスパイク活動から、数百ミリ秒の順序で制御関連時間スケールへの移行である。
もう一つの問題は複雑な軌跡の実行であり、スパイクアクティビティは十分な可変性を含むのと同時に、信頼性の高い性能では、ネットワークダイナミクスはノイズに対して十分に堅牢でなければならない。
本研究では,最近開発された生体刺激型スパイクニューラルネットワークモデル,いわゆる異方性ネットワークを利用する。
我々は,intelのニューロモルフィック・リサーチ・チップloihiを用いて,異方性ネットワークのコア原理をニューロモルフィック・ハードウェアに同定・導入し,ロボットアームによる運動制御タスクから軌道上でのシステム検証を行った。
我々は,チップからの高速スパイク読み出しと固有正規化が可能な異方性ネットワークとプーリング層を含むネットワークアーキテクチャを開発した。
これにより、Loihi上の異方性ネットワークは、それぞれがロボット動作を表す連続的な神経活動パターンを確実に符号化し、制御関連時間スケールにおける多次元軌跡の生成を可能にすることを示す。
そこで本研究では,複雑なロボットの動きを,芸術的ニューロモーフィックハードウェアの状態を利用したロボット制御のためのビルディングブロックとして生成するアルゴリズムを提案する。 Neuromorphic hardware has several promising advantages compared to von Neumann architectures and is highly interesting for robot control. However, despite the high speed and energy efficiency of neuromorphic computing, algorithms utilizing this hardware in control scenarios are still rare. One problem is the transition from fast spiking activity on the hardware, which acts on a timescale of a few milliseconds, to a control-relevant timescale on the order of hundreds of milliseconds. Another problem is the execution of complex trajectories, which requires spiking activity to contain sufficient variability, while at the same time, for reliable performance, network dynamics must be adequately robust against noise. In this study we exploit a recently developed biologically-inspired spiking neural network model, the so-called anisotropic network. We identified and transferred the core principles of the anisotropic network to neuromorphic hardware using Intel's neuromorphic research chip Loihi and validated the system on trajectories from a motor-control task performed by a robot arm. We developed a network architecture including the anisotropic network and a pooling layer which allows fast spike read-out from the chip and performs an inherent regularization. With this, we show that the anisotropic network on Loihi reliably encodes sequential patterns of neural activity, each representing a robotic action, and that the patterns allow the generation of multidimensional trajectories on control-relevant timescales. Taken together, our study presents a new algorithm that allows the generation of complex robotic movements as a building block for robotic control using state of the art neuromorphic hardware. | 翻訳日:2022-10-24 21:38:58 公開日:2020-11-17 |
# 効果的な共同デモサイジングのための残留学習 Residual Learning for Effective joint Demosaicing-Denoising ( http://arxiv.org/abs/2009.06205v2 ) ライセンス: Link先を確認 | Yu Guo, Qiyu Jin, Gabriele Facciolo, Tieyong Zeng, Jean-Michel Morel | (参考訳) 画像デモサイクリングとデノイジングは、カラー画像生成パイプラインの2つの重要なステップである。
古典的な処理シーケンスは、最初に denoising を適用し、次にdesaicking する。
しかし、この配列は過剰なスムースと不快なチェッカーボード効果をもたらす。
さらに、画像が分解されると、ノイズの統計的特性が劇的に変化するため、この順序を変更することは極めて困難である。
これは、統計的な仮定に強く依存する伝統的な認知モデルにとって非常に難しい。
本稿では,この厄介な問題に対処しようと試みる。
実際、ここでは、従来のCFA処理パイプラインを最初に分解し、次にデノベーションします。
最初の段階では、従来の手法と畳み込みニューラルネットワーク(CNN)を組み合わせて、ノイズを無視したフルカラーイメージを再構成する復調アルゴリズムを設計する。
画像復号化の性能向上のために,R,G,Bの3チャンネル情報を融合するためのインセプションアーキテクチャを改良した。
この段階は、満足できる最終結果を得るための鍵となるすべての既知の情報を保持する。
デモショッキングの後、ノイズの多いフルカラー画像を取得し、別のCNNを使って残留ノイズ(アーティファクトを含む)を分解し、復元されたフルカラー画像を得る。
提案アルゴリズムはチェッカーボード効果を完全に回避し,より詳細な画像を保持する。
さらに,20以上の雑音に対する他のcnn法の性能は限定的であるが,高いレベルの雑音を処理できる。
実験結果から,本手法は視覚的品質の両面で,最先端の手法よりも優れていることが明らかとなった。 Image demosaicking and denoising are the two key steps for color image production pipeline. The classical processing sequence consists of applying denoising first, and then demosaicking. However, this sequence leads to oversmoothing and unpleasant checkerboard effect. Moreover, it is very difficult to change this order, because once the image is demosaicked, the statistical properties of the noise will be changed dramatically. This is extremely challenging for traditional denoising models that strongly rely on statistical assumptions. In this paper, we attempt to tackle this prickly problem. Indeed, here we invert the traditional CFA processing pipeline by first demosaicking and then denoising. In the first stage, we design a demosaicking algorithm that combines traditional methods and a convolutional neural network (CNN) to reconstruct a full color image ignoring the noise. To improve the performance in image demosaicking, we modify an Inception architecture for fusing R, G and B three channels information. This stage retains all known information that is the key point to obtain pleasurable final results. After demosaicking, we get a noisy full-color image and use another CNN to learn the demosaicking residual noise (including artifacts) of it, that allows to obtain a restored full color image. Our proposed algorithm completely avoids the checkerboard effect and retains more image detail. Furthermore, it can process very high-level noise while the performances of other CNN based methods for noise higher than 20 are rather limited. Experimental results show clearly that our method outperforms state-of-the-art methods both quantitatively as well as in terms of visual quality. | 翻訳日:2022-10-18 12:25:05 公開日:2020-11-17 |
# 正則化としてのコーン・シャム方程式--機械学習物理学への事前知識の構築 Kohn-Sham equations as regularizer: building prior knowledge into machine-learned physics ( http://arxiv.org/abs/2009.08551v2 ) ライセンス: Link先を確認 | Li Li, Stephan Hoyer, Ryan Pederson, Ruoxi Sun, Ekin D. Cubuk, Patrick Riley, Kieron Burke | (参考訳) 事前知識を含むことは、物理学における効果的な機械学習モデルにとって重要であり、通常、モデルアーキテクチャに損失項や制約を明示的に追加することで達成される。
物理計算自体に埋め込まれた以前の知識は、ほとんど注目されない。
交換相関関数に対してニューラルネットワークを訓練する際のコーン・シャム方程式の解法は、一般化を大幅に改善する暗黙の正規化をもたらすことを示す。
2つの分離は、強相関領域を含む化学精度の1次元h$_2$解離曲線全体を学習するのに十分である。
我々のモデルはまた、目に見えない種類の分子に一般化し、自己相互作用エラーを克服する。 Including prior knowledge is important for effective machine learning models in physics, and is usually achieved by explicitly adding loss terms or constraints on model architectures. Prior knowledge embedded in the physics computation itself rarely draws attention. We show that solving the Kohn-Sham equations when training neural networks for the exchange-correlation functional provides an implicit regularization that greatly improves generalization. Two separations suffice for learning the entire one-dimensional H$_2$ dissociation curve within chemical accuracy, including the strongly correlated region. Our models also generalize to unseen types of molecules and overcome self-interaction error. | 翻訳日:2022-10-17 12:14:39 公開日:2020-11-17 |
# メタサンプルによる教師なし連続学習 Few-Shot Unsupervised Continual Learning through Meta-Examples ( http://arxiv.org/abs/2009.08107v3 ) ライセンス: Link先を確認 | Alessia Bertugli, Stefano Vincenzi, Simone Calderara, Andrea Passerini | (参考訳) 現実世界のアプリケーションでは、データはニューラルネットワークのトレーニングに一般的に使用されるものを反映していない。
したがって、既存のディープラーニングソリューションの多くは、特に時間とともに進化するオンラインストリーミングデータの場合、限られた範囲のアプリケーションに苦しめられている。
このギャップを狭めるため,本研究では,非教師なしのメタ連続学習と非バランスなタスクを含む,新しく複雑な設定を導入する。
これらのタスクは、組込み空間に適用されたクラスタリング手順によって構築される。
我々は,新しいタスクへの一般化を優先し,破滅的な忘れることを同時に緩和するメタラーニング手法を利用する。
さらに,メタ最適化時の機能再利用を促進するために,自己着脱機構を用いて集約表現を生かした単一の内部ループを利用する。
数ショットの学習ベンチマークによる実験結果から,教師付きケースと比較して競争性能が向上した。
さらに、教師なしのシナリオでは、小さなタスクとクラスタプールの可変性がネットワークの一般化能力において重要な役割を果たすことを実証的に観察する。
さらに、複雑なデータセットでは、真の数のクラスよりも多くのクラスタを利用すれば、完全な監視で得られたクラスタよりも高い結果が得られるため、事前に定義されたクラスへの分割は、関連する構造情報を見逃す可能性がある。 In real-world applications, data do not reflect the ones commonly used for neural networks training, since they are usually few, unlabeled and can be available as a stream. Hence many existing deep learning solutions suffer from a limited range of applications, in particular in the case of online streaming data that evolve over time. To narrow this gap, in this work we introduce a novel and complex setting involving unsupervised meta-continual learning with unbalanced tasks. These tasks are built through a clustering procedure applied to a fitted embedding space. We exploit a meta-learning scheme that simultaneously alleviates catastrophic forgetting and favors the generalization to new tasks. Moreover, to encourage feature reuse during the meta-optimization, we exploit a single inner loop taking advantage of an aggregated representation achieved through the use of a self-attention mechanism. Experimental results on few-shot learning benchmarks show competitive performance even compared to the supervised case. Additionally, we empirically observe that in an unsupervised scenario, the small tasks and the variability in the clusters pooling play a crucial role in the generalization capability of the network. Further, on complex datasets, the exploitation of more clusters than the true number of classes leads to higher results, even compared to the ones obtained with full supervision, suggesting that a predefined partitioning into classes can miss relevant structural information. | 翻訳日:2022-10-17 08:18:06 公開日:2020-11-17 |
# Ignoreへの学習: 境界メモリニューラルネットワークによる長いドキュメント照合 Learning to Ignore: Long Document Coreference with Bounded Memory Neural Networks ( http://arxiv.org/abs/2010.02807v3 ) ライセンス: Link先を確認 | Shubham Toshniwal, Sam Wiseman, Allyson Ettinger, Karen Livescu, Kevin Gimpel | (参考訳) 長いドキュメントのコリファレンス解決は、現在のモデルの大きなメモリと実行時の要求のために、依然として困難なタスクです。
エンティティのグローバル表現のみを使用してインクリメンタルなコリファレンス解決を行う最近の作業は、実用上のメリットを示しているが、すべてのエンティティをメモリに保持する必要がある。
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案し、ドキュメント長の線形ランタイムを保証する。
私たちはそれを示します
(a)このモデルは、オントノートやリットバンクに高いメモリと計算能力を必要とするモデルと相性が良いままである。
b)モデルが効率的なメモリ管理戦略を学習し、ルールベースの戦略に匹敵する。 Long document coreference resolution remains a challenging task due to the large memory and runtime requirements of current models. Recent work doing incremental coreference resolution using just the global representation of entities shows practical benefits but requires keeping all entities in memory, which can be impractical for long documents. We argue that keeping all entities in memory is unnecessary, and we propose a memory-augmented neural network that tracks only a small bounded number of entities at a time, thus guaranteeing a linear runtime in length of document. We show that (a) the model remains competitive with models with high memory and computational requirements on OntoNotes and LitBank, and (b) the model learns an efficient memory management strategy easily outperforming a rule-based strategy. | 翻訳日:2022-10-10 05:27:51 公開日:2020-11-17 |
# クロスサイロフェデレーション学習のためのスループット最適トポロジ設計 Throughput-Optimal Topology Design for Cross-Silo Federated Learning ( http://arxiv.org/abs/2010.12229v2 ) ライセンス: Link先を確認 | Othmane Marfoq, Chuan Xu, Giovanni Neglia, Richard Vidal | (参考訳) フェデレーション学習は通常、クライアントサーバアーキテクチャを使用し、オーケストレータがリモートクライアントからのモデル更新を反復的に集約し、洗練されたモデルに戻す。
高速アクセスリンクを持つ近接データサイロはオーケストレータよりも高速に情報を交換し、オーケストレータは通信ボトルネックになる可能性がある。
本稿では,マックスプラス線形系の理論を用いたクロスサイロフェデレーション学習におけるトポロジー設計の問題を定義し,時間単位当たりの通信ラウンド数であるシステムスループットを計算する。
また,実測可能なネットワーク特性の知識に基づいて,最大スループットのトポロジや実現可能なスループット保証を求める実用的なアルゴリズムを提案する。
10gbpsのサイロアクセスリンクを持つ現実のインターネットネットワークでは、マスタースレーブアーキテクチャと最先端のmatchaと比較して、アルゴリズムはトレーニングを9倍と1.5倍スピードアップします。
スピードアップはさらに大きく、アクセスリンクが遅くなる。 Federated learning usually employs a client-server architecture where an orchestrator iteratively aggregates model updates from remote clients and pushes them back a refined model. This approach may be inefficient in cross-silo settings, as close-by data silos with high-speed access links may exchange information faster than with the orchestrator, and the orchestrator may become a communication bottleneck. In this paper we define the problem of topology design for cross-silo federated learning using the theory of max-plus linear systems to compute the system throughput---number of communication rounds per time unit. We also propose practical algorithms that, under the knowledge of measurable network characteristics, find a topology with the largest throughput or with provable throughput guarantees. In realistic Internet networks with 10 Gbps access links for silos, our algorithms speed up training by a factor 9 and 1.5 in comparison to the master-slave architecture and to state-of-the-art MATCHA, respectively. Speedups are even larger with slower access links. | 翻訳日:2022-10-04 00:20:49 公開日:2020-11-17 |
# show and speak: 画像の音声記述を直接合成する Show and Speak: Directly Synthesize Spoken Description of Images ( http://arxiv.org/abs/2010.12267v2 ) ライセンス: Link先を確認 | Xinsheng Wang, Siyuan Feng, Jihua Zhu, Mark Hasegawa-Johnson, Odette Scharenborg | (参考訳) 本稿では, 画像の音声記述を直接合成し, テキストや音素の必要を回避し, ショー・アンド・スポーク(SAS)モデルと呼ばれる新しいモデルを提案する。
sasの基本構造は、イメージを入力として、このイメージを記述する音声のスペクトログラムを予測するエンコーダ/デコーダアーキテクチャである。
予測されたスペクトログラムからウェーブネットを介して最終音声を得る。
公開ベンチマークデータベースFlickr8kでの大規模な実験は、提案されたSASが画像の自然な音声記述を合成できることを示し、テキストや音素をバイパスしながら画像の音声記述を合成できることを示している。 This paper proposes a new model, referred to as the show and speak (SAS) model that, for the first time, is able to directly synthesize spoken descriptions of images, bypassing the need for any text or phonemes. The basic structure of SAS is an encoder-decoder architecture that takes an image as input and predicts the spectrogram of speech that describes this image. The final speech audio is obtained from the predicted spectrogram via WaveNet. Extensive experiments on the public benchmark database Flickr8k demonstrate that the proposed SAS is able to synthesize natural spoken descriptions for images, indicating that synthesizing spoken descriptions for images while bypassing text and phonemes is feasible. | 翻訳日:2022-10-03 21:31:59 公開日:2020-11-17 |
# 高次元ガウス混合物の分類における広幅な極小化と最適一般化 Wide flat minima and optimal generalization in classifying high-dimensional Gaussian mixtures ( http://arxiv.org/abs/2010.14761v2 ) ライセンス: Link先を確認 | Carlo Baldassi, Enrico M. Malatesta, Matteo Negri, Riccardo Zecchina | (参考訳) 平均二乗誤差損失関数を持つガウス混合系における閾値線形分類器の高局所エントロピー領域と優れた一般化特性を持つ最小値間の接続を解析する。
非平衡クラスタにおいても,ベイズ最適一般化誤差を実現する構成が存在することを示す。
ベイズ最適解の近傍における誤差計数損失景観を解析的に検討し、そのような構成に近づくほど局所エントロピーが高くなり、ベイズ最適解が広い平坦な領域内に存在することを示す。
また,(微分可能な)平均二乗誤差損失の広い平坦な極小を対象とするアルゴリズム的に関連する場合についても考察する。
解析的および数値的な結果は、バランスの取れた場合、重量のノルムへの依存は軽度であるだけでなく、バランスの取れない場合には性能を改善することができることを示している。 We analyze the connection between minimizers with good generalizing properties and high local entropy regions of a threshold-linear classifier in Gaussian mixtures with the mean squared error loss function. We show that there exist configurations that achieve the Bayes-optimal generalization error, even in the case of unbalanced clusters. We explore analytically the error-counting loss landscape in the vicinity of a Bayes-optimal solution, and show that the closer we get to such configurations, the higher the local entropy, implying that the Bayes-optimal solution lays inside a wide flat region. We also consider the algorithmically relevant case of targeting wide flat minima of the (differentiable) mean squared error loss. Our analytical and numerical results show not only that in the balanced case the dependence on the norm of the weights is mild, but also, in the unbalanced case, that the performances can be improved. | 翻訳日:2022-10-02 13:25:12 公開日:2020-11-17 |
# 一般化固有値、特異値、部分最小二乗分解:GSVDパッケージ Generalized eigen, singular value, and partial least squares decompositions: The GSVD package ( http://arxiv.org/abs/2010.14734v3 ) ライセンス: Link先を確認 | Derek Beaton (1) ((1) Rotman Research Institute, Baycrest Health Sciences) | (参考訳) 一般化特異値分解(GSVD, "SVD triplet", "duality diagram" approach)は、最も一般的な多変量解析(主成分、対応解析、多次元スケーリング、正準相関、部分最小二乗)のほとんど全てを実行する統一戦略と基礎を提供する。
GSVDはユビキタスで強力で柔軟性があるが、実装はほとんどない。
GSVDの一般的な目標は、GSVDと他の2つの関連する分解(一般化固有値分解、一般化最小二乗特異値分解)を実行するための小さなアクセス可能な関数セットを提供することである。
さらに、GSVDは多くの技術に対してより統一された概念的アプローチと命名を提供するのに役立つ。
まず GSVD の概念を紹介し、次に一般化された分解の形式的定義を示す。
次に、開発中に重要な決定を下し、様々な統計手法の実装にGSVDを使う方法の例をいくつか紹介します。
これらの例はまた、gsvdの目標である、gsvdに依存する分析パッケージをどのように構築するか(あるいはそうすべきか)を説明している。
最後に,GSVDの将来について論じる。 The generalized singular value decomposition (GSVD, a.k.a. "SVD triplet", "duality diagram" approach) provides a unified strategy and basis to perform nearly all of the most common multivariate analyses (e.g., principal components, correspondence analysis, multidimensional scaling, canonical correlation, partial least squares). Though the GSVD is ubiquitous, powerful, and flexible, it has very few implementations. Here I introduce the GSVD package for R. The general goal of GSVD is to provide a small set of accessible functions to perform the GSVD and two other related decompositions (generalized eigenvalue decomposition, generalized partial least squares-singular value decomposition). Furthermore, GSVD helps provide a more unified conceptual approach and nomenclature to many techniques. I first introduce the concept of the GSVD, followed by a formal definition of the generalized decompositions. Next I provide some key decisions made during development, and then a number of examples of how to use GSVD to implement various statistical techniques. These examples also illustrate one of the goals of GSVD: how others can (or should) build analysis packages that depend on GSVD. Finally, I discuss the possible future of GSVD. | 翻訳日:2022-10-02 06:32:49 公開日:2020-11-17 |
# 脳波からの臨床因子の解釈性と分類精度を向上させる表現学習 Representation learning for improved interpretability and classification accuracy of clinical factors from EEG ( http://arxiv.org/abs/2010.15274v3 ) ライセンス: Link先を確認 | Garrett Honke, Irina Higgins, Nina Thigpen, Vladimir Miskovic, Katie Link, Sunny Duan, Pramod Gupta, Julia Klawohn, Greg Hajcak | (参考訳) 広範な標準化にもかかわらず、精神疾患の診断面接は実質的な主観的判断を包含している。
これまでの研究では、脳波に基づく神経計測がうつ病の信頼できる客観的相関、あるいはうつ病の予測因子として機能することを示した。
しかし、その臨床的有用性は十分に実現されていない。
1)大規模脳波データに伴う固有ノイズに対する自動的対処方法の欠如,及び
2)脳波信号のどの側面が臨床疾患のマーカーであるかについての知識の欠如。
ここでは,最近の深層表現学習文献から教師なしのパイプラインを適応させ,これらの問題に対処する。
1)$\beta$-vae で不連続表現を学習して信号をデノベートし、
2)scan(symbol-concept association network)を用いて臨床ラベルのばらばらな集合に関連する解釈可能な特徴を抽出する。
本手法は,患者年齢やうつ病の診断など,さまざまな要因において,標準手技ベースライン分類法よりも優れていることを示す。
さらに,新規な単一脳波トラジェクトリから認知事象関連電位(ERP)を自動的に抽出する表現を復元し,様々な臨床ラベルへの高速な教師付き再マッピングをサポートし,標準化された診断システムによらず,単一の脳波表現を再利用できるようにする。
最後に、学習された不整合表現の1つの要因は、SCANによって自動的に検出されるように、しばしば臨床的要因の有意義なマーカーに対応し、ヒトの解釈可能性とモデルによる推奨のポストホックな専門家分析を可能にする。 Despite extensive standardization, diagnostic interviews for mental health disorders encompass substantial subjective judgment. Previous studies have demonstrated that EEG-based neural measures can function as reliable objective correlates of depression, or even predictors of depression and its course. However, their clinical utility has not been fully realized because of 1) the lack of automated ways to deal with the inherent noise associated with EEG data at scale, and 2) the lack of knowledge of which aspects of the EEG signal may be markers of a clinical disorder. Here we adapt an unsupervised pipeline from the recent deep representation learning literature to address these problems by 1) learning a disentangled representation using $\beta$-VAE to denoise the signal, and 2) extracting interpretable features associated with a sparse set of clinical labels using a Symbol-Concept Association Network (SCAN). We demonstrate that our method is able to outperform the canonical hand-engineered baseline classification method on a number of factors, including participant age and depression diagnosis. Furthermore, our method recovers a representation that can be used to automatically extract denoised Event Related Potentials (ERPs) from novel, single EEG trajectories, and supports fast supervised re-mapping to various clinical labels, allowing clinicians to re-use a single EEG representation regardless of updates to the standardized diagnostic system. Finally, single factors of the learned disentangled representations often correspond to meaningful markers of clinical factors, as automatically detected by SCAN, allowing for human interpretability and post-hoc expert analysis of the recommendations made by the model. | 翻訳日:2022-10-02 06:22:36 公開日:2020-11-17 |
# ソフトウェア欠陥予測手法に関するレビュー A Review On Software Defects Prediction Methods ( http://arxiv.org/abs/2011.00998v2 ) ライセンス: Link先を確認 | Mitt Shah and Nandit Pujara | (参考訳) ソフトウェアの品質は、ソフトウェアの本質的な側面の1つです。
需要が高まるにつれて、ソフトウェア設計はより複雑になり、ソフトウェア欠陥の確率が高まる。
テスターは欠陥を修正することでソフトウェアの品質を改善する。
したがって、欠陥の分析はソフトウェアの品質を著しく改善する。
ソフトウェアの複雑さは、欠陥の数も増加し、手作業による検出は非常に時間がかかります。
これにより、研究者は自動ソフトウェア欠陥検出技術を開発するインセンティブを得た。
本稿では,ソフトウェア欠陥分類におけるart機械学習アルゴリズムの性能を解析する。
この研究にはnasa promiseデータセットリポジトリから7つのデータセットを使用しました。
ニューラルネットワークと勾配ブースティング分類器の性能は他のアルゴリズムを支配した。 Software quality is one of the essential aspects of a software. With increasing demand, software designs are becoming more complex, increasing the probability of software defects. Testers improve the quality of software by fixing defects. Hence the analysis of defects significantly improves software quality. The complexity of software also results in a higher number of defects, and thus manual detection can become a very time-consuming process. This gave researchers incentives to develop techniques for automatic software defects detection. In this paper, we try to analyze the state of the art machine learning algorithms' performance for software defect classification. We used seven datasets from the NASA promise dataset repository for this research work. The performance of Neural Networks and Gradient Boosting classifier dominated other algorithms. | 翻訳日:2022-10-01 17:28:22 公開日:2020-11-17 |
# ディープラーニングアルゴリズムの逆例に対するニューラルネットワークの脆弱性 The Vulnerability of the Neural Networks Against Adversarial Examples in Deep Learning Algorithms ( http://arxiv.org/abs/2011.05976v2 ) ライセンス: Link先を確認 | Rui Zhao | (参考訳) コンピュータビジョン、ネットワークセキュリティ、自然言語処理などの分野のさらなる発展により、ディープラーニング技術は徐々に特定のセキュリティリスクを暴露していった。
既存のディープラーニングアルゴリズムは、データの本質的な特性を効果的に記述できないため、悪意のある入力に対して正しい結果を与えることができない。
深層学習が抱える現在のセキュリティ上の脅威に基づいて,本論文では,ブラックボックスとホワイトボックスの既存の攻撃・防御手法を分類し,それらを分類する。
近年の様々なシナリオにおける敵の事例の応用を簡潔に解説し、敵の事例の防衛技術をいくつか比較し、最終的にこの研究分野の問題点と今後の発展の展望をまとめた。
本稿では,一般的なホワイトボックス攻撃手法を詳細に紹介するとともに,ブラックボックスとホワイトボックスの類似点と相違点を比較した。
それに応じて、著者は防御方法を紹介し、これらの方法のパフォーマンスを白黒ボックス攻撃に対して分析する。 With further development in the fields of computer vision, network security, natural language processing and so on so forth, deep learning technology gradually exposed certain security risks. The existing deep learning algorithms cannot effectively describe the essential characteristics of data, making the algorithm unable to give the correct result in the face of malicious input. Based on current security threats faced by deep learning, this paper introduces the problem of adversarial examples in deep learning, sorts out the existing attack and defense methods of the black box and white box, and classifies them. It briefly describes the application of some adversarial examples in different scenarios in recent years, compares several defense technologies of adversarial examples, and finally summarizes the problems in this research field and prospects for its future development. This paper introduces the common white box attack methods in detail, and further compares the similarities and differences between the attack of the black and white box. Correspondingly, the author also introduces the defense methods, and analyzes the performance of these methods against the black and white box attack. | 翻訳日:2022-09-30 13:00:13 公開日:2020-11-17 |
# 自然言語処理による持続可能性レポートの分析 Analyzing Sustainability Reports Using Natural Language Processing ( http://arxiv.org/abs/2011.08073v2 ) ライセンス: Link先を確認 | Alexandra Luccioni, Emily Baylor, Nicolas Duchene | (参考訳) 気候変動は、世界の株式市場である \cite{dietz2016climate}を含む、我々の社会の多くの側面に影響を与える、広範囲にわたる世界的現象である。
近年、企業は環境への影響を緩和し、気候変動の状況に適応することを目指している。
これは、環境・社会・ガバナンス(ESG)の傘下にある様々な種類の気候リスクと暴露を網羅する、ますます徹底的な報告によって報告されている。
しかし、この膨大なデータを考えると、持続可能性アナリストは関連する情報を見つけるために数百ページのレポートをまとめなければならない。
我々は,NLP(Natural Language Processing)の最近の進歩を活用して,質問応答アプローチに基づく気候関連セクションを特定するために,財務報告の分析を可能にするカスタムモデルであるClimateQAを開発した。
本稿では,本ツールの開発に用いたツールと方法論について紹介する。 Climate change is a far-reaching, global phenomenon that will impact many aspects of our society, including the global stock market \cite{dietz2016climate}. In recent years, companies have increasingly been aiming to both mitigate their environmental impact and adapt to the changing climate context. This is reported via increasingly exhaustive reports, which cover many types of climate risks and exposures under the umbrella of Environmental, Social, and Governance (ESG). However, given this abundance of data, sustainability analysts are obliged to comb through hundreds of pages of reports in order to find relevant information. We leveraged recent progress in Natural Language Processing (NLP) to create a custom model, ClimateQA, which allows the analysis of financial reports in order to identify climate-relevant sections based on a question answering approach. We present this tool and the methodology that we used to develop it in the present article. | 翻訳日:2022-09-30 04:00:44 公開日:2020-11-17 |
# 画像塗布用画素線量検出器 Pixel-wise Dense Detector for Image Inpainting ( http://arxiv.org/abs/2011.02293v2 ) ライセンス: Link先を確認 | Ruisong Zhang, Weize Quan, Baoyuan Wu, Zhifeng Li, Dong-Ming Yan | (参考訳) 近年のGANベースの画像インパインティング手法では、生成した画像を識別し、スカラーを出力する平均戦略を採用している。
さらに、逆損失と再構成損失(例えば、l1損失)とトレードオフ重みを組み合わせることにより、チューニングが困難となる。
本稿では,画像インペイントのための新たな検出ベース生成フレームワークを提案する。
ジェネレータは、欠落した領域を埋めるエンコーダ・デコーダアーキテクチャに従い、弱い教師付き学習を用いた検出器は、画素単位でアーティファクトの位置をローカライズする。
このような位置情報により、ジェネレータはアーティファクトに注意を払い、さらに強化する。
より重要なことに,検出器の出力を重み付け基準で復元損失に明示的に挿入し,手作業ではなく,逆損失と復元損失の重みをバランスさせる。
複数の公開データセットの実験は、提案したフレームワークの優れたパフォーマンスを示している。
ソースコードはhttps://github.com/evergrow/gdn_inpaintingで入手できる。 Recent GAN-based image inpainting approaches adopt an average strategy to discriminate the generated image and output a scalar, which inevitably lose the position information of visual artifacts. Moreover, the adversarial loss and reconstruction loss (e.g., l1 loss) are combined with tradeoff weights, which are also difficult to tune. In this paper, we propose a novel detection-based generative framework for image inpainting, which adopts the min-max strategy in an adversarial process. The generator follows an encoder-decoder architecture to fill the missing regions, and the detector using weakly supervised learning localizes the position of artifacts in a pixel-wise manner. Such position information makes the generator pay attention to artifacts and further enhance them. More importantly, we explicitly insert the output of the detector into the reconstruction loss with a weighting criterion, which balances the weight of the adversarial loss and reconstruction loss automatically rather than manual operation. Experiments on multiple public datasets show the superior performance of the proposed framework. The source code is available at https://github.com/Evergrow/GDN_Inpainting. | 翻訳日:2022-09-29 22:22:42 公開日:2020-11-17 |
# 単調決定と転校学習による機械読解能力の向上 Improving Machine Reading Comprehension with Single-choice Decision and Transfer Learning ( http://arxiv.org/abs/2011.03292v2 ) ライセンス: Link先を確認 | Yufan Jiang, Shuangzhi Wu, Jing Gong, Yahui Cheng, Peng Meng, Weiliang Lin, Zhibo Chen and Mu li | (参考訳) MMRC(Multi-choice Machine Reading Comprehension)は、与えられた文節と質問に基づいて、オプションのセットから正しい回答を選択することを目的としている。
MMRCのタスク特化のため、SQuADやDreamといった他のMRCタスクから知識を伝達するのは簡単ではない。
本稿では,ある解が正しいかどうかを識別するために,二項分類をトレーニングすることで,複数選択を単一選択に再構築する。
そして、最も信頼度の高いオプションを選択します。
ALBERT-xxlargeモデルに基づいてモデルを構築し,RASデータセット上で推定する。
トレーニングでは、より良いパラメータを調整するためにAutoML戦略を採用しています。
実験の結果,シングルチョイスはマルチチョイスよりも優れていることがわかった。
さらに,他の種類のMRCタスクから知識を伝達することにより,単一およびアンサンブル設定で新たな最先端結果が得られる。 Multi-choice Machine Reading Comprehension (MMRC) aims to select the correct answer from a set of options based on a given passage and question. Due to task specific of MMRC, it is non-trivial to transfer knowledge from other MRC tasks such as SQuAD, Dream. In this paper, we simply reconstruct multi-choice to single-choice by training a binary classification to distinguish whether a certain answer is correct. Then select the option with the highest confidence score. We construct our model upon ALBERT-xxlarge model and estimate it on the RACE dataset. During training, We adopt AutoML strategy to tune better parameters. Experimental results show that the single-choice is better than multi-choice. In addition, by transferring knowledge from other kinds of MRC tasks, our model achieves a new state-of-the-art results in both single and ensemble settings. | 翻訳日:2022-09-29 05:00:03 公開日:2020-11-17 |
# AAAゲームにおけるナビゲーションのための深層強化学習 Deep Reinforcement Learning for Navigation in AAA Video Games ( http://arxiv.org/abs/2011.04764v2 ) ライセンス: Link先を確認 | Eloi Alonso, Maxim Peter, David Goumard, Joshua Romoff | (参考訳) ビデオゲームでは、非プレイヤーキャラクター(NPC)は、敵、同盟国、無実の傍観者など、様々な方法でプレイヤーの経験を高めるために使用される。
NPCの重要なコンポーネントはナビゲーションであり、マップ上のあるポイントから別のポイントへ移動することができる。
ビデオゲーム業界におけるNPCナビゲーションの最も一般的なアプローチは、地図のグラフ表現であるナビゲーションメッシュ(NavMesh)を使用することである。
不幸なことに、フック、ジェットパック、テレポーテーション、ダブルジャンプなどのキャラクタの移動能力を拡張する複雑なナビゲーション能力は、navmeshの複雑さを増加させ、多くの実用的なシナリオでは役に立たない。
したがって、ゲームデザイナーは、NPCナビゲーションが必要な場合、NavMeshで処理できる機能のみを追加することを制約される。
その代替として,Deep Reinforcement Learning (Deep RL) を用いて,任意のナビゲーション能力を用いて3Dマップのナビゲート方法を学ぶことを提案する。
私たちは、複雑な3d環境におけるunityゲームエンジンのアプローチをテストしています。
これらのマップの1つは、Ubisoft AAAゲームを直接モデル化している。
当社のアプローチは驚くほどうまく機能し、すべてのテストシナリオで少なくとも90\%の成功率を実現しています。
結果のビデオはhttps://youtu.be/wfif9wwlq8mで閲覧できます。 In video games, non-player characters (NPCs) are used to enhance the players' experience in a variety of ways, e.g., as enemies, allies, or innocent bystanders. A crucial component of NPCs is navigation, which allows them to move from one point to another on the map. The most popular approach for NPC navigation in the video game industry is to use a navigation mesh (NavMesh), which is a graph representation of the map, with nodes and edges indicating traversable areas. Unfortunately, complex navigation abilities that extend the character's capacity for movement, e.g., grappling hooks, jetpacks, teleportation, or double-jumps, increases the complexity of the NavMesh, making it intractable in many practical scenarios. Game designers are thus constrained to only add abilities that can be handled by a NavMesh if they want to have NPC navigation. As an alternative, we propose to use Deep Reinforcement Learning (Deep RL) to learn how to navigate 3D maps using any navigation ability. We test our approach on complex 3D environments in the Unity game engine that are notably an order of magnitude larger than maps typically used in the Deep RL literature. One of these maps is directly modeled after a Ubisoft AAA game. We find that our approach performs surprisingly well, achieving at least $90\%$ success rate on all tested scenarios. A video of our results is available at https://youtu.be/WFIf9Wwlq8M. | 翻訳日:2022-09-28 00:35:10 公開日:2020-11-17 |
# LADA: アクティブラーニングのための拡張によるルックアヘッドデータ獲得 LADA: Look-Ahead Data Acquisition via Augmentation for Active Learning ( http://arxiv.org/abs/2011.04194v3 ) ライセンス: Link先を確認 | Yoon-Yeong Kim, Kyungwoo Song, JoonHo Jang, Il-Chul Moon | (参考訳) アクティブラーニングは、ラベル付きデータセットが制限され、アノテーションコストが高い場合に、ディープラーニングモデルをトレーニングするためのデータインスタンスを効果的に収集する。
アクティブラーニングに加えて、データ拡張はラベル付きインスタンスの限られた量を拡張する効果的なテクニックでもある。
しかし、データ拡張によって生成された仮想インスタンスによる潜在的な利益は、アクティブラーニングの獲得過程においてまだ考慮されていない。
買収プロセスにおけるデータ拡張の効果を展望すると、モデルのトレーニングに有用なデータインスタンスを選択して生成する。
そこで本稿では,データ取得とデータ拡張を統合するために,augmentation(lada)によるルックアヘッドデータ取得を提案する。
LADAは両方を考える
1)選択すべきラベルのないデータインスタンスと
2) 取得プロセスに先立って,データ拡張によって生成される仮想データインスタンス。
さらに、仮想データインスタンスの情報性を高めるため、LADAはデータ拡張ポリシーを最適化し、予測獲得スコアを最大化し、InfoMixupとInfoSTNが提案される。
LADAは一般化可能なフレームワークであるため、我々は獲得法と拡張法の様々な組み合わせを実験する。
ladaのパフォーマンスは、ベンチマークデータセットに独立して適用された最近の拡張および取得ベースラインを大きく改善したことを示している。 Active learning effectively collects data instances for training deep learning models when the labeled dataset is limited and the annotation cost is high. Besides active learning, data augmentation is also an effective technique to enlarge the limited amount of labeled instances. However, the potential gain from virtual instances generated by data augmentation has not been considered in the acquisition process of active learning yet. Looking ahead the effect of data augmentation in the process of acquisition would select and generate the data instances that are informative for training the model. Hence, this paper proposes Look-Ahead Data Acquisition via augmentation, or LADA, to integrate data acquisition and data augmentation. LADA considers both 1) unlabeled data instance to be selected and 2) virtual data instance to be generated by data augmentation, in advance of the acquisition process. Moreover, to enhance the informativeness of the virtual data instances, LADA optimizes the data augmentation policy to maximize the predictive acquisition score, resulting in the proposal of InfoMixup and InfoSTN. As LADA is a generalizable framework, we experiment with the various combinations of acquisition and augmentation methods. The performance of LADA shows a significant improvement over the recent augmentation and acquisition baselines which were independently applied to the benchmark datasets. | 翻訳日:2022-09-28 00:16:31 公開日:2020-11-17 |
# 糖尿病患者における慢性腎臓病早期発見のための電子健康記録データの少ない経時的表現 Sparse Longitudinal Representations of Electronic Health Record Data for the Early Detection of Chronic Kidney Disease in Diabetic Patients ( http://arxiv.org/abs/2011.04802v2 ) ライセンス: Link先を確認 | Jinghe Zhang, Kamran Kowsari, Mehdi Boukhechba, James Harrison, Jennifer Lobo, Laura Barnes | (参考訳) 慢性腎疾患(CKD)は、徐々に腎機能の喪失であり、死亡リスクを増大させ、生命の質を低下させ、重篤な合併症を引き起こす。
CKDの流行はここ数十年で増加しており、これは糖尿病や高血圧の流行の増加によるものである。
糖尿病患者のCKDを正確に検出するために,患者の医療記録の少ない縦長表現を学習するための新しい枠組みを提案する。
提案手法は,実EHRデータに基づくシーケンスの集約周波数ベクトルやBag-of-Patternといった,広く使用されているベースラインと比較し,提案モデルが高い予測性能を実現することを示す。
さらに、学習された表現を解釈して視覚化し、臨床的な洞察をもたらす。 Chronic kidney disease (CKD) is a gradual loss of renal function over time, and it increases the risk of mortality, decreased quality of life, as well as serious complications. The prevalence of CKD has been increasing in the last couple of decades, which is partly due to the increased prevalence of diabetes and hypertension. To accurately detect CKD in diabetic patients, we propose a novel framework to learn sparse longitudinal representations of patients' medical records. The proposed method is also compared with widely used baselines such as Aggregated Frequency Vector and Bag-of-Pattern in Sequences on real EHR data, and the experimental results indicate that the proposed model achieves higher predictive performance. Additionally, the learned representations are interpreted and visualized to bring clinical insights. | 翻訳日:2022-09-28 00:08:20 公開日:2020-11-17 |
# 直接・間接観測によるLiDARと魚眼カメラを用いた相対ドローン群車両位置推定 Relative Drone-Ground Vehicle Localization using LiDAR and Fisheye Cameras through Direct and Indirect Observations ( http://arxiv.org/abs/2011.07008v3 ) ライセンス: Link先を確認 | Jan Hausberg, Ryoichi Ishikawa, Menandro Roxas, Takeshi Oishi | (参考訳) 無人航空機(UAV)やドローンの姿勢を推定することは難しい作業である。
ナビゲーション、監視、地上の物体の追跡、および3d再構成といった多くの用途に有用である。
そこで本研究では,LiDARセンサと魚眼カメラを車体屋根に装着した魚眼カメラを用いて,ドローンと地上車両との間の相対ポーズ推定手法を提案する。
LiDARセンサーはドローンを直接観測し、その位置を計測し、2台のカメラは周囲の物体を間接観測して相対方向を推定する。
本稿では,LiDARを用いたドローン検出・追跡のための動的適応カーネルベース手法を提案する。
両カメラの消失点を検出し,その対応関係を見つけ,相対方向を推定する。
さらに,LiDARによるドローンの観測動作に依存する回転補正手法を提案する。
実験では、非常に高速な初期検出と、ドローンのリアルタイム追跡を実現しました。
私たちの方法は完全自動です。 Estimating the pose of an unmanned aerial vehicle (UAV) or drone is a challenging task. It is useful for many applications such as navigation, surveillance, tracking objects on the ground, and 3D reconstruction. In this work, we present a LiDAR-camera-based relative pose estimation method between a drone and a ground vehicle, using a LiDAR sensor and a fisheye camera on the vehicle's roof and another fisheye camera mounted under the drone. The LiDAR sensor directly observes the drone and measures its position, and the two cameras estimate the relative orientation using indirect observation of the surrounding objects. We propose a dynamically adaptive kernel-based method for drone detection and tracking using the LiDAR. We detect vanishing points in both cameras and find their correspondences to estimate the relative orientation. Additionally, we propose a rotation correction technique by relying on the observed motion of the drone through the LiDAR. In our experiments, we were able to achieve very fast initial detection and real-time tracking of the drone. Our method is fully automatic. | 翻訳日:2022-09-26 00:38:49 公開日:2020-11-17 |
# TLab:HR-NETに基づく交通地図映画予測 TLab: Traffic Map Movie Forecasting Based on HR-NET ( http://arxiv.org/abs/2011.07728v2 ) ライセンス: Link先を確認 | Fanyou Wu, Yang Liu, Zhiyuan Liu, Xiaobo Qu, Rado Gazo, Eva Haviarova | (参考訳) 大規模時空間交通データに対する効果的な予測の問題は、知的輸送の分野で長年研究者を悩ませてきた。
データ量に制限され、都市全体の交通状態の予測はほとんど達成されなかった。
したがって、都市全体の複雑な都市交通体系は、真に理解できない。
IARAIのような団体の努力のおかげで、彼らの提供する膨大なオープンデータが研究を可能にしました。
2020年のコンペティションソリューションでは、HR-NETとUNetに基づいた複数のバリエーションを設計しています。
機能エンジニアリングを通じて、手作りの機能は、チャネルの形でモデルに入力される。
地理的な位置の性質を学習するために,我々はジオ埋め込みと呼ばれる新しい手法を提案し,モデルの精度を大幅に向上させた。
さらに,アクティベーション関数とオプティマイザの選択の影響や,モデルトレーニング中のトリックがモデルパフォーマンスに与える影響についても検討した。
予測精度に関しては、NeurIPS 2020、Traffic4cast Challengeで2位を獲得しました。 The problem of the effective prediction for large-scale spatio-temporal traffic data has long haunted researchers in the field of intelligent transportation. Limited by the quantity of data, citywide traffic state prediction was seldom achieved. Hence the complex urban transportation system of an entire city cannot be truly understood. Thanks to the efforts of organizations like IARAI, the massive open data provided by them has made the research possible. In our 2020 Competition solution, we further design multiple variants based on HR-NET and UNet. Through feature engineering, the hand-crafted features are input into the model in a form of channels. It is worth noting that, to learn the inherent attributes of geographical locations, we proposed a novel method called geo-embedding, which contributes to significant improvement in the accuracy of the model. In addition, we explored the influence of the selection of activation functions and optimizers, as well as tricks during model training on the model performance. In terms of prediction accuracy, our solution has won 2nd place in NeurIPS 2020, Traffic4cast Challenge. | 翻訳日:2022-09-26 00:30:06 公開日:2020-11-17 |
# データからの粗粒および創発性分散パラメータシステム Coarse-grained and emergent distributed parameter systems from data ( http://arxiv.org/abs/2011.08138v2 ) ライセンス: Link先を確認 | Hassan Arbabi, Felix P. Kemeth, Tom Bertalan and Ioannis Kevrekidis | (参考訳) 時空間データから分散パラメータ系進化則(特に偏微分作用素と関連する偏微分方程式、PDE)の導出について検討する。
これは古典的な識別問題であり、我々の焦点は、依存変数や PDE の独立変数でさえも、先行変数として知られておらず、データから自身を導出しなければならないような、ニューラルネットワーク学習アルゴリズムと共に、多様体学習技術(特に拡散マップの変種)を使用することである。
従属的な粗い変数検出のために拡散写像で使われる類似度尺度は、局所粒子分布観測間の距離を含む;独立変数検出では局所短時間ダイナミクス間の距離を用いる。
実証的なPDEの例を通して,それぞれのアプローチを実証する。
このような変数のない創発的空間同定アルゴリズムは、自然に方程式のないマルチスケール計算ツールと接続する。 We explore the derivation of distributed parameter system evolution laws (and in particular, partial differential operators and associated partial differential equations, PDEs) from spatiotemporal data. This is, of course, a classical identification problem; our focus here is on the use of manifold learning techniques (and, in particular, variations of Diffusion Maps) in conjunction with neural network learning algorithms that allow us to attempt this task when the dependent variables, and even the independent variables of the PDE are not known a priori and must be themselves derived from the data. The similarity measure used in Diffusion Maps for dependent coarse variable detection involves distances between local particle distribution observations; for independent variable detection we use distances between local short-time dynamics. We demonstrate each approach through an illustrative established PDE example. Such variable-free, emergent space identification algorithms connect naturally with equation-free multiscale computation tools. | 翻訳日:2022-09-24 23:56:58 公開日:2020-11-17 |
# 自律走行のための反復半パラメトリックダイナミクスモデル学習 Iterative Semi-parametric Dynamics Model Learning For Autonomous Racing ( http://arxiv.org/abs/2011.08750v1 ) ライセンス: Link先を確認 | Ignat Georgiev, Christoforos Chatzikomis, Timo V\"olkl, Joshua Smith and Michael Mistry | (参考訳) ロボットダイナミクスの正確なモデリングは、安全かつ効率的な動作制御に不可欠である。
本稿では,ニューラルネットワークを用いた反復学習半パラメトリックモデルを開発し,モデル予測制御(mpc)を用いた自律走行タスクに適用する。
パラメトリックモデルを用いて既知のダイナミクスを表現し、未知のダイナミクスをニューラルネットワークが捉えた、新しい非線形セミパラメトリックダイナミクスモデルを提案する。
我々のモデルは純粋にパラメトリックモデルよりも正確に学習でき、純粋に非パラメトリックモデルよりも一般化できることを示し、完全な状態空間からデータを収集することが不可能な現実世界アプリケーションに理想的であることを示す。
本稿では,事前記録されたデータに対してモデルがブートストラップされ,実行時に繰り返し更新されるシステムを提案する。
そして,この反復学習手法を自律走行のシミュレーション問題に適用し,オンライン上で修正されたダイナミクスに安全に適応でき,手動運転でトレーニングされたモデルよりも優れた性能が得られることを示した。 Accurately modeling robot dynamics is crucial to safe and efficient motion control. In this paper, we develop and apply an iterative learning semi-parametric model, with a neural network, to the task of autonomous racing with a Model Predictive Controller (MPC). We present a novel non-linear semi-parametric dynamics model where we represent the known dynamics with a parametric model, and a neural network captures the unknown dynamics. We show that our model can learn more accurately than a purely parametric model and generalize better than a purely non-parametric model, making it ideal for real-world applications where collecting data from the full state space is not feasible. We present a system where the model is bootstrapped on pre-recorded data and then updated iteratively at run time. Then we apply our iterative learning approach to the simulated problem of autonomous racing and show that it can safely adapt to modified dynamics online and even achieve better performance than models trained on data from manual driving. | 翻訳日:2022-09-24 18:03:57 公開日:2020-11-17 |
# 低SNRにおける方向推定のためのディープネットワーク Deep Networks for Direction-of-Arrival Estimation in Low SNR ( http://arxiv.org/abs/2011.08848v1 ) ライセンス: Link先を確認 | Georgios K. Papageorgiou, Mathini Sellathurai and Yonina C. Eldar | (参考訳) 本研究では,Deep Learning (DL) を用いた極端雑音の存在下での方向推定(DoA)について検討する。
特に、真の配列多様体行列の変異チャネルデータから学習し、サンプル共分散推定を用いて角方向を予測できる畳み込みニューラルネットワーク(CNN)を導入する。
我々は、問題をマルチラベル分類タスクとしてモデル化し、低SNR方式でCNNを訓練し、すべてのSNRでDoAを予測する。
提案するアーキテクチャは,ノイズの存在下でのロバスト性の向上と,少数のスナップショットに対するレジリエンスを示す。
さらに、グリッド解像度内の角度を解消することができる。
実験結果から, パラメータチューニングを必要とせず, 最先端手法と比較して低SNR方式では顕著な性能向上が見られた。
我々は,情報源の数が先行して知られているという仮定を緩和し,cnnがdoasと共同でソース数を推測することを学ぶためのトレーニング手法を提案する。
シミュレーションの結果、提案したCNNは低SNRでのオフグリッド角を正確に推定できる一方で、十分な数のスナップショットに対してソース数を推測できることがわかった。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクやソナーまで、いくつかの分野に適用できます。 In this work, we consider direction-of-arrival (DoA) estimation in the presence of extreme noise using Deep Learning (DL). In particular, we introduce a Convolutional Neural Network (CNN) that is trained from mutli-channel data of the true array manifold matrix and is able to predict angular directions using the sample covariance estimate. We model the problem as a multi-label classification task and train a CNN in the low-SNR regime to predict DoAs across all SNRs. The proposed architecture demonstrates enhanced robustness in the presence of noise, and resilience to a small number of snapshots. Moreover, it is able to resolve angles within the grid resolution. Experimental results demonstrate significant performance gains in the low-SNR regime compared to state-of-the-art methods and without the requirement of any parameter tuning. We relax the assumption that the number of sources is known a priori and present a training method, where the CNN learns to infer the number of sources jointly with the DoAs. Simulation results demonstrate that the proposed CNN can accurately estimate off-grid angles in low SNR, while at the same time the number of sources is successfully inferred for a sufficient number of snapshots. Our robust solution can be applied in several fields, ranging from wireless array sensors to acoustic microphones or sonars. | 翻訳日:2022-09-24 18:03:28 公開日:2020-11-17 |
# マルチエージェント強化学習によるマルチスケールインバージョン問題に対するmcmcの高速化 Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale Inversion Problem ( http://arxiv.org/abs/2011.08954v1 ) ライセンス: Link先を確認 | Eric Chung, Yalchin Efendiev, Wing Tat Leung, Sai-Mang Pun, Zecheng Zhang | (参考訳) 本研究では,多レベルモンテカルロマルコフ連鎖(MCMC)サンプリングアルゴリズムを高速化するために,マルチエージェントアクタ-クリティック強化学習(RL)アルゴリズムを提案する。
エージェントのポリシー(アクター)はMCMCのステップで提案を生成するために使用され、批評家は中央集権的であり、長期的な報酬を見積もる責任がある。
複数のスケールで逆問題を解くことにより,提案アルゴリズムの検証を行う。
従来のMCMCサンプリングを用いることで,この問題の実装にはいくつかの困難がある。
第一に、後続分布の計算は前方解法の評価を伴うが、これは不均一な問題に非常に時間がかかる。
そこで我々は,マルチレベルアルゴリズムを提案する。
より正確には、多値拒絶法における後方分布の評価において、一般化多スケール有限要素法(gmsfem)を前方解法として用いる。
第二に、意味のあるサンプリングを生成できる関数を見つけることは困難である。
この問題を解決するため,提案ジェネレータとしてRLポリシーを学習する。
提案手法がサンプリングプロセスを大幅に改善することを示す。 In this work, we propose a multi-agent actor-critic reinforcement learning (RL) algorithm to accelerate the multi-level Monte Carlo Markov Chain (MCMC) sampling algorithms. The policies (actors) of the agents are used to generate the proposal in the MCMC steps; and the critic, which is centralized, is in charge of estimating the long term reward. We verify our proposed algorithm by solving an inverse problem with multiple scales. There are several difficulties in the implementation of this problem by using traditional MCMC sampling. Firstly, the computation of the posterior distribution involves evaluating the forward solver, which is very time consuming for a problem with heterogeneous. We hence propose to use the multi-level algorithm. More precisely, we use the generalized multiscale finite element method (GMsFEM) as the forward solver in evaluating a posterior distribution in the multi-level rejection procedure. Secondly, it is hard to find a function which can generate samplings which are meaningful. To solve this issue, we learn an RL policy as the proposal generator. Our experiments show that the proposed method significantly improves the sampling process | 翻訳日:2022-09-24 18:03:03 公開日:2020-11-17 |
# TreeGen -- データフレーム用のモンテカルロジェネレータ TreeGen -- a Monte Carlo generator for data frames ( http://arxiv.org/abs/2011.08922v1 ) ライセンス: Link先を確認 | Agnieszka Niemczynowicz, Gabriela Bia{\l}osk\'orska, Joanna Nie\.zurawska-Zaj\k{a}c, Rados{\l}aw A. Kycia | (参考訳) データサイエンスの典型的な問題は、行内のユニークな要素の発生頻度と、データフレームの異なる行間の関係をエンコードする構造を作ることである。
本稿では,決定木の拡張である確率木抽象データ構造について述べる。
このような木は、データフレームの異なる行間の統計的関係を表す。
Probability Treeのアルゴリズム構造は、モンテカルロ・ジェネレータであるジェネレータモジュールに供給され、ツリーを横切る。
この2つのコンポーネントは、TreeGen Pythonパッケージに実装されている。
このパッケージは、データの多重度の向上、統計情報を保存するデータの圧縮、階層モデルの構築、データの探索、特徴抽出に使用することができる。 The typical problem in Data Science is creating a structure that encodes the occurrence frequency of unique elements in rows and relations between different rows of a data frame. We present the probability tree abstract data structure, an extension of the decision tree, that facilitates more than two choices with assigned probabilities. Such a tree represents statistical relations between different rows of the data frame. The Probability Tree algorithmic structure is supplied with the Generator module that is a Monte Carlo generator that traverses through the tree. These two components are implemented in TreeGen Python package. The package can be used in increasing data multiplicity, compressing data preserving its statistical information, constructing hierarchical models, exploring data, and in feature extraction. | 翻訳日:2022-09-24 18:00:07 公開日:2020-11-17 |
# ロボットシミュレータの校正に関するユーザガイド A User's Guide to Calibrating Robotics Simulators ( http://arxiv.org/abs/2011.08985v1 ) ライセンス: Link先を確認 | Bhairav Mehta, Ankur Handa, Dieter Fox, Fabio Ramos | (参考訳) シミュレータは現代ロボット研究の重要な構成要素である。
知覚と意思決定の両方の戦略は、実世界のシステムにデプロイする前にシミュレーションで研究でき、時間とコストを節約できる。
sim-to-realアルゴリズムの開発には大きな進展があったが、異なる手法の分析は相変わらずアドホックな方法で行われ、比較のための一貫したテストとメトリクスのセットがない。
本稿では、このギャップを埋め、シミュレーションで学習したモデルやポリシーを現実世界に移すための、様々なアルゴリズムの研究のための一連のベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を提供するために、広く知られたシミュレーション環境の実験を行う。
本分析は,この領域で働く実践者にとって有用であり,sim-to-realアルゴリズムの動作と主特性に関するインフォームドな選択を支援する。
ベンチマーク、トレーニングデータ、トレーニングモデルをオープンソースとして公開し、https://github.com/nvlabs/sim-parameter-estimationで確認できます。 Simulators are a critical component of modern robotics research. Strategies for both perception and decision making can be studied in simulation first before deployed to real world systems, saving on time and costs. Despite significant progress on the development of sim-to-real algorithms, the analysis of different methods is still conducted in an ad-hoc manner, without a consistent set of tests and metrics for comparison. This paper fills this gap and proposes a set of benchmarks and a framework for the study of various algorithms aimed to transfer models and policies learnt in simulation to the real world. We conduct experiments on a wide range of well known simulated environments to characterize and offer insights into the performance of different algorithms. Our analysis can be useful for practitioners working in this area and can help make informed choices about the behavior and main properties of sim-to-real algorithms. We open-source the benchmark, training data, and trained models, which can be found at https://github.com/NVlabs/sim-parameter-estimation. | 翻訳日:2022-09-24 17:59:56 公開日:2020-11-17 |
# EEG-GCNN : 領域誘導グラフ畳み込みニューラルネットワークを用いた脳波による神経疾患の診断 EEG-GCNN: Augmenting Electroencephalogram-based Neurological Disease Diagnosis using a Domain-guided Graph Convolutional Neural Network ( http://arxiv.org/abs/2011.12107v1 ) ライセンス: Link先を確認 | Neeraj Wagh, Yogatheesan Varatharajah | (参考訳) 本稿では,頭皮電気脳波(EEG)を用いて神経疾患の診断を改善するための新しいグラフ畳み込みニューラルネットワーク(GCNN)を提案する。
脳波は神経疾患の診断に使用される主要な検査の1つであるが、脳波に基づく専門的視覚診断の感度は$\sim$50\%である。
このことは、異常な頭皮EEGを検出する際に、偽陰性率を減らすための高度な方法の必要性が明らかであることを示している。
そこで本研究では,神経疾患患者の頭皮脳波の異常を専門家によって「正常」と分類し,健常者の頭皮脳波と区別する問題に焦点を当てた。
この論文の貢献は3つある。
1)頭皮電極間の空間的および機能的接続を捕捉する脳波データのための新しいGCNNモデルであるEEG-GCNNを提案する。
2) eeg-gcnnを用いて, 上記の仮説の大規模評価を行った。
3)2つの大きな頭皮EEGデータベースを用いて,脳波GCNNが人間のベースラインと古典的機械学習(ML)ベースラインを大幅に上回り,AUCは0。 This paper presents a novel graph convolutional neural network (GCNN)-based approach for improving the diagnosis of neurological diseases using scalp-electroencephalograms (EEGs). Although EEG is one of the main tests used for neurological-disease diagnosis, the sensitivity of EEG-based expert visual diagnosis remains at $\sim$50\%. This indicates a clear need for advanced methodology to reduce the false negative rate in detecting abnormal scalp-EEGs. In that context, we focus on the problem of distinguishing the abnormal scalp EEGs of patients with neurological diseases, which were originally classified as 'normal' by experts, from the scalp EEGs of healthy individuals. The contributions of this paper are three-fold: 1) we present EEG-GCNN, a novel GCNN model for EEG data that captures both the spatial and functional connectivity between the scalp electrodes, 2) using EEG-GCNN, we perform the first large-scale evaluation of the aforementioned hypothesis, and 3) using two large scalp-EEG databases, we demonstrate that EEG-GCNN significantly outperforms the human baseline and classical machine learning (ML) baselines, with an AUC of 0.90. | 翻訳日:2022-09-24 17:59:37 公開日:2020-11-17 |
# 畳み込みニューラルネットワークを用いたFPGA深層学習高速化 FPGA deep learning acceleration based on convolutional neural network ( http://arxiv.org/abs/2012.03672v1 ) ライセンス: Link先を確認 | Xiong Jun | (参考訳) 本稿では、畳み込みニューラルネットワーク(CNN)の計算量と長時間の計算時間の観点から、フィールドプログラマブル論理ゲートアレイ(FPGA)に基づく畳み込みニューラルネットワークハードウェアアクセラレータを提案する。
まず,畳み込み層の前方動作原理を詳細に解析し,畳み込み層の並列性を探究することで,入力チャネル並列性,出力チャネル並列性,畳み込みウィンドウ深度パイプラインのハードウェアアーキテクチャを設計する。
そして、上記のアーキテクチャでは、畳み込み操作を高速化する完全並列乗算付加木モジュールと、畳み込みウィンドウのパイプライン操作を実装する効率的なウィンドウバッファモジュールが設計されている。
最終実験の結果,本論文で提案する加速器のエネルギー効率比は32.73 gops/wであり,既存の解よりも34%高く,性能は317.86 gopsに達した。 In view of the large amount of calculation and long calculation time of convolutional neural network (CNN), this paper proposes a convolutional neural network hardware accelerator based on field programmable logic gate array (FPGA). First, through in-depth analysis of the forward operation principle of the convolutional layer and exploration of the parallelism of the convolutional layer operation, a hardware architecture of input channel parallelism, output channel parallelism and convolution window deep pipeline is designed. Then in the above architecture, a fully parallel multiplication-addition tree module is designed to accelerate the convolution operation and an efficient window buffer module to implement the pipeline operation of the convolution window. The final experimental results show that the energy efficiency ratio of the accelerator proposed in this article reaches 32.73 GOPS/W, which is 34% higher than the existing solution, and the performance reaches 317.86 GOPS. | 翻訳日:2022-09-24 17:59:17 公開日:2020-11-17 |
# 分散検出のためのデータ支援センシング Data-aided Sensing for Distributed Detection ( http://arxiv.org/abs/2011.08393v1 ) ライセンス: Link先を確認 | Jinho Choi | (参考訳) 本稿では,センサ計測が相関している場合の無線センサネットワーク(WSN)における分散検出のためのデータ支援センシング(DAS)について検討する。
特に,決定遅延制約の対象となる信頼性決定に対して,DASのJ分割に基づくノード選択基準を導出する。
提案した J-divergence に基づくDAS に基づいて,ノードを選択してログ類似率(LLR)を急速に増加させる。
シミュレーション結果から,J偏差に基づくDASは,他の手法と比較して少ないセンサで信頼性の高い判定を行うことができることを確認した。 In this paper, we study data-aided sensing (DAS) for distributed detection in wireless sensor networks (WSNs) when sensors' measurements are correlated. In particular, we derive a node selection criterion based on the J-divergence in DAS for reliable decision subject to a decision delay constraint. Based on the proposed J-divergence based DAS, the nodes can be selected to rapidly increase the log-likelihood ratio (LLR), which leads to a reliable decision with a smaller number of the sensors that upload measurements for a shorter decision delay. From simulation results, it is confirmed that the J-divergence based DAS can provide a reliable decision with a smaller number of sensors compared to other approaches. | 翻訳日:2022-09-24 17:58:40 公開日:2020-11-17 |
# ニューラルネットワーク状態アンサッツを用いた2次元運動的拘束モデルの動的大偏差 Dynamical large deviations of two-dimensional kinetically constrained models using a neural-network state ansatz ( http://arxiv.org/abs/2011.08657v1 ) ライセンス: Link先を確認 | Corneel Casert, Tom Vieijra, Stephen Whitelam, Isaac Tamblyn | (参考訳) 量子システムの変動最適化のために当初設計されたニューラルネットワークansatzを用いて、古典的システムの動的大きな偏差を研究する。
本研究では,1次元および2次元の速度論的拘束モデルであるfredrickson-andersenモデルの力学活性に対するスケールド累積生成関数を求め,2次元の力学活性の初めてのスケール解析を行った。
これらの結果は、動的大偏差関数の研究への新たな経路を提供し、物理学領域における神経ネットワーク状態アンサッツの幅広い適用性を強調している。 We use a neural network ansatz originally designed for the variational optimization of quantum systems to study dynamical large deviations in classical ones. We obtain the scaled cumulant-generating function for the dynamical activity of the Fredrickson-Andersen model, a prototypical kinetically constrained model, in one and two dimensions, and present the first size-scaling analysis of the dynamical activity in two dimensions. These results provide a new route to the study of dynamical large-deviation functions, and highlight the broad applicability of the neural-network state ansatz across domains in physics. | 翻訳日:2022-09-24 17:57:38 公開日:2020-11-17 |
# 消費財のためのオーディエンス作成 -- 成長市場のためのシンプルでスケーラブルな精密機械化 Audience Creation for Consumables -- Simple and Scalable Precision Merchandising for a Growing Marketplace ( http://arxiv.org/abs/2011.08575v1 ) ライセンス: Link先を確認 | Shreyas S, Harsh Maheshwari, Avijit Saha, Samik Datta, Shashank Jain, Disha Makhija, Anuj Nagpal, Sneha Shukla, Suyash S | (参考訳) 食料品や高速移動消費財などの消費カテゴリーは、発展途上国のeコマース市場の成長に欠かせない。
本研究では,インド最大のオンライン食料品店であるFlipkart Supermartに展開する,1000万人以上の消費者によるオーディエンスセットを作成する,精密商品販売システムの設計と実装について紹介する。
消費財の購入動態の潜在周期性と相互励起をモデル化するために,時間的点法を用いる。
さらに,成長市場を典型とするデータスパーシティや検閲,ノイズに対してロバストな,確率フリーな推定手法を開発した。
最後に、トリガーカーネルの定量化と、商用分散線形代数バックエンドで利用可能なスパース行列ベクトル乗算プリミティブの利用により、推論をスケールする。
1年以上にわたる運用では,店頭でのバナーベースの商品販売の25~70%,プッシュ通知ベースのキャンペーンの12~26%において,一貫したクリックスルー率の上昇が見られた。 Consumable categories, such as grocery and fast-moving consumer goods, are quintessential to the growth of e-commerce marketplaces in developing countries. In this work, we present the design and implementation of a precision merchandising system, which creates audience sets from over 10 million consumers and is deployed at Flipkart Supermart, one of the largest online grocery stores in India. We employ temporal point process to model the latent periodicity and mutual-excitation in the purchase dynamics of consumables. Further, we develop a likelihood-free estimation procedure that is robust against data sparsity, censure and noise typical of a growing marketplace. Lastly, we scale the inference by quantizing the triggering kernels and exploiting sparse matrix-vector multiplication primitive available on a commercial distributed linear algebra backend. In operation spanning more than a year, we have witnessed a consistent increase in click-through rate in the range of 25-70% for banner-based merchandising in the storefront, and in the range of 12-26% for push notification-based campaigns. | 翻訳日:2022-09-24 17:51:11 公開日:2020-11-17 |
# エッジにおけるIoTデバイス識別のためのMLモデルのリトレーニング事例 The Case for Retraining of ML Models for IoT Device Identification at the Edge ( http://arxiv.org/abs/2011.08605v1 ) ライセンス: Link先を確認 | Roman Kolcun (1), Diana Andreea Popescu (2), Vadim Safronov (2), Poonam Yadav (3), Anna Maria Mandalari (1), Yiming Xie (1), Richard Mortier (2) and Hamed Haddadi (1) ((1) Imperial College London, (2) University of Cambridge, (3) University of York) | (参考訳) Internet-of-Things(IoT)デバイスは多くのセキュリティ問題の原因として知られており、自動化された管理の恩恵を受けるだろう。
これは、適切なネットワークセキュリティポリシーを適用するために、ロバストなデバイス識別を必要とする。
ネットワークのエッジで利用可能なリソースを使用して、ネットワークの振る舞いに基づいてIoTデバイスを正確に識別する方法を検討することで、この問題に対処する。
本稿では、大規模なIoTテストベッドからのパケットトレースデータを用いて、IoTデバイスを特定するための5種類の機械学習モデル(ツリーベース、ニューラルネットワークベース)の精度を比較し、精度の大幅な劣化を避けるために、時間とともにすべてのモデルを更新する必要があることを示す。
モデルを効果的に更新するには、デプロイメント環境から収集したデータ(例えば、世帯)を使用する必要があることが分かりました。
そのため、IoTデプロイメントなど、ネットワークの端で利用可能なものを代表するハードウェアリソースとデータソースを使用して、私たちのアプローチを評価します。
エッジでのニューラルネットワークベースのモデルの更新は,低計算量とメモリリソースを必要とするため実現可能であり,その構造は更新可能であることを示す。
以上の結果から,エッジにおけるデバイス識別と分類を,それぞれ80%以上の精度と90%以上の精度で達成できることが示唆された。 Internet-of-Things (IoT) devices are known to be the source of many security problems, and as such they would greatly benefit from automated management. This requires robustly identifying devices so that appropriate network security policies can be applied. We address this challenge by exploring how to accurately identify IoT devices based on their network behavior, using resources available at the edge of the network. In this paper, we compare the accuracy of five different machine learning models (tree-based and neural network-based) for identifying IoT devices by using packet trace data from a large IoT test-bed, showing that all models need to be updated over time to avoid significant degradation in accuracy. In order to effectively update the models, we find that it is necessary to use data gathered from the deployment environment, e.g., the household. We therefore evaluate our approach using hardware resources and data sources representative of those that would be available at the edge of the network, such as in an IoT deployment. We show that updating neural network-based models at the edge is feasible, as they require low computational and memory resources and their structure is amenable to being updated. Our results show that it is possible to achieve device identification and categorization with over 80% and 90% accuracy respectively at the edge. | 翻訳日:2022-09-24 17:50:37 公開日:2020-11-17 |
# ダイナミック・ファンクショナル・コネクティビティを用いた脳腫瘍患者の脳皮質局所化のためのマルチタスク深層学習フレームワーク A Multi-Task Deep Learning Framework to Localize the Eloquent Cortex in Brain Tumor Patients Using Dynamic Functional Connectivity ( http://arxiv.org/abs/2011.08813v1 ) ライセンス: Link先を確認 | Naresh Nandakumar, Niharika Shimona D'souza, Komal Manzoor, Jay J. Pillai, Sachin K. Gujar, Haris I. Sair, and Archana Venkataraman | (参考訳) 脳腫瘍患者の大脳皮質の言語と運動領域を同時に局在させるために動的機能接続を用いた新しいディープラーニングフレームワークを提案する。
提案手法は畳み込み層を利用して動的接続行列と長寿命メモリ(LSTM)アテンションネットワークからグラフベースの特徴を抽出し,分類中の時間点の重み付けを行う。
我々のモデルの最終段階は、異なる雄弁なサブシステムを特定するためにマルチタスク学習を採用する。
私たちのユニークなトレーニング戦略は、関心のある認知ネットワーク間の共有表現を見つけることで、欠如した患者データを処理することができます。
本手法は,脳腫瘍患者56名を対象に,課題fMRIアクティベーションをトレーニングとテストのためのサロゲートグラウンドトラスラベルとして用いながら,静止状態fMRIデータの評価を行った。
本モデルは,従来の深層学習手法よりも高い局所化精度を達成し,左半球側方化症例で訓練した場合でも,両言語領域を識別できる。
したがって,本法は腫瘍患者の術前マッピングに有用であると考えられた。 We present a novel deep learning framework that uses dynamic functional connectivity to simultaneously localize the language and motor areas of the eloquent cortex in brain tumor patients. Our method leverages convolutional layers to extract graph-based features from the dynamic connectivity matrices and a long-short term memory (LSTM) attention network to weight the relevant time points during classification. The final stage of our model employs multi-task learning to identify different eloquent subsystems. Our unique training strategy finds a shared representation between the cognitive networks of interest, which enables us to handle missing patient data. We evaluate our method on resting-state fMRI data from 56 brain tumor patients while using task fMRI activations as surrogate ground-truth labels for training and testing. Our model achieves higher localization accuracies than conventional deep learning approaches and can identify bilateral language areas even when trained on left-hemisphere lateralized cases. Hence, our method may ultimately be useful for preoperative mapping in tumor patients. | 翻訳日:2022-09-24 17:48:59 公開日:2020-11-17 |
# 準線形時間におけるオファーセットの最適化 Optimizing Offer Sets in Sub-Linear Time ( http://arxiv.org/abs/2011.08606v1 ) ライセンス: Link先を確認 | Vivek F. Farias, Andrew A. Li, and Deeksha Sinha | (参考訳) パーソナライズとレコメンデーションは、メディアプラットフォームからeコマース、ソーシャルネットワークまで、ほぼすべてのオンライン環境でコアコンピテンシーとして受け入れられている。
利用者の嗜好を推定する課題は注目されているが、特に大量のアイテムとミリ秒の応答時間要件によって全てのアイテムを列挙することさえ不可能な近代的な環境では、ユーザに対してパーソナライズされたオファーセットを構築するためにそのような選好を使用するという運用上の問題は依然として課題である。
このような状況に直面した既存の技術は
a) 原則的正当化のない完全にヒューリスティック、または
(b)理論上は音がするが、動作が遅すぎる。
そこで,提案手法では,アイテム数で時間サブ線形に動作し,性能保証の均一性を享受するパーソナライズドオファーセット最適化アルゴリズムを提案する。
本アルゴリズムは,混合多項ロジットモデルを含む極めて一般的な問題クラスとユーザ選択モデルに対して,特別な場合として動作する。
我々は,既存の線形時間近似アルゴリズムとともに,正確な潜在因子モデルを学習することで,次元の減少を生かして,サブ線形実行を実現する。
当社のアルゴリズムは,企業で一般的に収集されるユーザインタラクションデータを‘サンプル’と呼ぶ,ユーザのサンプルに依存することで,データ駆動型にすることが可能だ。
我々は、何百万もの広告を含むOutbrainからの大量のコンテンツ発見データセットに対するアプローチを評価した。
その結果,我々の実装は,既存の高速ヒューリスティックスと比較して高速かつ高い性能で動作していることがわかった。 Personalization and recommendations are now accepted as core competencies in just about every online setting, ranging from media platforms to e-commerce to social networks. While the challenge of estimating user preferences has garnered significant attention, the operational problem of using such preferences to construct personalized offer sets to users is still a challenge, particularly in modern settings where a massive number of items and a millisecond response time requirement mean that even enumerating all of the items is impossible. Faced with such settings, existing techniques are either (a) entirely heuristic with no principled justification, or (b) theoretically sound, but simply too slow to work. Thus motivated, we propose an algorithm for personalized offer set optimization that runs in time sub-linear in the number of items while enjoying a uniform performance guarantee. Our algorithm works for an extremely general class of problems and models of user choice that includes the mixed multinomial logit model as a special case. We achieve a sub-linear runtime by leveraging the dimensionality reduction from learning an accurate latent factor model, along with existing sub-linear time approximate near neighbor algorithms. Our algorithm can be entirely data-driven, relying on samples of the user, where a `sample' refers to the user interaction data typically collected by firms. We evaluate our approach on a massive content discovery dataset from Outbrain that includes millions of advertisements. Results show that our implementation indeed runs fast and with increased performance relative to existing fast heuristics. | 翻訳日:2022-09-24 17:42:30 公開日:2020-11-17 |
# 好奇心に基づくロボット製造セルの強化学習 Curiosity Based Reinforcement Learning on Robot Manufacturing Cell ( http://arxiv.org/abs/2011.08743v1 ) ライセンス: Link先を確認 | Mohammed Sharafath Abdul Hameed, Md Muzahid Khan, Andreas Schwung | (参考訳) 本稿では,フレキシブルロボット製造セルにおけるスケジューリング制御と好奇心に基づく強化学習の組み合わせを提案する。
強化学習はロボット工学やスケジューリングといった課題の解決に非常に成功している。
しかしこれは、ロボット工学のような問題領域の報酬を手動で調整し、ソリューションが明確でない場所でもスケジューリングする必要がある。
この目的のために,本質的なモチベーションを報酬として用いた好奇心に基づく強化学習を柔軟なロボット製造セルに適用し,この問題を軽減する。
さらに、輸送ロボットに学習エージェントを組み込んで、様々な環境に適用可能な一般化学習ソリューションを実現する。
第1のアプローチでは、キュリオシティに基づく強化学習を単純な構造化ロボット製造セルに適用する。
第2のアプローチでは、同じアルゴリズムをグラフ構造を持つロボット製造セルに適用する。
実験の結果、エージェントは好奇性モジュールをある環境から別の環境へ直接転送する能力で、両方の環境を解くことができることがわかった。
スケジューリングタスクに基づく好奇心に基づく学習は,従来使用されていた報酬型強化学習の代替手段となると結論づけた。 This paper introduces a novel combination of scheduling control on a flexible robot manufacturing cell with curiosity based reinforcement learning. Reinforcement learning has proved to be highly successful in solving tasks like robotics and scheduling. But this requires hand tuning of rewards in problem domains like robotics and scheduling even where the solution is not obvious. To this end, we apply a curiosity based reinforcement learning, using intrinsic motivation as a form of reward, on a flexible robot manufacturing cell to alleviate this problem. Further, the learning agents are embedded into the transportation robots to enable a generalized learning solution that can be applied to a variety of environments. In the first approach, the curiosity based reinforcement learning is applied to a simple structured robot manufacturing cell. And in the second approach, the same algorithm is applied to a graph structured robot manufacturing cell. Results from the experiments show that the agents are able to solve both the environments with the ability to transfer the curiosity module directly from one environment to another. We conclude that curiosity based learning on scheduling tasks provide a viable alternative to the reward shaped reinforcement learning traditionally used. | 翻訳日:2022-09-24 17:42:04 公開日:2020-11-17 |
# 機械学習数フィールド Machine-Learning Number Fields ( http://arxiv.org/abs/2011.08958v1 ) ライセンス: Link先を確認 | Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver | (参考訳) 標準機械学習アルゴリズムは、代数的数体のある種の不変量を高い精度で予測するために訓練することができる。
有限個のデデキントゼータ係数で訓練されたランダムフォレスト分類器は、クラス番号 1 と 2 の実二次体を 0.96 の精度で区別することができる。
さらに、分類器は、訓練データの範囲外の判別対象を有するフィールドに推定することができる。
ガロア拡大の次数 2, 6, 8 の多項式を定義する係数に基づいて訓練すると、ロジスティック回帰分類器はガロア群を区別し、精度 >0.97 で単位群の階数を予測することができる。 We show that standard machine-learning algorithms may be trained to predict certain invariants of algebraic number fields to high accuracy. A random-forest classifier that is trained on finitely many Dedekind zeta coefficients is able to distinguish between real quadratic fields with class number 1 and 2, to 0.96 precision. Furthermore, the classifier is able to extrapolate to fields with discriminant outside the range of the training data. When trained on the coefficients of defining polynomials for Galois extensions of degrees 2, 6, and 8, a logistic regression classifier can distinguish between Galois groups and predict the ranks of unit groups with precision >0.97. | 翻訳日:2022-09-24 17:41:10 公開日:2020-11-17 |
# ヒルベルト空間上の事前条件付きハミルトニアンモンテカルロの収束 Convergence of Preconditioned Hamiltonian Monte Carlo on Hilbert Spaces ( http://arxiv.org/abs/2011.08578v1 ) ライセンス: Link先を確認 | Jakiw Pidstrigach | (参考訳) 本稿では、無限次元ヒルベルト空間上で直接定義されるプレコンディション付きハミルトンモンテカルロ(pHMC)アルゴリズムについて考察する。
この文脈において, 対象測度の強い対数包絡性を示す条件下では, 標準 1-wasserstein 距離における調整された phmc の収束境界を証明できる。
この議論は、2つのphmcの同期結合に依存しており、これはarxiv:1805.00452の要素を適応させることで制御される。 In this article, we consider the preconditioned Hamiltonian Monte Carlo (pHMC) algorithm defined directly on an infinite-dimensional Hilbert space. In this context, and under a condition reminiscent of strong log-concavity of the target measure, we prove convergence bounds for adjusted pHMC in the standard 1-Wasserstein distance. The arguments rely on a synchronous coupling of two copies of pHMC, which is controlled by adapting elements from arXiv:1805.00452. | 翻訳日:2022-09-24 17:40:55 公開日:2020-11-17 |
# Augmented Fairness: 意思決定者の公正性を高める解釈可能なモデル Augmented Fairness: An Interpretable Model Augmenting Decision-Makers' Fairness ( http://arxiv.org/abs/2011.08398v1 ) ライセンス: Link先を確認 | Tong Wang and Maytal Saar-Tsechansky | (参考訳) 本研究では,ブラックボックス意思決定者の予測バイアスを軽減するためのモデル非依存アプローチを提案する。
提案手法は,ブラックボックス決定器がバイアスを受ける特徴空間で検出され,短い決定規則で置き換えられ,フェアサロゲートとして機能する。
ルールベースの代理モデルは、予測性能と公正性の2つの目標の下で訓練される。
我々のモデルは、実際は一般的だがフェアネスに関する他の文献とは異なる設定に焦点を当てている。
モデルへのアクセスはブラックボックスのみであり、真のラベルの限られたセットのみが予算制約の下でクエリできる。
代理モデルを構築するための多目的最適化を定式化し、予測性能とバイアスの両方を同時に最適化する。
そこで本研究では,非支配的ソート遺伝的アルゴリズムとアクティブラーニングを組み合わせた新しい学習アルゴリズムを提案する。
我々は、様々なバイアス付き「ブラックボックス」分類器(意思決定者)をシミュレートした公開データセット上でモデルをテストする。 We propose a model-agnostic approach for mitigating the prediction bias of a black-box decision-maker, and in particular, a human decision-maker. Our method detects in the feature space where the black-box decision-maker is biased and replaces it with a few short decision rules, acting as a "fair surrogate". The rule-based surrogate model is trained under two objectives, predictive performance and fairness. Our model focuses on a setting that is common in practice but distinct from other literature on fairness. We only have black-box access to the model, and only a limited set of true labels can be queried under a budget constraint. We formulate a multi-objective optimization for building a surrogate model, where we simultaneously optimize for both predictive performance and bias. To train the model, we propose a novel training algorithm that combines a nondominated sorting genetic algorithm with active learning. We test our model on public datasets where we simulate various biased "black-box" classifiers (decision-makers) and apply our approach for interpretable augmented fairness. | 翻訳日:2022-09-24 17:40:46 公開日:2020-11-17 |
# Numpyを使ったスクラッチからのディープラーニングフレームワーク Deep Learning Framework From Scratch Using Numpy ( http://arxiv.org/abs/2011.08461v1 ) ライセンス: Link先を確認 | Andrei Nicolae | (参考訳) この研究は、完全で汎用的なディープラーニングフレームワークを最初から厳格に開発しています。
多変数スカラー関数を最適化する自動微分法と勾配法であるディープラーニングの基本成分は,基本計算から開発され,Python と Numpy ライブラリのみを用いて,合理的なオブジェクト指向アプローチで実装されている。
arrayflowと呼ばれるこのフレームワークを使って解決された問題のデモンストレーションには、コンピュータビジョン分類タスク、カテナリーの形状の解法、および2階微分方程式が含まれる。 This work is a rigorous development of a complete and general-purpose deep learning framework from the ground up. The fundamental components of deep learning - automatic differentiation and gradient methods of optimizing multivariable scalar functions - are developed from elementary calculus and implemented in a sensible object-oriented approach using only Python and the Numpy library. Demonstrations of solved problems using the framework, named ArrayFlow, include a computer vision classification task, solving for the shape of a catenary, and a 2nd order differential equation. | 翻訳日:2022-09-24 17:39:41 公開日:2020-11-17 |
# seeknet:強化学習に基づく最適化ロボット転置によるヒューマンインスタンスセグメンテーションの改善 SeekNet: Improved Human Instance Segmentation via Reinforcement Learning Based Optimized Robot Relocation ( http://arxiv.org/abs/2011.08682v1 ) ライセンス: Link先を確認 | Venkatraman Narayanan and Bala Murali Manoghar and Rama Prashanth RV and Aniket Bera | (参考訳) アモーダル認識は、隠された物体を検出するシステムの能力である。
最先端の視覚認識システムのほとんどは、アモーダル認識を行う能力が欠けている。
パッシブ予測や具体化認識アプローチによってアモーダル認識を達成した研究はほとんどない。
しかし、これらのアプローチは動的オブジェクトのような現実世界のアプリケーションにおける課題に苦しむ。
本研究では,具体化視覚認識によるアモーダル認識の最適化手法である seeknet を提案する。
さらに, 混み合った人間との対話が複数存在する社会ロボットに対して, seeknet を実装した。
そこで我々は,人間の検出と追跡に重点を置き,他のベースラインよりもアルゴリズムの優越性を示す。
また、SeekNetを用いて、当社の効率的なエンボディド認識システムを用いて、新型コロナウイルスの症状事前スクリーニングアルゴリズムの信頼性を向上させる実験を行った。 Amodal recognition is the ability of the system to detect occluded objects. Most state-of-the-art Visual Recognition systems lack the ability to perform amodal recognition. Few studies have achieved amodal recognition through passive prediction or embodied recognition approaches. However, these approaches suffer from challenges in real-world applications, such as dynamic objects. We propose SeekNet, an improved optimization method for amodal recognition through embodied visual recognition. Additionally, we implement SeekNet for social robots, where there are multiple interactions with crowded humans. Hence, we focus on occluded human detection & tracking and showcase the superiority of our algorithm over other baselines. We also experiment with SeekNet to improve the confidence of COVID-19 symptoms pre-screening algorithms using our efficient embodied recognition system. | 翻訳日:2022-09-24 17:33:45 公開日:2020-11-17 |
# RAIST:時空間グラフ畳み込みネットワークによる交通相互作用の学習 RAIST: Learning Risk Aware Traffic Interactions via Spatio-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2011.08722v1 ) ライセンス: Link先を確認 | Videsh Suman and Aniket Bera | (参考訳) 自動車を運転する上で重要な側面は、他の道路利用者と対話し、意図を評価し、リスクを意識した戦術的判断を行うことである。
インテリジェントな自動運転システムを実現するための直感的なアプローチは、人間の運転行動のいくつかの側面を取り入れることである。
そこで本研究では,時空間トラヒックグラフに基づくエゴセントリックビューのための新しい駆動フレームワークを提案する。
トラヒックグラフは、道路利用者間の空間的相互作用をモデル化するだけでなく、時間的関連メッセージパッシングを通じて個々の意図をモデル化する。
グラフエッジのトレーニングには時空間グラフ畳み込みネットワーク(ST-GCN)を利用する。
これらのエッジは3次元位置のパラメータ化関数と道路エージェントのシーン認識外観特徴を用いて定式化される。
戦術的行動予測とともに,提案フレームワークのリスク評価能力を評価することが重要である。
我々は,リスクオブジェクト識別のタスク,特に歩行者やサイクリストのような脆弱なインタラクションを持つオブジェクトの識別を改善することで,リスク認識表現を学習する。 A key aspect of driving a road vehicle is to interact with the other road users, assess their intentions and make risk-aware tactical decisions. An intuitive approach of enabling an intelligent automated driving system would be to incorporate some aspects of the human driving behavior. To this end, we propose a novel driving framework for egocentric views, which is based on spatio-temporal traffic graphs. The traffic graphs not only model the spatial interactions amongst the road users, but also their individual intentions through temporally associated message passing. We leverage spatio-temporal graph convolutional network (ST-GCN) to train the graph edges. These edges are formulated using parameterized functions of 3D positions and scene-aware appearance features of road agents. Along with tactical behavior prediction, it is crucial to evaluate the risk assessing ability of the proposed framework. We claim that our framework learns risk aware representations by improving on the task of risk object identification, especially in identifying objects with vulnerable interactions like pedestrians and cyclists. | 翻訳日:2022-09-24 17:33:10 公開日:2020-11-17 |
# 世界的道路損傷検出の現状と課題 Global Road Damage Detection: State-of-the-art Solutions ( http://arxiv.org/abs/2011.08740v1 ) ライセンス: Link先を確認 | Deeksha Arya (1, 2), Hiroya Maeda (2), Sanjay Kumar Ghosh (1), Durga Toshniwal (1), Hiroshi Omata (2), Takehiro Kashiyama (2) and Yoshihide Sekimoto (2) ((1) Indian Institute of Technology Roorkee, India, (2) The University of Tokyo, Japan) | (参考訳) 本稿では,2020 年の IEEE International Conference on Big Data の一部として組織された Big Data Cup である Global Road damage Detection Challenge (GRDDC) を要約する。
ビッグデータカップの課題には、リリースデータセットと、明確な評価指標を備えた明確に定義された問題が含まれる。
課題は参加者のリーダーボードを維持するデータコンペティションプラットフォーム上で実行される。
本稿では,インド,日本,チェコから収集した26336枚の道路画像から,これらの国の道路被害を自動的に検出する方法を提案する。
この大会には、いくつかの国から121チームが登録された。
提案手法は,2,631画像と2,664画像からなる2つのデータセットtest1とtest2を用いて評価した。
この論文は、これらのチームによって提案されたトップ12ソリューションをカプセル化する。
ベストパフォーマンスモデルは、テスト1で0.67、テスト2で0.66のf1スコアを得るために、ヨーロベースのアンサンブル学習を利用する。
論文は、提示された課題のためにうまく機能し、将来の課題で改善される可能性のある課題のレビューで締めくくっている。 This paper summarizes the Global Road Damage Detection Challenge (GRDDC), a Big Data Cup organized as a part of the IEEE International Conference on Big Data'2020. The Big Data Cup challenges involve a released dataset and a well-defined problem with clear evaluation metrics. The challenges run on a data competition platform that maintains a leaderboard for the participants. In the presented case, the data constitute 26336 road images collected from India, Japan, and the Czech Republic to propose methods for automatically detecting road damages in these countries. In total, 121 teams from several countries registered for this competition. The submitted solutions were evaluated using two datasets test1 and test2, comprising 2,631 and 2,664 images. This paper encapsulates the top 12 solutions proposed by these teams. The best performing model utilizes YOLO-based ensemble learning to yield an F1 score of 0.67 on test1 and 0.66 on test2. The paper concludes with a review of the facets that worked well for the presented challenge and those that could be improved in future challenges. | 翻訳日:2022-09-24 17:32:52 公開日:2020-11-17 |
# マルチタスク学習とディープニューラルネットワークによる心臓MRI方位の認識と標準化 Recognition and standardization of cardiac MRI orientation via multi-tasking learning and deep neural networks ( http://arxiv.org/abs/2011.08761v1 ) ライセンス: Link先を確認 | Ke Zhang and Xiahai Zhuang | (参考訳) 本稿では,心臓MRIにおける画像指向性の問題について検討し,深部ニューラルネットワークによる認識と標準化の方向性を分類する枠組みを提案する。
この方法は、心臓のセグメンテーションと方向認識の両方を同時に達成する、新しいマルチタスク戦略を用いる。
我々は,MRIの多重列とモーダル性に対して,単一のモーダルから複数のモーダルへモデルを適用するトランスファー学習戦略を提案する。
我々は、CMRadjustNet(Cardiac MRI Orientation Adjust Tool)に向き認識ネットワークを組み込む。
ユーザインタフェース(UI)ソフトウェアとコマンドラインツールを含む,CMRadjustNetの2つのバージョンを実装した。
前バージョンはMRI画像の可視化、方向予測、調整、ストレージ操作をサポートし、後者バージョンはバッチ操作を可能にする。
ソースコード、ニューラルネットワークモデル、ツールがhttps://zmiclab.github.io/projects.htmlで公開されている。 In this paper, we study the problem of imaging orientation in cardiac MRI, and propose a framework to categorize the orientation for recognition and standardization via deep neural networks. The method uses a new multi-tasking strategy, where both the tasks of cardiac segmentation and orientation recognition are simultaneously achieved. For multiple sequences and modalities of MRI, we propose a transfer learning strategy, which adapts our proposed model from a single modality to multiple modalities. We embed the orientation recognition network in a Cardiac MRI Orientation Adjust Tool, i.e., CMRadjustNet. We implemented two versions of CMRadjustNet, including a user-interface (UI) software, and a command-line tool. The former version supports MRI image visualization, orientation prediction, adjustment, and storage operations; and the latter version enables the batch operations. The source code, neural network models and tools have been released and open via https://zmiclab.github.io/projects.html. | 翻訳日:2022-09-24 17:32:36 公開日:2020-11-17 |
# 病理診断のための解剖学的先行U-net Anatomy Prior Based U-net for Pathology Segmentation with Attention ( http://arxiv.org/abs/2011.08769v1 ) ライセンス: Link先を確認 | Yuncheng Zhou and Ke Zhang and Xinzhe Luo and Sihan Wang and Xiahai Zhuang | (参考訳) 心臓磁気共鳴画像における病理領域分割は,心血管疾患の臨床診断において重要な役割を担っている。
不規則な形状と狭い領域のため、病的分割は常に困難な課題であった。
本稿では,u-netセグメンテーションネットワークとアテンション技術を組み合わせた解剖学優先型フレームワークを提案する。
病理学が包括的であるという事実を活かし,心筋梗塞と非還流領域の包括関係を評価するための近所のペナルティ戦略を提案する。
この近所のペナルティ戦略は、包括的関係のある2つのラベル(梗塞全体や心筋など)に適用して、近隣の損失を形成することができる。
提案するフレームワークはEMIDECデータセットを用いて評価する。
その結果,本フレームワークは病理領域のセグメンテーションに有効であることがわかった。 Pathological area segmentation in cardiac magnetic resonance (MR) images plays a vital role in the clinical diagnosis of cardiovascular diseases. Because of the irregular shape and small area, pathological segmentation has always been a challenging task. We propose an anatomy prior based framework, which combines the U-net segmentation network with the attention technique. Leveraging the fact that the pathology is inclusive, we propose a neighborhood penalty strategy to gauge the inclusion relationship between the myocardium and the myocardial infarction and no-reflow areas. This neighborhood penalty strategy can be applied to any two labels with inclusive relationships (such as the whole infarction and myocardium, etc.) to form a neighboring loss. The proposed framework is evaluated on the EMIDEC dataset. Results show that our framework is effective in pathological area segmentation. | 翻訳日:2022-09-24 17:32:19 公開日:2020-11-17 |
# ディープラーニングを用いた大腸癌の生存予測 Interpretable Survival Prediction for Colorectal Cancer using Deep Learning ( http://arxiv.org/abs/2011.08965v1 ) ライセンス: Link先を確認 | Ellery Wulczyn, David F. Steiner, Melissa Moran, Markus Plass, Robert Reihs, Fraser Tan, Isabelle Flament-Auvigne, Trissia Brown, Peter Regitnig, Po-Hsuan Cameron Chen, Narayan Hegde, Apaar Sadhwani, Robert MacDonald, Benny Ayalew, Greg S. Corrado, Lily H. Peng, Daniel Tse, Heimo M\"uller, Zhaoyang Xu, Yun Liu, Martin C. Stumpe, Kurt Zatloukal, Craig H. Mermel | (参考訳) 深層学習に基づく予後病理モデルからの解釈可能な予後特徴の導出は依然として課題である。
本研究では,3,652例 (27,300スライド) を用いて,ステージIIおよびIII大腸癌の生存率を予測するための深層学習システム(DLS)を開発した。
1,239例 (9,340スライド) と738例 (7,140スライド) を含む2つのバリデーションデータセットで評価した結果, DLSは5年生存のAUCが0.70例 (95%CI 0.66-0.73) と0.69例 (95%CI 0.64-0.72) であった。
DLSを解釈するために、DLSスコアのばらつきを説明するために、異なる人間の解釈可能な特徴について検討した。
以上より,Tカテゴリー,Nカテゴリ,グレードなどの臨床病理学的特徴はDLSスコアのばらつきのごく一部を説明できた(いずれの検証セットもR2=18%)。
次に,深層学習に基づく画像類似性モデルから埋め込みをクラスタリングすることにより,人間解釈可能な組織学的特徴を生成し,その分散の大半(r2は73%から80%)を説明できることを示した。
さらに,高いdlsスコアに最も強い相関関係にあるクラスタリング由来の特徴も高い予後を示した。
異なる視覚的外観(脂肪組織に隣接する低分化腫瘍細胞群)で、87.0-95.5%の精度でアノテーターによって同定された。
このアプローチは、予測型ディープラーニングモデルからの予測を説明し、将来の検証研究のために人々が確実に特定できる潜在的な予測的特徴を明らかにするのに使うことができる。 Deriving interpretable prognostic features from deep-learning-based prognostic histopathology models remains a challenge. In this study, we developed a deep learning system (DLS) for predicting disease specific survival for stage II and III colorectal cancer using 3,652 cases (27,300 slides). When evaluated on two validation datasets containing 1,239 cases (9,340 slides) and 738 cases (7,140 slides) respectively, the DLS achieved a 5-year disease-specific survival AUC of 0.70 (95%CI 0.66-0.73) and 0.69 (95%CI 0.64-0.72), and added significant predictive value to a set of 9 clinicopathologic features. To interpret the DLS, we explored the ability of different human-interpretable features to explain the variance in DLS scores. We observed that clinicopathologic features such as T-category, N-category, and grade explained a small fraction of the variance in DLS scores (R2=18% in both validation sets). Next, we generated human-interpretable histologic features by clustering embeddings from a deep-learning based image-similarity model and showed that they explain the majority of the variance (R2 of 73% to 80%). Furthermore, the clustering-derived feature most strongly associated with high DLS scores was also highly prognostic in isolation. With a distinct visual appearance (poorly differentiated tumor cell clusters adjacent to adipose tissue), this feature was identified by annotators with 87.0-95.5% accuracy. Our approach can be used to explain predictions from a prognostic deep learning model and uncover potentially-novel prognostic features that can be reliably identified by people for future validation studies. | 翻訳日:2022-09-24 17:31:46 公開日:2020-11-17 |
# 写真からのファッション影響のモデル化 Modeling Fashion Influence from Photos ( http://arxiv.org/abs/2011.09663v1 ) ライセンス: Link先を確認 | Ziad Al-Halah, Kristen Grauman | (参考訳) 服のスタイルの進化とその世界への移住は興味深いが、定量的に説明するのは難しい。
カタログやソーシャルメディアの写真からファッションの影響を発見・定量化することを提案する。
位置情報とファッションブランドの2つのチャンネルに沿ってファッションの影響を探る。
本稿では,これらのエンティティのどのエンティティが他のエンティティに影響を与えるかを検出するアプローチを提案する。
得られた影響パターンを利用して、任意の都市やブランド内の任意のスタイルの将来的な人気を予測する、新しい予測モデルに通知します。
私たちのアイデアを実証するために、大手44都市(スタイルは可変周波数)の770万instagram写真と41kのamazon製品写真(スタイルは可変周波数で購入される)の公開大規模データセットを活用しています。
我々のモデルは、場所間のスタイルの移動と、特定のブランドが互いのデザインにどのように影響するかを予測可能な方法で画像データから直接学習する。
発見された影響関係は、都市とブランドの両方が、画像から推測される様々な視覚的スタイルに対して、いかにファッションの影響を受け、受けているかを明らかにする。
さらに,提案した予測モデルにより,挑戦型予測タスクの最先端結果が得られた。
その結果,空間的にも時間的にも視覚的スタイルの進化を基盤として,ブランド間および都市間の影響の伝播を定量化した。 The evolution of clothing styles and their migration across the world is intriguing, yet difficult to describe quantitatively. We propose to discover and quantify fashion influences from catalog and social media photos. We explore fashion influence along two channels: geolocation and fashion brands. We introduce an approach that detects which of these entities influence which other entities in terms of propagating their styles. We then leverage the discovered influence patterns to inform a novel forecasting model that predicts the future popularity of any given style within any given city or brand. To demonstrate our idea, we leverage public large-scale datasets of 7.7M Instagram photos from 44 major world cities (where styles are worn with variable frequency) as well as 41K Amazon product photos (where styles are purchased with variable frequency). Our model learns directly from the image data how styles move between locations and how certain brands affect each other's designs in a predictable way. The discovered influence relationships reveal how both cities and brands exert and receive fashion influence for an array of visual styles inferred from the images. Furthermore, the proposed forecasting model achieves state-of-the-art results for challenging style forecasting tasks. Our results indicate the advantage of grounding visual style evolution both spatially and temporally, and for the first time, they quantify the propagation of inter-brand and inter-city influences. | 翻訳日:2022-09-24 17:31:13 公開日:2020-11-17 |
# カオス分解によるエントロピー規則化最適輸送の漸近 Asymptotics of Entropy-Regularized Optimal Transport via Chaos Decomposition ( http://arxiv.org/abs/2011.08963v1 ) ライセンス: Link先を確認 | Zaid Harchaoui, Lang Liu, Soumik Pal | (参考訳) 2つの密度$\rho_0$と$\rho_1$ in $\mathbb{R}^d$からサンプリングされた$N$のデータポイント間の最適結合(すなわちマッチング)を推定する問題を考える。
輸送コストは、適切な成長と可積分性仮定を満たす任意の連続関数である。
計算効率と滑らか性の両方において、エントロピーを用いた正規化項がこの離散問題にしばしば加えられる。
一般化された離散エントロピー正則化 (cuturi '13) の修正を導入することにより, 正則化問題に対する最適結合を, $n$ の粒子を持つ静的 schr\"odinger bridge と考えることができる。
この論文は、この離散的なSchr\"odingerブリッジの漸近的性質について、N$が無限大の傾向にあることを示す。
連続体 Schr\"odinger ブリッジに収束し、それぞれ位数 $N^{-1/2}$ と $N^{-1}$ の最初の2つの誤り項を導出することを示す。
これにより、輸送コストを含む関数型 CLT と、ガウス的分散がゼロであるときの2階ガウス的カオス限界が得られ、有限状態空間と二次コストに対して導かれる同様の結果が拡張される。
この証明は、測度空間における一階および二階テイラー近似として経験分布の対の多項式関数による離散schr\"odinger橋の新たなカオス分解に基づいている。
これは、ホーフディング分解を古典的なU統計理論から拡張することで達成される。
1階と2階のカオスに対応するカーネルは、シンクホーンアルゴリズムの自然な解釈を持つマルコフ作用素によって与えられる。 Consider the problem of estimating the optimal coupling (i.e., matching) between $N$ i.i.d. data points sampled from two densities $\rho_0$ and $\rho_1$ in $\mathbb{R}^d$. The cost of transport is an arbitrary continuous function that satisfies suitable growth and integrability assumptions. For both computational efficiency and smoothness, often a regularization term using entropy is added to this discrete problem. We introduce a modification of the commonly used discrete entropic regularization (Cuturi '13) such that the optimal coupling for the regularized problem can be thought of as the static Schr\"odinger bridge with $N$ particles. This paper is on the asymptotic properties of this discrete Schr\"odinger bridge as $N$ tends to infinity. We show that it converges to the continuum Schr\"odinger bridge and derive the first two error terms of orders $N^{-1/2}$ and $N^{-1}$, respectively. This gives us functional CLT, including for the cost of transport, and second order Gaussian chaos limits when the limiting Gaussian variance is zero, extending similar recent results derived for finite state spaces and the quadratic cost. The proofs are based on a novel chaos decomposition of the discrete Schr\"odinger bridge by polynomial functions of the pair of empirical distributions as a first and second order Taylor approximations in the space of measures. This is achieved by extending the Hoeffding decomposition from the classical theory of U-statistics. The kernels corresponding to the first and second order chaoses are given by Markov operators which have natural interpretations in the Sinkhorn algorithm. | 翻訳日:2022-09-24 17:24:35 公開日:2020-11-17 |
# 準独立性のためのカーネルテスト A kernel test for quasi-independence ( http://arxiv.org/abs/2011.08991v1 ) ライセンス: Link先を確認 | Tamara Fern\'andez, Wenkai Xu, Marc Ditzhaus and Arthur Gretton | (参考訳) 興味のあるデータは、例えば、第1子と第2子の誕生時刻、新規ユーザーがアカウントを作成してウェブサイト上で最初の購入を行う時間、臨床試験における患者の入退院と生存時間など、順序時間に一致した設定を考察する。
これらの設定では、2回は独立ではない(第2回は第1回以降に起こる)が、その順序が時間内に大きく依存しているかどうかを判断することは依然として関心である。
この概念を「準独立(quasi-(in)dependence)」と呼ぶ。
例えば、臨床試験では、偏りのある選択を避けるために、採用時間が生存時間とほぼ無関係であることを確認し、季節的な影響によって依存が生じる可能性がある。
本稿では,準独立性の非パラメトリック統計テストを提案する。
我々のテストでは、潜在的に無限の選択肢空間を考慮し、擬似依存性の性質が事前に分かっていない複雑なデータに適合する。
標準パラメトリックなアプローチは、古典的な条件付きケンドールのtauやログランクテストのような特別なケースとして取り戻される。
このテストは、患者が研究から撤退できる臨床試験の重要な特徴である、右検閲された設定で適用される。
テスト統計学の漸近分析を行い,既存の手法よりも優れたパワーを得られつつ,計算効率も高いことを実験で実証した。 We consider settings in which the data of interest correspond to pairs of ordered times, e.g, the birth times of the first and second child, the times at which a new user creates an account and makes the first purchase on a website, and the entry and survival times of patients in a clinical trial. In these settings, the two times are not independent (the second occurs after the first), yet it is still of interest to determine whether there exists significant dependence {\em beyond} their ordering in time. We refer to this notion as "quasi-(in)dependence". For instance, in a clinical trial, to avoid biased selection, we might wish to verify that recruitment times are quasi-independent of survival times, where dependencies might arise due to seasonal effects. In this paper, we propose a nonparametric statistical test of quasi-independence. Our test considers a potentially infinite space of alternatives, making it suitable for complex data where the nature of the possible quasi-dependence is not known in advance. Standard parametric approaches are recovered as special cases, such as the classical conditional Kendall's tau, and log-rank tests. The tests apply in the right-censored setting: an essential feature in clinical trials, where patients can withdraw from the study. We provide an asymptotic analysis of our test-statistic, and demonstrate in experiments that our test obtains better power than existing approaches, while being more computationally efficient. | 翻訳日:2022-09-24 17:24:12 公開日:2020-11-17 |
# cascade rnn-transducer: syllable-to-characterコンバータを用いた音節ベースのon-device mandarin音声認識 Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter ( http://arxiv.org/abs/2011.08469v1 ) ライセンス: Link先を確認 | Xiong Wang, Zhuoyuan Yao, Xian Shi, Lei Xie | (参考訳) エンド・ツー・エンドのモデルは、システム構造がシンプルで性能が優れているため、自動音声認識(ASR)において好まれる。
これらのモデルのうち、リカレントニューラルネットワークトランスデューサ(rnn-t)は、高い精度と低遅延のため、デバイス上の音声認識のストリーミングにおいて大きな進歩を遂げている。
rnn-tは言語情報を強化するために予測ネットワークを採用しているが、その言語モデリング能力には制限がある。
外部言語モデルとの浅い融合など、余分なテキストデータを通じて言語モデリング能力をさらに強化することで、パフォーマンスの向上は小さくなる。
本稿では,中国語が文字ベース言語であり,各文字が音節として発音されるという事実を踏まえ,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-Tアプローチを提案する。
提案手法はまずRNN-Tを用いて音響特徴を音節列に変換し,その音節列をRNN-Tベースの音節-文字変換器を通じて文字列に変換する。
したがって、リッチテキストレポジトリは、言語モデル能力を強化するために簡単に使用できる。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、より高い認識品質と同様のレイテンシを持つ、いくつかのマンダリンテストセットに対する大きなマージンで文字ベースのRNN-Tを超える。 End-to-end models are favored in automatic speech recognition (ASR) because of its simplified system structure and superior performance. Among these models, recurrent neural network transducer (RNN-T) has achieved significant progress in streaming on-device speech recognition because of its high-accuracy and low-latency. RNN-T adopts a prediction network to enhance language information, but its language modeling ability is limited because it still needs paired speech-text data to train. Further strengthening the language modeling ability through extra text data, such as shallow fusion with an external language model, only brings a small performance gain. In view of the fact that Mandarin Chinese is a character-based language and each character is pronounced as a tonal syllable, this paper proposes a novel cascade RNN-T approach to improve the language modeling ability of RNN-T. Our approach firstly uses an RNN-T to transform acoustic feature into syllable sequence, and then converts the syllable sequence into character sequence through an RNN-T-based syllable-to-character converter. Thus a rich text repository can be easily used to strengthen the language model ability. By introducing several important tricks, the cascade RNN-T approach surpasses the character-based RNN-T by a large margin on several Mandarin test sets, with much higher recognition quality and similar latency. | 翻訳日:2022-09-24 17:23:49 公開日:2020-11-17 |
# コンピュータビジョンを用いた脳腫瘍検出支援診断ツール Assistive Diagnostic Tool for Brain Tumor Detection using Computer Vision ( http://arxiv.org/abs/2011.08185v1 ) ライセンス: Link先を確認 | Sahithi Ankireddy | (参考訳) 現在、米国では70万人以上が脳腫瘍を患っている。
脳腫瘍は、必要な予防措置を取らない限り、脳と脊髄の他の部位に急速に拡がることがある。
したがって、この病気の生存率は男女ともに40%未満である。
脳腫瘍の確定的早期診断は、一部の患者にとって生命と死の違いである可能性がある。
しかし、脳腫瘍の検出とセグメンテーションは退屈で時間を要するプロセスであり、放射線医や臨床の専門家によってしかできない。
Mask R Convolutional Neural Network (Mask R CNN)のようなコンピュータビジョン技術を用いて脳腫瘍を検出し、セグメント化することで、予測精度を高めながら人間のエラーの可能性を軽減することができる。
このプロジェクトの目的は、脳腫瘍の検出とセグメンテーションのための補助診断ツールを作ることである。
転送学習はMask R CNNで行われ、必要なパラメータを出発点として変更した。
このモデルは20エポックで訓練され、後に試験された。
予測のセグメンテーションは90%の真実と一致した。
これはモデルが高いレベルで実行できたことを示唆している。
モデルが完成したら、flask上で動作するアプリケーションが作成された。
このアプリケーションは医療専門家のためのツールとして機能する。
医師は、患者の脳腫瘍のMRI画像をアップロードして、各患者の診断とセグメンテーションの即時結果を受け取ることができる。 Today, over 700,000 people are living with brain tumors in the United States. Brain tumors can spread very quickly to other parts of the brain and the spinal cord unless necessary preventive action is taken. Thus, the survival rate for this disease is less than 40% for both men and women. A conclusive and early diagnosis of a brain tumor could be the difference between life and death for some. However, brain tumor detection and segmentation are tedious and time-consuming processes as it can only be done by radiologists and clinical experts. The use of computer vision techniques, such as Mask R Convolutional Neural Network (Mask R CNN), to detect and segment brain tumors can mitigate the possibility of human error while increasing prediction accuracy rates. The goal of this project is to create an assistive diagnostics tool for brain tumor detection and segmentation. Transfer learning was used with the Mask R CNN, and necessary parameters were accordingly altered, as a starting point. The model was trained with 20 epochs and later tested. The prediction segmentation matched 90% with the ground truth. This suggests that the model was able to perform at a high level. Once the model was finalized, the application running on Flask was created. The application will serve as a tool for medical professionals. It allows doctors to upload patient brain tumor MRI images in order to receive immediate results on the diagnosis and segmentation for each patient. | 翻訳日:2022-09-24 17:23:21 公開日:2020-11-17 |
# CG-Net:VHR SAR画像における建物分割のための条件付きGIS対応ネットワーク CG-Net: Conditional GIS-aware Network for Individual Building Segmentation in VHR SAR Images ( http://arxiv.org/abs/2011.08362v1 ) ライセンス: Link先を確認 | Yao Sun, Yuansheng Hua, Lichao Mou, Xiao Xiang Zhu | (参考訳) 超高分解能(VHR)合成開口レーダ(SAR)画像からのオブジェクトの検索と再構成は、都市SARへの適用において非常に重要であるが、SARデータの複雑さのため非常に難しい。
本稿では,大規模都市部における単一VHR SAR画像からの建物分割の問題点について述べる。
そこで我々は,GISデータから構築したフットプリントを補完情報として紹介し,新しい条件付きGIS対応ネットワーク(CG-Net)を提案する。
提案モデルは多レベル視覚特徴を学習し,sar画像中の建物マスクの予測のための特徴の正規化にビルディングフットプリントを用いる。
ベルリン上空で収集した高解像度スポットライトTerraSAR-X画像を用いて本手法の有効性を検証する。
実験結果から,提案したCG-Netはバックボーンを改良した。
さらに,建物足跡の2つの表現,すなわち完全な建物足跡とセンサ可視足跡セグメントを比較し,前者の使用がよりよいセグメント化結果をもたらすと結論づけた。
さらに, CG-Netにおける不正確なGISデータの影響について検討し, CG-NetがGISデータの位置決め誤差に対して堅牢であることを示す。
さらに,大規模SAR画像データセットの生成に使用可能な,正確なディジタル標高モデル(DEM)による建物地中真実生成手法を提案する。
セグメンテーションの結果は,lod(level-of-detail) 1における3次元建物モデルの再構成に応用できる。 Object retrieval and reconstruction from very high resolution (VHR) synthetic aperture radar (SAR) images are of great importance for urban SAR applications, yet highly challenging owing to the complexity of SAR data. This paper addresses the issue of individual building segmentation from a single VHR SAR image in large-scale urban areas. To achieve this, we introduce building footprints from GIS data as complementary information and propose a novel conditional GIS-aware network (CG-Net). The proposed model learns multi-level visual features and employs building footprints to normalize the features for predicting building masks in the SAR image. We validate our method using a high resolution spotlight TerraSAR-X image collected over Berlin. Experimental results show that the proposed CG-Net effectively brings improvements with variant backbones. We further compare two representations of building footprints, namely complete building footprints and sensor-visible footprint segments, for our task, and conclude that the use of the former leads to better segmentation results. Moreover, we investigate the impact of inaccurate GIS data on our CG-Net, and this study shows that CG-Net is robust against positioning errors in GIS data. In addition, we propose an approach of ground truth generation of buildings from an accurate digital elevation model (DEM), which can be used to generate large-scale SAR image datasets. The segmentation results can be applied to reconstruct 3D building models at level-of-detail (LoD) 1, which is demonstrated in our experiments. | 翻訳日:2022-09-24 17:23:03 公開日:2020-11-17 |
# グリッソンカプセルを用いた肝疾患ステージングのためのディジタル画像処理手法 A Digital Image Processing Approach for Hepatic Diseases Staging based on the Glisson's Capsule ( http://arxiv.org/abs/2011.08513v1 ) ライセンス: Link先を確認 | Marco Trombini, Paolo Borro, Sebastiano Ziola, Silvana Dellepiane | (参考訳) 世界で最も一般的な健康問題である肝疾患の迅速かつ効果的な治療の必要性から、非侵襲的かつ経済的な方法で線維化を進行させることが非常に重要である。
本報告では,過去に肝疾患に用いられていた診断用腹腔鏡のインスピレーションを得て,Glissonのカプセルが見える臓器の特定の部位に焦点をあてて,肝の超音波像について検討する。
超音波画像では、グリッソンのカプセルは古典的な方法で文学的に抽出できる線の形に現れる。
標準的な画像処理技術と畳み込みニューラルネットワークのアプローチを組み合わせることで、この研究のスコープは、大きな情報的ポテンシャルがグリソンのカプセル表面の滑らかさに依存するという考え方に証拠を与えることである。
この目的のために、超音波画像、グリッソン線を描いたバイナリ画像、原画像から抽出されたベクトルなどの異なる種類のデータを扱ういくつかの分類器が検討されている。
本研究は,elistosonography検査の結果をもとに,遡及的に実施した予備的研究である。 Due to the need for quick and effective treatments for liver diseases, which are among the most common health problems in the world, staging fibrosis through non-invasive and economic methods has become of great importance. Taking inspiration from diagnostic laparoscopy, used in the past for hepatic diseases, in this paper ultrasound images of the liver are studied, focusing on a specific region of the organ where the Glisson's capsule is visible. In ultrasound images, the Glisson's capsule appears in the shape of a line which can be extracted via classical methods in literature. By making use of a combination of standard image processing techniques and Convolutional Neural Network approaches, the scope of this work is to give evidence to the idea that a great informative potential relies on smoothness of the Glisson's capsule surface. To this purpose, several classifiers are taken into consideration, which deal with different type of data, namely ultrasound images, binary images depicting the Glisson's line, and features vector extracted from the original image. This is a preliminary study that has been retrospectively conducted, based on the results of the elastosonography examination. | 翻訳日:2022-09-24 17:22:35 公開日:2020-11-17 |
# 映画地図の作成 -都市の地域を探索するツールとその評価- Building Movie Map -- A Tool for Exploring Areas in a City -- and its Evaluation ( http://arxiv.org/abs/2011.08525v1 ) ライセンス: Link先を確認 | Naoki Sugimoto, Yoshihito Ebine, Kiyoharu Aizawa | (参考訳) 都市を探索するためのインタフェースを備えた新しい映画地図システムを提案する。
システムは、獲得、分析、管理、および相互作用の4段階からなる。
取得段階では、ターゲットエリアの道路に沿って全方向のビデオが撮影される。
ビデオのフレームは地図上にローカライズされ、交差点が検出され、動画がセグメンテーションされる。
その後、交差点での旋回ビューが生成される。
エリア内の特定の動きに従ってビデオセグメントを接続することで、街路をよりよく見ることができる。
インターフェースにより、ターゲットエリアの探索が容易になり、ビュー内の店舗の仮想看板を表示することができる。
我々は,ユーザが自由に移動・探索してランドマークを見つけることができるシナリオにおいて,本システムとgsvを比較した。
実験の結果,本システムはgsvよりも優れたユーザエクスペリエンスを示した。 We propose a new Movie Map system, with an interface for exploring cities. The system consists of four stages; acquisition, analysis, management, and interaction. In the acquisition stage, omnidirectional videos are taken along streets in target areas. Frames of the video are localized on the map, intersections are detected, and videos are segmented. Turning views at intersections are subsequently generated. By connecting the video segments following the specified movement in an area, we can view the streets better. The interface allows for easy exploration of a target area, and it can show virtual billboards of stores in the view. We conducted user studies to compare our system to the GSV in a scenario where users could freely move and explore to find a landmark. The experiment showed that our system had a better user experience than GSV. | 翻訳日:2022-09-24 17:22:19 公開日:2020-11-17 |
# 喉頭癌における深層学習によるHPV状態予測 Deep Learning Based HPV Status Prediction for Oropharyngeal Cancer Patients ( http://arxiv.org/abs/2011.08555v1 ) ライセンス: Link先を確認 | Daniel M. Lang, Jan C. Peeken, Stephanie E. Combs, Jan J. Wilkens, Stefan Bartzsch | (参考訳) 画像に基づくhpv状態検出のための深層学習モデルの能力について検討した。
小さな医療データセットの問題を克服するために、私たちは転送学習アプローチを使用しました。
スポーツビデオクリップに事前トレーニングされた3D畳み込みネットワークは、CT画像の完全な3D情報を活用できるように調整された。
ビデオ事前学習モデルでは,HPV陰性症例とHPV陰性症例との鑑別が可能であり,受信機動作特性曲線(AUC)が0.81以下であった。
スクラッチからトレーニングされた3D畳み込みニューラルネットワーク(CNN)と、ImageNetで事前トレーニングされた2Dアーキテクチャと比較して、ビデオ事前トレーニングモデルが最もよく機能した。 We investigated the ability of deep learning models for imaging based HPV status detection. To overcome the problem of small medical datasets we used a transfer learning approach. A 3D convolutional network pre-trained on sports video clips was fine tuned such that full 3D information in the CT images could be exploited. The video pre-trained model was able to differentiate HPV-positive from HPV-negative cases with an area under the receiver operating characteristic curve (AUC) of 0.81 for an external test set. In comparison to a 3D convolutional neural network (CNN) trained from scratch and a 2D architecture pre-trained on ImageNet the video pre-trained model performed best. | 翻訳日:2022-09-24 17:22:08 公開日:2020-11-17 |
# 物理的に有意な内部層を有するニューラルネットワークによる状態関数の同定 Identification of state functions by physically-guided neural networks with physically-meaningful internal layers ( http://arxiv.org/abs/2011.08567v1 ) ライセンス: Link先を確認 | Jacobo Ayensa-Jim\'enez, Mohamed H. Doweidar, Jose Antonio Sanz-Herrera, Manuel Doblar\'e | (参考訳) データ駆動予測による基礎理論モデルの置換は、工学や科学において社会や経済の分野ほど単純ではない。
科学的な問題はデータのpaucityに苦しむことが多いが、ある種の物理法則に従って、複雑で非定常な方法で相互作用する多数の変数やパラメータが関係している可能性がある。
さらに、物理モデルは予測を行うだけでなく、その構造、パラメータ、数学的性質の解釈によって知識を得るのに有用である。
これらの欠点の解決策は、物理的にベースとしたモデルの科学的一貫性と解釈可能性と、データ駆動アプローチの驚くほど予測力のシームレスなブレンドであるようだ。
ここでは,物理的拘束型ニューラルネットワーク(pcnn)の概念を用いて,物理システムにおける入出力関係を予測し,同時に物理的制約を満たす。
この目標を達成するために、システムの内部隠れ状態変数は、既知の物理的関係によって制約される一連の内部ニューロン層と関連付けられ、システムに関する追加の知識も含んでいる。
さらに、十分なデータを持つ場合、システムの内部構造に関する知識を推測し、パラメータ化すれば、特定の入出力関係の状態パラメータを予測することができる。
このアプローチは,身体的な予測を行うだけでなく,トレーニングプロセスを加速し,同様の精度を得るために必要なデータ量を削減し,実験データに含まれるノイズの一部をフィルタリングし,補間能力を向上させる。 Substitution of well-grounded theoretical models by data-driven predictions is not as simple in engineering and sciences as it is in social and economic fields. Scientific problems suffer most times from paucity of data, while they may involve a large number of variables and parameters that interact in complex and non-stationary ways, obeying certain physical laws. Moreover, a physically-based model is not only useful for making predictions, but to gain knowledge by the interpretation of its structure, parameters, and mathematical properties. The solution to these shortcomings seems to be the seamless blending of the tremendous predictive power of the data-driven approach with the scientific consistency and interpretability of physically-based models. We use here the concept of physically-constrained neural networks (PCNN) to predict the input-output relation in a physical system, while, at the same time fulfilling the physical constraints. With this goal, the internal hidden state variables of the system are associated with a set of internal neuron layers, whose values are constrained by known physical relations, as well as any additional knowledge on the system. Furthermore, when having enough data, it is possible to infer knowledge about the internal structure of the system and, if parameterized, to predict the state parameters for a particular input-output relation. We show that this approach, besides getting physically-based predictions, accelerates the training process, reduces the amount of data required to get similar accuracy, filters partly the intrinsic noise in the experimental data and provides improved extrapolation capacity. | 翻訳日:2022-09-24 17:15:11 公開日:2020-11-17 |
# 批判者の仮説空間をrkhsに制限することで相互情報の変動推定のばらつきを減少させる Reducing the Variance of Variational Estimates of Mutual Information by Limiting the Critic's Hypothesis Space to RKHS ( http://arxiv.org/abs/2011.08651v1 ) ライセンス: Link先を確認 | P Aditya Sreekar, Ujjwal Tiwari and Anoop Namboodiri | (参考訳) 相互情報(英: Mutual Information、MI)は、2つの確率変数間の依存性に関する情報理論の尺度である。
未知の確率分布を持つ2つの確率変数のサンプルからMIを推定する方法が文献で提案されている。
近年の手法は、未知密度比を近似するニューラルネットワークとしてパラメトリック確率分布や批判を実現する。
近似密度比は、MIの異なる変動下界を推定するために用いられる。
これらの手法は、真のMIが低い場合に信頼性の高い推定を提供するが、高いMIの場合、高い分散推定を生成する。
我々は、高分散特性は、批評家の仮説空間の制御不能な複雑さに起因すると論じる。
この議論を支持するために、批判のアーキテクチャに関連する仮説空間のデータ駆動ラデマッハ複雑性を用いて、MIの変動的下界推定の一般化誤差を解析する。
本研究では,これらの推定器の高分散特性を,自動スペクトルカーネル学習 (ASKL) を用いて学習したカーネルに対応するHilbert Kernel Space (RKHS) の再生に批評家の仮説空間を制約することにより否定することができることを示す。
上記の一般化誤差境界を解析することにより、全最適化目標を効率的な正規化項で拡張する。
我々は,NWJ,MINE,JS,SMILEの4つの変分下界における適切なバイアス分散トレードオフを強制する上で,この正規化の有効性を実証的に実証した。 Mutual information (MI) is an information-theoretic measure of dependency between two random variables. Several methods to estimate MI, from samples of two random variables with unknown underlying probability distributions have been proposed in the literature. Recent methods realize parametric probability distributions or critic as a neural network to approximate unknown density ratios. The approximated density ratios are used to estimate different variational lower bounds of MI. While these methods provide reliable estimation when the true MI is low, they produce high variance estimates in cases of high MI. We argue that the high variance characteristic is due to the uncontrolled complexity of the critic's hypothesis space. In support of this argument, we use the data-driven Rademacher complexity of the hypothesis space associated with the critic's architecture to analyse generalization error bound of variational lower bound estimates of MI. In the proposed work, we show that it is possible to negate the high variance characteristics of these estimators by constraining the critic's hypothesis space to Reproducing Hilbert Kernel Space (RKHS), which corresponds to a kernel learned using Automated Spectral Kernel Learning (ASKL). By analysing the aforementioned generalization error bounds, we augment the overall optimisation objective with effective regularisation term. We empirically demonstrate the efficacy of this regularization in enforcing proper bias variance tradeoff on four variational lower bounds, namely NWJ, MINE, JS and SMILE. | 翻訳日:2022-09-24 17:14:46 公開日:2020-11-17 |
# 2次4次リカレントニューラルネットワークを用いた剛体ダイナミクスの予測 Predicting Rigid Body Dynamics using Dual Quaternion Recurrent Neural Networks with Quaternion Attention ( http://arxiv.org/abs/2011.08734v1 ) ライセンス: Link先を確認 | Johannes P\"oppelbaum, Andreas Schwung | (参考訳) 本稿では,剛体運動の記述を主眼とした情報のコンパクトな表現を可能にする,双四元数に基づく新しいニューラルネットワークアーキテクチャを提案する。
剛体運動に固有の動的挙動を網羅するため,ニューラルネットワークにおける再帰的アーキテクチャを提案する。
個々の剛体間の相互作用と外部入力を効率的にモデル化するために、双対四元数代数を用いた新しい注意機構を取り入れる。
導入されたアーキテクチャは勾配に基づくアルゴリズムで訓練できる。
提案手法は,初期位置,方向,速度,角速度を持つ剛体が一定のシミュレーション環境内を移動し,セルと境界との間の相互作用が豊かになるようなパーセル予測問題に適用する。 We propose a novel neural network architecture based on dual quaternions which allow for a compact representation of informations with a main focus on describing rigid body movements. To cover the dynamic behavior inherent to rigid body movements, we propose recurrent architectures in the neural network. To further model the interactions between individual rigid bodies as well as external inputs efficiently, we incorporate a novel attention mechanism employing dual quaternion algebra. The introduced architecture is trainable by means of gradient based algorithms. We apply our approach to a parcel prediction problem where a rigid body with an initial position, orientation, velocity and angular velocity moves through a fixed simulation environment which exhibits rich interactions between the parcel and the boundaries. | 翻訳日:2022-09-24 17:14:22 公開日:2020-11-17 |
# クロスサンプルソフトマックスによるDeep Metric Learningにおける校正の改善 Improving Calibration in Deep Metric Learning With Cross-Example Softmax ( http://arxiv.org/abs/2011.08824v1 ) ライセンス: Link先を確認 | Andreas Veit, Kimberly Wilber | (参考訳) 現代の画像検索システムは、特定のクエリと画像の関連性を符号化する埋め込み空間を学習するために、ディープニューラルネットワークを使うことにますます依存している。
この設定では、既存のアプローチは2つの特性のうちの1つを強調する傾向がある。
3重項ベースのメソッドは、トップ$k$関係をキャプチャし、トップ$k$スコアのドキュメントは、与えられたクエリ対のコントラストモデルに関連すると仮定される。
本稿では,トップ$k$ としきい値関係の特性を組み合わせたクロスサンプルソフトマックスを提案する。
各イテレーションにおいて、提案される損失は、すべてのクエリがマッチしないイメージよりも、一致したイメージに近づくことを奨励する。
これにより、世界規模でより校正された類似度計量となり、絶対的な関連性の尺度として距離をより解釈できる。
さらにクロスサンプル負のマイニングを導入し、各ペアをバッチ全体において最も厳しい負の比較と比較する。
実験では,概念キャプションとflickr30kを用いて,提案手法がグローバルキャリブレーションと検索性能を効果的に改善することを示す。 Modern image retrieval systems increasingly rely on the use of deep neural networks to learn embedding spaces in which distance encodes the relevance between a given query and image. In this setting, existing approaches tend to emphasize one of two properties. Triplet-based methods capture top-$k$ relevancy, where all top-$k$ scoring documents are assumed to be relevant to a given query Pairwise contrastive models capture threshold relevancy, where all documents scoring higher than some threshold are assumed to be relevant. In this paper, we propose Cross-Example Softmax which combines the properties of top-$k$ and threshold relevancy. In each iteration, the proposed loss encourages all queries to be closer to their matching images than all queries are to all non-matching images. This leads to a globally more calibrated similarity metric and makes distance more interpretable as an absolute measure of relevance. We further introduce Cross-Example Negative Mining, in which each pair is compared to the hardest negative comparisons across the entire batch. Empirically, we show in a series of experiments on Conceptual Captions and Flickr30k, that the proposed method effectively improves global calibration and also retrieval performance. | 翻訳日:2022-09-24 17:14:09 公開日:2020-11-17 |
# ディジタルツイン6Gネットワークにおけるエッジアソシエーションのための低レイテンシフェデレーション学習とブロックチェーン Low-latency Federated Learning and Blockchain for Edge Association in Digital Twin empowered 6G Networks ( http://arxiv.org/abs/2011.09902v1 ) ライセンス: Link先を確認 | Yunlong Lu, Xiaohong Huang, Ke Zhang, Sabita Maharjan, Yan Zhang | (参考訳) デジタルツインや第6世代モバイルネットワーク(6G)のような新興技術は、産業用モノのインターネット(IIoT)におけるエッジインテリジェンスの実現を加速している。
デジタルツインと6gの統合は物理システムとデジタル空間を橋渡しし、堅牢なインスタントワイヤレス接続を可能にする。
データプライバシへの懸念が高まる中、フェデレーション学習は、無線ネットワークに分散データ処理と学習をデプロイするための有望なソリューションと見なされている。
しかし、信頼できないコミュニケーションチャネル、限られたリソース、ユーザ間の信頼の欠如は、IIoTにおけるフェデレーション学習の効果的な適用を妨げる。
本稿では,Digital Twin Wireless Networks(DTWN)について,ディジタルツインを無線ネットワークに組み込むことで,リアルタイムデータ処理と計算をエッジプレーンに移行させる。
次に,協調コンピューティングのためのdtwnで動作し,システムの信頼性とセキュリティを向上し,データのプライバシを向上した,ブロックチェーンによる連合学習フレームワークを提案する。
さらに,提案手法の学習精度と時間コストのバランスをとるために,デジタルツインアソシエーション,トレーニングデータバッチサイズ,帯域幅割り当てを共同で検討することにより,エッジアソシエーションの最適化問題を定式化する。
マルチエージェント強化学習を用いて,この問題に対する最適解を求める。
実世界のデータセットの数値計算結果から,提案手法はベンチマーク学習法と比較して効率の向上とコスト削減を図っている。 Emerging technologies such as digital twins and 6th Generation mobile networks (6G) have accelerated the realization of edge intelligence in Industrial Internet of Things (IIoT). The integration of digital twin and 6G bridges the physical system with digital space and enables robust instant wireless connectivity. With increasing concerns on data privacy, federated learning has been regarded as a promising solution for deploying distributed data processing and learning in wireless networks. However, unreliable communication channels, limited resources, and lack of trust among users, hinder the effective application of federated learning in IIoT. In this paper, we introduce the Digital Twin Wireless Networks (DTWN) by incorporating digital twins into wireless networks, to migrate real-time data processing and computation to the edge plane. Then, we propose a blockchain empowered federated learning framework running in the DTWN for collaborative computing, which improves the reliability and security of the system, and enhances data privacy. Moreover, to balance the learning accuracy and time cost of the proposed scheme, we formulate an optimization problem for edge association by jointly considering digital twin association, training data batch size, and bandwidth allocation. We exploit multi-agent reinforcement learning to find an optimal solution to the problem. Numerical results on real-world dataset show that the proposed scheme yields improved efficiency and reduced cost compared to benchmark learning method. | 翻訳日:2022-09-24 17:13:50 公開日:2020-11-17 |
# インテリジェントシステムのための高品質ドキュメンテーションの評価と活用に向けて Towards evaluating and eliciting high-quality documentation for intelligent systems ( http://arxiv.org/abs/2011.08774v1 ) ライセンス: Link先を確認 | David Piorkowski, Daniel Gonz\'alez, John Richards and Stephanie Houde | (参考訳) 機械学習と人工知能に基づいて構築されたインテリジェントシステムにおける信頼と透明性の重要なコンポーネントは、明確で理解可能なドキュメントの開発である。
しかし、このようなシステムは複雑さと不透明さで悪名高いので、品質の文書化は簡単な作業ではない。
さらに、なぜこのような文書が「良い」のかについてはほとんど分かっていない。
本稿では,このタイプの文書が不足している方法を特定するために,品質次元のセットを提案し,評価する。
そして,これらの次元を用いて,知的システム文書の抽出のための3つのアプローチを評価する。
このようなドキュメントの欠点を寸法がどのように識別しているかを示し、そのような次元がどのようにしてユーザーが与えられたペルソナやユースケースに適したドキュメントを提供できるかを示す。 A vital component of trust and transparency in intelligent systems built on machine learning and artificial intelligence is the development of clear, understandable documentation. However, such systems are notorious for their complexity and opaqueness making quality documentation a non-trivial task. Furthermore, little is known about what makes such documentation "good." In this paper, we propose and evaluate a set of quality dimensions to identify in what ways this type of documentation falls short. Then, using those dimensions, we evaluate three different approaches for eliciting intelligent system documentation. We show how the dimensions identify shortcomings in such documentation and posit how such dimensions can be use to further enable users to provide documentation that is suitable to a given persona or use case. | 翻訳日:2022-09-24 17:13:25 公開日:2020-11-17 |
# sqオントロジー上の正規パスクエリへの応答 Answering Regular Path Queries Over SQ Ontologies ( http://arxiv.org/abs/2011.08816v1 ) ライセンス: Link先を確認 | V\'ictor Guti\'errez-Basulto and Yazm\'in Ib\'a\~nez-Garc\'ia and Jean Christoph Jung | (参考訳) 我々は,過渡的および非過渡的役割の有資格数制限をサポートするためのクエリ応答を記述論理$\mathcal{SQ}$で研究する。
我々の主なコントリビューションは、$\mathcal{SQ}$ナレッジベースのためのツリーのようなモデルプロパティであり、これに基づいて、2ExpTime における正存在正規パスクエリに応答する最適なオートマタベースのアルゴリズムを構築しています。 We study query answering in the description logic $\mathcal{SQ}$ supporting qualified number restrictions on both transitive and non-transitive roles. Our main contributions are a tree-like model property for $\mathcal{SQ}$ knowledge bases and, building upon this, an optimal automata-based algorithm for answering positive existential regular path queries in 2ExpTime. | 翻訳日:2022-09-24 17:13:14 公開日:2020-11-17 |
# ディープシリアルナンバー:DNN知的財産保護のための計算透かし Deep Serial Number: Computational Watermarking for DNN Intellectual Property Protection ( http://arxiv.org/abs/2011.08960v1 ) ライセンス: Link先を確認 | Ruixiang Tang, Mengnan Du, Xia Hu | (参考訳) 本稿では,盗まれたモデルが不正にデプロイされるのを防ぐ新しい透かし手法であるDSN(Deep Serial Number)を紹介する。
近年、DNNモデルの所有者がDNNモデルの所有権を主張する新たな研究方向として、DNNの透かしが出現している。
しかし、既存の透かし手法の検証は様々な透かし攻撃に対して脆弱である。
DNNに識別情報を埋め込む既存の作業とは異なり、敵が盗んだディープニューラルネットワークをデプロイするのを防止できる新しいDNN知的財産保護メカニズムを探索する。
従来のソフトウェアIP保護におけるシリアル番号の成功に触発されて,DNNにシリアル番号を埋め込む最初の試みを紹介する。
具体的には,個人教師のDNNを最初に訓練し,その知識を蒸留し,学生のDNNに伝達する知識蒸留フレームワークに提案したDSNを実装した。
蒸留プロセス中、各顧客DNNは独自のシリアル番号、すなわち暗号化された0/1ビットトリガパターンで拡張される。
顧客DNNは、潜在的な顧客が有効なシリアル番号を入力する場合にのみ適切に機能する。
組込みシリアル番号は、所有権検証のための強力な透かしとして使用できる。
様々な応用実験により、DSNは、元のDNN性能を犠牲にすることなく、不正なアプリケーションを防ぐという点で有効であることが示された。
実験分析の結果,dsnは異なる種類の攻撃に耐性があることが判明した。 In this paper, we introduce DSN (Deep Serial Number), a new watermarking approach that can prevent the stolen model from being deployed by unauthorized parties. Recently, watermarking in DNNs has emerged as a new research direction for owners to claim ownership of DNN models. However, the verification schemes of existing watermarking approaches are vulnerable to various watermark attacks. Different from existing work that embeds identification information into DNNs, we explore a new DNN Intellectual Property Protection mechanism that can prevent adversaries from deploying the stolen deep neural networks. Motivated by the success of serial number in protecting conventional software IP, we introduce the first attempt to embed a serial number into DNNs. Specifically, the proposed DSN is implemented in the knowledge distillation framework, where a private teacher DNN is first trained, then its knowledge is distilled and transferred to a series of customized student DNNs. During the distillation process, each customer DNN is augmented with a unique serial number, i.e., an encrypted 0/1 bit trigger pattern. Customer DNN works properly only when a potential customer enters the valid serial number. The embedded serial number could be used as a strong watermark for ownership verification. Experiments on various applications indicate that DSN is effective in terms of preventing unauthorized application while not sacrificing the original DNN performance. The experimental analysis further shows that DSN is resistant to different categories of attacks. | 翻訳日:2022-09-24 17:13:06 公開日:2020-11-17 |
# p1ac:単一のアフィン対応から絶対的なポーズを再検討する P1AC: Revisiting Absolute Pose From a Single Affine Correspondence ( http://arxiv.org/abs/2011.08790v1 ) ライセンス: Link先を確認 | Jonathan Ventura | (参考訳) 本稿では,方向点の単一観測と参照画像へのアフィン対応を考慮し,キャリブレーションカメラのポーズを推定する問題に対する新しい解を提案する。
アフィン対応は伝統的に幅広いベースラインに対する特徴マッチングを改善するために用いられてきたが、絶対的なカメラポーズの計算にそのような対応を用いることはほとんど考えていない。
我々のアプローチ(P1AC)の利点は、少なくとも3つの点を必要とする従来の点ベースアプローチ(P3P)と比較して、最小の場合で1つの対応しか必要としない点である。
提案手法は,従来の作業における仮定の制限を取り除き,大規模画像ベースローカライゼーションに適用可能な一般解を提供する。
提案手法は,P3Pよりも数値的に安定であり,点観測ノイズに対して頑健であることを示す。
また,本手法の大規模画像ベースローカライズへの応用を評価し,画像のロバストなローカライズに必要な反復数と計算時間の実効的削減を示す。 We introduce a novel solution to the problem of estimating the pose of a calibrated camera given a single observation of an oriented point and an affine correspondence to a reference image. Affine correspondences have traditionally been used to improve feature matching over wide baselines; however, little previous work has considered the use of such correspondences for absolute camera pose computation. The advantage of our approach (P1AC) is that it requires only a single correspondence in the minimal case in comparison to the traditional point-based approach (P3P) which requires at least three points. Our method removes the limiting assumptions made in previous work and provides a general solution that is applicable to large-scale image-based localization. Our evaluation on synthetic data shows that our approach is numerically stable and more robust to point observation noise than P3P. We also evaluate the application of our approach for large-scale image-based localization and demonstrate a practical reduction in the number of iterations and computation time required to robustly localize an image. | 翻訳日:2022-09-24 17:06:43 公開日:2020-11-17 |
# VISOB 2.0データセット上のジェンダー間の移動眼バイオメトリックスの公正性 Probing Fairness of Mobile Ocular Biometrics Methods Across Gender on VISOB 2.0 Dataset ( http://arxiv.org/abs/2011.08898v1 ) ライセンス: Link先を確認 | Anoop Krishnan, Ali Almadan, Ajita Rattani | (参考訳) 近年の研究では、浅黒い肌の男女に対する顔認識と属性分類(性別や人種など)の公平性に疑問が呈されている。
可視光スペクトルの眼バイオメトリックスは、その正確性、セキュリティ、表情に対する堅牢性、モバイルデバイスでの使いやすさによる、顔バイオメトリックスの代替ソリューションである。
最近の新型コロナウイルス(COVID-19)危機で、眼バイオメトリックスはマスクの存在下での顔バイオメトリックスに対してさらなる優位性を持つ。
しかし、これまで眼バイオメトリックスの公平性は研究されていない。
本研究は,男女間での認証・性別分類手法の公正性を検討することを目的とする。
この目的のために、visob $2.0$データセットとその性アノテーションは、resnet-50、mobilenet-v2、lightcnn-29モデルに基づく眼バイオメトリックスメソッドの公正性分析に使用される。
実験の結果,低偽一致率 (fmr) と全体の曲線下領域 (auc) における実測一致率 (gmr) の観点で, 眼球系モバイルユーザ認証における男女同等の性能が示唆された。
例えば、女性用0.96、男性用0.95のAUCは、平均してLightCNN-29である。
しかし, 男子は, 深層学習に基づく性別分類モデルにおいて, 眼領域に基づく女性よりも有意に優れていた。 Recent research has questioned the fairness of face-based recognition and attribute classification methods (such as gender and race) for dark-skinned people and women. Ocular biometrics in the visible spectrum is an alternate solution over face biometrics, thanks to its accuracy, security, robustness against facial expression, and ease of use in mobile devices. With the recent COVID-19 crisis, ocular biometrics has a further advantage over face biometrics in the presence of a mask. However, fairness of ocular biometrics has not been studied till now. This first study aims to explore the fairness of ocular-based authentication and gender classification methods across males and females. To this aim, VISOB $2.0$ dataset, along with its gender annotations, is used for the fairness analysis of ocular biometrics methods based on ResNet-50, MobileNet-V2 and lightCNN-29 models. Experimental results suggest the equivalent performance of males and females for ocular-based mobile user-authentication in terms of genuine match rate (GMR) at lower false match rates (FMRs) and an overall Area Under Curve (AUC). For instance, an AUC of 0.96 for females and 0.95 for males was obtained for lightCNN-29 on an average. However, males significantly outperformed females in deep learning based gender classification models based on ocular-region. | 翻訳日:2022-09-24 17:05:38 公開日:2020-11-17 |
# これは誰の手?
自己中心的手振りからの人物識別 Whose hand is this? Person Identification from Egocentric Hand Gestures ( http://arxiv.org/abs/2011.08900v1 ) ライセンス: Link先を確認 | Satoshi Tsutsui, Yanwei Fu, David Crandall | (参考訳) 顔やその他の生体情報による人物の認識はコンピュータビジョンにおいて広く研究されている。
しかし、このようなテクニックは、自己中心型(一人称)カメラの装着者を特定するのに役立ちません。
しかし、自分の顔はよく見えないが、彼らの手は、実際、手は自分の視野の中で最も一般的な物である。
したがって、人の手の外観や動きのパターンが認識できるほど独特かどうかを問うのは当然である。
そこで,本研究では,自己中心型手指ジェスチャを用いた自己中心型手指識別(ehi)の可能性について体系的に検討する。
色、形状、肌のテクスチャ、深度マップなど、さまざまな視覚的手がかりを探索し、ユーザの手を特定する。
最も特徴的な手の特性を分析するために広範囲のアブレーション実験を行った。
最後に, ehiは, ユーザ間の差異を無視するよう, 敵対的にトレーニングすることで, ジェスチャ認識などの他のタスクの一般化を改善できることを示す。 Recognizing people by faces and other biometrics has been extensively studied in computer vision. But these techniques do not work for identifying the wearer of an egocentric (first-person) camera because that person rarely (if ever) appears in their own first-person view. But while one's own face is not frequently visible, their hands are: in fact, hands are among the most common objects in one's own field of view. It is thus natural to ask whether the appearance and motion patterns of people's hands are distinctive enough to recognize them. In this paper, we systematically study the possibility of Egocentric Hand Identification (EHI) with unconstrained egocentric hand gestures. We explore several different visual cues, including color, shape, skin texture, and depth maps to identify users' hands. Extensive ablation experiments are conducted to analyze the properties of hands that are most distinctive. Finally, we show that EHI can improve generalization of other tasks, such as gesture recognition, by training adversarially to encourage these models to ignore differences between users. | 翻訳日:2022-09-24 17:05:13 公開日:2020-11-17 |
# 単眼レンズ収差カメラ自動校正のための最小解法 Minimal Solvers for Single-View Lens-Distorted Camera Auto-Calibration ( http://arxiv.org/abs/2011.08988v1 ) ライセンス: Link先を確認 | Yaroslava Lochman, Oles Dobosevych, Rostyslav Hryniv, James Pritts | (参考訳) 本稿では,アフィン補正と焦点長,絶対配向の両面を連立的に推定するために,画像翻訳対称性と並列シーンラインの組み合わせを用いた最小解法を提案する。
直交シーン平面によって提供される制約を用いて焦点距離を復元する。
特徴組合せを用いた解法は,線とテクスチャのバランスの取れたシーンにおいて,一つの特徴型のみを用いて,解法よりも正確な校正を回復できることを示す。
また,提案手法は補完的であり,自動校正精度を向上させるためにRANSACを用いた推定器で併用可能であることを示す。
レンズ歪んだ都市画像の標準データセット上で、最先端の性能を示す。
コードはhttps://github.com/ylochman/single-view-autocalibで入手できる。 This paper proposes minimal solvers that use combinations of imaged translational symmetries and parallel scene lines to jointly estimate lens undistortion with either affine rectification or focal length and absolute orientation. We use constraints provided by orthogonal scene planes to recover the focal length. We show that solvers using feature combinations can recover more accurate calibrations than solvers using only one feature type on scenes that have a balance of lines and texture. We also show that the proposed solvers are complementary and can be used together in a RANSAC-based estimator to improve auto-calibration accuracy. State-of-the-art performance is demonstrated on a standard dataset of lens-distorted urban images. The code is available at https://github.com/ylochman/single-view-autocalib. | 翻訳日:2022-09-24 17:04:57 公開日:2020-11-17 |
# 議論的トポロジー:論理学におけるループを見つける Argumentative Topology: Finding Loop(holes) in Logic ( http://arxiv.org/abs/2011.08952v1 ) ライセンス: Link先を確認 | Sarah Tymochko, Zachary New, Lucius Bynum, Emilie Purvine, Timothy Doster, Julien Chaput, Tegan Emerson | (参考訳) 自然言語処理の進歩により、複数のタスクに対する能力が向上した。
観測されたパフォーマンス向上の原因の1つは、より洗練されたテキスト表現の導入である。
新たな単語埋め込み技術の多くは、感情や連想構造の特定の概念を捉えることができるが、テキストにおける論理的形状の概念を解明または捉えるために、2つの異なる単語埋め込みの能力を探求する。
そこで本稿では,動的システム解析とデータ駆動形状抽出(トポロジカルデータ解析)において数学的手法を応用した,トポロジカルワード埋め込みと呼ばれる新しい枠組みを提案する。
この予備的な研究で、トポロジカルな遅延埋め込みを用いることで、「円の議論の中に円を見つけるか?」という問いに答えるために、異なる形状の論理概念を捉え、抽出できることを示した。 Advances in natural language processing have resulted in increased capabilities with respect to multiple tasks. One of the possible causes of the observed performance gains is the introduction of increasingly sophisticated text representations. While many of the new word embedding techniques can be shown to capture particular notions of sentiment or associative structures, we explore the ability of two different word embeddings to uncover or capture the notion of logical shape in text. To this end we present a novel framework that we call Topological Word Embeddings which leverages mathematical techniques in dynamical system analysis and data driven shape extraction (i.e. topological data analysis). In this preliminary work we show that using a topological delay embedding we are able to capture and extract a different, shape-based notion of logic aimed at answering the question "Can we find a circle in a circular argument?" | 翻訳日:2022-09-24 17:04:46 公開日:2020-11-17 |
# セマンティックラベルは自己監督型視覚表現学習を支援するか? Can Semantic Labels Assist Self-Supervised Visual Representation Learning? ( http://arxiv.org/abs/2011.08621v1 ) ライセンス: Link先を確認 | Longhui Wei, Lingxi Xie, Jianzhong He, Jianlong Chang, Xiaopeng Zhang, Wengang Zhou, Houqiang Li, Qi Tian | (参考訳) 近年,コントラスト学習は,教師なし視覚表現学習の進歩に大きく進展している。
imagenetで事前トレーニングされた一部の自己教師付きアルゴリズムは、完全な教師付きメソッドよりも転送学習のパフォーマンスが高いと報告した。
本稿では,セマンティクスラベルの有用性を擁護する一方で,完全教師付きおよび自己教師付き手法が異なる特徴を追求していることを指摘する。
この問題を軽減するため,提案手法はSCAN (Supervised Contrastive Adjustment in Neighborhood) と呼ばれるアルゴリズムを新たに提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
さらに重要なことは、セマンティックラベルは、自己教師付き手法を支援するのに有用であり、コミュニティに新たな方向性を開くことである。 Recently, contrastive learning has largely advanced the progress of unsupervised visual representation learning. Pre-trained on ImageNet, some self-supervised algorithms reported higher transfer learning performance compared to fully-supervised methods, seeming to deliver the message that human labels hardly contribute to learning transferrable visual features. In this paper, we defend the usefulness of semantic labels but point out that fully-supervised and self-supervised methods are pursuing different kinds of features. To alleviate this issue, we present a new algorithm named Supervised Contrastive Adjustment in Neighborhood (SCAN) that maximally prevents the semantic guidance from damaging the appearance feature embedding. In a series of downstream tasks, SCAN achieves superior performance compared to previous fully-supervised and self-supervised methods, and sometimes the gain is significant. More importantly, our study reveals that semantic labels are useful in assisting self-supervised methods, opening a new direction for the community. | 翻訳日:2022-09-24 16:56:37 公開日:2020-11-17 |
# 高精度メッシュモデル作成法と6次元ポーズ推定タスクのためのrgb-dデータセット A Method to Generate High Precision Mesh Model and RGB-D Datasetfor 6D Pose Estimation Task ( http://arxiv.org/abs/2011.08771v1 ) ライセンス: Link先を確認 | Minglei Lu, Yu Guo, Fei Wang, Zheng Dang | (参考訳) 近年、ディープニューラルネットワークの開発により、3Dバージョンが大幅に改善されている。
ディープラーニング手法では,高品質なデータセットが重要である。
BigbirdやYCBといった既存の3Dビジョン用のデータセットが構築されている。
しかし、これらのデータセットを作るのに使用される深度センサーは時代遅れであり、データセットの解像度と精度は需要のより高い基準を満たすことができない。
装置と技術は良くなったが、誰も新しいより良いデータセットを集めようとはしなかった。
我々はそのギャップを埋めようとしている。
そこで本研究では,速度,精度,堅牢性を考慮したオブジェクト再構成手法を提案する。
提案手法は,より高精度なアノテーションを用いた大規模データセット作成に有効である。
さらに重要なのは、私たちのデータはレンダリングデータに近いため、実際のデータと合成データのギャップはさらに小さくなります。 Recently, 3D version has been improved greatly due to the development of deep neural networks. A high quality dataset is important to the deep learning method. Existing datasets for 3D vision has been constructed, such as Bigbird and YCB. However, the depth sensors used to make these datasets are out of date, which made the resolution and accuracy of the datasets cannot full fill the higher standards of demand. Although the equipment and technology got better, but no one was trying to collect new and better dataset. Here we are trying to fill that gap. To this end, we propose a new method for object reconstruction, which takes into account the speed, accuracy and robustness. Our method could be used to produce large dataset with better and more accurate annotation. More importantly, our data is more close to the rendering data, which shrinking the gap between the real data and synthetic data further. | 翻訳日:2022-09-24 16:55:08 公開日:2020-11-17 |
# PaDiM: 異常検出と局所化のためのパッチ分散モデリングフレームワーク PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization ( http://arxiv.org/abs/2011.08785v1 ) ライセンス: Link先を確認 | Thomas Defard, Aleksandr Setkov, Angelique Loesch, Romaric Audigier | (参考訳) 本稿では,一級学習環境における画像中の異常を同時検出し,局所化する,パッチ分散モデリングのための新しいフレームワークPaDiMを提案する。
PaDiMは、パッチ埋め込みのための事前訓練された畳み込みニューラルネットワーク(CNN)と、正規クラスの確率的表現を得るために多変量ガウス分布を利用する。
また、cnnの異なる意味レベル間の相関を利用して、異常をよりよくローカライズする。
PaDiMは、MVTec ADとSTCデータセットの異常検出とローカライゼーションの両方において、最先端のアプローチより優れている。
実世界の産業検査と一致させるために,非アライメントデータセットにおける異常局在アルゴリズムの性能評価プロトコルを拡張した。
最先端のパフォーマンスとPaDiMの低複雑性は、多くの産業アプリケーションに好適な候補となっている。 We present a new framework for Patch Distribution Modeling, PaDiM, to concurrently detect and localize anomalies in images in a one-class learning setting. PaDiM makes use of a pretrained convolutional neural network (CNN) for patch embedding, and of multivariate Gaussian distributions to get a probabilistic representation of the normal class. It also exploits correlations between the different semantic levels of CNN to better localize anomalies. PaDiM outperforms current state-of-the-art approaches for both anomaly detection and localization on the MVTec AD and STC datasets. To match real-world visual industrial inspection, we extend the evaluation protocol to assess performance of anomaly localization algorithms on non-aligned dataset. The state-of-the-art performance and low complexity of PaDiM make it a good candidate for many industrial applications. | 翻訳日:2022-09-24 16:54:56 公開日:2020-11-17 |
# 半教師数ショット原子アクション認識 Semi-Supervised Few-Shot Atomic Action Recognition ( http://arxiv.org/abs/2011.08410v1 ) ライセンス: Link先を確認 | Xiaoyuan Ni, Sizhe Song, Yu-Wing Tai, Chi-Keung Tang | (参考訳) 優れた進歩にもかかわらず、アクション認識のパフォーマンスは、労働集約的なラベル付けによる新しいアクションクラスの拡張が難しい特定のデータセットに大きく依存している。
さらに、時空間的外観における高い多様性は、ロバストで典型的な行動特徴の集約と注意を必要とする。
上記の課題に対処するため、我々は原子行動に着目し、半教師付き数発の原子行動認識のための新しいモデルを提案する。
本モデルでは,より代表的特徴を抽出し,空間的および時間的アライメントの柔軟性と動作のバリエーションを付与することにより,少数のトレーニング例のみによる行動認識を可能にする。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督環境で達成できることが示された。 Despite excellent progress has been made, the performance on action recognition still heavily relies on specific datasets, which are difficult to extend new action classes due to labor-intensive labeling. Moreover, the high diversity in Spatio-temporal appearance requires robust and representative action feature aggregation and attention. To address the above issues, we focus on atomic actions and propose a novel model for semi-supervised few-shot atomic action recognition. Our model features unsupervised and contrastive video embedding, loose action alignment, multi-head feature comparison, and attention-based aggregation, together of which enables action recognition with only a few training examples through extracting more representative features and allowing flexibility in spatial and temporal alignment and variations in the action. Experiments show that our model can attain high accuracy on representative atomic action datasets outperforming their respective state-of-the-art classification accuracy in full supervision setting. | 翻訳日:2022-09-24 16:48:52 公開日:2020-11-17 |
# トランスデューサ適応超音波ボリューム再構成 Transducer Adaptive Ultrasound Volume Reconstruction ( http://arxiv.org/abs/2011.08419v1 ) ライセンス: Link先を確認 | Hengtao Guo, Sheng Xu, Bradford J. Wood, Pingkun Yan | (参考訳) 再構成された3D超音波ボリュームは、超音波ガイド下前立腺生検などの様々な臨床応用に望ましい2Dスキャンフレームのシーケンスと比較して、よりコンテキスト情報を提供する。
それでも、フリーハンド2Dスキャンによる3Dボリューム再構成は、特に外部追跡装置を使わずに、非常に難しい問題である。
近年の深層学習に基づく手法は,連続する超音波フレーム間のフレーム間移動を直接推定する可能性を示している。
しかし、そのようなアルゴリズムは特定のトランスデューサやトレーニングデータに関連する走査軌跡に特有であり、他の画像取得設定には一般化できない。
本稿では,領域シフト問題としてデータ取得の違いに取り組み,異なるトランスデューサで取得したデータにディープラーニングアルゴリズムを適用するための新しいドメイン適応戦略を提案する。
具体的には、異なるデータセットからトランスデューサ不変な特徴を生成する特徴抽出器を、潜在空間におけるペア標本の深い特徴の相違を最小限にして訓練する。
提案手法は,全自由手音量再構成のためのトランスデューサ固有情報を保存しながら,異なる特徴分布の整合に成功できることを示す。 Reconstructed 3D ultrasound volume provides more context information compared to a sequence of 2D scanning frames, which is desirable for various clinical applications such as ultrasound-guided prostate biopsy. Nevertheless, 3D volume reconstruction from freehand 2D scans is a very challenging problem, especially without the use of external tracking devices. Recent deep learning based methods demonstrate the potential of directly estimating inter-frame motion between consecutive ultrasound frames. However, such algorithms are specific to particular transducers and scanning trajectories associated with the training data, which may not be generalized to other image acquisition settings. In this paper, we tackle the data acquisition difference as a domain shift problem and propose a novel domain adaptation strategy to adapt deep learning algorithms to data acquired with different transducers. Specifically, feature extractors that generate transducer-invariant features from different datasets are trained by minimizing the discrepancy between deep features of paired samples in a latent space. Our results show that the proposed domain adaptation method can successfully align different feature distributions while preserving the transducer-specific information for universal freehand ultrasound volume reconstruction. | 翻訳日:2022-09-24 16:48:20 公開日:2020-11-17 |
# SRF-GAN:マルチスケール表現のための超解像GAN SRF-GAN: Super-Resolved Feature GAN for Multi-Scale Representation ( http://arxiv.org/abs/2011.08459v1 ) ライセンス: Link先を確認 | Seong-Ho Lee and Seung-Hwan Bae | (参考訳) 最近の畳み込み物体検出器は、様々なスケールの物体を検出し、より強い意味的特徴応答を学ぶために、トップダウン経路に付加されたマルチスケール特徴表現を利用する。
一般に、トップダウンの特徴伝達の間、より粗い特徴マップはボトムアップ経路から転送される特徴と組み合わせられ、より強力な意味的特徴は検出器のヘッダの入力である。
しかし、単純な補間法(近辺や双線型など)は、ノイズやぼやけた特徴を生じさせるが、機能分解能を高めるためにも使われている。
本稿では,畳み込み物体検出器の特徴を超解くための新しい生成器を提案する。
そこで我々は,まず,検出ベースジェネレータと特徴パッチ識別器からなる超解像GAN(SRF-GAN)を設計する。
さらに,超解像の高品質化と検出精度の向上を図るため,SRF-GANの損失について述べる。
我々のSRFジェネレータは従来の補間法に代えて、他の検出器と簡単に微調整できる。
これを証明するために、我々は最近の1段検出器と2段検出器を用いてSRF-GANを実装し、検出精度を改善した。
コードはhttps://github.com/SHLee-cv/SRF-GANで公開されている。 Recent convolutional object detectors exploit multi-scale feature representations added with top-down pathway in order to detect objects at different scales and learn stronger semantic feature responses. In general, during the top-down feature propagation, the coarser feature maps are upsampled to be combined with the features forwarded from bottom-up pathway, and the combined stronger semantic features are inputs of detector's headers. However, simple interpolation methods (e.g. nearest neighbor and bilinear) are still used for increasing feature resolutions although they cause noisy and blurred features. In this paper, we propose a novel generator for super-resolving features of the convolutional object detectors. To achieve this, we first design super-resolved feature GAN (SRF-GAN) consisting of a detection-based generator and a feature patch discriminator. In addition, we present SRF-GAN losses for generating the high quality of super-resolved features and improving detection accuracy together. Our SRF generator can substitute for the traditional interpolation methods, and easily fine-tuned combined with other conventional detectors. To prove this, we have implemented our SRF-GAN by using the several recent one-stage and two-stage detectors, and improved detection accuracy over those detectors. Code is available at https://github.com/SHLee-cv/SRF-GAN. | 翻訳日:2022-09-24 16:48:00 公開日:2020-11-17 |
# 中国のテキスト画像認識におけるCRNNモデルの深層化 Digging Deeper into CRNN Model in Chinese Text Images Recognition ( http://arxiv.org/abs/2011.08505v1 ) ライセンス: Link先を確認 | Kunhong Yu and Yuze Zhang | (参考訳) 自動テキスト画像認識はコンピュータビジョン分野における一般的な応用である。
1つの効率的な方法は、畳み込みリカレントニューラルネットワーク(CRNN)を使用して、エンドツーエンド(End2End)方式でタスクを実行することである。
しかし、CRNNはマルチロー画像やエクセルライク画像の発見に失敗している。
本稿では,まず1つの代替として,複数の手法で同一のアーキテクチャを拡張して複数の画像を認識する方法を提案する。
ボックスラインを含むexcelライクな画像を認識するために、ボックスラインを復元するラインディープデノイジング畳み込みオートエンコーダ(line-ddecae)を提案する。
最後に,汎用性を損なうことなく元のCRNNモデルを圧縮するための知識蒸留(KD)手法を提案する。
実験をするために、まず中国の小説から人工的なサンプルを生成し、それから様々な実験を行い、その方法を検証する。 Automatic text image recognition is a prevalent application in computer vision field. One efficient way is use Convolutional Recurrent Neural Network(CRNN) to accomplish task in an end-to-end(End2End) fashion. However, CRNN notoriously fails to detect multi-row images and excel-like images. In this paper, we present one alternative to first recognize single-row images, then extend the same architecture to recognize multi-row images with proposed multiple methods. To recognize excel-like images containing box lines, we propose Line-Deep Denoising Convolutional AutoEncoder(Line-DDeCAE) to recover box lines. Finally, we present one Knowledge Distillation(KD) method to compress original CRNN model without loss of generality. To carry out experiments, we first generate artificial samples from one Chinese novel book, then conduct various experiments to verify our methods. | 翻訳日:2022-09-24 16:47:13 公開日:2020-11-17 |
# ACSC:非繰り返し走査型固体LiDARとカメラシステムの自動校正 ACSC: Automatic Calibration for Non-repetitive Scanning Solid-State LiDAR and Camera Systems ( http://arxiv.org/abs/2011.08516v1 ) ライセンス: Link先を確認 | Jiahe Cui, Jianwei Niu, Zhenchao Ouyang, Yunxiang He and Dian Liu | (参考訳) 近年、SSL(Solid-State LiDAR)の急速な開発により、環境から低コストで効率的な3Dポイントクラウドの取得が可能となり、多くの研究や応用に影響を与えた。
しかしながら、走査パターンの不均一性と範囲誤差分布の不一致は、キャリブレーションタスクに課題をもたらす。
本稿では,非繰り返し走査型SSLとカメラシステムのための完全自動校正手法を提案する。
まず、時間空間に基づく幾何学的特徴の精細化法を提案し、ssl点雲から有効特徴を抽出するとともに、点の反射率分布からキャリブレーション対象(印刷チェッカーボード)の3dコーナーを推定する。
以上に基づいて,ターゲットベース外因性キャリブレーション法が提案されている。
実環境におけるLiDARとカメラセンサの組み合わせについて,提案手法の評価を行い,精度とロバスト度校正結果を得た。
コードはhttps://github.com/hviktortsoi/acsc.gitで入手できる。 Recently, the rapid development of Solid-State LiDAR (SSL) enables low-cost and efficient obtainment of 3D point clouds from the environment, which has inspired a large quantity of studies and applications. However, the non-uniformity of its scanning pattern, and the inconsistency of the ranging error distribution bring challenges to its calibration task. In this paper, we proposed a fully automatic calibration method for the non-repetitive scanning SSL and camera systems. First, a temporal-spatial-based geometric feature refinement method is presented, to extract effective features from SSL point clouds; then, the 3D corners of the calibration target (a printed checkerboard) are estimated with the reflectance distribution of points. Based on the above, a target-based extrinsic calibration method is finally proposed. We evaluate the proposed method on different types of LiDAR and camera sensor combinations in real conditions, and achieve accuracy and robustness calibration results. The code is available at https://github.com/HViktorTsoi/ACSC.git . | 翻訳日:2022-09-24 16:46:34 公開日:2020-11-17 |
# $\mathbb{R}$における最適部分ガウス平均推定 Optimal Sub-Gaussian Mean Estimation in $\mathbb{R}$ ( http://arxiv.org/abs/2011.08384v1 ) ライセンス: Link先を確認 | Jasper C.H. Lee, Paul Valiant | (参考訳) 我々は,実値分布の平均を推定する問題を再考し,サブガウス収束を伴う新しい推定器を提示する:「任意の分布上の我々の推定器は,サンプル平均が一致する分散のガウス分布と同じくらい正確である」。
重要なことに、これまでの研究とは対照的に、我々の推定子は分散に関する事前の知識を必要とせず、高次モーメントを持たないものを含む、有界な分散を持つ分布の全体にわたって機能する。
サンプルサイズ$n$、失敗確率$\delta$、分散$\sigma^2$によってパラメータ化され、この推定器は$\sigma\cdot(1+o(1))\sqrt{\frac{2\log\frac{1}{\delta}}{n}}$の範囲内で正確であり、1+o(1)$因子に密着している。
我々の推定器の構成と解析は、他の問題に一般化可能なフレームワークを与え、その和を2-パラメータ$\psi$-推定器として暗黙的に観測し、数学的プログラミングと双対性技術を用いて境界を構築することにより、依存確率変数の和を厳密に解析する。 We revisit the problem of estimating the mean of a real-valued distribution, presenting a novel estimator with sub-Gaussian convergence: intuitively, "our estimator, on any distribution, is as accurate as the sample mean is for the Gaussian distribution of matching variance." Crucially, in contrast to prior works, our estimator does not require prior knowledge of the variance, and works across the entire gamut of distributions with bounded variance, including those without any higher moments. Parameterized by the sample size $n$, the failure probability $\delta$, and the variance $\sigma^2$, our estimator is accurate to within $\sigma\cdot(1+o(1))\sqrt{\frac{2\log\frac{1}{\delta}}{n}}$, tight up to the $1+o(1)$ factor. Our estimator construction and analysis gives a framework generalizable to other problems, tightly analyzing a sum of dependent random variables by viewing the sum implicitly as a 2-parameter $\psi$-estimator, and constructing bounds using mathematical programming and duality techniques. | 翻訳日:2022-09-24 16:40:33 公開日:2020-11-17 |
# MVP-BERT: Chinese BERT と Multi-Vocab Pretraining のための語彙の再設計 MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining ( http://arxiv.org/abs/2011.08539v1 ) ライセンス: Link先を確認 | Wei Zhu | (参考訳) 事前訓練された言語モデル(PLM)の開発は、様々な中国語自然言語処理(NLP)タスクのパフォーマンスを著しく向上させたが、これらの中国語PLMの語彙は、中国語をベースとしたGoogleのBert \cite{devlin2018bert}によって提供されるものである。
第二に、マスク付き言語モデルの事前トレーニングは、ダウンストリームタスクのパフォーマンスを制限する単一の語彙に基づいている。
そこで本研究では,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語 BERT の語彙を形成する新しい手法である \emph{seg\_tok} を提案する。
次に,モデル表現性を改善するために,マルチボキャブラリープリトレーニング(mvp)の3つのバージョンを提案する。
実験によると
(a) シャーベース語彙と比較すると, 'emph{seg\_tok} は文レベルタスクにおける中国語 PLM のパフォーマンスを向上するだけでなく,効率も向上する。
(b)mvpはplmsの下流性能を改善し、特にシーケンスラベリングタスクにおける \emph{seg\_tok} のパフォーマンスを向上させることができる。 Despite the development of pre-trained language models (PLMs) significantly raise the performances of various Chinese natural language processing (NLP) tasks, the vocabulary for these Chinese PLMs remain to be the one provided by Google Chinese Bert \cite{devlin2018bert}, which is based on Chinese characters. Second, the masked language model pre-training is based on a single vocabulary, which limits its downstream task performances. In this work, we first propose a novel method, \emph{seg\_tok}, to form the vocabulary of Chinese BERT, with the help of Chinese word segmentation (CWS) and subword tokenization. Then we propose three versions of multi-vocabulary pretraining (MVP) to improve the models expressiveness. Experiments show that: (a) compared with char based vocabulary, \emph{seg\_tok} does not only improves the performances of Chinese PLMs on sentence level tasks, it can also improve efficiency; (b) MVP improves PLMs' downstream performance, especially it can improve \emph{seg\_tok}'s performances on sequence labeling tasks. | 翻訳日:2022-09-24 16:40:05 公開日:2020-11-17 |
# 意味情報のためのニューラルエンティティ表現の探索 Exploring Neural Entity Representations for Semantic Information ( http://arxiv.org/abs/2011.08951v1 ) ライセンス: Link先を確認 | Andrew Runge and Eduard Hovy | (参考訳) エンティティを埋め込むニューラルネットワークは通常、下流のタスクで外在的に評価され、最近では探索タスクで内在的に評価される。
下流のタスクベースの比較は、タスク構造の違いのために解釈が難しい場合が多いが、タスク評価を行う場合、いくつかの属性やモデルしか見ない。
これらの問題を,単純な探索タスクのセット上で8つのニューラルネットワーク埋め込みメソッドの多種多様な集合を評価し,どのメソッドがエンティティを記述するのに使用される単語を記憶し,タイプ,関係,事実情報を学習し,エンティティがどれだけ頻繁に言及されているかを特定することで解決する。
また、2つのエンティティリンクタスクでこれらのメソッドを統一したフレームワークで比較し、異なるモデルアーキテクチャとデータセットにどのように一般化するかについて議論した。 Neural methods for embedding entities are typically extrinsically evaluated on downstream tasks and, more recently, intrinsically using probing tasks. Downstream task-based comparisons are often difficult to interpret due to differences in task structure, while probing task evaluations often look at only a few attributes and models. We address both of these issues by evaluating a diverse set of eight neural entity embedding methods on a set of simple probing tasks, demonstrating which methods are able to remember words used to describe entities, learn type, relationship and factual information, and identify how frequently an entity is mentioned. We also compare these methods in a unified framework on two entity linking tasks and discuss how they generalize to different model architectures and datasets. | 翻訳日:2022-09-24 16:38:47 公開日:2020-11-17 |
# mars 2020ローバーミッションのための説明可能なスケジューリング Using Explainable Scheduling for the Mars 2020 Rover Mission ( http://arxiv.org/abs/2011.08733v1 ) ライセンス: Link先を確認 | Jagriti Agrawal and Amruta Yelamanchili and Steve Chien | (参考訳) 自動スケジューリングシステムの振る舞いの背後にある理由を理解することは、信頼性が確保され、重要なアプリケーションにおける完全な機能に使用されることを保証するために不可欠である。
スケジューラが無効な場所でアクティビティをスケジュールする場合、通常は、無効なアクティビティでスケジュールを検査して欠落した制約を推測し、欠落した制約を決定することが容易である。
制約を満たすことができないため、スケジューラがアクティビティのスケジュールに失敗した場合、原因を決定することはより難しい。
このような場合、どの制約がスケジュールに失敗したか、どのように制約を変更して必要なスケジュールを達成するかを理解することが重要です。
本稿では、NASAのMars 2020 Perseverance Roverのスケジューリングシステムと、スケジューラの振る舞いを説明する説明可能なスケジューリングツールであるCrosscheckについて説明する。
スケジュールシステムとクロスチェックは、マーズ2020ローバーの活動をスケジュールするための運用ベースラインである。
以下に示すように、スケジューラは、一連のアクティビティとその制約を与えられたスケジュールを生成し、Crosscheck:(1)生成したスケジュールの視覚的表現を提供し、(2)提供した制約に従ってアクティビティがスケジュールに失敗した理由を分析し、説明し、(3)将来のスケジューラの実行時にアクティビティをスケジュールできるようにするための潜在的な制約緩和に関するガイダンスを提供する。 Understanding the reasoning behind the behavior of an automated scheduling system is essential to ensure that it will be trusted and consequently used to its full capabilities in critical applications. In cases where a scheduler schedules activities in an invalid location, it is usually easy for the user to infer the missing constraint by inspecting the schedule with the invalid activity to determine the missing constraint. If a scheduler fails to schedule activities because constraints could not be satisfied, determining the cause can be more challenging. In such cases it is important to understand which constraints caused the activities to fail to be scheduled and how to alter constraints to achieve the desired schedule. In this paper, we describe such a scheduling system for NASA's Mars 2020 Perseverance Rover, as well as Crosscheck, an explainable scheduling tool that explains the scheduler behavior. The scheduling system and Crosscheck are the baseline for operational use to schedule activities for the Mars 2020 rover. As we describe, the scheduler generates a schedule given a set of activities and their constraints and Crosscheck: (1) provides a visual representation of the generated schedule; (2) analyzes and explains why activities failed to schedule given the constraints provided; and (3) provides guidance on potential constraint relaxations to enable the activities to schedule in future scheduler runs. | 翻訳日:2022-09-24 16:38:32 公開日:2020-11-17 |
# 術中ECoGにおける高周波発振(HFO)検出のためのスパイキングニューラルネットワーク(SNN) A Spiking Neural Network (SNN) for detecting High Frequency Oscillations (HFOs) in the intraoperative ECoG ( http://arxiv.org/abs/2011.08783v1 ) ライセンス: Link先を確認 | Karla Burelo and Mohammadali Sharifshazileh and Niklaus Krayenb\"uhl and Georgia Ramantani and Giacomo Indiveri and Johannes Sarnthein | (参考訳) 発作の自由を達成するには、てんかん手術はてんかん原性脳組織の完全切除が必要である。
術中ECoG記録では, てんかん原性組織から発生する高周波発振(HFOs)を用いて切除マージンを調整できる。
しかし,HFOの自動検出は依然としてオープンな課題である。
本稿では、ニューロモルフィックハードウェアの実装に最適な自動HFO検出のためのスパイキングニューラルネットワーク(SNN)を提案する。
術中ECoGon-lineから測定したHFO信号に対して,独立ラベル付きデータセットを用いてSNNを訓練した。
高速リップル周波数域(250-500hz)におけるhfosの検出を目標とし,ラベル付きhfoデータと比較した。
シャープな過渡性を抑制し,その効果をECoGデータセット上で実証するために,新しい人工物拒絶機構をSNNに付与した。
このSNNによって検出されたHFOレート(中間6.6 HFO/min)は、データセット(58分、16分)で公表されたものと同等である。
術後発作は8例中100%の精度で「予測」された。
これらの結果は, てんかん原性領域の切除を誘導するためにてんかん手術中に使用可能な, リアルタイムな携帯型hfo検出システムの構築に向けたさらなる一歩である。 To achieve seizure freedom, epilepsy surgery requires the complete resection of the epileptogenic brain tissue. In intraoperative ECoG recordings, high frequency oscillations (HFOs) generated by epileptogenic tissue can be used to tailor the resection margin. However, automatic detection of HFOs in real-time remains an open challenge. Here we present a spiking neural network (SNN) for automatic HFO detection that is optimally suited for neuromorphic hardware implementation. We trained the SNN to detect HFO signals measured from intraoperative ECoG on-line, using an independently labeled dataset. We targeted the detection of HFOs in the fast ripple frequency range (250-500 Hz) and compared the network results with the labeled HFO data. We endowed the SNN with a novel artifact rejection mechanism to suppress sharp transients and demonstrate its effectiveness on the ECoG dataset. The HFO rates (median 6.6 HFO/min in pre-resection recordings) detected by this SNN are comparable to those published in the dataset (58 min, 16 recordings). The postsurgical seizure outcome was "predicted" with 100% accuracy for all 8 patients. These results provide a further step towards the construction of a real-time portable battery-operated HFO detection system that can be used during epilepsy surgery to guide the resection of the epileptogenic zone. | 翻訳日:2022-09-24 16:38:00 公開日:2020-11-17 |
# Vis-CRF - 振動の古典的受容場モデル Vis-CRF, A Classical Receptive Field Model for VISION ( http://arxiv.org/abs/2011.08363v1 ) ライセンス: Link先を確認 | Nasim Nematzadeh, David MW Powers, Trent Lewis | (参考訳) 過去10年間で、様々な新しい神経生理学的実験によって、網膜処理の時期と場所、そしてさらなる処理のために大脳皮質に送られる網膜表現の性質に関する新たな洞察がもたらされた。
これらの神経生物学的な発見に基づいて、我々は以前の研究で、幾何学的錯覚が網膜で実行されるマルチスケール視覚処理の相互作用によって部分的に説明されることを示すコンピュータシミュレーションエビデンスを提供した。
Vis-CRFという名前の網膜ステージモデルの出力は、自然画像のサンプルといくつかの種類のティルトイルシオンのために提示され、最終傾きの知覚は、ガウスの差分(DoG)の複数スケールの処理と、前景と背景要素の知覚的相互作用(Nematzadeh and Powers, 2019; Nematzadeh, 2018; Nematzadeh, Powers and Lewis, 2017; Nematzadeh, Lewis and Powers, 2015; Nematzadeh, Lewis and Powers, 2015)から生じる。 Over the last decade, a variety of new neurophysiological experiments have led to new insights as to how, when and where retinal processing takes place, and the nature of the retinal representation encoding sent to the cortex for further processing. Based on these neurobiological discoveries, in our previous work, we provided computer simulation evidence to suggest that Geometrical illusions are explained in part, by the interaction of multiscale visual processing performed in the retina. The output of our retinal stage model, named Vis-CRF, is presented here for a sample of natural image and for several types of Tilt Illusion, in which the final tilt percept arises from multiple scale processing of Difference of Gaussians (DoG) and the perceptual interaction of foreground and background elements (Nematzadeh and Powers, 2019; Nematzadeh, 2018; Nematzadeh, Powers and Lewis, 2017; Nematzadeh, Lewis and Powers, 2015). | 翻訳日:2022-09-24 16:37:39 公開日:2020-11-17 |
# 公開型COVID-19データセットから抽出した深部特徴量の決定と特徴量融合 Decision and Feature Level Fusion of Deep Features Extracted from Public COVID-19 Data-sets ( http://arxiv.org/abs/2011.08528v1 ) ライセンス: Link先を確認 | Hamza Osman Ilhan, Gorkem Serbes, Nizamettin Aydin | (参考訳) 感染性肺疾患であるコロナウイルス(COVID-19)は何百万人もの人々に影響を与え、WHOによる世界的なパンデミックと宣言されている。
新型コロナウイルスの感染性が高く、患者に重篤な症状を引き起こす可能性が高く、迅速かつ正確な診断ツールの開発が重要視されている。
リアルタイム逆転写重合鎖反応(RT-PCR)は、粘液と唾液の混合物を用いてコロナウイルスRNAの存在を検出するために用いられる。
しかし、RT-PCRは特に初期において低感度である。
そのため, 胸部x線撮影は, 画像撮影速度の速さ, 著明なコスト低減, 放射線照射量の減少などにより, 早期診断において増加している。
本研究では,畳み込みニューラルネットワーク(cnns)に基づくx線画像のコンピュータ支援診断システムを提案する。
CNNを用いて抽出した深部特徴集合を特徴レベル融合に連結し, 新型コロナウイルス, 肺炎, ノンフィンディングのクラスを識別する目的で, 判定レベル融合のアイデアとして複数の分類器に供給した。
決定レベルの融合の考え方では、多数決方式が分類器の結果決定に適用された。
得られた精度値と混乱行列に基づく評価基準を3つの段階的に生成したデータセットに対して提示した。
既存のcovid-19検出研究よりも優れた手法の側面について検討し, クラス活性化マッピング手法を用いて, 提案手法の融合性能を視覚的に検証した。
実験の結果,既存の研究と同等の精度と高い精度/リコール値で証明された高いcovid-19検出性能が得られた。 The Coronavirus (COVID-19), which is an infectious pulmonary disorder, has affected millions of people and has been declared as a global pandemic by the WHO. Due to highly contagious nature of COVID-19 and its high possibility of causing severe conditions in the patients, the development of rapid and accurate diagnostic tools have gained importance. The real-time reverse transcription-polymerize chain reaction (RT-PCR) is used to detect the presence of Coronavirus RNA by using the mucus and saliva mixture samples. But, RT-PCR suffers from having low-sensitivity especially in the early stage. Therefore, the usage of chest radiography has been increasing in the early diagnosis of COVID-19 due to its fast imaging speed, significantly low cost and low dosage exposure of radiation. In our study, a computer-aided diagnosis system for X-ray images based on convolutional neural networks (CNNs), which can be used by radiologists as a supporting tool in COVID-19 detection, has been proposed. Deep feature sets extracted by using CNNs were concatenated for feature level fusion and fed to multiple classifiers in terms of decision level fusion idea with the aim of discriminating COVID-19, pneumonia and no-finding classes. In the decision level fusion idea, a majority voting scheme was applied to the resultant decisions of classifiers. The obtained accuracy values and confusion matrix based evaluation criteria were presented for three progressively created data-sets. The aspects of the proposed method that are superior to existing COVID-19 detection studies have been discussed and the fusion performance of proposed approach was validated visually by using Class Activation Mapping technique. The experimental results show that the proposed approach has attained high COVID-19 detection performance that was proven by its comparable accuracy and superior precision/recall values with the existing studies. | 翻訳日:2022-09-24 16:30:40 公開日:2020-11-17 |
# 視覚オドメトリーのための自己注意の探索 Exploring Self-Attention for Visual Odometry ( http://arxiv.org/abs/2011.08634v1 ) ライセンス: Link先を確認 | Hamed Damirchi, Rooholla Khorrambakht and Hamid D. Taghirad | (参考訳) ビジュアルオドメトリーネットワークは、連続するフレーム間のエゴモーションを導出するために、トレーニング済みの光フローネットワークを一般的に使用する。
これらのネットワークから抽出された特徴は、フレーム間のすべてのピクセルの動きを表す。
しかし,シーン内に動的物体とテクスチャのない表面が存在するため,各画像領域の運動情報は,位置の漸進的変化の導出における動的物体の非効率性から,オードメトリーの推測には信頼性が低い。
この領域の最近の研究は、より洗練されたエゴモーション情報を抽出するための特徴マップの動的リウィーディングを容易にするために、その構造に注意機構が欠如している。
本稿では,視覚オドメトリーにおけるセルフアテンションの有効性について検討する。
我々はSOTA法に対する定性的および定量的な結果について報告する。
さらに、特別に設計された実験とともに、塩分濃度に基づく研究を用いて、VOに対する自己意識の影響を調査する。
実験により, 自己注意により, 優れた特徴の抽出が可能であり, このような構造を欠くネットワークに比べて, 優れた計測性能が得られることがわかった。 Visual odometry networks commonly use pretrained optical flow networks in order to derive the ego-motion between consecutive frames. The features extracted by these networks represent the motion of all the pixels between frames. However, due to the existence of dynamic objects and texture-less surfaces in the scene, the motion information for every image region might not be reliable for inferring odometry due to the ineffectiveness of dynamic objects in derivation of the incremental changes in position. Recent works in this area lack attention mechanisms in their structures to facilitate dynamic reweighing of the feature maps for extracting more refined egomotion information. In this paper, we explore the effectiveness of self-attention in visual odometry. We report qualitative and quantitative results against the SOTA methods. Furthermore, saliency-based studies alongside specially designed experiments are utilized to investigate the effect of self-attention on VO. Our experiments show that using self-attention allows for the extraction of better features while achieving a better odometry performance compared to networks that lack such structures. | 翻訳日:2022-09-24 16:30:11 公開日:2020-11-17 |
# 実時間物体検出のためのモダリティビュッフェ Modality-Buffet for Real-Time Object Detection ( http://arxiv.org/abs/2011.08726v1 ) ライセンス: Link先を確認 | Nicolai Dorka, Johannes Meyer, Wolfram Burgard | (参考訳) 軽量ハードウェアを用いたビデオのリアルタイムオブジェクト検出は、多くのロボットタスクの重要なコンポーネントである。
異なるモダリティと異なる計算複雑性を持つ検出器は、異なるトレードオフを提供する。
1つの選択肢は、フレーム毎にすべてのモダリティを同時に予測できる非常に軽量なモデルを持つことです。
しかし、ある状況(例えば静的なシーン)では、より複雑だがより正確なモデルを持ち、処理時にやってくるフレームの以前の予測から外挿する方がよいかもしれない。
我々は、このタスクを逐次決定問題として定式化し、強化学習(RL)を使用して、次の予測を行うために、異なる対象検出器のポートフォリオから検出するRGB入力から決定するポリシーを生成する。
rlエージェントの目的は、画像当たりの予測の精度を最大化することである。
Waymo Open Datasetのアプローチを評価し,各検出器の性能を上回っていることを示す。 Real-time object detection in videos using lightweight hardware is a crucial component of many robotic tasks. Detectors using different modalities and with varying computational complexities offer different trade-offs. One option is to have a very lightweight model that can predict from all modalities at once for each frame. However, in some situations (e.g., in static scenes) it might be better to have a more complex but more accurate model and to extrapolate from previous predictions for the frames coming in at processing time. We formulate this task as a sequential decision making problem and use reinforcement learning (RL) to generate a policy that decides from the RGB input which detector out of a portfolio of different object detectors to take for the next prediction. The objective of the RL agent is to maximize the accuracy of the predictions per image. We evaluate the approach on the Waymo Open Dataset and show that it exceeds the performance of each single detector. | 翻訳日:2022-09-24 16:29:51 公開日:2020-11-17 |
# ホルター心電図記録のノイズレジリエント自動解釈 Noise-Resilient Automatic Interpretation of Holter ECG Recordings ( http://arxiv.org/abs/2011.09303v1 ) ライセンス: Link先を確認 | Konstantin Egorov, Elena Sokolova, Manvel Avetisian, Alexander Tuzhilin | (参考訳) ホルターモニタリング、長期心電図記録(24時間以上)には、患者に関する貴重な診断情報が大量に含まれている。
その解釈は、すべての心拍を分類する必要があるため、分析する医師にとって困難かつ時間のかかる作業となり、自動解釈のための高精度な方法が必要となる。
本稿では,ホルター記録を雑音に頑健に解析する3段階プロセスを提案する。
第1段階は、心拍位置を検出するエンコーダデコーダアーキテクチャを備えたセグメンテーションニューラルネットワーク(NN)である。
第2段階は、心拍を幅または狭く分類する分類nnである。
第3段階として,患者の機能とアプローチのさらなる向上を図ったNN機能の上に,勾配向上決定木(GBDT)を配置した。
この研究の一環として、経験豊富な心科医が注釈を付けた患者の5095ホルター記録を取得した。
3人の心臓科医の委員会が、テストセットの291例の根拠真理の注釈役を務めた。
提案手法は,2つの商用ソフトウェアパッケージと以前に文献に発表されていたいくつかの手法を含む,選択されたベースラインを上回っている。 Holter monitoring, a long-term ECG recording (24-hours and more), contains a large amount of valuable diagnostic information about the patient. Its interpretation becomes a difficult and time-consuming task for the doctor who analyzes them because every heartbeat needs to be classified, thus requiring highly accurate methods for automatic interpretation. In this paper, we present a three-stage process for analysing Holter recordings with robustness to noisy signal. First stage is a segmentation neural network (NN) with encoderdecoder architecture which detects positions of heartbeats. Second stage is a classification NN which will classify heartbeats as wide or narrow. Third stage in gradient boosting decision trees (GBDT) on top of NN features that incorporates patient-wise features and further increases performance of our approach. As a part of this work we acquired 5095 Holter recordings of patients annotated by an experienced cardiologist. A committee of three cardiologists served as a ground truth annotators for the 291 examples in the test set. We show that the proposed method outperforms the selected baselines, including two commercial-grade software packages and some methods previously published in the literature. | 翻訳日:2022-09-24 16:29:05 公開日:2020-11-17 |
# 時系列トレンド検出のためのウェーブレットに基づくクラスタリング Wavelet-based clustering for time-series trend detection ( http://arxiv.org/abs/2011.12111v1 ) ライセンス: Link先を確認 | Vincent Talbo, Mehdi Haddab, Derek Aubert, Redha Moulla | (参考訳) 本稿では,時系列のクラスタリングを行う手法について,その傾向(増加・停滞・減少・季節的行動)に基づいて紹介する。
離散ウェーブレット変換により得られる係数の選択に対して$k$-means法を用いてクラスタリングを行い、次元を大幅に削減する。
本手法は、61店舗の日当売上時間帯864店舗のクラスタリングのユースケースに適用する。
結果は、異なるマザーウェーブレットに対して示される。
各ウェーブレット係数とそのレベルの重要性は、選択したウェーブレット係数からの信号の再構成とともに主成分分析により議論される。 In this paper, we introduce a method performing clustering of time-series on the basis of their trend (increasing, stagnating/decreasing, and seasonal behavior). The clustering is performed using $k$-means method on a selection of coefficients obtained by discrete wavelet transform, reducing drastically the dimensionality. The method is applied on an use case for the clustering of a 864 daily sales revenue time-series for 61 retail shops. The results are presented for different mother wavelets. The importance of each wavelet coefficient and its level is discussed thanks to a principal component analysis along with a reconstruction of the signal from the selected wavelet coefficients. | 翻訳日:2022-09-24 16:28:47 公開日:2020-11-17 |
# 深部ニューラルネットワーク(SVANN)の空間変数化に向けて : 結果の概要 Towards Spatial Variability Aware Deep Neural Networks (SVANN): A Summary of Results ( http://arxiv.org/abs/2011.08992v1 ) ライセンス: Link先を確認 | Jayant Gupta (1), Yiqun Xie (1) and Shashi Shekhar (1) ((1) University of Minnesota) | (参考訳) 気候帯、USDA植物硬度帯、地球環境タイプ(森林、草原、湿地、砂漠など)を含む多くの地表面現象において空間的変動が観測されている。
しかし、現在のディープラーニング手法は、空間的変動を考慮しない単一のディープニューラルネットワークモデルをトレーニングするための、空間的一様完全(OSFA)アプローチに従う。
本研究では,地理的領域毎に異なる深層ニューラルネットワークモデルを構築する空間変数認識型深層ニューラルネットワーク(svann)手法を提案し,検討する。
本手法は,都市庭園の地図作成のための2つの地域からの航空画像を用いて評価する。
実験の結果,svannは都市庭園を識別する精度,リコール,f1-scoreの点でosfaよりも優れた性能を示している。 Spatial variability has been observed in many geo-phenomena including climatic zones, USDA plant hardiness zones, and terrestrial habitat types (e.g., forest, grasslands, wetlands, and deserts). However, current deep learning methods follow a spatial-one-size-fits-all(OSFA) approach to train single deep neural network models that do not account for spatial variability. In this work, we propose and investigate a spatial-variability aware deep neural network(SVANN) approach, where distinct deep neural network models are built for each geographic area. We evaluate this approach using aerial imagery from two geographic areas for the task of mapping urban gardens. The experimental results show that SVANN provides better performance than OSFA in terms of precision, recall,and F1-score to identify urban gardens. | 翻訳日:2022-09-24 16:22:11 公開日:2020-11-17 |
# 高齢者のための自動音声認識システムの改良 Refining Automatic Speech Recognition System for older adults ( http://arxiv.org/abs/2011.08346v1 ) ライセンス: Link先を確認 | Liu Chen, Meysam Asgari | (参考訳) 限られた訓練データを用いた高品質自動音声認識(ASR)システムの構築は、特に狭い対象者にとって困難な課題である。
成人の十分なデータに基づいてトレーニングされたオープンソースasrシステムは,成人と高齢者の音響的ミスマッチにより,高齢者の発話に影響を受けやすい。
12時間のトレーニングデータを用いて,認知障害のある社会的孤立高齢者(80歳以上)を対象としたASRシステムの開発を試みた。
我々は,成人のASRが対象人口に悪影響を及ぼし,伝達学習(TL)がシステムの性能を向上させることを実験的に確認した。
モデルパラメータをチューニングする TL の基本概念に基づいて,アテンション機構を活用して,モデルの中間情報を活用することにより,システムをさらに改良する。
我々のアプローチはtlモデルに対して1.58%の絶対的な改善を達成している。 Building a high quality automatic speech recognition (ASR) system with limited training data has been a challenging task particularly for a narrow target population. Open-sourced ASR systems, trained on sufficient data from adults, are susceptible on seniors' speech due to acoustic mismatch between adults and seniors. With 12 hours of training data, we attempt to develop an ASR system for socially isolated seniors (80+ years old) with possible cognitive impairments. We experimentally identify that ASR for the adult population performs poorly on our target population and transfer learning (TL) can boost the system's performance. Standing on the fundamental idea of TL, tuning model parameters, we further improve the system by leveraging an attention mechanism to utilize the model's intermediate information. Our approach achieves 1.58% absolute improvements over the TL model. | 翻訳日:2022-09-24 16:21:55 公開日:2020-11-17 |
# サービス機能チェーンのためのグラフニューラルネットワークの強化学習 Reinforcement Learning of Graph Neural Networks for Service Function Chaining ( http://arxiv.org/abs/2011.08406v1 ) ライセンス: Link先を確認 | DongNyeong Heo, Doyoung Lee, Hee-Gon Kim, Suhyun Park, Heeyoul Choi | (参考訳) コンピュータネットワークシステムの管理において、仮想ネットワーク機能を持つ物理サーバ(VNF)を介してネットワークトラフィックの効率的な経路を生成することにより、サービス機能連鎖(SFC)モジュールが重要な役割を果たす。
サービスの品質を高めるために、SFCモジュールは動的VNFリソース、様々なリクエスト、トポロジの変更を含む様々なネットワークトポロジ状況においても、有効なパスを迅速に生成する必要がある。
従来の教師付き学習手法では,SFCタスクのネットワーク特徴をグラフニューラルネットワーク(GNN)で表現できることが実証された。
しかし、性能はラベル付きデータを持つ固定トポロジのみに限られていた。
本稿では,ラベルなしデータを用いた各種ネットワークトポロジのトレーニングモデルに対する強化学習手法を適用する。
実験では, 従来の教師付き学習法と比較して, 同様の性能を維持しつつ, 再設計や再学習を行わずに, 新たなトポロジに顕著な柔軟性を示した。 In the management of computer network systems, the service function chaining (SFC) modules play an important role by generating efficient paths for network traffic through physical servers with virtualized network functions (VNF). To provide the highest quality of services, the SFC module should generate a valid path quickly even in various network topology situations including dynamic VNF resources, various requests, and changes of topologies. The previous supervised learning method demonstrated that the network features can be represented by graph neural networks (GNNs) for the SFC task. However, the performance was limited to only the fixed topology with labeled data. In this paper, we apply reinforcement learning methods for training models on various network topologies with unlabeled data. In the experiments, compared to the previous supervised learning method, the proposed methods demonstrated remarkable flexibility in new topologies without re-designing and re-training, while preserving a similar level of performance. | 翻訳日:2022-09-24 16:21:13 公開日:2020-11-17 |
# ベイズ最適化による逆強化学習における報酬関数の効率的な探索 Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization ( http://arxiv.org/abs/2011.08541v1 ) ライセンス: Link先を確認 | Sreejith Balakrishnan, Quoc Phong Nguyen, Bryan Kian Hsiang Low, Harold Soh | (参考訳) 逆強化学習(irl)の問題は,価値アライメントやデモからのロボット学習など,さまざまなタスクに関係している。
近年のアルゴリズム的な貢献にもかかわらず、IRLはその中核にある不適切な問題であり、複数の報酬関数は観測された振る舞いと一致し、実際の報酬関数は事前の知識や補足情報なしでは識別できない。
本稿では,報酬関数空間を効率的に探索することにより,専門家の実証と整合した複数の解を同定する,ベイズ最適化IRL(BO-IRL)というIRLフレームワークを提案する。
BO-IRLはベイズ最適化と新たに提案したカーネルを利用してこれを実現する。
(a)政策不変報酬関数のパラメータを潜在空間内の1つの点に投影し、
(b) 潜在空間の近傍点が同様の可能性を持つ報酬関数に対応することを保証する。
この射影により、潜在空間における標準定常核を用いて、報酬関数空間にまたがる相関を捉えることができる。
合成および実世界の環境(モデルフリーおよびモデルベース)における経験的な結果から、bo-irlは、高価なポリシー最適化の数を最小化しながら、複数の報酬関数を発見できることが示されている。 The problem of inverse reinforcement learning (IRL) is relevant to a variety of tasks including value alignment and robot learning from demonstration. Despite significant algorithmic contributions in recent years, IRL remains an ill-posed problem at its core; multiple reward functions coincide with the observed behavior and the actual reward function is not identifiable without prior knowledge or supplementary information. This paper presents an IRL framework called Bayesian optimization-IRL (BO-IRL) which identifies multiple solutions that are consistent with the expert demonstrations by efficiently exploring the reward function space. BO-IRL achieves this by utilizing Bayesian Optimization along with our newly proposed kernel that (a) projects the parameters of policy invariant reward functions to a single point in a latent space and (b) ensures nearby points in the latent space correspond to reward functions yielding similar likelihoods. This projection allows the use of standard stationary kernels in the latent space to capture the correlations present across the reward function space. Empirical results on synthetic and real-world environments (model-free and model-based) show that BO-IRL discovers multiple reward functions while minimizing the number of expensive exact policy optimizations. | 翻訳日:2022-09-24 16:20:37 公開日:2020-11-17 |
# 機能発明と再利用による機能プログラムの学習 Learning functional programs with function invention and reuse ( http://arxiv.org/abs/2011.08881v1 ) ライセンス: Link先を確認 | Andrei Diaconu | (参考訳) 帰納的プログラミング(英: inductive programming、ip)は、ある形態の背景知識を与えられた例の集合を尊重するプログラムの合成を主な目的とする分野である。
本稿では,IPのサブフィールドであるインダクティブ関数型プログラミング(IFP)について述べる。
我々は,モジュール化された関数型プログラムを生成するというアイデアと,それらのプログラムのサイズを減らすことを目的として,関数の再利用を可能にする方法について検討する。
そこで我々は,この問題を解こうとする2つのアルゴリズムを紹介し,モジュラープログラムの文脈で型ベースプルーニング手法を検討する。
これらのアルゴリズムの1つの実装を実験することにより、様々な問題に対して再利用が重要(重要ではないとしても)であることが示され、関数再利用の恩恵を受ける2つの幅広いプログラムを区別する。 Inductive programming (IP) is a field whose main goal is synthesising programs that respect a set of examples, given some form of background knowledge. This paper is concerned with a subfield of IP, inductive functional programming (IFP). We explore the idea of generating modular functional programs, and how those allow for function reuse, with the aim to reduce the size of the programs. We introduce two algorithms that attempt to solve the problem and explore type based pruning techniques in the context of modular programs. By experimenting with the implementation of one of those algorithms, we show reuse is important (if not crucial) for a variety of problems and distinguished two broad classes of programs that will generally benefit from function reuse. | 翻訳日:2022-09-24 16:19:46 公開日:2020-11-17 |
# 最適性による線形分離 Linear Separation via Optimism ( http://arxiv.org/abs/2011.08797v1 ) ライセンス: Link先を確認 | Rafael Hanashiro, Jacob Abernethy | (参考訳) 二項線形分類は、機械学習文学の初期から研究されてきた。
おそらく最も古典的なアルゴリズムはパーセプトロンであり、例を分類するのに使われる重みベクトルが維持され、不正確な例として付加的な更新が行われる。
パーセプトロンは徹底的に研究され、数十年にわたっていくつかのバージョンが提案されてきた。
パーセプトロンに関する重要な理論的事実は、完全線型分類器がいくつかのマージン $\gamma > 0$ を持つ限り、そのような完全線型分離器を見つけるのに必要な更新数は$\frac{1}{\gamma^2}$であるということである。
完全に対処されたことがないのは、より少ない更新でこれを達成するアルゴリズムが存在するか、ということです。
本論文では,これを肯定的に答える。我々は,$\frac{1}{\gamma}$ update 以下で分離超平面を求める単純な手続きである楽観的パーセプトロンアルゴリズムを提案する。
また,この方法がパーセプトロンを著しく上回ることも実験的に示す。 Binary linear classification has been explored since the very early days of the machine learning literature. Perhaps the most classical algorithm is the Perceptron, where a weight vector used to classify examples is maintained, and additive updates are made as incorrect examples are discovered. The Perceptron has been thoroughly studied and several versions have been proposed over many decades. The key theoretical fact about the Perceptron is that, so long as a perfect linear classifier exists with some margin $\gamma > 0$, the number of required updates to find such a perfect linear separator is bounded by $\frac{1}{\gamma^2}$. What has never been fully addressed is: does there exist an algorithm that can achieve this with fewer updates? In this paper we answer this in the affirmative: we propose the Optimistic Perceptron algorithm, a simple procedure that finds a separating hyperplane in no more than $\frac{1}{\gamma}$ updates. We also show experimentally that this procedure can significantly outperform Perceptron. | 翻訳日:2022-09-24 16:13:25 公開日:2020-11-17 |
# 複数のカーネルによる分散オンライン学習 Distributed Online Learning with Multiple Kernels ( http://arxiv.org/abs/2011.08930v1 ) ライセンス: Link先を確認 | Jeongmin Chae, Songnam Hong | (参考訳) IoT(Internet-of-Things)システムでは、大量のIoTデバイス(センサなど)によって提供される情報的なデータが多数存在する。
このようなデータから関数を学ぶことは、IoTシステムの機械学習タスクに非常に関心がある。
ストリーミング(あるいはシーケンシャル)データに着目し,複数カーネル(DOMKL)を備えたプライバシ保護型分散オンライン学習フレームワークを提案する。
提案するdomklは,マルチプライヤのオンライン交互方向(oadmm)と分散ヘッジアルゴリズムの原理を活用して考案された。
理論上,t 時間スロット上の domkl が最適部分線形後悔を達成できることを証明し,学習関数は,最先端の集中型オンライン学習法と同様に,後見において最良関数のパフォーマンスを達成することを示唆する。
さらに、隣接する学習者の学習関数がTが大きくなるにつれて無視できる差があること、すなわち、いわゆるコンセンサス制約が成立することを保証する。
各種実データを用いた実験により,提案したDOMKLが回帰および時系列予測タスクに与える影響を検証した。 In the Internet-of-Things (IoT) systems, there are plenty of informative data provided by a massive number of IoT devices (e.g., sensors). Learning a function from such data is of great interest in machine learning tasks for IoT systems. Focusing on streaming (or sequential) data, we present a privacy-preserving distributed online learning framework with multiplekernels (named DOMKL). The proposed DOMKL is devised by leveraging the principles of an online alternating direction of multipliers (OADMM) and a distributed Hedge algorithm. We theoretically prove that DOMKL over T time slots can achieve an optimal sublinear regret, implying that every learned function achieves the performance of the best function in hindsight as in the state-of-the-art centralized online learning method. Moreover, it is ensured that the learned functions of any two neighboring learners have a negligible difference as T grows, i.e., the so-called consensus constraints hold. Via experimental tests with various real datasets, we verify the effectiveness of the proposed DOMKL on regression and time-series prediction tasks. | 翻訳日:2022-09-24 16:13:08 公開日:2020-11-17 |
# 大小バッチSGDの相対重み正規化 Contrastive Weight Regularization for Large Minibatch SGD ( http://arxiv.org/abs/2011.08968v1 ) ライセンス: Link先を確認 | Qiwei Yuan, Weizhe Hua, Yi Zhou, Cunxi Yu | (参考訳) minibatch stochastic gradient descent method(sgd)は、大量のデータでディープネットワークをトレーニングできる効率とスケーラビリティのために、ディープラーニングに広く適用されている。
特に分散環境では、SGDは通常大きなバッチサイズで適用される。
しかし、小さなバッチSGDとは対照的に、大規模なバッチSGDで訓練されたニューラルネットワークモデルは、ほとんど一般化できない。
そこで本研究では,深層ネットワークの特定の層を複製し,両層のパラメータを多様にする,新たな正規化手法(DReg)を提案する。
DReg技術は計算オーバーヘッドを少なくする。
さらに,大バッチSGDを用いたDRegを用いたニューラルネットワークの最適化により,収束が著しく向上し,一般化性能が向上することを示す。
また,DRegは運動量を伴う大バッチSGDの収束を促進できることを示した。
DRegは、ディープラーニングにおける大規模バッチトレーニングを加速する単純な正規化トリックとして使用できると考えている。 The minibatch stochastic gradient descent method (SGD) is widely applied in deep learning due to its efficiency and scalability that enable training deep networks with a large volume of data. Particularly in the distributed setting, SGD is usually applied with large batch size. However, as opposed to small-batch SGD, neural network models trained with large-batch SGD can hardly generalize well, i.e., the validation accuracy is low. In this work, we introduce a novel regularization technique, namely distinctive regularization (DReg), which replicates a certain layer of the deep network and encourages the parameters of both layers to be diverse. The DReg technique introduces very little computation overhead. Moreover, we empirically show that optimizing the neural network with DReg using large-batch SGD achieves a significant boost in the convergence and improved generalization performance. We also demonstrate that DReg can boost the convergence of large-batch SGD with momentum. We believe that DReg can be used as a simple regularization trick to accelerate large-batch training in deep learning. | 翻訳日:2022-09-24 16:12:48 公開日:2020-11-17 |
# 極値保存ネットワーク Extreme Value Preserving Networks ( http://arxiv.org/abs/2011.08367v1 ) ライセンス: Link先を確認 | Mingjie Sun, Jianguo Li, Changshui Zhang | (参考訳) 近年の証拠では、畳み込みニューラルネットワーク(CNN)はテクスチャに偏り、CNNはテクスチャに反抗する摂動に対して非破壊的である一方で、SIFT(スケール不変の特徴変換)のような従来の堅牢な視覚的特徴は、人間の知覚特性を模倣して、相当なアフィン歪み、ノイズの追加など、堅牢であるように設計されている。
本稿では,SIFTの優れた特性を活用してCNNアーキテクチャを改良し,精度と堅牢性を向上させることを目的とする。
SIFTからスケールスペースの極値の概念を借用し、極値保存ネットワーク(EVPNets)を提案する。
実験により、EVPNetは従来のCNNと同じような、あるいはより正確な精度を達成でき、敵の訓練を受けなくても、敵の攻撃(FGSM、PGD、etc)に対してより優れた堅牢性を達成できることが示された。 Recent evidence shows that convolutional neural networks (CNNs) are biased towards textures so that CNNs are non-robust to adversarial perturbations over textures, while traditional robust visual features like SIFT (scale-invariant feature transforms) are designed to be robust across a substantial range of affine distortion, addition of noise, etc with the mimic of human perception nature. This paper aims to leverage good properties of SIFT to renovate CNN architectures towards better accuracy and robustness. We borrow the scale-space extreme value idea from SIFT, and propose extreme value preserving networks (EVPNets). Experiments demonstrate that EVPNets can achieve similar or better accuracy than conventional CNNs, while achieving much better robustness on a set of adversarial attacks (FGSM,PGD,etc) even without adversarial training. | 翻訳日:2022-09-24 16:12:32 公開日:2020-11-17 |
# 事前訓練された表情認識モデルを用いた領域適応に基づく画像認識手法 Domain Adaptation based Technique for Image Emotion Recognition using Pre-trained Facial Expression Recognition Models ( http://arxiv.org/abs/2011.08388v1 ) ライセンス: Link先を確認 | Puneet Kumar and Balasubramanian Raman | (参考訳) 本稿では,顔,非顔,非人的成分を含む画像の感情認識のための領域適応に基づく手法を提案する。
我々はまた, 区間スコアの観点から, 提案するシステムの予測を説明する新しい手法も提案している。
イメージ感情認識は、グラフィック、ゲーム、アニメーション、エンターテイメント、映画撮影に有用である。
しかし、十分にラベルされた大規模データセットと事前学習されたモデルは、画像感情認識には使用できない。
この課題を克服するために,事前学習した表情認識モデルに適応する注目畳み込みネットワークに基づく深層学習手法を提案する。
画像の視覚的特徴を検出し、それらに基づいて感情分類を行う。
実験はFlickrの画像データセット上で行われ、画像は"angry"、"happy"、"sad"、"neutral"の感情クラスに分類されている。
提案システムは、画像の感情認識に63.87%の精度でベンチマーク結果よりも優れた性能を示した。
また,提案システムの予測を説明するために,様々な感情クラスの埋め込みプロットを分析した。 In this paper, a domain adaptation based technique for recognizing the emotions in images containing facial, non-facial, and non-human components has been proposed. We have also proposed a novel technique to explain the proposed system's predictions in terms of Intersection Score. Image emotion recognition is useful for graphics, gaming, animation, entertainment, and cinematography. However, well-labeled large scale datasets and pre-trained models are not available for image emotion recognition. To overcome this challenge, we have proposed a deep learning approach based on an attentional convolutional network that adapts pre-trained facial expression recognition models. It detects the visual features of an image and performs emotion classification based on them. The experiments have been performed on the Flickr image dataset, and the images have been classified in 'angry,' 'happy,' 'sad,' and 'neutral' emotion classes. The proposed system has demonstrated better performance than the benchmark results with an accuracy of 63.87% for image emotion recognition. We have also analyzed the embedding plots for various emotion classes to explain the proposed system's predictions. | 翻訳日:2022-09-24 16:12:13 公開日:2020-11-17 |
# 異常検出のための正規データのサブクラスタ Sub-clusters of Normal Data for Anomaly Detection ( http://arxiv.org/abs/2011.08408v1 ) ライセンス: Link先を確認 | Gahye Lee and Seungkyu Lee | (参考訳) データ分析における異常検出は、現実のアプリケーションでは興味深いが、それでも難しい研究トピックである。
データ次元の複雑さが増すにつれて、効果的な異常特徴付けのために、その記述における意味的文脈を理解する必要がある。
しかし、既存の異常検出手法は、ImageNetのような高次元データで限られた性能を示す。
これまでの研究では、mnistやcifar-10など、低次元でクリーンで分離されたデータセットのパフォーマンスを評価している。
本稿では,高次元および複素正規データを用いた異常検出について検討する。
我々の観察では、一般に、異常データは、通常のデータのセマンティックサブクラスタの定義にも使える意味論的に説明可能な特徴によって定義される。
与えられた正規データのサブクラスタを意味的に分離する適度に良い特徴空間が存在すると仮定すると、異常な異常も通常のデータとよく区別できる。
与えられた正規データに対してセマンティッククラスタリングを行い、分類器を訓練して、異常検出が最終的に実行される識別的特徴空間を学習する。
MNIST, CIFAR-10, ImageNetと正常・異常データの組み合わせによる慎重かつ広範囲な実験結果から, 異常検出方式は特に高次元実世界の画像において, 技術手法の状況よりも優れていることを示す。 Anomaly detection in data analysis is an interesting but still challenging research topic in real world applications. As the complexity of data dimension increases, it requires to understand the semantic contexts in its description for effective anomaly characterization. However, existing anomaly detection methods show limited performances with high dimensional data such as ImageNet. Existing studies have evaluated their performance on low dimensional, clean and well separated data set such as MNIST and CIFAR-10. In this paper, we study anomaly detection with high dimensional and complex normal data. Our observation is that, in general, anomaly data is defined by semantically explainable features which are able to be used in defining semantic sub-clusters of normal data as well. We hypothesize that if there exists reasonably good feature space semantically separating sub-clusters of given normal data, unseen anomaly also can be well distinguished in the space from the normal data. We propose to perform semantic clustering on given normal data and train a classifier to learn the discriminative feature space where anomaly detection is finally performed. Based on our careful and extensive experimental evaluations with MNIST, CIFAR-10, and ImageNet with various combinations of normal and anomaly data, we show that our anomaly detection scheme outperforms state of the art methods especially with high dimensional real world images. | 翻訳日:2022-09-24 16:11:57 公開日:2020-11-17 |
# ビデオ表現の教師なし乱れの相互情報に基づく方法 Mutual Information Based Method for Unsupervised Disentanglement of Video Representation ( http://arxiv.org/abs/2011.08614v1 ) ライセンス: Link先を確認 | P Aditya Sreekar, Ujjwal Tiwari and Anoop Namboodiri | (参考訳) ビデオ予測は、ビデオシーケンスに属する所定のコンテキストフレームから将来のフレームを予測する、興味深い、挑戦的なタスクである。
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
本研究では,映像表現をコンテンツに分解することで高次元映像フレームを予測し,予測し易い低次元ポーズ潜時変数を列挙することで,MIPAE(Multual Information Predictive Auto-Encoder)フレームワークを提案する。
標準LSTMネットワークは、これらの低次元ポーズ表現を予測するために使用される。
コンテンツと予測されたポーズ表現をデコードして将来のフレームを生成する。
本手法は,ビデオの潜在生成因子の時間的構造と新たな相互情報損失を活用し,異種ビデオ表現を学習する。
また,DSprite と MPI3D-real データセット上でのアンタングルメントの有効性を定量的に把握するために,相互情報ギャップ(MIG)に基づくメトリクスを提案する。
MIGスコアはMIPAEによって予測されるフレームの視覚的優位性と相関する。
また,LPIPS,SSIM,PSNRの評価指標について定量的に比較した。 Video Prediction is an interesting and challenging task of predicting future frames from a given set context frames that belong to a video sequence. Video prediction models have found prospective applications in Maneuver Planning, Health care, Autonomous Navigation and Simulation. One of the major challenges in future frame generation is due to the high dimensional nature of visual data. In this work, we propose Mutual Information Predictive Auto-Encoder (MIPAE) framework, that reduces the task of predicting high dimensional video frames by factorising video representations into content and low dimensional pose latent variables that are easy to predict. A standard LSTM network is used to predict these low dimensional pose representations. Content and the predicted pose representations are decoded to generate future frames. Our approach leverages the temporal structure of the latent generative factors of a video and a novel mutual information loss to learn disentangled video representations. We also propose a metric based on mutual information gap (MIG) to quantitatively access the effectiveness of disentanglement on DSprites and MPI3D-real datasets. MIG scores corroborate with the visual superiority of frames predicted by MIPAE. We also compare our method quantitatively on evaluation metrics LPIPS, SSIM and PSNR. | 翻訳日:2022-09-24 16:11:38 公開日:2020-11-17 |
# ファウショット学習のためのマルチモーダルプロトタイプネットワーク Multimodal Prototypical Networks for Few-shot Learning ( http://arxiv.org/abs/2011.08899v1 ) ライセンス: Link先を確認 | Frederik Pahde, Mihai Puscas, Tassilo Klein, Moin Nabi | (参考訳) 多くのコンピュータビジョンタスクに例外的な結果をもたらすが、最先端のディープラーニングアルゴリズムは、低いデータシナリオで壊滅的に苦労している。
しかし、追加のモダリティ(例えばテキスト)を持つデータが存在する場合、データの欠如を補償し、分類結果を改善することができる。
このデータの不足を克服するため,我々は,補助的モダリティからのデータを活用することで,少数のシナリオで低人口の埋め込み空間を豊かにすることができるクロスモーダル機能生成フレームワークを設計した。
具体的には,テキストデータを視覚的特徴空間にマッピングしてより信頼性の高いプロトタイプを得る生成モデルを訓練する。
これにより、トレーニング中に追加のモダリティ(テキストなど)からデータを利用することができ、テスト時の究極のタスクは視覚的データのみで分類される。
このような場合、CUB-200およびオックスフォード102データセット上で、近隣の分類は実現可能なアプローチであり、最先端の単一モーダルおよびマルチモーダルの少数ショット学習手法よりも優れていることを示す。 Although providing exceptional results for many computer vision tasks, state-of-the-art deep learning algorithms catastrophically struggle in low data scenarios. However, if data in additional modalities exist (e.g. text) this can compensate for the lack of data and improve the classification results. To overcome this data scarcity, we design a cross-modal feature generation framework capable of enriching the low populated embedding space in few-shot scenarios, leveraging data from the auxiliary modality. Specifically, we train a generative model that maps text data into the visual feature space to obtain more reliable prototypes. This allows to exploit data from additional modalities (e.g. text) during training while the ultimate task at test time remains classification with exclusively visual data. We show that in such cases nearest neighbor classification is a viable approach and outperform state-of-the-art single-modal and multimodal few-shot learning methods on the CUB-200 and Oxford-102 datasets. | 翻訳日:2022-09-24 16:10:52 公開日:2020-11-17 |
# モデル解釈における精度の影響 Impact of Accuracy on Model Interpretations ( http://arxiv.org/abs/2011.09903v1 ) ライセンス: Link先を確認 | Brian Liu and Madeleine Udell | (参考訳) モデル解釈は、機械学習モデルから現実世界の洞察を抽出するためにしばしば用いられる。
これらの解釈には幅広い応用があり、ビジネスレコメンデーションとして提示したり、モデルバイアスを評価するために使用することができる。
データサイエンティストは、現実世界の影響を促進するために信頼できる解釈を選択することが不可欠である。
そのためには、モデルの精度が標準解釈ツールの品質にどのように影響するかを理解する必要がある。
本稿では,モデルの予測精度が解釈品質に与える影響について検討する。
本稿では,解釈の質を定量化する2つの指標を提案し,これらの指標がモデル精度とどのように異なるかを検証する実験を設計する。
様々な手法で正確にモデル化できるデータセットの場合、より単純な手法はより高い品質の解釈をもたらす。
また,モデル精度の低下に対して,どの解釈が最善かを特定する。 Model interpretations are often used in practice to extract real world insights from machine learning models. These interpretations have a wide range of applications; they can be presented as business recommendations or used to evaluate model bias. It is vital for a data scientist to choose trustworthy interpretations to drive real world impact. Doing so requires an understanding of how the accuracy of a model impacts the quality of standard interpretation tools. In this paper, we will explore how a model's predictive accuracy affects interpretation quality. We propose two metrics to quantify the quality of an interpretation and design an experiment to test how these metrics vary with model accuracy. We find that for datasets that can be modeled accurately by a variety of methods, simpler methods yield higher quality interpretations. We also identify which interpretation method works the best for lower levels of model accuracy. | 翻訳日:2022-09-24 16:04:09 公開日:2020-11-17 |
# ガウス過程のスパーススペクトル近似のサンプル複雑性の再検討 Revisiting the Sample Complexity of Sparse Spectrum Approximation of Gaussian Processes ( http://arxiv.org/abs/2011.08432v1 ) ライセンス: Link先を確認 | Quang Minh Hoang, Trong Nghia Hoang, Hai Pham, David P. Woodruff | (参考訳) 本稿では,ガウス過程に対して,パラメータ空間全体に対して同時に保持可能な保証付きスケーラブルな近似を導入する。
この近似は、スパーススペクトルガウス過程(ssgps)のサンプル複雑性解析の改善から得られる。
特に,あるデータ分割条件下では,ssgpの予測とモデルのエビデンス(訓練用)が,サンプル複雑性の低いgpの全値とよく近似できることを示す。
我々はまた、遅延入力座標をよく分離されたクラスタに分解する潜在空間を求める新しい自動符号化アルゴリズムを開発した。
提案手法をいくつかのベンチマークで検証し,理論解析を裏付ける有望な結果を得た。 We introduce a new scalable approximation for Gaussian processes with provable guarantees which hold simultaneously over its entire parameter space. Our approximation is obtained from an improved sample complexity analysis for sparse spectrum Gaussian processes (SSGPs). In particular, our analysis shows that under a certain data disentangling condition, an SSGP's prediction and model evidence (for training) can well-approximate those of a full GP with low sample complexity. We also develop a new auto-encoding algorithm that finds a latent space to disentangle latent input coordinates into well-separated clusters, which is amenable to our sample complexity analysis. We validate our proposed method on several benchmarks with promising results supporting our theoretical analysis. | 翻訳日:2022-09-24 16:03:55 公開日:2020-11-17 |
# 変分オートエンコーダの帰納的推論 Recursive Inference for Variational Autoencoders ( http://arxiv.org/abs/2011.08544v1 ) ライセンス: Link先を確認 | Minyoung Kim, Vladimir Pavlovic | (参考訳) 従来の変分オートコーダ(VAE)の推論ネットワークは、典型的には、インスタンスワイド変分最適化と比較して比較的不正確な後部近似をもたらす。
この欠点に対処するために、最近の半修正手法が提案されているが、反復的な勾配更新手順は計算的に要求される。
本稿では,これらの問題に対処するために,正確な補正推論アルゴリズムを提案する。
本稿では,VAEに対する新しい再帰混合推定アルゴリズムを提案する。これは,変動と真の後部とのばらつきを最大に抑えるために,電流混合を新しい成分で反復的に増強するものである。
関数勾配法を用いて,新しい混合成分を選択するための直感的な学習基準を考案する。新しい成分は,データの可能性(より低い境界)を改善し,同時に,現在の混合成分の分布から可能な限り逸脱し,表現の多様性を増大させる。
最近提案されたboosted variational inference (bvi)と比較すると,本手法はbviの非amortized single optimizationインスタンスとは対照的に,amortized inferenceに依存している。
このアプローチの重要な利点は、テスト時の推論が混合推論ネットワークを通る単一のフィードフォワードパスを必要とすることである。
提案手法は,いくつかのベンチマークデータセットの最先端データよりも高いテスト結果が得られることを示す。 Inference networks of traditional Variational Autoencoders (VAEs) are typically amortized, resulting in relatively inaccurate posterior approximation compared to instance-wise variational optimization. Recent semi-amortized approaches were proposed to address this drawback; however, their iterative gradient update procedures can be computationally demanding. To address these issues, in this paper we introduce an accurate amortized inference algorithm. We propose a novel recursive mixture estimation algorithm for VAEs that iteratively augments the current mixture with new components so as to maximally reduce the divergence between the variational and the true posteriors. Using the functional gradient approach, we devise an intuitive learning criteria for selecting a new mixture component: the new component has to improve the data likelihood (lower bound) and, at the same time, be as divergent from the current mixture distribution as possible, thus increasing representational diversity. Compared to recently proposed boosted variational inference (BVI), our method relies on amortized inference in contrast to BVI's non-amortized single optimization instance. A crucial benefit of our approach is that the inference at test time requires a single feed-forward pass through the mixture inference network, making it significantly faster than the semi-amortized approaches. We show that our approach yields higher test data likelihood than the state-of-the-art on several benchmark datasets. | 翻訳日:2022-09-24 16:03:25 公開日:2020-11-17 |
# DS-UI:不確かさ推論のためのガウス混合モデルのデュアルスーパービジョン混合 DS-UI: Dual-Supervised Mixture of Gaussian Mixture Models for Uncertainty Inference ( http://arxiv.org/abs/2011.08595v1 ) ライセンス: Link先を確認 | Jiyang Xie and Zhanyu Ma and Jing-Hao Xue and Guoqiang Zhang and Jun Guo | (参考訳) 本稿では、ディープニューラルネットワーク(DNN)に基づく画像認識において、ベイズ推定に基づく不確実性推論(UI)を改善するための二重教師付き不確実性推論(DS-UI)フレームワークを提案する。
DS-UIでは、最後の完全連結(FC)層であるDNNの分類器とガウス混合モデル(MoGMM)の混合を組み合わせ、MoGMM-FC層を得る。
DNNの出力の手段やモードのみを計算する既存のDNNのUI手法とは異なり、提案したMoGMM-FC層は分類器の入力である特徴の確率的インタプリタとして機能し、DS-UIの確率密度を直接計算する。
さらに,MoGMM-FC層最適化のための二重教師付き確率勾配に基づく変分ベイズ (DS-SGVB) アルゴリズムを提案する。
従来のSGVBや他のUIメソッドの最適化アルゴリズムとは異なり、DS-SGVBは、MoGMMの各ガウス混合モデル(GMM)の特定のクラスのサンプルをモデル化するだけでなく、GMMの他のクラスからの負のサンプルも考慮し、クラス内距離を削減し、クラス間マージンを同時に拡大し、DS-UIにおけるMoGMM-FC層の学習能力を高める。
実験の結果,DS-UIは誤分類検出において最先端のUI手法よりも優れていた。
さらに, 領域外/分布検出におけるDS-UIの評価を行い, 統計的に有意な改善が認められた。
特徴空間の可視化はDS-UIの優位性を示している。 This paper proposes a dual-supervised uncertainty inference (DS-UI) framework for improving Bayesian estimation-based uncertainty inference (UI) in deep neural network (DNN)-based image recognition. In the DS-UI, we combine the classifier of a DNN, i.e., the last fully-connected (FC) layer, with a mixture of Gaussian mixture models (MoGMM) to obtain an MoGMM-FC layer. Unlike existing UI methods for DNNs, which only calculate the means or modes of the DNN outputs' distributions, the proposed MoGMM-FC layer acts as a probabilistic interpreter for the features that are inputs of the classifier to directly calculate the probability density of them for the DS-UI. In addition, we propose a dual-supervised stochastic gradient-based variational Bayes (DS-SGVB) algorithm for the MoGMM-FC layer optimization. Unlike conventional SGVB and optimization algorithms in other UI methods, the DS-SGVB not only models the samples in the specific class for each Gaussian mixture model (GMM) in the MoGMM, but also considers the negative samples from other classes for the GMM to reduce the intra-class distances and enlarge the inter-class margins simultaneously for enhancing the learning ability of the MoGMM-FC layer in the DS-UI. Experimental results show the DS-UI outperforms the state-of-the-art UI methods in misclassification detection. We further evaluate the DS-UI in open-set out-of-domain/-distribution detection and find statistically significant improvements. Visualizations of the feature spaces demonstrate the superiority of the DS-UI. | 翻訳日:2022-09-24 16:03:03 公開日:2020-11-17 |
# サーロゲート構成と逆モデリングのための理論誘導オートエンコーダ Theory-guided Auto-Encoder for Surrogate Construction and Inverse Modeling ( http://arxiv.org/abs/2011.08618v1 ) ライセンス: Link先を確認 | Nanzhe Wang, Haibin Chang, Dongxiao Zhang | (参考訳) サロゲート構成のために理論誘導オートエンコーダ(tgae)フレームワークが提案され、さらに不確かさの定量化や逆モデリングタスクに使用される。
このフレームワークは、理論誘導トレーニングプロセスを通じて、畳み込みニューラルネットワーク(CNN)のAuto-Encoder(またはEncoder-Decoder)アーキテクチャに基づいて構築されている。
理論誘導トレーニングを実現するために, 解析問題の制御方程式を離散化することができ, 有限差分スキームをcnnの訓練に組み込むことができる。
離散化された支配方程式の残余とデータミスマッチは、TgAEの損失関数を構成する。
トレーニングされたTgAEは、モデルパラメータとレスポンスの関係を限定ラベル付きデータで近似するサロゲートを構築するために使用することができる。
TgAEの性能をテストするために, 地下流れの事例がいくつか紹介されている。
その結果,TgAEサロゲートの精度は良好であり,TgAEサロゲートでは不確実性定量化タスクの効率が向上できることがわかった。
TgAEは相関長とばらつきが異なる場合にも優れた外挿能力を示す。
さらに、パラメータ反転タスクをTgAEサロゲートで実装し、良好な結果を得ることができる。 A Theory-guided Auto-Encoder (TgAE) framework is proposed for surrogate construction and is further used for uncertainty quantification and inverse modeling tasks. The framework is built based on the Auto-Encoder (or Encoder-Decoder) architecture of convolutional neural network (CNN) via a theory-guided training process. In order to achieve the theory-guided training, the governing equations of the studied problems can be discretized and the finite difference scheme of the equations can be embedded into the training of CNN. The residual of the discretized governing equations as well as the data mismatch constitute the loss function of the TgAE. The trained TgAE can be used to construct a surrogate that approximates the relationship between the model parameters and responses with limited labeled data. In order to test the performance of the TgAE, several subsurface flow cases are introduced. The results show the satisfactory accuracy of the TgAE surrogate and efficiency of uncertainty quantification tasks can be improved with the TgAE surrogate. The TgAE also shows good extrapolation ability for cases with different correlation lengths and variances. Furthermore, the parameter inversion task has been implemented with the TgAE surrogate and satisfactory results can be obtained. | 翻訳日:2022-09-24 16:02:33 公開日:2020-11-17 |
# vibは半分ベイです VIB is Half Bayes ( http://arxiv.org/abs/2011.08711v1 ) ライセンス: Link先を確認 | Alexander A Alemi and Warren R Morningstar and Ben Poole and Ian Fischer and Joshua V Dillon | (参考訳) ここでは,Y の有限サンプリングによるリスクを最小限に抑えつつ,完全経験的目的と完全ベイズ的目的との妥協として変分情報ボットネックを解釈できることを実証する。
このアプローチはベイズの利点のいくつかを提供する一方で、一部の作業しか必要としないと主張する。 In discriminative settings such as regression and classification there are two random variables at play, the inputs X and the targets Y. Here, we demonstrate that the Variational Information Bottleneck can be viewed as a compromise between fully empirical and fully Bayesian objectives, attempting to minimize the risks due to finite sampling of Y only. We argue that this approach provides some of the benefits of Bayes while requiring only some of the work. | 翻訳日:2022-09-24 16:02:14 公開日:2020-11-17 |
# 変圧器変分オートエンコーダを用いた銀河形態の半教師あり学習 Semi-supervised Learning of Galaxy Morphology using Equivariant Transformer Variational Autoencoders ( http://arxiv.org/abs/2011.08714v1 ) ライセンス: Link先を確認 | Mizu Nishikawa-Toomey, Lewis Smith, Yarin Gal | (参考訳) 銀河画像の数の増加は、これらの銀河が人間によってラベル付けされる速度よりもはるかに速い。
しかし,非競合画像群に存在する情報を活用することで,半教師あり学習は,必要なラベル付けを減らし,分類精度を向上する有効な方法となる。
潜在空間からの分類器ネットワークを持つ等価変圧器層を持つ変分オートエンコーダ (vae) を開発した。
この新たなアーキテクチャは、銀河形態分類タスクに銀河動物園データセットを用いた場合、精度の向上につながることを示す。
さらに,ラベルのないデータを用いてvaeの一部として分類器ネットワークを事前トレーニングすることで,ラベルの少ない精度で,出口のアプローチよりも精度が向上することを示す。
この新しいVAEは、人間のラベル付けの努力を減らして銀河形態分類を自動化する可能性がある。 The growth in the number of galaxy images is much faster than the speed at which these galaxies can be labelled by humans. However, by leveraging the information present in the ever growing set of unlabelled images, semi-supervised learning could be an effective way of reducing the required labelling and increasing classification accuracy. We develop a Variational Autoencoder (VAE) with Equivariant Transformer layers with a classifier network from the latent space. We show that this novel architecture leads to improvements in accuracy when used for the galaxy morphology classification task on the Galaxy Zoo data set. In addition we show that pre-training the classifier network as part of the VAE using the unlabelled data leads to higher accuracy with fewer labels compared to exiting approaches. This novel VAE has the potential to automate galaxy morphology classification with reduced human labelling efforts. | 翻訳日:2022-09-24 16:02:07 公開日:2020-11-17 |
# 因果効果推定のための特徴獲得 Confounding Feature Acquisition for Causal Effect Estimation ( http://arxiv.org/abs/2011.08753v1 ) ライセンス: Link先を確認 | Shirly Wang, Seung Eun Yi, Shalmali Joshi, Marzyeh Ghassemi | (参考訳) 観測データからの信頼性の高い治療効果の推定は、すべての統合情報の可用性に依存する。
多くの研究は、観測データから治療効果の推定を目標としているが、共創者に関するより多くの情報を集めることは、しばしばコストや時間を要するという、相反する変数不足の設定においては、比較的少ない作業である。
本研究では,この課題を,因果推論のための統合特徴の獲得問題として捉えた。
私たちの目標は、効率的な平均治療効果の推定につながるサンプルにおいて、固定的で既知の共同創設者のサブセットの値の獲得を優先することにあります。
我々は2つの買収戦略を提案する。
一 共変量バランス(CB)及び
二 実測結果誤差(oe)における統計的推定誤差の低減
cb と oe を5つの共通因果効果推定法で比較し,様々な条件下でのベースライン法よりも oe のサンプル効率が改善されたことを示す。
また,提案手法の違いを解析するための可視化も提供する。 Reliable treatment effect estimation from observational data depends on the availability of all confounding information. While much work has targeted treatment effect estimation from observational data, there is relatively little work in the setting of confounding variable missingness, where collecting more information on confounders is often costly or time-consuming. In this work, we frame this challenge as a problem of feature acquisition of confounding features for causal inference. Our goal is to prioritize acquiring values for a fixed and known subset of missing confounders in samples that lead to efficient average treatment effect estimation. We propose two acquisition strategies based on i) covariate balancing (CB), and ii) reducing statistical estimation error on observed factual outcome error (OE). We compare CB and OE on five common causal effect estimation methods, and demonstrate improved sample efficiency of OE over baseline methods under various settings. We also provide visualizations for further analysis on the difference between our proposed methods. | 翻訳日:2022-09-24 16:01:53 公開日:2020-11-17 |
# meta-algorithm 選択に向けて Towards Meta-Algorithm Selection ( http://arxiv.org/abs/2011.08784v1 ) ライセンス: Link先を確認 | Alexander Tornede, Marcel Wever, Eyke H\"ullermeier | (参考訳) インスタンス固有のアルゴリズム選択(AS)は、アルゴリズムのランタイムをしばしば「適合性」と呼ぶアルゴリズム問題クラスの特定のインスタンスに最も適した、固定された候補集合からのアルゴリズムの自動選択を扱う。
過去数年間、多くのアルゴリズムセレクタが提案されてきた。
アルゴリズムセレクタは特定の問題を解決するアルゴリズムであるため、アルゴリズム選択のアイデアをアルゴリズムとして適用することも可能であり、メタasアプローチへと繋がる。
メタレベルに適用することの結果を詳しく説明し、考えられる問題を特定する。
経験的に,メタアルゴリズムの選択が有益であることを示すケースもある。
しかし、一般にASアプローチの成功はメタレベル問題の解決に問題がある。 Instance-specific algorithm selection (AS) deals with the automatic selection of an algorithm from a fixed set of candidates most suitable for a specific instance of an algorithmic problem class, where "suitability" often refers to an algorithm's runtime. Over the past years, a plethora of algorithm selectors have been proposed. As an algorithm selector is again an algorithm solving a specific problem, the idea of algorithm selection could also be applied to AS algorithms, leading to a meta-AS approach: Given an instance, the goal is to select an algorithm selector, which is then used to select the actual algorithm for solving the problem instance. We elaborate on consequences of applying AS on a meta-level and identify possible problems. Empirically, we show that meta-algorithm-selection can indeed prove beneficial in some cases. In general, however, successful AS approaches have problems with solving the meta-level problem. | 翻訳日:2022-09-24 16:01:39 公開日:2020-11-17 |
# 慢性複雑な疾患に苦しむ患者軌跡の表現型分類群 Phenotyping Clusters of Patient Trajectories suffering from Chronic Complex Disease ( http://arxiv.org/abs/2011.08356v1 ) ライセンス: Link先を確認 | Henrique Aguiar, Mauro Santos, Peter Watkinson, Tingting Zhu | (参考訳) 近年, 電子的患者データの利用により, 院内感染リスクの予測やトラジェクタの発達の予測に注目が集まっている。
これらの問題に対する一般的なアプローチは、患者集団の異なるサブグループを決定するために、バイタルサイン観察などの時系列情報をクラスタリングすることである。
ほとんどのクラスタリング手法は、バイタルサインの時間的不変性を前提としており、例えば事象や結果の情報など、臨床的に関係のあるクラスタでは解釈できない。
本研究では,慢性閉塞性肺疾患患者からのバイタルサイン観察を大規模病院データセットで行った3種類のクラスタリングモデルについて検討した。
さらに,不均一な時系列データと不均衡なクラス分布に対処し,表現型分離を改善するための新しい修正を提案する。
最後に、異なる行動と表現型を持つ患者サブグループを学習するモデルについて、さらなる研究の道程について論じる。 Recent years have seen an increased focus into the tasks of predicting hospital inpatient risk of deterioration and trajectory evolution due to the availability of electronic patient data. A common approach to these problems involves clustering patients time-series information such as vital sign observations) to determine dissimilar subgroups of the patient population. Most clustering methods assume time-invariance of vital-signs and are unable to provide interpretability in clusters that is clinically relevant, for instance, event or outcome information. In this work, we evaluate three different clustering models on a large hospital dataset of vital-sign observations from patients suffering from Chronic Obstructive Pulmonary Disease. We further propose novel modifications to deal with unevenly sampled time-series data and unbalanced class distribution to improve phenotype separation. Lastly, we discuss further avenues of investigation for models to learn patient subgroups with distinct behaviour and phenotype. | 翻訳日:2022-09-24 15:55:26 公開日:2020-11-17 |
# アンチモニー洗浄における時間周波数に基づく注目活動検出 A Time-Frequency based Suspicious Activity Detection for Anti-Money Laundering ( http://arxiv.org/abs/2011.08492v1 ) ライセンス: Link先を確認 | Utku G\"orkem Ketenci and Tolga Kurt and Selim \"Onal and Cenk Erbil and Sinan Akt\"urko\u{g}lu and Hande \c{S}erban \.Ilhan | (参考訳) マネーロンダリングは、犯罪者が犯罪の収益を金融システムに注入する重要なメカニズムである。
マネーロンダリングに関連する不審な活動を検出する主な責任は、金融機関である。
これらの機関の現在のシステムのほとんどはルールベースで非効率である。
データサイエンスベースのアンチマネーロンダリング(AML)モデルは、既存のルールベースのシステムが顧客関係管理(CRM)の機能やトランザクションの振る舞いの時間的特性に取り組むのを置き換えるために利用できる。
しかし、数千の可能な機能のために、機能エンジニアリングに関する正確さと問題にはまだ課題がある。
本稿では、AMLシステムにおける不審取引監視システムの検出性能の向上を目的として、金融取引の2次元表現を利用した時間周波数解析に基づく新しい特徴セットを提案する。
ランダムフォレストを機械学習手法として活用し、ハイパーパラメータチューニングにはシミュレーションアニーリングが採用されている。
設計したアルゴリズムは実際の銀行データ上でテストされ、実際の関連環境での結果の有効性が証明される。
疑わしい,非目立たしいエンティティの時間周波数特性は,データサイエンスに基づくトランザクション監視システムにおいて,時系列トランザクションとCRM機能のみに着目した精度を大幅に向上させると考えられる。 Money laundering is the crucial mechanism utilized by criminals to inject proceeds of crime to the financial system. The primary responsibility of the detection of suspicious activity related to money laundering is with the financial institutions. Most of the current systems in these institutions are rule-based and ineffective. The available data science-based anti-money laundering (AML) models in order to replace the existing rule-based systems work on customer relationship management (CRM) features and time characteristics of transaction behaviour. However, there is still a challenge on accuracy and problems around feature engineering due to thousands of possible features. Aiming to improve the detection performance of suspicious transaction monitoring systems for AML systems, in this article, we introduce a novel feature set based on time-frequency analysis, that makes use of 2-D representations of financial transactions. Random forest is utilized as a machine learning method, and simulated annealing is adopted for hyperparameter tuning. The designed algorithm is tested on real banking data, proving the efficacy of the results in practically relevant environments. It is shown that the time-frequency characteristics of suspicious and non-suspicious entities differentiate significantly, which would substantially improve the precision of data science-based transaction monitoring systems looking at only time-series transaction and CRM features. | 翻訳日:2022-09-24 15:54:54 公開日:2020-11-17 |
# ブラックボックスの外で学ぶ:解釈可能なモデルの追求 Learning outside the Black-Box: The pursuit of interpretable models ( http://arxiv.org/abs/2011.08596v1 ) ライセンス: Link先を確認 | Jonathan Crabb\'e, Yao Zhang, William Zame, Mihaela van der Schaar | (参考訳) 機械学習は正確なモデルを生成できることを証明しているが、機械学習コミュニティ以外でのモデルのデプロイは、これらのモデルの解釈の難しさによって妨げられている。
本稿では,任意の連続ブラックボックス関数の連続大域的解釈を行うアルゴリズムを提案する。
このアルゴリズムは、リッジ関数が通常の多項式スプラインではなく、meijer g-関数として選択される射影追跡のバリエーションを用いる。
meijer g-関数はそれらのパラメータで微分可能であるので、勾配降下によって表現のパラメータを調整できる。
UCIレポジトリからの5つの親しみのあるデータセットと2つの親しみのある機械学習アルゴリズムを用いて、我々のアルゴリズムは、高度に正確かつ同義的な大域的な解釈を生成する(少数の用語を発明する)。
我々の解釈は、特徴と特徴の相対的重要性の理解を容易にします。
我々の解釈アルゴリズムは、以前の技術から飛躍的な進歩を示している。 Machine Learning has proved its ability to produce accurate models but the deployment of these models outside the machine learning community has been hindered by the difficulties of interpreting these models. This paper proposes an algorithm that produces a continuous global interpretation of any given continuous black-box function. Our algorithm employs a variation of projection pursuit in which the ridge functions are chosen to be Meijer G-functions, rather than the usual polynomial splines. Because Meijer G-functions are differentiable in their parameters, we can tune the parameters of the representation by gradient descent; as a consequence, our algorithm is efficient. Using five familiar data sets from the UCI repository and two familiar machine learning algorithms, we demonstrate that our algorithm produces global interpretations that are both highly accurate and parsimonious (involve a small number of terms). Our interpretations permit easy understanding of the relative importance of features and feature interactions. Our interpretation algorithm represents a leap forward from the previous state of the art. | 翻訳日:2022-09-24 15:54:31 公開日:2020-11-17 |
# 探索政策におけるリターンシーケンスのばらつきの活用 Leveraging the Variance of Return Sequences for Exploration Policy ( http://arxiv.org/abs/2011.08649v1 ) ライセンス: Link先を確認 | Zerong Xi, Gita Sukthankar | (参考訳) 本稿では、返却シーケンスの重み付き分散または重み付き時間差(TD)誤差を用いて、探査政策の上限を構築する方法を提案する。
特定状態-動作ペアに対する戻りシーケンスのばらつきは、強化学習における探索のガイドとして活用できる重要な情報源であることを示す。
直感的には、リターンシーケンスの変動は、近い将来のリターンにおける大きな不確実性を示す。
このばらつきは、値に基づく強化学習の循環的な性質から生じ、進化する値関数は、値関数を変更する政策改善を期待する。
ばらつきとTD誤差は、この不確実性の異なる側面を捉えるが、我々の分析はどちらも探索のガイドに有用であることを示している。
探索手法としてDQNエージェント内の重み付き分散/TD誤差を推定する2ストリームネットワークアーキテクチャを提案する。 This paper introduces a method for constructing an upper bound for exploration policy using either the weighted variance of return sequences or the weighted temporal difference (TD) error. We demonstrate that the variance of the return sequence for a specific state-action pair is an important information source that can be leveraged to guide exploration in reinforcement learning. The intuition is that fluctuation in the return sequence indicates greater uncertainty in the near future returns. This divergence occurs because of the cyclic nature of value-based reinforcement learning; the evolving value function begets policy improvements which in turn modify the value function. Although both variance and TD errors capture different aspects of this uncertainty, our analysis shows that both can be valuable to guide exploration. We propose a two-stream network architecture to estimate weighted variance/TD errors within DQN agents for our exploration method and show that it outperforms the baseline on a wide range of Atari games. | 翻訳日:2022-09-24 15:54:15 公開日:2020-11-17 |
# AIハードウェアにおけるエネルギー精度のトレードオフを探る Exploring Energy-Accuracy Tradeoffs in AI Hardware ( http://arxiv.org/abs/2011.08779v1 ) ライセンス: Link先を確認 | Cory Merkel | (参考訳) 人工知能(AI)は、私たちの日常生活においてますます重要な役割を担っている。
この傾向は今後も続くことが期待されており、特に最近のAIをもっとエッジに移そうとする動きがある。
しかし、エッジデバイス(携帯電話、無人車両、センサーなど)におけるAIに関する最大の課題の1つは、そのサイズ、重量、電力制約である。
本研究では,アプリケーション依存エネルギー要求を満たすために,AIシステムが最小限の精度で動作する必要があるシナリオを考察する。
本稿では,AIシステムのコストを意思決定プロセスのコストと意思決定実行のコストに分割する簡易関数を提案する。
畳み込みニューラルネットワークを用いた単純な二分決定問題に対して,コストの最小化はリソースの最大数以下(畳み込みニューラルネットワーク層やフィルタなど)に対応することを示した。
最後に,ネットワークの低層層における高信頼度予測を活用することで,エネルギー関連コストを大幅に削減できることを示した。 Artificial intelligence (AI) is playing an increasingly significant role in our everyday lives. This trend is expected to continue, especially with recent pushes to move more AI to the edge. However, one of the biggest challenges associated with AI on edge devices (mobile phones, unmanned vehicles, sensors, etc.) is their associated size, weight, and power constraints. In this work, we consider the scenario where an AI system may need to operate at less-than-maximum accuracy in order to meet application-dependent energy requirements. We propose a simple function that divides the cost of using an AI system into the cost of the decision making process and the cost of decision execution. For simple binary decision problems with convolutional neural networks, it is shown that minimizing the cost corresponds to using fewer than the maximum number of resources (e.g. convolutional neural network layers and filters). Finally, it is shown that the cost associated with energy can be significantly reduced by leveraging high-confidence predictions made in lower-level layers of the network. | 翻訳日:2022-09-24 15:53:59 公開日:2020-11-17 |
# REALab: タンパリングに関する組込みの視点 REALab: An Embedded Perspective on Tampering ( http://arxiv.org/abs/2011.08820v1 ) ライセンス: Link先を確認 | Ramana Kumar, Jonathan Uesato, Richard Ngo, Tom Everitt, Victoria Krakovna, Shane Legg | (参考訳) 本稿では,Regress Learning (RL) における組込みエージェント研究のためのプラットフォームであるREALabについて述べる。
REALabは、実世界のRLのデプロイで発生する可能性のある、改ざん問題の構造をモデル化するように設計されている。
標準マルコフ決定プロセス(mdp) rlの定式化とmdp構造を反映するシミュレーション環境はフィードバック(例えば報酬)への安全なアクセスを仮定する。
これはエージェントが組み込まれ、フィードバックを生み出すプロセス(例えば、ヒューマンスーパーバイザーや実装された報酬関数)を壊すような環境では非現実的かもしれない。
我々は、安全なフィードバック仮定を避けるために、代替のCorrupt Feedback MDP定式化とREALab環境プラットフォームについて述べる。
我々は、REALabの設計が問題を改ざんするための有用な視点を提供し、このプラットフォームがRLエージェント設計における改ざんインセンティブの存在に対する単体テストとして機能することを望んでいる。 This paper describes REALab, a platform for embedded agency research in reinforcement learning (RL). REALab is designed to model the structure of tampering problems that may arise in real-world deployments of RL. Standard Markov Decision Process (MDP) formulations of RL and simulated environments mirroring the MDP structure assume secure access to feedback (e.g., rewards). This may be unrealistic in settings where agents are embedded and can corrupt the processes producing feedback (e.g., human supervisors, or an implemented reward function). We describe an alternative Corrupt Feedback MDP formulation and the REALab environment platform, which both avoid the secure feedback assumption. We hope the design of REALab provides a useful perspective on tampering problems, and that the platform may serve as a unit test for the presence of tampering incentives in RL agent designs. | 翻訳日:2022-09-24 15:53:43 公開日:2020-11-17 |
# Decoupled Approvalによる深部RLのタンパリングインセンティブの回避 Avoiding Tampering Incentives in Deep RL via Decoupled Approval ( http://arxiv.org/abs/2011.08827v1 ) ライセンス: Link先を確認 | Jonathan Uesato, Ramana Kumar, Victoria Krakovna, Tom Everitt, Richard Ngo, Shane Legg | (参考訳) すべてのフィードバックメカニズムがエージェントの影響を受けやすい場合に、与えられた目的を追求するエージェントをどうやって設計できるのか?
標準RLアルゴリズムは、セキュアな報酬関数を仮定し、エージェントが報酬生成機構を改ざんできるような設定では、性能が悪くなる。
本稿では,影響のあるフィードバックから学習する問題に対して,承認と分離されたフィードバック収集手順を組み合わせた原則的解決策を提案する。
汚職機能の自然なクラスでは、分離された承認アルゴリズムは収束と局所的な更新の両方においてインセンティブを調整している。
また、複雑な3D環境にスケールし、改ざんも可能。 How can we design agents that pursue a given objective when all feedback mechanisms are influenceable by the agent? Standard RL algorithms assume a secure reward function, and can thus perform poorly in settings where agents can tamper with the reward-generating mechanism. We present a principled solution to the problem of learning from influenceable feedback, which combines approval with a decoupled feedback collection procedure. For a natural class of corruption functions, decoupled approval algorithms have aligned incentives both at convergence and for their local updates. Empirically, they also scale to complex 3D environments where tampering is possible. | 翻訳日:2022-09-24 15:53:29 公開日:2020-11-17 |
# mg-gcn:大規模グラフ畳み込みネットワークの学習のためのミックスグレードアグリゲータによる高速かつ効果的な学習 MG-GCN: Fast and Effective Learning with Mix-grained Aggregators for Training Large Graph Convolutional Networks ( http://arxiv.org/abs/2011.09900v1 ) ライセンス: Link先を確認 | Tao Huang, Yihan Zhang, Jiajing Wu, Junyuan Fang, Zibin Zheng | (参考訳) グラフ畳み込みネットワーク(gcns)は、近年多くのグラフベースのアプリケーションで重要なツールとして利用されている。
畳み込みニューラルネットワーク(CNN)にインスパイアされたGCNは、隣人層の情報を層ごとに集約することで、ノードの埋め込みを生成する。
しかし,GCN層にまたがる再帰的近傍展開によるGCNの計算・メモリコストの増大は,大規模グラフのトレーニングに有効ではない。
この問題に対処するために,ミニバッチ確率勾配降下(sgd)方式でgcnを訓練するために,情報集約過程におけるいくつかのサンプリング手法が提案されている。
それにもかかわらず、これらのサンプリング戦略は、精度と収束性の観点から学習性能を阻害する可能性がある情報収集不足に関する懸念をもたらすことがある。
精度と効率のジレンマに対処するために,異なる粒度を持つアグリゲータを用いて異なる層に周辺情報を収集することを提案する。
次に, 指数複雑性を回避した次数に基づくサンプリング戦略を構築し, 一定数のノードをサンプリングする。
上記の2つのメカニズムを組み合わせることで、提案モデルであるMix-fine GCN(MG-GCN)は、4つの一般的なベンチマークデータセットと新しいEthereumデータセットに関する包括的な実験を通して、精度、トレーニング速度、収束速度、メモリコストの観点から最先端のパフォーマンスを達成する。 Graph convolutional networks (GCNs) have been employed as a kind of significant tool on many graph-based applications recently. Inspired by convolutional neural networks (CNNs), GCNs generate the embeddings of nodes by aggregating the information of their neighbors layer by layer. However, the high computational and memory cost of GCNs due to the recursive neighborhood expansion across GCN layers makes it infeasible for training on large graphs. To tackle this issue, several sampling methods during the process of information aggregation have been proposed to train GCNs in a mini-batch Stochastic Gradient Descent (SGD) manner. Nevertheless, these sampling strategies sometimes bring concerns about insufficient information collection, which may hinder the learning performance in terms of accuracy and convergence. To tackle the dilemma between accuracy and efficiency, we propose to use aggregators with different granularities to gather neighborhood information in different layers. Then, a degree-based sampling strategy, which avoids the exponential complexity, is constructed for sampling a fixed number of nodes. Combining the above two mechanisms, the proposed model, named Mix-grained GCN (MG-GCN) achieves state-of-the-art performance in terms of accuracy, training speed, convergence speed, and memory cost through a comprehensive set of experiments on four commonly used benchmark datasets and a new Ethereum dataset. | 翻訳日:2022-09-24 15:52:55 公開日:2020-11-17 |
# 電気自動車の充電インフラ計画:スケーラブルな計算フレームワーク Electric Vehicle Charging Infrastructure Planning: A Scalable Computational Framework ( http://arxiv.org/abs/2011.09967v1 ) ライセンス: Link先を確認 | Wanshi Hong, Cong Zhang, Cy Chan, Bin Wang | (参考訳) 交通システムと送電網のネットワーク規模が増大しているため, 大規模空間における最適充電インフラ計画問題は困難である。
従って、電気自動車の走行行動と充電イベントの結合は複雑である。
本稿では,密に統合された輸送網と電力網網を網羅する電気自動車充電インフラ計画のためのスケーラブルな計算フレームワークの実証に焦点をあてる。
輸送面では、EVエネルギー消費モデル、旅行経路、充電器選択方法を活用する充電プロファイル生成戦略が提案されている。
グリッド側では、遺伝的アルゴリズムを最適パワーフロープログラム内で活用し、現在の反復における候補解を適応的に評価し、次のイテレーションのための新しい解を生成することにより、整数変数による最適チャージャー配置問題を解く。 The optimal charging infrastructure planning problem over a large geospatial area is challenging due to the increasing network sizes of the transportation system and the electric grid. The coupling between the electric vehicle travel behaviors and charging events is therefore complex. This paper focuses on the demonstration of a scalable computational framework for the electric vehicle charging infrastructure planning over the tightly integrated transportation and electric grid networks. On the transportation side, a charging profile generation strategy is proposed leveraging the EV energy consumption model, trip routing, and charger selection methods. On the grid side, a genetic algorithm is utilized within the optimal power flow program to solve the optimal charger placement problem with integer variables by adaptively evaluating candidate solutions in the current iteration and generating new solutions for the next iterations. | 翻訳日:2022-09-24 15:46:19 公開日:2020-11-17 |
# 標準変換の学習 Learning Canonical Transformations ( http://arxiv.org/abs/2011.08822v1 ) ライセンス: Link先を確認 | Zachary Dulberg and Jonathan Cohen | (参考訳) 人間は、特定の対象に縛られずに一般化をサポートする(翻訳や回転など)一連の標準幾何学的変換を理解する。
我々は、ニューラルネットワークモデルがこれらの変換をピクセル空間で学習するのに役立つ帰納的バイアスをドメイン外を一般化できる方法で検討する。
特に,高訓練集合の多様性は,未発見の形状やスケールへの翻訳の補間に十分であり,反復訓練は時間内回転の大幅な補間を実現する。 Humans understand a set of canonical geometric transformations (such as translation and rotation) that support generalization by being untethered to any specific object. We explore inductive biases that help a neural network model learn these transformations in pixel space in a way that can generalize out-of-domain. Specifically, we find that high training set diversity is sufficient for the extrapolation of translation to unseen shapes and scales, and that an iterative training scheme achieves significant extrapolation of rotation in time. | 翻訳日:2022-09-24 15:44:06 公開日:2020-11-17 |
# 災害対応のためのソーシャルメディア画像分類のためのディープラーニングベンチマークとデータセット Deep Learning Benchmarks and Datasets for Social Media Image Classification for Disaster Response ( http://arxiv.org/abs/2011.08916v1 ) ライセンス: Link先を確認 | Firoj Alam, Ferda Ofli, Muhammad Imran, Tanvirul Alam and Umair Qazi | (参考訳) 災害発生時、ソーシャルメディアで共有された画像は、危機管理担当者が状況認識を得て、発生した損害を評価するのに役立ちます。
コンピュータビジョンとディープニューラルネットワークの最近の進歩により、危機事故の検出、無関係な画像のフィルタリング、特定の人道的カテゴリへの分類、損傷の深刻度の評価など、様々なタスクのリアルタイム画像分類モデルの開発が可能になった。
いくつかの努力にもかかわらず、過去の作品は主により堅牢なディープラーニングモデルをトレーニングするために利用可能な限られたリソース(ラベル付き画像)に悩まされている。
本研究では,災害タイプ検出,情報度分類,被害度評価のための新しいデータセットを提案する。
さらに、新しいタスクのために既存の公開データセットをrelabelします。
重複しないデータ分割を形成するために、厳密および近重複を識別し、最終的にそれらを統合してより大きなデータセットを作成する。
大規模な実験では、最先端のディープラーニングモデルをいくつかベンチマークし、有望な結果を得た。
私たちはデータセットとモデルを公開し、適切なベースラインの提供と、危機情報学コミュニティにおけるさらなる研究の促進を目指しています。 During a disaster event, images shared on social media helps crisis managers gain situational awareness and assess incurred damages, among other response tasks. Recent advances in computer vision and deep neural networks have enabled the development of models for real-time image classification for a number of tasks, including detecting crisis incidents, filtering irrelevant images, classifying images into specific humanitarian categories, and assessing the severity of damage. Despite several efforts, past works mainly suffer from limited resources (i.e., labeled images) available to train more robust deep learning models. In this study, we propose new datasets for disaster type detection, and informativeness classification, and damage severity assessment. Moreover, we relabel existing publicly available datasets for new tasks. We identify exact- and near-duplicates to form non-overlapping data splits, and finally consolidate them to create larger datasets. In our extensive experiments, we benchmark several state-of-the-art deep learning models and achieve promising results. We release our datasets and models publicly, aiming to provide proper baselines as well as to spur further research in the crisis informatics community. | 翻訳日:2022-09-24 15:43:58 公開日:2020-11-17 |
# マルチモーダルアシスタントのための画像からの自然質問の生成 Generating Natural Questions from Images for Multimodal Assistants ( http://arxiv.org/abs/2012.03678v1 ) ライセンス: Link先を確認 | Alkesh Patel, Akanksha Bindal, Hadas Kotek, Christopher Klein, Jason Williams | (参考訳) 画像から自然で多様で有意義な質問を生成することは、画像のオブジェクトやシーンを適切に理解したかどうかを確認するため、マルチモーダルアシスタントにとって必須のタスクである。
視覚的質問応答(VQA)と視覚的質問生成(VQG)の研究は大きなステップである。
しかし、この研究は視覚障害者がマルチモーダルアシスタントに尋ねる疑問を捉えていない。
最近発表されたKB-VQA、FVQA、OK-VQAといったデータセットは、外部知識を求める質問を集めようとする。
しかしそれでも、人間が通常デジタルアシスタントを問わない、明白で常識的な質問が数多く含まれている。
本稿では,人間のアノテータが生成した質問を,マルチモーダルデジタルアシスタントに何を尋ねるかを念頭に置いて,新しいベンチマークデータセットを提供する。
数十万の画像に対する大規模なアノテーションは高価で時間を要するため、未知の画像から質問を自動的に生成する効果的な方法も提示する。
本稿では,画像の内容とメタデータ(例えば位置,関連キーワード)を考慮した多様で有意義な質問を生成する手法を提案する。
bleu,meteor,rouge,ciderなどの標準評価指標を用いて,生成した質問と人間による質問との関連性を評価する。
また,生成した質問の多様性を,生成力と創造性指標を用いて測定する。
我々は最新の成果を公開とデータセットで報告する。 Generating natural, diverse, and meaningful questions from images is an essential task for multimodal assistants as it confirms whether they have understood the object and scene in the images properly. The research in visual question answering (VQA) and visual question generation (VQG) is a great step. However, this research does not capture questions that a visually-abled person would ask multimodal assistants. Recently published datasets such as KB-VQA, FVQA, and OK-VQA try to collect questions that look for external knowledge which makes them appropriate for multimodal assistants. However, they still contain many obvious and common-sense questions that humans would not usually ask a digital assistant. In this paper, we provide a new benchmark dataset that contains questions generated by human annotators keeping in mind what they would ask multimodal digital assistants. Large scale annotations for several hundred thousand images are expensive and time-consuming, so we also present an effective way of automatically generating questions from unseen images. In this paper, we present an approach for generating diverse and meaningful questions that consider image content and metadata of image (e.g., location, associated keyword). We evaluate our approach using standard evaluation metrics such as BLEU, METEOR, ROUGE, and CIDEr to show the relevance of generated questions with human-provided questions. We also measure the diversity of generated questions using generative strength and inventiveness metrics. We report new state-of-the-art results on the public and our datasets. | 翻訳日:2022-09-24 15:38:20 公開日:2020-11-17 |
# ZORB: ニューラルネットワークの導出自由バックプロパゲーションアルゴリズム ZORB: A Derivative-Free Backpropagation Algorithm for Neural Networks ( http://arxiv.org/abs/2011.08895v1 ) ライセンス: Link先を確認 | Varun Ranganathan, Alex Lewandowski | (参考訳) 勾配降下とバックプロパゲーションにより、ニューラルネットワークは多くの現実世界のアプリケーションで顕著な結果を得ることができる。
継続的な成功にもかかわらず、勾配降下を伴うニューラルネットワークのトレーニングは遅くて厳しい問題になる可能性がある。
本稿では、ZORB(Zeroth-Order Relaxed Backpropagation)と呼ばれる、単純かつ高速なトレーニングアルゴリズムを提案する。
勾配を計算する代わりに、ZORBは情報をバックプロパゲートするためにターゲットの擬似逆数を使用する。
ZORBは、パフォーマンスを低下させることなく、ディープニューラルネットワークのトレーニングに必要な時間を短縮するように設計されている。
スピードアップを説明するために,11層からなるフィードフォワードニューラルネットワークをMNISTでトレーニングし,ZORBがAdamの300倍の速度で収束したのに対して,過パラメータチューニングを行なわなかった。
さらに,畳み込みニューラルネットワークへのzorbの適用範囲を広げ,cifar-10データセットのサブサンプルに適用する。
標準分類と回帰ベンチマークの実験は、グラディエントDescentによる従来のバックプロパゲーションに対するZORBの優位性を示している。 Gradient descent and backpropagation have enabled neural networks to achieve remarkable results in many real-world applications. Despite ongoing success, training a neural network with gradient descent can be a slow and strenuous affair. We present a simple yet faster training algorithm called Zeroth-Order Relaxed Backpropagation (ZORB). Instead of calculating gradients, ZORB uses the pseudoinverse of targets to backpropagate information. ZORB is designed to reduce the time required to train deep neural networks without penalizing performance. To illustrate the speed up, we trained a feed-forward neural network with 11 layers on MNIST and observed that ZORB converged 300 times faster than Adam while achieving a comparable error rate, without any hyperparameter tuning. We also broaden the scope of ZORB to convolutional neural networks, and apply it to subsamples of the CIFAR-10 dataset. Experiments on standard classification and regression benchmarks demonstrate ZORB's advantage over traditional backpropagation with Gradient Descent. | 翻訳日:2022-09-24 15:37:57 公開日:2020-11-17 |
# 実データと想像データによる強化学習行動の条件説明 Explaining Conditions for Reinforcement Learning Behaviors from Real and Imagined Data ( http://arxiv.org/abs/2011.09004v1 ) ライセンス: Link先を確認 | Aastha Acharya, Rebecca Russell, Nisar R. Ahmed | (参考訳) 実世界における強化学習(RL)の展開には、ユーザの信頼と期待の調整に関する課題が伴う。
能力を伝達できるrlシステムを開発するためのステップとして、異なるタスク実行戦略と結果につながる経験的条件を識別する、人間解釈可能な抽象行動モデルを生成する方法を提案する。
提案手法は, 状態表現から経験的特徴を抽出し, トラジェクトリから戦略記述子を抽象化し, 解釈可能な決定木を訓練することにより, 異なるRLの挙動を最も予測できる条件を特定する。
本手法は,環境との相互作用から生成する軌道データと,モデルベースのrl設定において訓練された確率的世界モデルから得られる想定軌道データについて実証する。 The deployment of reinforcement learning (RL) in the real world comes with challenges in calibrating user trust and expectations. As a step toward developing RL systems that are able to communicate their competencies, we present a method of generating human-interpretable abstract behavior models that identify the experiential conditions leading to different task execution strategies and outcomes. Our approach consists of extracting experiential features from state representations, abstracting strategy descriptors from trajectories, and training an interpretable decision tree that identifies the conditions most predictive of different RL behaviors. We demonstrate our method on trajectory data generated from interactions with the environment and on imagined trajectory data that comes from a trained probabilistic world model in a model-based RL setting. | 翻訳日:2022-09-24 15:37:05 公開日:2020-11-17 |
# tsetlinマシンテキスト分類器の連結節を用いた自然言語テキストの新規性の測定 Measuring the Novelty of Natural Language Text Using the Conjunctive Clauses of a Tsetlin Machine Text Classifier ( http://arxiv.org/abs/2011.08755v1 ) ライセンス: Link先を確認 | Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao | (参考訳) 教師付きテキスト分類のアプローチの多くはクローズドワールドを想定しており、トレーニング時にデータに存在するすべてのクラスを数えている。
この仮定は、新しいクラスが現れるたびに、操作中の予測不能な振る舞いを引き起こす可能性がある。
深層学習に基づく手法は近年,新規性検出に用いられているが,ブラックボックスの性質から解釈が困難である。
本稿では,訓練された分類器が操作中に新しいクラスを扱わなければならないオープンワールドテキスト分類のemph{interpretable}について述べる。
この目的のために、最近導入されたTsetlin Machine (TM) を新しいスコアリング機構で拡張する。
このメカニズムはtmの連結節を使用して、テキストがトレーニングデータでカバーされたクラスとどの程度一致しているかを測定する。
我々は,これらの節が既知のトピックの簡潔な解釈可能な記述を提供し,評価機構が既知のトピックと新しいトピックを区別できるようにすることを実証した。
経験的に、我々のTMベースのアプローチは、5つのデータセットのうち3つで他の7つの新規検出スキームより優れており、残りの3つでは2位と3位が最善である。 Most supervised text classification approaches assume a closed world, counting on all classes being present in the data at training time. This assumption can lead to unpredictable behaviour during operation, whenever novel, previously unseen, classes appear. Although deep learning-based methods have recently been used for novelty detection, they are challenging to interpret due to their black-box nature. This paper addresses \emph{interpretable} open-world text classification, where the trained classifier must deal with novel classes during operation. To this end, we extend the recently introduced Tsetlin machine (TM) with a novelty scoring mechanism. The mechanism uses the conjunctive clauses of the TM to measure to what degree a text matches the classes covered by the training data. We demonstrate that the clauses provide a succinct interpretable description of known topics, and that our scoring mechanism makes it possible to discern novel topics from the known ones. Empirically, our TM-based approach outperforms seven other novelty detection schemes on three out of five datasets, and performs second and third best on the remaining, with the added benefit of an interpretable propositional logic-based representation. | 翻訳日:2022-09-24 15:36:51 公開日:2020-11-17 |
# コミュニケーションゲームにおけるパーソナリティ画像キャプションのための構造的・機能的分解 Structural and Functional Decomposition for Personality Image Captioning in a Communication Game ( http://arxiv.org/abs/2011.08543v1 ) ライセンス: Link先を確認 | Thu Nguyen, Duy Phung, Minh Hoai, Thien Huu Nguyen | (参考訳) パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者と聞き手とのコミュニケーションゲームに基づくpicの新たな定式化について紹介する。
話者は自然言語キャプションを生成しようとするが、リスナーは生成したキャプションに入力画像と性格特性の識別情報を含むように促す。
このようにして、生成したキャプションを自然に表現し、特徴を表現するように改良できることを期待している。
さらに,PICのキャプション生成に言語モデル GPT2 を適用することを提案する。
これにより、話者とリスナーはGPT2の言語エンコーディング能力の恩恵を受けることができる。
実験により,提案モデルがPICの最先端性能を実現することを示す。 Personality image captioning (PIC) aims to describe an image with a natural language caption given a personality trait. In this work, we introduce a novel formulation for PIC based on a communication game between a speaker and a listener. The speaker attempts to generate natural language captions while the listener encourages the generated captions to contain discriminative information about the input images and personality traits. In this way, we expect that the generated captions can be improved to naturally represent the images and express the traits. In addition, we propose to adapt the language model GPT2 to perform caption generation for PIC. This enables the speaker and listener to benefit from the language encoding capacity of GPT2. Our experiments show that the proposed model achieves the state-of-the-art performance for PIC. | 翻訳日:2022-09-24 15:36:31 公開日:2020-11-17 |
# DeepSeqSLAM: グローバル記述とシーケンスに基づく位置認識のためのトレーニング可能なCNN+RNN DeepSeqSLAM: A Trainable CNN+RNN for Joint Global Description and Sequence-based Place Recognition ( http://arxiv.org/abs/2011.08518v1 ) ライセンス: Link先を確認 | Marvin Chanc\'an, Michael Milford | (参考訳) 全天候ナビゲーションのためのシーケンスに基づく位置認識手法は、夜間や夏季の冬の移行に挑戦して最先端の結果を生み出すことでよく知られている。
しかし、これらのシステムは、単一のルートの参照およびクエリ画像シーケンス間の事前計算されたペアワイズ類似性行列の上に適用される逐次マッチングのための複雑な手作りのヒューリスティックに依存しており、単一フレーム検索法と比較して偽陽性率をさらに削減している。
その結果、複数フレーム位置認識の実行は、自動運転車への展開や大規模データセットの評価において極めて遅く、2フレームのシーケンス長などの比較的短いパラメータ値を使用すると失敗する可能性がある。
本稿では,経路の単一分子画像列から視覚的および位置的表現を共同学習するための訓練可能なCNN+RNNアーキテクチャであるDeepSeqSLAMを提案する。
我々は,NorlandとOxford RobotCarという2つの大規模ベンチマークデータセットに対して,それぞれ728km以上のルートと10kmのルートを,複数の季節,天気,照明条件で1年毎に記録したアプローチを実証した。
北欧では, 夏冬の2回のシーケンス長を用いて, ルート全体にわたる2つの最先端シーケンスベースの手法を比較し, デルタディスクリプタの27% AUCとSeqSLAMの2% AUCと比較して, アプローチが72% AUCに到達し, 配置時間を約1時間から1分に短縮できることを示した。
フレームワークのコードとビデオはhttps://mchancan.github.io/deepseqslamで入手できる。 Sequence-based place recognition methods for all-weather navigation are well-known for producing state-of-the-art results under challenging day-night or summer-winter transitions. These systems, however, rely on complex handcrafted heuristics for sequential matching - which are applied on top of a pre-computed pairwise similarity matrix between reference and query image sequences of a single route - to further reduce false-positive rates compared to single-frame retrieval methods. As a result, performing multi-frame place recognition can be extremely slow for deployment on autonomous vehicles or evaluation on large datasets, and fail when using relatively short parameter values such as a sequence length of 2 frames. In this paper, we propose DeepSeqSLAM: a trainable CNN+RNN architecture for jointly learning visual and positional representations from a single monocular image sequence of a route. We demonstrate our approach on two large benchmark datasets, Nordland and Oxford RobotCar - recorded over 728 km and 10 km routes, respectively, each during 1 year with multiple seasons, weather, and lighting conditions. On Nordland, we compare our method to two state-of-the-art sequence-based methods across the entire route under summer-winter changes using a sequence length of 2 and show that our approach can get over 72% AUC compared to 27% AUC for Delta Descriptors and 2% AUC for SeqSLAM; while drastically reducing the deployment time from around 1 hour to 1 minute against both. The framework code and video are available at https://mchancan.github.io/deepseqslam | 翻訳日:2022-09-24 15:35:50 公開日:2020-11-17 |
# インテリジェンスによる物事のエンパワーメント:物の人工知能の進歩、課題、機会に関する調査 Empowering Things with Intelligence: A Survey of the Progress, Challenges, and Opportunities in Artificial Intelligence of Things ( http://arxiv.org/abs/2011.08612v1 ) ライセンス: Link先を確認 | Jing Zhang and Dacheng Tao | (参考訳) IoT(Internet of Things)時代には、何十億ものセンサやデバイスが環境からデータを収集して処理し、それらをクラウドセンタに送信し、インターネット経由で接続と知覚のフィードバックを受け取る。
しかし、大量の異種データを送信し、これらのデータから複雑な環境を知覚し、タイミングよくスマートな決定をするのは難しい。
人工知能(AI)、特にディープラーニングは、コンピュータビジョン、音声認識、自然言語処理など様々な分野で成功している。
AIがIoTヘラルドに導入されたのは、物の人工知能(AIoT)の時代だ。
本稿では、AIがIoTをより速く、より賢く、よりグリーンで、より安全なものにするための、AIの能力を示すために、AIoTに関する包括的な調査を紹介する。
具体的には、クラウドコンピューティング、フォグコンピューティング、エッジコンピューティングの文脈でAIoTアーキテクチャを簡潔に紹介する。
そして、認識、学習、推論、行動の4つの視点から、IoTのためのAI研究の進歩を示す。
次に、我々の世界を深く再形成する可能性が高いAIoTの有望な応用を要約する。
最後に、AIoTが直面する課題と、潜在的な研究機会を強調します。 In the Internet of Things (IoT) era, billions of sensors and devices collect and process data from the environment, transmit them to cloud centers, and receive feedback via the internet for connectivity and perception. However, transmitting massive amounts of heterogeneous data, perceiving complex environments from these data, and then making smart decisions in a timely manner are difficult. Artificial intelligence (AI), especially deep learning, is now a proven success in various areas including computer vision, speech recognition, and natural language processing. AI introduced into the IoT heralds the era of artificial intelligence of things (AIoT). This paper presents a comprehensive survey on AIoT to show how AI can empower the IoT to make it faster, smarter, greener, and safer. Specifically, we briefly present the AIoT architecture in the context of cloud computing, fog computing, and edge computing. Then, we present progress in AI research for IoT from four perspectives: perceiving, learning, reasoning, and behaving. Next, we summarize some promising applications of AIoT that are likely to profoundly reshape our world. Finally, we highlight the challenges facing AIoT and some potential research opportunities. | 翻訳日:2022-09-24 15:35:12 公開日:2020-11-17 |