このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211230となっている論文です。

PDF登録状況(公開日: 20211230)

TitleAuthorsAbstract論文公表日・翻訳日
# 相互関連ハミルトニアンによる電子構造の量子シミュレーション:量子コンピュータのフットプリントを小さくして精度を向上させる

Quantum simulation of electronic structure with a transcorrelated Hamiltonian: improved accuracy with a smaller footprint on the quantum computer ( http://arxiv.org/abs/2006.02488v2 )

ライセンス: Link先を確認
Mario Motta, Tanvi P. Gujarati, Julia E. Rice, Ashutosh Kumar, Conner Masteran, Joseph A. Latone, Eunseok Lee, Edward F. Valeev, Tyler Y. Takeshita(参考訳) 電子相関効果を含む変換ハミルトニアンを持つ電子構造の量子シミュレーションが示されている。 本研究で用いられる超相関ハミルトニアンは、明示的に相関した二体ユニタリ作用素との近似類似性変換により、多項式コストで古典的に構築される。 このハミルトニアンはエルミートであり、2粒子相互作用しか含まず、電子-電子特異点を持たない。 本研究では, 量子シミュレーションの精度と計算コストに対するハミルトン変換の効果を, シングルとダブルのユニタリ結合クラスタ(q-UCCSD) Ansatzに基づいて, シュロディンガー方程式に対する広く用いられている解法, すなわち変分量子固有解法に着目して検討する。 しかし、ここで提示される形式主義は、化学のための他の量子アルゴリズムに直接翻訳する。 以上の結果から, 超コンパクトな基底を持つ超相関ハミルトニアンは, より大きな基底のハミルトニアンに匹敵する相関エネルギーを生じることがわかった。 ここでの化学種について, 基礎となる6-31Gに基づく相関エネルギーは, cc-pVTZの品質を示した。 非常にコンパクトな超相関ハミルトニアンの使用により、cc-pVTZの品質を達成するのに必要なCNOTゲートの数は最大2桁まで減少し、キュービットの数は3倍になる。

Quantum simulations of electronic structure with a transformed Hamiltonian that includes some electron correlation effects are demonstrated. The transcorrelated Hamiltonian used in this work is efficiently constructed classically, at polynomial cost, by an approximate similarity transformation with an explicitly correlated two-body unitary operator. This Hamiltonian is Hermitian, includes no more than two-particle interactions, and is free of electron-electron singularities. We investigate the effect of such a transformed Hamiltonian on the accuracy and computational cost of quantum simulations by focusing on a widely used solver for the Schrodinger equation, namely the variational quantum eigensolver method, based on the unitary coupled cluster with singles and doubles (q-UCCSD) Ansatz. Nevertheless, the formalism presented here translates straightforwardly to other quantum algorithms for chemistry. Our results demonstrate that a transcorrelated Hamiltonian, paired with extremely compact bases, produces explicitly correlated energies comparable to those from much larger bases. For the chemical species studied here, explicitly correlated energies based on an underlying 6-31G basis had cc-pVTZ quality. The use of the very compact transcorrelated Hamiltonian reduces the number of CNOT gates required to achieve cc-pVTZ quality by up to two orders of magnitude, and the number of qubits by a factor of three.
翻訳日:2023-05-17 06:21:37 公開日:2021-12-30
# 非可換量子輸送と熱シーズ効果

Non-Abelian Quantum Transport and Thermosqueezing Effects ( http://arxiv.org/abs/2011.04560v2 )

ライセンス: Link先を確認
Gonzalo Manzano, Juan M. R. Parrondo, and Gabriel T. Landi(参考訳) 現代の量子実験は、非可換量の輸送の例を提供し、熱的効果と量子効果の間の相互作用を理解するツールを提供する。 ここでは、線形応答系における非アベリア輸送の理論を定めている。 我々の重要な洞察は、一般的なギブズアンサンブルと非交換電荷を基本構造ブロックとして使用し、衝突時に電荷保存単位を厳格にすることである。 線形応答フレームワークは、2つの貯水池間の衝突モデルを用いて構築される。 輸送係数が Onsager の相互性に従うことを示す。 さらに、非可換性に関連する量子コヒーレンスは、通勤輸送の場合と比較して、ネットエントロピー生産を減らすために作用することがわかった。 したがって、量子コヒーレントトランスポートと散逸の間の明確な接続を提供する。 一例として、ボソニック系の熱およびスクイーズフラックスについて研究し、量子状態における熱間変換および熱間変換の潜在的な応用を特徴付ける。

Modern quantum experiments provide examples of transport with non-commuting quantities, offering a tool to understand the interplay between thermal and quantum effects. Here we set forth a theory for non-Abelian transport in the linear response regime. Our key insight is to use generalized Gibbs ensembles with non-commuting charges as the basic building blocks and strict charge-preserving unitaries in a collisional setup. The linear response framework is then built using a collisional model between two reservoirs. We show that the transport coefficients obey Onsager reciprocity. Moreover, we find that quantum coherence, associated to the non-commutativity, acts so as to reduce the net entropy production, when compared to the case of commuting transport. This therefore provides a clear connection between quantum coherent transport and dissipation. As an example, we study heat and squeezing fluxes in bosonic systems, characterizing a set of thermosqueezing coefficients with potential applications in metrology and heat-to-work conversion in the quantum regime.
翻訳日:2023-04-24 21:17:55 公開日:2021-12-30
# 非エルミティシティによる空間の曲率

Curving the space by non-Hermiticity ( http://arxiv.org/abs/2106.02477v2 )

ライセンス: Link先を確認
Chenwei Lv, Ren Zhang, Zhengzheng Zhai, Qi Zhou(参考訳) 量子系はしばしばエルミート系と非エルミート系に分けられる。 非エルミート皮膚効果から境界条件への過敏性まで、非エルミート外現象が広く研究されている。 これらの興味深い現象は非エルミート系に特有のものであると考えられてきたが、平坦空間における非エルミート模型と曲線空間におけるエルミート模型との双対性によって自然に説明できることが示される。 例えば、一様キラルトンネルを持つ原型一次元(1D)鎖は磁場の有無にかかわらず2次元(2D)双曲空間の双対と等価であり、非一様トンネルは局所曲率をさらに調整することができる。 このような双対性は非エルミート現象の深い幾何学的ルーツを展開し、エルミート物理学と非エルミート物理学をつなぐ前例のないルーチンをもたらし、曲率と距離の理解を理論的な視点で再構成する。 実際には、非ハーミティシティを曲率を設計したり、非エルミティアン量子物理学を探求するために合成曲線空間を実装したりするための新しいプロトコルとして利用する、強力な2倍の応用を実験者に提供する。

Quantum systems are often classified into Hermitian and non-Hermitian ones. Extraordinary non-Hermitian phenomena, ranging from the non-Hermitian skin effect to the supersensitivity to boundary conditions, have been widely explored. Whereas these intriguing phenomena have been considered peculiar to non-Hermitian systems, we show that they can be naturally explained by a duality between non-Hermitian models in flat spaces and their counterparts, which could be Hermitian, in curved spaces. For instance, prototypical one-dimensional (1D) chains with uniform chiral tunnelings are equivalent to their duals in two-dimensional (2D) hyperbolic spaces with or without magnetic fields, and non-uniform tunnelings could further tailor local curvatures. Such a duality unfolds deep geometric roots of non-Hermitian phenomena, delivers an unprecedented routine connecting Hermitian and non-Hermitian physics, and gives rise to a theoretical perspective reformulating our understandings of curvatures and distance. In practice, it provides experimentalists with a powerful two-fold application, using non-Hermiticity as a new protocol to engineer curvatures or implementing synthetic curved spaces to explore non-Hermitian quantum physics.
翻訳日:2023-03-27 21:11:50 公開日:2021-12-30
# Reply to "Comment on "非局所性主張はヒルベルト空間量子力学と矛盾しない'

Reply to "Comment on 'Nonlocality claims are inconsistent with Hilbert-space quantum mechanics' '" ( http://arxiv.org/abs/2106.09824v3 )

ライセンス: Link先を確認
Robert B. Griffiths(参考訳) フィスでね A 101, 022117 (2020) ではベルの不等式は古典的であり、量子物理学ではないと論じられたため、実験におけるベルの不等式は、実世界(量子)における特異な非局所的および超光の影響の主張を支持するものではない。 Lambare氏のコメント、Physへの返信。 この論文で A 104, 066201 (2021) は、後のマクロな測定結果の顕微鏡的原因を特定するためにヒルベルト空間量子力学の正しい使用に関連するいくつかの問題を明らかにすることを目的としている。

In Phys. Rev. A 101, 022117 (2020), it was argued that Bell inequalities are based on classical, not quantum, physics, and hence their violation in experiments provides no support for the claimed existence of peculiar nonlocal and superluminal influences in the real (quantum) world. This Reply to Lambare's Comment, Phys. Rev. A 104, 066201 (2021), on that paper seeks to clarify some issues related to the correct use of Hilbert space quantum mechanics for identifying the microscopic causes of later macroscopic measurement outcomes, a matter not properly addressed by Bell, who used classical hidden variables in place of the Hilbert subspaces (equivalently, their projectors) employed by von Neumann in his \it{Mathematical Foundations of Quantum Mechanics}.
翻訳日:2023-03-26 10:29:44 公開日:2021-12-30
# 平均数は干渉計にとって不十分な計量である

Average number is an insufficient metric for interferometry ( http://arxiv.org/abs/2107.06698v2 )

ライセンス: Link先を確認
Dominic Branford, Jes\'us Rubio(参考訳) 平均粒子数のみを用いて気象学の手法を解析することは、情報的事象に有効な粒子数を明らかにすることができると論じる。 多くの状態に対して、頻繁なフレームワークとベイズ的なフレームワークの両方において、状態の平均数は本質的に、メトロジー上の利点に関連する総数分布の側面から分離できることを示した。

We argue that analysing schemes for metrology solely in terms of the average particle number can obscure the number of particles effectively used in informative events. For a number of states we demonstrate that, in both frequentist and Bayesian frameworks, the average number of a state can essentially be decoupled from the aspects of the total number distribution associated with any metrological advantage.
翻訳日:2023-03-22 07:32:02 公開日:2021-12-30
# 量子コンピュータにおける動的トポロジカル不変量のディジタル量子シミュレーション

Digital quantum simulation of dynamical topological invariants on near-term quantum computers ( http://arxiv.org/abs/2107.11815v2 )

ライセンス: Link先を確認
Huai-Chun Chang, Hsiu-Chuan Hsu(参考訳) プログラマブル量子プロセッサは、トポロジカル位相が特に興味を持つ量子システムをシミュレートするのに適したプラットフォームである。 IBM Qデバイス上の1次元システムのクエンチダイナミクスをシミュレートする。 力学のトポロジカルな性質は、量子回路モデルでシミュレートされた動的トポロジカル不変量、動的巻数、時間依存ベリー位相によって記述される。 その結果、現在の量子コンピュータにノイズがあるにもかかわらず、動的トポロジカル不変量はロバストであることがわかった。 さらに,開量子系の影響を調べるために,リンドブラッド形式のマスター方程式を解析的に解き,動的巻線数とベリー相の変化が散逸の影響を受けないことを示す。 この研究は、ノイズの多い中間スケール量子コンピュータにおける位相位相の堅牢性について光を当てる。

Programmable quantum processors are suitable platforms for simulating quantum systems, of which topological phases are of particular interest. We simulate the quench dynamics of a one-dimensional system on IBM Q devices. The topological properties of the dynamics are described by the dynamical topological invariants, the dynamical winding number and the time-dependent Berry phase, which are simulated with the quantum circuit model. The results show that despite the noise present in the current quantum computers, the dynamical topological invariants are robust. Moreover, to investigate the influence of open quantum system, we analytically solve the master equation in Lindblad form and show that the dynamical winding number and the change in Berry phase are not affected by the dissipation. This study sheds light on the robustness of topological phases on the noisy intermediate-scale quantum computers.
翻訳日:2023-03-20 23:26:27 公開日:2021-12-30
# He型およびLi型等電子系列の超コンパクト正確な波動関数と変分電卓 II。 ヘリウム配列のスピンシングレット(励起)とスピン三重項(最低)状態

Ultra-Compact accurate wave functions for He-like and Li-like iso-electronic sequences and variational calculus. II. Spin-singlet (excited) and spin-triplet (lowest) states of the Helium sequence ( http://arxiv.org/abs/2108.02145v3 )

ライセンス: Link先を確認
A.V.Turbiner, J.C.Lopez Vieyra, J.C. del Valle, D.J.Nader(参考訳) As a continuation of Part I \cite{Part-1:2020} (Int. Journal of Quantum Chem. 2021; 121: qua.26586), dedicated to the ground state of He-like and Li-like isoelectronic sequences for nuclear charges $Z \leq 20$, a few ultra-compact wave functions in the form of generalized Hylleraas-Kinoshita functions are constructed, which describe the domain of applicability of the Quantum Mechanics of Coulomb Charges (QMCC) for the energies (4-5 significant digits (s.d.)) of two excited states of He-like ions: the spin-singlet (first) excited state $2^1 S$ and the lowest spin-triplet $1^3 S$ state. どちらの状態においても、エネルギー$\sim 10^{-3}$\,u.、cuspパラメータの正確な値、および6つの期待値に対して相対精度$\sim 10^{-2}$の絶対精度を提供する。 ヘリウムの2^1 S$状態の結節面の特別な形態に関するブレサニーニ・レイノルズ観測は確認され、2$Z > 2$でHe様イオンに拡張される。 超コンパクトな試行関数が正方積分性を失う臨界電荷$Z=Z_B$:$Z_B(1^1 S)\approx Z_B(2^1 S)\sim 0.905$および$Z_B(1^3 S)\sim 0.902$ 両方の状態について、マヨラナ公式(Z$の第二次多項式としてのエネルギー)は、正確に4-5の有意な桁を$Z \leq 20$に対して提供する。

As a continuation of Part I \cite{Part-1:2020} (Int. Journal of Quantum Chem. 2021; 121: qua.26586), dedicated to the ground state of He-like and Li-like isoelectronic sequences for nuclear charges $Z \leq 20$, a few ultra-compact wave functions in the form of generalized Hylleraas-Kinoshita functions are constructed, which describe the domain of applicability of the Quantum Mechanics of Coulomb Charges (QMCC) for the energies (4-5 significant digits (s.d.)) of two excited states of He-like ions: the spin-singlet (first) excited state $2^1 S$ and the lowest spin-triplet $1^3 S$ state. For both states it provides absolute accuracy for energy $\sim 10^{-3}$\,a.u., exact values for cusp parameters and also for 6 expectation values the relative accuracy $\sim 10^{-2}$. The Bressanini-Reynolds observation about the special form of the nodal surface of the $2^1 S$ state of Helium is confirmed and extended to He-like ions with $Z > 2$. Critical charges $Z=Z_B$, where ultra-compact trial functions lose their square-integrability, are estimated: $Z_B(1^1 S)\approx Z_B(2^1 S)\sim 0.905$ and $Z_B(1^3 S)\sim 0.902$. For both states the Majorana formula - the energy as a second degree polynomial in $Z$ - provides accurately 4-5 significant digits for $Z \leq 20$.
翻訳日:2023-03-20 00:27:58 公開日:2021-12-30
# マヨラナ量子、弦散乱、曲線時空、リーマン仮説

Majorana quanta, string scattering, curved spacetimes and the Riemann Hypothesis ( http://arxiv.org/abs/2108.07852v3 )

ライセンス: Link先を確認
Fabrizio Tamburini and Ignazio Licata(参考訳) リーマン仮説によれば、リーマンゼータ函数 $\zeta(z)$ は実部 $1/2$ を持つはずの複素数である ``non-trivial'' 零点の集合を許容する。 複素平面上のそれらの分布は、与えられた数の前に素数の数を決定する鍵であると考えられている。 Hilbert と P\'olya は、リーマン仮説は古典的あるいは量子的システムを記述する適切なエルミート的あるいはユニタリ作用素を見つけ、その固有値は$\zeta(z)$の零点のように分配する、物理学の数学的ツールによって解けることを示唆した。 別のアプローチは、$\zeta(z)$ 0 の分布と物理系の散乱行列 $S$ の極の間の対応を見つけることである。 第一に、無限成分のマヨラナ方程式をリンドラー時空に適用し、ヒルベルト・ピオリアのアプローチに従ってディラック粒子を用いて得られた結果と比較すると、マヨラナ解が質量のないディラック粒子と似た挙動を示し、ゼータの零点間のエネルギー状態の関係を見出す。 次に,マヨラナ方程式を用いたタキオン状態のボソニック開弦散乱を記述する$s$-matrixアプローチに注目した。 ここでは、マヨラナ解の角運動量とエネルギー/質量固有値の関係により、リーマン仮説を満たす理想系の$S$-行列の極と零点が常にペアに存在し、複素共役によって関係するまだ不明瞭な点を説明することができる。 文献で主張されているように、この主張が正しければ、リーマン仮説は原則として満たされ、証明への道筋を辿ることができる。

The Riemann Hypothesis states that the Riemann zeta function $\zeta(z)$ admits a set of ``non-trivial'' zeros that are complex numbers supposed to have real part $1/2$. Their distribution on the complex plane is thought to be the key to determine the number of prime numbers before a given number. Hilbert and P\'olya suggested that the Riemann Hypothesis could be solved through the mathematical tools of physics, finding a suitable Hermitian or unitary operator that describe classical or quantum systems, whose eigenvalues distribute like the zeros of $\zeta(z)$. A different approach is that of finding a correspondence between the distribution of the $\zeta(z)$ zeros and the poles of the scattering matrix $S$ of a physical system. Our contribution is articulated in two parts: in the first we apply the infinite-components Majorana equation in a Rindler spacetime and compare the results with those obtained with a Dirac particle following the Hilbert-P\'olya approach showing that the Majorana solution has a behavior similar to that of massless Dirac particles and finding a relationship between the zeros of zeta end the energy states. Then, we focus on the $S$-matrix approach describing the bosonic open string scattering for tachyonic states with the Majorana equation. Here we find that, thanks to the relationship between the angular momentum and energy/mass eigenvalues of the Majorana solution, one can explain the still unclear point for which the poles and zeros of the $S$-matrix of an ideal system that can satisfy the Riemann Hypothesis, exist always in pairs and are related via complex conjugation. As claimed in the literature, if this occurs and the claim is correct, then the Riemann Hypothesis could be in principle satisfied, tracing a route to a proof.
翻訳日:2023-03-18 05:15:13 公開日:2021-12-30
# カオスのサブリーディング境界

Subleading Bounds on Chaos ( http://arxiv.org/abs/2109.03826v2 )

ライセンス: Link先を確認
Sandipan Kundu(参考訳) 量子系におけるカオスは、マルダセナ、シェンカー、スタンフォード(MSS)のカオス境界に従う時間外相関器(OTOC)によって診断することができる。 この類 OTOC の分散関係の導出から始まり、MSS 境界を超える多くの制約を満たす必要があることを示唆する。 この観測により、我々はOTOC上の無限の制約の集合を得る体系的な解析を行う。 この無限集合は、主制約として有界なMSSを含む。 さらに、特にMSS境界が先頭項によって飽和されているとき、非常に制約のある部分解境界も含む。 これらの新たな境界は、特に、mssバウンドがどの期間でも正確に飽和することができないことを暗示している。 さらに、最大カオスに対するサブリーディング補正の lyapunov exponent $\lambda_2 \le \frac{6\pi}{\beta}$ 上の鋭い境界を導出する。

Chaos, in quantum systems, can be diagnosed by certain out-of-time-order correlators (OTOCs) that obey the chaos bound of Maldacena, Shenker, and Stanford (MSS). We begin by deriving a dispersion relation for this class of OTOCs, implying that they must satisfy many more constraints beyond the MSS bound. Motivated by this observation, we perform a systematic analysis obtaining an infinite set of constraints on the OTOC. This infinite set includes the MSS bound as the leading constraint. In addition, it also contains subleading bounds that are highly constraining, especially when the MSS bound is saturated by the leading term. These new bounds, among other things, imply that the MSS bound cannot be exactly saturated over any duration of time, however short. Furthermore, we derive a sharp bound on the Lyapunov exponent $\lambda_2 \le \frac{6\pi}{\beta}$ of the subleading correction to maximal chaos.
翻訳日:2023-03-15 20:24:55 公開日:2021-12-30
# 極端のカオス

Extremal Chaos ( http://arxiv.org/abs/2109.08693v2 )

ライセンス: Link先を確認
Sandipan Kundu(参考訳) 最大カオス量子システムでは、オフ・オブ・タイム・コリエーター(otocs)のクラスは、カオス上に束縛されたmaldacena-shenker-stanford(mss)を飽和させる。 最近では、同じOTOCも、多くの自由度を持つ任意の熱量子系において無限の制約に従わなければならないことが示されている。 本稿では,飽和を許容するサブリーディングカオス境界をすべて飽和させる極大カオスオトクの一意的な解析的拡張を見いだす。 この過度に混乱したOTOCは、初期摂動の情報が非常に遅い時期に回復する特徴を持っている。 さらに、過度にカオスなOTOCはすべてのOTOCに対してK\"{a}llen-Lehmann型表現を提供すると主張する。 この表現は極大カオスのすべての解析的完了を極大カオスの小さな変形として正確に識別することができる。

In maximally chaotic quantum systems, a class of out-of-time-order correlators (OTOCs) saturate the Maldacena-Shenker-Stanford (MSS) bound on chaos. Recently, it has been shown that the same OTOCs must also obey an infinite set of (subleading) constraints in any thermal quantum system with a large number of degrees of freedom. In this paper, we find a unique analytic extension of the maximally chaotic OTOC that saturates all the subleading chaos bounds which allow saturation. This extremally chaotic OTOC has the feature that information of the initial perturbation is recovered at very late times. Furthermore, we argue that the extremally chaotic OTOC provides a K\"{a}llen-Lehmann-type representation for all OTOCs. This representation enables the identification of all analytic completions of maximal chaos as small deformations of extremal chaos in a precise way.
翻訳日:2023-03-14 11:28:28 公開日:2021-12-30
# クォート非調和振動子からダブルウェルポテンシャルへ

From quartic anharmonic oscillator to double well potential ( http://arxiv.org/abs/2111.01546v2 )

ライセンス: Link先を確認
Alexander V. Turbiner, J.C. del Valle(参考訳) 量子クォート単調振動子 $V_{ao}(x)=x^2+g^2 x^4$ とダブルウェル無調振動子 $V_{dw}(x)=x^2(1 - gx)^2$ が本質的に1パラメトリックであることは既に知られている。 したがって、これらの問題は、それぞれ$v_{ao}=u^2+u^4$と$v_{dw}=u^2(1-u)^2$である。 最近得られたアンハーモニック発振器固有関数 $\psi_{ao}(u)$ を一様精度で近似することにより、jpa 54 (2021) 295204 [1] と arxiv 2102.04623 [2] を見て、次関数 $\psi_{dw}(u)=\psi_{ao}(u) \pm \psi_{ao}(u-1)$ を作ることで、ダブルウェルポテンシャルとその固有値の固有関数の両方の高精度な近似を得ることができる。

It is already known that the quantum quartic single-well anharmonic oscillator $V_{ao}(x)=x^2+g^2 x^4$ and double-well anharmonic oscillator $V_{dw}(x)= x^2(1 - gx)^2$ are essentially one-parametric, their eigenstates depend on a combination $(g^2 \hbar)$. Hence, these problems are reduced to study the potentials $V_{ao}=u^2+u^4$ and $V_{dw}=u^2(1-u)^2$, respectively. It is shown that by taking uniformly-accurate approximation for anharmonic oscillator eigenfunction $\Psi_{ao}(u)$, obtained recently, see JPA 54 (2021) 295204 [1] and Arxiv 2102.04623 [2], and then forming the function $\Psi_{dw}(u)=\Psi_{ao}(u) \pm \Psi_{ao}(u-1)$ allows to get the highly accurate approximation for both the eigenfunctions of the double-well potential and its eigenvalues.
翻訳日:2023-03-09 20:49:12 公開日:2021-12-30
# 量子アプリケーション用超低雑音増幅器(QLNA)の設計

Design of Ultra-Low Noise Amplifier for Quantum Applications (QLNA) ( http://arxiv.org/abs/2111.15358v2 )

ライセンス: Link先を確認
Ahmad Salmanogli(参考訳) 本稿では、主に量子アプリケーションで使用可能な超低雑音増幅器の設計を強調する。 このため、設計回路は、特にノイズフィギュアと、強い制限のあるノイズを必要とする量子アプリケーションで使用される改善に焦点を当てている。 設計された低雑音増幅器が量子関連応用が可能な場合、そのノイズ温度は0.4K程度で、設計された回路はジョセフソンジャンクション増幅器に匹敵する。 この課題は非常に難しいと思われるが、本研究は回路の設計、回路のミスマッチと反射係数の最小化、回路トランスコンダクタンスの向上、回路のノイズフィギュアを可能な限り効率的に改善することに焦点を当てている。 その結果,10Kで動作する回路の設計において,0.009dB程度のノイズフィギュアに到達する可能性が示唆された。さらに,この回路は量子力学的解析により解析され,ゲインパワーなどの重要な量が理論的に導出され,ノイズフィギュアが直接影響を受ける。 実際、量子理論を用いた導出関係は、ノイズフィギュアを最適化するために設計がどの量に集中すべきかを明らかにする。 したがって、量子理論と工学的アプローチの融合は、ノイズフィギュアを極力最小化するための高効率回路の設計に寄与する。

The present article mainly emphasizes the design of an ultra-low-noise amplifier that can be used in quantum applications. For this reason, the design circuit specifically concentrates on the noise figure and its improvement to be used in quantum applications, which needs strongly limited noises. If the designed low-noise amplifier could have quantum-associated applications, its noise temperature should be around 0.4 K, in which the designed circuit is comparable with the Josephson Junction amplifier. Although this task seems to be highly challenging, this work focuses on engineering the circuit, minimizing the mismatch and reflection coefficients in the circuit, and enhancing the circuit transconductance to improve the noise figure in the circuit as efficiently as possible. The results indicated the possibility of reaching the noise figure around 0.009 dB for a special design of the circuit operating at 10 K. Additionally, the circuit is analyzed via quantum mechanical analysis, through which some important quantities such as gain power is theoretically derived by which the noise figure is directly affected. In fact, the derived relationship using quantum theory reveals that on which quantities the design should focus in order to optimize the noise figure. Thus, merging quantum theory with engineering approaches contributes to designing a highly efficient circuit for strongly minimizing the noise figure.
翻訳日:2023-03-06 07:10:36 公開日:2021-12-30
# 電流・近未来のNISQシステムにおける量子回路の同時実行

Simultaneous execution of quantum circuits on current and near-future NISQ systems ( http://arxiv.org/abs/2112.07091v2 )

ライセンス: Link先を確認
Yasuhiro Ohkura, Takahiko Satoh, Rodney Van Meter(参考訳) NISQ時代には、量子回路(QC)のマルチプログラミングは、量子計算のスループットを向上させるのに役立つ。 NISQプロセッサの主なノイズ源であるクロストークは、複数のQCの同時実行の性能低下を引き起こす可能性があるが、その特性コストはプロセッササイズで2倍に増加する。 これらの課題に対処するために、並列実行時のQCと量子プロセッサ上のレイアウトの組み合わせに注目しつつ、NISQプロセッサ上での量子マルチプログラミングの性能を向上させるために、パラロック(QCの並列割り当て)を導入し、クロストークによるQC間の不必要な干渉を減らす。 また,マルチプログラミングに対するハードウェアの適合性を効果的かつ効果的に特徴付けるソフトウェアベースのクロストーク検出プロトコルを提案する。 マルチプログラミングの成功率と実行時間の間のトレードオフを見出した。 これは量子コンピュータサービスだけでなく、最近注目され、熱心に研究されているNISQプロセッサ上で適切なスケールのアルゴリズムを実行したい世界中のユーザーにも魅力的だ。

In the NISQ era, multi-programming of quantum circuits (QC) helps to improve the throughput of quantum computation. Although the crosstalk, which is a major source of noise on NISQ processors, may cause performance degradation of concurrent execution of multiple QCs, its characterization cost grows quadratically in processor size. To address these challenges, we introduce palloq (parallel allocation of QCs) for improving the performance of quantum multi-programming on NISQ processors while paying attention to the combination of QCs in parallel execution and their layout on the quantum processor, and reducing unwanted interference between QCs caused by crosstalk. We also propose a software-based crosstalk detection protocol that efficiently and successfully characterizes the hardware's suitability for multi-programming. We found a trade-off between the success rate and execution time of the multi-programming. This would be attractive not only to quantum computer service but also to users around the world who want to run algorithms of suitable scale on NISQ processors that have recently attracted great attention and are being enthusiastically investigated.
翻訳日:2023-03-04 14:29:04 公開日:2021-12-30
# 等方性3次元調和振動子の角運動量固有状態:位相空間分布と合体確率

Angular Momentum Eigenstates of the Isotropic 3-D Harmonic Oscillator: Phase-Space Distributions and Coalescence Probabilities ( http://arxiv.org/abs/2112.12269v2 )

ライセンス: Link先を確認
Michael Kordell II, Rainer J. Fries, Che Ming Ko(参考訳) 等方的な3次元調和振動子ポテンシャルは、原子、固体状態、核、粒子物理学における多くの系の近似記述として機能する。 特に、2つの粒子がそのようなポテンシャルの角運動量固有状態に結合する(あるいは結合する)という問題は興味深い応用である。 我々は,2つの識別可能な非相対論的粒子をそのような境界状態に合体させる確率を計算し,初期粒子を与えられた平均位置とモータの一般波パケットで表す。 位相空間の定式化を用いるため、等方性3次元調和振動子における角運動量固有状態のウィグナー分布関数が必要である。 これらの分布関数はこれまで文献で論じられてきたが、これらの関数を得るには別のアプローチを用いる。 その過程で、1次元調和振動子固有状態の積の観点から角運動量固有状態を拡張する一般公式を導出する。

The isotropic 3-dimensional harmonic oscillator potential can serve as an approximate description of many systems in atomic, solid state, nuclear, and particle physics. In particular, the question of 2 particles binding (or coalescing) into angular momentum eigenstates in such a potential has interesting applications. We compute the probabilities for coalescence of two distinguishable, non-relativistic particles into such a bound state, where the initial particles are represented by generic wave packets of given average positions and momenta. We use a phase-space formulation and hence need the Wigner distribution functions of angular momentum eigenstates in isotropic 3-dimensional harmonic oscillators. These distribution functions have been discussed in the literature before but we utilize an alternative approach to obtain these functions. Along the way, we derive a general formula that expands angular momentum eigenstates in terms of products of 1-dimensional harmonic oscillator eigenstates.
翻訳日:2023-03-03 19:56:01 公開日:2021-12-30
# 色+ttesman-Kitaev-Preskill符号による量子誤差補正

Quantum error correction with the color-Gottesman-Kitaev-Preskill code ( http://arxiv.org/abs/2112.14447v2 )

ライセンス: Link先を確認
Jiaxuan Zhang, Jian Zhao, Yu-Chun Wu, and Guo-Ping Guo(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号はボゾン量子誤り訂正符号の重要な型である。 GKP 符号は $\hat{p}$ と $\hat{q}$ の小さなシフトエラーに対してのみ保護されるので、より大きなエラー訂正を行うためには GKP 符号と安定化符号を結合する必要がある。 本稿では,2次元(2次元)カラーコード(色-GKP符号)と単一モードGKP符号の正方形格子上の結合について考察する。 我々は,GKP誤差の補正にME-Steane方式を用いたSteane型スキームを用い,その整合性を示す。 本研究では,色-GKP符号の復号化に最小重完全マッチング(MWPM)アルゴリズムを適用した。 GKP符号からの連続可変情報により、2Dカラーコードの閾値が向上する。 データGKP量子ビットだけがノイズがある場合、閾値は$\sigma\approx 0.59$$(\bar{p}\approx 13.3\%)$と$\bar{p}=10.2\%の通常の2Dカラーコードと比較される。 また、測定値がノイズである場合、デコードのための3次元時空グラフ上の一般化制限デコーダを導入する。 この閾値は、gkp誤差補正における測定値が無ノイズの場合は$\sigma\approx 0.46$、全ての測定値がうるさければ$\sigma\approx 0.24$となる。 最後に、一般化された制限デコーダの優れた性能は、現象学的誤差モデルの下で閾値が3.1\%の通常の2Dカラーコードにも示されている。

The Gottesman-Kitaev-Preskill (GKP) code is an important type of bosonic quantum error-correcting code. Since the GKP code only protects against small shift errors in $\hat{p}$ and $\hat{q}$ quadratures, it is necessary to concatenate the GKP code with a stabilizer code for the larger error correction. In this paper, we consider the concatenation of the single-mode GKP code with the two-dimension (2D) color code (color-GKP code) on the square-octagon lattice. We use the Steane type scheme with a maximum-likelihood estimation (ME-Steane scheme) for GKP error correction and show its advantage for the concatenation. In our main work, the minimum-weight perfect matching (MWPM) algorithm is applied to decode the color-GKP code. Complemented with the continuous-variable information from the GKP code, the threshold of 2D color code is improved. If only data GKP qubits are noisy, the threshold reaches $\sigma\approx 0.59$ $(\bar{p}\approx13.3\%)$ compared with $\bar{p}=10.2\%$ of the normal 2D color code. If measurements are also noisy, we introduce the generalized Restriction Decoder on the three-dimension space-time graph for decoding. The threshold reaches $\sigma\approx 0.46$ when measurements in the GKP error correction are noiseless, and $\sigma\approx 0.24$ when all measurements are noisy. Lastly, the good performance of the generalized Restriction Decoder is also shown on the normal 2D color code giving the threshold at $3.1\%$ under the phenomenological error model.
翻訳日:2023-03-02 23:34:31 公開日:2021-12-30
# 回路qedアーキテクチャにおける電流バイアスグラディメトリックフラックス量子ビット

Current biased gradiometric flux qubit in a circuit-QED architecture ( http://arxiv.org/abs/2112.14926v1 )

ライセンス: Link先を確認
Mun Dae Kim(参考訳) 本稿では,回路QEDアーキテクチャにおける交流バイアス電流を適用して,GFQ(gradiometric flux qubit)を制御する手法を提案する。 GFQは磁束変動に敏感であり、同時に外部磁場による量子状態の操作も困難である。 本研究では,gfqの$\alpha$-junctionに適用される交流バイアス電流が量子ビット状態を制御することができることを示す。 さらに, 本手法は電荷変動や磁束変動に対して頑健であり, 量子ゲート演算の長いコヒーレンス時間を期待できる。 本稿では,結合強度が十分高いシングルおよび2量子ビット演算を行う回路qedアーキテクチャを提案する。

We propose a scheme for controlling the gradiometric flux qubit (GFQ) by applying an ac bias current in a circuit-QED architecture. The GFQ is insensitive to the magnetic flux fluctuations, which at the same time makes it challenging to manipulate the qubit states by an external magnetic field. In this study, we demonstrate that an ac bias current applied to the $\alpha$-junction of the GFQ can control the qubit states. Further, the present scheme is robust against the charge fluctuation as well as the magnetic flux fluctuations, promising a long coherence time for quantum gate operations. We introduce a circuit-QED architecture to perform the single and two-qubit operations with a sufficiently strong coupling strength.
翻訳日:2023-03-02 21:24:51 公開日:2021-12-30
# 量子と論理を用いたスケーラブルアルゴリズムの単純化

Scalable algorithm simplification using quantum AND logic ( http://arxiv.org/abs/2112.14922v1 )

ライセンス: Link先を確認
Ji Chu, Xiaoyu He, Yuxuan Zhou, Jiahao Yuan, Libo Zhang, Qihao Guo, Yongju Hai, Zhikun Han, Chang-Kang Hu, Wenhui Huang, Hao Jia, Dawei Jiao, Yang Liu, Zhongchu Ni, Xianchuang Pan, Jiawei Qiu, Weiwei Wei, Zusheng Yang, Jiajian Zhang, Zhida Zhang, Wanjing Zou, Yuanzhen Chen, Xiaowei Deng, Xiuhao Deng, Ling Hu, Jian Li, Dian Tan, Yuan Xu, Tongxing Yan, Xiaoming Sun, Fei Yan, and Dapeng Yu(参考訳) 現実的なハードウェア上で量子アルゴリズムを実装するには、高レベルのグローバルな操作をネイティブな基本ゲートのシーケンスに変換する必要がある。 接続性やゲートアルファベットの制約のような物理的制限は、しばしば許容できない実装コストをもたらす。 短期的アプリケーションを成功させるためには、既存のハードウェアの潜在的な能力を活用してコンパイルを最適化することが不可欠である。 本稿では,鍵量子回路の実行を可能にするため,コスト削減が可能なand論理のリソース効率の高い構成を実装した。 高速超伝導量子プロセッサ上では,最大8量子ビットの高忠実度一般化 toffoli ゲートと最大64エントリの探索空間におけるgrover 探索アルゴリズムの低精細な合成を実証する。 量子アルゴリズムを単純化するスケーラブルな実装を実証し,ノイズの多いデバイス上でより大規模で有意義な量子アプリケーションを実現する方法を示した。

Implementing quantum algorithms on realistic hardware requires translating high-level global operations into sequences of native elementary gates, a process known as quantum compiling. Physical limitations, such as constraints in connectivity and gate alphabets, often result in unacceptable implementation costs. To enable successful near-term applications, it is crucial to optimize compilation by exploiting the potential capabilities of existing hardware. Here, we implement a resource-efficient construction for a quantum version of AND logic that can reduce the cost, enabling the execution of key quantum circuits. On a high-scalability superconducting quantum processor, we demonstrate low-depth synthesis of high-fidelity generalized Toffoli gates with up to 8 qubits and Grover's search algorithm in a search space of up to 64 entries; both are the largest such implementations in scale to date. Our experimental demonstration illustrates a scalable implementation of simplifying quantum algorithms, paving the way for larger, more meaningful quantum applications on noisy devices.
翻訳日:2023-03-02 21:24:36 公開日:2021-12-30
# ダイヤモンド量子センサを用いた微小スケールでの新しいスピン相互作用探索の提案

Proposal for the search for new spin interactions at the micrometer scale using diamond quantum sensors ( http://arxiv.org/abs/2112.14882v1 )

ライセンス: Link先を確認
P.-H. Chu, N. Ristoff, J. Smits, N. Jackson, Y. J. Kim, I. Savukov, V. M. Acosta(参考訳) 何十年もの間、エキゾチックなスピン相互作用の探索は、粒子物理学の様々な理論モデルをテストするために、より精密な実験室の測定を用いてきた。 しかし、ほとんどの探索は、0.2mV未満の仮説ボソン質量に対応する1mm以上の相互作用長スケールに焦点を当てている。 近年、ダイヤモンド中の窒素-原子空洞(NV)中心に基づく量子センサーが、マイクロメートルスケールでスピン相互作用を探索し、この長さスケールで新しい物理学を探求するための扉を開いた。 本稿では,nv電子スピンと移動質量との仮定的相互作用を探索する実験を提案する。 nvスピンアンサンブルとスピン偏極質量と非偏極質量との結合と振動機械振動子との相互作用に注目した。 各インタラクションについて,感度を推定し,最適な実験条件を特定し,潜在的な系統的誤りを分析した。 マルチパルス量子センシングプロトコルとnvスピンアンサンブルを用いて感度を向上させることにより,従来のマイクロメートルスケールでの制約よりも5桁程度の精度向上が期待できる新しい制約を提示する。 また,超偏極13c核スピンに基づくスピン偏極試験質量を薄膜中で同定し,高スピン密度と低成層磁場を好適に組み合わせた。 最近のプレプリント(arxiv:2010.15667)では、マイクロメートルスケールのスピン速度相互作用の驚くべき非ゼロ結果が報告されている。

For decades, searches for exotic spin interactions have used increasingly-precise laboratory measurements to test various theoretical models of particle physics. However, most searches have focused on interaction length scales greater than 1 mm, corresponding to hypothetical boson masses less than 0.2 meV. Recently, quantum sensors based on Nitrogen-Vacancy (NV) centers in diamond have emerged as a promising platform to probe spin interactions at the micrometer scale, opening the door to explore new physics at this length scale. Here, we propose experiments to search for several hypothetical interactions between NV electron spins and moving masses. We focus on potential interactions involving the coupling of NV spin ensembles to both spin-polarized and unpolarized masses attached to vibrating mechanical oscillators. For each interaction, we estimate the sensitivity, identify optimal experimental conditions, and analyze potential systematic errors. Using multi-pulse quantum sensing protocols with NV spin ensembles to improve sensitivity, we project new constraints that are ~5 orders-of-magnitude improvement over previous constraints at the micrometer scale. We also identify a spin-polarized test mass, based on hyperpolarized 13C nuclear spins in a thin diamond membrane, which offers a favorable combination of high spin density and low stray magnetic fields. Our analysis is timely in light of a recent preprint (arXiv:2010.15667) reporting a surprising non-zero result of micrometer-scale spin-velocity interactions.
翻訳日:2023-03-02 21:24:17 公開日:2021-12-30
# 局所スピンダイナミクスによるマヨラナモードの探索

Probing Majorana Modes via Local Spin Dynamics ( http://arxiv.org/abs/2112.15033v1 )

ライセンス: Link先を確認
Johannes Bjerlin, Anders S. S{\o}rensen, Stephan Haas(参考訳) 結合依存交換相互作用を持つ量子スピン鎖におけるマヨラナモードについて、そのダイナミクスの研究により検討する。 具体的には、いわゆるキタエフ臨界点に近いキタエフ・ハイゼンベルク(kh)ハミルトニアンに対する2つの時間相関を考える。 ここで、このモデルは、p波超伝導体に対するキタエフの2つの非結合例の位相境界と一致し、複数のマヨラナモードを特徴とする縮退基底状態をサポートする。 この方法では、局所スピンのリアルタイムダイナミクスは、2つの時間相関関数の突出周波数のセットに対応する強いゼロモードのセットを明らかにする。 我々は、khスピン鎖をキタエフのフェルミオン模型の位相的レジームに写像する摂動相互作用を導出し、したがって、メソスコピックレジーム、すなわち有限の系サイズに対してほぼ縮退モードを維持しながらバルクギャップを開放する。 これは、効果的な二量体の連鎖におけるマヨラナモードの出現を示す。 ここで、各単位セル内の結合エネルギーは二量体カップリングと競合し、横場イジングモデルにおける局所エネルギー項と類似して有限サイズのエネルギーギャップを生成する。 これらのモードは、系端に位置する局所スピンの長いコヒーレンス時間を引き起こす。 各ダイマーの局所対称性を破ることで、エッジスピンの2つの時間相関関数におけるビート周波数の観点から、マヨラナモードの第二級を観察することもできる。 さらに,これらのモデル予測をイオントラップ量子シミュレータで実現するシナリオを開発し,イオンを集合的にアドレス付けする。

We investigate Majorana modes in a quantum spin chain with bond-dependent exchange interactions by studying its dynamics. Specifically, we consider two-time correlations for the Kitaev-Heisenberg (KH) Hamiltonian close to the so-called Kitaev critical point. Here, the model coincides with a phase boundary of two uncoupled instances of Kitaev's model for p-wave superconductors, together supporting a degenerate ground state characterized by multiple Majorana modes. In this regime, the real-time dynamics of local spins reveal a set of strong zero modes, corresponding to a set of protruding frequencies in the two-time correlation function. We derive perturbative interactions that map the KH spin chain onto the topological regime of Kitaev's fermionic model, thus opening up a bulk gap whilst retaining almost degenerate modes in the mesoscopic regime, i.e., for finite system sizes. This showcases the emergence of Majorana modes in a chain of effective dimers. Here, the binding energy within each unit cell competes with the inter-dimer coupling to generate a finite size energy gap, in analogy with local energy terms in the transverse-field Ising model. These modes give rise to long coherence times of local spins located at the system edges. By breaking the local symmetry in each dimer, one can also observe a second class of Majorana modes in terms of a beating frequency in the two-time correlations function of the edge spin. Furthermore, we develop a scenario for realizing these model predictions in ion-trap quantum simulators with collective addressing of the ions.
翻訳日:2023-03-02 21:22:02 公開日:2021-12-30
# 超エンタングル光子を用いた偏光感度位相パターンの量子イメージング

Quantum imaging of a polarisation sensitive phase pattern with hyper-entangled photons ( http://arxiv.org/abs/2112.15023v1 )

ライセンス: Link先を確認
Manpreet Kaur and Mandip Singh(参考訳) 透明な偏光感受性相パターンは、光子の量子状態の偏光依存的な変換を吸収せずに行う。 このような目に見えないパターンは、光子の合同量子計測によって量子絡み合った光子で画像化することができる。 本稿では、運動量と偏光度を含む超絡み合った光子対を持つ透明偏光感度位相パターンの量子画像への長い経路実験を示す。 イメージング構成では、1つの光子がパターンと相互作用し、もう1つの光子はパターンと相互作用せず、選択された偏光基底と、その運動量を測定するのに等価な位置の量子重ね合わせ基底で共同で測定される。 各超絡み合ったペアの個々の光子は、完全な画像情報を提供できない。 非干渉光子の測定結果に対応する相互作用光子の偏光状態と位置を測定することにより画像を構成する。 本稿では,偏光感度位相パターンの量子イメージングに関する詳細な概念,理論,自由空間長路実験について述べる。

A transparent polarisation sensitive phase pattern makes a polarisation dependent transformation of quantum state of photons without absorbing them. Such an invisible pattern can be imaged with quantum entangled photons by making joint quantum measurements on photons. This paper shows a long path experiment to quantum image a transparent polarisation sensitive phase pattern with hyper-entangled photon pairs involving momentum and polarisation degrees of freedom. In the imaging configuration, a single photon interacts with the pattern while the other photon, which has never interacted with the pattern, is measured jointly in a chosen polarisation basis and in a quantum superposition basis of its position which is equivalent to measuring its momentum. Individual photons of each hyper-entangled pair cannot provide a complete image information. The image is constructed by measuring the polarisation state and position of the interacting photon corresponding to a measurement outcome of the non-interacting photon. This paper presents a detailed concept, theory and free space long path experiments on quantum imaging of polarisation sensitive phase patterns.
翻訳日:2023-03-02 21:21:11 公開日:2021-12-30
# ミラー画像との干渉による浮遊ナノ粒子の位置測定

Position measurement of a levitated nanoparticle via interference with its mirror image ( http://arxiv.org/abs/2112.14990v1 )

ライセンス: Link先を確認
Lorenzo Dania, Katharina Heidegger, Dmitry S. Bykov, Giovanni Cerchiari, Gabriel Araneda, Tracy E. Northup(参考訳) 浮遊ナノ粒子の運動を検出する干渉計法は量子基底状態への経路を提供するが、この方法は現在、参照ビームと粒子が散乱する双極子場とのモードミスマッチによって制限されている。 本稿では,この問題を解決する粒子の運動を検出する自己干渉法を示す。 ポールトラップは荷電誘電体ナノ粒子を高真空で固定し、鏡は散乱光を逆反射する。 粒子の動きを1.7\times 10^{-12} \text{m}/\sqrt{\text{Hz}}$の感度で測定し、検出効率は2.1%、開口率は0.18である。 本手法の適用例として, 標準位置測定を用いて, 粒子を同じ設定で達成した温度以下まで, フィードバックにより冷却する。

Interferometric methods for detecting the motion of a levitated nanoparticle provide a route to the quantum ground state, but such methods are currently limited by mode mismatch between the reference beam and the dipolar field scattered by the particle. Here we demonstrate a self-interference method to detect the particle's motion that solves this problem. A Paul trap confines a charged dielectric nanoparticle in high vacuum, and a mirror retro-reflects the scattered light. We measure the particle's motion with a sensitivity of $1.7\times 10^{-12} \text{m}/\sqrt{\text{Hz}}$, corresponding to a detection efficiency of 2.1%, with a numerical aperture of 0.18. As an application of this method, we cool the particle, via feedback, to temperatures below those achieved in the same setup using a standard position measurement.
翻訳日:2023-03-02 21:20:02 公開日:2021-12-30
# 垂直状態における極性分子を持つスピン系のハイゼンベルクモデルの実現

Realization of Heisenberg models of spin systems with polar molecules in pendular states ( http://arxiv.org/abs/2112.14981v1 )

ライセンス: Link先を確認
Wenjing Yue, Qi Wei, Sabre Kais, Bretislav Friedrich, and Dudley Herschbach(参考訳) 外部電界に配向し, 双極子-双極子相互作用によって相互に結合した極性二原子あるいは線形分子は, 近似を起こさずに, 正確なハイゼンベルクXYZ, XXZ, XYモデルを実現することができることを示す。 擬似スピンを符号化するためには、マイクロ波または高周波磁場で結合された2つの最も低い起伏励起振子状態を用いる。 本研究では, モデル定数を分子双極子モーメント, 回転定数, 外界の強度と方向, 分子間距離の関数として評価することにより, モデルの一般的な特徴を把握した。 ハイゼンベルクモデルに基づいて、極性分子の線形鎖の位相図を計算し、それらの欠点、利点、潜在的な応用について論じる。

We show that ultracold polar diatomic or linear molecules, oriented in an external electric field and mutually coupled by dipole-dipole interactions, can be used to realize the exact Heisenberg XYZ, XXZ and XY models without invoking any approximation. The two lowest lying excited pendular states coupled by microwave or radio-frequency fields are used to encode the pseudo-spin. We map out the general features of the models by evaluating the models' constants as functions of the molecular dipole moment, rotational constant, strength and direction of the external field as well as the distance between molecules. We calculate the phase diagram for a linear chain of polar molecules based on the Heisenberg models and discuss their drawbacks, advantages, and potential applications.
翻訳日:2023-03-02 21:19:20 公開日:2021-12-30
# 量子コンピューティングにおけるアルゴリズム戦略

Algorithmic Strategies for seizing Quantum Computing ( http://arxiv.org/abs/2112.15175v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Salinas(参考訳) 量子コンピューティング(quantum computing)は、世界で大きな影響を与える見込みのある新しい技術だ。 しかし、現在の状態は、性能が限られている小型でノイズの多い量子コンピュータにのみカウントされる。 本論文では,量子特性を生かした2つの戦略を考察し,量子コンピューティングの出現以来の活用法を提案する。 まず、再アップロード戦略は機械学習に関連する変分アルゴリズムである。 これは、チューナブルパラメータを伴う計算に沿って、数回データを導入することで構成される。 このプロセスにより、回路はあらゆる動作を学習し模倣することができる。 この能力は、回路の量子的性質から自然に現れる。 第2に、単一戦略は、量子回路に格納されている情報の密度を減らし、ノイズに対するレジリエンスを高めることである。 この性能と堅牢性の間のトレードオフは、小さなが意味のある量子スピードアップを見つけることのできるノイズの多いデバイスに利点をもたらす。

Quantum computing is a nascent technology with prospects to have a huge impact in the world. Its current status, however, only counts on small and noisy quantum computers whose performance is limited. In this thesis, two different strategies are explored to take advantage of inherently quantum properties and propose recipes to seize quantum computing since its advent. First, the re-uploading strategy is a variational algorithm related to machine learning. It consists in introducing data several times along a computation accompanied by tunable parameters. This process permits the circuit to learn and mimic any behavior. This capability emerges naturally from the quantum properties of the circuit. Second, the unary strategy aims to reduce the density of information stored in a quantum circuit to increase its resilience against noise. This trade-off between performance and robustness brings an advantage for noisy devices, where small but meaningful quantum speed-ups can be found.
翻訳日:2023-03-02 21:11:32 公開日:2021-12-30
# 量子コンピューティングに関する1年制の光学系高校コースのパイロット

Piloting a full-year, optics-based high school course on quantum computing ( http://arxiv.org/abs/2112.15171v1 )

ライセンス: Link先を確認
Joel A. Walsh, Mic Fenech, Derrick L. Tucker, Catherine Riegle-Crumb, and Brian R. La Cour(参考訳) 量子コンピューティングは、かつては単なる理論的可能性と考えられていたが、最近の工学と材料科学の進歩は、実用的な量子コンピュータを現実に近づけた。 現在、業界、学界、そして世界中の政府の代表たちが、未来の量子労働力を生み出すために必要な教育構造の構築に取り組んでいる。 高校レベルの量子コンピューティング能力の増大にはあまり注意が払われていない。 この記事は、テキサス大学オースティン校における、最初のフル年制の量子コンピューティングクラスの開発と試験について詳述する。 2年間にわたって、このプロジェクトに関わる研究者と実践者は、二次レベルで量子コンピューティングコースの設計と実装に役立つ教育的および実践的な教訓をいくつか学んだ。 特に、古典光学の使用は、量子状態やゲート演算子を表現するための明確でアクセスしやすい道を提供し、学習と知識の他の科学、技術、工学(STEM)スキルへの伝達を促進する。 さらに、数学モデルを導入する前に量子光学現象を探索することは、物質の理解と熟達に役立った。

Quantum computing was once regarded as a mere theoretical possibility, but recent advances in engineering and materials science have brought practical quantum computers closer to reality. Currently, representatives from industry, academia, and governments across the world are working to build the educational structures needed to produce the quantum workforce of the future. Less attention has been paid to growing quantum computing capacity at the high school level. This article details work at The University of Texas at Austin to develop and pilot the first full-year high school quantum computing class. Over the course of two years, researchers and practitioners involved with the project learned several pedagogical and practical lessons that can be helpful for quantum computing course design and implementation at the secondary level. In particular, we find that the use of classical optics provides a clear and accessible avenue for representing quantum states and gate operators and facilitates both learning and the transfer of knowledge to other Science, Technology, and Engineering (STEM) skills. Furthermore, students found that exploring quantum optical phenomena prior to the introduction of mathematical models helped in the understanding and mastery of the material.
翻訳日:2023-03-02 21:11:21 公開日:2021-12-30
# 量子ビットとターダイオードを結合する実験のための微視的量子モデル

A Microscopic Quantum Model For the Experiment Coupling Qubits to a Tardigrade ( http://arxiv.org/abs/2112.15166v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) 超伝導量子ビットにタルジグラードを結合する最近の実験のための量子モデルを提供する。 説明に関わる様々なサブシステム間の量子絡み合いに重点を置いて、様々な視点が議論される。

We provide a quantum model for the recent experiment coupling a tardigrade to superconducting qubits. A number of different perspectives are discussed with the emphasis placed on quantum entanglement between different subsystems involved in the description.
翻訳日:2023-03-02 21:10:47 公開日:2021-12-30
# 浮遊キャビティ光学系による照明のスクイーズ

Squeezing lights via a levitated cavity optomechanics ( http://arxiv.org/abs/2112.15084v1 )

ライセンス: Link先を確認
Guoyao Li and Zhang-qi Yin(参考訳) スクイーズ光は基礎物理学と精密測定の両方において重要な資源である。 スクイーズ光は光共振器内の光パラメトリック増幅によって生成される。 しかし,光力学系における遮蔽光の準備は,熱雑音を必然的に系に結合させる上での課題である。 二色キャビティにおける光学浮揚ナノ粒子について検討し, 2つのキャビティモードをそれぞれ2光子の散乱光子によって励起することができる。 コヒーレント散乱機構に基づき, 現在の実験条件では, キャビティフィールドとナノ粒子のねじれ運動との間の超強結合が達成できた。 光学浮揚ナノ粒子のバックアクションにより、広帯域の単一モードスクイーズ光を悪いキャビティ領域で実現することができる。 室温でも、シングルモードの光は17dB以上で圧縮できるが、これは3dBの限界を超えている。 また、光ツイーザーが2つの周波数を含む場合、1つはキャビティモードの赤のサイドバンドであり、もう1つは青のサイドバンドである。 2モードスクイージングは、系の安定状態の境界付近で最大化することができ、キャビティ減衰率と光学式ツイーザーのパワーの両方に敏感である。

Squeezing light is a critical resource in both fundamental physics and precision measurement. The squeezing light has been generated through optical-parametric amplification inside an optical resonator. However, preparing the squeezing light in an optomechanical system is still a challenge for the thermal noise inevitably coupling to the system. We consider an optically levitated nano-particle in a bichromatic cavity, in which two cavity modes could be excited by the scattering photons of the dual-tweezers respectively. Based on the coherent scattering mechanism, the ultra-strong coupling between the cavity field and torsional motion of nano-particle could be achieved for the current experimental conditions. With the back-action of the optically levtiated nano-particle, the broad single-mode squeezing light can be realized in the bad cavity regime. Even at room temperature, the single-mode light can be squeezed for more than 17 dB, which is far beyond the 3 dB limit. The two-mode squeezing lights can also be generated, if the optical tweezers contain two frequencies, one is on the red sideband of the cavity mode, the other is on the blue sideband. The two-mode squeezing can be maximized near the boundary of the system stable regime, and is sensitive to both the cavity decay rate and the power of the optical tweezers.
翻訳日:2023-03-02 21:10:15 公開日:2021-12-30
# 有界忠実性をもつランダム量子回路の古典的サンプリング

Classical Sampling of Random Quantum Circuits with Bounded Fidelity ( http://arxiv.org/abs/2112.15083v1 )

ライセンス: Link先を確認
Gleb Kalachev, Pavel Panteleev, PengFei Zhou, Man-Hong Yung(参考訳) ランダム回路サンプリングは、古典的スーパーコンピュータよりも量子コンピュータの優位性を示す一般的な手段となっている。 量子チップは急速に進化しているが、古典的なサンプリングアルゴリズムも改善されている。 最大の課題は、量子チップよりもXEB忠実度が高いビットストリングを生成することである。 ここでは、任意のランダム量子回路の確率分布を生成するための古典的なサンプリングアルゴリズムについて述べる。 具体的には,最近導入されたマルチテンソル縮小アルゴリズムを用いて拒絶サンプリングを行う。 テンソルネットワークにおいて支配的な経路を部分的に収縮させ, 拒否サンプリングに使用するバッチ数を調整することにより, 忠実度を制御可能であることを示す。 実証実験として,シカモア53量子ビット量子チップの20サイクル回路に基づいて,忠実度0.2%の100万サンプルを古典的に生成した。 このタスクは当初、Summitスーパーコンピュータで1万年を要すると見積もられていたが、我々のアルゴリズムを32GPU(Tesla V100 16GB)の比較的小さなクラスタ上で使用するのに約14.5日を要した。 さらに,Zuchongzhi 56量子ビット20サイクル回路では,4480 GPU (Tesla A100 80GB) のSeleneスーパーコンピュータを約4日間で0.066%の忠実度で1Mサンプルを生成することができると推定した。

Random circuit sampling has become a popular means for demonstrating the superiority of quantum computers over classical supercomputers. While quantum chips are evolving rapidly, classical sampling algorithms are also getting better and better. The major challenge is to generate bitstrings exhibiting an XEB fidelity above that of the quantum chips. Here we present a classical sampling algorithm for producing the probability distribution of any given random quantum circuit, where the fidelity can be rigorously bounded. Specifically, our algorithm performs rejection sampling after the introduced very recently multi-tensor contraction algorithm. We show that the fidelity can be controlled by partially contracting the dominant paths in the tensor network and by adjusting the number of batches used in the rejection sampling. As a demonstration, we classically produced 1 million samples with the fidelity bounded by 0.2%, based on the 20-cycle circuit of the Sycamore 53-qubit quantum chip. Though this task was initially estimated to take 10,000 years on the Summit supercomputer, it took about 14.5 days using our algorithm on a relatively small cluster with 32 GPUs (Tesla V100 16GB). Furthermore, we estimate that for the Zuchongzhi 56-qubit 20-cycle circuit one can produce 1M samples with fidelity 0.066% using the Selene supercomputer with 4480 GPUs (Tesla A100 80GB) in about 4 days.
翻訳日:2023-03-02 21:09:52 公開日:2021-12-30
# ハイブリッド量子システムにおける絡み合いに基づく証人の表示」に対するコメントに対する反応

Response to a comment on "Vindication of entanglement-based witnesses in hybrid quantum systems" ( http://arxiv.org/abs/2112.15074v1 )

ライセンス: Link先を確認
Chiara Marletto and Emanuele Marconato(参考訳) 最近の論文では、ハイブリッド量子システムにおける非古典性の一般的な絡み合いに基づく証人を擁護した。 我々の処罰は、ホールとレジナットが提案した証人に対する反例である。 これらの著者は最近さらにコメントし、「膨大な数の誤りと誤解」を暴露したと主張した。 しかし、彼らのコメントには私たちの議論に対する反論はなく、誤りや誤解も示さない。 しかし、それは非古典性の目撃者に関する多くの誤解を含んでいる。 ここではそれに答える。

In a recent paper, we vindicated a general entanglement-based witness of non-classicality in hybrid quantum systems. Our vindication refutes a counterexample to the witness, proposed by Hall and Reginatto. These authors recently commented further, claiming to expose "a huge number of errors and misconceptions" in it. However, their comment contains no refutation of our arguments, nor does it expose any error or misconception in them. But it does include a number of misconceptions about the witness of non-classicality. Here we respond to those.
翻訳日:2023-03-02 21:09:31 公開日:2021-12-30
# PT対称媒体の極限ケースとしての局所有限自由空間

Locally finite free space as limiting case of PT-symmetric medium ( http://arxiv.org/abs/2201.00010v1 )

ライセンス: Link先を確認
Mohammad Hasan, Mohammad Umar and Bhabani Prasad Mandal(参考訳) 有限層付き$PT$対称系の固定長$L$の移動行列が、等しい厚さのポテンシャル系 `$+iV$' と `$-iV$' の単位系$N \rightarrow \infty$ の単位行列となることを明示的に証明する。 この結果は任意の波ベクトル $k$ の波に対して真である。 これは、この極限において、伝送係数は常にユニティであり、反射振幅は、この長さを渡るすべての波に対してゼロであることを示している。 したがって、有限長さ $l$ の自由空間は、$pt$対称媒質として表現できる。

We explicitly prove that the transfer matrix of a finite layered $PT$-symmetric system of fix length $L$ consisting of $N$ units of the potential system `$+iV$' and `$-iV$' of equal thickness becomes a unit matrix in the limit $N \rightarrow \infty$. This result is true for waves of arbitrary wave vector $k$. This shows that in this limit, the transmission coefficient is always unity while the reflection amplitude is zero for all waves traversing this length $L$. Therefore, a free space of finite length $L$ can be represented as a $PT$-symmetric medium.
翻訳日:2023-03-02 21:03:39 公開日:2021-12-30
# 量子光流体格子の光力学的パラメトリック振動

Optomechanical parametric oscillation of a quantum light-fluid lattice ( http://arxiv.org/abs/2112.15245v1 )

ライセンス: Link先を確認
A. A. Reynoso, G. Usaj, D. L. Chafatinos, F. Mangussi, A. E. Bruchhausen, A. S. Kuznetsov, K. Biermann, P. V. Santos, and A. Fainstein(参考訳) 2光子コヒーレント状態は、非線形および量子光学の主要な構造柱の1つである。 これは最小未確認量子状態と絡み合った光子対の生成の基礎であり、標準コヒーレント状態や1光子レーザーでは得られない応用である。 ここでは、ポラリトン凝縮体を含む完全共振型光学パラメトリック増幅器を、メカニカルモードに2次結合したトラップ格子に記述する。 二次カップリングは、非共鳴仮想遷移から、光学的カップリングによって引き起こされる離散励起状態へと導かれる。 非共振連続波(cw)レーザーの励起は、光学力学的に誘起されるサイト間パラメトリック振動の出現や、2つのメカニカル振動(20ghzおよび60ghz拘束振動)のエネルギーの和に対応する離散的トラップ間デチューニングにおけるポラリトンのサイト間トンネル化など、実験的な結果をもたらす。 このコヒーレントな機械振動は、標準線形光学自己振動とは異なる閾値条件のパラメトリック共鳴に対応することを示す。 関連するアーノルド舌は不安定領域内の状態の複雑なシナリオを示す。 観測された新しい現象は、絡み合ったフォノン対の生成、センシングと量子計算に関連する機械的状態、および技術的に関連する範囲における信号の双方向の周波数変換に応用できる。

Two-photon coherent states are one of the main building pillars of non-linear and quantum optics. It is the basis for the generation of minimum-uncertainty quantum states and entangled photon pairs, applications not obtainable from standard coherent states or one-photon lasers. Here we describe a fully-resonant optomechanical parametric amplifier involving a polariton condensate in a trap lattice quadratically coupled to mechanical modes. The quadratic coupling derives from non-resonant virtual transitions to extended discrete excited states induced by the optomechanical coupling. Non-resonant continuous wave (cw) laser excitation leads to striking experimental consequences, including the emergence of optomechanically induced inter-site parametric oscillations and inter-site tunneling of polaritons at discrete inter-trap detunings corresponding to sums of energies of the two involved mechanical oscillations (20 and 60 GHz confined vibrations). We show that the coherent mechanical oscillations correspond to parametric resonances with threshold condition different to that of standard linear optomechanical self-oscillation. The associated Arnold tongues display a complex scenario of states within the instability region. The observed new phenomena can have applications for the generation of entangled phonon pairs, squeezed mechanical states relevant in sensing and quantum computation, and for the bidirectional frequency conversion of signals in a technologically relevant range.
翻訳日:2023-03-02 21:03:27 公開日:2021-12-30
# 一般量子系に対する自由エネルギー原理

A free energy principle for generic quantum systems ( http://arxiv.org/abs/2112.15242v1 )

ライセンス: Link先を確認
Chris Fields, Karl Friston, James F. Glazebrook, and Michael Levin(参考訳) 自由エネルギー原理(Free Energy Principle, FEP)は、弱い結合の条件下では、十分な自由度を持つランダム力学系は、置換自由エネルギーとして形式化された上界の最小化(つまり、自己情報)のために振舞う。 この上限はベイズ予測誤差として読むことができる。 同等に、その負はベイズ模型の証拠(すなわち、限界確率)の低い境界である。 要するに、あるランダムな力学系は一種の自己負である。 ここでは、FEPを時空バックグラウンド自由スケール自由量子情報理論の形式的な設定で再構成する。 一般的な量子システムがどのようにオブザーバと見なすことができるかを示し、標準選択自由仮説が観測結果に意味論を割り当てることができるエージェントとなることを示す。 本研究では, 不確実性, 学習不足, 量子文脈性に特徴付けられる環境において, ベイズ予測誤差を最小化する方法を示す。 量子論的定式化において、FEPは漸近的にユニタリティの原理と等価であることを示す。 これらの結果から,生物系は量子コヒーレンスを計算資源として,そして暗黙的に通信資源として採用することが示唆された。 今後の研究、特に古典的コミュニケーションに必要なリソース、および量子コンテキストスイッチの検出と応答に関する諸問題について要約する。

The Free Energy Principle (FEP) states that under suitable conditions of weak coupling, random dynamical systems with sufficient degrees of freedom will behave so as to minimize an upper bound, formalized as a variational free energy, on surprisal (a.k.a., self-information). This upper bound can be read as a Bayesian prediction error. Equivalently, its negative is a lower bound on Bayesian model evidence (a.k.a., marginal likelihood). In short, certain random dynamical systems evince a kind of self-evidencing. Here, we reformulate the FEP in the formal setting of spacetime-background free, scale-free quantum information theory. We show how generic quantum systems can be regarded as observers, which with the standard freedom of choice assumption become agents capable of assigning semantics to observational outcomes. We show how such agents minimize Bayesian prediction error in environments characterized by uncertainty, insufficient learning, and quantum contextuality. We show that in its quantum-theoretic formulation, the FEP is asymptotically equivalent to the Principle of Unitarity. Based on these results, we suggest that biological systems employ quantum coherence as a computational resource and - implicitly - as a communication resource. We summarize a number of problems for future research, particularly involving the resources required for classical communication and for detecting and responding to quantum context switches.
翻訳日:2023-03-02 21:03:03 公開日:2021-12-30
# MoS2におけるモード選択励起子-フォノンダイナミクス

Mode-selective exciton-phonon dynamics in MoS2 ( http://arxiv.org/abs/2112.15240v1 )

ライセンス: Link先を確認
Jianbo Hu, Yang Xiang, Beatrice Matilde Ferrari, and Giovanni Maria Vanacore(参考訳) 遷移金属ジカルコゲナイドの2次元結晶は、次世代光電子および量子デバイスへの有望な候補として浮上している。 このような系では、励起状態と原子振動の相互作用はキャリアの運動量、量子コヒーレンス損失、熱散逸など多くの基本的な性質にとって重要である。 特に、谷選択励起を完全に活用するには、ゾーンエッジ状態の多体励起子物理学を理解する必要がある。 これまでの理論的、実験的研究は主にゾーン中心フォノンを含む高エネルギー直接励起子の励起子-フォノンダイナミクスに焦点を当ててきた。 本研究では超高速電子回折を用いて、mos2中の低エネルギー間接励起子のほぼ共鳴励起中に生じる構造ダイナミクスを調べる。 散乱電子による大きな運動量を利用して、E_2g^1およびE_1u対称性を持つ平面Kフォノンモードの選択的励起を同定する。 本研究は,システム内で引き起こされる波長依存性電子遷移の特定の間接励起特性に直接関連するフォノニック励起の強い選択性に注目した。

Two-dimensional crystals of transition metal dichalcogenides are emerging as promising candidates for next-generation optoelectronic and quantum devices. In such systems, the interaction between excitonic states and atomic vibrations is crucial for many fundamental properties, such as carrier mobilities, quantum coherence loss, and heat dissipation. In particular, to fully exploit their valley-selective excitations one has to understand the many-body exciton physics of zone-edge states. So far, theoretical and experimental studies have mainly focused on the exciton-phonon dynamics in high-energy direct excitons involving zone-center phonons. Here, we use ultrafast electron diffraction to investigate the structural dynamics occurring during nearly-resonant excitation of low-energy indirect excitons in MoS2. By exploiting the large momentum carried by scattered electrons, we identify the selective excitation of in-plane K-phonon modes with E_2g^1 and E_1u symmetry. Our results highlight the strong selectivity of phononic excitations directly associated with the specific indirect-exciton nature of the wavelength-dependent electronic transitions triggered in the system.
翻訳日:2023-03-02 21:02:42 公開日:2021-12-30
# 量子スポークの数学: 許された論理と許されていない論理

Let the Mathematics of Quantum Speak: Allowed and Unallowed Logic ( http://arxiv.org/abs/2112.15222v1 )

ライセンス: Link先を確認
Eliahu Levy(参考訳) 量子物理学に関するいくつかの注釈は、「数学と形式論に密接に従う、量子物理学が言うところのナッツとボルト」を主張する解釈である。 これらの問題は、基本的にはよく知られており、量子物理学における「論理」的な側面に関してかなり大胆な点を浮き彫りにしているように思われる。 そして、なぜその道が文献にほとんど伝わらないのかを理解できるかもしれない。 古典物理学と比較して、量子の数学や形式主義は、基本的に可換性を置き換える非可換代数によって特徴づけられる。 これらは、実際には、可能性のシステム(例えば、重力下の全ての可能な惑星の動き)を扱う際に、古典的に現れる。 特に、あまりにも頻繁に使われるのとは対照的に、量子的非可換性は単に「可能性のシステム」の側面を「現実の世界」に不可欠な「yes-no」論理に変換することは不可能である。 後者は「準古典的マクロ可観測」の約可換代数の「ハヴン」のみを持ち、さらに「yes-no real world」は基本量子論自体の「外部成分」となる。

Some notes about quantum physics, an interpretation if one wishes, are put forward, insisting on `closely following the mathematics/formalism, the `nuts and bolts of what quantum physics says'. These, basically well-known, issues seem to highlight some rather bold points about the `logic' aspect in quantum physics, necessarily restricting when and which logic may be admissible. And one may understand why that path is hardly followed in the literature. The mathematics/formalism of quantum, compared with classical, physics, may be fairly basically characterized by non-commutative algebras replacing commutative. These classically appearing, in fact, in dealing with systems of possibilities (say, all possible planetary motions under gravity of which one is the actual one). In particular, contrary to too common usage, the quantum non-commutativity should make it impossible to simply `transcend' the `system of possibilities' aspect into a `yes-no' logic essential for an `actual world'. One may have the latter only in a `haven' of approximately commutative algebras of `quasi-classical macroscopic observables', and moreover that `yes-no actual world' would plainly be an `extra ingredient' to the base quantum theory itself.
翻訳日:2023-03-02 21:02:25 公開日:2021-12-30
# Schr\\odinger方程式の厳密な時間依存解、位相空間への一般化とギブス分布との関係

Exact time-dependent solution of the Schr\"odinger equation, its generalization to the phase space and relation to the Gibbs distribution ( http://arxiv.org/abs/2112.15212v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, I.I. Aleksandrov(参考訳) 最も単純だが基本的な例である無限ポテンシャル井戸の問題を用いて、この論文は、EPRパラドックス型のよく知られた例にもかかわらず、量子力学過程のメカニズムを解くためのイデオロギー的試み(厳密な数学的証明によって支えられている)を行う。 Schr\\odinger方程式の新しい正確な解は、位相空間における量子力学の観点から解析される。 位相空間は、量子コンピューティング、量子情報学、通信において近年広く用いられてきた位相空間であり、物理現実の理解が依然として可能である古典物理学への橋渡しである。 本稿では,量子系におけるエネルギー分配の時間依存過程,確率波,量子系の温度とエントロピーの解釈と,時間非依存な"guillemotleft}frozen state{\guillemotright}への遷移を求め,古典物理学の観点からも理解できる。 この論文の材料は、連続体力学、統計物理学、そしてもちろん、位相空間における量子力学の観点から、問題の解をはっきりと示している。

Using the simplest but fundamental example, the problem of the infinite potential well, this paper makes an ideological attempt (supported by rigorous mathematical proofs) to approach the issue of {\guillemotleft}understanding{\guillemotright} the mechanism of quantum mechanics processes, despite the well-known examples of the EPR paradox type. The new exact solution of the Schr\"odinger equation is analyzed from the perspective of quantum mechanics in the phase space. It is the phase space, which has been extensively used recently in quantum computing, quantum informatics and communications, that is the bridge towards classical physics, where understanding of physical reality is still possible. In this paper, an interpretation of time-dependent processes of energy redistribution in a quantum system, probability waves, the temperature and entropy of a quantum system, and the transition to a time-independent {\guillemotleft}frozen state{\guillemotright} is obtained, which is understandable from the point of view of classical physics. The material of the paper clearly illustrates the solution of the problem from the standpoint of continuum mechanics, statistical physics and, of course, quantum mechanics in the phase space.
翻訳日:2023-03-02 21:02:01 公開日:2021-12-30
# 量子ドットセルオートマトンスイッチングにおける分子再構成エネルギー

Molecular reorganization energy in quantum-dot cellular automata switching ( http://arxiv.org/abs/2112.15200v1 )

ライセンス: Link先を確認
Subhash S. Pidaparthi and Craig S. Lent(参考訳) 2状態量子ドットセルオートマトン(QCA)セルのスイッチングに対する分子再編成エネルギーの影響を検討した。 ビットの切り替えは、分子内の電荷中心間の電子移動を伴う。 これにより、分子内の他の原子は反応中に位置を再構成する。 電子運動を量子力学的に扱うモデルで捉えるが、原子核の運動は半古典的に扱う。 この結果、電子系に対する非線形ハミルトニアンとなる。 温度環境との相互作用は、時間依存密度行列に対するリンドブラッド方程式の解法に含まれる。 局所電界に対する分子の計算された応答は、スイープ方向の反転時にスイッチング中にヒステリシスを示す。 隣り合う原子核の緩和は電子の局所化を増大させ、起伏性の向上と単分子メモリの本質的な源となる。 これは電力消費の増大によるものである。

We examine the impact of the intrinsic molecular reorganization energy on switching in two-state quantum-dot cellular automata (QCA) cells. Switching a bit involves an electron transferring between charge centers within the molecule. This in turn causes the other atoms in the molecule to rearrange their positions in response. We capture this in a model that treats the electron motion quantum-mechanically, but the motion of nuclei semiclassically. This results in a non-linear Hamiltonian for the electron system. Interaction with a thermal environment is included by solving the Lindblad equation for the time-dependent density matrix. The calculated response of a molecule to the local electric field shows hysteresis during switching when the sweep direction is reversed. The relaxation of neighboring nuclei increases localization of the electron, which provides an intrinsic source of enhanced bistability and single-molecule memory. This comes at the cost of increased power dissipation.
翻訳日:2023-03-02 21:01:29 公開日:2021-12-30
# 量子化学のための幾何学的量子断熱法

Geometric quantum adiabatic methods for quantum chemistry ( http://arxiv.org/abs/2112.15186v1 )

ライセンス: Link先を確認
Hongye Yu, Deyu Lu, Qin Wu, Tzu-Chieh Wei(参考訳) 既存の量子化学の量子アルゴリズムは分子の平衡幾何学の近くでうまく機能するが、化学結合が原子間距離で破壊されると結果は不安定になる。 断熱的なアプローチでは、これは通常、断熱的な進化経路に沿って閉じるレベル交差やエネルギーギャップのような深刻な問題を引き起こす。 本研究では, 結合長と結合角を変化させることで滑らかな幾何学的変形を生かした量子化学における分子固有状態と固有エネルギーを得るために, 断熱進化に基づく量子アルゴリズムを提案する。 化学結合の単純な一様伸長であっても、このアルゴリズムはより安定的に動作し、従来の断熱法(phys. rev. research 3, 013104 (2021))よりも精度が向上する。 これは、大きな原子間距離の断面積と断熱進化経路に沿った水平交差に関する問題を解く。 H${}_2$O, CH${}_2$, H${}_2$+D${}_2\rightarrow$2HDの化学反応など、いくつかの例でその実用性を実証する。 さらに, 有限結合長が変化しても, 基底状態と高い忠実度が得られることを示す。

Existing quantum algorithms for quantum chemistry work well near the equilibrium geometry of molecules, but the results can become unstable when the chemical bonds are broken at large atomic distances. For any adiabatic approach, this usually leads to serious problems, such as level crossing and/or energy gap closing along the adiabatic evolution path. In this work, we propose a quantum algorithm based on adiabatic evolution to obtain molecular eigenstates and eigenenergies in quantum chemistry, which exploits a smooth geometric deformation by changing bond lengths and bond angles. Even with a simple uniform stretching of chemical bonds, this algorithm performs more stably and achieves better accuracy than our previous adiabatic method [Phys. Rev. Research 3, 013104 (2021)]. It solves the problems related to energy gap closing and level crossing along the adiabatic evolution path at large atomic distances. We demonstrate its utility in several examples, including H${}_2$O, CH${}_2$, and a chemical reaction of H${}_2$+D${}_2\rightarrow$ 2HD. Furthermore, our fidelity analysis demonstrates that even with finite bond length changes, our algorithm still achieves high fidelity with the ground state.
翻訳日:2023-03-02 21:01:14 公開日:2021-12-30
# a class of Bell diagonal entanglement witnesses in $\mathbb{C}^4 \otimes \mathbb{C}^4$: optimization and the spanning property

A class of Bell diagonal entanglement witnesses in $\mathbb{C}^4 \otimes \mathbb{C}^4$: optimization and the spanning property ( http://arxiv.org/abs/2112.15183v1 )

ライセンス: Link先を確認
Anindita Bera, Filip A. Wudarski, Gniewomir Sarbicki, Dariusz Chru\'sci\'nski(参考訳) ベル対角非可逆エンタングルメントの2つのクラスは、$\mathbb{c}^4 \otimes \mathbb{c}^4$である。 最初のクラスでは、よく知られた choi witness の一般化が $\mathbb{c}^3 \otimes \mathbb{c}^3$ から得られ、後者は還元写像を含む。 興味深いことに、$\mathbb{c}^3 \otimes \mathbb{c}^3$ケースとは異なり、一般化されたchoi証人はもはや最適ではない。 我々はベクトルのスパンを見つけるための最適化手順を実行し、その結果、最適な証人が生まれる。 しかし、第2クラスのオペレータは、スパンニングプロパティなしで最適であることが判明した。 この分析は、最適な絡み合い証人の複雑な構造に新しい光を注入する。

Two classes of Bell diagonal indecomposable entanglement witnesses in $\mathbb{C}^4 \otimes \mathbb{C}^4$ are considered. Within the first class, we find a generalization of the well-known Choi witness from $\mathbb{C}^3 \otimes \mathbb{C}^3$, while the second one contains the reduction map. Interestingly, contrary to $\mathbb{C}^3 \otimes \mathbb{C}^3$ case, the generalized Choi witnesses are no longer optimal. We perform an optimization procedure of finding spanning vectors, that eventually gives rise to optimal witnesses. Operators from the second class turn out to be optimal, however, without the spanning property. This analysis sheds a new light into the intricate structure of optimal entanglement witnesses.
翻訳日:2023-03-02 21:00:53 公開日:2021-12-30
# リチウム硫黄電池における主生成物の量子化学シミュレーション

Quantum Chemistry Simulations of Dominant Products in Lithium-Sulfur Batteries ( http://arxiv.org/abs/2001.01120v2 )

ライセンス: Link先を確認
Julia E. Rice and Tanvi P. Gujarati and Tyler Y. Takeshita and Joe Latone and Mario Motta and Andreas Hintennach and Jeannette M. Garcia(参考訳) 工業的に関連のある分子の量子化学シミュレーションが報告され、近距離量子デバイスに変分量子アルゴリズムを用いる。 エネルギーと双極子モーメントは、水素化リチウム(LiH)、硫化水素、硫化水素、硫化リチウムの解離曲線に沿って計算される。 いずれの場合も、研究対象の分子種の安定性に関する情報を得るために、単一結合の破断に焦点を当てている。 我々は、これらの分子のエネルギーと静電特性を、最大21キュービットの硫化リチウムを含む量子デバイスの古典的シミュレータを用いて計算する。 さらに,IBM量子デバイスを用いたLiHの解離経路に沿った基底状態エネルギーと双極子モーメントを計算する。 量子ハードウェア上での双極子モーメント計算の、我々の知る限りでは、これが最初の例です。

Quantum chemistry simulations of some industrially relevant molecules are reported, employing variational quantum algorithms for near-term quantum devices. The energies and dipole moments are calculated along the dissociation curves for lithium hydride (LiH), hydrogen sulfide, lithium hydrogen sulfide and lithium sulfide. In all cases we focus on the breaking of a single bond, to obtain information about the stability of the molecular species being investigated. We calculate energies and a variety of electrostatic properties of these molecules using classical simulators of quantum devices, with up to 21 qubits for lithium sulfide. Moreover, we calculate the ground-state energy and dipole moment along the dissociation pathway of LiH using IBM quantum devices. This is the first example, to the best of our knowledge, of dipole moment calculations being performed on quantum hardware.
翻訳日:2023-01-14 13:01:35 公開日:2021-12-30
# 前頭皮質における連続順序の神経モデルに向けて : 記憶発達から高レベル認知への脳理論

Towards a Neural Model for Serial Order in Frontal Cortex: a Brain Theory from Memory Development to Higher-Level Cognition ( http://arxiv.org/abs/2005.11203v2 )

ライセンス: Link先を確認
Alexandre Pitti, Mathias Quoy, Catherine Lavandier, Sofiane Boucenna, Wassim Swaileh and Claudio Weidmann(参考訳) 情報を追跡し、成長させるためには、幼児の脳は、古い情報がどこにあるか、新しい情報をインデックスする方法に関する問題を解決しなければならない。 未成熟前頭前皮質(pfc)は、発達期脳自体の皮質ネットワークの空間順序を整理するために第2の目的として、時間的信号の階層的パターンを検出する主な機能を利用する。 我々の仮説では、PFCは順序パターンの形で時間的配列の階層構造を検出し、それらを脳の異なる部分で階層的に情報をインデックスするために利用する。 そこで本研究では,このパターン検出機構が脳自体の順序的組織形成,すなわちコネクトームのブートストラップに関与していることを示唆する。 そうすることで、抽象的な知識を操り、時間的に順序づけられた情報を計画するための言語対応脳のツール、すなわちシンボリック思考と言語が出現する。 このようなメカニズムをサポートするニューラルモデルをレビューし、新しいモデルを提案する。 次に、発達的、行動的、脳的な結果から証拠を得て、ミラーニューロンシステムの構築、具体化された認知、学習から学習までの能力について、いくつかの仮説を立てます。

In order to keep trace of information and grow up, the infant brain has to resolve the problem about where old information is located and how to index new ones. We propose that the immature prefrontal cortex (PFC) use its primary functionality of detecting hierarchical patterns in temporal signals as a second purpose to organize the spatial ordering of the cortical networks in the developing brain itself. Our hypothesis is that the PFC detects the hierarchical structure in temporal sequences in the form of ordinal patterns and use them to index information hierarchically in different parts of the brain. Henceforth, we propose that this mechanism for detecting patterns participates in the ordinal organization development of the brain itself; i.e., the bootstrapping of the connectome. By doing so, it gives the tools to the language-ready brain for manipulating abstract knowledge and planning temporally ordered information; i.e., the emergence of symbolic thinking and language. We will review neural models that can support such mechanisms and propose new ones. We will confront then our ideas with evidence from developmental, behavioral and brain results and make some hypotheses, for instance, on the construction of the mirror neuron system, on embodied cognition, and on the capacity of learning-to-learn.
翻訳日:2022-11-30 08:23:49 公開日:2021-12-30
# ゼロショット学習としてのモダリティフリーな人間識別

Taking Modality-free Human Identification as Zero-shot Learning ( http://arxiv.org/abs/2010.00975v2 )

ライセンス: Link先を確認
Zhizhe Liu, Xingxing Zhang, Zhenfeng Zhu, Shuai Zheng, Yao Zhao and Jian Cheng(参考訳) 人間の識別は、イベント検出、人物追跡、公開セキュリティにおいて重要なトピックである。 人間の識別には、顔の識別、人物の再識別、歩行識別など多くの方法が提案されている。 通常、既存の方法は、検索された画像を画像ギャラリーセット(I2I)内の特定のアイデンティティに分類する。 これは、クエリのテキスト記述や属性ギャラリーセットのみが、幅広いビデオ監視アプリケーション(A2IまたはI2A)で利用できるシナリオにおいて、非常に制限されている。 しかし、モダリティフリーな識別、すなわち、スケーラブルな方法でギャラリーセット内のクエリの識別に費やされた努力はごくわずかである。 本稿では,最初の試みとして,このような新しいモダリティフリーな人間識別タスク(mfhi)を,スケーラブルな方法で汎用的ゼロショット学習モデルとして定式化する。 一方、各アイデンティティの識別プロトタイプを学習することにより、視覚的および意味的モダリティを橋渡しすることができる。 さらに、セマンティクスを導いた空間的注意が視覚モダリティに強制され、高いグローバルカテゴリレベルと局所属性レベルの両方の識別を持つ表現が得られる。 最後に,顔識別と人物再同定を含む2つの難解な識別タスクに関する広範な実験を設計・実施し,モダリティフリーの人間識別において,その手法が多種多様な最先端の手法に勝ることを実証した。

Human identification is an important topic in event detection, person tracking, and public security. There have been numerous methods proposed for human identification, such as face identification, person re-identification, and gait identification. Typically, existing methods predominantly classify a queried image to a specific identity in an image gallery set (I2I). This is seriously limited for the scenario where only a textual description of the query or an attribute gallery set is available in a wide range of video surveillance applications (A2I or I2A). However, very few efforts have been devoted towards modality-free identification, i.e., identifying a query in a gallery set in a scalable way. In this work, we take an initial attempt, and formulate such a novel Modality-Free Human Identification (named MFHI) task as a generic zero-shot learning model in a scalable way. Meanwhile, it is capable of bridging the visual and semantic modalities by learning a discriminative prototype of each identity. In addition, the semantics-guided spatial attention is enforced on visual modality to obtain representations with both high global category-level and local attribute-level discrimination. Finally, we design and conduct an extensive group of experiments on two common challenging identification tasks, including face identification and person re-identification, demonstrating that our method outperforms a wide variety of state-of-the-art methods on modality-free human identification.
翻訳日:2022-10-12 01:51:50 公開日:2021-12-30
# 神経トンプソンサンプリング

Neural Thompson Sampling ( http://arxiv.org/abs/2010.00827v2 )

ライセンス: Link先を確認
Weitong Zhang and Dongruo Zhou and Lihong Li and Quanquan Gu(参考訳) トンプソンサンプリング(Thompson Sampling, TS)は、コンテキスト多重武装バンディット問題を解くための最も効果的なアルゴリズムの1つである。 本稿では,深層ニューラルネットワークを探索と搾取の両方に適応させるニューラルトンプソンサンプリング(neural thompson sampling)という新しいアルゴリズムを提案する。 アルゴリズムの核となるのは、報酬の新たな後方分布であり、その平均はニューラルネットワークの近似値であり、その分散は、対応するニューラルネットワークの神経接的特徴に基づいて構築される。 基礎となる報酬関数が有界であるならば、提案アルゴリズムは合計ラウンド数$T$で他の文脈的バンディットアルゴリズムの後悔と一致する$\mathcal{O}(T^{1/2})$の累積後悔を達成することが保証される。 様々なデータセット上の他のベンチマークバンディットアルゴリズムとの実験的比較は、我々の理論を裏付けている。

Thompson Sampling (TS) is one of the most effective algorithms for solving contextual multi-armed bandit problems. In this paper, we propose a new algorithm, called Neural Thompson Sampling, which adapts deep neural networks for both exploration and exploitation. At the core of our algorithm is a novel posterior distribution of the reward, where its mean is the neural network approximator, and its variance is built upon the neural tangent features of the corresponding neural network. We prove that, provided the underlying reward function is bounded, the proposed algorithm is guaranteed to achieve a cumulative regret of $\mathcal{O}(T^{1/2})$, which matches the regret of other contextual bandit algorithms in terms of total round number $T$. Experimental comparisons with other benchmark bandit algorithms on various data sets corroborate our theory.
翻訳日:2022-10-12 00:40:16 公開日:2021-12-30
# 後方平滑化による効率的なロバストトレーニング

Efficient Robust Training via Backward Smoothing ( http://arxiv.org/abs/2010.01278v2 )

ライセンス: Link先を確認
Jinghui Chen and Yu Cheng and Zhe Gan and Quanquan Gu and Jingjing Liu(参考訳) 敵の訓練は、敵の例から守るための最も効果的な戦略である。 しかしながら、各トレーニングステップにおける反復的な敵の攻撃により、計算コストが高まる。 近年の研究では、ランダム初期化による単一ステップ攻撃を行うことで、高速な対人訓練が可能であることが示されている。 しかし、そのようなアプローチは、安定性とモデルロバスト性の両方に関して、最先端の敵訓練アルゴリズムよりも遅れている。 本研究では,ランダム初期化をランダム化平滑化と捉えて,内部最大化問題の最適化を改善することにより,高速対向学習への新たな理解を開発する。 この新たな視点に従えば、単段階の頑健なトレーニング手法よりも安定性とモデルロバスト性をさらに向上させる新しい初期化戦略、後方平滑化も提案する。 複数のベンチマーク実験により,本手法はトレーニング時間を大幅に削減しつつ,元のTRADES法と類似したモデルロバスト性を達成できることを示した。

Adversarial training is so far the most effective strategy in defending against adversarial examples. However, it suffers from high computational costs due to the iterative adversarial attacks in each training step. Recent studies show that it is possible to achieve fast Adversarial Training by performing a single-step attack with random initialization. However, such an approach still lags behind state-of-the-art adversarial training algorithms on both stability and model robustness. In this work, we develop a new understanding towards Fast Adversarial Training, by viewing random initialization as performing randomized smoothing for better optimization of the inner maximization problem. Following this new perspective, we also propose a new initialization strategy, backward smoothing, to further improve the stability and model robustness over single-step robust training methods. Experiments on multiple benchmarks demonstrate that our method achieves similar model robustness as the original TRADES method while using much less training time ($\sim$3x improvement with the same training schedule).
翻訳日:2022-10-11 08:36:10 公開日:2021-12-30
# (参考訳) 次世代無線ネットワークにおける機械学習と人工知能

Machine Learning and Artificial Intelligence in Next-Generation Wireless Network ( http://arxiv.org/abs/2202.01690v1 )

ライセンス: CC BY 4.0
Wafeeq Iqbal, Wei Wang, Ting Zhu(参考訳) テクノロジーの進歩により、次世代無線ネットワークは非常に多様で複雑で、消費者の要求の変化に応じている。 現在のネットワークオペレーターの方法論とアプローチは従来的であり、次世代ネットワークがリソースを最も適切に利用するのを助けることはできない。 従来のツールの能力に制限があるため、ネットワークプロバイダは将来、ネットワークの加入者の要求を満たすことはできない。 そこで本稿では,次世代無線ネットワークの容量と有効性を向上させるため,機械学習,オートメーション,人工知能,ビッグデータ分析に注目する。 本稿では,今後のネットワークプロバイダのサービスとパフォーマンス向上におけるこれらの新技術の役割について論じる。 この論文は、機械学習、ビッグデータ分析、人工知能が、次世代ワイヤレスネットワークを自己適応、自己認識、規範、そして積極的にするのに役立つことを明らかにする。 論文の最後には、将来の無線ネットワークオペレーターが、運用フレームワークをAIや機械学習技術にシフトせずには働けないことが述べられている。

Due to the advancement in technologies, the next-generation wireless network will be very diverse, complicated, and according to the changed demands of the consumers. The current network operator methodologies and approaches are traditional and cannot help the next generation networks to utilize their resources most appropriately. The limited capability of the traditional tools will not allow the network providers to fulfill the demands of the network's subscribers in the future. Therefore, this paper will focus on machine learning, automation, artificial intelligence, and big data analytics for improving the capacity and effectiveness of next-generation wireless networks. The paper will discuss the role of these new technologies in improving the service and performance of the network providers in the future. The paper will find out that machine learning, big data analytics, and artificial intelligence will help in making the next-generation wireless network self-adaptive, self-aware, prescriptive, and proactive. At the end of the paper, it will be provided that future wireless network operators cannot work without shifting their operational framework to AI and machine learning technologies.
翻訳日:2022-02-06 13:20:05 公開日:2021-12-30
# 脳信号分析に基づく深層学習法:非侵襲的脳信号研究の最近の進歩

Brain Signals Analysis Based Deep Learning Methods: Recent advances in the study of non-invasive brain signals ( http://arxiv.org/abs/2201.04229v1 )

ライセンス: Link先を確認
Almabrok Essa and Hari Kotte(参考訳) 脳信号は、何百万もの脳ニューロン(神経細胞と脳細胞)によって処理される情報を構成する。 これらの脳信号は脳波(EEG)、脳磁図(MEG)、磁気共鳴画像(MRI)、CT(CT)などの脳イメージング技術などの非侵襲的手法を用いて記録・解析することができる。 本稿では、これらの脳信号の解析に異なるディープラーニング(dl)アルゴリズムを用いることや、これらのアルゴリズムが信号復号戦略を適用して人の神経学的状態を決定するのにどのように役立つかについて述べる。

Brain signals constitute the information that are processed by millions of brain neurons (nerve cells and brain cells). These brain signals can be recorded and analyzed using various of non-invasive techniques such as the Electroencephalograph (EEG), Magneto-encephalograph (MEG) as well as brain-imaging techniques such as Magnetic Resonance Imaging (MRI), Computed Tomography (CT) and others, which will be discussed briefly in this paper. This paper discusses about the currently emerging techniques such as the usage of different Deep Learning (DL) algorithms for the analysis of these brain signals and how these algorithms will be helpful in determining the neurological status of a person by applying the signal decoding strategy.
翻訳日:2022-01-16 16:20:47 公開日:2021-12-30
# (参考訳) オランダ全1000万棟のLoD2モデルとLoD1モデルの自動3D再構築

Automated 3D reconstruction of LoD2 and LoD1 models for all 10 million buildings of the Netherlands ( http://arxiv.org/abs/2201.01191v1 )

ライセンス: CC BY 4.0
Ravi Peters, Bal\'azs Dukai, Stelios Vitalis, Jordi van Liempt, Jantien Stoter(参考訳) 本稿では,2次元ビルディングポリゴンとLiDAR点雲に基づく3次元ビルディングモデルの自動再構成を行うワークフローを提案する。 ワークフローは異なるレベルの詳細(LoD)でモデルを生成し、ひとつの一貫性のあるソースから異なるアプリケーションのデータ要求をサポートする。 アルゴリズムの改善や新しい入力データが利用可能になった場合、ワークフローを堅牢にすることで、新しいイテレーションを迅速に実行することができる。 再構成されたデータの質は入力データの品質に大きく依存し、プロセスのいくつかのステップで監視される。 3Dビューアが開発され、様々なフォーマットで利用可能な3Dデータを公開してダウンロードできるようになった。 このワークフローはオランダの1000万の建物すべてに適用されている。 新しい入力データが利用可能になったら、3Dサービスは更新される。

In this paper we present our workflow to automatically reconstruct 3D building models based on 2D building polygons and a LiDAR point cloud. The workflow generates models at different levels of detail (LoDs) to support data requirements of different applications from one consistent source. Specific attention has been paid to make the workflow robust to quickly run a new iteration in case of improvements in an algorithm or in case new input data become available. The quality of the reconstructed data highly depends on the quality of the input data and is monitored in several steps of the process. A 3D viewer has been developed to view and download the openly available 3D data at different LoDs in different formats. The workflow has been applied to all 10 million buildings of The Netherlands. The 3D service will be updated after new input data becomes available.
翻訳日:2022-01-09 14:10:36 公開日:2021-12-30
# (参考訳) 宇宙画像からの滑走路抽出とマッピングの改善

Runway Extraction and Improved Mapping from Space Imagery ( http://arxiv.org/abs/2201.00848v1 )

ライセンス: CC BY-SA 4.0
David A. Noever(参考訳) 空港滑走路などの主要インフラの監視に適用される変更検出手法は、災害救助や都市計画において重要な機能である。 本研究は、可塑性滑走路マップと衛星画像の間で可逆的に変換される2つの生成逆ネットワーク(GAN)アーキテクチャを同定する。 我々は、同じ視点からペア画像(サテライトマップ)を用いて、Pix2Pixアーキテクチャや条件付きGANを用いてトレーニング能力を説明する。 同様に、4つのネットワークヘッド(判別子-生成子ペア)を持つサイクガンアーキテクチャは、生の画像ピクセルからアウトラインやフィーチャーマップへの効果的なスタイル転送を提供することができる。 滑走路とターマックの境界を強調するために,従来のグレータンマップパレットは必要なトレーニング入力ではなく,より鋭い滑走路境界のための高コントラストマッピングパレット(赤黒)によって拡張可能であることを示す。 我々は、人間がほぼ現在の滑走路の境界を描き、可視衛星画像の機械出力を自動化する新しいユースケース(sketch2satellite)をプレビューする。 最後に, 衛星と地図化された滑走路が一致しないが, 自動更新でGANを用いて正しい地図を描画する異常な滑走路マップの例を特定する。

Change detection methods applied to monitoring key infrastructure like airport runways represent an important capability for disaster relief and urban planning. The present work identifies two generative adversarial networks (GAN) architectures that translate reversibly between plausible runway maps and satellite imagery. We illustrate the training capability using paired images (satellite-map) from the same point of view and using the Pix2Pix architecture or conditional GANs. In the absence of available pairs, we likewise show that CycleGAN architectures with four network heads (discriminator-generator pairs) can also provide effective style transfer from raw image pixels to outline or feature maps. To emphasize the runway and tarmac boundaries, we experimentally show that the traditional grey-tan map palette is not a required training input but can be augmented by higher contrast mapping palettes (red-black) for sharper runway boundaries. We preview a potentially novel use case (called "sketch2satellite") where a human roughly draws the current runway boundaries and automates the machine output of plausible satellite images. Finally, we identify examples of faulty runway maps where the published satellite and mapped runways disagree but an automated update renders the correct map using GANs.
翻訳日:2022-01-09 12:54:49 公開日:2021-12-30
# ノイズと不均衡データを取り込むためにサンプル損失曲線を掘り下げる

Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data ( http://arxiv.org/abs/2201.00849v1 )

ライセンス: Link先を確認
Shenwang Jiang, Jianan Li, Ying Wang, Bo Huang, Zhang Zhang, Tingfa Xu(参考訳) 破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られ、ディープニューラルネットワーク(DNN)の過度な適合につながる。 既存のアプローチは、重み関数を設計してサンプルを再重み付け戦略を採用することでこれらの問題を緩和する。 しかし、これは1つの種類のデータバイアスのみを含むトレーニングデータにのみ適用できる。 しかし実際には、ラベルの破損したサンプルと、訓練データに一般的に共存する尾行クラスに偏りがあった。 同時に処理する方法は重要な問題ですが、未解決の問題です。 本稿では, この2種類の偏りは, 透過的損失に類似するが, 損失曲線の傾向と特性を区別し, 試料の重量割り当てに有意な先行性を与える可能性が示唆された。 Motivated by this, we delve into the loss curves and propose a novel probe-and-allocate training strategy: In the probing stage, we train the network on the whole biased training data without intervention, and record the loss curve of each sample as an additional attribute; In the allocating stage, we feed the resulting attribute to a newly designed curve-perception network, named CurveNet, to learn to identify the bias type of each sample and assign proper weights through meta-learning adaptively. メタ学習のトレーニング速度も、その応用を妨げている。 そこで本研究では,スキップ層メタ最適化(SLMO)と呼ばれる手法を提案する。 広範囲にわたる合成および実実験は、複数の挑戦的ベンチマークで最先端のパフォーマンスを実現する提案手法をよく検証している。

Corrupted labels and class imbalance are commonly encountered in practically collected training data, which easily leads to over-fitting of deep neural networks (DNNs). Existing approaches alleviate these issues by adopting a sample re-weighting strategy, which is to re-weight sample by designing weighting function. However, it is only applicable for training data containing only either one type of data biases. In practice, however, biased samples with corrupted labels and of tailed classes commonly co-exist in training data. How to handle them simultaneously is a key but under-explored problem. In this paper, we find that these two types of biased samples, though have similar transient loss, have distinguishable trend and characteristics in loss curves, which could provide valuable priors for sample weight assignment. Motivated by this, we delve into the loss curves and propose a novel probe-and-allocate training strategy: In the probing stage, we train the network on the whole biased training data without intervention, and record the loss curve of each sample as an additional attribute; In the allocating stage, we feed the resulting attribute to a newly designed curve-perception network, named CurveNet, to learn to identify the bias type of each sample and assign proper weights through meta-learning adaptively. The training speed of meta learning also blocks its application. To solve it, we propose a method named skip layer meta optimization (SLMO) to accelerate training speed by skipping the bottom layers. Extensive synthetic and real experiments well validate the proposed method, which achieves state-of-the-art performance on multiple challenging benchmarks.
翻訳日:2022-01-09 12:43:14 公開日:2021-12-30
# (参考訳) 機械学習と統計的アプローチを用いた脳卒中患者の静止予測長に関する文献レビュー

A Literature Review on Length of Stay Prediction for Stroke Patients using Machine Learning and Statistical Approaches ( http://arxiv.org/abs/2201.00005v1 )

ライセンス: CC BY-SA 4.0
Ola Alkhatib and Ayman Alahmar(参考訳) 病院滞在時間(LOS)は、病院のサービス品質を反映し、病院のスケジュールと管理を改善するための最も重要な医療指標の1つである。 LOS予測は、病院に留まる患者は通常、資源が著しく制限されている病院で行うため、コスト管理に役立つ。 本研究では,機械学習と統計的アプローチを用いたLOS予測に関する論文をレビューした。 本研究は脳卒中患者のLOS予測に焦点をあてた研究を考察する。 調査の結果、著者が矛盾する結論に達したことが判明した。 例えば、脳卒中患者の年齢はLOSの重要な予測因子と考えられ、他の研究では年齢が重要な要因ではないと結論付けている。 したがって、脳卒中患者のLOS予測因子をより理解するために、この領域ではさらなる研究が必要である。

Hospital length of stay (LOS) is one of the most essential healthcare metrics that reflects the hospital quality of service and helps improve hospital scheduling and management. LOS prediction helps in cost management because patients who remain in hospitals usually do so in hospital units where resources are severely limited. In this study, we reviewed papers on LOS prediction using machine learning and statistical approaches. Our literature review considers research studies that focus on LOS prediction for stroke patients. Some of the surveyed studies revealed that authors reached contradicting conclusions. For example, the age of the patient was considered an important predictor of LOS for stroke patients in some studies, while other studies concluded that age was not a significant factor. Therefore, additional research is required in this domain to further understand the predictors of LOS for stroke patients.
翻訳日:2022-01-05 05:08:05 公開日:2021-12-30
# (参考訳) 信頼度最適化スコアの増補的説明と分布的ギャップ

Augmentative eXplanation and the Distributional Gap of Confidence Optimization Score ( http://arxiv.org/abs/2201.00009v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Hong Jing Khok, Tushar Chouhan, Guan Cuntai(参考訳) 本稿では, 信頼度最適化(CO)スコアを導入し, モデルの分類性能に対するヒートマップ/サービスマップの寄与を直接測定する。 eXplainable Artificial Intelligence (XAI)コミュニティで使用される一般的なヒートマップ生成方法は、Augmentative eXplanation (AX)と呼ばれるプロセスを通じてテストされる。 これらのヒートマップ法で co スコア分布に驚くべき \textit{gap} が現れる。 このギャップは、ディープニューラルネットワーク(dnn)予測の正確性の新しい指標となる可能性がある。 さらに,高CO値が得られるようなサリエンシマップを生成するGAX(Generative AX)手法についても紹介する。 また,GAXを用いてDNNアーキテクチャの非直感性を定性的に示す。

This paper introduces the Confidence Optimization (CO) score to directly measure the contribution of heatmaps/saliency maps to the classification performance of a model. Common heatmap generation methods used in the eXplainable Artificial Intelligence (XAI) community are tested through a process we call the Augmentative eXplanation (AX). We find a surprising \textit{gap} in CO scores distribution on these heatmap methods. The gap potentially serves as a novel indicator for the correctness of deep neural network (DNN) prediction. We further introduces Generative AX (GAX) method to generate saliency maps capable of attaining high CO scores. Using GAX, we also qualitatively demonstrate the unintuitiveness of DNN architectures.
翻訳日:2022-01-05 04:57:07 公開日:2021-12-30
# (参考訳) Deep Learning Interviews: AIのさまざまな重要なトピックから、何百もの完全に解決された求人面接の質問

Deep Learning Interviews: Hundreds of fully solved job interview questions from a wide range of key topics in AI ( http://arxiv.org/abs/2201.00650v1 )

ライセンス: CC BY 4.0
Shlomo Kashani, Amir Ivry(参考訳) deep learning interviewsの第2版には、aiのさまざまな重要なトピックから、完全に解決された何百もの問題がある。 面接や特定のトピックをリハーサルしたり、機械学習のM.Scを提供するように設計されている。 /Ph.D。 面接を待っている学生は、その分野の概要をよく整理した。 歯を切ったり、スキルを劇的に向上させるのに十分な問題はありますが、それは思慮に富んだ質問やエンゲージメントストーリーに収まっています。 学生や求職者にとって、このボリュームが特に価値があるのは、あらゆるトピックについて自信を持って素早く話すことができ、技術的な質問に明確かつ正しく答えることができ、インタビューの質問や回答の目的と意味を十分に理解することができます。 それらは、面接室に入る際には、強力で必須のアドバンテージだ。 本書の内容は、DLの面接や大学院レベルの試験に関連する多くのトピックの目録である。 この研究は、科学における成長傾向の最前線に置かれ、実用数学と計算のスキルのコアセットを教える。 すべてのコンピュータ科学者の訓練はMLの基本定理を含む必要があり、AIはほとんど全ての大学のカリキュラムに現れることが広く受け入れられている。 この巻は、これらのプログラムの卒業生の優れた参考書として設計されている。

The second edition of Deep Learning Interviews is home to hundreds of fully-solved problems, from a wide range of key topics in AI. It is designed to both rehearse interview or exam specific topics and provide machine learning M.Sc./Ph.D. students, and those awaiting an interview a well-organized overview of the field. The problems it poses are tough enough to cut your teeth on and to dramatically improve your skills-but they're framed within thought-provoking questions and engaging stories. That is what makes the volume so specifically valuable to students and job seekers: it provides them with the ability to speak confidently and quickly on any relevant topic, to answer technical questions clearly and correctly, and to fully understand the purpose and meaning of interview questions and answers. Those are powerful, indispensable advantages to have when walking into the interview room. The book's contents is a large inventory of numerous topics relevant to DL job interviews and graduate level exams. That places this work at the forefront of the growing trend in science to teach a core set of practical mathematical and computational skills. It is widely accepted that the training of every computer scientist must include the fundamental theorems of ML, and AI appears in the curriculum of nearly every university. This volume is designed as an excellent reference for graduates of such programs.
翻訳日:2022-01-05 04:41:01 公開日:2021-12-30
# (参考訳) マルチタスク時系列分類のための効率的フェデレート蒸留学習システム

An Efficient Federated Distillation Learning System for Multi-task Time Series Classification ( http://arxiv.org/abs/2201.00011v1 )

ライセンス: CC BY 4.0
Huanlai Xing, Zhiwen Xiao, Rong Qu, Zonghai Zhu, and Bowen Zhao(参考訳) 本稿では,マルチタスク時系列分類(TSC)のための効率的なフェデレート蒸留学習システム(EFDLS)を提案する。 EFDLSは中央サーバと複数のモバイルユーザで構成されており、異なるユーザが異なるTSCタスクを実行することができる。 EFDLSには、FBST(Feature-based student-Teacher)フレームワークとDBWM(Trange-based weights matching)スキームという、2つの新しいコンポーネントがある。 各ユーザ内において、FBSTフレームワークは、教師と生徒が同一のネットワーク構造を持っていて、教師の隠れた層から生徒の隠れた層へ知識を伝達する。 接続されたユーザ毎に、学生モデルの隠されたレイヤの重みがEFDLSサーバに定期的にアップロードされる。 DBWMスキームはサーバ上に展開され、2つのモデルの重みの類似度を測定するために最小2乗距離を使用する。 このスキームは、各接続ユーザに対して、アップロードされたすべての重みのうち、ユーザとそのパートナーの重みが最も近いようにパートナーを見つける。 サーバは、ユーザとそのパートナーの重みをこの2つのユーザに送ると、受信した重みを教師の隠れた層にロードする。 実験結果から,提案するEFDLSは,トップ1の精度で選択したUCR2018データセットに対して優れた性能を示すことが示された。

This paper proposes an efficient federated distillation learning system (EFDLS) for multi-task time series classification (TSC). EFDLS consists of a central server and multiple mobile users, where different users may run different TSC tasks. EFDLS has two novel components, namely a feature-based student-teacher (FBST) framework and a distance-based weights matching (DBWM) scheme. Within each user, the FBST framework transfers knowledge from its teacher's hidden layers to its student's hidden layers via knowledge distillation, with the teacher and student having identical network structure. For each connected user, its student model's hidden layers' weights are uploaded to the EFDLS server periodically. The DBWM scheme is deployed on the server, with the least square distance used to measure the similarity between the weights of two given models. This scheme finds a partner for each connected user such that the user's and its partner's weights are the closest among all the weights uploaded. The server exchanges and sends back the user's and its partner's weights to these two users which then load the received weights to their teachers' hidden layers. Experimental results show that the proposed EFDLS achieves excellent performance on a set of selected UCR2018 datasets regarding top-1 accuracy.
翻訳日:2022-01-05 04:39:33 公開日:2021-12-30
# (参考訳) モラル:多目的強化アクティブラーニングによる人間ノルムによるAIの調整

MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning ( http://arxiv.org/abs/2201.00012v1 )

ライセンス: CC BY 4.0
Markus Peschl, Arkady Zgonnikov, Frans A. Oliehoek, Luciano C. Siebert(参考訳) デモンストレーションやペアワイズによる報酬関数の推測は、強化学習(rl)エージェントを人間の意図に合わせるための好意的なアプローチである。 しかし、最先端の手法は一般的に単一の報酬モデルを学ぶことに集中しているため、複数の専門家から異なる報酬関数を交換することは困難である。 本研究では,多目的強化アクティブラーニング(moral,multi-objective reinforced active learning)を提案する。 スカラー化重みの分布を維持することにより,複数のポリシーの計算を不要にしつつ,多種多様な選好に対して深いrlエージェントをインタラクティブにチューニングすることができる。 我々は,納品をモデル化する2つのシナリオにおいて,モラルの有効性を実証的に実証する。 全体として,本研究は学習報酬を伴う多目的rlへの一歩であり,現在の報酬学習と機械倫理文献とのギャップを橋渡ししている。

Inferring reward functions from demonstrations and pairwise preferences are auspicious approaches for aligning Reinforcement Learning (RL) agents with human intentions. However, state-of-the art methods typically focus on learning a single reward model, thus rendering it difficult to trade off different reward functions from multiple experts. We propose Multi-Objective Reinforced Active Learning (MORAL), a novel method for combining diverse demonstrations of social norms into a Pareto-optimal policy. Through maintaining a distribution over scalarization weights, our approach is able to interactively tune a deep RL agent towards a variety of preferences, while eliminating the need for computing multiple policies. We empirically demonstrate the effectiveness of MORAL in two scenarios, which model a delivery and an emergency task that require an agent to act in the presence of normative conflicts. Overall, we consider our research a step towards multi-objective RL with learned rewards, bridging the gap between current reward learning and machine ethics literature.
翻訳日:2022-01-05 04:20:45 公開日:2021-12-30
# SAE:シリーズアンコール

SAE: Sequential Anchored Ensembles ( http://arxiv.org/abs/2201.00649v1 )

ライセンス: Link先を確認
Arnaud Delaunoy, Gilles Louppe(参考訳) ニューラルネットワークのベイズ後方の計算は、パラメータ空間の高次元性のために難しい課題である。 アンカー付きアンサンブルは、オプティマがベイジアン後方を追従するように設計されたアンカー付き損失に基づいて、ニューラルネットワークのアンサンブルを訓練することで後方に近似する。 しかし、各メンバーの訓練手順を繰り返すと、そのメンバー数が増えるにつれて、アンサンブルの訓練は計算的に高価になる。 本稿では,アンサンブルの軽量な代替品であるSequential Anchored Ensembles (SAE)を紹介する。 メンバーはスクラッチから各メンバーを訓練する代わりに、高い自己相関でサンプリングされた損失に基づいて順次訓練されるため、ニューラルネットワークの高速収束とベイズ後部の効率的な近似が可能になる。 SAEは、与えられた計算予算のために、いくつかのベンチマークでアンサンブルを上回り、他のベンチマークでは同等のパフォーマンスを示し、ベイズディープラーニングのNeurIPS 2021 Approximate Inferenceの光と拡張トラックで2位と3位を獲得した。

Computing the Bayesian posterior of a neural network is a challenging task due to the high-dimensionality of the parameter space. Anchored ensembles approximate the posterior by training an ensemble of neural networks on anchored losses designed for the optima to follow the Bayesian posterior. Training an ensemble, however, becomes computationally expensive as its number of members grows since the full training procedure is repeated for each member. In this note, we present Sequential Anchored Ensembles (SAE), a lightweight alternative to anchored ensembles. Instead of training each member of the ensemble from scratch, the members are trained sequentially on losses sampled with high auto-correlation, hence enabling fast convergence of the neural networks and efficient approximation of the Bayesian posterior. SAE outperform anchored ensembles, for a given computational budget, on some benchmarks while showing comparable performance on the others and achieved 2nd and 3rd place in the light and extended tracks of the NeurIPS 2021 Approximate Inference in Bayesian Deep Learning competition.
翻訳日:2022-01-04 14:45:29 公開日:2021-12-30
# 交通信号制御のための知識集中状態設計

Knowledge intensive state design for traffic signal control ( http://arxiv.org/abs/2201.00006v1 )

ライセンス: Link先を確認
Liang Zhang, Qiang Wu, Jianming Deng(参考訳) 交通信号制御(tsc)に強化学習(rl)技術を適用するという一般的な傾向がある。 近年、ほとんどの研究はニューラルネットワークの設計に注意を払っており、状態表現にはほとんど集中していない。 状態表現の設計はTSCに良い影響を与えますか? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). 一般に、集中的な知識を持つ状態表現はtsc法にも不可欠である。 私たちのコードはgithubでリリースされています。

There is a general trend of applying reinforcement learning (RL) techniques for traffic signal control (TSC). Recently, most studies pay attention to the neural network design and rarely concentrate on the state representation. Does the design of state representation has a good impact on TSC? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). In general, state representation with intensive knowledge is also essential for TSC methods. Our code is released on Github.
翻訳日:2022-01-04 13:58:42 公開日:2021-12-30
# 信頼性を考慮した多教師知識蒸留

Confidence-Aware Multi-Teacher Knowledge Distillation ( http://arxiv.org/abs/2201.00007v1 )

ライセンス: Link先を確認
Hailin Zhang, Defang Chen, Can Wang(参考訳) 知識蒸留は、当初、学生モデルトレーニングのための1つの教師モデルから追加の監督を利用するために導入された。 学生の成績を高めるため、近年では複数の教師からの多様な知識を活用しようとしている。 しかし、既存の研究では、複数の教師予測を平均化したり、他の様々なラベルフリー戦略と組み合わせることで、様々な情報源からの知識を統合している。 この問題に対処するため,教師が重み付けした1ホットラベルに近い教師予測を用いて,教師の予測に対して,各教師の信頼度を適応的に割り当てる信頼度対応多教師知識蒸留(CA-MKD)を提案する。 さらに、CA-MKDは中間層を組み込んで生徒のパフォーマンスをさらに向上させる。 総合的な実験により、我々のCA-MKDは様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回っていることが明らかとなった。

Knowledge distillation is initially introduced to utilize additional supervision from a single teacher model for the student model training. To boost the student performance, some recent variants attempt to exploit diverse knowledge sources from multiple teachers. However, existing studies mainly integrate knowledge from diverse sources by averaging over multiple teacher predictions or combining them using other various label-free strategies, which may mislead student in the presence of low-quality teacher predictions. To tackle this problem, we propose Confidence-Aware Multi-teacher Knowledge Distillation (CA-MKD), which adaptively assigns sample-wise reliability for each teacher prediction with the help of ground-truth labels, with those teacher predictions close to one-hot labels assigned large weights. Besides, CA-MKD incorporates intermediate layers to further improve student performance. Extensive experiments show that our CA-MKD consistently outperforms all compared state-of-the-art methods across various teacher-student architectures.
翻訳日:2022-01-04 13:12:42 公開日:2021-12-30
# 交通予報用軽量かつ高精度な時空間変圧器

A Lightweight and Accurate Spatial-Temporal Transformer for Traffic Forecasting ( http://arxiv.org/abs/2201.00008v1 )

ライセンス: Link先を確認
Guanyao Li, Shuhan Zhong, Letian Xiang, S.-H. Gary Chan, Ruiyuan Li, Chih-Chieh Hung, Wen-Chih Peng(参考訳) 本研究では,地域間の動的・周期的・共同的空間的依存を伴う交通の予測問題について検討する。 都市内の時間スロット0からt-1までの流入・流出トラフィックの総和を考慮し,任意の地域での時間t時のトラフィックを予測する。 この分野の先行技術は、多くの場合、空間的および時間的依存関係を分離した方法で考慮するか、あるいは多くのハイパーパラメータをチューニングしたトレーニングにおいて計算的に集中している。 交通予測のための情報融合と領域サンプリングを備えた新しい,軽量かつ高精度な空間時間変換器ST-TISを提案する。 ST-TISは情報融合と領域サンプリングにより標準変換器を拡張する。 情報融合モジュールは、領域間の複雑な空間-時間依存をキャプチャする。 領域サンプリングモジュールは、効率と予測精度を向上し、依存関係学習の計算複雑性を、nが領域数である$o(n^2)$から$o(n\sqrt{n})$に削減する。 最先端モデルよりもパラメータがはるかに少ないため、トレーニング時間とネットワークパラメータの最大90\%の削減で、チューニングと計算の点で、我々のモデルのオフライントレーニングは大幅に高速になります。 このようなトレーニングの効率にもかかわらず、広範な実験により、ST-TISは最先端のアプローチよりもオンラインの予測においてかなり正確であることが示されている(RMSEでは111\%、MAPEでは114\%)。

We study the forecasting problem for traffic with dynamic, possibly periodical, and joint spatial-temporal dependency between regions. Given the aggregated inflow and outflow traffic of regions in a city from time slots 0 to t-1, we predict the traffic at time t at any region. Prior arts in the area often consider the spatial and temporal dependencies in a decoupled manner or are rather computationally intensive in training with a large number of hyper-parameters to tune. We propose ST-TIS, a novel, lightweight, and accurate Spatial-Temporal Transformer with information fusion and region sampling for traffic forecasting. ST-TIS extends the canonical Transformer with information fusion and region sampling. The information fusion module captures the complex spatial-temporal dependency between regions. The region sampling module is to improve the efficiency and prediction accuracy, cutting the computation complexity for dependency learning from $O(n^2)$ to $O(n\sqrt{n})$, where n is the number of regions. With far fewer parameters than state-of-the-art models, the offline training of our model is significantly faster in terms of tuning and computation (with a reduction of up to $90\%$ on training time and network parameters). Notwithstanding such training efficiency, extensive experiments show that ST-TIS is substantially more accurate in online prediction than state-of-the-art approaches (with an average improvement of up to $11\%$ on RMSE, $14\%$ on MAPE).
翻訳日:2022-01-04 13:12:25 公開日:2021-12-30
# (参考訳) QEMind:AlibabaがWMT21品質評価共有タスクを提出

QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task ( http://arxiv.org/abs/2112.14890v1 )

ライセンス: CC BY 4.0
Jiayi Wang, Ke Wang, Boxing Chen, Yu Zhao, Weihua Luo, and Yuqi Zhang(参考訳) 機械翻訳における品質管理の重要なステップである品質推定は、長年にわたって研究されてきた。 本研究の目的は,機械翻訳結果の品質を基準翻訳なしで推定する自動手法を検討することである。 今年のWMT QE共有タスクでは、大規模なXLM-Roberta事前学習モデルを使用し、翻訳の不確実性を評価してQEシステムを構築する上で有用ないくつかの特徴である「textit{QEMind}」を提案する。 本システムは、直接評価の文レベルのスコア付けタスクと、臨界エラー検出のバイナリスコア予測タスクに適用されている。 本稿では,WMT 2021 QE共有タスクに対する提案を提示するとともに,多言語システムがWMT 2020のダイレクトアセスメントQEタスクにおいて,最高のシステムより優れていることを示す。

Quality Estimation, as a crucial step of quality control for machine translation, has been explored for years. The goal is to investigate automatic methods for estimating the quality of machine translation results without reference translations. In this year's WMT QE shared task, we utilize the large-scale XLM-Roberta pre-trained model and additionally propose several useful features to evaluate the uncertainty of the translations to build our QE system, named \textit{QEMind}. The system has been applied to the sentence-level scoring task of Direct Assessment and the binary score prediction task of Critical Error Detection. In this paper, we present our submissions to the WMT 2021 QE shared task and an extensive set of experimental results have shown us that our multilingual systems outperform the best system in the Direct Assessment QE task of WMT 2020.
翻訳日:2022-01-04 05:11:20 公開日:2021-12-30
# (参考訳) 顔偽造防止のための特徴生成と仮説検証

Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing ( http://arxiv.org/abs/2112.14894v1 )

ライセンス: CC BY 4.0
Shice Liu, Shitao Lu, Hongyi Xu, Jing Yang, Shouhong Ding, Lizhuang Ma(参考訳) 既存のface anti-spoofing (fas) 法はドメイン内実験で高い精度を達成しているが、その効果は一般化が不十分なため、クロスドメインシナリオでは著しく低下する。 近年,領域一般化や表現の絡み合いなど,多種多様な手法が研究されている。 しかし、改善は2つの問題によって制限されている。 1) すべての顔を共有機能空間に完全にマッピングすることは困難である。 未知領域の顔が共有特徴空間の既知の領域にマッピングされない場合、誤って不正確な予測が得られる。 2) 様々なスプーフ跡を十分に考慮することは困難である。 本稿では,2つの問題を緩和するための特徴生成と仮説検証フレームワークを提案する。 さらに、FASタスクにおいて、実際の顔と既知の攻撃の仮説を生成する機能生成ネットワークを初めて導入する。 次に、2つの仮説検証モジュールを適用し、入力面がそれぞれ実顔空間と実顔分布から来るかどうかを判定する。 さらに,提案手法とベイズの不確実性推定との関係を解析し,未知領域における信頼性の高い防御を理論的に支援する。 実験の結果,我々のフレームワークは有望な結果を達成し,大規模な公開データセットに対する最先端のアプローチよりも優れていた。

Although existing face anti-spoofing (FAS) methods achieve high accuracy in intra-domain experiments, their effects drop severely in cross-domain scenarios because of poor generalization. Recently, multifarious techniques have been explored, such as domain generalization and representation disentanglement. However, the improvement is still limited by two issues: 1) It is difficult to perfectly map all faces to a shared feature space. If faces from unknown domains are not mapped to the known region in the shared feature space, accidentally inaccurate predictions will be obtained. 2) It is hard to completely consider various spoof traces for disentanglement. In this paper, we propose a Feature Generation and Hypothesis Verification framework to alleviate the two issues. Above all, feature generation networks which generate hypotheses of real faces and known attacks are introduced for the first time in the FAS task. Subsequently, two hypothesis verification modules are applied to judge whether the input face comes from the real-face space and the real-face distribution respectively. Furthermore, some analyses of the relationship between our framework and Bayesian uncertainty estimation are given, which provides theoretical support for reliable defense in unknown domains. Experimental results show our framework achieves promising results and outperforms the state-of-the-art approaches on extensive public datasets.
翻訳日:2022-01-04 05:02:28 公開日:2021-12-30
# (参考訳) 動的分岐予測のための深層学習手法の検討

A Survey of Deep Learning Techniques for Dynamic Branch Prediction ( http://arxiv.org/abs/2112.14911v1 )

ライセンス: CC BY 4.0
Rinu Joseph(参考訳) 分岐予測(branch prediction)は、パイプラインプロセッサ上での分岐命令の実行を高速化し、分岐コストを削減するアーキテクチャ機能である。 ムーアの法則時代におけるディープラーニング(dl)の最近の進歩は、自動チップ設計や低消費電力コンピュータアーキテクチャなどの分野を加速させている。 従来のコンピュータアーキテクチャの設計とアルゴリズムは、大量のデータにパラメータを最適化することで経験から学習するディープラーニングアルゴリズムに基づく動的予測の恩恵を受けることができる。 本稿では,従来の分岐予測アルゴリズムに着目し,その限界を分析し,条件付き分岐命令を予測可能な動的分岐予測器を作成するための深層学習手法の適用方法に関する文献調査を行う。 この分野での先行調査は、ニューラルネットワークのパーセプトロンに基づく動的分岐予測技術に焦点を当てている。 我々は、DLと高度な機械学習(ML)ベースの分岐予測器の最新調査に基づいて、調査を改善する計画である。

Branch prediction is an architectural feature that speeds up the execution of branch instruction on pipeline processors and reduces the cost of branching. Recent advancements of Deep Learning (DL) in the post Moore's Law era is accelerating areas of automated chip design, low-power computer architectures, and much more. Traditional computer architecture design and algorithms could benefit from dynamic predictors based on deep learning algorithms which learns from experience by optimizing its parameters on large number of data. In this survey paper, we focus on traditional branch prediction algorithms, analyzes its limitations, and presents a literature survey of how deep learning techniques can be applied to create dynamic branch predictors capable of predicting conditional branch instructions. Prior surveys in this field focus on dynamic branch prediction techniques based on neural network perceptrons. We plan to improve the survey based on latest research in DL and advanced Machine Learning (ML) based branch predictors.
翻訳日:2022-01-04 04:46:45 公開日:2021-12-30
# (参考訳) 外部データベースからのブラックボックス最適画像検索

Retrieving Black-box Optimal Images from External Databases ( http://arxiv.org/abs/2112.14921v1 )

ライセンス: CC BY 4.0
Ryoma Sato(参考訳) イメージを入力として取り、好みを示す値を出力するブラックボックス関数(ディープニューラルネットワークなど)があると仮定する。 インターネット上の外部データベースからこの機能に関して最適な画像を取得するには? 文献における標準的な検索問題(例:アイテムレコメンデーション)は、アルゴリズムがアイテムの集合に完全にアクセスできると仮定する。 言い換えれば、そのようなアルゴリズムはサービスプロバイダ向けに設計されている。 本稿では,異なる仮定の下での検索問題を考察する。 具体的には,画像データベースへのアクセスに制限のあるユーザが,自身のブラックボックス機能を使って画像を検索する方法を検討する。 この定式化により、各ユーザが定義したフレキシブルできめ細かい画像検索が可能になる。 ユーザは、apiの制限が厳しい検索クエリを通じてデータベースにアクセスすることができると仮定する。 したがって、ユーザはクエリ数の観点から最適な画像を効率的に検索する必要がある。 この問題に対して効率的な検索アルゴリズムTiaraを提案する。 実験では,提案手法が複数のベースラインよりも優れた性能を示すことを確認した。

Suppose we have a black-box function (e.g., deep neural network) that takes an image as input and outputs a value that indicates preference. How can we retrieve optimal images with respect to this function from an external database on the Internet? Standard retrieval problems in the literature (e.g., item recommendations) assume that an algorithm has full access to the set of items. In other words, such algorithms are designed for service providers. In this paper, we consider the retrieval problem under different assumptions. Specifically, we consider how users with limited access to an image database can retrieve images using their own black-box functions. This formulation enables a flexible and finer-grained image search defined by each user. We assume the user can access the database through a search query with tight API limits. Therefore, a user needs to efficiently retrieve optimal images in terms of the number of queries. We propose an efficient retrieval algorithm Tiara for this problem. In the experiments, we confirm that our proposed method performs better than several baselines under various settings.
翻訳日:2022-01-04 04:38:42 公開日:2021-12-30
# (参考訳) rheframedetect: オープンソースからのaiにおける修辞フレームの自動検出のためのテキスト分類システム

RheFrameDetect: A Text Classification System for Automatic Detection of Rhetorical Frames in AI from Open Sources ( http://arxiv.org/abs/2112.14933v1 )

ライセンス: CC BY 4.0
Saurav Ghosh and Philippe Loustaunau(参考訳) AIにおける修辞フレームは、AI開発を政府や企業のような2つ以上のアクター間の競争として記述する表現として考えることができる。 そのようなフレームの例としては、ロボットアームレース、AI競合、技術優位、サイバーウォーフェア支配、5Gレースがある。 オープンソースからレトリックフレームを検出することは、政府や企業のAIに対する態度を追跡するのに役立つ。 急速に増加するオープンソース(オンラインニュースメディア、twitter、ブログ)を考えると、主題の専門家が(ほぼ)リアルタイムに修辞的なフレームを識別することは困難である。 さらに、これらのソースは一般に非構造化(ノイズ)であるため、これらのソースからフレームを検出するには最先端のテキスト分類技術が必要である。 本稿では,オープンソースからの修辞フレームを(ほぼ)リアルタイムに捉えるためのテキスト分類システムである rheframedetect を開発した。 入力ドキュメントが与えられた後、RheFrameDetectは複数のレベル(文書レベルと段落レベル)のテキスト分類技術を使用して、AIの議論で使用されるフレームのすべての発生を識別する。 複数のニュースソースからの注釈付きフレームに対するレオフレーム検出に用いたテキスト分類手法を広範囲に評価した。 RheFrameDetectの有効性をさらに実証するために、RheFrameDetectが認識したフレームを人間の注釈付きフレームと比較した複数のケーススタディを示す。

Rhetorical Frames in AI can be thought of as expressions that describe AI development as a competition between two or more actors, such as governments or companies. Examples of such Frames include robotic arms race, AI rivalry, technological supremacy, cyberwarfare dominance and 5G race. Detection of Rhetorical Frames from open sources can help us track the attitudes of governments or companies towards AI, specifically whether attitudes are becoming more cooperative or competitive over time. Given the rapidly increasing volumes of open sources (online news media, twitter, blogs), it is difficult for subject matter experts to identify Rhetorical Frames in (near) real-time. Moreover, these sources are in general unstructured (noisy) and therefore, detecting Frames from these sources will require state-of-the-art text classification techniques. In this paper, we develop RheFrameDetect, a text classification system for (near) real-time capture of Rhetorical Frames from open sources. Given an input document, RheFrameDetect employs text classification techniques at multiple levels (document level and paragraph level) to identify all occurrences of Frames used in the discussion of AI. We performed extensive evaluation of the text classification techniques used in RheFrameDetect against human annotated Frames from multiple news sources. To further demonstrate the effectiveness of RheFrameDetect, we show multiple case studies depicting the Frames identified by RheFrameDetect compared against human annotated Frames.
翻訳日:2022-01-04 04:21:12 公開日:2021-12-30
# (参考訳) SFU-HW-Tracks-v1: 生ビデオシーケンス上のオブジェクト追跡データセット

SFU-HW-Tracks-v1: Object Tracking Dataset on Raw Video Sequences ( http://arxiv.org/abs/2112.14934v1 )

ライセンス: CC BY 4.0
Takehiro Tanaka, Hyomin Choi, Ivan V. Baji\'c(参考訳) 本稿では,高効率ビデオ符号化 (HEVC) v1 Common Test Conditions (CTC) シーケンスに対して,ユニークなオブジェクトIDを持つオブジェクトアノテーションを含むデータセットを提案する。 SFU-HW-Tracks-v1というデータセットを作成した。 各ビデオフレームについて、ground truthアノテーションにはオブジェクトクラスid、オブジェクトid、バウンディングボックス位置とその寸法が含まれる。 このデータセットは、未圧縮ビデオシーケンスにおけるオブジェクト追跡性能の評価や、ビデオ圧縮とオブジェクトトラッキングの関係の研究に使用できる。

We present a dataset that contains object annotations with unique object identities (IDs) for the High Efficiency Video Coding (HEVC) v1 Common Test Conditions (CTC) sequences. Ground-truth annotations for 13 sequences were prepared and released as the dataset called SFU-HW-Tracks-v1. For each video frame, ground truth annotations include object class ID, object ID, and bounding box location and its dimensions. The dataset can be used to evaluate object tracking performance on uncompressed video sequences and study the relationship between video compression and object tracking.
翻訳日:2022-01-04 04:07:51 公開日:2021-12-30
# (参考訳) テキスト追跡のための意味表現と視覚表現の対比学習

Contrastive Learning of Semantic and Visual Representations for Text Tracking ( http://arxiv.org/abs/2112.14976v1 )

ライセンス: CC BY 4.0
Zhuang Li, Weijia Wu, Mike Zheng Shou, Jiahong Li, Size Li, Zhongyuan Wang, Hong Zhou(参考訳) セマンティック表現はビデオ中のテキストを同時に分類、検出、追跡する必要があるビデオテキスト追跡(VTT)タスクにとって大きな利点である。 既存のアプローチのほとんどは、豊富な意味的特徴を無視しながら、連続したフレームの外観的類似性によってこのタスクに取り組む。 本稿では,セマンティック表現とビジュアル表現の対比学習を用いて,ビデオテキストをロバストに追跡する。 ビデオシーケンス内の異なるテキスト間の視覚的および意味的関係を利用してテキストを検出し,追跡するセマンティックおよびビジュアル表現(SVRep)を備えたエンドツーエンドのビデオテキストトラッカーを提案する。 さらに、軽量アーキテクチャにより、SVRepは競合推論速度を維持しながら最先端のパフォーマンスを達成する。 具体的には、resnet-18のバックボーンで${\rm id_{f1}}$を$\textbf{65.9\%}$で達成し、$\textbf{16.7}$ fpsでicdar2015(ビデオ)データセット上で動作し、$\textbf{8.6\%}$が従来の最先端メソッドよりも改善される。

Semantic representation is of great benefit to the video text tracking(VTT) task that requires simultaneously classifying, detecting, and tracking texts in the video. Most existing approaches tackle this task by appearance similarity in continuous frames, while ignoring the abundant semantic features. In this paper, we explore to robustly track video text with contrastive learning of semantic and visual representations. Correspondingly, we present an end-to-end video text tracker with Semantic and Visual Representations(SVRep), which detects and tracks texts by exploiting the visual and semantic relationships between different texts in a video sequence. Besides, with a light-weight architecture, SVRep achieves state-of-the-art performance while maintaining competitive inference speed. Specifically, with a backbone of ResNet-18, SVRep achieves an ${\rm ID_{F1}}$ of $\textbf{65.9\%}$, running at $\textbf{16.7}$ FPS, on the ICDAR2015(video) dataset with $\textbf{8.6\%}$ improvement than the previous state-of-the-art methods.
翻訳日:2022-01-04 04:03:17 公開日:2021-12-30
# (参考訳) 単眼高推定のための転送可能表現学習

THE Benchmark: Transferable Representation Learning for Monocular Height Estimation ( http://arxiv.org/abs/2112.14985v1 )

ライセンス: CC BY 4.0
Zhitong Xiong, Wei Huang, Jingtao Hu, Yilei Shi, Qi Wang, and Xiao Xiang Zhu(参考訳) 3D都市モデルを迅速に生成することは、多くのアプリケーションにとって不可欠である。 単分子高さ推定は、大規模な幾何学的情報を得る最も効率的かつタイムリーな方法の1つである。 しかしながら、既存の作業は主に、非バイアスデータセットを使用したトレーニングとテストモデルに重点を置いている。 そこで本研究では,クロスデータセットにおける高さ推定モデルの転送可能性を調べるための新しいベンチマークデータセットを提案する。 そこで我々はまず,ハイト推定タスク上でのクロスデータセット変換学習のための大規模ベンチマークデータセットの設計と構築を行う。 このベンチマークデータセットは、新たに提案された大規模合成データセット、新たに収集された実世界のデータセット、異なる都市の既存の4つのデータセットを含む。 次に、ゼロショットと少数ショットのクロスデータセット転送という、2つの新しい実験プロトコルを設計する。 数回のクロスデータセット転送では,提案するスケール変形可能な畳み込みモジュールにより,ウィンドウベースのトランスフォーマティブが拡張され,深刻なスケール変動問題に対処できる。 ゼロショットクロスデータセット設定における深層モデルの一般化性を向上させるため、相対高さマップを絶対高さから切り離すために、最大正規化に基づくトランスフォーマネットワークが設計されている。 実験の結果,従来のデータ転送とクロスデータセット転送の両方において提案手法の有効性が示された。 データセットとコードはhttps://thebenchmarkh.github.io/で公開されている。

Generating 3D city models rapidly is crucial for many applications. Monocular height estimation is one of the most efficient and timely ways to obtain large-scale geometric information. However, existing works focus primarily on training and testing models using unbiased datasets, which don't align well with real-world applications. Therefore, we propose a new benchmark dataset to study the transferability of height estimation models in a cross-dataset setting. To this end, we first design and construct a large-scale benchmark dataset for cross-dataset transfer learning on the height estimation task. This benchmark dataset includes a newly proposed large-scale synthetic dataset, a newly collected real-world dataset, and four existing datasets from different cities. Next, two new experimental protocols, zero-shot and few-shot cross-dataset transfer, are designed. For few-shot cross-dataset transfer, we enhance the window-based Transformer with the proposed scale-deformable convolution module to handle the severe scale-variation problem. To improve the generalizability of deep models in the zero-shot cross-dataset setting, a max-normalization-based Transformer network is designed to decouple the relative height map from the absolute heights. Experimental results have demonstrated the effectiveness of the proposed methods in both the traditional and cross-dataset transfer settings. The datasets and codes are publicly available at https://thebenchmarkh.github.io/.
翻訳日:2022-01-04 03:47:58 公開日:2021-12-30
# (参考訳) オブジェクト中心のワークフローペトリネットの音性

Soundness in Object-centric Workflow Petri Nets ( http://arxiv.org/abs/2112.14994v1 )

ライセンス: CC BY 4.0
Irina A. Lomazova, Alexey A. Mitsyuk, Andrey Rivkin(参考訳) 最近導入されたペトリネットに基づく形式主義は、ケースオブジェクトの適切な表現と管理、およびそれらの共進化の重要性を提唱している。 この作品では、そのような形式主義の1つの上に構築し、それに健全性の概念を導入する。 ケースオブジェクト間の非決定論的同期を持つネットの場合、音質問題は決定可能であることを示す。

Recently introduced Petri net-based formalisms advocate the importance of proper representation and management of case objects as well as their co-evolution. In this work we build on top of one of such formalisms and introduce the notion of soundness for it. We demonstrate that for nets with non-deterministic synchronization between case objects, the soundness problem is decidable.
翻訳日:2022-01-04 03:17:03 公開日:2021-12-30
# (参考訳) 知識事項:一般・特定知識を用いた放射線学レポート作成

Knowledge Matters: Radiology Report Generation with General and Specific Knowledge ( http://arxiv.org/abs/2112.15009v1 )

ライセンス: CC BY 4.0
Shuxin Yang, Xian Wu, Shen Ge, Shaohua Kevin Zhou, Li Xiao(参考訳) 放射線医学報告の自動作成は、経験豊富な放射線医を重労働から解放し、未経験者の誤診や診断の欠如を思い出させるクリニックにおいて重要である。 既存のアプローチは主に画像キャプションタスクとしての放射線学レポート生成を定式化し、エンコーダ・デコーダフレームワークを採用する。 しかし、医療分野では、純粋なデータ駆動アプローチは以下の問題に悩まされる。 1) 視覚的・テキスト的バイアス問題 2)専門知識の欠如。 本稿では, 医学的知識を2種類導入した, 知識エンハンスドラジオロジーレポート生成手法を提案する。 1) 一般知識は,独立して入力され,報告書作成のための幅広い知識を提供する。 2) 特定の知識は、入力に依存し、レポート生成にきめ細かい知識を提供する。 また,一般知識と特定知識の両面をフル活用するために,知識強化型マルチヘッドアテンション機構を提案する。 放射線画像の視覚的特徴を一般知識と具体的知識と組み合わせることで,提案モデルは生成したレポートの品質を向上させることができる。 IU-XrayとMIMIC-CXRの2つの公開データセットによる実験結果から,提案手法が最先端の画像キャプションに基づく手法より優れていることが示された。 アブレーション研究は、一般知識と特定知識の両方が、放射線学レポート生成の性能向上に役立つことも示している。

Automatic radiology report generation is critical in clinics which can relieve experienced radiologists from the heavy workload and remind inexperienced radiologists of misdiagnosis or missed diagnose. Existing approaches mainly formulate radiology report generation as an image captioning task and adopt the encoder-decoder framework. However, in the medical domain, such pure data-driven approaches suffer from the following problems: 1) visual and textual bias problem; 2) lack of expert knowledge. In this paper, we propose a knowledge-enhanced radiology report generation approach introduces two types of medical knowledge: 1) General knowledge, which is input independent and provides the broad knowledge for report generation; 2) Specific knowledge, which is input dependent and provides the fine-grained knowledge for report generation. To fully utilize both the general and specific knowledge, we also propose a knowledge-enhanced multi-head attention mechanism. By merging the visual features of the radiology image with general knowledge and specific knowledge, the proposed model can improve the quality of generated reports. Experimental results on two publicly available datasets IU-Xray and MIMIC-CXR show that the proposed knowledge enhanced approach outperforms state-of-the-art image captioning based methods. Ablation studies also demonstrate that both general and specific knowledge can help to improve the performance of radiology report generation.
翻訳日:2022-01-04 02:57:45 公開日:2021-12-30
# (参考訳) 学習知識ベースとマルチモーダルアライメントを用いた放射線学レポート生成

Radiology Report Generation with a Learned Knowledge Base and Multi-modal Alignment ( http://arxiv.org/abs/2112.15011v1 )

ライセンス: CC BY 4.0
Shuxin Yang, Xian Wu, Shen Ge, Xingwang Wu, S.Kevin Zhou, Li Xiao(参考訳) 診療所では、患者の治療を導くために放射線学報告が不可欠である。 残念ながら、レポート作成は放射線学者に重荷を課している。 このような負担を効果的に軽減するために,胸部X線からのレポート自動生成手法を提案する。 放射線学報告における記述がX線画像と高い相関関係にあるという観察から得られたアプローチは,2つの異なるモジュールを特徴とする。 (i)知識ベースを学ぶ。 上記の相関に埋め込まれた知識を吸収するために,テキスト埋め込みに基づく知識ベースを自動構築する。 (ii)マルチモーダルアライメント。 報告, 疾患ラベル, 画像間のセマンティックアライメントを促進するために, テキスト埋め込みを用いて視覚的特徴空間の学習を指導する。 IUおよびMIMIC-CXRデータセットを用いて、自然言語生成と臨床効果の指標を用いて、提案モデルの性能を評価する。 本研究は,各モジュールが生成したレポートの品質向上に寄与することを示す。 さらに、両モジュールの助けを借りて、我々の手法は最先端の手法よりも明らかに優れている。

In clinics, a radiology report is crucial for guiding a patient's treatment. Unfortunately, report writing imposes a heavy burden on radiologists. To effectively reduce such a burden, we hereby present an automatic, multi-modal approach for report generation from chest x-ray. Our approach, motivated by the observation that the descriptions in radiology reports are highly correlated with the x-ray images, features two distinct modules: (i) Learned knowledge base. To absorb the knowledge embedded in the above-mentioned correlation, we automatically build a knowledge base based on textual embedding. (ii) Multi-modal alignment. To promote the semantic alignment among reports, disease labels and images, we explicitly utilize textual embedding to guide the learning of the visual feature space. We evaluate the performance of the proposed model using metrics from both natural language generation and clinic efficacy on the public IU and MIMIC-CXR datasets. Our ablation study shows that each module contributes to improving the quality of generated reports. Furthermore, with the aid of both modules, our approach clearly outperforms state-of-the-art methods.
翻訳日:2022-01-04 02:38:19 公開日:2021-12-30
# (参考訳) 患者特定モデル再校正のためのDeep Transfer-Learning:sEMG分類への応用

Deep Transfer-Learning for patient specific model re-calibration: Application to sEMG-Classification ( http://arxiv.org/abs/2112.15019v1 )

ライセンス: CC BY 4.0
Stephan Johann Lehmler, Muhammad Saif-ur-Rehman, Tobias Glasmachers, Ioannis Iossifidis(参考訳) 表面筋電図(sEMG)の正確な復号化は、筋-機械-インタフェース(MMI)およびリハビリテーション療法への応用において重要である。 sEMG信号は、皮膚の厚み、体脂肪率、電極配置など様々な要因により、オブジェクト間のばらつきが高い。 したがって、訓練されたsEMGデコーダの高一般化品質を得るのは難しい。 通常、機械学習ベースのsegデコーダは、主題固有のデータに基づいてトレーニングされるか、あるいは少なくとも各ユーザのために個別に再調整される。 しかし、深層学習アルゴリズムは、sEMGデコーディングのいくつかの結果を生成するが、sEMGデータの可用性が限られているため、深層学習モデルは過度に適合する傾向にある。 近年、ドメイン適応のための伝達学習は、各種機械学習タスクのトレーニング時間を短縮し、一般化品質を改善している。 本研究では,2種類の事前訓練深層学習モデルの再校正のための重み初期化を用いた移動学習の有効性について検討し,その性能を被験者固有のモデルと比較した。 本研究は, semg分類における重み初期化に基づく伝達学習を徹底的に検討し, 伝達学習と主題特異的モデリングを比較した最初の研究である。 私たちは、さまざまな設定で3つの公開データベースでモデルをテストしました。 移動学習手法は,すべての設定において,微調整を伴わない事前学習モデルでは5~\%,被験者固有のモデルでは12~\%,平均22~\%のエポックで訓練されている。 以上の結果から,トランスファー学習は,ユーザ固有のモデルよりも少ないサンプルのトレーニングを高速化し,十分なデータが得られる限り,事前学習モデルの性能を向上させることが示唆された。

Accurate decoding of surface electromyography (sEMG) is pivotal for muscle-to-machine-interfaces (MMI) and their application for e.g. rehabilitation therapy. sEMG signals have high inter-subject variability, due to various factors, including skin thickness, body fat percentage, and electrode placement. Therefore, obtaining high generalization quality of a trained sEMG decoder is quite challenging. Usually, machine learning based sEMG decoders are either trained on subject-specific data, or at least recalibrated for each user, individually. Even though, deep learning algorithms produced several state of the art results for sEMG decoding,however, due to the limited amount of availability of sEMG data, the deep learning models are prone to overfitting. Recently, transfer learning for domain adaptation improved generalization quality with reduced training time on various machine learning tasks. In this study, we investigate the effectiveness of transfer learning using weight initialization for recalibration of two different pretrained deep learning models on a new subjects data, and compare their performance to subject-specific models. To the best of our knowledge, this is the first study that thoroughly investigated weight-initialization based transfer learning for sEMG classification and compared transfer learning to subject-specific modeling. We tested our models on three publicly available databases under various settings. On average over all settings, our transfer learning approach improves 5~\%-points on the pretrained models without fine-tuning and 12~\%-points on the subject-specific models, while being trained on average 22~\% fewer epochs. Our results indicate that transfer learning enables faster training on fewer samples than user-specific models, and improves the performance of pretrained models as long as enough data is available.
翻訳日:2022-01-04 02:25:53 公開日:2021-12-30
# (参考訳) 普遍近似のための解釈型ニューラルネットワークの2例

Two Instances of Interpretable Neural Network for Universal Approximations ( http://arxiv.org/abs/2112.15026v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Guan Cuntai(参考訳) 本稿では,TNN(Triangularly-constructed NN)とSQANN(Semi-Quantized Activation NN)の2つのボトムアップ解釈型ニューラルネットワーク構築手法を提案する。 顕著な特徴は,(1) 破滅的忘れ込みに対する抵抗 (2) 入力 \(x\) のトレーニングデータセットに任意に高い精度を示す証明が存在すること,(3) ユーザは ''fingerprints' のアクティベーションが \(x\) のアクティベーションと類似した訓練データの特定のサンプルを特定できる点である。 配布されていないサンプルを識別することもできる。

This paper proposes two bottom-up interpretable neural network (NN) constructions for universal approximation, namely Triangularly-constructed NN (TNN) and Semi-Quantized Activation NN (SQANN). The notable properties are (1) resistance to catastrophic forgetting (2) existence of proof for arbitrarily high accuracies on training dataset (3) for an input \(x\), users can identify specific samples of training data whose activation ``fingerprints" are similar to that of \(x\)'s activations. Users can also identify samples that are out of distribution.
翻訳日:2022-01-04 02:12:43 公開日:2021-12-30
# (参考訳) きめ細かな解釈性を有する自己回帰設計

Self Reward Design with Fine-grained Interpretability ( http://arxiv.org/abs/2112.15034v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Guan Cuntai(参考訳) 深層強化学習における透明性と公平性問題は、その方針や価値関数などを学ぶために使用される深層ニューラルネットワークのブラックボックスの性質に起因する可能性がある。 本稿では、ニューラルネットワーク(nn)のボトムアップ設計において、各ニューロンや層が、人間の理解可能な概念に対応する独自の意味と有用性を持つ、詳細な解釈可能性を有することによって、この問題を回避する方法を提案する。 故意の設計では,パラメータが少ないNNモデルを用いてラバラン問題を解くことができる。 Inverse Reward Designにインスパイアされた自己逆設計(SRD)を導入し、(1)純粋な設計(不完全だが)によって問題を解けるようにし、(2)未知の状態を避けるために、(w_{unknown}\)の活性化として集約されたニューロンの不活性化を認識する。

Transparency and fairness issues in Deep Reinforcement Learning may stem from the black-box nature of deep neural networks used to learn its policy, value functions etc. This paper proposes a way to circumvent the issues through the bottom-up design of neural networks (NN) with detailed interpretability, where each neuron or layer has its own meaning and utility that corresponds to humanly understandable concept. With deliberate design, we show that lavaland problems can be solved using NN model with few parameters. Furthermore, we introduce the Self Reward Design (SRD), inspired by the Inverse Reward Design, so that our interpretable design can (1) solve the problem by pure design (although imperfectly) (2) be optimized via SRD (3) perform avoidance of unknown states by recognizing the inactivations of neurons aggregated as the activation in \(w_{unknown}\).
翻訳日:2022-01-04 01:36:21 公開日:2021-12-30
# (参考訳) QAに基づく中間訓練は、テキスト分類のための微調整言語モデルに役立つか?

Does QA-based intermediate training help fine-tuning language models for text classification? ( http://arxiv.org/abs/2112.15051v1 )

ライセンス: CC BY 4.0
Shiwei Zhang and Xiuzhen Zhang(参考訳) 下流タスクのための微調整済み言語モデルがNLPの標準となっている。 近年,質問応答 (QA) のような高レベルな推論タスクに基づく中間訓練により,目標タスクに対する言語モデルの性能が向上することが確認された。 しかし、中間訓練が一般的に様々な言語モデルに効果があるかどうかは不明である。 本稿では、SQuAD-2.0QAタスクを目標テキスト分類タスクの中間訓練に使用し、単一シーケンス分類のための8つのタスクと、2つのベースと2つのコンパクト言語モデルを用いたシーケンスペア分類のための8つのタスクを実験した。 実験により、QAに基づく中間訓練は、類似のQAタスクを除いて、異なる言語モデル間で異なる転送性能を生成することが示された。

Fine-tuning pre-trained language models for downstream tasks has become a norm for NLP. Recently it is found that intermediate training based on high-level inference tasks such as Question Answering (QA) can improve the performance of some language models for target tasks. However it is not clear if intermediate training generally benefits various language models. In this paper, using the SQuAD-2.0 QA task for intermediate training for target text classification tasks, we experimented on eight tasks for single-sequence classification and eight tasks for sequence-pair classification using two base and two compact language models. Our experiments show that QA-based intermediate training generates varying transfer performance across different language models, except for similar QA tasks.
翻訳日:2022-01-04 01:19:14 公開日:2021-12-30
# (参考訳) TextRGNN: テキスト分類のための残差グラフニューラルネットワーク

TextRGNN: Residual Graph Neural Networks for Text Classification ( http://arxiv.org/abs/2112.15060v1 )

ライセンス: CC BY 4.0
Jiayuan Chen and Boyu Zhang and Yinfei Xu and Meng Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)に基づくテキスト分類モデルが注目されている。 これらのモデルの多くは、事前学習ノード埋め込み初期化と2層グラフ畳み込みを用いて、同様のネットワークパラダイムを採用している。 本研究では,畳み込みネットワーク深度を深くする残差接続を導入した改良型GNN構造であるTextRGNNを提案する。 我々の構造はより広いノード受容場を得ることができ、ノード特徴の過度な平滑化を効果的に抑制できる。 さらに,確率的言語モデルとグラフノード埋め込みの初期化を統合することにより,非グラフ意味情報の抽出が容易になる。 実験の結果,本モデルは汎用的かつ効率的であることが判明した。 コーパスレベルであれテキストレベルであれ、分類精度を大幅に向上させ、幅広いテキスト分類データセット上でSOTA性能を達成することができる。

Recently, text classification model based on graph neural network (GNN) has attracted more and more attention. Most of these models adopt a similar network paradigm, that is, using pre-training node embedding initialization and two-layer graph convolution. In this work, we propose TextRGNN, an improved GNN structure that introduces residual connection to deepen the convolution network depth. Our structure can obtain a wider node receptive field and effectively suppress the over-smoothing of node features. In addition, we integrate the probabilistic language model into the initialization of graph node embedding, so that the non-graph semantic information of can be better extracted. The experimental results show that our model is general and efficient. It can significantly improve the classification accuracy whether in corpus level or text level, and achieve SOTA performance on a wide range of text classification datasets.
翻訳日:2022-01-04 01:11:04 公開日:2021-12-30
# (参考訳) knnアルゴリズムによる手の衛生的ジェスチャーの特徴抽出と予測

Feature Extraction and Prediction for Hand Hygiene Gestures with KNN Algorithm ( http://arxiv.org/abs/2112.15085v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本研究は,手洗い作業に関わる手指ジェスチャーの分析に焦点をあてる。 世界保健機関の手衛生ガイドラインでは、手を洗うための標準的な手衛生ジェスチャーが6つある。 本論文では,コンピュータビジョンライブラリopencvを用いて,手輪郭,手中心,最大輪郭に沿った極端手点などの手の特徴を抽出する。 これらの手の特徴は、手衛生ビデオ内の各データフレームに対して抽出される。 このプロジェクトでは、ビデオ録画の堅牢な手衛生データセットが作成された。 この作業では、このデータセットのサブセットが使用されます。 抽出した手の特徴をKNNアルゴリズムに基づくクラスに分類し,非競合データの分類と予測のためのクロスフォールド検証手法を提案する。 平均精度スコアが95%に達し、K=5の適切な入力値を持つKNNアルゴリズムが分類に有効であることを証明した。 6つの異なる手衛生クラスを持つ完全なデータセットは、今後の作業のためにKNN分類器で使用される。

This work focuses upon the analysis of hand gestures involved in the process of hand washing. There are six standard hand hygiene gestures for washing hands as provided by World Health Organisation hand hygiene guidelines. In this paper, hand features such as contours of hands, the centroid of the hands, and extreme hand points along the largest contour are extracted with the use of the computer vision library, OpenCV. These hand features are extracted for each data frame in a hand hygiene video. A robust hand hygiene dataset of video recordings was created in the project. A subset of this dataset is used in this work. Extracted hand features are further grouped into classes based on the KNN algorithm with a cross-fold validation technique for the classification and prediction of the unlabelled data. A mean accuracy score of >95% is achieved and proves that the KNN algorithm with an appropriate input value of K=5 is efficient for classification. A complete dataset with six distinct hand hygiene classes will be used with the KNN classifier for future work.
翻訳日:2022-01-04 01:02:01 公開日:2021-12-30
# (参考訳) 転帰学習における神経崩壊の役割について

On the Role of Neural Collapse in Transfer Learning ( http://arxiv.org/abs/2112.15121v1 )

ライセンス: CC BY 4.0
Tomer Galanti, Andr\'as Gy\"orgy, Marcus Hutter(参考訳) 本研究では,新しいクラスに移動可能な分類の表現を基礎モデルで学習する能力について検討する。 論文の最近の結果は、多くのクラスで単一の分類子によって学習される表現は、そのような問題のために設計された特別な目的のアルゴリズムによって学習される表現を持つ、少数の学習問題と競合していることを示している。 本稿では,過パラメータ化分類ネットワークによって得られた特徴が,神経崩壊と呼ばれる興味深いクラスタリング特性を示す,最近観測された現象に基づいて,この挙動を説明する。 我々は、神経崩壊がトレーニングクラスから新しいサンプルに一般化し、さらに重要なこととして、新しいクラスにも一般化できることを理論的にも経験的にも示し、基礎モデルがトランスファー学習や特にマイナショット設定においてうまく機能する機能マップを提供することを可能にした。

We study the ability of foundation models to learn representations for classification that are transferable to new, unseen classes. Recent results in the literature show that representations learned by a single classifier over many classes are competitive on few-shot learning problems with representations learned by special-purpose algorithms designed for such problems. In this paper we provide an explanation for this behavior based on the recently observed phenomenon that the features learned by overparameterized classification networks show an interesting clustering property, called neural collapse. We demonstrate both theoretically and empirically that neural collapse generalizes to new samples from the training classes, and -- more importantly -- to new classes as well, allowing foundation models to provide feature maps that work well in transfer learning and, specifically, in the few-shot setting.
翻訳日:2022-01-04 00:56:47 公開日:2021-12-30
# (参考訳) インドの言語間コグネイト検出のためのwordnetsの利用

Utilizing Wordnets for Cognate Detection among Indian Languages ( http://arxiv.org/abs/2112.15124v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya, Malhar Kulkarni, Gholamreza Haffari(参考訳) ACD(Automatic Cognate Detection)は、機械翻訳、情報検索、計算系統学などのNLPアプリケーションを支援するために使われている課題である。 統一されたコグネートペアはこれらのアプリケーションに挑戦し、結果として性能が低下する。 本稿では,ヒンディー語を含む10言語間の単語対を検出し,深層学習手法を用いて単語対がコグネートであるか否かを予測する。 IndoWordnetは、正書法的な類似性に基づく単語ペアの検出と、そこから得られたデータを用いてニューラルネットワークモデルを訓練するための潜在的なリソースである。 並列コーパスを別の潜在的な資源として認識し,同じ実験を行う。 また,Wordnetsのさらなる実験による貢献を検証し,最大26%の性能向上を報告した。 近縁なインド言語間のコグネート検出のニュアンスを議論し,検出されたコグネートのリストをデータセットとして公開する。 また,無関係なインドの言語ペアの挙動をある程度観察し,検出されたコニャートのリストも公開する。

Automatic Cognate Detection (ACD) is a challenging task which has been utilized to help NLP applications like Machine Translation, Information Retrieval and Computational Phylogenetics. Unidentified cognate pairs can pose a challenge to these applications and result in a degradation of performance. In this paper, we detect cognate word pairs among ten Indian languages with Hindi and use deep learning methodologies to predict whether a word pair is cognate or not. We identify IndoWordnet as a potential resource to detect cognate word pairs based on orthographic similarity-based methods and train neural network models using the data obtained from it. We identify parallel corpora as another potential resource and perform the same experiments for them. We also validate the contribution of Wordnets through further experimentation and report improved performance of up to 26%. We discuss the nuances of cognate detection among closely related Indian languages and release the lists of detected cognates as a dataset. We also observe the behaviour of, to an extent, unrelated Indian language pairs and release the lists of detected cognates among them as well.
翻訳日:2022-01-04 00:55:31 公開日:2021-12-30
# (参考訳) ニューラルネットにおけるタスク最適低ビットサブディストリビューションの探索

Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural Networks ( http://arxiv.org/abs/2112.15139v1 )

ライセンス: CC BY 4.0
Runpei Dong, Zhanhong Tan, Mengdi Wu, Linfeng Zhang, Kaisheng Ma(参考訳) 量子化されたニューラルネットワークは通常、少ないメモリフットプリントと計算の複雑さを必要とする。 しかし、量子化は必然的に元のネットワークから分散を逸脱させ、一般に性能を低下させる。 この問題に対処するため、大規模な努力がなされているが、既存のアプローチの多くは統計的考察を欠き、いくつかの手動構成に依存している。 本稿では, モデルに内在し, コンクリートガウス混合 (gm) と滑らかに近似した最適潜在部分分布を学習するための適応マップ量子化法を提案する。 特に、ネットワークの重み付けはgm近似のサブディストリビューションに従って投影される。 このサブディストリビューションは、直接タスク目的最適化によって導かれる協調チューニングスキーマの重み更新と共に進化する。 近代建築における画像分類と物体検出に関する十分な実験により,提案手法の有効性,一般化性,伝達性を示す。 さらに、モバイルCPUの効率的なデプロイメントフローを開発し、オクタコアARMCPU上で最大7.46$\times$推論アクセラレーションを達成する。 コードはhttps://github.com/RunpeiDong/DGMSで公開されている。

Quantized neural networks typically require smaller memory footprints and lower computation complexity, which is crucial for efficient deployment. However, quantization inevitably leads to a distribution divergence from the original network, which generally degrades the performance. To tackle this issue, massive efforts have been made, but most existing approaches lack statistical considerations and depend on several manual configurations. In this paper, we present an adaptive-mapping quantization method to learn an optimal latent sub-distribution that is inherent within models and smoothly approximated with a concrete Gaussian Mixture (GM). In particular, the network weights are projected in compliance with the GM-approximated sub-distribution. This sub-distribution evolves along with the weight update in a co-tuning schema guided by the direct task-objective optimization. Sufficient experiments on image classification and object detection over various modern architectures demonstrate the effectiveness, generalization property, and transferability of the proposed method. Besides, an efficient deployment flow for the mobile CPU is developed, achieving up to 7.46$\times$ inference acceleration on an octa-core ARM CPU. Codes are publicly released at https://github.com/RunpeiDong/DGMS.
翻訳日:2022-01-04 00:44:16 公開日:2021-12-30
# (参考訳) 行動理論から経済学へ:反復的相互作用データから人間エージェントの選好を推定する

From Behavioral Theories to Econometrics: Inferring Preferences of Human Agents from Data on Repeated Interactions ( http://arxiv.org/abs/2112.15151v1 )

ライセンス: CC BY 4.0
Gali Noti(参考訳) エージェントが繰り返し相互作用する戦略システムのデータから,人間エージェントの選好を推定する問題を考える。 近年,「量的後悔」と呼ばれる新たな推定手法が,エージェントが合理的でnash平衡に達すると仮定する従来のアプローチよりも,人間のエージェントの正確な推定を行うことが示されたが,この手法は人間の遊びの行動的側面を考慮した手法とは比較されていない。 本稿では,この目的のために行動経済学の平衡概念を活用し,量的後悔法やナッシュ均衡法と比較して,それらがいかにうまく機能するかを問う。 正規形ゲームにおける観察データから人間のエージェントの効用を推定するために,確立された行動平衡モデルに基づく4つの推定法を開発した。 私たちが研究する平衡モデルは、量子応答平衡、アクションサンプリング平衡、ペイオフサンプリング平衡、インパルスバランス平衡である。 これらの概念のいくつかでは、推論は閉公式によって解析的に達成され、他方では、推論はアルゴリズム的にのみ達成されることを示す。 2x2ゲームの実験データを用いて,これらの行動平衡法の推定成功を評価する。 結果は、それらの推定値がナッシュ均衡の推定値よりも正確なことを示している。 quantal-regret法との比較により,行動法の方がヒット率が高いが,quantal-regret法の方が全体の平均二乗誤差の点で優れており,本手法の違いについて考察する。

We consider the problem of estimating preferences of human agents from data of strategic systems where the agents repeatedly interact. Recently, it was demonstrated that a new estimation method called "quantal regret" produces more accurate estimates for human agents than the classic approach that assumes that agents are rational and reach a Nash equilibrium; however, this method has not been compared to methods that take into account behavioral aspects of human play. In this paper we leverage equilibrium concepts from behavioral economics for this purpose and ask how well they perform compared to the quantal regret and Nash equilibrium methods. We develop four estimation methods based on established behavioral equilibrium models to infer the utilities of human agents from observed data of normal-form games. The equilibrium models we study are quantal-response equilibrium, action-sampling equilibrium, payoff-sampling equilibrium, and impulse-balance equilibrium. We show that in some of these concepts the inference is achieved analytically via closed formulas, while in the others the inference is achieved only algorithmically. We use experimental data of 2x2 games to evaluate the estimation success of these behavioral equilibrium methods. The results show that the estimates they produce are more accurate than the estimates of the Nash equilibrium. The comparison with the quantal-regret method shows that the behavioral methods have better hit rates, but the quantal-regret method performs better in terms of the overall mean squared error, and we discuss the differences between the methods.
翻訳日:2022-01-04 00:18:51 公開日:2021-12-30
# (参考訳) 適応カルマン時間差と継承表現によるマルチエージェント強化学習

Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation ( http://arxiv.org/abs/2112.15156v1 )

ライセンス: CC BY 4.0
Mohammad Salimibeni, Arash Mohammadi, Parvin Malekzadeh, and Konstantinos N. Plataniotis(参考訳) 分散マルチエージェント強化学習(MARL)アルゴリズムは近年,近年のDeep Neural Networks (DNN) の進展を中心に注目されている。 従来のモデルベース(MB)またはモデルフリー(MF)RLアルゴリズムは、基礎となる値関数の学習に固定報酬モデルを利用するため、MARL問題に直接適用できない。 DNNベースのソリューションは、単一のエージェントが関与している場合、完全にうまく機能するが、そのような方法はMARL問題の複雑さに完全に一般化することができない。 言い換えれば、最近開発されたマルチエージェント環境のためのDNNに基づくアプローチは、性能が優れているが、過度に適合し、パラメータ選択に対する感度が高く、サンプルの非効率性が低い。 本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。 直感的に言えば、主な目的は不確実性モデリングやオンライン2次学習といったカルマンフィルタ(KF)の特徴を活かすことである。 提案するmak-td/srフレームワークは、高次元マルチエージェント環境に関連するアクション空間の連続性を検討し、kalman temporal difference (ktd) を利用してパラメータの不確実性に対処する。 KTDフレームワークを利用することで、SR学習手順をフィルタ問題にモデル化し、ラジアル基底関数(RBF)推定器を用いて連続空間を特徴ベクトルに符号化する。 一方、局所的な報酬関数を学習するためには、観測ノイズの共分散と観測マッピング関数に関する事前知識の欠如に対処するため、MMAE(Multiple Model Adaptive Estimation)を用いる。 提案するMAK-TD/SRフレームワークは,OpenAI Gym MARLベンチマークを用いて,いくつかの実験により評価される。

Distributed Multi-Agent Reinforcement Learning (MARL) algorithms has attracted a surge of interest lately mainly due to the recent advancements of Deep Neural Networks (DNNs). Conventional Model-Based (MB) or Model-Free (MF) RL algorithms are not directly applicable to the MARL problems due to utilization of a fixed reward model for learning the underlying value function. While DNN-based solutions perform utterly well when a single agent is involved, such methods fail to fully generalize to the complexities of MARL problems. In other words, although recently developed approaches based on DNNs for multi-agent environments have achieved superior performance, they are still prone to overfiting, high sensitivity to parameter selection, and sample inefficiency. The paper proposes the Multi-Agent Adaptive Kalman Temporal Difference (MAK-TD) framework and its Successor Representation-based variant, referred to as the MAK-SR. Intuitively speaking, the main objective is to capitalize on unique characteristics of Kalman Filtering (KF) such as uncertainty modeling and online second order learning. The proposed MAK-TD/SR frameworks consider the continuous nature of the action-space that is associated with high dimensional multi-agent environments and exploit Kalman Temporal Difference (KTD) to address the parameter uncertainty. By leveraging the KTD framework, SR learning procedure is modeled into a filtering problem, where Radial Basis Function (RBF) estimators are used to encode the continuous space into feature vectors. On the other hand, for learning localized reward functions, we resort to Multiple Model Adaptive Estimation (MMAE), to deal with the lack of prior knowledge on the observation noise covariance and observation mapping function. The proposed MAK-TD/SR frameworks are evaluated via several experiments, which are implemented through the OpenAI Gym MARL benchmarks.
翻訳日:2022-01-03 23:59:41 公開日:2021-12-30
# (参考訳) IBM Watsonを用いたフィットネス管理のためのチャットボット

Chatbot for fitness management using IBM Watson ( http://arxiv.org/abs/2112.15167v1 )

ライセンス: CC BY 4.0
Sai Rugved Lola, Rahul Dhadvai, Wei Wang, Ting Zhu(参考訳) チャットボットは、人間がコンピュータシステムと対話する方法に革命をもたらし、サービスエージェントやコールセンターの代表などの使用を代用した。 フィットネス産業は常に成長する産業だが、AI、ML、クラウドコンピューティングといった最新の技術には適応していない。 本稿では,IBM Watsonを用いたフィットネス管理用チャットボットを開発し,それをWebアプリケーションに統合するアイデアを提案する。 我々は、Chatbot Assistantに提供されるIBM Cloud Watsonのフレームワークとともに、自然言語処理(NLP)と自然言語理解(NLU)の使用を提案した。 このソフトウェアはサーバーレスアーキテクチャを使用して、ダイエットプラン、ホームエクササイズ、インタラクティブカウンセリングセッション、フィットネスレコメンデーションを提供することで、プロフェッショナルのサービスを組み合わせる。

Chatbots have revolutionized the way humans interact with computer systems and they have substituted the use of service agents, call-center representatives etc. Fitness industry has always been a growing industry although it has not adapted to the latest technologies like AI, ML and cloud computing. In this paper, we propose an idea to develop a chatbot for fitness management using IBM Watson and integrate it with a web application. We proposed using Natural Language Processing (NLP) and Natural Language Understanding (NLU) along with frameworks of IBM Cloud Watson provided for the Chatbot Assistant. This software uses a serverless architecture to combine the services of a professional by offering diet plans, home exercises, interactive counseling sessions, fitness recommendations.
翻訳日:2022-01-03 23:35:01 公開日:2021-12-30
# (参考訳) ニューラルネットワークのロバスト性に向けて

Towards Robustness of Neural Networks ( http://arxiv.org/abs/2112.15188v1 )

ライセンス: CC BY 4.0
Steven Basart(参考訳) 我々は、新しいデータセットであるImageNet-A/OとImageNet-Rを紹介し、CAOSと呼ばれる合成環境とテストスイートを紹介した。 ImageNet-A/Oを使えば、研究者はImageNetに残る盲点に集中できる。 ImageNet-Rは、表現がもはや自然ではなく、芸術的、その他の再帰を含むため、堅牢な表現を追跡する目的で特別に作られた。 CAOSスイートは、CARLAシミュレータで構築されており、異常なオブジェクトを取り込み、再現可能な合成環境や、堅牢性をテストするシーンを作成することができる。 すべてのデータセットは、ロバストネスのテストとロバストネスの進捗測定のために作成されました。 データセットは他の様々な研究で、頑健さの進歩を計測し、自然の精度だけに焦点を絞らない具体的な進歩を可能にするために使われてきた。 これらのデータセットから,ロバストネス研究を推し進めるための新しい手法を考案した。 我々は、最大ロジットの形で単純なベースラインを構築し、典型性スコアを作成し、前述のベンチマークで改善されたdeepaugmentの形式で新しいデータ拡張手法を作成する。 最大ロジットはsoftmax操作後の値ではなくlogit値を考慮し、小さな変更は注目すべき改善をもたらす。 典型性スコアは、出力分布をクラス上の後方分布と比較する。 これにより,セグメンテーションタスク以外のベースラインよりもパフォーマンスが向上することを示す。 ピクセルレベルでの推測では、ピクセルの意味情報はクラスレベルの情報よりも意味が薄い。 最後に、DeepAugmentの新しい拡張技術は、ニューラルネットワークを使用して、従来使用されていた幾何学的およびカメラベースの変換と根本的に異なる画像に拡張を生成する。

We introduce several new datasets namely ImageNet-A/O and ImageNet-R as well as a synthetic environment and testing suite we called CAOS. ImageNet-A/O allow researchers to focus in on the blind spots remaining in ImageNet. ImageNet-R was specifically created with the intention of tracking robust representation as the representations are no longer simply natural but include artistic, and other renditions. The CAOS suite is built off of CARLA simulator which allows for the inclusion of anomalous objects and can create reproducible synthetic environment and scenes for testing robustness. All of the datasets were created for testing robustness and measuring progress in robustness. The datasets have been used in various other works to measure their own progress in robustness and allowing for tangential progress that does not focus exclusively on natural accuracy. Given these datasets, we created several novel methods that aim to advance robustness research. We build off of simple baselines in the form of Maximum Logit, and Typicality Score as well as create a novel data augmentation method in the form of DeepAugment that improves on the aforementioned benchmarks. Maximum Logit considers the logit values instead of the values after the softmax operation, while a small change produces noticeable improvements. The Typicality Score compares the output distribution to a posterior distribution over classes. We show that this improves performance over the baseline in all but the segmentation task. Speculating that perhaps at the pixel level the semantic information of a pixel is less meaningful than that of class level information. Finally the new augmentation technique of DeepAugment utilizes neural networks to create augmentations on images that are radically different than the traditional geometric and camera based transformations used previously.
翻訳日:2022-01-03 23:24:05 公開日:2021-12-30
# 非標準参照による相対色コンステンシーのカラーアライメント

Colour alignment for relative colour constancy via non-standard references ( http://arxiv.org/abs/2112.15106v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Stuart Ferguson, Huiyu Zhou, Chris Elliott and Karen Rafferty(参考訳) 相対色濃度は、多くの科学的イメージング応用に必須である。 しかし、ほとんどのデジタルカメラは画像形成が異なり、例えばスマートフォンのカメラアプリケーションでは、ネイティブセンサーの出力はアクセスできない。 これにより、さまざまなデバイスで一貫した色評価を実現することが難しくなり、コンピュータビジョンアルゴリズムのパフォーマンスを損なう。 この問題を解決するために,カメラ画像形成をブラックボックスとみなし,カラーアライメントをカメラ応答校正,応答線形化,色マッチングという3段階のプロセスとして定式化するカラーアライメントモデルを提案する。 提案モデルは、新しい線形距離のバランス機能を活用し、真の色値を知ることなく、非標準色参照、すなわち色パッチを扱う。 これは教師なしのプロセスでカメラのパラメータを決定することと等価である。 また、適用可能な処理を提供するためにカラーアライメントを行うために、画像全体で対応する最小数のカラーパッチで動作する。 様々な照明および露光条件下で複数のカメラが収集した2つの挑戦的な画像データセットを用いてモデルを評価した。 性能ベンチマークにより,我々のモデルは,他の人気・最先端手法と比較して優れた性能を示した。

Relative colour constancy is an essential requirement for many scientific imaging applications. However, most digital cameras differ in their image formations and native sensor output is usually inaccessible, e.g., in smartphone camera applications. This makes it hard to achieve consistent colour assessment across a range of devices, and that undermines the performance of computer vision algorithms. To resolve this issue, we propose a colour alignment model that considers the camera image formation as a black-box and formulates colour alignment as a three-step process: camera response calibration, response linearisation, and colour matching. The proposed model works with non-standard colour references, i.e., colour patches without knowing the true colour values, by utilising a novel balance-of-linear-distances feature. It is equivalent to determining the camera parameters through an unsupervised process. It also works with a minimum number of corresponding colour patches across the images to be colour aligned to deliver the applicable processing. Two challenging image datasets collected by multiple cameras under various illumination and exposure conditions were used to evaluate the model. Performance benchmarks demonstrated that our model achieved superior performance compared to other popular and state-of-the-art methods.
翻訳日:2022-01-03 15:51:41 公開日:2021-12-30
# 適応ステップサイズを考慮した確率勾配降下の局所二次収束

Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive Step Size ( http://arxiv.org/abs/2112.14872v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan and Mikhail Belkin and Caroline Uhler(参考訳) 最適化手法の高速収束の確立は、実際の適用性に不可欠である。 過去10年間にディープラーニングの人気が高まり、確率的勾配降下とその適応的変種(例えば、Adagrad、Adamなど)は、機械学習実践者にとって重要な選択方法となっている。 多くの研究が、これらの一階最適化手法が線形あるいは線形収束を達成することを証明しているが、行列反転のような問題に対する適応的なステップサイズを持つ確率勾配勾配の局所的二次収束を確立する。

Establishing a fast rate of convergence for optimization methods is crucial to their applicability in practice. With the increasing popularity of deep learning over the past decade, stochastic gradient descent and its adaptive variants (e.g. Adagrad, Adam, etc.) have become prominent methods of choice for machine learning practitioners. While a large number of works have demonstrated that these first order optimization methods can achieve sub-linear or linear convergence, we establish local quadratic convergence for stochastic gradient descent with adaptive step size for problems such as matrix inversion.
翻訳日:2022-01-03 15:48:51 公開日:2021-12-30
# 私たちは本当に大きな進歩を遂げていますか? ヘテロジニアスグラフニューラルネットワークの再検討、ベンチマーク、精製

Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous graph neural networks ( http://arxiv.org/abs/2112.14936v1 )

ライセンス: Link先を確認
Qingsong Lv, Ming Ding, Qiang Liu, Yuxiang Chen, Wenzheng Feng, Siming He, Chang Zhou, Jianguo Jiang, Yuxiao Dong, Jie Tang(参考訳) ヘテロジニアスグラフニューラルネットワーク(hgnn)は近年花開いたが、各作業で使用されるユニークなデータ処理と評価設定は、その進歩を完全に理解することを妨げる。 本研究では,HGNNの進捗について,公式コード,データセット,設定,ハイパーパラメータを用いて,最新の12のHGNNを体系的に再現した。 単純な同種GNN(例えばGCNとGAT)は、不適切な設定のため、大半が過小評価されている。 適切な入力を持つGATは、一般的に、様々なシナリオで既存のHGNNにマッチまたは性能を向上することができる。 頑健で再現可能なHGNN研究を容易にするため,11の多様なデータセットと3つのタスクからなるHGB(Heterogeneous Graph Benchmark)を構築した。 HGBは異種グラフデータの分割、特徴処理、性能評価のプロセスを標準化する。 最後に,HGBモデルにおいて,HGNNの進歩を加速するため,HGBモデルにおいて従来のモデルよりも大幅に性能が向上する,シンプルだが非常に強力なベースラインであるSimple-HGNを導入する。

Heterogeneous graph neural networks (HGNNs) have been blossoming in recent years, but the unique data processing and evaluation setups used by each work obstruct a full understanding of their advancements. In this work, we present a systematical reproduction of 12 recent HGNNs by using their official codes, datasets, settings, and hyperparameters, revealing surprising findings about the progress of HGNNs. We find that the simple homogeneous GNNs, e.g., GCN and GAT, are largely underestimated due to improper settings. GAT with proper inputs can generally match or outperform all existing HGNNs across various scenarios. To facilitate robust and reproducible HGNN research, we construct the Heterogeneous Graph Benchmark (HGB), consisting of 11 diverse datasets with three tasks. HGB standardizes the process of heterogeneous graph data splits, feature processing, and performance evaluation. Finally, we introduce a simple but very strong baseline Simple-HGN--which significantly outperforms all previous models on HGB--to accelerate the advancement of HGNNs in the future.
翻訳日:2022-01-03 15:48:41 公開日:2021-12-30
# eコマースにおける一般交通シェーピングプロトコル

A General Traffic Shaping Protocol in E-Commerce ( http://arxiv.org/abs/2112.14941v1 )

ライセンス: Link先を確認
Chenlin Shen, Guangda Huzhang, Yuhang Zhou, Chen Liang, Qing Da(参考訳) 異なるビジネス目標にアプローチするために、オンライントラフィックシェーピングアルゴリズムは、新しい商品の成長を促進するなど、ターゲットのアイテムセットの露出を改善することを目的としている。 一般に、これらのアルゴリズムは、よく訓練された変換率予測モデルを介して、各ユーザ-イムペアのユーティリティにアクセスすることができると仮定する。 しかし、実際のEコマースプラットフォームには、そのような正確なモデルを学ぶのを妨げる必然的な要因があります。 このユーティリティの正確な入力に対する大きな依存を断ち切るために、オンラインEコマースアプリケーションのための一般的なオンライントラフィック形成プロトコルを提案する。 提案手法では,トラヒックシェーピング問題におけるランキング結果に影響を及ぼす唯一の手法であるボーナススコアを,露出数と購入数にマッピングする関数を近似する。 具体的には、探索データ点の凸包上に構築した分割線形関数のクラスにより、上記の関数を近似する。 さらに,オンライントラフィック形成問題を,これらの断片的線形関数を目的と制約の両方に組み込む線形プログラミングとして再構成する。 本アルゴリズムは素数空間における線形計画の最適化を簡便に行うことができ、その解は最適化された目的と期待の制約を満たす確率的戦略によって単純に適用できる。 最後に,オンラインa/bテストでは,提案手法が従来の産業レベルのトラヒックシェーピングアルゴリズムを着実に上回っていることを示す。

To approach different business objectives, online traffic shaping algorithms aim at improving exposures of a target set of items, such as boosting the growth of new commodities. Generally, these algorithms assume that the utility of each user-item pair can be accessed via a well-trained conversion rate prediction model. However, for real E-Commerce platforms, there are unavoidable factors preventing us from learning such an accurate model. In order to break the heavy dependence on accurate inputs of the utility, we propose a general online traffic shaping protocol for online E-Commerce applications. In our framework, we approximate the function mapping the bonus scores, which generally are the only method to influence the ranking result in the traffic shaping problem, to the numbers of exposures and purchases. Concretely, we approximate the above function by a class of the piece-wise linear function constructed on the convex hull of the explored data points. Moreover, we reformulate the online traffic shaping problem as linear programming where these piece-wise linear functions are embedded into both the objective and constraints. Our algorithm can straightforwardly optimize the linear programming in the prime space, and its solution can be simply applied by a stochastic strategy to fulfill the optimized objective and the constraints in expectation. Finally, the online A/B test shows our proposed algorithm steadily outperforms the previous industrial level traffic shaping algorithm.
翻訳日:2022-01-03 15:48:22 公開日:2021-12-30
# 予測のための次元削減:BitcoinとEthereumへの応用

Dimensionality reduction for prediction: Application to Bitcoin and Ethereum ( http://arxiv.org/abs/2112.15036v1 )

ライセンス: Link先を確認
Hugo Inzirillo and Benjamin Mat(参考訳) 本研究の目的は,暗号通貨間のリンクを確立するための次元性低減手法の性能を評価することである。 われわれは、bitcoinとethereumの2つの最も取引された暗号通貨の分析に焦点を当てた。 分析を行うために、ログの戻り値を取得し、データセットを構築するためのコ変数を追加しました。 我々は最初に、BitcoinとEthereumのリンクを予備評価するために、ピアソン相関係数を導入した。 次に、標準相関分析と主成分分析を用いてデータセットの次元を削減した。 統計技術の両方でBitcoinとEthereumのリンクを分析した後、私たちはEthereumのリターンをBitcoinの機能で予測するパフォーマンスを測定しました。

The objective of this paper is to assess the performances of dimensionality reduction techniques to establish a link between cryptocurrencies. We have focused our analysis on the two most traded cryptocurrencies: Bitcoin and Ethereum. To perform our analysis, we took log returns and added some covariates to build our data set. We first introduced the pearson correlation coefficient in order to have a preliminary assessment of the link between Bitcoin and Ethereum. We then reduced the dimension of our data set using canonical correlation analysis and principal component analysis. After performing an analysis of the links between Bitcoin and Ethereum with both statistical techniques, we measured their performance on forecasting Ethereum returns with Bitcoin s features.
翻訳日:2022-01-03 15:48:02 公開日:2021-12-30
# 双線型カップリングによる平滑および凸凸サドルポイント問題の高速化初等二次勾配法

Accelerated Primal-Dual Gradient Method for Smooth and Convex-Concave Saddle-Point Problems with Bilinear Coupling ( http://arxiv.org/abs/2112.15199v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Alexander Gasnikov, Peter Richt\'arik(参考訳) 本稿では,凸凹サドル点問題 $\min_x\max_y f について検討する。 (x) + y^\top\mathbf{A} x - g (y)$, ここで$f (x)$ と $g (y)$ は滑らかかつ凸関数である。 この問題を解くために,高速化されたPrimal-Dual Gradient法を提案する。 (i)低複雑性境界(zhang et al., 2021)に適合する強凸強凸配位における最適線形収束速度を達成する。 (ii)関数の1つが$fの場合、加速された線形収束率を達成する (x)$ と $g (y)$ は強い凸か、あるいはそれらが存在しない。 最後に、一般の滑らかで凸凸なサドル点問題$\min_x\max_y F(x,y)$に対する線形収束アルゴリズムを、強い凸性や強い凹凸性を必要とせずに得る。

In this paper we study a convex-concave saddle-point problem $\min_x\max_y f(x) + y^\top\mathbf{A} x - g(y)$, where $f(x)$ and $g(y)$ are smooth and convex functions. We propose an Accelerated Primal-Dual Gradient Method for solving this problem which (i) achieves an optimal linear convergence rate in the strongly-convex-strongly-concave regime matching the lower complexity bound (Zhang et al., 2021) and (ii) achieves an accelerated linear convergence rate in the case when only one of the functions $f(x)$ and $g(y)$ is strongly convex or even none of them are. Finally, we obtain a linearly-convergent algorithm for the general smooth and convex-concave saddle point problem $\min_x\max_y F(x,y)$ without requirement of strong convexity or strong concavity.
翻訳日:2022-01-03 15:47:52 公開日:2021-12-30
# Persformer: トポロジカル機械学習のためのトランスフォーマーアーキテクチャ

Persformer: A Transformer Architecture for Topological Machine Learning ( http://arxiv.org/abs/2112.15210v1 )

ライセンス: Link先を確認
Raphael Reinauer, Matteo Caorsi, Nicolas Berkouk(参考訳) トポロジカルデータ分析(TDA)の主な課題の1つは、機械学習アルゴリズムで直接使用できる永続的な図から特徴を抽出することである。 実際、パーシステンスダイアグラムは r2 内の点の本質的に(多元)集合であり、直観的にベクトルと見なすことはできない。 本稿では、永続化図を入力として受け入れる最初のTransformerニューラルネットワークアーキテクチャであるPersformerを紹介する。 persformerアーキテクチャは、古典的な合成ベンチマークデータセットの以前のトポロジカルニューラルネットワークアーキテクチャを大幅に上回っている。 さらに、普遍近似定理を満たす。 これにより、トポロジカル機械学習のための最初の解釈可能性手法を2つの例で紹介できる。

One of the main challenges of Topological Data Analysis (TDA) is to extract features from persistent diagrams directly usable by machine learning algorithms. Indeed, persistence diagrams are intrinsically (multi-)sets of points in R2 and cannot be seen in a straightforward manner as vectors. In this article, we introduce Persformer, the first Transformer neural network architecture that accepts persistence diagrams as input. The Persformer architecture significantly outperforms previous topological neural network architectures on classical synthetic benchmark datasets. Moreover, it satisfies a universal approximation theorem. This allows us to introduce the first interpretability method for topological machine learning, which we explore in two examples.
翻訳日:2022-01-03 15:47:07 公開日:2021-12-30
# シェープリー推定によるバックドア防御

Few-shot Backdoor Defense Using Shapley Estimation ( http://arxiv.org/abs/2112.14889v1 )

ライセンス: Link先を確認
Jiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao(参考訳) ディープニューラルネットワークは、自律運転、顔認識、医療診断など、過去10年間にさまざまなタスクで顕著なパフォーマンスを達成した。 しかし、以前の研究では、悪意のある小さな隠れたトリガーをモデルトレーニングに注入し、深刻なセキュリティ脅威を引き起こすバックドア攻撃によって、深いニューラルネットワークが推論段階で特定の攻撃的行動に容易に操作できることが示されている。 引き起こされたニューロンを判断し、バックドア攻撃から保護するために、shapley値を利用して、データ不足の状況(クラス1枚かデータなしか)でモデルからバックドア攻撃を緩和する、shapley pruning (shappruning)と呼ばれる新しいアプローチを開発しました。 神経細胞間の相互作用を考慮すると、ShapPruningは数少ない感染ニューロン(全ニューロンの1%以下)を特定し、できるだけ多くの感染ニューロンを切断した後、モデルの構造と精度を保護する。 シャップランニングを加速するために、我々はさらに、シャップリー推定を加速するための廃棄しきい値と$\epsilon$-greedy戦略を提案し、わずか数分で汚染されたモデルを修復できる。 実験では,既存の手法と比較して,様々な攻撃やタスクに対する手法の有効性と堅牢性を示す。

Deep neural networks have achieved impressive performance in a variety of tasks over the last decade, such as autonomous driving, face recognition, and medical diagnosis. However, prior works show that deep neural networks are easily manipulated into specific, attacker-decided behaviors in the inference stage by backdoor attacks which inject malicious small hidden triggers into model training, raising serious security threats. To determine the triggered neurons and protect against backdoor attacks, we exploit Shapley value and develop a new approach called Shapley Pruning (ShapPruning) that successfully mitigates backdoor attacks from models in a data-insufficient situation (1 image per class or even free of data). Considering the interaction between neurons, ShapPruning identifies the few infected neurons (under 1% of all neurons) and manages to protect the model's structure and accuracy after pruning as many infected neurons as possible. To accelerate ShapPruning, we further propose discarding threshold and $\epsilon$-greedy strategy to accelerate Shapley estimation, making it possible to repair poisoned models with only several minutes. Experiments demonstrate the effectiveness and robustness of our method against various attacks and tasks compared to existing methods.
翻訳日:2022-01-03 15:45:03 公開日:2021-12-30
# 医用画像の変形登録のための解像度向上プラグイン

A Resolution Enhancement Plug-in for Deformable Registration of Medical Images ( http://arxiv.org/abs/2112.15180v1 )

ライセンス: Link先を確認
Kaicong Sun, Sven Simon(参考訳) 画像登録は医療画像の基本的な課題である。 登録時に強度値の再サンプリングが必要であり、より微細でシャープな構造の空間分解能が向上すれば、再サンプリング性能が向上し、登録精度が向上する。 super- resolution(スーパーレゾリューション、sr)は、ハードウェアの限界を超える解像度を実現できる空間レゾリューション拡張を目的としたアルゴリズム技術である。 本研究では,SRを前処理技術とみなし,登録ネットワークに簡単に接続可能なCNNベースの解像度向上モジュール(REM)を提案する。 残差スキームとREMのネットワーク構成を比較検討し,REMのアーキテクチャ設計を効果的に行う。 実際、REMは画像登録に限らず、他の視覚タスクと直接統合して解像度を高めることもできる。 提案するREMは,医療画像上の変形可能な登録を,異なるアップスケーリング因子で定量的に定性的に評価する。 LPBA40脳MRIデータセットの実験では、特に入力画像が劣化した空間分解能に苦しむ場合、REMは登録精度を向上するだけでなく、連続診断に利用できる解像度向上画像を生成する。

Image registration is a fundamental task for medical imaging. Resampling of the intensity values is required during registration and better spatial resolution with finer and sharper structures can improve the resampling performance and hence the registration accuracy. Super-resolution (SR) is an algorithmic technique targeting at spatial resolution enhancement which can achieve an image resolution beyond the hardware limitation. In this work, we consider SR as a preprocessing technique and present a CNN-based resolution enhancement module (REM) which can be easily plugged into the registration network in a cascaded manner. Different residual schemes and network configurations of REM are investigated to obtain an effective architecture design of REM. In fact, REM is not confined to image registration, it can also be straightforwardly integrated into other vision tasks for enhanced resolution. The proposed REM is thoroughly evaluated for deformable registration on medical images quantitatively and qualitatively at different upscaling factors. Experiments on LPBA40 brain MRI dataset demonstrate that REM not only improves the registration accuracy, especially when the input images suffer from degraded spatial resolution, but also generates resolution enhanced images which can be exploited for successive diagnosis.
翻訳日:2022-01-03 15:44:41 公開日:2021-12-30
# クロスモーダル音楽表現学習による音声から記号へのアレンジ

Audio-to-symbolic Arrangement via Cross-modal Music Representation Learning ( http://arxiv.org/abs/2112.15110v1 )

ライセンス: Link先を確認
Ziyu Wang, Dejing Xu, Gus Xia, Ying Shan(参考訳) ポップソングの音声に基づいてピアノ伴奏の楽譜を自動的に導き出せるか? 本論文では,音声とシンボリックなアレンジメントの問題について述べる。 優れたアレンジモデルは、オーディオの内容だけでなく、ピアノの作曲に関する事前知識(音質を「音」にし、音楽性を維持する)も考慮すべきである(この目的のために、我々は、モーダルな表現学習モデルに貢献する。 1)音声からコード及びメロディ情報を抽出し、 2) テクスチャ表現は音声と劣化した地上真実の配置の両方から学習する。 さらに,テクスチャ情報の発信源を劣化したスコアから音声に徐々にシフトさせる,カスタマイズされたトレーニング戦略も導入する。 最終的に、スコアベースのテクスチャ後部は標準正規分布に縮小され、推論には音声のみが必要となる。 実験により,本モデルが主要な音声情報をキャプチャし,生成品質においてベースラインを上回ることを示す。

Could we automatically derive the score of a piano accompaniment based on the audio of a pop song? This is the audio-to-symbolic arrangement problem we tackle in this paper. A good arrangement model should not only consider the audio content but also have prior knowledge of piano composition (so that the generation "sounds like" the audio and meanwhile maintains musicality.) To this end, we contribute a cross-modal representation-learning model, which 1) extracts chord and melodic information from the audio, and 2) learns texture representation from both audio and a corrupted ground truth arrangement. We further introduce a tailored training strategy that gradually shifts the source of texture information from corrupted score to audio. In the end, the score-based texture posterior is reduced to a standard normal distribution, and only audio is needed for inference. Experiments show that our model captures major audio information and outperforms baselines in generation quality.
翻訳日:2022-01-03 15:42:57 公開日:2021-12-30
# トップN一貫性を持つ多クラス損失関数の統一DROビュー

A Unified DRO View of Multi-class Loss Functions with top-N Consistency ( http://arxiv.org/abs/2112.14869v1 )

ライセンス: Link先を確認
Dixian Zhu and Tianbao Yang(参考訳) マルチクラス分類は、多くのクラスラベルの1つによってデータがラベル付けされる機械学習アプリケーションで最も一般的なタスクの1つである。 マルチクラス分類には、クロスエントロピー(CE)損失とクラマーシンガー(CS)損失(SVM損失)の2つを含む多くの損失関数が提案されている。 CS損失は従来の機械学習タスクに広く使用されているが、CE損失は通常、マルチクラスディープラーニングタスクのデフォルト選択である。 CS損失とCE損失の上位$の変種も存在し、より優れた上位$の精度を達成するための分類器の学習を促進するために提案されている。 それにもかかわらず、これらの異なる損失の関係は依然として不明であり、異なるシナリオにおける我々の期待を理解するのを妨げている。 本稿では,CS/CEの損失と,そのスムーズなトップ$kの変動について,与えられたラベル情報が不完全でノイズの多い場合に,CS/CEの損失よりも確実に優れた新しい損失関数群を提案する。 label-distributionally robust (ldr) loss} と呼ばれる新しい滑らかな損失関数の族は、関数によって正規化された各ラベルの分布重みを用いて真のクラスラベル上の不確かさをキャプチャする与えられたラベル情報の不確かさをモデル化するために、distributally robust optimization (dro)フレームワークを活用することで定義される。

Multi-class classification is one of the most common tasks in machine learning applications, where data is labeled by one of many class labels. Many loss functions have been proposed for multi-class classification including two well-known ones, namely the cross-entropy (CE) loss and the crammer-singer (CS) loss (aka. the SVM loss). While CS loss has been used widely for traditional machine learning tasks, CE loss is usually a default choice for multi-class deep learning tasks. There are also top-$k$ variants of CS loss and CE loss that are proposed to promote the learning of a classifier for achieving better top-$k$ accuracy. Nevertheless, it still remains unclear the relationship between these different losses, which hinders our understanding of their expectations in different scenarios. In this paper, we present a unified view of the CS/CE losses and their smoothed top-$k$ variants by proposing a new family of loss functions, which are arguably better than the CS/CE losses when the given label information is incomplete and noisy. The new family of smooth loss functions named {label-distributionally robust (LDR) loss} is defined by leveraging the distributionally robust optimization (DRO) framework to model the uncertainty in the given label information, where the uncertainty over true class labels is captured by using distributional weights for each label regularized by a function.
翻訳日:2022-01-03 15:06:39 公開日:2021-12-30
# 多様な最適化候補を生成する可逆上信頼境界アルゴリズム

Reversible Upper Confidence Bound Algorithm to Generate Diverse Optimized Candidates ( http://arxiv.org/abs/2112.14893v1 )

ライセンス: Link先を確認
Bin Chong, Yingguang Yang, Zi-Le Wang, Hang Xing, and Zhirong Liu(参考訳) 強化学習におけるマルチアームバンディット問題のアルゴリズムの多くは、期待される報酬を最大化することを目的としており、多様なアプリケーション(例えばalphago)に対して最も高い報酬(関数値)を持つ最適化候補を探索するのに有用である。 しかしながら、薬物発見のような典型的な応用例では、高い報酬で多様な候補を探索することを目的としている。 本稿では,そのような目的のために可逆上信頼結合(rucb)アルゴリズムを提案し,本態性障害タンパク質(idp)の仮想スクリーニングへの応用を示す。 rUCBは、高い精度と低性能の損失を達成しつつ、クエリ時間を大幅に短縮し、マルチポイント最適化や他の強化学習ケースに潜在的に応用できる可能性がある。

Most algorithms for the multi-armed bandit problem in reinforcement learning aimed to maximize the expected reward, which are thus useful in searching the optimized candidate with the highest reward (function value) for diverse applications (e.g., AlphaGo). However, in some typical application scenaios such as drug discovery, the aim is to search a diverse set of candidates with high reward. Here we propose a reversible upper confidence bound (rUCB) algorithm for such a purpose, and demonstrate its application in virtual screening upon intrinsically disordered proteins (IDPs). It is shown that rUCB greatly reduces the query times while achieving both high accuracy and low performance loss.The rUCB may have potential application in multipoint optimization and other reinforcement-learning cases.
翻訳日:2022-01-03 15:06:08 公開日:2021-12-30
# モチーフグラフニューラルネットワーク

Motif Graph Neural Network ( http://arxiv.org/abs/2112.14900v1 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Yuan Fang, Min Wu, Zijian Li, Zhifeng Hao(参考訳) グラフはエンティティ間の複雑な相互作用をモデル化することができる。 これらのアプリケーションは、しばしば標準的なグラフ学習タスクにキャストされ、重要なステップは低次元グラフ表現を学ぶことである。 グラフニューラルネットワーク(GNN)は現在、グラフ埋め込みアプローチで最も人気のあるモデルである。 しかし、近傍集約のパラダイムにおける標準GNNは、 \emph{high-order} グラフ構造を \emph{low-order} 構造とは対照的に区別する際の限定的な識別力に悩まされる。 高次構造を捉えるために、研究者はモチーフに頼り、モチーフベースのGNNを開発した。 しかし、既存のモチーフベースのGNNは高次構造に対する識別力の低下に悩まされることが多い。 上記の制約を克服するために,高次構造をよりよく捉えるための新しい枠組みであるモチーフグラフニューラルネットワーク(mgnn)を提案し,提案するモチーフ冗長化演算子とインジェクティブモチーフの組み合わせについて検討した。 まず、MGNNは各モチーフのノード表現のセットを生成する。 次の段階はモチーフ間の冗長性の最小化であり、モチーフを互いに比較し、各モチーフ特有の特徴を蒸留する。 最後に、MGNNは異なるモチーフから複数の表現を組み合わせることでノード表現の更新を行う。 特に、差別力を高めるために、MGNNは、異なるモチーフの表現を結合するためにインジェクティブ関数を利用する。 さらに,提案アーキテクチャは理論解析により,GNNの表現力を高めることを示す。 MGNNはノード分類とグラフ分類の両方において、7つの公開ベンチマークにおいて最先端の手法よりも優れていることを示す。

Graphs can model complicated interactions between entities, which naturally emerge in many important applications. These applications can often be cast into standard graph learning tasks, in which a crucial step is to learn low-dimensional graph representations. Graph neural networks (GNNs) are currently the most popular model in graph embedding approaches. However, standard GNNs in the neighborhood aggregation paradigm suffer from limited discriminative power in distinguishing \emph{high-order} graph structures as opposed to \emph{low-order} structures. To capture high-order structures, researchers have resorted to motifs and developed motif-based GNNs. However, existing motif-based GNNs still often suffer from less discriminative power on high-order structures. To overcome the above limitations, we propose Motif Graph Neural Network (MGNN), a novel framework to better capture high-order structures, hinging on our proposed motif redundancy minimization operator and injective motif combination. First, MGNN produces a set of node representations w.r.t. each motif. The next phase is our proposed redundancy minimization among motifs which compares the motifs with each other and distills the features unique to each motif. Finally, MGNN performs the updating of node representations by combining multiple representations from different motifs. In particular, to enhance the discriminative power, MGNN utilizes an injective function to combine the representations w.r.t. different motifs. We further show that our proposed architecture increases the expressive power of GNNs with a theoretical analysis. We demonstrate that MGNN outperforms state-of-the-art methods on seven public benchmarks on both node classification and graph classification tasks.
翻訳日:2022-01-03 15:05:53 公開日:2021-12-30
# 一般化ポリシー更新を用いた転校行動ベースの構築

Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates ( http://arxiv.org/abs/2112.15025v1 )

ライセンス: Link先を確認
Safa Alver, Doina Precup(参考訳) そこで我々は,良質な方針を学習する問題について検討し,これらを組み合わせることで,新たなデータ無しあるいは少なからぬデータで,未知の強化学習タスクを多種多様に解くことができる。 具体的には,すべての課題に対する報酬を固定された特徴の集合の線形結合として表現可能と仮定した,総合的な政策評価・改善の枠組みを検討する。 理論的には、特定の仮定の下では、独立ポリシーと呼ばれる特定の多様なポリシーにアクセスでき、エージェントが訓練されたものよりも一般的に複雑である全てのダウンストリームタスクにおいて、即座にハイレベルなパフォーマンスを達成できることを示す。 この理論解析に基づいて,この一連のポリシーを反復的に構築する単純なアルゴリズムを提案する。 理論的結果の実証的検証に加えて,最近提案された多種多様なポリシーセット構築手法との比較を行い,他の手法が失敗する一方で,本手法がダウンストリームタスクの即時移行を可能にする行動基盤を構築することができることを示す。 また,独立したポリシセットにアクセスすることで,新しい報酬関数を特徴の線形結合として記述できない下流タスクの学習プロセスをブートストラップできることを示す。 最後に、このポリシーセットは現実的な生涯強化学習環境において有用であることを示す。

We study the problem of learning a good set of policies, so that when combined together, they can solve a wide variety of unseen reinforcement learning tasks with no or very little new data. Specifically, we consider the framework of generalized policy evaluation and improvement, in which the rewards for all tasks of interest are assumed to be expressible as a linear combination of a fixed set of features. We show theoretically that, under certain assumptions, having access to a specific set of diverse policies, which we call a set of independent policies, can allow for instantaneously achieving high-level performance on all possible downstream tasks which are typically more complex than the ones on which the agent was trained. Based on this theoretical analysis, we propose a simple algorithm that iteratively constructs this set of policies. In addition to empirically validating our theoretical results, we compare our approach with recently proposed diverse policy set construction methods and show that, while others fail, our approach is able to build a behavior basis that enables instantaneous transfer to all possible downstream tasks. We also show empirically that having access to a set of independent policies can better bootstrap the learning process on downstream tasks where the new reward function cannot be described as a linear combination of the features. Finally, we demonstrate that this policy set can be useful in a realistic lifelong reinforcement learning setting.
翻訳日:2022-01-03 15:05:29 公開日:2021-12-30
# 知識追跡のためのディープラーニングモデル:レビューと実証評価

Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation ( http://arxiv.org/abs/2112.15072v1 )

ライセンス: Link先を確認
Sami Sarsa, Juho Leinonen, Arto Hellas(参考訳) 本研究では,オープンで広く利用されているデータセットと,プログラミングを学ぶ学生の新しいデータセットを用いて,ディープラーニング知識トレース(dlkt)モデルの体系をレビューし,評価する。 評価されたDLKTモデルを再現性と再現性の評価のために再実装した。 我々は,モデルの主要アーキテクチャとは独立な比較モデルにおける入力層と出力層のバリエーションをテストし,いくつかの研究で暗黙的かつ明示的に使用された最大試行回数オプションをテストした。 評価された知識追跡モデルの品質を反映するために、いくつかのメトリクスが使用される。 評価された知識追跡モデルには、Vanilla-DKT、Long Short-Term Memory Deep Knowledge Tracing (LSTM-DKT)、Dynamic Key-Value Memory Network (DKVMN)、Self-Attentive Knowledge Tracing (SAKT)などがある。 我々は,ロジスティック回帰,ベイズ知識追跡(BKT)および単純な非学習モデルをベースラインとして評価する。 以上の結果から,DLKTモデルは一般の非DLKTモデルよりも優れており,DLKTモデル間の相対的差異は微妙であり,データセット間でもしばしば異なることが示唆された。 また, 平均予測などのナイーブモデルにより, 特に精度の点で, 高度な知識追跡モデルよりも優れた性能が得られることを示した。 さらに, パラメータおよびハイパーパラメータ分析により, 最適モデルハイパーパラメータの選択に使用するメトリックが, モデルの性能に顕著な影響を及ぼし, パラメータ選択がモデルランキングに影響を及ぼすことを示した。 また,入力層と出力層の変動の影響,長い試行シーケンスのフィルタリング,ランダム性やハードウェアなどの非モデル特性についても検討した。 最後に、モデル性能の再現性と関連する問題について論じる。 私たちのモデル実装、評価コード、データは、この作業の一部として公開されています。

In this work, we review and evaluate a body of deep learning knowledge tracing (DLKT) models with openly available and widely-used data sets, and with a novel data set of students learning to program. The evaluated DLKT models have been reimplemented for assessing reproducibility and replicability of previously reported results. We test different input and output layer variations found in the compared models that are independent of the main architectures of the models, and different maximum attempt count options that have been implicitly and explicitly used in some studies. Several metrics are used to reflect on the quality of the evaluated knowledge tracing models. The evaluated knowledge tracing models include Vanilla-DKT, two Long Short-Term Memory Deep Knowledge Tracing (LSTM-DKT) variants, two Dynamic Key-Value Memory Network (DKVMN) variants, and Self-Attentive Knowledge Tracing (SAKT). We evaluate logistic regression, Bayesian Knowledge Tracing (BKT) and simple non-learning models as baselines. Our results suggest that the DLKT models in general outperform non-DLKT models, and the relative differences between the DLKT models are subtle and often vary between datasets. Our results also show that naive models such as mean prediction can yield better performance than more sophisticated knowledge tracing models, especially in terms of accuracy. Further, our metric and hyperparameter analysis shows that the metric used to select the best model hyperparameters has a noticeable effect on the performance of the models, and that metric choice can affect model ranking. We also study the impact of input and output layer variations, filtering out long attempt sequences, and non-model properties such as randomness and hardware. Finally, we discuss model performance replicability and related issues. Our model implementations, evaluation code, and data are published as a part of this work.
翻訳日:2022-01-03 15:05:08 公開日:2021-12-30
# 資源効率のよいディープラーニング:モデル、算術、実装レベル技術に関する調査

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques ( http://arxiv.org/abs/2112.15131v1 )

ライセンス: Link先を確認
JunKyu Lee, Lev Mukhanov, Amir Sabbagh Molahosseini, Umar Minhas, Yang Hua, Jesus Martinez del Rincon, Kiril Dichev, Cheol-Ho Hong, Hans Vandierendonck(参考訳) ディープラーニングは、自動運転車、バーチャルアシスタント、ソーシャルネットワークサービス、ヘルスケアサービス、顔認識など、私たちの日常生活に広く浸透しています。 しかし、ディープニューラルネットワークはトレーニングと推論の間にかなりの計算リソースを要求する。 機械学習コミュニティは主にディープラーニングモデルのアーキテクチャ圧縮のようなモデルレベルの最適化に重点を置いており、システムコミュニティは実装レベルの最適化に重点を置いている。 この間に算術レベルの最適化技術が算術コミュニティで提案されている。 本稿では, モデル, 算術, 実装レベル技術の観点から資源効率の高いディープラーニング技術に関する調査を行い, 資源効率の高いディープラーニング技術の研究ギャップを3つの異なるレベル技術で確認する。 本調査は,資源効率メトリック定義に基づく高レベルから低レベルの手法の影響を明らかにし,資源効率深層学習研究の今後の動向について考察する。

Deep learning is pervasive in our daily life, including self-driving cars, virtual assistants, social network services, healthcare services, face recognition, etc. However, deep neural networks demand substantial compute resources during training and inference. The machine learning community has mainly focused on model-level optimizations such as architectural compression of deep learning models, while the system community has focused on implementation-level optimization. In between, various arithmetic-level optimization techniques have been proposed in the arithmetic community. This article provides a survey on resource-efficient deep learning techniques in terms of model-, arithmetic-, and implementation-level techniques and identifies the research gaps for resource-efficient deep learning techniques across the three different level techniques. Our survey clarifies the influence from higher to lower-level techniques based on our resource-efficiency metric definition and discusses the future trend for resource-efficient deep learning research.
翻訳日:2022-01-03 15:03:31 公開日:2021-12-30
# 制約サンプリング強化学習: 学習の高速化のための専門知識の導入

Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning ( http://arxiv.org/abs/2112.15221v1 )

ライセンス: Link先を確認
Tong Mu, Georgios Theocharous, David Arbour, Emma Brunskill(参考訳) オンライン強化学習(RL)アルゴリズムは、ゆっくりと学習し、初期の性能が劣る可能性があるため、複雑な人間向けアプリケーションに展開することがしばしば困難である。 そこで本研究では,人間の洞察を高速学習に組み込む実用的なアルゴリズムを提案する。 我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。 個々の制約の誤った指定に対して堅牢性を維持するために、複数の潜在的なポリシー制約を必要とします。 基本的RL学習アルゴリズム(UCRL,DQN,Rainbowなど)が与えられた場合,制約と観測性能の関係を生かした消去スキームによる高信頼度を提案し,それらを適応的に切り替える。 dqn型アルゴリズムとucrlを基本アルゴリズムとしてアルゴリズムをインスタンス化し,実際のデータに基づく3つのシミュレータ,レコメンデーション,教育活動シーケンシング,hiv治療シーケンシングを含む4つの環境評価を行った。 すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。

Online reinforcement learning (RL) algorithms are often difficult to deploy in complex human-facing applications as they may learn slowly and have poor early performance. To address this, we introduce a practical algorithm for incorporating human insight to speed learning. Our algorithm, Constraint Sampling Reinforcement Learning (CSRL), incorporates prior domain knowledge as constraints/restrictions on the RL policy. It takes in multiple potential policy constraints to maintain robustness to misspecification of individual constraints while leveraging helpful ones to learn quickly. Given a base RL learning algorithm (ex. UCRL, DQN, Rainbow) we propose an upper confidence with elimination scheme that leverages the relationship between the constraints, and their observed performance, to adaptively switch among them. We instantiate our algorithm with DQN-type algorithms and UCRL as base algorithms, and evaluate our algorithm in four environments, including three simulators based on real data: recommendations, educational activity sequencing, and HIV treatment sequencing. In all cases, CSRL learns a good policy faster than baselines.
翻訳日:2022-01-03 14:48:21 公開日:2021-12-30
# gan性能向上のための補助分岐付き新規発電機

A Novel Generator with Auxiliary Branch for Improving GAN Performance ( http://arxiv.org/abs/2112.14968v1 )

ライセンス: Link先を確認
Seung Park and Yong-Goo Shin(参考訳) 生成逆数ネットワーク(GAN)のジェネレータは、前の層が画像の全体構造を学習し、後者が詳細を洗練する粗大な方法で画像生成を学習する。 粗い情報をよく広めるために、最近の研究は通常、複数の残余ブロックを積み重ねて生成器を構築する。 残差ブロックは高品質な画像を生成することができ、安定して訓練することができるが、しばしばネットワーク内の情報の流れを阻害する。 この問題を軽減するために,本論文では,主枝と補助枝の2つの異なる枝から得られた特徴を組み合わせることで,画像を生成する新しいジェネレータアーキテクチャを提案する。 メインブランチの目標は、複数の残差ブロックを通過して画像を生成することであり、補助ブランチは、前層の粗い情報を後層に伝達することである。 また,主枝と補助枝の特徴をうまく組み合わせるために,これらの枝内の情報の流れを制御するゲート機能融合モジュールを提案する。 提案手法の優位性を証明するため,CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, little-ImageNetなどの各種標準データセットを用いた広範な実験を行った。 さらに,提案手法の一般化能力を示すため,様々なアブレーション研究を行った。 定量的評価により,提案手法はインセプションスコア(IS)とFrechetインセプション距離(FID)の点で印象的なGAN性能を示すことが示された。 例えば、提案手法は、小さなImageNetデータセットのFIDとISスコアをそれぞれ35.13から25.00、20.23から25.57に引き上げる。

The generator in the generative adversarial network (GAN) learns image generation in a coarse-to-fine manner in which earlier layers learn an overall structure of the image and the latter ones refine the details. To propagate the coarse information well, recent works usually build their generators by stacking up multiple residual blocks. Although the residual block can produce the high-quality image as well as be trained stably, it often impedes the information flow in the network. To alleviate this problem, this brief introduces a novel generator architecture that produces the image by combining features obtained through two different branches: the main and auxiliary branches. The goal of the main branch is to produce the image by passing through the multiple residual blocks, whereas the auxiliary branch is to convey the coarse information in the earlier layer to the later one. To combine the features in the main and auxiliary branches successfully, we also propose a gated feature fusion module that controls the information flow in those branches. To prove the superiority of the proposed method, this brief provides extensive experiments using various standard datasets including CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, and tiny- ImageNet. Furthermore, we conducted various ablation studies to demonstrate the generalization ability of the proposed method. Quantitative evaluations prove that the proposed method exhibits impressive GAN performance in terms of Inception score (IS) and Frechet inception distance (FID). For instance, the proposed method boosts the FID and IS scores on the tiny-ImageNet dataset from 35.13 to 25.00 and 20.23 to 25.57, respectively.
翻訳日:2022-01-03 14:48:03 公開日:2021-12-30
# 生成逆ネットワークによる対照的なきめ細かいクラスクラスタリング

Contrastive Fine-grained Class Clustering via Generative Adversarial Networks ( http://arxiv.org/abs/2112.14971v1 )

ライセンス: Link先を確認
Yunji Kim, Jung-Woo Ha(参考訳) 教師なしのきめ細かいクラスクラスタリングは、微妙なオブジェクトの詳細に関する特徴表現の学習が困難であるため、実際は難しい課題である。 コントラスト学習を適用することでInfoGANのカテゴリ推論能力を活用する手法であるC3-GANを紹介する。 我々は,データの埋め込み空間におけるクラスタ境界形成を促す特徴表現の学習と,潜在コードと観測データとの相互情報の最大化を目指す。 我々のアプローチは、クラスタを推定するために使用される判別器を訓練し、相互情報を最大化する画像相対対を正の対とし、残りを負のペアとするコントラスト損失を最適化する。 具体的には、分類分布からサンプリングしたジェネレータの入力を判別器の埋め込み空間にマッピングし、クラスタセントロイドとして機能させる。 このようにして、C3-GANは、各クラスタが明確に分離可能なクラスタリングフレンドリーな埋め込み空間を学習することに成功した。 実験結果から,C3-GANは4つの詳細なベンチマークデータセット上での最先端クラスタリング性能を達成し,モード崩壊現象を緩和した。

Unsupervised fine-grained class clustering is practical yet challenging task due to the difficulty of feature representations learning of subtle object details. We introduce C3-GAN, a method that leverages the categorical inference power of InfoGAN by applying contrastive learning. We aim to learn feature representations that encourage the data to form distinct cluster boundaries in the embedding space, while also maximizing the mutual information between the latent code and its observation. Our approach is to train the discriminator, which is used for inferring clusters, to optimize the contrastive loss, where the image-latent pairs that maximize the mutual information are considered as positive pairs and the rest as negative pairs. Specifically, we map the input of the generator, which has sampled from the categorical distribution, to the embedding space of the discriminator and let them act as a cluster centroid. In this way, C3-GAN achieved to learn a clustering-friendly embedding space where each cluster is distinctively separable. Experimental results show that C3-GAN achieved state-of-the-art clustering performance on four fine-grained benchmark datasets, while also alleviating the mode collapse phenomenon.
翻訳日:2022-01-03 14:47:32 公開日:2021-12-30
# 予測関数正規化による自己教師付き表現の連続学習

Continually Learning Self-Supervised Representations with Projected Functional Regularization ( http://arxiv.org/abs/2112.15022v1 )

ライセンス: Link先を確認
Alex Gomez-Villa, Bartlomiej Twardowski, Lu Yu, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。 しかし、これらの手法は新たな知識を段階的に獲得することができず、実際には、IDデータによる事前学習フェーズとしてのみ使用される。 本研究では,記憶や再生を伴わない継続的学習体制における自己指導手法について検討する。 従来の知識を忘れないように,機能正規化の利用を提案する。 機能的正規化は, 機能蒸留としても知られ, 可塑性が低く, 連続学習性能が著しく制限されることを示す。 そこで本稿では,新たに学習した特徴空間が,新たに学習した特徴空間の情報を保持しつつ,新たな特徴空間の学習を可能にするプロジェクションネットワークを提案する。 これにより,学習者の可塑性を維持しながら忘れることを防止することができる。 自己超越に適用される他の漸進的学習アプローチに対する評価は,本手法が異なるシナリオや複数のデータセットにおいて競合性能を得ることを示す。

Recent self-supervised learning methods are able to learn high-quality image representations and are closing the gap with supervised methods. However, these methods are unable to acquire new knowledge incrementally -- they are, in fact, mostly used only as a pre-training phase with IID data. In this work we investigate self-supervised methods in continual learning regimes without additional memory or replay. To prevent forgetting of previous knowledge, we propose the usage of functional regularization. We will show that naive functional regularization, also known as feature distillation, leads to low plasticity and therefore seriously limits continual learning performance. To address this problem, we propose Projected Functional Regularization where a separate projection network ensures that the newly learned feature space preserves information of the previous feature space, while allowing for the learning of new features. This allows us to prevent forgetting while maintaining the plasticity of the learner. Evaluation against other incremental learning approaches applied to self-supervision demonstrates that our method obtains competitive performance in different scenarios and on multiple datasets.
翻訳日:2022-01-03 14:47:11 公開日:2021-12-30
# 中国語テキスト認識のベンチマーク:データセット,ベースライン,実証的研究

Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study ( http://arxiv.org/abs/2112.15093v1 )

ライセンス: Link先を確認
Jingye Chen, Haiyang Yu, Jianqi Ma, Mengnan Guan, Xixi Xu, Xiaocong Wang, Shaobo Qu, Bin Li, Xiangyang Xue(参考訳) 深層学習の隆盛は、近年のテキスト認識の急速な発展を目撃している。 しかし、既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。 もう一つの広く普及している言語として、あらゆる意味で中国語のテキスト認識には幅広い応用市場がある。 本報告では,中国語テキスト認識に対する注目度を,合理的なデータセット構築基準の欠如,統一的な評価方法,既存のベースラインの結果と定義する。 このギャップを埋めるために、公開コンペティション、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、シーン、Web、ドキュメント、手書きデータセットを含む4つのカテゴリに分割します。 さらに,これらのデータセットに対する一連の代表的テキスト認識手法を統一評価法で評価し,実験結果を提供する。 実験結果を分析することで,中国語のシナリオでは,英文認識のための最先端のベースラインがうまく機能しないことがわかった。 我々は、漢文の特徴が英語のテキストと大きく異なるため、まだ探索中の課題が数多く残っていると考えている。 コードとデータセットはhttps://github.com/FudanVI/benchmarking-chinese-text-recognitionで公開されている。

The flourishing blossom of deep learning has witnessed the rapid development of text recognition in recent years. However, the existing text recognition methods are mainly for English texts, whereas ignoring the pivotal role of Chinese texts. As another widely-spoken language, Chinese text recognition in all ways has extensive application markets. Based on our observations, we attribute the scarce attention on Chinese text recognition to the lack of reasonable dataset construction standards, unified evaluation methods, and results of the existing baselines. To fill this gap, we manually collect Chinese text datasets from publicly available competitions, projects, and papers, then divide them into four categories including scene, web, document, and handwriting datasets. Furthermore, we evaluate a series of representative text recognition methods on these datasets with unified evaluation methods to provide experimental results. By analyzing the experimental results, we surprisingly observe that state-of-the-art baselines for recognizing English texts cannot perform well on Chinese scenarios. We consider that there still remain numerous challenges under exploration due to the characteristics of Chinese texts, which are quite different from English texts. The code and datasets are made publicly available at https://github.com/FudanVI/benchmarking-chinese-text-recognition.
翻訳日:2022-01-03 14:46:54 公開日:2021-12-30
# 視覚トランスフォーマーの確率的層

Stochastic Layers in Vision Transformers ( http://arxiv.org/abs/2112.15111v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Thomas Probst, Luc Van Gool(参考訳) 視覚変換器に完全に確率的な層を導入するが、性能は著しく低下しない。 この追加の確率性は、視覚機能の堅牢性を高め、プライバシーを強化する。 このプロセスでは、トレーニングと推論の両方において、完全確率的パラメータを持つ線形層を使用して、各多層パーセプトロンの特徴活性化を変換する。 このような確率線形演算は、共有多層パーセプトロンを通過するトークンの集合によって形成される位相構造を保存する。 この操作は、認識タスクの学習を、その値の代わりにトークンのトポロジー構造に依存するように促し、その結果、視覚特徴の所望の堅牢性とプライバシを提供する。 本稿では,我々の機能を3つの異なるアプリケーション,すなわち,逆ロバスト性,ネットワークキャリブレーション,機能プライバシに活用する。 私たちの機能はこれらのタスクにエキサイティングな結果をもたらします。 さらに,確率層を有する視覚変換器の動作が良好であることを示す,フェデレーション・トランスファー学習のための実験装置についても紹介する。 私たちのソースコードは公開されます。

We introduce fully stochastic layers in vision transformers, without causing any severe drop in performance. The additional stochasticity boosts the robustness of visual features and strengthens privacy. In this process, linear layers with fully stochastic parameters are used, both during training and inference, to transform the feature activations of each multilayer perceptron. Such stochastic linear operations preserve the topological structure, formed by the set of tokens passing through the shared multilayer perceptron. This operation encourages the learning of the recognition task to rely on the topological structures of the tokens, instead of their values, which in turn offers the desired robustness and privacy of the visual features. In this paper, we use our features for three different applications, namely, adversarial robustness, network calibration, and feature privacy. Our features offer exciting results on those tasks. Furthermore, we showcase an experimental setup for federated and transfer learning, where the vision transformers with stochastic layers are again shown to be well behaved. Our source code will be made publicly available.
翻訳日:2022-01-03 14:45:18 公開日:2021-12-30
# ビジュアルおよびオブジェクトのジオローカライゼーション:総合的な調査

Visual and Object Geo-localization: A Comprehensive Survey ( http://arxiv.org/abs/2112.15202v1 )

ライセンス: Link先を確認
Daniel Wilson, Xiaohan Zhang, Waqas Sultani, Safwan Wshah(参考訳) ジオローカライゼーション(Geo-localization)とは、地球上の「中心」の位置を決定する過程のことであり、一般的にはGPS座標を用いている。 興味のある実体は、画像、画像のシーケンス、ビデオ、衛星画像、さらには画像内で見えるものであってもよい。 スマートフォンやインターネットによって、GPSタグ付きメディアの膨大なデータセットが急速に利用できるようになるとともに、ディープラーニングが機械学習モデルの性能向上に寄与しているため、拡張現実、ロボティクス、自動運転車、道路整備、そして3D再構築など、幅広いアプリケーションに多大な影響を与えている、視覚的および物体的地理的ローカライゼーションの分野が出現している。 本稿では,画像中の画像の取得場所(画像の局所化)と画像内の物体の局所化(オブジェクトの局所化)のいずれかを決定することにより,画像の局所化に関する総合的な調査を行う。 一般的なアルゴリズムの概要、提案されたデータセットの説明、および各フィールドの現在の状態を説明するためのパフォーマンス結果の分析を含む、詳細な研究を行う。

The concept of geo-localization refers to the process of determining where on earth some `entity' is located, typically using Global Positioning System (GPS) coordinates. The entity of interest may be an image, sequence of images, a video, satellite image, or even objects visible within the image. As massive datasets of GPS tagged media have rapidly become available due to smartphones and the internet, and deep learning has risen to enhance the performance capabilities of machine learning models, the fields of visual and object geo-localization have emerged due to its significant impact on a wide range of applications such as augmented reality, robotics, self-driving vehicles, road maintenance, and 3D reconstruction. This paper provides a comprehensive survey of geo-localization involving images, which involves either determining from where an image has been captured (Image geo-localization) or geo-locating objects within an image (Object geo-localization). We will provide an in-depth study, including a summary of popular algorithms, a description of proposed datasets, and an analysis of performance results to illustrate the current state of each field.
翻訳日:2022-01-03 14:45:02 公開日:2021-12-30
# YACLC:多次元アノテーションを用いた中国語学習者コーパス

YACLC: A Chinese Learner Corpus with Multidimensional Annotation ( http://arxiv.org/abs/2112.15043v1 )

ライセンス: Link先を確認
Yingying Wang, Cunliang Kong, Liner Yang, Yijun Wang, Xiaorong Lu, Renfen Hu, Shan He, Zhenghao Liu, Yun Chen, Erhong Yang, Maosong Sun(参考訳) 学習者コーパスはL2学習者が生成する言語データを収集する。 このリソースは、第二言語習得研究、外国語教育、自動文法誤り訂正に大いに関係している。 しかし、外国語学習者(cfl)としての中国語学習者コーパスにはほとんど焦点が当てられていない。 そこで本研究では,大規模多次元アノテート中国語学習コーパスの構築を提案する。 このコーパスを構築するために,まずcfl学習者が生成したトピックリッチテキストを多数取得する。 そして,文の受理性スコアと文法的誤りと流布に基づく訂正を含むアノテーションスキームを設計する。 アノテーションを効果的に実行するクラウドソーシングプラットフォームを構築しています(https://yaclc.wenmind.net)。 コーパスYACLC(Yet Another Chinese Learner Corpus)をCUGEベンチマーク(http://cuge.baai.ac.cn)の一部としてリリースします。 コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。 このコーパスが、中国国際教育と中国の自動文法誤り訂正の研究をさらに強化することを期待している。

Learner corpus collects language data produced by L2 learners, that is second or foreign-language learners. This resource is of great relevance for second language acquisition research, foreign-language teaching, and automatic grammatical error correction. However, there is little focus on learner corpus for Chinese as Foreign Language (CFL) learners. Therefore, we propose to construct a large-scale, multidimensional annotated Chinese learner corpus. To construct the corpus, we first obtain a large number of topic-rich texts generated by CFL learners. Then we design an annotation scheme including a sentence acceptability score as well as grammatical error and fluency-based corrections. We build a crowdsourcing platform to perform the annotation effectively (https://yaclc.wenmind.net). We name the corpus YACLC (Yet Another Chinese Learner Corpus) and release it as part of the CUGE benchmark (http://cuge.baai.ac.cn). By analyzing the original sentences and annotations in the corpus, we found that YACLC has a considerable size and very high annotation quality. We hope this corpus can further enhance the studies on Chinese International Education and Chinese automatic grammatical error correction.
翻訳日:2022-01-03 14:26:35 公開日:2021-12-30
# KIND: 名前付きエンティティ認識のためのイタリアのマルチドメインデータセット

KIND: an Italian Multi-Domain Dataset for Named Entity Recognition ( http://arxiv.org/abs/2112.15099v1 )

ライセンス: Link先を確認
Teresa Paccosi, Alessio Palmero Aprosio(参考訳) 本稿では,名前付きエンティティ認識のためのイタリアのデータセットであるKINDについて述べる。 アノテーションには3つのクラス(人、場所、組織)を含む100万以上のトークンが含まれている。 データセット(約600万トークン)のほとんどは、ニュース、文学、政治談話という3つの異なるドメインの手動の金アノテーションを含んでいる。 テキストとアノテーションはGithubリポジトリから無料でダウンロードできる。

In this paper we present KIND, an Italian dataset for Named-Entity Recognition. It contains more than one million tokens with the annotation covering three classes: persons, locations, and organizations. Most of the dataset (around 600K tokens) contains manual gold annotations in three different domains: news, literature, and political discourses. Texts and annotations are downloadable for free from the Github repository.
翻訳日:2022-01-03 14:26:19 公開日:2021-12-30
# 最適教師付きセマンティックセグメンテーションを用いたディジタルロックタイピングDRTアルゴリズムの定式化

Digital Rock Typing DRT Algorithm Formulation with Optimal Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.15068v1 )

ライセンス: Link先を確認
Omar Alfarisi, Djamel Ouzzane, Mohamed Sassi, Tiejun Zhang(参考訳) 3次元地質モデルにおける各格子ブロックは、そのブロックの物理的および化学的性質を表わす岩型を必要とする。 岩石の種類を分類する性質は、リソロジー、透水性、キャピラリー圧力である。 科学者や技術者は、試料の破砕、流体の流動、飽和などを含むため、これらの特性を従来の実験室で測定し、試料に破壊的手法を埋め込んだり、その性質(湿潤性、透水性、多孔性など)を変更したりした。 近年、マイクロコンピュータトモグラフィー(uCT)と磁気共鳴イメージング(MRI)画像からこれらの特性を定量化するためにDRT(Digital Rock Physics)が出現している。 しかし文学は、完全にデジタルな文脈でロックタイピングを試みなかった。 デジタルロックタイピング (drt) は, (1) デジタルロック特性決定に敬意を表した新規プロセスにおける最新のdrpの進歩の統合, (2) カーボネートにおける最新のロックタイピングアプローチのディジタル化,(3) コンピュータビジョン機能を活用した新しいカーボネートロックタイピングプロセスの導入により,不均質なカーボネートロックテクスチャに関するさらなる洞察を提供する。

Each grid block in a 3D geological model requires a rock type that represents all physical and chemical properties of that block. The properties that classify rock types are lithology, permeability, and capillary pressure. Scientists and engineers determined these properties using conventional laboratory measurements, which embedded destructive methods to the sample or altered some of its properties (i.e., wettability, permeability, and porosity) because the measurements process includes sample crushing, fluid flow, or fluid saturation. Lately, Digital Rock Physics (DRT) has emerged to quantify these properties from micro-Computerized Tomography (uCT) and Magnetic Resonance Imaging (MRI) images. However, the literature did not attempt rock typing in a wholly digital context. We propose performing Digital Rock Typing (DRT) by: (1) integrating the latest DRP advances in a novel process that honors digital rock properties determination, while; (2) digitalizing the latest rock typing approaches in carbonate, and (3) introducing a novel carbonate rock typing process that utilizes computer vision capabilities to provide more insight about the heterogeneous carbonate rock texture.
翻訳日:2022-01-03 14:23:36 公開日:2021-12-30
# 近似拡大ラグランジュ関数によるスティフェル多様体上の分散最適化

Decentralized Optimization Over the Stiefel Manifold by an Approximate Augmented Lagrangian Function ( http://arxiv.org/abs/2112.14949v1 )

ライセンス: Link先を確認
Lei Wang, Xin Liu(参考訳) 本稿では,$d$エージェントの連結ネットワーク上で定義されるStiefel多様体上の分散最適化問題に焦点をあてる。 目標は平均で$d$ローカル関数で、各関数はエージェントによってプライベートに保持され、そのデータをエンコードする。 エージェントは、この問題を解決するために協力して隣人とのみ通信することができる。 既存の方法では、収束を保証するために複数の通信ラウンドが必要であり、通信コストが高い。 それとは対照的に,本論文では,イテレーション毎に1ラウンドの通信のみを実行する,destinyと呼ばれる分散アルゴリズムを提案する。 DESTINYは勾配追跡技術と新しい近似拡張ラグランジアン関数を組み合わせる。 静止点へのグローバル収束は厳密に確立されている。 総合的な数値実験により、DESTINYは様々なテスト問題の解決において最先端のパフォーマンスを提供する強い可能性を実証している。

In this paper, we focus on the decentralized optimization problem over the Stiefel manifold, which is defined on a connected network of $d$ agents. The objective is an average of $d$ local functions, and each function is privately held by an agent and encodes its data. The agents can only communicate with their neighbors in a collaborative effort to solve this problem. In existing methods, multiple rounds of communications are required to guarantee the convergence, giving rise to high communication costs. In contrast, this paper proposes a decentralized algorithm, called DESTINY, which only invokes a single round of communications per iteration. DESTINY combines gradient tracking techniques with a novel approximate augmented Lagrangian function. The global convergence to stationary points is rigorously established. Comprehensive numerical experiments demonstrate that DESTINY has a strong potential to deliver a cutting-edge performance in solving a variety of testing problems.
翻訳日:2022-01-03 14:22:07 公開日:2021-12-30
# 気候変動と都市汚染への取り組み

Aim in Climate Change and City Pollution ( http://arxiv.org/abs/2112.15115v1 )

ライセンス: Link先を確認
Pablo Torres, Beril Sirmacek, Sergio Hoyas, Ricardo Vinuesa(参考訳) 都市環境の持続性はますます問題になっている。 大気汚染は、環境の悪化と、それにさらされた市民の健康に重要な役割を担っている。 本章では, 大気汚染をモデル化するための手法のレビューを行い, 機械学習手法の適用に焦点をあてる。 実際、機械学習手法は従来の大気汚染手法の精度を著しく向上させ、モデルの開発コストを抑えている。 機械学習ツールは、フロー力学モデリングやリモートセンシング手法など、大気汚染を研究する新しいアプローチを開いた。

The sustainability of urban environments is an increasingly relevant problem. Air pollution plays a key role in the degradation of the environment as well as the health of the citizens exposed to it. In this chapter we provide a review of the methods available to model air pollution, focusing on the application of machine-learning methods. In fact, machine-learning methods have proved to importantly increase the accuracy of traditional air-pollution approaches while limiting the development cost of the models. Machine-learning tools have opened new approaches to study air pollution, such as flow-dynamics modelling or remote-sensing methodologies.
翻訳日:2022-01-03 14:12:05 公開日:2021-12-30
# ニューラルネットワークの普遍性のための統一的で構成的なフレームワーク

A Unified and Constructive Framework for the Universality of Neural Networks ( http://arxiv.org/abs/2112.14877v1 )

ライセンス: Link先を確認
Tan Bui-Thanh(参考訳) 多くのニューラルネットワークが複雑なタスクや関数を複製できる理由の1つは、その普遍性である。 過去数十年間、ニューラルネットワークの単一またはクラスに対する構成的証明を提供する試みが数多く行われてきた。 本稿では,既存のアクティベーションのほとんどを含む,大規模なアクティベーションの普遍性のための統一的で建設的なフレームワークを提供することを目的とする。 フレームワークの中心にあるのは、ニューラルネットワークの近似idの概念である。 既存のアクティベーションのほとんどはニューラルネットワークの近似IDであり、コンパクトな函数の連続空間において普遍的であることが判明した。 このフレームワークにはいくつかの利点がある。 まず, 関数解析, 確率論, 数値解析などの基礎的手法を用いて構成する。 第二に、既存のアクティベーションの多くに有効である最初の統一的な試みである。 第3に、このフレームワークは製品として、Mish、SiLU、ELU、GELUなど、既存のアクティベーション機能の最初の大学証明を提供する。 第4に、普遍性を保証する新しいアクティベーションを発見する。 実際、$\k$th 微分が整数である任意のアクティベーション\textemdash は可積分であり、本質的に有界な\textemdash は普遍的である。 第5に、与えられたアクティベーションとエラー耐性のために、このフレームワークは、所定の数のニューロンと重み/バイアスの値を持つ対応する1つの隠れたニューラルネットワークのアーキテクチャを正確に提供する。

One of the reasons that many neural networks are capable of replicating complicated tasks or functions is their universality property. The past few decades have seen many attempts in providing constructive proofs for single or class of neural networks. This paper is an effort to provide a unified and constructive framework for the universality of a large class of activations including most of existing activations and beyond. At the heart of the framework is the concept of neural network approximate identity. It turns out that most of existing activations are neural network approximate identity, and thus universal in the space of continuous of functions on compacta. The framework induces several advantages. First, it is constructive with elementary means from functional analysis, probability theory, and numerical analysis. Second, it is the first unified attempt that is valid for most of existing activations. Third, as a by product, the framework provides the first university proof for some of the existing activation functions including Mish, SiLU, ELU, GELU, and etc. Fourth, it discovers new activations with guaranteed universality property. Indeed, any activation\textemdash whose $\k$th derivative, with $\k$ being an integer, is integrable and essentially bounded\textemdash is universal. Fifth, for a given activation and error tolerance, the framework provides precisely the architecture of the corresponding one-hidden neural network with predetermined number of neuron, and the values of weights/biases.
翻訳日:2022-01-03 14:11:02 公開日:2021-12-30
# 分類表現における情報損失と運用損失の相互作用に関する研究

Studying the Interplay between Information Loss and Operation Loss in Representations for Classification ( http://arxiv.org/abs/2112.15238v1 )

ライセンス: Link先を確認
Jorge F. Silva, Felipe Tobar, Mario Vicu\~na and Felipe Cordova(参考訳) 情報理論は学習と意思決定のための特徴設計において広く採用されている。 このことから着想を得た私たちは,その関係を考察する。 一 シャノン感覚における情報損失の弱い形態 二 連続観測の損失のある連続表現(特徴)の族を考えるとき、誤差の最小確率(mpe)感覚における操作損失 この相互作用に光を当てたいくつかの結果を示す。 第1結果は,原生観測ではなく離散的損失表現(量子化)を採用する場合,各操作損失の関数として,弱形式の情報損失に対して下限を与える。 この結果から,情報損失の特定の形態(漸近的情報不足の弱い概念)は,連続表現の一般的なファミリーを考えると,MPEの消失(あるいは漸近的操作不足)を示唆することが示された。 理論的には,情報満足度を捉えようとする特徴表現の選択は学習に適していると考えられるが,目的がMPEの分類を達成しようとする場合,この選択は比較的保守的な設計原則である。 この最後のポイントを支持し、いくつかの構造的条件の下では、学習における操作的充足を達成するために、情報充足(相互情報感覚における純粋充足よりも厳密に弱い)という代替概念を採用することが可能である。

Information-theoretic measures have been widely adopted in the design of features for learning and decision problems. Inspired by this, we look at the relationship between i) a weak form of information loss in the Shannon sense and ii) the operation loss in the minimum probability of error (MPE) sense when considering a family of lossy continuous representations (features) of a continuous observation. We present several results that shed light on this interplay. Our first result offers a lower bound on a weak form of information loss as a function of its respective operation loss when adopting a discrete lossy representation (quantization) instead of the original raw observation. From this, our main result shows that a specific form of vanishing information loss (a weak notion of asymptotic informational sufficiency) implies a vanishing MPE loss (or asymptotic operational sufficiency) when considering a general family of lossy continuous representations. Our theoretical findings support the observation that the selection of feature representations that attempt to capture informational sufficiency is appropriate for learning, but this selection is a rather conservative design principle if the intended goal is achieving MPE in classification. Supporting this last point, and under some structural conditions, we show that it is possible to adopt an alternative notion of informational sufficiency (strictly weaker than pure sufficiency in the mutual information sense) to achieve operational sufficiency in learning.
翻訳日:2022-01-03 14:10:39 公開日:2021-12-30
# ウサギ繁殖プログラムにおけるCTスキャンによる家畜体部分重量推定法

A general technique for the estimation of farm animal body part weights from CT scans and its applications in a rabbit breeding program ( http://arxiv.org/abs/2112.15095v1 )

ライセンス: Link先を確認
\'Ad\'am Cs\'oka, Gy\"orgy Kov\'acs, Vir\'ag \'Acs, Zsolt Matics, Zsolt Gerencs\'er, Zsolt Szendr\H{o}, Istv\'an Nagy, \"Ors Petneh\'azy, Imre Repa, Mariann Moizs, Tam\'as Donk\'o(参考訳) 家畜画像の様々な応用は、動物のCT画像から、特定の身体部分の重量と切断を推定することに基づいている。 多くの場合、ct画像における姿勢の巨大な変動は、非鎮静動物の走査によって、問題の複雑さが増大する。 本稿では,(おそらく)生物のCT画像から切り身と身体部分の重量を推定するための,汎用的で堅牢なアプローチを提案する。 我々は,弾性登録とジョイント特徴によるマルチアトラスに基づくセグメンテーションと回帰成分のモデル選択を,多数の特徴量と少ないサンプル数でケープに適用する。 提案手法はウサギ育種プログラムにおける実適用を通じて評価され,これまで選択を推進してきた従来の方法や方法よりも12%高いスコアを示した。 提案手法は同様の問題に容易に適応できるため,コミュニティの利益のためにオープンソースソフトウェアパッケージで共有される。

Various applications of farm animal imaging are based on the estimation of weights of certain body parts and cuts from the CT images of animals. In many cases, the complexity of the problem is increased by the enormous variability of postures in CT images due to the scanning of non-sedated, living animals. In this paper, we propose a general and robust approach for the estimation of the weights of cuts and body parts from the CT images of (possibly) living animals. We adapt multi-atlas based segmentation driven by elastic registration and joint feature and model selection for the regression component to cape with the large number of features and low number of samples. The proposed technique is evaluated and illustrated through real applications in rabbit breeding programs, showing r^2 scores 12% higher than previous techniques and methods that used to drive the selection so far. The proposed technique is easily adaptable to similar problems, consequently, it is shared in an open source software package for the benefit of the community.
翻訳日:2022-01-03 13:59:08 公開日:2021-12-30
# 仮想深度を用いた複数の360度画像からの深度推定

Dense Depth Estimation from Multiple 360-degree Images Using Virtual Depth ( http://arxiv.org/abs/2112.14931v1 )

ライセンス: Link先を確認
Seongyeop Yang, Kunhee Kim, Yeejin Lee(参考訳) 本稿では,マルチビュー360度画像のための深度推定パイプラインを提案する。 提案したパイプラインは、360度画像の半径歪みを補償する球面カメラモデルを利用する。 本稿では,球面カメラモデルから多視点への変換スケーリング手法の導入による拡張について述べる。 さらに,仮想深度の設定とフォトニック再投影誤差の最小化により,効率的な深度推定手法を提案する。 提案するパイプラインの性能を,自然シーンの画像と合成データセットを用いて検証し,定量的評価を行った。 実験結果から,提案パイプラインは,現在の高密度深部推定法に比べ,推定精度が向上することを確認した。

In this paper, we propose a dense depth estimation pipeline for multiview 360\degree\: images. The proposed pipeline leverages a spherical camera model that compensates for radial distortion in 360\degree\: images. The key contribution of this paper is the extension of a spherical camera model to multiview by introducing a translation scaling scheme. Moreover, we propose an effective dense depth estimation method by setting virtual depth and minimizing photonic reprojection error. We validate the performance of the proposed pipeline using the images of natural scenes as well as the synthesized dataset for quantitive evaluation. The experimental results verify that the proposed pipeline improves estimation accuracy compared to the current state-of-art dense depth estimation methods.
翻訳日:2022-01-03 13:57:32 公開日:2021-12-30
# 計測とサンプリング:グラフニューラルネットワークのためのメトリック誘導サブグラフ学習フレームワーク

Measuring and Sampling: A Metric-guided Subgraph Learning Framework for Graph Neural Network ( http://arxiv.org/abs/2112.15015v1 )

ライセンス: Link先を確認
Jiyang Bai, Yuxiang Ren, Jiawei Zhang(参考訳) グラフニューラルネットワーク(GNN)は、ノード属性とグラフ構造情報の両方を保存する強力なノード表現の学習において、説得力のある性能を示している。 しかし、より深いネットワーク構造で設計したり、大規模なグラフを扱う場合、多くのGNNは効率と効率の問題がある。 GNNのトレーニングの改善と高速化のために,いくつかのサンプリングアルゴリズムが提案されているが,GNNのパフォーマンス向上の源泉は無視されている。 グラフデータ内の情報の計測は、サンプリングアルゴリズムが冗長な情報やノイズを取り除きながら高価値な情報を保持するのに役立つ。 本稿では,GNNのためのMetric-Guided (MeGuide) サブグラフ学習フレームワークを提案する。 MeGuideでは、サブグラフサンプリングとミニバッチベースのトレーニングのガイドとして、Feature SmoothnessとConnection Failure Distanceという2つの新しいメトリクスを使用している。 特徴の滑らかさは、最も価値のある情報を保持するためにノードの特徴を分析するために設計され、接続障害距離は、サブグラフのサイズを制御する構造情報を測定することができる。 複数のデータセット上で様々なGNNをトレーニングする上で,MeGuideの有効性と有効性を示す。

Graph neural network (GNN) has shown convincing performance in learning powerful node representations that preserve both node attributes and graph structural information. However, many GNNs encounter problems in effectiveness and efficiency when they are designed with a deeper network structure or handle large-sized graphs. Several sampling algorithms have been proposed for improving and accelerating the training of GNNs, yet they ignore understanding the source of GNN performance gain. The measurement of information within graph data can help the sampling algorithms to keep high-value information while removing redundant information and even noise. In this paper, we propose a Metric-Guided (MeGuide) subgraph learning framework for GNNs. MeGuide employs two novel metrics: Feature Smoothness and Connection Failure Distance to guide the subgraph sampling and mini-batch based training. Feature Smoothness is designed for analyzing the feature of nodes in order to retain the most valuable information, while Connection Failure Distance can measure the structural information to control the size of subgraphs. We demonstrate the effectiveness and efficiency of MeGuide in training various GNNs on multiple datasets.
翻訳日:2022-01-03 13:55:04 公開日:2021-12-30
# ChunkFormer: マルチステージChunked Transformerによる時系列学習

ChunkFormer: Learning Long Time Series with Multi-stage Chunked Transformer ( http://arxiv.org/abs/2112.15087v1 )

ライセンス: Link先を確認
Yue Ju, Alka Isac and Yimin Nie(参考訳) 長いシーケンスデータの解析は多くの実世界のアプリケーションで難しいままである。 我々は,既存のトランスフォーマフレームワークを改良し,長時間の時系列処理を行うための新しいアーキテクチャであるchunkformerを提案する。 オリジナルのトランスフォーマーベースのモデルは、コンテキストデータを活用するためにシーケンスに沿ってグローバル情報を検出するための注意機構を採用している。 ロングシーケンシャルデータは、短いデータシーケンスの季節や変動などのローカル情報をトラップする。 さらに、元のトランスフォーマーはトレーニングコース中に注意行列全体を運ぶことでより多くのリソースを消費する。 これらの課題を克服するために、chunkformerは長いシーケンスをより小さなシーケンスチャンクに分割し、注意の計算を行い、各ステージに異なるチャンクサイズを適用する。 このようにして,提案モデルでは,入力列の総長を変更することなく,局所的情報と大域的情報の両方を徐々に学習する。 我々は、この新しいアーキテクチャをさまざまなビジネスドメインで広範囲にテストし、既存のトランスフォーマーベースのモデルよりも、そのようなモデルの利点を証明した。

The analysis of long sequence data remains challenging in many real-world applications. We propose a novel architecture, ChunkFormer, that improves the existing Transformer framework to handle the challenges while dealing with long time series. Original Transformer-based models adopt an attention mechanism to discover global information along a sequence to leverage the contextual data. Long sequential data traps local information such as seasonality and fluctuations in short data sequences. In addition, the original Transformer consumes more resources by carrying the entire attention matrix during the training course. To overcome these challenges, ChunkFormer splits the long sequences into smaller sequence chunks for the attention calculation, progressively applying different chunk sizes in each stage. In this way, the proposed model gradually learns both local and global information without changing the total length of the input sequences. We have extensively tested the effectiveness of this new architecture on different business domains and have proved the advantage of such a model over the existing Transformer-based models.
翻訳日:2022-01-03 13:54:46 公開日:2021-12-30
# グラフニューラルネットワークの非畳み込み学習

Deconfounded Training for Graph Neural Networks ( http://arxiv.org/abs/2112.15089v1 )

ライセンス: Link先を確認
Yongduo Sui, Xiang Wang, Jiancan Wu, Xiangnan He, Tat-Seng Chua(参考訳) 強力な表現の学習は、グラフニューラルネットワーク(gnns)の中心的なテーマである。 表現を豊かにするには、自明なパターンの代わりに入力グラフから臨界情報を洗練する必要がある。 この目的に向けて、グラフの注意とプーリングメソッドが優勢だ。 主に"参加する学習"というパラダイムに従っています。 出席したサブグラフと接地真実ラベルの相互情報を最大化する。 しかし、このトレーニングパラダイムは、自明な部分グラフとラベルの間の散発的な相関を捉えやすい。 このようなスプリアス相関は、分布内(id)テスト評価に有益であるが、分布外(ood)テストデータの一般化が貧弱である。 本研究では,gnnモデリングを因果的視点から再検討する。 因果的な仮定の上では、その自明な情報は、重要な情報とラベルの共起体として機能し、それらの間のバックドアパスを開き、それらを刺激的に関連付ける。 そこで本研究では,重大情報に対する統合効果の軽減とラッチの緩和,表現と一般化能力の向上を目的とした,dtp(deconfounded training)の新たなパラダイムを提案する。 具体的には、注意モジュールを用いて臨界部分グラフと自明部分グラフを切り離す。 そして、各臨界部分グラフを様々な自明な部分グラフと適切に相互作用させ、安定な予測を達成する。 これにより、GNNは、ラベルとの関係が複数のディストリビューションで堅牢である、より信頼性の高いサブグラフをキャプチャできる。 合成および実世界のデータセットに関する広範な実験を行い、その効果を実証する。

Learning powerful representations is one central theme of graph neural networks (GNNs). It requires refining the critical information from the input graph, instead of the trivial patterns, to enrich the representations. Towards this end, graph attention and pooling methods prevail. They mostly follow the paradigm of "learning to attend". It maximizes the mutual information between the attended subgraph and the ground-truth label. However, this training paradigm is prone to capture the spurious correlations between the trivial subgraph and the label. Such spurious correlations are beneficial to in-distribution (ID) test evaluations, but cause poor generalization in the out-of-distribution (OOD) test data. In this work, we revisit the GNN modeling from the causal perspective. On the top of our causal assumption, the trivial information serves as a confounder between the critical information and the label, which opens a backdoor path between them and makes them spuriously correlated. Hence, we present a new paradigm of deconfounded training (DTP) that better mitigates the confounding effect and latches on the critical information, to enhance the representation and generalization ability. Specifically, we adopt the attention modules to disentangle the critical subgraph and trivial subgraph. Then we make each critical subgraph fairly interact with diverse trivial subgraphs to achieve a stable prediction. It allows GNNs to capture a more reliable subgraph whose relation with the label is robust across different distributions. We conduct extensive experiments on synthetic and real-world datasets to demonstrate the effectiveness.
翻訳日:2022-01-03 13:54:29 公開日:2021-12-30
# リカレントジェネレーション・アンド・テストによるエージェントのオンライン学習

Learning Agent State Online with Recurrent Generate-and-Test ( http://arxiv.org/abs/2112.15236v1 )

ライセンス: Link先を確認
Amir Samani, Richard S. Sutton(参考訳) 連続したデータストリームから継続的にオンラインに学習することは、特にシーケンシャルなデータを持つ強化学習エージェントにとって難しい。 環境が環境の状態に関する部分的な情報を与える観察のみを提供する場合、エージェントは経験のデータストリームに基づいてエージェントの状態を学ぶ必要がある。 経験データストリームから直接学んだ状態をエージェント状態と呼ぶ。 リカレントニューラルネットワークはエージェント状態を学習することができるが、トレーニング方法は計算コストが高く、ハイパーパラメータに敏感であり、オンライン学習には適さない。 本研究は,エージェントの状態学習のための生成・テストアプローチに基づく手法を提案する。 生成とテストのアルゴリズムは、特徴を生成し、有用性をテストすることによって、状態特徴を検索する。 このプロセスでは、タスクにおけるエージェントのパフォーマンスに有用な機能を保存し、最も有用な機能は新しく生成された機能に置き換えられる。 オンライン多段階予測問題に対する提案手法の有効性について検討した。 最初の問題はトレース条件付けであり、エージェントが未来への複数のステップを予測するためのキューを記憶する能力に焦点を当てている。 2つ目の問題、トレースパターニングでは、エージェントは観測信号のパターンを学習し、将来の予測のために記憶する必要がある。 提案手法は,エージェント状態をオンラインで効果的に学習し,正確な予測を行うことができることを示す。

Learning continually and online from a continuous stream of data is challenging, especially for a reinforcement learning agent with sequential data. When the environment only provides observations giving partial information about the state of the environment, the agent must learn the agent state based on the data stream of experience. We refer to the state learned directly from the data stream of experience as the agent state. Recurrent neural networks can learn the agent state, but the training methods are computationally expensive and sensitive to the hyper-parameters, making them unideal for online learning. This work introduces methods based on the generate-and-test approach to learn the agent state. A generate-and-test algorithm searches for state features by generating features and testing their usefulness. In this process, features useful for the agent's performance on the task are preserved, and the least useful features get replaced with newly generated features. We study the effectiveness of our methods on two online multi-step prediction problems. The first problem, trace conditioning, focuses on the agent's ability to remember a cue for a prediction multiple steps into the future. In the second problem, trace patterning, the agent needs to learn patterns in the observation signals and remember them for future predictions. We show that our proposed methods can effectively learn the agent state online and produce accurate predictions.
翻訳日:2022-01-03 13:54:08 公開日:2021-12-30
# 高度不均衡多クラス分類のためのSAMME.C2アルゴリズム

The SAMME.C2 algorithm for severely imbalanced multi-class classification ( http://arxiv.org/abs/2112.14868v1 )

ライセンス: Link先を確認
Banghee So and Emiliano A. Valdez(参考訳) 分類予測モデリングは、対象のクラスやカテゴリに対するデータセット内の観測の正確な割り当てを伴う。 不均衡なクラス分布を持つ実世界の分類問題は増加傾向にある。 この場合、マイノリティクラスは、多数派クラスから学ぶべき観察が、多数派クラスよりはるかに少ない。 この空間性にもかかわらず、少数民族は、観測に適する科学学習アルゴリズムが無数の課題を提示しているにもかかわらず、より興味深いクラスと見なされることが多い。 本稿では、SAMME.C2と呼ぶ手法に基づいて、高度不均衡なクラスを扱うための新しいマルチクラス分類アルゴリズムを提案する。 SAMMEアルゴリズム(マルチクラス分類器)とAda.C2アルゴリズム(高クラス不均衡に対処するために設計されたコスト感受性バイナリ分類器)の強化技法の柔軟な力学をブレンドする。 得られたアルゴリズムを提供するだけでなく,提案したSAMME.C2アルゴリズムの科学的および統計的定式化も行う。 種々の分類器の難易度を調べる数値実験により,提案モデルの一貫した優れた性能を示す。

Classification predictive modeling involves the accurate assignment of observations in a dataset to target classes or categories. There is an increasing growth of real-world classification problems with severely imbalanced class distributions. In this case, minority classes have much fewer observations to learn from than those from majority classes. Despite this sparsity, a minority class is often considered the more interesting class yet developing a scientific learning algorithm suitable for the observations presents countless challenges. In this article, we suggest a novel multi-class classification algorithm specialized to handle severely imbalanced classes based on the method we refer to as SAMME.C2. It blends the flexible mechanics of the boosting techniques from SAMME algorithm, a multi-class classifier, and Ada.C2 algorithm, a cost-sensitive binary classifier designed to address highly class imbalances. Not only do we provide the resulting algorithm but we also establish scientific and statistical formulation of our proposed SAMME.C2 algorithm. Through numerical experiments examining various degrees of classifier difficulty, we demonstrate consistent superior performance of our proposed model.
翻訳日:2022-01-03 13:51:41 公開日:2021-12-30
# 新型コロナウイルス(covid-19)パンデミック時代のマスク着用監視のためのマスク検出パイプラインの開発:モジュラーアプローチ

Development of a face mask detection pipeline for mask-wearing monitoring in the era of the COVID-19 pandemic: A modular approach ( http://arxiv.org/abs/2112.15031v1 )

ライセンス: Link先を確認
Benjaphan Sommana, Ukrit Watchareeruetai, Ankush Ganguly, Samuel W.F. Earp, Taya Kitiyakara, Suparee Boonmanunt, Ratchainant Thammasudjarit(参考訳) SARS-Cov-2パンデミックの間、マスク着用はウイルスの拡散や収縮を防ぐための効果的な手段となった。 人口のマスク着用率をモニターする能力は、ウイルスに対する公衆衛生戦略を決定するのに役立つだろう。 しかし, マスク検出のための人工知能技術は, 一般人のマスク着用率を測定するために, 実際に大規模に展開されていない。 本稿では,2つのモジュールからなる2段階顔マスク検出手法を提案する。 1)顔検出とアライメント 2)フェイスマスク分類。 このアプローチにより、顔検出と顔マスク分類モジュールの異なる組み合わせで実験することができた。 具体的には、face mask分類モジュールの軽量なバックボーンを維持しながら、face detectorとして pyramidkey と retinaface を実験した。 さらに、AIZOOデータセットのテストセットのレザベルアノテーションも提供し、顔画像の誤りラベルを修正しました。 AIZOOとMoxa 3Kデータセットの評価結果は、提案したマスク検出パイプラインが最先端の手法を超越したことを示している。 提案されたパイプラインはまた、aizooデータセットのrelabeledテストセット上のマップを元のテストセットよりも高めている。 提案したモデルについて,画像を用いて訓練した結果,CCTV画像を用いたマスク着用率の監視に成功している。

During the SARS-Cov-2 pandemic, mask-wearing became an effective tool to prevent spreading and contracting the virus. The ability to monitor the mask-wearing rate in the population would be useful for determining public health strategies against the virus. However, artificial intelligence technologies for detecting face masks have not been deployed at a large scale in real-life to measure the mask-wearing rate in public. In this paper, we present a two-step face mask detection approach consisting of two separate modules: 1) face detection and alignment and 2) face mask classification. This approach allowed us to experiment with different combinations of face detection and face mask classification modules. More specifically, we experimented with PyramidKey and RetinaFace as face detectors while maintaining a lightweight backbone for the face mask classification module. Moreover, we also provide a relabeled annotation of the test set of the AIZOO dataset, where we rectified the incorrect labels for some face images. The evaluation results on the AIZOO and Moxa 3K datasets showed that the proposed face mask detection pipeline surpassed the state-of-the-art methods. The proposed pipeline also yielded a higher mAP on the relabeled test set of the AIZOO dataset than the original test set. Since we trained the proposed model using in-the-wild face images, we can successfully deploy our model to monitor the mask-wearing rate using public CCTV images.
翻訳日:2022-01-03 13:50:47 公開日:2021-12-30
# (参考訳) ベイズアルゴリズムは未知の連続時間システムの安定化を学ぶ

Bayesian Algorithms Learn to Stabilize Unknown Continuous-Time Systems ( http://arxiv.org/abs/2112.15094v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh(参考訳) 線形力学系は、不確定なダイナミクスを持つ植物の学習に基づく制御のための標準モデルである。 この設定は、植物下層の状態進化を捉える確率微分方程式から成り、真の動力学行列は未知であり、観測された状態軌道のデータから学ぶ必要がある。 重要な問題は、モデルの不確実性による制御動作の安定化と不安定化をできるだけ早く防ぐことである。 この目的のための信頼性の高い安定化手順は、不安定なデータから有効に学習し、有限時間でシステムを安定化させることができない。 本研究では,未知の連続時間確率線形系を安定化するベイズ学習アルゴリズムを提案する。 提案アルゴリズムはフレキシブルで、システムとの相互作用が著しく短い後、効果的な安定化性能を公開する。

Linear dynamical systems are canonical models for learning-based control of plants with uncertain dynamics. The setting consists of a stochastic differential equation that captures the state evolution of the plant understudy, while the true dynamics matrices are unknown and need to be learned from the observed data of state trajectory. An important issue is to ensure that the system is stabilized and destabilizing control actions due to model uncertainties are precluded as soon as possible. A reliable stabilization procedure for this purpose that can effectively learn from unstable data to stabilize the system in a finite time is not currently available. In this work, we propose a novel Bayesian learning algorithm that stabilizes unknown continuous-time stochastic linear systems. The presented algorithm is flexible and exposes effective stabilization performance after a remarkably short time period of interacting with the system.
翻訳日:2022-01-03 13:48:54 公開日:2021-12-30
# BERTの自動混合精度量子化探索

Automatic Mixed-Precision Quantization Search of BERT ( http://arxiv.org/abs/2112.14938v1 )

ライセンス: Link先を確認
Changsheng Zhao and Ting Hua and Yilin Shen and Qian Lou and Hongxia Jin(参考訳) BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。 しかしながら、これらのモデルは通常数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。 知識蒸留、軽量刈り、量子化がモデル圧縮の主要な方向であることが知られている。 しかしながら、知識蒸留によって得られたコンパクトモデルは、比較的小さな圧縮比であってもかなりの精度低下を被る可能性がある。 一方、自然言語処理タスク用に特別に設計された量子化の試みはごくわずかである。 ハイパーパラメータのマニュアル設定が必要であり、細粒度のサブグループ量子化がサポートされないため、圧縮率や大きなエラー率に悩まされる。 本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用自動混合量子化フレームワークを提案する。 具体的には,各サブグループにおけるパラメータのスケールと精度を自動的に割り当てると同時に,冗長なパラメータ群を抽出する。 BERT下流タスクの広範囲な評価により,提案手法はモデルサイズをはるかに小さくすることで,ベースラインよりも優れることがわかった。 また,DistilBERTのような直交法と解法を組み合わせることで,超軽量モデルの実現可能性を示す。

Pre-trained language models such as BERT have shown remarkable effectiveness in various natural language processing tasks. However, these models usually contain millions of parameters, which prevents them from practical deployment on resource-constrained devices. Knowledge distillation, Weight pruning, and Quantization are known to be the main directions in model compression. However, compact models obtained through knowledge distillation may suffer from significant accuracy drop even for a relatively small compression ratio. On the other hand, there are only a few quantization attempts that are specifically designed for natural language processing tasks. They suffer from a small compression ratio or a large error rate since manual setting on hyper-parameters is required and fine-grained subgroup-wise quantization is not supported. In this paper, we proposed an automatic mixed-precision quantization framework designed for BERT that can simultaneously conduct quantization and pruning in a subgroup-wise level. Specifically, our proposed method leverages Differentiable Neural Architecture Search to assign scale and precision for parameters in each sub-group automatically, and at the same time pruning out redundant groups of parameters. Extensive evaluations on BERT downstream tasks reveal that our proposed method outperforms baselines by providing the same performance with much smaller model size. We also show the feasibility of obtaining the extremely light-weight model by combining our solution with orthogonal methods such as DistilBERT.
翻訳日:2022-01-03 13:32:37 公開日:2021-12-30
# (参考訳) Recurring-Convolution Neural Network(R-CNN)を用いた早期バイオマーカーとしてのASD児の感情パターンの探索

Exploring the pattern of Emotion in children with ASD as an early biomarker through Recurring-Convolution Neural Network (R-CNN) ( http://arxiv.org/abs/2112.14983v1 )

ライセンス: CC BY 4.0
Abirami S P, Kousalya G and Karthick R(参考訳) 自閉症スペクトラム障害(ASD)は、様々な職業療法士の間で大きな関心事となっている。 この神経発達障害の最も大きな課題は、発達の初期段階で子どもの様々な症状を分析し探索するという事実にある。 このような早期発見は、子供たちを独立した生活に導くための適切な支援を提供するために、セラピストや臨床医を支えうる。 子どもが知覚する表情や感情は、このような自閉症の早期介入に寄与する可能性がある。 本稿では,基本的な表情を識別し,その感情を時間変化因子で探究する。 rcnn-ferシステムとして知られるrnnによって形成された予測ネットワークを用いて、前面に描画された68個のランドマークポイントを用いて、cnnによって識別された表情を組み込んだ感情分析を行う。 本稿では,R-CNNを用いて,テキストネットワーク解析による感情予測における時間的複雑さの低減による精度の向上と性能の向上を図っている。 この論文は、自閉症児の感情の同定において、自閉症社会に寄与するそのような識別のために構築された単純な機械学習モデルよりも優れた精度を示す。

Autism Spectrum Disorder (ASD) is found to be a major concern among various occupational therapists. The foremost challenge of this neurodevelopmental disorder lies in the fact of analyzing and exploring various symptoms of the children at their early stage of development. Such early identification could prop up the therapists and clinicians to provide proper assistive support to make the children lead an independent life. Facial expressions and emotions perceived by the children could contribute to such early intervention of autism. In this regard, the paper implements in identifying basic facial expression and exploring their emotions upon a time variant factor. The emotions are analyzed by incorporating the facial expression identified through CNN using 68 landmark points plotted on the frontal face with a prediction network formed by RNN known as RCNN-FER system. The paper adopts R-CNN to take the advantage of increased accuracy and performance with decreased time complexity in predicting emotion as a textual network analysis. The papers proves better accuracy in identifying the emotion in autistic children when compared over simple machine learning models built for such identifications contributing to autistic society.
翻訳日:2022-01-03 13:29:32 公開日:2021-12-30
# 3次元運動予測のためのポーズ表現と動き文脈モデルの検討

Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction ( http://arxiv.org/abs/2112.15012v1 )

ライセンス: Link先を確認
Zhenguang Liu, Shuang Wu, Shuyuan Jin, Shouling Ji, Qi Liu, Shijian Lu, and Li Cheng(参考訳) 歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。 これまで観察されてきた1つの側面は、骨格の姿勢の表現方法が予測結果に重大な影響を与えるという事実である。 しかし、異なるポーズ表現スキームを調査する努力は存在しない。 様々なポーズ表現について詳細な研究を行い,その動作予測タスクへの影響に着目した。 さらに,動き予測のための市販のrnnユニットにも,近年のアプローチが採用されている。 これらのアプローチは入力ポーズシーケンスをシーケンシャルに処理し、本質的に長期的な依存関係を捉えるのが困難である。 本稿では,動き予測のためのahmr(attentive hierarchical motion recurrent network)と呼ばれる新しいrnnアーキテクチャを提案する。 さらに、広く用いられているL2損失よりも幾何的に重要な動き予測タスクの測地損失と前方運動学損失について検討する。 興味深いことに,本手法をヒト,魚,マウスを含む多種多様な明瞭な物体に適用した。 実験の結果,本手法は短期予測において最先端の手法よりも優れており,50秒以上の自然動作の維持など,長期予測精度が向上していることがわかった。 私たちのコードは解放されます。

Predicting human motion from historical pose sequence is crucial for a machine to succeed in intelligent interactions with humans. One aspect that has been obviated so far, is the fact that how we represent the skeletal pose has a critical impact on the prediction results. Yet there is no effort that investigates across different pose representation schemes. We conduct an indepth study on various pose representations with a focus on their effects on the motion prediction task. Moreover, recent approaches build upon off-the-shelf RNN units for motion prediction. These approaches process input pose sequence sequentially and inherently have difficulties in capturing long-term dependencies. In this paper, we propose a novel RNN architecture termed AHMR (Attentive Hierarchical Motion Recurrent network) for motion prediction which simultaneously models local motion contexts and a global context. We further explore a geodesic loss and a forward kinematics loss for the motion prediction task, which have more geometric significance than the widely employed L2 loss. Interestingly, we applied our method to a range of articulate objects including human, fish, and mouse. Empirical results show that our approach outperforms the state-of-the-art methods in short-term prediction and achieves much enhanced long-term prediction proficiency, such as retaining natural human-like motions over 50 seconds predictions. Our codes are released.
翻訳日:2022-01-03 13:20:17 公開日:2021-12-30
# マルチストリームジェネレータによる教師なし画像間翻訳タスクのドメイン内監視の活用

Leveraging in-domain supervision for unsupervised image-to-image translation tasks via multi-stream generators ( http://arxiv.org/abs/2112.15091v1 )

ライセンス: Link先を確認
Dvir Yerushalmi, Dov Danon, Amit H. Bermano(参考訳) イメージ・ツー・イメージ翻訳(I2I)タスクのスーパービジョンは難しいが、結果として得られる品質に大きな影響を及ぼす。 本稿では、多くのUnsupervised I2I(UI2I)シナリオにおいて、一方のドメインは他方よりも親しみやすく、意味的セグメンテーションのようなドメイン内の事前知識を提供する。 複雑な場面では、ドメインのセマンティック構造を理解することは、特に監督なしでは困難であるが、I2I操作の成功の重要な部分である。 そこで我々は,新しいマルチストリームジェネレータアーキテクチャとセマンティックセグメンテーションに基づく正規化損失項によって,翻訳品質の恩恵を受けるために,このドメイン内知識を組み込む2つの手法を導入する。 本質的には,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。 さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。 都市データに対する我々のアプローチを検証し、昼の画像を夜のものに変換する難しいUI2Iタスクにおいて優れた品質を示す。 さらに,拡張画像によるターゲットデータセットの強化により,古典的検出タスクなどの下流タスクのトレーニングが向上することを示す。

Supervision for image-to-image translation (I2I) tasks is hard to come by, but bears significant effect on the resulting quality. In this paper, we observe that for many Unsupervised I2I (UI2I) scenarios, one domain is more familiar than the other, and offers in-domain prior knowledge, such as semantic segmentation. We argue that for complex scenes, figuring out the semantic structure of the domain is hard, especially with no supervision, but is an important part of a successful I2I operation. We hence introduce two techniques to incorporate this invaluable in-domain prior knowledge for the benefit of translation quality: through a novel Multi-Stream generator architecture, and through a semantic segmentation-based regularization loss term. In essence, we propose splitting the input data according to semantic masks, explicitly guiding the network to different behavior for the different regions of the image. In addition, we propose training a semantic segmentation network along with the translation task, and to leverage this output as a loss term that improves robustness. We validate our approach on urban data, demonstrating superior quality in the challenging UI2I tasks of converting day images to night ones. In addition, we also demonstrate how reinforcing the target dataset with our augmented images improves the training of downstream tasks such as the classical detection one.
翻訳日:2022-01-03 13:19:57 公開日:2021-12-30
# 特定の剛体物体のポーズ推定

Pose Estimation of Specific Rigid Objects ( http://arxiv.org/abs/2112.15075v1 )

ライセンス: Link先を確認
Tomas Hodan(参考訳) 本稿では,オブジェクトの3次元モデルが利用可能であることを前提として,単一のRGBまたはRGB-D入力画像から剛体の6次元ポーズを推定する問題に対処する。 この問題は、ロボット操作、拡張現実、自動運転など、多くのアプリケーション分野において非常に重要である。 まず,RGB画像から6次元オブジェクトのポーズ推定を行うEPOSを提案する。 キーとなるアイデアは、オブジェクトをコンパクトな表面フラグメントで表現し、ニューラルネットワークによって入力画像の各ピクセルにおける対応するフラグメントの確率分布を予測することである。 各画素はデータ依存のフラグメント数にリンクされ、シンメトリーの体系的なハンドリングが可能となり、6DポーズはRANSACベースのフィッティング法によるリンクから推定される。 EPOSは、いくつかの標準データセット上ですべてのRGBおよびほとんどのRGB-DおよびDメソッドを上回った。 第2に,入力画像上にウィンドウをスライドさせてテンプレートとのマッチングを検索するRGB-D法であるHashMatchを提案する。 評価段階のカスケードを各ウィンドウ位置に適用し、全てのテンプレートに対する徹底的なマッチングを回避する。 第3に,ニューラルネットワークに基づくトレーニング手法のための3次元オブジェクトモデルの写実画像合成手法であるObjectSynthを提案する。 この画像は、ランダムな写真の上にレンダリングされたオブジェクトの一般的な画像と比べて大幅に改善される。 第4に,産業関連オブジェクトの3次元モデルとRGB-D画像を含む6次元オブジェクトポーズ推定のための最初のデータセットであるT-LESSを紹介する。 第5に、フィールドのステータスクオをキャプチャするベンチマークであるBOPを定義します。 BOPは、ICCVおよびECCV会議で組織された国際ワークショップで開催される11のデータセット、評価方法論、オンライン評価システム、公開課題から構成される。

In this thesis, we address the problem of estimating the 6D pose of rigid objects from a single RGB or RGB-D input image, assuming that 3D models of the objects are available. This problem is of great importance to many application fields such as robotic manipulation, augmented reality, and autonomous driving. First, we propose EPOS, a method for 6D object pose estimation from an RGB image. The key idea is to represent an object by compact surface fragments and predict the probability distribution of corresponding fragments at each pixel of the input image by a neural network. Each pixel is linked with a data-dependent number of fragments, which allows systematic handling of symmetries, and the 6D poses are estimated from the links by a RANSAC-based fitting method. EPOS outperformed all RGB and most RGB-D and D methods on several standard datasets. Second, we present HashMatch, an RGB-D method that slides a window over the input image and searches for a match against templates, which are pre-generated by rendering 3D object models in different orientations. The method applies a cascade of evaluation stages to each window location, which avoids exhaustive matching against all templates. Third, we propose ObjectSynth, an approach to synthesize photorealistic images of 3D object models for training methods based on neural networks. The images yield substantial improvements compared to commonly used images of objects rendered on top of random photographs. Fourth, we introduce T-LESS, the first dataset for 6D object pose estimation that includes 3D models and RGB-D images of industry-relevant objects. Fifth, we define BOP, a benchmark that captures the status quo in the field. BOP comprises eleven datasets in a unified format, an evaluation methodology, an online evaluation system, and public challenges held at international workshops organized at the ICCV and ECCV conferences.
翻訳日:2022-01-03 13:19:33 公開日:2021-12-30
# (参考訳) metagraspnet: 物理に基づくメタバース合成による視覚駆動ロボット把持のための大規模ベンチマークデータセット

MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis ( http://arxiv.org/abs/2112.14663v2 )

ライセンス: CC BY 4.0
Yuhao Chen, E. Zhixuan Zeng, Maximilian Gilles, Alexander Wong(参考訳) ロボットシステムを活用したスマートファクトリーへの関心が高まっている。 ロボット工学を駆使したスマートファクトリアプリケーションでは、ロボットアームを使って、さまざまな環境でオブジェクトを自律的に把握する。 ロボットの把握には、オブジェクト検出、セグメンテーション、把握予測、ピックプランニングなど、さまざまなコンピュータビジョンタスクが必要である。 ロボットの把持、特にディープラーニングに機械学習を活用することには大きな進歩があったが、大規模で高品質なrgbdデータセットが必要であり、多様なシナリオと順列をカバーしている。 この巨大で多様なデータ問題に対処するために、私たちはメタバースの概念の近年の台頭に触発され、仮想世界と物理世界の間に大きなギャップを埋めました。 メタバースは、実世界の製造シナリオのデジタルツインを作り、トレーニングモデルのために大量のデータを生成できるさまざまなシナリオを仮想的に作成することを可能にする。 本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットMetaGraspNetを提案する。 提案するデータセットは、10万の画像と25の異なるオブジェクトタイプを含み、異なる把握シナリオでオブジェクトの検出とセグメンテーションモデルのパフォーマンスを評価する5つの困難に分割される。 また,既存の汎用性能指標と比較してロボット把持アプリケーションに適するように,オブジェクト検出とセグメンテーション性能を評価するためのデータセットと並行して,新しいレイアウト重み付け性能指標を提案する。 ベンチマークデータセットはKaggle上でオープンソースとして公開されており、第1フェーズは詳細なオブジェクト検出、セグメンテーション、レイアウトアノテーション、レイアウト重み付けされたパフォーマンスメトリックスクリプトで構成されています。

There has been increasing interest in smart factories powered by robotics systems to tackle repetitive, laborious tasks. One impactful yet challenging task in robotics-powered smart factory applications is robotic grasping: using robotic arms to grasp objects autonomously in different settings. Robotic grasping requires a variety of computer vision tasks such as object detection, segmentation, grasp prediction, pick planning, etc. While significant progress has been made in leveraging of machine learning for robotic grasping, particularly with deep learning, a big challenge remains in the need for large-scale, high-quality RGBD datasets that cover a wide diversity of scenarios and permutations. To tackle this big, diverse data problem, we are inspired by the recent rise in the concept of metaverse, which has greatly closed the gap between virtual worlds and the physical world. Metaverses allow us to create digital twins of real-world manufacturing scenarios and to virtually create different scenarios from which large volumes of data can be generated for training models. In this paper, we present MetaGraspNet: a large-scale benchmark dataset for vision-driven robotic grasping via physics-based metaverse synthesis. The proposed dataset contains 100,000 images and 25 different object types and is split into 5 difficulties to evaluate object detection and segmentation model performance in different grasping scenarios. We also propose a new layout-weighted performance metric alongside the dataset for evaluating object detection and segmentation performance in a manner that is more appropriate for robotic grasp applications compared to existing general-purpose performance metrics. Our benchmark dataset is available open-source on Kaggle, with the first phase consisting of detailed object detection, segmentation, layout annotations, and a layout-weighted performance metric script.
翻訳日:2022-01-03 11:50:08 公開日:2021-12-30
# 時間差学習の制御論的解析

Control Theoretic Analysis of Temporal Difference Learning ( http://arxiv.org/abs/2112.14417v2 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,線形確率反復アルゴリズムと時間差学習(TD)の制御理論解析について検討する。 td-learning(td-learning)は、マルコフ決定過程における与えられたポリシーの価値関数を推定するための線形確率的反復アルゴリズムである。 TD-ラーニングの理論分析で成功した研究はいくつかあるが、研究者が統計効率の保証を発見したのは近年になってからである。 本稿では,線形システム制御コミュニティにおける標準概念を活用した制御理論有限時間解析TD学習を提案する。 そこで本研究では,制御理論における単純な概念と分析ツールを用いたTD学習と強化学習について,さらなる知見を提供する。

The goal of this paper is to investigate a control theoretic analysis of linear stochastic iterative algorithm and temporal difference (TD) learning. TD-learning is a linear stochastic iterative algorithm to estimate the value function of a given policy for a Markov decision process, which is one of the most popular and fundamental reinforcement learning algorithms. While there has been a series of successful works in theoretical analysis of TD-learning, it was not until recently that researchers found some guarantees on its statistical efficiency. In this paper, we propose a control theoretic finite-time analysis TD-learning, which exploits standard notions in linear system control communities. Therefore, the proposed work provides additional insights on TD-learning and reinforcement learning with simple concepts and analysis tools in control theory.
翻訳日:2022-01-03 11:41:19 公開日:2021-12-30