このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211031となっている論文です。

PDF登録状況(公開日: 20211031)

TitleAuthorsAbstract論文公表日・翻訳日
# エプシロンネット、ユニタリ設計およびランダム量子回路

Epsilon-nets, unitary designs and random quantum circuits ( http://arxiv.org/abs/2007.10885v3 )

ライセンス: Link先を確認
Micha{\l} Oszmaniec, Adam Sawicki, Micha{\l} Horodecki(参考訳) エプシロン・ネット(Epsilon-nets)と近似ユニタリ・$-Designs(英語版)は、量子情報や量子コンピューティングにおける多くの応用に関連するユニタリ演算の性質を捉える自然概念である。 前者は、ダイヤモンドノルム内の任意のユニタリチャネルとエプシロン閉であるユニタリチャネルの部分集合を構成する。 後者はユニタリのアンサンブルであり、(ほぼ)ユニタリチャネルのエントリ内の多項式のhaar平均を(およそ)$t$まで回復する。 この2つの概念の間に定量的な関係を確立する。 具体的には、ヒルベルト空間の固定次元$d$に対して、$\delta$-approximate $t$-expanders form $\epsilon$-nets for $t\simeq\frac{d^{5/2}}{\epsilon}$および$\delta=\left(\frac{\epsilon^{3/2}}{d}\right)^{d^2}$を構成するユニタリが証明される。 さらに、$\epsilon$-netsを使って$\delta$-approximate Unitary $t$-designs for $\delta= \epsilon t$を構築できることを示す。 最後に、$\epsilon$-netを得るのに必要なユニタリな$t$-設計の度合が少なくとも$\frac1\epsilon$(固定$d$)で、$d^2$(固定$\epsilon$)よりも遅くならないことを証明します。 これは、 $t$-designs と $\epsilon$-nets を接続する結果のほぼ最適性を示している。 我々はこの発見を量子コンピューティングの文脈に適用する。 まず、並列およびシーケンシャルな局所アーキテクチャにおいて、一組の普遍的な2量子ゲートからなる浅いランダム回路によって近似t-設計が生成されることを示す。 我々のゲート集合は対称である必要はなく(つまり、それらの逆数とともにゲートを含む)、代数的エントリを持つゲートからなる。 また、一般の普遍ゲート集合に対するソロヴェイ・キタエフの定理の非構成版を示す。 我々の主要な技術的貢献は、量子チャネルの空間におけるディラックデルタに対する効率的な多項式近似の新しい構成である。

Epsilon-nets and approximate unitary $t$-designs are natural notions that capture properties of unitary operations relevant for numerous applications in quantum information and quantum computing. The former constitute subsets of unitary channels that are epsilon-close to any unitary channel in the diamond norm. The latter are ensembles of unitaries that (approximately) recover Haar averages of polynomials in entries of unitary channels up to order $t$. In this work we establish quantitative connections between these two notions. Specifically, we prove that, for a fixed dimension $d$ of the Hilbert space, unitaries constituting $\delta$-approximate $t$-expanders form $\epsilon$-nets for $t\simeq\frac{d^{5/2}}{\epsilon}$ and $\delta=\left(\frac{\epsilon^{3/2}}{d}\right)^{d^2}$. We also show that $\epsilon$-nets can be used to construct $\delta$-approximate unitary $t$-designs for $\delta= \epsilon t$. Finally, we prove that the degree of an exact unitary $t$-design necessary to obtain an $\epsilon$-net must grow at least fast as $\frac1\epsilon$ (for fixed $d$) and not slower than $d^2$ (for fixed $\epsilon$). This shows near optimality of our result connecting $t$-designs and $\epsilon$-nets. We apply our findings in the context of quantum computing. First, we show that that approximate t-designs can be generated by shallow random circuits formed from a set of universal two-qudit gates in the parallel and sequential local architectures. Our gate sets need not to be symmetric (i.e. contain gates together with their inverses) or consist of gates with algebraic entries. We also show a non-constructive version of the Solovay-Kitaev theorem for general universal gate sets. Our main technical contribution is a new construction of efficient polynomial approximations to the Dirac delta in the space of quantum channels, which can be of independent interest.
翻訳日:2023-05-08 21:00:03 公開日:2021-10-31
# 量子多体系におけるファジィ測定と粗粒化

Fuzzy measurements and coarse graining in quantum many-body systems ( http://arxiv.org/abs/2011.03145v3 )

ライセンス: Link先を確認
Carlos Pineda, David Davalos, Carlos Viviescas, Antonio Rosado(参考訳) 量子マップの定式化を用いて、実測装置の分解能の限界を考慮に入れた多体系のファジィで粗い量子状態を構築するための枠組みを提供する。 第1のマップは粒子のインデクシングエラーを処理し、第2のマップはシステム構成要素のごく一部しか解決できない検出器の効果を扱う。 これらの写像をスピン-1/2$ XX-チェインに応用し、システムの絡み合い生成と伝播のぼやけた画像を得る。 構成上、両方の写像は単に部分的トレースによって関連付けられており、前者の性質に集中することができる。 ファジィ写像を完全に特徴づけ、その対称性と不変空間を同定する。 本研究では, 多体量子系の情報を読み, 利用する能力に厳しい限界を課すため, 粒子数で2倍の指数関数速度で, トモグラフィ的にアクセス可能な状態の体積が減少することを示した。

Using the quantum map formalism, we provide a framework to construct fuzzy and coarse grained quantum states of many-body systems that account for limitations in the resolution of real measurement devices probing them. The first set of maps handles particle-indexing errors, while the second deals with the effects of detectors that can only resolve a fraction of the system constituents. We apply these maps to a spin-$1/2$ XX-chain obtaining a blurred picture of the entanglement generation and propagation in the system. By construction, both maps are simply related via a partial trace, which allow us to concentrate on the properties of the former. We fully characterize the fuzzy map, identifying its symmetries and invariants spaces. We show that the volume of the tomographically accessible states decreases at a double exponential rate in the number of particles, imposing severe bounds to the ability to read and use information of a many-body quantum system.
翻訳日:2023-04-25 03:22:42 公開日:2021-10-31
# スピンおよびカルタン因子の三元集合上の対称性変換の表現

Representation of symmetry transformations on the sets of tripotents of spin and Cartan factors ( http://arxiv.org/abs/2101.00670v2 )

ライセンス: Link先を確認
Yaakov Friedman, Antonio M. Peralta(参考訳) 量子力学において対称性群の6つの異なる数学的定式化があり、その中には純粋状態の集合 $\mathbf{P}$ -- すなわち複素ヒルベルト空間 $H$ 上の一次元射影の集合 $H$ と正則格子 $\mathbf{L}$ の閉部分空間の集合 $H$ がある。 これら6つの群は、H$ の次元が $\geq 3$ であるとき同型である。 M_2(\mathbb{C})$によって引き起こされる困難にもかかわらず、ランク2の代数はスピン-$\frac12$粒子のスピン状態の記述に使用されるが、そのような状態空間に対するウルホーンのウィグナーの定理の反例がある。 ここでは、スピンの説明が相対論的であるためには、その自然な部分順序と直交性を備えた射影格子を維持するだけでは十分ではなく、それらの間のすべての三元と直交性の部分順序集合(射影の格子を厳密に拡大する集合)を保持する必要がある。 具体的には、$M$ と $N$ をランク1のカルタン因子を含まない2つの原子 JBW$^*$-トリップとし、$\mathcal{U} (M)$ と $\mathcal{U} (N)$ をそれぞれ$M$ と$N$ のすべての三元の集合を表す。 各単射 $\phi: \mathcal{u} (m)\to \mathcal{u} (n)$, 両方向の部分順序を維持し、一方の方向の直交性を保持し、いくつかの穏やかな連続性仮説を満たすことは実線型三重自己同型に拡張できる。 これは特に、Morn{\'a}rの結果を、ランク1のカルタン因子を含まない原子JBW$^*$-トリップのより広い設定にまで拡張し、量子挙動を示す新しいモデルを提供する。

There are six different mathematical formulations of the symmetry group in quantum mechanics, among them the set of pure states $\mathbf{P}$ -- i.e., the set of one-dimensional projections on a complex Hilbert space $H$ -- and the orthomodular lattice $\mathbf{L}$ of closed subspaces of $H$. These six groups are isomorphic when the dimension of $H$ is $\geq 3$. Despite of the difficulties caused by $M_2(\mathbb{C})$, rank two algebras are used for quantum mechanics description of the spin state of spin-$\frac12$ particles, there is a counterexample for Uhlhorn's version of Wigner's theorem for such state space. In this note we prove that in order that the description of the spin will be relativistic, it is not enough to preserve the projection lattice equipped with its natural partial order and orthogonality, but we also need to preserve the partial order set of all tripotents and orthogonality among them (a set which strictly enlarges the lattice of projections). Concretely, let $M$ and $N$ be two atomic JBW$^*$-triples not containing rank-one Cartan factors, and let $\mathcal{U} (M)$ and $\mathcal{U} (N)$ denote the set of all tripotents in $M$ and $N$, respectively. We show that each bijection $\Phi: \mathcal{U} (M)\to \mathcal{U} (N)$, preserving the partial ordering in both directions, orthogonality in one direction and satisfying some mild continuity hypothesis can be extended to a real linear triple automorphism. This, in particular, extends a result of Moln{\'a}r to the wider setting of atomic JBW$^*$-triples not containing rank-one Cartan factors, and provides new models to present quantum behavior.
翻訳日:2023-04-18 00:09:45 公開日:2021-10-31
# Forrelationのための古典的アルゴリズム

Classical algorithms for Forrelation ( http://arxiv.org/abs/2102.06963v2 )

ライセンス: Link先を確認
Sergey Bravyi, David Gosset, Daniel Grier, and Luke Schaeffer(参考訳) 1対の$n$-bit Boolean 関数 $f$ と $g$ が与えられたとき、$f$ と $g$ のフーリエ変換の間の相関を推定する。 この問題は、クエリの複雑さの観点から最大の量子スピードアップを提供し、複雑性クラス BQP とポリノミアル階層の間のランドマークなオラクル分離を実現することが知られている。 最初の結果は、実行時$o(n2^{n/2})$を持つforrelation問題の古典的なアルゴリズムです。 これは、最もよく知られたアルゴリズムに対するほぼ二乗的な改善である。 次に、n$bit oracleに$t$クエリを作る量子クエリアルゴリズムは、$o(2^{n(1-1/2t)})$クエリしか生成しない古典的なクエリアルゴリズムによってシミュレートできることを示す。 これは、先述の証明で最近発見された臨界誤差から生じる文献のギャップを解消し、最近確立された下界($poly(n,t))$ factor)と一致し、量子アルゴリズムと古典アルゴリズムの間のクエリ複雑性の最大分離を特徴付ける。 最後に、n$バイナリ変数が固定グラフの頂点に存在し、関数$f,g$が最寄り-neighbor変数間の相互作用を記述する用語の積であるグラフベースのforrelation問題を導入する。 グラフに基づく回帰問題は、任意の二部グラフ、任意の平面グラフ、あるいはより一般的には、定数木幅の2つの部分グラフに分割できるグラフに対して、古典的なコンピュータ上で時間$O(n)$で解けることを示す。 グラフに基づくforrelationは、2つの絡み合う層とイジング型コスト関数を持つ量子近似最適化アルゴリズム(qaoa)によって達成された変動エネルギーと単純に関係している。 qaoaとグラフベースの相関の関係を利用することで、最近提案された再帰的なqaoaを、2つの絡み合う層とラップトップコンピュータ上の225ドルのキュービットでシミュレートすることができた。

We study the forrelation problem: given a pair of $n$-bit Boolean functions $f$ and $g$, estimate the correlation between $f$ and the Fourier transform of $g$. This problem is known to provide the largest possible quantum speedup in terms of its query complexity and achieves the landmark oracle separation between the complexity class BQP and the Polynomial Hierarchy. Our first result is a classical algorithm for the forrelation problem which has runtime $O(n2^{n/2})$. This is a nearly quadratic improvement over the best previously known algorithm. Secondly, we show that quantum query algorithm that makes $t$ queries to an $n$-bit oracle can be simulated by classical query algorithm making only $O(2^{n(1-1/2t)})$ queries. This fixes a gap in the literature arising from a recently discovered critical error in a previous proof; it matches recently established lower bounds (up to $poly(n,t))$ factors) and thus characterizes the maximal separation in query complexity between quantum and classical algorithms. Finally, we introduce a graph-based forrelation problem where $n$ binary variables live at vertices of some fixed graph and the functions $f,g$ are products of terms describing interactions between nearest-neighbor variables. We show that the graph-based forrelation problem can be solved on a classical computer in time $O(n)$ for any bipartite graph, any planar graph, or, more generally, any graph which can be partitioned into two subgraphs of constant treewidth. The graph-based forrelation is simply related to the variational energy achieved by the Quantum Approximate Optimization Algorithm (QAOA) with two entangling layers and Ising-type cost functions. By exploiting the connection between QAOA and the graph-based forrelation we were able to simulate the recently proposed Recursive QAOA with two entangling layers and $225$ qubits on a laptop computer.
翻訳日:2023-04-11 06:08:08 公開日:2021-10-31
# トロイダルボースガス中のスーパーフロー崩壊:量子および熱ゆらぎの影響

Superflow decay in a toroidal Bose gas: The effect of quantum and thermal fluctuations ( http://arxiv.org/abs/2105.03154v4 )

ライセンス: Link先を確認
Zain Mehdi, Ashton S. Bradley, Joseph J. Hope, Stuart S. Szigeti(参考訳) 摂動障壁によるトロイダル超低温原子超流体中の持続電流の確率的減衰を理論的に検討した。 具体的には,超低温ボースガス中の超流動崩壊の時間スケールにおいて強い温度依存性を観測した[A 95 021602 (2017)]におけるKumarらの実験をモデル化するために,詳細な3次元シミュレーションを行った。 ab initio数値計算手法では,超流動層と熱雲の相互作用による熱揺らぎや,ボース気体の固有量子揺らぎを含む古典場の枠組みを活用している。 低温状態でのシミュレーションでは, 実験崩壊の時間スケールを定量的に記述し, 過去の数値的および解析的アプローチを改善した。 高温では、我々のシミュレーションは、実験で観測された等級以上の減衰時間スケールを与えるが、我々が探索するメカニズムでは捉えられないいくつかの量的相違がある。 以上の結果から,超流動安定性に関する実験的および理論的研究の必要性が示唆された。

We theoretically investigate the stochastic decay of persistent currents in a toroidal ultracold atomic superfluid caused by a perturbing barrier. Specifically, we perform detailed three-dimensional simulations to model the experiment of Kumar et al. in [Phys. Rev. A 95 021602 (2017)], which observed a strong temperature dependence in the timescale of superflow decay in an ultracold Bose gas. Our ab initio numerical approach exploits a classical-field framework that includes thermal fluctuations due to interactions between the superfluid and a thermal cloud, as well as the intrinsic quantum fluctuations of the Bose gas. In the low-temperature regime our simulations provide a quantitative description of the experimental decay timescales, improving on previous numerical and analytical approaches. At higher temperatures, our simulations give decay timescales that range over the same orders of magnitude observed in the experiment, however, there are some quantitative discrepancies that are not captured by any of the mechanisms we explore. Our results suggest a need for further experimental and theoretical studies into superflow stability.
翻訳日:2023-04-01 05:44:06 公開日:2021-10-31
# 隠れた非マクロ現実主義:確率的操作によるレゲット=ガルグの不平等の復活

Hidden nonmacrorealism: reviving the Leggett-Garg inequality with stochastic operations ( http://arxiv.org/abs/2105.08273v3 )

ライセンス: Link先を確認
Huan-Yu Ku, Hao-Cheng Weng, Yen-An Shih, Po-Chen Kuo, Neill Lambert, Franco Nori, Chih-Sung Chuu, Yueh-Nan Chen(参考訳) Leggett-Garg不等式(LGI)は、基礎となるシステムの実験結果を制限することによって、非マクロ的チャネルとマクロ的チャネルを区別する。 本研究では,最初はLGI(時相ベルの不等式)に違反することができないが,確率的前・後操作(SPPO)の適用後に違反することのできるチャネルのクラスを提案する。 原理実証実験として,フォトニックキュービットを有する振幅減衰チャネルにおける確率的前・後操作を実証する。 上記の現象を非マクロ的チャネルと表現する。 また,この非マクロ的チャネル(時間的クレーター・ホルン・シモニー・ホルト不等式(CHSH))と強い非局所性破壊チャネルとの関係についても論じる。 一般に、チャネルが隠れた非マクロリアリズムを満たす場合、それは強いCHSH非局所性破壊チャネルではない。

The Leggett-Garg inequality (LGI) distinguishes nonmacrorealistic channels from macrorealistic ones by constraining the experimental outcomes of the underlying system. In this work, we propose a class of channels which, initially, cannot violate the LGI (in the form of the temporal Bell inequality) but can violate it after the application of stochastic pre- and post- operations (SPPOs). As a proof-of-principle experiment, we demonstrate the stochastic pre- and post- operations in an amplitude-damping channel with photonic qubits. We denote the above phenomenon as hidden nonmacrorealistic channels. We also discuss the relationship between this hidden nonmacrorealistic channels (in terms of the temporal Clauser-Horne-Shimony-Holt (CHSH) inequality) and the strongly nonlocality-breaking channel, which breaks the hidden spatial CHSH nonlocality for arbitrary states. In general, if the channel satisfies hidden nonmacrorealism, it is not a strongly CHSH nonlocality-breaking channel.
翻訳日:2023-03-30 20:17:56 公開日:2021-10-31
# 1次元の強い閉じ込められた空間不均一量子ウォーク

Strongly trapped space-inhomogeneous quantum walks in one dimension ( http://arxiv.org/abs/2105.10962v2 )

ライセンス: Link先を確認
Chusei Kiumi, Kei Saito(参考訳) 局在化(英: localization)は、空間不均一な量子ウォークの1次元における特性現象である。 時間発展作用素の固有値の存在は局所化の発生に必要十分条件であり、それらの固有ベクトルは局所化量、すなわち、ウォーカーが長時間の限界で開始位置の周りに留まる確率と深く関係している。 筆者らによる以前の研究では, 1つの欠陥を持つ2相量子ウォークの固有値について, 局在(量子inf)の発生に着目した伝達行列を用いて検討した。 プロセス20(5), 2021)。 本稿では, 伝達行列を用いて固有ベクトルを計算する解析法と, 1つの欠陥を持つ2相量子ウォークだけでなく, より一般的な空間不均質モデルに対しても固有値のキャラクタリゼーションを行う手法を提案する。 以上の結果から, 前研究した5モデルの時間平均限界分布を導出することにより, 局在を定量的に評価し, 強いトラップ特性について検討した。

Localization is a characteristic phenomenon of space-inhomogeneous quantum walks in one dimension, where particles remain localized around their initial position. The existence of eigenvalues of time evolution operators is a necessary and sufficient condition for the occurrence of localization, and their associated eigenvectors are deeply related to the amount of localization, i.e., the probability that the walker stays around the starting position in the long-time limit. In a previous study by authors, the eigenvalues of two-phase quantum walks with one defect were studied using a transfer matrix, which focused on the occurrence of localization (Quantum Inf. Process 20(5), 2021). In this paper, we introduce the analytical method to calculate eigenvectors using the transfer matrix and also extend our results to characterize eigenvalues not only for two-phase quantum walks with one defect but also for a more general space-inhomogeneous model. With these results, we quantitatively evaluate localization and study the strong trapping property by deriving the time-averaged limit distributions of five models studied previously.
翻訳日:2023-03-30 01:20:59 公開日:2021-10-31
# 測定デバイス非依存非線形絡み合い目撃者

Measurement-device-independent nonlinear entanglement witnesses ( http://arxiv.org/abs/2106.05796v2 )

ライセンス: Link先を確認
Kornikar Sen, Chirag Srivastava, Ujjwal Sen(参考訳) 絡み合いの目撃者は絡み合いを検出する最も効果的な方法の1つである。 非線形の絡み合い証人は、線形な証人よりも絡み合い検出が良く、前者が後者よりも厳密により大きい絡み合い状態の部分集合を検出することが知られている。 線形であれ非線形であれ、この方法は測定装置に依存しており、不完全な測定が共有状態における絡み合いの誤認証を引き起こす可能性がある。 測定装置非依存の絡み合い目撃者は、線形絡み合い目撃者に対する絡み合い検出のそのような測定依存性から脱出する。 本稿では,非正の部分的転置状態および正の部分的転置状態に対する測定装置非独立な非線形絡み合い証人について述べる。 構築された測定装置非依存非線形絡み合い証人は、デバイス依存親と同じ絡み合い状態の組の絡み合いを認定するので、線形絡み合い証人、デバイス非依存、その他よりも優れている。

Entanglement witnesses are one of the most effective methods to detect entanglement. It is known that nonlinear entanglement witnesses provide better entanglement detection than their linear counterparts, in that the former detect a strictly larger subset of entangled states than the latter. Whether linear or nonlinear, the method is measurement-device dependent, so that imperfect measurements may cause false certification of entanglement in a shared state. Measurement-device-independent entanglement witnesses provide an escape from such measurement dependence of the entanglement detection for linear entanglement witnesses. Here we present measurement-device-independent nonlinear entanglement witnesses for non-positive partial transpose entangled states as well as for bound entangled states with positive partial transpose. The constructed measurement-device-independent nonlinear entanglement witnesses certify the entanglement of the same sets of entangled states as their device-dependent parents do, and therefore are better than the linear entanglement witnesses, device-independent or otherwise.
翻訳日:2023-03-27 02:01:35 公開日:2021-10-31
# 非線形半金属超伝導体におけるフラジオールトポロジー

Fragile topology in nodal-line semimetal superconductors ( http://arxiv.org/abs/2106.06928v2 )

ライセンス: Link先を確認
Xiaoming Wang, Tao Zhou(参考訳) スピン軌道結合を伴わない逆対称性により保護された超伝導半金属(sc-nlsm)のバンドトポロジーについて検討した。 スピン軌道結合がなければ、$s$-wave SC-NLSMとchiral $p$-wave SC-NLSMは位相的に非自明であり、非ゼロ巻数で記述できる。 ウィルソンループ法に基づいて、これらが脆弱なトポロジカル超伝導体であること、すなわち、それらの非自明なバンドトポロジは、追加のトポロジ的に自明なバンドへの結合によって移動可能であることを検証する。 脆弱な位相位相はスピン軌道結合項が加わったとき、時間反転対称性を持つスピンフル系で持続する。 スピンフル系では、$p$-wave SC-NLSMと$s$-wave SC-NLSMの両方が2次脆弱なトポロジカル超伝導体である。 sc-nlsm系における脆弱なトポロジーは、マヨラナ零モードの縮退と超伝導ギャップ関数のパリティに大きく依存する。 興味深いことに、渦線が存在する場合、スピンフルな$s$-wave sc-nlsmシステムは渦コアに2対の安定なマヨラナゼロモードを持つ。

We study the band topology of the superconducting nodal-line semimetal (SC-NLSM) protected by the inversion symmetry with and without the spin-orbital coupling. Without the spin-orbital coupling, both the $s$-wave SC-NLSM and the chiral $p$-wave SC-NLSM are topologically nontrivial and can be described by the nonzero winding number. Based on the Wilson loop method, we verify that they are both the fragile topological superconductors, namely, their nontrivial band topologies can be moved off by coupling to additional topologically trivial bands. The fragile topological phase persists in spinful system with the time-reversal symmetry when a spin-orbital coupling term is added. For the spinful system, both the $p$-wave SC-NLSM and the $s$-wave SC-NLSM are second-order fragile topological superconductors. We propose that the fragile topology in the SC-NLSM system depends strongly on the degeneracy of the Majorana zero modes and the parity of the superconducting gap function. Interestingly, in presence of a vortex line, the spinful $s$-wave SC-NLSM system hosts two pairs of stable Majorana zero modes in the vortex core.
翻訳日:2023-03-26 19:52:01 公開日:2021-10-31
# 動的アンサッツを用いた変分量子線形解法

Variational Quantum Linear Solver with Dynamic Ansatz ( http://arxiv.org/abs/2107.08606v3 )

ライセンス: Link先を確認
Hrushikesh Patil, Yulun Wang and Predrag Krstic(参考訳) 変分量子アルゴリズムは、量子コンピュータにおけるノイズの問題を緩和するハイブリッド量子古典的アプローチにより、NISQ時代に成功している。 本研究では,線形代数方程式系に対する変分量子線形解法における動的アンサッツについて述べる。 この改良アルゴリズムでは, ハードウェア効率のよいアンザッツ回路の層数が発展し, 解の収束に達するまで徐々に増大する。 提案アルゴリズムは, 量子資源が少なく, 平均的な量子深度も小さく, 量子ノイズの有無, および, システム行列の量子ビット数や条件数が増加する場合において, 標準的な静的アンサッツと比較して, アルゴリズムの優位性を示す。 イテレーションとレイヤの数をスイッチングパラメータによって変更することができる。 量子資源を用いたアルゴリズムの性能は、新たに定義された計量によって定量化される。

Variational quantum algorithms have found success in the NISQ era owing to their hybrid quantum-classical approach which mitigate the problems of noise in quantum computers. In our study we introduce the dynamic ansatz in the Variational Quantum Linear Solver for a system of linear algebraic equations. In this improved algorithm, the number of layers in the hardware efficient ansatz circuit is evolved, starting from a small and gradually increasing until convergence of the solution is reached. We demonstrate the algorithm advantage in comparison to the standard, static ansatz by utilizing fewer quantum resources and with a smaller quantum depth on average, in presence and absence of quantum noise, and in cases when the number of qubits or condition number of the system matrix are increased. The numbers of iterations and layers can be altered by a switching parameter. The performance of the algorithm in using quantum resources is quantified by a newly defined metric.
翻訳日:2023-03-21 21:26:19 公開日:2021-10-31
# 光学平行宇宙の「オーディンガーの猫状態」

Schr\"odinger's cat state of optical parallel universes ( http://arxiv.org/abs/2110.12438v2 )

ライセンス: Link先を確認
Yu-Qing Cui, Tian-Ming Zhao, Rong-Xin Miao, Jin-Dong Wang, Huanyang Chen(参考訳) 並列世界は量子力学と宇宙論における想像上の考えである。 平行世界の重ね合わせは量子重力の新しい状態であり、一般に古典対応を持たない。 この手紙では、実験室で実現可能であり、現実の世界における平行宇宙の検出に光を当てることのできる、シュリンガーの猫状態の重ね合わせや、あるいはシュリンガーの猫状態について検討する。 我々は、マッハ・ツェンダー干渉計による謎の「並列宇宙」を探索できる、2つの実現可能な実験スキームを提案する。 1つ目は重ね合わせ状態の原子アンサンブルに基づくもので、これはファット・シュウディンガーの猫状態である。 2つめは、異なる経路の重ね合わせで光子を準備することであり、それぞれの経路は光平行な宇宙にある。

Parallel worlds are imaginative ideas in quantum mechanics and cosmology. The superpositions of parallel worlds are novel states of quantum gravity and have no classical correspondences generally. In this letter, we investigate the superposition or the Schr\"odinger's cat state of optical parallel worlds, which could be realized in laboratory and may shed some light on the detection of parallel universes in a real world. We propose two realizable experimental schemes, which enable to explore the mysterious `parallel universes' by a Mach-Zehnder interferometer. The first one is based on an atomic ensemble in a superposition state, which is a fat Schr\"odinger's cat state. The second one is to prepare a photon in a superposition of different paths, where each path lies in an optical parallel universe.
翻訳日:2023-03-10 11:41:10 公開日:2021-10-31
# 弱測定を用いた量子状態工学

Quantum state engineering using weak measurement ( http://arxiv.org/abs/2110.13724v2 )

ライセンス: Link先を確認
Qiang Hu, Taximaiti Yusufu and Yusuf Turek(参考訳) 3波混合プロセスにおける後続弱測定による状態調製について検討した。 真空状態、コヒーレント状態、またはスクイズド真空状態の信号入力モードを別々に仮定し、弱いコヒーレント状態で作製されたアイドラー入力と、第2次非線形感受性を特徴とする媒体を通過させる。 アイドラービームの経路の出力チャネルの1つで単一光子が検出されると、信号出力チャネルは、入力信号状態と関連する制御可能なパラメータによって、単光子フォック状態、単光子付加コヒーレント状態、または単光子付加スクイズド真空状態において、非常に高い忠実度で作成される。 また,弱測定に基づく出力状態のスクイーズ,信号増幅,2次相関,ウィグナー関数などの特性についても検討した。 提案手法は,量子情報処理において有用な非古典的状態を生成するために,新たな有効な方法を提供することを約束する。

State preparation via postselected weak measurement in three wave mixing process is studied. Assuming the signal input mode prepared in a vacuum state, coherent state or squeezed vacuum state, separately, while the idler input prepared in weak coherent state and passing the medium characterized by the second-order nonlinear susceptibility. It is shown that when the single photon is detected at one of the output channels of idler beam's path, the signal output channel is prepared in single-photon Fock state, single-photon-added coherent state or single-photon-added squeezed vacuum state with very high fidelity, depending upon the input signal states and related controllable parameters. The properties including squeezing, signal amplification, second order correlation and Wigner functions of the weak measurement based output states are also investigated. Our scheme promising to provide alternate new effective method for producing useful nonclassical states in quantum information processing.
翻訳日:2023-03-10 05:43:47 公開日:2021-10-31
# 完全光子吸収による可制御光バイスタビリティ

Controllable optical bistability with perfect photon absorption ( http://arxiv.org/abs/2111.00425v1 )

ライセンス: Link先を確認
Miaodi Guo(参考訳) 非線形コヒーレント完全吸収(cpa)を3レベル \lambda型原子キャビティ系で制御する手法を提案する。 一般に、通常非線形CPAと双安定CPAは入力プローブ場の異なる周波数で達成できる。 基底状態の1つと原子の励起状態の1つを結合するコヒーレント制御場により、2種類のCPAを同じ周波数で得ることができる。 また、二安定cpaでは、高安定状態と低安定状態の最大出力入出力比が約1であり、二安定領域は制御フィールドで制御可能である。 制御可能なバイスタブルCPAは、光バイスタブルスイッチングおよび光論理デバイスに潜在する可能性がある

We propose a scheme for controlling nonlinear coherent perfect absorption (CPA) in a three-level \Lambda-type atom-cavity system. Generally, the normally nonlinear CPA and the bistable CPA can be attained at the different frequencies of an input probe field. With a coherent control field coupling one of the ground states and the excited state of the atoms, two types of CPA can be attained at the same frequency. Besides, for the bistable CPA, the highest output-input ratio of the high stable state and the low stable state is approximately 1, and the bistable region is controllable with the control field. The controllable bistable CPA may have potential applications in optical bistable switching and optical logic devices
翻訳日:2023-03-09 19:06:57 公開日:2021-10-31
# hhlアルゴリズムを用いた多変量多項式系の解法に対するマコーレー行列法の適用限界

Limitations of the Macaulay matrix approach for using the HHL algorithm to solve multivariate polynomial systems ( http://arxiv.org/abs/2111.00405v1 )

ライセンス: Link先を確認
Jintai Ding, Vlad Gheorghiu, Andr\'as Gily\'en, Sean Hallgren, Jianqiang Li(参考訳) 最近、Chen and Gao~\cite{ChenGao2017} はブール多項式系の解法のための新しい量子アルゴリズムを提案した。 彼らのアプローチの鍵となるアイデアは、量子線形系(QLS)アルゴリズムを、ブール多項式系から派生した$\CC$上のマコーレー線形系に適用することである。 アルゴリズムの効率は、マコーレー行列の条件数に依存する。 本稿では,ブール解のハミング重みの関数として条件数に強い下限を与え,多くの(すべてではないにせよ)グロバーに基づく排他的探索アルゴリズムがアルゴリズムを上回ることを示す。 そこで,Chen と Gao のアルゴリズムを改良して Boolean Macaulay 線形系を$\CC$ 以上で導入し,元の Macaulay 線形系を削減した。 この改良されたアルゴリズムは、溶液のハミング重みがブール変数の数で対数である場合、ブルト力アルゴリズムを著しく上回る可能性がある。 さらに,Valiant-Vaziraniアフィンハッシュ法を用いて,改良アルゴリズムの精度を簡易かつ基礎的に証明し,Chen,Gao,Yuan \cite{ChenGao2018} によるその後の研究を改良した$\FF_q$以上の多項式系に拡張する。 また,量子クーポンコレクタ問題 \cite{arunachalam2020quantumcouponcollector} の一般化を通じてブール多項式系の解を抽出する新しい手法を提案する。

Recently Chen and Gao~\cite{ChenGao2017} proposed a new quantum algorithm for Boolean polynomial system solving, motivated by the cryptanalysis of some post-quantum cryptosystems. The key idea of their approach is to apply a Quantum Linear System (QLS) algorithm to a Macaulay linear system over $\CC$, which is derived from the Boolean polynomial system. The efficiency of their algorithm depends on the condition number of the Macaulay matrix. In this paper, we give a strong lower bound on the condition number as a function of the Hamming weight of the Boolean solution, and show that in many (if not all) cases a Grover-based exhaustive search algorithm outperforms their algorithm. Then, we improve upon Chen and Gao's algorithm by introducing the Boolean Macaulay linear system over $\CC$ by reducing the original Macaulay linear system. This improved algorithm could potentially significantly outperform the brute-force algorithm, when the Hamming weight of the solution is logarithmic in the number of Boolean variables. Furthermore, we provide a simple and more elementary proof of correctness for our improved algorithm using a reduction employing the Valiant-Vazirani affine hashing method, and also extend the result to polynomial systems over $\FF_q$ improving on subsequent work by Chen, Gao and Yuan \cite{ChenGao2018}. We also suggest a new approach for extracting the solution of the Boolean polynomial system via a generalization of the quantum coupon collector problem \cite{arunachalam2020QuantumCouponCollector}.
翻訳日:2023-03-09 19:06:43 公開日:2021-10-31
# 量子インスパイアされた複雑畳み込みニューラルネットワーク

Quantum-inspired Complex Convolutional Neural Networks ( http://arxiv.org/abs/2111.00392v1 )

ライセンス: Link先を確認
Shangshang Shi, Zhimin Wang, Guolong Cui, Shengbin Wang, Ruimin Shang, Wendong Li, Zhiqiang Wei, Yongjian Gu(参考訳) 量子インスパイアされたニューラルネットワークは、量子コンピューティングとディープラーニングの2つの分野の結合における興味深い研究の1つである。 実際のパラメータを持つ量子インスパイアされたニューロンのモデルが提案されており、主に3層フィードフォワードニューラルネットワークに使われている。 本研究では、よりリッチな表現能力と非線形性を有する複素値重みを活用し、量子インスパイアされたニューロンを改善する。 次に、量子インスパイアされたニューロンを畳み込み演算に実装する方法を拡張し、高次元データを処理する量子インスパイア畳み込みニューラルネットワーク(qicnns)のモデルを自然に描画する。 畳み込み層と完全連結層の実装方法が異なる5つのqicnnの構造について考察した。 5つのQICNNの分類精度をMNISTとCIFAR-10データセットで検証した。 その結果,従来のCNNよりも,MNISTデータセットの分類精度がよいことがわかった。 qicnnが従来のものよりも優れた学習タスクを見つけることができます。

Quantum-inspired neural network is one of the interesting researches at the junction of the two fields of quantum computing and deep learning. Several models of quantum-inspired neurons with real parameters have been proposed, which are mainly used for three-layer feedforward neural networks. In this work, we improve the quantum-inspired neurons by exploiting the complex-valued weights which have richer representational capacity and better non-linearity. We then extend the method of implementing the quantum-inspired neurons to the convolutional operations, and naturally draw the models of quantum-inspired convolutional neural networks (QICNNs) capable of processing high-dimensional data. Five specific structures of QICNNs are discussed which are different in the way of implementing the convolutional and fully connected layers. The performance of classification accuracy of the five QICNNs are tested on the MNIST and CIFAR-10 datasets. The results show that the QICNNs can perform better in classification accuracy on MNIST dataset than the classical CNN. More learning tasks that our QICNN can outperform the classical counterparts will be found.
翻訳日:2023-03-09 19:06:12 公開日:2021-10-31
# 寒冷原子における高波長パケット可変光子とスピン波メモリの絡み合いの発生

Generation of entanglement between a highly wave-packet-tunable photon and a spin-wave memory in cold atoms ( http://arxiv.org/abs/2111.00387v1 )

ライセンス: Link先を確認
Ya Li, Yafei Wen, Shengzhi Wang, Chao Liu, Hailong Liu, Minjie Wang, Can Sun, Yan Gao, Shujing Li, and Hai Wang(参考訳) 単一光子の波形(パルス持続時間)の制御は、ハイブリッド量子ネットワークにおける異なる原子記憶を効果的に相互接続するための重要なタスクである。 これまでのところ、原子メモリに絡み合った単一光子の波形制御は未解明のままである。 ここでは, 低温原子における光原子相互作用時間の変化により, 原子スピン波メモリに絡み合った光子の波形長の制御を実証した。 光子パルスの持続時間の関数としてのベルパラメータSを測定し、40 nsから50 usまでの光子パルスにおいて、それぞれS=2.64+/-0.02およびS=2.26+/-0.05の40-nsと50-{\mu}の持続時間におけるベル等価性の違反を達成できることを示す。 その結果,Sパラメータはパルス持続時間の増加に伴って減少することがわかった。 パルスデュレーションに伴うパルス当たりの光子ノイズ確率の増加がsの低減に寄与していることを確認した。

Controls of waveforms (pulse durations) of single photons are important tasks for effectively interconnecting disparate atomic memories in hybrid quantum networks. So far, the waveform control of single photon that is entangled with an atomic memory remains unexplored. Here, we demonstrated control of waveform length of the photon that is entangled with an atomic spin-wave memory by varying light-atom interaction time in cold atoms. The Bell parameter S as a function of the duration of photon pulse is measured, which shows that violations of Bell equality can be achieved for the photon pulse in the duration range from 40 ns to 50 us, where, S=2.64+/-0.02 and S=2.26+/-0.05 for the 40-ns and 50-{\mu}s durations, respectively. The measured results show that S parameter decreases with the increase in the pulse duration. We confirm that the increase in photon noise probability per pulse with the pulse-duration is responsible for the S decrease.
翻訳日:2023-03-09 19:05:56 公開日:2021-10-31
# 非対称光子収集チャネルを介して光子と絡み合う時間的マルチモード量子メモリの雑音抑圧

Noise suppression in a temporal-multimode quantum memory entangled with a photon via asymmetrical photon-collection channel ( http://arxiv.org/abs/2111.00381v1 )

ライセンス: Link先を確認
Ya Li, Ya-fei Wen, Min-jie Wang, Chao Liu, Hai-long Liu, Shu-jing Li, Zhong-xiao Xu, Hai Wang(参考訳) マルチモード原子メモリと光子の間の絡み合いを生成する量子インターフェース(QIs)は多重化リピータノードを形成し、量子リピータレートを大幅に向上させる。 近年,光子に絡み合った時間多重モードスピン波メモリが低温原子で実証されている。 しかし、マルチモード動作で発生する付加ノイズにより、スピン波-光子絡み合いの忠実度はモード数によって著しく低下する。 これまでのところ、追加ノイズの抑制による時間的マルチモード絡み合い忠実性の改善は未検討のままである。 本稿では,時間的多重化QIの付加雑音を抑制する手法を提案し,実験的に実証する。 このスキームは非対称チャネルを使用して、時間的に多重化されたQIから光子を回収する。 また、比較のために、光子コレクションに対称チャネルを用いるQIを設定した。 QIsが14モードを記憶する場合、QIsの測定値であるベルパラメータSは、それぞれ2.36+/-0.03および2.24+/-0.04であり、非対称チャネルを使用するQIは、交絡フィデリティの3%増加、すなわち、対称チャネルを使用するQIと比較して追加ノイズの1.7倍の減少を示す。 一方、非対称なコレクションと対称なコレクションを使用する14モードの絡み合いQIは、それぞれ25 usおよび20 usまでの記憶時間に対するベル不等式違反を保ち、非対称な絡み合いQIは高い絡み合い記憶性能を示す。

Quantum interfaces (QIs) that generate entanglement between a multimode atomic memory and a photon forms a multiplexed repeater node and hold promise to greatly improve quantum repeater rates. Recently, the temporal multimode spin-wave memory that is entangled with a photon has been demonstrated with cold atoms. However, due to additional noise generated in multimode operation, the fidelity of spin-wave-photon entanglement significantly decreases with the mode number. So far, the improvement on temporal-multimode entanglement fidelity via suppressing the additional noise remains unexplored. Here, we propose and experimentally demonstrate a scheme that can suppress the additional noise of a temporally-multiplexed QI. The scheme uses an asymmetric channel to collect the photons coming and retrieving from the temporally-multiplexed QI. For making comparisons, we also set up a QI that uses symmetric channel for the photon collections. When the QIs store 14 modes, the measured Bell parameter S for the QIs using the asymmetric and the symmetric photon-collection channels are 2.36+/-0.03 and 2.24+/-0.04, respectively, showing that the QI using the asymmetric channel gives rise to a 3% increase in entanglement fidelity, i.e., a 1.7-fold decrease in the additional noise, compared with the QI using the symmetric one. On the other hand, the 14-mode entanglement QIs that use the asymmetric and symmetric collections preserve the violation of a Bell inequality for storage times up to 25 us and 20 us, respectively, showing that the asymmetric QI has a higher entanglement storage performance.
翻訳日:2023-03-09 19:05:35 公開日:2021-10-31
# フェムト秒スケールでの50km光ファイバー双方向量子時間移動の実証

Demonstration of 50 km Fiber-optic two-way quantum time transfer at femtosecond-scale precision ( http://arxiv.org/abs/2111.00380v1 )

ライセンス: Link先を確認
Huibo Hong, Runai Quan, Xiao Xiang, Wenxiang Xue, Honglei Quan, Wenyu Zhao, Yuting Liu, Mingtao Cao, Tao Liu, Shougang Zhang, Ruifang Dong(参考訳) この2方向量子時間伝達法は, 精度の向上と安全性向上のために実験的に提案されている。 実用化においてその利点をさらに証明するためには、適用可能な直接伝送距離と独立時間スケール間の達成可能な同期精度が重要である。 本稿では,50kmのファイバーリンクを用いた双方向量子時間伝達実験を行った。 クロック基準では、平均7秒における2.6 psの短期安定性と57300 秒における54.6 fsの長期安定性が得られた。 マイクロ波周波数伝達技術による独立したクロック基準により、達成された同期はほぼ同等の性能を示し、安定性は 89.5 fs の57300 s に達した。 さらに, 利用した光子対源のスペクトル一貫性について, 転送精度および長期安定性に及ぼす効果について検討した。 その結果、大都市圏のファイバリンク上での高精度な時間同期を実現するために、2方向の量子時間転送の明るい未来を期待できた。

The two-way quantum time transfer method has been proposed and experimentally demonstrated for its potential enhancements in precision and better guarantee of security. To further testify its advantage in practical applications, the applicable direct transmission distance as well as the achievable synchronization precision between independent time scales is of great interest. In this paper, an experiment on two-way quantum time transfer has been carried out over a 50 km long fiber link. With the common clock reference, a short-term stability of 2.6 ps at an averaging time of 7 s and a long-term stability of 54.6 fs at 57300 s were obtained. With independent clock references, assisted by microwave frequency transfer technology, the achieved synchronization showed almost equal performance and reached a stability of 89.5 fs at 57300 s. Furthermore, the spectral consistency of the utilized entangled photon pair sources has been studied concerning its effect on the transfer accuracy and long-term stability. The results obtained have promised a bright future of the two-way quantum time transfer for realizing high-precision time synchronization on metropolitan area fiber links.
翻訳日:2023-03-09 19:05:03 公開日:2021-10-31
# 反PT対称非エルミート系におけるカップリング誘起非ユニタリ散乱とユニタリ散乱

Coupling-induced nonunitary and unitary scattering in anti-PT-symmetric non-Hermitian systems ( http://arxiv.org/abs/2111.00378v1 )

ライセンス: Link先を確認
H. S. Xu and L. jin(参考訳) 2つの反パリティ時間(アンチpt)対称四点散乱中心の特性について検討した。 反PT対称散乱中心は想像上のカップリング、実際のカップリング、実際のオンサイトポテンシャルを持つ。 2つの散乱中心間の唯一の違いは、散乱中心の2つの中心点間の結合であり、これは反PT対称性のパリティを決定する上で重要な役割を担い、散乱特性に大きな影響を及ぼす。 虚結合では、偶パリティ反pt対称散乱中心は非ユニタリ散乱を持ち、反射と透過の差は一様であり、実結合では奇パリティ反pt対称散乱中心はユニタリ散乱を持ち、反射と透過の和は一様である。 カップリングによる異なる散乱挙動を数値シミュレーションにより検証した。 以上の結果から, 類似する2つの反pt対称非エルミート散乱中心間のわずかな差によって, ダイナミクスに有意な差が生じることが判明した。

We investigate the properties of two anti-parity-time (anti-PT )-symmetric four-site scattering centers. The anti-PT -symmetric scattering center may have imaginary couplings, real couplings, and real on-site potentials. The only difference between the two scattering centers is the coupling between two central sites of the scattering center, which plays a crucial role in determining the parity of anti-PT symmetry and significantly affects the scattering properties. For the imaginary coupling, the even-parity anti-PT -symmetric scattering center possesses nonunitary scattering and the difference between the reflection and transmission is unity; for the real coupling, the odd-parity anti-PT -symmetric scattering center possesses unitary scattering and the sum of the reflection and transmission is unity. The coupling-induced different scattering behaviors are verified in the numerical simulations. Our findings reveal that a significant difference in the dynamics can be caused by a slight difference between two similar anti-PT -symmetric non-Hermitian scattering centers.
翻訳日:2023-03-09 19:04:44 公開日:2021-10-31
# 臨床意思決定における人工知能, 臨床医, 政策立案者の役割:システムの観点から

Role of Artificial Intelligence, Clinicians & Policymakers in Clinical Decision Making: A Systems Viewpoint ( http://arxiv.org/abs/2112.01226v1 )

ライセンス: Link先を確認
Avishek Choudhury, Onur Asan and Mo Mansouri(参考訳) システムとは何か? この世界のほとんどの個人にとって、まだはっきりしていない質問の1つです。 システムは、複雑で統合された全体を形成する相互作用、相互関連、相互依存的なコンポーネントの集合であり、あいまいで共通の目標である。 本稿では、複雑なシステムのすべてのコンポーネントが何らかの形で相互に依存し、そのシステムの振る舞いがこれらの独立性に依存するという事実を強調する。 この記事に記載されている医療システムは広く、複雑である。 これは病院だけでなく、fdaのような組織、ai、バイオメディカルデバイス、クラウドコンピューティングなどの技術も包含している。 これらすべてのコンポーネント間の相互作用は、医療システム全体の行動と存在を左右する。 本稿では,人工知能,介護提供者,政策立案者の相互作用に着目し,システム思考アプローチによる分析と臨床意思決定への影響について述べる。

What is a system? Is one of those questions that is yet not clear to most individuals in this world. A system is an assemblage of interacting, interrelated and interdependent components forming a complex and integrated whole with an unambiguous and common goal. This paper emphasizes on the fact that all components of a complex system are inter-related and interdependent in some way and the behavior of that system depends on these independences. A health care system as portrayed in this article is widespread and complex. This encompasses not only hospitals but also governing bodies like the FDA, technologies such as AI, biomedical devices, Cloud computing and many more. The interactions between all these components govern the behavior and existence of the overall healthcare system. In this paper, we focus on the interaction of artificial intelligence, care providers and policymakers and analyze using systems thinking approach, their impact on clinical decision making
翻訳日:2023-03-09 18:58:59 公開日:2021-10-31
# H2ZIXY:実対称行列のパウリスピン行列分解

H2ZIXY: Pauli spin matrix decomposition of real symmetric matrices ( http://arxiv.org/abs/2111.00627v1 )

ライセンス: Link先を確認
Rocco Monteiro Nunes Pesce and Paul D. Stevenson(参考訳) 我々は、任意の大きさの正方形実対称行列を取り、それをパウリスピン行列のテンソル積として分解するpython3のコードを提示する。 量子コンピュータ実装のための核物理学に関連のあるハミルトニアンの分解への応用について述べる。

We present a code in Python3 which takes a square real symmetric matrix, of arbitrary size, and decomposes it as a tensor product of Pauli spin matrices. The application to the decomposition of a Hamiltonian of relevance to nuclear physics for implementation on quantum computer is given.
翻訳日:2023-03-09 18:58:46 公開日:2021-10-31
# ショートカットによる遠距離光学界面間の量子状態移動

Quantum State Transfer Between Distant Optomechanical Interfaces via Shortcut to Adiabaticity ( http://arxiv.org/abs/2111.00521v1 )

ライセンス: Link先を確認
Hanzhe Xi and Pei Pei(参考訳) 連続導波路によって接続された遠距離光機械界面間の高速高忠実量子状態伝達を実現するプロトコルを提案する。 このスキームは3つのステップから構成される: 2つの断熱過程が人口変換プロセスと結合される。 従来の断熱的手法と比較して,提案手法はより短い時間で高い転送忠実度に達する。 数値計算の結果, 散逸系におけるこの伝達スキームの忠実性は, 主に導波路の速度と結合強度に依存することがわかった。 パルスシーケンスを反転させることで、双方向転送を実行し、量子ネットワークを構築する可能性を示すことができる。

We propose a protocol to realize fast high-fidelity quantum state transfer between distant optomechanical interfaces connected by a continuum waveguide. The scheme consists of three steps: two accelerating adiabatic processes joined by a population conversion process. In comparison to the traditional adiabatic technique, our method reaches a higher transfer fidelity with a shorter time. Numerical results show that the fidelity of this transfer scheme in the dissipative system mainly depends on the protocol speed and the coupling strength of the waveguide and cavities. Assisted by inverting the pulse sequence, a bidirectional transfer can be implemented, indicating the potential to build a quantum network.
翻訳日:2023-03-09 18:58:21 公開日:2021-10-31
# 量子回路を模擬した頂点格子モデル

Vertex Lattice Models Simulated with Quantum Circuits ( http://arxiv.org/abs/2111.00510v1 )

ライセンス: Link先を確認
Jechiel Van Dijk and Emil Prodan(参考訳) 古典的な平面頂点モデルは、実および正のエントリを持つ転移行列を許容するので、量子シミュレーションに適している。 本研究では、任意の多量子ビット状態に対する転送行列の作用を実装する明示的な量子回路を構築することにより、このステートメントをサポートする。 量子ビットの数と回路の深さは、システムのサイズとともに直線的に増加する。 さらに,量子シミュレータを用いた実験を行い,転送行列の最大固有値に対応する固有ベクトルや,第2の固有値と第1の固有値の比率など,重要な物理量を抽出することができることを示す。 遷移行列の非ユニタリ性から蒸散する問題について論じる。

Classical planar vertex models afford transfer matrices with real and positive entries, which makes this class of models suitable for quantum simulations. In this work, we support this statement by building explicit quantum circuits that implement the actions of the transfer matrices on arbitrary many-qubit states. The number of qubits and the depth of the circuits grow linearly with the size of the system. Furthermore, we present tests using quantum simulators and demonstrate that important physical quantities can be extracted, such as the eigen-vector corresponding to the largest eigenvalue of the transfer matrix and the ratio of the second to first largest eigenvalue. Challenges steaming from the non-unitarity of the transfer matrix are discussed.
翻訳日:2023-03-09 18:58:11 公開日:2021-10-31
# Aharonov-Bohm効果の古典的(局所的な)説明

A Classical (Local) Account of The Aharonov-Bohm Effect ( http://arxiv.org/abs/2111.00476v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) 電磁ベクトルポテンシャルは量子物理学において基本的な役割を担っているとしばしば述べられているが、古典的には便利だが必要ではない電磁場を表現する方法を表している。 ここでは、電場が光子よりも先に発見されたこと、電子自体が粒子として最初に発見されたこと、波動として扱われなければならないこと、従って基礎となる電子の励起として扱われること、という歴史的な事故であると主張する。 ベクトルポテンシャルは、アハラノフ-ボーム効果を用いて古典的に基本的な役割を果たすべきであることを述べる。 この効果は、量子物理学においてベクトルポテンシャルが果たす役割の最も強い議論と見なされるが、ここでは、その完全な古典的説明を提供する。 これは、アハロノフ・ボーム(英語版)(Aharonov-Bohm)位相の局所的な性質を維持するために、古典的あるいは量子的なあらゆる説明がベクトルポテンシャルを伴わなければならないという事実の結果である。

It is frequently stated that the electromagnetic vector potential acquires a fundamental role in quantum physics, whereas classically it only represents a convenient, but by no means necessary, way of representing the electromagnetic field. Here we argue that this is a historical accident due to the fact that the electromagnetic field was discovered before photons, while the electron itself was discovered first as a particle, before it became clear that it must also be treated as a wave and therefore as an excitation of the underlying electron field. We illustrate the fact that the vector potential ought to play a fundamental role classically using the Aharonov-Bohm effect. This effect is considered as the strongest argument for the role the vector potential plays in quantum physics, however, here we offer a fully classical account of it. This is a consequence of the fact that any account, be it classical or quantum, must involve the vector potential in order to preserve the local nature of the Aharonov-Bohm (as well as all the other) phases.
翻訳日:2023-03-09 18:58:00 公開日:2021-10-31
# 量子情報処理における超期待値とその応用

Extreme expected values and their applications in quantum information processing ( http://arxiv.org/abs/2111.00466v1 )

ライセンス: Link先を確認
Wangjun Lu, Lei Shao, Xingyu Zhang, Zhucheng Zhang, Jie Chen, Hong Tao, and Xiaoguang Wang(参考訳) 独立変数 $X$ の単調関数 $F(X)$ が、ある確率の2つの制約の下で最大あるいは最小の期待値を取るときの確率分布と、独立変数 $X$ の特定の期待値を考える。 等価確率と等価期待値分割法を提案した。 この方法では4つの不等式が証明され、そのうち2つはジェンセンの不等式に還元できる。 その後、非単調関数 $H(X)$ を複数の単調区間に分割した後、最大および最小期待値 $H(X)$ を解く問題は、多重変数関数の極値を求める問題に変換できる。 最後に、証明された理論を適用し、量子情報処理の3つの問題を解く。 マッハ・ツェンダー干渉計(英語版)における量子パラメータ推定の研究において、同じ総入力光子数に対して、量子フィッシャー情報を最大値を取る最適経路対称入力状態を見つけ、量子フィッシャー情報を最小値とする経路対称状態がNOON状態であることを証明した。 landau-zener-jaynes-cummingsモデルにおける量子パラメータ推定について検討すると、システムの最大量子フィッシャー情報を得るためのキャビティフィールドの最適初期状態を見つける。 最後に、等しい初期平均光子数に対して、tavis-cummings量子バッテリが最大保存エネルギーと最大平均充電電力を持つようなキャビティ場の最適初期状態を見つける。

We consider the probability distribution when the monotonic function $F(X)$ of the independent variable $X$ takes the maximum or minimum expected value under the two constraints of a certain probability and a certain expected value of the independent variable $X$. We proposed an equal probability and equal expected value splitting method. With this method, we proved four inequalities, and two of them can be reduced to Jensen's inequalities. Subsequently, we find that after dividing the non-monotone function $H(X)$ into multiple monotone intervals, the problem of solving the maximum and minimum expected values of $H(X)$ can be transformed into the problem of solving the extreme value of a multiple-variable function. Finally, we apply the proved theory to solve three problems in quantum information processing. When studying the quantum parameter estimation in Mach-Zehnder interferometer, for an equal total input photon number, we find an optimal path-symmetric input state that makes the quantum Fisher information take the maximum value, and we prove that the NOON state is the path-symmetric state that makes the quantum Fisher information takes the minimum value. When studying the quantum parameter estimation in Landau-Zener-Jaynes-Cummings model, we find the optimal initial state of the cavity field that makes the system obtain the maximum quantum Fisher information. Finally, for an equal initial average photon number, we find the optimal initial state of the cavity field that makes the Tavis-Cummings quantum battery have the maximum stored energy and the maximum average charging power.
翻訳日:2023-03-09 18:57:24 公開日:2021-10-31
# 仮想空間における青年の情報セキュリティに及ぼす識別・認証問題に関する知識の影響

The Impact of Knowledge of the Issue of Identification and Authentication on the Information Security of Adolescents in the Virtual Space ( http://arxiv.org/abs/2111.00460v1 )

ライセンス: Link先を確認
Ljerka Luic, Drazenka Svelec-Juricic, Petar Misevic(参考訳) デジタルリテラシーの文脈における情報セキュリティは、仮想空間を通して安全で目的のある移動を可能にするデジタルスキルである。 新型コロナウイルス(COVID-19)のパンデミックにより、インターネットの年齢制限や利用頻度は1年もさかのぼってきており、若者の情報セキュリティへの懸念がますます強調されている。 If, and to what extent, knowledge of the issue of identification and authentication affects the information security of high school students aged 16 to 19 in the virtual space, the research question addressed by the authors of this paper was to determine which student behaviors pose a potential danger compromising their information security by establishing a correlation between the variables that determine student behavior and the variables used to examine their level of security in a virtual environment. The research was conducted using a questionnaire on a sample of high school students in the Republic of Croatia, the results of which showed that some students practice behaviors that are potentially dangerous, make them vulnerable and easy targets of cyber predators and attackers, which is why there is cause for concern and a need for a additional education of children of primary and secondary school age in the field of information security in the form of the introduction of the subject Digital Literacy. この結果に基づき、情報リテラシーに影響を与える青年のデジタルリテラシーのレベルを評価するモデルを設計することができるとともに、子供や若者の情報リテラシーの分野におけるさらなる関連研究を行うことができる。

Information security in the context of digital literacy is a digital skill that enables safe and purposeful movement through virtual space. The age limit and frequency of use of the Internet by young generations has been moved back a year due to the COVID-19 pandemic, and the concern for information security of young people is increasingly emphasized. If, and to what extent, knowledge of the issue of identification and authentication affects the information security of high school students aged 16 to 19 in the virtual space, the research question addressed by the authors of this paper was to determine which student behaviors pose a potential danger compromising their information security by establishing a correlation between the variables that determine student behavior and the variables used to examine their level of security in a virtual environment. The research was conducted using a questionnaire on a sample of high school students in the Republic of Croatia, the results of which showed that some students practice behaviors that are potentially dangerous, make them vulnerable and easy targets of cyber predators and attackers, which is why there is cause for concern and a need for a additional education of children of primary and secondary school age in the field of information security in the form of the introduction of the subject Digital Literacy. Based on the results, a model for assessing the level of digital literacy of adolescents that affect information literacy can be designed, but also further related research in the field of information literacy of children and youth can be conducted.
翻訳日:2023-03-09 18:56:56 公開日:2021-10-31
# 動作の遅延によるバンディット学習

Bandit Learning with Delayed Impact of Actions ( http://arxiv.org/abs/2002.10316v4 )

ライセンス: Link先を確認
Wei Tang, Chien-Ju Ho, Yang Liu(参考訳) 我々は,行動の遅れを伴う確率的多腕バンディット(mab)問題を考える。 私たちの設定では、過去の行動は、今後の腕の報酬に影響を与えます。 この遅延した行動の影響は現実世界で広く見られる。 例えば、ある社会集団の人々にローンを返済する能力は、そのグループがどれだけの頻度でローン申請を承認されたかによって異なります。 もし銀行が不利なグループの人々にローン申請を拒絶し続ければ、フィードバックループを作り、そのグループの人々へのローン申請の機会をさらに損なう可能性がある。 本稿では,多腕バンディットの文脈における動作の遅延と長期的影響を定式化する。 我々は、学習中の行動履歴によるこの「バイアス」の依存性を符号化するバンディット設定を一般化する。 目的は、歴史的行動の遅れた影響によって生じるダイナミクスを考慮して、収集されたユーティリティを時間とともに最大化することである。 我々は、$\tilde{\mathcal{o}}(kt^{2/3})$ の後悔を達成し、$k$ が腕の数、$t$ が学習地平線である$\omega(kt^{2/3})$ が一致する後悔の下限を示すアルゴリズムを提案する。 本研究は,長期的影響を伴う行動に対処し,公平なアルゴリズムの設計に影響を及ぼす手法を追加することで,バンディット文学を補完する。

We consider a stochastic multi-armed bandit (MAB) problem with delayed impact of actions. In our setting, actions taken in the past impact the arm rewards in the subsequent future. This delayed impact of actions is prevalent in the real world. For example, the capability to pay back a loan for people in a certain social group might depend on historically how frequently that group has been approved loan applications. If banks keep rejecting loan applications to people in a disadvantaged group, it could create a feedback loop and further damage the chance of getting loans for people in that group. In this paper, we formulate this delayed and long-term impact of actions within the context of multi-armed bandits. We generalize the bandit setting to encode the dependency of this "bias" due to the action history during learning. The goal is to maximize the collected utilities over time while taking into account the dynamics created by the delayed impacts of historical actions. We propose an algorithm that achieves a regret of $\tilde{\mathcal{O}}(KT^{2/3})$ and show a matching regret lower bound of $\Omega(KT^{2/3})$, where $K$ is the number of arms and $T$ is the learning horizon. Our results complement the bandit literature by adding techniques to deal with actions with long-term impacts and have implications in designing fair algorithms.
翻訳日:2022-12-29 03:11:50 公開日:2021-10-31
# ベストテストエラーの探求における反復平均化

Iterative Averaging in the Quest for Best Test Error ( http://arxiv.org/abs/2003.01247v5 )

ライセンス: Link先を確認
Diego Granziol, Xingchen Wan, Samuel Albanie, Stephen Roberts(参考訳) 高次元二次面上の真とバッチリスク面間のガウス過程摂動モデルを用いて, 平均化の一般化性能の増大を解析し, 説明する。 1) iterate averaging (ia) と大きな学習率を組み合わせることの重要性、および正規化を改善するための正規化の重要性。 2)頻度の低い平均化の正当化 3) 適応勾配法が, 適応的でない手法よりも反復的な平均化を繰り返すことで, 等しくうまく機能することを期待する。 これらの結果にインスピレーションを得て、反復体の解の多様性に対する適切な正則化の重要性を実証的に調査し、反復平均化を伴う2つの適応アルゴリズムを提案する。 これらは、確率勾配降下 (SGD) よりもかなり良い結果をもたらし、チューニングを少なくし、早期停止や検証セットの監視を必要としない。 我々は、cifar-10/100、imagenet、penn treebankの様々な現代的なネットワークアーキテクチャ上のデータセットにおける、このアプローチの有効性を示す。

We analyse and explain the increased generalisation performance of iterate averaging using a Gaussian process perturbation model between the true and batch risk surface on the high dimensional quadratic. We derive three phenomena \latestEdits{from our theoretical results:} (1) The importance of combining iterate averaging (IA) with large learning rates and regularisation for improved regularisation. (2) Justification for less frequent averaging. (3) That we expect adaptive gradient methods to work equally well, or better, with iterate averaging than their non-adaptive counterparts. Inspired by these results\latestEdits{, together with} empirical investigations of the importance of appropriate regularisation for the solution diversity of the iterates, we propose two adaptive algorithms with iterate averaging. These give significantly better results compared to stochastic gradient descent (SGD), require less tuning and do not require early stopping or validation set monitoring. We showcase the efficacy of our approach on the CIFAR-10/100, ImageNet and Penn Treebank datasets on a variety of modern and classical network architectures.
翻訳日:2022-12-27 04:29:25 公開日:2021-10-31
# ENSEI:プライバシー保護型視覚認識のための周波数領域同型畳み込みによる効率的なセキュア推論

ENSEI: Efficient Secure Inference via Frequency-Domain Homomorphic Convolution for Privacy-Preserving Visual Recognition ( http://arxiv.org/abs/2003.05328v2 )

ライセンス: Link先を確認
Song Bian, Tianchen Wang, Masayuki Hiromoto, Yiyu Shi, Takashi Sato(参考訳) 本研究では、プライバシ保護視覚認識の効率的な実行のための周波数領域セキュア畳み込み(FDSC)プロトコルに基づくセキュア推論(SI)フレームワークであるENSEIを提案する。 我々は,準同型暗号と秘密共有の組み合わせにより,相同的畳み込みを周波数領域で明示的に行うことができ,関連する計算を著しく単純化できることを示した。 数理論変換(NTT)に基づくFDSCのためのプロトコル設計とパラメータ導出を提供する。 実験では,時間領域と周波数領域の同型畳み込みの精度-効率トレードオフを徹底的に検討した。 最もよく知られた作品と比較して,5~11倍のオンライン時間短縮,33倍のセットアップ時間短縮,最大10倍の推論時間短縮を実現している。 さらに33%の帯域幅削減は、CIFAR-10データセットの精度の1%しか低下しないバイナリニューラルネットワークで得ることができる。

In this work, we propose ENSEI, a secure inference (SI) framework based on the frequency-domain secure convolution (FDSC) protocol for the efficient execution of privacy-preserving visual recognition. Our observation is that, under the combination of homomorphic encryption and secret sharing, homomorphic convolution can be obliviously carried out in the frequency domain, significantly simplifying the related computations. We provide protocol designs and parameter derivations for number-theoretic transform (NTT) based FDSC. In the experiment, we thoroughly study the accuracy-efficiency trade-offs between time- and frequency-domain homomorphic convolution. With ENSEI, compared to the best known works, we achieve 5--11x online time reduction, up to 33x setup time reduction, and up to 10x reduction in the overall inference time. A further 33% of bandwidth reductions can be obtained on binary neural networks with only 1% of accuracy degradation on the CIFAR-10 dataset.
翻訳日:2022-12-24 14:21:31 公開日:2021-10-31
# 価値因子化による協調型マルチエージェントQ-Learningの理解に向けて

Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization ( http://arxiv.org/abs/2006.00587v5 )

ライセンス: Link先を確認
Jianhao Wang, Zhizhou Ren, Beining Han, Jianing Ye, Chongjie Zhang(参考訳) 価値因子化(value factorization)は、学習のスケーラビリティと価値関数の表現能力のバランスをとる、協調的な環境でマルチエージェント強化学習をスケールアップする、ポピュラーで有望なアプローチである。 しかし、そのような方法の理論的理解は限られている。 本稿では,因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを定式化する。 この枠組みに基づき、線形値分解を考察し、この単純な分解によるマルチエージェントQ-ラーニングが、強力な対実的クレジット代入を暗黙的に実現するが、いくつかの設定では収束しないことを示した。 さらなる分析により、オンライントレーニングやよりリッチなジョイントバリュー関数クラスは、それぞれの局所的あるいは大域的収束特性を改善できることがわかった。 最後に,本研究の実践的実現における理論的含意を裏付けるために,教科実例と幅広いStarCraft II単位マイクロマネジメントタスクについて,最先端の深層多エージェントQ-ラーニングアルゴリズムの実証分析を行った。

Value factorization is a popular and promising approach to scaling up multi-agent reinforcement learning in cooperative settings, which balances the learning scalability and the representational capacity of value functions. However, the theoretical understanding of such methods is limited. In this paper, we formalize a multi-agent fitted Q-iteration framework for analyzing factorized multi-agent Q-learning. Based on this framework, we investigate linear value factorization and reveal that multi-agent Q-learning with this simple decomposition implicitly realizes a powerful counterfactual credit assignment, but may not converge in some settings. Through further analysis, we find that on-policy training or richer joint value function classes can improve its local or global convergence properties, respectively. Finally, to support our theoretical implications in practical realization, we conduct an empirical analysis of state-of-the-art deep multi-agent Q-learning algorithms on didactic examples and a broad set of StarCraft II unit micromanagement tasks.
翻訳日:2022-11-26 12:15:22 公開日:2021-10-31
# 進行関数を用いたカリキュラム学習

Curriculum Learning with a Progression Function ( http://arxiv.org/abs/2008.00511v2 )

ライセンス: Link先を確認
Andrea Bassich, Francesco Foglino, Matteo Leonetti and Daniel Kudenko(参考訳) 強化学習のためのカリキュラム学習(英: Curriculum Learning for Reinforcement Learning)は、エージェントのパフォーマンスと学習速度を向上させるために、Curriculumと呼ばれる一連の中間タスクでエージェントを訓練する手法である。 本稿では,進化とマッピング機能に基づくカリキュラム生成のための新しいパラダイムを提案する。 進行関数はいつでも環境の複雑さを指定できるが、マッピング関数は特定の複雑さの環境を生成する。 エージェントのパフォーマンスに基づいた自律的なオンラインタスクプログレクションを含む、さまざまなプログレクション機能が導入される。 この手法の利点と幅広い適用性は、6つのドメインにおける2つの最先端カリキュラム学習アルゴリズムのパフォーマンスを実証的に比較することによって示される。

Curriculum Learning for Reinforcement Learning is an increasingly popular technique that involves training an agent on a sequence of intermediate tasks, called a Curriculum, to increase the agent's performance and learning speed. This paper introduces a novel paradigm for curriculum generation based on progression and mapping functions. While progression functions specify the complexity of the environment at any given time, mapping functions generate environments of a specific complexity. Different progression functions are introduced, including an autonomous online task progression based on the agent's performance. Our approach's benefits and wide applicability are shown by empirically comparing its performance to two state-of-the-art Curriculum Learning algorithms on six domains.
翻訳日:2022-11-03 19:31:02 公開日:2021-10-31
# 逆特徴摂動による画像スタイルへのロバストネスの符号化

Encoding Robustness to Image Style via Adversarial Feature Perturbations ( http://arxiv.org/abs/2009.08965v3 )

ライセンス: Link先を確認
Manli Shu, Zuxuan Wu, Micah Goldblum, Tom Goldstein(参考訳) 敵の訓練は、小さな敵の摂動に対して堅牢なモデルを生産するための業界標準である。 しかし、機械学習実践者は、入力画像のスタイルの変化や照明など、自然に起こる他の種類の変化に対して堅牢なモデルを必要とする。 このような入力分布の変化は、画像特徴の平均と分散の変化として効果的にモデル化されている。 我々は,画像画素ではなく特徴統計を直接摂動することで,様々な不明瞭な分布シフトに頑健なモデルを生成する。 我々は,これらの摂動と分布変化の関係を,敵対的特徴を可視化することで検討する。 提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。 敵対的特徴分布におけるニューラルネットワークの微調整により,ネットワークのロバスト性が改善され,スタイル変化や画像の破損など,様々な非認識分布変化が観測される。 また,提案手法が既存の画像空間データ拡張法を補完し,性能の向上に寄与することを示す。 ソースコードと事前訓練されたモデルは \url{https://github.com/azshue/AdvBN} でリリースされる。

Adversarial training is the industry standard for producing models that are robust to small adversarial perturbations. However, machine learning practitioners need models that are robust to other kinds of changes that occur naturally, such as changes in the style or illumination of input images. Such changes in input distribution have been effectively modeled as shifts in the mean and variance of deep image features. We adapt adversarial training by directly perturbing feature statistics, rather than image pixels, to produce models that are robust to various unseen distributional shifts. We explore the relationship between these perturbations and distributional shifts by visualizing adversarial features. Our proposed method, Adversarial Batch Normalization (AdvBN), is a single network layer that generates worst-case feature perturbations during training. By fine-tuning neural networks on adversarial feature distributions, we observe improved robustness of networks to various unseen distributional shifts, including style variations and image corruptions. In addition, we show that our proposed adversarial feature perturbation can be complementary to existing image space data augmentation methods, leading to improved performance. The source code and pre-trained models are released at \url{https://github.com/azshue/AdvBN}.
翻訳日:2022-10-17 02:32:03 公開日:2021-10-31
# 医用画像生成のための画像翻訳 --脳卒中病変-

Image Translation for Medical Image Generation -- Ischemic Stroke Lesions ( http://arxiv.org/abs/2010.02745v2 )

ライセンス: Link先を確認
Moritz Platscher and Jonathan Zopes and Christian Federau(参考訳) ディープラーニングに基づく疾患検出とセグメンテーションアルゴリズムは、多くの臨床プロセスを改善することを約束する。 しかし、そのようなアルゴリズムは大量のアノテートされたトレーニングデータを必要とするため、データプライバシ、法的妨害、および一様でないデータ取得プロトコルのために、一般的に医学的文脈では利用できない。 注釈付き病理を持つ合成データベースは、必要なトレーニングデータを提供することができる。 虚血性脳梗塞の例では,深層学習による拡張による病変の分節化の改善が可能である。 そこで我々は, 意味的セグメンテーションマップから脳卒中病変を伴わない脳体積の磁気共鳴像を合成するために, 異なる画像間翻訳モデルを訓練した。 さらに, 生成的敵ネットワークを訓練し, 合成病変マスクを生成する。 その後、これら2つのコンポーネントを組み合わせることで、合成ストローク画像の大規模なデータベースを構築する。 臨床検査セットで脳卒中病変の分節を訓練したU-Netを用いて,各種モデルの性能を評価する。 臨床画像のみで訓練されたモデルよりも優れた性能を持つモデルに対して,$\mathbf{72.8}$% [$\mathbf{70.8\pm1.0}$%] というサイススコアを報告し,$\mathbf{76.9}$% のヒト間サイススコアに近い結果を得た。 さらに,10例ないし50例の小さなデータベースでは,合成データを使用した場合と比較して,合成データの増大が著しく改善することが示唆された。 本研究は, 画像から画像への変換に基づく合成データ拡張の初回比較解析を行い, 脳梗塞に対する初回適用例を示す。

Deep learning based disease detection and segmentation algorithms promise to improve many clinical processes. However, such algorithms require vast amounts of annotated training data, which are typically not available in the medical context due to data privacy, legal obstructions, and non-uniform data acquisition protocols. Synthetic databases with annotated pathologies could provide the required amounts of training data. We demonstrate with the example of ischemic stroke that an improvement in lesion segmentation is feasible using deep learning based augmentation. To this end, we train different image-to-image translation models to synthesize magnetic resonance images of brain volumes with and without stroke lesions from semantic segmentation maps. In addition, we train a generative adversarial network to generate synthetic lesion masks. Subsequently, we combine these two components to build a large database of synthetic stroke images. The performance of the various models is evaluated using a U-Net which is trained to segment stroke lesions on a clinical test set. We report a Dice score of $\mathbf{72.8}$% [$\mathbf{70.8\pm1.0}$%] for the model with the best performance, which outperforms the model trained on the clinical images alone $\mathbf{67.3}$% [$\mathbf{63.2\pm1.9}$%], and is close to the human inter-reader Dice score of $\mathbf{76.9}$%. Moreover, we show that for a small database of only 10 or 50 clinical cases, synthetic data augmentation yields significant improvement compared to a setting where no synthetic data is used. To the best of our knowledge, this presents the first comparative analysis of synthetic data augmentation based on image-to-image translation, and first application to ischemic stroke.
翻訳日:2022-10-10 21:24:46 公開日:2021-10-31
# robustbench: 標準化された逆ロバスト性ベンチマーク

RobustBench: a standardized adversarial robustness benchmark ( http://arxiv.org/abs/2010.09670v3 )

ライセンス: Link先を確認
Francesco Croce, Maksym Andriushchenko, Vikash Sehwag, Edoardo Debenedetti, Nicolas Flammarion, Mung Chiang, Prateek Mittal, Matthias Hein(参考訳) 研究コミュニティとして、我々は相反するロバスト性に関する進歩の体系的な理解に欠けており、ロバストモデルのトレーニングにおいて最も有望なアイデアを特定することが難しいことが多い。 堅牢性ベンチマークの重要な課題は、その評価がしばしばエラーを起こしやすく、堅牢性が過大評価されることだ。 我々の目標は、合理的な計算予算内で考慮されたモデルのロバスト性を可能な限り正確に反映する、敵対的ロバスト性の標準ベンチマークを確立することである。 この目的のために、画像分類タスクを考慮し、許容されたモデルに対する制約(おそらく将来緩和される)を導入することから始める。 本研究は,白黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価し,本論文と比較してほぼすべてのロバスト性評価を改善するための大規模研究を行った。 AutoAttackへの新たな防御の過度適応を防止するため、特にAutoAttackが強靭性を過大評価している場合において、アダプティブアタックに基づく外部評価を歓迎する。 私たちのリーダーボードは、https://robustbench.github.io/でホストされており、120以上のモデルの評価を含んでおり、$\ell_\infty$-および$\ell_2$-threatモデルの一連のよく定義されたタスクで画像分類における現在の技術を反映し、将来的な拡張を含む共通の汚職に関するものです。 さらに、私たちはライブラリhttps://github.com/robustbench/robustbenchをオープンソースとして公開しました。 最後に,収集したモデルに基づいて,分散シフト,キャリブレーション,分散検出,公平性,プライバシリーク,スムース性,転送性に及ぼすロバスト性の影響を分析する。

As a research community, we are still lacking a systematic understanding of the progress on adversarial robustness which often makes it hard to identify the most promising ideas in training robust models. A key challenge in benchmarking robustness is that its evaluation is often error-prone leading to robustness overestimation. Our goal is to establish a standardized benchmark of adversarial robustness, which as accurately as possible reflects the robustness of the considered models within a reasonable computational budget. To this end, we start by considering the image classification task and introduce restrictions (possibly loosened in the future) on the allowed models. We evaluate adversarial robustness with AutoAttack, an ensemble of white- and black-box attacks, which was recently shown in a large-scale study to improve almost all robustness evaluations compared to the original publications. To prevent overadaptation of new defenses to AutoAttack, we welcome external evaluations based on adaptive attacks, especially where AutoAttack flags a potential overestimation of robustness. Our leaderboard, hosted at https://robustbench.github.io/, contains evaluations of 120+ models and aims at reflecting the current state of the art in image classification on a set of well-defined tasks in $\ell_\infty$- and $\ell_2$-threat models and on common corruptions, with possible extensions in the future. Additionally, we open-source the library https://github.com/RobustBench/robustbench that provides unified access to 80+ robust models to facilitate their downstream applications. Finally, based on the collected models, we analyze the impact of robustness on the performance on distribution shifts, calibration, out-of-distribution detection, fairness, privacy leakage, smoothness, and transferability.
翻訳日:2022-10-05 20:20:18 公開日:2021-10-31
# ディープラーニングを用いた連続リアプノフ制御とカオス非線形システムの最適化

Continuous Lyapunov Controller and Chaotic Non-linear System Optimization using Deep Machine Learning ( http://arxiv.org/abs/2010.14746v4 )

ライセンス: Link先を確認
Amr Mahmoud, Youmna Ismaeil and Mohamed Zohdy(参考訳) 予期せぬシステム障害と新しいシステムダイナミクスの導入は、継続的なシステムの安定性を保証できない。 本研究では,非線形高カオスシステムの早期故障指標を検出するための新しい手法を提案する。 提案手法はシステムとコントローラ信号を継続的に監視する。 システムとコントローラパラメータの再調整は、システム速度、意図された結果、必要な処理能力に妥協することなくシステムの安定性を維持するために設計された一連の条件に従ってトリガーされる。 ディープニューラルモデルは、期待されるシステムの不安定性に最も逆らうパラメータ値を予測します。 提案手法の有効性を実証するため, Duffing Van der pol 発振器の非線形複素結合に適用した。 このアプローチは、システムとコントローラパラメータが最初に誤って選択されたり、実行中にシステムパラメータを変更したり、有効性と反応時間を測定するために実行中にシステムダイナミクスを導入したりするさまざまなシナリオでテストされる。

The introduction of unexpected system disturbances and new system dynamics does not allow guaranteed continuous system stability. In this research we present a novel approach for detecting early failure indicators of non-linear highly chaotic system and accordingly predict the best parameter calibrations to offset such instability using deep machine learning regression model. The approach proposed continuously monitors the system and controller signals. The Re-calibration of the system and controller parameters is triggered according to a set of conditions designed to maintain system stability without compromise to the system speed, intended outcome or required processing power. The deep neural model predicts the parameter values that would best counteract the expected system in-stability. To demonstrate the effectiveness of the proposed approach, it is applied to the non-linear complex combination of Duffing Van der pol oscillators. The approach is also tested under different scenarios the system and controller parameters are initially chosen incorrectly or the system parameters are changed while running or new system dynamics are introduced while running to measure effectiveness and reaction time.
翻訳日:2022-10-02 05:02:55 公開日:2021-10-31
# 学習画像圧縮における因果関係予測

Causal Contextual Prediction for Learned Image Compression ( http://arxiv.org/abs/2011.09704v5 )

ライセンス: Link先を確認
Zongyu Guo, Zhizheng Zhang, Runsen Feng, Zhibo Chen(参考訳) 過去数年間、我々は学習した画像圧縮の分野で驚くべき進歩を見てきた。 近年の学習画像コーデックはオートエンコーダに基づいており、まずイメージを低次元の潜在表現にエンコードし、再構成のためにデコードする。 遅延空間における空間依存性を捉えるために、先行研究はハイパープライアおよび空間コンテキストモデルを利用してエントロピーモデルを構築し、エンドツーエンドの速度-歪み最適化のビットレートを推定する。 しかし、このようなエントロピーモデルは、(1)潜伏者間の空間的グローバルな相関を捉えないという2つの側面から最適である。 2) 潜在者のチャネル間関係は未検討のままである。 本稿では, 潜在空間における因果的文脈エントロピー予測に逐次復号法を利用するため, 分離エントロピー符号化の概念を提案する。 チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。 さらに、未知の点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。 これら2つのモデルは、オーバーヘッドの伝達なしにエントロピー推定を促進する。 さらに,より強力なトランスフォーメーションネットワークを構築するために,新たなアテンションモジュールを新たに採用する。 実験結果から,PSNRとMS-SSIMの両面で,コダックデータセット上の標準VVC/H.266コーデックよりも高い性能を示し,最先端の速度歪み性能が得られることがわかった。

Over the past several years, we have witnessed impressive progress in the field of learned image compression. Recent learned image codecs are commonly based on autoencoders, that first encode an image into low-dimensional latent representations and then decode them for reconstruction purposes. To capture spatial dependencies in the latent space, prior works exploit hyperprior and spatial context model to build an entropy model, which estimates the bit-rate for end-to-end rate-distortion optimization. However, such an entropy model is suboptimal from two aspects: (1) It fails to capture spatially global correlations among the latents. (2) Cross-channel relationships of the latents are still underexplored. In this paper, we propose the concept of separate entropy coding to leverage a serial decoding process for causal contextual entropy prediction in the latent space. A causal context model is proposed that separates the latents across channels and makes use of cross-channel relationships to generate highly informative contexts. Furthermore, we propose a causal global prediction model, which is able to find global reference points for accurate predictions of unknown points. Both these two models facilitate entropy estimation without the transmission of overhead. In addition, we further adopt a new separate attention module to build more powerful transform networks. Experimental results demonstrate that our full image compression model outperforms standard VVC/H.266 codec on Kodak dataset in terms of both PSNR and MS-SSIM, yielding the state-of-the-art rate-distortion performance.
翻訳日:2022-09-23 21:46:09 公開日:2021-10-31
# (参考訳) 機械学習による癌予知:中皮腫

Predicting Cancer Using Supervised Machine Learning: Mesothelioma ( http://arxiv.org/abs/2111.01912v1 )

ライセンス: CC BY 4.0
Avishek Choudhury(参考訳) 背景: 胸膜中皮腫 (Pleural Mesothelioma, PM) は異常な悪性腫瘍であり, 肺胸膜癌に急速に進展する。 胸膜中皮腫(英: pleural mesothelioma)は、アメリカ合衆国で毎年診断される中皮腫の約75%を占める、一般的な中皮腫の一種である。 PM診断に伴うリスクと制約を考えると,早期診断は患者の健康に不可欠である。 目的:本研究では,MPMの早期診断と予後に最適な適合モデルを提案する人工知能アルゴリズムを用いた。 方法: トルコ, ディクル大学, および応用多層型パーセプトロン (mlp), 投票型パーセプトロン (vp), clojure分類器 (cc), カーネルロジスティック回帰 (klr), 確率勾配有意なsgd), アダプティブ・ブースティング (adaboost), ホッフィンディングツリー (vfdt), サポートベクターマシン (s-pegasos) のサブグレード・ソルバ (primal estimated sub-gradient solver) によって収集された臨床データをふりかえりに検索した。 それぞれの分類精度、f測定、精度、リコール、ルート平均二乗誤差、レシーバ特性曲線(ROC)、精度-リコール曲線(PRC)に基づいて、ペアTテスト(補正)を0.05の精度で比較、評価した。 結果: フェーズ1, SGD, AdaBoost。 M1,KLR,MLP,VFDTは最高性能測定値で最適結果を生成する。 フェーズ2では、分類精度71.29%のadaboostが、他のアルゴリズムよりも優れていた。 C-reactive protein, platelet count, duration of symptoms, gender, and pleural proteinが中皮腫の診断に最も有用であった。 結論: 生検および想像検査から得られたデータは中皮腫の強い予測因子であるが, 高いコストを伴っているが, 最適な精度で中皮腫を同定できる。

Background: Pleural Mesothelioma (PM) is an unusual, belligerent tumor that rapidly develops into cancer in the pleura of the lungs. Pleural Mesothelioma is a common type of Mesothelioma that accounts for about 75% of all Mesothelioma diagnosed yearly in the U.S. Diagnosis of Mesothelioma takes several months and is expensive. Given the risk and constraints associated with PM diagnosis, early identification of this ailment is essential for patient health. Objective: In this study, we use artificial intelligence algorithms recommending the best fit model for early diagnosis and prognosis of MPM. Methods: We retrospectively retrieved patients clinical data collected by Dicle University, Turkey, and applied multilayered perceptron (MLP), voted perceptron (VP), Clojure classifier (CC), kernel logistic regression (KLR), stochastic gradient decent SGD), adaptive boosting (AdaBoost), Hoeffding tree (VFDT), and primal estimated sub-gradient solver for support vector machine (s-Pegasos). We evaluated the models, compared and tested using paired T-test (corrected) at 0.05 significance based on their respective classification accuracy, f-measure, precision, recall, root mean squared error, receivers characteristic curve (ROC), and precision-recall curve (PRC). Results: In phase-1, SGD, AdaBoost. M1, KLR, MLP, VFDT generate optimal results with the highest possible performance measures. In phase 2, AdaBoost, with a classification accuracy of 71.29%, outperformed all other algorithms. C-reactive protein, platelet count, duration of symptoms, gender, and pleural protein were found to be the most relevant predictors that can prognosticate Mesothelioma. Conclusion: This study confirms that data obtained from Biopsy and imagining tests are strong predictors of Mesothelioma but are associated with a high cost; however, they can identify Mesothelioma with optimal accuracy.
翻訳日:2021-11-05 01:54:13 公開日:2021-10-31
# 感性と文のタイプに基づくYouTubeコメントの分類

Classifying YouTube Comments Based on Sentiment and Type of Sentence ( http://arxiv.org/abs/2111.01908v1 )

ライセンス: Link先を確認
Rhitabrat Pokharel and Dixit Bhatta(参考訳) YouTubeチャンネルが大きくなると、各ビデオは膨大な量のコメントを集め、視聴者から直接フィードバックを得られる。 これらのコメントは視聴者の期待を理解し、チャンネルのエンゲージメントを改善する主要な手段だ。 しかし、コメントはチャンネルとコンテンツに関する一般的なユーザの意見の集まりを表すだけである。 多くのコメントは貧弱で、自明で、不適切な綴りや文法上の誤りがある。 結果として、コンテンツクリエイターが最も興味を持つコメントを特定するのは退屈な仕事です。 本稿では、感情と文のタイプに基づいて、生のコメントを異なるカテゴリに分けて抽出し、視聴者の関心を増すための関連コメントを見つけるのに役立つ。 既存の研究では、テキストコーパス上の同じ文タイプ(例えば、質問の種類)における感情分析(肯定的および否定的)またはサブタイプの分類に焦点を当てている。 これらはYouTubeコメントのような従来のテキストコーパスに限られている。 我々は、よく知られた統計測度と機械学習モデルを用いて、YouTubeコメントからのテキスト抽出と分類の課題に対処する。 統計的尺度と機械学習モデルの組み合わせをクロス検証と$f_1$スコアを用いて評価する。 その結果,従来の手法を組み込んだアプローチは分類作業において良好に機能し,コンテンツクリエーターのチャンネルへのエンゲージメント向上を支援する可能性を検証することができた。

As a YouTube channel grows, each video can potentially collect enormous amounts of comments that provide direct feedback from the viewers. These comments are a major means of understanding viewer expectations and improving channel engagement. However, the comments only represent a general collection of user opinions about the channel and the content. Many comments are poorly constructed, trivial, and have improper spellings and grammatical errors. As a result, it is a tedious job to identify the comments that best interest the content creators. In this paper, we extract and classify the raw comments into different categories based on both sentiment and sentence types that will help YouTubers find relevant comments for growing their viewership. Existing studies have focused either on sentiment analysis (positive and negative) or classification of sub-types within the same sentence types (e.g., types of questions) on a text corpus. These have limited application on non-traditional text corpus like YouTube comments. We address this challenge of text extraction and classification from YouTube comments using well-known statistical measures and machine learning models. We evaluate each combination of statistical measure and the machine learning model using cross validation and $F_1$ scores. The results show that our approach that incorporates conventional methods performs well on the classification task, validating its potential in assisting content creators increase viewer engagement on their channel.
翻訳日:2021-11-04 14:03:17 公開日:2021-10-31
# (参考訳) 階層的決定アンサンブル-法医学検査における不確実な人間-AI協調のための推論枠組み

Hierarchical Decision Ensembles- An inferential framework for uncertain Human-AI collaboration in forensic examinations ( http://arxiv.org/abs/2111.01131v1 )

ライセンス: CC BY-SA 4.0
Ganesh Krishnan, Heike Hofmann(参考訳) 銃器やツールマークのような証拠の法医学的検証は、伝統的に2つの質問事項の類似性に関する視覚的かつ主観的な評価を伴う。 統計モデルは、この主観性を克服し、エラー率の指定を可能にするために使用される。 これらのモデルは概して非常に複雑であり、分析の異なるレベルで抽象的な結果を生み出す。 このような測定値や複雑な結果を検査者に提示することは困難であり、検査官は結果を正確に解釈するための実質的な統計訓練を持っていない。 これは統計モデリングにおける不信を生じさせ、より大きな分野が求めているより客観的な尺度の受け入れ率を低下させる。 モデルとその出力を評価するための推論フレームワークを提案する。 このフレームワークは、ドメイン固有の知識と予測モデル結果のギャップを埋めることによって、鑑識専門家の信頼を調整し、鑑識者が予測モデルのクレームを批判的に評価しながら検証できるようにするように設計されている。

Forensic examination of evidence like firearms and toolmarks, traditionally involves a visual and therefore subjective assessment of similarity of two questioned items. Statistical models are used to overcome this subjectivity and allow specification of error rates. These models are generally quite complex and produce abstract results at different levels of the analysis. Presenting such metrics and complicated results to examiners is challenging, as examiners generally do not have substantial statistical training to accurately interpret results. This creates distrust in statistical modelling and lowers the rate of acceptance of more objective measures that the discipline at large is striving for. We present an inferential framework for assessing the model and its output. The framework is designed to calibrate trust in forensic experts by bridging the gap between domain specific knowledge and predictive model results, allowing forensic examiners to validate the claims of the predictive model while critically assessing results.
翻訳日:2021-11-04 03:02:06 公開日:2021-10-31
# (参考訳) モデル校正の観点からの知識蒸留の再考

Rethinking the Knowledge Distillation From the Perspective of Model Calibration ( http://arxiv.org/abs/2111.01684v1 )

ライセンス: CC BY 4.0
Lehan Yang, Jincen Song(参考訳) 近年、知識蒸留の大幅な改善が見られ、教師モデルのモデルの有効性を維持しつつ、より効率的な生徒モデルを生成することができる。 より正確な教師は、能力のミスマッチのためにより良い教師を作る必要はない。 本稿では,モデルキャリブレーションの観点からその現象を分析することを目的とする。 より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できない。 教師モデルの簡易モデルキャリブレーションを行った結果,教師モデルのサイズは,生徒モデルの性能と正の相関を示した。

Recent years have witnessed dramatically improvements in the knowledge distillation, which can generate a compact student model for better efficiency while retaining the model effectiveness of the teacher model. Previous studies find that: more accurate teachers do not necessary make for better teachers due to the mismatch of abilities. In this paper, we aim to analysis the phenomenon from the perspective of model calibration. We found that the larger teacher model may be too over-confident, thus the student model cannot effectively imitate. While, after the simple model calibration of the teacher model, the size of the teacher model has a positive correlation with the performance of the student model.
翻訳日:2021-11-04 02:59:46 公開日:2021-10-31
# インテリジェントレーザースペックル分類(ilsc)による皮膚細胞構造に対するcovid-19ワクチン接種効果の経時的観察

Progressive observation of Covid-19 vaccination effects on skin-cellular structures by use of Intelligent Laser Speckle Classification (ILSC) ( http://arxiv.org/abs/2111.01682v1 )

ライセンス: Link先を確認
Ahmet Orun, Fatih Kurugollu(参考訳) 我々は、高度に確立されたインテリジェントレーザースペックル分類(ilsc)技術を用いて、皮膚細胞ネットワークおよび特性に対する新型コロナウイルスアストラゼネカワクチンの予防接種効果を進行的に観察し、早期・後期・非ワクチン者等のレーザースペックル皮膚画像サンプリングにより、3つの異なる被験者グループを識別した。 その結果, 最適化ベイズネットワークと連動したilsc技術は, 予防接種者および非予防接種者の皮膚変化を分類し, 1ヶ月間の皮膚細胞特性の進行的発達を検知できることがわかった。

We have made a progressive observation of Covid-19 Astra Zeneca Vaccination effect on Skin cellular network and properties by use of well established Intelligent Laser Speckle Classification (ILSC) image based technique and managed to distinguish between three different subjects groups via their laser speckle skin image samplings such as early-vaccinated, late-vaccinated and non-vaccinated individuals. The results have proven that the ILSC technique in association with the optimised Bayesian network is capable of classifying skin changes of vaccinated and non-vaccinated individuals and also of detecting progressive development made on skin cellular properties for a month period.
翻訳日:2021-11-03 14:13:46 公開日:2021-10-31
# (参考訳) FANS: デバイス上でのSLUにASRとNLUを融合させる

FANS: Fusing ASR and NLU for on-device SLU ( http://arxiv.org/abs/2111.00400v1 )

ライセンス: CC BY 4.0
Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow(参考訳) 音声言語理解(slu)システムは、音声入力コマンドを意図とスロットタグと値のペアとしてエンコードされる意味論に変換する。 現在のほとんどのSLUシステムは、2つのニューラルモデルのカスケードをデプロイしており、1つは入力されたオーディオをトランスクリプト(ASR)にマッピングし、2つはインテントとスロットをトランスクリプト(NLU)から予測する。 本稿では,asrオーディオエンコーダをマルチタスクnluデコーダに融合し,入力音声から意図やスロットタグ,スロット値を直接推測し,書き起こしの必要性を回避した,新しいエンドツーエンドsluモデルであるfanを紹介する。 FANSは共有オーディオエンコーダと3つのデコーダで構成され、そのうち2つは非nullスロットタグとスロット値を並列かつ自動回帰的に予測するSeq-to-seqデコーダである。 FANSニューラルエンコーダとデコーダアーキテクチャは柔軟性があり、LSTM、自己注意、参加者の異なる組み合わせを利用することができます。 実験の結果, ICER と IRER の誤差は, 社内の SLU データセットで比較した場合, ICER と IRER の誤差を 30% と 7% に, パブリックな SLU データセットでは 0.86 % と 2 % に削減できることがわかった。

Spoken language understanding (SLU) systems translate voice input commands to semantics which are encoded as an intent and pairs of slot tags and values. Most current SLU systems deploy a cascade of two neural models where the first one maps the input audio to a transcript (ASR) and the second predicts the intent and slots from the transcript (NLU). In this paper, we introduce FANS, a new end-to-end SLU model that fuses an ASR audio encoder to a multi-task NLU decoder to infer the intent, slot tags, and slot values directly from a given input audio, obviating the need for transcription. FANS consists of a shared audio encoder and three decoders, two of which are seq-to-seq decoders that predict non null slot tags and slot values in parallel and in an auto-regressive manner. FANS neural encoder and decoders architectures are flexible which allows us to leverage different combinations of LSTM, self-attention, and attenders. Our experiments show compared to the state-of-the-art end-to-end SLU models, FANS reduces ICER and IRER errors relatively by 30 % and 7 %, respectively, when tested on an in-house SLU dataset and by 0.86 % and 2 % absolute when tested on a public SLU dataset.
翻訳日:2021-11-03 10:31:55 公開日:2021-10-31
# (参考訳) 4次畳み込みニューラルネットワークを用いた音声感情認識

Speech Emotion Recognition Using Quaternion Convolutional Neural Networks ( http://arxiv.org/abs/2111.00404v1 )

ライセンス: CC BY 4.0
Aneesh Muppidi and Martin Radfar(参考訳) 音声認識は広く普及している技術だが、音声信号から感情を推測することは依然として課題である。 そこで本研究では,音声信号のメルスペクトル特徴をRGB四元数領域に符号化した,QCNNに基づく音声感情認識(SER)モデルを提案する。 我々のQCNNに基づくSERモデルは、Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes) データセットにおいて、我々の知識、最先端の成果に対して、他の実測手法よりも優れていることを示す。 QCNNはまた、Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes)とBerlin EMO-DB (7-classes)データセットの最先端メソッドと同等の結果を得る。 具体的には、RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87\%、70.46\%、88.78\%である。 さらに,四元単位構造は内部依存性をエンコードし,他の手法に比べてモデルサイズを大幅に削減できることを示した。

Although speech recognition has become a widespread technology, inferring emotion from speech signals still remains a challenge. To address this problem, this paper proposes a quaternion convolutional neural network (QCNN) based speech emotion recognition (SER) model in which Mel-spectrogram features of speech signals are encoded in an RGB quaternion domain. We show that our QCNN based SER model outperforms other real-valued methods in the Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes) dataset, achieving, to the best of our knowledge, state-of-the-art results. The QCNN also achieves comparable results with the state-of-the-art methods in the Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes) and Berlin EMO-DB (7-classes) datasets. Specifically, the model achieves an accuracy of 77.87\%, 70.46\%, and 88.78\% for the RAVDESS, IEMOCAP, and EMO-DB datasets, respectively. In addition, our results show that the quaternion unit structure is better able to encode internal dependencies to reduce its model size significantly compared to other methods.
翻訳日:2021-11-03 10:17:35 公開日:2021-10-31
# (参考訳) Google Trendsを住民行動のプロキシとして利用して建設エネルギー消費を予測する

Using Google Trends as a proxy for occupant behavior to predict building energy consumption ( http://arxiv.org/abs/2111.00426v1 )

ライセンス: CC BY 4.0
Chun Fu and Clayton Miller(参考訳) 近年、大量のエネルギーデータと高度な機械学習アルゴリズムが利用可能になり、建築エネルギー予測の研究が急増している。 しかし, エネルギー予測モデルの1つの変数, 占有行動は, 予測性能には不可欠であるが, それぞれの建物から収集するのに時間を要する。 本研究では,Google Trendsプラットフォーム上でのトピックの検索量(例えば,教育,Microsoft Excel)を,利用者の行動と建物利用のプロキシとして利用するアプローチを提案する。 まず, エネルギーメータデータとGoogle Trends検索語の関係を調査し, 建物占有率を推定した。 ASHRAE Great Energy Predictor III(GEPIII)コンペティションデータセットに基づいて,これらの用語の傾向の前後の予測誤差を比較し,分析した。 その結果、高い相関性を持つGoogle Trendsデータは、建物のサブセット全体のRMSLEエラーを、GEPIIIコンペティションの上位5チームのパフォーマンスのレベルに効果的に低減できることを示した。 特に、休日のrmsleエラー低減とサイト固有のスケジュールの日数をそれぞれ20-30%と2-5%削減する。 これらの結果は、サイト固有のスケジュールとホリデースケジュールを自動的に特定することによって、google trendsを使って建物の一部のエネルギー予測を改善する可能性を示している。

In recent years, the availability of larger amounts of energy data and advanced machine learning algorithms has created a surge in building energy prediction research. However, one of the variables in energy prediction models, occupant behavior, is crucial for prediction performance but hard-to-measure or time-consuming to collect from each building. This study proposes an approach that utilizes the search volume of topics (e.g., education} or Microsoft Excel) on the Google Trends platform as a proxy of occupant behavior and use of buildings. Linear correlations were first examined to explore the relationship between energy meter data and Google Trends search terms to infer building occupancy. Prediction errors before and after the inclusion of the trends of these terms were compared and analyzed based on the ASHRAE Great Energy Predictor III (GEPIII) competition dataset. The results show that highly correlated Google Trends data can effectively reduce the overall RMSLE error for a subset of the buildings to the level of the GEPIII competition's top five winning teams' performance. In particular, the RMSLE error reduction during public holidays and days with site-specific schedules are respectively reduced by 20-30% and 2-5%. These results show the potential of using Google Trends to improve energy prediction for a portion of the building stock by automatically identifying site-specific and holiday schedules.
翻訳日:2021-11-03 10:06:55 公開日:2021-10-31
# (参考訳) 連合学習における効率的な受動メンバーシップ推論攻撃

Efficient passive membership inference attack in federated learning ( http://arxiv.org/abs/2111.00430v1 )

ライセンス: CC BY 4.0
Oualid Zari, Chuan Xu, Giovanni Neglia(参考訳) クロスデバイス・フェデレーション・ラーニング(FL)では、モバイルなどのクライアントがサーバと連携してグローバルな機械学習モデルをトレーニングし、データをローカルに保持する。 しかし、最近の研究によると、クライアントのプライベート情報は、クライアントとサーバの間で交換されたメッセージを盗聴する相手に開示することができる。 例えば、敵は、受動的メンバーシップ推論攻撃と呼ばれる特定のデータインスタンスを所有しているかどうかを推測することができる。 本稿では,既存の手法よりも計算能力とメモリをはるかに少なくする新しい受動的推論攻撃を提案する。 私たちの実験結果は、cifar100データセット(4ドル以上のパーセンテージポイント)において、3桁のメモリスペースと5桁の計算で高い精度を達成していることを示している。

In cross-device federated learning (FL) setting, clients such as mobiles cooperate with the server to train a global machine learning model, while maintaining their data locally. However, recent work shows that client's private information can still be disclosed to an adversary who just eavesdrops the messages exchanged between the client and the server. For example, the adversary can infer whether the client owns a specific data instance, which is called a passive membership inference attack. In this paper, we propose a new passive inference attack that requires much less computation power and memory than existing methods. Our empirical results show that our attack achieves a higher accuracy on CIFAR100 dataset (more than $4$ percentage points) with three orders of magnitude less memory space and five orders of magnitude less calculations.
翻訳日:2021-11-03 09:47:52 公開日:2021-10-31
# (参考訳) シミュレーションに基づく最適化のためのアクタクリティカル法

An Actor-Critic Method for Simulation-Based Optimization ( http://arxiv.org/abs/2111.00435v1 )

ライセンス: CC BY 4.0
Kuo Li, Qing-Shan Jia, Jiaqi Yan(参考訳) 実現可能な空間から最適設計を選択するためのシミュレーションに基づく最適化問題に着目する。 シミュレーションモデルは有限サンプルでクエリできるが、その内部処理ルールは最適化プロセスでは利用できない。 我々は,このサンプリングプロセスを方針探索問題として定式化し,強化学習(rl)の観点から解を与える。 具体的には Actor-Critic (AC) フレームワークが適用され、アクターは未知の設計の性能を予測する代理モデルとして機能し、アクターはサンプリングポリシーを符号化する。 更新ルールを設計し,実現可能な空間がそれぞれ連続かつ個別である場合の2つのアルゴリズムを提案する。 提案されたアルゴリズムの有効性を検証するために設計された実験は、直感的にアルゴリズムを説明する2つのおもちゃの例と、大規模問題の有効性を検証する2つのより複雑なタスク、すなわち敵攻撃タスクとRLタスクである。 その結果,提案アルゴリズムはこれらの問題に対処できることがわかった。 特に,RLタスクでは,タスクをシミュレーションモデルとして扱い,ポリシ生成プロセスの最適化によって解決することで,ロボット制御に対する新たな視点を提供する一方で,既存の作業はポリシ自体を直接最適化する。

We focus on a simulation-based optimization problem of choosing the best design from the feasible space. Although the simulation model can be queried with finite samples, its internal processing rule cannot be utilized in the optimization process. We formulate the sampling process as a policy searching problem and give a solution from the perspective of Reinforcement Learning (RL). Concretely, Actor-Critic (AC) framework is applied, where the Actor serves as a surrogate model to predict the performance on unknown designs, whereas the actor encodes the sampling policy to be optimized. We design the updating rule and propose two algorithms for the cases where the feasible spaces are continuous and discrete respectively. Some experiments are designed to validate the effectiveness of proposed algorithms, including two toy examples, which intuitively explain the algorithms, and two more complex tasks, i.e., adversarial attack task and RL task, which validate the effectiveness in large-scale problems. The results show that the proposed algorithms can successfully deal with these problems. Especially note that in the RL task, our methods give a new perspective to robot control by treating the task as a simulation model and solving it by optimizing the policy generating process, while existing works commonly optimize the policy itself directly.
翻訳日:2021-11-03 09:40:58 公開日:2021-10-31
# (参考訳) 分散型マルチエージェント強化学習:オフポリティ法

Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method ( http://arxiv.org/abs/2111.00438v1 )

ライセンス: CC BY 4.0
Kuo Li, Qing-Shan Jia(参考訳) 本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。 私たちの設定では、グローバルステート、アクション、報酬は完全に監視可能であると仮定され、ローカルポリシーは各エージェントによってプライバシとして保護されるため、他の人と共有することはできない。 通信グラフがあり、エージェントは隣人と情報を交換することができる。 エージェントは個々の決定を行い、より高い報酬を得るために協力します。 そこで我々はまず,分散型アクター批判(AC)設定を提案する。 次に,政策評価と政策改善アルゴリズムをそれぞれ,離散的かつ連続的な状態空間マルコフ決定プロセス(MDP)のために設計する。 さらに、政策評価のプロセスと政策改善のプロセスの交互化によって政策が強化されることを保証する離散空間の場合、収束分析を行う。 アルゴリズムの有効性を検証するために、実験を設計・比較し、q-learning \cite{watkins1992q} や maddpg \cite{lowe2017multi} など以前のアルゴリズムと比較する。 その結果,学習速度と最終性能の両面から,アルゴリズムの性能が向上した。 さらに、アルゴリズムはオフポリシー方式で実行することができ、オンポリシーアルゴリズムに比べてデータ効率が大幅に向上する。

We discuss the problem of decentralized multi-agent reinforcement learning (MARL) in this work. In our setting, the global state, action, and reward are assumed to be fully observable, while the local policy is protected as privacy by each agent, and thus cannot be shared with others. There is a communication graph, among which the agents can exchange information with their neighbors. The agents make individual decisions and cooperate to reach a higher accumulated reward. Towards this end, we first propose a decentralized actor-critic (AC) setting. Then, the policy evaluation and policy improvement algorithms are designed for discrete and continuous state-action-space Markov Decision Process (MDP) respectively. Furthermore, convergence analysis is given under the discrete-space case, which guarantees that the policy will be reinforced by alternating between the processes of policy evaluation and policy improvement. In order to validate the effectiveness of algorithms, we design experiments and compare them with previous algorithms, e.g., Q-learning \cite{watkins1992q} and MADDPG \cite{lowe2017multi}. The results show that our algorithms perform better from the aspects of both learning speed and final performance. Moreover, the algorithms can be executed in an off-policy manner, which greatly improves the data efficiency compared with on-policy algorithms.
翻訳日:2021-11-03 09:29:48 公開日:2021-10-31
# (参考訳) 局所3次元ディープディスクリプタを用いたループクロージャ検出

Loop closure detection using local 3D deep descriptors ( http://arxiv.org/abs/2111.00440v1 )

ライセンス: CC BY 4.0
Youjie Zhou, Yiming Wang, Fabio Poiesi, Qi Qin and Yi Wan(参考訳) 本稿では,局所的3次元ディープディスクリプタ(l3ds)を用いた同時局所化とマッピングにおけるループクロージャ検出の簡易かつ効果的な手法を提案する。 L3Dは、深層学習アルゴリズムを用いてデータから学習した点雲から抽出したパッチのコンパクト表現が出現している。 ループ候補点クラウドを推定された相対的なポーズで登録した後,相互にネアレスト-neighbourディスクリプタに対応する点間の距離誤差を計算し,ループ検出のための新しい重なり尺度を提案する。 この新手法により,ループを高精度に検出し,小さな重なりの場合には6自由度ポーズを推定できる。 l3dベースのループクロージャアプローチとlidarデータに対する最近のアプローチを比較し,最新ループクロージャ検出精度を実現する。 さらに,最新のエッジベースSLAMシステムであるRESLAMにループクロージャアプローチを組み込んで,実世界のRGBD-TUMと合成ICLデータセットの評価を行う。 提案手法により、RESLAMは元のループ閉鎖戦略と比較して、より高精度なローカライゼーションを実現することができる。

We present a simple yet effective method to address loop closure detection in simultaneous localisation and mapping using local 3D deep descriptors (L3Ds). L3Ds are emerging compact representations of patches extracted from point clouds that are learned from data using a deep learning algorithm. We propose a novel overlap measure for loop detection by computing the metric error between points that correspond to mutually-nearest-neighbour descriptors after registering the loop candidate point cloud by its estimated relative pose. This novel approach enables us to accurately detect loops and estimate six degrees-of-freedom poses in the case of small overlaps. We compare our L3D-based loop closure approach with recent approaches on LiDAR data and achieve state-of-the-art loop closure detection accuracy. Additionally, we embed our loop closure approach in RESLAM, a recent edge-based SLAM system, and perform the evaluation on real-world RGBD-TUM and synthetic ICL datasets. Our approach enables RESLAM to achieve a better localisation accuracy compared to its original loop closure strategy.
翻訳日:2021-11-03 09:12:01 公開日:2021-10-31
# (参考訳) DAdaQuant:コミュニケーション効率向上のための二重適応量子化

DAdaQuant: Doubly-adaptive quantization for communication-efficient Federated Learning ( http://arxiv.org/abs/2111.00465v1 )

ライセンス: CC BY 4.0
Robert H\"onig, Yiren Zhao, Robert Mullins(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントからのデータをプライバシ保存方式でサーバ上でトレーニングするための強力なテクニックである。 flでは、サーバがモデルをすべてのクライアントに送信し、モデルをローカルにトレーニングし、それをサーバに送信する。 サーバは更新されたモデルを集約し、数ラウンドのプロセスを繰り返します。 特に更新されたローカルモデルをクライアントからサーバに送信する場合、flは大きな通信コストを発生させる。 近年,モデルパラメータを定量化してfl通信を効率的に圧縮するアルゴリズムが提案されている。 これらのアルゴリズムは通常、圧縮係数を制御する量子化レベルを持つ。 量子化レベルの動的適応はモデル品質を犠牲にすることなく圧縮を促進することができる。 まず,トレーニングが進むにつれて量子化レベルを増加させる時間適応量子化アルゴリズムを提案する。 次に、各クライアントに最適な量子化レベルをラウンド毎に割り当てるクライアント適応量子化アルゴリズムを提案する。 最後に、両アルゴリズムを2倍適応量子化アルゴリズムであるDAdaQuantに結合する。 我々の実験によると、DAdaQuantはクライアント$\rightarrow$server圧縮を一貫して改善し、最強の非適応ベースラインを最大2.8\times$で上回っている。

Federated Learning (FL) is a powerful technique for training a model on a server with data from several clients in a privacy-preserving manner. In FL, a server sends the model to every client, who then train the model locally and send it back to the server. The server aggregates the updated models and repeats the process for several rounds. FL incurs significant communication costs, in particular when transmitting the updated local models from the clients back to the server. Recently proposed algorithms quantize the model parameters to efficiently compress FL communication. These algorithms typically have a quantization level that controls the compression factor. We find that dynamic adaptations of the quantization level can boost compression without sacrificing model quality. First, we introduce a time-adaptive quantization algorithm that increases the quantization level as training progresses. Second, we introduce a client-adaptive quantization algorithm that assigns each individual client the optimal quantization level at every round. Finally, we combine both algorithms into DAdaQuant, the doubly-adaptive quantization algorithm. Our experiments show that DAdaQuant consistently improves client$\rightarrow$server compression, outperforming the strongest non-adaptive baselines by up to $2.8\times$.
翻訳日:2021-11-03 08:54:22 公開日:2021-10-31
# (参考訳) IGCN: 2D/3Dデフォルマブル登録のための画像間畳み込みネットワーク

IGCN: Image-to-graph Convolutional Network for 2D/3D Deformable Registration ( http://arxiv.org/abs/2111.00484v1 )

ライセンス: CC BY 4.0
Megumi Nakao, Mitsuhiro Nakamura, Tetsuya Matsuda(参考訳) 治療中の単射像に基づく臓器形状再構成は、例えば、画像誘導放射線治療や外科的ガイダンスにおいて幅広い臨床範囲を有する。 単一視点2次元投影画像に対する3次元臓器メッシュの変形可能な登録を実現する画像間畳み込みネットワークを提案する。 この枠組みにより、2次元投影画像から変位マップ、サンプリングされたper-vertex特徴からメッシュ構造の幾何学的制約を満たす3次元変位の2種類の変換を同時に訓練することができる。 放射線治療に応用すると仮定すると, 肝, 胃, 十二指腸, 腎臓, 膵癌を対象としていない複数の腹部臓器に対して, 2d/3d変形可能な登録性能が検証される。 実験の結果,多臓器間の関係を考慮した形状予測は,臨床で許容できる精度でデジタル再構成されたx線写真から呼吸運動と変形を予測できることがわかった。

Organ shape reconstruction based on a single-projection image during treatment has wide clinical scope, e.g., in image-guided radiotherapy and surgical guidance. We propose an image-to-graph convolutional network that achieves deformable registration of a 3D organ mesh for a single-viewpoint 2D projection image. This framework enables simultaneous training of two types of transformation: from the 2D projection image to a displacement map, and from the sampled per-vertex feature to a 3D displacement that satisfies the geometrical constraint of the mesh structure. Assuming application to radiation therapy, the 2D/3D deformable registration performance is verified for multiple abdominal organs that have not been targeted to date, i.e., the liver, stomach, duodenum, and kidney, and for pancreatic cancer. The experimental results show shape prediction considering relationships among multiple organs can be used to predict respiratory motion and deformation from digitally reconstructed radiographs with clinically acceptable accuracy.
翻訳日:2021-11-03 08:33:28 公開日:2021-10-31
# (参考訳) FinCausal 2021におけるDSC-IitisM: POSタグと注意に基づく文脈表現の組み合わせによる財務文書の因果関係の特定

DSC-IITISM at FinCausal 2021: Combining POS tagging with Attention-based Contextual Representations for Identifying Causal Relationships in Financial Documents ( http://arxiv.org/abs/2111.00490v1 )

ライセンス: CC BY 4.0
Gunjan Haldar, Aman Mittal and Pradyumna Gupta(参考訳) 因果検出は自然言語処理と言語学研究の分野で多くの注目を集めている。 情報検索、イベント予測、質問応答、財務分析、市場調査において重要な応用がある。 本研究では,変換器を用いて財務文書の因果関係を同定し抽出する手法について検討する。 そこで本研究では,POSタグとBIOスキームを組み合わせる手法を提案する。 ベストメソッドはFinCausal 2021 WorkshopにおけるFinCausal-2021共有タスクにおけるブラインドテストにおけるF1スコア0.9551、Exact Matchスコア0.8777を達成する。

Causality detection draws plenty of attention in the field of Natural Language Processing and linguistics research. It has essential applications in information retrieval, event prediction, question answering, financial analysis, and market research. In this study, we explore several methods to identify and extract cause-effect pairs in financial documents using transformers. For this purpose, we propose an approach that combines POS tagging with the BIO scheme, which can be integrated with modern transformer models to address this challenge of identifying causality in a given text. Our best methodology achieves an F1-Score of 0.9551, and an Exact Match Score of 0.8777 on the blind test in the FinCausal-2021 Shared Task at the FinCausal 2021 Workshop.
翻訳日:2021-11-03 08:13:07 公開日:2021-10-31
# (参考訳) PnPOOD : プラグ・アンド・プレイデータによるテキスト分類のためのアウトオフ分布検出

PnPOOD : Out-Of-Distribution Detection for Text Classification via Plug andPlay Data Augmentation ( http://arxiv.org/abs/2111.00506v1 )

ライセンス: CC BY 4.0
Mrinal Rawat, Ramya Hebbalaguppe, Lovekesh Vig(参考訳) Out-of-distriion (OOD) 検出はコンピュータビジョンにおいてよく研究されているが、OOD検出によるNLP分類の試みは比較的少ない。 本稿では,これらの試みはOOD問題を完全に解決するものではなく,データ漏洩やモデルのキャリブレーションに悩まされる可能性があることを論じる。 本稿では,最近提案されたPlug and Play Language Model (Dathathri et al., 2020) を用いて,OOD検出を行うデータ拡張手法であるPnPOODを提案する。 本手法は, クラス境界に近い高品質な識別サンプルを生成し, 精度の高いOOD検出を行う。 本モデルがoodサンプル検出の先行モデルを上回ることを実証し,20のニュースグループテキストとスタンフォード・センチメント・ツリーバンクデータセット (lang, 1995; socheret al., 2013) において,キャリブレーション誤差が低いことを示した。 さらに、OOD検出に先立つ試みで使用されるデータセットによる重要なデータ漏洩問題を強調し、同じ問題に悩まされないOOD検出のための新しいデータセットで結果を共有する。

While Out-of-distribution (OOD) detection has been well explored in computer vision, there have been relatively few prior attempts in OOD detection for NLP classification. In this paper we argue that these prior attempts do not fully address the OOD problem and may suffer from data leakage and poor calibration of the resulting models. We present PnPOOD, a data augmentation technique to perform OOD detection via out-of-domain sample generation using the recently proposed Plug and Play Language Model (Dathathri et al., 2020). Our method generates high quality discriminative samples close to the class boundaries, resulting in accurate OOD detection at test time. We demonstrate that our model outperforms prior models on OOD sample detection, and exhibits lower calibration error on the 20 newsgroup text and Stanford Sentiment Treebank dataset (Lang, 1995; Socheret al., 2013). We further highlight an important data leakage issue with datasets used in prior attempts at OOD detection, and share results on a new dataset for OOD detection that does not suffer from the same problem.
翻訳日:2021-11-03 08:07:01 公開日:2021-10-31
# (参考訳) 衛星画像を用いた建物損傷評価のための畳み込み型シアムニューラルネットワーク

Fully convolutional Siamese neural networks for buildings damage assessment from satellite images ( http://arxiv.org/abs/2111.00508v1 )

ライセンス: CC BY 4.0
Eugene Khvedchenya and Tatiana Gabruseva(参考訳) 災害後の被害評価は,災害復旧のための援助や力を最適に分配するために必要である。 このプロセスには、関心のある地域のための衛星画像の取得、建物のローカライゼーション、自然や都市による建物への被害量の分類が含まれる。 自然災害の場合、特定の建物が被害を受けたかどうかを判断するために、この地域の平方キロメートルを処理します。 本研究は,災害前後における同一地域の衛星画像の自動比較のための計算手法を開発し,建物内の被害の異なるレベルを分類する。 我々のソリューションはエンコーダ-デコーダアーキテクチャを備えたSiameseニューラルネットワークに基づいている。 エンコーダ,デコーダ,損失関数,拡張,および2つのイメージを結合するいくつかの手法を比較した。 このソリューションは、建築被害評価コンペティションにおけるコンピュータビジョンの最良の結果の1つを達成した。

Damage assessment after natural disasters is needed to distribute aid and forces to recovery from damage dealt optimally. This process involves acquiring satellite imagery for the region of interest, localization of buildings, and classification of the amount of damage caused by nature or urban factors to buildings. In case of natural disasters, this means processing many square kilometers of the area to judge whether a particular building had suffered from the damaging factors. In this work, we develop a computational approach for an automated comparison of the same region's satellite images before and after the disaster, and classify different levels of damage in buildings. Our solution is based on Siamese neural networks with encoder-decoder architecture. We include an extensive ablation study and compare different encoders, decoders, loss functions, augmentations, and several methods to combine two images. The solution achieved one of the best results in the Computer Vision for Building Damage Assessment competition.
翻訳日:2021-11-03 07:54:15 公開日:2021-10-31
# (参考訳) 労働中の胎児の妥協の分類--信号処理と心電図の特徴工学

Classification of fetal compromise during labour: signal processing and feature engineering of the cardiotocograph ( http://arxiv.org/abs/2111.00517v1 )

ライセンス: CC BY 4.0
M. O'Sullivan, T. Gabruseva, G. Boylan, M. O'Riordan, G. Lightbody, W. Marnane(参考訳) 心電図(ctg)は、労働中の胎児のモニタリングに用いられる主要なツールである。 CTGの解釈には動的パターン認識がリアルタイムに必要である。 サーバ間およびサーバ内不一致の高いタスクとして認識されている。 機械学習は、客観的かつ信頼性の高いCTGアセスメントへの実行可能なパスを提供する。 本研究では, 自己回帰移動平均モデル(arma)を用いた臨床専門知識とシステム制御理論に基づいて新しいctg特徴を開発し, 胎児心拍数の収縮に対する応答を特徴付ける。 これらの特徴を機械学習モデルで評価し、胎児の妥協の同定における有効性を評価する。 ARMAは胎児の妥協を検知する主要な特徴にランク付けされている。 さらに、機械学習モデルにおける臨床的要因や信号品質測定に基づくプルーニングデータを含むことにより、分類器の性能が向上した。

Cardiotocography (CTG) is the main tool used for fetal monitoring during labour. Interpretation of CTG requires dynamic pattern recognition in real time. It is recognised as a difficult task with high inter- and intra-observer disagreement. Machine learning has provided a viable path towards objective and reliable CTG assessment. In this study, novel CTG features are developed based on clinical expertise and system control theory using an autoregressive moving-average (ARMA) model to characterise the response of the fetal heart rate to contractions. The features are evaluated in a machine learning model to assess their efficacy in identifying fetal compromise. ARMA features ranked amongst the top features for detecting fetal compromise. Additionally, including clinical factors in the machine learning model and pruning data based on a signal quality measure improved the performance of the classifier.
翻訳日:2021-11-03 07:43:34 公開日:2021-10-31
# (参考訳) FinEAS:センチメントのファイナンシャル・埋め込み分析

FinEAS: Financial Embedding Analysis of Sentiment ( http://arxiv.org/abs/2111.00526v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Miquel Noguer i Alonso, Petter Kolm, Jordi Armengol-Estap\'e(参考訳) 本研究では,FinEAS(Financial Embedding Analysis of Sentiment)と呼ばれる新たな言語表現モデルを導入する。 金融市場では、ニュースと投資家の感情がセキュリティ価格の重要な要因である。 したがって、金融感情分析に現代NLPアプローチの能力を活用することは、市場参加者や規制当局にとって有用なパターンやトレンドを特定する上で重要な要素である。 近年,BERTのような大規模トランスフォーマーベース言語モデルからの伝達学習を利用する手法は,ラベル付きデータセットを用いた感情分析を含むテキスト分類タスクにおいて,最先端の結果を達成している。 研究者はこれらのアプローチを金融文書に迅速に採用してきたが、この分野のベストプラクティスは確立されていない。 本研究では,標準的なBERTモデルからの教師付き微調整文の埋め込みに基づく財務感情分析の新しいモデルを提案する。 提案手法は,バニラBERT,LSTM,ファイナンシャルドメイン固有BERTであるFinBERTと比較して,大幅に改善されている。

We introduce a new language representation model in finance called Financial Embedding Analysis of Sentiment (FinEAS). In financial markets, news and investor sentiment are significant drivers of security prices. Thus, leveraging the capabilities of modern NLP approaches for financial sentiment analysis is a crucial component in identifying patterns and trends that are useful for market participants and regulators. In recent years, methods that use transfer learning from large Transformer-based language models like BERT, have achieved state-of-the-art results in text classification tasks, including sentiment analysis using labelled datasets. Researchers have quickly adopted these approaches to financial texts, but best practices in this domain are not well-established. In this work, we propose a new model for financial sentiment analysis based on supervised fine-tuned sentence embeddings from a standard BERT model. We demonstrate our approach achieves significant improvements in comparison to vanilla BERT, LSTM, and FinBERT, a financial domain specific BERT.
翻訳日:2021-11-03 07:35:51 公開日:2021-10-31
# (参考訳) 顔から歩行へ:歩行パターンからのジェンダー情報の弱教師付き学習

From Face to Gait: Weakly-Supervised Learning of Gender Information from Walking Patterns ( http://arxiv.org/abs/2111.00538v1 )

ライセンス: CC BY 4.0
Andy Catruna, Adrian Cosma, Ion Emilian Radoi(参考訳) ビデオから人口統計情報を取得することは、さまざまな現実世界のアプリケーションにとって価値がある。 性別推論に顔の特徴を利用するアプローチは、抑制された環境では非常に成功したが、被写体がカメラに向き合っていない場合や、カメラからの距離や解像度が悪いため顔がはっきりしない場合、ほとんどの現実世界のシナリオでは機能しない。 歩行の仕方に基づいて性別情報を学習するための弱教師付き手法を提案する。 最先端の顔分析モデルを用いて,前景の歩行順序を自動注釈化し,歩行に基づくラベル伝搬を活用し,目立たない角度に一般化する。 以上の結果から,f1スコアが91%の顔分析モデルと同等以上の性能を示し,被写体がカメラに向き合わなかったり顔が邪魔されたりするため,顔分析が実現不可能となるシナリオを一般化することに成功した。

Obtaining demographics information from video is valuable for a range of real-world applications. While approaches that leverage facial features for gender inference are very successful in restrained environments, they do not work in most real-world scenarios when the subject is not facing the camera, has the face obstructed or the face is not clear due to distance from the camera or poor resolution. We propose a weakly-supervised method for learning gender information of people based on their manner of walking. We make use of state-of-the art facial analysis models to automatically annotate front-view walking sequences and generalise to unseen angles by leveraging gait-based label propagation. Our results show on par or higher performance with facial analysis models with an F1 score of 91% and the ability to successfully generalise to scenarios in which facial analysis is unfeasible due to subjects not facing the camera or having the face obstructed.
翻訳日:2021-11-03 07:27:13 公開日:2021-10-31
# (参考訳) 文埋め込みを用いたラウンドトリップ翻訳による品質推定

Quality Estimation Using Round-trip Translation with Sentence Embeddings ( http://arxiv.org/abs/2111.00554v1 )

ライセンス: CC BY 4.0
Nathan Crone, Adam Power, John Weldon(参考訳) 機械翻訳システムの品質を推定することは、この分野の研究者にとって現在進行中の課題である。 従来, 品質評価尺度としてラウンドトリップ翻訳を用いた試みは失敗したが, 品質評価の有効な方法であるかどうかについては異論が多い。 本稿では,これまでの落とし穴を解決するシステムを提案するため,往復翻訳を再検討する。 本手法は,最近の言語表現学習の進歩を利用して,原文とラウンドトリップ文の類似度をより正確に評価する。 実験によると、我々のアプローチは現在のartメソッドのパフォーマンスには達していないが、一部の言語ペアにとって効果的なアプローチである可能性がある。

Estimating the quality of machine translation systems has been an ongoing challenge for researchers in this field. Many previous attempts at using round-trip translation as a measure of quality have failed, and there is much disagreement as to whether it can be a viable method of quality estimation. In this paper, we revisit round-trip translation, proposing a system which aims to solve the previous pitfalls found with the approach. Our method makes use of recent advances in language representation learning to more accurately gauge the similarity between the original and round-trip translated sentences. Experiments show that while our approach does not reach the performance of current state of the art methods, it may still be an effective approach for some language pairs.
翻訳日:2021-11-03 07:26:16 公開日:2021-10-31
# (参考訳) ハミルトンニューラルネットワークによる勾配学習は可能か?

Can we learn gradients by Hamiltonian Neural Networks? ( http://arxiv.org/abs/2111.00565v1 )

ライセンス: CC BY-SA 4.0
Aleksandr Timofeev, Andrei Afonin, Yehao Liu(参考訳) 本研究では,ODEニューラルネットワークに基づくメタラーナを提案し,勾配を学習する。 このアプローチにより、オプティマイザは与えられたタスクに対する自動帰納バイアスを誘導するよりも柔軟になる。 最も単純なハミルトニアンニューラルネットワークを用いて,人工タスクのためのlstmと最適化されたreluアクティベーションを持つmnistデータセットに基づくメタリーナーよりも優れることを示す。 さらに、人工タスクの古典的な最適化手法を超越し、MNISTに匹敵する結果を得る。

In this work, we propose a meta-learner based on ODE neural networks that learns gradients. This approach makes the optimizer is more flexible inducing an automatic inductive bias to the given task. Using the simplest Hamiltonian Neural Network we demonstrate that our method outperforms a meta-learner based on LSTM for an artificial task and the MNIST dataset with ReLU activations in the optimizee. Furthermore, it also surpasses the classic optimization methods for the artificial task and achieves comparable results for MNIST.
翻訳日:2021-11-03 07:16:49 公開日:2021-10-31
# (参考訳) タスクベースソースコード関連質問に対するテキスト分類

Text Classification for Task-based Source Code Related Questions ( http://arxiv.org/abs/2111.00580v1 )

ライセンス: CC BY 4.0
Sairamvinay Vijayaraghavan, Jinxiao Song, David Tomassi, Siddhartha Punj, Jailan Sabet(参考訳) 開発者のために小さなタスクのコードを自動的に生成するという大きな要求がある。 StackOverflowのようなWebサイトは、開発者がコーディングしたいタスクに対する完全な回答を提供する小さなスニペットでソリューションを提供することによって、単純化された方法を提供する。 自然言語処理と特に質問応答システムは、これらのタスクの解決と作業に非常に役立ちます。 本稿では,2次元のディープラーニングモデルであるseq2seqと,pythonのインテント(自然言語)とコードスニペットを取り込むバイナリ分類器を開発した。 Seq2Seqモデルでは、インテントとコード発話の両方をトレーニングし、インテントを表すエンコーダから隠れたレイヤを埋め込んだ結果と、コードシーケンスのデコーダの隠れたレイヤ埋め込みを用いて比較することにしました。 そして、これらの埋め込みを組み合わせることで、単純なバイナリニューラルネットワーク分類モデルをトレーニングし、seq2seqモデルから予測されたコードシーケンスによって意図が正しく応答されているかどうかを予測します。 隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。 簡単なタスクコードスニペットベースのペアからなるStaQCデータベースに加えて,CoNaLaデータセット上でテストを行った。 経験的に、Pythonのコードスニペットに事前トレーニング済みの埋め込みを使用することは、seq2seqモデルからの隠れ状態コンテキストベクターよりもコンテキストベースが少ないことが確認できます。

There is a key demand to automatically generate code for small tasks for developers. Websites such as StackOverflow provide a simplistic way by offering solutions in small snippets which provide a complete answer to whatever task question the developer wants to code. Natural Language Processing and particularly Question-Answering Systems are very helpful in resolving and working on these tasks. In this paper, we develop a two-fold deep learning model: Seq2Seq and a binary classifier that takes in the intent (which is in natural language) and code snippets in Python. We train both the intent and the code utterances in the Seq2Seq model, where we decided to compare the effect of the hidden layer embedding from the encoder for representing the intent and similarly, using the decoder's hidden layer embeddings for the code sequence. Then we combine both these embeddings and then train a simple binary neural network classifier model for predicting if the intent is correctly answered by the predicted code sequence from the seq2seq model. We find that the hidden state layer's embeddings perform slightly better than regular standard embeddings from a constructed vocabulary. We experimented with our tests on the CoNaLa dataset in addition to the StaQC database consisting of simple task-code snippet-based pairs. We empirically establish that using additional pre-trained embeddings for code snippets in Python is less context-based in comparison to using hidden state context vectors from seq2seq models.
翻訳日:2021-11-03 07:09:51 公開日:2021-10-31
# (参考訳) fMRIデータに適用したテンソルSVDに基づく分類アルゴリズム

A Tensor SVD-based Classification Algorithm Applied to fMRI Data ( http://arxiv.org/abs/2111.00587v1 )

ライセンス: CC BY 4.0
Katherine Keegan, Tanvi Vishwanath, Yihua Xu(参考訳) 多次元データの豊富さを分析するために,テンソルベースのフレームワークを開発した。 伝統的に、行列特異値分解(svd)はベクトル化データを含む行列から最も支配的な特徴を抽出するために用いられる。 SVDは行列として適切に表現できるデータに対して非常に有用であるが、ベクトル化のこのステップにより、データに固有の高次元の関係を失う。 効率的な多次元特徴抽出を容易にするために,行列SVDのテンソルアナログであるt-SVDMを用いた投影型分類アルゴリズムを用いる。 我々の研究は、t-SVDMフレームワークと分類アルゴリズムを拡張し、最初は位数3のテンソルを任意の次元に拡張した。 次に、このアルゴリズムをStarPlus fMRIデータセットを用いて分類タスクに適用する。 数値実験により, fmri分類には, 最善の等価行列ベースアプローチよりも優れたテンソルベースアプローチが存在することが示された。 以上の結果から,選択したテンソルフレームワークの利点を示し,パラメータの有用な選択への洞察を提供し,より複雑な画像データの分類のためにさらに開発できる可能性が示唆された。 私たちは、pythonの実装をhttps://github.com/elizabethnewman/tensor-fmriで提供します。

To analyze the abundance of multidimensional data, tensor-based frameworks have been developed. Traditionally, the matrix singular value decomposition (SVD) is used to extract the most dominant features from a matrix containing the vectorized data. While the SVD is highly useful for data that can be appropriately represented as a matrix, this step of vectorization causes us to lose the high-dimensional relationships intrinsic to the data. To facilitate efficient multidimensional feature extraction, we utilize a projection-based classification algorithm using the t-SVDM, a tensor analog of the matrix SVD. Our work extends the t-SVDM framework and the classification algorithm, both initially proposed for tensors of order 3, to any number of dimensions. We then apply this algorithm to a classification task using the StarPlus fMRI dataset. Our numerical experiments demonstrate that there exists a superior tensor-based approach to fMRI classification than the best possible equivalent matrix-based approach. Our results illustrate the advantages of our chosen tensor framework, provide insight into beneficial choices of parameters, and could be further developed for classification of more complex imaging data. We provide our Python implementation at https://github.com/elizabethnewman/tensor-fmri.
翻訳日:2021-11-03 07:02:19 公開日:2021-10-31
# (参考訳) ラプラシアン制約付き精密行列推定--存在と高次元整合性

Laplacian Constrained Precision Matrix Estimation: Existence and High Dimensional Consistency ( http://arxiv.org/abs/2111.00590v1 )

ライセンス: CC BY 4.0
Eduardo Pavez(参考訳) 本稿では,スタインの損失を最小限に抑えて,高次元ラプラシアン制約精度行列を推定する問題を考察する。 我々は、あるデータ依存グラフが接続されているかどうかを確認するために、この推定器の存在に必要な十分な条件を得る。 また、対称性付きスタイン損失の下での高次元設定における一貫性も証明する。 誤差率はグラフの間隔や他の種類の構造に依存しず、ラプラシアの制約は高次元の整合性に十分であることを示す。 本証明はグラフラプラシアンの性質を活用し,有効なグラフ抵抗に基づく推定器のキャラクタリゼーションを行う。 理論的な主張を数値実験で検証する。

This paper considers the problem of estimating high dimensional Laplacian constrained precision matrices by minimizing Stein's loss. We obtain a necessary and sufficient condition for existence of this estimator, that boils down to checking whether a certain data dependent graph is connected. We also prove consistency in the high dimensional setting under the symmetryzed Stein loss. We show that the error rate does not depend on the graph sparsity, or other type of structure, and that Laplacian constraints are sufficient for high dimensional consistency. Our proofs exploit properties of graph Laplacians, and a characterization of the proposed estimator based on effective graph resistances. We validate our theoretical claims with numerical experiments.
翻訳日:2021-11-03 06:32:41 公開日:2021-10-31
# (参考訳) 電子健康記録を用いた低表現型デリリウム患者の教師なし学習

Unsupervised Learning to Subphenotype Delirium Patients from Electronic Health Records ( http://arxiv.org/abs/2111.00592v1 )

ライセンス: CC BY 4.0
Yiqing Zhao, Yuan Luo(参考訳) デリリウムは、緊急時に発症する脳機能障害であり、死亡率の上昇と関連している。 患者の医療状況に応じて、その提示やリスク要因が異なる可能性があるため、検出・監視は困難である。 本研究では, 集中治療iv(mimic-iv)データのための医療情報マートを用いて, デリリウム集団内のサブタイプを同定し, グループ別予測モデルを構築した。 我々は,デリリウム集団内にクラスターが存在することを示した。 また,サブグループ特異的予測モデルにおいても特徴の差が見られた。 本研究は, 重質疾患を有するICU患者や救急外来患者に対して, デリリウムサブグループ毎の既存のデリリウム予測モデルを再検討し, デリリウム検出とモニタリングの精度を向上させることができる。

Delirium is a common acute onset brain dysfunction in the emergency setting and is associated with higher mortality. It is difficult to detect and monitor since its presentations and risk factors can be different depending on the underlying medical condition of patients. In our study, we aimed to identify subtypes within the delirium population and build subgroup-specific predictive models to detect delirium using Medical Information Mart for Intensive Care IV (MIMIC-IV) data. We showed that clusters exist within the delirium population. Differences in feature importance were also observed for subgroup-specific predictive models. Our work could recalibrate existing delirium prediction models for each delirium subgroup and improve the precision of delirium detection and monitoring for ICU or emergency department patients who had highly heterogeneous medical conditions.
翻訳日:2021-11-03 06:00:46 公開日:2021-10-31
# (参考訳) TorchXRayVision:胸部X線データセットとモデルのライブラリ

TorchXRayVision: A library of chest X-ray datasets and models ( http://arxiv.org/abs/2111.00595v1 )

ライセンス: CC BY 4.0
Joseph Paul Cohen, Joseph D. Viviano, Paul Bertin, Paul Morrison, Parsa Torabian, Matteo Guarrera, Matthew P Lungren, Akshay Chaudhari, Rupert Brooks, Mohammad Hashir, Hadrien Bertrand(参考訳) TorchXRayVisionは胸部X線データセットとディープラーニングモデルを扱うためのオープンソースソフトウェアライブラリである。 広く利用可能な胸部x線データセットの共通インターフェースと共通の前処理チェーンを提供する。 さらに、異なるデータの組み合わせに基づいて訓練された異なるアーキテクチャを持つ分類と表現の学習モデルがライブラリを通じて利用可能であり、ベースラインや特徴抽出として機能する。

TorchXRayVision is an open source software library for working with chest X-ray datasets and deep learning models. It provides a common interface and common pre-processing chain for a wide set of publicly available chest X-ray datasets. In addition, a number of classification and representation learning models with different architectures, trained on different data combinations, are available through the library to serve as baselines or feature extractors.
翻訳日:2021-11-03 05:41:19 公開日:2021-10-31
# (参考訳) 空間ナビゲーションのための分散神経力学制御モデルのベイズ最適化

Bayesian optimization of distributed neurodynamical controller models for spatial navigation ( http://arxiv.org/abs/2111.00599v1 )

ライセンス: CC BY 4.0
Armin Hadzic, Grace M. Hwang, Kechen Zhang, Kevin M. Schultz and Joseph D. Monaco(参考訳) マルチエージェント群を制御する動的システムモデルは、弾力性のある分散ナビゲーションアルゴリズムへの進歩を実証している。 我々は以前,神経スワーム制御(neuroswarms controller)を導入した。この機構は,アトラクタ・ダイナミクスや位相同期など,神経ネットワークの相互作用をアナロジーとしてモデル化したもので,海馬の場所細胞回路内での移動を理論化したものである。 この複雑さは、従来のスウォームモデルの研究に一般的に用いられる安定性、制御可能性、性能の線形解析を妨げている。 さらに,対象の複雑さ,モデルパラメータの次元性,シミュレーションに基づくサンプリングの計算コストなど,手動やグリッド探索による動的コントローラのチューニングは不十分であることが多い。 本稿では,ベイズ最適化(BayesOpt)に基づく自律マルチエージェントシステムの動的コントローラモデルをチューニングするためのフレームワークを提案する。 提案手法はタスク依存客観的関数を用いて,ガウス過程(GP)を代理モデルとして訓練し,動的制御モデルのパラメータ空間の適応的かつ効率的な探索を実現する。 本研究では,時間的圧力下で空間分布した報酬を協調的に局所化し,捕獲するニューロシュワルムの行動を選択する目的関数について検討した。 異なる測地におけるシミュレーションのためのスコアを組み合わせることにより,各環境のタスク性能を一般化した。 検索性能を検証するために,highvsの高次元クラスタリングを比較した。 Uniform Manifold Approximation and Projection (UMAP) 埋め込みにおけるサンプル軌跡の可視化による低次パラメータポイント。 本研究は, 動的スウォームコントローラを含む複雑なシステムの自己組織行動能力の適応的, サンプル効率評価により, 神経科学理論の応用領域への変換を加速できることを示す。

Dynamical systems models for controlling multi-agent swarms have demonstrated advances toward resilient, decentralized navigation algorithms. We previously introduced the NeuroSwarms controller, in which agent-based interactions were modeled by analogy to neuronal network interactions, including attractor dynamics and phase synchrony, that have been theorized to operate within hippocampal place-cell circuits in navigating rodents. This complexity precludes linear analyses of stability, controllability, and performance typically used to study conventional swarm models. Further, tuning dynamical controllers by hand or grid search is often inadequate due to the complexity of objectives, dimensionality of model parameters, and computational costs of simulation-based sampling. Here, we present a framework for tuning dynamical controller models of autonomous multi-agent systems based on Bayesian Optimization (BayesOpt). Our approach utilizes a task-dependent objective function to train Gaussian Processes (GPs) as surrogate models to achieve adaptive and efficient exploration of a dynamical controller model's parameter space. We demonstrate this approach by studying an objective function selecting for NeuroSwarms behaviors that cooperatively localize and capture spatially distributed rewards under time pressure. We generalized task performance across environments by combining scores for simulations in distinct geometries. To validate search performance, we compared high-dimensional clustering for high- vs. low-likelihood parameter points by visualizing sample trajectories in Uniform Manifold Approximation and Projection (UMAP) embeddings. Our findings show that adaptive, sample-efficient evaluation of the self-organizing behavioral capacities of complex systems, including dynamical swarm controllers, can accelerate the translation of neuroscientific theory to applied domains.
翻訳日:2021-11-03 05:23:24 公開日:2021-10-31
# (参考訳) スマートシティアプリケーションのための説明可能な人工知能: セキュアで信頼できるプラットフォーム

Explainable Artificial Intelligence for Smart City Application: A Secure and Trusted Platform ( http://arxiv.org/abs/2111.00601v1 )

ライセンス: CC BY 4.0
M. Humayn Kabir, Khondokar Fida Hasan, Mohammad Kamrul Hasan, Keyvan Ansari(参考訳) 人工知能(AI)は、未来を形作る破壊的な技術の1つである。 交通、教育、医療、公共ガバナンス、電力システムなど、主要なスマートシティソリューションにおけるデータ駆動決定の応用が増えている。 同時に、サイバーの脅威、攻撃、損害、不正アクセスから重要なサイバーインフラストラクチャを保護することで人気を集めている。 しかし、これらの従来のai技術(例えばディープラーニング)の重要な問題の一つは、複雑さと高度化の急速な進歩が、解釈不能なブラックボックスになったことだ。 多くの場合、システムの予期せぬ、あるいは予測不能なアウトプットを制御し、信頼する決定とバイアスを理解することは非常に難しい。 意思決定の解釈可能性に対する制御の喪失は、多くのデータ駆動自動化アプリケーションにとって重要な問題となっている。 しかし、システムのセキュリティと信頼性にどのように影響するか? この章では、サイバーセキュリティにおける機械学習の応用に関する包括的な研究を行い、この問題に対処するための説明可能性の必要性を示す。 この章ではまず、スマートシティベースのソリューションにおけるサイバーセキュリティアプリケーションのためのAI技術のブラックボックス問題について論じる。 その後、新しい技術パラダイムである説明可能な人工知能(XAI)を考えると、この章ではブラックボックスからホワイトボックスへの移行について論じる。 この章では、スマートシティにおける異なる自律システムの適用におけるaiベースの技術の解釈可能性、透明性、理解可能性、説明可能性に関する移行要件についても論じる。 最後に、将来の課題と機会を示す前に、従来のAI技術よりも説明可能性を提供する商用XAIプラットフォームを紹介した。

Artificial Intelligence (AI) is one of the disruptive technologies that is shaping the future. It has growing applications for data-driven decisions in major smart city solutions, including transportation, education, healthcare, public governance, and power systems. At the same time, it is gaining popularity in protecting critical cyber infrastructure from cyber threats, attacks, damages, or unauthorized access. However, one of the significant issues of those traditional AI technologies (e.g., deep learning) is that the rapid progress in complexity and sophistication propelled and turned out to be uninterpretable black boxes. On many occasions, it is very challenging to understand the decision and bias to control and trust systems' unexpected or seemingly unpredictable outputs. It is acknowledged that the loss of control over interpretability of decision-making becomes a critical issue for many data-driven automated applications. But how may it affect the system's security and trustworthiness? This chapter conducts a comprehensive study of machine learning applications in cybersecurity to indicate the need for explainability to address this question. While doing that, this chapter first discusses the black-box problems of AI technologies for Cybersecurity applications in smart city-based solutions. Later, considering the new technological paradigm, Explainable Artificial Intelligence (XAI), this chapter discusses the transition from black-box to white-box. This chapter also discusses the transition requirements concerning the interpretability, transparency, understandability, and Explainability of AI-based technologies in applying different autonomous systems in smart cities. Finally, it has presented some commercial XAI platforms that offer explainability over traditional AI technologies before presenting future challenges and opportunities.
翻訳日:2021-11-03 05:05:05 公開日:2021-10-31
# (参考訳) 大規模言語モデルにおける共通理解の体系的研究

A Systematic Investigation of Commonsense Understanding in Large Language Models ( http://arxiv.org/abs/2111.00607v1 )

ライセンス: CC BY 4.0
Xiang Lorraine Li, Adhi Kuncoro, Cyprien de Masson d'Autume, Phil Blunsom, Aida Nematzadeh(参考訳) 大きな言語モデルは、ゼロショット設定で多くの自然言語処理(nlp)タスクで印象的なパフォーマンスを示している。 これらのモデルが4つのcommonsenseベンチマークに対してモデルを評価することによって、nlpアプリケーションの重要なコンポーネントであるcommonsense理解を示すかどうかを問う。 大規模言語モデルの印象的なゼロショットパフォーマンスは、ベンチマークにおけるデータセットバイアスの存在によるものです。 また,ゼロショット性能はハイパーパラメータの選択や,事前学習したデータセットとベンチマークの類似性に敏感であることを示した。 さらに,数ショット設定でのモデル評価では,大幅な改善は見られなかった。 最後に,従来の研究とは対照的に,明示的なコモンセンス知識を活用することで,大幅な改善が得られないことを見出した。

Large language models have shown impressive performance on many natural language processing (NLP) tasks in a zero-shot setting. We ask whether these models exhibit commonsense understanding -- a critical component of NLP applications -- by evaluating models against four commonsense benchmarks. We find that the impressive zero-shot performance of large language models is mostly due to existence of dataset bias in our benchmarks. We also show that the zero-shot performance is sensitive to the choice of hyper-parameters and similarity of the benchmark to the pre-training datasets. Moreover, we did not observe substantial improvements when evaluating models in a few-shot setting. Finally, in contrast to previous work, we find that leveraging explicit commonsense knowledge does not yield substantial improvement.
翻訳日:2021-11-03 04:45:33 公開日:2021-10-31
# (参考訳) リーマン多様体に基づく時空間特徴を用いた侵入検出

Intrusion Detection using Spatial-Temporal features based on Riemannian Manifold ( http://arxiv.org/abs/2111.00626v1 )

ライセンス: CC BY 4.0
Amardeep Singh and Julian Jang-Jaccard(参考訳) ネットワークトラフィックデータは、異なるネットワークプロトコルの下で異なるデータバイトパケットの組み合わせである。 これらのトラフィックパケットは複雑な時変非線形関係を持つ。 既存の最先端手法は、相関関係に基づいて特徴を複数のサブセットに融合させ、空間的特徴と時間的特徴を抽出するハイブリッド分類技術を用いて、この問題に対処する。 これはしばしば、ネットワークトラフィックのリアルタイム処理を制限する高い計算コストと手動サポートを必要とする。 そこで本稿では,ネットワークトラフィックデータの空間的特性を抽出し,悪質なネットワークトラフィックの挙動を検出する,共分散行列に基づく新しい特徴抽出手法を提案する。 提案手法における共分散行列は、異なるネットワークトラフィック値間の相互関係を自然にエンコードするだけでなく、リーマン多様体に属するよく定義された幾何学を持つ。 リーマン多様体は、悪意のあるネットワークトラフィックを検出するための識別的特徴の抽出を容易にする距離メトリクスが組み込まれている。 NSL-KDD と UNSW-NB15 のデータセット上でのモデル評価を行い,提案手法が従来の手法や既存のデータセットよりも優れていることを示す。

Network traffic data is a combination of different data bytes packets under different network protocols. These traffic packets have complex time-varying non-linear relationships. Existing state-of-the-art methods rise up to this challenge by fusing features into multiple subsets based on correlations and using hybrid classification techniques that extract spatial and temporal characteristics. This often requires high computational cost and manual support that limit them for real-time processing of network traffic. To address this, we propose a new novel feature extraction method based on covariance matrices that extract spatial-temporal characteristics of network traffic data for detecting malicious network traffic behavior. The covariance matrices in our proposed method not just naturally encode the mutual relationships between different network traffic values but also have well-defined geometry that falls in the Riemannian manifold. Riemannian manifold is embedded with distance metrics that facilitate extracting discriminative features for detecting malicious network traffic. We evaluated our model on NSL-KDD and UNSW-NB15 datasets and showed our proposed method significantly outperforms the conventional method and other existing studies on the dataset.
翻訳日:2021-11-03 04:24:53 公開日:2021-10-31
# DNN音響モデルを用いた複数話者音声認識の再検討

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model ( http://arxiv.org/abs/2111.00009v1 )

ライセンス: Link先を確認
Martin Kocour, Kate\v{r}ina \v{Z}mol\'ikov\'a, Lucas Ondel, J\'an \v{S}vec, Marc Delcroix, Tsubasa Ochiai, Luk\'a\v{s} Burget, Jan \v{C}ernock\'y(参考訳) 典型的なマルチトーカー音声認識システムでは、ニューラルネットワークに基づく音響モデルは各話者のセノン状態後部を予測する。 これらは後に、各話者固有の出力ストリームに個別に適用されるシングルトーカーデコーダによって使用される。 本研究では,このようなスキームは準最適であり,すべての話者を協調的に復号する原理的解法を提案する。 本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性を表現する。 我々は、この不確実性と高レベルの言語情報を利用する共同デコーダを採用する。 本研究では,複数話者音声認識システムにおける因子生成モデルにおける復号化アルゴリズムについて検討する。 これらの初期の研究とは対照的に、GMM音響モデルをDNNに置き換え、モデリング能力を高め、推論の一部を単純化する。 混合TIDIGITSデータセットにおける概念実験の実証において,共同復号化の利点を示す。

In typical multi-talker speech recognition systems, a neural network-based acoustic model predicts senone state posteriors for each speaker. These are later used by a single-talker decoder which is applied on each speaker-specific output stream separately. In this work, we argue that such a scheme is sub-optimal and propose a principled solution that decodes all speakers jointly. We modify the acoustic model to predict joint state posteriors for all speakers, enabling the network to express uncertainty about the attribution of parts of the speech signal to the speakers. We employ a joint decoder that can make use of this uncertainty together with higher-level language information. For this, we revisit decoding algorithms used in factorial generative models in early multi-talker speech recognition systems. In contrast with these early works, we replace the GMM acoustic model with DNN, which provides greater modeling power and simplifies part of the inference. We demonstrate the advantage of joint decoding in proof of concept experiments on a mixed-TIDIGITS dataset.
翻訳日:2021-11-02 18:04:55 公開日:2021-10-31
# 規則保証付き制約付き線形二次レギュレータの安全適応型学習制御

Safe Adaptive Learning-based Control for Constrained Linear Quadratic Regulators with Regret Guarantees ( http://arxiv.org/abs/2111.00411v1 )

ライセンス: Link先を確認
Yingying Li, Subhro Das, Jeff Shamma, Na Li(参考訳) 本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。 この問題の課題は、安全性、探索、性能、計算の間の緊張から生じる。 これらの課題に対処するために,適切な条件下で実現可能性と制約満足度を高い確率で保証する多項式時間アルゴリズムを提案する。 このアルゴリズムは単一の軌道上で実装され,システム再起動は不要である。 さらに,学習アルゴリズムの後悔点を,既知のモデル情報を用いた最適安全線形制御器と比較した。 提案したアルゴリズムは、$\tilde O(T^{2/3})$ regretを達成でき、$T$はステージの数であり、$\tilde O(\cdot)$は$T$の対数項を吸収する。

We study the adaptive control of an unknown linear system with a quadratic cost function subject to safety constraints on both the states and actions. The challenges of this problem arise from the tension among safety, exploration, performance, and computation. To address these challenges, we propose a polynomial-time algorithm that guarantees feasibility and constraint satisfaction with high probability under proper conditions. Our algorithm is implemented on a single trajectory and does not require system restarts. Further, we analyze the regret of our learning algorithm compared to the optimal safe linear controller with known model information. The proposed algorithm can achieve a $\tilde O(T^{2/3})$ regret, where $T$ is the number of stages and $\tilde O(\cdot)$ absorbs some logarithmic terms of $T$.
翻訳日:2021-11-02 18:03:07 公開日:2021-10-31
# ウェアラブルセンサを用いた人間の活動認識における深層学習 : 進歩の展望

Deep Learning in Human Activity Recognition with Wearable Sensors: A Review on Advances ( http://arxiv.org/abs/2111.00418v1 )

ライセンス: Link先を確認
Shibo Zhang, Yaxuan Li, Shen Zhang, Farzad Shahabi, Stephen Xia, Yu Deng and Nabil Alshurafa(参考訳) モバイルおよびウェアラブルデバイスは、私たちの日常生活を計測し改善するアクティビティトラッキング、ウェルネスモニタリング、人間とコンピュータのインタラクションなど、数多くのアプリケーションを可能にしている。 これらのアプリケーションの多くは、多くのモバイルおよびウェアラブルデバイスで見られる大量の低消費電力センサーを活用して、ヒューマンアクティビティ認識(har)を実行することで実現されている。 近年、ディープラーニングはモバイルおよびウェアラブルデバイスにおけるHARの境界を大きく押し上げている。 本稿では,ウェアラブルをベースとしたHARの深層学習手法を導入し,現在の進歩,動向,課題を包括的に分析した既存の研究を体系的に分類し,要約する。 深層学習に基づくHARのための最先端フロンティアと今後の方向性も提示する。

Mobile and wearable devices have enabled numerous applications, including activity tracking, wellness monitoring, and human-computer interaction, that measure and improve our daily lives. Many of these applications are made possible by leveraging the rich collection of low-power sensors found in many mobile and wearable devices to perform human activity recognition (HAR). Recently, deep learning has greatly pushed the boundaries of HAR on mobile and wearable devices. This paper systematically categorizes and summarizes existing work that introduces deep learning methods for wearables-based HAR and provides a comprehensive analysis of the current advancements, developing trends, and major challenges. We also present cutting-edge frontiers and future directions for deep learning--based HAR.
翻訳日:2021-11-02 18:02:54 公開日:2021-10-31
# グラフニューラルネットワークに基づくスケジューリング : 一般化干渉モデルによるスループットの向上

Graph Neural Network based scheduling : Improved throughput under a generalized interference model ( http://arxiv.org/abs/2111.00459v1 )

ライセンス: Link先を確認
S. Ramakrishnan, Jaswanthi Mandalapu, Subrahmanya Swamy Peruru, Bhavesh Jain, Eitan Altman(参考訳) 本研究では,アドホックネットワークのためのグラフ畳み込みニューラルネットワーク(GCN)に基づくスケジューリングアルゴリズムを提案する。 特に, $k$- tolerance conflict graph model と呼ばれる一般化された干渉モデルを検討し,よく知られたmax-weight schedulingアルゴリズムの効率的な近似を設計する。 この研究で注目すべき特徴は、ニューラルネットワークをトレーニングするためにラベル付きデータセット(NP-hard to compute)を必要としないことである。 代わりに、既存のグリーディアプローチを利用した損失関数を設計し、グリーディアプローチの性能を向上させるGCNを訓練する。 我々の広範な数値実験により、gcnアプローチを用いることで、従来の欲望アプローチの性能を大幅に向上できることが示された。

In this work, we propose a Graph Convolutional Neural Networks (GCN) based scheduling algorithm for adhoc networks. In particular, we consider a generalized interference model called the $k$-tolerant conflict graph model and design an efficient approximation for the well-known Max-Weight scheduling algorithm. A notable feature of this work is that the proposed method do not require labelled data set (NP-hard to compute) for training the neural network. Instead, we design a loss function that utilises the existing greedy approaches and trains a GCN that improves the performance of greedy approaches. Our extensive numerical experiments illustrate that using our GCN approach, we can significantly ($4$-$20$ percent) improve the performance of the conventional greedy approach.
翻訳日:2021-11-02 18:02:09 公開日:2021-10-31
# 高次元データのための深部再帰埋め込み

Deep Recursive Embedding for High-Dimensional Data ( http://arxiv.org/abs/2111.00622v1 )

ライセンス: Link先を確認
Zixia Zhou, Xinrui Zu, Yuanyuan Wang, Boudewijn P.F. Lelieveldt, Qian Tao(参考訳) 高次元データを低次元多様体に埋め込むことは理論値と実用値の両方である。 本稿では,高次元データ埋め込みのための深層ニューラルネットワーク(dnn)と数学誘導埋め込みルールを組み合わせることを提案する。 本稿では,高次元空間から低次元空間へのパラメトリックマッピングを学習できる汎用的深層埋め込みネットワーク(den)フレームワークについて紹介する。 さらに,遅延データ表現を用いた埋め込み性能の向上を目的として,dre(deep recursive embedded)と呼ばれる再帰的戦略を提案する。 我々は,異なるアーキテクチャと損失関数によるDREの柔軟性を実証し,t分散確率的隣接埋め込み (t-SNE) と一様多様体近似および投影 (UMAP) の2つの最もポピュラーな埋め込み法と比較した。 提案手法はサンプル外データをマッピングし,極めて大規模なデータセットにスケールすることができる。 各種公開データセットを用いた実験により, 局所的およびグローバルな構造保存の観点から, 組込み性能が向上した。

Embedding high-dimensional data onto a low-dimensional manifold is of both theoretical and practical value. In this paper, we propose to combine deep neural networks (DNN) with mathematics-guided embedding rules for high-dimensional data embedding. We introduce a generic deep embedding network (DEN) framework, which is able to learn a parametric mapping from high-dimensional space to low-dimensional space, guided by well-established objectives such as Kullback-Leibler (KL) divergence minimization. We further propose a recursive strategy, called deep recursive embedding (DRE), to make use of the latent data representations for boosted embedding performance. We exemplify the flexibility of DRE by different architectures and loss functions, and benchmarked our method against the two most popular embedding methods, namely, t-distributed stochastic neighbor embedding (t-SNE) and uniform manifold approximation and projection (UMAP). The proposed DRE method can map out-of-sample data and scale to extremely large datasets. Experiments on a range of public datasets demonstrated improved embedding performance in terms of local and global structure preservation, compared with other state-of-the-art embedding methods.
翻訳日:2021-11-02 17:30:26 公開日:2021-10-31
# 心拍数と呼吸数推定のためのデュアルアテンションネットワーク

Dual Attention Network for Heart Rate and Respiratory Rate Estimation ( http://arxiv.org/abs/2111.00390v1 )

ライセンス: Link先を確認
Yuzhuo Ren, Braeden Syrnyk, Niranjan Avadhanam(参考訳) 心拍数と呼吸速度の測定は多くの病気を診断するための重要なステップである。 非接触型カメラを用いた生理的測定は、非接触型方法によって感染リスクが軽減されるため、フィンガーチップオキシメータなどのコンタクト機器よりも、遠隔医療においてよりアクセスしやすく便利である。 しかし, 環境照明の変化, 頭部運動, 表情などにより, 遠隔の生理的信号測定が困難である。 また、システムの複雑さとレイテンシを減らすために、心拍数と呼吸数の両方を推定できる統一ネットワークを持つことも望ましい。 本研究では,dual attention network (dan) と呼ばれる空間的注意とチャネル的注意を利用する畳み込みニューラルネットワークを提案し,カメラ映像を入力として心拍数と呼吸数を同時推定する。 以上の結果から,本システムは心拍数および呼吸速度測定精度を大幅に向上させることが示された。

Heart rate and respiratory rate measurement is a vital step for diagnosing many diseases. Non-contact camera based physiological measurement is more accessible and convenient in Telehealth nowadays than contact instruments such as fingertip oximeters since non-contact methods reduce risk of infection. However, remote physiological signal measurement is challenging due to environment illumination variations, head motion, facial expression, etc. It's also desirable to have a unified network which could estimate both heart rate and respiratory rate to reduce system complexity and latency. We propose a convolutional neural network which leverages spatial attention and channel attention, which we call it dual attention network (DAN) to jointly estimate heart rate and respiratory rate with camera video as input. Extensive experiments demonstrate that our proposed system significantly improves heart rate and respiratory rate measurement accuracy.
翻訳日:2021-11-02 17:26:13 公開日:2021-10-31
# FastCover: ソーシャルネットワークにおけるマルチホップ影響最大化のための教師なし学習フレームワーク

FastCover: An Unsupervised Learning Framework for Multi-Hop Influence Maximization in Social Networks ( http://arxiv.org/abs/2111.00463v1 )

ライセンス: Link先を確認
Runbo Ni, Xueyan Li, Fangqi Li, Xiaofeng Gao, Guihai Chen(参考訳) ソーシャルネットワークで影響力のあるユーザーを見つけることは、多くの有用なアプリケーションにおいて根本的な問題である。 ソーシャルネットワークをグラフとして見ていると、各ホップが影響拡散のステップを示すネットワーク内の所定のホップ数内に位置する隣人の数によって、一組のユーザの影響を測定することができる。 本稿では,IM の問題を予算制約付き d-hop 支配集合問題 (kdDSP) に還元する。 我々は、効率的な欲求戦略を教師なしで学習することでkdDSPを解決するための統合機械学習(ML)フレームワークであるFastCoverを提案する。 このフレームワークの重要なコンポーネントの1つとして、新しいグラフニューラルネットワーク(gnn)アーキテクチャであるgraph reversed attention network(grat)を開発し、隣人間の拡散プロセスをキャプチャする。 組合せ最適化問題のための多くのヒューリスティックアルゴリズムや並行mlフレームワークとは異なり、fastcoverはgnnの1つの前方伝播で計算されたノードのスコアからシードセット全体を決定し、グラフサイズで時間複雑性の準線形を持つ。 合成グラフと現実世界のソーシャルネットワークの実験により、fastcoverは並列アルゴリズムによってレンダリングされた優れた、あるいは同等の品質のソリューションを見つけ、1000倍以上のスピードアップを達成している。

Finding influential users in social networks is a fundamental problem with many possible useful applications. Viewing the social network as a graph, the influence of a set of users can be measured by the number of neighbors located within a given number of hops in the network, where each hop marks a step of influence diffusion. In this paper, we reduce the problem of IM to a budget-constrained d-hop dominating set problem (kdDSP). We propose a unified machine learning (ML) framework, FastCover, to solve kdDSP by learning an efficient greedy strategy in an unsupervised way. As one critical component of the framework, we devise a novel graph neural network (GNN) architecture, graph reversed attention network (GRAT), that captures the diffusion process among neighbors. Unlike most heuristic algorithms and concurrent ML frameworks for combinatorial optimization problems, FastCover determines the entire seed set from the nodes' scores computed with only one forward propagation of the GNN and has a time complexity quasi-linear in the graph size. Experiments on synthetic graphs and real-world social networks demonstrate that FastCover finds solutions with better or comparable quality rendered by the concurrent algorithms while achieving a speedup of over 1000x.
翻訳日:2021-11-02 17:07:51 公開日:2021-10-31
# 切り離したハイパープリアーデコーダによる学習画像圧縮

Learned Image Compression with Separate Hyperprior Decoders ( http://arxiv.org/abs/2111.00485v1 )

ライセンス: Link先を確認
Zhao Zan, Chao Liu, Heming Sun, Xiaoyang Zeng, and Yibo Fan(参考訳) 学習した画像圧縮技術は近年大きく進歩している。 本稿では, 3次ガウスモデルが2次モデルに崩壊する場合において, 性能ボトルネックは1つのハイパープライアデコーダを使用することにあることを示す。 そこで,我々は3つのハイパープリオデコーダを用いて,混合パラメータの復号過程を離散ガウス混合確率で分離し,より正確なパラメータ推定を実現することを提案する。 実験により,MS-SSIMにより最適化された手法は,最先端手法と比較して平均3.36%のBDレート削減を実現した。 提案手法の符号化時間とFLOPへの寄与は無視できない。

Learned image compression techniques have achieved considerable development in recent years. In this paper, we find that the performance bottleneck lies in the use of a single hyperprior decoder, in which case the ternary Gaussian model collapses to a binary one. To solve this, we propose to use three hyperprior decoders to separate the decoding process of the mixed parameters in discrete Gaussian mixture likelihoods, achieving more accurate parameters estimation. Experimental results demonstrate the proposed method optimized by MS-SSIM achieves on average 3.36% BD-rate reduction compared with state-of-the-art approach. The contribution of the proposed method to the coding time and FLOPs is negligible.
翻訳日:2021-11-02 16:55:30 公開日:2021-10-31
# 77ghzレーダを用いた開放搬送・隠蔽物体検出の学習

Learning to Detect Open Carry and Concealed Object with 77GHz Radar ( http://arxiv.org/abs/2111.00551v1 )

ライセンス: Link先を確認
Xiangyu Gao, Hui Liu, Sumit Roy, Guanbin Xing, Ali Alansari, Youchen Luo(参考訳) 有害な搬送物の検出は、インテリジェントな監視システムにおいて重要な役割を担い、例えば空港のセキュリティにおいて広く応用されている。 本稿では,搬送物体検出問題に対して,77GHzmm波レーダを用いた比較的未探索領域に着目した。 提案システムは,物が衣服やバッグで隠された状態で,包丁,電話,ナイフの3つのクラスをリアルタイムで検出することができる。 この機能は、画像キューブのローカライズと生成のための初期信号処理と、ディープラーニングに基づく予測ネットワークとオブジェクトを検出するマルチショット後処理モジュールによって実現される。 自作のレーダーカメラテストベッドとデータセットを用いて,オープンキャリーおよび隠蔽物体の検出におけるシステム性能の検証実験を行った。 さらに、異なる入力、要因、パラメータがシステム性能に与える影響を分析し、システムの直感的な理解を提供する。 このシステムは77GHzレーダーによる搬送物体の検出を目的とした、他の将来の研究のための最初のベースラインとなる。

Detecting harmful carried objects plays a key role in intelligent surveillance systems and has widespread applications, for example, in airport security. In this paper, we focus on the relatively unexplored area of using low-cost 77GHz mmWave radar for the carried objects detection problem. The proposed system is capable of real-time detecting three classes of objects - laptop, phone, and knife - under open carry and concealed cases where objects are hidden with clothes or bags. This capability is achieved by initial signal processing for localization and generating range-azimuth-elevation image cubes, followed by a deep learning-based prediction network and a multi-shot post-processing module for detecting objects. Extensive experiments for validating the system performance on detecting open carry and concealed objects have been presented with a self-built radar-camera testbed and dataset. Additionally, the influence of different input, factors, and parameters on system performance is analyzed, providing an intuitive understanding of the system. This system would be the very first baseline for other future works aiming to detect carried objects using 77GHz radar.
翻訳日:2021-11-02 16:53:39 公開日:2021-10-31
# 構造化状態空間を用いた長い列の効率的なモデリング

Efficiently Modeling Long Sequences with Structured State Spaces ( http://arxiv.org/abs/2111.00396v1 )

ライセンス: Link先を確認
Albert Gu, Karan Goel, Christopher R\'e(参考訳) シーケンスモデリングの中心的な目標は、さまざまなモダリティやタスク、特に長距離依存性のシーケンスデータに対処する単一の原則モデルを設計することである。 RNN、CNN、Transformerといった従来のモデルは、長い依存関係をキャプチャするための特殊なバリエーションを持っているが、それでも10000ドル以上の非常に長いシーケンスにスケールするのに苦労している。 最近の有望なアプローチでは、基本状態空間モデル (SSM) \(x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \) をシミュレートし、状態行列 \(A \) の適切な選択に対して、このシステムは数学的かつ経験的に長距離依存を扱うことができることを示した。 しかし、この手法は計算とメモリの要求を禁止しており、一般的なシーケンスモデリングソリューションとして実現できない。 本稿では,ssmの新しいパラメータ化に基づく構造化状態空間(s4)系列モデルを提案し,その理論的な強みを保ちつつ,従来の手法よりもはるかに効率的に計算できることを示す。 本手法は,低ランク補正を条件付けし,安定に対角化可能とし,コーシーカーネルのよく検討された計算量にssmを還元することを含む。 S4は、さまざまな確立されたベンチマークで強力な経験的結果を得る。 (i)データ拡張や補助損失のないシーケンシャルCIFAR-10における91\%の精度が、より大きな2次元ResNetと同等である。 (ii) 画像および言語モデリングタスクにおけるTransformerとのギャップを著しく埋めると同時に、60\times$高速に生成する。 (iii)Long Range ArenaベンチマークのすべてのタスクにおいてSoTAは、すべての前の作業が失敗する長さ16kのPath-Xタスクを解決しつつ、すべての競合他社と同じくらい効率的である。

A central goal of sequence modeling is designing a single principled model that can address sequence data across a range of modalities and tasks, particularly on long-range dependencies. Although conventional models including RNNs, CNNs, and Transformers have specialized variants for capturing long dependencies, they still struggle to scale to very long sequences of $10000$ or more steps. A promising recent approach proposed modeling sequences by simulating the fundamental state space model (SSM) \( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \), and showed that for appropriate choices of the state matrix \( A \), this system could handle long-range dependencies mathematically and empirically. However, this method has prohibitive computation and memory requirements, rendering it infeasible as a general sequence modeling solution. We propose the Structured State Space (S4) sequence model based on a new parameterization for the SSM, and show that it can be computed much more efficiently than prior approaches while preserving their theoretical strengths. Our technique involves conditioning \( A \) with a low-rank correction, allowing it to be diagonalized stably and reducing the SSM to the well-studied computation of a Cauchy kernel. S4 achieves strong empirical results across a diverse range of established benchmarks, including (i) 91\% accuracy on sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on image and language modeling tasks, while performing generation $60\times$ faster (iii) SoTA on every task from the Long Range Arena benchmark, including solving the challenging Path-X task of length 16k that all prior work fails on, while being as efficient as all competitors.
翻訳日:2021-11-02 16:23:25 公開日:2021-10-31
# CIKM 2021 AnalyticCupにおける自動ハイパーパラメータ最適化チャレンジ

Automated Hyperparameter Optimization Challenge at CIKM 2021 AnalyticCup ( http://arxiv.org/abs/2111.00513v1 )

ライセンス: Link先を確認
Huaijun Jiang, Yu Shen, Yang Li(参考訳) 本稿では,QQ Browser 2021 AI Algorithm Competiton (ACM CIKM 2021 AnalyticCup Track 2)におけるハイパーパラメータの自動最適化問題に対処する手法について述べる。 競争組織はブラックボックス最適化のための匿名化されたリアルな産業タスクとデータセットを提供する。 当社のオープンソースパッケージopenboxに基づいて,コンフィギュレーションサンプリングとヒューリスティックな早期停止戦略のために,ベイズ最適化フレームワークを採用しています。 予選と決勝でそれぞれ0.0938291と0.918753の結果で1位を獲得した。

In this paper, we describe our method for tackling the automated hyperparameter optimization challenge in QQ Browser 2021 AI Algorithm Competiton (ACM CIKM 2021 AnalyticCup Track 2). The competition organizers provide anonymized realistic industrial tasks and datasets for black-box optimization. Based on our open-sourced package OpenBox, we adopt the Bayesian optimization framework for configuration sampling and a heuristic early stopping strategy. We won first place in both the preliminary and final contests with the results of 0.938291 and 0.918753, respectively.
翻訳日:2021-11-02 16:22:48 公開日:2021-10-31
# JEDAIが意思決定AIを解説

JEDAI Explains Decision-Making AI ( http://arxiv.org/abs/2111.00585v1 )

ライセンス: Link先を確認
Trevor Angle, Naman Shah, Pulkit Verma, Siddharth Srivastava(参考訳) 本稿では,非AI専門家を対象としたアウトリーチと教育活動を目的としたAIシステムであるJEDAIについて述べる。 JEDAIは、統合されたタスクと動作計画と説明可能なAIから研究アイデアを新しく合成する。 JEDAIは、ユーザーがロボットによって実行可能であることを保証しながら、高レベルで直感的な計画を作成するのに役立つ。 また、エラーに関するカスタマイズされた説明を提供し、AI計画の理解の向上と、基盤となるロボットシステムの限界と能力も提供する。

This paper presents JEDAI, an AI system designed for outreach and educational efforts aimed at non-AI experts. JEDAI features a novel synthesis of research ideas from integrated task and motion planning and explainable AI. JEDAI helps users create high-level, intuitive plans while ensuring that they will be executable by the robot. It also provides users customized explanations about errors and helps improve their understanding of AI planning as well as the limits and capabilities of the underlying robot system.
翻訳日:2021-11-02 16:17:43 公開日:2021-10-31
# 階層的注意メンバーシップによるグラフ埋め込み

Graph Embedding with Hierarchical Attentive Membership ( http://arxiv.org/abs/2111.00604v1 )

ライセンス: Link先を確認
Lu Lin, Ethan Blaser and Hongning Wang(参考訳) グラフ構造の活用は、グラフで有用な情報を保持するノードの表現を効果的に学習する鍵である。 グラフの顕著な性質は、ノードの潜在階層的なグループ化がグローバルな視点に存在し、各ノードはその隣接ノードによって構成されるコンテキストに基づいて特定のグループへのメンバシップを示すことである。 ほとんどの先行研究は、近傍構造をモデル化する際、そのような潜伏群と異なる群へのノードのメンバーシップを無視している。 したがって、グラフ内の異なるコンテキスト下でのノードの包括的な理解を提供するには足りません。 本稿では,各ノードの潜在メンバシップを隣り合うコンテキストに基づいて動的に検出する,グラフ埋め込みのための階層的注意メンバシップモデルを提案する。 ノード埋め込みを生成するために隣接する状態を集約する際、グループレベルと個別レベルの注目の両方が実行される。 本稿では,各ノードの推論されたメンバシップを明示的に正規化するための構造的制約を導入する。 提案手法は,ノード分類とリンク予測タスクに関する最先端のグラフ埋め込みソリューション群を,引用ネットワークやソーシャルネットワークを含む多種多様なグラフで上回った。 定性的な評価は、学習したノードの埋め込みと推論されたメンバシップを視覚化し、メンバーシップ階層の概念を証明し、グラフに説明可能な埋め込み学習を可能にする。

The exploitation of graph structures is the key to effectively learning representations of nodes that preserve useful information in graphs. A remarkable property of graph is that a latent hierarchical grouping of nodes exists in a global perspective, where each node manifests its membership to a specific group based on the context composed by its neighboring nodes. Most prior works ignore such latent groups and nodes' membership to different groups, not to mention the hierarchy, when modeling the neighborhood structure. Thus, they fall short of delivering a comprehensive understanding of the nodes under different contexts in a graph. In this paper, we propose a novel hierarchical attentive membership model for graph embedding, where the latent memberships for each node are dynamically discovered based on its neighboring context. Both group-level and individual-level attentions are performed when aggregating neighboring states to generate node embeddings. We introduce structural constraints to explicitly regularize the inferred memberships of each node, such that a well-defined hierarchical grouping structure is captured. The proposed model outperformed a set of state-of-the-art graph embedding solutions on node classification and link prediction tasks in a variety of graphs including citation networks and social networks. Qualitative evaluations visualize the learned node embeddings along with the inferred memberships, which proved the concept of membership hierarchy and enables explainable embedding learning in graphs.
翻訳日:2021-11-02 16:17:36 公開日:2021-10-31
# 臨床実証エンジン:臨床ドメイン非依存的意思決定支援基盤のための概念実証

Clinical Evidence Engine: Proof-of-Concept For A Clinical-Domain-Agnostic Decision Support Infrastructure ( http://arxiv.org/abs/2111.00621v1 )

ライセンス: Link先を確認
Bojian Hou and Hao Zhang and Gur Ladizhinsky and Gur Ladizhinsky and Stephen Yang and Volodymyr Kuleshov and Fei Wang and Qian Yang(参考訳) 難読学習アルゴリズムと複雑なデータセットは、現代臨床意思決定支援システム(CDSS)をますます特徴付けている。 その結果、臨床医は診断や治療の難しい判断に直面する際にCDSS勧告を簡単かつ迅速に精査することはできない。 過信または過信が頻繁に行われる。 従来の研究では、DSTデータ入力とアルゴリズム機構を説明することによって、このような評価を支援することを検討してきた。 本論文は, バイオメディカル文献から, 正確な科学的証拠を提示する, 異なるアプローチを探求する。 本稿では, 概念実証システム, 臨床エビデンスエンジンについて, 3つの領域(心臓血管疾患, 自閉症, 癌)にまたがるこのアプローチの技術的および設計可能性を示す。 このシステムは、BioBERTを活用すれば、長期にわたる臨床問題に基づく臨床試験報告を効果的に識別することができる(例えば、「ポビドンヨードアルコールで治療した場合、動脈カテーテルを必要とする集中治療室の成人患者におけるカテーテル感染リスク」など)。 この能力により、システムは、臨床医またはcdssの診断/治療仮説に関連する臨床試験を識別することができる。 さらに、臨床エビデンスエンジンは、患者集団(例えば、動脈カテーテルを必要とする集中治療ユニットの成人患者)、介入(ポビドンヨードアルコール)、結果(カテーテル感染リスク)を含む、臨床試験の抽象的な部分を特定することができる。 この能力は、臨床医が治療を受けられる可能性を開く。 1) 臨床試験と臨床上の問題との一致を迅速に決定し、 2) 広く読まれることなく, 裁判の結果と文脈を理解する。 この可能性を実証するために、システムの2つの例を挙げる。 ドメインに依存しない意思決定支援基盤として、DSTやアルゴリズムに限らず、DSTの説明を設計するという考え方について議論する。

Abstruse learning algorithms and complex datasets increasingly characterize modern clinical decision support systems (CDSS). As a result, clinicians cannot easily or rapidly scrutinize the CDSS recommendation when facing a difficult diagnosis or treatment decision in practice. Over-trust or under-trust are frequent. Prior research has explored supporting such assessments by explaining DST data inputs and algorithmic mechanisms. This paper explores a different approach: Providing precisely relevant, scientific evidence from biomedical literature. We present a proof-of-concept system, Clinical Evidence Engine, to demonstrate the technical and design feasibility of this approach across three domains (cardiovascular diseases, autism, cancer). Leveraging Clinical BioBERT, the system can effectively identify clinical trial reports based on lengthy clinical questions (e.g., "risks of catheter infection among adult patients in intensive care unit who require arterial catheters, if treated with povidone iodine-alcohol"). This capability enables the system to identify clinical trials relevant to diagnostic/treatment hypotheses -- a clinician's or a CDSS's. Further, Clinical Evidence Engine can identify key parts of a clinical trial abstract, including patient population (e.g., adult patients in intensive care unit who require arterial catheters), intervention (povidone iodine-alcohol), and outcome (risks of catheter infection). This capability opens up the possibility of enabling clinicians to 1) rapidly determine the match between a clinical trial and a clinical question, and 2) understand the result and contexts of the trial without extensive reading. We demonstrate this potential by illustrating two example use scenarios of the system. We discuss the idea of designing DST explanations not as specific to a DST or an algorithm, but as a domain-agnostic decision support infrastructure.
翻訳日:2021-11-02 16:17:15 公開日:2021-10-31
# DPNET: 軽量自己注意型効率的なオブジェクト検出のためのデュアルパスネットワーク

DPNET: Dual-Path Network for Efficient Object Detectioj with Lightweight Self-Attention ( http://arxiv.org/abs/2111.00500v1 )

ライセンス: Link先を確認
Huimin Shi, Quan Zhou, Yinghao Ni, Xiaofu Wu and Longin Jan Latecki(参考訳) オブジェクト検出は、パフォーマンスを満足させるのにかなりの計算コストがかかり、エッジデバイスにデプロイするのは不都合である。 本稿では, 計算コストと検出精度のトレードオフに対処するため, 軽量な自己着脱を伴う効率的な物体検出のためのdpnetと呼ばれるデュアルパスネットワークを提案する。 backboneでは、単一の入出力軽量セルフアテンションモジュール(lsam)が、異なる位置間のグローバルな相互作用をエンコードするように設計されている。 lsamは、機能ピラミッドネットワーク(fpn)のマルチインプットバージョンにも拡張され、2つのパスでクロスレゾリューションの依存関係をキャプチャするために使用される。 COCOデータセットの大規模な実験により,本手法は最先端の検知結果が得られることを示した。 より具体的には、DPNetはCOCOテストデブで29.0%のAPを取得し、320x320画像に対して1.14 GFLOPsと2.27Mモデルサイズしか得られない。

Object detection often costs a considerable amount of computation to get satisfied performance, which is unfriendly to be deployed in edge devices. To address the trade-off between computational cost and detection accuracy, this paper presents a dual path network, named DPNet, for efficient object detection with lightweight self-attention. In backbone, a single input/output lightweight self-attention module (LSAM) is designed to encode global interactions between different positions. LSAM is also extended into a multiple-inputs version in feature pyramid network (FPN), which is employed to capture cross-resolution dependencies in two paths. Extensive experiments on the COCO dataset demonstrate that our method achieves state-of-the-art detection results. More specifically, DPNet obtains 29.0% AP on COCO test-dev, with only 1.14 GFLOPs and 2.27M model size for a 320x320 image.
翻訳日:2021-11-02 15:37:45 公開日:2021-10-31
# drbanet:境界補助付き意味セグメンテーションのための軽量なデュアルレゾリューションネットワーク

DRBANET: A Lightweight Dual-Resolution Network for Semantic Segmentation with Boundary Auxiliary ( http://arxiv.org/abs/2111.00509v1 )

ライセンス: Link先を確認
Linjie Wang, Quan Zhou, Chenfeng Jiang, Xiaofu Wu, and Longin Jan Latecki(参考訳) 画像の詳細とセマンティクスをエンコードできる強力な能力により、近年、多くの軽量なデュアルレゾリューションネットワークが提案されている。 しかし、その多くは境界情報の利点を無視している。 本稿では,境界情報を用いてセマンティックセグメンテーション結果を洗練することを目的とした,DRBANetと呼ばれる軽量なデュアルレゾリューションネットワークを提案する。 DRBANetは、高分解能分岐(HRB)と低分解能分岐(LRB)を含む二重並列アーキテクチャを採用している。 具体的には、HRBは主に、より大きな受容場を持つ特徴表現を学習する効率的な反転ブートネックモジュール(EIBM)からなる。 lrbは一連のeibmと非常に軽量なピラミッドプーリングモジュール(elppm)で構成されており、elppmは階層的な残差接続を通じてマルチスケールのコンテキストをキャプチャするために利用される。 最後に、境界監督ヘッドは、HRB内のオブジェクト境界をキャプチャするために設計されている。 CityscapesとCamVidデータセットの大規模な実験により,セグメント化精度と実行効率のトレードオフが期待できることを示した。

Due to the powerful ability to encode image details and semantics, many lightweight dual-resolution networks have been proposed in recent years. However, most of them ignore the benefit of boundary information. This paper introduces a lightweight dual-resolution network, called DRBANet, aiming to refine semantic segmentation results with the aid of boundary information. DRBANet adopts dual parallel architecture, including: high resolution branch (HRB) and low resolution branch (LRB). Specifically, HRB mainly consists of a set of Efficient Inverted Bottleneck Modules (EIBMs), which learn feature representations with larger receptive fields. LRB is composed of a series of EIBMs and an Extremely Lightweight Pyramid Pooling Module (ELPPM), where ELPPM is utilized to capture multi-scale context through hierarchical residual connections. Finally, a boundary supervision head is designed to capture object boundaries in HRB. Extensive experiments on Cityscapes and CamVid datasets demonstrate that our method achieves promising trade-off between segmentation accuracy and running efficiency.
翻訳日:2021-11-02 15:37:31 公開日:2021-10-31
# 野生家族認識(rfiw):第5版

Recognizing Families In the Wild (RFIW): The 5th Edition ( http://arxiv.org/abs/2111.00598v1 )

ライセンス: Link先を確認
Joseph P. Robinson, Can Qin, Ming Shao, Matthew A. Turk, Rama Chellappa, and Yun Fu(参考訳) 第16回IEEE International Conference on Automatic Face and Gesture Recognition (FG)と共同で開催されているRFIW(Recognizing Families In the Wild)は、大規模かつ多トラックの視覚的親和性評価である。 RFIWの5回目の版で、学者を惹きつけ、専門家を集め、新しい作品を出版し、今後の展望を議論する努力を継続します。 本稿では,今年のrfiwにおける3つの課題に対する提案を要約する。具体的には,キンシップ検証,3つのサブジェクト検証,家族メンバーの検索と検索の結果について検討する。 我々は、RFIWの問題を考察するとともに、現在の取り組みを共有し、将来有望な方向性を推奨する。

Recognizing Families In the Wild (RFIW), held as a data challenge in conjunction with the 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG), is a large-scale, multi-track visual kinship recognition evaluation. This is our fifth edition of RFIW, for which we continue the effort to attract scholars, bring together professionals, publish new work, and discuss prospects. In this paper, we summarize submissions for the three tasks of this year's RFIW: specifically, we review the results for kinship verification, tri-subject verification, and family member search and retrieval. We take a look at the RFIW problem, as well as share current efforts and make recommendations for promising future directions.
翻訳日:2021-11-02 15:37:12 公開日:2021-10-31
# グラフツリーニューラルネットワーク

Graph Tree Neural Networks ( http://arxiv.org/abs/2111.00424v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Hee-seok Jung, Hyeoncheol Kim(参考訳) グラフニューラルネットワーク(GNN)は、最近、様々な分野で優れたパフォーマンスを示している。 本稿では,既存のネットワークの問題を解決するために,人間のニューラルネットワークの構造を解析し,グラフツリーニューラルネットワーク(gtnn)を提案する。 GTNNでは、情報ユニットはグラフの形式と関連付けられ、その後再び大きな情報の単位となり、他の情報ユニットと関係を持つ。 この時点で、情報の単位はニューロンの集合であり、GTNNでベクトルとして表現することができる。 単一のグラフで開始点と終了点を定義することは困難であり、ツリーは兄弟ノード間の関係を表現できない。 しかし、グラフツリーは、リーフノードとルートノードをその開始点と終了点、および兄弟ノード間の関係として表現することができる。 深さ優先畳み込み(DFC)は、葉ノードから根ノードへの相互作用結果をボトムアップアプローチで符号化し、深さ第一畳み込み(DFD)は根ノードから葉ノードへの相互作用結果をトップダウンアプローチで復号する。 GTNNはデータ駆動学習であり、ツリーの深さに応じて畳み込みの回数が変化する。 さらに、異なるタイプの特徴を同時に学習することも可能である。 本稿では,グラフツリー再帰型ニューラルネットワーク(GTR),グラフツリー再帰型アテンションネットワーク(GTRA),グラフツリー再帰型オートエンコーダ(GTRAE)を用いた教師なし,半教師付き学習を紹介する。 ソースコードデータセットで簡単なトイテストを実施しました。

Graph neural networks (GNNs) have recently shown good performance in various fields. In this paper, we propose graph tree neural networks (GTNNs) designed to solve the problems of existing networks by analyzing the structure of human neural networks. In GTNNs, information units are related to the form of a graph and then they become a bigger unit of information again and have a relationship with other information units. At this point, the unit of information is a set of neurons, and we can express it as a vector with GTNN. Defining the starting and ending points in a single graph is difficult, and a tree cannot express the relationship among sibling nodes. However, a graph tree can be expressed using leaf and root nodes as its starting and ending points and the relationship among sibling nodes. Depth-first convolution (DFC) encodes the interaction result from leaf nodes to the root node in a bottom-up approach, and depth-first deconvolution (DFD) decodes the interaction result from the root node to the leaf nodes in a top-down approach. GTNN is data-driven learning in which the number of convolutions varies according to the depth of the tree. Moreover, learning features of different types together is possible. Supervised, unsupervised, and semi-supervised learning using graph tree recursive neural network (GTR) , graph tree recursive attention networks (GTRAs), and graph tree recursive autoencoders (GTRAEs) are introduced in this paper. We experimented with a simple toy test with source code dataset.
翻訳日:2021-11-02 15:19:03 公開日:2021-10-31
# panet:動的受容場を有する視点認識ネットワークと自己蒸留監視による群衆数計測

PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting ( http://arxiv.org/abs/2111.00406v1 )

ライセンス: Link先を確認
Xiaoshuang Chen, Yiru Zhao, Yu Qin, Fei Jiang, Mingyuan Tao, Xiansheng Hua, Hongtao Lu(参考訳) 群衆カウントは、群衆密度分布を学習し、画像中の物体(例えば人)の数を推定することを目的としている。 データポイントの分布に大きな影響を与える視点効果は、群衆カウントにおいて重要な役割を果たす。 本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。 対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。 このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。 ガウスカーネルを用いて教師付き情報として密度マップを生成する従来の研究とは異なり、自己蒸留監督(SDS)訓練法を提案する。 第1の訓練段階から接地トラス密度マップを精製し、第2の訓練段階においてモデルに視点情報を蒸留する。 上海工科大学 part_a および part_b, ucf_qnrf, ucf_cc_50 データセットにおける実験結果から, 提案する panet が最先端手法よりも高いマージンを示した。

Crowd counting aims to learn the crowd density distributions and estimate the number of objects (e.g. persons) in images. The perspective effect, which significantly influences the distribution of data points, plays an important role in crowd counting. In this paper, we propose a novel perspective-aware approach called PANet to address the perspective problem. Based on the observation that the size of the objects varies greatly in one image due to the perspective effect, we propose the dynamic receptive fields (DRF) framework. The framework is able to adjust the receptive field by the dilated convolution parameters according to the input image, which helps the model to extract more discriminative features for each local region. Different from most previous works which use Gaussian kernels to generate the density map as the supervised information, we propose the self-distilling supervision (SDS) training method. The ground-truth density maps are refined from the first training stage and the perspective information is distilled to the model in the second stage. The experimental results on ShanghaiTech Part_A and Part_B, UCF_QNRF, and UCF_CC_50 datasets demonstrate that our proposed PANet outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-11-02 15:14:42 公開日:2021-10-31
# 単一画像デフォーカス劣化のためのガウスカーネル混合ネットワーク

Gaussian Kernel Mixture Network for Single Image Defocus Deblurring ( http://arxiv.org/abs/2111.00454v1 )

ライセンス: Link先を確認
Yuhui Quan, Zicong Wu and Hui Ji(参考訳) Defocus blurは画像によく見られるブラー効果の一種であり、空間的に変化する量のために除去が困難である。 本稿では,1つの画像からデフォーカスのぼかしを取り除くためのエンドツーエンドのディープラーニング手法を提案する。 まず,空間変動型デフォーカスボローカーネルを線形パラメトリックな効率よく表現し,既存のモデルよりも高精度な画素ワイドガウス核混合(GKM)モデルを提案する。 そして、GKMベースのデブロアリングの固定点反復をアンロールすることで、GKMNetと呼ばれるディープニューラルネットワークを開発する。 gkmnetは軽量なスケールリカレントアーキテクチャ上に構築されており、スケールリカレントアテンションモジュールを用いてgkmの混合係数を推定し、デフォーカスデブラリングを行う。 大規模な実験により、GKMNetは既存のデフォーカスデブロリング法を著しく上回るだけでなく、モデル複雑性と計算効率の点でその優位性も示している。

Defocus blur is one kind of blur effects often seen in images, which is challenging to remove due to its spatially variant amount. This paper presents an end-to-end deep learning approach for removing defocus blur from a single image, so as to have an all-in-focus image for consequent vision tasks. First, a pixel-wise Gaussian kernel mixture (GKM) model is proposed for representing spatially variant defocus blur kernels in an efficient linear parametric form, with higher accuracy than existing models. Then, a deep neural network called GKMNet is developed by unrolling a fixed-point iteration of the GKM-based deblurring. The GKMNet is built on a lightweight scale-recurrent architecture, with a scale-recurrent attention module for estimating the mixing coefficients in GKM for defocus deblurring. Extensive experiments show that the GKMNet not only noticeably outperforms existing defocus deblurring methods, but also has its advantages in terms of model complexity and computational efficiency.
翻訳日:2021-11-02 15:14:21 公開日:2021-10-31
# 放送スポーツ映像理解のための遠隔教師付き意味テキスト検出と認識

Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos Understanding ( http://arxiv.org/abs/2111.00629v1 )

ライセンス: Link先を確認
Avijit Shah, Topojoy Biswas, Sathish Ramadoss, Deven Santosh Shah(参考訳) マルチプレイヤースポーツ放送ビデオにおけるキープレイヤーとアクションの包括的理解は難しい課題である。 ニュースや金融ビデオとは異なり、スポーツビデオはテキストが限られている。 マルチプレイヤースポーツのアクション認識とプレイヤーの検出の両方が堅牢に研究されているが、ビデオフレームのコンテキストテキストを理解することはスポーツビデオ理解の最も影響のある方法の1つだ。 本研究では,スポーツ時計における極めて正確な意味的テキスト検出と認識について検討し,課題を提起する。 スポーツ時計のユニークな特性を観察し,汎用の事前学習型検出器や認識器の活用を困難にし,外部知識に適合する程度で文章を正確に理解できるようにする。 本稿では,スポーツクロックのデータセットを自動構築する遠隔監視手法を提案する。 適切なデータ拡張と、最先端のテキスト検出および認識モデルアーキテクチャを組み合わせることで、極めて正確なセマンティックテキストを抽出する。 最後に、このシステムを産業環境でスケールアップするための計算アーキテクチャパイプラインを共有し、その結果を検証するための堅牢なデータセットを提案する。

Comprehensive understanding of key players and actions in multiplayer sports broadcast videos is a challenging problem. Unlike in news or finance videos, sports videos have limited text. While both action recognition for multiplayer sports and detection of players has seen robust research, understanding contextual text in video frames still remains one of the most impactful avenues of sports video understanding. In this work we study extremely accurate semantic text detection and recognition in sports clocks, and challenges therein. We observe unique properties of sports clocks, which makes it hard to utilize general-purpose pre-trained detectors and recognizers, so that text can be accurately understood to the degree of being used to align to external knowledge. We propose a novel distant supervision technique to automatically build sports clock datasets. Along with suitable data augmentations, combined with any state-of-the-art text detection and recognition model architectures, we extract extremely accurate semantic text. Finally, we share our computational architecture pipeline to scale this system in industrial setting and proposed a robust dataset for the same to validate our results.
翻訳日:2021-11-02 15:02:46 公開日:2021-10-31
# 可視化:同時音声翻訳における欠落要因

Visualization: the missing factor in Simultaneous Speech Translation ( http://arxiv.org/abs/2111.00514v1 )

ライセンス: Link先を確認
Sara Papi, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。 近年、国際ライブ会議やストリーミング講義など、音声・視覚コンテンツへのアクセスを容易にする言語横断的なアプリケーションシナリオの普及により、SimulSTの人気が高まっている。 本稿では,これまでのSimulSTシステムの特徴を分析し,その強度と弱点について考察する。 次に,システムの有効性を適切に評価するために必要な評価フレームワークに注目する。 この目的のために、ユーザエクスペリエンスの観点からも、より広範なパフォーマンス分析の必要性を高めます。 シミュレーションシステムは、品質/レイテンシの測定だけでなく、例えば、採用されている可視化戦略のタスク指向のメトリクス会計によって評価されるべきである。 これを踏まえて,コミュニティが達成した目標と,いまだに欠けているものを強調する。

Simultaneous speech translation (SimulST) is the task in which output generation has to be performed on partial, incremental speech input. In recent years, SimulST has become popular due to the spread of cross-lingual application scenarios, like international live conferences and streaming lectures, in which on-the-fly speech translation can facilitate users' access to audio-visual content. In this paper, we analyze the characteristics of the SimulST systems developed so far, discussing their strengths and weaknesses. We then concentrate on the evaluation framework required to properly assess systems' effectiveness. To this end, we raise the need for a broader performance analysis, also including the user experience standpoint. SimulST systems, indeed, should be evaluated not only in terms of quality/latency measures, but also via task-oriented metrics accounting, for instance, for the visualization strategy adopted. In light of this, we highlight which are the goals achieved by the community and what is still missing.
翻訳日:2021-11-02 14:59:20 公開日:2021-10-31
# 最小記述長リカレントニューラルネットワーク

Minimum Description Length Recurrent Neural Networks ( http://arxiv.org/abs/2111.00600v1 )

ライセンス: Link先を確認
Nur Lan, Michal Geyer, Emmanuel Chemla, Roni Katzir(参考訳) ニューラルネットワークをトレーニングして、最小記述長(Minimum Description Length)スコアを最適化し、ネットワークの複雑さとタスクの精度のバランスをとる。 この目的関数でトレーニングされたネットワークは、コンテクストフリー言語を超えたケースを含む、カウントなどのメモリ課題を含むタスクをマスターする。 これらの学習者は、例えば$a^nb^n$, $a^nb^nc^n$, $a^nb^{2n}$, $a^nb^mc^{n+m}$の文法をマスターし、加算を行う。 100%の精度で、時には100%の信頼性で行う。 ネットワークも小さく、内部構造は透明である。 したがって、与えられたテストセットだけでなく、任意の入力シーケンスに対して、それらの完全精度が成り立つという公式な証明を与える。

We train neural networks to optimize a Minimum Description Length score, i.e., to balance between the complexity of the network and its accuracy at a task. We show that networks trained with this objective function master tasks involving memory challenges such as counting, including cases that go beyond context-free languages. These learners master grammars for, e.g., $a^nb^n$, $a^nb^nc^n$, $a^nb^{2n}$, and $a^nb^mc^{n+m}$, and they perform addition. They do so with 100% accuracy, sometimes also with 100% confidence. The networks are also small and their inner workings are transparent. We thus provide formal proofs that their perfect accuracy holds not only on a given test set, but for any input sequence.
翻訳日:2021-11-02 14:59:05 公開日:2021-10-31
# 計算効率の高い一級話題決定のためのコニカル分類

Conical Classification For Computationally Efficient One-Class Topic Determination ( http://arxiv.org/abs/2111.00375v1 )

ライセンス: Link先を確認
Sameer Khanna(参考訳) インターネットのサイズが大きくなるにつれて、テキストベースの情報も膨大になる。 多くのアプリケーション空間において、特定のトピックに関連するテキストを分離し識別するのが最重要です。 一級分類はそのような分析に理想的であるが、高い予測力を持つ効率的なアプローチに関する研究が比較的不足している。 テキストを表すベクトル空間モデルの正の線形結合として、特定したい文書の範囲を表現できることに留意して、ある文書が特定のトピックであるかどうかを計算的に効率的に識別できるコニカル分類を提案する。 また,二極分離の修正版であるNormal Exclusionを提案する。 分析では、我々のアプローチはデータセットに高い予測力を持つだけでなく、計算の高速化も示しています。

As the Internet grows in size, so does the amount of text based information that exists. For many application spaces it is paramount to isolate and identify texts that relate to a particular topic. While one-class classification would be ideal for such analysis, there is a relative lack of research regarding efficient approaches with high predictive power. By noting that the range of documents we wish to identify can be represented as positive linear combinations of the Vector Space Model representing our text, we propose Conical classification, an approach that allows us to identify if a document is of a particular topic in a computationally efficient manner. We also propose Normal Exclusion, a modified version of Bi-Normal Separation that makes it more suitable within the one-class classification context. We show in our analysis that our approach not only has higher predictive power on our datasets, but is also faster to compute.
翻訳日:2021-11-02 14:56:30 公開日:2021-10-31
# ednetデータセット上での深い知識追跡モデル解釈

Interpreting Deep Knowledge Tracing Model on EdNet Dataset ( http://arxiv.org/abs/2111.00419v1 )

ライセンス: Link先を確認
Deliang Wang, Yu Lu, Qinggang Meng, Penghe Chen(参考訳) より深い学習技術が知識追跡領域に導入され、知識追跡モデルの解釈可能性の問題が研究者の注意を喚起した。 KTモデルの構築と解釈に関するこれまでの研究(Lu et al. 2020)では,比較的小型のASSISTmentデータセット(Feng,Heffernan,Koedinger 2009)が採用されている。 本研究では,EdNet(Choi et al. 2020)と呼ばれる大規模かつ新たに利用可能なデータセット上で,同様のタスクを実行する。 予備実験の結果,解釈手法の有効性が示され,さらに多くの質問や課題が検討され,達成される。

With more deep learning techniques being introduced into the knowledge tracing domain, the interpretability issue of the knowledge tracing models has aroused researchers' attention. Our previous study(Lu et al. 2020) on building and interpreting the KT model mainly adopts the ASSISTment dataset(Feng, Heffernan, and Koedinger 2009),, whose size is relatively small. In this work, we perform the similar tasks but on a large and newly available dataset, called EdNet(Choi et al. 2020). The preliminary experiment results show the effectiveness of the interpreting techniques, while more questions and tasks are worthy to be further explored and accomplished.
翻訳日:2021-11-02 14:56:16 公開日:2021-10-31
# smart(sampling) augment:セマンティックセグメンテーションのための最適かつ効率的なデータ拡張

Smart(Sampling)Augment: Optimal and Efficient Data Augmentation for Semantic Segmentation ( http://arxiv.org/abs/2111.00487v1 )

ライセンス: Link先を確認
Misgana Negassi, Diane Wagner, Alexander Reiterer(参考訳) データ拡張手法は、ニューラルネットワークの性能を改善するために拡張データでデータセットを豊かにする。 近年,拡張戦略を自動設計する自動データ拡張手法が登場している。 既存の研究は画像分類とオブジェクト検出に重点を置いているが、セマンティックイメージセグメンテーションに関する最初の研究を行い、新しいアプローチとして \textit{SmartAugment} と \textit{SmartSamplingAugment} を紹介している。 smartaugmentはベイズ最適化を使用して、拡張戦略の豊富な空間を探索し、私たちが検討するすべてのセマンティックセグメンテーションタスクにおいて、新たな最先端のパフォーマンスを達成します。 SmartSamplingAugmentは、固定的な拡張戦略を備えたシンプルなパラメータフリーのアプローチで、既存のリソース集約型アプローチとパフォーマンスを競い合い、安価な最先端データ拡張手法を上回っている。 さらに、データ拡張ハイパーパラメータの影響、相互作用、重要性を分析し、SmartAugmentとSmartSamplingAugmentの設計選択を確認するアブレーション研究を実施します。 最後に、再現性のためのソースコードを提供し、さらなる研究を促進する。

Data augmentation methods enrich datasets with augmented data to improve the performance of neural networks. Recently, automated data augmentation methods have emerged, which automatically design augmentation strategies. Existing work focuses on image classification and object detection, whereas we provide the first study on semantic image segmentation and introduce two new approaches: \textit{SmartAugment} and \textit{SmartSamplingAugment}. SmartAugment uses Bayesian Optimization to search over a rich space of augmentation strategies and achieves a new state-of-the-art performance in all semantic segmentation tasks we consider. SmartSamplingAugment, a simple parameter-free approach with a fixed augmentation strategy competes in performance with the existing resource-intensive approaches and outperforms cheap state-of-the-art data augmentation methods. Further, we analyze the impact, interaction, and importance of data augmentation hyperparameters and perform ablation studies, which confirm our design choices behind SmartAugment and SmartSamplingAugment. Lastly, we will provide our source code for reproducibility and to facilitate further research.
翻訳日:2021-11-02 14:35:35 公開日:2021-10-31
# セマンティクスセグメンテーションのための不偏・不等角表現の学習

Learning Debiased and Disentangled Representations for Semantic Segmentation ( http://arxiv.org/abs/2111.00531v1 )

ライセンス: Link先を確認
Sanghyeok Chu, Dongwan Kim, Bohyung Han(参考訳) 深いニューラルネットワークは、絡み合った特徴表現を持つバイアス付きモデルを学ぶことができ、様々な下流タスクのサブパーパフォーマンスにつながる可能性がある。 これは、データの多様性の欠如が傾向を悪化させる低表現クラスでは特に当てはまる。 この制限は、主に分類タスクで対処されてきたが、セマンティックセグメンテーションを含むより複雑な予測問題に現れる可能性のある追加の課題についてはほとんど研究されていない。 そこで本研究では,意味的セグメンテーションのためのモデルに依存しない,確率的な学習手法を提案する。 各クラスについて、まず、高度に絡み合った特徴写像からクラス固有の情報を抽出する。 そして、特徴空間における特徴選択プロセスにより、ランダムにサンプリングされたクラスに関連する情報を抑圧する。 各トレーニングイテレーションで特定のクラス情報をランダムに排除することにより、クラス間の機能依存を効果的に減らし、モデルがより偏りと絡み合った特徴表現を学習することができる。 提案手法で訓練したモデルでは,複数のセマンティックセマンティックセマンティクスベンチマークにおいて強い結果が得られた。

Deep neural networks are susceptible to learn biased models with entangled feature representations, which may lead to subpar performances on various downstream tasks. This is particularly true for under-represented classes, where a lack of diversity in the data exacerbates the tendency. This limitation has been addressed mostly in classification tasks, but there is little study on additional challenges that may appear in more complex dense prediction problems including semantic segmentation. To this end, we propose a model-agnostic and stochastic training scheme for semantic segmentation, which facilitates the learning of debiased and disentangled representations. For each class, we first extract class-specific information from the highly entangled feature map. Then, information related to a randomly sampled class is suppressed by a feature selection process in the feature space. By randomly eliminating certain class information in each training iteration, we effectively reduce feature dependencies among classes, and the model is able to learn more debiased and disentangled feature representations. Models trained with our approach demonstrate strong results on multiple semantic segmentation benchmarks, with especially notable performance gains on under-represented classes.
翻訳日:2021-11-02 14:35:14 公開日:2021-10-31
# PIE:擬似非可逆エンコーダ

PIE: Pseudo-Invertible Encoder ( http://arxiv.org/abs/2111.00619v1 )

ライセンス: Link先を確認
Jan Jetze Beitler, Ivan Sosnovik, Arnold Smeulders(参考訳) 我々は高次元データからの情報圧縮の問題を考える。 非可逆変換による圧縮の問題を考える研究は多いが、非可逆圧縮の重要性を強調している。 我々は疑似単射的アーキテクチャを持つ確率に基づく新しいオートエンコーダのクラスを導入し、これを疑似可逆エンコーダと呼ぶ。 私たちは彼らの原理を理論的に説明します。 MNISTのガウス的擬似非可逆エンコーダの評価を行い,本モデルが生成した画像のシャープさにおいてWAEとVAEより優れていることを示す。

We consider the problem of information compression from high dimensional data. Where many studies consider the problem of compression by non-invertible transformations, we emphasize the importance of invertible compression. We introduce new class of likelihood-based autoencoders with pseudo bijective architecture, which we call Pseudo Invertible Encoders. We provide the theoretical explanation of their principles. We evaluate Gaussian Pseudo Invertible Encoder on MNIST, where our model outperforms WAE and VAE in sharpness of the generated images.
翻訳日:2021-11-02 14:34:54 公開日:2021-10-31
# クロスコリレーションを組み込んだ完全畳み込みネットワークに基づくロバストな単画素粒子画像速度測定

A robust single-pixel particle image velocimetry based on fully convolutional networks with cross-correlation embedded ( http://arxiv.org/abs/2111.00395v1 )

ライセンス: Link先を確認
Qi Gao, Hongtao Lin, Han Tu, Haoran Zhu, Runjie Wei, Guoping Zhang, Xueming Shao(参考訳) 粒子画像速度測定(PIV)は実験流体力学において必須である。 本研究では,ディープラーニング手法と従来の相互相関法を相乗的に組み合わせた新しい速度場推定パラダイムを提案する。 具体的には,超解像計算を実現するために,粗速度推定を最適化し補正するために深層学習法を用いる。 また,クロス相関法は,大きめの問合せ窓との粗い相関に基づく初期速度場を提供する。 参考として、粗い速度推定は提案アルゴリズムの堅牢性を向上させるのに役立つ。 組込み相互相関を持つ完全な畳み込みネットワークはCC-FCNと呼ばれる。 CC-FCNは2種類の入力層を持ち、1つは粒子画像用であり、もう1つは粗い解像度と相互相関を用いて計算された初期速度場用である。 まず, 2つのピラミッドモジュールが粒子像の特徴と初期速度場をそれぞれ抽出する。 そして、融合モジュールはこれらの機能を適切に融合する。 最後に、CC-FCNは一連のデコンボリューション層を通じて超分解能計算を行い、単画素速度場を得る。 教師付き学習戦略を考慮し, 地中流体運動を含む合成データセットを生成し, ネットワークパラメータを学習する。 合成および実実験的なPIVデータセットは、精度、精度、空間分解能、堅牢性の観点からトレーニングされたニューラルネットワークをテストするために使用される。 実験の結果,CC-FCNのこれらの特性は,他のPIVアルゴリズムと比較してさらに改善されていることがわかった。 提案モデルにより,PIV実験の競争力およびロバストな評価が可能となった。

Particle image velocimetry (PIV) is essential in experimental fluid dynamics. In the current work, we propose a new velocity field estimation paradigm, which achieves a synergetic combination of the deep learning method and the traditional cross-correlation method. Specifically, the deep learning method is used to optimize and correct a coarse velocity guess to achieve a super-resolution calculation. And the cross-correlation method provides the initial velocity field based on a coarse correlation with a large interrogation window. As a reference, the coarse velocity guess helps with improving the robustness of the proposed algorithm. This fully convolutional network with embedded cross-correlation is named as CC-FCN. CC-FCN has two types of input layers, one is for the particle images, and the other is for the initial velocity field calculated using cross-correlation with a coarse resolution. Firstly, two pyramidal modules extract features of particle images and initial velocity field respectively. Then the fusion module appropriately fuses these features. Finally, CC-FCN achieves the super-resolution calculation through a series of deconvolution layers to obtain the single-pixel velocity field. As the supervised learning strategy is considered, synthetic data sets including ground-truth fluid motions are generated to train the network parameters. Synthetic and real experimental PIV data sets are used to test the trained neural network in terms of accuracy, precision, spatial resolution and robustness. The test results show that these attributes of CC-FCN are further improved compared with those of other tested PIV algorithms. The proposed model could therefore provide competitive and robust estimations for PIV experiments.
翻訳日:2021-11-02 14:33:43 公開日:2021-10-31
# バイオメディカルイメージセグメンテーションのためのニューラルネットワーク過信処理のためのDice損失の校正

Calibrating the Dice loss to handle neural network overconfidence for biomedical image segmentation ( http://arxiv.org/abs/2111.00528v1 )

ライセンス: Link先を確認
Michael Yeung, Leonardo Rundo, Yang Nan, Evis Sala, Carola-Bibiane Sch\"onlieb, Guang Yang(参考訳) Dice similarity coefficient (DSC) は、バイオメディカルイメージセグメンテーションにおいて、クラス不均衡に対するロバスト性のために広く用いられている計量と損失関数である。 しかし、dscの損失は低い校正であり、生体医学や臨床において有用に解釈できない自信過剰な予測をもたらすことが知られている。 性能はディープニューラルネットワークによって生成されたセグメンテーションを評価するために使われる唯一の指標であり、校正はしばしば無視される。 しかし、キャリブレーションは生体医学や臨床医学への翻訳において重要であり、科学者や臨床医による解釈の予測をモデル化するための重要な文脈情報を提供する。 本研究では, バイオメディカルイメージセグメンテーションの新たな課題として, キャリブレーションの低さを挙げる。 dsc++の損失(dsc++ loss)は、自信過剰で誤った予測に関連するペナルティを選択的に調節するものである。 スタンドアロンの損失関数として、DSC++の損失は、十分に検証された5つのオープンソースのバイオメディカルイメージングデータセットにおいて、従来のDSC損失よりも大幅に改善されたキャリブレーションを達成する。 同様に、DSC++の損失を4つのDSCベースの損失関数に統合すると、大幅に改善される。 最後に,バイオメディカル・臨床の課題に適合するモデル予測に適応する重要な後処理技術である精度・リコールバイアスの調整を可能にすることを明らかにするために,ソフトマックスしきい値を用いた。 DSC++の損失はDSCの大きな制限を克服し、バイオメディカルおよび臨床実践で使用するディープラーニングセグメンテーションモデルのトレーニングに適した損失関数を提供する。

The Dice similarity coefficient (DSC) is both a widely used metric and loss function for biomedical image segmentation due to its robustness to class imbalance. However, it is well known that the DSC loss is poorly calibrated, resulting in overconfident predictions that cannot be usefully interpreted in biomedical and clinical practice. Performance is often the only metric used to evaluate segmentations produced by deep neural networks, and calibration is often neglected. However, calibration is important for translation into biomedical and clinical practice, providing crucial contextual information to model predictions for interpretation by scientists and clinicians. In this study, we identify poor calibration as an emerging challenge of deep learning based biomedical image segmentation. We provide a simple yet effective extension of the DSC loss, named the DSC++ loss, that selectively modulates the penalty associated with overconfident, incorrect predictions. As a standalone loss function, the DSC++ loss achieves significantly improved calibration over the conventional DSC loss across five well-validated open-source biomedical imaging datasets. Similarly, we observe significantly improved when integrating the DSC++ loss into four DSC-based loss functions. Finally, we use softmax thresholding to illustrate that well calibrated outputs enable tailoring of precision-recall bias, an important post-processing technique to adapt the model predictions to suit the biomedical or clinical task. The DSC++ loss overcomes the major limitation of the DSC, providing a suitable loss function for training deep learning segmentation models for use in biomedical and clinical practice.
翻訳日:2021-11-02 14:32:42 公開日:2021-10-31
# バイオメディカルイメージセグメンテーションのための境界不確かさを損失関数に組み込む

Incorporating Boundary Uncertainty into loss functions for biomedical image segmentation ( http://arxiv.org/abs/2111.00533v1 )

ライセンス: Link先を確認
Michael Yeung, Guang Yang, Evis Sala, Carola-Bibiane Sch\"onlieb, Leonardo Rundo(参考訳) 手動セグメンテーションは、自動画像セグメンテーションタスクでニューラルネットワークを評価するためのゴールドスタンダードとして使用される。 形状、色、テクスチャにはかなり異質性があるため、生物医学的な画像では物体境界の区切りが特に困難であり、その結果、層間および層内変異は顕著である。 ソフトラベルや距離ペナルティ項のようなアプローチは、基底真理に大域的変換を適用し、不確実性に関して損失関数を再定義する。 しかし、グローバルな操作は計算コストが高く、どちらのアプローチも不確実な手動アノテーションを正確に反映していない。 本稿では,オブジェクト境界に対するソフトラベリングを制限するために形態素演算を用いる境界不確実性を提案し,基底真理ラベルにおける不確かさの適切な表現を提供し,体系的な手動セグメンテーションエラーが存在する場合のロバストなモデルトレーニングを可能にする。 境界不確かさをDice損失と組み合わせることで,ソフトラベリングや距離重み付きペナルティと比較して,3つのバイオメディカルイメージングデータセットの精度向上を実現した。 境界不確実性はセグメント化過程をより正確に反映するだけでなく、セグメント化エラーに対して効率的で堅牢であり、より良い一般化を示す。

Manual segmentation is used as the gold-standard for evaluating neural networks on automated image segmentation tasks. Due to considerable heterogeneity in shapes, colours and textures, demarcating object boundaries is particularly difficult in biomedical images, resulting in significant inter and intra-rater variability. Approaches, such as soft labelling and distance penalty term, apply a global transformation to the ground truth, redefining the loss function with respect to uncertainty. However, global operations are computationally expensive, and neither approach accurately reflects the uncertainty underlying manual annotation. In this paper, we propose the Boundary Uncertainty, which uses morphological operations to restrict soft labelling to object boundaries, providing an appropriate representation of uncertainty in ground truth labels, and may be adapted to enable robust model training where systematic manual segmentation errors are present. We incorporate Boundary Uncertainty with the Dice loss, achieving consistently improved performance across three well-validated biomedical imaging datasets compared to soft labelling and distance-weighted penalty. Boundary Uncertainty not only more accurately reflects the segmentation process, but it is also efficient, robust to segmentation errors and exhibits better generalisation.
翻訳日:2021-11-02 14:32:16 公開日:2021-10-31
# 焦点注意ネットワーク:バイオメディカルイメージセグメンテーションにおける注意の最適化

Focal Attention Networks: optimising attention for biomedical image segmentation ( http://arxiv.org/abs/2111.00534v1 )

ライセンス: Link先を確認
Michael Yeung, Leonardo Rundo, Evis Sala, Carola-Bibiane Sch\"onlieb, Guang Yang(参考訳) 近年,バイオメディカルイメージセグメンテーションのためのディープラーニングアーキテクチャへの関心が高まっている。 注意機構のモジュール設計により、U-Netのような畳み込みニューラルネットワークアーキテクチャへの柔軟な統合が可能になる。 注意が適切かどうか、使用すべき注意の種類、および注意モジュールを組み込むためのネットワーク内の場所が、現在見過ごされている重要な考慮事項である。 本稿では,注意の変調における焦点パラメータの役割について検討し,損失関数とネットワークにおける注意の関連を明らかにする。 焦点距離ペナルティ項を組み込むことにより、境界に基づく損失を含む統一焦点損失フレームワークを拡張する。 さらに, 簡易かつ解釈可能な, データセット, モデル固有のヒューリスティックを開発し, 焦点パラメータを絞り出しブロックとアテンションゲートに統合し, 3つのよく評価された生体医用イメージングデータセットにおいて, 注意モジュール数が少なく, 最適な性能を実現する。

In recent years, there has been increasing interest to incorporate attention into deep learning architectures for biomedical image segmentation. The modular design of attention mechanisms enables flexible integration into convolutional neural network architectures, such as the U-Net. Whether attention is appropriate to use, what type of attention to use, and where in the network to incorporate attention modules, are all important considerations that are currently overlooked. In this paper, we investigate the role of the Focal parameter in modulating attention, revealing a link between attention in loss functions and networks. By incorporating a Focal distance penalty term, we extend the Unified Focal loss framework to include boundary-based losses. Furthermore, we develop a simple and interpretable, dataset and model-specific heuristic to integrate the Focal parameter into the Squeeze-and-Excitation block and Attention Gate, achieving optimal performance with fewer number of attention modules on three well-validated biomedical imaging datasets, suggesting judicious use of attention modules results in better performance and efficiency.
翻訳日:2021-11-02 14:31:54 公開日:2021-10-31
# ワンショット学習に基づくオープンソースのホットワード検出エンジンEfficientWord-Net

EfficientWord-Net: An Open Source Hotword Detection Engine based on One-shot Learning ( http://arxiv.org/abs/2111.00379v1 )

ライセンス: Link先を確認
Chidhambararajan R, Aman Rangaur, Sibi Chakkaravarthy Sethuraman(参考訳) Siri、Google Assistant、Alexaなどの音声アシスタントは、ホームオートメーションのために世界中で広く使われているが、これらは"Hey Alexa!"や"Ok Google!"、"Hey Siri!"といったアクションを実行するために、ホットワードとして知られる特別なフレーズを使用する必要がある。 これらのホットワードは、ユーザが発するホットワードを検出することを目的とした軽量リアルタイムエンジンによって検出される。 本稿では,ユーザが発するホットワードを1つまたは数個のトレーニングサンプルでリアルタイムに検出するワンショット学習に基づくホットワード検出エンジンの設計と実装について述べる。 既存のシステムに新しいホットワードを追加するプロセスは、膨大な量の正負のトレーニングサンプルを必要とし、モデルがすべてのホットワードを再トレーニングする必要があるため、このアプローチは既存の実装と比較して効率的である。 これにより、既存の実装は計算とコストの面で非効率になる。 本論文で提案するアーキテクチャの精度は94.51%である。

Voice assistants like Siri, Google Assistant, Alexa etc. are used widely across the globe for home automation, these require the use of special phrases also known as hotwords to wake it up and perform an action like "Hey Alexa!", "Ok Google!" and "Hey Siri!" etc. These hotwords are detected with lightweight real-time engines whose purpose is to detect the hotwords uttered by the user. This paper presents the design and implementation of a hotword detection engine based on one-shot learning which detects the hotword uttered by the user in real-time with just one or few training samples of the hotword. This approach is efficient when compared to existing implementations because the process of adding a new hotword in the existing systems requires enormous amounts of positive and negative training samples and the model needs to retrain for every hotword. This makes the existing implementations inefficient in terms of computation and cost. The architecture proposed in this paper has achieved an accuracy of 94.51%.
翻訳日:2021-11-02 14:31:11 公開日:2021-10-31
# 分散トレーニングにおけるラベルの探索と保護

Revealing and Protecting Labels in Distributed Training ( http://arxiv.org/abs/2111.00556v1 )

ライセンス: Link先を確認
Trung Dang, Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Peter Chin, Fran\c{c}oise Beaufays(参考訳) 連合学習のような分散学習パラダイムは、しばしばネットワーク上のモデル更新や勾配の伝達を伴い、それによってプライベートデータの伝達を避ける。 しかし、これらの勾配からトレーニングデータに関するセンシティブな情報を明らかにすることが可能である。 先行研究は、ラベルが特定のモデルの最後の層(例えばResNet)から解析的に明らかにできること、あるいはモデルの現状に関する追加の知識をグラディエントマッチング(Zhu et al'19)を用いてモデル入力と共同で再構築できることを実証している。 本研究では,最終層の勾配とラベルマッピングへのidのみから,トレーニングサンプルのラベル集合を検出する手法を提案する。 本手法は複数のドメインにわたる多種多様なモデルアーキテクチャに適用できる。 本手法は,画像分類と自動音声認識の2つの領域におけるモデル学習の有効性を示す。 さらに,本手法と併用することにより,既存の再建手法の有効性が向上することを示す。 逆に,勾配量子化とスパーシフィケーションは攻撃の成功を著しく減少させることを実証する。

Distributed learning paradigms such as federated learning often involve transmission of model updates, or gradients, over a network, thereby avoiding transmission of private data. However, it is possible for sensitive information about the training data to be revealed from such gradients. Prior works have demonstrated that labels can be revealed analytically from the last layer of certain models (e.g., ResNet), or they can be reconstructed jointly with model inputs by using Gradients Matching [Zhu et al'19] with additional knowledge about the current state of the model. In this work, we propose a method to discover the set of labels of training samples from only the gradient of the last layer and the id to label mapping. Our method is applicable to a wide variety of model architectures across multiple domains. We demonstrate the effectiveness of our method for model training in two domains - image classification, and automatic speech recognition. Furthermore, we show that existing reconstruction techniques improve their efficacy when used in conjunction with our method. Conversely, we demonstrate that gradient quantization and sparsification can significantly reduce the success of the attack.
翻訳日:2021-11-02 14:30:56 公開日:2021-10-31
# サブワード言語単位を用いた音声領域における言語モデリング

Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units ( http://arxiv.org/abs/2111.00610v1 )

ライセンス: Link先を確認
Anurag Katakkar, Alan W Black(参考訳) テキストデータのための言語モデル (LM) は、言語生成やその他の下流タスクにおける有用性について広く研究されている。 しかし、音声領域における純粋に言語モデリングはいまだに未探索のトピックであり、従来の音声 LM は言語の分布面を学習するための補助テキスト LM に依存することが多い。 英語では、これらのLMは単語を原子単位として扱い、音声領域における言語モデリングに固有の課題をもたらす。 本稿では,音節や音素を含む言語単位をベースとして,CBOWモデルにインスパイアされた新しいLSTMに基づく生成音声LMを提案する。 これにより、単一のメルスペクトログラムフレームや単語全体とは対照的に、データセット内の発話間の音響的一貫性が向上する。 限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。 補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。 また,本実験では,これらのモデルの訓練対象である平均二乗誤り(Mean Squared Error,MSE)と,音声品質の真の目標とのミスマッチを含む,生成音声の訓練における,よく知られた課題と不十分な課題を強調した。 検証損失とメルケプストラム歪み(mel cepstral strain, mcd)は,生成音声品質と強く相関しないが,perplexity や next-token-prediction accuracy といった従来のテキスト言語モデリング指標が有意である可能性が示唆された。

Language models (LMs) for text data have been studied extensively for their usefulness in language generation and other downstream tasks. However, language modelling purely in the speech domain is still a relatively unexplored topic, with traditional speech LMs often depending on auxiliary text LMs for learning distributional aspects of the language. For the English language, these LMs treat words as atomic units, which presents inherent challenges to language modelling in the speech domain. In this paper, we propose a novel LSTM-based generative speech LM that is inspired by the CBOW model and built on linguistic units including syllables and phonemes. This offers better acoustic consistency across utterances in the dataset, as opposed to single melspectrogram frames, or whole words. With a limited dataset, orders of magnitude smaller than that required by contemporary generative models, our model closely approximates babbling speech. We show the effect of training with auxiliary text LMs, multitask learning objectives, and auxiliary articulatory features. Through our experiments, we also highlight some well known, but poorly documented challenges in training generative speech LMs, including the mismatch between the supervised learning objective with which these models are trained such as Mean Squared Error (MSE), and the true objective, which is speech quality. Our experiments provide an early indication that while validation loss and Mel Cepstral Distortion (MCD) are not strongly correlated with generated speech quality, traditional text language modelling metrics like perplexity and next-token-prediction accuracy might be.
翻訳日:2021-11-02 14:30:39 公開日:2021-10-31
# 拘束型MDPにおける政策最適化の高速グローバル収束

Fast Global Convergence of Policy Optimization for Constrained MDPs ( http://arxiv.org/abs/2111.00552v1 )

ライセンス: Link先を確認
Tao Liu, Ruida Zhou, Dileep Kalathil, P. R. Kumar, Chao Tian(参考訳) 我々は強化学習における安全性の問題に取り組む。 我々はこの問題を、無限水平制約付きマルコフ決定プロセスフレームワークで解決する。 既存の結果は、勾配に基づく手法は最適性ギャップと制約違反の両方で$\mathcal{o}(1/\sqrt{t})$大域収束率を達成できることを示した。 最適性ギャップと制約違反の両方に対して、より高速な収束率$\mathcal{O}(\log(T)/T)$の自然ポリシー勾配に基づくアルゴリズムを示す。 スレーターの条件が満たされ事前条件が知られているとき、同じ収束率を維持しながら十分大きなT$に対してゼロ制約違反がさらに保証される。

We address the issue of safety in reinforcement learning. We pose the problem in a discounted infinite-horizon constrained Markov decision process framework. Existing results have shown that gradient-based methods are able to achieve an $\mathcal{O}(1/\sqrt{T})$ global convergence rate both for the optimality gap and the constraint violation. We exhibit a natural policy gradient-based algorithm that has a faster convergence rate $\mathcal{O}(\log(T)/T)$ for both the optimality gap and the constraint violation. When Slater's condition is satisfied and known a priori, zero constraint violation can be further guaranteed for a sufficiently large $T$ while maintaining the same convergence rate.
翻訳日:2021-11-02 14:28:12 公開日:2021-10-31
# 厳密な凸損失下でのイソトニック回帰による校正アルゴリズム

Efficient, Anytime Algorithms for Calibration with Isotonic Regression under Strictly Convex Losses ( http://arxiv.org/abs/2111.00468v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 推定器出力の最適単調変換を用いて推定値の校正を行い,性能向上を図る。 まず,従来の二乗誤差設定を重み付き変種を用いて検討し,最適な単音変換が一意な階段関数の形式であることを示す。 さらに, この階段の挙動は, 一般の厳密な凸損失関数に対して保存されることを示した。 それらの最適モノトン変換もまた一意であり、最小損失を達成する単一の階段変換が存在する。 本稿では,特定の損失設定に対して最適な変換を求める線形時間空間アルゴリズムを提案する。 提案アルゴリズムは, これまでに観測されたサンプルの最適変換を線形空間で検出し, サンプルが順に到着する時刻を補正するオンライン実装である。 また、関数が個別に最適化する自明でない場合にも結果を拡張し、線形空間と擬線形時間複雑性を持つ任意のアルゴリズムを提案する。

We investigate the calibration of estimations to increase performance with an optimal monotone transform on the estimator outputs. We start by studying the traditional square error setting with its weighted variant and show that the optimal monotone transform is in the form of a unique staircase function. We further show that this staircase behavior is preserved for general strictly convex loss functions. Their optimal monotone transforms are also unique, i.e., there exist a single staircase transform that achieves the minimum loss. We propose a linear time and space algorithm that can find such optimal transforms for specific loss settings. Our algorithm has an online implementation where the optimal transform for the samples observed so far are found in linear space and amortized time when the samples arrive in an ordered fashion. We also extend our results to cases where the functions are not trivial to individually optimize and propose an anytime algorithm, which has linear space and pseudo-linearithmic time complexity.
翻訳日:2021-11-02 14:26:39 公開日:2021-10-31
# スマートフォン用セルフアテンション・モバイルネットを用いた画像傾き補正の簡易化

A Simple Approach to Image Tilt Correction with Self-Attention MobileNet for Smartphones ( http://arxiv.org/abs/2111.00398v1 )

ライセンス: Link先を確認
Siddhant Garg, Debi Prasanna Mohanty, Siva Prasad Thota, Sukumar Moharana(参考訳) 私たちの仕事の主な貢献は2倍です。 まず,SA-MobileNetと呼ばれるセルフアテンション・モビリティ・ネットワークを提案し,画像特徴間の長距離依存性を標準の畳み込みカーネルで処理する代わりにモデル化する。 sa-mobilenet は mobilenetv3 モデルの逆ボトルネックブロックと統合されたセルフアテンションモジュールを含み、画像特徴のチャネル毎の注意と空間的注意の両方をモデル化すると同時に、低リソースデバイス向けの新しいセルフアテンションアーキテクチャも導入する。 次に,画像傾き検出のための新しい訓練パイプラインを提案する。 本研究では,入力画像の傾きが1~2度の範囲の狭い範囲で複数角度の予測を行うマルチラベルシナリオにおいて,この問題を扱う。 このプロセスは、複数ラベル学習における2階法または高階法の計算オーバーヘッドを伴わないラベル間の暗黙の相関を誘導する。 新たなアプローチとアーキテクチャを組み合わせることで,MobileNetV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出するための最先端の結果を提示する。 最後に、sa-mobilenetはsun397、nyu-v1、ade20kのデータセットのmobilenetv3よりも6.42%、10.51%、9.09%、snapdragon 750オクタコアの少なくとも4ミリ秒高速である。

The main contributions of our work are two-fold. First, we present a Self-Attention MobileNet, called SA-MobileNet Network that can model long-range dependencies between the image features instead of processing the local region as done by standard convolutional kernels. SA-MobileNet contains self-attention modules integrated with the inverted bottleneck blocks of the MobileNetV3 model which results in modeling of both channel-wise attention and spatial attention of the image features and at the same time introduce a novel self-attention architecture for low-resource devices. Secondly, we propose a novel training pipeline for the task of image tilt detection. We treat this problem in a multi-label scenario where we predict multiple angles for a tilted input image in a narrow interval of range 1-2 degrees, depending on the dataset used. This process induces an implicit correlation between labels without any computational overhead of the second or higher-order methods in multi-label learning. With the combination of our novel approach and the architecture, we present state-of-the-art results on detecting the image tilt angle on mobile devices as compared to the MobileNetV3 model. Finally, we establish that SA-MobileNet is more accurate than MobileNetV3 on SUN397, NYU-V1, and ADE20K datasets by 6.42%, 10.51%, and 9.09% points respectively, and faster by at least 4 milliseconds on Snapdragon 750 Octa-core.
翻訳日:2021-11-02 14:08:47 公開日:2021-10-31
# R-BERT-CNN : 医学文献からの薬物・標的相互作用の抽出

R-BERT-CNN: Drug-target interactions extraction from biomedical literature ( http://arxiv.org/abs/2111.00611v1 )

ライセンス: Link先を確認
Jehad Aldahdooh, Ziaurrehman Tanoli, Jing Tang(参考訳) 本稿では,BioCreative VII チャレンジの薬物プロット課題への取り組みについて紹介する。 薬物-標的相互作用(DTI)は、しばしば実験記事から手動で抽出される薬物の発見と再精製に重要である。 このような膨大な知識ベースからdtisを手作業で抽出するpubmedのバイオメディカル記事は32万以上ある。 この問題を解決するために,薬物とタンパク質の相互作用を10種類抽出することを目的としたトラック1のソリューションを提供する。 本研究では,最先端の言語モデルであるBioMed-RoBERTaと畳み込みニューラルネットワーク(CNN)を組み合わせたEnsemble Classifierモデルを適用し,これらの関係を抽出した。 BioCreative VII DrugProt test corpusでは,クラス不均衡にもかかわらず,マイクロF1スコアは55.67%(BioCreative VI ChemProt test corpusでは63%)で,他の提案よりも優れた性能を示した。 その結果,様々なDTIの抽出における深層学習の可能性が示唆された。

In this research, we present our work participation for the DrugProt task of BioCreative VII challenge. Drug-target interactions (DTIs) are critical for drug discovery and repurposing, which are often manually extracted from the experimental articles. There are >32M biomedical articles on PubMed and manually extracting DTIs from such a huge knowledge base is challenging. To solve this issue, we provide a solution for Track 1, which aims to extract 10 types of interactions between drug and protein entities. We applied an Ensemble Classifier model that combines BioMed-RoBERTa, a state of art language model, with Convolutional Neural Networks (CNN) to extract these relations. Despite the class imbalances in the BioCreative VII DrugProt test corpus, our model achieves a good performance compared to the average of other submissions in the challenge, with the micro F1 score of 55.67% (and 63% on BioCreative VI ChemProt test corpus). The results show the potential of deep learning in extracting various types of DTIs.
翻訳日:2021-11-02 14:04:20 公開日:2021-10-31
# 時間的モーメント局在に対する階層的残差推論

Hierarchical Deep Residual Reasoning for Temporal Moment Localization ( http://arxiv.org/abs/2111.00417v1 )

ライセンス: Link先を確認
Ziyang Ma, Xianjing Han, Xuemeng Song, Yiran Cui, Liqiang Nie(参考訳) 非トリミングビデオにおける時間的モーメントローカライゼーション(TML)はマルチメディア分野における課題であり、文クエリによって記述されたビデオのアクティビティの開始点と終了点をローカライズすることを目的としている。 既存の手法では,映像表現と文表現の相関関係の抽出や,その融合方法の検討が主である。 これらの著作は主に映像と文を粗末に理解し、文章が様々な意味論から理解できるという事実を無視し、意味論におけるモーメントの定位に影響する支配的な単語は行動と対象参照である。 この目的のために,ビデオと文を異なる意味を持つマルチレベル表現に分解し,よりきめ細かい局所化を実現する階層的深層残響推論(HDRR)モデルを提案する。 さらに,異なる解像度の映像と異なる長さの文章が理解の困難さを考慮し,機能融合のための単純かつ効果的なres-bigrusを設計し,その有用な情報を自己適応的に把握する。 Charades-STAおよびActivityNet-Captionsデータセットで実施された大規模な実験は、他の最先端手法と比較してHDRRモデルの優位性を示している。

Temporal Moment Localization (TML) in untrimmed videos is a challenging task in the field of multimedia, which aims at localizing the start and end points of the activity in the video, described by a sentence query. Existing methods mainly focus on mining the correlation between video and sentence representations or investigating the fusion manner of the two modalities. These works mainly understand the video and sentence coarsely, ignoring the fact that a sentence can be understood from various semantics, and the dominant words affecting the moment localization in the semantics are the action and object reference. Toward this end, we propose a Hierarchical Deep Residual Reasoning (HDRR) model, which decomposes the video and sentence into multi-level representations with different semantics to achieve a finer-grained localization. Furthermore, considering that videos with different resolution and sentences with different length have different difficulty in understanding, we design the simple yet effective Res-BiGRUs for feature fusion, which is able to grasp the useful information in a self-adapting manner. Extensive experiments conducted on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our HDRR model compared with other state-of-the-art methods.
翻訳日:2021-11-02 13:58:54 公開日:2021-10-31
# テンプレートフィリングによるクロスドメイン推論

Cross-Domain Reasoning via Template Filling ( http://arxiv.org/abs/2111.00539v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Vivek Khetan, Bogdan Sacaleanu, Anatole Gershman, Andrew Fano, Eduard Hovy(参考訳) 本稿では,シーケンスモデルがクロスドメイン推論を行う能力について検討する。 そこで本研究では,シーケンシャル・ツー・シーケンシャル・モデルによるクロスドメイン推論を実現するためのプロンプト・テンプレート・フィルング・アプローチを提案する。 また,コモンセンスと健康および幸福なドメインに関するケーススタディを提示し,プロンプト・テンプレート・フィルが事前学習されたシーケンスをドメイン間のシーケンスモデルにどのように適用するかについて検討する。 事前学習したエンコーダ・デコーダモデルによる実験により,現在のモデルではクロスドメイン推論が難しいことが示された。 ドメイン間推論のための詳細な誤り解析と今後の研究への道筋を示す。

In this paper, we explore the ability of sequence to sequence models to perform cross-domain reasoning. Towards this, we present a prompt-template-filling approach to enable sequence to sequence models to perform cross-domain reasoning. We also present a case-study with commonsense and health and well-being domains, where we study how prompt-template-filling enables pretrained sequence to sequence models across domains. Our experiments across several pretrained encoder-decoder models show that cross-domain reasoning is challenging for current models. We also show an in-depth error analysis and avenues for future research for reasoning across domains
翻訳日:2021-11-02 13:22:36 公開日:2021-10-31
# ソーシャルチャットボットにおける推論駆動対話管理へのアプローチ

An Approach to Inference-Driven Dialogue Management within a Social Chatbot ( http://arxiv.org/abs/2111.00570v1 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, Daniil Huryn, William Hutsell, Xiaoyuan Huang, Han He, Jinho D. Choi(参考訳) 本稿では,論理推論に基づく対話管理手法を実装したチャットボットを提案する。 会話を一連の応答生成タスクにフレーミングする代わりに、話者が情報を共有して新しい知識をリアルタイムで合成する協調的推論プロセスとして会話をモデル化する。 当社のチャットボットパイプラインは、このモデリングを3つの幅広いステージで実現します。 第1段階は、ユーザの発話を象徴的述語表現に変換する。 次に、この構造化表現をより大きな知識ベースと組み合わせて、効率的なグラフマッチングを用いて新しい述語を合成する。 第3段階と最終段階において、我々のボットは述語の小さなサブセットを選択し、それらを英語の応答に変換する。 このアプローチは、ユーザ入力の潜在的なセマンティクス、柔軟なイニシアティブの取り込み、対話コンテキストに新しく一貫性のある応答を理解するのに役立ちます。

We present a chatbot implementing a novel dialogue management approach based on logical inference. Instead of framing conversation a sequence of response generation tasks, we model conversation as a collaborative inference process in which speakers share information to synthesize new knowledge in real time. Our chatbot pipeline accomplishes this modelling in three broad stages. The first stage translates user utterances into a symbolic predicate representation. The second stage then uses this structured representation in conjunction with a larger knowledge base to synthesize new predicates using efficient graph matching. In the third and final stage, our bot selects a small subset of predicates and translates them into an English response. This approach lends itself to understanding latent semantics of user inputs, flexible initiative taking, and responses that are novel and coherent with the dialogue context.
翻訳日:2021-11-02 13:22:25 公開日:2021-10-31
# どうしたの? 発話レベルによる全体的な対話品質の説明

What Went Wrong? Explaining Overall Dialogue Quality through Utterance-Level Impacts ( http://arxiv.org/abs/2111.00572v1 )

ライセンス: Link先を確認
James D. Finch, Sarah E. Finch, Jinho D. Choi(参考訳) 対話システムのユーザエクスペリエンスの向上には、会話ログの読み込み、統計分析の実行、システム欠陥の相対的重要性の監視など、開発者の集中的な作業が必要になることが多い。 本稿では,ユーザ・システム間相互作用と対話品質の関係を学習する会話ログの自動解析手法を提案する。 発話レベルの品質予測に関する先行研究とは異なり,提案手法は発話レベルのアノテーションを使わずに,ユーザ評価全体から各インタラクションの影響を学習し,経験的証拠と低コストで結果モデルの結論を導出する。 本モデルは,チャットボット設定における対話品質と強い相関関係を持つインタラクションを同定する。 実験の結果, モデルによる自動分析は, 専門家の判断と一致し, 発話レベルの品質予測の弱教師付き学習が, 極めて達成可能であることを示す最初の方法となった。

Improving user experience of a dialogue system often requires intensive developer effort to read conversation logs, run statistical analyses, and intuit the relative importance of system shortcomings. This paper presents a novel approach to automated analysis of conversation logs that learns the relationship between user-system interactions and overall dialogue quality. Unlike prior work on utterance-level quality prediction, our approach learns the impact of each interaction from the overall user rating without utterance-level annotation, allowing resultant model conclusions to be derived on the basis of empirical evidence and at low cost. Our model identifies interactions that have a strong correlation with the overall dialogue quality in a chatbot setting. Experiments show that the automated analysis from our model agrees with expert judgments, making this work the first to show that such weakly-supervised learning of utterance-level quality prediction is highly achievable.
翻訳日:2021-11-02 13:22:10 公開日:2021-10-31
# 選択的分類による取引

Trading via Selective Classification ( http://arxiv.org/abs/2110.14914v2 )

ライセンス: Link先を確認
Nestoras Chalkidis, Rahul Savani(参考訳) 資産の価格が上昇または低下するかどうかを予測しようとする二分分類器は、その予測に従う取引戦略を自然に生じ、したがって常に市場での地位を持つ。 選択的分類は、バイナリまたは多クラス分類器を拡張して、特定の入力に対する予測を行わないようにし、その結果の選択的分類器の精度と入力特徴空間の範囲とのトレードオフを可能にする。 選択型分類器は、その分類器が停止したときの取引位置を取らない取引戦略を引き起こす。 取引戦略設計における二元および三元選択分類の適用について検討する。 三次分類では、価格の上昇または下降のクラスに加えて、どちらの方向にも比較的小さな価格移動に対応する三次クラスを含み、分類器に方向予測を避ける別の方法を与える。 我々は、ロジスティック回帰、ランダム森林、フィードフォワード、リカレントニューラルネットワークの4つの分類アプローチに基づいて、二進法、三進法、選択法、選択法、非選択型分類器の評価と比較を行う。 次に、これらの分類器を商品先物市場でバックテストを行う取引戦略に変換する。 実験の結果,取引の選択的分類の可能性が示された。

A binary classifier that tries to predict if the price of an asset will increase or decrease naturally gives rise to a trading strategy that follows the prediction and thus always has a position in the market. Selective classification extends a binary or many-class classifier to allow it to abstain from making a prediction for certain inputs, thereby allowing a trade-off between the accuracy of the resulting selective classifier against coverage of the input feature space. Selective classifiers give rise to trading strategies that do not take a trading position when the classifier abstains. We investigate the application of binary and ternary selective classification to trading strategy design. For ternary classification, in addition to classes for the price going up or down, we include a third class that corresponds to relatively small price moves in either direction, and gives the classifier another way to avoid making a directional prediction. We use a walk-forward train-validate-test approach to evaluate and compare binary and ternary, selective and non-selective classifiers across several different feature sets based on four classification approaches: logistic regression, random forests, feed-forward, and recurrent neural networks. We then turn these classifiers into trading strategies for which we perform backtests on commodity futures markets. Our empirical results demonstrate the potential of selective classification for trading.
翻訳日:2021-11-02 11:20:03 公開日:2021-10-31