このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20201222)

# 時間の量子相関

Quantum correlations in time ( http://arxiv.org/abs/2002.10448v2 )

ライセンス: Link先を確認
Tian Zhang, Oscar Dahlsten, and Vlatko Vedral(参考訳) 異なるアプローチの時間における量子相関について検討する。 時間的相関は空間的相関と等しく扱われるべきであると仮定する。 非定値因果構造、一貫性のある履歴、一般化量子ゲーム、out-of-time-order correlations(otocs)、パス積分などである。 我々は、非相対論的量子論におけるこれらの時空的アプローチ間の密接な関係を確立し、その結果、統一的なイメージを生み出す。 経路積分形式論における振幅重み付き相関を除いて、ある実験では、異なるアプローチにおける時間的相関は同一または操作的に等価である。

We investigate quantum correlations in time in different approaches. We assume that temporal correlations should be treated in an even-handed manner with spatial correlations. We compare the pseudo-density matrix formalism with several other approaches: indefinite causal structures, consistent histories, generalised quantum games, out-of-time-order correlations(OTOCs), and path integrals. We establish close relationships among these space-time approaches in non-relativistic quantum theory, resulting in a unified picture. With the exception of amplitude-weighted correlations in the path integral formalism, in a given experiment, temporal correlations in the different approaches are the same or operationally equivalent.
翻訳日:2023-06-02 05:06:30 公開日:2020-12-22
# 正規列効果代数の3つのタイプ

The three types of normal sequential effect algebras ( http://arxiv.org/abs/2004.12749v2 )

ライセンス: Link先を確認
Abraham Westerbaan, Bas Westerbaan, John van de Wetering(参考訳) シーケンシャルエフェクト代数 (Sequence effect algebra, SEA) は、C*-代数上の L\'uders 積 $(a,b)\mapsto \sqrt{a}b\sqrt{a}$ をモデルとした逐次積演算を備えたエフェクト代数である。 SEA はすべての有向集合の上限を持つとき正規と呼ばれ、シーケンシャル積はこれらの上限と適切に相互作用する。 ヒルベルト空間とフォン・ノイマンあるいはJBW代数の単位区間に対する影響は、加法凸である通常のSEAの例である。 完全ブール代数も正規のSEAを形成し、これは0=1$のときのみ凸である。 任意の通常の SEA $E$ が直和 $E\equiv E_b\oplus E_c \oplus E_{ac}$ で完全ブール代数 $E_b$ 、凸正規 SEA $E_c$ および新たに同定された正規 SEA $E_{ac}$ が純粋にほぼ凸であることを示す。 その過程で、あるべき等式のみを含む海はブール代数でなければならないことを示しており、正規海のクラスに収束するスペクトル定理を、平方根の特異性に関するグッダーの問題として定めている。 本研究は,本研究の主目的を立案した後,病理組織学的a-convex SEAを除外した簡易な余剰公理を通常のSEAに対して提案する。 関連性のある逐次生成物を用いたSEAsの研究により,本論文を結論付ける。 結合性は、新しい公理を満たす通常のSEAを可換にし、なぜ量子論における逐次積が非連想的であるべきかという疑問に光を当てる。

A sequential effect algebra (SEA) is an effect algebra equipped with a sequential product operation modeled after the L\"uders product $(a,b)\mapsto \sqrt{a}b\sqrt{a}$ on C*-algebras. A SEA is called normal when it has all suprema of directed sets, and the sequential product interacts suitably with these suprema. The effects on a Hilbert space and the unit interval of a von Neumann or JBW algebra are examples of normal SEAs that are in addition convex, i.e. possess a suitable action of the real unit interval on the algebra. Complete Boolean algebras form normal SEAs too, which are convex only when $0=1$. We show that any normal SEA $E$ splits as a direct sum $E\equiv E_b\oplus E_c \oplus E_{ac}$ of a complete Boolean algebra $E_b$, a convex normal SEA $E_c$, and a newly identified type of normal SEA $E_{ac}$ we dub purely almost-convex. Along the way we show, among other things, that a SEA which contains only idempotents must be a Boolean algebra; and we establish a spectral theorem using which we settle for the class of normal SEAs a problem of Gudder regarding the uniqueness of square roots. After establishing our main result, we propose a simple extra axiom for normal SEAs that excludes the seemingly pathological a-convex SEAs. We conclude the paper by a study of SEAs with an associative sequential product. We find that associativity forces normal SEAs satisfying our new axiom to be commutative, shedding light on the question of why the sequential product in quantum theory should be non-associative.
翻訳日:2023-05-22 00:22:36 公開日:2020-12-22
# 境界-バルク二重性とアニオン凝縮に基づくトポロジカル秩序の特異な同定

Measuring the Unique Identifiers of Topological Order Based on Boundary-Bulk Duality and Anyon Condensation ( http://arxiv.org/abs/2005.03236v4 )

ライセンス: Link先を確認
Yong-Ju Hai, Ze Zhang, Hao Zheng, Liang Kong, Jiansheng Wu, Dapeng Yu(参考訳) 位相秩序はランダウの対称性を破るパラダイムを超えた新しい量子相である。 その定義上の特徴には、頑健な退化基底状態、長距離絡み合い、およびエノンが含まれる。 R$-および$F$-行列は、エノンの融合配位特性を特徴付けるもので、トポロジカル秩序を一意に識別するために用いられることが知られている。 本稿では、なぜ$R$-と$F$-行列を実験的に測定できるのか? 境界と最先端技術を持つトーリック符号モデルに基づく量子シミュレーションを用いて、境界バルク双対性およびエノン凝縮による境界励起の半ブレイディングにより、そのブレイディング(すなわち$R$-行列)が完全に決定可能であることを示す。 F$-行列は、2つの異なる順序で3つのエノンの融合を含む散乱量子回路でも測定できる。 そこで我々は、トポロジカルな順序のユニークな識別子を測定するための実験的なプロトコルを提供する。

A topological order is a new quantum phase that is beyond Landau's symmetry-breaking paradigm. Its defining features include robust degenerate ground states, long-range entanglement and anyons. It was known that $R$- and $F$-matrices, which characterize the fusion-braiding properties of anyons, can be used to uniquely identify topological order. In this article, we explore an essential question: how can the $R$- and $F$-matrices be experimentally measured? By using quantum simulations based on a toric code model with boundaries and state-of-the-art technology, we show that the braidings, i.e. the $R$-matrices, can be completely determined by the half braidings of boundary excitations due to the boundary-bulk duality and the anyon condensation. The $F$-matrices can also be measured in a scattering quantum circuit involving the fusion of three anyons in two different orders. Thus we provide an experimental protocol for measuring the unique identifiers of topological order.
翻訳日:2023-05-20 22:41:07 公開日:2020-12-22
# 連続動的デカップリングによるレーザー周波数ノイズスペクトルの推定

Estimation of the Laser Frequency Nosie Spectrum by Continuous Dynamical Decoupling ( http://arxiv.org/abs/2005.03908v3 )

ライセンス: Link先を確認
Manchao Zhang, Yi Xie, Jie Zhang, Weichen Wang, Chunwang Wu, Ting Chen, Wei Wu and Pingxing Chen(参考訳) レーザー周波数ノイズによるデコヒーレンスは、量子情報処理において最も重要な障害の1つである。 このデコヒーレンスを抑制するためには、ノイズパワースペクトル密度を正確に特徴付ける必要がある。 特に、量子ビットのコヒーレンス特性に基づく雑音スペクトル測定は有意義かつまだ挑戦的な手法である。 本稿では,連続的動的デカップリング法に基づくレーザ周波数雑音スペクトルを理論的に解析し,実験的に取得する。 まず、初期状態$+X$から横緩和をモニタし、次に勾配降下データ処理プロトコルを用いて、混合ノイズ(レーザーと磁気ノイズを含む)スペクトルを最大2.2\pi(530kHz)まで推定する。 そして、異なるゼーマン部分レベル上に量子ビットを封入することにより、レーザノイズからの寄与を抽出する。 また、これらのノイズとライン幅が無視できると仮定された駆動レーザの類似性を用いて、2つの強雑音成分について検討した。 この手法は実験的に検証され、最終的にノイズを特徴付けるのに役立つ。

Decoherence induced by the laser frequency noise is one of the most important obstacles in the quantum information processing. In order to suppress this decoherence, the noise power spectral density needs to be accurately characterized. In particular, the noise spectrum measurement based on the coherence characteristics of qubits would be a meaningful and still challenging method. Here, we theoretically analyze and experimentally obtain the spectrum of laser frequency noise based on the continuous dynamical decoupling technique. We first estimate the mixture-noise (including laser and magnetic noises) spectrum up to $(2\pi)$530 kHz by monitoring the transverse relaxation from an initial state $+X$, followed by a gradient descent data process protocol. Then the contribution from the laser noise is extracted by enconding the qubits on different Zeeman sublevels. We also investigate two sufficiently strong noise components by making an analogy between these noises and driving lasers whose linewidth assumed to be negligible. This method is verified experimentally and finally helps to characterize the noise.
翻訳日:2023-05-20 20:16:39 公開日:2020-12-22
# 浮遊ナノ粒子間の定常ガウスエンタングルメント

Stationary Gaussian Entanglement between Levitated Nanoparticles ( http://arxiv.org/abs/2006.03342v2 )

ライセンス: Link先を確認
Anil Kumar Chauhan, Ond\v{r}ej \v{C}ernot\'ik, and Radim Filip(参考訳) 光子のコヒーレント散乱は、光と光、およびナノ粒子間の強い多目的相互作用を約束する光レビテーションナノ粒子の光学的カップリングの新しいメカニズムである。 2つの粒子間のガウス的絡み合いの効率的な決定論的生成を可能にすることを示す。 赤と青のツイーザーの組み合わせは、機械的なボゴリューボフモードを基底状態にもたらす。 追加の分散結合キャビティモードは直交モードのノイズを低減し、対数ネガティビティによって定量化され、現実的な実験パラメータのデュアン基準で検証できる強い絡み合いをもたらす。 このような量子センシングと量子シミュレーションの重要な資源は、現在の実験において重要であり、量子状態において複数の粒子を持つ光メカニクスへの重要な一歩を示している。

Coherent scattering of photons is a novel mechanism of optomechanical coupling for optically levitated nanoparticles promising strong, versatile interactions with light and between nanoparticles. We show that it allows efficient deterministic generation of Gaussian entanglement between two particles in separate tweezers. A combination of red- and blue-detuned tweezers brings a mechanical Bogoliubov mode to its ground state. An additional, dispersively coupled cavity mode can reduce noise in the orthogonal mode, resulting in strong entanglement as quantified by the logarithmic negativity and verifiable with the Duan criterion for realistic experimental parameters. Such an important resource for quantum sensing and quantum simulations is pivotal for current experiments and presents an important step towards optomechanics with multiple particles in the quantum regime.
翻訳日:2023-05-17 02:08:37 公開日:2020-12-22
# Fock状態を用いた位相参照のない単元ガウス過程の光学的推定

Optical estimation of unitary Gaussian processes without phase reference using Fock states ( http://arxiv.org/abs/2006.09976v2 )

ライセンス: Link先を確認
Changhun Oh, Kimin Park, Radim Filip, Hyunseok Jeong, and Petr Marek(参考訳) 一般ガウス過程は位相に敏感であるため、この特徴を利用するには安定な位相参照が必要である。 基準が欠落している場合、測定されたサンプルの揮発性の性質や測定の技術的制限により、結果の過程は位相中にランダムに現れる。 この条件下では, 2つの単一モードガウス過程, 変位とスクイーズを考える。 この2つを,光子数状態と光子数分解検出器を用いて効率的に推定できることを示す。 変位とスクイーズを別々に推定するために、数百のプローブのアンサンブルの実際の推定誤差は、推定されたパラメータの任意の小さな値と現実的な損失であっても、Cram\'{e}r-Rao境界を飽和させることができる。 フォック状態による変位の推定は、等価エネルギーと最適な測定値を持つガウス状態を用いた推定よりも常に優れる。 スクイーズ推定では、フォックはガウス法よりも優れているが、そのエネルギーが十分に大きいときのみである。 最後に,fock状態は変位とスクイーズを同時に推定するためにも利用できることを示した。

Since a general Gaussian process is phase-sensitive, a stable phase reference is required to take advantage of this feature. When the reference is missing, either due to the volatile nature of the measured sample or the measurement's technical limitations, the resulting process appears as random in phase. Under this condition, we consider two single-mode Gaussian processes, displacement and squeezing. We show that these two can be efficiently estimated using photon number states and photon number resolving detectors. For separate estimation of displacement and squeezing, the practical estimation errors for hundreds of probes' ensembles can saturate the Cram\'{e}r-Rao bound even for arbitrary small values of the estimated parameters and under realistic losses. The estimation of displacement with Fock states always outperforms estimation using Gaussian states with equivalent energy and optimal measurement. For estimation of squeezing, Fock states outperform Gaussian methods, but only when their energy is large enough. Finally, we show that Fock states can also be used to estimate the displacement and the squeezing simultaneously.
翻訳日:2023-05-13 15:48:49 公開日:2020-12-22
# 超伝導量子ビットのための高忠実・高スケーリング2量子ゲートスキーム

High-fidelity, high-scalability two-qubit gate scheme for superconducting qubits ( http://arxiv.org/abs/2006.11860v2 )

ライセンス: Link先を確認
Yuan Xu, Ji Chu, Jiahao Yuan, Jiawei Qiu, Yuxuan Zhou, Libo Zhang, Xinsheng Tan, Yang Yu, Song Liu, Jian Li, Fei Yan, Dapeng Yu(参考訳) スケーラブルな量子情報処理には,高品質な2量子ビットゲート演算が不可欠である。 しばしば、システムがより統合されるとゲート忠実性が損なわれる。 そのため,低エラーレートでスケールの容易な2ビットゲート方式が望まれる。 本稿では、超伝導量子回路における固定周波数キュービットと可変カプラを利用する新しい2量子ゲート方式を実験的に実証する。 このスキームは制御ラインを少なくし、クロストーク効果を低減し、キャリブレーション手順を単純化するが、インターリーブされたランダム化ベンチマーク法に由来する99.5%高い忠実度を持つ30nsの制御zゲートを生成する。 誤り解析は、ゲートエラーがほとんどコヒーレンスに制限されていることを示している。 この実証は,高忠実度量子演算の大規模実装への道を開くものである。

High-quality two-qubit gate operations are crucial for scalable quantum information processing. Often, the gate fidelity is compromised when the system becomes more integrated. Therefore, a low-error-rate, easy-to-scale two-qubit gate scheme is highly desirable. Here, we experimentally demonstrate a new two-qubit gate scheme that exploits fixed-frequency qubits and a tunable coupler in a superconducting quantum circuit. The scheme requires less control lines, reduces crosstalk effect, simplifies calibration procedures, yet produces a controlled-Z gate in 30ns with a high fidelity of 99.5%, derived from the interleaved randomized benchmarking method. Error analysis shows that gate errors are mostly coherence limited. Our demonstration paves the way for large-scale implementation of high-fidelity quantum operations.
翻訳日:2023-05-13 05:27:59 公開日:2020-12-22
# O(3)シグマモデルの量子シミュレーションにおける状態準備と測定

State preparation and measurement in a quantum simulation of the O(3) sigma model ( http://arxiv.org/abs/2006.15746v3 )

ライセンス: Link先を確認
Alexander J. Buser, Tanmoy Bhattacharya, Lukasz Cincio, Rajan Gupta(参考訳) Singh と Chandrasekharan は近年、非線型 O(3) シグマモデルの固定点が、格子サイトあたり2キュービットしか持たないスピンモデルの量子相転移の近くで再現可能であることを示した。 NuQSコラボレーションによる論文では、同様のモデルの普遍的性質を用いて、量子コンピュータ上でそのような場の理論をシミュレートする提案がなされている。 本稿では,その方向に従って,量子コンピュータ上での動的興味量,O(3)ネーター電荷からモデルの基底状態を作成し,測定する方法を示す。 特に,弱結合系と量子臨界系の両方における断熱基底状態の複雑化の結果を得るためにトロッター法を適用し,シャドウトモグラフィーを用いて局所観測器のダイナミクスを測定した。 次に、中間雑音量子デバイスに適したアプローチを導出する非単位ランダム化シミュレーション法に基づいて量子アルゴリズムを提示、解析する。

Recently, Singh and Chandrasekharan showed that fixed points of the non-linear O(3) sigma model can be reproduced near a quantum phase transition of a spin model with just two qubits per lattice site. In a paper by the NuQS collaboration, the proposal is made to simulate such field theories on a quantum computer using the universal properties of a similar model. In this paper, following that direction, we demonstrate how to prepare the ground state of the model from and measure a dynamical quantity of interest, the O(3) Noether charge, on a quantum computer. In particular, we apply Trotter methods to obtain results for the complexity of adiabatic ground state preparation in both the weak-coupling and quantum-critical regimes and use shadow tomography to measure the dynamics of local observables. We then present and analyze a quantum algorithm based on non-unitary randomized simulation methods that may yield an approach suitable for intermediate-term noisy quantum devices.
翻訳日:2023-05-12 05:33:37 公開日:2020-12-22
# 微視的熱機械における作業変動と効率の幾何学

Geometry of work fluctuations versus efficiency in microscopic thermal machines ( http://arxiv.org/abs/2009.02261v2 )

ライセンス: Link先を確認
Harry J. D. Miller and Mohammad Mehboudi(参考訳) 工学的な顕微鏡機械では、確率的変動の影響により、効率が上がると信頼性が低下する。 本稿では,古典的・量子的いずれにおいても平衡に近い熱機械の効率と作業変動を多目的に最適化する汎用手法を開発した。 本手法は熱力学幾何学の手法を活用し,熱力学長でパラメータ化されたプロトコルに最適解をマッチングする。 我々は,連続変数ガウス機械の最適プロトコルを特徴付け,ミクロシステムのための熱力学の研究において重要なクラスとなっている。

When engineering microscopic machines, increasing efficiency can often come at a price of reduced reliability due to the impact of stochastic fluctuations. Here we develop a general method for performing multi-objective optimisation of efficiency and work fluctuations in thermal machines operating close to equilibrium in either the classical or quantum regime. Our method utilises techniques from thermodynamic geometry, whereby we match optimal solutions to protocols parameterised by their thermodynamic length. We characterise the optimal protocols for continuous-variable Gaussian machines, which form a crucial class in the study of thermodynamics for microscopic systems.
翻訳日:2023-05-03 20:44:32 公開日:2020-12-22
# 監禁用プローブとしての混合状態絡み合い対策

Mixed state entanglement measures as probe for confinement ( http://arxiv.org/abs/2010.07702v2 )

ライセンス: Link先を確認
Parul Jain and Subhash Mahapatra(参考訳) 様々な大規模N$トップダウンおよびボトムアップ精錬モデルにおける混合状態絡み合いのホログラフィック的側面について検討した。 トップダウンモデルの場合、ラップされた$d3$と$d4$ branes重力解を考えるが、ボトムアップ閉じ込めモデルではアインシュタイン-マクスウェル-ディラトン重力解を考える。 我々は, エンタングルメント・エントロピー, 相互情報, エンタングルメント・ウェッジ断面積, エンタングルメント・ネガティビティについて研究し, 全てのコンフィング理論において, これらのエンタングルメント対策のモデル独立性を見出した。 絡み合いの負性およびエントロピーは同じ臨界ストリップ長$L_{crit}$で相転移を示し、これらの測度の順序は$\mathcal{O}(N^2)$から$\mathcal{O}(N^0)$に変化する。 エンタングルメントウェッジ断面積も同様に$L_{crit}$での順序変化を示し、異なるエンタングル曲面間の相転移が起こるたびに不連続な振る舞いを示す。 さらに、相互情報や絡み合いを含む不等式を検証し、後者が常に前者の半分を超えていることを確認する。

We study holographic aspects of mixed state entanglement measures in various large $N$ top-down as well as bottom-up confining models. For the top-down models, we consider wrapped $D3$ and $D4$ branes gravity solutions whereas, for the bottom-up confining model, the Einstein-Maxwell-dilaton gravity solution is considered. We study entanglement entropy, mutual information, entanglement wedge cross-section and entanglement negativity for the strip subsystems and find model independent features of these entanglement measures in all confining theories. The entanglement negativity and entropy exhibit a phase transition at the same critical strip length $L_{crit}$, at which the order of these measures changes from $\mathcal{O}(N^2)$ to $\mathcal{O}(N^0)$. The entanglement wedge cross-section similarly shows an order change at $L_{crit}$ and exhibits a discontinuous behaviour each time a phase transition between different entangling surfaces occur. We further test the inequality involving mutual information and entanglement wedge cross-section, and find that the latter always exceeds half of the former.
翻訳日:2023-04-29 00:23:55 公開日:2020-12-22
# 高qnb共振器の酸化物再成長によるマイクロ波損失の検討

Investigation of microwave loss induced by oxide regrowth in high-Q Nb resonators ( http://arxiv.org/abs/2012.10761v2 )

ライセンス: Link先を確認
J. Verjauw, A. Poto\v{c}nik, M. Mongillo, R. Acharya, F. Mohiyaddin, G. Simion, A. Pacco, Ts. Ivanov, D. Wan, A. Vanleenhove, L. Souriau, J. Jussot, A. Thiam, J. Swerts, X. Piao, S. Couet, M. Heyns, B. Govoreanu and I. Radu(参考訳) 最先端の超伝導量子ビットデバイスのコヒーレンスは主にアモルファス界面層で見られる2段階のシステム欠陥によって制限される。 適切な表面処理によってこれらの界面からのマイクロ波損失を減らすことが、デバイスの性能を前進させる鍵となる。 ここでは, フッ素酸エッチングによるネイティブ酸化物除去後のニオブ共振器について検討した。 環境への曝露後に発生する表面酸化物によるマイクロ波損失の再出現について検討する。 量子デバイスの損失は最大で7$\cdot$10$^6$に達すると、内部Q因子は16分間の環境条件に晒される。 さらに, nb2o5は, 拡張キャブレラ-モット成長モデルに従い, 最初の200時間以内に著しく成長する唯一の表面酸化物であることがわかった。 このとき、マイクロ波損失はNb$_2$O$_5$の厚さで線形にスケールし、抽出された損失はtan$\delta$ = 9.9$\cdot$10$^{-3}$である。 我々の発見は超伝導量子ビット、量子制限増幅器、マイクロ波運動インダクタンス検出器、単一光子検出器にまたがるデバイスに特に関心がある。

The coherence of state-of-the-art superconducting qubit devices is predominantly limited by two-level-system defects, found primarily at amorphous interface layers. Reducing microwave loss from these interfaces by proper surface treatments is key to push the device performance forward. Here, we study niobium resonators after removing the native oxides with a hydrofluoric acid etch. We investigate the reappearance of microwave losses introduced by surface oxides that grow after exposure to the ambient environment. We find that losses in quantum devices are reduced by an order of magnitude, with internal Q-factors reaching up to 7 $\cdot$ 10$^6$ in the single photon regime, when devices are exposed to ambient conditions for 16 min. Furthermore, we observe that Nb2O5 is the only surface oxide that grows significantly within the first 200 hours, following the extended Cabrera-Mott growth model. In this time, microwave losses scale linearly with the Nb$_2$O$_5$ thickness, with an extracted loss tangent tan$\delta$ = 9.9 $\cdot$ 10$^{-3}$. Our findings are of particular interest for devices spanning from superconducting qubits, quantum-limited amplifiers, microwave kinetic inductance detectors to single photon detectors.
翻訳日:2023-04-20 04:16:33 公開日:2020-12-22
# ボース・アインシュタイン凝縮体中の荷電ポーラロンと分子

Charged polarons and molecules in a Bose-Einstein Condensate ( http://arxiv.org/abs/2012.11436v2 )

ライセンス: Link先を確認
Esben Rohan Christensen, Arturo Camacho-Guardian, Georg M. Bruun(参考訳) ボース・アインシュタイン凝縮体(BEC)に浸漬された移動イオンの特性を,異なる理論的アプローチを用いて検討する。 コヒーレントな状態の変分アンザッツは、イオンスペクトル関数が極性準粒子状態に加えていくつかの分岐を示すことを予測し、BECにおけるイオン原子散乱の図式解析を用いて、ボソン数の増加によるイオンへの結合と同定する。 我々は、これらの分子イオンの形成を記述する簡易モデルを開発し、それらのスペクトル重みが結合原子数に比例することを示した。 イオンまわりのドレッシング雲の原子数は熱力学的な議論から計算され、最終的にbecにイオンを注入するダイナミクスは、コヒーレント準粒子の伝播と崩壊によって制御される様々な状態を示す。

We investigate the properties a mobile ion immersed in a Bose-Einstein condensate (BEC) using different theoretical approaches. A coherent state variational ansatz predicts that the ion spectral function exhibits several branches in addition to polaronic quasiparticle states, and we employ a diagrammatic analysis of the ion-atom scattering in the BEC to identify them as arising from the binding of an increasing number of bosons to the ion. We develop a simplified model describing the formation of these molecular ions showing that their spectral weight scales with the number of bound atoms. The number of atoms in the dressing cloud around the ion are calculated from thermodynamic arguments, and we finally show that the dynamics ensuing the injection of an ion into the BEC exhibits various regimes governed by coherent quasiparticle propagation and decay.
翻訳日:2023-04-20 00:29:59 公開日:2020-12-22
# バンド工学による超伝導回路のコヒーレンス向上

Enhanced coherence in superconducting circuits via band engineering ( http://arxiv.org/abs/2012.11884v1 )

ライセンス: Link先を確認
Luca Chirolli and Joel E. Moore(参考訳) ジョセフソン接合によって中断された超伝導回路では、異なる島のオフセット電荷に対するエネルギースペクトルの依存は、アハラノフ・カシエ効果を通じて周期的に2e$であり、ジョセフソンポテンシャルの対称性を反映する結晶バンド構造に似ている。 我々は、$\cos(2\varphi)$エネルギー相関係によって記述される高調波ジョセフソン要素が、電荷ブリルアンゾーンの平面バンドとディラック点の多重を特徴とするジョセフソンポテンシャルと設計スペクトルの形状を調整する自由度を高めることを示した。 フラットバンドはノイズに敏感な量子状態を提供し、バンド工学はシステムのコヒーレンスを改善するのに役立つ。 本稿では, 電荷ノイズとの非干渉を原則として達成するフラックス量子ビットの修正版について検討し, スピンワンディラックスペクトルを示し, 電荷ノイズとフラックスノイズの両方に対してロバストな引用を同時に行うフラックス量子ビットを導入する。

In superconducting circuits interrupted by Josephson junctions, the dependence of the energy spectrum on offset charges on different islands is $2e$ periodic through the Aharonov-Casher effect and resembles a crystal band structure that reflects the symmetries of the Josephson potential. We show that higher-harmonic Josephson elements described by a $\cos(2\varphi)$ energy-phase relation provide an increased freedom to tailor the shape of the Josephson potential and design spectra featuring multiplets of flat bands and Dirac points in the charge Brillouin zone. Flat bands provide noise-insensitive quantum states, and band engineering can help improve the coherence of the system. We discuss a modified version of a flux qubit that achieves in principle no decoherence from charge noise and introduce a flux qutrit that shows a spin-one Dirac spectrum and is simultaneously quote robust to both charge and flux noise.
翻訳日:2023-04-19 22:24:43 公開日:2020-12-22
# ベル状態に基づく半量子私的比較」へのコメント

Comment on 'Semi-Quantum Private Comparison Based on Bell States' ( http://arxiv.org/abs/2012.11874v1 )

ライセンス: Link先を確認
You-Lin Chen, Yu-Chin Lu, Zhong-Xuan Lin, Tzonelih Hwang(参考訳) 本研究は,二重c-not攻撃と悪質エージェント攻撃に苦しむベル状態(sqpc)を用いた個人比較のための半量子プロトコルを指摘する。 攻撃者はこれらの攻撃を通じて容易に情報を得ることができる。 これらの攻撃の両方に効果的に抵抗できる改良されたプロトコルが提案されている。

This study points out a semi-quantum protocol for private comparison using Bell states (SQPC) suffering from the double C-NOT attack and the malicious agent attack. The attacker can easily obtain information through these attacks. An improved protocol is proposed, which can effectively resist both of these attacks.
翻訳日:2023-04-19 22:24:23 公開日:2020-12-22
# 自己集合のための粒子とプロトコルの神経進化的学習

Neuroevolutionary learning of particles and protocols for self-assembly ( http://arxiv.org/abs/2012.11832v1 )

ライセンス: Link先を確認
Stephen Whitelam, Isaac Tamblyn(参考訳) 表面上に堆積した分子のシミュレーションにおいて、ニューロ進化学習は、熱平衡や機械的安定性といった物理的概念から入力されることなく、候補や競合する構造の事前知識なしに、粒子や時間依存のプロトコルを設計して自己組み立てを促進することができることを示す。 学習アルゴリズムは、指向性と探索設計の両方が可能であり、ユーザ定義プロパティで材料を組み立てたり、指定された順序パラメータの空間で新規性を探すことができる。 後者のモードでは、エネルギーが低いが必ずしも運動的にアクセスできない構造の空間ではなく、何ができるかの空間を探索する。

Within simulations of molecules deposited on a surface we show that neuroevolutionary learning can design particles and time-dependent protocols to promote self-assembly, without input from physical concepts such as thermal equilibrium or mechanical stability and without prior knowledge of candidate or competing structures. The learning algorithm is capable of both directed and exploratory design: it can assemble a material with a user-defined property, or search for novelty in the space of specified order parameters. In the latter mode it explores the space of what can be made rather than the space of structures that are low in energy but not necessarily kinetically accessible.
翻訳日:2023-04-19 22:23:42 公開日:2020-12-22
# 重なり合った中性子状態の絡み合い

Neutron State Entanglement with Overlapping Paths ( http://arxiv.org/abs/2012.11786v1 )

ライセンス: Link先を確認
S. J. Kuhn, S. McKay, J. Shen, N. Geerits, R. M. Dalgliesh, E. Dees, A. A. M. Irfan, F. Li, S. Lu, V. Vangelista, D. V. Baxter, G. Ortiz, S. R. Parnell, W. M. Snow, R. Pynn(参考訳) 絡み合いの直接プローブの開発は、複雑な量子物質の急速に膨張する場に不可欠である。 そこで, 量子プローブとして中性子絡み合いのロバスト性について, ビーム特性を変化させながら, clauser-horne-shimony-holtcontextity witnessの測定を行った。 具体的には, 個々の中性子のスピンとパスのサブシステムの絡み合いを, 2つの異なる装置を用いて2つの異なる実験で測定し, 経路の絡み合い長, コヒーレンス長, 中性子エネルギー差を変化させても持続することを示した。 エンタングルとディケンタングルのペアとして働く2つの独立した装置は、静磁場磁気ウォラストンプリズムと共振磁場無線周波数フリップパである。 この結果から, 中性子ビームの空間的およびエネルギー的特性は, タイレルソン境界以下では観測値が減少せず, 最大エンタングルメントが保存されることが示唆された。 また,中性子コヒーレンス長以下で分離しても,二つの経路が区別可能であることを示す。 この研究は、新しいモジュラーで堅牢な中性子散乱技術の実現における重要なステップである。

The development of direct probes of entanglement is integral to the rapidly expanding field of complex quantum materials. Here we test the robustness of entangled neutrons as a quantum probe by measuring the Clauser-Horne-Shimony-Holt contextuality witness while varying the beam properties. Specifically, we prove that the entanglement of the spin and path subsystems of individual neutrons prepared in two different experiments using two different apparatuses persists even after varying the entanglement length, coherence length, and neutron energy difference of the paths. The two independent apparatuses acting as entangler-disentangler pairs are static-field magnetic Wollaston prisms and resonance-field radio frequency flippers. Our results show that the spatial and energy properties of the neutron beam may be significantly altered without reducing the contextuality witness value below the Tsirelson bound, meaning that maximum entanglement is preserved. We also show that two paths may be considered distinguishable even when separated by less than the neutron coherence length. This work is the key step in the realization of the new modular, robust technique of entangled neutron scattering.
翻訳日:2023-04-19 22:23:06 公開日:2020-12-22
# ソリトン誘起動的カシミール効果によるチップの多成分高次元エンタングル状態生成

Multipartite high-dimensional entangled state generation through soliton-induced dynamical Casimir effect on a chip ( http://arxiv.org/abs/2012.11776v1 )

ライセンス: Link先を確認
Ali Eshaghian Dorche and Ali Adibi(参考訳) 動的カシミール効果(DCE)による複素量子状態生成のための集積フォトニックアプローチを実証した。 このアプローチは、時間光学ソリトンをサポートする光マイクロ共振器と結合したMW共振器の変調により、マイクロ波(MW)およびテラヘルツ(THz)系における多部共振状態を実現する手法を提供する。 MW共振器の状態は基底状態から進化し、基底状態の仮想光子から実光子を実現する。 光マイクロ共振器のKerr誘起屈折率変化によるMW共振器の周期変調と、散逸性Kerrソリトン(DKS)の局所的な空間分布は、MW共振器における光子対生成とモード間カップリングを可能にする。 これにより、広範囲のスペクトルで非常に永続的な多成分の高次元絡み合い状態を生成することができる。 提案手法は, モノリシック集積プラットフォームにおける高コヒーレント超短光パルスを用いた, MW および THz レシエーションにおける多部絡み合い量子ビット(高次元量子ビット)の生成のためのハイブリッド集積プラットフォームを実現する方法である。 このアーキテクチャは、フォールトトレラントコンピューティングからセンシングとテレポーテーションの強化に至るまで、幅広い量子プロトコルを利用するために必要なリソースとして、絡み合った状態ソースとして機能する。

An integrated photonic approach for complex quantum state generation through dynamical Casimir effect (DCE) is demonstrated. This approach provides a scheme to realize multipartite high-dimensional entangled states in the microwave (MW) and terahertz (THz) regimes, through the modulation in a MW-resonator coupled to an optical microresonator supporting temporal optical solitons. The states at the MW-resonator evolve from the ground state, realizing real-photons from the virtual photons at the ground state. The periodic modulation of the MW-resonator through a Kerr-induced refractive index change in the optical microresonator, along with the localized spatial distribution of the dissipative Kerr solitons (DKSs), enables photon-pair generation and inter-mode coupling at the MW-resonator. This allows generating highly persistent multipartite high-dimensional entangled states in a wide range of spectrum. The proposed approach paves the way for a hybrid integrated platform for generation of multipartite entangled qudits (high-dimensional qubits) at the MW and THz regimes using highly coherent ultra-short optical pulses in a monolithic integrated platform. This architecture can act as an entangled state source, as a necessary resource for exploiting a wide range of quantum protocols from fault-tolerant computing to enhanced sensing and teleportation.
翻訳日:2023-04-19 22:22:46 公開日:2020-12-22
# 基本非平衡環境非マルコビアン性、量子フィッシャー情報および量子コヒーレンス

Based-nonequilibrium-environment non-Markovianity, quantum Fisher information and quantum coherence ( http://arxiv.org/abs/2012.11986v1 )

ライセンス: Link先を確認
Danping Lin, Hong-Mei Zou, Jianhe Yang(参考訳) 本研究では,非平衡環境における量子ビットの非マルコフ性,量子フィッシャー情報(qfi)および量子コヒーレンスを調査し,qfiと量子コヒーレンスの表現とそれらの関係について検討した。 我々は、これらの量子スフィンクに対する異なる雑音パラメータの影響についても詳細に論じた。 その結果、非平衡環境の適切なパラメータはマルコフ領域と非マルコフ領域の両方におけるqfiと量子コヒーレンスを遅らせる可能性がある。 さらに、メモリ効果が小さくなり、ジャンプ速度が大きくなるほど、QFIと量子コヒーレンスが大きくなる。 また、より大きなQFIは、量子コヒーレンスを大きくし、量子メートル法を効果的に強化できることを示す、より大きな量子コヒーレンスに対応する。

In this work, we investigate the non-Markovianity, quantum Fisher information (QFI) and quantum coherence of a qubit in a nonequilibrium environment and have obtained the expressions of QFI and quantum coherence as well as their relationship. We have also discussed in detail the influences of the different noise parameters on these quantum sffects. The results show that the suitable parameters of the nonequilibrium environment can retard the QFI and quantum coherence in both Markovian and non-Markovian regions. In addition, the smaller memory effects and the larger the jumping rate, the greater the QFI and quantum coherence. And a larger QFI naturally corresponds to a larger quantum coherence, which indicates that the quantum coherence can enlarge the QFI and can effectively enhance the quantum metrology.
翻訳日:2023-04-19 22:16:40 公開日:2020-12-22
# 実験の最適設計による量子状態推定問題

Quantum-state estimation problem via optimal design of experiments ( http://arxiv.org/abs/2012.11949v1 )

ライセンス: Link先を確認
Jun Suzuki(参考訳) 本稿では,実験の最適設計の枠組みにおける量子状態推定問題について検討する。 まず、A-、D-、E-最適設計などの一般的な最適基準に対する任意のキュービットモデルに関する最適設計を見出す。 また、これらの基準を含む最適基準の1パラメータファミリーを与える。 次に、設計問題における古典的な結果であるキーファー=ヴォルフォヴィッツの定理を、D-最適設計がA-最適設計のある種のタイプに等しいことを示すキュービット系に拡張する。 次に、効率性に基づいて複数の最適設計を比較し、分析する。 特定の基準に対する最適設計は、他の最適基準に対して非常に非効率であることを示す。

In this paper, we study the quantum-state estimation problem in the framework of optimal design of experiments. We first find the optimal designs about arbitrary qubit models for popular optimality criteria such as A-, D-, and E-optimal designs. We also give the one-parameter family of optimality criteria which includes these criteria. We then extend a classical result in the design problem, the Kiefer-Wolfowitz theorem, to a qubit system showing the D-optimal design is equivalent to a certain type of the A-optimal design. We next compare and analyze several optimal designs based on the efficiency. We explicitly demonstrate that an optimal design for a certain criterion can be highly inefficient for other optimality criteria.
翻訳日:2023-04-19 22:15:50 公開日:2020-12-22
# 超高速回折による物質の完全量子状態のトモグラフィーイメージング

Tomographic imaging of complete quantum state of matter by ultrafast diffraction ( http://arxiv.org/abs/2012.11899v1 )

ライセンス: Link先を確認
Ming Zhang, Shuqiao Zhang, Haitan Xu, Hankai Zhang, Xiangxu Mu, R. J. Dwayne Miller, Anatoly Ischenko, Oriol Vendrell, Zheng Li(参考訳) 光子状態のウィグナー関数と密度行列を直接得る能力により、量子トモグラフィー(QT)は量子光学、量子コンピューティング、量子情報に多大な影響を与えた。 各自由度(DOF)の進化に関する適切な一連の測定により、観測されたフォトニクス系の完全な量子状態を決定することができる。 qtを物質波の完全な量子状態の再構成に応用する最初の提案は、超高速回折イメージングと分子のポンププローブ分光に多大な関心を寄せた。 この関心は、観察された核と電子の分布に時間分解能を加えるために電子加速器とX線自由電子レーザーを用いた超高速電子とX線回折技術の出現によって高まった。 しかし、この領域に対する大きな関心は次元問題として知られる不可能定理の挿絵によって引き起こされている。 ユニタリ進化を分子運動のあらゆるdofと結びつけることができないため、量子トモグラフィーは1d以外には使用できず、分子のほとんどの振動と全ての回転運動をカテゴリー的に排除した。 ここでは、悪名高い次元問題を克服するための理論的進歩を示す。 この問題を解くことは、イメージング分子動力学を量子限界に押し上げるために重要である。 新しい理論はこの問題を解決し、量子トモグラフィーを超高速物理学の真に有用な方法論とし、分子膜の量子バージョンの作成を可能にした。 新しい理論により、量子トモグラフィーは最終的に1次元に制限されることなく、物質の量子状態を再構築する一般的な方法となるのに十分なレベルに進むことができる。 レーザーアライメント窒素分子の超高速回折実験のシミュレーションデータセットを用いて,新しい概念を実証した。

With the ability to directly obtain the Wigner function and density matrix of photon states, quantum tomography (QT) has had a significant impact on quantum optics, quantum computing and quantum information. By an appropriate sequence of measurements on the evolution of each degreeof freedom (DOF), the full quantum state of the observed photonic system can be determined. The first proposal to extend the application of QT to reconstruction of complete quantum states of matter wavepackets had generated enormous interest in ultrafast diffraction imaging and pump-probe spectroscopy of molecules. This interest was elevated with the advent of ultrafast electron and X-ray diffraction techniques using electron accelerators and X-ray free electron lasers to add temporal resolution to the observed nuclear and electron distributions. However, the great interest in this area has been tempered by the illustration of an impossibility theorem, known as the dimension problem. Not being able to associate unitary evolution to every DOF of molecular motion, quantum tomography could not be used beyond 1D and categorically excludes most vibrational and all rotational motion of molecules. Here we present a theoretical advance to overcome the notorious dimension problem. Solving this challenging problem is important to push imaging molecular dynamics to the quantum limit. The new theory has solved this problem, which makes quantum tomography a truly useful methodology in ultrafast physics and enables the making of quantum version of a molecular movie. With the new theory, quantum tomography can be finally advanced to a sufficient level to become a general method for reconstructing quantum states of matter, without being limited in one dimension. Our new concept is demonstrated using a simulated dataset of ultrafast diffraction experiment of laser-aligned nitrogen molecules.
翻訳日:2023-04-19 22:14:37 公開日:2020-12-22
# ワイルドカードエラー:量子プロセッサにおける非モデルエラーの定量化

Wildcard error: Quantifying unmodeled errors in quantum processors ( http://arxiv.org/abs/2012.12231v1 )

ライセンス: Link先を確認
Robin Blume-Kohout, Kenneth Rudinger, Erik Nielsen, Timothy Proctor, and Kevin Young(参考訳) 量子コンピューティングプロセッサのエラーモデルは、理想的な振る舞いから逸脱し、アプリケーションにおける結果を予測する。 しかし、これらのプロセッサの実験的な動作(量子回路の観測結果統計)は、ランダム化ベンチマーク(rb)やゲートセットトモグラフィ(gst)のような特徴付け実験でも、エラーモデルとほとんど一致しない。 パラメータ化されたワイルドカードエラーモデルを用いてエラーモデルを増大させることにより、これらの矛盾を解決する方法を示し、非モデルエラーの頻度を定量化する。 エラーモデルにワイルドカードエラーを追加することは、制御された方法で予測を緩和し、弱める。 データとの一貫性を回復するために必要となるワイルドカードエラー量は、標準ゲートエラーレートと直接比較しやすい方法で、どれだけの非モデル化エラーが観測されたかを定量化する。 シミュレーションデータと実験データの両方を用いて,rbおよびgst実験から得られた誤差モデルを不整合データと照合し,非マルコビアン性をキャプチャし,プロセッサの観測誤差をすべて定量化する手法を示す。

Error models for quantum computing processors describe their deviation from ideal behavior and predict the consequences in applications. But those processors' experimental behavior -- the observed outcome statistics of quantum circuits -- are rarely consistent with error models, even in characterization experiments like randomized benchmarking (RB) or gate set tomography (GST), where the error model was specifically extracted from the data in question. We show how to resolve these inconsistencies, and quantify the rate of unmodeled errors, by augmenting error models with a parameterized wildcard error model. Adding wildcard error to an error model relaxes and weakens its predictions in a controlled way. The amount of wildcard error required to restore consistency with data quantifies how much unmodeled error was observed, in a way that facilitates direct comparison to standard gate error rates. Using both simulated and experimental data, we show how to use wildcard error to reconcile error models derived from RB and GST experiments with inconsistent data, to capture non-Markovianity, and to quantify all of a processor's observed error.
翻訳日:2023-04-19 22:06:51 公開日:2020-12-22
# 連続可変量子コンピュータによる微分方程式の解法

Solving Differential Equations via Continuous-Variable Quantum Computers ( http://arxiv.org/abs/2012.12220v1 )

ライセンス: Link先を確認
Martin Knudsen and Christian B. Mendl(参考訳) 連続変数(CV)量子コンピュータが古典的な微分方程式を解く方法を探り、その自然能力を利用してクォーモッド内の実数を表現する。 具体的には, 1次元常微分方程式 (ODE) の解を近似するために, 変位ゲートに基づく入力符号化と測定平均による出力を用いて, 可変CV量子回路 (Killoran et al., Phys.~Research 1, 033063 (2019)] を構築した。 PennyLane/Strawberry Fieldsフレームワークを用いたシミュレーションとパラメータ最適化により,線形および非線形のODEに対して良好な収束性を示す。

We explore how a continuous-variable (CV) quantum computer could solve a classic differential equation, making use of its innate capability to represent real numbers in qumodes. Specifically, we construct variational CV quantum circuits [Killoran et al., Phys.~Rev.~Research 1, 033063 (2019)] to approximate the solution of one-dimensional ordinary differential equations (ODEs), with input encoding based on displacement gates and output via measurement averages. Our simulations and parameter optimization using the PennyLane / Strawberry Fields framework demonstrate good convergence for both linear and non-linear ODEs.
翻訳日:2023-04-19 22:06:23 公開日:2020-12-22
# 二重雑音に対する高次元非局所性のロバスト性および逐次測定

Robustness of Higher Dimensional Nonlocality against dual noise and sequential measurements ( http://arxiv.org/abs/2012.12200v1 )

ライセンス: Link先を確認
Saptarshi Roy, Asmita Kumari, Shiladitya Mal, Aditi Sen De(参考訳) CGLMP(Collins-Linden-Gisin-Masser-Popescu)不等式違反のロバスト性は, 測定値と状態の両面から検討した。 これを定量化するために,次元的アドバンテージを示す非局所領域領域と呼ばれる量を導入する。 具体的には,次元の増大に伴い,最大公害状態(MVS)は,最大公害状態(MES)と比較して非局所領域の面積が増加し,増加のスケーリングは可視性よりも早く増加することを報告した。 さらに, 弱い測定値を用いてCGLMP不等式を連続的に破る場合のロバスト性について検討し, より高次元においてもCGLMP不等式を同時に破ることを示す2つの観察者が持続することを示した。 計測による情報利得と外乱の相補性は,第1ラウンドの視認性が低下し,第2ラウンドの視認性が高まることが示される。 さらに、MESに付加できるホワイトノイズの量は、2ラウンドの違反を発生させるため、寸法に応じて減少するが、MVSでは変化しない。

Robustness in the violation of Collins-Linden-Gisin-Masser-Popescu (CGLMP) inequality is investigated from the dual perspective of noise in measurements as well as in states. To quantify it, we introduce a quantity called area of nonlocal region which reveals a dimensional advantage. Specifically, we report that with the increase of dimension, the maximally violating states (MVS) show a greater enhancement in the area of nonlocal region in comparison to the maximally entangled states (MES) and the scaling of the increment, in this case, grows faster than visibility. Moreover, we examine the robustness in the sequential violation of CGLMP inequality using weak measurements, and find that even for higher dimensions, two observers showing a simultaneous violation of the CGLMP inequality as obtained for two-qubit states persists. We notice that the complementarity between information gain and disturbance by measurements is manifested by the decrease of the visibility in the first round and the increase of the same in the second round with dimensions. Furthermore, the amount of white noise that can be added to an MES so that it gives two rounds of the violation, decreases with the dimension, while the same does not appreciably change for the MVS.
翻訳日:2023-04-19 22:06:09 公開日:2020-12-22
# 自由電子を用いた超高速光量子状態の非破壊計測

Ultrafast non-destructive measurement of the quantum state of light using free electrons ( http://arxiv.org/abs/2012.12069v1 )

ライセンス: Link先を確認
Alexey Gorlach, Aviv Karnieli, Raphael Dahan, Eliahu Cohen, Avi Pe'er, Ido Kaminer(参考訳) 量子光学の誕生以来、非古典的な光の量子状態の測定はこの分野の進歩にとって非常に重要である。 これまで、光増倍器、アバランシェフォトダイオード、超伝導ナノワイヤなどの従来の検出器はいずれも、光と結合した電子の線形励起に依存しており、検出の基本的な制限となっている。 対照的に、量子光学の文脈における自由電子と光の相互作用は非常に非線形であり、エキサイティングな可能性をもたらす。 この方向を推し進める最初の実験は、光子誘起近接場電子顕微鏡(PINEM)の一部として過去10年間に行われ、自由電子は高次多光子吸収と放出を行うことができる。 本稿では、自由電子を用いた光の全量子状態の量子光学検出を提案する。 量子光と相互作用する前後の電子の正確な制御によって光子統計を抽出し、PINEMを用いた完全な量子状態トモグラフィーを実現する方法を示す。 この技術はアト秒以下の時間分解能に到達し、任意の次数の時間的コヒーレンス(g(1), g(2))を測定し、各電子で大量の光子を同時に検出することができる。 重要なことに、電子と光の相互作用は非破壊的であり、したがって光状態(相互作用によって変化する)はそのまま残され、従来の検出器と概念的に異なる。 複数の電子のパルスを用いて、PINEM量子検出器が、再現不可能な放出イベントであっても、量子光の完全な状態を単一ショットで測定する方法を想像する。 我々の研究は、電子-光相互作用の超高速持続時間、高非線形性、非破壊性を利用する新しい種類の光検出器への道を開いた。

Since the birth of quantum optics, the measurement of quantum states of nonclassical light has been of tremendous importance for advancement in the field. To date, conventional detectors such as photomultipliers, avalanche photodiodes, and superconducting nanowires, all rely at their core on linear excitation of bound electrons with light, posing fundamental restrictions on the detection. In contrast, the interaction of free electrons with light in the context of quantum optics is highly nonlinear and offers exciting possibilities. The first experiments that promoted this direction appeared over the past decade as part of photon-induced nearfield electron microscopy (PINEM), wherein free electrons are capable of high-order multi-photon absorption and emission. Here we propose using free electrons for quantum-optical detection of the complete quantum state of light. We show how the precise control of the electron before and after its interaction with quantum light enables to extract the photon statistics and implement full quantum state tomography using PINEM. This technique can reach sub-attosecond time resolutions, measure temporal coherence of any degree (e.g., g(1), g(2)), and simultaneously detect large numbers of photons with each electron. Importantly, the interaction of the electron with light is non-destructive, thereby leaving the photonic state (modified by the interaction) intact, which is conceptually different from conventional detectors. By using a pulse of multiple electrons, we envision how PINEM quantum detectors could achieve a single-shot measurement of the complete state of quantum light, even for non-reproducible emission events. Altogether, our work paves the way to novel kinds of photodetectors that utilize the ultrafast duration, high nonlinearity, and non-destructive nature of electron-light interactions.
翻訳日:2023-04-19 22:05:07 公開日:2020-12-22
# パッシブな$\mathcal{pt}$-symmetric floquet-coupler

A Passive $\mathcal{PT}$-Symmetric Floquet-Coupler ( http://arxiv.org/abs/2012.11991v1 )

ライセンス: Link先を確認
Lucas Teuber, Florian Morawetz, and Stefan Scheel(参考訳) 開放系のリウヴィル空間の定式化に基づき、損失の異なる2つの結合光導波路の量子マスター方程式の解を示す。 それらの1つのマルコフ的損失の周期的変調はパッシブな $\mathcal{pt}$-symmetric floquet system となり、共振により$\mathcal{pt}$ 対称性が破られるために必要な損失の強い減少を示す。 本稿では,この遷移を多光子状態に適用し,浴モードの貯留層工学を用いて物理的に制御損失を実装する方法を示す。

Based on a Liouville-space formulation of open systems, we present a solution to the quantum master equation of two coupled optical waveguides with varying loss. The periodic modulation of the Markovian loss of one of them yields a passive $\mathcal{PT}$-symmetric Floquet system that, at resonance, shows a strong reduction of the required loss for the $\mathcal{PT}$ symmetry to be broken. We showcase this transition for a multi-photon state, and we show how to physically implement the modulated loss with reservoir engineering of a set of bath modes.
翻訳日:2023-04-19 22:04:23 公開日:2020-12-22
# 256原子プログラマブル量子シミュレータにおける物質の量子位相

Quantum Phases of Matter on a 256-Atom Programmable Quantum Simulator ( http://arxiv.org/abs/2012.12281v1 )

ライセンス: Link先を確認
Sepehr Ebadi, Tout T. Wang, Harry Levine, Alexander Keesling, Giulia Semeghini, Ahmed Omran, Dolev Bluvstein, Rhine Samajdar, Hannes Pichler, Wen Wei Ho, Soonwon Choi, Subir Sachdev, Markus Greiner, Vladan Vuletic, Mikhail D. Lukin(参考訳) 物理学や化学の複雑なプロセスの量子シミュレーションから量子情報処理まで、広範囲にわたる応用により、現在、大規模なプログラマブル量子システムの構築が進められている。 このようなシステムは、強い相関の量子物質に関するユニークな洞察を提供すると同時に、計算と気象学の新しい方法を可能にする。 本稿では,中性原子の2次元配列を決定論的に構築し,コヒーレント原子励起によりリドバーグ状態へ制御される強い相互作用を特徴とするプログラム可能な量子シミュレータを示す。 このアプローチを用いて,64から256量子ビットのシステムサイズに対する波長可変相互作用を持つ量子スピンモデルを実現する。 2+1)次元のイジング量子相転移の普遍的性質を実証し,高忠実性反強磁性状態の生成と特徴付けにより,システムをベンチマークする。 次に、相互作用とコヒーレントレーザー励起の相互作用から生じるいくつかの新しい量子位相を作成し、研究し、位相図を実験的にマッピングし、量子揺らぎの役割を研究する。 複雑な量子物質の研究に新しいレンズを提供することで、これらの観測は、異方性量子相、非平衡エンタングルメントダイナミクス、および量子アルゴリズムのハードウェア効率の良い実現の道を開く。

Motivated by far-reaching applications ranging from quantum simulations of complex processes in physics and chemistry to quantum information processing, a broad effort is currently underway to build large-scale programmable quantum systems. Such systems provide unique insights into strongly correlated quantum matter, while at the same time enabling new methods for computation and metrology. Here, we demonstrate a programmable quantum simulator based on deterministically prepared two-dimensional arrays of neutral atoms, featuring strong interactions controlled via coherent atomic excitation into Rydberg states. Using this approach, we realize a quantum spin model with tunable interactions for system sizes ranging from 64 to 256 qubits. We benchmark the system by creating and characterizing high-fidelity antiferromagnetically ordered states, and demonstrate the universal properties of an Ising quantum phase transition in (2+1) dimensions. We then create and study several new quantum phases that arise from the interplay between interactions and coherent laser excitation, experimentally map the phase diagram, and investigate the role of quantum fluctuations. Offering a new lens into the study of complex quantum matter, these observations pave the way for investigations of exotic quantum phases, non-equilibrium entanglement dynamics, and hardware-efficient realization of quantum algorithms.
翻訳日:2023-04-19 21:57:40 公開日:2020-12-22
# Rydberg原子アレイにおける駆動量子スカーによる多体ダイナミクスの制御

Controlling many-body dynamics with driven quantum scars in Rydberg atom arrays ( http://arxiv.org/abs/2012.12276v1 )

ライセンス: Link先を確認
Dolev Bluvstein, Ahmed Omran, Harry Levine, Alexander Keesling, Giulia Semeghini, Sepehr Ebadi, Tout T. Wang, Alexios A. Michailidis, Nishad Maskara, Wen Wei Ho, Soonwon Choi, Maksym Serbyn, Markus Greiner, Vladan Vuletic, Mikhail D. Lukin(参考訳) 多体系における非平衡量子力学の制御は、相互作用は通常、ヒルベルト空間全体に熱化とカオス拡散をもたらすため、顕著な課題である。 1次元と2次元の3から200個の強く相互作用する量子ビットからなる多体系の急激なクエンチによる非平衡ダイナミクスを実験的に検討した。 Rydberg原子配列に基づくプログラマブル量子シミュレータを用いて、量子多体傷に対応するコヒーレント回復を探索する。 特筆すべきは, スカーリバイバルが周期的駆動によって安定化できることであり, 離散時間結晶秩序に類似したロバストなサブハーモニック応答を生成する。 ヒルベルト空間力学、幾何依存、位相図、およびこの創発現象のシステムサイズ依存をマッピングし、多体系における絡み合い力学を操り、量子情報科学における潜在的な応用を可能にする新しい方法を示す。

Controlling non-equilibrium quantum dynamics in many-body systems is an outstanding challenge as interactions typically lead to thermalization and a chaotic spreading throughout Hilbert space. We experimentally investigate non-equilibrium dynamics following rapid quenches in a many-body system composed of 3 to 200 strongly interacting qubits in one and two spatial dimensions. Using a programmable quantum simulator based on Rydberg atom arrays, we probe coherent revivals corresponding to quantum many-body scars. Remarkably, we discover that scar revivals can be stabilized by periodic driving, which generates a robust subharmonic response akin to discrete time-crystalline order. We map Hilbert space dynamics, geometry dependence, phase diagrams, and system-size dependence of this emergent phenomenon, demonstrating novel ways to steer entanglement dynamics in many-body systems and enabling potential applications in quantum information science.
翻訳日:2023-04-19 21:57:16 公開日:2020-12-22
# テンソルネットワークによる開量子多体系の熱化

Tensor-network approach to thermalization in open quantum many-body systems ( http://arxiv.org/abs/2012.12274v1 )

ライセンス: Link先を確認
Hayate Nakano, Tatsuhiko Shirai, Takashi Mori(参考訳) 自由非可積分量子多体系の熱力学的極限における緩和ダイナミクスをテンソルネットワーク形式を用いて検討する。 我々は、一様行列積作用素(mpo)を密度行列のアンサッツとして用いることにより、無限系のリンドブラッド量子マスター方程式(lqme)をシミュレートする。 さらに、均一MPOによって記述された2つの状態間の熱力学的等価性を測定する方法を確立する。 lqmeの初期状態がサーマルギブス状態である場合、時間発展状態は常に弱い散逸と熱力学的限界における時間依存有効温度を持つギブス状態と区別できないことを数値的に示す。

We investigate the relaxation dynamics of open non-integrable quantum many-body systems in the thermodynamic limit by using a tensor-network formalism. We simulate the Lindblad quantum master equation (LQME) of infinite systems by making use of the uniform matrix product operators (MPO) as the ansatz of their density matrices. Furthermore, we establish a method to measure the thermodynamic equivalence between two states described by the uniform MPOs. We numerically show that when an initial state of the LQME is a thermal Gibbs state, a time evolved state is always indistinguishable from a Gibbs state with a time-dependent effective temperature in the weak-dissipation and thermodynamic limit.
翻訳日:2023-04-19 21:57:01 公開日:2020-12-22
# 数百のRydberg原子を持つ2次元反強磁性体のプログラム可能な量子シミュレーション

Programmable quantum simulation of 2D antiferromagnets with hundreds of Rydberg atoms ( http://arxiv.org/abs/2012.12268v1 )

ライセンス: Link先を確認
Pascal Scholl, Michael Schuler, Hannah J. Williams, Alexander A. Eberharter, Daniel Barredo, Kai-Niklas Schymik, Vincent Lienhard, Louis-Paul Henry, Thomas C. Lang, Thierry Lahaye, Andreas M. L\"auchli, and Antoine Browaeys(参考訳) 合成システムを用いた量子シミュレーションは、数値を含む他のアプローチが失敗する状況下で、優れた量子多体問題を解くための有望な方法である。 多くのプラットフォームがこの目標に向かって開発されており、特にトラップされたイオン、超伝導回路、中性原子または分子に基づいている。 これらすべてが2つの重要な課題に直面している。 (i)パラメータの高品質な制御を維持しつつ、アンサンブルサイズをスケールアップすること。 (ii)これらの大規模システムの出力を認証する。 ここでは、光ツイーザに閉じ込められた個々の原子のプログラム可能な配列を用いて、ライドバーグ状態へのレーザー励起による相互作用を制御し、象徴的な多体問題である反強磁性2次元逆場イジングモデルを実装する。 我々はこのプラットフォームを、高忠実度で操作された196個の原子を持つ前例のない体制に押し上げる。 我々はハミルトンのパラメータを動的に調整することで反強磁性秩序を探索する。 定性的に異なる2つのジオメトリ、正方形と三角形の配列で様々なシステムサイズを探索することで、プラットフォームの拡張性を説明します。 計算可能な大きさ(約100粒子)までの数値計算と良好な一致を得る。 本研究は,多体物理学におけるオープンな問題に容易に対処できることを実証する。

Quantum simulation using synthetic systems is a promising route to solve outstanding quantum many-body problems in regimes where other approaches, including numerical ones, fail. Many platforms are being developed towards this goal, in particular based on trapped ions, superconducting circuits, neutral atoms or molecules. All of which face two key challenges: (i) scaling up the ensemble size, whilst retaining high quality control over the parameters and (ii) certifying the outputs for these large systems. Here, we use programmable arrays of individual atoms trapped in optical tweezers, with interactions controlled by laser-excitation to Rydberg states to implement an iconic many-body problem, the antiferromagnetic 2D transverse field Ising model. We push this platform to an unprecedented regime with up to 196 atoms manipulated with high fidelity. We probe the antiferromagnetic order by dynamically tuning the parameters of the Hamiltonian. We illustrate the versatility of our platform by exploring various system sizes on two qualitatively different geometries, square and triangular arrays. We obtain good agreement with numerical calculations up to a computationally feasible size (around 100 particles). This work demonstrates that our platform can be readily used to address open questions in many-body physics.
翻訳日:2023-04-19 21:56:47 公開日:2020-12-22
# 自然に基づく新しい遺伝的検索手法-自己双対符号の進化的アルゴリズム

A Novel Genetic Search Scheme Based on Nature -- Inspired Evolutionary Algorithms for Self-Dual Codes ( http://arxiv.org/abs/2012.12248v1 )

ライセンス: Link先を確認
Adrian Korban, Serap Sahinkaya, Deniz Ustun(参考訳) 本稿では,進化的アルゴリズムの最適化手法の一つである遺伝的アルゴリズムを,極端に二進的な自己双対符号を見つける問題に初めて用いた。 本稿では,遺伝的アルゴリズムと異なるサイズ探索空間の線形探索の計算時間の比較を行い,遺伝的アルゴリズムが線形探索よりはるかに高速にバイナリ自己双対符号を探索できることを示す。 さらに, 遺伝的アルゴリズムとともに既知の行列構造を用いて, 長さ68, 72の2進2進2進符号を極めて短時間で得ることができた。 特に,長さ68の2進数符号11と長さ72の2進数符号17を新たに獲得する。

In this paper, a genetic algorithm, one of the evolutionary algorithms optimization methods, is used for the first time for the problem of finding extremal binary self-dual codes. We present a comparison of the computational times between a genetic algorithm and a linear search for different size search spaces and show that the genetic algorithm is capable of finding binary self-dual codes significantly faster than the linear search. Moreover, by employing a known matrix construction together with the genetic algorithm, we are able to obtain new binary self-dual codes of lengths 68 and 72 in a significantly short time. In particular, we obtain 11 new extremal binary self-dual codes of length 68 and 17 new binary self-dual codes of length 72.
翻訳日:2023-04-19 21:55:55 公開日:2020-12-22
# 長距離空洞誘起準周期相互作用によるエルゴディディティ破壊

Ergodicity breaking with long range cavity induced quasiperiodic interactions ( http://arxiv.org/abs/2012.12237v1 )

ライセンス: Link先を確認
Piotr Kubala, Piotr Sierant, Giovanna Morigi, and Jakub Zakrzewski(参考訳) 多体ローカライゼーション(MBL)の挙動は、準周期無限範囲相互作用を持つ拡張ボース・ハッバードモデルにおいて解析される。 追加の障害は存在しない。 固有状態のレベル統計と絡み合いエントロピーを調べることで、系の固有状態のかなりの部分が強い相互作用の存在下で局在していることが分かる。 それにもかかわらず,本研究では,系のエネルギーが広範な標準熱力学的限界において,系がエルゴードとなることを示唆する。 同時に、mblのレジームは、エネルギーの超拡張的なスケーリングを可能にするならば安定しているように見える。 本研究は,多体キャビティ量子電磁力学系における時間ダイナミクスの研究によって実験的に検証できることを示す。 クエンチスペクトロスコピー(quench spectroscopy)は、時間ダイナミクスのエネルギー依存性を体系的に研究し、システムのモビリティエッジを調査するための、特に効果的なツールである。

Many-body localization (MBL) behavior is analyzed {in an extended Bose-Hubbard model with quasiperiodic infinite-range interactions. No additional disorder is present. Examining level statistics and entanglement entropy of eigenstates we show that a significant fraction of eigenstates of the system is localized in the presence of strong interactions. In spite of this, our results suggest that the system becomes ergodic in the standard thermodynamic limit in which the energy of the system is extensive. At the same time, the MBL regime seems to be stable if one allows for a super-extensive scaling of the energy. We show that our findings can be experimentally verified by studies of time dynamics in many-body cavity quantum electrodynamics setups. The "quench spectroscopy" is a particularly effective tool that allows us to systematically study energy dependence of time dynamics and to investigate a mobility edge in our system.
翻訳日:2023-04-19 21:55:41 公開日:2020-12-22
# テンソルネットワークを用いた2次元開量子格子モデルのダイナミクス

Dynamics of two-dimensional open quantum lattice models with tensor networks ( http://arxiv.org/abs/2012.12233v1 )

ライセンス: Link先を確認
Conor Mc Keever and Marzena H. Szyma\'nska(参考訳) 駆動的および/または散逸的だが量子相関格子モデルのダイナミクスと定常状態を正確に記述できることは、量子情報から生物学まで、科学の多くの分野において基本的に重要である。 2次元の大きな開系を効率的に数値シミュレーションすることは困難である。 本研究では, 熱力学的極限に直接適用可能な無限射影ペア演算子 (iPEPO) アンサッツに基づくテンソルネットワーク法を開発した。 オープンシステムに適した目的関数を最適化することにより,拡張ネットワーク結合の最適切断を求める手法を導入する。 力学と定常状態の両方の数値的厳密な計算との比較は、この方法の威力を示している。 特に,非平均場限界における散逸的逆量子イジングと駆動散逸型ハードコアボソンモデルを考察し,散逸の有無でかなりの絡み合いを捉えることを証明した。 提案手法は,既存の手法の適用範囲をはるかに超えながら,現在の実験に利用できる制度を研究できる。

Being able to describe accurately the dynamics and steady-states of driven and/or dissipative but quantum correlated lattice models is of fundamental importance in many areas of science: from quantum information to biology. An efficient numerical simulation of large open systems in two spatial dimensions is a challenge. In this work, we develop a tensor network method, based on an infinite Projected Entangled Pair Operator (iPEPO) ansatz, applicable directly in the thermodynamic limit. We incorporate techniques of finding optimal truncations of enlarged network bonds by optimising an objective function appropriate for open systems. Comparisons with numerically exact calculations, both for the dynamics and the steady-state, demonstrate the power of the method. In particular, we consider dissipative transverse quantum Ising and driven-dissipative hard core boson models in non-mean field limits, proving able to capture substantial entanglement in the presence of dissipation. Our method enables to study regimes which are accessible to current experiments but lie well beyond the applicability of existing techniques.
翻訳日:2023-04-19 21:55:26 公開日:2020-12-22
# エンタングルメントによるバレン高原の緩和

Entanglement Devised Barren Plateau Mitigation ( http://arxiv.org/abs/2012.12658v1 )

ライセンス: Link先を確認
Taylor L. Patti, Khadijeh Najafi, Xun Gao, Susanne F. Yelin(参考訳) ハイブリッド量子古典変動アルゴリズムは、量子スケールのソリューション空間への古典的な機械学習サポートを提供する、短期デバイス上での量子コンピューティングの最も有望な実装の1つである。 しかし、多くの研究により、この空間が量子ビット数で成長する速度は、バレンプラトーと呼ばれる深い量子回路での学習を妨げることが示されている。 本研究では,バレン高原の源としてランダムな絡み合いを含意し,多体絡み合いのダイナミクスで特徴付け,システムサイズ,回路深さ,回路接続性の関数としてそれらの形成を詳述する。 このような絡み合いの理解を用いて,コスト関数と非コスト関数レジスタの初期分割,低絡み回路初期化のメタラーニング,選択的レジスタ間相互作用,絡み合い正規化,ランジュバンノイズの追加,好ましいコスト関数固有ベースへの回転など,多くの不毛高原改善手法を提案し,実証する。 学習は反復的な組織プロセスであり、不規則な高原はランダム化の結果であり、必ずしも避けられない、あるいは避けられないものではないことを強調する。 我々の研究は理論的な特徴と実践的な道具箱の両方を形成し、まずランダムな絡み合いの観点から不毛の台地を定義し、その専門知識を戦略的に戦うために利用した。

Hybrid quantum-classical variational algorithms are one of the most propitious implementations of quantum computing on near-term devices, offering classical machine learning support to quantum scale solution spaces. However, numerous studies have demonstrated that the rate at which this space grows in qubit number could preclude learning in deep quantum circuits, a phenomenon known as barren plateaus. In this work, we implicate random entanglement as the source of barren plateaus and characterize them in terms of many-body entanglement dynamics, detailing their formation as a function of system size, circuit depth, and circuit connectivity. Using this comprehension of entanglement, we propose and demonstrate a number of barren plateau ameliorating techniques, including: initial partitioning of cost function and non-cost function registers, meta-learning of low-entanglement circuit initializations, selective inter-register interaction, entanglement regularization, the addition of Langevin noise, and rotation into preferred cost function eigenbases. We find that entanglement limiting, both automatic and engineered, is a hallmark of high-accuracy training, and emphasize that as learning is an iterative organization process while barren plateaus are a consequence of randomization, they are not necessarily unavoidable or inescapable. Our work forms both a theoretical characterization and a practical toolbox; first defining barren plateaus in terms of random entanglement and then employing this expertise to strategically combat them.
翻訳日:2023-04-19 21:48:20 公開日:2020-12-22
# 相対作用素エントロピーに対する精製作用素不等式

Refined operator inequalities for relative operator entropies ( http://arxiv.org/abs/2012.12399v1 )

ライセンス: Link先を確認
Shuzhou Wang and Zhenhua Wang(参考訳) 本稿では,C*-代数,実C*-代数,JC-代数のより一般的な設定における相対作用素のエントロピーについて検討する。 相対作用素エントロピー上のすべての演算子不等式が、これらのより広い設定で保持されていることを示す。 さらに,Fujii と Kamei が取得した相対作用素エントロピーの境界を洗練させた Nikoufar によって確立された相対作用素 $(\alpha, \beta)$-エントロピーの下限と上限を改善する。

In this paper, we investigate the relative operator entropies in the more general settings of C*-algebras, real C*-algebras and JC-algebras. We show that all the operator inequalities on relative operator entropies still hold in these broader settings. In addition, we improve the lower and upper bounds of the relative operator $(\alpha, \beta)$-entropy established by Nikoufar which refined the bounds for the relative operator entropy obtained by Fujii and Kamei.
翻訳日:2023-04-19 21:47:24 公開日:2020-12-22
# 量子2局所ハミルトニアン問題の近似のためのビーティングランダムアサインメント

Beating Random Assignment for Approximating Quantum 2-Local Hamiltonian Problems ( http://arxiv.org/abs/2012.12347v1 )

ライセンス: Link先を確認
Ojas Parekh and Kevin Thompson(参考訳) 量子k-局所ハミルトン問題は古典的制約満足問題(k-CSP)の自然な一般化であり、NPの量子アナログであるQMAに対して完備である。 k-ローカルハミルトニアン問題の複雑さはよく研究されているが、近似結果はほとんど知られていない。 各項がランク3プロジェクターであるマックス2-局所ハミルトニアンにとって、古典マックス2-SATの自然な量子一般化は、最もよく知られた近似アルゴリズムは自明なランダム代入であり、0.75近似となる。 この境界を破る最初の近似アルゴリズム, 古典多項式時間 0.764 近似法を提案する。 厳密な二次的なインスタンスは、最大絡み合いのインスタンスであり、0.801近似アルゴリズムを提供し、我々のアルゴリズムが0.821近似である可能性を数値的に証明する。 これらを近似する最も難しい例と推測する。 また、他の関連する古典的2-CSPの量子一般化の近似も改善した。 最後に、Grothendieck問題の一般化への量子接続を利用して、2部相互作用グラフ上の厳密な二次トレースレス2-ローカルハミルトニアン(英語版)の物理的特殊ケースに対して古典的な定数係数近似を得る。 本研究は,cspsの古典近似を解析するための最近の手法を用いており,量子情報科学者と古典計算機科学者の両方が利用できることを意図している。

The quantum k-Local Hamiltonian problem is a natural generalization of classical constraint satisfaction problems (k-CSP) and is complete for QMA, a quantum analog of NP. Although the complexity of k-Local Hamiltonian problems has been well studied, only a handful of approximation results are known. For Max 2-Local Hamiltonian where each term is a rank 3 projector, a natural quantum generalization of classical Max 2-SAT, the best known approximation algorithm was the trivial random assignment, yielding a 0.75-approximation. We present the first approximation algorithm beating this bound, a classical polynomial-time 0.764-approximation. For strictly quadratic instances, which are maximally entangled instances, we provide a 0.801 approximation algorithm, and numerically demonstrate that our algorithm is likely a 0.821-approximation. We conjecture these are the hardest instances to approximate. We also give improved approximations for quantum generalizations of other related classical 2-CSPs. Finally, we exploit quantum connections to a generalization of the Grothendieck problem to obtain a classical constant-factor approximation for the physically relevant special case of strictly quadratic traceless 2-Local Hamiltonians on bipartite interaction graphs, where a inverse logarithmic approximation was the best previously known (for general interaction graphs). Our work employs recently developed techniques for analyzing classical approximations of CSPs and is intended to be accessible to both quantum information scientists and classical computer scientists.
翻訳日:2023-04-19 21:46:59 公開日:2020-12-22
# オンラインアルゴリズムのためのバッファモデル付き量子要求応答ゲーム

Quantum Request-Answer Game with Buffer Model for Online Algorithms ( http://arxiv.org/abs/2012.12321v1 )

ライセンス: Link先を確認
Kamil Khadiev(参考訳) オンラインアルゴリズムを要求処理ゲームと捉えている。 入力リクエストを生成する敵と、オンラインアルゴリズムが答える。 サイズが制限されたバッファを持つゲームの一般化版を考える。 敵はバッファにデータをロードし、アルゴリズムはバッファの要素にランダムにアクセスします。 モデルに対する量子および古典的(決定論的またはランダム化)アルゴリズムを考える。 本稿では、競合比の観点から、特定の問題(最も頻度の高いキーワード問題)と、どの古典的(決定論的またはランダム化)アルゴリズムよりも優れた量子アルゴリズムを提供する。 同時に、標準モデルにおける古典的オンラインアルゴリズムはバッファモデルを用いた要求応答ゲームにおける古典的アルゴリズムと等価である。

We consider online algorithms as a request-answer game. An adversary that generates input requests, and an online algorithm answers. We consider a generalized version of the game that has a buffer of limited size. The adversary loads data to the buffer, and the algorithm has random access to elements of the buffer. We consider quantum and classical (deterministic or randomized) algorithms for the model. In the paper, we provide a specific problem (The Most Frequent Keyword Problem) and a quantum algorithm that works better than any classical (deterministic or randomized) algorithm in terms of competitive ratio. At the same time, for the problem, classical online algorithms in the standard model are equivalent to the classical algorithms in the request-answer game with buffer model.
翻訳日:2023-04-19 21:45:59 公開日:2020-12-22
# 実用的な中規模量子デバイスにおける現実的なノイズの緩和

Mitigating realistic noise in practical noisy intermediate-scale quantum devices ( http://arxiv.org/abs/2001.04891v4 )

ライセンス: Link先を確認
Jinzhao Sun, Xiao Yuan, Takahiro Tsunoda, Vlatko Vedral, Simon C. Bejamin, Suguru Endo(参考訳) 雑音中規模量子(nisq)デバイスでは量子誤差緩和(qem)が不可欠である。 従来のqem方式では、各ゲートの前後にノイズが現れる離散ゲート型回路を想定しているが、強いゲート依存性と複雑な非局所効果を持つ現実的なノイズやアナログ量子シミュレータなどの一般計算モデルの記述には不適当である。 これらの課題に対処するために、我々はまず、デジタルまたはアナログである各計算プロセスが連続時間発展によって記述されるシナリオを拡張します。 工学的ハミルトニアンあるいは付加的な雑音作用素の不完全性による雑音に対しては、新しい確率的QEM法により効果的に抑制できることを示す。 本手法は正確な単一量子ビット制御しか想定しないため,全てのデジタル量子コンピュータやアナログシミュレータに適用可能である。 一方、リチャードソン補間法を利用して緩和手順の誤差を抑制することができる。 2量子ビットクロストークによるエネルギー緩和とノイズ強調下での様々なハミルトニアンの手法とディジタル量子回路を用いて数値実験を行い,シミュレーション精度を2桁改善することを示す。 我々は,提案方式の資源コストを評価し,NASQデバイスによる正確な量子コンピューティングの実現可能性について検討する。

Quantum error mitigation (QEM) is vital for noisy intermediate-scale quantum (NISQ) devices. While most conventional QEM schemes assume discrete gate-based circuits with noise appearing either before or after each gate, the assumptions are inappropriate for describing realistic noise that may have strong gate-dependence and complicated nonlocal effects, and general computing models such as analog quantum simulators. To address these challenges, we first extend the scenario, where each computation process, being either digital or analog, is described by a continuous time evolution. For noise from imperfections of the engineered Hamiltonian or additional noise operators, we show it can be effectively suppressed by a novel stochastic QEM method. Since our method only assumes accurate single qubit controls, it is applicable to all digital quantum computers and various analog simulators. Meanwhile, errors in the mitigation procedure can be suppressed by leveraging the Richardson extrapolation method. As we numerically test our method with various Hamiltonians under energy relaxation and dephasing noise and digital quantum circuits with additional two-qubit crosstalk, we show an improvement of simulation accuracy by two orders. We assess the resource cost of our scheme and conclude the feasibility of accurate quantum computing with NISQ devices.
翻訳日:2023-01-11 13:09:04 公開日:2020-12-22
# マルチタスク学習のための勾配手術

Gradient Surgery for Multi-Task Learning ( http://arxiv.org/abs/2001.06782v4 )

ライセンス: Link先を確認
Tianhe Yu, Saurabh Kumar, Abhishek Gupta, Sergey Levine, Karol Hausman, Chelsea Finn(参考訳) 深層学習と深部強化学習(RL)システムは、画像分類、ゲームプレイ、ロボット制御などの領域で顕著な成果を上げているが、データ効率は依然として大きな課題である。 マルチタスク学習は、より効率的な学習を可能にするために、複数のタスク間で構造を共有するための有望なアプローチとして登場した。 しかし、マルチタスク設定には多くの最適化課題があり、個別に学習するタスクに比べて大きな効率向上を実現するのが困難である。 マルチタスク学習がシングルタスク学習に比べて難しい理由は、完全には理解されていない。 本研究では,タスク勾配の干渉の原因となるマルチタスク最適化の3つの条件を特定し,タスク勾配間の干渉を回避するための単純かつ汎用的なアプローチを考案する。 我々は, 逆勾配を持つ他のタスクの通常の勾配面にタスクの勾配を投影する勾配手術の一形態を提案する。 マルチタスクの教師付きおよびマルチタスクのRL問題に対して、このアプローチは効率と性能を大幅に向上させる。 さらに、モデルに依存しず、パフォーマンスを向上させるために以前提案されていたマルチタスクアーキテクチャと組み合わせることができる。

While deep learning and deep reinforcement learning (RL) systems have demonstrated impressive results in domains such as image classification, game playing, and robotic control, data efficiency remains a major challenge. Multi-task learning has emerged as a promising approach for sharing structure across multiple tasks to enable more efficient learning. However, the multi-task setting presents a number of optimization challenges, making it difficult to realize large efficiency gains compared to learning tasks independently. The reasons why multi-task learning is so challenging compared to single-task learning are not fully understood. In this work, we identify a set of three conditions of the multi-task optimization landscape that cause detrimental gradient interference, and develop a simple yet general approach for avoiding such interference between task gradients. We propose a form of gradient surgery that projects a task's gradient onto the normal plane of the gradient of any other task that has a conflicting gradient. On a series of challenging multi-task supervised and multi-task RL problems, this approach leads to substantial gains in efficiency and performance. Further, it is model-agnostic and can be combined with previously-proposed multi-task architectures for enhanced performance.
翻訳日:2023-01-08 10:04:47 公開日:2020-12-22
# なぜディープフィードフォワードネットワークがディープフィードフォワードネットワークよりも一般化するのか? --ニューラルタンジェントカーネルの視点から

Why Do Deep Residual Networks Generalize Better than Deep Feedforward Networks? -- A Neural Tangent Kernel Perspective ( http://arxiv.org/abs/2002.06262v2 )

ライセンス: Link先を確認
Kaixuan Huang, Yuqing Wang, Molei Tao, Tuo Zhao(参考訳) ディープ残差ネットワーク(resnets)は、ディープフィードフォワードネットワーク(ffnets)よりも優れた一般化性能を示している。 しかし、そのような現象の背後にある理論はほとんど不明である。 本稿では、いわゆる「神経接核」の観点から、深層学習におけるこの根本的な問題について考察する。 具体的には、幅が無限大になるにつれて、適切な条件下での深層ResNetのトレーニングは、カーネル関数をカーネル関数で再現する学習とみなすことができる。 次に、Deep ResNetsのカーネルとDeep FFNetsのカーネルを比較し、FFNetsのカーネルによって誘導される関数のクラスが漸近的に学習できないことを発見した。 対照的に、ResNetsのカーネルによって誘導される関数のクラスはそのような縮退を示さない。 我々の発見は、一般化能力における深いffnetsよりも深いresnetsの利点を部分的に正当化している。 私たちの主張を支持する数値的な結果が得られます。

Deep residual networks (ResNets) have demonstrated better generalization performance than deep feedforward networks (FFNets). However, the theory behind such a phenomenon is still largely unknown. This paper studies this fundamental problem in deep learning from a so-called "neural tangent kernel" perspective. Specifically, we first show that under proper conditions, as the width goes to infinity, training deep ResNets can be viewed as learning reproducing kernel functions with some kernel function. We then compare the kernel of deep ResNets with that of deep FFNets and discover that the class of functions induced by the kernel of FFNets is asymptotically not learnable, as the depth goes to infinity. In contrast, the class of functions induced by the kernel of ResNets does not exhibit such degeneracy. Our discovery partially justifies the advantages of deep ResNets over deep FFNets in generalization abilities. Numerical results are provided to support our claim.
翻訳日:2023-01-01 04:13:54 公開日:2020-12-22
# 断続的クライアント可用性下でのサブリニア高速化による分散非凸最適化

Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability ( http://arxiv.org/abs/2002.07399v3 )

ライセンス: Link先を確認
Yikai Yan, Chaoyue Niu, Yucheng Ding, Zhenzhe Zheng, Fan Wu, Guihai Chen, Shaojie Tang, Zhihua Wu(参考訳) フェデレーション学習(federated learning)は、さまざまなクライアントがトレーニングデータを共有せずに、協調的にモデルをトレーニングする、新しい分散機械学習フレームワークである。 本研究では,モバイル環境におけるフェデレーション学習の実践的かつユビキタスな課題である間欠的なクライアントの可用性について考察する。 このような断続的なクライアント可用性は、従来のフェデレーション平均化アルゴリズム(略してFedAvg)の性能を著しく低下させる。 そこで我々は,クライアントが利用できない場合でも,すべてのクライアントの最新の勾配を利用して,各イテレーションでグローバルモデルを共同で更新する,FedLaAvg(FedLaAvg)と呼ばれる単純な分散非凸最適化アルゴリズムを提案する。 我々の理論的解析は、FedLaAvgが$O(E^{1/2}/(N^{1/4} T^{1/2})$に収束し、クライアントの総数に対してサブ線形スピードアップを達成することを示す。 我々はFedLaAvgといくつかのベースラインを実装し、MNISTとSentiment140データセットをベンチマークして評価する。 評価の結果,FedLaAvgは凸と非凸の両方の設定でFedAvgよりも安定したトレーニングを達成し,実際にサブ線形スピードアップを達成した。

Federated learning is a new distributed machine learning framework, where a bunch of heterogeneous clients collaboratively train a model without sharing training data. In this work, we consider a practical and ubiquitous issue when deploying federated learning in mobile environments: intermittent client availability, where the set of eligible clients may change during the training process. Such intermittent client availability would seriously deteriorate the performance of the classical Federated Averaging algorithm (FedAvg for short). Thus, we propose a simple distributed non-convex optimization algorithm, called Federated Latest Averaging (FedLaAvg for short), which leverages the latest gradients of all clients, even when the clients are not available, to jointly update the global model in each iteration. Our theoretical analysis shows that FedLaAvg attains the convergence rate of $O(E^{1/2}/(N^{1/4} T^{1/2}))$, achieving a sublinear speedup with respect to the total number of clients. We implement FedLaAvg along with several baselines and evaluate them over the benchmarking MNIST and Sentiment140 datasets. The evaluation results demonstrate that FedLaAvg achieves more stable training than FedAvg in both convex and non-convex settings and indeed reaches a sublinear speedup.
翻訳日:2022-12-30 19:42:17 公開日:2020-12-22
# コード化された連合学習

Coded Federated Learning ( http://arxiv.org/abs/2002.09574v2 )

ライセンス: Link先を確認
Sagar Dhakal, Saurav Prakash, Yair Yona, Shilpa Talwar, Nageen Himayat(参考訳) フェデレーション学習(federated learning)は、クライアントデバイスに分散した分散データからグローバルモデルをトレーニングする方法である。 ここで、モデルパラメータは各クライアントデバイスによってローカルに計算され、トレーニングデータの共有を必要とせずに、グローバルビューのローカルモデルを集約する中央サーバと交換される。 連成学習の収束性能は、無線エッジなどの異種コンピューティングプラットフォームにおいて著しく影響を受けており、トラグリング計算や通信リンクはタイムリーなパラメータ更新を著しく制限することができる。 本稿では,トラグラーの影響を軽減するために,フェデレートラーニングのための新しい符号化計算手法を開発する。 提案したCoded Federated Learning(CFL)スキームでは、各クライアントデバイスがプライベートにパリティトレーニングデータを生成し、トレーニングフェーズの開始時に一度だけ中央サーバと共有する。 次に、中央サーバは、複合パリティデータに対する冗長な勾配計算をプリエンプティブに実行し、消去または遅延されたパラメータ更新を補償することができる。 結果から,cflは,非コードアプローチと比較して,グローバルモデルが約4倍高速に収束することを示す。

Federated learning is a method of training a global model from decentralized data distributed across client devices. Here, model parameters are computed locally by each client device and exchanged with a central server, which aggregates the local models for a global view, without requiring sharing of training data. The convergence performance of federated learning is severely impacted in heterogeneous computing platforms such as those at the wireless edge, where straggling computations and communication links can significantly limit timely model parameter updates. This paper develops a novel coded computing technique for federated learning to mitigate the impact of stragglers. In the proposed Coded Federated Learning (CFL) scheme, each client device privately generates parity training data and shares it with the central server only once at the start of the training phase. The central server can then preemptively perform redundant gradient computations on the composite parity data to compensate for the erased or delayed parameter updates. Our results show that CFL allows the global model to converge nearly four times faster when compared to an uncoded approach
翻訳日:2022-12-30 00:52:32 公開日:2020-12-22
# 量子認知トライアド。 文脈表現の意味幾何学

Quantum Cognitive Triad. Semantic geometry of context representation ( http://arxiv.org/abs/2002.11195v2 )

ライセンス: Link先を確認
Ilya A. Surov(参考訳) 本論文は,二分法決定代替案に対する行動文脈の意味的表現のためのアルゴリズムについて述べる。 文脈は、ブロッホ球面上の点として可視化された2次元ヒルベルト空間における量子量子ビット状態として表される。 この球面の方位座標は、考慮された不確実性に対する主観的妥当性に応じて文脈が適合する一次元意味空間として機能する。 文脈は二元的状況因子に関する主題の知識によって定義される三重項で処理される。 得られた文脈表現のトリアドは、安定な認知構造として同時に機能し、確率的変分行動のモデル化を可能にする。 このアルゴリズムは、量子論の概念的および数学的装置に基づく行動の定量的な主観的セマンティックモデリングのためのアプローチを示す。

The paper describes an algorithm for semantic representation of behavioral contexts relative to a dichotomic decision alternative. The contexts are represented as quantum qubit states in two-dimensional Hilbert space visualized as points on the Bloch sphere. The azimuthal coordinate of this sphere functions as a one-dimensional semantic space in which the contexts are accommodated according to their subjective relevance to the considered uncertainty. The contexts are processed in triples defined by knowledge of a subject about a binary situational factor. The obtained triads of context representations function as stable cognitive structure at the same time allowing a subject to model probabilistically-variative behavior. The developed algorithm illustrates an approach for quantitative subjectively-semantic modeling of behavior based on conceptual and mathematical apparatus of quantum theory.
翻訳日:2022-12-29 19:47:36 公開日:2020-12-22
# 暗黙のバイアスは一般化を説明できるのか? 確率凸最適化を事例として

Can Implicit Bias Explain Generalization? Stochastic Convex Optimization as a Case Study ( http://arxiv.org/abs/2003.06152v3 )

ライセンス: Link先を確認
Assaf Dauber and Meir Feder and Tomer Koren and Roi Livni(参考訳) 暗黙のバイアス、あるいは暗黙の正規化の概念は、現代の過パラメータ学習アルゴリズムの驚くべき一般化能力を説明する手段として提案されている。 この概念は、しばしばよく一般化されるある構造化解に対する最適化アルゴリズムの傾向を指す。 最近、いくつかの論文が暗黙の正則化を研究し、様々なシナリオでこの現象を特定できた。 我々はこのパラダイムを最も単純な非自明な設定で再検討し、確率的凸最適化の文脈で確率的勾配降下(sgd)の暗黙的バイアスを研究する。 第一段階として、sgd の一般化能力を規定する \emph{distribution-independent} 暗黙の正規化子の存在を除外する単純な構成を提供する。 次に、強凸正則化や非退化ノルムベース正則化を含む一般化の説明から、非常に一般クラスである \emph{distribution-dependent} の暗黙正則化を規定する学習問題を示す。 構成の特定の側面は、アルゴリズムの一般化性能を暗黙の正規化特性についてのみ論じることによって包括的に説明することの難しさを指摘する。

The notion of implicit bias, or implicit regularization, has been suggested as a means to explain the surprising generalization ability of modern-days overparameterized learning algorithms. This notion refers to the tendency of the optimization algorithm towards a certain structured solution that often generalizes well. Recently, several papers have studied implicit regularization and were able to identify this phenomenon in various scenarios. We revisit this paradigm in arguably the simplest non-trivial setup, and study the implicit bias of Stochastic Gradient Descent (SGD) in the context of Stochastic Convex Optimization. As a first step, we provide a simple construction that rules out the existence of a \emph{distribution-independent} implicit regularizer that governs the generalization ability of SGD. We then demonstrate a learning problem that rules out a very general class of \emph{distribution-dependent} implicit regularizers from explaining generalization, which includes strongly convex regularizers as well as non-degenerate norm-based regularizations. Certain aspects of our constructions point out to significant difficulties in providing a comprehensive explanation of an algorithm's generalization performance by solely arguing about its implicit regularization properties.
翻訳日:2022-12-24 01:03:52 公開日:2020-12-22
# 整数線形プログラムを解くための一般大規模近傍探索フレームワーク

A General Large Neighborhood Search Framework for Solving Integer Linear Programs ( http://arxiv.org/abs/2004.00422v3 )

ライセンス: Link先を確認
Jialin Song, Ravi Lanka, Yisong Yue, Bistra Dilkina(参考訳) 本稿では,既存の最先端解法を汎用的に活用可能な大規模組合せ最適化問題に対するデータ駆動アルゴリズム設計手法について検討する。 目標は、ウォールタイムで既存の問題解決者より確実に優れた新しいアプローチにたどり着くことだ。 我々は整数プログラムの解法に重点を置き,変数のサブセットを反復的に選択し,残余を固定したまま最適化する大規模近傍探索(lns)パラダイムのアプローチを基礎としている。 LNSの魅力は、既存のソルバをサブルーチンとして簡単に利用でき、慎重に設計されたヒューリスティックなアプローチや完全なアプローチ、ソフトウェア実装の利点を継承できることである。 模倣学習と強化学習を用いて,良質な近所セレクタを学習できることを示す。 有界時間最適化における広範な実証的検証を通じて、我々のLSSフレームワークは、Gurobiのような最先端の商用解法と比較して大幅に性能が向上することを示した。

This paper studies a strategy for data-driven algorithm design for large-scale combinatorial optimization problems that can leverage existing state-of-the-art solvers in general purpose ways. The goal is to arrive at new approaches that can reliably outperform existing solvers in wall-clock time. We focus on solving integer programs, and ground our approach in the large neighborhood search (LNS) paradigm, which iteratively chooses a subset of variables to optimize while leaving the remainder fixed. The appeal of LNS is that it can easily use any existing solver as a subroutine, and thus can inherit the benefits of carefully engineered heuristic or complete approaches and their software implementations. We show that one can learn a good neighborhood selector using imitation and reinforcement learning techniques. Through an extensive empirical validation in bounded-time optimization, we demonstrate that our LNS framework can significantly outperform compared to state-of-the-art commercial solvers such as Gurobi.
翻訳日:2022-12-18 13:21:10 公開日:2020-12-22
# ローカルディファレンシャルプライバシに基づくモノのインターネットのための連合学習

Local Differential Privacy based Federated Learning for Internet of Things ( http://arxiv.org/abs/2004.08856v2 )

ライセンス: Link先を確認
Yang Zhao, Jun Zhao, Mengmeng Yang, Teng Wang, Ning Wang, Lingjuan Lyu, Dusit Niyato, Kwok-Yan Lam(参考訳) Internet of Vehicles (IoV)はInternet of Thingsの有望な部門である。 IoVは、Waze、Uber、Amazon Mechanical Turkなど、さまざまなクラウドソーシングアプリケーションをシミュレートしている。 これらのアプリケーションのユーザは,ユーザの報告したトラフィック情報に基づいて,機械学習モデルをトレーニングするクラウドサーバに,リアルタイムトラフィック情報を報告する。 しかし、クラウドソーシングアプリケーションオーナーは、ユーザの位置情報を簡単に推測できるため、ユーザの深刻な位置プライバシー上の懸念が生じる。 さらに,車両数の増加に伴い,車両とクラウドサーバ間の頻繁な通信により,予期せぬ通信コストが発生する。 本稿では,プライバシの脅威を回避し,通信コストを低減するため,機械学習モデルを実現するためのクラウドソーシングアプリケーションを容易にするために,フェデレーションラーニングとローカルディファレンシャルプライバシ(LDP)を統合することを提案する。 具体的には,車両の摂動勾配に対する4つのLPP機構を提案する。 プライバシ予算が小さい場合に高い精度を提供するために、3つの異なる出力可能性を導入する三出力機構を提案する。 Three-Outputsの出力可能性は2ビットで符号化でき、通信コストを削減できる。 また,プライバシ予算が大きい場合の性能を最大化するために,最適ピースワイズ機構(PM-OPT)を提案する。 さらに, PM-OPT に匹敵する実用性を備えた準最適機構 (PM-SUB) を提案する。 次に三出力とPM-SUBを組み合わせた新しいハイブリッド機構を構築する。

Internet of Vehicles (IoV) is a promising branch of the Internet of Things. IoV simulates a large variety of crowdsourcing applications such as Waze, Uber, and Amazon Mechanical Turk, etc. Users of these applications report the real-time traffic information to the cloud server which trains a machine learning model based on traffic information reported by users for intelligent traffic management. However, crowdsourcing application owners can easily infer users' location information, which raises severe location privacy concerns of the users. In addition, as the number of vehicles increases, the frequent communication between vehicles and the cloud server incurs unexpected amount of communication cost. To avoid the privacy threat and reduce the communication cost, in this paper, we propose to integrate federated learning and local differential privacy (LDP) to facilitate the crowdsourcing applications to achieve the machine learning model. Specifically, we propose four LDP mechanisms to perturb gradients generated by vehicles. The Three-Outputs mechanism is proposed which introduces three different output possibilities to deliver a high accuracy when the privacy budget is small. The output possibilities of Three-Outputs can be encoded with two bits to reduce the communication cost. Besides, to maximize the performance when the privacy budget is large, an optimal piecewise mechanism (PM-OPT) is proposed. We further propose a suboptimal mechanism (PM-SUB) with a simple formula and comparable utility to PM-OPT. Then, we build a novel hybrid mechanism by combining Three-Outputs and PM-SUB.
翻訳日:2022-12-12 00:42:19 公開日:2020-12-22
# コスト関連ハイパーパラメータのフルーガル最適化

Frugal Optimization for Cost-related Hyperparameters ( http://arxiv.org/abs/2005.01571v3 )

ライセンス: Link先を確認
Qingyun Wu, Chi Wang, Silu Huang(参考訳) 機械学習アルゴリズムの民主化に対する需要が高まる中、ハイパーパラメータ最適化(hpo)ソリューションは低コストで要求される。 多くの機械学習アルゴリズムはハイパーパラメータを持ち、トレーニングコストが大きく変動する可能性がある。 しかし、この効果は最適化プロセス中にコストを適切に制御できない既存のHPO法では無視されている。 この問題に対処するため、我々は新しいコストフルーガーHPOソリューションを開発した。 我々の解の核となるのは、単純だが新しいランダム化直接探索法であり、全コストに対して$o(\frac{\sqrt{d}}{\sqrt{k}})$と$o(d\epsilon^{-2})$-approximationの収束率を証明する。 我々は、大規模なAutoMLベンチマークにおける最先端HPO法と比較して、強力な実験結果を提供する。

The increasing demand for democratizing machine learning algorithms calls for hyperparameter optimization (HPO) solutions at low cost. Many machine learning algorithms have hyperparameters which can cause a large variation in the training cost. But this effect is largely ignored in existing HPO methods, which are incapable to properly control cost during the optimization process. To address this problem, we develop a new cost-frugal HPO solution. The core of our solution is a simple but new randomized direct-search method, for which we prove a convergence rate of $O(\frac{\sqrt{d}}{\sqrt{K}})$ and an $O(d\epsilon^{-2})$-approximation guarantee on the total cost. We provide strong empirical results in comparison with state-of-the-art HPO methods on large AutoML benchmarks.
翻訳日:2022-12-07 00:21:37 公開日:2020-12-22
# TIME:テキストと画像の相互翻訳対応ネットワーク

TIME: Text and Image Mutual-Translation Adversarial Networks ( http://arxiv.org/abs/2005.13192v2 )

ライセンス: Link先を確認
Bingchen Liu, Kunpeng Song, Yizhe Zhu, Gerard de Melo, Ahmed Elgammal(参考訳) テキスト・ツー・イメージ(T2I)生成に着目し,T2IジェネレータGと画像キャプション識別器Dを共同で学習する軽量かつ効果的なモデルであるテキスト・画像相互変換対応ネットワーク(TIME)を提案する。 以前のメソッドは、一方向タスクとしてT2I問題に取り組み、事前トレーニングされた言語モデルを使用して画像の一貫性を強制するが、TIMEは追加モジュールも事前トレーニングも必要としない。 言語モデルとしてDと共同で学習することでGの性能を大幅に向上させることができることを示す。 具体的には,画像特徴と単語埋め込み間のクロスモーダル接続をモデル化するトランスフォーマティブを採用し,逆学習を動的にバランスさせるアニーリング条件付きヒンジ損失を設計する。 実験では,CUBおよびMS-COCOデータセット上でのSOTA(Inception Score of 4.91とFr\echet Inception Distance of 14.3)の性能を達成し,画像キャプションおよび下流視覚言語タスクにおいてMS-COCOに有望な性能を示す。

Focusing on text-to-image (T2I) generation, we propose Text and Image Mutual-Translation Adversarial Networks (TIME), a lightweight but effective model that jointly learns a T2I generator G and an image captioning discriminator D under the Generative Adversarial Network framework. While previous methods tackle the T2I problem as a uni-directional task and use pre-trained language models to enforce the image--text consistency, TIME requires neither extra modules nor pre-training. We show that the performance of G can be boosted substantially by training it jointly with D as a language model. Specifically, we adopt Transformers to model the cross-modal connections between the image features and word embeddings, and design an annealing conditional hinge loss that dynamically balances the adversarial learning. In our experiments, TIME achieves state-of-the-art (SOTA) performance on the CUB and MS-COCO dataset (Inception Score of 4.91 and Fr\'echet Inception Distance of 14.3 on CUB), and shows promising performance on MS-COCO on image captioning and downstream vision-language tasks.
翻訳日:2022-11-28 09:16:02 公開日:2020-12-22
# 2段階セマンティックパーシングのための教師なしデュアルパラフレーズ

Unsupervised Dual Paraphrasing for Two-stage Semantic Parsing ( http://arxiv.org/abs/2005.13485v3 )

ライセンス: Link先を確認
Ruisheng Cao, Su Zhu, Chenyu Yang, Chen Liu, Rao Ma, Yanbin Zhao, Lu Chen and Kai Yu(参考訳) 意味構文解析の厄介な問題は、アノテーションの不足である。 非自明な人的労力を減らすために,第1段階は教師なしパラフレーズモデルを用いて,未ラベルの自然言語を標準発話に変換する2段階意味解析フレームワークを提案する。 下流のナイーブなセマンティックパーサは中間出力を受け取り、ターゲット論理形式を返す。 さらに、トレーニングプロセス全体は、事前トレーニングとサイクル学習の2つのフェーズに分割される。 3つの自己教師付きタスクがトレーニングを通じて導入され、教師なしパラフレーズモデルがアクティベーションされる。 ベンチマークの実験結果とgeogrannoは、我々のフレームワークが教師付きトレーニングと効果的で互換性があることを実証した。

One daunting problem for semantic parsing is the scarcity of annotation. Aiming to reduce nontrivial human labor, we propose a two-stage semantic parsing framework, where the first stage utilizes an unsupervised paraphrase model to convert an unlabeled natural language utterance into the canonical utterance. The downstream naive semantic parser accepts the intermediate output and returns the target logical form. Furthermore, the entire training process is split into two phases: pre-training and cycle learning. Three tailored self-supervised tasks are introduced throughout training to activate the unsupervised paraphrase model. Experimental results on benchmarks Overnight and GeoGranno demonstrate that our framework is effective and compatible with supervised training.
翻訳日:2022-11-28 08:12:49 公開日:2020-12-22
# 楽しみと利益のために深層強化学習モデルを盗む

Stealing Deep Reinforcement Learning Models for Fun and Profit ( http://arxiv.org/abs/2006.05032v2 )

ライセンス: Link先を確認
Kangjie Chen, Shangwei Guo, Tianwei Zhang, Xiaofei Xie and Yang Liu(参考訳) 本稿では,外敵が環境との相互作用からのみブラックボックスのDRLモデルを正確に復元することのできる,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。 教師付きディープラーニングモデルに対するモデル抽出攻撃は広く研究されている。 しかし,これらの手法は,drlモデルの複雑性,確率性,観測可能な情報が少ないため,強化学習シナリオには適用できない。 上記の課題を克服するための新しい手法を提案する。 このアプローチの重要な洞察は、drlモデル抽出のプロセスは、逐次的な意思決定ポリシーを学ぶための確立されたソリューションである模倣学習と等価であるということです。 本手法は,まず,予測された動作に基づいて,対象のブラックボックスDRLモデルのトレーニングアルゴリズムファミリーを明らかにするための分類器を構築し,次に,最先端の模倣学習技術を利用して同定されたアルゴリズムファミリーからモデルを複製する。 実験結果から,本手法は高い忠実度と精度でDRLモデルを効果的に回収できることが示唆された。 また, モデル抽出攻撃は, 1) 敵攻撃の成功率を著しく向上させ, 2) DNN透かしで保護されてもDRLモデルを盗むことができることを示す2つのユースケースを示した。 これらはDRLアプリケーションの知的財産権とプライバシー保護に深刻な脅威をもたらす。

This paper presents the first model extraction attack against Deep Reinforcement Learning (DRL), which enables an external adversary to precisely recover a black-box DRL model only from its interaction with the environment. Model extraction attacks against supervised Deep Learning models have been widely studied. However, those techniques cannot be applied to the reinforcement learning scenario due to DRL models' high complexity, stochasticity and limited observable information. We propose a novel methodology to overcome the above challenges. The key insight of our approach is that the process of DRL model extraction is equivalent to imitation learning, a well-established solution to learn sequential decision-making policies. Based on this observation, our methodology first builds a classifier to reveal the training algorithm family of the targeted black-box DRL model only based on its predicted actions, and then leverages state-of-the-art imitation learning techniques to replicate the model from the identified algorithm family. Experimental results indicate that our methodology can effectively recover the DRL models with high fidelity and accuracy. We also demonstrate two use cases to show that our model extraction attack can (1) significantly improve the success rate of adversarial attacks, and (2) steal DRL models stealthily even they are protected by DNN watermarks. These pose a severe threat to the intellectual property and privacy protection of DRL applications.
翻訳日:2022-11-23 13:44:02 公開日:2020-12-22
# 確率的セグメンテーションネットワーク:空間的関連性アレタリック不確かさのモデル化

Stochastic Segmentation Networks: Modelling Spatially Correlated Aleatoric Uncertainty ( http://arxiv.org/abs/2006.06015v2 )

ライセンス: Link先を確認
Miguel Monteiro, Lo\"ic Le Folgoc, Daniel Coelho de Castro, Nick Pawlowski, Bernardo Marques, Konstantinos Kamnitsas, Mark van der Wilk, Ben Glocker(参考訳) イメージセグメンテーションでは、与えられた入力に対して複数の可算解が存在することが多い。 例えば、医療画像では、専門家はオブジェクト境界の正確な位置について意見が一致しないことが多い。 この本質的な不確実性を推定し、複数の証明可能な仮説を予測することは、多くのアプリケーションにおいて大きな関心を集めている。 本稿では,任意の画像セグメンテーションネットワークアーキテクチャを用いて,確率的不確かさをモデル化する効率的な確率的手法である確率的セグメンテーションネットワーク(ssns)を提案する。 ピクセルワイズ推定を生成するアプローチとは対照的に、SSNはラベルマップ全体の関節分布をモデル化し、1つの画像に対して複数の空間的コヒーレント仮説を生成することができる。 ロージット空間上の低ランク多変量正規分布を用いて、画像が与えられたラベルマップの確率をモデル化することにより、基礎となるアーキテクチャを変更することなく、ニューラルネットワークによって効率的に計算できる空間的に一貫した確率分布を得る。 2次元CTでは肺結節,3次元MRIでは脳腫瘍を含む実世界の医療データのセグメンテーションについて検討した。 SSNは、曖昧な画像の相関不確かさをモデル化し、よりシンプルで、より柔軟で、より効率的である。

In image segmentation, there is often more than one plausible solution for a given input. In medical imaging, for example, experts will often disagree about the exact location of object boundaries. Estimating this inherent uncertainty and predicting multiple plausible hypotheses is of great interest in many applications, yet this ability is lacking in most current deep learning methods. In this paper, we introduce stochastic segmentation networks (SSNs), an efficient probabilistic method for modelling aleatoric uncertainty with any image segmentation network architecture. In contrast to approaches that produce pixel-wise estimates, SSNs model joint distributions over entire label maps and thus can generate multiple spatially coherent hypotheses for a single image. By using a low-rank multivariate normal distribution over the logit space to model the probability of the label map given the image, we obtain a spatially consistent probability distribution that can be efficiently computed by a neural network without any changes to the underlying architecture. We tested our method on the segmentation of real-world medical data, including lung nodules in 2D CT and brain tumours in 3D multimodal MRI scans. SSNs outperform state-of-the-art for modelling correlated uncertainty in ambiguous images while being much simpler, more flexible, and more efficient.
翻訳日:2022-11-23 04:57:59 公開日:2020-12-22
# 深層学習を用いた環境データの時空間予測のための新しい枠組み

A Novel Framework for Spatio-Temporal Prediction of Environmental Data Using Deep Learning ( http://arxiv.org/abs/2007.11836v2 )

ライセンス: Link先を確認
Federico Amato, Fabian Guignard, Sylvain Robert, Mikhail Kanevski(参考訳) 気候と環境のモデリングと予測において、統計学と計算科学が果たす役割がより重要になるにつれて、機械学習の研究者たちは、気候危機に取り組むための彼らの研究の関連性をより認識するようになった。 実際、普遍非線形関数近似ツールである機械学習アルゴリズムは、空間的および時間的変数の環境データを分析およびモデル化するのに効率的である。 深層学習モデルは自動特徴表現学習によって空間的,時間的,時空間的,時空間的依存関係を捉えることができるが,空間内の不規則点の集合上で測定された連続時空間の補間の問題はまだ検討されていない。 このギャップを埋めるために、ディープラーニングを用いて気候と環境データの時空間予測を行うフレームワークを紹介します。 具体的には,時間的基準関数の積の和で時空間過程を分解し,空間的にモデル化し,正規格子上にマッピングできる確率空間係数を用いて,時空間の完全な時空間信号の再構成を可能にする。 シミュレーションと実世界のデータに基づく2つのケーススタディの応用は、コヒーレント時空間場モデリングにおける提案フレームワークの有効性を示す。

As the role played by statistical and computational sciences in climate and environmental modelling and prediction becomes more important, Machine Learning researchers are becoming more aware of the relevance of their work to help tackle the climate crisis. Indeed, being universal nonlinear function approximation tools, Machine Learning algorithms are efficient in analysing and modelling spatially and temporally variable environmental data. While Deep Learning models have proved to be able to capture spatial, temporal, and spatio-temporal dependencies through their automatic feature representation learning, the problem of the interpolation of continuous spatio-temporal fields measured on a set of irregular points in space is still under-investigated. To fill this gap, we introduce here a framework for spatio-temporal prediction of climate and environmental data using deep learning. Specifically, we show how spatio-temporal processes can be decomposed in terms of a sum of products of temporally referenced basis functions, and of stochastic spatial coefficients which can be spatially modelled and mapped on a regular grid, allowing the reconstruction of the complete spatio-temporal signal. Applications on two case studies based on simulated and real-world data will show the effectiveness of the proposed framework in modelling coherent spatio-temporal fields.
翻訳日:2022-11-07 12:13:52 公開日:2020-12-22
# ラベル伝播に対する異方性拡散方程式について

On anisotropic diffusion equations for label propagation ( http://arxiv.org/abs/2007.12516v2 )

ライセンス: Link先を確認
Lisa Maria Kreusser and Marie-Therese Wolfram(参考訳) データ分類における多くの問題では、特定の数のラベルが既に正しくラベル付けられているポイントクラウドのポイントにラベルを割り当てることを望んでいる。 本稿では, 正確なラベルに関する情報を近隣の点に伝播させる顕微鏡ODE手法を提案する。 その力学はアライメント機構に基づいており、コンセンサス形成における大きな相互作用エージェントシステムでよく用いられる。 反応項を持つ異方性拡散方程式に対応する各連続体記述を導出する。 境界領域上の連続体モデルの解は、基礎となる点雲の特定の性質を継承する。 これらの解析特性を議論し、マイクロ・マクロシミュレーションで結果を実証する。

In many problems in data classification one wishes to assign labels to points in a point cloud with a certain number of them being already correctly labeled. In this paper, we propose a microscopic ODE approach, in which information about correct labels is propagated to neighboring points. Its dynamics are based on alignment mechanisms, which are commonly used in large interacting agent systems in consensus formation. We derive the respective continuum description, which corresponds to an anisotropic diffusion equation with reaction term. Solutions of the continuum model on the bounded domain inherit certain properties of the underlying point cloud. We discuss these analytic properties and exemplify the results with micro- and macroscopic simulations.
翻訳日:2022-11-07 07:20:08 公開日:2020-12-22
# 電力系統の可解性予測のための深部能動学習

Deep Active Learning for Solvability Prediction in Power Systems ( http://arxiv.org/abs/2007.13250v2 )

ライセンス: Link先を確認
Yichen Zhang and Jianzhe Liu and Feng Qiu and Tianqi Hong and Rui Yao(参考訳) 従来の可解領域解析法は、決定的な保守性を持つ内部近似しか持たない。 実領域にアプローチするための機械学習手法が提案されている。 本稿では,電力系統の可解性予測のための深層アクティブ学習フレームワークを提案する。 すべてのインスタンスがラベル付けされた後にトレーニングを行う受動的学習方法と比較して、アクティブラーニングはラベル付け対象の最も有益なインスタンスを選択し、トレーニングのためのラベル付きデータセットのサイズを大幅に削減する。 アクティブ・ラーニング・フレームワークでは、異なるサンプリング戦略に対応する獲得関数は、分類器からのオン・ザ・フライ後確率で定義される。 提案手法の検証にはieee 39-busシステムを用い, サンプリング法の有効性を2次元ケースで可視化し, 全次元数値実験を行った。

Traditional methods for solvability region analysis can only have inner approximations with inconclusive conservatism. Machine learning methods have been proposed to approach the real region. In this letter, we propose a deep active learning framework for power system solvability prediction. Compared with the passive learning methods where the training is performed after all instances are labeled, the active learning selects most informative instances to be label and therefore significantly reduce the size of labeled dataset for training. In the active learning framework, the acquisition functions, which correspond to different sampling strategies, are defined in terms of the on-the-fly posterior probability from the classifier. The IEEE 39-bus system is employed to validate the proposed framework, where a two-dimensional case is illustrated to visualize the effectiveness of the sampling method followed by the full-dimensional numerical experiments.
翻訳日:2022-11-06 08:11:05 公開日:2020-12-22
# ゴムハンド錯覚の深部能動推論モデル

A deep active inference model of the rubber-hand illusion ( http://arxiv.org/abs/2008.07408v2 )

ライセンス: Link先を確認
Thomas Rood and Marcel van Gerven and Pablo Lanillos(参考訳) ゴムハンド錯覚(RHI)のような感覚運動器の対立に対する知覚と行動の対応を理解することは、身体が不確実な状況にどのように適応するかを理解するために不可欠である。 近年のヒトの研究では、RHIは知覚された腕の位置を変えるだけでなく、不随意力を引き起こすことが示されている。 本稿では,rhiを対象とする仮想環境において,これらの結果を考慮できる深い能動推論エージェントについて述べる。 視覚的高次元入力を扱うモデルでは,人間の知覚と力のパターンが類似していることが示されている。

Understanding how perception and action deal with sensorimotor conflicts, such as the rubber-hand illusion (RHI), is essential to understand how the body adapts to uncertain situations. Recent results in humans have shown that the RHI not only produces a change in the perceived arm location, but also causes involuntary forces. Here, we describe a deep active inference agent in a virtual environment, which we subjected to the RHI, that is able to account for these results. We show that our model, which deals with visual high-dimensional inputs, produces similar perceptual and force patterns to those found in humans.
翻訳日:2022-10-28 04:09:53 公開日:2020-12-22
# ランキングを学習することで、連合トップnレコメンデーションでユーザーデータをコントロールする方法

How to Put Users in Control of their Data in Federated Top-N Recommendation with Learning to Rank ( http://arxiv.org/abs/2008.07192v4 )

ライセンス: Link先を確認
Vito Walter Anelli, Yashar Deldjoo, Tommaso Di Noia, Antonio Ferrara, Fedelucio Narducci(参考訳) レコメンデーションサービスはいくつかのユーザー中心のアプリケーションで広く採用されており、情報の過負荷を軽減し、ユーザーが選択可能な広い範囲を選べるように支援するツールとなっている。 このようなシナリオでは、ユーザーは機密性の高い好み(例えば訪問先)を中央サーバーと共有しないため、データの所有権は重要な問題である。 残念ながら、データの収集と収集は、現代的で最先端のレコメンデーションアプローチに基づくものです。 この問題に対処するため,ユーザがデバイスを離れる機密データの量を制御しながら,集中因数分解モデルのトレーニングに協力するアーキテクチャであるFPLを提案する。 提案手法は,従来の機械学習のプライバシリスクを軽減するために考案された連合学習原則に従うことにより,ペアワイズ学習-ランク最適化を実現する。 公開実装はhttps://split.to/sisinflab-fplで利用可能である。

Recommendation services are extensively adopted in several user-centered applications as a tool to alleviate the information overload problem and help users in orienteering in a vast space of possible choices. In such scenarios, data ownership is a crucial concern since users may not be willing to share their sensitive preferences (e.g., visited locations) with a central server. Unfortunately, data harvesting and collection is at the basis of modern, state-of-the-art approaches to recommendation. To address this issue, we present FPL, an architecture in which users collaborate in training a central factorization model while controlling the amount of sensitive data leaving their devices. The proposed approach implements pair-wise learning-to-rank optimization by following the Federated Learning principles, originally conceived to mitigate the privacy risks of traditional machine learning. The public implementation is available at https://split.to/sisinflab-fpl.
翻訳日:2022-10-28 02:57:57 公開日:2020-12-22
# サーロゲート表現を用いた長期効果推定

Long-Term Effect Estimation with Surrogate Representation ( http://arxiv.org/abs/2008.08236v2 )

ライセンス: Link先を確認
Lu Cheng, Ruocheng Guo, Huan Liu(参考訳) 介入の短期的および長期的因果効果が異なる多くのシナリオがある。 例えば、低品質広告は短期広告クリックを増加させるが、クリック数を減らすことで長期広告収入を減少させる。 したがって、本研究は、第一利害の成果、または第一利害の成果が蓄積するのに何ヶ月、あるいは何年もかかる長期的効果の問題を研究する。 長期効果の観察的研究には独特の課題がある。 第一に、共起バイアスは大きな推定誤差とばらつきを引き起こし、一次結果の予測に向けてさらに蓄積することができる。 第二に、短期的な結果はしばしば第一の結果、すなわち代理として直接使用される。 それでもこの方法は、しばしば非現実的な強い代理仮定を必要とする。 これらの課題に対処するために、機械学習における長期因果推論とシーケンシャルモデルとの接続を構築することを提案する。 これにより、時間的不確定性を考慮した代理表現を学習し、推定された時間的共同創設者を条件づけることで、厳密な代理性仮定を回避することができる。 実験の結果,提案手法は最先端のフレームワークよりも優れていた。

There are many scenarios where short- and long-term causal effects of an intervention are different. For example, low-quality ads may increase short-term ad clicks but decrease the long-term revenue via reduced clicks. This work, therefore, studies the problem of long-term effect where the outcome of primary interest, or primary outcome, takes months or even years to accumulate. The observational study of long-term effect presents unique challenges. First, the confounding bias causes large estimation error and variance, which can further accumulate towards the prediction of primary outcomes. Second, short-term outcomes are often directly used as the proxy of the primary outcome, i.e., the surrogate. Nevertheless, this method entails the strong surrogacy assumption that is often impractical. To tackle these challenges, we propose to build connections between long-term causal inference and sequential models in machine learning. This enables us to learn surrogate representations that account for the temporal unconfoundedness and circumvent the stringent surrogacy assumption by conditioning on the inferred time-varying confounders. Experimental results show that the proposed framework outperforms the state-of-the-art.
翻訳日:2022-10-27 12:18:01 公開日:2020-12-22
# RCTの(Factual?)ナラティブ・サマリーの生成:ニューラル・マルチドキュメント・サマリゼーションによる実験

Generating (Factual?) Narrative Summaries of RCTs: Experiments with Neural Multi-Document Summarization ( http://arxiv.org/abs/2008.11293v2 )

ライセンス: Link先を確認
Byron C. Wallace, Sayantan Saha, Frank Soboczenski, Iain J. Marshall(参考訳) 複数の臨床試験報告から,物語的バイオメディカルエビデンスを自動生成する問題を考察する。 我々は,コクラン共同研究員が以前実施した体系的レビューから,関連記事要約の抽象的要約のための現代のニューラルモデルを評価する。 私たちは医療専門家に生成した要約を評価するように依頼し、現代の要約システムは一貫して流動的で関連するシナプスを産出するが、それらは必ずしも事実であるとは限らない。 本稿では,重要な発見を伝達する入力のスニペットを明示的に切り離し,大規模かつ高品質なトライアルの報告を強調することで,ドメイン固有モデルを活用した要約情報提供手法を提案する。 これらの戦略は,生成した要約の事実的精度をわずかに向上させる。 最後に, 報告結果の方向性を推定するモデルを用いて, 生成した物語証拠の事実性を自動的に評価する手法を提案する。

We consider the problem of automatically generating a narrative biomedical evidence summary from multiple trial reports. We evaluate modern neural models for abstractive summarization of relevant article abstracts from systematic reviews previously conducted by members of the Cochrane collaboration, using the authors conclusions section of the review abstract as our target. We enlist medical professionals to evaluate generated summaries, and we find that modern summarization systems yield consistently fluent and relevant synopses, but that they are not always factual. We propose new approaches that capitalize on domain-specific models to inform summarization, e.g., by explicitly demarcating snippets of inputs that convey key findings, and emphasizing the reports of large and high-quality trials. We find that these strategies modestly improve the factual accuracy of generated summaries. Finally, we propose a new method for automatically evaluating the factuality of generated narrative evidence syntheses using models that infer the directionality of reported findings.
翻訳日:2022-10-25 03:53:12 公開日:2020-12-22
# 確率マルコフ勾配Descentと低ビットニューラルネットワークの訓練

Stochastic Markov Gradient Descent and Training Low-Bit Neural Networks ( http://arxiv.org/abs/2008.11117v2 )

ライセンス: Link先を確認
Jonathan Ashbrock, Alexander M. Powell(参考訳) 現代のニューラルネットワークの大規模な規模は、ニューラルネットワークの量子化への関心をかなり高めた。 本稿ではSMGD(Stochastic Markov Gradient Descent)を導入し,量子化されたニューラルネットワークのトレーニングに適用可能な離散最適化手法を提案する。 SMGDアルゴリズムは、トレーニング中にメモリが高度に制限された設定のために設計されている。 アルゴリズム性能の理論的保証と数値的な結果の促進を提供する。

The massive size of modern neural networks has motivated substantial recent interest in neural network quantization. We introduce Stochastic Markov Gradient Descent (SMGD), a discrete optimization method applicable to training quantized neural networks. The SMGD algorithm is designed for settings where memory is highly constrained during training. We provide theoretical guarantees of algorithm performance as well as encouraging numerical results.
翻訳日:2022-10-25 03:25:49 公開日:2020-12-22
# ロバスト視覚追跡のための事前学習深部畳み込みニューラルネットワークの適応的爆発

Adaptive Exploitation of Pre-trained Deep Convolutional Neural Networks for Robust Visual Tracking ( http://arxiv.org/abs/2008.13015v2 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Hossein Ghanei-Yakhdan, and Shohreh Kasaei(参考訳) 多層非線形変換による自動特徴抽出法により、深層学習に基づく視覚トラッカーは、近年、視覚追跡目的の挑戦的なシナリオにおいて大きな成功を収めている。 これらのトラッカーの多くは、事前訓練された畳み込みニューラルネットワーク(CNN)から特徴マップを利用するが、異なるモデルを選択し、それらの特徴マップの様々な組み合わせを利用する効果は、まだ完全に比較されていない。 我々の知る限り、これらの手法はすべて、トラッキング中に発生するシーン特性(例えば、閉塞、変形、高速な動き)を考慮せずに、一定の数の畳み込み特徴写像を使用する。 そこで本研究では,CNNモデルと異なるトポロジを持つ手法に基づいて,適応的識別相関フィルタ(DCF)を提案する。 まず,一般的な4つのCNNモデルの包括的解析を行い,各モデルの最適な特徴マップを決定する。 第2に,分析結果を属性辞書として活用することにより,映像特性に関する視覚トラッカーの精度とロバスト性を向上させるために,深い特徴の適応的利用を提案する。 第3に、提案手法の一般化は、類似したアーキテクチャを持つcnnモデルと同様に、様々な追跡データセット上で検証される。 最後に, 提案手法の有効性を, 最先端の視覚追跡法と比較し, 実験により実証した。

Due to the automatic feature extraction procedure via multi-layer nonlinear transformations, the deep learning-based visual trackers have recently achieved great success in challenging scenarios for visual tracking purposes. Although many of those trackers utilize the feature maps from pre-trained convolutional neural networks (CNNs), the effects of selecting different models and exploiting various combinations of their feature maps are still not compared completely. To the best of our knowledge, all those methods use a fixed number of convolutional feature maps without considering the scene attributes (e.g., occlusion, deformation, and fast motion) that might occur during tracking. As a pre-requisition, this paper proposes adaptive discriminative correlation filters (DCF) based on the methods that can exploit CNN models with different topologies. First, the paper provides a comprehensive analysis of four commonly used CNN models to determine the best feature maps of each model. Second, with the aid of analysis results as attribute dictionaries, adaptive exploitation of deep features is proposed to improve the accuracy and robustness of visual trackers regarding video characteristics. Third, the generalization of the proposed method is validated on various tracking datasets as well as CNN models with similar architectures. Finally, extensive experimental results demonstrate the effectiveness of the proposed adaptive method compared with state-of-the-art visual tracking methods.
翻訳日:2022-10-23 16:53:06 公開日:2020-12-22
# 不均一データの分散最適化のための通信圧縮について

On Communication Compression for Distributed Optimization on Heterogeneous Data ( http://arxiv.org/abs/2009.02388v2 )

ライセンス: Link先を確認
Sebastian U. Stich(参考訳) 偏りのない圧縮機と偏りのない圧縮機を併用したロッシー勾配圧縮は、中央に調整された機械学習モデルの分散トレーニングにおける通信ボトルネックを回避する重要なツールとなっている。 2種類の標準および一般的な手法の性能を分析した。 (i)任意の非バイアス量子化器と分散量子化SGD(D-QSGD) (II)不均質(非イド)データ設定における誤差フィードバックとバイアス圧縮機(D-EF-SGD)を用いた分散SGD。 以上の結果から,D-EF-SGDは非IDデータによるD-QSGDよりも影響を受けないことがわかった。 さらに, 異種データ分布の影響を受けない(あるいはそれ以下)2つの方法について検討する: まず, 強凸問題に有効である最近提案された手法, 次に, 線形圧縮機に適用可能なより一般的な手法を, 全てのシナリオにおいて有効であることを示す。

Lossy gradient compression, with either unbiased or biased compressors, has become a key tool to avoid the communication bottleneck in centrally coordinated distributed training of machine learning models. We analyze the performance of two standard and general types of methods: (i) distributed quantized SGD (D-QSGD) with arbitrary unbiased quantizers and (ii) distributed SGD with error-feedback and biased compressors (D-EF-SGD) in the heterogeneous (non-iid) data setting. Our results indicate that D-EF-SGD is much less affected than D-QSGD by non-iid data, but both methods can suffer a slowdown if data-skewness is high. We further study two alternatives that are not (or much less) affected by heterogenous data distributions: first, a recently proposed method that is effective on strongly convex problems, and secondly, we point out a more general approach that is applicable to linear compressors only but effective in all considered scenarios.
翻訳日:2022-10-22 02:01:40 公開日:2020-12-22
# 非IID分散データを用いた効果的なFederated Adaptive Gradient法

Effective Federated Adaptive Gradient Methods with Non-IID Decentralized Data ( http://arxiv.org/abs/2009.06557v2 )

ライセンス: Link先を確認
Qianqian Tong, Guannan Liang and Jinbo Bi(参考訳) フェデレートされた学習により、エッジコンピューティングデバイスの負荷が、データ共有なしでグローバルモデルを協調的に学習することが可能になる。 非IIDおよびアンバランスデータに基づく部分的デバイス参加の分析は、より現実を反映している。 本研究では,デバイス間のデータ集団の相違による一般化性能劣化を軽減するために,第1次と第2次の両方のモータを用いた適応勾配手法のフェデレーション学習版を提案する。 テスト性能をさらに向上させるために,アダプティブ・ラーニング・レートのキャリブレーションについて,$\epsilon$,$p$-adamでキャリブレーションされた標準adamや,アクティベーション関数でキャリブレーションされた標準adamなど,いくつかの手法を比較した。 提案手法は,非iidおよび非平衡データ設定下で一階定常点に収束し,非凸最適化を行うという理論的な結果の第一セットを提供する。 本研究では,これらのフェデレート学習法と最新のフェデレート学習法,フェデレート学習法,足場を比較し,現在のフェデレート学習法と比較して,異なるキャリブレーション方式とagmsの利点を評価した。

Federated learning allows loads of edge computing devices to collaboratively learn a global model without data sharing. The analysis with partial device participation under non-IID and unbalanced data reflects more reality. In this work, we propose federated learning versions of adaptive gradient methods - Federated AGMs - which employ both the first-order and second-order momenta, to alleviate generalization performance deterioration caused by dissimilarity of data population among devices. To further improve the test performance, we compare several schemes of calibration for the adaptive learning rate, including the standard Adam calibrated by $\epsilon$, $p$-Adam, and one calibrated by an activation function. Our analysis provides the first set of theoretical results that the proposed (calibrated) Federated AGMs converge to a first-order stationary point under non-IID and unbalanced data settings for nonconvex optimization. We perform extensive experiments to compare these federated learning methods with the state-of-the-art FedAvg, FedMomentum and SCAFFOLD and to assess the different calibration schemes and the advantages of AGMs over the current federated learning methods.
翻訳日:2022-10-18 11:40:37 公開日:2020-12-22
# 深層学習によるUnicodeのWeaponizing --弱ラベル付きデータによるホモグリフの同定

Weaponizing Unicodes with Deep Learning -- Identifying Homoglyphs with Weakly Labeled Data ( http://arxiv.org/abs/2010.04382v4 )

ライセンス: Link先を確認
Perry Deng, Cooper Linsky, Matthew Wright(参考訳) 視覚的に類似した文字(ホモグリフ)は、社会工学的な攻撃やスパムや盗作検知の回避に使用できる。 したがって、攻撃者がホモグリフ(特にこれまで発見されていないもの)を識別し、攻撃に活用する能力を理解することが重要である。 埋め込み学習,移動学習,拡張を用いた深層学習モデルを用いて,文字の視覚的類似性を判定し,将来的なホモグリフを同定する。 我々のアプローチは、ほとんどの文字がホモグリフではないという事実から生じる弱いラベルを独特に活用する。 本モデルでは,一対のホモグリフ同定における正規化圧縮距離法を劇的に上回り,平均精度0。 また,ホモグリフを同値類の集合にクラスタリングする最初の試みを示す。これは,セキュリティ実践者がホモグリフを素早く検索したり,使用可能な文字列エンコーディングを正規化するために,ペアワイズ情報よりも効率的である。 クラスタリング性能を測定するために,従来のIOU(Intersection-Over-Union)尺度に基づくメートル法(mBIOU)を提案する。 クラスタリング法は0.592 mBIOU を達成するが,本法では0.430 である。 また、我々のモデルを用いて8000以上の未知のホモグリフを予測し、それらの多くが真の正であることを示す良い早期の兆候を見つける。 ソースコードと予測ホモグリフのリストはGithubにアップロードされる: https://github.com/PerryXDeng/weaponizing_unicode

Visually similar characters, or homoglyphs, can be used to perform social engineering attacks or to evade spam and plagiarism detectors. It is thus important to understand the capabilities of an attacker to identify homoglyphs -- particularly ones that have not been previously spotted -- and leverage them in attacks. We investigate a deep-learning model using embedding learning, transfer learning, and augmentation to determine the visual similarity of characters and thereby identify potential homoglyphs. Our approach uniquely takes advantage of weak labels that arise from the fact that most characters are not homoglyphs. Our model drastically outperforms the Normalized Compression Distance approach on pairwise homoglyph identification, for which we achieve an average precision of 0.97. We also present the first attempt at clustering homoglyphs into sets of equivalence classes, which is more efficient than pairwise information for security practitioners to quickly lookup homoglyphs or to normalize confusable string encodings. To measure clustering performance, we propose a metric (mBIOU) building on the classic Intersection-Over-Union (IOU) metric. Our clustering method achieves 0.592 mBIOU, compared to 0.430 for the naive baseline. We also use our model to predict over 8,000 previously unknown homoglyphs, and find good early indications that many of these may be true positives. Source code and list of predicted homoglyphs are uploaded to Github: https://github.com/PerryXDeng/weaponizing_unicode
翻訳日:2022-10-09 05:15:31 公開日:2020-12-22
# Pseudo 3D Gazeを用いた画像に基づく相互迷路検出の高速化

Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze ( http://arxiv.org/abs/2010.07811v2 )

ライセンス: Link先を確認
Bardia Doosti, Ching-Hui Chen, Raviteja Vemulapalli, Xuhui Jia, Yukun Zhu, Bradley Green(参考訳) 相互視線検出、すなわち2人がお互いを見ているかどうかを予測することは、人間の相互作用を理解する上で重要な役割を果たす。 本研究では,画像に基づく相互視線検出の課題に焦点をあて,訓練期間中に補助的な3D視線推定タスクを用いて,その性能を高めるためのシンプルで効果的なアプローチを提案する。 相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。 頭部画像エンコーダを3次元視線推定と相互視線検出枝とで共有することにより、相互視線検出枝のみを訓練して学習するよりも優れた頭部特徴を実現する。 3つの画像データセットの実験結果から,提案手法は追加アノテーションを使わずに検出性能を大幅に向上することが示された。 また、29.2k画像に相互の視線ラベルを付記した人間の33.1k対からなる新しい画像データセットも導入している。

Mutual gaze detection, i.e., predicting whether or not two people are looking at each other, plays an important role in understanding human interactions. In this work, we focus on the task of image-based mutual gaze detection, and propose a simple and effective approach to boost the performance by using an auxiliary 3D gaze estimation task during the training phase. We achieve the performance boost without additional labeling cost by training the 3D gaze estimation branch using pseudo 3D gaze labels deduced from mutual gaze labels. By sharing the head image encoder between the 3D gaze estimation and the mutual gaze detection branches, we achieve better head features than learned by training the mutual gaze detection branch alone. Experimental results on three image datasets show that the proposed approach improves the detection performance significantly without additional annotations. This work also introduces a new image dataset that consists of 33.1K pairs of humans annotated with mutual gaze labels in 29.2K images.
翻訳日:2022-10-07 04:18:35 公開日:2020-12-22
# ホワイトマター高強度セグメンテーションのための脳アトラスガイドU-Net

Brain Atlas Guided Attention U-Net for White Matter Hyperintensity Segmentation ( http://arxiv.org/abs/2010.09586v2 )

ライセンス: Link先を確認
Zicong Zhang, Kimerly Powell, Changchang Yin, Shilei Cao, Dani Gonzalez, Yousef Hannawi, Ping Zhang(参考訳) ホワイトマター・ハイパーインテンシティ(White Matter Hyperintensities, WMH)は、脳MRIにおける脳小血管疾患(cSVD)の最も一般的な症状である。 正確なWMHセグメンテーションアルゴリズムは、cSVD負荷とその臨床効果を決定するために重要である。 既存のWMHセグメンテーションアルゴリズムの多くは、流体減衰インバージョンリカバリ(FLAIR)画像とT1強調画像の両方を入力として必要とする。 しかし、T1強調画像は通常、急性脳卒中患者のために取得される標準的な臨床スキャンの一部ではない。 本稿では,空間登録された白色物質(WM)脳アトラスを用いたFLAIR画像のみを利用して,競争力のあるWMHセグメンテーション性能を実現する新しい脳アトラスを提案する。 具体的には,マルチ入力アテンション・モジュール (mam) とアテンション・フュージョン・モジュール (afm) という,2つの新たな接続機構を備えたデュアルパス・セグメンテーション・モデルを設計した。 2つの公開データセットの実験は、提案されたBAGAU-Netの有効性を示している。 FLAIR画像とWM脳アトラスのみを用いて、BAGAU-NetはT1強調画像で最先端の手法より優れており、WMHセグメンテーションの効果的な開発への道を開いた。 可用性:https://github.com/Ericzhang1/BAGAU-Net

White Matter Hyperintensities (WMH) are the most common manifestation of cerebral small vessel disease (cSVD) on the brain MRI. Accurate WMH segmentation algorithms are important to determine cSVD burden and its clinical consequences. Most of existing WMH segmentation algorithms require both fluid attenuated inversion recovery (FLAIR) images and T1-weighted images as inputs. However, T1-weighted images are typically not part of standard clinicalscans which are acquired for patients with acute stroke. In this paper, we propose a novel brain atlas guided attention U-Net (BAGAU-Net) that leverages only FLAIR images with a spatially-registered white matter (WM) brain atlas to yield competitive WMH segmentation performance. Specifically, we designed a dual-path segmentation model with two novel connecting mechanisms, namely multi-input attention module (MAM) and attention fusion module (AFM) to fuse the information from two paths for accurate results. Experiments on two publicly available datasets show the effectiveness of the proposed BAGAU-Net. With only FLAIR images and WM brain atlas, BAGAU-Net outperforms the state-of-the-art method with T1-weighted images, paving the way for effective development of WMH segmentation. Availability:https://github.com/Ericzhang1/BAGAU-Net
翻訳日:2022-10-05 23:01:28 公開日:2020-12-22
# 視覚・言語におけるマルチモーダル研究の現状と今後の展望

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends ( http://arxiv.org/abs/2010.09522v2 )

ライセンス: Link先を確認
Shagun Uppal, Sarthak Bhagat, Devamanyu Hazarika, Navonil Majumdar, Soujanya Poria, Roger Zimmermann, and Amir Zadeh(参考訳) ディープラーニングとその応用は、実世界のデータに様々なモダリティが存在する影響のある研究と開発をカスケードしている。 最近では、ビジョンと言語分野の交点における研究の関心が、多くの応用と急速な成長と共に高まっている。 本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。 我々は,そのタスクの定式化における応用と,意味知覚とコンテンツ生成に関する様々な問題を解決する方法について考察する。 また,タスク固有の傾向や評価戦略,今後の課題にも対処する。 さらに,近年出現した多分野のパターンや洞察に光を当てて,よりモジュール化された透明なインテリジェントシステムに向けて,この分野を指導した。 この調査は、VisLang研究における最近の文献を浮き彫りにする重要なトレンドを特定し、フィールドが向かっている方向を解明しようとする試みである。

Deep Learning and its applications have cascaded impactful research and development with a diverse range of modalities present in the real-world data. More recently, this has enhanced research interests in the intersection of the Vision and Language arena with its numerous applications and fast-paced growth. In this paper, we present a detailed overview of the latest trends in research pertaining to visual and language modalities. We look at its applications in their task formulations and how to solve various problems related to semantic perception and content generation. We also address task-specific trends, along with their evaluation strategies and upcoming challenges. Moreover, we shed some light on multi-disciplinary patterns and insights that have emerged in the recent past, directing this field towards more modular and transparent intelligent systems. This survey identifies key trends gravitating recent literature in VisLang research and attempts to unearth directions that the field is heading towards.
翻訳日:2022-10-05 20:28:01 公開日:2020-12-22
# ニューラルアモート化による雷-重力波パラメータ推定

Lightning-Fast Gravitational Wave Parameter Inference through Neural Amortization ( http://arxiv.org/abs/2010.12931v5 )

ライセンス: Link先を確認
Arnaud Delaunoy, Antoine Wehenkel, Tanja Hinderer, Samaya Nissanke, Christoph Weniger, Andrew R. Williamson, Gilles Louppe(参考訳) LIGO検出器とVirgo検出器によって測定されたコンパクトバイナリからの重力波をマルコフ連鎖モンテカルロサンプリングアルゴリズムを用いて定期的に解析する。 確率関数の評価には、信号形状とソースパラメータを関連付ける数百万の波形モデルを評価する必要があるため、収束するまでマルコフ連鎖の実行は通常高価で数日の計算が必要となる。 この拡張要約では、ニューラルネットワークシミュレーションに基づく推論の最新の進歩が、パフォーマンスを損なうことなく、推論時間を最大3桁(数日から数分)短縮できることを実証する概念実証を提供する。 我々のアプローチは、確率と証拠比をモデル化した畳み込みニューラルネットワークに基づいており、後部の計算を完全に減弱する。 その結果,シミュレーションした重力波のパラメータの信頼区間を精度良く推定できることがわかった。

Gravitational waves from compact binaries measured by the LIGO and Virgo detectors are routinely analyzed using Markov Chain Monte Carlo sampling algorithms. Because the evaluation of the likelihood function requires evaluating millions of waveform models that link between signal shapes and the source parameters, running Markov chains until convergence is typically expensive and requires days of computation. In this extended abstract, we provide a proof of concept that demonstrates how the latest advances in neural simulation-based inference can speed up the inference time by up to three orders of magnitude -- from days to minutes -- without impairing the performance. Our approach is based on a convolutional neural network modeling the likelihood-to-evidence ratio and entirely amortizes the computation of the posterior. We find that our model correctly estimates credible intervals for the parameters of simulated gravitational waves.
翻訳日:2022-10-03 13:46:37 公開日:2020-12-22
# エッジコンピューティングのためのCentric Wireless Resource Allocationの学習:アルゴリズムと実験

Learning Centric Wireless Resource Allocation for Edge Computing: Algorithm and Experiment ( http://arxiv.org/abs/2010.15371v2 )

ライセンス: Link先を確認
Liangkai Zhou, Yuncong Hong, Shuai Wang, Ruihua Han, Dachuan Li, Rui Wang, and Qi Hao(参考訳) エッジインテリジェンス(Edge Intelligence)は、センサ、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。 既存の方法は2つの重要な事実を無視します。 1) 異なるモデルは、トレーニングデータに異質な要求がある。 2)シミュレーション環境と実環境との間にはミスマッチがある。 その結果、実際の学習パフォーマンスが低下する可能性がある。 本稿では,複数のタスクの最悪の学習性能を最大化する学習中心無線リソース割り当て(LCWRA)方式を提案する。 解析により、最適伝送時間は一般化誤差に対して逆パワー関係を持つことが示された。 最後に,提案するlcwra方式の性能と実実装におけるロバスト性を検証するため,シミュレーションおよび実験結果が得られた。

Edge intelligence is an emerging network architecture that integrates sensing, communication, computing components, and supports various machine learning applications, where a fundamental communication question is: how to allocate the limited wireless resources (such as time, energy) to the simultaneous model training of heterogeneous learning tasks? Existing methods ignore two important facts: 1) different models have heterogeneous demands on training data; 2) there is a mismatch between the simulated environment and the real-world environment. As a result, they could lead to low learning performance in practice. This paper proposes the learning centric wireless resource allocation (LCWRA) scheme that maximizes the worst learning performance of multiple tasks. Analysis shows that the optimal transmission time has an inverse power relationship with respect to the generalization error. Finally, both simulation and experimental results are provided to verify the performance of the proposed LCWRA scheme and its robustness in real implementation.
翻訳日:2022-10-01 23:47:47 公開日:2020-12-22
# 量子機械学習による画像分類

Image Classification via Quantum Machine Learning ( http://arxiv.org/abs/2011.02831v2 )

ライセンス: Link先を確認
H\'ector Iv\'an Garc\'ia Hern\'andez, Raymundo Torres Ruiz, Guo-Hua Sun(参考訳) 量子コンピューティング、特に量子機械学習は、短期間のうちに、世界中の研究グループを通じて多くの関心を集めている。 これは、量子原理をある程度適用したパターン分類のための提案されたモデルの増加に見ることができる。 モデルの量の増加を軽視し、合成データだけでなく、実際のデータセットでこれらのモデルをテストするのに無駄があります。 この研究の目的は、量子分類器を用いてバイナリ属性でパターンを分類することである。 特に,画像データセットに適用した完全量子分類器の結果を示す。 この実験は、マイノリティクラスが最も関係のある不均衡クラスと同様に、バランスのとれた分類問題を扱う一方で、良好な出力を示す。 これは、通常重要なクラスがマイノリティクラスである医療分野において有望である。

Quantum Computing and especially Quantum Machine Learning, in a short period of time, has gained a lot of interest through research groups around the world. This can be seen in the increasing number of proposed models for pattern classification applying quantum principles to a certain degree. Despise the increasing volume of models, there is a void in testing these models on real datasets and not only on synthetic ones. The objective of this work is to classify patterns with binary attributes using a quantum classifier. Specially, we show results of a complete quantum classifier applied to image datasets. The experiments show favorable output while dealing with balanced classification problems as well as with imbalanced classes where the minority class is the most relevant. This is promising in medical areas, where usually the important class is also the minority class.
翻訳日:2022-09-30 06:28:12 公開日:2020-12-22
# PCアルゴリズムのためのハイパーパラメータの自動選択

Automated Hyperparameter Selection for the PC Algorithm ( http://arxiv.org/abs/2011.01889v2 )

ライセンス: Link先を確認
Eric V. Strobl(参考訳) PCアルゴリズムは、あらかじめ指定されたタイプI$\alpha$レベルを必要とする条件独立テストを用いて因果関係を推論する。 しかし、PCは教師なしなので、従来のクロスバリデーションを使って$\alpha$をチューニングすることはできない。 そこで我々は,ユーザが選択したメトリックに対して$\alpha$を直接最適化する高速プロシージャであるAutoPCを提案する。 特に,回収したグラフ上で2回目の実行を実行することで,pcに出力の二重チェックを強いる。 両ラン間の安定性を最大化する出力として最終出力を選択する。 AutoPCは、複数のメトリクスにわたって、アートの状態を一貫して上回る。

The PC algorithm infers causal relations using conditional independence tests that require a pre-specified Type I $\alpha$ level. PC is however unsupervised, so we cannot tune $\alpha$ using traditional cross-validation. We therefore propose AutoPC, a fast procedure that optimizes $\alpha$ directly for a user chosen metric. We in particular force PC to double check its output by executing a second run on the recovered graph. We choose the final output as the one which maximizes stability between the two runs. AutoPC consistently outperforms the state of the art across multiple metrics.
翻訳日:2022-09-30 04:07:21 公開日:2020-12-22
# インドネシアのインフォーマル言語からフォーマル言語への半教師付き低リソーススタイル移行

Semi-Supervised Low-Resource Style Transfer of Indonesian Informal to Formal Language with Iterative Forward-Translation ( http://arxiv.org/abs/2011.03286v2 )

ライセンス: Link先を確認
Haryo Akbarianto Wibowo, Tatag Aziz Prawiro, Muhammad Ihsan, Alham Fikri Aji, Radityo Eko Prasojo, Rahmad Mahendra, Suci Fitriany(参考訳) 日常的な用法では、インドネシア語は非公式性、すなわち語彙、綴り、語順の点で標準から逸脱している。 一方、現在のインドネシアのNLPモデルは標準のインドネシアのモデルを念頭に開発されている。 本研究では,インドネシア語からインドネシア語への形式変換を低リソース機械翻訳問題として扱う。 インドネシアの非公式な文と公式な文の並列文のデータセットを新たに構築する。 インドネシアの非公式なスタイル移行を行うためのいくつかの戦略をベンチマークする。 また,人工前方翻訳データによるトレーニングセットの強化についても検討する。 私たちは、非常に低リソースな設定を扱っているので、フレーズベースの機械翻訳アプローチは、トランスフォーマーベースのアプローチよりも優れています。 あるいは、訓練済みの GPT-2 をこのタスクに微調整し、等しく動作するが、計算資源のコストは高い。 この結果から, 機械翻訳モデルをスタイル変換に活用するための有望なステップが示唆された。 私たちのコードとデータはhttps://github.com/haryoa/stif-indonesiaで利用可能です。

In its daily use, the Indonesian language is riddled with informality, that is, deviations from the standard in terms of vocabulary, spelling, and word order. On the other hand, current available Indonesian NLP models are typically developed with the standard Indonesian in mind. In this work, we address a style-transfer from informal to formal Indonesian as a low-resource machine translation problem. We build a new dataset of parallel sentences of informal Indonesian and its formal counterpart. We benchmark several strategies to perform style transfer from informal to formal Indonesian. We also explore augmenting the training set with artificial forward-translated data. Since we are dealing with an extremely low-resource setting, we find that a phrase-based machine translation approach outperforms the Transformer-based approach. Alternatively, a pre-trained GPT-2 fined-tuned to this task performed equally well but costs more computational resource. Our findings show a promising step towards leveraging machine translation models for style transfer. Our code and data are available in https://github.com/haryoa/stif-indonesia
翻訳日:2022-09-29 04:49:08 公開日:2020-12-22
# 畳み込みニューラルネットワークを用いた植物疾患分類のための最適化器の性能解析

Performance Analysis of Optimizers for Plant Disease Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2011.04056v2 )

ライセンス: Link先を確認
Shreyas Rajesh Labhsetwar, Soumya Haridas, Riyali Panmand, Rutuja Deshpande, Piyush Arvind Kolte, Sandhya Pati(参考訳) 害虫と病気による作物の失敗はインドの農業に固有のものであり、年間生産性の15から25%の損失をもたらし、大きな経済的損失をもたらす。 本研究は, 深層学習による植物病の予測解析における各種最適化器の性能解析である。 この研究は畳み込みニューラルネットワークを使用して、3つの作物の植物葉サンプルを15のクラスに分類する。 この研究で使用される様々なオプティマイザには、RMSprop、Adam、AMSgradなどがある。 最適化性能は、トレーニングと検証の精度と損失曲線、ROC曲線、融合行列をプロットすることによって可視化される。 最高の性能はadam optimizerを使用して達成され、最大検証精度は98%である。 本稿では,衛星,ドローン,移動体画像を用いた深層学習手法を用いて,植物病の予測とプリエンプションが可能であることを示す研究分析に焦点を当てた。

Crop failure owing to pests & diseases are inherent within Indian agriculture, leading to annual losses of 15 to 25% of productivity, resulting in a huge economic loss. This research analyzes the performance of various optimizers for predictive analysis of plant diseases with deep learning approach. The research uses Convolutional Neural Networks for classification of farm or plant leaf samples of 3 crops into 15 classes. The various optimizers used in this research include RMSprop, Adam and AMSgrad. Optimizers Performance is visualised by plotting the Training and Validation Accuracy and Loss curves, ROC curves and Confusion Matrix. The best performance is achieved using Adam optimizer, with the maximum validation accuracy being 98%. This paper focuses on the research analysis proving that plant diseases can be predicted and pre-empted using deep learning methodology with the help of satellite, drone based or mobile based images that result in reducing crop failure and agricultural losses.
翻訳日:2022-09-28 08:37:24 公開日:2020-12-22
# 畳み込みニューラルネットワークによる病理組織学的癌分類の次元的影響の解析

Analysis of Dimensional Influence of Convolutional Neural Networks for Histopathological Cancer Classification ( http://arxiv.org/abs/2011.04057v2 )

ライセンス: Link先を確認
Shreyas Rajesh Labhsetwar, Alistair Michael Baretto, Raj Sunil Salvi, Piyush Arvind Kolte, Veerasai Subramaniam Venkatesh(参考訳) 畳み込みニューラルネットワークは、手作業によって異なるレベルの複雑さで設計することができる。 本稿では,cnnアーキテクチャの寸法変化が病理組織学的癌分類の課題に与える影響について検討した。 この研究は、3x3)畳み込みフィルタを備えたベースライン10層cnnモデルから始まる。 その後、ベースラインアーキテクチャは、幅、深さ、解像度、これらすべての組み合わせを含む多次元にスケールされる。 幅のスケーリングはcnn層当たりのニューロンの数を増やし、深さのスケーリングは階層的な階層構造を深くする。 分解能スケーリングは入力画像の次元を拡大することで行われ、複合スケーリングは幅、深さ、分解能スケーリングのハイブリッド結合を含む。 その結果, 病理組織学的癌スキャンは非常に複雑であり, コンボリューション, MaxPooling, Dropout, Batch Normalization の階層に高解像度の画像を供給し, すべての複雑さを抽出し, 完全な分類を行う必要があることがわかった。 ベースラインモデルの複合スケーリングは, 幅, 深さ, 解像度の3次元のスケーリングを保証するため, 複合スケーリングで最高の性能が得られる。 本研究は, 病理組織学的癌分類の課題に対するベースラインモデルの複合スケーリングにより, CNNモデルの性能向上を図っている。

Convolutional Neural Networks can be designed with different levels of complexity depending upon the task at hand. This paper analyzes the effect of dimensional changes to the CNN architecture on its performance on the task of Histopathological Cancer Classification. The research starts with a baseline 10-layer CNN model with (3 X 3) convolution filters. Thereafter, the baseline architecture is scaled in multiple dimensions including width, depth, resolution and a combination of all of these. Width scaling involves inculcating greater number of neurons per CNN layer, whereas depth scaling involves deepening the hierarchical layered structure. Resolution scaling is performed by increasing the dimensions of the input image, and compound scaling involves a hybrid combination of width, depth and resolution scaling. The results indicate that histopathological cancer scans are very complex in nature and hence require high resolution images fed to a large hierarchy of Convolution, MaxPooling, Dropout and Batch Normalization layers to extract all the intricacies and perform perfect classification. Since compound scaling the baseline model ensures that all the three dimensions: width, depth and resolution are scaled, the best performance is obtained with compound scaling. This research shows that better performance of CNN models is achieved by compound scaling of the baseline model for the task of Histopathological Cancer Classification.
翻訳日:2022-09-28 08:10:01 公開日:2020-12-22
# リアルタイムmrサーモメトリーによる呼吸関連アーティファクトの深部補正

Deep correction of breathing-related artifacts in real-time MR-thermometry ( http://arxiv.org/abs/2011.05025v3 )

ライセンス: Link先を確認
Baudouin Denis de Senneville, Pierrick Coup\'e, Mario Ries, Laurent Facq, Chrit Moonen(参考訳) 生体情報と同時にオンザフライ温度マップを提供できるため、リアルタイムmr画像撮影は熱療法のモニタリングに臨床応用されている。 しかし, 運動標的の陽子共鳴周波数に基づく熱測定は, 温度アーティファクトは呼吸や生理運動によって誘導されるため, 依然として困難である。 修正されていない場合は、これらのアーティファクトは、温度推定と治療指導の重大なエラーにつながる。 本研究では,腹部mrサーモメトリーにおける動作関連誤差のオンライン補正のための深層学習の評価を行った。 このために、畳み込みニューラルネットワーク(convolutional neural network, cnn)は、ハイパーサーミア以前の予備学習段階で取得した画像から明らかな温度摂動を学習するために設計された。 設計したCNNの入力は最新の大きさの画像であり、動きの代理は不要である。 その後のハイパーサーミア手術では、現在の温度マップのオンライン補正を生成するために、cnnモデルの入力として最近のマグニチュード画像が使用される。 術式は,12名の無呼吸ボランティアで評価され,すべての検査例で頑健で無人工物であることが判明した。 さらに,高強度集束超音波を用いて生体内アブレーションの温度測定精度と精度を評価した。 ワークフローの異なる段階における全ての計算は、治療手順の臨床的時間制約に適合するように設計されている。

Real-time MR-imaging has been clinically adapted for monitoring thermal therapies since it can provide on-the-fly temperature maps simultaneously with anatomical information. However, proton resonance frequency based thermometry of moving targets remains challenging since temperature artifacts are induced by the respiratory as well as physiological motion. If left uncorrected, these artifacts lead to severe errors in temperature estimates and impair therapy guidance. In this study, we evaluated deep learning for on-line correction of motion related errors in abdominal MR-thermometry. For this, a convolutional neural network (CNN) was designed to learn the apparent temperature perturbation from images acquired during a preparative learning stage prior to hyperthermia. The input of the designed CNN is the most recent magnitude image and no surrogate of motion is needed. During the subsequent hyperthermia procedure, the recent magnitude image is used as an input for the CNN-model in order to generate an on-line correction for the current temperature map. The method's artifact suppression performance was evaluated on 12 free breathing volunteers and was found robust and artifact-free in all examined cases. Furthermore, thermometric precision and accuracy was assessed for in vivo ablation using high intensity focused ultrasound. All calculations involved at the different stages of the proposed workflow were designed to be compatible with the clinical time constraints of a therapeutic procedure.
翻訳日:2022-09-27 07:15:03 公開日:2020-12-22
# オンライン多言語ヘイト音声認識システム

An Online Multilingual Hate speech Recognition System ( http://arxiv.org/abs/2011.11523v3 )

ライセンス: Link先を確認
Neeraj Vashistha, Arkaitz Zubiaga, Shanky Sharma(参考訳) 過去20年間のインターネットとソーシャルメディアの利用の指数関数的な増加は、人間のインタラクションを変えている。 これは多くのポジティブな結果をもたらしましたが、同時にリスクと害をもたらしました。 ネット上でのヘイトスピーチなどの有害なコンテンツの量は人間には管理できないが、ヘイトスピーチ検出の自動化手段を研究するための学術コミュニティへの関心が高まっている。 本研究では,6つのデータセットを1つの均質なデータセットに結合して,虐待的,憎悪的,無関係の3つのクラスに分類する。 ベースラインモデルを作成し、様々な最適化手法を用いてモデルパフォーマンススコアを改善する。 競争力のあるパフォーマンススコアを得た後、ほぼリアルタイムで有効なメトリックでページを識別・スコアするツールを作成し、モデルの再トレーニングにフィードバックとして使用します。 多言語モデルの競合性能を英語とヒンディー語で証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。

The exponential increase in the use of the Internet and social media over the last two decades has changed human interaction. This has led to many positive outcomes, but at the same time it has brought risks and harms. While the volume of harmful content online, such as hate speech, is not manageable by humans, interest in the academic community to investigate automated means for hate speech detection has increased. In this study, we analyse six publicly available datasets by combining them into a single homogeneous dataset and classify them into three classes, abusive, hateful or neither. We create a baseline model and we improve model performance scores using various optimisation techniques. After attaining a competitive performance score, we create a tool which identifies and scores a page with effective metric in near-real time and uses the same as feedback to re-train our model. We prove the competitive performance of our multilingual model on two langauges, English and Hindi, leading to comparable or superior performance to most monolingual models.
翻訳日:2022-09-22 02:02:11 公開日:2020-12-22
# AdS/Deep-Learningの簡単な例

AdS/Deep-Learning made easy: simple examples ( http://arxiv.org/abs/2011.13726v2 )

ライセンス: Link先を確認
Mugeon Song, Maverick S. H. Oh, Yongjun Ahn, and Keun-Young Kim(参考訳) 深層学習は様々な研究領域で広く活発に行われている。 近年,ゲージと重力の双対性において,ads/deep-learning (dl)と呼ばれる新しいディープラーニング手法が提案されている。 本論文の目的は,AdS/DLの本質を,ニューラルネットワークとして創発的時空の課題に適用したい人のために,可能な限り簡単な設定で記述することである。 原型的な例では、単純な古典力学の問題を選ぶ。 この方法は,最終回答が正しいだけでなく,学習パラメータの物理的理解も得られるという意味で,標準的な深層学習手法と少し異なる。

Deep learning has been widely and actively used in various research areas. Recently, in the gauge/gravity duality, a new deep learning technique so-called the AdS/Deep-Learning (DL) has been proposed [1, 2]. The goal of this paper is to describe the essence of the AdS/DL in the simplest possible setups, for those who want to apply it to the subject of emergent spacetime as a neural network. For prototypical examples, we choose simple classical mechanics problems. This method is a little different from standard deep learning techniques in the sense that not only do we have the right final answers but also obtain a physical understanding of learning parameters.
翻訳日:2022-09-20 02:55:04 公開日:2020-12-22
# (参考訳) 切り離された情報ボトルネック

Disentangled Information Bottleneck ( http://arxiv.org/abs/2012.07372v3 )

ライセンス: CC0 1.0
Ziqi Pan, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 情報ボトルネック(インフォメーションボトルネック、英: information bottleneck、ib)は、ソース確率変数からターゲット確率変数の予測に関連する情報を抽出する手法であり、通常、圧縮と予測条件のバランスをとるibラグランジアンを最適化して実装される。 しかし、IBラグランジアンは最適化が困難であり、ラグランジアン乗算器の値を調整するための複数の試行が必要である。 さらに,IBラグランジアン最適化時に圧縮が強くなるにつれて,予測性能が厳密に低下することを示す。 本稿では,教師付きアンタングリングの観点からIB法を実装した。 具体的には、ターゲット予測性能損失(最大圧縮)を伴わずに、ソースの最大圧縮に一貫した Disentangled Information Bottleneck (DisenIB) を導入する。 理論および実験により,本手法は最大圧縮に一貫性があり,一般化,敵の攻撃に対する頑健性,分散検出,教師付き不一致の点で良好に機能することが示された。

The information bottleneck (IB) method is a technique for extracting information that is relevant for predicting the target random variable from the source random variable, which is typically implemented by optimizing the IB Lagrangian that balances the compression and prediction terms. However, the IB Lagrangian is hard to optimize, and multiple trials for tuning values of Lagrangian multiplier are required. Moreover, we show that the prediction performance strictly decreases as the compression gets stronger during optimizing the IB Lagrangian. In this paper, we implement the IB method from the perspective of supervised disentangling. Specifically, we introduce Disentangled Information Bottleneck (DisenIB) that is consistent on compressing source maximally without target prediction performance loss (maximum compression). Theoretical and experimental results demonstrate that our method is consistent on maximum compression, and performs well in terms of generalization, robustness to adversarial attack, out-of-distribution detection, and supervised disentangling.
翻訳日:2021-05-09 04:49:48 公開日:2020-12-22
# TROJANZOO: 神経バックドアについて知りたかったことすべて(ただし、質問は怖かった)

TROJANZOO: Everything you ever wanted to know about neural backdoors (but were afraid to ask) ( http://arxiv.org/abs/2012.09302v2 )

ライセンス: Link先を確認
Ren Pang, Zheng Zhang, Xiangshan Gao, Zhaohan Xi, Shouling Ji, Peng Cheng, Ting Wang(参考訳) ニューラルネットワークのバックドアは,ディープラーニングシステムのセキュリティに対する主要な脅威のひとつだ。 この主題に関する集中的な研究は、多くの攻撃/防御を生み出し、絶え間ない武器競争を引き起こした。 しかしながら、評価ベンチマークが欠如しているため、多くの重要な疑問が未解決のままである: (i) どの程度効果的か、回避可能か、あるいは移行可能か? (ii) いかに堅牢で、ユーティリティ保存、あるいはジェネリックが異なる防御なのか? (iii) さまざまな要因(モデルアーキテクチャなど)がパフォーマンスにどのように影響しますか? (iv)このような攻撃や防御を行うためのベストプラクティス(最適化戦略など)は何ですか? (v)既存の攻撃・防御をさらに改善できるのか? このギャップを埋めるために、私たちは、神経バックドア攻撃/防御を統一的で総合的で実用的な方法で評価する、最初のオープンソースプラットフォームであるtrojanzooを設計し、実装します。 これにより、12の代表的な攻撃、15の最先端防御、6つの攻撃性能指標、10の防衛ユーティリティメトリクス、および攻撃と防御の相互作用を詳細に分析するための豊富なツールが組み込まれている。 Leveraging TROJANZOO, we conduct a systematic study of existing attacks/defenses, leading to a number of interesting findings: (i) different attacks manifest various trade-offs among multiple desiderata (e.g., effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often suffice; (iii) optimizing trigger patterns and trojan models jointly improves both attack effectiveness and evasiveness; (iv) sanitizing trojan models often introduces new vulnerabilities; (v) most defenses are ineffective against adaptive attacks, but integrating complementary ones significantly enhances defense robustness. このような発見は、ユーザーが適切な防御ソリューションを選択し、神経バックドアに関する今後の研究を促進することを期待する。

Neural backdoors represent one primary threat to the security of deep learning systems. The intensive research on this subject has produced a plethora of attacks/defenses, resulting in a constant arms race. However, due to the lack of evaluation benchmarks, many critical questions remain largely unexplored: (i) How effective, evasive, or transferable are different attacks? (ii) How robust, utility-preserving, or generic are different defenses? (iii) How do various factors (e.g., model architectures) impact their performance? (iv) What are the best practices (e.g., optimization strategies) to operate such attacks/defenses? (v) How can the existing attacks/defenses be further improved? To bridge the gap, we design and implement TROJANZOO, the first open-source platform for evaluating neural backdoor attacks/defenses in a unified, holistic, and practical manner. Thus, it has incorporated 12 representative attacks, 15 state-of-the-art defenses, 6 attack performance metrics, 10 defense utility metrics, as well as rich tools for in-depth analysis of attack-defense interactions. Leveraging TROJANZOO, we conduct a systematic study of existing attacks/defenses, leading to a number of interesting findings: (i) different attacks manifest various trade-offs among multiple desiderata (e.g., effectiveness, evasiveness, and transferability); (ii) one-pixel triggers often suffice; (iii) optimizing trigger patterns and trojan models jointly improves both attack effectiveness and evasiveness; (iv) sanitizing trojan models often introduces new vulnerabilities; (v) most defenses are ineffective against adaptive attacks, but integrating complementary ones significantly enhances defense robustness. We envision that such findings will help users select the right defense solutions and facilitate future research on neural backdoors.
翻訳日:2021-05-03 02:53:39 公開日:2020-12-22
# 自己監督型スケッチ・トゥ・イメージ合成

Self-Supervised Sketch-to-Image Synthesis ( http://arxiv.org/abs/2012.09290v2 )

ライセンス: Link先を確認
Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal(参考訳) 色とりどりのリアルなイメージを任意に描いたスケッチから想像することは、我々が模倣したい人間の能力の1つだ。 スケッチと画像のペアを必要とするか、あるいは低量で検出されたエッジをスケッチとして利用する以前の方法とは異なり、exemplar-based sketch-to-image(s2i)合成タスクを自己教師あり学習方式で研究し、ペアのスケッチデータの必要性を排除した。 そこで本研究では,rgbのみの汎用データセットを効率的に合成するための教師なし手法を提案する。 合成ペアデータを用いて、スケッチやRGB画像からコンテンツやスタイルの特徴を分離する自己教師型オートエンコーダ(AE)を提示し、スケッチに忠実な画像とRGB画像に忠実な画像の両方を合成する。 先行研究では,コンテンツ・スタイルの忠実性を強制するために,サイクル・コンシスタンス損失か注意モジュールのどちらかを採用するが,aeの優れた性能を純粋に自己スーパービジョンで示している。 また,高分解能の合成品質をさらに向上させるため,逆ネットワークを利用して合成画像の詳細を洗練する。 1024*1024解像度に関する大規模な実験は、CelebA-HQおよびWiki-Artデータセット上で提案されたモデルの最先端性能を示す。 さらに,提案したスケッチジェネレータでは,合成画像のスタイル一貫性と意味論的意味の両方を必要とするスタイルミキシングとスタイル転送に有望な性能を示す。 私たちのコードはhttps://github.com/odegeasslbc/Self-Supervised-Sketch-to-Image-Synthesis-PyTorchで利用可能です。

Imagining a colored realistic image from an arbitrarily drawn sketch is one of the human capabilities that we eager machines to mimic. Unlike previous methods that either requires the sketch-image pairs or utilize low-quantity detected edges as sketches, we study the exemplar-based sketch-to-image (s2i) synthesis task in a self-supervised learning manner, eliminating the necessity of the paired sketch data. To this end, we first propose an unsupervised method to efficiently synthesize line-sketches for general RGB-only datasets. With the synthetic paired-data, we then present a self-supervised Auto-Encoder (AE) to decouple the content/style features from sketches and RGB-images, and synthesize images that are both content-faithful to the sketches and style-consistent to the RGB-images. While prior works employ either the cycle-consistence loss or dedicated attentional modules to enforce the content/style fidelity, we show AE's superior performance with pure self-supervisions. To further improve the synthesis quality in high resolution, we also leverage an adversarial network to refine the details of synthetic images. Extensive experiments on 1024*1024 resolution demonstrate a new state-of-art-art performance of the proposed model on CelebA-HQ and Wiki-Art datasets. Moreover, with the proposed sketch generator, the model shows a promising performance on style mixing and style transfer, which require synthesized images to be both style-consistent and semantically meaningful. Our code is available on https://github.com/odegeasslbc/Self-Supervised-Sketch-to-Image-Synthesis-PyTorch, and please visit https://create.playform.io/my-projects?mode=sketch for an online demo of our model.
翻訳日:2021-05-03 02:44:44 公開日:2020-12-22
# PC-RGNN:3次元物体検出のためのポイントクラウド補完とグラフニューラルネットワーク

PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection ( http://arxiv.org/abs/2012.10412v3 )

ライセンス: Link先を確認
Yanan Zhang, Di Huang, Yunhong Wang(参考訳) LiDARベースの3Dオブジェクト検出は、自律走行にとって重要なタスクであり、現在のアプローチは、遠方および隠蔽された物体のスパースと部分点雲に悩まされている。 本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。 一方,高密度点の高品質な提案と,原構造を保存した全体像を復元する点雲補完モジュールを導入する。 一方、グラフニューラルネットワークモジュールは、局所的グローバルアテンション機構と多スケールのグラフベースのコンテキストアグリゲーションを通じてポイント間の関係を包括的に捉え、エンコードされた特徴を大幅に強化する。 KITTIベンチマークの大規模な実験は、提案手法が従来の最先端のベースラインを顕著なマージンで上回り、その有効性を強調していることを示している。

LiDAR-based 3D object detection is an important task for autonomous driving and current approaches suffer from sparse and partial point clouds of distant and occluded objects. In this paper, we propose a novel two-stage approach, namely PC-RGNN, dealing with such challenges by two specific solutions. On the one hand, we introduce a point cloud completion module to recover high-quality proposals of dense points and entire views with original structures preserved. On the other hand, a graph neural network module is designed, which comprehensively captures relations among points through a local-global attention mechanism as well as multi-scale graph based context aggregation, substantially strengthening encoded features. Extensive experiments on the KITTI benchmark show that the proposed approach outperforms the previous state-of-the-art baselines by remarkable margins, highlighting its effectiveness.
翻訳日:2021-05-01 18:09:57 公開日:2020-12-22
# (参考訳) 新型コロナウイルスのパンデミック:社会経済と健康格差

The COVID-19 pandemic: socioeconomic and health disparities ( http://arxiv.org/abs/2012.11399v2 )

ライセンス: CC BY 4.0
Behzad Javaheri(参考訳) 新型コロナウイルス(covid-19)のパンデミックで、世界中の不利なグループが死亡率を高めている。 この相違は、社会経済的および健康関連要因が疾患の結果の不平等を引き起こす可能性を示唆している。 これらの要因をLancet COVID-19の結果に関連付けるために、Lancet COVID-19 Commissionが提供する国別集計データを相関分析した。 社会経済および健康関連変数は、隆起回帰モデルと極端な勾配上昇(XGBoost)モデルを用いて、最上位5カ国の死亡率を予測するために用いられた。 以上の結果から,人口動態や社会的不利に関連する予測因子は,covid-19の死亡率と相関し,xgboostはリッジ回帰よりも良好であった。 総じて,現在のパンデミックの健康影響はウイルス感染の無差別な影響に留まらず,既存の健康と社会経済的不平等に基づいてこれらの予防効果が増幅されることが示唆された。

Disadvantaged groups around the world have suffered and endured higher mortality during the current COVID-19 pandemic. This contrast disparity suggests that socioeconomic and health-related factors may drive inequality in disease outcome. To identify these factors correlated with COVID-19 outcome, country aggregate data provided by the Lancet COVID-19 Commission subjected to correlation analysis. Socioeconomic and health-related variables were used to predict mortality in the top 5 most affected countries using ridge regression and extreme gradient boosting (XGBoost) models. Our data reveal that predictors related to demographics and social disadvantage correlate with COVID-19 mortality per million and that XGBoost performed better than ridge regression. Taken together, our findings suggest that the health consequence of the current pandemic is not just confined to indiscriminate impact of a viral infection but that these preventable effects are amplified based on pre-existing health and socioeconomic inequalities.
翻訳日:2021-04-27 12:49:15 公開日:2020-12-22
# ブラックボックス条件下での進化的多目的最適化を用いた音声認識における無調整逆例生成

Adjust-free adversarial example generation in speech recognition using evolutionary multi-objective optimization under black-box condition ( http://arxiv.org/abs/2012.11138v2 )

ライセンス: Link先を確認
Shoma Ishida, Satoshi Ono(参考訳) 本稿では,自動音声認識システムに対するブラックボックス攻撃手法を提案する。 音声認識のためにニューラルネットワークを攻撃しようとする研究もあるが、これらの手法は、ターゲット音声のタイミングラグに対して生成された対向例の頑健さを考慮しなかった。 提案手法は進化的多目的最適化(EMO)を採用し,ブラックボックスシナリオ下で頑健な逆例を生成する。 実験結果から,提案手法はタイミングラグに対して十分に頑健であり,攻撃者がターゲット音声に対してタイミングを取らなくてもよいような,調整不要な逆例を生成することができた。

This paper proposes a black-box adversarial attack method to automatic speech recognition systems. Some studies have attempted to attack neural networks for speech recognition; however, these methods did not consider the robustness of generated adversarial examples against timing lag with a target speech. The proposed method in this paper adopts Evolutionary Multi-objective Optimization (EMO)that allows it generating robust adversarial examples under black-box scenario. Experimental results showed that the proposed method successfully generated adjust-free adversarial examples, which are sufficiently robust against timing lag so that an attacker does not need to take the timing of playing it against the target speech.
翻訳日:2021-04-27 06:23:50 公開日:2020-12-22
# (参考訳) アルツハイマー病早期予測のための人工知能技術の検討

A Review of Artificial Intelligence Technologies for Early Prediction of Alzheimer's Disease ( http://arxiv.org/abs/2101.01781v1 )

ライセンス: CC BY-SA 4.0
Kuo Yang, Emad A. Mohammed(参考訳) アルツハイマー病(英: Alzheimer's Disease、AD)は、記憶と脳機能を破壊する重度の脳疾患である。 ADは慢性的に、進行的に、そして不可逆的に認知の低下と脳の損傷を引き起こす。 早期認知症の信頼性と効果的な評価は, 医用画像技術やコンピュータ支援アルゴリズムに欠かせない研究となっている。 この傾向は、画像分類と自然言語処理におけるディープラーニングの成功を動機とする現代の人工知能(ai)技術に移っている。 本研究の目的は,認知症診断におけるディープラーニングアルゴリズムに関する最新の研究の概要,adの初期段階の診断,および本研究の展望について考察することである。 本稿では、畳み込みニューラルネットワーク(cnn)、リカレントニューラルネットワーク(rnn)、自動画像セグメンテーション、オートエンコーダ、グラフcnn(gcn)、アンサンブル学習、転送学習など、ad診断における現代のaiアルゴリズムのさまざまな応用を紹介する。 提案手法の利点と欠点とその性能について論じる。 結論は、レビュー研究に応用された主な貢献と医用画像前処理技術についてまとめたものである。 最後に,限界と今後の展望について論じる。

Alzheimer's Disease (AD) is a severe brain disorder, destroying memories and brain functions. AD causes chronically, progressively, and irreversibly cognitive declination and brain damages. The reliable and effective evaluation of early dementia has become essential research with medical imaging technologies and computer-aided algorithms. This trend has moved to modern Artificial Intelligence (AI) technologies motivated by deeplearning success in image classification and natural language processing. The purpose of this review is to provide an overview of the latest research involving deep-learning algorithms in evaluating the process of dementia, diagnosing the early stage of AD, and discussing an outlook for this research. This review introduces various applications of modern AI algorithms in AD diagnosis, including Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Automatic Image Segmentation, Autoencoder, Graph CNN (GCN), Ensemble Learning, and Transfer Learning. The advantages and disadvantages of the proposed methods and their performance are discussed. The conclusion section summarizes the primary contributions and medical imaging preprocessing techniques applied in the reviewed research. Finally, we discuss the limitations and future outlooks.
翻訳日:2021-04-27 04:22:51 公開日:2020-12-22
# (参考訳) パッシブWi-Fiセンシング軌道データの多視点クラスタリング

Multiple-Perspective Clustering of Passive Wi-Fi Sensing Trajectory Data ( http://arxiv.org/abs/2012.11796v1 )

ライセンス: CC0 1.0
Zann Koh, Yuren Zhou, Billy Pik Lik Lau, Chau Yuen, Bige Tuncer, and Keng Hua Chong(参考訳) 都市環境における人間の時空間的流れに関する情報は、広く応用されている。 現在、このようなデータ収集には多くの異なるアプローチがありますが、分析する標準的なフレームワークがありません。 本稿では,受動的Wi-Fiセンシングにより収集したデータの解析に焦点をあてる。 本研究では,非教師付き機械学習手法であるk-meansクラスタリングと階層的凝集クラスタリング(hac)を用いて,受動型wi-fiスニッフィング法を用いて収集したデータを分析するシステム的アプローチを提案する。 本研究では,データクラスタリングの3つの側面(時間別,個人別,場所別)について検討し,提案手法を5ヶ月以上にわたって収集した実世界データセットに適用して得られた結果を示す。

Information about the spatiotemporal flow of humans within an urban context has a wide plethora of applications. Currently, although there are many different approaches to collect such data, there lacks a standardized framework to analyze it. The focus of this paper is on the analysis of the data collected through passive Wi-Fi sensing, as such passively collected data can have a wide coverage at low cost. We propose a systematic approach by using unsupervised machine learning methods, namely k-means clustering and hierarchical agglomerative clustering (HAC) to analyze data collected through such a passive Wi-Fi sniffing method. We examine three aspects of clustering of the data, namely by time, by person, and by location, and we present the results obtained by applying our proposed approach on a real-world dataset collected over five months.
翻訳日:2021-04-27 03:34:02 公開日:2020-12-22
# (参考訳) APIK:部分微分方程式を用いたアクティブ物理インフォームド・クリグモデル

APIK: Active Physics-Informed Kriging Model with Partial Differential Equations ( http://arxiv.org/abs/2012.11798v1 )

ライセンス: CC BY 4.0
Jialei Chen, Zhehui Chen, Chuck Zhang, C. F. Jeff Wu(参考訳) kriging(またはgaussian process regression)は、その柔軟性と閉形式予測式のための一般的な機械学習手法である。 しかし, 工学系への適用における重要な課題の1つは, 測定限界や高感度コストのため, 利用可能な測定データが不足している点である。 一方、工学系の物理的知識はしばしば利用可能であり、偏微分方程式(PDE)の形で表される。 本研究はPDEインフォームド・クリギング・モデル(PIK)で,PDE点の集合を通じてPDE情報を導入し,標準クリギング法と同様の後方予測を行う。 提案するpikモデルは線形および非線形pdesの物理知識を組み込むことができる。 そこで本研究では,PDEポイントを設計し,PIKモデルと測定データに基づいてPDE情報を活用する能動PIKフレームワーク(APIK)を提案する。 選択されたPDEポイントは、入力空間全体を探索するだけでなく、予測の不確実性を低減するためにPDE情報が重要となる場所を利用する。 最後にパラメータ推定のための期待最大化アルゴリズムを開発した。 衝撃波ケーススタディとレーザー加熱ケーススタディの2つの合成例において, APIKの有効性を実証した。

Kriging (or Gaussian process regression) is a popular machine learning method for its flexibility and closed-form prediction expressions. However, one of the key challenges in applying kriging to engineering systems is that the available measurement data is scarce due to the measurement limitations and high sensing costs. On the other hand, physical knowledge of the engineering system is often available and represented in the form of partial differential equations (PDEs). We present in this work a PDE Informed Kriging model (PIK), which introduces PDE information via a set of PDE points and conducts posterior prediction similar to the standard kriging method. The proposed PIK model can incorporate physical knowledge from both linear and nonlinear PDEs. To further improve learning performance, we propose an Active PIK framework (APIK) that designs PDE points to leverage the PDE information based on the PIK model and measurement data. The selected PDE points not only explore the whole input space but also exploit the locations where the PDE information is critical in reducing predictive uncertainty. Finally, an expectation-maximization algorithm is developed for parameter estimation. We demonstrate the effectiveness of APIK in two synthetic examples, a shock wave case study, and a laser heating case study.
翻訳日:2021-04-27 03:09:25 公開日:2020-12-22
# (参考訳) To Talk or to work: Flexible Communication Compression for Energy Efficient Federated Learning over Heterogeneous Mobile Edge Devices

To Talk or to Work: Flexible Communication Compression for Energy Efficient Federated Learning over Heterogeneous Mobile Edge Devices ( http://arxiv.org/abs/2012.11804v1 )

ライセンス: CC BY 4.0
Liang Li, Dian Shi, Ronghui Hou, Hui Li, Miao Pan, Zhu Han(参考訳) 機械学習、無線通信、モバイルハードウェア技術の最近の進歩は、大規模なモバイルエッジデバイス上での連合学習(fl)を可能にすることを約束している。 潜在的なメリットにもかかわらず、flは定期的なグローバル同期と継続的なローカルトレーニングのために、参加デバイスに膨大な通信と計算負荷を課し、バッテリ制約のあるモバイルデバイスに大きな課題を提起している。 本研究では,モバイルエッジネットワーク上でのFLのエネルギー効率向上を目標とし,学習性能を犠牲にすることなく,不均一な参加デバイスに対応する。 そこで我々は,フレキシブルな通信圧縮を実現する収束保証FLアルゴリズムを開発した。 導出収束境界によって導かれる圧縮制御スキームを設計し、長期学習の観点からローカルコンピューティング(ワークリング)と無線通信(トーキング)のエネルギー消費のバランスをとる。 特に、FL参加者が計算および通信環境に適応するために、圧縮パラメータを精巧に選択する。 提案手法の有効性を検証するために, 様々なデータセットを用いて大規模シミュレーションを行い, 提案手法の有効性を実証した。

Recent advances in machine learning, wireless communication, and mobile hardware technologies promisingly enable federated learning (FL) over massive mobile edge devices, which opens new horizons for numerous intelligent mobile applications. Despite the potential benefits, FL imposes huge communication and computation burdens on participating devices due to periodical global synchronization and continuous local training, raising great challenges to battery constrained mobile devices. In this work, we target at improving the energy efficiency of FL over mobile edge networks to accommodate heterogeneous participating devices without sacrificing the learning performance. To this end, we develop a convergence-guaranteed FL algorithm enabling flexible communication compression. Guided by the derived convergence bound, we design a compression control scheme to balance the energy consumption of local computing (i.e., "working") and wireless communication (i.e., "talking") from the long-term learning perspective. In particular, the compression parameters are elaborately chosen for FL participants adapting to their computing and communication environments. Extensive simulations are conducted using various datasets to validate our theoretical analysis, and the results also demonstrate the efficacy of the proposed scheme in energy saving.
翻訳日:2021-04-27 02:26:22 公開日:2020-12-22
# (参考訳) NetReAct: ネットワーク要約のための対話型学習

NetReAct: Interactive Learning for Network Summarization ( http://arxiv.org/abs/2012.11821v1 )

ライセンス: CC BY 4.0
Sorour E. Amiri, Bijaya Adhikari, John Wenskovitch, Alexander Rodriguez, Michelle Dowling, Chris North, and B. Aditya Prakash(参考訳) 有用なネットワーク要約を生成することは、センスメイキング、視覚化、圧縮といったいくつかのアプリケーションにおいて、困難で重要な問題である。 しかし、この分野での現在の作業のほとんどは、要約を生成しながら人間のフィードバックを考慮に入れていない。 分析者が文書間の類似性ネットワークを探索するインテリジェンス分析シナリオを考えてみましょう。 アナリストは、反復的なフィードバックによってネットワークサマリーを視覚化することで、自身の合意/不一致を表現できる。 ドキュメント(ノード)を一緒に閉じたり移動したりする。 このフィードバックを使って、ネットワークの要約品質をどのように改善できるでしょうか? 本稿では,テキストコーパスによって引き起こされるネットワークの可視化を支援する対話型ネットワーク要約アルゴリズムであるnetreactを提案する。 NetReActは、人間からのフィードバックと強化学習を組み込んで、ドキュメントネットワークを要約し視覚化する。 2つのデータセットのシナリオを使用して、NetReActが、他の非自明なベースラインよりも隠されたパターンを明らかにする高品質な要約と視覚化を生成することに成功していることを示す。

Generating useful network summaries is a challenging and important problem with several applications like sensemaking, visualization, and compression. However, most of the current work in this space do not take human feedback into account while generating summaries. Consider an intelligence analysis scenario, where the analyst is exploring a similarity network between documents. The analyst can express her agreement/disagreement with the visualization of the network summary via iterative feedback, e.g. closing or moving documents ("nodes") together. How can we use this feedback to improve the network summary quality? In this paper, we present NetReAct, a novel interactive network summarization algorithm which supports the visualization of networks induced by text corpora to perform sensemaking. NetReAct incorporates human feedback with reinforcement learning to summarize and visualize document networks. Using scenarios from two datasets, we show how NetReAct is successful in generating high-quality summaries and visualizations that reveal hidden patterns better than other non-trivial baselines.
翻訳日:2021-04-27 00:54:07 公開日:2020-12-22
# (参考訳) 深層強化学習を用いた密集loraネットワークにおける知的資源配分

Intelligent Resource Allocation in Dense LoRa Networks using Deep Reinforcement Learning ( http://arxiv.org/abs/2012.11867v1 )

ライセンス: CC BY 4.0
Inaam Ilahi, Muhammad Usama, Muhammad Omer Farooq, Muhammad Umar Janjua, and Junaid Qadir(参考訳) 今後数年間で期待されるIoTデバイスの数の増加は、消費電力を低く保ちながら、効率的な管理を支援する効率的なアルゴリズムの開発を動機付けている。 本稿では,loradrlを提案し,詳細な性能評価を行う。 LoRaDRLのマルチチャネル方式を提案する。 その結果,提案アルゴリズムは長距離広帯域ネットワーク(LoRaWAN)のパケット配信率(PDR)を大幅に向上するだけでなく,移動端末(ED)を低消費電力でサポートできることを示した。 これまでのほとんどの研究は、ネットワーク容量を改善するために異なるMACプロトコルを提案することに重点を置いていた。 また,LoRaDRLを用いることで,複雑度をゲートウェイに移行した上で,ALOHAと同等の効率を実現できることを示す。 さらに,大規模な周波数ジャミング攻撃によるLoRaDRLの性能試験を行い,環境変化に対する適応性を示す。 また,LoRaDRLの出力により最先端技術の性能が向上し,学習ベース技術と比較してPDRの500%以上の改善が見られた。

The anticipated increase in the count of IoT devices in the coming years motivates the development of efficient algorithms that can help in their effective management while keeping the power consumption low. In this paper, we propose LoRaDRL and provide a detailed performance evaluation. We propose a multi-channel scheme for LoRaDRL. We perform extensive experiments, and our results demonstrate that the proposed algorithm not only significantly improves long-range wide area network (LoRaWAN)'s packet delivery ratio (PDR) but is also able to support mobile end-devices (EDs) while ensuring lower power consumption. Most previous works focus on proposing different MAC protocols for improving the network capacity. We show that through the use of LoRaDRL, we can achieve the same efficiency with ALOHA while moving the complexity from EDs to the gateway thus making the EDs simpler and cheaper. Furthermore, we test the performance of LoRaDRL under large-scale frequency jamming attacks and show its adaptiveness to the changes in the environment. We show that LoRaDRL's output improves the performance of state-of-the-art techniques resulting in some cases an improvement of more than 500% in terms of PDR compared to learning-based techniques.
翻訳日:2021-04-27 00:17:26 公開日:2020-12-22
# (参考訳) 言語モデルファインチューニングの有効性を説明する内在次元性

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ( http://arxiv.org/abs/2012.13255v1 )

ライセンス: CC BY 4.0
Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta(参考訳) 事前学習された言語モデルは、非常に幅広い言語理解タスクに対して最先端の結果を生成するように微調整することができるが、このプロセスのダイナミクスは特に低データ構造においてよく理解されていない。 なぜ比較的バニラ勾配勾配アルゴリズム(例えば、強い正規化なしで)を使って、数億から数千というラベル付きサンプルしか持たないデータセット上の数億のパラメータを持つモデルをチューニングできるのか? 本稿では,内在次元のレンズによる微調整を解析することで,この現象を説明するための経験的,理論的直観が得られることを論じる。 実験によって、一般的な事前学習モデルは非常に低い内在次元を持つことが示され、言い換えれば、完全なパラメータ空間のように微調整に有効である低次元のパラメータ化が存在する。 例えば、トレーニング可能なパラメータを200個だけランダムに全空間に投影することで、RoBERTaモデルをチューニングして、MRPCの完全なパラメータパフォーマンスの90%を達成することができます。 さらに,事前学習が内在的な次元を暗黙的に最小化していること,そして,おそらく驚くべきことに,より大きいモデルでは,少なくともその極端な効果を説明するために,一定数の事前学習後の内在的次元が低くなる傾向があることを実証的に示す。 最後に、本質的次元を低次元のタスク表現と圧縮に基づく一般化境界に結びつけ、全パラメータ数に依存しない本質的次元に基づく一般化境界を提供する。

Although pretrained language models can be fine-tuned to produce state-of-the-art results for a very wide range of language understanding tasks, the dynamics of this process are not well understood, especially in the low data regime. Why can we use relatively vanilla gradient descent algorithms (e.g., without strong regularization) to tune a model with hundreds of millions of parameters on datasets with only hundreds or thousands of labeled examples? In this paper, we argue that analyzing fine-tuning through the lens of intrinsic dimension provides us with empirical and theoretical intuitions to explain this remarkable phenomenon. We empirically show that common pre-trained models have a very low intrinsic dimension; in other words, there exists a low dimension reparameterization that is as effective for fine-tuning as the full parameter space. For example, by optimizing only 200 trainable parameters randomly projected back into the full space, we can tune a RoBERTa model to achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we empirically show that pre-training implicitly minimizes intrinsic dimension and, perhaps surprisingly, larger models tend to have lower intrinsic dimension after a fixed number of pre-training updates, at least in part explaining their extreme effectiveness. Lastly, we connect intrinsic dimensionality with low dimensional task representations and compression based generalization bounds to provide intrinsic-dimension-based generalization bounds that are independent of the full parameter count.
翻訳日:2021-04-27 00:02:56 公開日:2020-12-22
# (参考訳) データ不均衡問題の分類と解決方法に関する調査研究

A Survey of Methods for Managing the Classification and Solution of Data Imbalance Problem ( http://arxiv.org/abs/2012.11870v1 )

ライセンス: CC BY 4.0
Khan Md. Hasib, Md. Sadiq Iqbal, Faisal Muhammad Shah, Jubayer Al Mahmud, Mahmudul Hasan Popel, Md. Imran Hossain Showrov, Shakil Ahmed, Obaidur Rahman(参考訳) クラス不均衡の問題は、現実世界の多くのアプリケーションに焦点を当てるために広範囲に及んでいる。 このような場合、ほとんどすべての例が majority クラスと呼ばれる1つのクラスとしてラベル付けされるが、他のクラスとしてラベル付けされる例は通常より少ないが、より重要なクラスは minor と呼ばれる。 ここ数年、データサンプリング、コスト感受性分析、遺伝的プログラミングに基づくモデル、バッグング、ブースティングなど、クラス不均衡の問題に関するいくつかの研究が実施されてきた。 しかし,本調査では,2003年,2008年,2010年,2012年,2014年と2019年の24つの関連研究を列挙し,単一・ハイブリッド・アンサンブル方式設計のアーキテクチャに着目し,クラス不均衡の問題を解決する機械学習技術における分類出力の改善の現状について考察した。 本調査では,様々な手法による分類アルゴリズムの統計的解析や,いくつかの実験条件,および異なる研究論文で使用されるデータセットについても述べる。

The problem of class imbalance is extensive for focusing on numerous applications in the real world. In such a situation, nearly all of the examples are labeled as one class called majority class, while far fewer examples are labeled as the other class usually, the more important class is called minority. Over the last few years, several types of research have been carried out on the issue of class imbalance, including data sampling, cost-sensitive analysis, Genetic Programming based models, bagging, boosting, etc. Nevertheless, in this survey paper, we enlisted the 24 related studies in the years 2003, 2008, 2010, 2012 and 2014 to 2019, focusing on the architecture of single, hybrid, and ensemble method design to understand the current status of improving classification output in machine learning techniques to fix problems with class imbalances. This survey paper also includes a statistical analysis of the classification algorithms under various methods and several other experimental conditions, as well as datasets used in different research papers.
翻訳日:2021-04-26 23:50:41 公開日:2020-12-22
# (参考訳) デジタル・ミーオントロジーと倫理

Digital me ontology and ethics ( http://arxiv.org/abs/2012.14325v1 )

ライセンス: CC BY 4.0
Ljupco Kocarev and Jasna Koteska(参考訳) 本稿では、デジタルミーと呼ばれるAIエージェントのオントロジーと倫理について述べる。 デジタル・ミーを自律的、意思決定的、学習エージェントとして定義し、個人を表現し、事実上不死の人生を持つ。 デジタルミーは大きな5つのパーソナリティモデルを備えており、意識、自由意志、意図といった強いAIのいくつかの側面のモデルを提供すると仮定されている。 As computer-based personality judgments are more accurate than those made by humans, digital me can judge the personality of the individual represented by the digital me, other individuals' personalities, and other digital me-s. We describe seven ontological qualities of digital me: a) double-layer status of Digital Being versus digital me, b) digital me versus real me, c) mind-digital me and body-digital me, d) digital me versus doppelganger (shadow digital me), e) non-human time concept, f) social quality, g) practical immortality. 我々は、AIの科学と技術の進歩により、2つのデジタルミートしきい値が存在すると主張している。 第1のしきい値は、意識、自由意志、意図のいくつかの(段階的に)形式を持つデジタル私を定義する。 第2のしきい値は、デジタルミーは道徳的学習能力を備えており、原理的には、デジタルミーは人間の倫理に対する理解とは大きく異なる独自の倫理を発達させることができることを示唆している。 最後に,デジタルミートメタ倫理,規範的・適用的倫理,デジタルミートにおける黄金律の実践,およびデジタルミートに対する規範的原則の2つのセット,すなわち連続主義と義務に基づくデジタルミート原理を提案する。

This paper addresses ontology and ethics of an AI agent called digital me. We define digital me as autonomous, decision-making, and learning agent, representing an individual and having practically immortal own life. It is assumed that digital me is equipped with the big-five personality model, ensuring that it provides a model of some aspects of a strong AI: consciousness, free will, and intentionality. As computer-based personality judgments are more accurate than those made by humans, digital me can judge the personality of the individual represented by the digital me, other individuals' personalities, and other digital me-s. We describe seven ontological qualities of digital me: a) double-layer status of Digital Being versus digital me, b) digital me versus real me, c) mind-digital me and body-digital me, d) digital me versus doppelganger (shadow digital me), e) non-human time concept, f) social quality, g) practical immortality. We argue that with the advancement of AI's sciences and technologies, there exist two digital me thresholds. The first threshold defines digital me having some (rudimentarily) form of consciousness, free will, and intentionality. The second threshold assumes that digital me is equipped with moral learning capabilities, implying that, in principle, digital me could develop their own ethics which significantly differs from human's understanding of ethics. Finally we discuss the implications of digital me metaethics, normative and applied ethics, the implementation of the Golden Rule in digital me-s, and we suggest two sets of normative principles for digital me: consequentialist and duty based digital me principles.
翻訳日:2021-04-26 23:33:14 公開日:2020-12-22
# (参考訳) 胸部X線データを用いた胸部気胸自動診断のためのハイブリッドVDVモデル

A Hybrid VDV Model for Automatic Diagnosis of Pneumothorax using Class-Imbalanced Chest X-rays Dataset ( http://arxiv.org/abs/2012.11911v1 )

ライセンス: CC BY 4.0
Tahira Iqbal, Arslan Shaukat, Usman Akram, Zartasha Mustansar and Yung-Cheol Byun(参考訳) 生命を脅かす疾患である気胸は、迅速かつ効率的に診断する必要がある。 この場合の予後は時間を消費するだけでなく、人間の誤りも生じやすい。 そのため、胸部X線による自動診断が最優先事項である。 現在利用可能な医療画像データセットのほとんどは、クラスバランスの問題を抱えている。 本研究の主なテーマは気胸の自動検出法の提案とともにこの問題を解決することである。 まず、クラス不均衡の問題に対処するための既存のアプローチを比較し、データレベルのアンサンブルを見つけます。 データセットのサブセットのアンサンブル)は他のアプローチよりも優れています。 そこで本研究では,VGG16,VGG-19,DenseNet-121といった3つの畳み込みニューラルネットワークを固定特徴抽出器として用いた,複雑なデータレベルのアンサンブルであるVDVモデルを提案する。 予め定義されたCNNの1つから抽出された各データレベルアンサンブル特徴をベクトルマシン(SVM)分類器に供給し、投票方法を用いて各データレベルアンサンブルから出力を算出する。 3つの異なるCNNアーキテクチャを持つ3つのデータレベルアンサンブルから出力を得ると、再度投票法を用いて最終的な予測を計算する。 提案手法はSIIM ACR Pneumothorax データセットと NIH Chest X-ray データセットのランダムサンプルを用いて検証した。 第1のデータセットでは、受信者動作特性曲線(auc)の下85.17%の領域をリコールする。 第2のデータセットでは、95.0%のAUCで90.9%のリコールがランダムなデータ分割で達成され、85.45%のリコールと77.06%のAUCで患者のデータ分割によって得られる。 RS-NIHの場合,得られた結果は文献による結果と比較して高いが,第1のデータセットでは,このデータセットはPneumothorax分類に使用されていないため,直接比較はできない。

Pneumothorax, a life threatening disease, needs to be diagnosed immediately and efficiently. The prognosis in this case is not only time consuming but also prone to human errors. So an automatic way of accurate diagnosis using chest X-rays is the utmost requirement. To-date, most of the available medical images datasets have class-imbalance issue. The main theme of this study is to solve this problem along with proposing an automated way of detecting pneumothorax. We first compare the existing approaches to tackle the class-imbalance issue and find that data-level-ensemble (i.e. ensemble of subsets of dataset) outperforms other approaches. Thus, we propose a novel framework named as VDV model, which is a complex model-level-ensemble of data-level-ensembles and uses three convolutional neural networks (CNN) including VGG16, VGG-19 and DenseNet-121 as fixed feature extractors. In each data-level-ensemble features extracted from one of the pre-defined CNN are fed to support vector machine (SVM) classifier, and output from each data-level-ensemble is calculated using voting method. Once outputs from the three data-level-ensembles with three different CNN architectures are obtained, then, again, voting method is used to calculate the final prediction. Our proposed framework is tested on SIIM ACR Pneumothorax dataset and Random Sample of NIH Chest X-ray dataset (RS-NIH). For the first dataset, 85.17% Recall with 86.0% Area under the Receiver Operating Characteristic curve (AUC) is attained. For the second dataset, 90.9% Recall with 95.0% AUC is achieved with random split of data while 85.45% recall with 77.06% AUC is obtained with patient-wise split of data. For RS-NIH, the obtained results are higher as compared to previous results from literature However, for first dataset, direct comparison cannot be made, since this dataset has not been used earlier for Pneumothorax classification.
翻訳日:2021-04-26 23:11:27 公開日:2020-12-22
# (参考訳) ディープニューラルネットワークの限界--G. Marcusによるディープラーニング批判的評価の議論

Limitations of Deep Neural Networks: a discussion of G. Marcus' critical appraisal of deep learning ( http://arxiv.org/abs/2012.15754v1 )

ライセンス: CC BY 4.0
Stefanos Tsimenidis(参考訳) 深層ニューラルネットワークは、医療画像、半自律車、電子商取引、遺伝学、音声認識、素粒子物理学、実験的芸術、経済予測、環境科学、産業生産、そしてほぼあらゆる分野における幅広い応用において、大きな成果を生んだ人工知能の革命のきっかけとなった。 しかし、この突然の成功は研究コミュニティを酔わせ、深層学習を保証されたよりも高い地位に割り当てる潜在的な落とし穴に彼らを盲目にしたかもしれない。 また、深層学習の弱点を和らげる研究は、深層学習モデルにますます多くの応用方法を見つけるという、低速な成果に焦点を当てている科学者やエンジニアにとって、あまり魅力的ではないように思える。 ゲイリー・マーカスはdeep learning: a critical appraisalと題する論文を書き、マーカスの核となるアイデアについて論じた。 本研究は、深層ニューラルネットワークの限界のいくつかを調査し、将来の研究のための潜在的な経路を指し示し、多くの研究者が保持するメタフィジカルな誤解を解消することを目的としている。

Deep neural networks have triggered a revolution in artificial intelligence, having been applied with great results in medical imaging, semi-autonomous vehicles, ecommerce, genetics research, speech recognition, particle physics, experimental art, economic forecasting, environmental science, industrial manufacturing, and a wide variety of applications in nearly every field. This sudden success, though, may have intoxicated the research community and blinded them to the potential pitfalls of assigning deep learning a higher status than warranted. Also, research directed at alleviating the weaknesses of deep learning may seem less attractive to scientists and engineers, who focus on the low-hanging fruit of finding more and more applications for deep learning models, thus letting short-term benefits hamper long-term scientific progress. Gary Marcus wrote a paper entitled Deep Learning: A Critical Appraisal, and here we discuss Marcus' core ideas, as well as attempt a general assessment of the subject. This study examines some of the limitations of deep neural networks, with the intention of pointing towards potential paths for future research, and of clearing up some metaphysical misconceptions, held by numerous researchers, that may misdirect them.
翻訳日:2021-04-26 22:54:01 公開日:2020-12-22
# (参考訳) ビデオジョブインタビューにおける回答文の自動表示のための階層型推論グラフニューラルネットワーク

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews ( http://arxiv.org/abs/2012.11960v1 )

ライセンス: CC BY 4.0
Kai Chen, Meng Niu, Qingcai Chen(参考訳) 本稿では,非同期ビデオジョブインタビュー(AVI)における自動音声認識(ASR)の書き起こしから,テキストの特徴に基づいて候補者の能力を自動的に評価するタスクに対処する。 重要な課題は、質問と回答間の依存関係関係を構築し、各質問-回答(QA)ペアに対して意味レベルの相互作用を実行する方法である。 しかしながら、AVIにおける最近の研究のほとんどは、質問や回答をより良く表現する方法に焦点を当てているが、依存情報やそれら間の相互作用は無視している。 本研究では,質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。 具体的には,質問と回答の文の係り受け情報を取得するために,文レベルの関係グラフニューラルネットワークを構築した。 これらのグラフに基づいて,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを用いる。 最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。 chnat(real-world dataset)で実施した実験結果は,提案モデルがテキストマッチングベースのベンチマークモデルを大幅に上回っていることを確認した。 10個のランダム種子を用いたアブレーション研究と実験結果からも,本モデルの有効性と安定性が示された。

We address the task of automatically scoring the competency of candidates based on textual features, from the automatic speech recognition (ASR) transcriptions in the asynchronous video job interview (AVI). The key challenge is how to construct the dependency relation between questions and answers, and conduct the semantic level interaction for each question-answer (QA) pair. However, most of the recent studies in AVI focus on how to represent questions and answers better, but ignore the dependency information and interaction between them, which is critical for QA evaluation. In this work, we propose a Hierarchical Reasoning Graph Neural Network (HRGNN) for the automatic assessment of question-answer pairs. Specifically, we construct a sentence-level relational graph neural network to capture the dependency information of sentences in or between the question and the answer. Based on these graphs, we employ a semantic-level reasoning graph attention network to model the interaction states of the current QA session. Finally, we propose a gated recurrent unit encoder to represent the temporal question-answer pairs for the final prediction. Empirical results conducted on CHNAT (a real-world dataset) validate that our proposed model significantly outperforms text-matching based benchmark models. Ablation studies and experimental results with 10 random seeds also show the effectiveness and stability of our models.
翻訳日:2021-04-26 22:27:12 公開日:2020-12-22
# (参考訳) 非線形次元還元による教師なし機能データ解析

Unsupervised Functional Data Analysis via Nonlinear Dimension Reduction ( http://arxiv.org/abs/2012.11987v1 )

ライセンス: CC BY-SA 4.0
Moritz Herrmann and Fabian Scheipl(参考訳) 近年,次元減少のためのツールとして多様体法が注目されている。 高次元データが実際に低次元の非線形多様体上または近傍にあると仮定すると、これらの手法はいくつかの設定において説得力のある結果を示す。 この多様体の仮定は、しばしば関数データ、すなわち連続的に観測される関数を表すデータにも妥当である。 しかし,最近提案されたグラフデータや画像データに対する多様体法の性能は,関数データの場合,体系的に評価されていない。 また,そのような表現に対して,復元誤差を性能尺度として使用できないため,可逆写像を生じない組込みの品質評価方法については明らかでない。 本研究では,関数型データ設定によって生じる非線形次元低減の課題について記述し,検討する。 まず、機能的データコンテキストで発生する特定の課題を体系的に評価し、表や画像のデータに対していくつかの非線形次元還元法を機能的データに転送し、この設定で多様体法がうまく使えることを示す理論的枠組みを定義します。 第2に,いくつかの機能的データ設定に基づいて,性能評価とチューニング戦略を徹底的かつ体系的に評価し,組込み品質の信頼性判断を阻害する未定の弱点と落とし穴を指摘する。 第3に,競合しない組込みに対して,より客観的に信頼に値する決定を下すためのニュアンス的アプローチを提案する。

In recent years, manifold methods have moved into focus as tools for dimension reduction. Assuming that the high-dimensional data actually lie on or close to a low-dimensional nonlinear manifold, these methods have shown convincing results in several settings. This manifold assumption is often reasonable for functional data, i.e., data representing continuously observed functions, as well. However, the performance of manifold methods recently proposed for tabular or image data has not been systematically assessed in the case of functional data yet. Moreover, it is unclear how to evaluate the quality of learned embeddings that do not yield invertible mappings, since the reconstruction error cannot be used as a performance measure for such representations. In this work, we describe and investigate the specific challenges for nonlinear dimension reduction posed by the functional data setting. The contributions of the paper are three-fold: First of all, we define a theoretical framework which allows to systematically assess specific challenges that arise in the functional data context, transfer several nonlinear dimension reduction methods for tabular and image data to functional data, and show that manifold methods can be used successfully in this setting. Secondly, we subject performance assessment and tuning strategies to a thorough and systematic evaluation based on several different functional data settings and point out some previously undescribed weaknesses and pitfalls which can jeopardize reliable judgment of embedding quality. Thirdly, we propose a nuanced approach to make trustworthy decisions for or against competing nonconforming embeddings more objectively.
翻訳日:2021-04-26 12:46:46 公開日:2020-12-22
# (参考訳) 人間の言語を使わずに言語モデルを事前学習する

Pre-Training a Language Model Without Human Language ( http://arxiv.org/abs/2012.11995v1 )

ライセンス: CC BY 4.0
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では,事前学習データの本質的な性質が下流の微調整性能に与える影響について検討する。 この目的のために,特定の特徴を持つ複数のコーパス上で異なるトランスフォーマーベースのマスク付き言語モデルを事前訓練し,GLUEベンチマークでそれらの言語モデルを微調整する。 非構造化データで事前トレーニングされたモデルは、ダウンストリームタスクのスクラッチから直接トレーニングされたモデルを上回ることが分かりました。 また,構造化データの事前トレーニングによって,自然言語処理に移行可能なモデル獲得能力が必ずしも得られないことを示す。 驚くべきことに、特定の非人間の言語データに対する事前学習によって、GLUEのパフォーマンスが、他の非英語言語で事前訓練されたパフォーマンスに近くなることがわかった。

In this paper, we study how the intrinsic nature of pre-training data contributes to the fine-tuned downstream performance. To this end, we pre-train different transformer-based masked language models on several corpora with certain features, and we fine-tune those language models on GLUE benchmarks. We find that models pre-trained on unstructured data beat those trained directly from scratch on downstream tasks. Our results also show that pre-training on structured data does not always make the model acquire ability that can be transferred to natural language downstream tasks. To our great astonishment, we uncover that pre-training on certain non-human language data gives GLUE performance close to performance pre-trained on another non-English language.
翻訳日:2021-04-26 12:23:32 公開日:2020-12-22
# (参考訳) QVMixとQVMix-Max: 協調型マルチエージェント強化学習へのアルゴリズムの深い品質価値ファミリーの拡張

QVMix and QVMix-Max: Extending the Deep Quality-Value Family of Algorithms to Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.12062v1 )

ライセンス: CC BY 4.0
Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan Pisane, Matthia Sabatelli(参考訳) 本稿では,協調環境で発生するマルチエージェント強化学習(MARL)問題に対処するために,新しい4つのアルゴリズムを提案する。 すべてのアルゴリズムは、シングルエージェント強化学習問題(SARL)を扱う際に成功した一連の手法であるDeep Quality-Value (DQV)ファミリに基づいている。 DQVアルゴリズムの鍵となる考え方は、状態値関数 $V$ の近似と状態値関数 $Q$ の近似を共同で学習することである。 この原則に従い、分散実行訓練パラダイム(QVMixとQVMix-Max)を用いた集中学習に基づく2つの完全分散MARLアルゴリズム(IQVとIQV-Max)と2つのアルゴリズムを導入することにより、これらのアルゴリズムを一般化する。 我々は,このアルゴリズムを,スタークラフトマルチエージェントチャレンジ(SMAC)環境における最先端のMARL技術と比較した。 QVMix と QVMix-Max を QMIX や MAVEN といった有名な MARL 技術と比較すると,QVMix がテスト環境のいくつかよりも優れていることを示す。 これは、QVMixが$Q$関数の過大評価バイアスに苦しむことによるものであると仮定する。

This paper introduces four new algorithms that can be used for tackling multi-agent reinforcement learning (MARL) problems occurring in cooperative settings. All algorithms are based on the Deep Quality-Value (DQV) family of algorithms, a set of techniques that have proven to be successful when dealing with single-agent reinforcement learning problems (SARL). The key idea of DQV algorithms is to jointly learn an approximation of the state-value function $V$, alongside an approximation of the state-action value function $Q$. We follow this principle and generalise these algorithms by introducing two fully decentralised MARL algorithms (IQV and IQV-Max) and two algorithms that are based on the centralised training with decentralised execution training paradigm (QVMix and QVMix-Max). We compare our algorithms with state-of-the-art MARL techniques on the popular StarCraft Multi-Agent Challenge (SMAC) environment. We show competitive results when QVMix and QVMix-Max are compared to well-known MARL techniques such as QMIX and MAVEN and show that QVMix can even outperform them on some of the tested environments, being the algorithm which performs best overall. We hypothesise that this is due to the fact that QVMix suffers less from the overestimation bias of the $Q$ function.
翻訳日:2021-04-26 12:15:05 公開日:2020-12-22
# (参考訳) イベント駆動クエリの拡張

Event-Driven Query Expansion ( http://arxiv.org/abs/2012.12065v1 )

ライセンス: CC BY 4.0
Guy D. Rosin, Ido Guy, Kira Radinsky(参考訳) 相当数のイベント関連クエリがweb検索で発行される。 本稿では,イベントを活用し,クエリ拡張の古典的なタスクを対象とする検索性能の向上を目指す。 まず,関連するイベントを検知してイベント関連クエリを拡張する手法を提案する。 次に、クエリとイベントの両方に意味論的に関連する用語として拡張候補を導出する。 候補を同定するために,同じベクトル空間に単語やイベントを同時に埋め込む新しいメカニズムを利用する。 提案手法は,各種ニュースワイヤTRECデータセットの最先端手法と比較して,クエリ拡張性能を著しく向上することを示す。

A significant number of event-related queries are issued in Web search. In this paper, we seek to improve retrieval performance by leveraging events and specifically target the classic task of query expansion. We propose a method to expand an event-related query by first detecting the events related to it. Then, we derive the candidates for expansion as terms semantically related to both the query and the events. To identify the candidates, we utilize a novel mechanism to simultaneously embed words and events in the same vector space. We show that our proposed method of leveraging events improves query expansion performance significantly compared with state-of-the-art methods on various newswire TREC datasets.
翻訳日:2021-04-26 12:13:58 公開日:2020-12-22
# (参考訳) ディープニューラルネットワークを用いた慢性腎臓病の予測

Prediction of Chronic Kidney Disease Using Deep Neural Network ( http://arxiv.org/abs/2012.12089v1 )

ライセンス: CC BY 4.0
Iliyas Ibrahim Iliyas, Isah Rambo Saidu, Ali Baba Dauda, Suleiman Tasiu(参考訳) Deep Neural Network(DNN)は、機械学習研究の焦点になりつつある。 そのアプリケーションは様々な分野に浸透し、複雑で複雑な問題を解決する。 現在、DNNは、がんや糖尿病などの様々な疾患を検出するために、健康画像処理に応用されている。 私たちの健康を脅かすもう1つの病気は腎臓病です。 この病気は私たちが摂取する物質や要素によって広まりつつある。 死は、少なくとも1つの機能する腎臓なしで数日以内に差し迫っており、避けられない。 腎臓機能不全を無視すると、慢性腎臓病が死亡することがある。 慢性腎臓病(CKD)とその症状は軽度で緩やかであり、近年になってようやく認識されるようになった。 ナイジェリアのヨベ州の地方政府であるベイドは、CKDの流行により医療従事者にとって注目の的となっている。 残念ながら、病気を克服するための技術的アプローチはまだ達成されていない。 Bade General Hospitalから10属性の400人の患者をデータセットとして収集した。 DNNモデルを用いてCKDの有無を予測した。 このモデルは98%の精度で製造された。 さらに,ckdの予測に使用される特徴のランキングを提供する上で重要となる特徴を特定し強調した。 その結果、CretriinineとBicarbonateの2つの属性がCKD予測に最も影響していることが判明した。

Deep neural Network (DNN) is becoming a focal point in Machine Learning research. Its application is penetrating into different fields and solving intricate and complex problems. DNN is now been applied in health image processing to detect various ailment such as cancer and diabetes. Another disease that is causing threat to our health is the kidney disease. This disease is becoming prevalent due to substances and elements we intake. Death is imminent and inevitable within few days without at least one functioning kidney. Ignoring the kidney malfunction can cause chronic kidney disease leading to death. Frequently, Chronic Kidney Disease (CKD) and its symptoms are mild and gradual, often go unnoticed for years only to be realized lately. Bade, a Local Government of Yobe state in Nigeria has been a center of attention by medical practitioners due to the prevalence of CKD. Unfortunately, a technical approach in culminating the disease is yet to be attained. We obtained a record of 400 patients with 10 attributes as our dataset from Bade General Hospital. We used DNN model to predict the absence or presence of CKD in the patients. The model produced an accuracy of 98%. Furthermore, we identified and highlighted the Features importance to provide the ranking of the features used in the prediction of the CKD. The outcome revealed that two attributes; Creatinine and Bicarbonate have the highest influence on the CKD prediction.
翻訳日:2021-04-26 11:58:02 公開日:2020-12-22
# (参考訳) 水中画像フィルタリング : 方法, データセット, 評価

Underwater image filtering: methods, datasets and evaluation ( http://arxiv.org/abs/2012.12258v1 )

ライセンス: CC BY 4.0
Chau Yi Li, Riccardo Mazzon, Andrea Cavallaro(参考訳) 水中の画像は、色を歪めコントラストを減少させる光の選択的減衰によって劣化する。 分解度は、水の種類、被写体とカメラの間の距離、被写体が有する水面下の深さに依存する。 水中画像フィルタリングは、水中画像で捉えた物体の復元や外観の向上を目的としている。 復元法は実際の劣化を補うが、強調法は認識される画像品質またはコンピュータビジョンアルゴリズムの性能を改善する。 水中画像フィルタリング手法への関心の高まり - 修復と強化の両方に使用される学習ベースのアプローチを含む - と関連する課題は、最先端の総合的なレビューを要求する。 本稿では, 濾過法の設計原理を概観し, 劣化原因を解明するための基礎となる海洋学の背景を再検討する。 各種水型における画像形成モデルと復元結果について検討した。 さらに、ニューラルネットワークのトレーニングと手法評価のためのタスク依存強化手法とカテゴリデータセットを提案する。 最後に,主観評価や品質評価を含む評価戦略について考察する。 我々はこの調査を、最先端の水中フィルタリング手法をホストし、比較を容易にするプラットフォーム(https://puiqe.eecs.qmul.ac.uk/)で補完する。

Underwater images are degraded by the selective attenuation of light that distorts colours and reduces contrast. The degradation extent depends on the water type, the distance between an object and the camera, and the depth under the water surface the object is at. Underwater image filtering aims to restore or to enhance the appearance of objects captured in an underwater image. Restoration methods compensate for the actual degradation, whereas enhancement methods improve either the perceived image quality or the performance of computer vision algorithms. The growing interest in underwater image filtering methods--including learning-based approaches used for both restoration and enhancement--and the associated challenges call for a comprehensive review of the state of the art. In this paper, we review the design principles of filtering methods and revisit the oceanology background that is fundamental to identify the degradation causes. We discuss image formation models and the results of restoration methods in various water types. Furthermore, we present task-dependent enhancement methods and categorise datasets for training neural networks and for method evaluation. Finally, we discuss evaluation strategies, including subjective tests and quality assessment measures. We complement this survey with a platform ( https://puiqe.eecs.qmul.ac.uk/ ), which hosts state-of-the-art underwater filtering methods and facilitates comparisons.
翻訳日:2021-04-26 11:18:54 公開日:2020-12-22
# (参考訳) ランダム化実験設計のための精製境界

Refined bounds for randomized experimental design ( http://arxiv.org/abs/2012.15726v1 )

ライセンス: CC BY 4.0
Geovani Rizk and Igor Colin and Albert Thomas and Moez Draief(参考訳) 実験設計は、与えられた基準に対して最適な推定値を得るために、与えられたセットの中からサンプルを選択するアプローチである。 線形回帰の文脈では、いくつかの最適設計が導出され、それぞれ異なる基準である平均二乗誤差、ロバスト性、\emph{etc} と関連づけられている。 そのような設計の計算は一般にNPハード問題であり、サンプル上の確率分布を考慮した凸緩和に依存することができる。 グリージー戦略やラウンドリング手順は注目されているが,最適分布からの直接サンプリングはほとんど研究されていない。 本稿では, e および g の最適設計におけるランダム化戦略に関する理論的保証を提案する。 そこで本研究では,確率行列の固有値に対する新しい濃度不等式を内在次元の洗練されたバージョンを用いて開発し,そのようなランダム化戦略の性能を定量化する。 最後に, 実験による解析の有効性を実証し, 線形包帯の最適腕識別問題に適用したG最適設計に着目する。

Experimental design is an approach for selecting samples among a given set so as to obtain the best estimator for a given criterion. In the context of linear regression, several optimal designs have been derived, each associated with a different criterion: mean square error, robustness, \emph{etc}. Computing such designs is generally an NP-hard problem and one can instead rely on a convex relaxation that considers probability distributions over the samples. Although greedy strategies and rounding procedures have received a lot of attention, straightforward sampling from the optimal distribution has hardly been investigated. In this paper, we propose theoretical guarantees for randomized strategies on E and G-optimal design. To this end, we develop a new concentration inequality for the eigenvalues of random matrices using a refined version of the intrinsic dimension that enables us to quantify the performance of such randomized strategies. Finally, we evidence the validity of our analysis through experiments, with particular attention on the G-optimal design applied to the best arm identification problem for linear bandits.
翻訳日:2021-04-26 10:09:52 公開日:2020-12-22
# (参考訳) 過去の言葉を見よ:事前訓練V&Lモデルのクロスモーダル能力の検証

Seeing past words: Testing the cross-modal capabilities of pretrained V&L models ( http://arxiv.org/abs/2012.12352v1 )

ライセンス: CC BY 4.0
Letitia Parcalabescu and Albert Gatt and Anette Frank and Iacer Calixto(参考訳) 我々は,(1) 正しい画像文対を誤ったものと識別する,(2) 画像中のエンティティをカウントする,という2つのタスクにおいて,汎用的な事前学習ビジョンと言語V&Lモデルの推論を行う能力について検討する。 ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルを, ゼロショットおよび微調整設定で評価した。 その結果,すべてのモデルが事前学習にタスク(1)を使用しているため,期待どおりに,モデルがタスク(1)をうまく解くことが判明した。 しかしながら、事前訓練されたV&Lモデルはいずれもタスク(2)、カウントプローブを適切に解くことができず、分布外量には一般化できない。 本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。 画像文アライメントタスクにおけるLXMERTの結果(およびViLBERT 12-in-1で得られたものより少ない程度)は、このモデルが破滅的な忘れを生じさせる可能性を示唆している。 計数プローブの結果は、全てのモデルがデータセットバイアスの影響を受けており、視覚入力の実体を識別できないことを示す。

We investigate the ability of general-purpose pretrained vision and language V&L models to perform reasoning in two tasks that require multimodal integration: (1) discriminating a correct image-sentence pair from an incorrect one, and (2) counting entities in an image. We evaluate three pretrained V&L models on these tasks: ViLBERT, ViLBERT 12-in-1 and LXMERT, in zero-shot and finetuned settings. Our results show that models solve task (1) very well, as expected, since all models use task (1) for pretraining. However, none of the pretrained V&L models are able to adequately solve task (2), our counting probe, and they cannot generalise to out-of-distribution quantities. Our investigations suggest that pretrained V&L representations are less successful than expected at integrating the two modalities. We propose a number of explanations for these findings: LXMERT's results on the image-sentence alignment task (and to a lesser extent those obtained by ViLBERT 12-in-1) indicate that the model may exhibit catastrophic forgetting. As for our results on the counting probe, we find evidence that all models are impacted by dataset bias, and also fail to individuate entities in the visual input.
翻訳日:2021-04-26 09:32:22 公開日:2020-12-22
# (参考訳) Simple-QE: テキスト簡易化のための自動品質評価の改善

Simple-QE: Better Automatic Quality Estimation for Text Simplification ( http://arxiv.org/abs/2012.12382v1 )

ライセンス: CC0 1.0
Reno Kriz, Marianna Apidianaki, Chris Callison-Burch(参考訳) テキスト単純化システムは、より広い読者にとって理解しやすいテキストのバージョンを生成する。 簡易テキストの品質は一般に、人間の参照と比較する指標を用いて推定されるが、取得が困難である。 本稿では,事前要約qe作業から適応した,bertに基づく品質推定(qe)モデルであるsimple-qeを提案する。 単純なQEは人間の参照を必要としないため、モデルはユーザが生成した単純化の質を知らせる必要がある実践的な環境で有用である。 また,本手法を用いて人文テキストの複雑さを正確に予測できることを示す。

Text simplification systems generate versions of texts that are easier to understand for a broader audience. The quality of simplified texts is generally estimated using metrics that compare to human references, which can be difficult to obtain. We propose Simple-QE, a BERT-based quality estimation (QE) model adapted from prior summarization QE work, and show that it correlates well with human quality judgments. Simple-QE does not require human references, which makes the model useful in a practical setting where users would need to be informed about the quality of generated simplifications. We also show that we can adapt this approach to accurately predict the complexity of human-written texts.
翻訳日:2021-04-26 08:49:30 公開日:2020-12-22
# (参考訳) スケーラブルな光学習オペレータ

Scalable Optical Learning Operator ( http://arxiv.org/abs/2012.12404v1 )

ライセンス: CC BY 4.0
U\u{g}ur Te\u{g}in, Mustafa Y{\i}ld{\i}r{\i}m, \.Ilker O\u{g}uz, Christophe Moser, Demetri Psaltis(参考訳) 今日の重い機械学習タスクは、大規模なデータセットによって加速される。 コンピューティングは、メモリへのデータ転送によって最終的にパフォーマンスが制限されるパワー空腹プロセッサで実行される。 光学は情報通信と処理の強力な手段の1つであり、高速な計算を実現するための光情報処理への関心は高まっている。 本稿では、新型コロナウイルスのX線肺画像の分類や音声認識から、顔画像からの年齢予測に至るまで、多モードファイバの時空間効果に基づく光学コンピューティングフレームワークを実験的に紹介する。 提案フレームワークは,既存のシステムのエネルギースケーリング問題を高速化することなく克服する。 計算エンジンとして空間モードの同時,線形,非線形相互作用を利用した。 数値的および実験的に、ディジタル実装に匹敵する精度で複数の異なるタスクを実行することができることを示した。 この結果から,マルチモードファイバベースコンピュータの性能を再現するためには,強力なスーパーコンピュータが必要であることが示唆された。

Today's heavy machine learning tasks are fueled by large datasets. Computing is performed with power hungry processors whose performance is ultimately limited by the data transfer to and from memory. Optics is one of the powerful means of communicating and processing information and there is intense current interest in optical information processing for realizing high-speed computations. Here we present and experimentally demonstrate an optical computing framework based on spatiotemporal effects in multimode fibers for a range of learning tasks from classifying COVID-19 X-ray lung images and speech recognition to predicting age from face images. The presented framework overcomes the energy scaling problem of existing systems without compromising speed. We leveraged simultaneous, linear, and nonlinear interaction of spatial modes as a computation engine. We numerically and experimentally showed the ability of the method to execute several different tasks with accuracy comparable to a digital implementation. Our results indicate that a powerful supercomputer would be required to duplicate the performance of the multimode fiber-based computer.
翻訳日:2021-04-26 08:41:21 公開日:2020-12-22
# (参考訳) quicktumornet:脳腫瘍の高速自動マルチクラスセグメンテーション

QuickTumorNet: Fast Automatic Multi-Class Segmentation of Brain Tumors ( http://arxiv.org/abs/2012.12410v1 )

ライセンス: CC BY 4.0
Benjamin Maas, Erfan Zabeh, Soroush Arabshahi(参考訳) 磁気共鳴イメージング(MRI)のような非侵襲的手法は脳腫瘍の診断に広く用いられている。 しかし、3D MRIボリュームから脳腫瘍を手動で分割することは、専門の放射線技師を必要とする時間を要する作業である。 手動セグメンテーションの主観性のため、レート間信頼性が低いため、診断上の相違が生じる可能性がある。 多くの脳腫瘍治療の成功は早期介入に依存するため、早期発見が最重要である。 この文脈では、脳腫瘍の検出と定量化のための効率的で信頼性の高い方法として、脳腫瘍の完全自動分割法が必要である。 本研究では,脳組織型セグメンテーション深層畳み込みニューラルネットワーク(cnn)であるquicknatの修正版を用いて,脳腫瘍セグメンテーションのエンド・ツー・エンドアプローチを提案する。 3種類の腫瘍分類群(髄膜腫,グリオーマ,下垂体)を含む233例のt1強調画像のデータセットを用いて検討した。 我々のモデルであるquicktumornetは、迅速かつ信頼性が高く、正確な脳腫瘍の分画を示し、臨床医の診断と治療に役立てることができた。

Non-invasive techniques such as magnetic resonance imaging (MRI) are widely employed in brain tumor diagnostics. However, manual segmentation of brain tumors from 3D MRI volumes is a time-consuming task that requires trained expert radiologists. Due to the subjectivity of manual segmentation, there is low inter-rater reliability which can result in diagnostic discrepancies. As the success of many brain tumor treatments depends on early intervention, early detection is paramount. In this context, a fully automated segmentation method for brain tumor segmentation is necessary as an efficient and reliable method for brain tumor detection and quantification. In this study, we propose an end-to-end approach for brain tumor segmentation, capitalizing on a modified version of QuickNAT, a brain tissue type segmentation deep convolutional neural network (CNN). Our method was evaluated on a data set of 233 patient's T1 weighted images containing three tumor type classes annotated (meningioma, glioma, and pituitary). Our model, QuickTumorNet, demonstrated fast, reliable, and accurate brain tumor segmentation that can be utilized to assist clinicians in diagnosis and treatment.
翻訳日:2021-04-26 08:23:34 公開日:2020-12-22
# (参考訳) フィルタ問題の解法による確率勾配変動の低減

Stochastic Gradient Variance Reduction by Solving a Filtering Problem ( http://arxiv.org/abs/2012.12418v1 )

ライセンス: CC BY 4.0
Xingyi Yang(参考訳) ディープニューラルネットワーク(DNN)は通常、確率勾配降下(SGD)を用いて最適化される。 しかし, 確率的試料を用いた勾配の推定は, ノイズが多く信頼性に乏しい傾向にあり, 勾配のばらつきが大きく, 収束不良がみられた。 本稿では,フィルタ設計の異なる適応フィルタリング問題を解くことにより,局所勾配の一貫した推定を行う効率的な確率最適化アルゴリズムである \textbf{filter gradient decent}~(fgd)を提案する。 本手法は,現在の推定値を高めるために,過去の状態を組み込むことにより,確率勾配勾配のばらつきを低減する。 雑音の勾配方向を補正し、学習の収束を加速することができる。 本稿では,従来の運動量に基づく手法と比較して,数値最適化とニューラルネットワークのトレーニングにおけるフィルタ勾配Descentの有効性を示す。 最善の知識を得るためには,信号処理における勾配推定とフィルタリング問題の類似性を生かして,勾配推定にフィルタリングを統合する実用的なソリューションを最初に提供する。 (https://github.com/Adamdad/Filter-Gradient-Decent)

Deep neural networks (DNN) are typically optimized using stochastic gradient descent (SGD). However, the estimation of the gradient using stochastic samples tends to be noisy and unreliable, resulting in large gradient variance and bad convergence. In this paper, we propose \textbf{Filter Gradient Decent}~(FGD), an efficient stochastic optimization algorithm that makes the consistent estimation of the local gradient by solving an adaptive filtering problem with different design of filters. Our method reduces variance in stochastic gradient descent by incorporating the historical states to enhance the current estimation. It is able to correct noisy gradient direction as well as to accelerate the convergence of learning. We demonstrate the effectiveness of the proposed Filter Gradient Descent on numerical optimization and training neural networks, where it achieves superior and robust performance compared with traditional momentum-based methods. To the best of our knowledge, we are the first to provide a practical solution that integrates filtering into gradient estimation by making the analogy between gradient estimation and filtering problems in signal processing. (The code is provided in https://github.com/Adamdad/Filter-Gradient-Decent)
翻訳日:2021-04-26 08:15:00 公開日:2020-12-22
# タスク指向対話システムのためのコピー機構を用いたエンティティ認識知識の学習と応答生成

Learning to Retrieve Entity-Aware Knowledge and Generate Responses with Copy Mechanism for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2012.11937v1 )

ライセンス: Link先を確認
Chao-Hong Tan, Xiaoyu Yang, Zi'ou Zheng, Tianda Li, Yufei Feng, Jia-Chen Gu, Quan Liu, Dan Liu, Zhen-Hua Ling, Xiaodan Zhu(参考訳) 第9回対話システム技術チャレンジ(DSTC 9)のトラック1のように、非構造化知識アクセスによるタスク指向の会話モデリングは、与えられた対話履歴と知識アクセスを生成するシステムを構築することを要求する。 この課題は,(1)知識探索ターン検出,(2)知識選択,(3)知識接地応答生成の3つのサブタスクに分けることができる。 我々は、異なるサブタスクのベースエンコーダとして、事前訓練された言語モデルELECTRAとRoBERTaを使用します。 サブタスク1と2では、ドメインやエンティティといった粗い粒度情報を使用して知識使用量を高める。 サブタスク3では、ダイアログ履歴と選択した知識をより良くエンコードするために潜在変数を使用し、コピー機構と組み合わせた応答を生成します。 一方、モデルの最終出力で有用な後処理戦略が実行され、生成タスクでさらなる知識使用が可能になる。 得られた評価結果に示すように,提案システムは客観的指標より2位,人的指標より4位である。

Task-oriented conversational modeling with unstructured knowledge access, as track 1 of the 9th Dialogue System Technology Challenges (DSTC 9), requests to build a system to generate response given dialogue history and knowledge access. This challenge can be separated into three subtasks, (1) knowledge-seeking turn detection, (2) knowledge selection, and (3) knowledge-grounded response generation. We use pre-trained language models, ELECTRA and RoBERTa, as our base encoder for different subtasks. For subtask 1 and 2, the coarse-grained information like domain and entity are used to enhance knowledge usage. For subtask 3, we use a latent variable to encode dialog history and selected knowledge better and generate responses combined with copy mechanism. Meanwhile, some useful post-processing strategies are performed on the model's final output to make further knowledge usage in the generation task. As shown in released evaluation results, our proposed system ranks second under objective metrics and ranks fourth under human metrics.
翻訳日:2021-04-26 07:50:30 公開日:2020-12-22
# 極値理論による開集合領域適応

Open Set Domain Adaptation by Extreme Value Theory ( http://arxiv.org/abs/2101.02561v1 )

ライセンス: Link先を確認
Yiming Xu, Diego Klabjan(参考訳) 共通のドメイン適応技術では、ソースドメインとターゲットドメインが同じラベル空間を共有していると仮定します。 もしそうでなければ、追加の未知のクラスも適応中にソースドメインとマッチするため、既存のメソッドはうまく動作しない。 本稿では、ソースとターゲットラベル空間が部分的に重複しているだけであり、タスクが未知のクラスが存在する場合、ターゲット不明のクラスを検出してソースドメインと整合しないようにする、という仮定の下で、オープンセット領域適応問題に取り組む。 本稿では,既知のクラスに属するサンプルの確率を示す重み付けと,未知クラス検出のための極値理論を用いてエントロピー分布のテールをモデル化する,ドメイン適応のためのインスタンスレベルの再重み付け戦略を提案する。 従来のドメイン適応データセットを用いた実験では,提案手法が最先端モデルよりも優れていた。

Common domain adaptation techniques assume that the source domain and the target domain share an identical label space, which is problematic since when target samples are unlabeled we have no knowledge on whether the two domains share the same label space. When this is not the case, the existing methods fail to perform well because the additional unknown classes are also matched with the source domain during adaptation. In this paper, we tackle the open set domain adaptation problem under the assumption that the source and the target label spaces only partially overlap, and the task becomes when the unknown classes exist, how to detect the target unknown classes and avoid aligning them with the source domain. We propose to utilize an instance-level reweighting strategy for domain adaptation where the weights indicate the likelihood of a sample belonging to known classes and to model the tail of the entropy distribution with Extreme Value Theory for unknown class detection. Experiments on conventional domain adaptation datasets show that the proposed method outperforms the state-of-the-art models.
翻訳日:2021-04-26 07:50:12 公開日:2020-12-22
# ビデオインフルエンサー:unboxing the mystique

Video Influencers: Unboxing the Mystique ( http://arxiv.org/abs/2012.12311v1 )

ライセンス: Link先を確認
Prashant Rajaram and Puneet Manchanda(参考訳) インフルエンサーマーケティングは、主にカスタムビデオを通じてオーディエンスにリーチするソーシャルメディアスターの人気が高まっているため、顧客へリーチするためのツールとしてますます使われている。 インフルエンサーマーケティングの急速な成長にもかかわらず、インフルエンサービデオの設計と有効性についてはほとんど研究されていない。 YouTubeインフルエンサービデオの公開データを用いて、動画中の広告コンテンツ(テキスト、音声、画像全体)とビデオビュー、対話率、感情の間の重要な関係を特定するために、転送学習がサポートする新しい解釈可能なディープラーニングアーキテクチャを実装した。 従来の特徴工学を回避し,その代わりにポスト解釈を用いることで,解釈可能性と予測能力のトレードオフを回避する。 本研究では,映像要素の注目度の増加に関連のない要因に影響を及ぼす関係をフィルタリングし,現場でテスト可能な映像要素とマーケティング成果との因果関係の確立を容易にする。 重要な発見は、ビデオの最初の30秒におけるブランドの言及は、平均してブランドへの注目度が大幅に高まるが、ビデオに対する感情が大幅に低下していることだ。 我々は、インフルエンサーとブランドの両方のアプローチから学んだことを説明している。

Influencer marketing is being used increasingly as a tool to reach customers because of the growing popularity of social media stars who primarily reach their audience(s) via custom videos. Despite the rapid growth in influencer marketing, there has been little research on the design and effectiveness of influencer videos. Using publicly available data on YouTube influencer videos, we implement novel interpretable deep learning architectures, supported by transfer learning, to identify significant relationships between advertising content in videos (across text, audio, and images) and video views, interaction rates and sentiment. By avoiding ex-ante feature engineering and instead using ex-post interpretation, our approach avoids making a trade-off between interpretability and predictive ability. We filter out relationships that are affected by confounding factors unassociated with an increase in attention to video elements, thus facilitating the generation of plausible causal relationships between video elements and marketing outcomes which can be tested in the field. A key finding is that brand mentions in the first 30 seconds of a video are on average associated with a significant increase in attention to the brand but a significant decrease in sentiment expressed towards the video. We illustrate the learnings from our approach for both influencers and brands.
翻訳日:2021-04-26 07:49:35 公開日:2020-12-22
# これはあなたが探しているTextureではありません! 生成的逆境学習を用いた非熟練者に対する新しい反事実的説明の導入

This is not the Texture you are looking for! Introducing Novel Counterfactual Explanations for Non-Experts using Generative Adversarial Learning ( http://arxiv.org/abs/2012.11905v1 )

ライセンス: Link先を確認
Silvan Mertes, Tobias Huber, Katharina Weitz, Alexander Heimerl, Elisabeth Andr\'e(参考訳) 機械学習の台頭に伴い、人工知能システムによる意思決定を説明する方法の必要性がますます重要になっている。 特に画像分類タスクでは、そのような分類器を説明する多くの最先端ツールが、入力データの重要な領域の視覚的ハイライトに依存している。 対照的に、対実的説明システムでは、分類器が異なる予測を行うように入力画像を変更することで、反実的推論を可能にしようとする。 これにより、反事実説明システムの利用者は、全く異なる種類の説明情報を備えている。 しかし、画像分類器の現実的な反実的説明を生成する方法はまだ稀である。 本研究では, 対角画像から画像への変換技術に基づいて, 対実画像の説明を生成する手法を提案する。 さらに,医療シナリオにインスパイアされたユースケースにおいて,アプローチを評価するためのユーザスタディを実施している。 以上の結果から, 精神モデル, 説明満足度, 信頼感, 感情, 自己効力感に関するアプローチは, LIME と LRP を併用した2つの最先端技術システムよりも有意に良好な結果が得られた。

With the ongoing rise of machine learning, the need for methods for explaining decisions made by artificial intelligence systems is becoming a more and more important topic. Especially for image classification tasks, many state-of-the-art tools to explain such classifiers rely on visual highlighting of important areas of the input data. Contrary, counterfactual explanation systems try to enable a counterfactual reasoning by modifying the input image in a way such that the classifier would have made a different prediction. By doing so, the users of counterfactual explanation systems are equipped with a completely different kind of explanatory information. However, methods for generating realistic counterfactual explanations for image classifiers are still rare. In this work, we present a novel approach to generate such counterfactual image explanations based on adversarial image-to-image translation techniques. Additionally, we conduct a user study to evaluate our approach in a use case which was inspired by a healthcare scenario. Our results show that our approach leads to significantly better results regarding mental models, explanation satisfaction, trust, emotions, and self-efficacy than two state-of-the art systems that work with saliency maps, namely LIME and LRP.
翻訳日:2021-04-26 07:49:17 公開日:2020-12-22
# 未分化の注意:中間層はBERTにとって必要か?

Undivided Attention: Are Intermediate Layers Necessary for BERT? ( http://arxiv.org/abs/2012.11881v1 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Anthony Sarah(参考訳) 近年,BERTをベースとしたモデルは,読解,自然言語推論,感情分析など,さまざまな自然言語処理(NLP)タスクの解決に極めて成功している。 すべてのBERTベースのアーキテクチャは自己保持ブロックを持ち、続いて基本的なビルディングコンポーネントとして中間層のブロックがある。 しかし、これらの中間層を包含する強い正当性は文献に残っていない。 本研究では,下流タスクのネットワーク性能における中間層の重要性について検討する。 BERT-Baseの中間層数の削減とアーキテクチャの変更により、下流タスクの微調整精度の低下が最小限に抑えられ、パラメータの減少とモデルの訓練時間が短縮されることを示す。 さらに,中央カーネルアライメント(cka)類似度メトリックと探索分類器を用いて,中間層除去が学習自己着脱表現にほとんど影響を与えないことを示す。

In recent times, BERT-based models have been extremely successful in solving a variety of natural language processing (NLP) tasks such as reading comprehension, natural language inference, sentiment analysis, etc. All BERT-based architectures have a self-attention block followed by a block of intermediate layers as the basic building component. However, a strong justification for the inclusion of these intermediate layers remains missing in the literature. In this work we investigate the importance of intermediate layers on the overall network performance of downstream tasks. We show that reducing the number of intermediate layers and modifying the architecture for BERT-Base results in minimal loss in fine-tuning accuracy for downstream tasks while decreasing the number of parameters and training time of the model. Additionally, we use the central kernel alignment (CKA) similarity metric and probing classifiers to demonstrate that removing intermediate layers has little impact on the learned self-attention representations.
翻訳日:2021-04-26 07:48:59 公開日:2020-12-22
# 低リソース医療対話生成のためのグラフ進化メタラーニング

Graph-Evolving Meta-Learning for Low-Resource Medical Dialogue Generation ( http://arxiv.org/abs/2012.11988v1 )

ライセンス: Link先を確認
Shuai Lin, Pan Zhou, Xiaodan Liang, Jianheng Tang, Ruihui Zhao, Ziliang Chen, Liang Lin(参考訳) 構造化された医療知識を持つ人間の医師は、症状に関する患者との会話を通じてのみ、病気を診断することができる。 対照的に、既存の知識ベース対話システムでは、異なる疾患間の相関を捉え、それらの間で共有される診断経験を無視するため、多くの対話インスタンスを学習する必要があることが多い。 この問題に対処するために、我々は、より自然で実用的なパラダイム、すなわち、低リソースの医療対話生成を提案し、ソース疾患からターゲット疾患への診断経験を、適応のための少数のデータで転送することができる。 既往の疾患症状の関係を特徴付けるために、常識知識グラフで大文字化されている。 さらに,新しい疾患の症状相関を推論するためのコモンセンスグラフの進化を学習するグラフ進化メタラーニング(GEML)フレームワークを開発し,多数の対話の必要性を効果的に軽減する。 さらに重要なことに、GEMLは疾患症状グラフを動的に進化させることで、各疾患の症状相関がより多くの診断ケースとともに変化する、あるいは進化する、という現実の課題にも対処する。 CMDDデータセットと新たにコンパイルされた中入データセットの大規模な実験結果から,最先端アプローチに対するアプローチの優位性が確認された。 さらに、GEMLは、豊富な対話に敏感な知識グラフをオンライン形式で生成できるので、知識グラフに基づく他のタスクにも役立ちます。

Human doctors with well-structured medical knowledge can diagnose a disease merely via a few conversations with patients about symptoms. In contrast, existing knowledge-grounded dialogue systems often require a large number of dialogue instances to learn as they fail to capture the correlations between different diseases and neglect the diagnostic experience shared among them. To address this issue, we propose a more natural and practical paradigm, i.e., low-resource medical dialogue generation, which can transfer the diagnostic experience from source diseases to target ones with a handful of data for adaptation. It is capitalized on a commonsense knowledge graph to characterize the prior disease-symptom relations. Besides, we develop a Graph-Evolving Meta-Learning (GEML) framework that learns to evolve the commonsense graph for reasoning disease-symptom correlations in a new disease, which effectively alleviates the needs of a large number of dialogues. More importantly, by dynamically evolving disease-symptom graphs, GEML also well addresses the real-world challenges that the disease-symptom correlations of each disease may vary or evolve along with more diagnostic cases. Extensive experiment results on the CMDD dataset and our newly-collected Chunyu dataset testify the superiority of our approach over state-of-the-art approaches. Besides, our GEML can generate an enriched dialogue-sensitive knowledge graph in an online manner, which could benefit other tasks grounded on knowledge graph.
翻訳日:2021-04-26 07:48:44 公開日:2020-12-22
# 不確かさと劣悪な共同でパンチラインを届ける: 発破した不規則性に基づく感性認識の特徴

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition ( http://arxiv.org/abs/2012.12007v1 )

ライセンス: Link先を確認
Yubo Xie, Junze Li, Pearl Pu(参考訳) データ駆動型アプローチを用いたテキスト分類問題として,Humor Recognitionが広く研究されている。 しかし、既存の作品の多くは、ユーモアを理解するための実際のジョークメカニズムを検証していない。 ジョークは、セットアップとパンチラインという2つの異なる要素に分解し、それら間の特別な関係をさらに探ります。 ユーモアの不整合理論に触発されて、セマンティックな不確実性の発達と、観客の期待を混乱させるパンチラインをモデル化する。 ますます強力な言語モデルにより、私たちはGPT-2言語モデルにパンチラインと共にセットアップを供給し、ジョークの不確かさと前提値を計算することができた。 SemEval 2021 Task 7データセットで実験を行うことで、これらの2つの機能は、既存のベースラインと比較して、ジョークを言う能力が優れていることがわかった。

Humor recognition has been widely studied as a text classification problem using data-driven approaches. However, most existing work does not examine the actual joke mechanism to understand humor. We break down any joke into two distinct components: the set-up and the punchline, and further explore the special relationship between them. Inspired by the incongruity theory of humor, we model the set-up as the part developing semantic uncertainty, and the punchline disrupting audience expectations. With increasingly powerful language models, we were able to feed the set-up along with the punchline into the GPT-2 language model, and calculate the uncertainty and surprisal values of the jokes. By conducting experiments on the SemEval 2021 Task 7 dataset, we found that these two features have better capabilities of telling jokes from non-jokes, compared with existing baselines.
翻訳日:2021-04-26 07:48:23 公開日:2020-12-22
# 商品Wi-Fiを用いた被写体非依存型人物画像構築

Subject-independent Human Pose Image Construction with Commodity Wi-Fi ( http://arxiv.org/abs/2012.11812v1 )

ライセンス: Link先を確認
Shuang Zhou, Lingchao Guo, Zhaoming Lu, Xiangming Wen, Wei Zheng, Yiming Wang(参考訳) 近年、コモディティWi-Fiデバイスは人間のポーズ画像、すなわち人間の骨格をカメラのようにきめ細かいものにすることができることが示されている。 既存の論文は、事前のトレーニングサンプルの被験者の画像を作成する際に良い結果が得られる。 しかし、新しい被験者、すなわちトレーニングサンプルにいない被験者については、パフォーマンスが低下する。 本稿では,人間のポーズ画像構築における主題一般化問題の解決に焦点をあてる。 この目的のために、我々は主題をドメインとして定義する。 次に,被写体非依存の特徴を抽出し,人間のポーズ画像に変換するために,ドメイン非依存ニューラルネットワーク(dinn)を設計する。 また,dinnをトレーニングするための新しいトレーニング手法を提案するとともに,ドメイン敵アプローチと比較して,オーバヘッドの再トレーニングを行わない。 プロトタイプシステムを構築し, 実験結果から, 可視・壁面の両方のシナリオにおいて, 商品Wi-Fiを有する被験者の詳細な人物ポーズ画像が構築可能であることを示し, モデルの有効性と対象一般化能力を示す。

Recently, commodity Wi-Fi devices have been shown to be able to construct human pose images, i.e., human skeletons, as fine-grained as cameras. Existing papers achieve good results when constructing the images of subjects who are in the prior training samples. However, the performance drops when it comes to new subjects, i.e., the subjects who are not in the training samples. This paper focuses on solving the subject-generalization problem in human pose image construction. To this end, we define the subject as the domain. Then we design a Domain-Independent Neural Network (DINN) to extract subject-independent features and convert them into fine-grained human pose images. We also propose a novel training method to train the DINN and it has no re-training overhead comparing with the domain-adversarial approach. We build a prototype system and experimental results demonstrate that our system can construct fine-grained human pose images of new subjects with commodity Wi-Fi in both the visible and through-wall scenarios, which shows the effectiveness and the subject-generalization ability of our model.
翻訳日:2021-04-26 07:47:17 公開日:2020-12-22
# シーン固有のポーズエンコーダは本当に必要か?

Do We Really Need Scene-specific Pose Encoders? ( http://arxiv.org/abs/2012.12014v1 )

ライセンス: Link先を確認
Yoli Shavit and Ron Ferens(参考訳) 視覚的ポーズ回帰モデルは、単一の前方パスを持つクエリ画像からカメラのポーズを推定する。 現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。 結果として生じるエンコーディングは通常、ポーズを後退させるために多層パーセプトロンに渡される。 本研究では,ポーズ回帰にシーン固有のポーズエンコーダを必要とせず,視覚的類似性を訓練したエンコーダを代わりに使用できることを提案する。 この仮説をテストするために、我々は複数の完全連結層からなる浅いアーキテクチャを、汎用画像検索モデルから事前に計算されたエンコーディングで学習する。 これらのエンコーディングは、カメラのポーズをリグレッシブするのに十分であるだけでなく、分岐した完全に接続されたアーキテクチャに提供すれば、トレーニングされたモデルは競争力のある結果を達成でき、場合によっては現在の \textit{state-of-the-art} のポーズレグレッシブを超えることさえある。 さらに, 屋外の局地化においては, 提案手法は, 2m以下, 5度以下で連続的に位置決めできる唯一のポーズ回帰器であることを示す。

Visual pose regression models estimate the camera pose from a query image with a single forward pass. Current models learn pose encoding from an image using deep convolutional networks which are trained per scene. The resulting encoding is typically passed to a multi-layer perceptron in order to regress the pose. In this work, we propose that scene-specific pose encoders are not required for pose regression and that encodings trained for visual similarity can be used instead. In order to test our hypothesis, we take a shallow architecture of several fully connected layers and train it with pre-computed encodings from a generic image retrieval model. We find that these encodings are not only sufficient to regress the camera pose, but that, when provided to a branching fully connected architecture, a trained model can achieve competitive results and even surpass current \textit{state-of-the-art} pose regressors in some cases. Moreover, we show that for outdoor localization, the proposed architecture is the only pose regressor, to date, consistently localizing in under 2 meters and 5 degrees.
翻訳日:2021-04-26 07:46:34 公開日:2020-12-22
# turn signal prediction: a federated learning case study

Turn Signal Prediction: A Federated Learning Case Study ( http://arxiv.org/abs/2012.12401v1 )

ライセンス: Link先を確認
Sonal Doomra, Naman Kohli, Shounak Athavale(参考訳) ドライバーは規則や規則に準拠するだけでなく、地元の無口の慣習にも従うからである。 ターン信号(インジケータ)をオン/オフにする場合は、決定的な正解や誤解を持たないようなエチケットである。 車両に内蔵された各種センサモードから生成されたデータからこの振る舞いを学習することは、深層学習に適した候補である。 しかし、federated learningの一番の候補は、あらゆるデータ集約に対するプライバシーの懸念と帯域制限だ。 本稿では,車載制御エリアネットワーク(CAN)信号データを用いた,LSTM(Long Short-term memory)に基づくターン信号予測(on or off)モデルを提案する。 モデルは2つのアプローチでトレーニングされる。1つはデータを集中的に集約し、もう1つは連合した方法で集約する。 中央に訓練されたモデルと連合モデルは、同様のハイパーパラメータ設定下で比較される。 本研究は,自動運転の車内学習におけるフェデレート学習の有効性を実証するものである。

Driving etiquette takes a different flavor for each locality as drivers not only comply with rules/laws but also abide by local unspoken convention. When to have the turn signal (indicator) on/off is one such etiquette which does not have a definitive right or wrong answer. Learning this behavior from the abundance of data generated from various sensor modalities integrated in the vehicle is a suitable candidate for deep learning. But what makes it a prime candidate for Federated Learning are privacy concerns and bandwidth limitations for any data aggregation. This paper presents a long short-term memory (LSTM) based Turn Signal Prediction (on or off) model using vehicle control area network (CAN) signal data. The model is trained using two approaches, one by centrally aggregating the data and the other in a federated manner. Centrally trained models and federated models are compared under similar hyperparameter settings. This research demonstrates the efficacy of federated learning, paving the way for in-vehicle learning of driving etiquette.
翻訳日:2021-04-26 07:46:14 公開日:2020-12-22
# トランスファーブルな名前付きエンティティ認識のための半スーパービジョン分散フレームワーク

Semi-Supervised Disentangled Framework for Transferable Named Entity Recognition ( http://arxiv.org/abs/2012.11805v1 )

ライセンス: Link先を確認
Zhifeng Hao, Di Lv, Zijian Li, Ruichu Cai, Wen Wen, Boyan Xu(参考訳) 非構造化テキスト中の固有名詞を識別するための名前付きエンティティ認識(NER)は、自然言語処理において最も重要かつ基本的なタスクの1つである。 しかし、NERモデルが広く使われているにもかかわらず、大規模なラベル付きデータセットが必要であるため、手動のアノテーションによって重い負担がかかる。 ドメイン適応は、対象ドメインに基づいたモデルの一般化性を高めるために、関連するソースドメインからのリッチなラベル付きデータを利用する、この問題に対する最も有望な解決策の1つである。 しかし、メインストリームのクロスドメインnerモデルは、(1)クロスドメイン転送のための構文情報などのドメイン不変情報を抽出するという2つの課題によってまだ影響を受ける。 2)NERの性能を向上させるため,意味情報などのドメイン固有情報をモデルに統合する。 本研究では、ドメイン不変な潜在変数とドメイン固有な潜在変数を区別するトランスファー可能なnerのための半教師付きフレームワークを提案する。 提案フレームワークでは、ドメイン固有情報とドメイン固有潜在変数をドメイン予測器を用いて統合する。 ドメイン固有およびドメイン不変潜在変数は、3つの相互情報正規化項、すなわちドメイン固有潜在変数と元の埋め込みとの間の相互情報を最大化し、ドメイン不変潜在変数と元の埋め込みとの間の相互情報を最大化し、ドメイン固有およびドメイン不変潜在変数間の相互情報を最小化する。 クロスドメインおよびクロスランガルなNERベンチマークデータセットを用いて、我々のモデルが最先端の性能を得ることができることを示した。

Named entity recognition (NER) for identifying proper nouns in unstructured text is one of the most important and fundamental tasks in natural language processing. However, despite the widespread use of NER models, they still require a large-scale labeled data set, which incurs a heavy burden due to manual annotation. Domain adaptation is one of the most promising solutions to this problem, where rich labeled data from the relevant source domain are utilized to strengthen the generalizability of a model based on the target domain. However, the mainstream cross-domain NER models are still affected by the following two challenges (1) Extracting domain-invariant information such as syntactic information for cross-domain transfer. (2) Integrating domain-specific information such as semantic information into the model to improve the performance of NER. In this study, we present a semi-supervised framework for transferable NER, which disentangles the domain-invariant latent variables and domain-specific latent variables. In the proposed framework, the domain-specific information is integrated with the domain-specific latent variables by using a domain predictor. The domain-specific and domain-invariant latent variables are disentangled using three mutual information regularization terms, i.e., maximizing the mutual information between the domain-specific latent variables and the original embedding, maximizing the mutual information between the domain-invariant latent variables and the original embedding, and minimizing the mutual information between the domain-specific and domain-invariant latent variables. Extensive experiments demonstrated that our model can obtain state-of-the-art performance with cross-domain and cross-lingual NER benchmark data sets.
翻訳日:2021-04-26 07:45:56 公開日:2020-12-22
# パターン探索訓練による小切手テキスト生成

Few-Shot Text Generation with Pattern-Exploiting Training ( http://arxiv.org/abs/2012.11926v1 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) 自然言語で単純なタスク記述やプロンプトを備えた事前学習された言語モデルを提供することで、サンプルからの勾配ベースの学習と組み合わせることで、幅広いテキスト分類タスクにおいて印象的な数発の結果が得られる。 本稿では,テキスト生成タスクにおける生成言語モデルの微調整を目的とした,最近提案された数発的手法であるパターン探索訓練(pet)を適用する。 いくつかのテキスト要約と見出し生成データセットにおいて、提案したPETの変種は、少数の設定で強力なベースラインに対して一貫した改善をもたらす。

Providing pretrained language models with simple task descriptions or prompts in natural language yields impressive few-shot results for a wide range of text classification tasks when combined with gradient-based learning from examples. In this paper, we show that the underlying idea can also be applied to text generation tasks: We adapt Pattern-Exploiting Training (PET), a recently proposed few-shot approach, for finetuning generative language models on text generation tasks. On several text summarization and headline generation datasets, our proposed variant of PET gives consistent improvements over a strong baseline in few-shot settings.
翻訳日:2021-04-26 07:45:30 公開日:2020-12-22
# セルフプログレッシブロバストトレーニング

Self-Progressing Robust Training ( http://arxiv.org/abs/2012.11769v1 )

ライセンス: Link先を確認
Minhao Cheng, Pin-Yu Chen, Sijia Liu, Shiyu Chang, Cho-Jui Hsieh, Payel Das(参考訳) 新しい、さらには敵対的環境下でモデルの堅牢性を高めることは、信頼できる機械学習システムを構築するための重要なマイルストーンである。 敵の訓練のような現在の堅牢な訓練手法は「攻撃」(例えば$\ell_{\infty}$-normの有界摂動)を明示的に用いて、敵の堅牢性を改善するためのモデルトレーニング中に敵の例を生成する。 本稿では,異なる視点から,sproutと呼ばれる自己プログレッシブロバストトレーニングと呼ばれる新しいフレームワークを提案する。 モデルトレーニング中、SPROUTは、提案したパラメタライズされたラベル平滑化技術を用いて、段階的にトレーニングラベルの分布を調整する。 また,近距離リスク最小化に基づく一般的な定式化によるSPROUTのモチベーションも行った。 l_inf-norm境界攻撃と様々な不変性テストによる最先端の対向訓練法(PGD-l_infとTRADES)と比較すると、SPROUTは一貫して優れた性能を示し、大規模ニューラルネットワークに対してよりスケーラブルである。 その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。

Enhancing model robustness under new and even adversarial environments is a crucial milestone toward building trustworthy machine learning systems. Current robust training methods such as adversarial training explicitly uses an "attack" (e.g., $\ell_{\infty}$-norm bounded perturbation) to generate adversarial examples during model training for improving adversarial robustness. In this paper, we take a different perspective and propose a new framework called SPROUT, self-progressing robust training. During model training, SPROUT progressively adjusts training label distribution via our proposed parametrized label smoothing technique, making training free of attack generation and more scalable. We also motivate SPROUT using a general formulation based on vicinity risk minimization, which includes many robust training methods as special cases. Compared with state-of-the-art adversarial training methods (PGD-l_inf and TRADES) under l_inf-norm bounded attacks and various invariance tests, SPROUT consistently attains superior performance and is more scalable to large neural networks. Our results shed new light on scalable, effective and attack-independent robust training methods.
翻訳日:2021-04-26 07:45:05 公開日:2020-12-22
# 畳み込みGANを用いた個人用医療データ生成

Differentially Private Synthetic Medical Data Generation using Convolutional GANs ( http://arxiv.org/abs/2012.11774v1 )

ライセンス: Link先を確認
Amirsina Torfi and Edward A. Fox and Chandan K. Reddy(参考訳) ディープラーニングモデルは、画像分類や音声処理など、いくつかのアプリケーション問題において優れた性能を示している。 しかし、健康記録データを使用したディープラーニングモデルを作成するには、この領域で働く研究者にユニークな懸念をもたらす、特定のプライバシー問題に対処する必要がある。 このようなプライベートデータ問題に対処する効果的な方法の1つは、現実的な合成データを生成し、実際に許容できるデータ品質とそれに対応するモデル性能を提供することである。 この課題に取り組むため,我々はr\'enyi differential privacyを用いた合成データ生成のための差分プライベートフレームワークを開発した。 提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの臨界特性の保存を行う。 さらに,本モデルでは,原データに存在する可能性のある時間的情報や特徴相関も捉えることができる。 提案モデルは,教師なしと教師なしの両方で利用可能なベンチマーク医療データセットを使用して,同一のプライバシー予算下で既存の最新モデルを上回ることを実証する。

Deep learning models have demonstrated superior performance in several application problems, such as image classification and speech processing. However, creating a deep learning model using health record data requires addressing certain privacy challenges that bring unique concerns to researchers working in this domain. One effective way to handle such private data issues is to generate realistic synthetic data that can provide practically acceptable data quality and correspondingly the model performance. To tackle this challenge, we develop a differentially private framework for synthetic data generation using R\'enyi differential privacy. Our approach builds on convolutional autoencoders and convolutional generative adversarial networks to preserve some of the critical characteristics of the generated synthetic data. In addition, our model can also capture the temporal information and feature correlations that might be present in the original data. We demonstrate that our model outperforms existing state-of-the-art models under the same privacy budget using several publicly available benchmark medical datasets in both supervised and unsupervised settings.
翻訳日:2021-04-26 07:44:42 公開日:2020-12-22
# 畳み込みネットワークを用いたグラフオートエンコーダ

Graph Autoencoders with Deconvolutional Networks ( http://arxiv.org/abs/2012.11898v1 )

ライセンス: Link先を確認
Jia Li, Tomas Yu, Da-Cheng Juan, Arjun Gopalan, Hong Cheng, Andrew Tomkins(参考訳) 近年の研究では、グラフ畳み込みネットワーク (gcns) がスペクトル領域において \emph{low pass} フィルタとして作用し、平滑化ノード表現を符号化することが示されている。 本稿では,グラフをスムーズなノード表現から再構成するグラフデコンボリューショナルネットワーク(GDN)について考察する。 スペクトル領域の逆フィルタとウェーブレット領域の逆処理層の組み合わせにより,グラフデコンボリューショナルネットワークの設計を動機付け,その逆演算により 'emph{high pass} フィルタが得られ,ノイズを増幅することができる。 提案したGDNに基づいて,まずGCNでスムーズなグラフ表現を符号化し,GDNで正確なグラフ信号を復号するグラフオートエンコーダフレームワークを提案する。 教師なしグラフレベル表現,ソーシャルレコメンデーション,グラフ生成などのタスクにおける提案手法の有効性を実証する。

Recent studies have indicated that Graph Convolutional Networks (GCNs) act as a \emph{low pass} filter in spectral domain and encode smoothed node representations. In this paper, we consider their opposite, namely Graph Deconvolutional Networks (GDNs) that reconstruct graph signals from smoothed node representations. We motivate the design of Graph Deconvolutional Networks via a combination of inverse filters in spectral domain and de-noising layers in wavelet domain, as the inverse operation results in a \emph{high pass} filter and may amplify the noise. Based on the proposed GDN, we further propose a graph autoencoder framework that first encodes smoothed graph representations with GCN and then decodes accurate graph signals with GDN. We demonstrate the effectiveness of the proposed method on several tasks including unsupervised graph-level representation , social recommendation and graph generation
翻訳日:2021-04-26 07:43:59 公開日:2020-12-22
# 脳波信号のてんかん発作検出のためのディープラーニングモデル解釈

Interpreting Deep Learning Models for Epileptic Seizure Detection on EEG signals ( http://arxiv.org/abs/2012.11933v1 )

ライセンス: Link先を確認
Valentin Gabeff, Tomas Teijeiro, Marina Zapater, Leila Cammoun, Sylvain Rheims, Philippe Ryvlin, David Atienza(参考訳) 深層学習(deep learning, dl)は、人工知能に基づく医学的意思決定支援の最先端技術と見なされることが多いが、ニューラルネットワークモデルの解釈が不十分なため、臨床医の信頼度は低いままである。 脳波信号に基づくてんかん発作のオンライン検出の文脈で解釈可能なDLモデルを開発することでこの問題に対処した。 これにより、入力信号の作成、ネットワークアーキテクチャ、およびドメイン知識に沿った出力の処理が条件付けられた。 Specifically, we focused the discussion on three main aspects: 1) how to aggregate the classification results on signal segments provided by the DL model into a larger time scale, at the seizure-level; 2) what are the relevant frequency patterns learned in the first convolutional layer of different models, and their relation with the delta, theta, alpha, beta and gamma frequency bands on which the visual interpretation of EEG is based; and 3) the identification of the signal waveforms with larger contribution towards the ictal class, according to the activation differences highlighted using the DeepLIFT method. その結果、第1層のカーネルサイズは、後処理後の最終的な性能が非常によく似ているにもかかわらず、抽出した特徴の解釈可能性と訓練されたモデルの感度を決定することがわかった。 また,ictal予測の主要な特徴は振幅であり,より複雑な周波数パターンを学ぶためには,患者人口の増加が必要であることが示唆された。 また,f1-scoreを0.873に分類し,90%の発作を検出できた。

While Deep Learning (DL) is often considered the state-of-the art for Artificial Intelligence-based medical decision support, it remains sparsely implemented in clinical practice and poorly trusted by clinicians due to insufficient interpretability of neural network models. We have tackled this issue by developing interpretable DL models in the context of online detection of epileptic seizure, based on EEG signal. This has conditioned the preparation of the input signals, the network architecture, and the post-processing of the output in line with the domain knowledge. Specifically, we focused the discussion on three main aspects: 1) how to aggregate the classification results on signal segments provided by the DL model into a larger time scale, at the seizure-level; 2) what are the relevant frequency patterns learned in the first convolutional layer of different models, and their relation with the delta, theta, alpha, beta and gamma frequency bands on which the visual interpretation of EEG is based; and 3) the identification of the signal waveforms with larger contribution towards the ictal class, according to the activation differences highlighted using the DeepLIFT method. Results show that the kernel size in the first layer determines the interpretability of the extracted features and the sensitivity of the trained models, even though the final performance is very similar after post-processing. Also, we found that amplitude is the main feature leading to an ictal prediction, suggesting that a larger patient population would be required to learn more complex frequency patterns. Still, our methodology was successfully able to generalize patient inter-variability for the majority of the studied population with a classification F1-score of 0.873 and detecting 90% of the seizures.
翻訳日:2021-04-26 07:43:43 公開日:2020-12-22
# オンラインの虐待的言語に直面する--倫理的・人権的な視点から

Confronting Abusive Language Online: A Survey from the Ethical and Human Rights Perspective ( http://arxiv.org/abs/2012.12305v1 )

ライセンス: Link先を確認
Svetlana Kiritchenko, Isar Nejadgholi, Kathleen C. Fraser(参考訳) インターネット上の虐待的なコンテンツが広まると、深刻な心理的・身体的被害につながる可能性がある。 自然言語処理(NLP)研究における重要な取り組みは、ヘイトスピーチの検出、毒性、サイバーいじめなど、乱暴なコンテンツ検出と関連するサブアリーナを通じてこの問題に対処することに集中している。 現在の技術は研究において高い分類性能を達成しているが、この技術の実際の応用は、非表現群のサイレンシングのような意図しない害を引き起こす可能性があることが観察されている。 我々は, プライバシー, 説明責任, 安全と安全, 透明性と説明責任, 公正と非差別, 技術制御, 専門的責任, 人的価値の促進という, 8つの確立した倫理的原則を中心に組織された倫理的課題に焦点をあてた, 自動乱用検出に関する大規模なnlp研究をレビューした。 多くの場合、これらの原則は文脈に依存しているかもしれない状況的倫理規範だけでなく、実際にはプライバシーの権利、差別の自由、表現の自由など、普遍的な人権と結びついている。 我々は、この技術の幅広い社会的影響を検証し、タスクの定式化やデータセットの設計、モデルのトレーニングと評価、アプリケーションデプロイメントまで、アプリケーションライフサイクルのあらゆる段階に倫理的および人権上の考慮をもたらす必要性を強調します。 これらの原則により、我々は、「ナッジ」、「隔離」、価値に敏感なデザイン、反ナラティブ、スタイル移行、AI駆動の公共教育アプリケーションなど、オンライン虐待を検出し、対決する権利を尊重する社会技術ソリューションの機会を特定します。

The pervasiveness of abusive content on the internet can lead to severe psychological and physical harm. Significant effort in Natural Language Processing (NLP) research has been devoted to addressing this problem through abusive content detection and related sub-areas, such as the detection of hate speech, toxicity, cyberbullying, etc. Although current technologies achieve high classification performance in research studies, it has been observed that the real-life application of this technology can cause unintended harms, such as the silencing of under-represented groups. We review a large body of NLP research on automatic abuse detection with a new focus on ethical challenges, organized around eight established ethical principles: privacy, accountability, safety and security, transparency and explainability, fairness and non-discrimination, human control of technology, professional responsibility, and promotion of human values. In many cases, these principles relate not only to situational ethical codes, which may be context-dependent, but are in fact connected to universal human rights, such as the right to privacy, freedom from discrimination, and freedom of expression. We highlight the need to examine the broad social impacts of this technology, and to bring ethical and human rights considerations to every stage of the application life-cycle, from task formulation and dataset design, to model training and evaluation, to application deployment. Guided by these principles, we identify several opportunities for rights-respecting, socio-technical solutions to detect and confront online abuse, including 'nudging', 'quarantining', value sensitive design, counter-narratives, style transfer, and AI-driven public education applications.
翻訳日:2021-04-26 07:42:46 公開日:2020-12-22
# ニューラルネットワークの潜時空間におけるデータ同化

Data Assimilation in the Latent Space of a Neural Network ( http://arxiv.org/abs/2012.12056v1 )

ライセンス: Link先を確認
Maddalena Amendola, Rossella Arcucci, Laetitia Mottet, Cesar Quilodran Casas, Shiwei Fan, Christopher Pain, Paul Linden, Yi-Ke Guo(参考訳) 室内空気質問題に対処するためのモデルを構築する必要がある。 モデルが正確で高速であることから、問題の次元性を減らすために減数次モデリング技術が用いられる。 動的システムを表すモデルの精度は、データ同化技術を用いてセンサーから得られる実データの統合を改善している。 本稿では,データ同化と機械学習を組み合わせた潜在同化という新しい手法を提案する。 畳み込みニューラルネットワークを用いて,問題の次元性を低減し,動的システムのサロゲートモデルを構築するための長期メモリと,実データを取り込むための最適な補間カルマンフィルタを提案する。 室内空間内のCO2濃度を実験的に測定した。 この手法は、例えば、SARS-COV-2のような空気中のウイルスの負荷をリアルタイムで予測するために、CO2濃度にリンクすることで使用できる。

There is an urgent need to build models to tackle Indoor Air Quality issue. Since the model should be accurate and fast, Reduced Order Modelling technique is used to reduce the dimensionality of the problem. The accuracy of the model, that represent a dynamic system, is improved integrating real data coming from sensors using Data Assimilation techniques. In this paper, we formulate a new methodology called Latent Assimilation that combines Data Assimilation and Machine Learning. We use a Convolutional neural network to reduce the dimensionality of the problem, a Long-Short-Term-Memory to build a surrogate model of the dynamic system and an Optimal Interpolated Kalman Filter to incorporate real data. Experimental results are provided for CO2 concentration within an indoor space. This methodology can be used for example to predict in real-time the load of virus, such as the SARS-COV-2, in the air by linking it to the concentration of CO2.
翻訳日:2021-04-26 07:41:42 公開日:2020-12-22
# 勾配降下を用いた勾配降下初期化学習

Learning to Initialize Gradient Descent Using Gradient Descent ( http://arxiv.org/abs/2012.12141v1 )

ライセンス: Link先を確認
Kartik Ahuja, Amit Dhurandhar, Kush R. Varshney(参考訳) 非凸最適化問題は解決が困難であり、勾配降下アルゴリズムや変種の成功と計算費用は初期化戦略に大きく依存する。 多くの場合、ランダム初期化は使われるか、初期化規則は問題クラスの性質を利用して慎重に設計される。 手作り初期化規則の単純な代替として,従来のソリューションから「良い」初期化規則を学習するためのアプローチを提案する。 我々は,すべての場合において十分かつ必要となる条件を確立するための理論的保証を提供する。 提案手法は,ブラックボックス機械学習モデルにおける逆例の生成,ポストホック説明の生成,通信スペクトルの割り当てなど,様々な非凸問題に適用し,他の初期化手法よりも一貫した利得を示す。

Non-convex optimization problems are challenging to solve; the success and computational expense of a gradient descent algorithm or variant depend heavily on the initialization strategy. Often, either random initialization is used or initialization rules are carefully designed by exploiting the nature of the problem class. As a simple alternative to hand-crafted initialization rules, we propose an approach for learning "good" initialization rules from previous solutions. We provide theoretical guarantees that establish conditions that are sufficient in all cases and also necessary in some under which our approach performs better than random initialization. We apply our methodology to various non-convex problems such as generating adversarial examples, generating post hoc explanations for black-box machine learning models, and allocating communication spectrum, and show consistent gains over other initialization techniques.
翻訳日:2021-04-26 07:41:29 公開日:2020-12-22
# 分布ロバスト学習のための不偏勾配推定

Unbiased Gradient Estimation for Distributionally Robust Learning ( http://arxiv.org/abs/2012.12367v1 )

ライセンス: Link先を確認
Soumyadip Ghosh and Mark Squillante(参考訳) モデル一般化を改善するために,確率的勾配降下を外的最小化問題に適用する分布的ロバスト学習(drl)に基づく新しいアプローチを検討する。 本アルゴリズムは,マルチレベルモンテカルロランダム化による内部最大化問題の勾配を効率的に推定する。 標準勾配推定器が故障した理由に関する理論的結果を活用して,計算時間と統計分散の基本的なトレードオフを両立する手法の勾配推定器の最適パラメータ化を定式化する。 数値実験により、我々のDRLアプローチは以前の研究よりも大きな利益をもたらすことが示された。

Seeking to improve model generalization, we consider a new approach based on distributionally robust learning (DRL) that applies stochastic gradient descent to the outer minimization problem. Our algorithm efficiently estimates the gradient of the inner maximization problem through multi-level Monte Carlo randomization. Leveraging theoretical results that shed light on why standard gradient estimators fail, we establish the optimal parameterization of the gradient estimators of our approach that balances a fundamental tradeoff between computation time and statistical variance. Numerical experiments demonstrate that our DRL approach yields significant benefits over previous work.
翻訳日:2021-04-26 07:40:48 公開日:2020-12-22
# フラクタル次元一般化尺度

Fractal Dimension Generalization Measure ( http://arxiv.org/abs/2012.12384v1 )

ライセンス: Link先を確認
Valeri Alexiev(参考訳) 機械学習モデルのパフォーマンスに対する堅牢な一般化尺度の開発は、重要かつ困難な課題である。 この分野の最近の多くの研究は、一般化を予測する際のモデル決定境界に焦点を当てている。 本稿では,「深層学習における予測的一般化」の競争の一環として,フラクタル次元の概念を用いて決定境界の複雑さを分析し,その手法に基づく一般化尺度を開発する。

Developing a robust generalization measure for the performance of machine learning models is an important and challenging task. A lot of recent research in the area focuses on the model decision boundary when predicting generalization. In this paper, as part of the "Predicting Generalization in Deep Learning" competition, we analyse the complexity of decision boundaries using the concept of fractal dimension and develop a generalization measure based on that technique.
翻訳日:2021-04-26 07:40:38 公開日:2020-12-22
# ソフトウェア生成点雲からの平面方向の自動抽出システムに向けて

Towards an Automatic System for Extracting Planar Orientations from Software Generated Point Clouds ( http://arxiv.org/abs/2012.11780v1 )

ライセンス: Link先を確認
J. Kissi-Ameyaw, K. McIsaac, X. Wang, G. R. Osinski(参考訳) 地質学における重要な活動は、ストライク、ディップ、ディップ方向などの平面方位測定を用いて地質構造(地表形成トポロジーと岩石ユニット)を特徴付けることである。 一般に、これらの測定は手動で手動で収集され、通常はコンパス/傾斜計とバックボードが手動で地図に記録される。 lidarのような様々なコンピューティング技術や技術がこのプロセスを自動化し、これらの種類の測定のための収集パラダイムを更新するために利用されてきた。 structure from motion (sfm) のような技法は、入力画像から点雲を生成してシーンやオブジェクトを再構築し、デシメットスケールで詳細な再構築を可能にする。 SfM方式の手法は、より多様な環境条件下でのコストとユーザビリティの面での利点を提供する。 本稿では,向き測定の自動化を目的とした,データ取得手法と機械学習に基づくソフトウェアシステムgeostructureを提案する。 ハフ変換などの入力画像に適用した手法を用いて測定を導出するのではなく、再構成された点雲面から直接測定を行う。 マハラノビス距離実装を用いて点雲ノイズを緩和する。 k-アネレスト近傍領域成長アルゴリズムを用いて重要な構造を特徴づけ、平面と通常の方向コサインを用いて最終表面の向きを定量化する。

In geology, a key activity is the characterisation of geological structures (surface formation topology and rock units) using Planar Orientation measurements such as Strike, Dip and Dip Direction. In general these measurements are collected manually using basic equipment; usually a compass/clinometer and a backboard, recorded on a map by hand. Various computing techniques and technologies, such as Lidar, have been utilised in order to automate this process and update the collection paradigm for these types of measurements. Techniques such as Structure from Motion (SfM) reconstruct of scenes and objects by generating a point cloud from input images, with detailed reconstruction possible on the decimetre scale. SfM-type techniques provide advantages in areas of cost and usability in more varied environmental conditions, while sacrificing the extreme levels of data fidelity. Here is presented a methodology of data acquisition and a Machine Learning-based software system: GeoStructure, developed to automate the measurement of orientation measurements. Rather than deriving measurements using a method applied to the input images, such as the Hough Transform, this method takes measurements directly from the reconstructed point cloud surfaces. Point cloud noise is mitigated using a Mahalanobis distance implementation. Significant structure is characterised using a k-nearest neighbour region growing algorithm, and final surface orientations are quantified using the plane, and normal direction cosines.
翻訳日:2021-04-26 07:40:32 公開日:2020-12-22
# ドメイン適応のための意味表現の学習

Learning Disentangled Semantic Representation for Domain Adaptation ( http://arxiv.org/abs/2012.11807v1 )

ライセンス: Link先を確認
Ruichu Cai, Zijian Li, Pengfei Wei, Jie Qiao, Kun Zhang, Zhifeng Hao(参考訳) ドメイン適応は重要だが難しいタスクである。 既存のドメイン適応手法のほとんどは、ドメイン情報と意味情報を絡んで特徴空間上のドメイン不変表現を抽出するのに苦労している。 先行研究であるエンタングル特徴空間と異なり,データの潜在的不連続意味表現(dsr)におけるドメイン不変意味情報を抽出することを目的としている。 DSRでは、データ生成プロセスは2つの独立した変数、すなわちセマンティック潜在変数とドメイン潜在変数によって制御されると仮定する。 この仮定では,データの背後にあるセマンティック潜伏変数とドメイン潜伏変数を再構成するために,変分自動エンコーダを用いる。 さらに,これら2組の潜在変数を分離するために,二重逆ネットワークを考案する。 アンタングル化されたセマンティック潜伏変数は最終的に各ドメインに適応する。 実験により,本モデルがいくつかの領域適応ベンチマークデータセットの最先端性能を示すことが示された。

Domain adaptation is an important but challenging task. Most of the existing domain adaptation methods struggle to extract the domain-invariant representation on the feature space with entangling domain information and semantic information. Different from previous efforts on the entangled feature space, we aim to extract the domain invariant semantic information in the latent disentangled semantic representation (DSR) of the data. In DSR, we assume the data generation process is controlled by two independent sets of variables, i.e., the semantic latent variables and the domain latent variables. Under the above assumption, we employ a variational auto-encoder to reconstruct the semantic latent variables and domain latent variables behind the data. We further devise a dual adversarial network to disentangle these two sets of reconstructed latent variables. The disentangled semantic latent variables are finally adapted across the domains. Experimental studies testify that our model yields state-of-the-art performance on several domain adaptation benchmark datasets.
翻訳日:2021-04-26 07:40:08 公開日:2020-12-22
# dual-encoder bidirectional generative adversarial network for anomaly detection

Dual-encoder Bidirectional Generative Adversarial Networks for Anomaly Detection ( http://arxiv.org/abs/2012.11834v1 )

ライセンス: Link先を確認
Teguh Budianto, Tomohiro Nakai, Kazunori Imoto, Takahiro Takimoto, Kosuke Haruki(参考訳) GAN(Generative Adversarial Network)は、異常検出を含む様々な問題に対して、将来性を示す。 正常なデータサンプルの特徴のみを学習するGANモデルを用いて異常検出を行うと、正常なデータと類似しないデータが異常サンプルとして検出される。 本手法は,ジェネレータと識別器ネットワークを同時にトレーニングする双方向GANアーキテクチャにおいて,デュアルエンコーダを用いて開発する。 本手法は, 正常試料と異常試料との大きな差を伴って, 双方向のGANがサンプルを再現できないという, 悪循環整合性の問題を軽減することを目的としている。 サンプルデータの十分な情報を保存できない場合、悪いサイクル一貫性が発生すると仮定する。 提案手法が正常試料の分布を捉えるのに有効であることを示し,ganモデルにおける異常検出を改善した。 脳磁気共鳴画像異常検出システムへの応用を含む,公開データセットに本手法を適用した実験を報告する。

Generative adversarial networks (GANs) have shown promise for various problems including anomaly detection. When anomaly detection is performed using GAN models that learn only the features of normal data samples, data that are not similar to normal data are detected as abnormal samples. The present approach is developed by employing a dual-encoder in a bidirectional GAN architecture that is trained simultaneously with a generator and a discriminator network. Through the learning mechanism, the proposed method aims to reduce the problem of bad cycle consistency, in which a bidirectional GAN might not be able to reproduce samples with a large difference between normal and abnormal samples. We assume that bad cycle consistency occurs when the method does not preserve enough information of the sample data. We show that our proposed method performs well in capturing the distribution of normal samples, thereby improving anomaly detection on GAN-based models. Experiments are reported in which our method is applied to publicly available datasets, including application to a brain magnetic resonance imaging anomaly detection system.
翻訳日:2021-04-26 07:39:53 公開日:2020-12-22
# 深部CNNと双方向Gated Recurrent Unitを用いたベンガリカプセル生成

Image to Bengali Caption Generation Using Deep CNN and Bidirectional Gated Recurrent Unit ( http://arxiv.org/abs/2012.12139v1 )

ライセンス: Link先を確認
Al Momin Faruk, Hasan Al Faraby, Md. Muzahidul Azad, Md. Riduyan Fedous, Md. Kishor Morol(参考訳) ベンガル語の記述の生成に関する注目すべき研究はほとんどない。 ベンガルでは約2億2300万人が話し、世界で7番目に話されている言語である。 本研究の目的は,ベンガル語における自然言語キャプションを画像から生成するCNNおよび双方向GRUアーキテクチャモデルを提案することである。 ベンガルの人々はこの研究を使って言語障壁を破り、互いの視点をよりよく理解することができる。 また、多くの盲人の日常生活にも役立ちます。 本稿ではエンコーダ・デコーダ法を用いてキャプションを生成する。 inceptonv3image embedded modelと呼ばれる,事前学習された深層畳み込みニューラルネットワーク(dcnn)を解析,分類,アノテーションのためのエンコーダとして使用し,キャプションを生成する。 argmax と beam search はキャプションの最も高い品質を生み出すために使用される。 BNATUREと呼ばれる新しいデータセットは、8000の画像と5つのキャプションからなる。 提案したモデルのトレーニングとテストに使用される。 BLEU-1,BLEU-2,BLEU-3,BLEU-4,Meteorはそれぞれ42.6,27.95,23,66,16.41,28.7であった。

There is very little notable research on generating descriptions of the Bengali language. About 243 million people speak in Bengali, and it is the 7th most spoken language on the planet. The purpose of this research is to propose a CNN and Bidirectional GRU based architecture model that generates natural language captions in the Bengali language from an image. Bengali people can use this research to break the language barrier and better understand each other's perspectives. It will also help many blind people with their everyday lives. This paper used an encoder-decoder approach to generate captions. We used a pre-trained Deep convolutional neural network (DCNN) called InceptonV3image embedding model as the encoder for analysis, classification, and annotation of the dataset's images Bidirectional Gated Recurrent unit (BGRU) layer as the decoder to generate captions. Argmax and Beam search is used to produce the highest possible quality of the captions. A new dataset called BNATURE is used, which comprises 8000 images with five captions per image. It is used for training and testing the proposed model. We obtained BLEU-1, BLEU-2, BLEU-3, BLEU-4 and Meteor is 42.6, 27.95, 23, 66, 16.41, 28.7 respectively.
翻訳日:2021-04-26 07:39:38 公開日:2020-12-22
# FracBNN: フラクショナルアクティベーションを持つFPGA効率の良い2元ニューラルネットワーク

FracBNN: Accurate and FPGA-Efficient Binary Neural Networks with Fractional Activations ( http://arxiv.org/abs/2012.12206v1 )

ライセンス: Link先を確認
Yichi Zhang and Junhao Pan and Xinheng Liu and Hongzheng Chen and Deming Chen and Zhiru Zhang(参考訳) binary neural network (bnns) は1ビットの重みとアクティベーションを持つ。 このようなネットワークはFPGAに適しており、その支配的な計算はビット演算であり、メモリ要求も大幅に削減される。 しかしながら、最先端のコンパクト畳み込みニューラルネットワーク(CNN)モデルと比較して、BNNはImageNetのような現実的なデータセットよりもはるかに精度が低い傾向にある。 さらに、BNNの入力層は、従来は二項化から除外され、大きな精度損失を避けるため、徐々に大きな計算ボトルネックとなっている。 本研究は,BNNの精度を大幅に向上させるために,FracBNNを提案する。 具体的には、2ビットまでの機能を2倍精度で計算するために2倍精度のアクティベーションスキームを用いる。 我々は、新しい温度計エンコーディングを用いて入力層をさらにバイナライズする。 全体として、FracBNNは、すべての畳み込み層が純粋なバイナリMAC操作(BMAC)で計算される従来のBNNの重要な利点を保っている。 我々は、分数活性化をサポートする新しいBNNモデルのためのFPGAベースの効率的なアクセラレータを設計する。 資源制約シナリオ下でのFracBNNの性能を評価するため,組み込みFPGA(Xilinx Ultra96v2)上に最適化されたネットワークアーキテクチャを実装した。 ImageNet上での実験では、FracBNNがMobileNetV2に匹敵する精度を達成し、FPGA上で最もよく知られているBNN設計を上回り、トップ1の精度が28.9%向上し、モデルサイズが2.5倍削減された。 FracBNNは、最近導入されたBNNモデルでも、同じモデルサイズを使用しながら、トップ1の精度が2.4%向上している。 組み込みFPGAデバイス上でFracBNNはリアルタイム画像分類機能を示す。

Binary neural networks (BNNs) have 1-bit weights and activations. Such networks are well suited for FPGAs, as their dominant computations are bitwise arithmetic and the memory requirement is also significantly reduced. However, compared to start-of-the-art compact convolutional neural network (CNN) models, BNNs tend to produce a much lower accuracy on realistic datasets such as ImageNet. In addition, the input layer of BNNs has gradually become a major compute bottleneck, because it is conventionally excluded from binarization to avoid a large accuracy loss. This work proposes FracBNN, which exploits fractional activations to substantially improve the accuracy of BNNs. Specifically, our approach employs a dual-precision activation scheme to compute features with up to two bits, using an additional sparse binary convolution. We further binarize the input layer using a novel thermometer encoding. Overall, FracBNN preserves the key benefits of conventional BNNs, where all convolutional layers are computed in pure binary MAC operations (BMACs). We design an efficient FPGA-based accelerator for our novel BNN model that supports the fractional activations. To evaluate the performance of FracBNN under a resource-constrained scenario, we implement the entire optimized network architecture on an embedded FPGA (Xilinx Ultra96v2). Our experiments on ImageNet show that FracBNN achieves an accuracy comparable to MobileNetV2, surpassing the best-known BNN design on FPGAs with an increase of 28.9% in top-1 accuracy and a 2.5x reduction in model size. FracBNN also outperforms a recently introduced BNN model with an increase of 2.4% in top-1 accuracy while using the same model size. On the embedded FPGA device, FracBNN demonstrates the ability of real-time image classification.
翻訳日:2021-04-26 07:39:14 公開日:2020-12-22
# 不可逆例:ロバストビジョンのためのオブジェクト設計

Unadversarial Examples: Designing Objects for Robust Vision ( http://arxiv.org/abs/2012.12235v1 )

ライセンス: Link先を確認
Hadi Salman, Andrew Ilyas, Logan Engstrom, Sai Vemprala, Aleksander Madry, Ashish Kapoor(参考訳) 本研究では,認識対象の設計に影響を与えることができる現実的コンピュータビジョン設定のクラスについて検討する。 我々は、この能力を活用して、視覚モデルの性能と堅牢性を大幅に改善するフレームワークを開発する。 このフレームワークは、現代の機械学習アルゴリズムの感度を利用して摂動を入力し、"ロバストオブジェクト"すなわち、確実に検出または分類するように明示的に最適化されたオブジェクトを設計する。 本稿では,標準ベンチマークからシミュレーションロボット,実世界実験に至るまで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。 私たちのコードはhttps://git.io/unadversarial.orgで参照できます。

We study a class of realistic computer vision settings wherein one can influence the design of the objects being recognized. We develop a framework that leverages this capability to significantly improve vision models' performance and robustness. This framework exploits the sensitivity of modern machine learning algorithms to input perturbations in order to design "robust objects," i.e., objects that are explicitly optimized to be confidently detected or classified. We demonstrate the efficacy of the framework on a wide variety of vision-based tasks ranging from standard benchmarks, to (in-simulation) robotics, to real-world experiments. Our code can be found at https://git.io/unadversarial .
翻訳日:2021-04-26 07:38:45 公開日:2020-12-22
# カーネル近似による大域最小値の探索

Finding Global Minima via Kernel Approximations ( http://arxiv.org/abs/2012.11978v1 )

ライセンス: Link先を確認
Alessandro Rudi and Ulysse Marteau-Ferey and Francis Bach(参考訳) 関数評価のみに基づく滑らかな関数のグローバル最小化を考える。 与えられた精度レベルでの最適関数評価数を達成するアルゴリズムは、通常関数の近似を明示的に構築し、指数関数の実行時間複雑性を持つアルゴリズムで最小化する。 本稿では,近似関数を共同でモデル化し,大域的最小値を求める手法を検討する。 これは正方形滑らかな関数の無限和を使い、多項式和の階層と強い関係を持つ。 再生カーネルヒルベルト空間の最近の表現特性を活用し、無限次元最適化問題は、関数評価の数で時間多項式をサブサンプリングし、得られた最小値について理論的に保証することで解決できる。 n$ のサンプルが与えられると、計算コストは o(n^{3.5})$ であり、空間では $o(n^2)$ であり、大域的最適値への収束率は $o(n^{-m/d + 1/2 + 3/d})$ である。 ソボレフ関数の場合、この速度はほぼ最適であり、より一般的には、提案法は、多くの微分を持つ関数に特に適している。 実際、$m$が$d$の順序にあるとき、大域的な最適値への収束率は次元性の呪いに悩まされない。

We consider the global minimization of smooth functions based solely on function evaluations. Algorithms that achieve the optimal number of function evaluations for a given precision level typically rely on explicitly constructing an approximation of the function which is then minimized with algorithms that have exponential running-time complexity. In this paper, we consider an approach that jointly models the function to approximate and finds a global minimum. This is done by using infinite sums of square smooth functions and has strong links with polynomial sum-of-squares hierarchies. Leveraging recent representation properties of reproducing kernel Hilbert spaces, the infinite-dimensional optimization problem can be solved by subsampling in time polynomial in the number of function evaluations, and with theoretical guarantees on the obtained minimum. Given $n$ samples, the computational cost is $O(n^{3.5})$ in time, $O(n^2)$ in space, and we achieve a convergence rate to the global optimum that is $O(n^{-m/d + 1/2 + 3/d})$ where $m$ is the degree of differentiability of the function and $d$ the number of dimensions. The rate is nearly optimal in the case of Sobolev functions and more generally makes the proposed method particularly suitable for functions that have a large number of derivatives. Indeed, when $m$ is in the order of $d$, the convergence rate to the global optimum does not suffer from the curse of dimensionality, which affects only the worst-case constants (that we track explicitly through the paper).
翻訳日:2021-04-26 07:38:21 公開日:2020-12-22
# Power-SLIC:ダイアグラムに基づくスーパーピクセル生成

Power-SLIC: Diagram-based superpixel generation ( http://arxiv.org/abs/2012.11772v1 )

ライセンス: Link先を確認
Maximilian Fiedler and Andreas Alpers(参考訳) 色や他の低レベル特性のピクセルをグループ化するスーパーピクセルアルゴリズムは、画像分割の前処理にますます使われている。 超画素の計算における一般的な重要な基準は、境界順守、速度、規則性である。 境界順守と正則性は通常矛盾した目標である。 最近のアルゴリズムは境界遵守の改善に重点を置いている。 本稿では,スーパーピクセルの正則性の向上を動機として,Power-Slicと呼ばれる図ベースのスーパーピクセル生成手法を提案する。 BSDS500データセットでは、Power-SLICはコンパクト性と境界精度の点で他の最先端アルゴリズムよりも優れており、その境界付着性はガウスノイズの様々なレベルに対して最も堅牢である。 スピードに関しては、Power-SlicはSLICと競合する。

Superpixel algorithms, which group pixels similar in color and other low-level properties, are increasingly used for pre-processing in image segmentation. Commonly important criteria for the computation of superpixels are boundary adherence, speed, and regularity. Boundary adherence and regularity are typically contradictory goals. Most recent algorithms have focused on improving boundary adherence. Motivated by improving superpixel regularity, we propose a diagram-based superpixel generation method called Power-SLIC. On the BSDS500 data set, Power-SLIC outperforms other state-of-the-art algorithms in terms of compactness and boundary precision, and its boundary adherence is the most robust against varying levels of Gaussian noise. In terms of speed, Power-SLIC is competitive with SLIC.
翻訳日:2021-04-26 07:37:54 公開日:2020-12-22
# COVID-19検出における深部不確実性予測の客観的評価

Objective Evaluation of Deep Uncertainty Predictions for COVID-19 Detection ( http://arxiv.org/abs/2012.11840v1 )

ライセンス: Link先を確認
Hamzeh Asgharnezhad, Afshar Shamsi, Roohallah Alizadehsani, Abbas Khosravi, Saeid Nahavandi, Zahra Alizadeh Sani, and Dipti Srinivasan(参考訳) ディープニューラルネットワーク(DNN)は、医療画像中の新型コロナウイルスの検出に広く応用されている。 既存の研究は主に、正確な点推定を生成するために転送学習やその他のデータ表現戦略を適用している。 これらのネットワークの一般化能力は、小さなデータセットを使用して開発され、予測信頼性を報告できないため、常に疑わしい。 DNN予測に関連する不確実性の定量化は、医療環境における信頼された展開の前提条件である。 胸部X線(CXR)画像を用いた3つの不確実性定量化手法の適用と評価を行った。 新たな不確実性乱雑行列の概念を提案し,不確実性推定の客観的評価のための新しい性能指標を提案する。 総合的な実験により,cxr画像に関連するネットワークが,imagenetなどの自然画像データセットで事前学習されたネットワークよりも優れていることを示した。 定性的かつ定量的な評価は、予測の不確実性推定が正しい予測よりも誤った予測に対して統計的に高いことを明らかにする。 したがって、不確実性定量化手法は、リスク予測を高い不確実性推定でフラグ付けすることができる。 また,アンサンブル法が推論中に不確実性をより確実に捉えることも観察した。

Deep neural networks (DNNs) have been widely applied for detecting COVID-19 in medical images. Existing studies mainly apply transfer learning and other data representation strategies to generate accurate point estimates. The generalization power of these networks is always questionable due to being developed using small datasets and failing to report their predictive confidence. Quantifying uncertainties associated with DNN predictions is a prerequisite for their trusted deployment in medical settings. Here we apply and evaluate three uncertainty quantification techniques for COVID-19 detection using chest X-Ray (CXR) images. The novel concept of uncertainty confusion matrix is proposed and new performance metrics for the objective evaluation of uncertainty estimates are introduced. Through comprehensive experiments, it is shown that networks pertained on CXR images outperform networks pretrained on natural image datasets such as ImageNet. Qualitatively and quantitatively evaluations also reveal that the predictive uncertainty estimates are statistically higher for erroneous predictions than correct predictions. Accordingly, uncertainty quantification methods are capable of flagging risky predictions with high uncertainty estimates. We also observe that ensemble methods more reliably capture uncertainties during the inference.
翻訳日:2021-04-26 07:37:43 公開日:2020-12-22
# 機械学習のための残留マトリックス製品状態

Residual Matrix Product State for Machine Learning ( http://arxiv.org/abs/2012.11841v1 )

ライセンス: Link先を確認
Ye-Ming Meng, Jing Zhang, Peng Zhang, Chao Gao and Shi-Ju Ran(参考訳) 量子物理学から派生したテンソルネットワーク(TN)は、古典的および量子機械学習(ML)において幅広い展望を示している。 しかし、TNと古典MLのための洗練されたニューラルネットワーク(NN)モデルの間には、かなりの精度のギャップがある。 TN MLがNNから技術を借りるなど、どこまで改善できるかはまだ解明されていない。 本稿では, 残留行列積状態 (ResMPS) と残留 NN のアイデアを組み合わせることで, 残留行列積状態 (ResMPS) を提案する。 ResMPSは、その層が「隠された」特徴を出力(例えば、分類)にマッピングするネットワークとして扱うことができ、層の変動パラメータはサンプルの特徴(例えば、画像のピクセル)の関数である。 これは本質的にNNと異なり、レイヤは出力に機能をフォワードにマップする。 ResMPSは、非線形活性化層とドロップアウト層を自然に組み込むことができ、効率、安定性、表現力において最先端のTNモデルより優れている。 さらに、ResMPSは多項式展開の観点から解釈可能であり、因数分解と指数機械が自然に現れる。 私たちの研究は、ニューラルネットワークとテンソルネットワークの接続とハイブリダイゼーションに寄与しています。

Tensor network (TN), which originates from quantum physics, shows broad prospects in classical and quantum machine learning (ML). However, there still exists a considerable gap of accuracy between TN and the sophisticated neural network (NN) models for classical ML. It is still elusive how far TN ML can be improved by, e.g., borrowing the techniques from NN. In this work, we propose the residual matrix product state (ResMPS) by combining the ideas of matrix product state (MPS) and residual NN. ResMPS can be treated as a network where its layers map the "hidden" features to the outputs (e.g., classifications), and the variational parameters of the layers are the functions of the features of samples (e.g., pixels of images). This is essentially different from NN, where the layers map feed-forwardly the features to the output. ResMPS can naturally incorporate with the non-linear activations and dropout layers, and outperforms the state-of-the-art TN models on the efficiency, stability, and expression power. Besides, ResMPS is interpretable from the perspective of polynomial expansion, where the factorization and exponential machines naturally emerge. Our work contributes to connecting and hybridizing neural and tensor networks, which is crucial to understand the working mechanisms further and improve both models' performances.
翻訳日:2021-04-26 07:37:26 公開日:2020-12-22
# 胸部ctを用いたcovid-19分類のための効率的かつ可視化可能な畳み込みニューラルネットワーク

Efficient and Visualizable Convolutional Neural Networks for COVID-19 Classification Using Chest CT ( http://arxiv.org/abs/2012.11860v1 )

ライセンス: Link先を確認
Aksh Garg, Sana Salehi, Marianna La Rocca, Rachael Garner, and Dominique Duncan(参考訳) 2019年の新型コロナウイルス(covid-19)は、2020年12月4日時点で世界で6500万人以上に感染し、世界は社会と経済の崩壊の危機に陥っている。 症例が急速に増加する中、深層学習は有望な診断技術として現れてきた。 しかし、異なる種類のデータと取得プロセスで得られた結果を比較するのは簡単ではないため、covid-19患者を特徴付ける最も正確なモデルを特定することは困難である。 本稿では、新型コロナウイルス診断のための40種類の畳み込みニューラルネットワークアーキテクチャを評価、比較し、新型コロナウイルス診断のためのEfficientNetファミリーを最初に検討した。 efficientnet-b5 は 0.9931+/-0.0021、f1 スコア 0.9931+/-0.0020、感度 0.9952+/-0.0020、特異度 0.9912+/-0.0048 の最良のモデルである。 中間活性化マップと勾配重み付けクラスアクティベーションマッピングは、モデルが基底クラスの不透明さと統合を認識していることの人間の解釈可能な証拠を提供する。

The novel 2019 coronavirus disease (COVID-19) has infected over 65 million people worldwide as of December 4, 2020, pushing the world to the brink of social and economic collapse. With cases rising rapidly, deep learning has emerged as a promising diagnosis technique. However, identifying the most accurate models to characterize COVID-19 patients is challenging because comparing results obtained with different types of data and acquisition processes is non-trivial. In this paper, we evaluated and compared 40 different convolutional neural network architectures for COVID-19 diagnosis, serving as the first to consider the EfficientNet family for COVID-19 diagnosis. EfficientNet-B5 is identified as the best model with an accuracy of 0.9931+/-0.0021, F1 score of 0.9931+/-0.0020, sensitivity of 0.9952+/-0.0020, and specificity of 0.9912+/-0.0048. Intermediate activation maps and Gradient-weighted Class Activation Mappings offer human-interpretable evidence of the model's perception of ground-class opacities and consolidations, hinting towards a promising use-case of artificial intelligence-assisted radiology tools.
翻訳日:2021-04-26 07:37:03 公開日:2020-12-22
# 工学的ポイントスプレッド関数を用いた画像の深層学習に基づく仮想再焦点

Deep learning-based virtual refocusing of images using an engineered point-spread function ( http://arxiv.org/abs/2012.11892v1 )

ライセンス: Link先を確認
Xilin Yang, Luzhe Huang, Yilin Luo, Yichen Wu, Hongda Wang, Yair Rivenson, and Aydogan Ozcan(参考訳) 本稿では,DH-PSF(Double-helix point-spread function)とカスケードニューラルネットワークによって実現された拡張深度(DOF)上の仮想画像再焦点法を提案する。 このネットワークモデルはW-Netと呼ばれ、2つのカスケードジェネレータと識別器ネットワークペアで構成されている。 第1のジェネレータネットワークは、入力画像をユーザ定義平面に仮想的に再フォーカスし、第2のジェネレータは、出力画像の横分解能を改善して、クロスモダリティ画像変換を行うように学習する。 DH-PSF技術を用いたこのW-Netモデルを用いて、蛍光顕微鏡のDOFを約20倍拡張する。 本手法は,psfsを用いて空間分解能や体積撮像スループットなどの画像性能を向上させるために,深層学習可能な局所顕微鏡のための画像再構成手法の開発に応用できる。

We present a virtual image refocusing method over an extended depth of field (DOF) enabled by cascaded neural networks and a double-helix point-spread function (DH-PSF). This network model, referred to as W-Net, is composed of two cascaded generator and discriminator network pairs. The first generator network learns to virtually refocus an input image onto a user-defined plane, while the second generator learns to perform a cross-modality image transformation, improving the lateral resolution of the output image. Using this W-Net model with DH-PSF engineering, we extend the DOF of a fluorescence microscope by ~20-fold. This approach can be applied to develop deep learning-enabled image reconstruction methods for localization microscopy techniques that utilize engineered PSFs to improve their imaging performance, including spatial resolution and volumetric imaging throughput.
翻訳日:2021-04-26 07:36:41 公開日:2020-12-22
# 磁気共鳴画像を用いた深層学習による脳腫瘍自動分割の可能性の検討

A Feasibility study for Deep learning based automated brain tumor segmentation using Magnetic Resonance Images ( http://arxiv.org/abs/2012.11952v1 )

ライセンス: Link先を確認
Shanaka Ramesh Gunasekara, HNTK Kaldera, Maheshi B. Dissanayake(参考訳) 深層学習アルゴリズムは、医療画像解析、解釈、セグメンテーションにおける人工知能の研究の急速な加速に寄与しており、医学の様々なサブ分野にまたがる潜在的な応用が考えられる。 しかし、実際の要件とモデル展開の実践的課題を評価するため、臨床分野に導入されるのは、これらの応用シナリオを調査する限られた研究のみである。 本研究では,脳腫瘍MR画像の分類と腫瘍の局在化のために,深部畳み込みニューラルネットワーク(CNN)に基づく分類網と高速RCNNに基づく局所化ネットワークを開発した。 Prewittと呼ばれる典型的なエッジ検出アルゴリズムは、腫瘍局在の出力に基づいて、腫瘍セグメンテーションタスクに使用された。 提案した腫瘍セグメンテーションアーキテクチャの全体的な性能を,精度,境界変位誤差(BDE),Diceスコア,信頼区間などの客観的品質パラメータを用いて解析した。 このモデルの主観的品質評価は、医療専門知識の入力を用いたDouble Stimulus Impairment Scale (DSIS)プロトコルに基づいて行われた。 セグメント化されたアウトプットの信頼性レベルは、専門家のそれと同じような範囲にあることが観察されました。 また、神経学者はモデルの出力を高精度なセグメンテーションとして評価しました。

Deep learning algorithms have accounted for the rapid acceleration of research in artificial intelligence in medical image analysis, interpretation, and segmentation with many potential applications across various sub disciplines in medicine. However, only limited number of research which investigates these application scenarios, are deployed into the clinical sector for the evaluation of the real requirement and the practical challenges of the model deployment. In this research, a deep convolutional neural network (CNN) based classification network and Faster RCNN based localization network were developed for brain tumor MR image classification and tumor localization. A typical edge detection algorithm called Prewitt was used for tumor segmentation task, based on the output of the tumor localization. Overall performance of the proposed tumor segmentation architecture, was analyzed using objective quality parameters including Accuracy, Boundary Displacement Error (BDE), Dice score and confidence interval. A subjective quality assessment of the model was conducted based on the Double Stimulus Impairment Scale (DSIS) protocol using the input of medical expertise. It was observed that the confidence level of our segmented output was in a similar range to that of experts. Also, the Neurologists have rated the output of our model as highly accurate segmentation.
翻訳日:2021-04-26 07:36:26 公開日:2020-12-22
# 大規模電子顕微鏡画像のパターン発見のための教師なし学習による潜在特徴表現

Latent Feature Representation via Unsupervised Learning for Pattern Discovery in Massive Electron Microscopy Image Volumes ( http://arxiv.org/abs/2012.12175v1 )

ライセンス: Link先を確認
Gary B Huang and Huei-Fang Yang and Shin-ya Takemura and Pat Rivlin and Stephen M Plaza(参考訳) 本稿では,新しい大規模データセットの探索と解析を容易にする手法を提案する。 特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。 中心となるアイデアは、意味的意味を保存するデータ拡張を使用して、特徴表現が互いに近いべき要素の合成例を生成することだ。 動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。 教師付き手法は既知の関心のあるパターンの予測と識別に使用できるが、データのスケールは、事前性が知られていないパターンの発掘と分析を困難にする。 学習した表現が例によってクエリを可能にする能力を示すので、科学者がデータ中の興味深いパターンに気付くと、一致するパターンで他の場所に表示できる。 また、学習空間におけるデータのクラスタリングは生物学的に意味のある区別と相関することを示した。 最後に、ユーザフレンドリなインタラクティブ分析と興味深い生物学的パターンの発見を容易にする可視化ツールとソフトウェアエコシステムを導入する。 要するに、我々の研究は、EM分析などの領域で生じる大規模なデータセットの理解と発見の新たな道を開く。

We propose a method to facilitate exploration and analysis of new large data sets. In particular, we give an unsupervised deep learning approach to learning a latent representation that captures semantic similarity in the data set. The core idea is to use data augmentations that preserve semantic meaning to generate synthetic examples of elements whose feature representations should be close to one another. We demonstrate the utility of our method applied to nano-scale electron microscopy data, where even relatively small portions of animal brains can require terabytes of image data. Although supervised methods can be used to predict and identify known patterns of interest, the scale of the data makes it difficult to mine and analyze patterns that are not known a priori. We show the ability of our learned representation to enable query by example, so that if a scientist notices an interesting pattern in the data, they can be presented with other locations with matching patterns. We also demonstrate that clustering of data in the learned space correlates with biologically-meaningful distinctions. Finally, we introduce a visualization tool and software ecosystem to facilitate user-friendly interactive analysis and uncover interesting biological patterns. In short, our work opens possible new avenues in understanding of and discovery in large data sets, arising in domains such as EM analysis.
翻訳日:2021-04-26 07:36:05 公開日:2020-12-22
# ジェネレーティブ・ディバイサル・ネットワークを用いた教師なし領域拡張による病理組織像の不変性に向けて

Towards Histopathological Stain Invariance by Unsupervised Domain Augmentation using Generative Adversarial Networks ( http://arxiv.org/abs/2012.12413v1 )

ライセンス: Link先を確認
Jelica Vasiljevi\'c and Friedrich Feuerhake and C\'edric Wemmert and Thomas Lampert(参考訳) デジタル病理学における教師付き深層学習法の適用はドメインシフトに対する感度によって制限されている。 デジタル病理学は、異なる染色プロトコルで染色された複数の連続した組織部分を評価する一般的な慣行を含む、多くの情報源により、高いばらつきを生じやすい領域である。 各染色のラベルを取得するのは非常に高価で、高いレベルのドメイン知識を必要とするため、時間がかかります。 本稿では,steit invariant supervised convolutional neural networksの学習を容易にする,逆画像から画像への変換に基づく教師なし拡張手法を提案する。 ネットワークを1つの一般的な染色モダリティでトレーニングし、対応するが異なる染色組織構造を含む画像に適用することにより、他の手法よりも大幅に改善されたことを示す。 これらの利点は、7つの異なる染色モード(PAS、Jones H&E、CD68、Sirius Red、CD34、H&E、CD3)における糸球体セグメンテーションの問題と、学習された表現の解析がそれらの染色不変性を示している。

The application of supervised deep learning methods in digital pathology is limited due to their sensitivity to domain shift. Digital Pathology is an area prone to high variability due to many sources, including the common practice of evaluating several consecutive tissue sections stained with different staining protocols. Obtaining labels for each stain is very expensive and time consuming as it requires a high level of domain knowledge. In this article, we propose an unsupervised augmentation approach based on adversarial image-to-image translation, which facilitates the training of stain invariant supervised convolutional neural networks. By training the network on one commonly used staining modality and applying it to images that include corresponding, but differently stained, tissue structures, the presented method demonstrates significant improvements over other approaches. These benefits are illustrated in the problem of glomeruli segmentation in seven different staining modalities (PAS, Jones H&E, CD68, Sirius Red, CD34, H&E and CD3) and analysis of the learned representations demonstrate their stain invariance.
翻訳日:2021-04-26 07:35:45 公開日:2020-12-22
# 物理層におけるルーティングとスペクトルアクセスのためのスケーラブル深層強化学習

Scalable Deep Reinforcement Learning for Routing and Spectrum Access in Physical Layer ( http://arxiv.org/abs/2012.11783v1 )

ライセンス: Link先を確認
Wei Cui and Wei Yu(参考訳) 本稿では,無線アドホックネットワークにおける同時ルーティングとスペクトルアクセスのための新しいスケーラブルな強化学習手法を提案する。 ネットワーク最適化のための強化学習において、ルーティングとスペクトルアクセスは別個のタスクとして取り組まれている。さらに、ネットワーク内の無線リンクは修正され、各送信ノードに対して異なるエージェントがトレーニングされる。 本稿では,物理層内の信号-干渉-余剰雑音比(SINR)について考察し,単一エージェントが各フローに関連付けられたよりスケーラブルなアプローチを提案する。 具体的には、単一のエージェントが各フローのフロンティアノードに沿って移動するとき、すべてのルーティングとスペクトルアクセスを決定する。 エージェントは、将来のボトルネックSINRを新たな報酬定義として利用して、環境の物理層特性に応じて訓練される。 これにより、無線アドホックネットワーク内のノードの地理的位置に基づく、極めて効果的なルーティング戦略が可能になる。 提案した深層強化学習戦略は,リンク間の相互干渉を考慮できる。 スペクトルスロットをインテリジェントに割り当て、ネットワーク全体のルーティング決定をスケーラブルにすることで、干渉を避けることができる。

This paper proposes a novel and scalable reinforcement learning approach for simultaneous routing and spectrum access in wireless ad-hoc networks. In most previous works on reinforcement learning for network optimization, routing and spectrum access are tackled as separate tasks; further, the wireless links in the network are assumed to be fixed, and a different agent is trained for each transmission node -- this limits scalability and generalizability. In this paper, we account for the inherent signal-to-interference-plus-noise ratio (SINR) in the physical layer and propose a more scalable approach in which a single agent is associated with each flow. Specifically, a single agent makes all routing and spectrum access decisions as it moves along the frontier nodes of each flow. The agent is trained according to the physical layer characteristics of the environment using the future bottleneck SINR as a novel reward definition. This allows a highly effective routing strategy based on the geographic locations of the nodes in the wireless ad-hoc network. The proposed deep reinforcement learning strategy is capable of accounting for the mutual interference between the links. It learns to avoid interference by intelligently allocating spectrum slots and making routing decisions for the entire network in a scalable manner.
翻訳日:2021-04-26 07:35:25 公開日:2020-12-22
# 高エネルギー物理データ解析のための量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks for High Energy Physics Data Analysis ( http://arxiv.org/abs/2012.12177v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Tzu-Chieh Wei, Chao Zhang, Haiwang Yu, Shinjae Yoo(参考訳) 本研究では、高エネルギー物理事象の分類のための量子畳み込みニューラルネットワーク(QCNN)を提案する。 提案モデルは,Deep Underground Neutrino Experimentのシミュレーションデータセットを用いて実験を行う。 提案するアーキテクチャは、従来の畳み込みニューラルネットワーク(cnns)よりも、同じ数のパラメータで高速に学習する量子的な利点を示す。 より高速な収束に加えて、QCNNはCNNよりも高いテスト精度を達成する。 実験結果に基づいて、QCNNや他の量子機械学習モデルの高エネルギー物理学および追加の科学分野への応用を研究する上で有望な方向である。

This work presents a quantum convolutional neural network (QCNN) for the classification of high energy physics events. The proposed model is tested using a simulated dataset from the Deep Underground Neutrino Experiment. The proposed architecture demonstrates the quantum advantage of learning faster than the classical convolutional neural networks (CNNs) under a similar number of parameters. In addition to faster convergence, the QCNN achieves greater test accuracy compared to CNNs. Based on experimental results, it is a promising direction to study the application of QCNN and other quantum machine learning models in high energy physics and additional scientific fields.
翻訳日:2021-04-26 07:35:08 公開日:2020-12-22
# ロールガイドマスクを用いたマルチヘッドセルフアテンション

Multi-Head Self-Attention with Role-Guided Masks ( http://arxiv.org/abs/2012.12366v1 )

ライセンス: Link先を確認
Dongsheng Wang and Casper Hansen and Lucas Chaves Lima and Christian Hansen and Maria Maistro and Jakob Grue Simonsen and Christina Lioma(参考訳) 意味のある単語の意味表現を学ぶ技術の現状は、トランスフォーマーモデルとその注意のメカニズムである。 簡単に言えば、注意機構は、繰り返しや畳み込みを許容する入力の特定の部分に従うことを学ぶ。 学習された注意ヘッドのいくつかは言語的に解釈可能な役割を演じることが発見されているが、それらは冗長であるかエラーになりやすい。 本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。 私たちは、異なるヘッドが異なる役割を演じるようにデザインされるように、入力の特定の部分に頭を拘束するために、役割固有のマスクを定義します。 7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。

The state of the art in learning meaningful semantic representations of words is the Transformer model and its attention mechanisms. Simply put, the attention mechanisms learn to attend to specific parts of the input dispensing recurrence and convolutions. While some of the learned attention heads have been found to play linguistically interpretable roles, they can be redundant or prone to errors. We propose a method to guide the attention heads towards roles identified in prior work as important. We do this by defining role-specific masks to constrain the heads to attend to specific parts of the input, such that different heads are designed to play different roles. Experiments on text classification and machine translation using 7 different datasets show that our method outperforms competitive attention-based, CNN, and RNN baselines.
翻訳日:2021-04-26 07:34:24 公開日:2020-12-22
# 知識グラフの進化と保存 - ISWS 2019のテクニカルレポート

Knowledge Graphs Evolution and Preservation -- A Technical Report from ISWS 2019 ( http://arxiv.org/abs/2012.11936v1 )

ライセンス: Link先を確認
Nacira Abbas, Kholoud Alghamdi, Mortaza Alinam, Francesca Alloatti, Glenda Amaral, Claudia d'Amato, Luigi Asprino, Martin Beno, Felix Bensmann, Russa Biswas, Ling Cai, Riley Capshaw, Valentina Anita Carriero, Irene Celino, Amine Dadoun, Stefano De Giorgis, Harm Delva, John Domingue, Michel Dumontier, Vincent Emonet, Marieke van Erp, Paola Espinoza Arias, Omaima Fallatah, Sebasti\'an Ferrada, Marc Gallofr\'e Oca\~na, Michalis Georgiou, Genet Asefa Gesese, Frances Gillis-Webber, Francesca Giovannetti, Mar\`ia Granados Buey, Ismail Harrando, Ivan Heibi, Vitor Horta, Laurine Huber, Federico Igne, Mohamad Yaser Jaradeh, Neha Keshan, Aneta Koleva, Bilal Koteich, Kabul Kurniawan, Mengya Liu, Chuangtao Ma, Lientje Maas, Martin Mansfield, Fabio Mariani, Eleonora Marzi, Sepideh Mesbah, Maheshkumar Mistry, Alba Catalina Morales Tirado, Anna Nguyen, Viet Bach Nguyen, Allard Oelen, Valentina Pasqual, Heiko Paulheim, Axel Polleres, Margherita Porena, Jan Portisch, Valentina Presutti, Kader Pustu-Iren, Ariam Rivas Mendez, Soheil Roshankish, Sebastian Rudolph, Harald Sack, Ahmad Sakor, Jaime Salas, Thomas Schleider, Meilin Shi, Gianmarco Spinaci, Chang Sun, Tabea Tietz, Molka Tounsi Dhouib, Alessandro Umbrico, Wouter van den Berg, Weiqin Xu(参考訳) dagstuhl セミナー "knowledge graphs: new directions for knowledge representation on the semantic web" で議論された大きな課題の1つは、報告書で述べられている "public fair knowledge graph of everything: we see the creation of knowledge graphs to capture information about the wholety of a class of entities" である。 [...]この大きな課題は、常識の概念から位置に基づくエンティティまで、"あらゆるもの"の知識グラフを作成できるかどうかを問うことで、さらにこれを拡張します。 この知識グラフは、この膨大な知識を民主化するためのFAIR方式で「一般公開」されるべきである。 リンクされたオープンデータ(LOD)は1つの知識グラフであるが、あらゆるものの公的なFAIR知識グラフ(KG)に最も近い実現(おそらくは唯一のもの)である。 もちろん、LODはオープンおよびFAIR KGに関する研究仮説を実験し評価するためのユニークなテストベッドを提供する。 KGsに関する最も無視されたFAIR問題の1つは、その進化と長期保存である。 我々は、KGsの進化の保存と支援がどのような意味を持ち、これらの問題にどのように対処できるかを理解するために、この問題を調査したい。 明らかに、この問題は異なる視点からアプローチすることができ、新しい理論、オントロジー、メトリクス、戦略、手順などを含む様々なアプローチの開発を必要とする可能性がある。 本論文は,9つの学生チームが共同作業を行い,それぞれが上級研究者の指導を受け,国際セマンティックWeb研究学校(ISWS 2019)に通っていることを報告する。 各チームは、調査の主テーマとして、一連の研究質問によって裏付けられた知識グラフ進化の問題に対して、異なる視点を提供する。 さらに、彼らはKGの保存と進化の作業定義を提供する。

One of the grand challenges discussed during the Dagstuhl Seminar "Knowledge Graphs: New Directions for Knowledge Representation on the Semantic Web" and described in its report is that of a: "Public FAIR Knowledge Graph of Everything: We increasingly see the creation of knowledge graphs that capture information about the entirety of a class of entities. [...] This grand challenge extends this further by asking if we can create a knowledge graph of "everything" ranging from common sense concepts to location based entities. This knowledge graph should be "open to the public" in a FAIR manner democratizing this mass amount of knowledge." Although linked open data (LOD) is one knowledge graph, it is the closest realisation (and probably the only one) to a public FAIR Knowledge Graph (KG) of everything. Surely, LOD provides a unique testbed for experimenting and evaluating research hypotheses on open and FAIR KG. One of the most neglected FAIR issues about KGs is their ongoing evolution and long term preservation. We want to investigate this problem, that is to understand what preserving and supporting the evolution of KGs means and how these problems can be addressed. Clearly, the problem can be approached from different perspectives and may require the development of different approaches, including new theories, ontologies, metrics, strategies, procedures, etc. This document reports a collaborative effort performed by 9 teams of students, each guided by a senior researcher as their mentor, attending the International Semantic Web Research School (ISWS 2019). Each team provides a different perspective to the problem of knowledge graph evolution substantiated by a set of research questions as the main subject of their investigation. In addition, they provide their working definition for KG preservation and evolution.
翻訳日:2021-04-26 07:33:46 公開日:2020-12-22
# Oracle Plannerを使わずに不完全な情報ゲームを学ぶ

Learning to Play Imperfect-Information Games by Imitating an Oracle Planner ( http://arxiv.org/abs/2012.12186v1 )

ライセンス: Link先を確認
Rinu Boney, Alexander Ilin, Juho Kannala, Jarno Sepp\"anen(参考訳) 我々は,同時動作と大規模状態行動空間を備えたマルチプレイヤー不完全な情報ゲームをプレイする学習を検討する。 このような難易度の高いゲームに取り組む以前の試みは、主にモデルフリーの学習方法に重点を置いており、しばしば競合エージェントを作るのに数百年の経験を必要とする。 我々のアプローチはモデルに基づく計画に基づいている。 我々は、まず環境の全状態にアクセス可能な(oracle)プランナーを構築し、次にoracleの知識を(フォロー)エージェントに蒸留し、oracleの選択を模倣して不完全な情報ゲームをプレイするように訓練することで、部分的可観測性の問題に取り組む。 我々は,モンテカルロ木探索による計画が大規模な組合せ行動空間ではうまく機能しないことを示した。 そこで我々は,行動選択のための固定深度木探索と非結合型トンプソンサンプリングによる計画を提案する。 プランナーは衝突ロイヤリストとポンメルマンのゲームで効率的なプレイ戦略を発見でき、数百の戦闘を訓練してそれらを実践するのに成功した。

We consider learning to play multiplayer imperfect-information games with simultaneous moves and large state-action spaces. Previous attempts to tackle such challenging games have largely focused on model-free learning methods, often requiring hundreds of years of experience to produce competitive agents. Our approach is based on model-based planning. We tackle the problem of partial observability by first building an (oracle) planner that has access to the full state of the environment and then distilling the knowledge of the oracle to a (follower) agent which is trained to play the imperfect-information game by imitating the oracle's choices. We experimentally show that planning with naive Monte Carlo tree search does not perform very well in large combinatorial action spaces. We therefore propose planning with a fixed-depth tree search and decoupled Thompson sampling for action selection. We show that the planner is able to discover efficient playing strategies in the games of Clash Royale and Pommerman and the follower policy successfully learns to implement them by training on a few hundred battles.
翻訳日:2021-04-26 07:33:16 公開日:2020-12-22
# 深層q学習によるサブゴール選択による目標推論

Goal Reasoning by Selecting Subgoals with Deep Q-Learning ( http://arxiv.org/abs/2012.12335v1 )

ライセンス: Link先を確認
Carlos N\'u\~nez-Molina, Vladislav Nikolov, Ignacio Vellido, Juan Fern\'andez-Olivares(参考訳) 本研究では,オンライン実行システムのような厳密な制約を伴うシナリオに直面した場合のプランナーの負荷を軽減するために,深いq学習によるサブゴール選択を学習する目標推論手法を提案する。 我々は、CNNベースのゴール選択モジュールを設計し、標準的なゲーム環境上で学習し、異なるゲーム(計画領域)とレベル(計画問題)でテストし、その一般化能力を測定する。 その結果, 満足度の高いプランナと比較すると, いずれの手法も良好な品質のプランを見つけることができるが, 提案手法は計画時間を大幅に短縮する。 我々のアプローチは異なる種類のドメイン(ゲーム)にうまく適用でき、同じゲーム(ドメイン)の新しいレベル(問題)で評価した場合、優れた一般化特性を示します。

In this work we propose a goal reasoning method which learns to select subgoals with Deep Q-Learning in order to decrease the load of a planner when faced with scenarios with tight time restrictions, such as online execution systems. We have designed a CNN-based goal selection module and trained it on a standard video game environment, testing it on different games (planning domains) and levels (planning problems) to measure its generalization abilities. When comparing its performance with a satisfying planner, the results obtained show both approaches are able to find plans of good quality, but our method greatly decreases planning time. We conclude our approach can be successfully applied to different types of domains (games), and shows good generalization properties when evaluated on new levels (problems) of the same game (domain).
翻訳日:2021-04-26 07:32:24 公開日:2020-12-22
# マルチモーダル深層学習によるオンラインビデオ広告効果の予測

Predicting Online Video Advertising Effects with Multimodal Deep Learning ( http://arxiv.org/abs/2012.11851v1 )

ライセンス: Link先を確認
Jun Ikeda, Hiroyuki Seshime, Xueting Wang and Toshihiko Yamasaki(参考訳) ビデオ広告市場の拡大に伴い、ビデオ広告の効果を予測する研究が注目を集めている。 画像広告の効果予測は多く研究されているが、ビデオ広告の予測はいまだにほとんど研究されていない。 本研究では,ビデオ広告のクリックスルー率(CTR)を予測し,CTRを決定する要因を分析する手法を提案する。 本稿では,映像,テキスト,メタデータなどを含むオンラインビデオ広告のマルチモーダル性を生かして,効果を正確に予測するための最適化フレームワークを提案する。 特に、分類と連続という2種類のメタデータは適切に分離され、正規化される。 トレーニングデータがあまりリッチではないため,作業上重要なオーバーフィッティングを回避するために,追加の正規化レイヤが挿入される。 実験結果から,本手法の相関係数は0.695であり,ベースライン (0.487) に比べ有意に向上した。

With expansion of the video advertising market, research to predict the effects of video advertising is getting more attention. Although effect prediction of image advertising has been explored a lot, prediction for video advertising is still challenging with seldom research. In this research, we propose a method for predicting the click through rate (CTR) of video advertisements and analyzing the factors that determine the CTR. In this paper, we demonstrate an optimized framework for accurately predicting the effects by taking advantage of the multimodal nature of online video advertisements including video, text, and metadata features. In particular, the two types of metadata, i.e., categorical and continuous, are properly separated and normalized. To avoid overfitting, which is crucial in our task because the training data are not very rich, additional regularization layers are inserted. Experimental results show that our approach can achieve a correlation coefficient as high as 0.695, which is a significant improvement from the baseline (0.487).
翻訳日:2021-04-26 07:31:39 公開日:2020-12-22
# GuidedStyle:Atribute Knowledge Guided Style Manipulation for Semantic Face Editing (英語)

GuidedStyle: Attribute Knowledge Guided Style Manipulation for Semantic Face Editing ( http://arxiv.org/abs/2012.11856v1 )

ライセンス: Link先を確認
Xianxu Hou, Xiaokang Zhang, Linlin Shen, Zhihui Lai, Jun Wan(参考訳) 非条件生成型逆向ネットワーク(gans)による高品質で視覚的な顔画像の合成には大きな進歩があったが、セマンティックな顔編集を実現するために生成プロセスに対する制御が不足している。 さらに、ターゲット属性を編集しながら、他の顔情報を無修正に保つことは、依然として非常に困難である。 本稿では,画像生成過程を知識ネットワークで導くことによって,StyleGANのセマンティックな顔編集を実現するための新しい学習フレームワークである GuidedStyle を提案する。 さらに,StyleGANジェネレータのアテンション機構により,スタイル操作のための単一層を適応的に選択することができる。 その結果, 笑顔, 眼鏡, 性別, 口ひげ, 毛髪の色など, 様々な属性に沿って不規則で制御可能な編集を行うことができた。 質的および定量的な結果は,他のセマンティックフェース編集法と比較して,本手法の優位性を示すものである。 さらに,本モデルが実物や芸術的な顔編集にも適用可能であることを示し,強力な一般化能力を示す。

Although significant progress has been made in synthesizing high-quality and visually realistic face images by unconditional Generative Adversarial Networks (GANs), there still lacks of control over the generation process in order to achieve semantic face editing. In addition, it remains very challenging to maintain other face information untouched while editing the target attributes. In this paper, we propose a novel learning framework, called GuidedStyle, to achieve semantic face editing on StyleGAN by guiding the image generation process with a knowledge network. Furthermore, we allow an attention mechanism in StyleGAN generator to adaptively select a single layer for style manipulation. As a result, our method is able to perform disentangled and controllable edits along various attributes, including smiling, eyeglasses, gender, mustache and hair color. Both qualitative and quantitative results demonstrate the superiority of our method over other competing methods for semantic face editing. Moreover, we show that our model can be also applied to different types of real and artistic face editing, demonstrating strong generalization ability.
翻訳日:2021-04-26 07:31:23 公開日:2020-12-22
# 6次元ポッド推定のための3次元ポイントツーキーポイント投票ネットワーク

3D Point-to-Keypoint Voting Network for 6D Pose Estimation ( http://arxiv.org/abs/2012.11938v1 )

ライセンス: Link先を確認
Weitong Hua, Jiaxin Guo, Yue Wang and Rong Xiong(参考訳) オブジェクト6Dのポーズ推定は、その幅広いアプリケーション要件と現実世界の複雑さや変化に起因する課題により、コンピュータビジョンの分野で重要な研究トピックである。 ポイント間の空間的関係の特徴を十分に探究することは,特に背景クラッタや部分的咬合の場面において,ポーズ推定性能の向上に寄与すると考える。 しかし、この情報は以前の研究ではRGB画像やRGB-Dデータを使って無視されることが多い。 本稿では,3次元キーポイントの空間構造特性に基づいたRGB-Dデータから6次元ポーズ推定を行うフレームワークを提案する。 剛体の構造情報を完全に活用する3次元キーポイントの投票には,ポイントワイドな特徴埋め込みを採用する。 cnnによってキーポイントを指す方向ベクトルが予測された後、ransac投票を用いて3dキーポイントの座標を計算し、最小二乗法でポーズ変換が容易に得られる。 また、点の空間次元サンプリング戦略を採用し、小さなトレーニングセットで優れた性能が得られるようにした。 提案手法は, LINEMOD と OCCLUSION LINEMOD の2つのベンチマークデータセットで検証する。 実験の結果,本手法は最先端手法よりも優れており,LINEMODデータセットでは98.7\%,OCCLUSION LINEMODデータセットでは52.6\%の精度を実現している。

Object 6D pose estimation is an important research topic in the field of computer vision due to its wide application requirements and the challenges brought by complexity and changes in the real-world. We think fully exploring the characteristics of spatial relationship between points will help to improve the pose estimation performance, especially in the scenes of background clutter and partial occlusion. But this information was usually ignored in previous work using RGB image or RGB-D data. In this paper, we propose a framework for 6D pose estimation from RGB-D data based on spatial structure characteristics of 3D keypoints. We adopt point-wise dense feature embedding to vote for 3D keypoints, which makes full use of the structure information of the rigid body. After the direction vectors pointing to the keypoints are predicted by CNN, we use RANSAC voting to calculate the coordinate of the 3D keypoints, then the pose transformation can be easily obtained by the least square method. In addition, a spatial dimension sampling strategy for points is employed, which makes the method achieve excellent performance on small training sets. The proposed method is verified on two benchmark datasets, LINEMOD and OCCLUSION LINEMOD. The experimental results show that our method outperforms the state-of-the-art approaches, achieves ADD(-S) accuracy of 98.7\% on LINEMOD dataset and 52.6\% on OCCLUSION LINEMOD dataset in real-time.
翻訳日:2021-04-26 07:30:27 公開日:2020-12-22
# BPMSegNetを用いた腕神経叢超音波像の複数症例分割

Multiple Instance Segmentation in Brachial Plexus Ultrasound Image Using BPMSegNet ( http://arxiv.org/abs/2012.12012v1 )

ライセンス: Link先を確認
Yi Ding, Qiqi Yang, Guozheng Wu, Jian Zhang, Zhiguang Qin(参考訳) 神経の構造が画像化や超音波画像の検出に困難であるため、神経の同定は困難である。 それでも, 超音波画像における神経識別は, 局所麻酔の性能を向上させる重要なステップである。 本稿では,超音波画像中の異なる組織(神経,動脈,静脈,筋肉)を同定するために,ブラキアルplexus multi-instance segmentation network (bpmsegnet) と呼ばれるネットワークを提案する。 BPMSegNetには3つの新しいモジュールがある。 1つ目は、異なるスケールでコントラスト特徴を計算する空間的局所コントラスト特徴である。 2つめはセルフアテンションゲートで、フィーチャーマップのチャンネルの重要性を強調するものだ。 3つ目は、フィーチャーピラミッドネットワーク内の転向した畳み込みを伴うスキップ結合の追加である。 提案したBPMSegNetは、構築したUltrasound Brachial Plexus Dataset (UBPD)の実験により評価される。 定量的実験の結果,提案するネットワークは,超音波画像から複数の組織を分離できることがわかった。

The identification of nerve is difficult as structures of nerves are challenging to image and to detect in ultrasound images. Nevertheless, the nerve identification in ultrasound images is a crucial step to improve performance of regional anesthesia. In this paper, a network called Brachial Plexus Multi-instance Segmentation Network (BPMSegNet) is proposed to identify different tissues (nerves, arteries, veins, muscles) in ultrasound images. The BPMSegNet has three novel modules. The first is the spatial local contrast feature, which computes contrast features at different scales. The second one is the self-attention gate, which reweighs the channels in feature maps by their importance. The third is the addition of a skip concatenation with transposed convolution within a feature pyramid network. The proposed BPMSegNet is evaluated by conducting experiments on our constructed Ultrasound Brachial Plexus Dataset (UBPD). Quantitative experimental results show the proposed network can segment multiple tissues from the ultrasound images with a good performance.
翻訳日:2021-04-26 07:30:01 公開日:2020-12-22
# Hebbian主成分分析を用いた畳み込みニューラルネットワークの学習

Training Convolutional Neural Networks With Hebbian Principal Component Analysis ( http://arxiv.org/abs/2012.12229v1 )

ライセンス: Link先を確認
Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi, Claudio Gennaro(参考訳) 近年の研究では、深層畳み込みニューラルネットワークのトレーニングにおいて、生物学的に妥当なヘビーン学習がバックプロパゲーション学習(バックプロップ)と統合できることが示されている。 特に、ニューラルネットワークの下位層または上位層をトレーニングするために、Hebbian Learningを使用することが示されている。 例えば、ヘビー学習は、事前訓練されたディープニューラルネットワークの上位層を再訓練するのに有効であり、w.r.tと同等の精度を達成する。 sgdは、トレーニング期間は少ないが、転校学習の潜在的な応用を示唆している。 本稿では,これらの結果に基づいて,従来のHWTA戦略に代えて,非線形なHebbian principal Component Analysis(HPCA)学習ルールを用いて,これらの設定におけるHebbian学習をさらに改善する。 我々はこの手法をコンピュータビジョンの文脈でテストする。 特にHPCAルールは、CIFAR-10イメージデータセットから関連する特徴を抽出するために、畳み込みニューラルネットワークのトレーニングに使用される。 我々はHPCAの変種をさらに改良し、生物学的に可能な学習アルゴリズムへのさらなる関心を喚起する。

Recent work has shown that biologically plausible Hebbian learning can be integrated with backpropagation learning (backprop), when training deep convolutional neural networks. In particular, it has been shown that Hebbian learning can be used for training the lower or the higher layers of a neural network. For instance, Hebbian learning is effective for re-training the higher layers of a pre-trained deep neural network, achieving comparable accuracy w.r.t. SGD, while requiring fewer training epochs, suggesting potential applications for transfer learning. In this paper we build on these results and we further improve Hebbian learning in these settings, by using a nonlinear Hebbian Principal Component Analysis (HPCA) learning rule, in place of the Hebbian Winner Takes All (HWTA) strategy used in previous work. We test this approach in the context of computer vision. In particular, the HPCA rule is used to train Convolutional Neural Networks in order to extract relevant features from the CIFAR-10 image dataset. The HPCA variant that we explore further improves the previous results, motivating further interest towards biologically plausible learning algorithms.
翻訳日:2021-04-26 07:29:19 公開日:2020-12-22
# time-travel rephotography

Time-Travel Rephotography ( http://arxiv.org/abs/2012.12261v1 )

ライセンス: Link先を確認
Xuan Luo, Xuaner Zhang, Paul Yoo, Ricardo Martin-Brualla, Jason Lawrence, Steven M. Seitz(参考訳) 多くの歴史的人物は、初期のカメラの限界と時間の経過によって歪んだ古い、色あがった、白黒の写真でしか撮影されていない。 この論文は、現代のカメラでタイムトラベルをシミュレートし、有名テーマを再撮影する。 分解,色化,超解像といった独立した操作を施した従来の画像復元フィルタとは異なり,我々はStyleGAN2フレームワークを利用して,古い写真を現代的な高解像度写真の空間に投影し,これらすべての効果を統一されたフレームワークで達成する。 このアプローチのユニークな課題は、低品質のアンティーク写真の多くのアーティファクトではなく、被写体のアイデンティティとポーズを取得することである。 現状の復元フィルタと比較した結果,様々な重要人物にとって大きな改善と説得力のある結果が得られた。

Many historical people are captured only in old, faded, black and white photos, that have been distorted by the limitations of early cameras and the passage of time. This paper simulates traveling back in time with a modern camera to rephotograph famous subjects. Unlike conventional image restoration filters which apply independent operations like denoising, colorization, and superresolution, we leverage the StyleGAN2 framework to project old photos into the space of modern high-resolution photos, achieving all of these effects in a unified framework. A unique challenge with this approach is capturing the identity and pose of the photo's subject and not the many artifacts in low-quality antique photos. Our comparisons to current state-of-the-art restoration filters show significant improvements and compelling results for a variety of important historical people.
翻訳日:2021-04-26 07:28:59 公開日:2020-12-22
# 特徴埋め込みと多様体アライメントの分離によるフレキシブル深層伝達学習

Flexible deep transfer learning by separate feature embeddings and manifold alignment ( http://arxiv.org/abs/2012.12302v1 )

ライセンス: Link先を確認
Samuel Rivera, Joel Klipfel, Deborah Weeks(参考訳) オブジェクト認識は、業界と防衛において重要な存在である。 テクノロジーが変化するにつれて、アルゴリズムは新しい要求とデータに順応しなくてはならない。 新しいモダリティと高解像度センサーは、アルゴリズムの堅牢性を高めることができる。 残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。 トランスファーラーニング (TL) あるいはドメイン適応 (DA) 手法は、既存のラベル付きソースデータから新しいラベル付きターゲットデータセットへ知識を転送する基盤を確立している。 しかし、現在のDAアプローチでは、ソースとターゲットの特徴空間が似ており、大きなドメインシフトや機能空間の変化に悩まされている。 既存のメソッドでは、データは同じモダリティか、共通の機能空間にアライメントできると仮定している。 したがって、ほとんどの手法は視覚的・聴覚的データのような基本的なドメイン変更をサポートするように設計されていない。 潜在低次元空間における領域間距離を最小化しつつ,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。 このアライメントは、逆行訓練手順とともにデータ多様体を考慮して達成される。 本研究では, 合成, 測定, 衛星画像データセットに対するアブレーション実験を行い, 従来の手法に対するアプローチの有効性を示す。 また,学習を阻害する学習勾配を克服しつつ,ネットワークをトレーニングするための実践的ガイドラインも提供する。

Object recognition is a key enabler across industry and defense. As technology changes, algorithms must keep pace with new requirements and data. New modalities and higher resolution sensors should allow for increased algorithm robustness. Unfortunately, algorithms trained on existing labeled datasets do not directly generalize to new data because the data distributions do not match. Transfer learning (TL) or domain adaptation (DA) methods have established the groundwork for transferring knowledge from existing labeled source data to new unlabeled target datasets. However, current DA approaches assume similar source and target feature spaces and suffer in the case of massive domain shifts or changes in the feature space. Existing methods assume the data are either the same modality, or can be aligned to a common feature space. Therefore, most methods are not designed to support a fundamental domain change such as visual to auditory data. We propose a novel deep learning framework that overcomes this limitation by learning separate feature extractions for each domain while minimizing the distance between the domains in a latent lower-dimensional space. The alignment is achieved by considering the data manifold along with an adversarial training procedure. We demonstrate the effectiveness of the approach versus traditional methods with several ablation experiments on synthetic, measured, and satellite image datasets. We also provide practical guidelines for training the network while overcoming vanishing gradients which inhibit learning in some adversarial training settings.
翻訳日:2021-04-26 07:28:45 公開日:2020-12-22
# 構造化オンラインマップのための階層的再帰注意ネットワーク

Hierarchical Recurrent Attention Networks for Structured Online Maps ( http://arxiv.org/abs/2012.12314v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Wei-Chiu Ma, Shrinidhi Kowshika Lakshmikanth, Raquel Urtasun(参考訳) 本稿では,スパース3次元点雲からのオンライン道路網抽出の問題に対処する。 我々の手法は、アノテータがレーングラフをどのように構築するかにインスパイアされ、まずレーンの数を特定し、それぞれを順番に描画する。 我々は,レーン境界の初期領域に順応する階層的リカレントネットワークを開発し,構造化ポリラインを出力することにより,それらを完全にトレースする。 また,基底真理ポリラインの辺の偏差を測定する新しい微分可能損失関数とその予測法を提案する。 これは頂点上の距離よりも適しており、同値なポリラインを描く多くの方法が存在する。 本手法は90kmの高架道路において有効性を示すとともに, 92\%の適切なトポロジーを回復できることを示す。

In this paper, we tackle the problem of online road network extraction from sparse 3D point clouds. Our method is inspired by how an annotator builds a lane graph, by first identifying how many lanes there are and then drawing each one in turn. We develop a hierarchical recurrent network that attends to initial regions of a lane boundary and traces them out completely by outputting a structured polyline. We also propose a novel differentiable loss function that measures the deviation of the edges of the ground truth polylines and their predictions. This is more suitable than distances on vertices, as there exists many ways to draw equivalent polylines. We demonstrate the effectiveness of our method on a 90 km stretch of highway, and show that we can recover the right topology 92\% of the time.
翻訳日:2021-04-26 07:28:25 公開日:2020-12-22
# ビットエントロピー最大化による深部教師なし画像ハッシュ

Deep Unsupervised Image Hashing by Maximizing Bit Entropy ( http://arxiv.org/abs/2012.12334v1 )

ライセンス: Link先を確認
Yunqiang Li and Jan van Gemert(参考訳) 教師なしハッシュは、高価なアノテーションなしで巨大な画像やビデオコレクションをインデックスする上で重要である。 Hashingは、コンパクトストレージと効率的なセマンティック検索のための短いバイナリコードを学ぶことを目的としている。 我々は,バイナリコードのエントロピーを最大化するbi- half netと呼ばれる教師なしのディープハッシュ層を提案する。 エントロピーは、ビットの可能な値が一様(半半分)に分布する場合に最大となる。 ビットエントロピーを最大化するため、最適化やチューニングが難しいため、損失関数に項を追加することはない。 代わりに、パラメータフリーのネットワーク層を設計し、連続画像の特徴を明示的に強制して最適な半半ビット分布を近似する。 この層は、学習された連続画像特徴と最適半ビット分布との間のワッサーシュタイン距離のペナル化項を最小化する。 flickr25k, nus-wide, cifar-10, mscoco, mnist およびビデオデータセット ucf-101 および hmdb-51 における実験結果から,我々のアプローチはコンパクトコードにつながり,現在の最先端技術と比較できることがわかった。

Unsupervised hashing is important for indexing huge image or video collections without having expensive annotations available. Hashing aims to learn short binary codes for compact storage and efficient semantic retrieval. We propose an unsupervised deep hashing layer called Bi-half Net that maximizes entropy of the binary codes. Entropy is maximal when both possible values of the bit are uniformly (half-half) distributed. To maximize bit entropy, we do not add a term to the loss function as this is difficult to optimize and tune. Instead, we design a new parameter-free network layer to explicitly force continuous image features to approximate the optimal half-half bit distribution. This layer is shown to minimize a penalized term of the Wasserstein distance between the learned continuous image features and the optimal half-half bit distribution. Experimental results on the image datasets Flickr25k, Nus-wide, Cifar-10, Mscoco, Mnist and the video datasets Ucf-101 and Hmdb-51 show that our approach leads to compact codes and compares favorably to the current state-of-the-art.
翻訳日:2021-04-26 07:28:12 公開日:2020-12-22
# 直接ポーズ推定のための構造認識法

A Structure-Aware Method for Direct Pose Estimation ( http://arxiv.org/abs/2012.12360v1 )

ライセンス: Link先を確認
Hunter Blanton, Scott Workman, Nathan Jacobs(参考訳) 単一の画像からカメラのポーズを推定することは、コンピュータビジョンの基本的な問題である。 この課題を解決するための既存の手法は、直接的および間接的な2つのカテゴリに分類される。 posenetのような直接メソッドでは、例えばフィードフォワード畳み込みネットワークを使用して、イメージからレグレッシブポーズを固定関数として設定する。 このような方法は決定論的であり、一定の時間で実行されるため望ましい。 ポーズ回帰の間接的手法はしばしば非決定論的であり、画像検索や仮説サンプリングなど様々な外部依存関係がある。 ネットワークに明示的な3D制約を組み込むために,構造に基づくアプローチから着想を得た直接手法を提案する。 提案手法は他の直接法の望ましい性質を維持しつつ,より低い誤差を一般に達成する。

Estimating camera pose from a single image is a fundamental problem in computer vision. Existing methods for solving this task fall into two distinct categories, which we refer to as direct and indirect. Direct methods, such as PoseNet, regress pose from the image as a fixed function, for example using a feed-forward convolutional network. Such methods are desirable because they are deterministic and run in constant time. Indirect methods for pose regression are often non-deterministic, with various external dependencies such as image retrieval and hypothesis sampling. We propose a direct method that takes inspiration from structure-based approaches to incorporate explicit 3D constraints into the network. Our approach maintains the desirable qualities of other direct methods while achieving much lower error in general.
翻訳日:2021-04-26 07:27:51 公開日:2020-12-22
# fast and furious: 1つの畳み込みネットによるリアルタイムエンドツーエンド3d検出、追跡、モーション予測

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net ( http://arxiv.org/abs/2012.12395v1 )

ライセンス: Link先を確認
Wenjie Luo, Bin Yang, Raquel Urtasun(参考訳) 本稿では,3次元センサが捉えたデータに基づいて,3次元検出・追跡・動き予測を共同で行うことのできる,新しいディープニューラルネットワークを提案する。 これらのタスクを共同で推論することで、私たちの全体論的アプローチは、範囲内のデータのスパースだけでなく、オクルージョンにもより強固になります。 本手法は,3次元世界における鳥の眼球図上で,空間的・時間的に3次元畳み込みを行い,メモリと計算の両面で非常に効率的である。 北米のいくつかの都市で採取された、新しい大規模データセットに関する実験では、最先端のデータを大きなマージンで上回ることができることが分かりました。 重要なのは、計算を共有することで、すべてのタスクを30ミリ秒で実行できることです。

In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.
翻訳日:2021-04-26 07:27:40 公開日:2020-12-22
# 3次元物体検出のためのマルチタスクマルチセンサフュージョン

Multi-Task Multi-Sensor Fusion for 3D Object Detection ( http://arxiv.org/abs/2012.12397v1 )

ライセンス: Link先を確認
Ming Liang, Bin Yang, Yun Chen, Rui Hu, Raquel Urtasun(参考訳) 本稿では,複数の関連タスクを高精度なマルチセンサ3d物体検出に活用する。 この目的に向けて,2次元および3次元オブジェクト検出と地上推定および深度補完を理由として,エンドツーエンドで学習可能なアーキテクチャを提案する。 実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。 提案手法は,2D,3D,BEVオブジェクト検出におけるKITTIベンチマークをリアルタイムにリードする。

In this paper we propose to exploit multiple related tasks for accurate multi-sensor 3D object detection. Towards this goal we present an end-to-end learnable architecture that reasons about 2D and 3D object detection as well as ground estimation and depth completion. Our experiments show that all these tasks are complementary and help the network learn better representations by fusing information at various levels. Importantly, our approach leads the KITTI benchmark on 2D, 3D and BEV object detection, while being real time.
翻訳日:2021-04-26 07:27:28 公開日:2020-12-22
# 深度完了のための2次元3次元共同表現の学習

Learning Joint 2D-3D Representations for Depth Completion ( http://arxiv.org/abs/2012.12402v1 )

ライセンス: Link先を確認
Yun Chen, Bin Yang, Ming Liang, Raquel Urtasun(参考訳) 本稿では,RGBDデータからの深度補完問題に取り組む。 この目標に向けて,2dと3dのジョイント特徴を抽出することを学ぶ,単純かつ効果的なニューラルネットワークブロックをデザインする。 具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークで構成され、その出力特性は画像空間に融合する。 提案したブロックを積み重ねることで,複数のレベルで2次元空間と3次元空間の間に完全に融合した階層表現を学習することができる。 我々は,KITTI深度補完ベンチマークにおけるアプローチの有効性を実証し,提案手法が最先端の手法よりも優れていることを示す。

In this paper, we tackle the problem of depth completion from RGBD data. Towards this goal, we design a simple yet effective neural network block that learns to extract joint 2D and 3D features. Specifically, the block consists of two domain-specific sub-networks that apply 2D convolution on image pixels and continuous convolution on 3D points, with their output features fused in image space. We build the depth completion network simply by stacking the proposed block, which has the advantage of learning hierarchical representations that are fully fused between 2D and 3D spaces at multiple levels. We demonstrate the effectiveness of our approach on the challenging KITTI depth completion benchmark and show that our approach outperforms the state-of-the-art.
翻訳日:2021-04-26 07:27:19 公開日:2020-12-22
# 物体検出CNNを用いた光点字認識

Optical Braille Recognition Using Object Detection CNN ( http://arxiv.org/abs/2012.12412v1 )

ライセンス: Link先を確認
Ilya G. Ovodov(参考訳) 本稿では,物体検出畳み込みニューラルネットワークを用いて,点字文字全体を同時に検出する光点字認識手法を提案する。 提案アルゴリズムは,画像および視点歪みに示されるページの変形に対して頑健である。 これは、スマートフォンのカメラで撮影されている点字の認識に役立ちます。 提案アルゴリズムは既存の手法と比較して高い性能と精度を示す。 また,新たに240枚の点字写真を含む「Angelina Braille Images Dataset」を導入する。 提案されたアルゴリズムとデータセットはGitHubで公開されている。

This paper proposes an optical Braille recognition method that uses an object detection convolutional neural network to detect whole Braille characters at once. The proposed algorithm is robust to the deformation of the page shown in the image and perspective distortions. It makes it usable for recognition of Braille texts being shoot on a smartphone camera, including bowed pages and perspective distorted images. The proposed algorithm shows high performance and accuracy compared to existing methods. We also introduce a new "Angelina Braille Images Dataset" containing 240 annotated photos of Braille texts. The proposed algorithm and dataset are available at GitHub.
翻訳日:2021-04-26 07:27:06 公開日:2020-12-22
# 疎結合構造アライメントによる時系列領域適応

Time Series Domain Adaptation via Sparse Associative Structure Alignment ( http://arxiv.org/abs/2012.11797v1 )

ライセンス: Link先を確認
Ruichu Cai, Jiawei Chen, Zijian Li, Wei Chen, Keli Zhang, Junjian Ye, Zhuozhang Li, Xiaoyan Yang, Zhenjie Zhang(参考訳) 時系列データに対するドメイン適応は重要だが、難しい課題である。 この分野の既存の研究のほとんどは、MDDのような制約の助けを借りて、データのドメイン不変表現の学習に基づいている。 しかし、そのようなドメイン不変表現の抽出は、タイムスタンプ間の複雑な依存のため、時系列データに対する非自明なタスクである。 詳しくは、完全依存の時系列において、時間遅れまたはオフセットの小さな変化は、領域不変な抽出の困難をもたらす可能性がある。 幸いにも、因果性の安定性は、データのドメイン不変構造を探求するきっかけになりました。 因果構造の発見の難しさを軽減するため、疎結合構造に緩和し、ドメイン適応のための新しい疎結合構造アライメントモデルを提案する。 まず、オフセットの障害を排除するためのセグメントセットを生成する。 次に,時間遅れを考慮した連想構造時系列データを抽出するために,変数内および変数間注意機構を考案した。 最後に、連想構造アライメントを用いて、ソースドメインからターゲットドメインへの知識の転送を誘導する。 3つの実世界のデータセット上での手法の優れた性能を検証するだけでなく、伝達された知識に関する洞察的な発見も行った。

Domain adaptation on time series data is an important but challenging task. Most of the existing works in this area are based on the learning of the domain-invariant representation of the data with the help of restrictions like MMD. However, such extraction of the domain-invariant representation is a non-trivial task for time series data, due to the complex dependence among the timestamps. In detail, in the fully dependent time series, a small change of the time lags or the offsets may lead to difficulty in the domain invariant extraction. Fortunately, the stability of the causality inspired us to explore the domain invariant structure of the data. To reduce the difficulty in the discovery of causal structure, we relax it to the sparse associative structure and propose a novel sparse associative structure alignment model for domain adaptation. First, we generate the segment set to exclude the obstacle of offsets. Second, the intra-variables and inter-variables sparse attention mechanisms are devised to extract associative structure time-series data with considering time lags. Finally, the associative structure alignment is used to guide the transfer of knowledge from the source domain to the target one. Experimental studies not only verify the good performance of our methods on three real-world datasets but also provide some insightful discoveries on the transferred knowledge.
翻訳日:2021-04-26 07:26:33 公開日:2020-12-22
# 自己模倣の利点学習

Self-Imitation Advantage Learning ( http://arxiv.org/abs/2012.11989v1 )

ライセンス: Link先を確認
Johan Ferret, Olivier Pietquin, Matthieu Geist(参考訳) 自己改善学習(セルフ・イミテーション・ラーニング)とは、期待以上のリターンを示した行動を促す強化学習(Reinforcement Learning, RL)手法である。 本研究は,複数の個別制御タスクにおいて,オンラインアクター批判手法の性能向上を図った。 それでも、主にアクション値に基づくオフポリシーRL法に自己想像を適用することは簡単ではない。 本稿では,ベルマン最適度演算子を改良し,アドバンテージ学習に接続した,非政治的RLのための自己模倣学習の新たな一般化であるSAILを提案する。 重要なことは,本手法は,観測された戻り値と現在の行動値との間に最も楽観的な戻り値を求めることで,スタイルリターンの問題を緩和する。 アーケード学習環境におけるSAILの実証的効果を実演し,ハードな探索ゲームに着目した。

Self-imitation learning is a Reinforcement Learning (RL) method that encourages actions whose returns were higher than expected, which helps in hard exploration and sparse reward problems. It was shown to improve the performance of on-policy actor-critic methods in several discrete control tasks. Nevertheless, applying self-imitation to the mostly action-value based off-policy RL methods is not straightforward. We propose SAIL, a novel generalization of self-imitation learning for off-policy RL, based on a modification of the Bellman optimality operator that we connect to Advantage Learning. Crucially, our method mitigates the problem of stale returns by choosing the most optimistic return estimate between the observed return and the current action-value for self-imitation. We demonstrate the empirical effectiveness of SAIL on the Arcade Learning Environment, with a focus on hard exploration games.
翻訳日:2021-04-26 07:26:14 公開日:2020-12-22
# MetaAugment: サンプル対応データ拡張ポリシー学習

MetaAugment: Sample-Aware Data Augmentation Policy Learning ( http://arxiv.org/abs/2012.12076v1 )

ライセンス: Link先を確認
Fengwei Zhou, Jiawei Li, Chuanlong Xie, Fei Chen, Lanqing Hong, Rui Sun, Zhenguo Li(参考訳) 自動データ拡張は画像認識において優れた性能を示している。 既存の作業は、個々のサンプルのバリエーションを考慮せずに、データセットレベルの拡張ポリシーを検索する。 一方,異なるサンプルに対する異なるポリシーの学習は,計算コストを大幅に向上させる可能性がある。 本稿では,サンプル重み付け問題として定式化することで,サンプル認識データ拡張ポリシーを効率的に学習する。 具体的には、拡張ポリシーネットワークが変換と対応する拡張画像を入力として入力し、タスクネットワークで計算された拡張画像損失を調整するために重みを出力する。 トレーニング段階では、タスクネットワークは強化訓練画像の重み付け損失を最小限に抑え、ポリシーネットワークはメタラーニングによる検証セット上のタスクネットワークの損失を最小限にする。 理論上、訓練手順の収束を証明し、さらに正確な収束率を導出する。 CIFAR-10/100、Omniglot、ImageNetなど、広く使われているベンチマークでは、上位のパフォーマンスが達成されている。

Automated data augmentation has shown superior performance in image recognition. Existing works search for dataset-level augmentation policies without considering individual sample variations, which are likely to be sub-optimal. On the other hand, learning different policies for different samples naively could greatly increase the computing cost. In this paper, we learn a sample-aware data augmentation policy efficiently by formulating it as a sample reweighting problem. Specifically, an augmentation policy network takes a transformation and the corresponding augmented image as inputs, and outputs a weight to adjust the augmented image loss computed by a task network. At training stage, the task network minimizes the weighted losses of augmented training images, while the policy network minimizes the loss of the task network on a validation set via meta-learning. We theoretically prove the convergence of the training procedure and further derive the exact convergence rate. Superior performance is achieved on widely-used benchmarks including CIFAR-10/100, Omniglot, and ImageNet.
翻訳日:2021-04-26 07:25:58 公開日:2020-12-22
# 部分モデル活用による自律的なspmdp環境モデリング

Autonomous sPOMDP Environment Modeling With Partial Model Exploitation ( http://arxiv.org/abs/2012.12203v1 )

ライセンス: Link先を確認
Andrew Wilhelm, Aaron Wilhelm, Garrett Fosdick(参考訳) 環境の状態空間表現は、多くの自律ロボットシステムが効率的かつしばしば最適なソリューション計画のために使用している古典的で強力なツールである。 しかし、これらの表現を高性能で設計するには、自律ロボットのための自律的な状態空間を生成するための効果的で汎用的なツールが必要である。 本稿では,サプライズに基づく部分観測可能なマルコフ決定プロセス(spomdp)を拡張し,様々な環境における長期探査計画性能を実証する新しい状態空間探索アルゴリズムを提案する。 広範なシミュレーション実験により,本モデルでは,学習速度が31~63%向上し,学習速度が31~63%向上し,学習効率と拡張性が大幅に向上することを示す。 以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。

A state space representation of an environment is a classic and yet powerful tool used by many autonomous robotic systems for efficient and often optimal solution planning. However, designing these representations with high performance is laborious and costly, necessitating an effective and versatile tool for autonomous generation of state spaces for autonomous robots. We present a novel state space exploration algorithm by extending the original surprise-based partially-observable Markov Decision Processes (sPOMDP), and demonstrate its effective long-term exploration planning performance in various environments. Through extensive simulation experiments, we show the proposed model significantly increases efficiency and scalability of the original sPOMDP learning techniques with a range of 31-63% gain in training speed while improving robustness in environments with less deterministic transitions. Our results pave the way for extending sPOMDP solutions to a broader set of environments.
翻訳日:2021-04-26 07:25:35 公開日:2020-12-22
# SSDとHDDの寿命と死:類似性、相違、予測モデル

The Life and Death of SSDs and HDDs: Similarities, Differences, and Prediction Models ( http://arxiv.org/abs/2012.12373v1 )

ライセンス: Link先を確認
Riccardo Pinciroli, Lishan Yang, Jacob Alter, Evgenia Smirni(参考訳) データセンターのダウンタイムは通常、IT機器の故障を中心にしている。 ストレージデバイスは、データセンターで最も頻繁に失敗するコンポーネントです。 本稿では、データセンターの典型的なストレージを構成するハードディスクドライブ(HDD)とソリッドステートドライブ(SSD)の比較研究を行う。 BackBlazeデータセットから同じメーカーから10,000の異なるモデルのHDDの6年間のフィールドデータと,Googleデータセンタから3モデルの3つのモデルの3万のSSDの6年間のフィールドデータを使用して,障害の原因となるワークロード条件を特徴付けるとともに,その根本原因が一般的な期待とは異なっているが,識別が困難であることを示す。 hddの場合、若いドライブと古いドライブは失敗に多くの違いを示さないことが観察される。 代わりに、ヘッドポジショニングに費やされた時間に基づいてドライブを識別することで障害を区別することができる。 SSDでは,乳児死亡率の高さを観察し,乳幼児と非乳幼児の障害の違いを特徴付ける。 いくつかの機械学習故障予測モデルを開発し、精度が驚くほど高く、高いリコール率と低い偽陽性率を実現する。 これらのモデルは単純な予測を超えて、障害につながるワークロード特性の複雑な相互作用を解き放ち、監視された症状から障害の根本原因を特定するのに役立ちます。

Data center downtime typically centers around IT equipment failure. Storage devices are the most frequently failing components in data centers. We present a comparative study of hard disk drives (HDDs) and solid state drives (SSDs) that constitute the typical storage in data centers. Using a six-year field data of 100,000 HDDs of different models from the same manufacturer from the BackBlaze dataset and a six-year field data of 30,000 SSDs of three models from a Google data center, we characterize the workload conditions that lead to failures and illustrate that their root causes differ from common expectation but remain difficult to discern. For the case of HDDs we observe that young and old drives do not present many differences in their failures. Instead, failures may be distinguished by discriminating drives based on the time spent for head positioning. For SSDs, we observe high levels of infant mortality and characterize the differences between infant and non-infant failures. We develop several machine learning failure prediction models that are shown to be surprisingly accurate, achieving high recall and low false positive rates. These models are used beyond simple prediction as they aid us to untangle the complex interaction of workload characteristics that lead to failures and identify failure root causes from monitored symptoms.
翻訳日:2021-04-26 07:25:22 公開日:2020-12-22
# 確率的外乱検出・生成

Probabilistic Outlier Detection and Generation ( http://arxiv.org/abs/2012.12394v1 )

ライセンス: Link先を確認
Stefano Giovanni Rizzo, Linsey Pang, Yixian Chen, Sanjay Chawla(参考訳) 分析的に表現できない確率分布の空間にデータを持ち上げ、そこからニューラルジェネレータを用いてサンプルを描画することで、新たな異常検出・生成法を導入する。 未知の潜伏慣性分布と外れ値分布の混合が与えられると、ワッサースタイン二重オートエンコーダは、異常値と外れ値の検出と生成の両方に使用される。 提案手法はWALDO (Wasserstein Autoencoder for Learning the Distribution of Outliers) と呼ばれ,MNIST, CIFAR10, KDD99などの古典的データセットを用いて検出精度とロバスト性を評価する。 実際の小売販売データセットにおけるアウトラヤ検出の例と、侵入攻撃をシミュレートするためのアウトラヤ生成の例を示す。 しかし、WALDOが使える多くのアプリケーションシナリオを予測します。 私たちの知る限りでは、これは異常検出と生成の両方を一緒に研究する最初の仕事です。

A new method for outlier detection and generation is introduced by lifting data into the space of probability distributions which are not analytically expressible, but from which samples can be drawn using a neural generator. Given a mixture of unknown latent inlier and outlier distributions, a Wasserstein double autoencoder is used to both detect and generate inliers and outliers. The proposed method, named WALDO (Wasserstein Autoencoder for Learning the Distribution of Outliers), is evaluated on classical data sets including MNIST, CIFAR10 and KDD99 for detection accuracy and robustness. We give an example of outlier detection on a real retail sales data set and an example of outlier generation for simulating intrusion attacks. However we foresee many application scenarios where WALDO can be used. To the best of our knowledge this is the first work that studies both outlier detection and generation together.
翻訳日:2021-04-26 07:24:58 公開日:2020-12-22
# ヒューマンルーチンのモデル化:エージェントベースシミュレーションのための社会実践理論の概念化

Modelling Human Routines: Conceptualising Social Practice Theory for Agent-Based Simulation ( http://arxiv.org/abs/2012.11903v1 )

ライセンス: Link先を確認
Rijk Mercuur, Virginia Dignum, Catholijn M. Jonker(参考訳) 当社のルーチンは, 気候変動, 病気の発生, 患者と病院の連携など, 幅広い社会的課題において重要な役割を担っている。 エージェントベースのシミュレーション(abs)を使用して社会的課題におけるルーチンの役割を理解するには、ルーチンを統合するエージェントフレームワークが必要です。 本稿では,文献からの要求を満たすドメインに依存しないソーシャル・プラクティス・エージェント(SoPrA)フレームワークを提案する。 エージェント理論、社会心理学、社会実践理論に関する文献から適切な概念を選択することで、SoPrAはルーチンに関する現在の証拠を正しく描写する。 複数のドメインに適した一貫した、モジュール的でパーシミュネートなフレームワークを作成することで、SoPrAのユーザビリティを高めます。 SoPrAはABS研究者に、ルーチンをシミュレートし、社会システムに対する新たな洞察を得るための概念的で形式的で計算的なフレームワークを提供する。

Our routines play an important role in a wide range of social challenges such as climate change, disease outbreaks and coordinating staff and patients in a hospital. To use agent-based simulations (ABS) to understand the role of routines in social challenges we need an agent framework that integrates routines. This paper provides the domain-independent Social Practice Agent (SoPrA) framework that satisfies requirements from the literature to simulate our routines. By choosing the appropriate concepts from the literature on agent theory, social psychology and social practice theory we ensure SoPrA correctly depicts current evidence on routines. By creating a consistent, modular and parsimonious framework suitable for multiple domains we enhance the usability of SoPrA. SoPrA provides ABS researchers with a conceptual, formal and computational framework to simulate routines and gain new insights into social systems.
翻訳日:2021-04-26 07:24:43 公開日:2020-12-22
# TorchMD:分子シミュレーションのためのディープラーニングフレームワーク

TorchMD: A deep learning framework for molecular simulations ( http://arxiv.org/abs/2012.12106v1 )

ライセンス: Link先を確認
Stefan Doerr, Maciej Majewsk, Adri\`a P\'erez, Andreas Kr\"amer, Cecilia Clementi, Frank Noe, Toni Giorgino and Gianni De Fabritiis(参考訳) 分子動力学シミュレーションは、経験的ポテンシャルに依存する分子の力学的な記述を提供する。 このようなポテンシャルの品質と伝達性は、機械学習アプローチから派生したデータ駆動モデルを活用することで改善することができる。 本稿では,古典的および機械学習的ポテンシャルを混合した分子シミュレーションのためのフレームワークであるtorchmdを提案する。 結合、角度、二面体、レナード・ジョーンズ、クーロン相互作用を含む全ての力計算は、PyTorch配列と演算として表される。 さらにtorchmdは、ニューラルネットワークポテンシャルの学習とシミュレーションを可能にする。 標準のamber全原子シミュレーションを用いて検証を行い、ab-initioポテンシャルを学習し、エンドツーエンドのトレーニングを行い、最後にタンパク質折り畳みのための粗粒モデルを学習しシミュレーションする。 我々はTorchMDが機械学習ポテンシャルの分子シミュレーションを支援する有用なツールセットを提供すると考えている。 コードとデータは \url{github.com/torchmd} で自由に入手できる。

Molecular dynamics simulations provide a mechanistic description of molecules by relying on empirical potentials. The quality and transferability of such potentials can be improved leveraging data-driven models derived with machine learning approaches. Here, we present TorchMD, a framework for molecular simulations with mixed classical and machine learning potentials. All of force computations including bond, angle, dihedral, Lennard-Jones and Coulomb interactions are expressed as PyTorch arrays and operations. Moreover, TorchMD enables learning and simulating neural network potentials. We validate it using standard Amber all-atom simulations, learning an ab-initio potential, performing an end-to-end training and finally learning and simulating a coarse-grained model for protein folding. We believe that TorchMD provides a useful tool-set to support molecular simulations of machine learning potentials. Code and data are freely available at \url{github.com/torchmd}.
翻訳日:2021-04-26 07:24:28 公開日:2020-12-22
# 多様な物体のロバスト把持の最適化による創発的手形態と制御

Emergent Hand Morphology and Control from Optimizing Robust Grasps of Diverse Objects ( http://arxiv.org/abs/2012.12209v1 )

ライセンス: Link先を確認
Xinlei Pan, Animesh Garg, Animashree Anandkumar, Yuke Zhu(参考訳) 自然の進化は、生物の生物学的構造とその感覚運動能力が生存のための環境変化に適応することを示している。 同様に、新しいスキルを変形して獲得する能力は、様々な複雑さのタスクを解決するための具体的エージェントを促進することができる。 本研究では,多様な物体を把握すべく,自然に効果的なハンドデザインが出現するデータ駆動アプローチを提案する。 形態学と制御の協調最適化は、エンボディメントと行動の組み合わせの性能を測定するブラックボックス関数を常に評価する必要があるため、計算上の課題を課す。 本研究では,学習的潜在空間表現による形態素および把持スキルを協調的に設計するベイズ最適化アルゴリズムを開発した。 本研究では, パワー握り, ピンチ握り, 横握りの3種類の人間把持の分類に基づいて把持タスクを設計する。 実験および比較研究を通じて,新しい物体をつかむための堅牢で費用効率の良い手形を発見するためのアプローチの有効性を実証した。

Evolution in nature illustrates that the creatures' biological structure and their sensorimotor skills adapt to the environmental changes for survival. Likewise, the ability to morph and acquire new skills can facilitate an embodied agent to solve tasks of varying complexities. In this work, we introduce a data-driven approach where effective hand designs naturally emerge for the purpose of grasping diverse objects. Jointly optimizing morphology and control imposes computational challenges since it requires constant evaluation of a black-box function that measures the performance of a combination of embodiment and behavior. We develop a novel Bayesian Optimization algorithm that efficiently co-designs the morphology and grasping skills jointly through learned latent-space representations. We design the grasping tasks based on a taxonomy of three human grasp types: power grasp, pinch grasp, and lateral grasp. Through experimentation and comparative study, we demonstrate the effectiveness of our approach in discovering robust and cost-efficient hand morphologies for grasping novel objects.
翻訳日:2021-04-26 07:24:14 公開日:2020-12-22
# マルチエージェントネットワーク制御のための状態追跡を用いた分散Q-Learning

Distributed Q-Learning with State Tracking for Multi-agent Networked Control ( http://arxiv.org/abs/2012.12383v1 )

ライセンス: Link先を確認
Hang Wang, Sen Lin, Hamid Jafarkhani, Junshan Zhang(参考訳) 本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。 既存の結果は、プライバシの懸念や通信上の制約のために大規模システムでは実現不可能なグローバルシステム状態をエージェントが監視できると仮定することが多い。 本研究では,未知のシステムモデルと集中型コーディネータを含まない設定について考察する。 エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。 具体的には、エージェントが地域情報と隣人とのコミュニケーションに基づいて、グローバルステートのローカルな見積を維持できると仮定する。 各ステップにおいて、各エージェントは、ポリシーイテレーションを通じて近似q因子を局所的に解くことで、ローカルなグローバル状態推定を更新する。 政策評価中に減衰した励起ノイズを仮定すると、局所的な推定が真のグローバル状態に収束し、提案した分散STベースのQ-ラーニングアルゴリズムの収束を確立する。 実験により,提案手法が集中型の場合と同等の性能が得られることを示した。

This paper studies distributed Q-learning for Linear Quadratic Regulator (LQR) in a multi-agent network. The existing results often assume that agents can observe the global system state, which may be infeasible in large-scale systems due to privacy concerns or communication constraints. In this work, we consider a setting with unknown system models and no centralized coordinator. We devise a state tracking (ST) based Q-learning algorithm to design optimal controllers for agents. Specifically, we assume that agents maintain local estimates of the global state based on their local information and communications with neighbors. At each step, every agent updates its local global state estimation, based on which it solves an approximate Q-factor locally through policy iteration. Assuming decaying injected excitation noise during the policy evaluation, we prove that the local estimation converges to the true global state, and establish the convergence of the proposed distributed ST-based Q-learning algorithm. The experimental studies corroborate our theoretical results by showing that our proposed method achieves comparable performance with the centralized case.
翻訳日:2021-04-26 07:23:58 公開日:2020-12-22
# ロバスト因果推論における非線形二元最適化問題を解くアルゴリズム

Algorithms for Solving Nonlinear Binary Optimization Problems in Robust Causal Inference ( http://arxiv.org/abs/2012.12130v1 )

ライセンス: Link先を確認
Md Saiful Islam, Md Sarowar Morshed, and Md. Noor-E-Alam(参考訳) 変数間の因果関係の特定は意思決定プロセスにおける重要なステップである。 因果推論にはランダムな実験が必要であるが、研究者や政策立案者は、観測データの広範囲な利用と実験の実施可能性のために、因果仮説をテストするために観察研究をますます利用している。 このマッチング手法は観測データから因果推論を行う最もよく用いられる手法である。 しかし、一対一マッチングにおけるペア割り当てプロセスは、実験者による選択が異なるため、推論の不確実性を引き起こす。 近年, 不確実性に対処するために離散最適化モデルが提案されている。 離散最適化モデルでは頑健な推論が可能であるが、非線形問題を引き起こし、拡張性に欠ける。 本研究では、連続的な結果を伴う観測データから頑健な因果推論テストインスタンスを解くための欲求アルゴリズムを提案する。 非線形二項最適化問題を実現可能性問題として再編成するための一意な枠組みを提案する。 実現可能性定式化の構造を生かして,ロバストなテスト問題を解決するのに効率的な欲望スキームを開発する。 多くの場合、提案アルゴリズムはグローバル最適解を実現する。 3つの実世界のデータセットで実験を行い,提案アルゴリズムの有効性を実証し,その結果を最先端解法と比較した。 実験により,提案手法は計算時間的にも精度が向上し,因果テストでも同様の結果が得られた。 数値実験と複雑性解析の両方により、提案アルゴリズムは、意思決定プロセスにおけるビッグデータのパワーを利用するために必要なスケーラビリティを保証する。

Identifying cause-effect relation among variables is a key step in the decision-making process. While causal inference requires randomized experiments, researchers and policymakers are increasingly using observational studies to test causal hypotheses due to the wide availability of observational data and the infeasibility of experiments. The matching method is the most used technique to make causal inference from observational data. However, the pair assignment process in one-to-one matching creates uncertainty in the inference because of different choices made by the experimenter. Recently, discrete optimization models are proposed to tackle such uncertainty. Although a robust inference is possible with discrete optimization models, they produce nonlinear problems and lack scalability. In this work, we propose greedy algorithms to solve the robust causal inference test instances from observational data with continuous outcomes. We propose a unique framework to reformulate the nonlinear binary optimization problems as feasibility problems. By leveraging the structure of the feasibility formulation, we develop greedy schemes that are efficient in solving robust test problems. In many cases, the proposed algorithms achieve global optimal solution. We perform experiments on three real-world datasets to demonstrate the effectiveness of the proposed algorithms and compare our result with the state-of-the-art solver. Our experiments show that the proposed algorithms significantly outperform the exact method in terms of computation time while achieving the same conclusion for causal tests. Both numerical experiments and complexity analysis demonstrate that the proposed algorithms ensure the scalability required for harnessing the power of big data in the decision-making process.
翻訳日:2021-04-26 07:22:47 公開日:2020-12-22
# SERV-CT : 内視鏡的3D再構成のためのCTからの差分データセット

SERV-CT: A disparity dataset from CT for validation of endoscopic 3D reconstruction ( http://arxiv.org/abs/2012.11779v1 )

ライセンス: Link先を確認
P.J. "Eddie'' Edwards, Dimitris Psychogyios, Stefanie Speidel, Lena Maier-Hein and Danail Stoyanov(参考訳) コンピュータビジョンにおいて、参照データセットはステレオ再構成におけるアルゴリズム開発を促進することに成功している。 外科的なシーンは、明確な隅角の特徴の欠如、高スペックな表面、血と煙の存在など、特定の問題を引き起こす。 一般に入手可能なデータセットはCTおよび幻像または内視鏡視野の比較的小さな領域をカバーする生物学的組織サンプルを用いて作成されている。 我々は,CT(SERV-CT)に基づく立体内視鏡的再構成検証データセットを提案する。 内視鏡と対象血管の両方をctで観察し, 内視鏡の視野内に2例の小型ブタフルトルソキャダバーを配置した。 内視鏡の向きは手動で立体視に合わせられた。 各試料から8対のステレオペアに対して基準偏差と咬合量を算出した。 第2のサンプルでは、RGB表面は滑らかで特徴のない表面のアライメントを支援するために取得された。 繰り返し手動アライメントでは RMS の差は ~2 ピクセル、深さは ~2 mm であった。 基準データセットは、内視鏡画像の大部分と様々な組織タイプをカバーする、対応する校正、相違、深さ及び閉塞を有する内視鏡画像対を含む。 滑らかなスペキュラ面と、深度が著しく変化する画像を含む。 オンラインリポジトリから様々なステレオアルゴリズムの性能を評価した。 アルゴリズムには大きな差異があり、手術用内視鏡画像の課題を浮き彫りにしている。 SERV-CTデータセットは、内視鏡画像の大部分をカバーするスムーズな基準差と深さを持つ外科的応用に、容易に利用できる立体的検証を提供する。 これは既存の資源を十分に補完し、外科的内視鏡的解剖学的再構築アルゴリズムの開発を支援することを期待する。

In computer vision, reference datasets have been highly successful in promoting algorithmic development in stereo reconstruction. Surgical scenes gives rise to specific problems, including the lack of clear corner features, highly specular surfaces and the presence of blood and smoke. Publicly available datasets have been produced using CT and either phantom images or biological tissue samples covering a relatively small region of the endoscope field-of-view. We present a stereo-endoscopic reconstruction validation dataset based on CT (SERV-CT). Two {\it ex vivo} small porcine full torso cadavers were placed within the view of the endoscope with both the endoscope and target anatomy visible in the CT scan. Orientation of the endoscope was manually aligned to the stereoscopic view. Reference disparities and occlusions were calculated for 8 stereo pairs from each sample. For the second sample an RGB surface was acquired to aid alignment of smooth, featureless surfaces. Repeated manual alignments showed an RMS disparity accuracy of ~2 pixels and a depth accuracy of ~2mm. The reference dataset includes endoscope image pairs with corresponding calibration, disparities, depths and occlusions covering the majority of the endoscopic image and a range of tissue types. Smooth specular surfaces and images with significant variation of depth are included. We assessed the performance of various stereo algorithms from online available repositories. There is a significant variation between algorithms, highlighting some of the challenges of surgical endoscopic images. The SERV-CT dataset provides an easy to use stereoscopic validation for surgical applications with smooth reference disparities and depths with coverage over the majority of the endoscopic images. This complements existing resources well and we hope will aid the development of surgical endoscopic anatomical reconstruction algorithms.
翻訳日:2021-04-26 07:22:25 公開日:2020-12-22
# 合成対向ネットワークとSAR-光画像変換を用いたリモートセンシング画像の雲除去

Cloud removal in remote sensing images using generative adversarial networks and SAR-to-optical image translation ( http://arxiv.org/abs/2012.12180v1 )

ライセンス: Link先を確認
Faramarz Naderi Darbaghshahi, Mohammad Reza Mohammadi, Mohsen Soryani(参考訳) 衛星画像はしばしば雲によって汚染される。 雲の除去は、幅広い衛星画像の応用により、多くの注目を集めている。 雲の厚みが増すにつれ、雲を取り除くプロセスはより困難になる。 このような場合、近赤外線や合成開口レーダ(SAR)などの補助画像を用いて再構築することが一般的である。 本研究では,2つの生成逆ネットワーク(GAN)を用いてこの問題を解決する。 第1はSAR画像を光学画像に変換し、第2は前GANの変換画像を使用して雲を除去する。 また,ジェネレータネットワークにおけるバニラU-netの代わりに拡張残差開始ブロック(DRIB)を提案し,L1ロス関数に加えて構造類似度指標(SSIM)を用いる。 拡張畳み込みによるダウンサンプリング数削減と受容場の拡大により,出力画像の品質が向上する。 sen1-2データセットを使って両方のganを訓練し、光学画像に合成雲を追加して曇りの画像を作成した。 復元された画像はPSNRとSSIMで評価する。 提案手法を最先端の深層学習モデルと比較し,SAR-to-optical Translationとクラウド除去部でより正確な結果を得る。

Satellite images are often contaminated by clouds. Cloud removal has received much attention due to the wide range of satellite image applications. As the clouds thicken, the process of removing the clouds becomes more challenging. In such cases, using auxiliary images such as near-infrared or synthetic aperture radar (SAR) for reconstructing is common. In this study, we attempt to solve the problem using two generative adversarial networks (GANs). The first translates SAR images into optical images, and the second removes clouds using the translated images of prior GAN. Also, we propose dilated residual inception blocks (DRIBs) instead of vanilla U-net in the generator networks and use structural similarity index measure (SSIM) in addition to the L1 Loss function. Reducing the number of downsamplings and expanding receptive fields by dilated convolutions increase the quality of output images. We used the SEN1-2 dataset to train and test both GANs, and we made cloudy images by adding synthetic clouds to optical images. The restored images are evaluated with PSNR and SSIM. We compare the proposed method with state-of-the-art deep learning models and achieve more accurate results in both SAR-to-optical translation and cloud removal parts.
翻訳日:2021-04-26 07:21:43 公開日:2020-12-22
# DAGMapper: レーントポロジの発見によるマップの学習

DAGMapper: Learning to Map by Discovering Lane Topology ( http://arxiv.org/abs/2012.12377v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Wei-Chiu Ma, Justin Liang, Xinyu Wu, Jack Fan, Raquel Urtasun(参考訳) 自動運転をスケールするための基本的な課題の1つは、低コストで正確なHDマップを作成することができることである。 このプロセスを自動化しようとする現在の試みは、一般的に単純なシナリオに注目し、フレームごとに独立したマップを見積もるか、あるいは現代の自動運転車に必要な精度を欠いている。 対照的に,本稿では,フォークやマージによるトポロジー変化を含む多くのレーンを有する複雑な高速道路のレーン境界を描くことに焦点を当てる。 この目的に向けて、グラフのノードがレーン境界の局所領域の幾何学的および位相的性質を符号化する有向非巡回グラフィカルモデル(DAG)の推論として問題を定式化する。 我々はレーンのトポロジーを事前に知らないので、各領域のdagトポロジー(つまりノードとエッジ)も推測する。 2つの異なる州における2つの幹線道路における我々のアプローチの有効性を実証し、高い精度とリコールと89%の正しいトポロジーを示す。

One of the fundamental challenges to scale self-driving is being able to create accurate high definition maps (HD maps) with low cost. Current attempts to automate this process typically focus on simple scenarios, estimate independent maps per frame or do not have the level of precision required by modern self driving vehicles. In contrast, in this paper we focus on drawing the lane boundaries of complex highways with many lanes that contain topology changes due to forks and merges. Towards this goal, we formulate the problem as inference in a directed acyclic graphical model (DAG), where the nodes of the graph encode geometric and topological properties of the local regions of the lane boundaries. Since we do not know a priori the topology of the lanes, we also infer the DAG topology (i.e., nodes and edges) for each region. We demonstrate the effectiveness of our approach on two major North American Highways in two different states and show high precision and recall as well as 89% correct topology.
翻訳日:2021-04-26 07:20:59 公開日:2020-12-22
# STaR:ニューラルレンダリングによる剛体物体の自律的追跡と再構成

STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering ( http://arxiv.org/abs/2101.01602v1 )

ライセンス: Link先を確認
Wentao Yuan, Zhaoyang Lv, Tanner Schmidt, Steven Lovegrove(参考訳) 本稿では,手動のアノテーションを使わずに,多視点RGBビデオからの厳密な動きを伴う動的シーンの自己教師付き追跡と再構成を行う新しい手法STaRを提案する。 近年の研究では、ニューラルネットワークが、シーンの多くのビューを、ボリュームレンダリングによって観測光線から観測光度値にマップする学習関数に圧縮するタスクにおいて、驚くほど効果的であることが示されている。 残念ながら、これらの手法は、シーン内の任意のオブジェクトが移動したら、予測能力を失う。 本研究では,放射場の神経表現の文脈における物体の剛性運動を明示的にモデル化する。 人為的な監視がなければ、一つの剛体物体を同時に2つの構成部品に分解し、それぞれを独自の神経表現で符号化することで、動的シーンを再構築できることが示される。 2つのニューラルレージアンス場のパラメータと、各フレームに2つのフィールドを整列する一組の剛性ポーズを共同で最適化することで、これを実現できる。 合成と実世界の両方のデータセットにおいて,本手法が空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを実証した。 また,物体の動きのアニメーション化も可能とした。

We present STaR, a novel method that performs Self-supervised Tracking and Reconstruction of dynamic scenes with rigid motion from multi-view RGB videos without any manual annotation. Recent work has shown that neural networks are surprisingly effective at the task of compressing many views of a scene into a learned function which maps from a viewing ray to an observed radiance value via volume rendering. Unfortunately, these methods lose all their predictive power once any object in the scene has moved. In this work, we explicitly model rigid motion of objects in the context of neural representations of radiance fields. We show that without any additional human specified supervision, we can reconstruct a dynamic scene with a single rigid object in motion by simultaneously decomposing it into its two constituent parts and encoding each with its own neural representation. We achieve this by jointly optimizing the parameters of two neural radiance fields and a set of rigid poses which align the two fields at each frame. On both synthetic and real world datasets, we demonstrate that our method can render photorealistic novel views, where novelty is measured on both spatial and temporal axes. Our factored representation furthermore enables animation of unseen object motion.
翻訳日:2021-04-26 07:20:41 公開日:2020-12-22
# 情報漏洩ゲーム:ユーティリティ機能としての情報探索

Information Leakage Games: Exploring Information as a Utility Function ( http://arxiv.org/abs/2012.12060v1 )

ライセンス: Link先を確認
M\'ario S. Alvim, Konstantinos Chatzikokolakis, Yusuke Kawamoto, Catuscia Palamidessi(参考訳) セキュアな情報フローとプライバシに関する一般的な目標は、不要な情報の漏洩に対して効果的な防御を構築することだ。 この目的のためには、潜在的な攻撃とそれらの防御との相互作用を推論できる必要がある。 本稿では,攻撃者や防御者の戦略を情報漏洩の文脈で定式化するゲーム理論フレームワークを提案し,最適な防御手法を開発するための基盤を提供する。 我々のゲームにおける重要な新規性は、それらのユーティリティが情報漏洩によって与えられることだ。 これは、プレイヤーの戦略に関して効用関数が線形である古典的なゲーム理論から大きな逸脱を引き起こす。 したがって,本稿の重要な貢献は情報漏洩ゲームの基礎の確立である。 情報漏洩の特定の概念に依存して,ゲームの主なカテゴリを2つ検討する。 QIFゲームと呼ばれる最初のカテゴリは、量的情報フロー(QIF)の理論のために調整されている。 2つ目は、私たちがDPゲームと呼ぶ、差分プライバシー(DP)に対応するものです。

A common goal in the areas of secure information flow and privacy is to build effective defenses against unwanted leakage of information. To this end, one must be able to reason about potential attacks and their interplay with possible defenses. In this paper we propose a game-theoretic framework to formalize strategies of attacker and defender in the context of information leakage, and provide a basis for developing optimal defense methods. A crucial novelty of our games is that their utility is given by information leakage, which in some cases may behave in a non-linear way. This causes a significant deviation from classic game theory, in which utility functions are linear with respect to players' strategies. Hence, a key contribution of this paper is the establishment of the foundations of information leakage games. We consider two main categories of games, depending on the particular notion of information leakage being captured. The first category, which we call QIF-games, is tailored for the theory of quantitative information flow (QIF). The second one, which we call DP-games, corresponds to differential privacy (DP).
翻訳日:2021-04-26 07:20:21 公開日:2020-12-22
# ガウス過程を持つ地球観測データの学習構造

Learning Structures in Earth Observation Data with Gaussian Processes ( http://arxiv.org/abs/2012.11922v1 )

ライセンス: Link先を確認
Fernando Mateo, Jordi Munoz-Mari, Valero Laparra, Jochem Verrelst, Gustau Camps-Valls(参考訳) ガウス過程(GPs)は、地球科学全般と、過去数年間で生物物理パラメーターの検索において大きな成功を収めてきた。 gpsは多くの関数近似問題を一貫して定式化する固形ベイズフレームワークを構成する。 本稿では,この分野の主要な理論gp開発について概説する。 本稿では,信号特性と雑音特性を尊重する新しいアルゴリズムについて検討し,特徴ランキングを自動的に提供し,関連する不確かさ区間を空間的および時間的モデルに適用可能にする。 これらすべての発展は、地学とリモートセンシングの分野において、一組の図示的な例を通して、局所的およびグローバルなスケールで示される。

Gaussian Processes (GPs) has experienced tremendous success in geoscience in general and for bio-geophysical parameter retrieval in the last years. GPs constitute a solid Bayesian framework to formulate many function approximation problems consistently. This paper reviews the main theoretical GP developments in the field. We review new algorithms that respect the signal and noise characteristics, that provide feature rankings automatically, and that allow applicability of associated uncertainty intervals to transport GP models in space and time. All these developments are illustrated in the field of geoscience and remote sensing at a local and global scales through a set of illustrative examples.
翻訳日:2021-04-26 07:20:07 公開日:2020-12-22
# MailLeak:伝達学習を用いた難読化ロバスト文字抽出

MailLeak: Obfuscation-Robust Character Extraction Using Transfer Learning ( http://arxiv.org/abs/2012.11775v1 )

ライセンス: Link先を確認
Wei Wang, Emily Sallenback, Zeyu Ning, Hugues Nelson Iradukunda, Wenxi Lu, Qingquan Zhang, Ting Zhu(参考訳) 以下の研究は、難読化画像からの文字認識のための新しいアルゴリズムを提示する。 提案手法は,現在の郵便サービスに対する潜在的な脅威の一例である。 本稿では,与えられたアルゴリズムの効率を解析し,その脅威を防止する対策を提案する。

The following work presents a new algorithm for character recognition from obfuscated images. The presented method is an example of a potential threat to current postal services. This paper both analyzes the efficiency of the given algorithm and suggests countermeasures to prevent such threats from occurring.
翻訳日:2021-04-26 07:19:57 公開日:2020-12-22
# ユーザ嗜好予測のためのパーソナライズされた適応型メタ学習

Personalized Adaptive Meta Learning for Cold-start User Preference Prediction ( http://arxiv.org/abs/2012.11842v1 )

ライセンス: Link先を確認
Runsheng Yu, Yu Gong, Xu He, Bo An, Yu Zhu, Qingwen Liu, Wenwu Ou(参考訳) パーソナライズされたユーザの好み予測における一般的な課題は、コールドスタート問題である。 ユーザ-テーマ間インタラクションの欠如により、新しいユーザのログデータから直接学習することは、深刻な過剰フィッティング問題を引き起こす。 近年,コールドスタートのパーソナライズされた嗜好予測は,各ユーザがタスクであり,推奨項目がクラスであり,勾配に基づくメタラーニング手法(MAML)が課題に対処するために活用されている,数発の学習問題であると考える研究が数多く存在する。 しかし、現実世界のアプリケーションでは、ユーザーは均一に配布されない(例えば、異なるユーザーが異なるブラウジング履歴、推奨アイテム、ユーザープロファイルを持つ)。 我々は,多数のユーザが同じユーザ情報を共有しているグループ内のユーザとしてメジャーユーザを定義し,他のユーザがマイナーユーザである,既存のMAMLアプローチがメジャーユーザに適合し,マイナーユーザを無視する傾向にある。 このコールドスタートタスクオーバーフィッティング問題に対処するため,本研究では,メジャーユーザとマイナーユーザの両方に3つの重要なコントリビューションを付与する,パーソナライズされた適応型メタ学習アプローチを提案する。 2)各ユーザに対してよりパーソナライズされた学習率を提供するために,類似したユーザを参照として見つけるための類似性に基づく手法と,高速検索のためのユーザの機能を格納するツリーベース手法を提案する。 3)メモリ使用量を削減するため,メモリ非依存の正規化器を設計し,性能を維持しながら空間の複雑さをさらに一定に抑える。 MovieLens、BookCrossing、および実世界のプロダクションデータセットの実験により、我々の手法は、マイナーユーザとメジャーユーザの両方にとって、最先端の手法を劇的に上回ります。

A common challenge in personalized user preference prediction is the cold-start problem. Due to the lack of user-item interactions, directly learning from the new users' log data causes serious over-fitting problem. Recently, many existing studies regard the cold-start personalized preference prediction as a few-shot learning problem, where each user is the task and recommended items are the classes, and the gradient-based meta learning method (MAML) is leveraged to address this challenge. However, in real-world application, the users are not uniformly distributed (i.e., different users may have different browsing history, recommended items, and user profiles. We define the major users as the users in the groups with large numbers of users sharing similar user information, and other users are the minor users), existing MAML approaches tend to fit the major users and ignore the minor users. To address this cold-start task-overfitting problem, we propose a novel personalized adaptive meta learning approach to consider both the major and the minor users with three key contributions: 1) We are the first to present a personalized adaptive learning rate meta-learning approach to improve the performance of MAML by focusing on both the major and minor users. 2) To provide better personalized learning rates for each user, we introduce a similarity-based method to find similar users as a reference and a tree-based method to store users' features for fast search. 3) To reduce the memory usage, we design a memory agnostic regularizer to further reduce the space complexity to constant while maintain the performance. Experiments on MovieLens, BookCrossing, and real-world production datasets reveal that our method outperforms the state-of-the-art methods dramatically for both the minor and major users.
翻訳日:2021-04-26 07:19:54 公開日:2020-12-22
# Rejection Smplingによる$k$-means++の高速化

Fast and Accurate $k$-means++ via Rejection Sampling ( http://arxiv.org/abs/2012.11891v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad and Silvio Lattanzi and Ashkan Norouzi-Fard and Christian Sohler and Ola Svensson(参考訳) $k$-means++ \cite{arthur2007k} は実装が容易で、優れた理論的保証と強力な経験的性能を持つクラスタリングアルゴリズムである。 広く採用されているにもかかわらず、$k$-means++は大規模なデータセットの処理が遅くなることがあるため、同様の保証でより効率的なアルゴリズムを得ることが自然な問題であった。 本稿では,$k$-means++ シードのための近似線形時間アルゴリズムを提案する。 興味深いことに、我々のアルゴリズムは$k$-means++と同じ理論的保証を取得し、高速な$k$-means++のシード結果を大幅に改善する。 さらに,本アルゴリズムは$k$-means++よりもはるかに高速であり,等価品質の解が得られることを示す。

$k$-means++ \cite{arthur2007k} is a widely used clustering algorithm that is easy to implement, has nice theoretical guarantees and strong empirical performance. Despite its wide adoption, $k$-means++ sometimes suffers from being slow on large data-sets so a natural question has been to obtain more efficient algorithms with similar guarantees. In this paper, we present a near linear time algorithm for $k$-means++ seeding. Interestingly our algorithm obtains the same theoretical guarantees as $k$-means++ and significantly improves earlier results on fast $k$-means++ seeding. Moreover, we show empirically that our algorithm is significantly faster than $k$-means++ and obtains solutions of equivalent quality.
翻訳日:2021-04-26 07:19:23 公開日:2020-12-22
# 予測作業地図を用いた高速ロボットナビゲーション

High-Speed Robot Navigation using Predicted Occupancy Maps ( http://arxiv.org/abs/2012.12142v1 )

ライセンス: Link先を確認
Kapil D. Katyal (1 and 2), Adam Polevoy (1), Joseph Moore (1), Craig Knuth (1), Katie M. Popek (1) ((1) Johns Hopkins University Applied Physics Lab, (2) Dept. of Comp. Sci., Johns Hopkins University)(参考訳) 安全で高速なナビゲーションは、ロボットシステムの現実的な展開を可能にする重要な能力である。 既存のアプローチの大きな制限は、明示的なマッピングと既存のセンサー技術の限られた視野(FOV)に関連する計算ボトルネックである。 本稿では,ロボットがセンサホライズンを超えて広がる空間を高速に予測し,ロバストな計画を行うためのアルゴリズム的手法について検討する。 我々は、人間のアノテートラベルを必要とせず、実世界のデータからトレーニングされた生成ニューラルネットワークを用いてこれを実現する。 さらに,既存の制御アルゴリズムを拡張して予測空間の活用を支援し,衝突のない計画とナビゲーションを高速に向上する。 実験は,マップの予測領域で動作しないコントローラと比較して4m/sで性能が向上したrgbdセンサを用いて,mitのレースカーに基づく物理ロボットを用いて実施した。

Safe and high-speed navigation is a key enabling capability for real world deployment of robotic systems. A significant limitation of existing approaches is the computational bottleneck associated with explicit mapping and the limited field of view (FOV) of existing sensor technologies. In this paper, we study algorithmic approaches that allow the robot to predict spaces extending beyond the sensor horizon for robust planning at high speeds. We accomplish this using a generative neural network trained from real-world data without requiring human annotated labels. Further, we extend our existing control algorithms to support leveraging the predicted spaces to improve collision-free planning and navigation at high speeds. Our experiments are conducted on a physical robot based on the MIT race car using an RGBD sensor where were able to demonstrate improved performance at 4 m/s compared to a controller not operating on predicted regions of the map.
翻訳日:2021-04-26 07:18:48 公開日:2020-12-22
# 主共変量回帰によるサンプルと特徴選択の改善

Improving Sample and Feature Selection with Principal Covariates Regression ( http://arxiv.org/abs/2012.12253v1 )

ライセンス: Link先を確認
Rose K. Cersonsky, Benjamin A. Helfrecht, Edgar A. Engel, Michele Ceriotti(参考訳) 大量の候補の中から最も関連性の高い特徴とサンプルを選択することは、自動データ分析の文脈で非常に頻繁に発生するタスクであり、そこでは、計算性能、そしてしばしばモデルの転送可能性を改善するために使用できる。 ここでは,特徴行列の低ランク近似に基づくcur分解と,最も多様なサンプルの反復的同定と特徴の識別に依存する最遠点サンプリングという,この目的に適用される2つの一般的な部分選択スキームに注目した。 主共変量回帰 (principal covariates regression, pcovr) 法と同じスピリットに従う教師付きコンポーネントを組み込んで, 教師なしのアプローチを修正した。 対象情報を組み込むことで,教師付きタスクにおいて優れた性能を発揮する選択が可能になることを示し,リッジ回帰,カーネルリッジ回帰,スパースカーネル回帰で示す。 また、単純な教師付き学習モデルの側面を取り入れることで、フィードフォワードニューラルネットワークのような複雑なモデルの精度が向上することを示した。 我々は,教師なしタスクの実行時に生じる任意のサブ選択の影響を最小限に抑えるための調整を行う。 本研究では, 化学・材料科学への応用におけるpcov-curとpcov-fpsの選択に関する重要な改善を実証する。

Selecting the most relevant features and samples out of a large set of candidates is a task that occurs very often in the context of automated data analysis, where it can be used to improve the computational performance, and also often the transferability, of a model. Here we focus on two popular sub-selection schemes which have been applied to this end: CUR decomposition, that is based on a low-rank approximation of the feature matrix and Farthest Point Sampling, that relies on the iterative identification of the most diverse samples and discriminating features. We modify these unsupervised approaches, incorporating a supervised component following the same spirit as the Principal Covariates Regression (PCovR) method. We show that incorporating target information provides selections that perform better in supervised tasks, which we demonstrate with ridge regression, kernel ridge regression, and sparse kernel regression. We also show that incorporating aspects of simple supervised learning models can improve the accuracy of more complex models, such as feed-forward neural networks. We present adjustments to minimize the impact that any subselection may incur when performing unsupervised tasks. We demonstrate the significant improvements associated with the use of PCov-CUR and PCov-FPS selections for applications to chemistry and materials science, typically reducing by a factor of two the number of features and samples which are required to achieve a given level of regression accuracy.
翻訳日:2021-04-26 07:18:36 公開日:2020-12-22
# アポトーシス評価における細胞追跡精度測定に適合する非周期配向グラフの限界

Limitation of Acyclic Oriented Graphs Matching as Cell Tracking Accuracy Measure when Evaluating Mitosis ( http://arxiv.org/abs/2012.12084v1 )

ライセンス: Link先を確認
Ye Chen and Yuankai Huo(参考訳) コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)とバイオメディカル画像解析におけるセル追跡(英語版)は、2つの類似した研究分野であり、その共通の目的は、インスタンスレベルのオブジェクト検出/セグメンテーションを達成し、それらのオブジェクトを異なるビデオフレーム間で関連付けることである。 しかし、これらの2つのタスクの大きな違いの1つは、細胞追跡が一般的にMOTタスクでは考慮されていないミトーシス(細胞分裂)の検出も目的としていることである。 したがって、多目的追跡精度(MOTA)、IDスイッチ(IDS)、ID F1スコア(IDF1)などのコンピュータビジョンにおける評価指標を直接使用するのではなく、非巡回指向グラフマッチング(AOGM)が、セルトラッキングの事実上の標準評価指標として使用されている。 しかし, 実験の結果, AOGMは常に有意な機能を示しなかった。 本稿では,シミュレーションおよび実細胞追跡データを用いて,AOGMを用いたミトーシス評価の限界を示す。

Multi-object tracking (MOT) in computer vision and cell tracking in biomedical image analysis are two similar research fields, whose common aim is to achieve instance level object detection/segmentation and associate such objects across different video frames. However, one major difference between these two tasks is that cell tracking also aim to detect mitosis (cell division), which is typically not considered in MOT tasks. Therefore, the acyclic oriented graphs matching (AOGM) has been used as de facto standard evaluation metrics for cell tracking, rather than directly using the evaluation metrics in computer vision, such as multiple object tracking accuracy (MOTA), ID Switches (IDS), ID F1 Score (IDF1) etc. However, based on our experiments, we realized that AOGM did not always function as expected for mitosis events. In this paper, we exhibit the limitations of evaluating mitosis with AOGM using both simulated and real cell tracking data.
翻訳日:2021-04-26 07:16:53 公開日:2020-12-22
# 定量的t2自由度測定と深層学習による膝軟骨劣化の自動評価のためのオープンソースソフトウェア

Open source software for automatic subregional assessment of knee cartilage degradation using quantitative T2 relaxometry and deep learning ( http://arxiv.org/abs/2012.12406v1 )

ライセンス: Link先を確認
Kevin A. Thomas (1), Dominik Krzemi\'nski (2), {\L}ukasz Kidzi\'nski (3), Rohan Paul (1), Elka B. Rubin (4), Eni Halilaj (5), Marianne S. Black (4) Akshay Chaudhari (1,4), Garry E. Gold (3,4,6), Scott L. Delp (3,6,7) ((1) Department of Biomedical Data Science, Stanford University, California, USA (2) Cardiff University Brain Research Imaging Centre, Cardiff University, United Kingdom (3) Department of Biomedical Engineering, Stanford University, California, USA (4) Department of Radiology, Stanford University, California, USA (5) Department of Mechanical Engineering, Carnegie Mellon University, Pennsylvania, USA (6) Department of Orthopaedic Surgery, Stanford University, California, USA (7) Department of Mechanical Engineering, Stanford University, California, USA)(参考訳) 目的: マルチエコースピンエコー(mese)mriによるt2リラクゼーション値および経時的変化を測定するために, 全自動大腿骨軟骨分割モデルを評価する。 我々はこのモデルと対応するセグメンテーションをオープンソース化した。 方法: MESE MRIから大腿骨軟骨を分離するニューラルネットワークを訓練した。 軟骨は中側,表層深度,前後境界に沿って12の亜領域に分けられた。 筋骨格ラジオロジストのセグメンテーション(Reader 1)とモデルセグメンテーションを用いて, 局所T2値と4年間の変化を算出した。 28枚の画像で比較した。 また、比較のために第2の専門家(Reader 2)によって14枚の画像のサブセットも評価された。 結果: モデルのセグメンテーションは読者1のセグメンテーションと一致し, サイススコアは 0.85 +/- 0.03 であった。 モデルによる各サブリージョンのt2値は、平均スピアマン相関が 0.89、平均平均絶対誤差 (mae) が 1.34ms のリーダー1と一致した。 モデルによる各領域でのt2の4年間の変化は、平均相関が0.80、平均 mae が1.72msでリーダー1と一致した。 モデルは reader 1 と少なくとも reader 2 と同様に、dice score (0.85 vs 0.75) と subregional t2 の点で reader 1 と一致する。 結論: MESE MRI のセグメント化のための高速かつ完全自動モデルを提案する。 分節を用いた軟骨の健康評価は、専門家が互いに同意する限り、専門家のそれと密接に一致する。 これは変形性関節症の研究を加速する可能性がある。

Objective: We evaluate a fully-automated femoral cartilage segmentation model for measuring T2 relaxation values and longitudinal changes using multi-echo spin echo (MESE) MRI. We have open sourced this model and corresponding segmentations. Methods: We trained a neural network to segment femoral cartilage from MESE MRIs. Cartilage was divided into 12 subregions along medial-lateral, superficial-deep, and anterior-central-posterior boundaries. Subregional T2 values and four-year changes were calculated using a musculoskeletal radiologist's segmentations (Reader 1) and the model's segmentations. These were compared using 28 held out images. A subset of 14 images were also evaluated by a second expert (Reader 2) for comparison. Results: Model segmentations agreed with Reader 1 segmentations with a Dice score of 0.85 +/- 0.03. The model's estimated T2 values for individual subregions agreed with those of Reader 1 with an average Spearman correlation of 0.89 and average mean absolute error (MAE) of 1.34 ms. The model's estimated four-year change in T2 for individual regions agreed with Reader 1 with an average correlation of 0.80 and average MAE of 1.72 ms. The model agreed with Reader 1 at least as closely as Reader 2 agreed with Reader 1 in terms of Dice score (0.85 vs 0.75) and subregional T2 values. Conclusions: We present a fast, fully-automated model for segmentation of MESE MRIs. Assessments of cartilage health using its segmentations agree with those of an expert as closely as experts agree with one another. This has the potential to accelerate osteoarthritis research.
翻訳日:2021-04-26 07:16:32 公開日:2020-12-22
# タンパク質構造の深層多属性グラフ表現学習

Deep Multi-attribute Graph Representation Learning on Protein Structures ( http://arxiv.org/abs/2012.11762v1 )

ライセンス: Link先を確認
Tian Xia, Wei-Shinn Ku(参考訳) 近年,データ構造としてのグラフが注目されている。 幾何学グラフの表現学習は、分子ネットワーク、社会ネットワーク、金融ネットワークを含む多くの分野で大きな成功を収めた。 ノードが残基を表すグラフとしてタンパク質を提示することは自然であり、エッジは残基間の対の相互作用を表す。 しかし、3dタンパク質構造が直接グラフとして研究されることはほとんどない。 1)タンパク質は数千の原子からなる複雑なマクロ分子であり、マイクロ分子よりもモデル化が困難である。 2) タンパク質構造モデリングのための長距離対関係の把握は未検討のままである。 3)タンパク質の異なる特性を一緒に学ぶことに焦点を当てた研究はほとんどない。 以上の課題に対処するため,タンパク質を3次元グラフとして表現し,距離幾何学グラフ表現と2面幾何学グラフ表現を同時に予測する新しいグラフニューラルネットワークアーキテクチャを提案する。 このネットワークはシーケンスから構造への新しいパスを開くので、これは大きな利点となる。 提案手法の有効性を実証し, 4つの異なるデータセットについて広範な実験を行った。

Graphs as a type of data structure have recently attracted significant attention. Representation learning of geometric graphs has achieved great success in many fields including molecular, social, and financial networks. It is natural to present proteins as graphs in which nodes represent the residues and edges represent the pairwise interactions between residues. However, 3D protein structures have rarely been studied as graphs directly. The challenges include: 1) Proteins are complex macromolecules composed of thousands of atoms making them much harder to model than micro-molecules. 2) Capturing the long-range pairwise relations for protein structure modeling remains under-explored. 3) Few studies have focused on learning the different attributes of proteins together. To address the above challenges, we propose a new graph neural network architecture to represent the proteins as 3D graphs and predict both distance geometric graph representation and dihedral geometric graph representation together. This gives a significant advantage because this network opens a new path from the sequence to structure. We conducted extensive experiments on four different datasets and demonstrated the effectiveness of the proposed method.
翻訳日:2021-04-26 07:16:04 公開日:2020-12-22
# 制約付きサンプリングと非凸学習のための確率的勾配ランジュバンアルゴリズム

Projected Stochastic Gradient Langevin Algorithms for Constrained Sampling and Non-Convex Learning ( http://arxiv.org/abs/2012.12137v1 )

ライセンス: Link先を確認
Andrew Lamperski(参考訳) ランゲヴィンアルゴリズムは付加雑音を伴う勾配降下法である。 マルコフ連鎖モンテカルロ(MCMC)のサンプリング、最適化、学習に何十年も使われてきた。 制約のない非凸最適化と学習問題に対する収束特性は近年広く研究されている。 他の研究では、凸コンパクト集合に制限された対数凹分布からサンプリングするランゲヴィンアルゴリズムを検証している。 学習と最適化のために、対流分布は凸損失に対応する。 本稿では,コンパクトな凸制約セットとIID外部データ変数を用いた非凸損失事例の解析を行う。 提案手法は確率勾配ランゲヴィンアルゴリズム (PSGLA) である。 このアルゴリズムは1-wasserstein距離の目標分布から$o(t^{-1/4}(\log t)^{1/2})の偏差が得られることを示す。 最適化と学習のために、アルゴリズムが平均して$\epsilon$-suboptimalな解を達成することを示し、$\epsilon^{-1}$の多項式であり、問題の次元においてわずかに超指数的であることを仮定する。

Langevin algorithms are gradient descent methods with additive noise. They have been used for decades in Markov chain Monte Carlo (MCMC) sampling, optimization, and learning. Their convergence properties for unconstrained non-convex optimization and learning problems have been studied widely in the last few years. Other work has examined projected Langevin algorithms for sampling from log-concave distributions restricted to convex compact sets. For learning and optimization, log-concave distributions correspond to convex losses. In this paper, we analyze the case of non-convex losses with compact convex constraint sets and IID external data variables. We term the resulting method the projected stochastic gradient Langevin algorithm (PSGLA). We show the algorithm achieves a deviation of $O(T^{-1/4}(\log T)^{1/2})$ from its target distribution in 1-Wasserstein distance. For optimization and learning, we show that the algorithm achieves $\epsilon$-suboptimal solutions, on average, provided that it is run for a time that is polynomial in $\epsilon^{-1}$ and slightly super-exponential in the problem dimension.
翻訳日:2021-04-26 07:15:31 公開日:2020-12-22
# プライバシ保証によるプロジェクションフリー帯域最適化

Projection-Free Bandit Optimization with Privacy Guarantees ( http://arxiv.org/abs/2012.12138v1 )

ライセンス: Link先を確認
Alina Ene, Huy L. Nguyen, Adrian Vladu(参考訳) プロジェクションフリー設定における帯域凸最適化問題に対して差分プライベートアルゴリズムを設計する。 この設定は、決定集合が複素幾何学を持つときに重要であり、それへのアクセスは線型最適化オラクルを通してのみ効率的に行われるので、ユークリッド射影は利用できない(例)。 マトロイドポリトープ (matroid polytope, submodular base polytope)。 これはプロジェクションフリーなバンディット最適化のための最初の微分プライベートアルゴリズムであり、実際は$\widetilde{O}(T^{3/4})$のバウンダリは、最もよく知られた非プライベートなプロジェクションフリーアルゴリズム(Garber-Kretzu, AISTATS `20)と、プロジェクションが利用可能であるときの弱い設定(Smith-Thakurta, NeurIPS `13)と一致する。

We design differentially private algorithms for the bandit convex optimization problem in the projection-free setting. This setting is important whenever the decision set has a complex geometry, and access to it is done efficiently only through a linear optimization oracle, hence Euclidean projections are unavailable (e.g. matroid polytope, submodular base polytope). This is the first differentially-private algorithm for projection-free bandit optimization, and in fact our bound of $\widetilde{O}(T^{3/4})$ matches the best known non-private projection-free algorithm (Garber-Kretzu, AISTATS `20) and the best known private algorithm, even for the weaker setting when projections are available (Smith-Thakurta, NeurIPS `13).
翻訳日:2021-04-26 07:15:16 公開日:2020-12-22
# 再生可能発電能力向上のための電気自動車車両の自律充電

Autonomous Charging of Electric Vehicle Fleets to Enhance Renewable Generation Dispatchability ( http://arxiv.org/abs/2012.12257v1 )

ライセンス: Link先を確認
Reza Bayani, Saeed D. Manshadi, Guangyi Liu, Yawei Wang, Renchang Dai(参考訳) カリフォルニア州の発電能力の合計19%は太陽光発電で供給されており、数ヶ月でこのエネルギーの10%以上が削減されている。 本研究では、電気自動車の充電調整による再生可能エネルギー削減とシステムの柔軟性向上のための新しいアプローチを示す。 提案した問題は逐次意思決定プロセスであり,他の強化学習法と異なり,学習回数の少ないQ-イテレーションアルゴリズムによって解決される。 提案手法の有効性を検証するために3つの事例研究を行った。 これらのケースには、アグリゲータ負荷追従、ランプサービス、非決定論的PV生成の利用が含まれる。 結果は、この枠組みを通じて、電気自動車は、旅行時間や太陽光発電が事前に不明な確率的なシナリオで充電スケジュールを調整する方法を学ぶことに成功したことを示唆している。

A total 19% of generation capacity in California is offered by PV units and over some months, more than 10% of this energy is curtailed. In this research, a novel approach to reduce renewable generation curtailments and increasing system flexibility by means of electric vehicles' charging coordination is represented. The presented problem is a sequential decision making process, and is solved by fitted Q-iteration algorithm which unlike other reinforcement learning methods, needs fewer episodes of learning. Three case studies are presented to validate the effectiveness of the proposed approach. These cases include aggregator load following, ramp service and utilization of non-deterministic PV generation. The results suggest that through this framework, EVs successfully learn how to adjust their charging schedule in stochastic scenarios where their trip times, as well as solar power generation are unknown beforehand.
翻訳日:2021-04-26 07:14:53 公開日:2020-12-22
# 群集環境におけるグループ対応ロボットナビゲーション

Group-Aware Robot Navigation in Crowded Environments ( http://arxiv.org/abs/2012.12291v1 )

ライセンス: Link先を確認
Kapil Katyal, Yuxiang Gao, Jared Markowitz, I-Jeng Wang, Chien-Ming Huang(参考訳) 人間を意識したロボットナビゲーションは、モバイルロボットが共通の人間環境の人々に多目的支援をもたらす様々なアプリケーションを実現する。 これまでの研究では、歩行者を独立した、意図的な個人としてモデル化することを中心に研究されてきたが、人々は集団で移動する。 本稿では,深層強化学習を用いた動的グループ形成に基づく学習グループ対応ナビゲーションポリシーについて検討する。 シミュレーション実験により,人間集団を無視する基本方針と比較して,ロボットナビゲーション性能の向上(衝突の低減など),社会規範の違反や不快感の最小化,歩行者に対するロボットの動きへの影響の低減などが示された。 本研究は,ソーシャルナビゲーションの開発と,移動ロボットの人間環境への統合に寄与する。

Human-aware robot navigation promises a range of applications in which mobile robots bring versatile assistance to people in common human environments. While prior research has mostly focused on modeling pedestrians as independent, intentional individuals, people move in groups; consequently, it is imperative for mobile robots to respect human groups when navigating around people. This paper explores learning group-aware navigation policies based on dynamic group formation using deep reinforcement learning. Through simulation experiments, we show that group-aware policies, compared to baseline policies that neglect human groups, achieve greater robot navigation performance (e.g., fewer collisions), minimize violation of social norms and discomfort, and reduce the robot's movement impact on pedestrians. Our results contribute to the development of social navigation and the integration of mobile robots into human environments.
翻訳日:2021-04-26 07:14:40 公開日:2020-12-22
# 脳はマクロ的に線形か? 静止状態ダイナミクスのシステム同定

Is the brain macroscopically linear? A system identification of resting state dynamics ( http://arxiv.org/abs/2012.12351v1 )

ライセンス: Link先を確認
Erfan Nozari, Jennifer Stiso, Lorenzo Caciagli, Eli J. Cornblath, Xiaosong He, Maxwell A. Bertolero, Arun S. Mahadevan, George J. Pappas, and Danielle S. Bassett(参考訳) ニューラルダイナミクスの計算モデリングにおける中心的な課題は、精度と単純さのトレードオフである。 個々のニューロンのレベルでは、非線形ダイナミクスは実験的に確立され、ニューロンの機能に必須である。 これにより、全脳力学の正確な計算モデルも非常に非線形でなければならないという暗黙の仮定が成立し、線形モデルは一階近似を与えるかもしれない。 本稿では,システム同定理論を活用し,脳内血液酸素レベル依存性(bold)とマクロ場電位ダイナミクスのレベルにおいて,この仮説を厳密かつデータ駆動的に検討する。 機能的MRI(fMRI)と頭蓋内脳波(iEEG)を用いて,HCP(Human Connectome Project)では700名,RAM(Restoring Active Memory)では122名の被験者を,最先端の線形モデルと非線形モデルファミリを用いてモデル化した。 予測力,計算複雑性,モデルに説明のつかない残差ダイナミクスの程度を用いて,相対モデル適合性を評価する。 予想とは対照的に、線形自動回帰モデルは3つの指標すべてで最高の測定を達成し、正確性と単純さのトレードオフを排除します。 この線形性を理解し, 説明するために, 空間平均化, 時間平均化, 観測ノイズ, 限られたデータサンプルという, 微視的非線形力学の反作用やマスキングが可能な, マクロ神経力学の4つの性質を強調する。 後者の2つは技術的制限であり、将来改善できるが、前2つはマクロな脳活動の集約に固有のものである。 本研究は, 線形モデルの非平行解釈性とともに, 視神経力学の理解を大いに促進し, 神経精神疾患治療のためのモデルに基づく介入の原則設計を行う。

A central challenge in the computational modeling of neural dynamics is the trade-off between accuracy and simplicity. At the level of individual neurons, nonlinear dynamics are both experimentally established and essential for neuronal functioning. An implicit assumption has thus formed that an accurate computational model of whole-brain dynamics must also be highly nonlinear, whereas linear models may provide a first-order approximation. Here, we provide a rigorous and data-driven investigation of this hypothesis at the level of whole-brain blood-oxygen-level-dependent (BOLD) and macroscopic field potential dynamics by leveraging the theory of system identification. Using functional MRI (fMRI) and intracranial EEG (iEEG), we model the resting state activity of 700 subjects in the Human Connectome Project (HCP) and 122 subjects from the Restoring Active Memory (RAM) project using state-of-the-art linear and nonlinear model families. We assess relative model fit using predictive power, computational complexity, and the extent of residual dynamics unexplained by the model. Contrary to our expectations, linear auto-regressive models achieve the best measures across all three metrics, eliminating the trade-off between accuracy and simplicity. To understand and explain this linearity, we highlight four properties of macroscopic neurodynamics which can counteract or mask microscopic nonlinear dynamics: averaging over space, averaging over time, observation noise, and limited data samples. Whereas the latter two are technological limitations and can improve in the future, the former two are inherent to aggregated macroscopic brain activity. Our results, together with the unparalleled interpretability of linear models, can greatly facilitate our understanding of macroscopic neural dynamics and the principled design of model-based interventions for the treatment of neuropsychiatric disorders.
翻訳日:2021-04-26 07:13:25 公開日:2020-12-22
# 境界値問題に制約されたガウス過程回帰

Gaussian Process Regression constrained by Boundary Value Problems ( http://arxiv.org/abs/2012.11857v1 )

ライセンス: Link先を確認
Mamikon Gulian, Ari Frankel, Laura Swiler(参考訳) 我々は境界値問題に制約されたガウス過程回帰のためのフレームワークを開発した。 この枠組みは、既知の二階微分作用素と境界条件を持つ境界値問題の解を推定するために適用することができるが、ソース項の散乱観測のみが可能である。 溶液の散乱観察は回帰にも用いられる。 この枠組みは、ガウス過程の線形変換と、境界値問題の固有関数におけるスペクトル展開によって与えられるカーネルの使用を組み合わせたものである。 したがって、共分散行列の低ランク性から恩恵を受ける。 その結果, 境界条件制約を伴わない物理インフォームドガウス過程の回帰よりも, より正確かつ安定な解推定法が得られた。

We develop a framework for Gaussian processes regression constrained by boundary value problems. The framework may be applied to infer the solution of a well-posed boundary value problem with a known second-order differential operator and boundary conditions, but for which only scattered observations of the source term are available. Scattered observations of the solution may also be used in the regression. The framework combines co-kriging with the linear transformation of a Gaussian process together with the use of kernels given by spectral expansions in eigenfunctions of the boundary value problem. Thus, it benefits from a reduced-rank property of covariance matrices. We demonstrate that the resulting framework yields more accurate and stable solution inference as compared to physics-informed Gaussian process regression without boundary condition constraints.
翻訳日:2021-04-26 07:12:51 公開日:2020-12-22