このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210729となっている論文です。

PDF登録状況(公開日: 20210729)

TitleAuthorsAbstract論文公表日・翻訳日
# 非古典的時間相関によるティッキングクロック性能の向上

Ticking-clock performance enhanced by nonclassical temporal correlations ( http://arxiv.org/abs/2005.04241v2 )

ライセンス: Link先を確認
Costantino Budroni, Giuseppe Vitagliano, Mischa P. Woods(参考訳) 離散時間シナリオにおける刻み時計の性能向上における非古典的時間相関の役割について検討した。 ストッキングクロックの最適モデルの問題は,メモリ容量が有界なシステムにおいて,侵入的あるいは侵入的かつ連続的な測定で定式化されたLeggett-Garg型時間的不等式に関係していることを示す。 タイニングクロックは、入力を伴わないにもかかわらず、古典的相関と量子的相関のギャップを示す時間的不等式の族を導出する。 古典的境界を超える精度を達成する量子時空モデルは、有限列に対するLeggett-Garg型時間的不等式に違反するものであることを示す。 興味深いことに、離散時間シナリオにおける最適古典クロックモデルは、量子モデルには存在しない特徴である連続時間制限を十分に定義していない。

We investigate the role of nonclassical temporal correlations in enhancing the performance of ticking clocks in a discrete-time scenario. We show that the problem of optimal models for ticking clocks is related to the violation of Leggett-Garg-type temporal inequalities formulated in terms of, possibly invasive, sequential measurements, but on a system with a bounded memory capacity. Ticking clocks inspire the derivation of a family of temporal inequalities showing a gap between classical and quantum correlations, despite involving no input. We show that quantum ticking-clock models achieving accuracy beyond the classical bound are also those violating Leggett-Garg-type temporal inequalities for finite sequences and we investigate their continuous-time limit. Interestingly, we show that optimal classical clock models in the discrete-time scenario do not have a well-defined continuous-time limit, a feature that is absent in quantum models.
翻訳日:2023-05-20 20:08:44 公開日:2021-07-29
# 1次元対称性保護位相秩序の弦次数パラメータによる量子計算の利点

Quantum computational advantage with string order parameters of 1D symmetry-protected topological order ( http://arxiv.org/abs/2007.16160v2 )

ライセンス: Link先を確認
Austin K. Daniel and Akimasa Miyake(参考訳) 有利な量子戦略を持つ非局所ゲームは、古典的手法よりも量子資源のパワーの最も基本的な実証となる。 近年、非局所ゲームのある種のマルチプレイヤー一般化は、浅層回路の小さな計算複雑性クラス間の無条件分離を証明するために用いられている。 ここでは、ツイスト位相として知られるSPTOの離散不変量が非自明かつ-1のとき、1次元対称性保護位相列(SPTO)の一般基底状態に対するこれらの非局所ゲームに有利な戦略を示す。 本研究では,SPTOの文字列順序パラメータが,非条件計算分離に有用な大域的制約付き相関の指標であることを示す。

Nonlocal games with advantageous quantum strategies give arguably the most fundamental demonstration of the power of quantum resources over their classical counterparts. Recently, certain multiplayer generalizations of nonlocal games have been used to prove unconditional separations between small computational complexity classes of shallow-depth circuits. Here, we show advantageous strategies for these nonlocal games for generic ground states of one-dimensional symmetry-protected topological orders (SPTOs), when a discrete invariant of a SPTO known as a twist phase is nontrivial and -1. Our construction demonstrates that sufficiently large string order parameters of such SPTOs are indicative of globally constrained correlations useful for the unconditional computational separation.
翻訳日:2023-05-07 12:33:09 公開日:2021-07-29
# 転位猫状態による量子発振器ノイズ分光

Quantum oscillator noise spectroscopy via displaced cat states ( http://arxiv.org/abs/2010.04375v2 )

ライセンス: Link先を確認
Alistair R. Milne, Cornelius Hempel, Li Li, Claire L. Edmunds, Harry J. Slatyer, Harrison Ball, Michael R. Hush, Michael J. Biercuk(参考訳) 量子調和振動子は多くの現代の量子技術の中心である。 連続駆動の量子ビット状態依存変位を持つ量子ビットにそれらを結合して発振器モードの周波数雑音スペクトルを決定する手法を提案する。 コンベックス最適化に基づくデータ融合ルーチンとともに、一連の異なる駆動位相と振幅変調パターンを用いて雑音スペクトルを再構成する。 本手法は,準直流から50khzまでのスペクトル範囲におけるサブhzレベルのゆらぎに対する感度を有する単一捕捉イオンの運動周波数における固有ノイズの同定に応用する。

Quantum harmonic oscillators are central to many modern quantum technologies. We introduce a method to determine the frequency noise spectrum of oscillator modes through coupling them to a qubit with continuously driven qubit-state-dependent displacements. We reconstruct the noise spectrum using a series of different drive phase and amplitude modulation patterns in conjunction with a data-fusion routine based on convex optimization. We apply the technique to the identification of intrinsic noise in the motional frequency of a single trapped ion with sensitivity to fluctuations at the sub-Hz level in a spectral range from quasi-DC up to 50 kHz.
翻訳日:2023-04-29 13:38:49 公開日:2021-07-29
# 量子論の操作的定式化における時間の矢印

The arrow of time in operational formulations of quantum theory ( http://arxiv.org/abs/2010.05734v2 )

ライセンス: Link先を確認
Andrea Di Biagio, Pietro Don\`a, Carlo Rovelli(参考訳) 量子論の操作的定式化は大幅に時間指向である。 しかし、我々の知る限りでは、微視的物理学は時間対称である。 この緊張に対処するために, 操作定式化の非対称性は物理の基本的な時間方向を反映しないことを示す。 代わりに、それは理論の$users$に関するビルトインの仮定に由来する。 特に、これらの形式は過去に関する情報に基づいて未来を予測するように設計されており、主要な数学的対象は過去についての暗黙の仮定を含むが、未来については含まない。 量子論における主な非対称性は、既知のものと未知との差である。

The operational formulations of quantum theory are drastically time oriented. However, to the best of our knowledge, microscopic physics is time-symmetric. We address this tension by showing that the asymmetry of the operational formulations does not reflect a fundamental time-orientation of physics. Instead, it stems from built-in assumptions about the $users$ of the theory. In particular, these formalisms are designed for predicting the future based on information about the past, and the main mathematical objects contain implicit assumption about the past, but not about the future. The main asymmetry in quantum theory is the difference between knowns and unknowns.
翻訳日:2023-04-29 07:18:38 公開日:2021-07-29
# ナノファイバー結合原子を流れる光のスクイーズスペクトルによる2光子絡み合い

Unraveling two-photon entanglement via the squeezing spectrum of light traveling through nanofiber-coupled atoms ( http://arxiv.org/abs/2010.09450v2 )

ライセンス: Link先を確認
Jakob Hinney, Adarsh S. Prasad, Sahand Mahmoodian, Klemens Hammerer, Arno Rauschenbeutel, Philipp Schneeweiss, J\"urgen Volz, Max Schemmer(参考訳) 光ナノファイバーに結合した原子のアンサンブルを通して伝達される弱誘導光場は二次スクイージングを示す。 測定したスクイーズスペクトルから、アンサンブルを通る光子の強い相関輸送から生じる2光子波動関数のエネルギー時間絡み合い部分の位相と振幅に直接アクセスする。 小さな原子アンサンブルでは、原子遷移の線状に近いスペクトルを観測し、サイドバンドは理論的な予測と一致して、十分に大きなアンサンブルで観測される。 さらに、原子共鳴に関してプローブ光のデチューニングを変化させ、絡み合った2光子波動関数の位相を推定する。 スペクトルの振幅と位相から、時間領域波動関数の実部と虚部を再構成する。 絡み合った2光子成分の特性は、量子光学デバイスのための診断ツールを構成する。

We observe that a weak guided light field transmitted through an ensemble of atoms coupled to an optical nanofiber exhibits quadrature squeezing. From the measured squeezing spectrum we gain direct access to the phase and amplitude of the energy-time entangled part of the two-photon wavefunction which arises from the strongly correlated transport of photons through the ensemble. For small atomic ensembles we observe a spectrum close to the lineshape of the atomic transition, while sidebands are observed for sufficiently large ensembles, in agreement with our theoretical predictions. Furthermore, we vary the detuning of the probe light with respect to the atomic resonance and infer the phase of the entangled two-photon wavefunction. From the amplitude and the phase of the spectrum, we reconstruct the real- and imaginary part of the time-domain wavefunction. Our characterization of the entangled two-photon component constitutes a diagnostic tool for quantum optics devices.
翻訳日:2023-04-28 08:11:27 公開日:2021-07-29
# 一般化マッハツェンダー干渉計における多重位相の同時推定

Simultaneous estimation of multiple phases in generalised Mach-Zehnder interferometer ( http://arxiv.org/abs/2012.07645v2 )

ライセンス: Link先を確認
Marcin Markiewicz, Mahasweta Pandit, and Wieslaw Laskowski(参考訳) 本研究では,3モードおよび4モードマッハ・ツェンダー干渉計を用いた位相同時推定の問題を検討する。 本セットアップでは,各位相を干渉計の各モードに配置すると仮定し,位相推定器間の相関を推定する。 これらの相関関係はこれらすべての位相の同時推定を妨げているが、同じ初期状態と測定値の集合で、モードの数である$d$という$d-1$相の任意の部分集合の結合推定の精度のハイゼンベルク的なスケーリングが得られることを示す。 本手法は,3次元干渉計構成における量子エンハンスセンシングの課題に適用できる。

In this work we investigate the problem of simultaneous estimation of phases using generalised three- and four-mode Mach-Zehnder interferometer. In our setup, we assume that the phases are placed in each of the modes in the interferometer, which introduces correlations between estimators of the phases. These correlations prevent simultaneous estimation of all these phases, however we show that we can still obtain the Heisenberg-like scaling of precision of joint estimation of any subset of $d-1$ phases, $d$ being the number of modes, within completely fixed experimental setup, namely with the same initial state and set of measurements. Our estimation scheme can be applied to the task of quantum-enhanced sensing in three-dimensional interferometric configurations.
翻訳日:2023-04-20 21:24:15 公開日:2021-07-29
# JB代数における相対作用素エントロピーとTsallis相対作用素エントロピー

Relative operator entropies and Tsallis relative operator entropies in JB-algebras ( http://arxiv.org/abs/2012.13480v2 )

ライセンス: Link先を確認
Shuzhou Wang and Zhenhua Wang(参考訳) 我々は、JB-代数の設定における相対作用素エントロピーとTsallis相対作用素エントロピーの研究を開始する。 基本特性を確立し、相対作用素エントロピーと tsallis 相対作用素エントロピーの作用素不等式をこの設定に拡張する。 さらに、相対作用素 $(\alpha, \beta)$-エントロピーは、 Nikoufar [18, 20] で設定されたヒルベルト空間作用素において確立された JB-代数の設定において改善される。 ヒルベルト空間作用素の古典的な設定と同じ表記法を用いるが、JB-代数の設定の不等式は異なる意味を持ち、それらの証明はJB-代数の技法を必要とする。

We initiate the study of relative operator entropies and Tsallis relative operator entropies in the setting of JB-algebras. We establish their basic properties and extend the operator inequalities on relative operator entropies and Tsallis relative operator entropies to this setting. In addition, we improve the lower and upper bounds of the relative operator $(\alpha, \beta)$-entropy in the setting of JB-algebras that were established in Hilbert space operators setting by Nikoufar [18, 20]. Though we employ the same notation as in the classical setting of Hilbert space operators, the inequalities in the setting of JB-algebras have different connotations and their proofs requires techniques in JB-algebras.
翻訳日:2023-04-19 07:38:09 公開日:2021-07-29
# 運用確率論における因果的影響

Causal influence in operational probabilistic theories ( http://arxiv.org/abs/2012.15213v3 )

ライセンス: Link先を確認
Paolo Perinotti(参考訳) 本稿では,可逆進化の入力系と出力系との因果関係について,運用確率論の文脈で検討する。 我々は、量子論の文献から借用された2つの異なる定義を分析する。 1つはシグナルに基づく概念であり、もう1つは量子セルオートマトンにおけるセルの近傍を定義するために使われる概念である。 私たちが一般的なシナリオで採用する後者の定義は、前者よりも厳密に弱いことが判明した。 驚くべきことに、逆例は古典的な理論から来ており、提案された因果的影響の概念はセルオートマトンにおける細胞の近傍の再定義を決定する。 我々は、我々の定義によれば、相互作用がない場合、例えばベルのようなシナリオにおいて因果的影響を持つことは不可能である、と強調する。 因果的影響の諸条件について検討し、障害のない相互作用とは呼ばない特徴を紹介し、シグナリングと因果的影響が一致することを証明した。 提案する定義は因果ネットワークの解析に興味深い結果をもたらし、古典セルオートマトンにおける近隣性の概念を改訂し、その量子化に関するパズルを明確にし、その周辺を元のものよりも大きくする。

We study the relation of causal influence between input systems of a reversible evolution and its output systems, in the context of operational probabilistic theories. We analyse two different definitions that are borrowed from the literature on quantum theory -- where they are equivalent. One is the notion based on signalling, and the other one is the notion used to define the neighbourhood of a cell in a quantum cellular automaton. The latter definition, that we adopt in the general scenario, turns out to be strictly weaker than the former: it is possible for a system to have causal influence on another one without signalling to it. Remarkably, the counterexample comes from classical theory, where the proposed notion of causal influence determines a redefinition of the neighbourhood of a cell in cellular automata. We stress that, according to our definition, it is impossible anyway to have causal influence in the absence of an interaction, e.g.~in a Bell-like scenario. We study various conditions for causal influence, and introduce the feature that we call no interaction without disturbance, under which we prove that signalling and causal influence coincide. The proposed definition has interesting consequences on the analysis of causal networks, and leads to a revision of the notion of neighbourhood for classical cellular automata, clarifying a puzzle regarding their quantisation that apparently makes the neighbourhood larger than the original one.
翻訳日:2023-04-18 07:47:41 公開日:2021-07-29
# 対称性保護位相相における量子スカーとバルクコヒーレンス

Quantum scars and bulk coherence in a symmetry-protected topological phase ( http://arxiv.org/abs/2103.15880v3 )

ライセンス: Link先を確認
Jared Jeyaretnam, Jonas Richter, Arijeet Pal(参考訳) 多体系における量子スカーの形成は、弱い絡み合った状態のコヒーレンスを強化する新しいメカニズムを提供する。 同時に、特定の対称性で保護された位相(SPT)位相におけるエッジモードのコヒーレンスは基底状態から遠ざかることができる。 本研究では,多体傷の存在とそのSPT相におけるバルクコヒーレンスへの影響を示す。 この目的のために、相互作用するスピン-1/2$鎖と、$\mathbb{Z}_2 \times \mathbb{Z}_2$ SPT相をホストする3つの「クラスター」項の固有状態の性質とダイナミクスについて研究する。 弱い相互作用状態に着目して、体積則エンタングルメントを持つ固有状態がスペクトル全体にわたって領域則エンタングル固有状態と共存していることを見いだす。 後者の部分集合は、鎖の偶または奇な部分格子上の繰り返しのクラスター励起によって構成され、量子多体傷の現象論に類似した状態の等距離な「塔」が得られることを示した。 さらに,これらの傷ついた固有状態が局所クラスター作用素の非熱的期待値をサポートし,有限エネルギー密度においても位相次数のシグネチャを示すことを示した。 非相互作用的「クラスター基底」から導かれる平衡状態のダイナミクスを研究することで、奇数点および偶数点のクラスターがエネルギー的にデチューンされた場合、非熱的バルクダイナミクスが長時間スケールで観測できることを明らかにした。 この場合、クラスター励起は本質的に2つの部分格子の1つに制限され、不均質なクラスター配置は平衡をとれず、全系の熱化が阻害される。 我々の研究は、有限温度でのSPT秩序保存における量子多体傷の役割と、長寿命エッジモード以上のSPT秩序を持つモデルにおけるコヒーレントバルクダイナミクスの可能性に光を当てている。

Formation of quantum scars in many-body systems provides a novel mechanism for enhancing coherence of weakly entangled states. At the same time, coherence of edge modes in certain symmetry protected topological (SPT) phases can persist away from the ground state. In this work we show the existence of many-body scars and their implications on bulk coherence in such an SPT phase. To this end, we study the eigenstate properties and the dynamics of an interacting spin-$1/2$ chain with three-site "cluster" terms hosting a $\mathbb{Z}_2 \times \mathbb{Z}_2$ SPT phase. Focusing on the weakly interacting regime, we find that eigenstates with volume-law entanglement coexist with area-law entangled eigenstates throughout the spectrum. We show that a subset of the latter can be constructed by virtue of repeated cluster excitations on the even or odd sublattice of the chain, resulting in an equidistant "tower" of states, analogous to the phenomenology of quantum many-body scars. We further demonstrate that these scarred eigenstates support nonthermal expectation values of local cluster operators in the bulk and exhibit signatures of topological order even at finite energy densities. Studying the dynamics for out-of-equilibrium states drawn from the noninteracting "cluster basis", we unveil that nonthermalizing bulk dynamics can be observed on long time scales if clusters on odd and even sites are energetically detuned. In this case, cluster excitations remain essentially confined to one of the two sublattices such that inhomogeneous cluster configurations cannot equilibrate and thermalization of the full system is impeded. Our work sheds light on the role of quantum many-body scars in preserving SPT order at finite temperature and the possibility of coherent bulk dynamics in models with SPT order beyond the existence of long-lived edge modes.
翻訳日:2023-04-06 05:51:02 公開日:2021-07-29
# 乱れたイジングスピンのガラス状量子ダイナミクス

Glassy quantum dynamics of disordered Ising spins ( http://arxiv.org/abs/2104.00349v2 )

ライセンス: Link先を確認
Philipp Schultzen, Titus Franz, Sebastian Geier, Andre Salzinger, Annika Tebben, Cl\'ement Hainaut, Gerhard Z\"urn, Matthias Weidem\"uller and Martin G\"arttner(参考訳) 量子イジングモデルにおける不規則相互作用と位置障害を伴う平衡外ダイナミクスについて検討する。 任意の次元 $d$ と相互作用範囲 $\alpha \geq d$ について、熱力学的極限において大域磁化とアンサンブル平均単スピン純度の伸長指数崩壊を解析的に求める。 数値的に, 有限の系サイズと十分強い乱れに対して, ガラス状挙動が持続することを確認した。 乱れたコヒーレントペア間のデファスメントは、大域的な磁化の緩和につながる主要なメカニズムである一方、真の多体相互作用は、絡み合いの蓄積を示す単一スピン純度を失うことにつながる。 量子イジングモデルにおけるガラス力学の出現は、古典量子系および開量子系において、拡張された指数法則は、時間スケールのスケール不変分布によって説明され、可積分と非可積分の両方の量子系に拡張される。

We study the out-of-equilibrium dynamics in the quantum Ising model with power-law interactions and positional disorder. For arbitrary dimension $d$ and interaction range $\alpha \geq d$ we analytically find a stretched exponential decay of the global magnetization and ensemble-averaged single-spin purity with a stretch-power $\beta = d/\alpha$ in the thermodynamic limit. Numerically, we confirm that glassy behavior persists for finite system sizes and sufficiently strong disorder. We identify dephasing between disordered coherent pairs as the main mechanism leading to a relaxation of global magnetization, whereas genuine many-body interactions lead to a loss of single-spin purity which signifies the build-up of entanglement. The emergence of glassy dynamics in the quantum Ising model extends prior findings in classical and open quantum systems, where the stretched exponential law is explained by a scale-invariant distribution of time scales, to both integrable and non-integrable quantum systems.
翻訳日:2023-04-05 22:20:13 公開日:2021-07-29
# PAC:近代都市における交通プラットフォームの流通調整のための部分領域クラスタ

PAC: Partial Area Cluster for adjusting the distribution of transportation platforms in modern cities ( http://arxiv.org/abs/2107.04124v2 )

ライセンス: Link先を確認
Jiaming Pei, Jinhai Li, Jiyuan Xu, Q.Dat Luong(参考訳) 現代の都市では、公共交通機関の利用率が公共交通の効率性に重きを置いている。 しかし、輸送プラットフォームの不合理な分布は、低利用率をもたらす。 本稿では,バスと地下鉄のプラットフォーム分布を調査・評価し,元の分布の変更と更新による利用率向上を図るため,PAC (Partial Area Cluster) と呼ばれる手法を提案した。 この手法は機械学習の分野におけるK-meansアルゴリズムに基づいている。 PACは適切なバスプラットフォームをセンターとして検索し、元のプラットフォームを地下鉄に変更した。 経験から、公共交通機関の利用が20%増加したことが示されている。 この研究では、類似のクラスタアルゴリズムを使用して、新しいが実用的な用語でトランスポートネットワークの問題を解決する。 その結果,PACは輸送システム構築プロセスにおいて広く使用されることが期待される。

In the modern city, the utilization rate of public transportation attached importance to the efficiency of public traffic. However, the unreasonable distribution of transportation platforms results in a low utilization rate. In this paper, we researched and evaluated the distribution of platforms -- bus and subway -- and proposed a method, called "partial area cluster" (PAC), to improve the utilization by changing and renewing the original distribution. The novel method was based on the K-means algorithm in the field of machine learning. PAC worked to search the suitable bus platforms as the center and modified the original one to the subway. Experience has shown that the use of public transport resources has increased by 20%. The study uses a similar cluster algorithm to solve transport networks' problems in a novel but practical term. As a result, the PAC is expected to be used extensively in the transportation system construction process.
翻訳日:2023-03-23 06:22:13 公開日:2021-07-29
# 共役系における光力学的動力学 : $\mathcal{pt}$-および break-$\mathcal{pt}$-symmetric regime

Optomechanical dynamics in the $\mathcal{PT}$- and broken-$\mathcal{PT}$-symmetric regimes ( http://arxiv.org/abs/2107.13891v1 )

ライセンス: Link先を確認
Hai Xu, Deng-Gao Lai, Yi-Bing Qian, Bang-Pin Hou, Adam Miranowicz, and Franco Nori(参考訳) 理論的には, パッシブ光学モードとアクティブメカニカルモードからなる典型的な光力学系の動力学を, $\mathcal{pt}$- および break-$\mathcal{pt}$-symsymsymsymbolsを用いて理論的に研究する。 平均変位と粒子数のダイナミクスに関する完全に解析的な処理によって、異なる条件下での位相図と、$\mathcal{pt}$-symmetry とシステムの安定性の両方の様々なレジームが明らかにされる。 メカニカルゲインと光メカニカルカップリングのどちらかを適切にチューニングすることで、$\mathcal{pt}$-symmetry の位相遷移とシステムの安定性を柔軟に制御できることがわかった。 その結果、平均変位、光子、フォノンの動的挙動は、異なる状態において根本的に変化する。 我々の研究は、$\mathcal{PT}$-symmetric optomechanical devices が機械運動、光子、フォノンの操作に強力なツールであることを示している。

We theoretically study the dynamics of typical optomechanical systems, consisting of a passive optical mode and an active mechanical mode, in the $\mathcal{PT}$- and broken-$\mathcal{PT}$-symmetric regimes. By fully analytical treatments for the dynamics of the average displacement and particle numbers, we reveal the phase diagram under different conditions and the various regimes of both $\mathcal{PT}$-symmetry and stability of the system. We find that by appropriately tuning either mechanical gain or optomechanical coupling, both phase transitions of the $\mathcal{PT}$-symmetry and stability of the system can be flexibly controlled. As a result, the dynamical behaviors of the average displacement, photons, and phonons are radically changed in different regimes. Our study shows that $\mathcal{PT}$-symmetric optomechanical devices can serve as a powerful tool for the manipulation of mechanical motion, photons, and phonons.
翻訳日:2023-03-20 11:48:46 公開日:2021-07-29
# 直接埋め込み配列に対する量子算術

Quantum Arithmetic for Directly Embedded Arrays ( http://arxiv.org/abs/2107.13872v1 )

ライセンス: Link先を確認
Alberto Manzano, Daniele Musso, \'Alvaro Leitao, Andr\'es G\'omez, Carlos V\'azquez, Gustavo Ord\'o\~nez and Mar\'ia Rodr\'iguez-Nogueiras(参考訳) 本稿では,配列の効率的な処理に依存する量子アルゴリズムを設計するための汎用フレームワークについて述べる。 このフレームワークの要点は、情報の量子振幅への直接埋め込みであり、平方根の処理やレジスタへのエンコードの必要性を回避している。 データローディングから情報抽出まで,パイプライン全体について論じる。 特に注目されるのは、配列上の量子算術演算の効率的なツールキットの定義である。 本稿では,提案手法の強弱点と弱点について,特に量子並列論の効果的な活用に関して考察する。 最終的には、ジェネリックオラクルの操作に関する明確な例を示します。

We describe a general-purpose framework to design quantum algorithms relying upon an efficient handling of arrays. The corner-stone of the framework is the direct embedding of information into quantum amplitudes, thus avoiding the need to deal with square roots or encode the information in registers. We discuss the entire pipeline, from data loading to information extraction. Particular attention is devoted to the definition of an efficient tool-kit of quantum arithmetic operations on arrays. We comment on strong and weak points of the proposed manipulations, especially in relation to an effective exploitation of quantum parallelism. Eventually, we give explicit examples regarding the manipulation of generic oracles.
翻訳日:2023-03-20 11:48:27 公開日:2021-07-29
# Rydberg原子の対称性基底状態の機械学習による同定

Machine learning identification of symmetrized base states of Rydberg atoms ( http://arxiv.org/abs/2107.13745v1 )

ライセンス: Link先を確認
Daryl Ryan Chong, Minhyuk Kim, Jaewook Ahn, Heejeong Jeong(参考訳) 相互作用する多体系の複雑な量子力学の研究は、現代の物理学において最も難しい分野の一つである。 ここでは、機械学習(ml)モデルを用いて、様々な原子数(最大6個)と幾何配置の相互作用するrydberg原子の対称性基底状態の同定を行う。 ML分類器を訓練するためのデータセットを得るために,レーザー強度と位相雑音を含むリンドブラッド方程式を用いて実験データをシミュレートするRydberg励起確率プロファイルを生成する。 次に、サポートベクトルマシン(SVM)とランダム森林分類器(RFC)を用いてデータセットを分類する。 これらのmlモデルでは、数百のサンプルのみを含むデータセット、特に五角形(5原子)や六角形(6原子)システムのような閉じた原子構成に対して、最大100%の精度を実現している。 その結果、Rydberg atom 構成の同定には計算コスト効率のよいMLモデルを用いることができた。

Studying the complex quantum dynamics of interacting many-body systems is one of the most challenging areas in modern physics. Here, we use machine learning (ML) models to identify the symmetrized base states of interacting Rydberg atoms of various atom numbers (up to six) and geometric configurations. To obtain the data set for training the ML classifiers, we generate Rydberg excitation probability profiles that simulate experimental data by utilizing Lindblad equations that incorporate laser intensities and phase noise. Then, we classify the data sets using support vector machines (SVMs) and random forest classifiers (RFCs). With these ML models, we achieve high accuracy of up to 100% for data sets containing only a few hundred samples, especially for the closed atom configurations such as the pentagonal (five atoms) and hexagonal (six atoms) systems. The results demonstrate that computationally cost-effective ML models can be used in the identification of Rydberg atom configurations.
翻訳日:2023-03-20 11:46:54 公開日:2021-07-29
# 分子電子状態における古典的および量子軌道相関

Classical and Quantum Orbital Correlations in the Molecular Electronic States ( http://arxiv.org/abs/2107.13992v1 )

ライセンス: Link先を確認
Onur Pusuluk, Mahir H. Yesiller, Gokhan Torun, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu, Ersin Yurtsever, Vlatko Vedral(参考訳) 量子重ね合わせの原理は、結合現象の量子力学的記述に広く利用されている。 これは非局在化分子軌道の出現を説明し、ほぼ正確な電子波動関数の構築のレシピを提供する。 一方、複合系におけるその存在は、量子技術における資源と見なされる非古典的相関をもたらす可能性がある。 本稿では、フェルミオン情報理論の観点から、3つの原型分子の電子基底状態にアプローチする。 文献の中で初めて、超選択的規則の存在下で、ペアワイズ軌道相関を古典的部分と量子部分に適切に分解する。 量子軌道相関は古典軌道相関よりも強くなるが、それほど多くはない。 また、量子軌道相関は、構成軌道の対称性に依存する軌道の絡み合いがなくても生き残ることができる。 最後に,軌道密度行列を量子状態として扱う場合,軌道絡み合いが過小評価されることを示した。

The quantum superposition principle has been extensively utilized in the quantum mechanical description of the bonding phenomenon. It explains the emergence of delocalized molecular orbitals and provides a recipe for the construction of near-exact electronic wavefunctions. On the other hand, its existence in composite systems may give rise to nonclassical correlations that are regarded now as a resource in quantum technologies. Here, we approach the electronic ground states of three prototypical molecules from the point of view of fermionic information theory. For the first time in the literature, we properly decompose the pairwise orbital correlations into their classical and quantum parts in the presence of superselection rules. We observe that quantum orbital correlations can be stronger than classical orbital correlations though not often. Also, quantum orbital correlations can survive even in the absence of orbital entanglement depending on the symmetries of the constituent orbitals. Finally, we demonstrate that orbital entanglement would be underestimated if the orbital density matrices were treated as qubit states.
翻訳日:2023-03-20 11:42:51 公開日:2021-07-29
# 置換対称状態を含む絡み合いクラス内の状態変換

State transformations within entanglement classes containing permutation-symmetric states ( http://arxiv.org/abs/2107.13949v1 )

ライセンス: Link先を確認
Martin Hebenstreit, Cornelia Spee, Nicky Kai Hong Li, Barbara Kraus, Julio I. de Vicente(参考訳) 局所的な操作と古典的コミュニケーション(LOCC)の下での状態変換の研究は、絡み合い理論において重要な役割を果たす。 これは長い間、純粋な二部制状態に特徴付けられてきたが、多くの政党のシステムでは状況は大きく異なる: 一般的な純粋なキューディット状態は、異なる量の絡み合いを含む任意の状態から取得または変換できない。 ここでは、任意の個数と局所次元の置換対称な純粋状態に対するLOCC変換性の問題と、物理的および数学的理由の両方について明確な関心のクラスと、上記の結果が状態空間のゼロ測度部分集合であることから適用されないことを考える。 この状況は、一般の n-量子対称状態に対して持続するが、それに対して、LOCC変換が可能である必要条件であるリッチ局所安定化器で支持されていることを判断できる特定の族を考える。 これにより、置換対称状態間のLOCC変換が可能なクラスを特定できる。 にもかかわらず、これらの高度対称クラスにおいてもLOCC変換性に対する深刻な障害を示すいくつかの結果が得られている。 すべての状態がより弱絡み合った状態に変換できる唯一のクラスは、n-qubit GHZ クラスと W クラスである。 LOCC変換の研究の過程では、対称状態の局所対称性も特徴づける。

The study of state transformations under local operations and classical communication (LOCC) plays a crucial role in entanglement theory. While this has been long ago characterized for pure bipartite states, the situation is drastically different for systems of more parties: generic pure qudit-states cannot be obtained from nor transformed to any state, which contains a different amount of entanglement. We consider here the question of LOCC convertibility for permutation-symmetric pure states of an arbitrary number of parties and local dimension, a class of clear interest both for physical and mathematical reasons and for which the aforementioned result does not apply given that it is a zero-measure subset in the state space. While it turns out that this situation persists for generic n-qubit symmetric states, we consider particular families for which we can determine that on the contrary they are endorsed with a rich local stabilizer, a necessary requirement for LOCC convertibility to be possible. This allows us to identify classes in which LOCC transformations among permutation-symmetric states are possible. Notwithstanding, we provide several results that indicate severe obstructions to LOCC convertibility in general even within these highly symmetrical classes. The only classes found for which every state can be converted to a more weakly entangled state are the n-qubit GHZ and W classes. In the course of the study of LOCC transformations we also characterize the local symmetries of symmetric states.
翻訳日:2023-03-20 11:42:27 公開日:2021-07-29
# 有限温度松原グリーン関数に対する最小絡み合った典型的熱状態アルゴリズム

Minimally Entangled Typical Thermal States Algorithms for Finite Temperature Matsubara Green Functions ( http://arxiv.org/abs/2107.13941v1 )

ライセンス: Link先を確認
Daniel Bauernfeind, Xiaodong Cao, E. Miles Stoudenmire, Olivier Parcollet(参考訳) 有限温度テンソルネットワーク法を拡張して,最小絡み合った典型的な熱状態(METTS)と浄化アルゴリズムに基づいて,松原の仮想時間相関関数を計算する。 仮想時間相関関数はこれらの手法で簡単に定式化できるが, ネーブな推定器による収束問題を避けるには注意が必要である。 ベンチマークとして,格子モデルに適用可能なアルゴリズムであっても,シングルバンドのアンダーソン不純物モデルについて検討する。 不純物モデルベンチマークシステムの特別な構造とベースの選択は、アルゴリズム効率を高めるために高確率METTSの再利用のような技術を可能にする。 その結果は最先端のモンテカルロと競合している。 ハミルトニアンにおける浄化点数の関数としての計算時間と誤差の挙動について論じる。

We extend finite-temperature tensor network methods to compute Matsubara imaginary-time correlation functions, building on the minimally entangled typical thermal states (METTS) and purification algorithms. While imaginary-time correlation functions are straightforward to formulate with these methods, care is needed to avoid convergence issues that would result from naive estimators. As a benchmark, we study the single-band Anderson impurity model, even though the algorithm is quite general and applies to lattice models. The special structure of the impurity model benchmark system and our choice of basis enable techniques such as reuse of high-probability METTS for increasing algorithm efficiency. The results are competitive with state-of-the-art continuous time Monte Carlo. We discuss the behavior of computation time and error as a function of the number of purified sites in the Hamiltonian.
翻訳日:2023-03-20 11:41:40 公開日:2021-07-29
# 量子三箱パラドックスの因果的再評価

Causal reappraisal of the quantum three box paradox ( http://arxiv.org/abs/2107.13937v1 )

ライセンス: Link先を確認
Pawel Blasiak, Ewa Borsuk(参考訳) 量子3箱パラドックス(quantum three box paradox)は、事前および後選択されたシステム上での中間測定に対するいくつかの奇妙な予測の原型的例である。 原理的には、これらの効果は測定障害によって説明できるが、観測された相関を十分に考慮するために必要なメカニズムは明らかではない。 本稿では,このパラドックスを因果的観点から考察する。 我々は実験の背後にある潜在的な因果構造を考え、十分な説明力を持たないものを排除する。 これにより、測定障害がシステム内で伝播する様々なメカニズムを区別する手段が得られる。 具体的には、観測された統計の因果的説明に必要な測定結果のみなのか、それとも完全な測定コンテキストなのかを区別する。 後者は必須であることを示すが、完全な統計が考慮されている場合(第3ボックスのチェックも含む)に限られる。 さらに,既存の測定値の存在を前提としたリアリズムの仮定についても考察する。 この場合、測定障害が必要であることが示されている。 興味深いことに、現実主義的な仮定がなければ、パラドックスの原版(検査のために考慮された2つのボックスのみ)は、いかなる測定障害にも頼らずに説明できる。 これらの様々な結果は、因果的観点からより良く評価されるパラドックスの豊かさを示している。

Quantum three box paradox is a prototypical example of some bizarre predictions for intermediate measurements made on pre- and post-selected systems. Although in principle those effects can be explained by measurement disturbance, it is not clear what mechanisms are required to fully account for the observed correlations. In this paper, this paradox is scrutinised from the causal point of view. We consider an array of potential causal structures behind the experiment, eliminating those without enough explanatory power. This gives a means of differentiating between the various mechanisms in which measurement disturbance can propagate in the system. Specifically, we distinguish whether it is just the measurement outcome or the full measurement context that is required for the causal explanation of the observed statistics. We show that the latter is indispensable, but only when the full statistics is taken into account (which includes checking the third box too). Furthermore, we discuss the realism assumption which posits the existence of preexisting values revealed by measurements. It is shown that in this case measurement disturbance is necessary. Interestingly, without the realism assumption, the original version of the paradox (with just two boxes considered for inspection) can be explained without resorting to any measurement disturbance. These various results illustrate the richness of the paradox which is better appreciated from the causal perspective.
翻訳日:2023-03-20 11:41:27 公開日:2021-07-29
# 識別不能粒子の局所性と絡み合い

Locality and entanglement of indistinguishable particles ( http://arxiv.org/abs/2107.13911v1 )

ライセンス: Link先を確認
Till Jonas Frederick Johann, Ugo Marzolino(参考訳) 絡み合いは最も強い量子相関の1つであり、量子力学の基本的な側面と量子技術のための資源の重要な要素である。 絡み合い理論は区別可能な粒子に対してよく確立されているが、区別できない粒子の絡み合いには5つの等価なアプローチがある。 局所性の概念に照らして、区別不能な粒子絡みの異なる定義を分析する。 この概念は次の2つのステップで規定される。 一 地方事業者によるサブシステムの識別 二 絡み合いが、上記の作用素のサブセット間の相関を表すこと。 上記の5つの絡み合う定義のうち3つは、上記のような局所性の概念とは相容れないことを証明している。

Entanglement is one of the strongest quantum correlation, and is a key ingredient in fundamental aspects of quantum mechanics and a resource for quantum technologies. While entanglement theory is well settled for distinguishable particles, there are five inequivalent approaches to entanglement of indistinguishable particles. We analyse the different definitions of indistinguishable particle entanglement in the light of the locality notion. This notion is specified by two steps: i) the identification of subsystems by means of their local operators; ii) the requirement that entanglement represent correlations between the above subsets of operators. We prove that three of the aforementioned five entanglement definitions are incompatible with any locality notion defined as above.
翻訳日:2023-03-20 11:40:35 公開日:2021-07-29
# 整数量子ホール効果における空洞真空場による位相的保護の破壊

Breakdown of the topological protection by cavity vacuum fields in the integer quantum Hall effect ( http://arxiv.org/abs/2107.14145v1 )

ライセンス: Link先を確認
Felice Appugliese, Josefine Enkner, Gian Lorenzo Paravicini-Bagliani, Mattias Beck, Christian Reichl, Werner Wegscheider, Giacomo Scalari, Cristiano Ciuti and J\'er\^ome Faist(参考訳) 空洞電磁共振器の真空場による材料の電子特性の制御は、凝縮物質物理学の新たなフロンティアの1つである。 ここで、サブ波長スプリットリング共振器における真空場のゆらぎの増大は、おそらく最もパラダイム的な量子保護物質、すなわち高移動度2次元電子ガス中の量子ホール電子輸送に劇的に影響することを示す。 整数量子ホール効果の位相的保護の観察された崩壊は、光-物質カップリングの反共振項が真空揺らぎによって引き起こされる有限の比抵抗となる長距離キャビティ媒介電子ホッピングの観点で解釈される。 現在の実験プラットフォームは、任意の2d材料に使用することができ、真空場工学により物質中の電子相を操作する新しい方法を提供する。

The control of the electronic properties of materials via the vacuum fields of cavity electromagnetic resonators is one of the emerging frontiers of condensed matter physics. We show here that the enhancement of vacuum field fluctuations in subwavelength split-ring resonators dramatically affects arguably one of the most paradigmatic quantum protectorates, namely the quantum Hall electron transport in high-mobility 2D electron gases. The observed breakdown of the topological protection of the integer quantum Hall effect is interpreted in terms of a long-range cavity-mediated electron hopping where the anti-resonant terms of the light-matter coupling finally result into a finite resistivity induced by the vacuum fluctuations. The present experimental platform can be used for any 2D material and provides new ways to manipulate electron phases in matter thanks to vacuum-field engineering
翻訳日:2023-03-20 11:33:10 公開日:2021-07-29
# 量子力学コースにおけるグリーン関数

Green's functions in quantum mechanics courses ( http://arxiv.org/abs/2107.14104v1 )

ライセンス: Link先を確認
William J. Herrera, Herbert Vinck-Posada, Shirley Gomez Paez(参考訳) 物理学におけるグリーンの機能は、電磁力学、固体状態、多くの身体問題など、様々な分野の基本概念を理解するための貴重なツールであることが証明されている。 量子力学の上級コースでは、グリーンの関数は通常、散乱問題の文脈で中央力によって説明される。 しかし、より基本的な問題に対するそれらの使用は、しばしば実施されない。 本研究は、グリーン関数を量子力学コースで導入し、本質的なツールで解けるいくつかの例を示す。 このため、この理論の一般的な側面が示され、このアプローチと異なる量子力学の基本的な問題の解が強調される。 特に,時間に依存しないグリーン関数とダイソン方程式を導入し,外部ポテンシャルを用いた問題を解く。 例として、ディラックデルタ障壁による散乱を示し、反射係数と透過係数を求める。 さらに、無限の2乗ポテンシャル井戸エネルギー準位と状態の局所密度が計算される。

Green's functions in Physics have proven to be a valuable tool for understanding fundamental concepts in different branches, such as electrodynamics, solid-state and many -body problems. In quantum mechanics advanced courses, Green's functions usually are explained in the context of the scattering problem by a central force. However, their use for more basic problems is not often implemented. The present work introduces Green's Function in quantum mechanics courses with some examples that can be solved with essential tools. For this, the general aspects of the theory are shown, emphasizing the solution of different fundamental issues of quantum mechanics from this approach. In particular, we introduce the time-independent Green's functions and the Dyson equation to solve problems with an external potential. As examples, we show the scattering by a Dirac delta barrier, where the reflection and transmission coefficients are found. In addition, the infinite square potential well energy levels, and the local density of states, are calculated.
翻訳日:2023-03-20 11:32:16 公開日:2021-07-29
# 接触相互作用するフェルミオンスピンフル超低温原子の高速回転トラップにおける励起閉形式解析波動関数

Exact closed-form analytic wave functions in two dimensions: Contact-interacting fermionic spinful ultracold atoms in a rapidly rotating trap ( http://arxiv.org/abs/2107.14098v1 )

ライセンス: Link先を確認
Constantine Yannouleas, Uzi Landman(参考訳) 接触相互作用する最低ランダウレベル(LLL)スピンフルフェルミオンの任意の数$N$の2次元解析波動関数は、正確なハミルトン数値対角化データの解析を通じて、数値と記号の組合せによる計算手法を用いて導出される。 閉形式解析式は、全角運動量と全スピン$0 \leq s \leq n/2$の2つの族に対して、最大密度の液滴から第1の準ホールまでの範囲をカバーする$\nu=1$充填の近傍で示される。 高次空間および運動量相関の理論的予測は、量子ホール物理学(量子LLLスカイミオンを含む)をシミュレートした高速回転トラップにおいて超低温原子実験で試験できる固有多角多環結晶型構造を示す。

Exact two-dimensional analytic wave functions for an arbitrary number $N$ of contact-interacting lowest-Landau-level (LLL) spinful fermions are derived with the use of combined numerical and symbolic computational approaches via analysis of exact Hamiltonian numerical diagonalization data. Closed-form analytic expressions are presented for two families of zero-interaction-energy states at given total angular momentum and total spin $0 \leq S \leq N/2$ in the neighborhood of the $\nu=1$ filling, covering the range from the maximum density droplet to the first quasihole. Our theoretical predictions for higher-order spatial and momentum correlations reveal intrinsic polygonal, multi-ring crystalline-type structures, which can be tested with ultracold-atom experiments in rapidly rotating traps, simulating quantum Hall physics (including quantum LLL skyrmions).
翻訳日:2023-03-20 11:32:03 公開日:2021-07-29
# 説明的ジャーニー:Redressの行政的正義の道の理解と説明

Explanatory Journeys: Visualising to Understand and Explain Administrative Justice Paths of Redress ( http://arxiv.org/abs/2107.14013v1 )

ライセンス: Link先を確認
Jonathan C. Roberts, Peter Butcher, Ann Sherlock and Sarah Nason(参考訳) 行政裁判は個人と国家の関係に関するものである。 子どもの教育、社会福祉、ライセンス、計画、環境、住宅およびホームレスに関する決定に関する再会と苦情が含まれている。 しかし、誰かが不満や問題を抱えている場合、さまざまなレドレスパスを理解して、自分たちの状況に適したパスを探ることは困難である。 説明的可視化は、人々が自分の選択肢を見たり、理解したり、探求したりできるように、これらの回帰のパスを明確な方法で表示する可能性がある。 情報は多くの文書、法律、ガイダンス、ポリシーにまたがり、司法解釈を必要とするため、可視化の課題はさらに複雑である。 したがって、再配置のパスの単一のデータベースは存在しない。 本研究は,レドレスの行政司法パスを可視化するシステムを共同設計した方法について述べる。 同時に、専門家ワークショップ、ヒューリスティック評価、専門家批判的リフレクションから基礎となるデータを分類し、照合し、整理する。 4つの貢献をします (i)説明的可視化ツール(artemus)の応用設計に関する研究 (ii)データ集約のための協調的・共同設計アプローチ (iii)行政法における更正の説明道を示す住宅・教育における2つの徹底的な事例研究 (iv)行政司法及び法に関する専門家共同設計プロセス及び専門家データ収集及び説明的可視化の考察

Administrative justice concerns the relationships between individuals and the state. It includes redress and complaints on decisions of a child's education, social care, licensing, planning, environment, housing and homelessness. However, if someone has a complaint or an issue, it is challenging for people to understand different possible redress paths and explore what path is suitable for their situation. Explanatory visualisation has the potential to display these paths of redress in a clear way, such that people can see, understand and explore their options. The visualisation challenge is further complicated because information is spread across many documents, laws, guidance and policies and requires judicial interpretation. Consequently, there is not a single database of paths of redress. In this work we present how we have co-designed a system to visualise administrative justice paths of redress. Simultaneously, we classify, collate and organise the underpinning data, from expert workshops, heuristic evaluation and expert critical reflection. We make four contributions: (i) an application design study of the explanatory visualisation tool (Artemus), (ii) coordinated and co-design approach to aggregating the data, (iii) two in-depth case studies in housing and education demonstrating explanatory paths of redress in administrative law, and (iv) reflections on the expert co-design process and expert data gathering and explanatory visualisation for administrative justice and law.
翻訳日:2023-03-20 11:31:18 公開日:2021-07-29
# 量子アクセス性強化学習用ハイブリッドエージェントの性能解析

Performance analysis of a hybrid agent for quantum-accessible reinforcement learning ( http://arxiv.org/abs/2107.14001v1 )

ライセンス: Link先を確認
Arne Hamann, Sabine W\"olk(参考訳) この10年間、量子機械学習は、教師なし、教師なし、強化学習に魅力的な、そして基本的な改善を提供してきた。 強化学習では、ある環境が与える課題を解決するために、いわゆるエージェントが挑戦される。 エージェントは、環境を探索し、環境から得られる報酬を活用することで、タスクの解決を学ぶ。 決定論的厳密なエポック環境のような古典的なタスク環境では、類似した量子環境を構築し、量子アルゴリズムを適用することで報酬を2次的に高速に見つけることができる。 本稿では,この2次高速化と古典的エージェントのポリシー更新を組み合わせたハイブリッドエージェントの挙動を解析的に分析する。 これにより、従来のエージェントに比べてハイブリッドエージェントの学習が速くなる。 従来のエージェントが平均$\langle J \rangle$ rewards と $\langle T \rangle_c$ epochs でタスクの解決方法を学ぶ必要がある場合、ハイブリッドエージェントは平均$\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs を取る。 ここで、$\alpha$は問題のサイズに依存しない定数を表す。 さらに、もし環境が最大$\alpha_o k_\text{max}$シーケンシャルコヒーレント相互作用を許容するなら、例えばノイズ効果により、$\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$で与えられる改善が引き続き可能であることを証明している。

In the last decade quantum machine learning has provided fascinating and fundamental improvements to supervised, unsupervised and reinforcement learning. In reinforcement learning, a so-called agent is challenged to solve a task given by some environment. The agent learns to solve the task by exploring the environment and exploiting the rewards it gets from the environment. For some classical task environments, such as deterministic strictly epochal environments, an analogue quantum environment can be constructed which allows to find rewards quadratically faster by applying quantum algorithms. In this paper, we analytically analyze the behavior of a hybrid agent which combines this quadratic speedup in exploration with the policy update of a classical agent. This leads to a faster learning of the hybrid agent compared to the classical agent. We demonstrate that if the classical agent needs on average $\langle J \rangle$ rewards and $\langle T \rangle_c$ epochs to learn how to solve the task, the hybrid agent will take $\langle T \rangle_q \leq \alpha \sqrt{\langle T \rangle_c \langle J \rangle}$ epochs on average. Here, $\alpha$ denotes a constant which is independent of the problem size. Additionally, we prove that if the environment allows for maximally $\alpha_o k_\text{max}$ sequential coherent interactions, e.g. due to noise effects, an improvement given by $\langle T \rangle_q \approx \alpha_o\langle T \rangle_c/4 k_\text{max}$ is still possible.
翻訳日:2023-03-20 11:30:57 公開日:2021-07-29
# ゲージ/重力対応におけるヤングテーブルー状態の絡み合いと混合状態

Entanglement and mixed states of Young tableau states in gauge/gravity correspondence ( http://arxiv.org/abs/2107.14219v1 )

ライセンス: Link先を確認
Hai Lin, Yuwei Zhu(参考訳) 我々はゲージ/重力双対性という文脈で、絡み合った多モードコヒーレント状態を用いて、絡み合った巨大重力状態を生成する。 我々は、より高次元の視点で、円または5次元球面上の絡み合った多モードコヒーレント状態のスミア分布を作る。 ゲージ/重力双対性では、巨大重力状態の重畳と巨大重力状態の絡み合った対を解析する。 角分布関数のクラスをペア上のユニタリ演算にマップする。 また、若いtableau状態を使ってcat状態とqudit状態を構築します。 ヤングテーブルー状態を含む様々な二部量子状態は、マイクロマクロ絡み状態を含む分析される。 若いtableau状態の混合状態は、角分布関数を用いたアンサンブル混合と、ノイズ量子チャネルを通過することによって生成される。 次に、環境との相互作用とノイズのある量子チャネルを用いて、混合絡み合った巨大重力子状態を生成する。

We use entangled multimode coherent states to produce entangled giant graviton states, in the context of gauge/gravity duality. We make a smeared distribution of the entangled multimode coherent states on the circle, or on the five-sphere, in the higher dimensional view. In gauge/gravity duality, we analyze the superposition of giant graviton states, and the entangled pairs of giant graviton states. We map a class of angular distribution functions to unitary operations on the pairs. We also use Young tableau states to construct cat states and qudit states. Various bipartite quantum states involving Young tableau states are analyzed, including micro-macro entangled states. Mixed states of Young tableau states are generated, by using ensemble mixing using angular distribution functions, and also by going through noisy quantum channels. We then produce mixed entangled pair of giant graviton states, by including interaction with the environment and using noisy quantum channels.
翻訳日:2023-03-20 11:24:00 公開日:2021-07-29
# 量子力学におけるオントロジー

Ontology in quantum mechanics ( http://arxiv.org/abs/2107.14191v1 )

ライセンス: Link先を確認
Gerard t Hooft(参考訳) 我々が知っているように、ミクロ世界を記述する量子進化方程式は、ヒルベルト空間における特別な基底状態への変換を可能にする特別な種類のものであり、この基礎において、その進化は置換群の元によって与えられると考えられている。 これは存在論的解釈を復活させる。 粒子の自由度あたりのエネルギーが低ければ、どんな量子系でもそのような変換を可能にすることが示されている。 これはベルの定理と矛盾し、ベルの定理を証明しようとする仮定のいくつかがここで研究されたモデルに対して成り立たない理由を強調している。 我々は、この種のアプローチが標準モデルの最も可能性の高いバージョンを一般相対性理論と組み合わせて分離するのにどのように役立つかを推測する。 リンクはブラックホール物理学で提案されている。

It is suspected that the quantum evolution equations describing the micro-world as we know it are of a special kind that allows transformations to a special set of basis states in Hilbert space, such that, in this basis, the evolution is given by elements of the permutation group. This would restore an ontological interpretation. It is shown how, at low energies per particle degree of freedom, almost any quantum system allows for such a transformation. This contradicts Bell's theorem, and we emphasise why some of the assumptions made by Bell to prove his theorem cannot hold for the models studied here. We speculate how an approach of this kind may become helpful in isolating the most likely version of the Standard Model, combined with General Relativity. A link is suggested with black hole physics.
翻訳日:2023-03-20 11:23:10 公開日:2021-07-29
# 量子乱数生成器の並列およびリアルタイム後処理

Parallel and real-time post-processing for quantum random number generators ( http://arxiv.org/abs/2107.14177v1 )

ライセンス: Link先を確認
Xiaomin Guo, Mingchuan Wu, Jiangjiang Zhang, Ziqing Wang, Yu Wang and Yanqiang Guo(参考訳) 連続変数(CV)量子揺らぎに基づく量子乱数生成器(QRNG)は、測定帯域幅、安定性、可積分性に大きな利点をもたらす。 さらに重要なのは、QRNG生成率の大幅な向上のために、効率的で拡張可能なパスを提供することだ。 この過程では、QRNGのスループットの限界や実装コストに重要な役割を果たすため、理論的に安全な情報を用いたリアルタイムランダム性抽出が不可欠である。 本研究では,並列QRNGのための1つのフィールドプログラマブルゲートアレイ(FPGA)内でのToeplitz-hashing抽出器の並列およびリアルタイム実現について検討する。 Toeplitz行列のレイアウトとFPGAにおけるハードウェア・コンピューティング・リソースの効率的な利用について検討した。 Toeplitz行列のスケールと量が異なる論理源の占有を解析し、2層並列パイプラインアルゴリズムを微妙に設計し、FPGAの並列アルゴリズムの利点とハードウェアソースを完全に活用する。 この作業は最終的に8Gbps以上のQRNGのリアルタイム後処理速度を達成する。 真空状態の複数の量子サイドバンドモードを並列抽出するための集積回路と組み合わせることで、デバイス信頼、デバイス非依存、セミデバイス非依存のスキームを含むCVQRNGの実用性を効果的に向上できるチップベースの並列QRNGへの重要なステップを示す。

Quantum random number generators (QRNG) based on continuous variable (CV) quantum fluctuations offer great potential for their advantages in measurement bandwidth, stability and integrability. More importantly, it provides an efficient and extensible path for significant promotion of QRNG generation rate. During this process, real-time randomness extraction using information theoretically secure randomness extractors is vital, because it plays critical role in the limit of throughput rate and implementation cost of QRNGs. In this work, we investigate parallel and real-time realization of several Toeplitz-hashing extractors within one field-programmable gate array (FPGA) for parallel QRNG. Elaborate layout of Toeplitz matrixes and efficient utilization of hardware computing resource in the FPGA are emphatically studied. Logic source occupation for different scale and quantity of Toeplitz matrices is analyzed and two-layer parallel pipeline algorithm is delicately designed to fully exploit the parallel algorithm advantage and hardware source of the FPGA. This work finally achieves a real-time post-processing rate of QRNG above 8 Gbps. Matching up with integrated circuit for parallel extraction of multiple quantum sideband modes of vacuum state, our demonstration shows an important step towards chip-based parallel QRNG, which could effectively improve the practicality of CV QRNGs, including device trusted, device-independent, and semi-device-independent schemes.
翻訳日:2023-03-20 11:22:28 公開日:2021-07-29
# ダイヤモンド中の窒素空孔を用いた高速マイクロサーキットおよび合成生体信号ワイドフィールドイメージング

High speed microcircuit and synthetic biosignal widefield imaging using nitrogen vacancies in diamond ( http://arxiv.org/abs/2107.14156v1 )

ライセンス: Link先を確認
James L. Webb, Luca Troise, Nikolaj W. Hansen, Louise F. Frellsen, Christian Osterkamp, Fedor Jelezko, Steffen Jankuhn, Jan Meijer, Kirstine Berg-S{\o}rensen, Jean-Fran\c{c}ois Perrier, Alexander Huck, Ulrik Lund Andersen(参考訳) 微小電子回路の検査からバイオセンシングまで,高い空間分解能と時間分解能で電流の通過を計測する能力は不可欠である。 このような信号を受動的かつ遠隔的に同時に撮像できることは、研究中のシステムや信号自体の侵入的破壊を伴わずに測定することが重要である。 これを達成するための新しいアプローチは、固体材料、特にダイヤモンド中の窒素空孔(NV)中心の点欠陥を利用する。 高密度の独立センサアレイとして機能し、温度や磁場などの要因に対処可能で高感度であり、顕微鏡の広視野イメージングに最適である。 本研究では,マイクロメートルスケールの微視的リソグラフィパターン回路からの信号のイメージングを実証する。 新しいタイプのロックインアンプカメラを用いて,交流信号とパルス電流信号の空間的回復を,エイリアスやアンダーサンプリングを伴わずに,ミリ秒未満(最大3500フレーム/秒)で実証した。 最後に,生体神経系における信号の正確な形態を再現する合成信号(マウス海馬)の回復の原理を実証する。

The ability to measure the passage of electrical current with high spatial and temporal resolution is vital for applications ranging from inspection of microscopic electronic circuits to biosensing. Being able to image such signals passively and remotely at the same time is of high importance, to measure without invasive disruption of the system under study or the signal itself. A new approach to achieve this utilises point defects in solid state materials, in particular nitrogen vacancy (NV) centres in diamond. Acting as a high density array of independent sensors, addressable opto-electronically and highly sensitive to factors including temperature and magnetic field, these are ideally suited to microscopic widefield imaging. In this work we demonstrate such imaging of signals from a microscopic lithographically patterned circuit at the micrometer scale. Using a new type of lock-in amplifier camera, we demonstrate sub-millisecond (up to 3500 frames-per-second) spatially resolved recovery of AC and pulsed electrical current signals, without aliasing or undersampling. Finally, we demonstrate as a proof of principle the recovery of synthetic signals replicating the exact form of signals in a biological neural network: the hippocampus of a mouse.
翻訳日:2023-03-20 11:21:50 公開日:2021-07-29
# 次元$n$DのPDM型高調波発振器:線形可逆性と正確な可解性

$n$-dimensional PDM-damped harmonic oscillators: Linearizability, and exact solvability ( http://arxiv.org/abs/2107.14617v1 )

ライセンス: Link先を確認
Omar Mustafa(参考訳) 位置依存質量 (pdm) ラグランジアン/ハミルトニアンを標準教科書形式で考慮し, 運動エネルギーとポテンシャルエネルギーの長きにわたって維持され, 総エネルギーの保存が可能となる(すなわち, $l=t-v$, $h=t+v$, $dh/dt=de/dt=0$)。 このような標準設定下では、n$-dimensional pdm damped harmonic oscillators (dho)について検討・報告する。 我々は、n$-pdm 力学方程式の定数質量設定のためのいくつかの n$-linear dhos 力学方程式への線形化可能性を促進するために、いくつかの n$-dimensional point canonical transformation を用いる。 したがって、線形DHOのよく知られた正確な解は、容易に、PDM DHOの正確な解にマッピングされる。 一次元の集合と$n$のPDM-DHOイラストレーターの集合が位相空間の軌跡とともに報告される。

We consider position-dependent mass (PDM) Lagrangians/Hamiltonians in their standard textbook form, where the long-standing \emph{gain-loss balance} between the kinetic and potential energies is kept intact to allow conservation of total energy (i.e., $L=T-V$, $H=T+V$, and $dH/dt=dE/dt=0$). Under such standard settings, we discuss and report on $n$-dimensional PDM damped harmonic oscillators (DHO). We use some $n$-dimensional point canonical transformation to facilitate the linearizability of their $n$-PDM dynamical equations into some $n$-linear DHOs' dynamical equations for constant mass setting. Consequently, the well know exact solutions for the linear DHOs are mapped, with ease, onto the exact solutions for PDM DHOs. A set of one-dimensional and a set of $n$-dimensional PDM-DHO illustrative examples are reported along with their phase-space trajectories.
翻訳日:2023-03-20 11:15:23 公開日:2021-07-29
# 自発パラメトリックダウン変換を用いたデュアルレール偏光型光子対の重畳多重高効率カスケード源

Heralded-Multiplexed High-Efficiency Cascaded Source of Dual-Rail Polarization-Entangled Photon Pairs using Spontaneous Parametric Down Conversion ( http://arxiv.org/abs/2107.14360v1 )

ライセンス: Link先を確認
Prajit Dhara, Spencer J. Johnson, Christos N. Gagatsos, Paul G. Kwiat, Saikat Guha(参考訳) 2重レールフォトニックベースで符号化された高忠実度エンタングル量子ビット対、すなわち2つの直交モードの1つに1つの光子が存在することは、長距離の高速高忠実量子通信を含む、量子情報処理の多くの応用の鍵となる技術である。 例えば、自発的パラメトリックダウンコンバージョン(spdc)や自発的4波混合(sfwm)を利用するような、フォトニックエンタングルメントの最もポピュラーで成熟したソースは、双対軌道基底の幅の外にある高次光子項からの寄与を含むエンタングル(いわゆる連続変数)量子状態を生成する。 これらの高次項の効果を緩和するために低ポンプパワーを使用することが多い。 しかし、これはペア生成率を減少させ、ソースは本質的に確率的になる。 本研究では,2つのSPDCソース間で線形光学的絡み合わせを行うカスケードソースについて検討し,フリーランのSPDCソースに比べて高忠実度(理想ベル状態)の光性絡み合わせ状態を生成する。 さらに、ベルスワップがヘラルドトリガーを提供することにより、合理的な切り替え損失と検出器損失とノイズにもかかわらず、高忠実度デュアルレールフォトニックエンタングルの高効率ソースの忠実度と成功確率のトレードオフをもたらす多重ソースの構築方法を示す。 しかし、スイッチ1つにつき1.5ドルの損失のしきい値があり、それ以外は多重化が忠実さと成功確率のトレードオフを損なう。

Deterministic sources of high-fidelity entangled qubit pairs encoded in the dual-rail photonic basis, i.e., presence of a single photon in one of two orthogonal modes, are a key enabling technology of many applications of quantum information processing, including high-rate high-fidelity quantum communications over long distances. The most popular and mature sources of such photonic entanglement, e.g., those that leverage spontaneous parametric down-conversion (SPDC) or spontaneous four-wave mixing (sFWM), generate an entangled (so-called, continuous-variable) quantum state that contains contributions from high-order photon terms that lie outside the span of the dual-rail basis, which is detrimental to most applications. One often uses low pump power to mitigate the effects of those high-order terms. However that reduces the pair generation rate, and the source becomes inherently probabilistic. We investigate a cascaded source that performs a linear-optical entanglement swap between two SPDC sources, to generate a heralded photonic entangled state that has a higher fidelity (to the ideal Bell state) compared to a free-running SPDC source. Further, with the Bell swap providing a heralding trigger, we show how to build a multiplexed source, which despite reasonable switching losses and detector loss and noise, yields a Fidelity versus Success Probability trade-off of a high-efficiency source of high-fidelity dual-rail photonic entanglement. We find however that there is a threshold of $1.5$ dB of loss per switch, beyond which multiplexing hurts the Fidelity versus Success Probability trade-off.
翻訳日:2023-03-20 11:14:32 公開日:2021-07-29
# 現代記号回帰法とその相対的性能

Contemporary Symbolic Regression Methods and their Relative Performance ( http://arxiv.org/abs/2107.14351v1 )

ライセンス: Link先を確認
William La Cava, Patryk Orzechowski, Bogdan Burlacu, Fabr\'icio Olivetti de Fran\c{c}a, Marco Virgolin, Ying Jin, Michael Kommenda, Jason H. Moore(参考訳) 近年、記号回帰に対する多くの有望なアプローチが提示されているが、この分野の進歩は、均一で堅牢で透明なベンチマーク標準の欠如に苦しんでいる。 本稿では,シンボリック回帰のためのオープンソースで再現可能なベンチマークプラットフォームを導入することで,この欠点を解決する。 多様な回帰問題の集合に対して,14の記号回帰法と7つの機械学習法を評価する。 我々の評価には、既知のモデル形式を持たない実世界のデータセットと、物理方程式や常微分方程式の系を含む地上のベンチマーク問題の両方が含まれる。 実世界のデータセットに対しては、最先端の機械学習手法と比較して、エラーが少なく、複雑さの低いモデルを学ぶ各手法の能力をベンチマークする。 合成問題に対して,様々なレベルのノイズが存在する場合に,各手法の正確な解を求める能力を評価する。 これらの制御実験により、実世界の回帰の最良の手法は、遺伝的アルゴリズムとパラメータ推定と意味探索ドライバを組み合わせたものである。 ノイズの存在下で正確な方程式を復元する作業を行うと、ディープラーニングと遺伝的アルゴリズムに基づくアプローチも同様に機能することがわかった。 我々は、この実験を再現し、新しい方法に貢献するための詳細なガイドを提供し、他の研究者が共通かつ生きている象徴的回帰ベンチマークで協力することを奨励する。

Many promising approaches to symbolic regression have been presented in recent years, yet progress in the field continues to suffer from a lack of uniform, robust, and transparent benchmarking standards. In this paper, we address this shortcoming by introducing an open-source, reproducible benchmarking platform for symbolic regression. We assess 14 symbolic regression methods and 7 machine learning methods on a set of 252 diverse regression problems. Our assessment includes both real-world datasets with no known model form as well as ground-truth benchmark problems, including physics equations and systems of ordinary differential equations. For the real-world datasets, we benchmark the ability of each method to learn models with low error and low complexity relative to state-of-the-art machine learning methods. For the synthetic problems, we assess each method's ability to find exact solutions in the presence of varying levels of noise. Under these controlled experiments, we conclude that the best performing methods for real-world regression combine genetic algorithms with parameter estimation and/or semantic search drivers. When tasked with recovering exact equations in the presence of noise, we find that deep learning and genetic algorithm-based approaches perform similarly. We provide a detailed guide to reproducing this experiment and contributing new methods, and encourage other researchers to collaborate with us on a common and living symbolic regression benchmark.
翻訳日:2023-03-20 11:13:59 公開日:2021-07-29
# 実験としてのシミュレーション:レコメンダシステムに関するシミュレーション研究の実証的批判

Simulation as Experiment: An Empirical Critique of Simulation Research on Recommender Systems ( http://arxiv.org/abs/2107.14333v1 )

ライセンス: Link先を確認
Amy A. Winecoff, Matthew Sun, Eli Lucherini, Arvind Narayanan(参考訳) シミュレーションは、経験的縦断研究の多くの問題を回避しながら、レコメンダシステム(rs)の進化の研究を可能にする。 シミュレーションは、質的かつ定量的な経験的アプローチとともに、rsの科学的洞察に最も寄与する。 哲学者や研究者は、完全に理論的あるいは経験的手法と比較して、シミュレーションの認識論的性質について長い間議論してきた。 シミュレーションはしばしば暗黙的あるいは明示的に概念化され、経験的アプローチと理論的アプローチの中間の領域を占有し、研究者が両方の利点を実現できる。 しかし、そのような議論でしばしば無視されるのは、単一の方法論的伝統に固執しなければ、シミュレーション研究は科学的規範や標準に同意せず、理論的な動機付け、アプローチ、実装のパッチワークによって和解が難しいことである。 本稿では,RSのシミュレーション研究は経験的実験手法と概念的に類似しており,実証的研究手法の標準を用いて評価することができると論じる。 この経験レンズを用いて、RSのシミュレーション研究におけるアプローチにおける高い不均一性と低い透過性の組み合わせは、その解釈可能性、一般化可能性、複製性に制限を与えていると論じる。 我々は、経験的分野に共通する標準とプラクティスを採用することで、シミュレーション研究者はこれらの弱点の多くを軽減できると主張する。

Simulation can enable the study of recommender system (RS) evolution while circumventing many of the issues of empirical longitudinal studies; simulations are comparatively easier to implement, are highly controlled, and pose no ethical risk to human participants. How simulation can best contribute to scientific insight about RS alongside qualitative and quantitative empirical approaches is an open question. Philosophers and researchers have long debated the epistemological nature of simulation compared to wholly theoretical or empirical methods. Simulation is often implicitly or explicitly conceptualized as occupying a middle ground between empirical and theoretical approaches, allowing researchers to realize the benefits of both. However, what is often ignored in such arguments is that without firm grounding in any single methodological tradition, simulation studies have no agreed upon scientific norms or standards, resulting in a patchwork of theoretical motivations, approaches, and implementations that are difficult to reconcile. In this position paper, we argue that simulation studies of RS are conceptually similar to empirical experimental approaches and therefore can be evaluated using the standards of empirical research methods. Using this empirical lens, we argue that the combination of high heterogeneity in approaches and low transparency in methods in simulation studies of RS has limited their interpretability, generalizability, and replicability. We contend that by adopting standards and practices common in empirical disciplines, simulation researchers can mitigate many of these weaknesses.
翻訳日:2023-03-20 11:13:37 公開日:2021-07-29
# 分散レジームにおけるQubitを介する強結合光学

Strong Coupling Optomechanics Mediated by a Qubit in the Dispersive Regime ( http://arxiv.org/abs/2107.14315v1 )

ライセンス: Link先を確認
Ahmad Shafiei Aporvari, and David Vitali(参考訳) キャビティ光学は量子技術の実装のための柔軟なプラットフォームであり、特に量子インタフェース、量子センサー、量子情報処理の実現に有用である。 しかし、機械的モードと電磁モードの間の分散的、放射圧相互作用は典型的には非常に弱く、現在まで興味深い非線形ダイナミクスと単一光子レベルでの量子制御の実証を活用している。 理論上も実験的にも、相互作用がジョセフソン回路によって媒介されている場合、単一光子光学的カップリングの大きな拡張に対応する効果的なダイナミクスを持つことができることが既に示されている。 ここでは、キャビティモードとメカニカルモードがオフ共振量子ビットを介して相互作用する一般的な場合において、この現象を詳細に解析する。 シュリーファー・ウルフ近似法を用いて, この三成分ハイブリッド系が強結合状態において有効なキャビティ光学系として振る舞う状態を決定する。

Cavity optomechanics represents a flexible platform for the implementation of quantum technologies, useful in particular for the realization of quantum interfaces, quantum sensors and quantum information processing. However, the dispersive, radiation-pressure interaction between the mechanical and the electromagnetic modes is typically very weak, harnessing up to now the demonstration of interesting nonlinear dynamics and quantum control at the single photon level. It has already been shown both theoretically and experimentally that if the interaction is mediated by a Josephson circuit, one can have an effective dynamic corresponding to a huge enhancement of the single-photon optomechanical coupling. Here we analyze in detail this phenomenon in the general case when the cavity mode and the mechanical mode interact via an off-resonant qubit. Using a Schrieffer-Wolff approximation treatment, we determine the regime where this tripartite hybrid system behaves as an effective cavity optomechanical system in the strong coupling regime
翻訳日:2023-03-20 11:13:11 公開日:2021-07-29
# 量子力学における幾何学からコヒーレント散逸ダイナミクスへ

From geometry to coherent dissipative dynamics in quantum mechanics ( http://arxiv.org/abs/2107.14267v1 )

ライセンス: Link先を確認
Hans Cruz-Prado, Alessandro Bravetti and Angel Garcia-Chung(参考訳) 量子系の幾何学的記述から、エネルギーは散逸するが状態のコヒーレンスは保存されるという、時間に依存しない散逸量子過程に対する新しいアプローチを提案する。 提案手法は, 量子力学の標準的なシンプレクティック図面を接触多様体に拡張し, 適切な接触ハミルトニアン力学を用いて散逸を得る。 我々は有限レベル系の場合について検討し、その結果得られる力学が、この散逸量子系の部分クラスの記述に対して実行可能な代替候補となることを対応する接触マスター方程式を用いて示す。 最近の実験結果に動機づけられた具体的な応用として,2レベル系の量子崩壊をコヒーレントかつ連続的なプロセスとして記述する。

Starting from the geometric description of quantum systems, we propose a novel approach to time-independet dissipative quantum processes according to which the energy is dissipated but the coherence of the states is preserved. Our proposal consists on extending the standard symplectic picture of quantum mechanics to a contact manifold and then obtaining dissipation using an appropriate contact Hamiltonian dynamics. We work out the case of finite-level systems, for which it is shown by means of the corresponding contact master equation that the resulting dynamics constitutes a viable alternative candidate for the description of this subclass of dissipative quantum systems. As a concrete application, motivated by recent experimental observations, we describe quantum decays in a 2-level system as coherent and continuous processes.
翻訳日:2023-03-20 11:12:19 公開日:2021-07-29
# フィリピン大学における新入生教育予測のための機械学習によるDSS

A Machine Learning Based DSS in Predicting Undergraduate Freshmen Enrolment in a Philippine University ( http://arxiv.org/abs/2108.07690v1 )

ライセンス: Link先を確認
Dr. Joseph A. Esquivel and Dr. James A. Esquivel(参考訳) 高等教育機関であるk to 12プログラムの実施など、フィリピンの教育の状況が突然変化し、入学者の投射が困難となったため、新入生の募集に苦慮している。 民間HEIs導入は高等教育機関の成功要因に直接影響する。 本研究はフィリピン大学入校資格に影響を及ぼす新入生の諸特性について検討した。 使用したデータセットは、大学受験者全員に配布されたオンラインフォームを通じて、大学受験部から取得した。 ロジスティック回帰(Logistic Regression)を用いて、入学した学生が、学生と機関の特性の両方に基づいて、施設内での教育を受ける可能性を決定する予測モデルを開発した。 LRモデルは決定支援システムの開発においてアルゴリズムとして使用された。 ウェカは特徴の選択とLRモデルの構築に利用された。 DSSは、データビジュアライゼーションと個々の予測を含むR StudioとR Shinyを使ってコーディングされ、設計されている。

The sudden change in the landscape of Philippine education, including the implementation of K to 12 program, Higher Education institutions, have been struggling in attracting freshmen applicants coupled with difficulties in projecting incoming enrollees. Private HEIs Enrolment target directly impacts success factors of Higher Education Institutions. A review of the various characteristics of freshman applicants influencing their admission status at a Philippine university were included in this study. The dataset used was obtained from the Admissions Office of the University via an online form which was circulated to all prospective applicants. Using Logistic Regression, a predictive model was developed to determine the likelihood that an enrolled student would seek enrolment in the institution or not based on both students and institution's characteristics. The LR Model was used as the algorithm in the development of the Decision Support System. Weka was utilized on selection of features and building the LR model. The DSS was coded and designed using R Studio and R Shiny which includes data visualization and individual prediction.
翻訳日:2023-03-20 11:03:03 公開日:2021-07-29
# マルチHuman 3D Pose 推定のための100FPS以上でのクロスビュートラッキング

Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS ( http://arxiv.org/abs/2003.03972v3 )

ライセンス: Link先を確認
Long Chen, Haizhou Ai, Rui Chen, Zijie Zhuang, Shuang Liu(参考訳) リアルタイムで複数の人間の3Dポーズを推定することは、コンピュータビジョンにおける古典的だが依然として難しい課題である。 その大きな難しさは、2Dポーズのクロスビューアソシエーションの曖昧さと、複数のビューに複数の人がいる場合の巨大な状態空間にある。 本稿では,複数のキャリブレーションされたカメラビューから複数人の3Dポーズを推定する新しい手法を提案する。 入力として異なるカメラ座標で2dポーズを取り、グローバル座標における正確な3dポーズを目標とする。 各フレームでスクラッチから2Dのポーズを関連付ける従来の方法とは異なり、ビデオの時間的一貫性を利用して3次元のポーズを直接3次元空間でマッチングする。 より具体的には、各人の3dポーズを保持し、クロスビューマルチヒューマントラッキングを通じて反復的に更新することを提案する。 この新しい定式化は、広く使われている公開データセットで示すように、精度と効率の両方を改善する。 本手法のスケーラビリティをさらに検証するために,12から28のカメラビューを持つ大規模マルチヒューマンデータセットを提案する。 12台のカメラで154FPS、28台のカメラで34FPSを実現し、大規模な現実世界のアプリケーションを扱う能力を示している。 提案されたデータセットはhttps://github.com/longcw/crossview_3d_pose_trackingでリリースされる。

Estimating 3D poses of multiple humans in real-time is a classic but still challenging task in computer vision. Its major difficulty lies in the ambiguity in cross-view association of 2D poses and the huge state space when there are multiple people in multiple views. In this paper, we present a novel solution for multi-human 3D pose estimation from multiple calibrated camera views. It takes 2D poses in different camera coordinates as inputs and aims for the accurate 3D poses in the global coordinate. Unlike previous methods that associate 2D poses among all pairs of views from scratch at every frame, we exploit the temporal consistency in videos to match the 2D inputs with 3D poses directly in 3-space. More specifically, we propose to retain the 3D pose for each person and update them iteratively via the cross-view multi-human tracking. This novel formulation improves both accuracy and efficiency, as we demonstrated on widely-used public datasets. To further verify the scalability of our method, we propose a new large-scale multi-human dataset with 12 to 28 camera views. Without bells and whistles, our solution achieves 154 FPS on 12 cameras and 34 FPS on 28 cameras, indicating its ability to handle large-scale real-world applications. The proposed dataset is released at https://github.com/longcw/crossview_3d_pose_tracking.
翻訳日:2022-12-25 09:01:43 公開日:2021-07-29
# Defensive Approximation: Approximate Computingを用いたCNNのセキュア化

Defensive Approximation: Securing CNNs using Approximate Computing ( http://arxiv.org/abs/2006.07700v3 )

ライセンス: Link先を確認
Amira Guesmi, Ihsen Alouani, Khaled Khasawneh, Mouna Baklouti, Tarek Frikha, Mohamed Abid, Nael Abu-Ghazaleh(参考訳) 近年,畳み込みニューラルネットワーク(convolutional neural networks,cnns)などの機械学習や深層学習構造が,様々な現実の問題解決に応用されている。 しかし、これらのアーキテクチャは敵の攻撃に弱い。 本稿では,機械学習分類器のロバスト性を改善するため,ハードウェアによる近似計算を初めて行うことを提案する。 我々の近似計算実装は、幅広い攻撃シナリオにまたがって堅牢性を実現することを示す。 具体的には,ブラックボックスおよびグレイボックス攻撃のシナリオにおいて,正確な分類器に対する攻撃の成功が近似実装への移動性に乏しいことを示す。 驚くべきことに、攻撃者が近似分類器の内部実装にアクセスできるホワイトボックス攻撃にもロバスト性上の利点が適用される。 本稿では,近似実装の内部動作の解析を通して,この頑健性の原因について述べる。 さらに,この近似計算モデルは,分類精度の面では同じレベルを維持し,再訓練を必要とせず,cnnの資源利用とエネルギー消費を低減している。 我々は強敵攻撃のセットについて広範な実験を行い,提案手法により,lenet-5とalexnet cnnのロバスト性が最大99%,87%向上することを示した。 また、ホワイトボックス攻撃では、近似分類器を騙すためにノイズ予算が著しく高くなり、正確な分類器を騙すことに成功した画像と比較して入力画像のpsnrが平均4db劣化することを示した。

In the past few years, an increasing number of machine-learning and deep learning structures, such as Convolutional Neural Networks (CNNs), have been applied to solving a wide range of real-life problems. However, these architectures are vulnerable to adversarial attacks. In this paper, we propose for the first time to use hardware-supported approximate computing to improve the robustness of machine learning classifiers. We show that our approximate computing implementation achieves robustness across a wide range of attack scenarios. Specifically, for black-box and grey-box attack scenarios, we show that successful adversarial attacks against the exact classifier have poor transferability to the approximate implementation. Surprisingly, the robustness advantages also apply to white-box attacks where the attacker has access to the internal implementation of the approximate classifier. We explain some of the possible reasons for this robustness through analysis of the internal operation of the approximate implementation. Furthermore, our approximate computing model maintains the same level in terms of classification accuracy, does not require retraining, and reduces resource utilization and energy consumption of the CNN. We conducted extensive experiments on a set of strong adversarial attacks; We empirically show that the proposed implementation increases the robustness of a LeNet-5 and an Alexnet CNNs by up to 99% and 87%, respectively for strong grey-box adversarial attacks along with up to 67% saving in energy consumption due to the simpler nature of the approximate logic. We also show that a white-box attack requires a remarkably higher noise budget to fool the approximate classifier, causing an average of 4db degradation of the PSNR of the input image relative to the images that succeed in fooling the exact classifier
翻訳日:2022-11-21 21:36:42 公開日:2021-07-29
# 類似性比較の幾何学

Geometry of Similarity Comparisons ( http://arxiv.org/abs/2006.09858v4 )

ライセンス: Link先を確認
Puoya Tabaghi, Jianhao Peng, Olgica Milenkovic, Ivan Dokmani\'c(参考訳) 多くのデータ解析問題は、ユークリッド空間、球面空間、あるいは双曲空間における距離幾何学的な問題としてキャストできる。 しばしば絶対距離の測定は信頼できないか、単に利用できないことがあり、類似性の形で絶対距離へのプロキシのみが利用可能である。 したがって、以下のことを問う: 実体の集合における類似性の \emph{comparisons} のみを与えられたとき、基礎となる空間形式の幾何学について何が言えるか? この問題を研究するために、対象空間形式の \textit{ordinal capacity} と類似度測定の \emph{ordinal spread} の概念を導入する。 後者は測定における複雑なパターンの指標であり、前者は特定の順序展開プロファイルを持つ一連の測定値に対応するために空間形式の容量を定量化する。 空間形式の順序容量は、その次元とその曲率の符号と関係していることを証明する。 これは、我々が類似性グラフと呼ぶもののユークリッドおよび球面埋め込み次元において下界となる。 さらに重要なことは、類似性グラフ上で定義された順序拡散確率変数の統計的挙動が、その基礎となる空間形式を特定するのに利用できることである。 我々は,重み付き木,単細胞RNA発現データ,球面地図計測実験による理論的主張を支持した。

Many data analysis problems can be cast as distance geometry problems in \emph{space forms} -- Euclidean, spherical, or hyperbolic spaces. Often, absolute distance measurements are often unreliable or simply unavailable and only proxies to absolute distances in the form of similarities are available. Hence we ask the following: Given only \emph{comparisons} of similarities amongst a set of entities, what can be said about the geometry of the underlying space form? To study this question, we introduce the notions of the \textit{ordinal capacity} of a target space form and \emph{ordinal spread} of the similarity measurements. The latter is an indicator of complex patterns in the measurements, while the former quantifies the capacity of a space form to accommodate a set of measurements with a specific ordinal spread profile. We prove that the ordinal capacity of a space form is related to its dimension and the sign of its curvature. This leads to a lower bound on the Euclidean and spherical embedding dimension of what we term similarity graphs. More importantly, we show that the statistical behavior of the ordinal spread random variables defined on a similarity graph can be used to identify its underlying space form. We support our theoretical claims with experiments on weighted trees, single-cell RNA expression data and spherical cartographic measurements.
翻訳日:2022-11-19 20:28:02 公開日:2021-07-29
# Pairwise Comparisons による Best-k$ Items Selection のサンプル複雑度

The Sample Complexity of Best-$k$ Items Selection from Pairwise Comparisons ( http://arxiv.org/abs/2007.03133v2 )

ライセンス: Link先を確認
Wenbo Ren, Jia Liu, Ness B. Shroff(参考訳) 本稿では,ペアワイズ比較から選択したベストk$項目のサンプル複雑性(すなわち比較数)について検討する。 与えられたアイテムセットから、学習者は各アイテムに対してペアワイズ比較を行い、各比較は好みのアイテムについて独立したノイズ結果を返す。 いつでも、学習者は過去の観察(すなわちアクティブラーニング)に基づいて比較するアイテムのペアを適応的に選択することができる。 学習者のゴールは、可能な限り少ない比較を行おうとしながら、信頼度のある(およそ)$kのアイテムを見つけることである。 本稿では,2つの問題について考察する。 (i)おそらくほぼ正しい(pac)最良の$k$アイテムを見つけること、及び (II)強い確率推移性と確率三角形の不等式の下で、正確なk$の項目を見つける。 PACベスト-k$アイテム選択の場合、まず下界を示し、次に、サンプル複雑性上界が下界と定数係数に一致するアルゴリズムを提案する。 正確な$kのアイテム選択のために、まず最低値の低い境界を証明します。 次に、PACベストアイテム選択アルゴリズムに基づく2つのアルゴリズムを提案する。1つは$k=1$で、もう1つはloglog factorで最適で、もう1つは$k$で最適で、サンプル複雑性はlog factorで最適である。

This paper studies the sample complexity (aka number of comparisons) bounds for the active best-$k$ items selection from pairwise comparisons. From a given set of items, the learner can make pairwise comparisons on every pair of items, and each comparison returns an independent noisy result about the preferred item. At any time, the learner can adaptively choose a pair of items to compare according to past observations (i.e., active learning). The learner's goal is to find the (approximately) best-$k$ items with a given confidence, while trying to use as few comparisons as possible. In this paper, we study two problems: (i) finding the probably approximately correct (PAC) best-$k$ items and (ii) finding the exact best-$k$ items, both under strong stochastic transitivity and stochastic triangle inequality. For PAC best-$k$ items selection, we first show a lower bound and then propose an algorithm whose sample complexity upper bound matches the lower bound up to a constant factor. For the exact best-$k$ items selection, we first prove a worst-instance lower bound. We then propose two algorithms based on our PAC best items selection algorithms: one works for $k=1$ and is sample complexity optimal up to a loglog factor, and the other works for all values of $k$ and is sample complexity optimal up to a log factor.
翻訳日:2022-11-13 01:51:47 公開日:2021-07-29
# ロバスト学習率によるフェデレーション学習におけるバックドアの防御

Defending against Backdoors in Federated Learning with Robust Learning Rate ( http://arxiv.org/abs/2007.03767v4 )

ライセンス: Link先を確認
Mustafa Safa Ozdayi, Murat Kantarcioglu, Yulia R. Gel(参考訳) フェデレートラーニング(FL)は、エージェントの集合が、潜在的に敏感なデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。 これにより、FLはプライバシ保護アプリケーションに適している。 同時に、FLは分散データや未調査データによる敵攻撃の影響を受けやすい。 flに対する重要な攻撃の1つはバックドア攻撃である。 バックドア攻撃において、敵はトレーニング中にモデルにバックドア機能を埋め込もうとする。 バックドア攻撃を防止するため,flプロトコルの変更を最小限に抑える軽量防御を提案する。 高いレベルでは、エージェントの更新のサイン情報に基づいて、アグリゲーションサーバの学習率、寸法ごと、ラウンドごとを慎重に調整することに基づいています。 まず、fl設定においてバックドア攻撃を成功させるために必要なステップを推測し、その後、我々の予想に基づいて防御を明示的に定式化する。 実験を通じて,予測を裏付ける実証的な証拠を提供し,異なる環境下でのバックドア攻撃に対する防御を検証した。 バックドアは完全に取り除かれたり、精度が大幅に低下する。 総合的に見て、我々の防御は、最近提案された文献の防御を著しく上回っていることを示唆している。 我々は、トレーニングモデルの精度に対する影響を最小限に抑えることで、これを達成する。 また,提案手法の収束率解析も提供する。

Federated learning (FL) allows a set of agents to collaboratively train a model without sharing their potentially sensitive data. This makes FL suitable for privacy-preserving applications. At the same time, FL is susceptible to adversarial attacks due to decentralized and unvetted data. One important line of attacks against FL is the backdoor attacks. In a backdoor attack, an adversary tries to embed a backdoor functionality to the model during training that can later be activated to cause a desired misclassification. To prevent backdoor attacks, we propose a lightweight defense that requires minimal change to the FL protocol. At a high level, our defense is based on carefully adjusting the aggregation server's learning rate, per dimension and per round, based on the sign information of agents' updates. We first conjecture the necessary steps to carry a successful backdoor attack in FL setting, and then, explicitly formulate the defense based on our conjecture. Through experiments, we provide empirical evidence that supports our conjecture, and we test our defense against backdoor attacks under different settings. We observe that either backdoor is completely eliminated, or its accuracy is significantly reduced. Overall, our experiments suggest that our defense significantly outperforms some of the recently proposed defenses in the literature. We achieve this by having minimal influence over the accuracy of the trained models. In addition, we also provide convergence rate analysis for our proposed scheme.
翻訳日:2022-11-12 19:23:19 公開日:2021-07-29
# FATNN: 高速で正確な第三次ニューラルネットワーク

FATNN: Fast and Accurate Ternary Neural Networks ( http://arxiv.org/abs/2008.05101v4 )

ライセンス: Link先を確認
Peng Chen, Bohan Zhuang, Chunhua Shen(参考訳) 第三次ニューラルネットワーク(TNN)は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。 しかし、三進表現を符号化するには3つの量子化レベルのみを利用する必要がある。 その結果、従来のTNNは通常の2ビットモデルと同等のメモリ消費と速度を持つが、表現能力は劣る。 さらに、TNNとフル精度ネットワークの間には依然として大きなギャップがあり、実際のアプリケーションへのデプロイメントを妨げている。 この2つの課題に取り組むため、本研究では、まず、いくつかの緩やかな制約の下で、三元内積の計算複雑性を2倍に減らすことができることを示した。 次に,性能ギャップを軽減するため,実装依存三元量子化アルゴリズムを精巧に設計する。 提案するフレームワークはFATNN(Fast and Accurate Ternary Neural Networks)と呼ばれる。 画像分類実験により、我々のFATNNが最先端の精度を大幅に上回っていることが示された。 さらに重要なことは、様々な精度でのスピードアップ評価をいくつかのプラットフォームで分析し、さらなる研究の強力なベンチマークとなることである。

Ternary Neural Networks (TNNs) have received much attention due to being potentially orders of magnitude faster in inference, as well as more power efficient, than full-precision counterparts. However, 2 bits are required to encode the ternary representation with only 3 quantization levels leveraged. As a result, conventional TNNs have similar memory consumption and speed compared with the standard 2-bit models, but have worse representational capability. Moreover, there is still a significant gap in accuracy between TNNs and full-precision networks, hampering their deployment to real applications. To tackle these two challenges, in this work, we first show that, under some mild constraints, computational complexity of the ternary inner product can be reduced by a factor of 2. Second, to mitigate the performance gap, we elaborately design an implementation-dependent ternary quantization algorithm. The proposed framework is termed Fast and Accurate Ternary Neural Networks (FATNN). Experiments on image classification demonstrate that our FATNN surpasses the state-of-the-arts by a significant margin in accuracy. More importantly, speedup evaluation compared with various precisions is analyzed on several platforms, which serves as a strong benchmark for further research.
翻訳日:2022-10-31 04:45:00 公開日:2021-07-29
# 交差線に基づくステレオ平面SLAM

Stereo Plane SLAM Based on Intersecting Lines ( http://arxiv.org/abs/2008.08218v3 )

ライセンス: Link先を確認
Xiaoyu Zhang, Wei Wang, Xianyu Qi and Ziwei Liao(参考訳) 平面機能はSLAMシステムのドリフトエラーを低減するための安定なランドマークの一種である。 RGB-Dカメラやライダーから取得される高密度の点雲から平面を抽出するのは簡単かつ高速である。 しかし、ステレオカメラでは、高密度の雲を正確に効率的に計算することは困難である。 本稿では,ステレオ画像から抽出した交差線を用いて平面パラメータを計算する新しい手法を提案する。 平面は、通常の形状と直線を持つ人工物や構造物の表面に存在するのが一般的である。 3次元空間では、2つの交差線がそのような平面を決定することができる。 これにより、ステレオ左画像と右画像の両方から線分を抽出する。 ステレオマッチングにより、3次元空間における終点と線方向を計算し、2つの交差する線から平面を計算する。 フレームトラッキングで不正確なプレーン機能を破棄します。 ステレオSLAMシステムにそのような平面機能を加えるとドリフトエラーが減少し、性能が向上する。 提案手法を公開データセット上で検証し,そのロバストかつ高精度な推定結果を,最先端SLAMシステムと比較した。 平面ベースのSLAMの研究に役立つため、私たちはhttps://github.com/fishmarch/Stereo-Plane-SLAM.comでコードを公開しています。

Plane feature is a kind of stable landmark to reduce drift error in SLAM system. It is easy and fast to extract planes from dense point cloud, which is commonly acquired from RGB-D camera or lidar. But for stereo camera, it is hard to compute dense point cloud accurately and efficiently. In this paper, we propose a novel method to compute plane parameters using intersecting lines which are extracted from the stereo image. The plane features commonly exist on the surface of man-made objects and structure, which have regular shape and straight edge lines. In 3D space, two intersecting lines can determine such a plane. Thus we extract line segments from both stereo left and right image. By stereo matching, we compute the endpoints and line directions in 3D space, and then the planes from two intersecting lines. We discard those inaccurate plane features in the frame tracking. Adding such plane features in stereo SLAM system reduces the drift error and refines the performance. We test our proposed system on public datasets and demonstrate its robust and accurate estimation results, compared with state-of-the-art SLAM systems. To benefit the research of plane-based SLAM, we release our codes at https://github.com/fishmarch/Stereo-Plane-SLAM.
翻訳日:2022-10-27 11:50:17 公開日:2021-07-29
# OFDMのエンドツーエンド学習:ニューラル受信機からパイロットレス通信へ

End-to-end Learning for OFDM: From Neural Receivers to Pilotless Communication ( http://arxiv.org/abs/2009.05261v3 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 従来の研究では、エンドツーエンド学習は付加的な白色ガウスノイズ(AWGN)チャネルよりも顕著なシェーピングゲインを実現することが示されている。 しかし、実際の無線チャネルモデルよりもその利点が定量化されていない。 本研究は,直交周波数分割多重化(ofdm)を用いた,周波数・時間選択フェージングチャネル上でのエンド・ツー・エンド学習の利点を探ることで,このギャップを埋めることを目的とする。 受信機における不完全なチャネル知識により、AWGNチャネルで観測されたシェイピングゲインは消滅する。 それでも、他の2つのパフォーマンス改善源を特定します。 1つ目は、多数のサブキャリアとOFDMシンボルを操作するニューラルネットワーク(NN)ベースの受信機で、ビットエラー率(BER)を失うことなく直交パイロットの数を著しく削減できる。 2つ目は、ニューラルレシーバーを重畳されたパイロット(SIP)と共同で学習し、従来の二次振幅変調(QAM)や最適化された星座幾何学と線形に組み合わせることで、整形パイロットを完全に排除することに由来する。 学習された幾何学は、幅広い信号と雑音の比(SNR)、ドップラーと遅延の拡散、平均値がゼロであり、従って重畳されたパイロットは含まない。 どちらのスキームもパイロットベースベースラインと同じBERを約7%高いスループットで実現している。 したがって,復調基準信号(dmrss)の必要性と関連する制御オーバーヘッドをなくすことが可能な5gを超える通信システムでは,共学の送信機と受信機が非常に興味深いコンポーネントであると考えられる。

Previous studies have demonstrated that end-to-end learning enables significant shaping gains over additive white Gaussian noise (AWGN) channels. However, its benefits have not yet been quantified over realistic wireless channel models. This work aims to fill this gap by exploring the gains of end-to-end learning over a frequency- and time-selective fading channel using orthogonal frequency division multiplexing (OFDM). With imperfect channel knowledge at the receiver, the shaping gains observed on AWGN channels vanish. Nonetheless, we identify two other sources of performance improvements. The first comes from a neural network (NN)-based receiver operating over a large number of subcarriers and OFDM symbols which allows to significantly reduce the number of orthogonal pilots without loss of bit error rate (BER). The second comes from entirely eliminating orthognal pilots by jointly learning a neural receiver together with either superimposed pilots (SIPs), linearly combined with conventional quadrature amplitude modulation (QAM), or an optimized constellation geometry. The learned geometry works for a wide range of signal-to-noise ratios (SNRs), Doppler and delay spreads, has zero mean and does hence not contain any form of superimposed pilots. Both schemes achieve the same BER as the pilot-based baseline with around 7% higher throughput. Thus, we believe that a jointly learned transmitter and receiver are a very interesting component for beyond-5G communication systems which could remove the need and associated control overhead for demodulation reference signals (DMRSs).
翻訳日:2022-10-19 22:17:21 公開日:2021-07-29
# CogniFNN:認知語埋め込み評価のためのファジィニューラルネットワークフレームワーク

CogniFNN: A Fuzzy Neural Network Framework for Cognitive Word Embedding Evaluation ( http://arxiv.org/abs/2009.11485v2 )

ライセンス: Link先を確認
Xinping Liu, Zehong Cao, Son Tran(参考訳) 単語埋め込みは意味表現を反映することができ、その特徴は人間の自然読書関連認知データソースで包括的に評価することができる。 本稿では、ファジィニューラルネットワークを用いて、英語単語埋め込みの評価のための非線形および非定常特性を抽出する最初の試みであるCogniFNNフレームワークを提案する。 実験では、脳波、fmri、視線追跡の3つのモダリティにまたがる15の人間認知データセットを用いて、提案するcognifnnフレームワークを評価する指標として平均二乗誤差と多重仮説テストを選択した。 近年の先駆的フレームワークと比較して,提案したCogniFNNでは,文脈非依存(GloVe)と文脈依存(BERT)の単語埋め込みの予測誤差が小さくなり,ランダムに生成した単語埋め込みによる高い有意比が得られた。 以上の結果から,CogniFNNフレームワークは認知単語の埋め込みをより正確かつ包括的に評価できる可能性が示唆された。 これは、余分な自然言語処理タスクに対するさらなる単語埋め込み評価に有益である可能性がある。

Word embeddings can reflect the semantic representations, and the embedding qualities can be comprehensively evaluated with human natural reading-related cognitive data sources. In this paper, we proposed the CogniFNN framework, which is the first attempt at using fuzzy neural networks to extract non-linear and non-stationary characteristics for evaluations of English word embeddings against the corresponding cognitive datasets. In our experiment, we used 15 human cognitive datasets across three modalities: EEG, fMRI, and eye-tracking, and selected the mean square error and multiple hypotheses testing as metrics to evaluate our proposed CogniFNN framework. Compared to the recent pioneer framework, our proposed CogniFNN showed smaller prediction errors of both context-independent (GloVe) and context-sensitive (BERT) word embeddings, and achieved higher significant ratios with randomly generated word embeddings. Our findings suggested that the CogniFNN framework could provide a more accurate and comprehensive evaluation of cognitive word embeddings. It will potentially be beneficial to the further word embeddings evaluation on extrinsic natural language processing tasks.
翻訳日:2022-10-15 04:04:56 公開日:2021-07-29
# マルチラベル分類における非対称損失

Asymmetric Loss For Multi-Label Classification ( http://arxiv.org/abs/2009.14119v4 )

ライセンス: Link先を確認
Emanuel Ben-Baruch, Tal Ridnik, Nadav Zamir, Asaf Noy, Itamar Friedman, Matan Protter, Lihi Zelnik-Manor(参考訳) 典型的なマルチラベル設定では、画像は平均的な少数の正のラベルと多くの負のラベルを含む。 この正負の不均衡は最適化プロセスを支配し、トレーニング中に正のラベルから過度に強調される勾配をもたらし、精度が低下する。 本稿では,正のサンプルと負のサンプルで異なる動作をする新しい非対称損失(asl)を提案する。 この損失により、動的に重量を減らし、容易に陰性なサンプルを保ちつつ、おそらくラベルのつかないサンプルを破棄することができる。 ASLが異なるサンプルの確率のバランスをとる方法と、このバランスがより良いmAPスコアにどのように変換されるかを示す。 ASLでは、MS-COCO、Pascal-VOC、NAS-WIDE、Open Imagesなど、複数の一般的なマルチラベルデータセットの最先端結果が得られる。 また、単一ラベル分類やオブジェクト検出など、他のタスクに対するASLの適用性を示す。 ASLは効果的で実装が容易で、トレーニング時間や複雑さを増大させません。 実装は、https://github.com/Alibaba-MIIL/ASLで利用可能である。

In a typical multi-label setting, a picture contains on average few positive labels, and many negative ones. This positive-negative imbalance dominates the optimization process, and can lead to under-emphasizing gradients from positive labels during training, resulting in poor accuracy. In this paper, we introduce a novel asymmetric loss ("ASL"), which operates differently on positive and negative samples. The loss enables to dynamically down-weights and hard-thresholds easy negative samples, while also discarding possibly mislabeled samples. We demonstrate how ASL can balance the probabilities of different samples, and how this balancing is translated to better mAP scores. With ASL, we reach state-of-the-art results on multiple popular multi-label datasets: MS-COCO, Pascal-VOC, NUS-WIDE and Open Images. We also demonstrate ASL applicability for other tasks, such as single-label classification and object detection. ASL is effective, easy to implement, and does not increase the training time or complexity. Implementation is available at: https://github.com/Alibaba-MIIL/ASL.
翻訳日:2022-10-13 05:43:12 公開日:2021-07-29
# 非保存力に従属する二階結合微分方程式の学習

Learning second order coupled differential equations that are subject to non-conservative forces ( http://arxiv.org/abs/2010.11270v2 )

ライセンス: Link先を確認
Roger Alexander M\"uller, Jonathan Laflamme-Janssen, Jaime Camacaro, Carolina Bessega(参考訳) 本稿では,力学系の物理特性を記述した微分方程式を実空間軌跡(ies)のみの観測から,非保守的な力で学習できるかどうかについて述べる。 本稿では,2次常微分方程式の係数を表す共有重みを持つ畳み込みブロック間の残差接続の観点から,2次微分の差分近似を組み込んだネットワークを提案する。 さらに,このソルバライクアーキテクチャと畳み込みネットワークを組み合わせることで,結合発振器の軌跡の関係を学習できるため,システムが部分的に観測されただけでも安定した予測を行うことができる。 我々はこのマップを解法ネットワークと共に最適化し、その重みを共有しながら、散逸的力学系の複雑な物理特性を学習できる強力なフレームワークを形成する。

In this article we address the question whether it is possible to learn the differential equations describing the physical properties of a dynamical system, subject to non-conservative forces, from observations of its realspace trajectory(ies) only. We introduce a network that incorporates a difference approximation for the second order derivative in terms of residual connections between convolutional blocks, whose shared weights represent the coefficients of a second order ordinary differential equation. We further combine this solver-like architecture with a convolutional network, capable of learning the relation between trajectories of coupled oscillators and therefore allows us to make a stable forecast even if the system is only partially observed. We optimize this map together with the solver network, while sharing their weights, to form a powerful framework capable of learning the complex physical properties of a dissipative dynamical system.
翻訳日:2022-10-06 09:11:18 公開日:2021-07-29
# OccamのRazorをトランスフォーマーベースの依存性解析に適用する:何が機能するか、何ができないのか、本当に必要か

Applying Occam's Razor to Transformer-Based Dependency Parsing: What Works, What Doesn't, and What is Really Necessary ( http://arxiv.org/abs/2010.12699v3 )

ライセンス: Link先を確認
Stefan Gr\"unewald, Annemarie Friedrich, Jonas Kuhn(参考訳) 事前学習されたtransformerベースのコンテキスト化ワード埋め込みの導入は、universal dependencies(ud)のようなフレームワークのためのグラフベースのパーサの精度を大幅に向上させた。 しかし、事前訓練された言語モデルの選択やLSTMレイヤの使用の有無など、以前の研究は様々な面で異なる。 これらの選択の影響を解消し、シンプルで広く適用可能なアーキテクチャを特定することを目的として、新しいモジュールグラフベースの依存性パーサであるSTEPSを紹介する。 ステップを用いて多種多様な言語のudコーパスについて一連の分析を行う。 事前学習した埋め込みの選択はパーサ性能にはるかに大きな影響を与えており,XLM-Rを言語間の堅牢な選択であると考えている。 lstm層の追加は、transformerベースの組込みを使用する場合の利点はない。 追加のUD機能を出力するマルチタスクトレーニング設定は、結果を歪ませる可能性がある。 これらの知見を合わせて,12言語中10言語に対して,最新の結果(LAS)を新たに達成する,シンプルで広く適用可能なパーサアーキテクチャと構成を提案する。

The introduction of pre-trained transformer-based contextualized word embeddings has led to considerable improvements in the accuracy of graph-based parsers for frameworks such as Universal Dependencies (UD). However, previous works differ in various dimensions, including their choice of pre-trained language models and whether they use LSTM layers. With the aims of disentangling the effects of these choices and identifying a simple yet widely applicable architecture, we introduce STEPS, a new modular graph-based dependency parser. Using STEPS, we perform a series of analyses on the UD corpora of a diverse set of languages. We find that the choice of pre-trained embeddings has by far the greatest impact on parser performance and identify XLM-R as a robust choice across the languages in our study. Adding LSTM layers provides no benefits when using transformer-based embeddings. A multi-task training setup outputting additional UD features may contort results. Taking these insights together, we propose a simple but widely applicable parser architecture and configuration, achieving new state-of-the-art results (in terms of LAS) for 10 out of 12 diverse languages.
翻訳日:2022-10-03 23:02:11 公開日:2021-07-29
# MAIR: 説明可能な人工知能分野における研究論文・戦略・規制間の関係調査のための枠組み

MAIR: Framework for mining relationships between research articles, strategies, and regulations in the field of explainable artificial intelligence ( http://arxiv.org/abs/2108.06216v1 )

ライセンス: Link先を確認
Stanis{\l}aw Gizinski, Micha{\l} Kuzba, Bartosz Pielinski, Julian Sienkiewicz, Stanis{\l}aw {\L}aniewski, Przemys{\l}aw Biecek(参考訳) 高度な意思決定のためのAIアプリケーションの増加は、説明可能かつ解釈可能な機械学習(XI-ML)への関心を高めている。 この傾向は、信頼できるAIを開発するための規制や戦略の数の増加と、このトピックに特化した科学論文の数の増加の両方で見ることができる。 AIの持続可能な開発を保証するためには、研究論文に対する規制の影響のダイナミクスと、AI関連の政策に対する科学的言説の影響を理解することが不可欠である。 本稿では,AI関連政策文書とeXplainable Artificial Intelligence(XAI)研究論文の共同分析のための新しいフレームワークを提案する。 収集された文書にはメタデータと相互接続が組み込まれており、様々なNLP手法とInstitutional Grammarにインスパイアされた方法論が組み合わされている。 収集した文書から抽出した情報に基づいて, 組織化の異なる段階における文書間の相互作用, 類似性, 差異を理解するための一連の分析結果を紹介する。 私たちの知る限りでは、XI-MLメソッドとレギュレーションの間のダイナミクスを理解するために、自動言語分析ツールを使用する最初の作業である。 このようなシステムは、xai研究者とaiポリシメーカの協力向上に寄与すると考えています。

The growing number of AI applications, also for high-stake decisions, increases the interest in Explainable and Interpretable Machine Learning (XI-ML). This trend can be seen both in the increasing number of regulations and strategies for developing trustworthy AI and the growing number of scientific papers dedicated to this topic. To ensure the sustainable development of AI, it is essential to understand the dynamics of the impact of regulation on research papers as well as the impact of scientific discourse on AI-related policies. This paper introduces a novel framework for joint analysis of AI-related policy documents and eXplainable Artificial Intelligence (XAI) research papers. The collected documents are enriched with metadata and interconnections, using various NLP methods combined with a methodology inspired by Institutional Grammar. Based on the information extracted from collected documents, we showcase a series of analyses that help understand interactions, similarities, and differences between documents at different stages of institutionalization. To the best of our knowledge, this is the first work to use automatic language analysis tools to understand the dynamics between XI-ML methods and regulations. We believe that such a system contributes to better cooperation between XAI researchers and AI policymakers.
翻訳日:2021-08-22 14:36:05 公開日:2021-07-29
# 音声認識のためのGPT, GPT-2, BERT言語モデルの適用

Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition ( http://arxiv.org/abs/2108.07789v1 )

ライセンス: Link先を確認
Xianrui Zheng, Chao Zhang and Philip C. Woodland(参考訳) 大量のテキストで事前訓練された言語モデル(LM)、特に変換器(BERT)の双方向エンコーダ表現、生成前訓練(GPT)、GPT-2は、多くの自然言語処理タスクにおいて重要な技術となっている。 本稿では, 微調整GPT, GPT-2とそれらの組み合わせによる自動音声認識(ASR)の結果について述べる。 一方向 LM GPT や GPT-2 とは異なり、BERT は双方向であり、出力確率の直接積はもはや有効な言語事前確率ではない。 数学的に正確に双方向のLM出力に基づいて正しい言語事前確率を計算するための変換法を提案する。 AMI と Switchboard の ASR タスクを用いた実験の結果、微調整 GPT と GPT-2 の組み合わせは、ドメイン内テキストのスクラッチから最大12%の相対的単語誤り率削減 (WERR) で訓練された異なるアーキテクチャと3つのニューラル LM の組合せよりも優れていた。 さらに、言語先行確率の変換提案により、BERTは、さらに3%の相対WERRを受信でき、BERT、GPT、GPT-2の組み合わせにより、さらなる改善がもたらされる。

Language models (LMs) pre-trained on massive amounts of text, in particular bidirectional encoder representations from Transformers (BERT), generative pre-training (GPT), and GPT-2, have become a key technology for many natural language processing tasks. In this paper, we present results using fine-tuned GPT, GPT-2, and their combination for automatic speech recognition (ASR). Unlike unidirectional LM GPT and GPT-2, BERT is bidirectional whose direct product of the output probabilities is no longer a valid language prior probability. A conversion method is proposed to compute the correct language prior probability based on bidirectional LM outputs in a mathematically exact way. Experimental results on the widely used AMI and Switchboard ASR tasks showed that the combination of the fine-tuned GPT and GPT-2 outperformed the combination of three neural LMs with different architectures trained from scratch on the in-domain text by up to a 12% relative word error rate reduction (WERR). Furthermore, the proposed conversion for language prior probabilities enables BERT to receive an extra 3% relative WERR, and the combination of BERT, GPT and GPT-2 results in further improvements.
翻訳日:2021-08-22 14:35:09 公開日:2021-07-29
# (参考訳) 属性誘導スパーステンソルに基づく人物再同定モデル

Attribute Guided Sparse Tensor-Based Model for Person Re-Identification ( http://arxiv.org/abs/2108.04352v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Ali Dabouei, Sobhan Soleymani, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 人の視覚的知覚は、カメラパラメータやポーズ、視点の変化など、多くの要因の影響を受けやすい。 これらのバリエーションは、人の再識別(ReID)を困難な問題にします。 それでも、人間の属性は通常、そのようなバリエーションに対する堅牢な視覚特性として機能する。 本稿では,人物のReIDの属性から特徴を活用できる新しい手法を提案する。 このモデルでは、非線形なヒューズidと属性特徴にテンソルを用い、損失関数のテンソルのパラメータを強制してreidの識別的融合特徴を生成する。 テンソルベースの手法は通常、多数のパラメータを含むため、これらのパラメータのトレーニングは非常に遅くなり、オーバーフィッティングの機会も増加する。 この問題に対処するために,構造スパーシティ学習(ssl)とテンソル分解(td)に基づく2つの新しい手法を提案する。 いくつかの標準歩行者データセットの実験を行った結果, テンソルベースアプローチは人のReIDベースラインを大幅に改善し, 工法よりも優れていた。

Visual perception of a person is easily influenced by many factors such as camera parameters, pose and viewpoint variations. These variations make person Re-Identification (ReID) a challenging problem. Nevertheless, human attributes usually stand as robust visual properties to such variations. In this paper, we propose a new method to leverage features from human attributes for person ReID. Our model uses a tensor to non-linearly fuse identity and attribute features, and then forces the parameters of the tensor in the loss function to generate discriminative fused features for ReID. Since tensor-based methods usually contain a large number of parameters, training all of these parameters becomes very slow, and the chance of overfitting increases as well. To address this issue, we propose two new techniques based on Structural Sparsity Learning (SSL) and Tensor Decomposition (TD) methods to create an accurate and stable learning problem. We conducted experiments on several standard pedestrian datasets, and experimental results indicate that our tensor-based approach significantly improves person ReID baselines and also outperforms state of the art methods.
翻訳日:2021-08-15 14:35:08 公開日:2021-07-29
# (参考訳) 顔属性予測を改善するマルチタスク学習におけるタスク構造規則化

Tasks Structure Regularization in Multi-Task Learning for Improving Facial Attribute Prediction ( http://arxiv.org/abs/2108.04353v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Ali Dabouei, Sobhan Soleymani, Jeremy Dawson, and Nasser M. Nasrabadi(参考訳) 顔認識特性予測における畳み込みニューラルネットワーク(CNN)の大きな成功は、大量のラベル付き画像に依存する。 顔画像データセットは通常、一般的に使われる属性(性別など)によって注釈付けされるが、他の属性(大きな鼻など)のラベルは限定されており、予測は困難である。 この問題に対処するために,顔属性予測器が他の関連属性の知識を利用してより優れた一般化性能を得る,新しいマルチタスク学習(mtl)パラダイムを用いる。 ここでは、MLTパラダイムを2つの問題設定で活用する。 まず、タスクの構造(例えば顔属性のグループ化パターン)は事前の知識として知られ、同じグループ内のタスク(すなわち予測子)のパラメータは、限られた数の基底タスクの線形結合によって表現されると仮定する。 ここでは、この線形結合の係数に対する空間的制約も、各タスクがより構造化されより単純な方法で表現されると考えられる。 第二に、タスクの構造が未知であると仮定し、ラプラシア正規化フレームワークを用いてタスクの構造とパラメータを共同で学習する。 mtl法を顔属性予測法と比較し,その効果について検討した。

The great success of Convolutional Neural Networks (CNN) for facial attribute prediction relies on a large amount of labeled images. Facial image datasets are usually annotated by some commonly used attributes (e.g., gender), while labels for the other attributes (e.g., big nose) are limited which causes their prediction challenging. To address this problem, we use a new Multi-Task Learning (MTL) paradigm in which a facial attribute predictor uses the knowledge of other related attributes to obtain a better generalization performance. Here, we leverage MLT paradigm in two problem settings. First, it is assumed that the structure of the tasks (e.g., grouping pattern of facial attributes) is known as a prior knowledge, and parameters of the tasks (i.e., predictors) within the same group are represented by a linear combination of a limited number of underlying basis tasks. Here, a sparsity constraint on the coefficients of this linear combination is also considered such that each task is represented in a more structured and simpler manner. Second, it is assumed that the structure of the tasks is unknown, and then structure and parameters of the tasks are learned jointly by using a Laplacian regularization framework. Our MTL methods are compared with competing methods for facial attribute prediction to show its effectiveness.
翻訳日:2021-08-15 14:02:34 公開日:2021-07-29
# (参考訳) 新型コロナウイルスワクチンとソーシャルメディア:Twitter上での感情と議論

COVID-19 Vaccine and Social Media: Exploring Emotions and Discussions on Twitter ( http://arxiv.org/abs/2108.04816v1 )

ライセンス: CC BY 4.0
Amir Karami, Michael Zhu, Bailey Goldschmidt, Hannah R. Boyajieff, Mahdi M. Najafabadi(参考訳) 新型コロナウイルスワクチンに対する公衆の反応は、新型コロナウイルスのパンデミックを抑える重要な成功要因だ。 公衆の反応を理解するには、世論を探求する必要がある。 従来の調査は高価で時間がかかり、限られた健康トピックに対処し、小規模のデータを取得する。 Twitterは新型コロナウイルスワクチンに関する世論を理解する素晴らしい機会を提供することができる。 本研究は,covid-19ワクチンのより広い視点を提供するために,大量のツイートを収集し分析するために,計算処理と人間のコーディング手法を用いたアプローチを提案する。 本研究では,ツイートの感情とその時間的傾向を明らかにし,主要な話題を発見し,否定的および非否定的ツイートの話題を比較し,否定的および非否定的ツイートのトップトピックを開示する。 以上の結果から,2020年11月から2021年2月にかけて,新型コロナウイルスワクチンに対する否定的な評価は低下傾向にあった。 われわれはTwitterユーザーが、予防接種サイトから2020年11月から2021年2月の米国大統領選挙まで幅広い話題を議論しているのを発見した。 その結果、ほとんどのトピックの重みに関する負のツイートと非負のツイートの間に有意な差が認められた。 結果は、ネガティブツイートと非ネガティブツイートは、トピックの優先順位と焦点が異なることを示している。

Public response to COVID-19 vaccines is the key success factor to control the COVID-19 pandemic. To understand the public response, there is a need to explore public opinion. Traditional surveys are expensive and time-consuming, address limited health topics, and obtain small-scale data. Twitter can provide a great opportunity to understand public opinion regarding COVID-19 vaccines. The current study proposes an approach using computational and human coding methods to collect and analyze a large number of tweets to provide a wider perspective on the COVID-19 vaccine. This study identifies the sentiment of tweets and their temporal trend, discovers major topics, compares topics of negative and non-negative tweets, and discloses top topics of negative and non-negative tweets. Our findings show that the negative sentiment regarding the COVID-19 vaccine had a decreasing trend between November 2020 and February 2021. We found Twitter users have discussed a wide range of topics from vaccination sites to the 2020 U.S. election between November 2020 and February 2021. The findings show that there was a significant difference between negative and non-negative tweets regarding the weight of most topics. Our results also indicate that the negative and non-negative tweets had different topic priorities and focuses.
翻訳日:2021-08-15 13:22:55 公開日:2021-07-29
# (参考訳) クローズド・インシシデント表面の局所形態計測

Local Morphometry of Closed, Implicit Surfaces ( http://arxiv.org/abs/2108.04354v1 )

ライセンス: CC BY 4.0
Bryce A Besler, Tannis D. Kemp, Andrew S. Michalski, Nils D. Forkert, Steven K. Boyd(参考訳) 海馬、肝臓、骨などの解剖学的構造は、向き付け可能な閉じた表面として分析することができる。 これにより体積、面積、平均曲率、ガウス曲率、オイラー・ポアンカレ特性の計算が可能になり、また異なる位相構造間のこれらのモルフォメトリックスを比較することができる。 これらの構造は一般に、埋め込みのゼロレベル集合として曲線進化問題において暗黙的に表される。 実際、解剖学的構造のバイナリイメージは、符号付き距離変換を用いて埋め込む。 しかし、量子化は曲率の正確な計算を妨げ、モルフォメトリーにかなりの誤差をもたらす。 本稿では,ガウスのぼやけた2値像のゼロ交差として,局所形状の高精度な高速な埋め込み手法を提案する。 提案手法は,50個の臨床用ctデータから大腿骨および第四腰椎を基準に検証した。 その結果,符号付き距離変換は局所曲率の量子化誤差が大きいことがわかった。 回帰法とbland-altman解析によるモルフォメトリのグローバル検証により,平均平均曲率の決定係数は,符号付き距離変換で93.8%から提案法で100%に向上した。 表面積については、符号付き距離変換の-5.0%から提案手法の+0.6%に比例バイアスが改善される。 符号付き距離変換では使用不可能なEuler-Poincar\'e特性を98%の精度で改善する。 提案手法は,閉じた暗黙の面のモルフォメトリーを目的とし,局所的かつ大域的に曲率を評価できる。

Anatomical structures such as the hippocampus, liver, and bones can be analyzed as orientable, closed surfaces. This permits the computation of volume, surface area, mean curvature, Gaussian curvature, and the Euler-Poincar\'e characteristic as well as comparison of these morphometrics between structures of different topology. The structures are commonly represented implicitly in curve evolution problems as the zero level set of an embedding. Practically, binary images of anatomical structures are embedded using a signed distance transform. However, quantization prevents the accurate computation of curvatures, leading to considerable errors in morphometry. This paper presents a fast, simple embedding procedure for accurate local morphometry as the zero crossing of the Gaussian blurred binary image. The proposed method was validated based on the femur and fourth lumbar vertebrae of 50 clinical computed tomography datasets. The results show that the signed distance transform leads to large quantization errors in the computed local curvature. Global validation of morphometry using regression and Bland-Altman analysis revealed that the coefficient of determination for the average mean curvature is improved from 93.8% with the signed distance transform to 100% with the proposed method. For the surface area, the proportional bias is improved from -5.0% for the signed distance transform to +0.6% for the proposed method. The Euler-Poincar\'e characteristic is improved from unusable in the signed distance transform to 98% accuracy for the proposed method. The proposed method enables an improved local and global evaluation of curvature for purposes of morphometry on closed, implicit surfaces.
翻訳日:2021-08-15 13:08:02 公開日:2021-07-29
# (参考訳) ランダム幾何グラフの再構築

Improved Reconstruction of Random Geometric Graphs ( http://arxiv.org/abs/2107.14323v1 )

ライセンス: CC BY 4.0
Varsha Dani and Josep D\'iaz and Thomas P. Hayes and Cristopher Moore(参考訳) 地理空間や潜在空間、すなわちユークリッド空間や滑らかな部分多様体上の頂点の位置を推定するグラフの埋め込みは、ネットワーク分析、統計推論、グラフ視覚化において一般的なタスクである。 ランダムな幾何グラフの古典的モデルを考えると、$n$の点が一様に領域$n$の正方形に散らばっており、2つの点がそのユークリッド距離が$r$より小さい場合に限る。 再構成問題は、結果のグラフの隣接行列のみを与えられた頂点位置を対称性まで推測することからなる。 r=n^\alpha$ for $\alpha > 0$とすると、高い確率で頂点位置を最大誤差$O(n^\beta)$, $\beta=1/2-(4/3)\alpha$, $\alpha \ge 3/8$, $\beta=0$, そして誤差が$O(\sqrt{\log n})$に再構成するアルゴリズムを与える。 これは以前の結果よりも改善され、$r$未満のエラーで再構築できなかった。 本手法は, グラフ距離と近辺点数に基づく短距離推定のハイブリッドを用いてユークリッド距離を推定する。 我々は、この結果が球面にも当てはまること、そして(幾分異なる指数を持つ)任意の固定次元におけることの証明をスケッチする。

Embedding graphs in a geographical or latent space, i.e., inferring locations for vertices in Euclidean space or on a smooth submanifold, is a common task in network analysis, statistical inference, and graph visualization. We consider the classic model of random geometric graphs where $n$ points are scattered uniformly in a square of area $n$, and two points have an edge between them if and only if their Euclidean distance is less than $r$. The reconstruction problem then consists of inferring the vertex positions, up to symmetry, given only the adjacency matrix of the resulting graph. We give an algorithm that, if $r=n^\alpha$ for $\alpha > 0$, with high probability reconstructs the vertex positions with a maximum error of $O(n^\beta)$ where $\beta=1/2-(4/3)\alpha$, until $\alpha \ge 3/8$ where $\beta=0$ and the error becomes $O(\sqrt{\log n})$. This improves over earlier results, which were unable to reconstruct with error less than $r$. Our method estimates Euclidean distances using a hybrid of graph distances and short-range estimates based on the number of common neighbors. We sketch proofs that our results also apply on the surface of a sphere, and (with somewhat different exponents) in any fixed dimension.
翻訳日:2021-08-15 12:46:35 公開日:2021-07-29
# ドローン配送問題に対する厳密かつヒューリスティックなアプローチ

Exact and Heuristic Approaches to Drone Delivery Problems ( http://arxiv.org/abs/2108.01996v1 )

ライセンス: Link先を確認
J\'ulia C. Freitas, Puca Huachi V. Penna, T\'ulio A. M. Toffolo(参考訳) FSTSP(Flying Sidekick Traveling Salesman Problem)は、トラックとドローンによる配送システムである。 ドローンは1つのパッケージでトラックから打ち上げられ、顧客に届けられる。 それぞれのドローンはトラックに戻り、バッテリーを充電し、別の荷物を拾い、また新しい顧客場所に打ち上げなければならない。 本稿では,新しい混合整数型プログラミング(mip)の定式化と,この問題に対するヒューリスティックなアプローチを提案する。 提案するmip定式化は,前述したすべての例の定式化よりも線形緩和境界が向上し,文献から未解決例を最適に解くことができた。 タブサーチの概念を組み合わせた一般変数近傍探索メタヒューリスティックに基づくハイブリッドヒューリスティックを用いて,大規模インスタンスの高品質な解を求める。 アルゴリズムの効率は文献から1415のベンチマークインスタンスで評価され、最もよく知られたソリューションの80%以上が改善された。

The Flying Sidekick Traveling Salesman Problem (FSTSP) considers a delivery system composed by a truck and a drone. The drone launches from the truck with a single package to deliver to a customer. Each drone must return to the truck to recharge batteries, pick up another package, and launch again to a new customer location. This work proposes a novel Mixed Integer Programming (MIP) formulation and a heuristic approach to address the problem. The proposedMIP formulation yields better linear relaxation bounds than previously proposed formulations for all instances, and was capable of optimally solving several unsolved instances from the literature. A hybrid heuristic based on the General Variable Neighborhood Search metaheuristic combining Tabu Search concepts is employed to obtain high-quality solutions for large-size instances. The efficiency of the algorithm was evaluated on 1415 benchmark instances from the literature, and over 80% of the best known solutions were improved.
翻訳日:2021-08-08 11:07:06 公開日:2021-07-29
# (参考訳) 機械学習による風速と風力の時空間推定:予測、不確実性、技術的ポテンシャル

Spatio-temporal estimation of wind speed and wind power using machine learning: predictions, uncertainty and technical potential ( http://arxiv.org/abs/2108.00859v1 )

ライセンス: CC BY 4.0
Federico Amato, Fabian Guignard, Alina Walch, Nahid Mohajeri, Jean-Louis Scartezzini, Mikhail Kanevski(参考訳) 過去数十年の風力発電能力の成長は、世界の多くの地域で風力エネルギーがエネルギー移動に寄与していることを示している。 モデルに非常に可変で複雑であるため、風力の時空間変動と関連する不確かさの定量化はエネルギープランナーに非常に関係がある。 機械学習は風速と電力の予測を行う一般的なツールとなっている。 しかし、既存のアプローチにはいくつかの制限がある。 i)風速データにおける時空間相関の不十分な考察,(ii)風速予測の不確かさと風力推定への伝播を定量化するための既存手法の欠如,(iii)時間単位の周波数に注目することを含む。 これらの制約を克服するために,不規則に分布する風速測定から正則格子上の時空間場を再構成する枠組みを提案する。 データを時間的に参照される基底関数とその空間分布係数に分解した後、極端な学習機械を用いて空間的にモデル化する。 モデルと予測の不確実性、および風速から風力への変換後の伝播の予測は、データの分布パターンの仮定なしに提供される。 この手法は、スイスで100メートルのハブ高さのタービンに対して250\times 250$m$^2$のグリッド上での1時間当たりの風力ポテンシャルの研究に応用され、同国で最初のデータセットを生成する。 風力発電の可能性は、スイスにおける風力発電の技術的ポテンシャルを見積もるために、風力タービン設備の利用可能な領域と組み合わせられる。 ここで提示される風力推定は、将来の風力発電システムの設計を支援するためのプランナーにとって重要な入力である。

The growth of wind generation capacities in the past decades has shown that wind energy can contribute to the energy transition in many parts of the world. Being highly variable and complex to model, the quantification of the spatio-temporal variation of wind power and the related uncertainty is highly relevant for energy planners. Machine Learning has become a popular tool to perform wind-speed and power predictions. However, the existing approaches have several limitations. These include (i) insufficient consideration of spatio-temporal correlations in wind-speed data, (ii) a lack of existing methodologies to quantify the uncertainty of wind speed prediction and its propagation to the wind-power estimation, and (iii) a focus on less than hourly frequencies. To overcome these limitations, we introduce a framework to reconstruct a spatio-temporal field on a regular grid from irregularly distributed wind-speed measurements. After decomposing data into temporally referenced basis functions and their corresponding spatially distributed coefficients, the latter are spatially modelled using Extreme Learning Machines. Estimates of both model and prediction uncertainties, and of their propagation after the transformation of wind speed into wind power, are then provided without any assumptions on distribution patterns of the data. The methodology is applied to the study of hourly wind power potential on a grid of $250\times 250$ m$^2$ for turbines of 100 meters hub height in Switzerland, generating the first dataset of its type for the country. The potential wind power generation is combined with the available area for wind turbine installations to yield an estimate of the technical potential for wind power in Switzerland. The wind power estimate presented here represents an important input for planners to support the design of future energy systems with increased wind power generation.
翻訳日:2021-08-05 07:46:59 公開日:2021-07-29
# (参考訳) マルチモーダルデータに基づく迅速な災害対応のための機械学習手法 住宅・避難所ニーズの事例

A Machine learning approach for rapid disaster response based on multi-modal data. The case of housing & shelter needs ( http://arxiv.org/abs/2108.00887v1 )

ライセンス: CC BY 4.0
Karla Saldana Ochoa Tina Comes(参考訳) 気候変動とともに、洪水や熱帯性サイクロンなどの極端な出来事が、生活を脅かし、貧しく脆弱な人々の幸福を脅かしている。 災害に遭った人々の最も直接的なニーズの1つは避難所を見つけることである。 災害に関するデータの拡散は、すでに命を救い、建物の損傷を特定し、避難所のニーズを評価し、緊急避難所や居留地の設置に適した場所を見つけるためには、広範囲のデータを迅速に組み合わせる必要がある。 このギャップに対処し、総合的な評価を行うために、マルチモーダルデータの融合と高速解析を目的とした機械学習ワークフローを提案する。 このワークフローは、スケーラビリティと幅広いアクセシビリティを確保するために、オープンおよびオンラインデータを中心に構築されている。 世界中の200以上の災害に対する19の特徴データベースに基づいて, 意思決定レベルでの融合手法を用いた。 この技術により、収集されたマルチモーダルデータは、個々の変数の予測を容易にする共通の意味空間を共有することができる。 各融合数値ベクトルは自己組織マップ(som)と呼ばれる教師なしクラスタリングアルゴリズムに供給された。 訓練されたSOMは、将来のケースの予測器として機能し、死者総数、被災者総数、被害総数などの予測結果を可能にし、シェルターおよび住宅セクターにおける評価に関する具体的な勧告を提供する。 このような予測を実現するために,災害前の衛星画像と,その地理的・人口的条件をトレーニングモデルに示すことにより,予測精度62%を達成した。

Along with climate change, more frequent extreme events, such as flooding and tropical cyclones, threaten the livelihoods and wellbeing of poor and vulnerable populations. One of the most immediate needs of people affected by a disaster is finding shelter. While the proliferation of data on disasters is already helping to save lives, identifying damages in buildings, assessing shelter needs, and finding appropriate places to establish emergency shelters or settlements require a wide range of data to be combined rapidly. To address this gap and make a headway in comprehensive assessments, this paper proposes a machine learning workflow that aims to fuse and rapidly analyse multimodal data. This workflow is built around open and online data to ensure scalability and broad accessibility. Based on a database of 19 characteristics for more than 200 disasters worldwide, a fusion approach at the decision level was used. This technique allows the collected multimodal data to share a common semantic space that facilitates the prediction of individual variables. Each fused numerical vector was fed into an unsupervised clustering algorithm called Self-Organizing-Maps (SOM). The trained SOM serves as a predictor for future cases, allowing predicting consequences such as total deaths, total people affected, and total damage, and provides specific recommendations for assessments in the shelter and housing sector. To achieve such prediction, a satellite image from before the disaster and the geographic and demographic conditions are shown to the trained model, which achieved a prediction accuracy of 62 %
翻訳日:2021-08-05 07:45:32 公開日:2021-07-29
# (参考訳) 材料科学におけるベイズ最適化:調査

Bayesian Optimization in Materials Science: A Survey ( http://arxiv.org/abs/2108.00002v1 )

ライセンス: CC BY-SA 4.0
Lars Kotthoff and Hud Wahab and Patrick Johnson(参考訳) ベイジアン最適化は、ブラックボックスプロセスの最適化にAIの多くの領域で使われており、多くのアプリケーションで最先端の技術の改善が達成されている。 大規模で複雑な設計空間をインテリジェントに探索し、最適化するコストのかかるプロセスの評価回数を最小化する。 材料科学は、高価な実験やシミュレーションを必要とする評価を伴って、その合成や処理方法を定義する大きな設計空間を与えられた材料特性を最適化する問題を考察している。 ベイズ最適化はそのような問題に取り組むための一般的なアプローチでもあるが、同じ概念を調査している2つのコミュニティの重なりはほとんどない。 本稿では, 材料科学におけるベイズ最適化のアプローチについて, 交配率を高め, 作業重複を回避するための調査を行う。 共同研究に共通する課題と機会を強調する。

Bayesian optimization is used in many areas of AI for the optimization of black-box processes and has achieved impressive improvements of the state of the art for a lot of applications. It intelligently explores large and complex design spaces while minimizing the number of evaluations of the expensive underlying process to be optimized. Materials science considers the problem of optimizing materials' properties given a large design space that defines how to synthesize or process them, with evaluations requiring expensive experiments or simulations -- a very similar setting. While Bayesian optimization is also a popular approach to tackle such problems, there is almost no overlap between the two communities that are investigating the same concepts. We present a survey of Bayesian optimization approaches in materials science to increase cross-fertilization and avoid duplication of work. We highlight common challenges and opportunities for joint research efforts.
翻訳日:2021-08-05 07:34:30 公開日:2021-07-29
# (参考訳) AIOTを用いたスマートシティコマンドコントロールセンターのセキュアソリューション

Secure solutions for Smart City Command Control Centre using AIOT ( http://arxiv.org/abs/2108.00003v1 )

ライセンス: CC BY 4.0
Balachandar.S and Chinnaiyan.R(参考訳) 人工知能を用いたサイバー攻撃からスマートシティIOTネットワークの堅牢なセキュアなソリューションを構築する。 smart city iot networkでは、さまざまなログコレクタやクラウドやエッジからの直接ソースから収集されたデータは、aiの潜在能力を活用すべきである。 スマートシティのコマンドとコントロールセンターチームは、これらのモデルを活用して、異なる都市IOTネットワークにデプロイし、侵入予測、ネットワークパケットのサージ、潜在的な外部ネットワークからのボットネット攻撃を支援する。 コマンド・アンド・コントロール・センターの利用者からみた重要なユースケース

To build a robust secure solution for smart city IOT network from any Cyber attacks using Artificial Intelligence. In Smart City IOT network, data collected from different log collectors or direct sources from cloud or edge should harness the potential of AI. The smart city command and control center team will leverage these models and deploy it in different city IOT network to help on intrusion prediction, network packet surge, potential botnet attacks from external network. Some of the vital use cases considered based on the users of command-and-control center
翻訳日:2021-08-05 07:19:19 公開日:2021-07-29
# u-gat:covid-19アウトカム予測のためのマルチモーダルグラフアテンションネットワーク

U-GAT: Multimodal Graph Attention Network for COVID-19 Outcome Prediction ( http://arxiv.org/abs/2108.00860v1 )

ライセンス: Link先を確認
Matthias Keicher, Hendrik Burwinkel, David Bani-Harouni, Magdalini Paschali, Tobias Czempiel, Egon Burian, Marcus R. Makowski, Rickmer Braren, Nassir Navab, Thomas Wendler(参考訳) 新型コロナウイルス(COVID-19)の最初の波で、病院は多数の入院患者に圧倒された。 最も可能性の高い個々の疾患の正確な予測は、限られた資源の計画を改善し、患者の最適な治療を見つけることができる。 しかし、新型コロナウイルス(COVID-19)などの新規の疾患を扱う場合、患者固有の要因(例)の影響がある。 疾患の即時進行における体重または既知の共死)は、大きく不明である。 新型コロナウイルスの場合、肺炎患者の集中治療室(ICU)の入院の必要性は、バイタルサイン(例)のような急性の指標によってのみ決定されることが多い。 呼吸速度、血中酸素濃度)は、すべての利用可能なデータを統合した統計分析と意思決定支援システムは、早期の予後を可能にする。 そこで本研究では,画像情報と非画像情報を組み合わせた総合グラフに基づくアプローチを提案する。 具体的には、クラスタリング患者のための人口グラフを構築するためのマルチモーダル類似度指標と、このグラフを処理し、COVID-19患者の結果を予測する画像ベースのエンドツーエンドグラフ注意ネットワークを導入する。 さらに、ネットワークは胸部CT画像を補助タスクとしてセグメント化し、利用可能なメタデータと特徴融合するための画像特徴と放射能を抽出する。 ドイツ、ミュンヘンのklinikum rechts der isarで収集されたデータセットの結果、我々のアプローチは単一モダリティと非グラフベースラインよりも優れていることがわかった。 さらに,このクラスタリングとグラフの注意は,人口グラフ内の患者関係の理解を深め,ネットワークの意思決定過程に関する洞察を与える。

During the first wave of COVID-19, hospitals were overwhelmed with the high number of admitted patients. An accurate prediction of the most likely individual disease progression can improve the planning of limited resources and finding the optimal treatment for patients. However, when dealing with a newly emerging disease such as COVID-19, the impact of patient- and disease-specific factors (e.g. body weight or known co-morbidities) on the immediate course of disease is by and large unknown. In the case of COVID-19, the need for intensive care unit (ICU) admission of pneumonia patients is often determined only by acute indicators such as vital signs (e.g. breathing rate, blood oxygen levels), whereas statistical analysis and decision support systems that integrate all of the available data could enable an earlier prognosis. To this end, we propose a holistic graph-based approach combining both imaging and non-imaging information. Specifically, we introduce a multimodal similarity metric to build a population graph for clustering patients and an image-based end-to-end Graph Attention Network to process this graph and predict the COVID-19 patient outcomes: admission to ICU, need for ventilation and mortality. Additionally, the network segments chest CT images as an auxiliary task and extracts image features and radiomics for feature fusion with the available metadata. Results on a dataset collected in Klinikum rechts der Isar in Munich, Germany show that our approach outperforms single modality and non-graph baselines. Moreover, our clustering and graph attention allow for increased understanding of the patient relationships within the population graph and provide insight into the network's decision-making process.
翻訳日:2021-08-03 15:26:35 公開日:2021-07-29
# マルチモーダルデータを用いたエミッショントモグラフィのための非パラメトリック後方学習

Nonparametric posterior learning for emission tomography with multimodal data ( http://arxiv.org/abs/2108.00866v1 )

ライセンス: Link先を確認
Fedor Goncharov, \'Eric Barat, Thomas Dautremer(参考訳) 本研究はPETやSPECTなどの発光トモグラフィーにおける不確実性定量化問題の研究を継続する。 特に、追加のマルチモーダルデータ(例えば解剖学的MRI画像)が利用可能である場合のシナリオを考察する。 この問題を解決するために,最近提案されている非パラメトリック後方学習手法をpoisson型エミッショントモグラフィの文脈に適用する。 このアプローチを使うことで、簡単に並列化可能でスケーラブルで実装が容易なサンプリングアルゴリズムを導出します。 また,少量のノイズ限界(すなわち取得時間が無限になる傾向がある場合)における生成試料の分布の条件的一貫性とタイトネスを証明し,mri画像の使用方法に関する新たな幾何学的,必要条件を導出する。 この条件は、不特定の一般化ポアソンモデルの文脈で自然に生じる。 我々はまた,PET や SPECT のEM-type アルゴリズムの文脈で非常によく用いられるデータ拡張スキームに基づくベイズMCMCサンプリングと対比した。 このようなデータ拡張がマルコフ連鎖の混合時間を大幅に増加させることを理論的および数値的に示す。 これを踏まえると、我々のアルゴリズムは設計の複雑さ、拡張性、数値負荷、不確実性定量化の必要性との間に合理的なトレードオフを与えているように見える。

In this work we continue studies of the uncertainty quantification problem in emission tomographies such as PET or SPECT. In particular, we consider a scenario when additional multimodal data (e.g., anatomical MRI images) are available. To solve the aforementioned problem we adapt the recently proposed nonparametric posterior learning technique to the context of Poisson-type data in emission tomography. Using this approach we derive sampling algorithms which are trivially parallelizable, scalable and very easy to implement. In addition, we prove conditional consistency and tightness for the distribution of produced samples in the small noise limit (i.e., when the acquisition time tends to infinity) and derive new geometrical and necessary condition on how MRI images must be used. This condition arises naturally in the context of misspecified generalized Poisson models. We also contrast our approach with bayesian MCMC sampling based a data augmentation scheme which is very popular in the context of EM-type algorithms for PET or SPECT. We show theoretically and also numerically that such data augmentation significantly increases mixing times for the Markov chain. In view of this, our algorithms seem to give a reasonable trade-off between design complexity, scalability, numerical load and asessement for the uncertainty quantification.
翻訳日:2021-08-03 15:03:57 公開日:2021-07-29
# ダークネットへのズームイン:インターネットの背景放射特性とその構造変化

Zooming Into the Darknet: Characterizing Internet Background Radiation and its Structural Changes ( http://arxiv.org/abs/2108.00079v1 )

ライセンス: Link先を確認
Michalis Kallitsis, Vasant Honavar, Rupesh Prajapati, Dinghao Wu, and John Yen(参考訳) ネットワーク望遠鏡(Darknet)は、マルウェアの伝播、サービス攻撃の否定、ネットワーク偵察のためのスキャンなどに関連する、インターネット全体の悪意ある活動にユニークな窓を提供する。 得られたデータの分析は、サイバー脅威の防止や緩和に使用できるセキュリティアナリストに実用的な洞察を与えることができる。 しかし、大きなダークネットは、毎日何百万もの恐ろしい出来事を観測し、捕獲された情報を有意義な洞察に変換する。 本研究では,ダークネットの挙動と時間的進化を特徴付ける新しい枠組みを提案する。 The proposed framework: (i) Extracts a high dimensional representation of Darknet events composed of features distilled from Darknet data and other external sources; (ii) Learns, in an unsupervised fashion, an information-preserving low-dimensional representation of these events (using deep representation learning) that is amenable to clustering; (iv) Performs clustering of the scanner data in the resulting representation space and provides interpretable insights using optimal decision trees; and (v) Utilizes the clustering outcomes as "signatures" that can be used to detect structural changes in the Darknet activities. 提案システムを大規模ネットワーク望遠鏡で評価し,実世界,ハイインパクトなサイバーセキュリティインシデントを検出する能力を示す。

Network telescopes or "Darknets" provide a unique window into Internet-wide malicious activities associated with malware propagation, denial of service attacks, scanning performed for network reconnaissance, and others. Analyses of the resulting data can provide actionable insights to security analysts that can be used to prevent or mitigate cyber-threats. Large Darknets, however, observe millions of nefarious events on a daily basis which makes the transformation of the captured information into meaningful insights challenging. We present a novel framework for characterizing Darknet behavior and its temporal evolution aiming to address this challenge. The proposed framework: (i) Extracts a high dimensional representation of Darknet events composed of features distilled from Darknet data and other external sources; (ii) Learns, in an unsupervised fashion, an information-preserving low-dimensional representation of these events (using deep representation learning) that is amenable to clustering; (iv) Performs clustering of the scanner data in the resulting representation space and provides interpretable insights using optimal decision trees; and (v) Utilizes the clustering outcomes as "signatures" that can be used to detect structural changes in the Darknet activities. We evaluate the proposed system on a large operational Network Telescope and demonstrate its ability to detect real-world, high-impact cybersecurity incidents.
翻訳日:2021-08-03 15:02:47 公開日:2021-07-29
# 非線形回帰のための高密度結合ニューラルネットワーク

Densely connected neural networks for nonlinear regression ( http://arxiv.org/abs/2108.00864v1 )

ライセンス: Link先を確認
Chao Jiang, Canchen Jiang, Dongwei Chen, Fei Hu(参考訳) 複雑な連結畳み込みネットワーク(DenseNet)は画像処理において良好に動作する。 しかし、回帰タスクでは、畳み込みDenseNetは独立した入力機能から重要な情報を失う可能性がある。 そこで本研究では, 畳み込みとプーリング層を完全連結層に置き換え, 元の連結近道を維持して機能を再利用する, 新たな密集型回帰モデルを提案する。 提案モデルの深さと入力寸法の影響を調べるために,広範囲な数値シミュレーションにより注意深い検証を行う。 結果は最適な深さ(19)を与え、限られた入力次元(200以下)を推奨する。 さらに,支援ベクトル回帰,決定木回帰,残差回帰を含むベースラインモデルと比較して,最適深さのモデルが最適である。 最終的に、密度ネット回帰は相対湿度の予測に応用され、結果は観測と高い相関(0.91)を示し、このモデルが環境データ解析を前進させる可能性を示唆する。

Densely connected convolutional networks (DenseNet) behave well in image processing. However, for regression tasks, convolutional DenseNet may lose essential information from independent input features. To tackle this issue, we propose a novel DenseNet regression model where convolution and pooling layers are replaced by fully connected layers and the original concatenation shortcuts are maintained to reuse the feature. To investigate the effects of depth and input dimension of proposed model, careful validations are performed by extensive numerical simulation. The results give an optimal depth (19) and recommend a limited input dimension (under 200). Furthermore, compared with the baseline models including support vector regression, decision tree regression, and residual regression, our proposed model with the optimal depth performs best. Ultimately, DenseNet regression is applied to predict relative humidity, and the outcome shows a high correlation (0.91) with observations, which indicates that our model could advance environmental data analysis.
翻訳日:2021-08-03 14:53:30 公開日:2021-07-29
# (参考訳) 深層ニューラルネットワークとドメイン知識を用いた強化学習の導入

Incorporation of Deep Neural Network & Reinforcement Learning with Domain Knowledge ( http://arxiv.org/abs/2107.14613v1 )

ライセンス: CC0 1.0
Aryan Karn, Ashutosh Acharya(参考訳) 本稿では,ニューラルネットワークを用いたモデル構築において,ドメイン情報を組み込んだ手法について述べる。 空間データの統合は、知識理解モデルの開発や、ヒューマン・マシン・インタフェースと強化学習を活用することで情報理解を支援する他の分野において、特に重要である。 このような多くの機会において、機械ベースのモデル開発は、適切な正確な構造で符号化された世界の人間の情報から本質的に利益を得るかもしれない。 本稿では, 意味的, 数学的制約などの情報をエンコードする方法の広範性について検討し, それらすべての手法の下でいくつかのサブカテゴリに到達した手法と結果について述べる。

We present a study of the manners by which Domain information has been incorporated when building models with Neural Networks. Integrating space data is uniquely important to the development of Knowledge understanding model, as well as other fields that aid in understanding information by utilizing the human-machine interface and Reinforcement Learning. On numerous such occasions, machine-based model development may profit essentially from the human information on the world encoded in an adequately exact structure. This paper inspects expansive ways to affect encode such information as sensible and mathematical limitations and portrays methods and results that came to a couple of subcategories under all of those methodologies.
翻訳日:2021-08-02 21:39:50 公開日:2021-07-29
# (参考訳) 機械学習に基づく診断における不確かさの定量化

Quantifying Uncertainty for Machine Learning Based Diagnostic ( http://arxiv.org/abs/2107.14261v1 )

ライセンス: CC BY 4.0
Owen Convery, Lewis Smith, Yarin Gal, Adi Hanuka(参考訳) 仮想診断(VD)は、診断出力を予測するために使用できるディープラーニングツールである。 VDは特に、出力の測定が侵入的、制限され、コストがかかるシステムや、出力を傷つけるリスクを負うシステムで有用である。 予測を考えると、その予測がどの程度信頼できるかを伝える必要がある。 これは予測の「不確かさ定量化」として知られている。 本稿では,SLACにおけるLinac Coherent Light Sourceの実験データに対する予測の不確実性の生成と解析を行うために,アンサンブル法と量子回帰ニューラルネットワークを用いる。 我々は、電子ビームの現在のプロファイルまたは長手位相空間像を正確かつ確実に予測することを目指している。 不確実性の下で情報的決定を行う能力は、ディープラーニングツールを粒子加速器として安全クリティカルなシステムに確実に展開するために重要である。

Virtual Diagnostic (VD) is a deep learning tool that can be used to predict a diagnostic output. VDs are especially useful in systems where measuring the output is invasive, limited, costly or runs the risk of damaging the output. Given a prediction, it is necessary to relay how reliable that prediction is. This is known as 'uncertainty quantification' of a prediction. In this paper, we use ensemble methods and quantile regression neural networks to explore different ways of creating and analyzing prediction's uncertainty on experimental data from the Linac Coherent Light Source at SLAC. We aim to accurately and confidently predict the current profile or longitudinal phase space images of the electron beam. The ability to make informed decisions under uncertainty is crucial for reliable deployment of deep learning tools on safety-critical systems as particle accelerators.
翻訳日:2021-08-02 21:21:31 公開日:2021-07-29
# (参考訳) ビデオシャドウ検出のための時間的特徴ワープ

Temporal Feature Warping for Video Shadow Detection ( http://arxiv.org/abs/2107.14287v1 )

ライセンス: CC BY 4.0
Shilin Hu, Hieu Le, Dimitris Samaras(参考訳) 近年,シングルイメージシャドウ検出は急速に改善されているが,データ不足や時間的一貫性のモデル化が難しいため,ビデオシャドウ検出は依然として困難な課題である。 現在のビデオシャドウ検出法は、時間的コヒーレントであるが、移動するシャドウや小さなシャドウ領域を検出できない情報を利用するコアテンションによってこの目標を達成する。 本稿では,情報を時間的によりよく集約する,シンプルだが強力な手法を提案する。 光フローベースのワーピングモジュールを使用して、フレーム間の特徴の調整と結合を行います。 このワープモジュールを複数のディープネットワーク層にまたがって適用し、ローカル情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。 ViShaデータセットでフレームワークをトレーニングし、テストします。 実験の結果,本モデルは最先端ビデオシャドー検出法を28%上回り,berを16.7から12.0に削減した。

While single image shadow detection has been improving rapidly in recent years, video shadow detection remains a challenging task due to data scarcity and the difficulty in modelling temporal consistency. The current video shadow detection method achieves this goal via co-attention, which mostly exploits information that is temporally coherent but is not robust in detecting moving shadows and small shadow regions. In this paper, we propose a simple but powerful method to better aggregate information temporally. We use an optical flow based warping module to align and then combine features between frames. We apply this warping module across multiple deep-network layers to retrieve information from neighboring frames including both local details and high-level semantic information. We train and test our framework on the ViSha dataset. Experimental results show that our model outperforms the state-of-the-art video shadow detection method by 28%, reducing BER from 16.7 to 12.0.
翻訳日:2021-08-02 21:15:17 公開日:2021-07-29
# (参考訳) 欠落値を有する多変量臨床時系列用自己教師付き変圧器

Self-supervised Transformer for Multivariate Clinical Time-Series with Missing Values ( http://arxiv.org/abs/2107.14293v1 )

ライセンス: CC BY 4.0
Sindhu Tipirneni, Chandan K. Reddy(参考訳) 多変量時系列(mvts)データはクリティカルケアの設定で頻繁に観測され、通常過剰な欠如と不規則な時間間隔によって特徴付けられる。 このドメインにおける既存の学習表現のアプローチは、値の集約またはインプテーションによってそのような問題を処理し、インターンできめ細かい情報を抑圧し、望ましくないノイズ/オーバヘッドを機械学習モデルに追加する。 この課題に取り組むために,従来の密行列表現ではなく,時系列を観測トリプレットの集合として扱うことにより,これらの落とし穴を回避できるstrats(self-supervised transformer for timeseries)モデルを提案する。 離散化を必要とせず、連続時間と可変値のエンコードに新しい連続値埋め込み(cve)技術を用いる。 マルチヘッドアテンションレイヤを備えたTransformerコンポーネントで構成されており、繰り返しアーキテクチャで発生する繰り返しや消失する勾配の問題を避けながら、コンテキストトリプルの埋め込みを学習することができる。 多くの医療データセットもラベル付きデータの可用性の制限に悩まされている。 本モデルでは,教師なしデータを利用して,自己教師ありタスクとして時系列予測を行うことで,より良い表現を学習する。 実世界の多変量臨床時系列ベンチマークデータセットにおける実験は、stratsが死亡予測のための最先端の手法よりも優れた予測性能を示していることを示している。 最後に,STraTSの解釈可能なバージョンを提示し,時系列データから重要な測定値を特定する。

Multivariate time-series (MVTS) data are frequently observed in critical care settings and are typically characterized by excessive missingness and irregular time intervals. Existing approaches for learning representations in this domain handle such issues by either aggregation or imputation of values, which in-turn suppresses the fine-grained information and adds undesirable noise/overhead into the machine learning model. To tackle this challenge, we propose STraTS (Self-supervised Transformer for TimeSeries) model which bypasses these pitfalls by treating time-series as a set of observation triplets instead of using the traditional dense matrix representation. It employs a novel Continuous Value Embedding (CVE) technique to encode continuous time and variable values without the need for discretization. It is composed of a Transformer component with Multi-head attention layers which enables it to learn contextual triplet embeddings while avoiding problems of recurrence and vanishing gradients that occur in recurrent architectures. Many healthcare datasets also suffer from the limited availability of labeled data. Our model utilizes self-supervision by leveraging unlabeled data to learn better representations by performing time-series forecasting as a self-supervision task. Experiments on real-world multivariate clinical time-series benchmark datasets show that STraTS shows better prediction performance than state-of-the-art methods for mortality prediction, especially when labeled data is limited. Finally, we also present an interpretable version of STraTS which can identify important measurements in the time-series data.
翻訳日:2021-08-02 21:06:46 公開日:2021-07-29
# (参考訳) 時系列予測における特徴量の時間依存性

Temporal Dependencies in Feature Importance for Time Series Predictions ( http://arxiv.org/abs/2107.14317v1 )

ライセンス: CC BY 4.0
Clayton Rooke, Jonathan Smith, Kin Kwan Leung, Maksims Volkovs, Saba Zuberi(参考訳) 多変量時系列予測のための逐次モデルに適用する説明手法が機械学習文献で注目を集めている。 現状の手法は, 実例的説明の提供に長けているが, 長期にわたって, 複雑な特徴の相互作用を伴って, 効率よく正確に属性を作成できない。 ウィンドウ設定において,複数のインスタンスにまたがる予測分布の変化を定量化することにより,時系列予測設定における特徴重要度を評価するフレームワークWinITを提案する。 包括的実証的証拠により,本手法は,時間的依存性を重要視することで,先行する最先端の適合性が向上することが示された。 また,既存の解釈手法ではできない場合が多い時間ステップ内で,適切な機能帰属をソリューションがいかに改善するかを実証する。 シミュレーションデータと実世界の臨床データの比較を行った。 WinIT は FIT の2.47倍の性能を達成しており、実際のMIMIC の致命的課題における他の特徴的重要な手法である。 この作業のコードはhttps://github.com/layer6ai-labs/winitで入手できる。

Explanation methods applied to sequential models for multivariate time series prediction are receiving more attention in machine learning literature. While current methods perform well at providing instance-wise explanations, they struggle to efficiently and accurately make attributions over long periods of time and with complex feature interactions. We propose WinIT, a framework for evaluating feature importance in time series prediction settings by quantifying the shift in predictive distribution over multiple instances in a windowed setting. Comprehensive empirical evidence shows our method improves on the previous state-of-the-art, FIT, by capturing temporal dependencies in feature importance. We also demonstrate how the solution improves the appropriate attribution of features within time steps, which existing interpretability methods often fail to do. We compare with baselines on simulated and real-world clinical data. WinIT achieves 2.47x better performance than FIT and other feature importance methods on real-world clinical MIMIC-mortality task. The code for this work is available at https://github.com/layer6ai-labs/WinIT.
翻訳日:2021-08-02 20:52:29 公開日:2021-07-29
# (参考訳) PiBase:Raspberry PiとGoogle Firebaseを使用したIoTベースのセキュリティシステム

PiBase: An IoT-based Security System using Raspberry Pi and Google Firebase ( http://arxiv.org/abs/2107.14325v1 )

ライセンス: CC BY 4.0
Venkat Margapuri, Niketa Penumajji, Mitchell Neilsen(参考訳) スマート環境は、デジタルデバイスがインターネット上で相互に接続され、同期して動作する環境である。 このような環境では、セキュリティが最も重要である。 本稿では,スマート環境における認証アクセスと侵入者検出について述べる。 提案されているPiBaseは、IoT(Internet of Things)ベースのアプリケーションで、侵入者を検出し、セキュリティを提供する。 このアプリケーションのハードウェアはraspberry piと、環境中の赤外線から動きを検出するpirモーションセンサーと、android携帯電話とカメラで構成されている。 アプリケーションのソフトウェアはJava、Python、NodeJSで書かれている。 Raspberry Piに接続するPIRセンサーとカメラモジュールは、人間の侵入を検知する。 機械学習アルゴリズム(Haar-feature based cascade classifiers)とLBPH(Linear Binary Pattern Histograms)は、それぞれ顔検出と顔認識に使用される。 アプリは非侵入者のリストを作成し、リストに載っていない者は侵入者として特定する。 アプリは、google firebaseクラウドメッセージングサービスを使用してアプリへの通知をトリガーすることで、侵入時にのみユーザに警告する。 ユーザは、検出された侵入者をアプリを通して非侵入者のリストに追加して、侵入者としてのさらなる検出を避けることができる。 Haar Cascadeアルゴリズムによる顔検出では94.6%のリコールが得られる。 したがって、システムは高効率かつ比較的低コストである。

Smart environments are environments where digital devices are connected to each other over the Internet and operate in sync. Security is of paramount importance in such environments. This paper addresses aspects of authorized access and intruder detection for smart environments. Proposed is PiBase, an Internet of Things (IoT)-based app that aids in detecting intruders and providing security. The hardware for the application consists of a Raspberry Pi, a PIR motion sensor to detect motion from infrared radiation in the environment, an Android mobile phone and a camera. The software for the application is written in Java, Python and NodeJS. The PIR sensor and Pi camera module connected to the Raspberry Pi aid in detecting human intrusion. Machine learning algorithms, namely Haar-feature based cascade classifiers and Linear Binary Pattern Histograms (LBPH), are used for face detection and face recognition, respectively. The app lets the user create a list of non-intruders and anyone that is not on the list is identified as an intruder. The app alerts the user only in the event of an intrusion by using the Google Firebase Cloud Messaging service to trigger a notification to the app. The user may choose to add the detected intruder to the list of non-intruders through the app to avoid further detections as intruder. Face detection by the Haar Cascade algorithm yields a recall of 94.6%. Thus, the system is both highly effective and relatively low cost.
翻訳日:2021-08-02 20:42:57 公開日:2021-07-29
# (参考訳) IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: Code-Mixed Dravidian Textにおける攻撃的コンテンツ検出

IIITG-ADBU@HASOC-Dravidian-CodeMix-FIRE2020: Offensive Content Detection in Code-Mixed Dravidian Text ( http://arxiv.org/abs/2107.14336v1 )

ライセンス: CC BY 4.0
Arup Baruah, Kaushik Amar Das, Ferdous Ahmed Barbhuiya and Kuntal Dey(参考訳) 本稿では,共有タスクDravidian-CodeMix-HASOC 2020におけるSVMとXLM-RoBERTaによる分類結果について述べる。 文字と単語n-gramのTF-IDF特徴を用いて訓練されたSVM分類器は、コードミキシングされたマラヤラムテキスト上で最善を尽くした。 YouTubeとTwitterのデータセットでそれぞれ0.95(第1位)と0.76(第3位)の重み付きF1スコアを得た。 XLM-RoBERTa ベースの分類器は、コードミキシングされた Tamil テキストで最善を尽くした。 コードミキシングされたTamil Twitterデータセットの重み付きF1スコアは0.87(3位)だった。

This paper presents the results obtained by our SVM and XLM-RoBERTa based classifiers in the shared task Dravidian-CodeMix-HASOC 2020. The SVM classifier trained using TF-IDF features of character and word n-grams performed the best on the code-mixed Malayalam text. It obtained a weighted F1 score of 0.95 (1st Rank) and 0.76 (3rd Rank) on the YouTube and Twitter dataset respectively. The XLM-RoBERTa based classifier performed the best on the code-mixed Tamil text. It obtained a weighted F1 score of 0.87 (3rd Rank) on the code-mixed Tamil Twitter dataset.
翻訳日:2021-08-02 20:34:14 公開日:2021-07-29
# (参考訳) サル視覚野におけるマルチタスク学習によるロバスト視覚の実現

Towards robust vision by multi-task learning on monkey visual cortex ( http://arxiv.org/abs/2107.14344v1 )

ライセンス: CC BY 4.0
Shahd Safarani, Arne Nix, Konstantin Willeke, Santiago A. Cadena, Kelli Restivo, George Denfield, Andreas S. Tolias, Fabian H. Sinz(参考訳) ディープニューラルネットワーク(deep neural networks)は、コンピュータビジョンのさまざまなタスクで最先端の技術を設定しているが、画像歪みに対する一般化能力は驚くほど脆弱だ。 対照的に、哺乳類の視覚系は幅広い摂動に対して頑丈である。 近年の研究では、この一般化能力は視覚野全体の視覚刺激の表現にコードされる有用な帰納的バイアスによって説明できることが示唆されている。 そこで我々は、これらの誘導バイアスをマルチタスク学習アプローチでうまく活用し、画像分類とマカク一次視覚野(V1)の神経活動を予測するためにディープネットワークを共同で訓練した。 画像歪みに対するロバスト性をテストすることにより,ネットワークの分散汎化能力を測定した。 サルのv1データを共同トレーニングすると、トレーニング中に歪みがなくても頑健性が増すことがわかった。 さらに、我々のネットワークの堅牢性は、アーキテクチャの一部がノイズの多いイメージで直接トレーニングされているOracleネットワークに非常に近いことを示した。 また,ネットワークのロバスト性が向上するにつれて,ネットワークの表現がより脳のようなものになることを示した。 新たな制約付き再構成分析法を用いて,脳正規化ネットワークのロバスト性について検討した。 画像分類のみを訓練したベースラインネットワークと比較して,共同学習したネットワークはノイズよりもコンテンツに敏感であることが分かりました。 imagenet画像にdeepgazeが予測したサリエンシーマップを用いて,サルが共同学習したネットワークは,シーン内のサリエント領域に対してより敏感になる傾向にあり,物体境界の検出やボトムアップサリエンシーにおけるv1の役割に関する既存の理論を想起させる。 全体として、私たちの研究は脳から誘導バイアスを伝達する有望な研究の道を広げ、私たちの移行の効果の新しい分析を提供します。

Deep neural networks set the state-of-the-art across many tasks in computer vision, but their generalization ability to image distortions is surprisingly fragile. In contrast, the mammalian visual system is robust to a wide range of perturbations. Recent work suggests that this generalization ability can be explained by useful inductive biases encoded in the representations of visual stimuli throughout the visual cortex. Here, we successfully leveraged these inductive biases with a multi-task learning approach: we jointly trained a deep network to perform image classification and to predict neural activity in macaque primary visual cortex (V1). We measured the out-of-distribution generalization abilities of our network by testing its robustness to image distortions. We found that co-training on monkey V1 data leads to increased robustness despite the absence of those distortions during training. Additionally, we showed that our network's robustness is very close to that of an Oracle network where parts of the architecture are directly trained on noisy images. Our results also demonstrated that the network's representations become more brain-like as their robustness improves. Using a novel constrained reconstruction analysis, we investigated what makes our brain-regularized network more robust. We found that our co-trained network is more sensitive to content than noise when compared to a Baseline network that we trained for image classification alone. Using DeepGaze-predicted saliency maps for ImageNet images, we found that our monkey co-trained network tends to be more sensitive to salient regions in a scene, reminiscent of existing theories on the role of V1 in the detection of object borders and bottom-up saliency. Overall, our work expands the promising research avenue of transferring inductive biases from the brain, and provides a novel analysis of the effects of our transfer.
翻訳日:2021-08-02 20:24:37 公開日:2021-07-29
# (参考訳) 難解モデルにおけるパラメータ推定のためのニューラルネットワーク

Neural Networks for Parameter Estimation in Intractable Models ( http://arxiv.org/abs/2107.14346v1 )

ライセンス: CC BY 4.0
Amanda Lenzi, Julie Bessac, Johann Rudi and Michael L. Stein(参考訳) 本研究では,標準帰納法が計算不可能である場合,統計モデルのパラメータ推定に深層学習を用いることを提案する。 最大安定なプロセスからパラメータを推定する方法を示す。小さなデータセットであっても推論は極めて難しいが、シミュレーションは簡単である。 モデルシミュレーションのデータを入力として使用し,統計的パラメータを学習するために深層ニューラルネットワークを訓練する。 ニューラルネットワークベースの手法は、精度と計算時間の改善によって示されるように、現在のアプローチに匹敵する代替手段を提供する。 これは統計的パラメータ推定における深層学習の概念の証明として機能し、他の推定問題にも拡張できる。

We propose to use deep learning to estimate parameters in statistical models when standard likelihood estimation methods are computationally infeasible. We show how to estimate parameters from max-stable processes, where inference is exceptionally challenging even with small datasets but simulation is straightforward. We use data from model simulations as input and train deep neural networks to learn statistical parameters. Our neural-network-based method provides a competitive alternative to current approaches, as demonstrated by considerable accuracy and computational time improvements. It serves as a proof of concept for deep learning in statistical parameter estimation and can be extended to other estimation problems.
翻訳日:2021-08-02 20:09:13 公開日:2021-07-29
# (参考訳) WiC = TSV = WSD: 3つの意味的タスクの等価性について

WiC = TSV = WSD: On the Equivalence of Three Semantic Tasks ( http://arxiv.org/abs/2107.14352v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak(参考訳) WiCタスクは、最近のMCL-WiC SemEvalタスクの人気が示すように、NLPコミュニティでかなりの注目を集めている。 WSDシステムと語彙資源はWiCタスクやWiCデータセット構築に使われてきた。 TSVはWiCとWSDの両方に関連する別のタスクです。 我々は、WiC、TSV、WSDの正確な関係を確立することを目指している。 これらのセマンティックな分類問題を相互に還元できることを実証し、理論的に等価であることを示す。 既存のwicデータセットを分析し,同値仮説を検証する。 意味的タスクに対する我々の理解は、理論計算機科学のツールの応用によって高まると結論づける。 また,これらのタスクに対してより効率的で簡単な方法が,他の2つでうまく適用できる可能性が示唆された。

The WiC task has attracted considerable attention in the NLP community, as demonstrated by the popularity of the recent MCL-WiC SemEval task. WSD systems and lexical resources have been used for the WiC task, as well as for WiC dataset construction. TSV is another task related to both WiC and WSD. We aim to establish the exact relationship between WiC, TSV, and WSD. We demonstrate that these semantic classification problems can be pairwise reduced to each other, and so they are theoretically equivalent. We analyze the existing WiC datasets to validate this equivalence hypothesis. We conclude that our understanding of semantic tasks can be increased through the applications of tools from theoretical computer science. Our findings also suggests that more efficient and simpler methods for one of these tasks could be successfully applied in the other two.
翻訳日:2021-08-02 20:08:09 公開日:2021-07-29
# (参考訳) OpenSync: 神経科学実験で複数の尺度を同期するオープンソースプラットフォーム

OpenSync: An opensource platform for synchronizing multiple measures in neuroscience experiments ( http://arxiv.org/abs/2107.14367v1 )

ライセンス: CC BY 4.0
Moein Razavi, Vahid Janfaza, Takashi Yamauchi, Anton Leontyev, Shanle Longmire-Monford, Joseph Orr(参考訳) 背景:人間の心はマルチモーダルです。 しかし、行動学のほとんどの研究はタスクの正確さやレイテンシといった1世紀前の尺度に依存している。 人間の行動や脳機能をよりよく理解するためには、他の指標を導入し、様々な側面から行動を分析する必要がある。 しかし、複数の測定値を記録する実験を設計、実装するのは技術的に複雑で費用がかかる。 この問題に対処するには、人間の行動から複数の指標を同期できるプラットフォームが必要である。 方法:本論文では,神経科学実験における複数の指標の同期に使用できるOpenSyncというオープンソースのプラットフォームを紹介する。 このプラットフォームは、脳波(EEG)、ガルバニック皮膚反応(GSR)、視線追跡、体の動きなどの生理的指標を自動的に統合し、同期し、記録するのに役立つ。 ユーザ入力応答(マウス、キーボード、ジョイスティックなど)。 ) およびタスク関連情報(刺激マーカー)。 本稿では,OpenSyncの構造と詳細を説明し,サイコピーとユニティの2つのケーススタディを提供する。 既存のツールと比較すると: プロプライエタリなシステム(iMotionsなど)とは異なり、OpenSyncは無料であり、あらゆるオープンソース実験設計ソフトウェア(例えば、AcoyPy、OpenSesame、Unityなど)で使用することができる。 結果: 実験結果から,opensync プラットフォームはマイクロ秒の解像度で複数の計測手段を同期できることがわかった。

Background: The human mind is multimodal. Yet most behavioral studies rely on century-old measures such as task accuracy and latency. To create a better understanding of human behavior and brain functionality, we should introduce other measures and analyze behavior from various aspects. However, it is technically complex and costly to design and implement the experiments that record multiple measures. To address this issue, a platform that allows synchronizing multiple measures from human behavior is needed. Method: This paper introduces an opensource platform named OpenSync, which can be used to synchronize multiple measures in neuroscience experiments. This platform helps to automatically integrate, synchronize and record physiological measures (e.g., electroencephalogram (EEG), galvanic skin response (GSR), eye-tracking, body motion, etc.), user input response (e.g., from mouse, keyboard, joystick, etc.), and task-related information (stimulus markers). In this paper, we explain the structure and details of OpenSync, provide two case studies in PsychoPy and Unity. Comparison with existing tools: Unlike proprietary systems (e.g., iMotions), OpenSync is free and it can be used inside any opensource experiment design software (e.g., PsychoPy, OpenSesame, Unity, etc., https://pypi.org/project/OpenSync/ and https://github.com/moeinrazavi/OpenSync_Unity). Results: Our experimental results show that the OpenSync platform is able to synchronize multiple measures with microsecond resolution.
翻訳日:2021-08-02 20:01:12 公開日:2021-07-29
# (参考訳) 拡張再構築のための深部量子化表現

Deep Quantized Representation for Enhanced Reconstruction ( http://arxiv.org/abs/2107.14368v1 )

ライセンス: CC BY 4.0
Akash Gupta, Abhishek Aich, Kevin Rodriguez, G. Venugopala Reddy, Amit K. Roy-Chowdhury(参考訳) 機械学習アプローチは生体画像解析において顕著な性能を示したが、これらの手法のほとんどは高品質で正確な画像データに依存している。 しかし、このようなデータの収集には集中的で慎重な手作業が必要だ。 シロイヌナズナのメリステム(sam)の撮影における大きな課題の1つは、zスタックの深いスライスが、コントラストの低下やぼやけといった永久的品質に関わる問題に苦しむことである。 これらの品質に関する問題は、データ収集中の品質をほとんど制御することなく、苦労して収集されたデータの廃棄につながることが多い。 そのため、さらなる分析に適するように画像を強化する技術を採用し、設計する必要がある。 本稿では,シロイヌナズナのShoot Apical Meristem(SAM)における高品質画像再構成のためのデータ駆動型Deep Quantized Latent Representation(DQLR)手法を提案する。 提案フレームワークは,zスタック内の複数の連続スライスを用いて低次元の潜伏空間を学習し,それを量子化し,次いで量子化表現を用いて再構成し,よりシャープな画像を得る。 公開データセット上での実験は、有望な結果を示す方法論を検証する。

While machine learning approaches have shown remarkable performance in biomedical image analysis, most of these methods rely on high-quality and accurate imaging data. However, collecting such data requires intensive and careful manual effort. One of the major challenges in imaging the Shoot Apical Meristem (SAM) of Arabidopsis thaliana, is that the deeper slices in the z-stack suffer from different perpetual quality-related problems like poor contrast and blurring. These quality-related issues often lead to the disposal of the painstakingly collected data with little to no control on quality while collecting the data. Therefore, it becomes necessary to employ and design techniques that can enhance the images to make them more suitable for further analysis. In this paper, we propose a data-driven Deep Quantized Latent Representation (DQLR) methodology for high-quality image reconstruction in the Shoot Apical Meristem (SAM) of Arabidopsis thaliana. Our proposed framework utilizes multiple consecutive slices in the z-stack to learn a low dimensional latent space, quantize it and subsequently perform reconstruction using the quantized representation to obtain sharper images. Experiments on a publicly available dataset validate our methodology showing promising results.
翻訳日:2021-08-02 19:48:15 公開日:2021-07-29
# (参考訳) 転校学習による焼損地域動態の研究--ウガンダ北部西ナイルの難民集落を事例として

Using transfer learning to study burned area dynamics: A case study of refugee settlements in West Nile, Northern Uganda ( http://arxiv.org/abs/2107.14372v1 )

ライセンス: CC BY 4.0
Robert Huppertz, Catherine Nakalembe, Hannah Kerner, Ramani Lachyan, Maxime Rischard(参考訳) 世界難民危機は歴史的に高い水準にあり、難民居留地がホスト国や周辺環境に与える影響を評価する必要性が高まっている。 森林火災はサハラ以南のアフリカの小作農において重要な土地管理手法であるので、燃やされた地域(ba)マッピングは、土地管理が地域環境に与える影響に関する情報を提供するのに役立つ。 しかし、サハラ以南のアフリカでは、BAの地下構造データがないため、高度にスケーラブルな深層学習(DL)技術の使用が制限されている。 本研究では,ウガンダ北部の西ナイル地域など地表面データが少ない地域において,baダイナミクスを研究するためのスケーラブルな転送学習手法を提案する。 ポルトガルのba地表面データに基づく深層学習モデルをトレーニングし,2015年から2020年の間,西ナイルの難民居住地区にそのモデルを適用することを提案する。 地域レベルのba動態とより広い西ナイル地域との比較により,避難民の居住環境に対する土地管理の影響を理解することを目的としている。

With the global refugee crisis at a historic high, there is a growing need to assess the impact of refugee settlements on their hosting countries and surrounding environments. Because fires are an important land management practice in smallholder agriculture in sub-Saharan Africa, burned area (BA) mappings can help provide information about the impacts of land management practices on local environments. However, a lack of BA ground-truth data in much of sub-Saharan Africa limits the use of highly scalable deep learning (DL) techniques for such BA mappings. In this work, we propose a scalable transfer learning approach to study BA dynamics in areas with little to no ground-truth data such as the West Nile region in Northern Uganda. We train a deep learning model on BA ground-truth data in Portugal and propose the application of that model on refugee-hosting districts in West Nile between 2015 and 2020. By comparing the district-level BA dynamic with the wider West Nile region, we aim to add understanding of the land management impacts of refugee settlements on their surrounding environments.
翻訳日:2021-08-02 19:42:06 公開日:2021-07-29
# (参考訳) インテリジェントトランスポートシステムにおけるコンテキストアウェアコンピューティングのモデリングと推論技術

Modelling and Reasoning Techniques for Context Aware Computing in Intelligent Transportation System ( http://arxiv.org/abs/2107.14374v1 )

ライセンス: CC BY 4.0
Swarnamugi.M and Chinnaiyan.R(参考訳) モノのインターネット技術の出現と最近のセンサーネットワークの進歩により、インテリジェントトランスポーテーションシステムと呼ばれる新しい次元の輸送システムが実現された。 道路交通シナリオにおける車両利用の増加と実体間の通信のため、インテリジェント交通システムにおける生データ生成量は巨大である。 この生データは、状況情報を推測し、交通信号管理、事故予測、物体検出など、道路交通の異なるモードに関連する新しいサービスを提供するために処理される。 コンテキストの重要性を理解するため、本稿はインテリジェントトランスポーテーションシステムにおけるコンテキスト認識の研究を目的とする。 本稿では,知的交通システムにおける文脈認識に関する文献に発達した顕著な応用についてレビューする。 本研究の目的は,その文脈とその特徴に注目し,知的輸送システムにおけるモデリング手法と推論手法の適用性を検討することである。 また、インテリジェントな輸送システム開発におけるモノのインターネットと機械学習の影響にも光を当てている。

The emergence of Internet of Things technology and recent advancement in sensor networks enabled transportation systems to a new dimension called Intelligent Transportation System. Due to increased usage of vehicles and communication among entities in road traffic scenarios, the amount of raw data generation in Intelligent Transportation System is huge. This raw data are to be processed to infer contextual information and provide new services related to different modes of road transport such as traffic signal management, accident prediction, object detection etc. To understand the importance of context, this article aims to study context awareness in the Intelligent Transportation System. We present a review on prominent applications developed in the literature concerning context awareness in the intelligent transportation system. The objective of this research paper is to highlight context and its features in ITS and to address the applicability of modelling techniques and reasoning approaches in Intelligent Transportation System. Also to shed light on impact of Internet of Things and machine learning in Intelligent Transportation System development.
翻訳日:2021-08-02 19:35:59 公開日:2021-07-29
# 大規模なバッチアクティブラーニング

Batch Active Learning at Scale ( http://arxiv.org/abs/2107.14263v1 )

ライセンス: Link先を確認
Gui Citovsky, Giulia DeSalvo, Claudio Gentile, Lazaros Karydas, Anand Rajagopalan, Afshin Rostamizadeh, Sanjiv Kumar(参考訳) 複雑で効果的なモデルを訓練する能力は、しばしば大量のトレーニングデータを必要とし、コスト、時間、計算資源のボトルネックになる可能性がある。 バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。 バッチサンプリングの実践的なメリットは、適応性の低下と、バッチ内で冗長なサンプルをサンプリングするリスクにある。 本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。 特に,不確実性と多様性の概念を組み合わせたサンプリング手法は,従来の研究よりも数桁大きなバッチサイズ (100k-1m) に容易に拡張でき,最近のベースラインと比較してモデルのトレーニング効率が大幅に向上することを示す。 最後に, 関連サンプリング法について, ラベルの複雑性の保証を証明した最初の理論的解析を行い, 特定の条件下でのサンプリング法とほぼ同値であることを示す。

The ability to train complex and highly effective models often requires an abundance of training data, which can easily become a bottleneck in cost, time, and computational resources. Batch active learning, which adaptively issues batched queries to a labeling oracle, is a common approach for addressing this problem. The practical benefits of batch sampling come with the downside of less adaptivity and the risk of sampling redundant examples within a batch -- a risk that grows with the batch size. In this work, we analyze an efficient active learning algorithm, which focuses on the large batch setting. In particular, we show that our sampling method, which combines notions of uncertainty and diversity, easily scales to batch sizes (100K-1M) several orders of magnitude larger than used in previous studies and provides significant improvements in model training efficiency compared to recent baselines. Finally, we provide an initial theoretical analysis, proving label complexity guarantees for a related sampling method, which we show is approximately equivalent to our sampling method in specific settings.
翻訳日:2021-08-02 13:10:27 公開日:2021-07-29
# 集中学習を活用した最近のマルチエージェント強化学習アルゴリズムの調査

Survey of Recent Multi-Agent Reinforcement Learning Algorithms Utilizing Centralized Training ( http://arxiv.org/abs/2107.14316v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Rolando Fernandez, Erin Zaroukian, Michael Dorothy, Anjon Basak, and Derrik E. Asher(参考訳) MARL(Multi-Agent Reinforcement Learning)パラダイムの探索には,協調作業における人間的なコラボレーションを実現するために,CLDE(Decentralized execution)アプローチによる集中型学習の実施に多くの作業が費やされている。 本稿では,集中型学習のバリエーションについて論じ,アルゴリズム的アプローチに関する最近の調査について述べる。 本研究の目的は,集中学習における情報共有機構の異なる実装が,協調作業を行うマルチエージェントシステムにおいて,集団協調行動にどのように影響するかを検討することである。

Much work has been dedicated to the exploration of Multi-Agent Reinforcement Learning (MARL) paradigms implementing a centralized learning with decentralized execution (CLDE) approach to achieve human-like collaboration in cooperative tasks. Here, we discuss variations of centralized training and describe a recent survey of algorithmic approaches. The goal is to explore how different implementations of information sharing mechanism in centralized learning may give rise to distinct group coordinated behaviors in multi-agent systems performing cooperative tasks.
翻訳日:2021-08-02 13:08:09 公開日:2021-07-29
# 曲線上のデータを分類可能なディープネットワーク

Deep Networks Provably Classify Data on Curves ( http://arxiv.org/abs/2107.14324v1 )

ライセンス: Link先を確認
Tingran Wang, Sam Buchanan, Dar Gilboa, John Wright(参考訳) 低次元の非線形構造を持つデータは、工学や科学的問題においてユビキタスである。 このような構造を持つモデル問題 - 深い完全連結ニューラルネットワークを用いて、単位球上の2つの不連続な滑らかな曲線から引き出されたデータを分類するバイナリ分類タスク。 穏やかな正則性条件は別として、曲線の構成に制限は課さない。 i) 問題の難易度を設定する幾何的性質に対してネットワーク深さが大きい場合, および (ii) ネットワーク幅とサンプル数が深さの多項式である場合, ランダムに初期化された勾配降下はすぐに学習し, 高確率で2つの曲線上のすべての点を正しく分類する。 我々の知る限り、これは本質的なデータ特性にのみ依存する非線形データを持つディープネットワークに対する最初の一般化保証である。 我々の分析は、ネットワーク深度が分類問題の解法における適合資源の役割を担っているニューラルタンジェントカーネル(NTK)体制におけるダイナミクスの低減によって進行する。 特に、NTKの減衰特性のきめ細かい制御により、ネットワークが十分に深くなると、NTKは多様体上の変換不変作用素によって局所的に近似され、滑らかな函数上で安定に反転し、収束と一般化が保証されることを示した。

Data with low-dimensional nonlinear structure are ubiquitous in engineering and scientific problems. We study a model problem with such structure -- a binary classification task that uses a deep fully-connected neural network to classify data drawn from two disjoint smooth curves on the unit sphere. Aside from mild regularity conditions, we place no restrictions on the configuration of the curves. We prove that when (i) the network depth is large relative to certain geometric properties that set the difficulty of the problem and (ii) the network width and number of samples is polynomial in the depth, randomly-initialized gradient descent quickly learns to correctly classify all points on the two curves with high probability. To our knowledge, this is the first generalization guarantee for deep networks with nonlinear data that depends only on intrinsic data properties. Our analysis proceeds by a reduction to dynamics in the neural tangent kernel (NTK) regime, where the network depth plays the role of a fitting resource in solving the classification problem. In particular, via fine-grained control of the decay properties of the NTK, we demonstrate that when the network is sufficiently deep, the NTK can be locally approximated by a translationally invariant operator on the manifolds and stably inverted over smooth functions, which guarantees convergence and generalization.
翻訳日:2021-08-02 13:06:37 公開日:2021-07-29
# ADeLA: セマンティックセグメンテーションにおける視点適応のための注意付きDense Labeling

ADeLA: Automatic Dense Labeling with Attention for Viewpoint Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2107.14285v1 )

ライセンス: Link先を確認
Yanchao Yang, Hanxiang Ren, He Wang, Bokui Shen, Qingnan Fan, Youyi Zheng, C. Karen Liu and Leonidas Guibas(参考訳) 意味的セグメンテーションタスクの視点変化に起因する画像コンテンツシフトに対する教師なし領域適応手法について述べる。 ほとんどの既存メソッドは共有空間でドメインアライメントを行い、アライメントされた空間から出力へのマッピングは転送可能であると仮定する。 しかし、視点変化によって誘導される新しい内容は、効果的なアライメントのためにそのような空間を無効にし、結果として負の適応をもたらす。 本手法は2つの領域間の画像の統計を調整せずに動作する。 代わりに、カラーイメージのみにトレーニングされたビュー変換ネットワークを使用して、ターゲットのセマンティックイメージを指導する。 監視の欠如にもかかわらず、ビュートランスフォーメーションネットワークは、注意機構によって導入された誘導バイアスにより、セマンティックイメージに一般化することができる。 さらに,意味的イメージを意味的ラベルに変換する際の曖昧さを解消するために,色画像に暗示される未知のマッピングの機能表現としてビュー変換ネットワークを扱い,対象領域で擬似ラベルを生成する機能的ラベル幻覚を提案する。 本手法は,最先端の対応推定とビュー合成に基づくベースラインを超越する。 さらに、自己学習と対向ドメインアライメントを利用する最先端の教師なしドメインアライメント手法よりも優れている。 私たちのコードとデータセットは公開される予定だ。

We describe an unsupervised domain adaptation method for image content shift caused by viewpoint changes for a semantic segmentation task. Most existing methods perform domain alignment in a shared space and assume that the mapping from the aligned space to the output is transferable. However, the novel content induced by viewpoint changes may nullify such a space for effective alignments, thus resulting in negative adaptation. Our method works without aligning any statistics of the images between the two domains. Instead, it utilizes a view transformation network trained only on color images to hallucinate the semantic images for the target. Despite the lack of supervision, the view transformation network can still generalize to semantic images thanks to the inductive bias introduced by the attention mechanism. Furthermore, to resolve ambiguities in converting the semantic images to semantic labels, we treat the view transformation network as a functional representation of an unknown mapping implied by the color images and propose functional label hallucination to generate pseudo-labels in the target domain. Our method surpasses baselines built on state-of-the-art correspondence estimation and view synthesis methods. Moreover, it outperforms the state-of-the-art unsupervised domain adaptation methods that utilize self-training and adversarial domain alignment. Our code and dataset will be made publicly available.
翻訳日:2021-08-02 13:03:51 公開日:2021-07-29
# IoU認識によるリアルタイムアンカーフリー単段3次元検出

Real-Time Anchor-Free Single-Stage 3D Detection with IoU-Awareness ( http://arxiv.org/abs/2107.14342v1 )

ライセンス: Link先を確認
Runzhou Ge, Zhuangzhuang Ding, Yihan Hu, Wenxin Shao, Li Huang, Kun Li, Qiang Liu(参考訳) 本報告では、cvpr 2021におけるwaymo open datasetチャレンジにおいて、リアルタイム3d検出と「最も効率的なモデル」に対する勝利ソリューションを紹介する。 昨年受賞したafdetから拡張して、ベースモデルにいくつかの修正を加え、精度を高め、同時にレイテンシを大幅に削減しました。 AFDetV2と名付けられた改良型モデルには、ライト3D機能エクストラクタ、拡張受信フィールドを備えた改良されたRPN、IoU対応の信頼性スコアを生成するサブヘッドが装備されている。 これらのモデルの強化は、拡張されたデータ拡張、確率的な重み付け、ボクセル化のgpuベースの実装とともに、我々のafdetv2の勝率73.12 maph/l2、60.06 ms、afdetv2-baseの72.57 maph/l2、チャレンジスポンサーによる「最も効率的なモデル」、55.86 msである。

In this report, we introduce our winning solution to the Real-time 3D Detection and also the "Most Efficient Model" in the Waymo Open Dataset Challenges at CVPR 2021. Extended from our last year's award-winning model AFDet, we have made a handful of modifications to the base model, to improve the accuracy and at the same time to greatly reduce the latency. The modified model, named as AFDetV2, is featured with a lite 3D Feature Extractor, an improved RPN with extended receptive field and an added sub-head that produces an IoU-aware confidence score. These model enhancements, together with enriched data augmentation, stochastic weights averaging, and a GPU-based implementation of voxelization, lead to a winning accuracy of 73.12 mAPH/L2 for our AFDetV2 with a latency of 60.06 ms, and an accuracy of 72.57 mAPH/L2 for our AFDetV2-base, entitled as the "Most Efficient Model" by the challenge sponsor, with a winning latency of 55.86 ms.
翻訳日:2021-08-02 13:03:32 公開日:2021-07-29
# 人間のポーズを用いたビデオによる転倒検出

Video Based Fall Detection Using Human Poses ( http://arxiv.org/abs/2107.14633v1 )

ライセンス: Link先を確認
Ziwei Chen, Yiye Wang, Wankou Yang(参考訳) 深い畳み込みニューラルネットワークの最近の進歩により、ビデオベースのフォール検出精度が大幅に向上した。 しかし、光の変動、複雑な背景、これらアプローチの精度と一般化能力の低下など、いくつかの課題がある。 一方、計算コストは既存の転倒検出手法の適用を制限している。 この問題を解決するために,人間のポーズを用いたビデオによる転倒検出手法を提案する。 まず、軽量ポーズ推定器がビデオシーケンスから2dポーズを抽出し、2dポーズを3dポーズに持ち上げる。 第2に、推定された3次元ポーズを用いて転倒イベントを識別する頑健な転倒検出ネットワークを導入し、それぞれを増大させ、拡張畳み込みによる計算コストを低く抑える。 実験の結果,提案手法は大規模ベンチマーク動作認識データセットNTU RGB+Dで99.83%,GPU以外のプラットフォームでは18FPS,GPUプラットフォームでは63FPSのリアルタイム性能を実現している。

Video based fall detection accuracy has been largely improved due to the recent progress on deep convolutional neural networks. However, there still exists some challenges, such as lighting variation, complex background, which degrade the accuracy and generalization ability of these approaches. Meanwhile, large computation cost limits the application of existing fall detection approaches. To alleviate these problems, a video based fall detection approach using human poses is proposed in this paper. First, a lightweight pose estimator extracts 2D poses from video sequences and then 2D poses are lifted to 3D poses. Second, we introduce a robust fall detection network to recognize fall events using estimated 3D poses, which increases respective filed and maintains low computation cost by dilated convolutions. The experimental results show that the proposed fall detection approach achieves a high accuracy of 99.83% on large benchmark action recognition dataset NTU RGB+D and real-time performance of 18 FPS on a non-GPU platform and 63 FPS on a GPU platform.
翻訳日:2021-08-02 12:59:59 公開日:2021-07-29
# テンポラリスの経時的変化に就て

Otimizacao de pesos e funcoes de ativacao de redes neurais aplicadas na previsao de series temporais ( http://arxiv.org/abs/2107.14370v1 )

ライセンス: Link先を確認
Gecynalda Gomes, Teresa Ludermir(参考訳) ニューラルネットワークは、精度良く近似関数に高い容量を示す実験結果が得られた時系列予測に応用されている。 これらのアプリケーションで使用されるほとんどのニューラルモデルは、固定パラメータを持つアクティベーション関数を使用する。 しかし、アクティベーション関数の選択はニューラルネットワークの複雑さと性能に大きく影響し、限られた数のアクティベーション関数が使用されていることが知られている。 本研究では,ニューラルネットワークに対する自由パラメータ非対称アクティベーション関数の族の利用を提案し,定義されたアクティベーション関数の族が普遍近似定理の要件を満たすことを示す。 ニューラルネットワークの処理ユニット間の接続の重み付けを自由パラメータで行うことにより,この活性化関数群を大域的に最適化する手法を用いる。 提案手法の中心となる考え方は,マルチ層パーセプトロンネットワーク(MLP)における重みとアクティベーション関数を同時に最適化することであり,シミュレーションアニーリング,タブ探索,局所学習アルゴリズムの利点と,時系列の調整および予測における性能の向上を両立させるアプローチである。 私たちは、momentum(bpm)とlevenbergmarquardt(lm)という2つの学習アルゴリズムを選択しました。

Neural Networks have been applied for time series prediction with good experimental results that indicate the high capacity to approximate functions with good precision. Most neural models used in these applications use activation functions with fixed parameters. However, it is known that the choice of activation function strongly influences the complexity and performance of the neural network and that a limited number of activation functions have been used. In this work, we propose the use of a family of free parameter asymmetric activation functions for neural networks and show that this family of defined activation functions satisfies the requirements of the universal approximation theorem. A methodology for the global optimization of this family of activation functions with free parameter and the weights of the connections between the processing units of the neural network is used. The central idea of the proposed methodology is to simultaneously optimize the weights and the activation function used in a multilayer perceptron network (MLP), through an approach that combines the advantages of simulated annealing, tabu search and a local learning algorithm, with the purpose of improving performance in the adjustment and forecasting of time series. We chose two learning algorithms: backpropagation with the term momentum (BPM) and LevenbergMarquardt (LM).
翻訳日:2021-08-02 12:58:47 公開日:2021-07-29
# 病理組織学における全スライド画像の自動マルチステイン登録

Automatic Multi-Stain Registration of Whole Slide Images in Histopathology ( http://arxiv.org/abs/2107.14292v1 )

ライセンス: Link先を確認
Abubakr Shafique (1), Morteza Babaie (1 and 3), Mahjabin Sajadi (1), Adrian Batten (2), Soma Skdar (2), and H.R. Tizhoosh (1 and 3) ((1) Kimia Lab, University of Waterloo, Waterloo, ON, Canada., (2) Department of Pathology, Grand River Hospital, Kitchener, ON, Canada., and (3) Vector Institute, MaRS Centre, Toronto, Canada.)(参考訳) 複数のバイオマーカー画像と組織形態の同時解析は、疾患診断、治療計画、薬物開発に重要である。 免疫組織化学的およびヘマトキシリンおよびエオシン(H&E)顕微鏡スライドの全スライド画像(WSI)の横断的な比較が必要である。 しかし、単一セル精度で巨大な WSI を自動かつ高速に相互にアライメントすることは難しい。 スライド調製時に導入された形態的変形に加えて、細胞外観や組織形態の異なる染色にも大きなバリエーションがある。 本稿では, リンパ節転移巣の局所化を補助するために, 2段階の自動特徴量ベースクロスステイン化wsiアライメントを提案する。 画像ペアは、翻訳、回転、スケーリングを可能にした。 登録は、まずスケール不変画像変換(SIFT)を用いて、両方の画像のランドマークを最初に検出し、次に、ポイント対応を見つけるための高速サンプルコンセンサス(FSC)プロトコルを用いて、最終的に画像のアライメントを行う。 登録結果は,ジャカード指標を用いて視覚的,定量的に評価した。 提案システムによる結果の平均jaccard類似度指数は,マニュアル登録と比較して0.942である。

Joint analysis of multiple biomarker images and tissue morphology is important for disease diagnosis, treatment planning and drug development. It requires cross-staining comparison among Whole Slide Images (WSIs) of immuno-histochemical and hematoxylin and eosin (H&E) microscopic slides. However, automatic, and fast cross-staining alignment of enormous gigapixel WSIs at single-cell precision is challenging. In addition to morphological deformations introduced during slide preparation, there are large variations in cell appearance and tissue morphology across different staining. In this paper, we propose a two-step automatic feature-based cross-staining WSI alignment to assist localization of even tiny metastatic foci in the assessment of lymph node. Image pairs were aligned allowing for translation, rotation, and scaling. The registration was performed automatically by first detecting landmarks in both images, using the scale-invariant image transform (SIFT), followed by the fast sample consensus (FSC) protocol for finding point correspondences and finally aligned the images. The Registration results were evaluated using both visual and quantitative criteria using the Jaccard index. The average Jaccard similarity index of the results produced by the proposed system is 0.942 when compared with the manual registration.
翻訳日:2021-08-02 12:57:14 公開日:2021-07-29
# 畳み込みニューラルネットワークを用いた脳波多目的点眼検出器

EEG multipurpose eye blink detector using convolutional neural network ( http://arxiv.org/abs/2107.14235v1 )

ライセンス: Link先を確認
Amanda Ferrari Iaquinta, Ana Carolina de Sousa Silva, Aldrumont Ferraz J\'unior, Jessica Monique de Toledo, Gustavo Voltani von Atzingen(参考訳) 眼球運動によって放出される電気信号は、センサーに近接し、発生量が多いため、脳波に非常に強いアーティファクトを生じさせる。 脳波波形における目まばたき検出の文脈において, さらなる除去と信号浄化のために, 複数の戦略が文献に提案されている。 最も一般的に応用される方法は、大量の電極、サンプリングとデータ処理のための複雑な装置の使用である。 本研究の目的は,cnn(convolutional neural network)を用いた脳波信号の瞬き検出と除去のための信頼性の高いユーザ独立アルゴリズムの構築である。 トレーニングと検証のために、パブリックなEEGデータ3セットが使用された。 3つのセットにはサンプルが含まれており、採用された被験者は、特定の瞬間に瞬きを含む割り当てられたタスクを実行し、ビデオを見て記事を読む。 本研究で使用したモデルでは,自明な脳波信号と点眼器で汚染された信号とを識別する全ての特徴を,登録時にのみ発生した特定の特徴を過剰に適合させることなく理解することができた。

The electrical signal emitted by the eyes movement produces a very strong artifact on EEG signaldue to its close proximity to the sensors and abundance of occurrence. In the context of detectingeye blink artifacts in EEG waveforms for further removal and signal purification, multiple strategieswhere proposed in the literature. Most commonly applied methods require the use of a large numberof electrodes, complex equipment for sampling and processing data. The goal of this work is to createa reliable and user independent algorithm for detecting and removing eye blink in EEG signals usingCNN (convolutional neural network). For training and validation, three sets of public EEG data wereused. All three sets contain samples obtained while the recruited subjects performed assigned tasksthat included blink voluntarily in specific moments, watch a video and read an article. The modelused in this study was able to have an embracing understanding of all the features that distinguish atrivial EEG signal from a signal contaminated with eye blink artifacts without being overfitted byspecific features that only occurred in the situations when the signals were registered.
翻訳日:2021-08-02 12:55:33 公開日:2021-07-29
# レーザ誘起グラフェンのモデリングと最適化

Modeling and Optimizing Laser-Induced Graphene ( http://arxiv.org/abs/2107.14257v1 )

ライセンス: Link先を確認
Lars Kotthoff and Sourin Dey and Vivek Jain and Alexander Tyrrell and Hud Wahab and Patrick Johnson(参考訳) 多くの技術進歩は、グラフェンのような次世代の材料に依存している。 このような材料を製造することはしばしば困難であり、特にスケールでグラフェンを製造することはオープンな問題である。 我々は,レーザー誘起グラフェンの生産の最適化を記述した一連のデータセットを提供する。 我々は, 生産過程のパラメータに対するレーザー誘起グラフェン生成の挙動のモデル化, 異なる前駆物質間のモデルと知識の伝達, 可能な生産パラメータの空間上の変換結果の最適化の3つの課題を提示する。 興味のあるユーザのための出発点として,その生成に使用するコードとともに,図示的な結果を提示します。 私たちが提供しているデータは、機械学習の重要な現実世界の応用であり、私たちの知る限り、類似したデータセットは利用できない。

A lot of technological advances depend on next-generation materials, such as graphene, which enables a raft of new applications, for example better electronics. Manufacturing such materials is often difficult; in particular, producing graphene at scale is an open problem. We provide a series of datasets that describe the optimization of the production of laser-induced graphene, an established manufacturing method that has shown great promise. We pose three challenges based on the datasets we provide -- modeling the behavior of laser-induced graphene production with respect to parameters of the production process, transferring models and knowledge between different precursor materials, and optimizing the outcome of the transformation over the space of possible production parameters. We present illustrative results, along with the code used to generate them, as a starting point for interested users. The data we provide represents an important real-world application of machine learning; to the best of our knowledge, no similar datasets are available.
翻訳日:2021-08-02 12:55:12 公開日:2021-07-29
# 機械学習による二金属遷移金属錯体の暗号的挙動の解明

Deciphering Cryptic Behavior in Bimetallic Transition Metal Complexes with Machine Learning ( http://arxiv.org/abs/2107.14280v1 )

ライセンス: Link先を確認
Michael G. Taylor, Aditya Nandy, Connie C. Lu, and Heather J. Kulik(参考訳) 遷移金属錯体の合理的な調整は、エネルギー利用と貯蔵における顕著な課題に対処するために必要である。 金属-金属結合を示すヘテロビス金属遷移金属錯体は、重畳された「二重デッキ」配位子構造は、触媒作用の新興かつ魅力的な基盤であるが、それらの性質は、退屈な合成作業の前に予測することが困難である。 有理二金属複合設計のための構造とプロパティの関係を明らかにするためのデータ駆動アプローチを示す。 我々は多元線形回帰モデルとカーネルリッジ回帰モデル(krr)モデルの訓練に使用するヘテロ二金属錯体の金属局所環境のグラフベース表現を調整した。 酸化ポテンシャルに着目し,28種類の実験的特性を有する錯体からなる多重線形回帰モデルを構築した。 このトレーニングセットでは、高い精度(すなわち絶対誤差、MAE、0.25V)を実現し、新しいリガンド構造を持つ未確認実験データへの転送性を維持する。 金属-金属結合の程度を予測するため, 構造的特徴を持つヘテロビメタル330のサブセットを用いてKRRモデルを訓練した。 このKRRモデルは、テストセットの相対金属-金属結合長を5%以内まで予測し、重要な特徴の分析により、錯体の挙動に最も強く影響を与える基本原子寄与(原子価電子配置など)が明らかになる。 我々の研究は有理二金属設計の指針を提供し、形式的短さ比を含む特性は、ある期間から別の期間に転移可能であることを示唆している。

The rational tailoring of transition metal complexes is necessary to address outstanding challenges in energy utilization and storage. Heterobimetallic transition metal complexes that exhibit metal-metal bonding in stacked "double decker" ligand structures are an emerging, attractive platform for catalysis, but their properties are challenging to predict prior to laborious synthetic efforts. We demonstrate an alternative, data-driven approach to uncovering structure-property relationships for rational bimetallic complex design. We tailor graph-based representations of the metal-local environment for these heterobimetallic complexes for use in training of multiple linear regression and kernel ridge regression (KRR) models. Focusing on oxidation potentials, we obtain a set of 28 experimentally characterized complexes to develop a multiple linear regression model. On this training set, we achieve good accuracy (mean absolute error, MAE, of 0.25 V) and preserve transferability to unseen experimental data with a new ligand structure. We trained a KRR model on a subset of 330 structurally characterized heterobimetallics to predict the degree of metal-metal bonding. This KRR model predicts relative metal-metal bond lengths in the test set to within 5%, and analysis of key features reveals the fundamental atomic contributions (e.g., the valence electron configuration) that most strongly influence the behavior of complexes. Our work provides guidance for rational bimetallic design, suggesting that properties including the formal shortness ratio should be transferable from one period to another.
翻訳日:2021-08-02 12:52:13 公開日:2021-07-29
# ロボットストーリータラによるユーザ共感のモデル化

Modeling User Empathy Elicited by a Robot Storyteller ( http://arxiv.org/abs/2107.14345v1 )

ライセンス: Link先を確認
Leena Mathur, Micol Spitale, Hao Xi, Jieyun Li, Maja J Matari\'c(参考訳) 人間の共感を知覚できる仮想的およびロボット的エージェントは、人間の幸福を支える有意義で有意義な人間と機械の相互作用に参加する可能性がある。 計算的共感の研究は、言語的および非言語的行動を用いて共感をシミュレートし、人間からの共感的反応を誘発する共感的エージェントの設計に焦点を当ててきた。 ヒトにおける誘惑的共感を自動的に知覚する能力を持つエージェントを開発するという課題はほとんど解明されていない。 本稿では,ロボットエージェントとのインタラクション中に誘発されるユーザの共感をモデル化する最初の手法を提案する。 ロボットのストーリーテラー(参加者46名、ビデオ時間6.9時間)を聴いた参加者の新たなインタラクションコンテキストから新しいデータセットを収集した。 各ストーリーテリングの対話の後、参加者はロボットとの対話中に誘発された共感のレベルを評価するアンケートに答えた。 8種類の古典的機械学習モデルと2つのディープラーニングモデル(長期記憶ネットワークと時間畳み込みネットワーク)を用いて実験を行い、ロボットストーリーテラーを聴きながら参加者の視覚行動のパターンを利用して共感を検出する。 xgboostに基づく当社の最高パフォーマンスアプローチは,ビデオの共感検出時の精度69%とauc72%を達成した。 自動共感検出のためのモデリングアプローチと視覚機能に関する洞察を提供する。 我々の研究は、人間と機械の相互作用において仮想エージェントやロボットエージェントが活用できる共感知覚モデルの将来的な発展を通知し、動機づける。

Virtual and robotic agents capable of perceiving human empathy have the potential to participate in engaging and meaningful human-machine interactions that support human well-being. Prior research in computational empathy has focused on designing empathic agents that use verbal and nonverbal behaviors to simulate empathy and attempt to elicit empathic responses from humans. The challenge of developing agents with the ability to automatically perceive elicited empathy in humans remains largely unexplored. Our paper presents the first approach to modeling user empathy elicited during interactions with a robotic agent. We collected a new dataset from the novel interaction context of participants listening to a robot storyteller (46 participants, 6.9 hours of video). After each storytelling interaction, participants answered a questionnaire that assessed their level of elicited empathy during the interaction with the robot. We conducted experiments with 8 classical machine learning models and 2 deep learning models (long short-term memory networks and temporal convolutional networks) to detect empathy by leveraging patterns in participants' visual behaviors while they were listening to the robot storyteller. Our highest-performing approach, based on XGBoost, achieved an accuracy of 69% and AUC of 72% when detecting empathy in videos. We contribute insights regarding modeling approaches and visual features for automated empathy detection. Our research informs and motivates future development of empathy perception models that can be leveraged by virtual and robotic agents during human-machine interactions.
翻訳日:2021-08-02 12:51:45 公開日:2021-07-29
# 契約および/またはモノトンネットワークダイナミクスの分散同定

Distributed Identification of Contracting and/or Monotone Network Dynamics ( http://arxiv.org/abs/2107.14309v1 )

ライセンス: Link先を確認
Max Revay, Jack Umenberger, Ian R. Manchester(参考訳) 本稿では,非線形安定性の強い形式である収縮モデルとモノトーンモデルとを保証し,大規模ネットワークシステムの同定手法を提案する。 国家間の秩序関係は 保たれています 私たちが対処する主な課題は、モデルパラメータと安定性の証明書を同時に検索し、数百から数千のノードを持つネットワークへのスケーラビリティです。 本稿では,安定度と単調性に対する凸制約を許容するモデルセットを提案し,乗算器の交互方向法(ADMM)による分散同定が可能な分離可能な構造を持つ。 このアプローチの性能と拡張性は,200次元状態空間を持つ非線形トラフィックネットワークを含む,線形および非線形のケーススタディで説明される。

This paper proposes methods for identification of large-scale networked systems with guarantees that the resulting model will be contracting -- a strong form of nonlinear stability -- and/or monotone, i.e. order relations between states are preserved. The main challenges that we address are: simultaneously searching for model parameters and a certificate of stability, and scalability to networks with hundreds or thousands of nodes. We propose a model set that admits convex constraints for stability and monotonicity, and has a separable structure that allows distributed identification via the alternating directions method of multipliers (ADMM). The performance and scalability of the approach is illustrated on a variety of linear and non-linear case studies, including a nonlinear traffic network with a 200-dimensional state space.
翻訳日:2021-08-02 12:48:37 公開日:2021-07-29
# MLMOD Package: LAMMPSにおけるデータ駆動モデリングのための機械学習手法

MLMOD Package: Machine Learning Methods for Data-Driven Modeling in LAMMPS ( http://arxiv.org/abs/2107.14362v1 )

ライセンス: Link先を確認
Paul J. Atzberger(参考訳) 機械学習を用いて学習したシミュレーションデータ駆動モデルに組み込むソフトウェアパッケージについて論じる。 これらは、 (i) モデリングダイナミクスと時間ステップ統合、 (ii) システムコンポーネント間の相互作用のモデリング、および (iii) システムの状態を特徴付ける関心量の計算に使用できる。 このパッケージは、ニューラルネットワーク、ガウス過程回帰、カーネルモデル、その他のアプローチを含む一般的なモデルクラスによる機械学習メソッドの使用を可能にする。 このホワイトペーパーでは、プロトタイプのC++パッケージ、目的、使用例について論じます。

We discuss a software package for incorporating into simulations data-driven models trained using machine learning methods. These can be used for (i) modeling dynamics and time-step integration, (ii) modeling interactions between system components, and (iii) computing quantities of interest characterizing system state. The package allows for use of machine learning methods with general model classes including Neural Networks, Gaussian Process Regression, Kernel Models, and other approaches. We discuss in this whitepaper our prototype C++ package, aims, and example usage.
翻訳日:2021-08-02 12:48:26 公開日:2021-07-29
# (参考訳) サブグラフ検索に基づくオンライン質問応答システム

An Online Question Answering System based on Sub-graph Searching ( http://arxiv.org/abs/2107.13684v1 )

ライセンス: CC BY 4.0
Shuangyong Song(参考訳) 知識グラフ(KG)は質問応答(QA)アプリケーション、特にエンティティベースのQAに広く使われている。 しかし、大規模な知識グラフ全体から回答を検索するのは非常に時間がかかり、実際のオンラインQAシステムの速度要求を満たすことは困難である。 本稿では,サブグラフインデックスを作成することでこの問題を解決するためのサブグラフ検索機構を設計し,各回答生成ステップをサブグラフレベルで制限する。 我々はこのメカニズムを実際のオンラインQAチャットシステムに利用し、エンティティベースの質問に答えることによって、質問のカバレッジを明らかに改善できると同時に、非常に高速で、オンラインQAのユーザエクスペリエンスを保証することができる。

Knowledge graphs (KGs) have been widely used for question answering (QA) applications, especially the entity based QA. However, searching an-swers from an entire large-scale knowledge graph is very time-consuming and it is hard to meet the speed need of real online QA systems. In this pa-per, we design a sub-graph searching mechanism to solve this problem by creating sub-graph index, and each answer generation step is restricted in the sub-graph level. We use this mechanism into a real online QA chat system, and it can bring obvious improvement on question coverage by well answer-ing entity based questions, and it can be with a very high speed, which en-sures the user experience of online QA.
翻訳日:2021-07-30 22:35:45 公開日:2021-07-29
# (参考訳) 非自己回帰型ニューラルマシン翻訳のための摂動長認識位置符号化

Using Perturbed Length-aware Positional Encoding for Non-autoregressive Neural Machine Translation ( http://arxiv.org/abs/2107.13689v1 )

ライセンス: CC BY 4.0
Yui Oka, Katsuhito Sudoh, and Satoshi Nakamura(参考訳) 非自己回帰型ニューラルネットワーク翻訳(NAT)は通常、自己回帰型ニューラルネットワーク翻訳(AT)を教師モデルとして、シーケンスレベルの知識蒸留を用いる。 しかし、NATモデルはATモデルよりも短い文を出力することが多い。 本研究では,摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案し,それを学生モデルLevenshtein Transformerに適用する。 WMT14ドイツ語から英語への翻訳において,バイリンガル評価法(BLEU)の標準Levenshtein Transformerを最大2.5ポイント上回る性能を示した。 NATモデルはベースラインNATモデルよりも長い文を出力する。

Non-autoregressive neural machine translation (NAT) usually employs sequence-level knowledge distillation using autoregressive neural machine translation (AT) as its teacher model. However, a NAT model often outputs shorter sentences than an AT model. In this work, we propose sequence-level knowledge distillation (SKD) using perturbed length-aware positional encoding and apply it to a student model, the Levenshtein Transformer. Our method outperformed a standard Levenshtein Transformer by 2.5 points in bilingual evaluation understudy (BLEU) at maximum in a WMT14 German to English translation. The NAT model output longer sentences than the baseline NAT models.
翻訳日:2021-07-30 22:32:31 公開日:2021-07-29
# (参考訳) 理論計算機科学から見た意識理論(2) : 意識チューリングマシンからの洞察

A Theory of Consciousness from a Theoretical Computer Science Perspective 2: Insights from the Conscious Turing Machine ( http://arxiv.org/abs/2107.13704v1 )

ライセンス: CC BY 4.0
Lenore Blum, Manuel Blum(参考訳) かつて哲学者や神学者の観念であった意識理解の探求は、現在では多くの分野の科学者によって活発に追求されている。 計算と複雑性の根底にある原理を理解することに関わる数学の分野である理論計算機科学(tcs)の視点から、資源制限の影響や驚くべき結果を含む意識を考察する。 アラン・チューリングのコンピュータの単純かつ強力な定義、チューリングマシン(TM)、および計算複雑性理論の観点から、認知神経科学者バーナード・バールズ(Bernard Baars)による意識のグローバルワークスペース理論(GWT)の修正版を形式化し、スタニスラス・デヘーネ(Stanislas Dehaene)、ジャン=ピエール・チェンドー(Jean-Pierre Changeaux)らによってさらに発展させた。 脳の複雑なモデルや認知のモデルを探すのではなく、(明らかに複雑な)意識の単純な計算モデルを探すのです。 我々は意識的チューリングマシン(CTM)、別名意識AIを定義し、その上で意識と関連する概念をCTMで定義する。 これらは数学的な(TCS)定義に過ぎないが、なぜCTMが意識を持っているのかを示唆する。 tcsパースペクティブは、計算複雑性理論と機械学習のツールを使用して、意識と関連する概念を理解するためのシンプルな形式的フレームワークを提供する。 これまで我々は,CTMにおける痛みと快楽の感情の高レベルな説明について検討した。 ここでは、視覚に関する3つの例(盲目、盲目、盲目の変化)を考察し、次に夢、自由意志、意識の変化について論じる。

The quest to understand consciousness, once the purview of philosophers and theologians, is now actively pursued by scientists of many stripes. We examine consciousness from the perspective of theoretical computer science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations. In the spirit of Alan Turing's simple yet powerful definition of a computer, the Turing Machine (TM), and perspective of computational complexity theory, we formalize a modified version of the Global Workspace Theory (GWT) of consciousness originated by cognitive neuroscientist Bernard Baars and further developed by him, Stanislas Dehaene, Jean-Pierre Changeaux and others. We are not looking for a complex model of the brain nor of cognition, but for a simple computational model of (the admittedly complex concept of) consciousness. We do this by defining the Conscious Turing Machine (CTM), also called a conscious AI, and then we define consciousness and related notions in the CTM. While these are only mathematical (TCS) definitions, we suggest why the CTM has the feeling of consciousness. The TCS perspective provides a simple formal framework to employ tools from computational complexity theory and machine learning to help us understand consciousness and related concepts. Previously we explored high level explanations for the feelings of pain and pleasure in the CTM. Here we consider three examples related to vision (blindsight, inattentional blindness, and change blindness), followed by discussions of dreams, free will, and altered states of consciousness.
翻訳日:2021-07-30 22:25:10 公開日:2021-07-29
# (参考訳) ターゲット分析に基づく異常行動検出

Abnormal Behavior Detection Based on Target Analysis ( http://arxiv.org/abs/2107.13706v1 )

ライセンス: CC BY 4.0
Luchuan Song, Bin Liu, Huihui Zhu, Qi Chu, Nenghai Yu(参考訳) 監視ビデオにおける異常行動検出は、インテリジェントシティの重要な部分である。 既存のほとんどの手法は異常の検出方法のみを考慮しており、異常の原因を説明することは少ない。 これらの異常行動の理由から直交的視点を考察する。 そこで本研究では,対象を物体,動作,運動の3つの枝を通して解析する多変量融合法を提案する。 オブジェクトブランチは外観情報にフォーカスし、モーションブランチは運動特徴の分布にフォーカスし、アクションブランチはターゲットのアクションカテゴリにフォーカスする。 これらの分枝が注目する情報は異なり、互いに補完し、協調して異常行動を検出することができる。 最終的な異常スコアは、3つの枝の異常スコアを組み合わせることで得られる。

Abnormal behavior detection in surveillance video is a pivotal part of the intelligent city. Most existing methods only consider how to detect anomalies, with less considering to explain the reason of the anomalies. We investigate an orthogonal perspective based on the reason of these abnormal behaviors. To this end, we propose a multivariate fusion method that analyzes each target through three branches: object, action and motion. The object branch focuses on the appearance information, the motion branch focuses on the distribution of the motion features, and the action branch focuses on the action category of the target. The information that these branches focus on is different, and they can complement each other and jointly detect abnormal behavior. The final abnormal score can then be obtained by combining the abnormal scores of the three branches.
翻訳日:2021-07-30 21:40:44 公開日:2021-07-29
# (参考訳) 群衆カウントのためのカスケード残留密度ネットワーク

Cascaded Residual Density Network for Crowd Counting ( http://arxiv.org/abs/2107.13718v1 )

ライセンス: CC BY 4.0
Kun Zhao, Luchuan Song, Bin Liu, Qi Chu, Nenghai Yu(参考訳) 実際の群衆シーンにおけるスケールのばらつきや視点のばらつきといった問題のために、群衆のカウントは難しい課題である。 本稿では, 群衆数に対する高品質な密度マップを高精度に生成するために, 粗大なアプローチで新しいカスケード残差密度ネットワーク(CRDNet)を提案する。 1) 逐次的残留密度加群による多スケールピラミッド型特徴量による残留密度マップの推定。 密度マップ層の層別品質を効果的に向上することができる。 2) 局所的なカウントロスを新たに加えることにより, 局所的なカウントの精度を向上し, 局所的な人数を制限し, 画素単位のユークリッド的損失の誤差を低減した。 2つの公開ベンチマークデータセットの実験により,提案手法は最先端の手法と比較して効果的な改善が得られた。

Crowd counting is a challenging task due to the issues such as scale variation and perspective variation in real crowd scenes. In this paper, we propose a novel Cascaded Residual Density Network (CRDNet) in a coarse-to-fine approach to generate the high-quality density map for crowd counting more accurately. (1) We estimate the residual density maps by multi-scale pyramidal features through cascaded residual density modules. It can improve the quality of density map layer by layer effectively. (2) A novel additional local count loss is presented to refine the accuracy of crowd counting, which reduces the errors of pixel-wise Euclidean loss by restricting the number of people in the local crowd areas. Experiments on two public benchmark datasets show that the proposed method achieves effective improvement compared with the state-of-the-art methods.
翻訳日:2021-07-30 21:32:31 公開日:2021-07-29
# (参考訳) UIBert:UI理解のためのジェネリックマルチモーダル表現の学習

UIBert: Learning Generic Multimodal Representations for UI Understanding ( http://arxiv.org/abs/2107.13731v1 )

ライセンス: CC BY 4.0
Chongyang Bai, Xiaoxue Zang, Ying Xu, Srinivas Sunkara, Abhinav Rastogi, Jindong Chen, Blaise Aguera y Arcas(参考訳) スマートデバイスのアクセシビリティを改善し,その使用を簡素化するためには,ユーザインターフェース(UI)を理解し,ユーザのタスク完了を支援するモデルの構築が重要である。 しかし、画像、テキスト、構造メタデータを含むマルチモーダルui機能を効果的に活用する方法や、高品質のラベル付きデータを利用できない場合の優れたパフォーマンスを実現する方法など、ui特有の特徴によってユニークな課題が提案されている。 このような課題に対処するために,大規模なラベルなしuiデータに対する新しい事前トレーニングタスクを通じてトレーニングされたトランスフォーマベースの共同画像テキストモデルであるuibertを導入して,uiとそのコンポーネントの汎用的な特徴表現を学習する。 私たちの重要な直感は、UIの異種機能は自己整合性、すなわちUIコンポーネントのイメージとテキスト機能は、互いに予測可能であることです。 本稿では,この自己調整をuiコンポーネントの異なる機能と同一ui内の各種コンポーネント間で行う5つの事前学習タスクを提案する。 提案手法は,uibertが強力なマルチモーダルベースラインを最大9.26%の精度で上回る9つの実世界のダウンストリームuiタスクで評価する。

To improve the accessibility of smart devices and to simplify their usage, building models which understand user interfaces (UIs) and assist users to complete their tasks is critical. However, unique challenges are proposed by UI-specific characteristics, such as how to effectively leverage multimodal UI features that involve image, text, and structural metadata and how to achieve good performance when high-quality labeled data is unavailable. To address such challenges we introduce UIBert, a transformer-based joint image-text model trained through novel pre-training tasks on large-scale unlabeled UI data to learn generic feature representations for a UI and its components. Our key intuition is that the heterogeneous features in a UI are self-aligned, i.e., the image and text features of UI components, are predictive of each other. We propose five pretraining tasks utilizing this self-alignment among different features of a UI component and across various components in the same UI. We evaluate our method on nine real-world downstream UI tasks where UIBert outperforms strong multimodal baselines by up to 9.26% accuracy.
翻訳日:2021-07-30 21:24:42 公開日:2021-07-29
# (参考訳) メタラベルを用いた半教師付き医療画像セグメンテーションのための自己ペーストコントラスト学習

Self-Paced Contrastive Learning for Semi-supervisedMedical Image Segmentation with Meta-labels ( http://arxiv.org/abs/2107.13741v1 )

ライセンス: CC BY 4.0
Jizong Peng, Ping Wang, Chrisitian Desrosiers, Marco Pedersoli(参考訳) ラベルなしデータの大規模なデータセット上で、コントラスト学習を伴う認識モデルの事前学習は、例えば画像分類のような下流タスクのパフォーマンスを高める大きな可能性を示している。 しかし、医用画像などの領域では、ラベルなしデータの収集は困難でコストがかかる。 本稿では,メタラベルアノテーションを用いたコントラスト学習を適応させ,追加のラベルなしデータがない場合でも医用画像セグメンテーションにおけるモデルの性能を向上させることを提案する。 3dmriスキャンにおける2dスライスの位置や使用されるデバイスの種類などのメタラベルは、取得プロセス中に無料で提供されることが多い。 画像エンコーダをプリトレーニングするためにメタラベルを使用し、半教師付きトレーニングを規則化し、アノテートされたデータの少ないセットをトレーニングに使用する。 最後に、弱いアノテーションを完全に活用するために、学習者が有用なラベルをノイズから識別するのに役立つセルフペースト学習アプローチを用いる。 3つの異なる医用画像セグメンテーションデータセットの結果から, 1) 少数のスキャンでトレーニングしたモデルの性能を高い精度で向上させ, 2) 従来のコントラストと半教師付きアプローチを上回り, 3) フルデータでトレーニングしたモデルの性能に近づいた。

Pre-training a recognition model with contrastive learning on a large dataset of unlabeled data has shown great potential to boost the performance of a downstream task, e.g., image classification. However, in domains such as medical imaging, collecting unlabeled data can be challenging and expensive. In this work, we propose to adapt contrastive learning to work with meta-label annotations, for improving the model's performance in medical image segmentation even when no additional unlabeled data is available. Meta-labels such as the location of a 2D slice in a 3D MRI scan or the type of device used, often come for free during the acquisition process. We use the meta-labels for pre-training the image encoder as well as to regularize a semi-supervised training, in which a reduced set of annotated data is used for training. Finally, to fully exploit the weak annotations, a self-paced learning approach is used to help the learning and discriminate useful labels from noise. Results on three different medical image segmentation datasets show that our approach: i) highly boosts the performance of a model trained on a few scans, ii) outperforms previous contrastive and semi-supervised approaches, and iii) reaches close to the performance of a model trained on the full data.
翻訳日:2021-07-30 21:11:23 公開日:2021-07-29
# (参考訳) 複合条件GANを用いた野生における正面顔認識のプロファイル

Profile to Frontal Face Recognition in the Wild Using Coupled Conditional GAN ( http://arxiv.org/abs/2107.13742v1 )

ライセンス: CC BY 4.0
Fariborz Taherkhani, Veeru Talreja, Jeremy Dawson, Matthew C. Valenti, and Nasser M. Nasrabadi(参考訳) 近年、ディープラーニングの出現に伴い、顔認識は例外的な成功を収めている。 しかし、これらの深層顔認識モデルの多くは、プロフィール顔に比べて前面顔の扱いがはるかに優れている。 プロファイル顔の処理性能が低下する主な理由は、本質的に、プロファイル顔認識に有用なポーズ不変の深い表現を学ぶことが難しいためである。 本稿では、プロファイルフェース領域が、潜在特徴部分空間において、前面フェース領域と潜時接続を有することを仮定する。 我々は、この潜伏接続を利用して、プロファイル面と正面面を共通の潜伏部分空間に投影し、潜伏領域における検証や検索を行う。 我々は,共用条件生成対向ネットワーク(cpGAN)構造を利用して,潜在共通埋め込み部分空間において,プロファイルと正面像の隠れた関係を見出す。 具体的には、cpGANフレームワークは、2つの条件付きGANベースのサブネットワークで構成されている。 各サブネットワークは、共通の埋め込み機能部分空間内の2つの特徴領域間の対関係を最大化する射影を見つける傾向がある。 CFP, CMU Multi-PIE, IJB-A, IJB-Cデータセットを用いて本手法の有効性を実証した。 また,正面顔認識のための複合畳み込みニューラルネットワーク (cpCNN) と対角識別ドメイン適応ネットワーク (ADDA) も実装した。 我々は,cpCNNとADDAの性能を評価し,提案したcpGANと比較した。 最後に,vggface2データセットに含まれる入力プロファイルから前面顔の再構成のためのcpganの評価を行った。

In recent years, with the advent of deep-learning, face recognition has achieved exceptional success. However, many of these deep face recognition models perform much better in handling frontal faces compared to profile faces. The major reason for poor performance in handling of profile faces is that it is inherently difficult to learn pose-invariant deep representations that are useful for profile face recognition. In this paper, we hypothesize that the profile face domain possesses a latent connection with the frontal face domain in a latent feature subspace. We look to exploit this latent connection by projecting the profile faces and frontal faces into a common latent subspace and perform verification or retrieval in the latent domain. We leverage a coupled conditional generative adversarial network (cpGAN) structure to find the hidden relationship between the profile and frontal images in a latent common embedding subspace. Specifically, the cpGAN framework consists of two conditional GAN-based sub-networks, one dedicated to the frontal domain and the other dedicated to the profile domain. Each sub-network tends to find a projection that maximizes the pair-wise correlation between the two feature domains in a common embedding feature subspace. The efficacy of our approach compared with the state-of-the-art is demonstrated using the CFP, CMU Multi-PIE, IJB-A, and IJB-C datasets. Additionally, we have also implemented a coupled convolutional neural network (cpCNN) and an adversarial discriminative domain adaptation network (ADDA) for profile to frontal face recognition. We have evaluated the performance of cpCNN and ADDA and compared it with the proposed cpGAN. Finally, we have also evaluated our cpGAN for reconstruction of frontal faces from input profile faces contained in the VGGFace2 dataset.
翻訳日:2021-07-30 20:54:10 公開日:2021-07-29
# (参考訳) 視点不変運動反復計数

Viewpoint-Invariant Exercise Repetition Counting ( http://arxiv.org/abs/2107.13760v1 )

ライセンス: CC BY 4.0
Yu Cheng Hsu, Qingpeng Zhang, Efstratios Tsougenis, Kwok-Leung Tsui(参考訳) ヒューマンエクササイズと身体的リハビリテーションの繰り返しを数えることは、リハビリテーションと運動訓練において一般的な課題である。 既存のビジョンベースの反復カウント手法は、同じビデオの同時動作をあまり強調しない。 本研究は,様々なポーズ推定法から抽出した骨格位置から同時動作を数えるための視覚に基づくヒューマンモーション反復カウントを提案する。 提案手法は, アイダホ大学身体リハビリテーション運動データセット(UI-PRMD)とMM適合データセットを用いて検証した。 平均絶対誤差(MAE)は0.06であり、OBOAは0.94である。 UI-PRMDデータセット全体のMAEは0.06でOBOA 0.95である。 また,MAE 0.06 と OBOA 0.88 を併用して,様々なカメラ位置と同時動作で性能試験を行った。 提案手法は視野角と運動非依存の同時運動カウントを提供する。 この方法は、1台のカメラだけで大規模なリモートリハビリテーションやエクササイズトレーニングに使用できる可能性がある。

Counting the repetition of human exercise and physical rehabilitation is a common task in rehabilitation and exercise training. The existing vision-based repetition counting methods less emphasize the concurrent motions in the same video. This work presents a vision-based human motion repetition counting applicable to counting concurrent motions through the skeleton location extracted from various pose estimation methods. The presented method was validated on the University of Idaho Physical Rehabilitation Movements Data Set (UI-PRMD), and MM-fit dataset. The overall mean absolute error (MAE) for mm-fit was 0.06 with off-by-one Accuracy (OBOA) 0.94. Overall MAE for UI-PRMD dataset was 0.06 with OBOA 0.95. We have also tested the performance in a variety of camera locations and concurrent motions with conveniently collected video with overall MAE 0.06 and OBOA 0.88. The proposed method provides a view-angle and motion agnostic concurrent motion counting. This method can potentially use in large-scale remote rehabilitation and exercise training with only one camera.
翻訳日:2021-07-30 20:23:40 公開日:2021-07-29
# (参考訳) 財務用語のハイパーネム及び同期ランク付けのための用語展開とフィンバート微調整

Term Expansion and FinBERT fine-tuning for Hypernym and Synonym Ranking of Financial Terms ( http://arxiv.org/abs/2107.13764v1 )

ライセンス: CC BY 4.0
Ankush Chopra and Sohom Ghosh(参考訳) hypernymと同義語マッチングは、主要な自然言語処理(nlp)タスクの1つである。 本稿では,この問題を解決しようとするシステムを提案する。 IJCAI-2021におけるFinNLPワークショップの共有作業であるFinSim-3に参加するために,これらのシステムを設計した。 共有タスクは金融領域でこの問題を解決することに集中します。 分類や句の類似性タスクを微調整することで,様々なトランスフォーマティブによる事前学習埋め込みを実験した。 また,dbpedia (auer et al., 2007), investopedia, and the financial industry business ontology (fibo) の財務用語のオーガナイザと定義から提供されたprospectusを省略して,提供されたデータセットを拡張した。 FinBERT[Araci, 2019]と、前述のソースからのデータ拡張の両方を使用します。 意味的類似性を伴うデータ拡張を用いた用語拡張は,このタスクに有益であり,短いフレーズを扱う他のタスクにも有用であると考えられる。 我々の最高のパフォーマンスモデル(精度:0.917, Rank: 1.156)は、FIBOのラベル階層を用いて作成された拡張ラベルセット上で、細調整のSentenceBERT [Reimers et al., 2019] によって開発された。

Hypernym and synonym matching are one of the mainstream Natural Language Processing (NLP) tasks. In this paper, we present systems that attempt to solve this problem. We designed these systems to participate in the FinSim-3, a shared task of FinNLP workshop at IJCAI-2021. The shared task is focused on solving this problem for the financial domain. We experimented with various transformer based pre-trained embeddings by fine-tuning these for either classification or phrase similarity tasks. We also augmented the provided dataset with abbreviations derived from prospectus provided by the organizers and definitions of the financial terms from DBpedia [Auer et al., 2007], Investopedia, and the Financial Industry Business Ontology (FIBO). Our best performing system uses both FinBERT [Araci, 2019] and data augmentation from the afore-mentioned sources. We observed that term expansion using data augmentation in conjunction with semantic similarity is beneficial for this task and could be useful for the other tasks that deal with short phrases. Our best performing model (Accuracy: 0.917, Rank: 1.156) was developed by fine-tuning SentenceBERT [Reimers et al., 2019] (with FinBERT at the backend) over an extended labelled set created using the hierarchy of labels present in FIBO.
翻訳日:2021-07-30 20:12:59 公開日:2021-07-29
# (参考訳) 正規化フローを用いた確率的単眼3次元人物位置推定

Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows ( http://arxiv.org/abs/2107.13788v1 )

ライセンス: CC BY 4.0
Tom Wehrbein, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt(参考訳) 単眼画像からの3次元人物ポーズ推定は, 深さの曖昧さや咬合による問題である。 それでも、既存のほとんどの研究はこれらの曖昧さを無視し、1つの解のみを見積もっている。 対照的に、我々は、実現可能な3dポーズの完全な後方分布を表す多様な仮説群を生成する。 そこで本研究では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。 さらに、2D検出器の不確かさ情報を条件として組み込むことにより、不確かさの検出と閉塞を効果的にモデル化する。 さらなる成功の鍵は、学習された3Dポーズと、最高のM損失の一般化である。 ベンチマークデータセット human3.6m と mpi-inf-3dhp のアプローチを評価し,ほとんどの指標で比較した手法を上回った。 実装はgithubで公開されている。

3D human pose estimation from monocular images is a highly ill-posed problem due to depth ambiguities and occlusions. Nonetheless, most existing works ignore these ambiguities and only estimate a single solution. In contrast, we generate a diverse set of hypotheses that represents the full posterior distribution of feasible 3D poses. To this end, we propose a normalizing flow based method that exploits the deterministic 3D-to-2D mapping to solve the ambiguous inverse 2D-to-3D problem. Additionally, uncertain detections and occlusions are effectively modeled by incorporating uncertainty information of the 2D detector as condition. Further keys to success are a learned 3D pose prior and a generalization of the best-of-M loss. We evaluate our approach on the two benchmark datasets Human3.6M and MPI-INF-3DHP, outperforming all comparable methods in most metrics. The implementation is available on GitHub.
翻訳日:2021-07-30 20:02:21 公開日:2021-07-29
# (参考訳) 分数ダイナミクスを用いた非マルコフ強化学習

Non-Markovian Reinforcement Learning using Fractional Dynamics ( http://arxiv.org/abs/2107.13790v1 )

ライセンス: CC BY 4.0
Gaurav Gupta, Chenzhong Yin, Jyotirmoy V. Deshmukh, Paul Bogdan(参考訳) 強化学習(Reinforcement Learning, RL)は、確率的環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。 任意の状態において、エージェントは何らかのアクションを行い、環境は次の状態上の確率分布を決定し、エージェントに報酬を与える。 ほとんどのRLアルゴリズムは、環境がマルコフの仮定(すなわち)を満たすと仮定する。 次の状態の確率分布は現在の状態のみに依存する)。 本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。 このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。 モデルベースRL(MBRL)技術は、通常、データから環境のモデルを同時に学習し、学習したモデルに最適なポリシーを識別しようとする。 システムの非マルコビアン性は分数的力学系によってモデル化される手法を提案する。 最適ポリシから有界地平面モデル予測制御を用いたMBRLアルゴリズムの性能差を定量化できることを示す。 最後に,ヒト血糖値動態の薬物動態モデルに関する枠組みを実証し,実世界のデータセットから遠方の相関を捉えることができることを示した。

Reinforcement learning (RL) is a technique to learn the control policy for an agent that interacts with a stochastic environment. In any given state, the agent takes some action, and the environment determines the probability distribution over the next state as well as gives the agent some reward. Most RL algorithms typically assume that the environment satisfies Markov assumptions (i.e. the probability distribution over the next state depends only on the current state). In this paper, we propose a model-based RL technique for a system that has non-Markovian dynamics. Such environments are common in many real-world applications such as in human physiology, biological systems, material science, and population dynamics. Model-based RL (MBRL) techniques typically try to simultaneously learn a model of the environment from the data, as well as try to identify an optimal policy for the learned model. We propose a technique where the non-Markovianity of the system is modeled through a fractional dynamical system. We show that we can quantify the difference in the performance of an MBRL algorithm that uses bounded horizon model predictive control from the optimal policy. Finally, we demonstrate our proposed framework on a pharmacokinetic model of human blood glucose dynamics and show that our fractional models can capture distant correlations on real-world datasets.
翻訳日:2021-07-30 19:46:58 公開日:2021-07-29
# (参考訳) CI-Net:ジョイントセマンティックセグメンテーションと深さ推定のためのコンテキスト情報

CI-Net: Contextual Information for Joint Semantic Segmentation and Depth Estimation ( http://arxiv.org/abs/2107.13800v1 )

ライセンス: CC BY 4.0
Tianxiao Gao, Wu Wei, Zhongbin Cai, Zhun Fan, Shane Xie, Xinmei Wang, Qiuda Yu(参考訳) 単眼深度推定とセマンティックセグメンテーションはシーン理解の基本的な目的である。 タスクインタラクションの利点により、多くの研究が共同作業学習アルゴリズムを研究している。 しかし、既存のほとんどのメソッドはセマンティックラベルを完全に活用できず、提供されたコンテキスト構造を無視し、セグメント分割の予測を監督するためにのみ使用する。 本稿では,その問題を解決するために,文脈情報(CI-Net)を注入したネットワークを提案する。 具体的には、注意マップを生成するエンコーダに自己注意ブロックを導入する。 セマンティックラベルが生み出した根底的な真実からの監督により、ネットワークはコンテキスト情報に埋め込まれ、シーンをよりよく理解し、依存する特徴を利用して正確な予測を行う。 さらに、タスク固有の機能を深く融合させる機能共有モジュールを構築し、その機能を相互にガイドする一貫性損失を考案する。 提案したCI-NetをNYU-Depth-v2およびSUN-RGBDデータセット上で評価する。 実験の結果,提案したCI-Netが最先端技術と競合していることが確認された。

Monocular depth estimation and semantic segmentation are two fundamental goals of scene understanding. Due to the advantages of task interaction, many works study the joint task learning algorithm. However, most existing methods fail to fully leverage the semantic labels, ignoring the provided context structures and only using them to supervise the prediction of segmentation split. In this paper, we propose a network injected with contextual information (CI-Net) to solve the problem. Specifically, we introduce self-attention block in the encoder to generate attention map. With supervision from the ground truth created by semantic labels, the network is embedded with contextual information so that it could understand the scene better, utilizing dependent features to make accurate prediction. Besides, a feature sharing module is constructed to make the task-specific features deeply fused and a consistency loss is devised to make the features mutually guided. We evaluate the proposed CI-Net on the NYU-Depth-v2 and SUN-RGBD datasets. The experimental results validate that our proposed CI-Net is competitive with the state-of-the-arts.
翻訳日:2021-07-30 19:30:32 公開日:2021-07-29
# (参考訳) 連続性から編集可能性:連続画像によるGANの反転

From Continuity to Editability: Inverting GANs with Consecutive Images ( http://arxiv.org/abs/2107.13812v1 )

ライセンス: CC BY 4.0
Yangyang Xu, Yong Du, Wenpeng Xiao, Xuemiao Xu and Shengfeng He(参考訳) 既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。 そのうちの1つだけでは、実際の画像編集は実現できない。 本稿では,この逆転過程に連続した画像(映像フレームやポーズの異なる人物)を導入することで,このパラドックスを解消する。 私たちのソリューションの背景にある理論的根拠は、連続した画像の連続性が固有の編集可能な方向につながるということです。 この独立性は、2つのユニークな目的のために使用される: 1) 共同逆転過程を規則化し、各逆転したコードは一方から意味的にアクセスでき、編集可能なドメインで固定される; 2) 逆転したコードの忠実度を他の画像の補体で最大化するように、画像間コヒーレンスを強制する。 大規模な実験により,本手法は,実画像データセットと合成データセットの両方において,再現精度と編集性において,最先端の手法を著しく上回ることを示した。 さらに,本手法は,映像ベースGAN変換の最初のサポートと,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。 ソースコードは以下の通りである。 \url{https://github.com/Qingyang-Xu/InvertingGANs_with_ConsecutiveImgs}。

Existing GAN inversion methods are stuck in a paradox that the inverted codes can either achieve high-fidelity reconstruction, or retain the editing capability. Having only one of them clearly cannot realize real image editing. In this paper, we resolve this paradox by introducing consecutive images (\eg, video frames or the same person with different poses) into the inversion process. The rationale behind our solution is that the continuity of consecutive images leads to inherent editable directions. This inborn property is used for two unique purposes: 1) regularizing the joint inversion process, such that each of the inverted code is semantically accessible from one of the other and fastened in a editable domain; 2) enforcing inter-image coherence, such that the fidelity of each inverted code can be maximized with the complement of other images. Extensive experiments demonstrate that our alternative significantly outperforms state-of-the-art methods in terms of reconstruction fidelity and editability on both the real image dataset and synthesis dataset. Furthermore, our method provides the first support of video-based GAN inversion, and an interesting application of unsupervised semantic transfer from consecutive images. Source code can be found at: \url{https://github.com/Qingyang-Xu/InvertingGANs_with_ConsecutiveImgs}.
翻訳日:2021-07-30 19:11:11 公開日:2021-07-29
# (参考訳) 生物・化学プロセスのデータ駆動ソフトセンシングのための半教師付き学習

Semi-supervised Learning for Data-driven Soft-sensing of Biological and Chemical Processes ( http://arxiv.org/abs/2107.13822v1 )

ライセンス: CC BY-SA 4.0
Erik Esche, Torben Talis, Joris Weigert, Gerardo Brand-Rihm, Byungjun You, Christian Hoffmann, Jens-Uwe Repke(参考訳) 連続運転(バイオ)化学プロセスは、供給変動や市場の状況の変化といった外部の混乱にますます悩まされる。 製品の品質は、まれに測定される濃度の制御に左右されることが多い。 半教師付き回帰は、頻繁な測定状態に対するソフトセンサーを構築するための機械学習からのビルディングブロックとメソッドである。 ウィリアムズ・オットー法とバイオエタノール製造法という2つのケーススタディを用いて、半教師付き回帰を標準回帰法と比較し、その利点と(バイオ)化学産業におけるプロセス制御の適用範囲を評価する。

Continuously operated (bio-)chemical processes increasingly suffer from external disturbances, such as feed fluctuations or changes in market conditions. Product quality often hinges on control of rarely measured concentrations, which are expensive to measure. Semi-supervised regression is a possible building block and method from machine learning to construct soft-sensors for such infrequently measured states. Using two case studies, i.e., the Williams-Otto process and a bioethanol production process, semi-supervised regression is compared against standard regression to evaluate its merits and its possible scope of application for process control in the (bio-)chemical industry.
翻訳日:2021-07-30 18:58:37 公開日:2021-07-29
# (参考訳) 多チャンネル音声記録を用いたブラインドルームパラメータ推定

Blind Room Parameter Estimation Using Multiple-Multichannel Speech Recordings ( http://arxiv.org/abs/2107.13832v1 )

ライセンス: CC BY 4.0
Prerak Srivastava, Antoine Deleforge, Emmanuel Vincent(参考訳) 部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。 本稿では,複数の音源受信者位置からの2チャンネル雑音音声記録に基づいて,室内の総表面積,音量,周波数依存性の残響時間,平均表面吸収をブラインド方式で同時推定する問題について検討する。 単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。 シミュレーションデータと実データの両方の結果から,1室で複数の観測値を用いた場合,全ての目標量の推定誤差やばらつきが著しく低減され,二つのチャネルが表面および体積の推定に有効であることが示唆された。 提案手法は,最近提案されたブラインドボリューム推定法よりも優れている。

Knowing the geometrical and acoustical parameters of a room may benefit applications such as audio augmented reality, speech dereverberation or audio forensics. In this paper, we study the problem of jointly estimating the total surface area, the volume, as well as the frequency-dependent reverberation time and mean surface absorption of a room in a blind fashion, based on two-channel noisy speech recordings from multiple, unknown source-receiver positions. A novel convolutional neural network architecture leveraging both single- and inter-channel cues is proposed and trained on a large, realistic simulated dataset. Results on both simulated and real data show that using multiple observations in one room significantly reduces estimation errors and variances on all target quantities, and that using two channels helps the estimation of surface and volume. The proposed model outperforms a recently proposed blind volume estimation method on the considered datasets.
翻訳日:2021-07-30 18:57:44 公開日:2021-07-29
# (参考訳) 転写学習による材料の微細構造多様性

Addressing materials' microstructure diversity using transfer learning ( http://arxiv.org/abs/2107.13841v1 )

ライセンス: CC BY 4.0
Aur\`ele Goetz, Ali Riza Durmaz, Martin M\"uller, Akhil Thomas, Dominik Britz, Pierre Kerfriden and Chris Eberl(参考訳) 材料の微細構造は合金組成と加工の歴史の象徴である。 そのため、微細構造は多種多様である。 工学的要求を満たすために材料が複雑化するにつれて、深層学習(DL)のような高度なコンピュータビジョン(CV)アプローチは、マイクログラフからマイクロストラクチャの構成成分を定量化するために必然的に関連性を得る。 DLは多くのタスクで従来のCV技術より優れているが、欠点はデータセット間のデータ効率と一般化性である。 これは本来、専門家による注釈データや幅広い資料の多様性に関連する費用と矛盾している。 ドメインの一般化性の低下とラベル付きデータの欠如に対処するため,教師なしドメイン適応(UDA)と呼ばれるサブクラス転送学習手法を提案する。 これらのアルゴリズムは、アノテーションがないにもかかわらず、後者のディストリビューションのパフォーマンスが最適化されるように、アノテーション付きソースデータと注釈なしターゲットデータで供給されたドメイン不変の特徴を見つけるタスクに対処する。 本研究は, 複合相鋼板の溶湯状ベイナイトセグメンテーションタスクについて実例で検討した。 ここで、ブリッジへのドメインは、異なる金属試料調製物(表面エッチング)と異なる撮像モードに選択される。 我々は、最先端のUDAアプローチが、ターゲットドメイン(一般化ベースライン)上のソースドメイン訓練モデルの na\" 適用をはるかに上回っていることを示す。 これは、ほとんどデータを使用しておらず、ベースラインモデルが事前トレーニングされたり、データ拡張が行われたりしても、ドメインシフトとは独立している。 UDAを通じて、mIoUは一般化ベースラインを82.2%、61.0%、49.7%から84.7%、67.3%、73.3%に改善した。 これは、この手法が材料のばらつきに対処する可能性を示す。

Materials' microstructures are signatures of their alloying composition and processing history. Therefore, microstructures exist in a wide variety. As materials become increasingly complex to comply with engineering demands, advanced computer vision (CV) approaches such as deep learning (DL) inevitably gain relevance for quantifying microstrucutures' constituents from micrographs. While DL can outperform classical CV techniques for many tasks, shortcomings are poor data efficiency and generalizability across datasets. This is inherently in conflict with the expense associated with annotating materials data through experts and extensive materials diversity. To tackle poor domain generalizability and the lack of labeled data simultaneously, we propose to apply a sub-class of transfer learning methods called unsupervised domain adaptation (UDA). These algorithms address the task of finding domain-invariant features when supplied with annotated source data and unannotated target data, such that performance on the latter distribution is optimized despite the absence of annotations. Exemplarily, this study is conducted on a lath-shaped bainite segmentation task in complex phase steel micrographs. Here, the domains to bridge are selected to be different metallographic specimen preparations (surface etchings) and distinct imaging modalities. We show that a state-of-the-art UDA approach surpasses the na\"ive application of source domain trained models on the target domain (generalization baseline) to a large extent. This holds true independent of the domain shift, despite using little data, and even when the baseline models were pre-trained or employed data augmentation. Through UDA, mIoU was improved over generalization baselines from 82.2%, 61.0%, 49.7% to 84.7%, 67.3%, 73.3% on three target datasets, respectively. This underlines this techniques' potential to cope with materials variance.
翻訳日:2021-07-30 18:45:51 公開日:2021-07-29
# (参考訳) MLP-ADAMを用いた地下水位予測のための人工知能ハイブリッド深層学習モデル

Artificial Intelligence Hybrid Deep Learning Model for Groundwater Level Prediction Using MLP-ADAM ( http://arxiv.org/abs/2107.13870v1 )

ライセンス: CC BY 4.0
Pejman Zarafshan, Saman Javadi, Abbas Roozbahani, Seyed Mehdi Hashemy, Payam Zarafshan, Hamed Etezadi(参考訳) 地下水は淡水資源の最大の貯蔵物であり、農業、工業、家庭の水供給を通じて人間の消費のほとんどを主要な在庫としている。 流体学の分野では、時空の降雨強度を予測するためにニューラルネットワークを適用し、数値モデルと比較してニューラルネットワークの利点を導入した研究者もいる。 そして、データ駆動モデルを適用した多くの研究が行われている。 そのうちのいくつかは、半濃縮氷河砂と砂利帯水層における地下水位を変動状態で予測するために、ニューラルネットワーク(ANN)モデルを拡張した。 本稿では,多層パーセプトロンを用いて地下水位をシミュレーションする。 この問題には適応モーメント推定最適化アルゴリズムも用いられる。 シミュレーション地下水位の精度を評価するために、根平均二乗誤差、平均絶対誤差、平均二乗誤差、および判定係数()を用いる。 RMSEの合計値は0.9458と0.7313であり、それぞれモデル出力から得られる。 その結果,深層学習アルゴリズムは高精度な予測が可能となった。 パラメータの最適化は数では重要ではないが、モデリング設定における時間の値のため、モデリングに最適化アルゴリズムを適用することが推奨される。

Groundwater is the largest storage of freshwater resources, which serves as the major inventory for most of the human consumption through agriculture, industrial, and domestic water supply. In the fields of hydrological, some researchers applied a neural network to forecast rainfall intensity in space-time and introduced the advantages of neural networks compared to numerical models. Then, many researches have been conducted applying data-driven models. Some of them extended an Artificial Neural Networks (ANNs) model to forecast groundwater level in semi-confined glacial sand and gravel aquifer under variable state, pumping extraction and climate conditions with significant accuracy. In this paper, a multi-layer perceptron is applied to simulate groundwater level. The adaptive moment estimation optimization algorithm is also used to this matter. The root mean squared error, mean absolute error, mean squared error and the coefficient of determination ( ) are used to evaluate the accuracy of the simulated groundwater level. Total value of and RMSE are 0.9458 and 0.7313 respectively which are obtained from the model output. Results indicate that deep learning algorithms can demonstrate a high accuracy prediction. Although the optimization of parameters is insignificant in numbers, but due to the value of time in modelling setup, it is highly recommended to apply an optimization algorithm in modelling.
翻訳日:2021-07-30 18:22:52 公開日:2021-07-29
# (参考訳) 対人個人格付け最適化法が推薦品質に及ぼす影響の理解

Understanding the Effects of Adversarial Personalized Ranking Optimization Method on Recommendation Quality ( http://arxiv.org/abs/2107.13876v1 )

ライセンス: CC BY 4.0
Vito Walter Anelli, Yashar Deldjoo, Tommaso Di Noia, Felice Antonio Merra(参考訳) Recommender System (RS) はユーザーからのフィードバック(例えばレーティングなど)を使って顧客と製品のパーソナライズされたリストをマッチングする。 トップkレコメンデーションへのアプローチは主にLearning-to-Rankアルゴリズムに依存しており、その中で最も広く採用されているのはBayesian Personalized Ranking(BPR)である。 近年、BPRはモデルパラメータの逆転摂動に対して脆弱であることが判明した。 対人個人格付け(Adversarial Personalized Ranking, APR)は、対人訓練によってBPRを堅牢化することでこの問題を緩和する。 BPRにおけるAPRの精度性能の実証的な改善により、いくつかの推奨モデルで広く利用されている。 しかし、APRのビルディングブロックであるBPRがバイアスの増大とレコメンデーションノベルティの減少に敏感であることを示す最近の研究結果を考えると、APRの過度な性能、すなわち、新規性、カバレッジ、人気バイアスの増幅が注目されている。 本研究では,bprおよびapr最適化フレームワークの学習特性をモデル化し,フィードバックデータがテール分布を持つ場合,短頭項目からの肯定的な更新数が不均衡であることから,aprがbprよりも人気バイアスを増幅することを示す。 行列因子分解(mf)を用いて,bpr-mf と apr-mf の性能を精度と精度の指標で比較するために,2つの公開データセットで予備実験を行い,理論結果を実証的に検証した。 実験の結果, 新奇性および被覆率の低下と, バイアスの懸念の増幅が一貫して示された。

Recommender systems (RSs) employ user-item feedback, e.g., ratings, to match customers to personalized lists of products. Approaches to top-k recommendation mainly rely on Learning-To-Rank algorithms and, among them, the most widely adopted is Bayesian Personalized Ranking (BPR), which bases on a pair-wise optimization approach. Recently, BPR has been found vulnerable against adversarial perturbations of its model parameters. Adversarial Personalized Ranking (APR) mitigates this issue by robustifying BPR via an adversarial training procedure. The empirical improvements of APR's accuracy performance on BPR have led to its wide use in several recommender models. However, a key overlooked aspect has been the beyond-accuracy performance of APR, i.e., novelty, coverage, and amplification of popularity bias, considering that recent results suggest that BPR, the building block of APR, is sensitive to the intensification of biases and reduction of recommendation novelty. In this work, we model the learning characteristics of the BPR and APR optimization frameworks to give mathematical evidence that, when the feedback data have a tailed distribution, APR amplifies the popularity bias more than BPR due to an unbalanced number of received positive updates from short-head items. Using matrix factorization (MF), we empirically validate the theoretical results by performing preliminary experiments on two public datasets to compare BPR-MF and APR-MF performance on accuracy and beyond-accuracy metrics. The experimental results consistently show the degradation of novelty and coverage measures and a worrying amplification of bias.
翻訳日:2021-07-30 18:14:35 公開日:2021-07-29
# (参考訳) QuPeD: 蒸留による量子パーソナライゼーションとフェデレーション学習への応用

QuPeD: Quantized Personalization via Distillation with Applications to Federated Learning ( http://arxiv.org/abs/2107.13892v1 )

ライセンス: CC BY 4.0
Kaan Ozkara, Navjot Singh, Deepesh Data, Suhas Diggavi(参考訳) 従来のFLは、複数のクライアントとサーバを協調的に使用しながら、単一のグローバルモデルをトレーニングすることを目的としています。 FLアルゴリズムが直面する2つの自然な課題は、クライアント間でのデータの不均一性と、クライアントとのコラボレーションである。 本研究では、異種データやリソースにアクセス可能なクライアント間での「textit{knowledge distillation}」(KD)を介して、集合的(個人化されたモデル圧縮)訓練を容易にする「textit{quantized}」と「textit{personalized}」FLアルゴリズム「QuPeD」を導入する。 パーソナライズのために、クライアントは異なる量子化パラメータとモデル次元/構造を持つ \textit{compressed Personalized model} を学習できる。 そこで我々はまず,量子化値も最適化される緩和最適化問題を通じて量子化モデルを学習するアルゴリズムを提案する。 各クライアントが圧縮モデル(モデル次元と精度の両方において)に対して異なる要求を持つ場合、グローバルモデルを介して協調するローカルクライアントの目的に対して知識蒸留損失を導入することにより、圧縮パーソナライズフレームワークを定式化する。 この圧縮パーソナライズ問題を解決するための交互の近位勾配更新を開発し,その収束特性を分析する。 数値的には、QuPeDは、さまざまな異種環境におけるクライアントの個人化FLメソッド、FedAvg、およびローカルトレーニングよりも優れていた。

Traditionally, federated learning (FL) aims to train a single global model while collaboratively using multiple clients and a server. Two natural challenges that FL algorithms face are heterogeneity in data across clients and collaboration of clients with {\em diverse resources}. In this work, we introduce a \textit{quantized} and \textit{personalized} FL algorithm QuPeD that facilitates collective (personalized model compression) training via \textit{knowledge distillation} (KD) among clients who have access to heterogeneous data and resources. For personalization, we allow clients to learn \textit{compressed personalized models} with different quantization parameters and model dimensions/structures. Towards this, first we propose an algorithm for learning quantized models through a relaxed optimization problem, where quantization values are also optimized over. When each client participating in the (federated) learning process has different requirements for the compressed model (both in model dimension and precision), we formulate a compressed personalization framework by introducing knowledge distillation loss for local client objectives collaborating through a global model. We develop an alternating proximal gradient update for solving this compressed personalization problem, and analyze its convergence properties. Numerically, we validate that QuPeD outperforms competing personalized FL methods, FedAvg, and local training of clients in various heterogeneous settings.
翻訳日:2021-07-30 18:01:35 公開日:2021-07-29
# (参考訳) テキスト認識のための実データを試してみるべき理由

Why You Should Try the Real Data for the Scene Text Recognition ( http://arxiv.org/abs/2107.13938v1 )

ライセンス: CC BY 4.0
Vladimir Loginov(参考訳) テキスト認識領域における最近の研究は、認識結果をニューホライズンズに推進している。 しかし長い間、人間がラベルを付けた自然テキスト認識データセットの欠如は、研究者にテキスト認識モデルのトレーニングに合成データを使うよう強制されてきた。 合成データセットは非常に大きい(最も有名な2つの合成データセットであるMJSynthとSynthTestは、それぞれ数百万の画像を持っている)が、ICDARなどの自然データセットと比較して、その多様性は不十分である可能性がある。 幸いなことに、最近リリースされたOpenImages V5データセットのテキスト認識アノテーションは、合成データセットの数やより多様な例と同等である。 我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。 いくつかのデータセットでは、以前のSOTAモデルよりも優れています。 本稿では,テキスト認識モデルについても述べる。 モデルのコードは利用可能だ。

Recent works in the text recognition area have pushed forward the recognition results to the new horizons. But for a long time a lack of large human-labeled natural text recognition datasets has been forcing researchers to use synthetic data for training text recognition models. Even though synthetic datasets are very large (MJSynth and SynthTest, two most famous synthetic datasets, have several million images each), their diversity could be insufficient, compared to natural datasets like ICDAR and others. Fortunately, the recently released text-recognition annotation for OpenImages V5 dataset has comparable with synthetic dataset number of instances and more diverse examples. We have used this annotation with a Text Recognition head architecture from the Yet Another Mask Text Spotter and got comparable to the SOTA results. On some datasets we have even outperformed previous SOTA models. In this paper we also introduce a text recognition model. The model's code is available.
翻訳日:2021-07-30 17:59:14 公開日:2021-07-29
# (参考訳) マイクロインフルエンサーのランキング:新しいマルチタスク学習と解釈可能なフレームワーク

Ranking Micro-Influencers: a Novel Multi-Task Learning and Interpretable Framework ( http://arxiv.org/abs/2107.13943v1 )

ライセンス: CC BY 4.0
Adam Elwood, Alberto Gasparin, Alessandro Rozza(参考訳) ブランド商品の宣伝にソーシャルメディアが使われるようになり、効果的なインフルエンサーマーケティングへの需要が高まっている。 これは"マイクロインフルエンサー(micro-influencers)"が主流の製品よりも手頃な価格だが発見が難しいため、さらに難しい。 本稿では,マルチメディアコンテンツに基づくマイクロインフルエンサーランキングにおける技術状況を改善するための,新しいマルチタスク学習フレームワークを提案する。 さらに,ブランドとインフルエンサーの視覚的一致が互換性のよい尺度であることが示されていることから,ブランドのメディア戦略の伝達にも利用できる,モデル決定を効果的に解釈するための視覚的手法を提供する。 最近構築されたパブリックデータセットの現在の状態と比較し、精度とモデルの複雑さの両面で大幅な改善を示す。 この研究で提示されるランキングと解釈のテクニックは、類似した構造を持つデータセットを持つ任意のマルチメディアランキングタスクに一般化することができる。

With the rise in use of social media to promote branded products, the demand for effective influencer marketing has increased. Brands are looking for improved ways to identify valuable influencers among a vast catalogue; this is even more challenging with "micro-influencers", which are more affordable than mainstream ones but difficult to discover. In this paper, we propose a novel multi-task learning framework to improve the state of the art in micro-influencer ranking based on multimedia content. Moreover, since the visual congruence between a brand and influencer has been shown to be good measure of compatibility, we provide an effective visual method for interpreting our models' decisions, which can also be used to inform brands' media strategies. We compare with the current state-of-the-art on a recently constructed public dataset and we show significant improvement both in terms of accuracy and model complexity. The techniques for ranking and interpretation presented in this work can be generalised to arbitrary multimedia ranking tasks that have datasets with a similar structure.
翻訳日:2021-07-30 17:47:44 公開日:2021-07-29
# (参考訳) demystifying neural language models's insensitivity to word-order

Demystifying Neural Language Models' Insensitivity to Word-Order ( http://arxiv.org/abs/2107.13955v1 )

ライセンス: CC BY 4.0
Louis Clouatre, Prasanna Parthasarathi, Amal Zouaq, Sarath Chandar(参考訳) 自然言語理解モデルの単語順摂動に対する感受性を分析する最近の研究では、いくつかの言語タスクにおける最先端のモデルは、従来の構文や意味論で説明できないテキストを理解するユニークな方法を持っている可能性がある。 本稿では,自然言語モデルの単語順への無感性について,摂動を定量化し,そのニューラルモデルの性能が言語理解タスクに与える影響をglueベンチマークで解析する。 そこで本研究では, 直交変位(DND)と指数変位数(IDC)の2つの指標を提案し, 乱れたテキスト中のトークンの局所的およびグローバルな順序付けをスコアし, 局所的な順序付けが比較的乱される一方で, 先行文献に見られる摂動関数がグローバルな順序付けにのみ影響することを観察する。 本研究では,自然言語タスクにおけるdnd,idcとニューラル言語モデルの性能の関係を調べるために,サブワードと文字の粒度における摂動を提案する。 ニューラルネットワークモデル – 事前訓練されたトランスフォーマー、lstm、畳み込みアーキテクチャ – では、トークンのグローバルな順序付けよりも、局所的な順序付けが必要であることが分かりました。 提案されたメトリクスと摂動のスイートは、ニューラルネットワーク理解モデルの感度を様々な摂動の程度に研究する体系的な方法を可能にする。

Recent research analyzing the sensitivity of natural language understanding models to word-order perturbations have shown that the state-of-the-art models in several language tasks may have a unique way to understand the text that could seldom be explained with conventional syntax and semantics. In this paper, we investigate the insensitivity of natural language models to word-order by quantifying perturbations and analysing their effect on neural models' performance on language understanding tasks in GLUE benchmark. Towards that end, we propose two metrics - the Direct Neighbour Displacement (DND) and the Index Displacement Count (IDC) - that score the local and global ordering of tokens in the perturbed texts and observe that perturbation functions found in prior literature affect only the global ordering while the local ordering remains relatively unperturbed. We propose perturbations at the granularity of sub-words and characters to study the correlation between DND, IDC and the performance of neural language models on natural language tasks. We find that neural language models - pretrained and non-pretrained Transformers, LSTMs, and Convolutional architectures - require local ordering more so than the global ordering of tokens. The proposed metrics and the suite of perturbations allow a systematic way to study the (in)sensitivity of neural language understanding models to varying degree of perturbations.
翻訳日:2021-07-30 17:32:40 公開日:2021-07-29
# (参考訳) PPT核融合 : ピラミッドパッチ変換器による画像融合の事例研究

PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion ( http://arxiv.org/abs/2107.13967v1 )

ライセンス: CC0 1.0
Yu Fu, TianYang Xu, XiaoJun Wu, Josef Kittler(参考訳) トランスフォーマーアーキテクチャは近年急速に発展し、画像分類のためのビジョントランスフォーマー(ViT)など多くのコンピュータビジョンタスクにおいてCNNのアーカイテクチュアを上回っている。 しかし、既存の視覚変換モデルは、分類や検出、入力画像の空間分解能のゆがみ、入力の再構築や高解像度画像の生成における能力の犠牲となるような高レベルのタスクに対する意味情報を抽出することを目的としている。 そこで本稿では,上記の課題を効果的に解決するためのパッチピラミッドトランスフォーマ(ppt)を提案する。 我々はまず,まずパッチの列にテーマを変換するパッチ変換器を設計し,各パッチに対して変換器エンコーディングを行い,局所表現を抽出し,また画像全体から非局所情報を効果的に抽出するピラミッド変換器を構築した。 原画像の多次元・多次元・多角形状の集合を得た後,画像再構成ネットワークを設計し,特徴を元の入力に再構成できるようにする。 画像融合課題に対して提案したパッチピラミッド変換器を適用し, 実験結果により, 現状の融合手法よりも優れた性能を示し, 評価指標の最適値を得ることができた。 PPTネットワークの根底にある能力は、特徴抽出と画像再構成における普遍的なパワーによって反映され、ネットワークを再調整することなく、異なる画像融合タスクに直接適用することができる。

The Transformer architecture has achieved rapiddevelopment in recent years, outperforming the CNN archi-tectures in many computer vision tasks, such as the VisionTransformers (ViT) for image classification. However, existingvisual transformer models aim to extract semantic informationfor high-level tasks such as classification and detection, distortingthe spatial resolution of the input image, thus sacrificing thecapacity in reconstructing the input or generating high-resolutionimages. In this paper, therefore, we propose a Patch PyramidTransformer(PPT) to effectively address the above issues. Specif-ically, we first design a Patch Transformer to transform theimage into a sequence of patches, where transformer encodingis performed for each patch to extract local representations.In addition, we construct a Pyramid Transformer to effectivelyextract the non-local information from the entire image. Afterobtaining a set of multi-scale, multi-dimensional, and multi-anglefeatures of the original image, we design the image reconstructionnetwork to ensure that the features can be reconstructed intothe original input. To validate the effectiveness, we apply theproposed Patch Pyramid Transformer to the image fusion task.The experimental results demonstrate its superior performanceagainst the state-of-the-art fusion approaches, achieving the bestresults on several evaluation indicators. The underlying capacityof the PPT network is reflected by its universal power in featureextraction and image reconstruction, which can be directlyapplied to different image fusion tasks without redesigning orretraining the network.
翻訳日:2021-07-30 17:11:47 公開日:2021-07-29
# (参考訳) 山西省における脳卒中リスク評価の多目的最適化と説明

Multi-objective optimization and explanation for stroke risk assessment in Shanxi province ( http://arxiv.org/abs/2107.14060v1 )

ライセンス: CC BY 4.0
ing Ma, Yiyang Sun, Junjie Liu, Huaxiong Huang, Xiaoshuang Zhou and Shixin Xu(参考訳) ストロークは中国で最大の死因である(Zhou et al)。 2019年)。 山西省のデータセットは、患者の4つの状態におけるリスクを識別するために使用され、SHAP DeepExplainerを通じて状態遷移傾向を提供する。 不均衡なサンプルセットの精度を向上させるために、二次的インタラクティブな特徴の選択と付加を柔軟に行うことで、QIDNNモデルが最初に提案される。 実験結果から、7つのインタラクティブな特徴を持つQIDNNモデルは8.25 %$の最先端精度を実現することがわかった。 血圧、身体的不活性、喫煙、体重、総コレステロールは5つの重要な特徴である。 そして、最も緊急な状態である攻撃状態を高いリコールのために、多目的最適化の恩恵を受ける補助目的として、ストローク発生予測を行う。 予測精度は向上し、攻撃状態のリコールは、同じ特徴を持つQIDNN (67.93\%$) と比較して24.9\%$ (84.83\%$) 改善された。 本論文の予測モデルと解析ツールは, 理論上最適化された予測手法を提供するだけでなく, 患者毎のリスク状態と遷移方向の帰属説明を提供し, 医師が疾患を分析し, 診断するための好適なツールとなった。

Stroke is the top leading causes of death in China (Zhou et al. The Lancet 2019). A dataset from Shanxi Province is used to identify the risk of each patient's at four states low/medium/high/attack and provide the state transition tendency through a SHAP DeepExplainer. To improve the accuracy on an imbalance sample set, the Quadratic Interactive Deep Neural Network (QIDNN) model is first proposed by flexible selecting and appending of quadratic interactive features. The experimental results showed that the QIDNN model with 7 interactive features achieve the state-of-art accuracy $83.25\%$. Blood pressure, physical inactivity, smoking, weight and total cholesterol are the top five important features. Then, for the sake of high recall on the most urgent state, attack state, the stroke occurrence prediction is taken as an auxiliary objective to benefit from multi-objective optimization. The prediction accuracy was promoted, meanwhile the recall of the attack state was improved by $24.9\%$ (to $84.83\%$) compared to QIDNN (from $67.93\%$) with same features. The prediction model and analysis tool in this paper not only gave the theoretical optimized prediction method, but also provided the attribution explanation of risk states and transition direction of each patient, which provided a favorable tool for doctors to analyze and diagnose the disease.
翻訳日:2021-07-30 16:55:41 公開日:2021-07-29
# (参考訳) TERRA-REFの高分解能マルチセンサー・プラントはコンピュータビジョン・コミュニティに何をもたらすのか?

What Does TERRA-REF's High Resolution, Multi Sensor Plant Sensing Public Domain Data Offer the Computer Vision Community? ( http://arxiv.org/abs/2107.14072v1 )

ライセンス: CC BY 4.0
David LeBauer, Max Burnette, Noah Fahlgren, Rob Kooper, Kenton McHenry, Abby Stylianou(参考訳) TERRA-REFプロジェクトの中心的な目的は、フィールド条件下で植物を研究するためのセンシング技術の評価研究のためのオープンアクセス参照データセットを作成することである。 TERRA-REFプログラムは1ヘクタール (~10^4$ m) を1週間に約1 mm^2$の空間分解能でスキャンすることを目的として、高解像度で最先端の技術センサーをガントリーシステムに展開した。 このシステムは、ステレオペアRGBカメラ、サーマルイメージ装置、レーザースキャナーで3D構造を捉え、300-2500nmの波長をカバーする2つのハイパースペクトルカメラを含む。 このセンサーデータは、新しい機械学習モデルのトレーニングに使用できる60種類以上の伝統的な植物計測と共に提供される。 気象・環境計測、農業管理・実験設計に関する情報、数百種の植物種のゲノム配列が収集され、センサーおよび植物形質(フェノタイプ)データとともに利用可能である。 TERRA-REFシステムは4年と10年で1PB以上のセンサーデータと約4500万のファイルを生成しました。 パブリックドメインにリリースされたサブセットは2シーズンで、総データ量の約半分を占めている。 これは、プロジェクトのコア生物学的スコープをはるかに超えた調査に、前例のない機会を提供する。 本稿では,コンピュータビジョンと機械学習のコミュニティに対して,利用可能なデータの概要と,この種のデータの潜在的応用について述べる。

A core objective of the TERRA-REF project was to generate an open-access reference dataset for the study of evaluation of sensing technology to study plants under field conditions. The TERRA-REF program deployed a suite of high resolution, cutting edge technology sensors on a gantry system with the aim of scanning 1 hectare (~$10^4$ m) at around $1 mm^2$ spatial resolution multiple times per week. The system contains co-located sensors including a stereo-pair RGB camera, a thermal imager, a laser scanner to capture 3D structure, and two hyperspectral cameras covering wavelengths of 300-2500nm. This sensor data is provided alongside over sixty types of traditional plant measurements that can be used to train new machine learning models. Associated weather and environmental measurements, information about agronomic management and experimental design, and the genomic sequences of hundreds of plant varieties have been collected and are available alongside the sensor and plant trait (phenotype) data. Over the course of four years and ten growing seasons, the TERRA-REF system generated over 1 PB of sensor data and almost 45 million files. The subset that has been released to the public domain accounts for two seasons and about half of the total data volume. This provides an unprecedented opportunity for investigations far beyond the core biological scope of the project. This focus of this paper is to provide the Computer Vision and Machine Learning communities an overview of the available data and some potential applications of this one of a kind data.
翻訳日:2021-07-30 16:43:28 公開日:2021-07-29
# (参考訳) 資金洗浄活動を検出するための文書署名分析のための全自動パイプライン

Fully-Automatic Pipeline for Document Signature Analysis to Detect Money Laundering Activities ( http://arxiv.org/abs/2107.14091v1 )

ライセンス: CC BY 4.0
Nikhil Woodruff, Amir Enshaei, Bashar Awwad Shiekh Hasan(参考訳) 企業文書上に存在する署名は、利害関係者間の関係の調査によく用いられ、オフライン署名検証のタスクに関する先行研究は、標準署名データセットの幅広い方法を評価している。 しかしながら、そのようなタスクは、現実世界のコンテキストをすべて取り除いた、独立した署名画像の収集、調整、ラベル付けにおいて、以前の人間の監督の恩恵を受けることが多い。 英国会社ハウスのようなオンライン文書リポジトリにある署名には、印紙の下での場所、サイズ、品質、難読度が頻繁に含まれている。 企業文書の取得から個々の署名のクラスタリングまで,人間による支援なしに,署名抽出とキュレーションの統合パイプラインを提案する。 我々は,複数のヒューリスティックな手法,畳み込みニューラルネットワーク,生成する敵ネットワーク,および畳み込みシームズネットワークを用いて,それぞれ署名抽出,フィルタリング,クリーニング,埋め込みを行う。 文書署名解析において,不明瞭な同一著者の署名ペアのマッチングにおけるパイプラインの有効性と,そのパイプライン全体の文書署名解析に対する効果の両立と,実際のマネーロンダリング研究の分野におけるそのようなパイプラインの利用性について検討した。

Signatures present on corporate documents are often used in investigations of relationships between persons of interest, and prior research into the task of offline signature verification has evaluated a wide range of methods on standard signature datasets. However, such tasks often benefit from prior human supervision in the collection, adjustment and labelling of isolated signature images from which all real-world context has been removed. Signatures found in online document repositories such as the United Kingdom Companies House regularly contain high variation in location, size, quality and degrees of obfuscation under stamps. We propose an integrated pipeline of signature extraction and curation, with no human assistance from the obtaining of company documents to the clustering of individual signatures. We use a sequence of heuristic methods, convolutional neural networks, generative adversarial networks and convolutional Siamese networks for signature extraction, filtering, cleaning and embedding respectively. We evaluate both the effectiveness of the pipeline at matching obscured same-author signature pairs and the effectiveness of the entire pipeline against a human baseline for document signature analysis, as well as presenting uses for such a pipeline in the field of real-world anti-money laundering investigation.
翻訳日:2021-07-30 16:32:00 公開日:2021-07-29
# (参考訳) テスト時間変換による対向ロバスト性向上

Enhancing Adversarial Robustness via Test-time Transformation Ensembling ( http://arxiv.org/abs/2107.14110v1 )

ライセンス: CC BY 4.0
Juan C. P\'erez, Motasem Alfarra, Guillaume Jeanneret, Laura Rueda, Ali Thabet, Bernard Ghanem, Pablo Arbel\'aez(参考訳) 深層学習モデルは、敵攻撃として知られる知覚不能な摂動に騙される傾向がある。 本研究では,TTE(Test-time Transformation Ensembling)を組み込んだモデルが,このような攻撃に対する信頼性の高い防御として機能するかを検討する。 入力データを列車と試験時間の両方で変換することはモデル性能を向上させることが知られているが、その逆の堅牢性への影響は研究されていない。 本稿では,TTEによる画像変換が対向的強靭性に与える影響について,総合的な実証的研究を行った。 我々は、TTEは、再トレーニングを必要とせずに、様々な強力な攻撃に対するモデルロバスト性を一貫して改善し、この改善は、クリーンサンプルの正確性と事実上トレードオフがないことを示す。 最後に、TTEの利点が認証されたロバスト性ドメインにもたらされることを示し、TTEは最大で一貫した改善を提供する。

Deep learning models are prone to being fooled by imperceptible perturbations known as adversarial attacks. In this work, we study how equipping models with Test-time Transformation Ensembling (TTE) can work as a reliable defense against such attacks. While transforming the input data, both at train and test times, is known to enhance model performance, its effects on adversarial robustness have not been studied. Here, we present a comprehensive empirical study of the impact of TTE, in the form of widely-used image transforms, on adversarial robustness. We show that TTE consistently improves model robustness against a variety of powerful attacks without any need for re-training, and that this improvement comes at virtually no trade-off with accuracy on clean samples. Finally, we show that the benefits of TTE transfer even to the certified robustness domain, in which TTE provides sizable and consistent improvements.
翻訳日:2021-07-30 16:21:54 公開日:2021-07-29
# (参考訳) AIによる脆弱性人口のマッピング

Mapping Vulnerable Populations with AI ( http://arxiv.org/abs/2107.14123v1 )

ライセンス: CC BY-SA 4.0
Benjamin Kellenberger and John E. Vargas-Mu\~noz and Devis Tuia and Rodrigo C. Daudt and Konrad Schindler and Thao T-T Whelan and Brenda Ayo and Ferda Ofli and Muhammad Imran(参考訳) 人道的行動は、支援操作を効率的に委譲するために正確な情報を必要とする。 そのような情報は、建物の足跡、建物の機能、人口密度の地図である。 この情報へのアクセスは、信頼できる国勢調査データと全国の地理データインフラのおかげで、先進国では両立しやすいが、開発途上国では、データが不完全あるいは時代遅れである場合が多い。 リモートセンシング画像から導かれる地図の構築は、こうした国々では部分的にこの課題を解決しているが、ランドスケープの設定や検証データの欠如により必ずしも正確ではない。 建物が存在している場合でも、建物の足跡層は、通常、建物の数や機能(オフィス、住宅、学校など)など、よりきめ細かい建物特性を明らかにしない。 このプロジェクトでは,異種データソースを用いたフットプリントと関数マッピングの自動化を目指す。 まず,衛星データから建物をデライン化し,深層学習モデルを用いてセマンティックイメージのセグメンテーションを行う。 ビルディング機能は,ツイート等のソーシャルメディアデータを解析して,異なるビルディング機能を自動的に識別し,ビルディングストーリー数などの追加情報を取得することにより,検索される。 これらの付加属性を付加したマップの構築により、人道支援の目標設定を支援するために必要な、より正確な人口密度マップの導出が可能になる。

Humanitarian actions require accurate information to efficiently delegate support operations. Such information can be maps of building footprints, building functions, and population densities. While the access to this information is comparably easy in industrialized countries thanks to reliable census data and national geo-data infrastructures, this is not the case for developing countries, where that data is often incomplete or outdated. Building maps derived from remote sensing images may partially remedy this challenge in such countries, but are not always accurate due to different landscape configurations and lack of validation data. Even when they exist, building footprint layers usually do not reveal more fine-grained building properties, such as the number of stories or the building's function (e.g., office, residential, school, etc.). In this project we aim to automate building footprint and function mapping using heterogeneous data sources. In a first step, we intend to delineate buildings from satellite data, using deep learning models for semantic image segmentation. Building functions shall be retrieved by parsing social media data like for instance tweets, as well as ground-based imagery, to automatically identify different buildings functions and retrieve further information such as the number of building stories. Building maps augmented with those additional attributes make it possible to derive more accurate population density maps, needed to support the targeted provision of humanitarian aid.
翻訳日:2021-07-30 15:57:16 公開日:2021-07-29
# (参考訳) 近代非線形関数オンファンクション回帰

Modern Non-Linear Function-on-Function Regression ( http://arxiv.org/abs/2107.14151v1 )

ライセンス: CC BY 4.0
Aniruddha Rajendra Rao, Matthew Reimherr(参考訳) 本稿では,ニューラルネットワークを用いた関数データに対する非線形関数オン関数回帰モデルを提案する。 本稿では,機能的応答モデリングのために,連続したニューロンからなる隠れ層を用いた枠組みを提案し,fdnn(functional direct neural network)とfbnn(functional basis neural network)の2つのモデル適合戦略を提案する。 どちらも機能データに固有の構造を利用し、機能予測と機能応答の間に存在する複雑な関係を捉えるために明示的に設計されている。 関数勾配を導出してこれらのモデルに適合し、より控えめな結果を得るために正規化手法を実装する。 本研究では,より広範なシミュレーションと実データ例を用いて,複雑な機能モデルを扱う手法のパワーと柔軟性を実証する。

We introduce a new class of non-linear function-on-function regression models for functional data using neural networks. We propose a framework using a hidden layer consisting of continuous neurons, called a continuous hidden layer, for functional response modeling and give two model fitting strategies, Functional Direct Neural Network (FDNN) and Functional Basis Neural Network (FBNN). Both are designed explicitly to exploit the structure inherent in functional data and capture the complex relations existing between the functional predictors and the functional response. We fit these models by deriving functional gradients and implement regularization techniques for more parsimonious results. We demonstrate the power and flexibility of our proposed method in handling complex functional models through extensive simulation studies as well as real data examples.
翻訳日:2021-07-30 15:48:45 公開日:2021-07-29
# (参考訳) ReFormer:イメージキャプションのためのリレーショナルトランス

ReFormer: The Relational Transformer for Image Captioning ( http://arxiv.org/abs/2107.14178v1 )

ライセンス: CC0 1.0
Xuewen Yang, Yingru Liu, Xin Wang(参考訳) 画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。 現在のキャプションエンコーダは、グラフ畳み込みネット(gcn)を使用して関連情報を表現し、畳み込みまたは畳み込みを介して対象領域の特徴とマージし、文復号の最終入力を得る。 しかし、既存の手法におけるgcnベースのエンコーダは、2つの理由によりキャプションにはあまり効果がない。 第一に、画像キャプションを目的(すなわち最大類似度推定)として使う場合、関係中心の損失ではなく、エンコーダのポテンシャルを十分に調べることができない。 第二に、エンコーダ自体の代わりに事前訓練されたモデルを使用して関係を抽出することは柔軟性がなく、モデルの説明可能性に寄与できない。 画像キャプションの質を向上させるため,画像内のオブジェクト間の対関係を明示的に表現し,関係情報を埋め込んだ特徴を生成できるリレーショナルトランスフォーマを提案する。 reformerは、1つの変圧器モデルを用いてシーングラフ生成の目的を画像キャプションの目的と組み込んでいる。 この設計により、ReFormerは強力なリレーショナルイメージ特徴を抽出するベネフィットに優れた画像キャプションを生成するだけでなく、シーングラフでペアワイドなリレーショナルシップを明示的に記述することができる。 公開データセットにおける実験により,画像キャプションとシーングラフ生成における最先端手法を有意に上回っていることが示された。

Image captioning is shown to be able to achieve a better performance by using scene graphs to represent the relations of objects in the image. The current captioning encoders generally use a Graph Convolutional Net (GCN) to represent the relation information and merge it with the object region features via concatenation or convolution to get the final input for sentence decoding. However, the GCN-based encoders in the existing methods are less effective for captioning due to two reasons. First, using the image captioning as the objective (i.e., Maximum Likelihood Estimation) rather than a relation-centric loss cannot fully explore the potential of the encoder. Second, using a pre-trained model instead of the encoder itself to extract the relationships is not flexible and cannot contribute to the explainability of the model. To improve the quality of image captioning, we propose a novel architecture ReFormer -- a RElational transFORMER to generate features with relation information embedded and to explicitly express the pair-wise relationships between objects in the image. ReFormer incorporates the objective of scene graph generation with that of image captioning using one modified Transformer model. This design allows ReFormer to generate not only better image captions with the bene-fit of extracting strong relational image features, but also scene graphs to explicitly describe the pair-wise relation-ships. Experiments on publicly available datasets show that our model significantly outperforms state-of-the-art methods on image captioning and scene graph generation
翻訳日:2021-07-30 15:31:40 公開日:2021-07-29
# (参考訳) 視覚変換器の相対位置符号化再考と改善

Rethinking and Improving Relative Position Encoding for Vision Transformer ( http://arxiv.org/abs/2107.14222v1 )

ライセンス: CC BY 4.0
Kan Wu and Houwen Peng and Minghao Chen and Jianlong Fu and Hongyang Chao(参考訳) リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャするために重要である。 自然言語処理では一般的な効果が証明されている。 しかし、コンピュータビジョンでは、その効果は十分に研究されておらず、相対的な位置エンコーディングが絶対位置と同等に機能するかどうかなど、議論すら残されている。 そこで本研究では, 既存の相対位置符号化法を概観し, 視覚トランスフォーマーに適用した場合の長所と短所を分析した。 次に,画像RPE(iRPE)と呼ばれる2次元画像専用の位置符号化手法を提案する。 本手法では,双方向相対距離モデリングと,問合せと相対位置埋め込みの相互作用について検討する。 提案手法は単純かつ軽量である。 簡単にトランスブロックに差し込むことができる。 提案された符号化法により、DeiTとDETRは、学習率や重量減少などの余分なハイパーパラメータを調整せずに、ImageNetとCOCOのオリジナルバージョンよりも最大1.5%(トップ-1 Acc)と1.3%(mAP)の安定な改善が得られることを示した。 我々のアブレーションと分析は興味深い発見をもたらし、いくつかは以前の理解と相反する。 コードとモデルはhttps://github.com/microsoft/Cream/tree/main/iRPEで公開されている。

Relative position encoding (RPE) is important for transformer to capture sequence ordering of input tokens. General efficacy has been proven in natural language processing. However, in computer vision, its efficacy is not well studied and even remains controversial, e.g., whether relative position encoding can work equally well as absolute position? In order to clarify this, we first review existing relative position encoding methods and analyze their pros and cons when applied in vision transformers. We then propose new relative position encoding methods dedicated to 2D images, called image RPE (iRPE). Our methods consider directional relative distance modeling as well as the interactions between queries and relative position embeddings in self-attention mechanism. The proposed iRPE methods are simple and lightweight. They can be easily plugged into transformer blocks. Experiments demonstrate that solely due to the proposed encoding methods, DeiT and DETR obtain up to 1.5% (top-1 Acc) and 1.3% (mAP) stable improvements over their original versions on ImageNet and COCO respectively, without tuning any extra hyperparameters such as learning rate and weight decay. Our ablation and analysis also yield interesting findings, some of which run counter to previous understanding. Code and models are open-sourced at https://github.com/microsoft/Cream/tree/main/iRPE.
翻訳日:2021-07-30 15:15:06 公開日:2021-07-29
# (参考訳) RSO: 特徴選択のための新しい強化Swarm最適化アルゴリズム

RSO: A Novel Reinforced Swarm Optimization Algorithm for Feature Selection ( http://arxiv.org/abs/2107.14199v1 )

ライセンス: CC BY 4.0
Hritam Basak, Mayukhmali Das, Susmita Modak(参考訳) Swarm最適化アルゴリズムは、データマイニングや機械学習アプリケーションの前に機能選択に広く利用されている。 メタヒューリスティックな自然にインスパイアされた特徴選択アプローチは、単一目的の最適化タスクに使用されるが、主な問題は、頻繁な早期収束であり、データマイニングに弱い寄与をもたらす。 本稿では,機能選択の問題点を生かした新しい特徴選択アルゴリズムである強化群最適化(rso)を提案する。 このアルゴリズムは、広く使われているbee swarm optimization (bso)アルゴリズムと強化学習 (rl) を組み込んで、優れた検索エージェントの報酬を最大化し、劣る者を罰する。 このハイブリッド最適化アルゴリズムはより適応的で堅牢であり、探索空間の活用と探索のバランスが良好である。 提案手法は,均衡データと不均衡データの完全なブレンドを含む,広く知られている25のuciデータセット上で評価される。 得られた結果は、類似した分類器構成を持つ他の人気かつ最近の特徴選択アルゴリズムと比較される。 実験の結果,提案手法は25例中22例(88%)でBSOより優れていた。 また,本研究の結果から,提案手法の優越性を確立した25例中19例 (76%) において,rsoが最も優れた結果を示した。

Swarm optimization algorithms are widely used for feature selection before data mining and machine learning applications. The metaheuristic nature-inspired feature selection approaches are used for single-objective optimization tasks, though the major problem is their frequent premature convergence, leading to weak contribution to data mining. In this paper, we propose a novel feature selection algorithm named Reinforced Swarm Optimization (RSO) leveraging some of the existing problems in feature selection. This algorithm embeds the widely used Bee Swarm Optimization (BSO) algorithm along with Reinforcement Learning (RL) to maximize the reward of a superior search agent and punish the inferior ones. This hybrid optimization algorithm is more adaptive and robust with a good balance between exploitation and exploration of the search space. The proposed method is evaluated on 25 widely known UCI datasets containing a perfect blend of balanced and imbalanced data. The obtained results are compared with several other popular and recent feature selection algorithms with similar classifier configurations. The experimental outcome shows that our proposed model outperforms BSO in 22 out of 25 instances (88%). Moreover, experimental results also show that RSO performs the best among all the methods compared in this paper in 19 out of 25 cases (76%), establishing the superiority of our proposed method.
翻訳日:2021-07-30 14:45:17 公開日:2021-07-29
# リャプノフに基づく安全強化学習

Lyapunov-based uncertainty-aware safe reinforcement learning ( http://arxiv.org/abs/2107.13944v1 )

ライセンス: Link先を確認
Ashkan B. Jeddi, Nariman L. Dehghani, Abdollah Shafieezadeh(参考訳) 強化学習(Reinforcement Learning, RL)は、様々な逐次意思決定タスクに対して最適な政策を学ぶ上で有望な性能を示す。 しかし、多くの現実世界のRL問題では、主な目的を最適化する以外に、エージェントは一定のレベルの安全性(例えば、自動運転における衝突を避ける)を満たすことが期待されている。 RL問題は一般にマルコフ決定プロセス(MDP)として定式化されているが、安全制約はマルコフ決定プロセス(CMDP)を介して組み込まれている。 近年の安全RLの進歩により、CMDPにおける安全な政策の学習が可能になったが、これらの安全要件は、トレーニングとデプロイメントプロセスの両方において満たされるべきである。 さらに、メモリベースおよび部分的に観測可能な環境では、これらの手法が未発見の分散観測よりも安全性を維持できないことが示されている。 これらの制約に対処するため,リャプノフに基づく安全RLモデルを提案する。 導入されたモデルは、軌道に基づく制約を局所線形制約の集合に変換するリアプノフ関数を採用する。 さらに,不確実性の高い環境下でのエージェントの安全性を確保するため,制約違反の確率を推定することでリスク回避行動を識別できる不確実性定量化手法を開発した。 さらに、トランスフォーマーモデルを統合して、セルフアテンション機構を介して情報の長時間の地平線を処理するためのメモリを提供する。 提案モデルはグリッドワールドナビゲーションタスクにおいて評価され、完全かつ部分的に観測可能な環境での静的および動的障害の回避として安全性が定義されている。 これらの実験の結果, 最適性の達成と安全制約の充足の両方において, 薬剤の性能が著しく向上したことが示された。

Reinforcement learning (RL) has shown a promising performance in learning optimal policies for a variety of sequential decision-making tasks. However, in many real-world RL problems, besides optimizing the main objectives, the agent is expected to satisfy a certain level of safety (e.g., avoiding collisions in autonomous driving). While RL problems are commonly formalized as Markov decision processes (MDPs), safety constraints are incorporated via constrained Markov decision processes (CMDPs). Although recent advances in safe RL have enabled learning safe policies in CMDPs, these safety requirements should be satisfied during both training and in the deployment process. Furthermore, it is shown that in memory-based and partially observable environments, these methods fail to maintain safety over unseen out-of-distribution observations. To address these limitations, we propose a Lyapunov-based uncertainty-aware safe RL model. The introduced model adopts a Lyapunov function that converts trajectory-based constraints to a set of local linear constraints. Furthermore, to ensure the safety of the agent in highly uncertain environments, an uncertainty quantification method is developed that enables identifying risk-averse actions through estimating the probability of constraint violations. Moreover, a Transformers model is integrated to provide the agent with memory to process long time horizons of information via the self-attention mechanism. The proposed model is evaluated in grid-world navigation tasks where safety is defined as avoiding static and dynamic obstacles in fully and partially observable environments. The results of these experiments show a significant improvement in the performance of the agent both in achieving optimality and satisfying safety constraints.
翻訳日:2021-07-30 13:31:00 公開日:2021-07-29
# 楽観的な探究を通じてより多くのスキルを学ぶ

Learning more skills through optimistic exploration ( http://arxiv.org/abs/2107.14226v1 )

ライセンス: Link先を確認
DJ Strouse, Kate Baumli, David Warde-Farley, Vlad Mnih, Steven Hansen(参考訳) unsupervised skill learning objectives (gregor et al., 2016 eysenbach et al., 2018)は、エージェントが過剰な報酬がなければ、豊富な行動のレパートリーを学ぶことができる。 それらは、識別可能な潜在条件の軌跡を生成するためのポリシーを同時に訓練し、また、潜在条件の軌跡を軌跡から推論することによって識別可能性を評価するための判別器である。 エージェントがそれぞれのスキル(ラテント)を確実に異なる状態に到達させることによって、環境を探索し、マスターすることを希望する。 しかし、内在的な探索問題 リンガー: 新たな状態が実際に遭遇した場合、判別者は、正確で自信のあるスキル分類を作成するのに十分な訓練データを見ておらず、エージェントに内在的な報酬が少なくなり、目的を最大化するために必要な探索の効果的なペナルティ化につながる。 この本質的な悲観主義と探索に向けて戦うために、差別者のアンサンブルを訓練し、彼らの不一致に対する政策に報いる情報獲得補助目的を導出する。 本研究の目的は, 識別器が十分な訓練例を見ていないことから生じるてんかんの不確実性を直接推定し, 偽会計法よりも本質的な報奨を与えることである(Burda et al., 2019)。 我々はこの探索ボーナス差別を本質的な報酬(disDAIN)とは呼ばない。 我々は,テーブル型グリッド(4部屋)とアタリスイート(ピクセルから)の57ゲームの両方において,disdainがスキル学習を改善することを実証的に示す。 そこで我々は,disDAINによる悲観的治療を研究者に奨励する。

Unsupervised skill learning objectives (Gregor et al., 2016, Eysenbach et al., 2018) allow agents to learn rich repertoires of behavior in the absence of extrinsic rewards. They work by simultaneously training a policy to produce distinguishable latent-conditioned trajectories, and a discriminator to evaluate distinguishability by trying to infer latents from trajectories. The hope is for the agent to explore and master the environment by encouraging each skill (latent) to reliably reach different states. However, an inherent exploration problem lingers: when a novel state is actually encountered, the discriminator will necessarily not have seen enough training data to produce accurate and confident skill classifications, leading to low intrinsic reward for the agent and effective penalization of the sort of exploration needed to actually maximize the objective. To combat this inherent pessimism towards exploration, we derive an information gain auxiliary objective that involves training an ensemble of discriminators and rewarding the policy for their disagreement. Our objective directly estimates the epistemic uncertainty that comes from the discriminator not having seen enough training examples, thus providing an intrinsic reward more tailored to the true objective compared to pseudocount-based methods (Burda et al., 2019). We call this exploration bonus discriminator disagreement intrinsic reward, or DISDAIN. We demonstrate empirically that DISDAIN improves skill learning both in a tabular grid world (Four Rooms) and the 57 games of the Atari Suite (from pixels). Thus, we encourage researchers to treat pessimism with DISDAIN.
翻訳日:2021-07-30 13:30:32 公開日:2021-07-29
# 畳み込み変換器を用いたビデオ異常検出用二重識別器生成器

Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection ( http://arxiv.org/abs/2107.13720v1 )

ライセンス: Link先を確認
Xinyang Feng, Dongjin Song, Yuncong Chen, Zhengzhang Chen, Jingchao Ni, Haifeng Chen(参考訳) 実世界の監視ビデオにおける異常な活動の検出は、ビデオ異常に関する事前の知識が制限されるか、あるいは利用できないため、重要かつ困難な作業である。 この問題を解決するために多くのアプローチが開発されているが、通常の時空間パターンを効果的かつ効率的に捉えられるものはほとんどない。 さらに、既存の作品では、フレームレベルでの局所的一貫性と、映像列における時間的ダイナミクスのグローバルコヒーレンスを明示的に考慮することがほとんどない。 そこで本稿では,CT-D2GAN(Convolutional Transformer based Dual Discriminator Generative Adversarial Networks)を提案する。 具体的には,まず,将来のフレーム予測を行う畳み込みトランスを提案する。 これには、入力されたビデオクリップの空間情報をキャプチャする畳み込みエンコーダ、時間的ダイナミクスをエンコードする時間的自己保持モジュール、時空間的特徴を統合し将来のフレームを予測する畳み込みデコーダの3つのキーコンポーネントが含まれる。 次に、フレームレベルで局所的な一貫性を維持できる画像識別器と、時間的ダイナミクスのグローバルコヒーレンスを強制できる映像識別器とを併用して、将来のフレーム予測を強化する。 最後に、予測誤差を用いて異常な映像フレームを識別する。 UCSD Ped2, CUHK Avenue, Shanghai Tech Campus という3つのパブリックビデオ異常検出データセットに関する実験的研究により, 提案した対側時空間モデリングフレームワークの有効性が実証された。

Detecting abnormal activities in real-world surveillance videos is an important yet challenging task as the prior knowledge about video anomalies is usually limited or unavailable. Despite that many approaches have been developed to resolve this problem, few of them can capture the normal spatio-temporal patterns effectively and efficiently. Moreover, existing works seldom explicitly consider the local consistency at frame level and global coherence of temporal dynamics in video sequences. To this end, we propose Convolutional Transformer based Dual Discriminator Generative Adversarial Networks (CT-D2GAN) to perform unsupervised video anomaly detection. Specifically, we first present a convolutional transformer to perform future frame prediction. It contains three key components, i.e., a convolutional encoder to capture the spatial information of the input video clips, a temporal self-attention module to encode the temporal dynamics, and a convolutional decoder to integrate spatio-temporal features and predict the future frame. Next, a dual discriminator based adversarial training procedure, which jointly considers an image discriminator that can maintain the local consistency at frame-level and a video discriminator that can enforce the global coherence of temporal dynamics, is employed to enhance the future frame prediction. Finally, the prediction error is used to identify abnormal video frames. Thoroughly empirical studies on three public video anomaly detection datasets, i.e., UCSD Ped2, CUHK Avenue, and Shanghai Tech Campus, demonstrate the effectiveness of the proposed adversarial spatio-temporal modeling framework.
翻訳日:2021-07-30 13:29:28 公開日:2021-07-29
# 微細画像分類のための自己教師付き学習

Self-Supervised Learning for Fine-Grained Image Classification ( http://arxiv.org/abs/2107.13973v1 )

ライセンス: Link先を確認
Farha Al Breiki, Muhammad Ridzuan, Rushali Grandhe(参考訳) きめ細かい画像分類は、非常に微妙な識別特徴を持つクラスの異なるサブカテゴリを特定することを含む。 きめ細かいデータセットは通常、分類プロセスに役立つクラスラベルとともにバウンディングボックスアノテーションを提供する。 しかし、このようなアノテーションを使った大規模なデータセットの構築は、マンモスタスクです。 さらに、この広範なアノテーションは時間がかかり、しばしば専門知識を必要とします。 一方、自己教師付き学習(SSL)は、自由に利用可能なデータを利用してラベルとして機能する監視信号を生成する。 巨大なラベルのないデータでプリテキストタスクを実行することで学習する機能は、複数のダウンストリームタスクに非常に有用であることが証明される。 我々の考えは、モデルが微細な画像クラスの有用な表現を学習できるように、自己スーパービジョンを活用することである。 我々は3種類のモデルを実験した: Jigsaw をプレテキストタスクとして、敵学習(SRGAN)と対照的学習ベース(SimCLR)モデルである。 学習した機能は、きめ細かい画像分類などの下流タスクに使用される。 私たちのコードはhttp://github.com/rush2406/Self-Supervised-Learning-for-Fine-fine- Image-Classificationで利用可能です。

Fine-grained image classification involves identifying different subcategories of a class which possess very subtle discriminatory features. Fine-grained datasets usually provide bounding box annotations along with class labels to aid the process of classification. However, building large scale datasets with such annotations is a mammoth task. Moreover, this extensive annotation is time-consuming and often requires expertise, which is a huge bottleneck in building large datasets. On the other hand, self-supervised learning (SSL) exploits the freely available data to generate supervisory signals which act as labels. The features learnt by performing some pretext tasks on huge unlabelled data proves to be very helpful for multiple downstream tasks. Our idea is to leverage self-supervision such that the model learns useful representations of fine-grained image classes. We experimented with 3 kinds of models: Jigsaw solving as pretext task, adversarial learning (SRGAN) and contrastive learning based (SimCLR) model. The learned features are used for downstream tasks such as fine-grained image classification. Our code is available at http://github.com/rush2406/Self-Supervised-Learning-for-Fine-grained-Image-Classification
翻訳日:2021-07-30 13:28:59 公開日:2021-07-29
# 注意的独立機構を用いた単発連続学習

Few-Shot and Continual Learning with Attentive Independent Mechanisms ( http://arxiv.org/abs/2107.14053v1 )

ライセンス: Link先を確認
Eugene Lee, Cheng-Han Huang, Chen-Yi Lee(参考訳) 深層ニューラルネットワーク(dnn)は、トレーニング分布と高い類似性を持つ分布をテストするためにデプロイされるとうまく機能することが知られている。 新しいタスクへの迅速な適応と、古いタスクを壊滅的に忘れてしまうという2つの大きな課題がある。 このような困難は、少人数学習と継続的な学習に関する現在進行中の研究の道を開いた。 これらの問題に対処するために、注意的独立メカニズム(AIM)を導入する。 特徴抽出とDNNの高次概念学習の分離と合わせて,高速かつ低速な重みを用いた学習の考え方を取り入れた。 AIMは高次の概念学習のために設計されており、独立した概念を学習して新しい課題を解決しようとする専門家の混成によってモデル化されている。 AIMは、既存のディープラーニングフレームワークに挿入可能なモジュールコンポーネントである。 SIBに追加し、MiniImageNetとCIFAR-FSでトレーニングすることで、数ショット学習の能力を実証し、大幅な改善を示した。 また、AIMは、Omniglot、CIFAR-100、MiniImageNetで訓練されたANMLやOMLにも適用され、連続学習におけるその能力を示す。 コードはhttps://github.com/huang50213/AIM-Fewshot-Continualで公開されている。

Deep neural networks (DNNs) are known to perform well when deployed to test distributions that shares high similarity with the training distribution. Feeding DNNs with new data sequentially that were unseen in the training distribution has two major challenges -- fast adaptation to new tasks and catastrophic forgetting of old tasks. Such difficulties paved way for the on-going research on few-shot learning and continual learning. To tackle these problems, we introduce Attentive Independent Mechanisms (AIM). We incorporate the idea of learning using fast and slow weights in conjunction with the decoupling of the feature extraction and higher-order conceptual learning of a DNN. AIM is designed for higher-order conceptual learning, modeled by a mixture of experts that compete to learn independent concepts to solve a new task. AIM is a modular component that can be inserted into existing deep learning frameworks. We demonstrate its capability for few-shot learning by adding it to SIB and trained on MiniImageNet and CIFAR-FS, showing significant improvement. AIM is also applied to ANML and OML trained on Omniglot, CIFAR-100 and MiniImageNet to demonstrate its capability in continual learning. Code made publicly available at https://github.com/huang50213/AIM-Fewshot-Continual.
翻訳日:2021-07-30 13:28:30 公開日:2021-07-29
# ウミガメの保全とコンピュータビジョンの進歩に関する調査の必要性と現状

The Need and Status of Sea Turtle Conservation and Survey of Associated Computer Vision Advances ( http://arxiv.org/abs/2107.14061v1 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 何十億年もの間、ウミガメとその祖先は海の広大な範囲に潜んでいる。 それらは多くの進化的変化を受け、種分化と亜種分化に繋がった。 しかし、過去数十年間、遺伝的変異と人口減少を推し進める最も顕著な力は、大規模な密猟、カメの卵の採集、プラスチック廃棄物を含むゴミの海への投棄など、地球温暖化と人為的影響であった。 これはウミガメの個体群に深刻な有害な影響をもたらし、絶滅に繋がる。 この研究は、ウミガメの個体数の減少の原因となる力、その成功と失敗に伴う世界的な保全努力の必要性、そして、機械学習とコンピュータビジョンシステムを含む最近のウミガメの検出と認識の進歩を詳細に分析し、保護活動を支援することに焦点を当てている。

For over hundreds of millions of years, sea turtles and their ancestors have swum in the vast expanses of the ocean. They have undergone a number of evolutionary changes, leading to speciation and sub-speciation. However, in the past few decades, some of the most notable forces driving the genetic variance and population decline have been global warming and anthropogenic impact ranging from large-scale poaching, collecting turtle eggs for food, besides dumping trash including plastic waste into the ocean. This leads to severe detrimental effects in the sea turtle population, driving them to extinction. This research focusses on the forces causing the decline in sea turtle population, the necessity for the global conservation efforts along with its successes and failures, followed by an in-depth analysis of the modern advances in detection and recognition of sea turtles, involving Machine Learning and Computer Vision systems, aiding the conservation efforts.
翻訳日:2021-07-30 13:28:10 公開日:2021-07-29
# 生成ネットワークにおけるガイドディスタングル

Guided Disentanglement in Generative Networks ( http://arxiv.org/abs/2107.14229v1 )

ライセンス: Link先を確認
Fabio Pizzati, Pietro Cerri, Raoul de Charette(参考訳) 画像から画像への変換(i2i)ネットワークは、対象領域(咬合、霧など)における物理現象の存在下での絡み合い効果に苦しむため、翻訳品質や変動性が低下する。 本稿では,ニューラルモデルや物理モデルを用いて学習過程を指導し,その翻訳における物理特性を分離する包括的手法を提案する。 後者では,逆推定と遺伝的アルゴリズムを統合し,解離を正しく行う。 その結果,画像翻訳の難解なシナリオの多くにおいて,我々のアプローチは性能を劇的に向上させることがわかった。

Image-to-image translation (i2i) networks suffer from entanglement effects in presence of physics-related phenomena in target domain (such as occlusions, fog, etc), thus lowering the translation quality and variability. In this paper, we present a comprehensive method for disentangling physics-based traits in the translation, guiding the learning process with neural or physical models. For the latter, we integrate adversarial estimation and genetic algorithms to correctly achieve disentanglement. The results show our approach dramatically increase performances in many challenging scenarios for image translation.
翻訳日:2021-07-30 13:27:52 公開日:2021-07-29
# モデルは変わったか? 機械学習apiシフトの効率的な評価

Did the Model Change? Efficiently Assessing Machine Learning API Shifts ( http://arxiv.org/abs/2107.14203v1 )

ライセンス: Link先を確認
Lingjiao Chen, Tracy Cai, Matei Zaharia, James Zou(参考訳) 機械学習(ML)予測APIはますます広く使われている。 ML APIは、モデル更新や再トレーニングによって、時間とともに変更することができる。 このことは、MLモデルがどう変わったか、ユーザにとって明確でないことが多いため、APIの使用において重要な課題となる。 モデルシフトは、ダウンストリームアプリケーションのパフォーマンスに影響を与える可能性がある。 もし一貫性が望まれるなら) 本稿では,ML APIシフトの体系的な調査を開始する。 私たちはまず、さまざまなデータセット上で、Google、Microsoft、Amazonなどから人気のML APIの2020年から2021年までのパフォーマンスシフトを定量化します。 調査対象36例中12例に有意なモデルシフトを認めた。 興味深いことに、APIの予測が時間とともに大幅に悪化するいくつかのデータセットを見つけました。 これにより、データの分散が一定である場合、apiモデルの混乱マトリックスがどのように変化するか見積もることにより、apiシフト評価問題をよりきめ細かいレベルで定式化しました。 標準ランダムサンプリングによる混乱の監視 マトリックスシフトには大量のサンプルが必要であり、各api呼び出しに料金がかかるためコストがかかる。 本稿では,行列シフトを効率的に推定する適応サンプリングアルゴリズム MASA を提案する。 MASAは、ランダムサンプリングよりも90%少ないサンプルを用いて、商用ML APIの混乱行列シフトを正確に推定することができる。 この研究は、ML APIシフトを研究の重要な問題として確立し、そのようなシフトを監視するためのコスト効率の良いアプローチを提供する。

Machine learning (ML) prediction APIs are increasingly widely used. An ML API can change over time due to model updates or retraining. This presents a key challenge in the usage of the API because it is often not clear to the user if and how the ML model has changed. Model shifts can affect downstream application performance and also create oversight issues (e.g. if consistency is desired). In this paper, we initiate a systematic investigation of ML API shifts. We first quantify the performance shifts from 2020 to 2021 of popular ML APIs from Google, Microsoft, Amazon, and others on a variety of datasets. We identified significant model shifts in 12 out of 36 cases we investigated. Interestingly, we found several datasets where the API's predictions became significantly worse over time. This motivated us to formulate the API shift assessment problem at a more fine-grained level as estimating how the API model's confusion matrix changes over time when the data distribution is constant. Monitoring confusion matrix shifts using standard random sampling can require a large number of samples, which is expensive as each API call costs a fee. We propose a principled adaptive sampling algorithm, MASA, to efficiently estimate confusion matrix shifts. MASA can accurately estimate the confusion matrix shifts in commercial ML APIs using up to 90% fewer samples compared to random sampling. This work establishes ML API shifts as an important problem to study and provides a cost-effective approach to monitor such shifts.
翻訳日:2021-07-30 13:27:41 公開日:2021-07-29
# 完全接続型ニューラルネットワークの構造と性能:創発的複雑ネットワーク特性

Structure and Performance of Fully Connected Neural Networks: Emerging Complex Network Properties ( http://arxiv.org/abs/2107.14062v1 )

ライセンス: Link先を確認
Leonardo F. S. Scabini and Odemir M. Bruno(参考訳) ニューラルネットワークの振る舞いを理解することは、近年、ディープラーニングの普及以来、ブラックボックスアプローチが常態化しているため、この分野における主要なトピックの1つである。 このような高次元モデルは、複雑なシステムに似た不安定性と奇妙な性質を示す可能性がある。 そこで本研究では,完全連結ニューラルネットワークの構造と性能を解析するための複雑ネットワーク(CN)手法を提案する。 そのため、私たちは4万のモデルとそれぞれのCNプロパティでデータセットを構築します。 4つのビジョンベンチマークを考慮した教師付き分類設定で採用されている。 各ニューラルネットワークは、ニューロンとシナプスの重み付きおよび非方向のグラフとしてアプローチされ、トレーニング後に集中度測度が計算される。 その結果,これらの尺度はネットワーク分類性能と高い相関性を示した。 また、同様のニューロンを結合するトポロジカルシグネチャを見つけるためのcnベースのアプローチであるbag-of-neurons(bon)の概念を提案する。 その結果,対象領域とは独立して6種類の神経型が出現し,分類精度に応じて異なる分布が認められた。 また,低性能モデルにおける部分グラフ集中度の向上など,パフォーマンスに関連する特定のCN特性についても検討する。 本研究は,CN特性が完全に連結されたニューラルネットワークの性能において重要な役割を担っていることを示唆する。

Understanding the behavior of Artificial Neural Networks is one of the main topics in the field recently, as black-box approaches have become usual since the widespread of deep learning. Such high-dimensional models may manifest instabilities and weird properties that resemble complex systems. Therefore, we propose Complex Network (CN) techniques to analyze the structure and performance of fully connected neural networks. For that, we build a dataset with 4 thousand models and their respective CN properties. They are employed in a supervised classification setup considering four vision benchmarks. Each neural network is approached as a weighted and undirected graph of neurons and synapses, and centrality measures are computed after training. Results show that these measures are highly related to the network classification performance. We also propose the concept of Bag-Of-Neurons (BoN), a CN-based approach for finding topological signatures linking similar neurons. Results suggest that six neuronal types emerge in such networks, independently of the target domain, and are distributed differently according to classification accuracy. We also tackle specific CN properties related to performance, such as higher subgraph centrality on lower-performing models. Our findings suggest that CN properties play a critical role in the performance of fully connected neural networks, with topological patterns emerging independently on a wide range of models.
翻訳日:2021-07-30 13:27:22 公開日:2021-07-29
# 機械学習がインドのモニュメントとランドマークの認識と分類を支援する

Machine Learning Advances aiding Recognition and Classification of Indian Monuments and Landmarks ( http://arxiv.org/abs/2107.14070v1 )

ライセンス: Link先を確認
Aditya Jyoti Paul, Smaranjit Ghose, Kanishka Aggarwal, Niketha Nethaji, Shivam Pal, Arnab Dutta Purkayastha(参考訳) インドの観光業は、2018年のgdpの9.2%を占め、同国経済において重要な役割を担っている。 年間成長率は6.2%であり、アラブ首長国連邦のような中東諸国で見られるように、産業は経済の原動力となる大きな可能性を秘めている。 全国の地理にまたがる歴史的・文化的多様性は、世界中の人々のユニークな見世物であり、毎年数千万人もの観光客を惹きつけるのに役立っている。 伝統的に、これらの歴史遺産を研究するツアーガイドや学術専門家は、その建築や歴史的重要性に関する情報を訪問者に提供する責任を負っていた。 しかし、残念ながらこのシステムは、十分な訓練を受けた人の使用不可能、正確な情報の欠如、詳細の豊かさを魅力的な形式で伝達できないなど、大規模に検討する場合に注意すべき点がいくつかある。 近年,モニュメント画像の使用に関する機械学習手法が,遺産景観の初歩的分析に有用であることが示されている。 本稿は,インドにおける観光体験をより現代的なものにするための自動意思決定システムを構築するための洞察を提供するため,この方向で行われた研究成果のサーベイとして機能する。

Tourism in India plays a quintessential role in the country's economy with an estimated 9.2% GDP share for the year 2018. With a yearly growth rate of 6.2%, the industry holds a huge potential for being the primary driver of the economy as observed in the nations of the Middle East like the United Arab Emirates. The historical and cultural diversity exhibited throughout the geography of the nation is a unique spectacle for people around the world and therefore serves to attract tourists in tens of millions in number every year. Traditionally, tour guides or academic professionals who study these heritage monuments were responsible for providing information to the visitors regarding their architectural and historical significance. However, unfortunately this system has several caveats when considered on a large scale such as unavailability of sufficient trained people, lack of accurate information, failure to convey the richness of details in an attractive format etc. Recently, machine learning approaches revolving around the usage of monument pictures have been shown to be useful for rudimentary analysis of heritage sights. This paper serves as a survey of the research endeavors undertaken in this direction which would eventually provide insights for building an automated decision system that could be utilized to make the experience of tourism in India more modernized for visitors.
翻訳日:2021-07-30 13:27:02 公開日:2021-07-29
# FREE: 汎用ゼロショット学習のための機能強化

FREE: Feature Refinement for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2107.13807v1 )

ライセンス: Link先を確認
Shiming Chen, Wenjie Wang, Beihao Xia, Qinmu Peng, Xinge You, Feng Zheng, Ling Shao(参考訳) 汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えない偏見の問題を克服するために多くの取り組みによって大きな進歩を遂げている。 しかし、既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。 このようなバイアスは、必然的にGZSLタスクの品質の悪い視覚的特徴をもたらす。 本稿では,一般化ゼロショット学習(FREE)のための特徴改善と呼ばれる,単純で効果的なGZSL手法を提案する。 free は機能改善(fr)モジュールを採用しており、unified generative model に \textit{semantic$\rightarrow$visual} マッピングを組み込んで、目に見えないクラスサンプルの視覚的特徴を洗練している。 さらに,自己適応型マージンセンターロス(samc-loss)を提案し,意味的サイクルコンシスタンスロスと協調してfrを誘導し,クラスおよび意味的に関連した表現を学習し,frの特徴を結合して完全洗練した特徴を抽出する。 5つのベンチマークデータセットに対する大規模な実験は、ベースラインと現在の最先端メソッドよりも、FREEの大幅なパフォーマンス向上を示している。 私たちのコードはhttps://github.com/shiming-chen/freeで利用可能です。

Generalized zero-shot learning (GZSL) has achieved significant progress, with many efforts dedicated to overcoming the problems of visual-semantic domain gap and seen-unseen bias. However, most existing methods directly use feature extraction models trained on ImageNet alone, ignoring the cross-dataset bias between ImageNet and GZSL benchmarks. Such a bias inevitably results in poor-quality visual features for GZSL tasks, which potentially limits the recognition performance on both seen and unseen classes. In this paper, we propose a simple yet effective GZSL method, termed feature refinement for generalized zero-shot learning (FREE), to tackle the above problem. FREE employs a feature refinement (FR) module that incorporates \textit{semantic$\rightarrow$visual} mapping into a unified generative model to refine the visual features of seen and unseen class samples. Furthermore, we propose a self-adaptive margin center loss (SAMC-loss) that cooperates with a semantic cycle-consistency loss to guide FR to learn class- and semantically-relevant representations, and concatenate the features in FR to extract the fully refined features. Extensive experiments on five benchmark datasets demonstrate the significant performance gain of FREE over its baseline and current state-of-the-art methods. Our codes are available at https://github.com/shiming-chen/FREE .
翻訳日:2021-07-30 13:26:41 公開日:2021-07-29
# 遠隔場面におけるカメラ内監視者再識別のためのクロスカメラ特徴予測

Cross-Camera Feature Prediction for Intra-Camera Supervised Person Re-identification across Distant Scenes ( http://arxiv.org/abs/2107.13904v1 )

ライセンス: Link先を確認
Wenhang Ge, Chunyan Pan, Ancong Wu, Hongwei Zheng, Wei-Shi Zheng(参考訳) 人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。 Re-ID手法の大半は、隣接するシーンの異なるカメラビューで歩行者が撮影される小規模監視システムに焦点を当てている。 しかし、広い範囲をカバーする大規模な監視システムでは、遠方から興味のある歩行者を追跡する必要がある(例えば、犯罪者はある都市から別の都市へ逃げ出す)。 多くの歩行者が限られた地域にいるため、同一人物のクロスカメラでトレーニングデータを収集することは困難である。 本研究では,遠隔地におけるカメラ内教師による人物再識別(ICS-DS Re-ID)について検討した。 カメラ間のペアリングデータは、既存のRe-IDメソッドでカメラ不変の機能を学ぶ上で重要な役割を果たすため、これは難しい。 クロスカメラ非ペアトレーニングデータからカメラ不変表現を学習するために,偽のクロスカメラ正の特徴対を変換し,偽のペアの距離を最小化することにより,カメラ固有の特徴分布からカメラ間自己監視情報をマイニングするクロスカメラ特徴予測手法を提案する。 さらに,変圧器による局所的な特徴の自動ローカライズと抽出を行う。 グローバルレベルおよびローカルレベル特徴の合同学習は、細粒度クロスカメラ自己監視情報をマイニングするためのグローバルローカルクロスカメラ特徴予測スキームを形成する。 最後に、カメラ間自己監視とカメラ内監視をフレームワークに集約する。 これらの実験は、マーケット-SCT、デューク-SCT、MSMT17-SCTデータセットのICS-DS設定で実施された。 その結果, Market-SCT では第2の最適手法に比べて 15.4 Rank-1 と 22.3 mAP の大幅な改善が得られた。

Person re-identification (Re-ID) aims to match person images across non-overlapping camera views. The majority of Re-ID methods focus on small-scale surveillance systems in which each pedestrian is captured in different camera views of adjacent scenes. However, in large-scale surveillance systems that cover larger areas, it is required to track a pedestrian of interest across distant scenes (e.g., a criminal suspect escapes from one city to another). Since most pedestrians appear in limited local areas, it is difficult to collect training data with cross-camera pairs of the same person. In this work, we study intra-camera supervised person re-identification across distant scenes (ICS-DS Re-ID), which uses cross-camera unpaired data with intra-camera identity labels for training. It is challenging as cross-camera paired data plays a crucial role for learning camera-invariant features in most existing Re-ID methods. To learn camera-invariant representation from cross-camera unpaired training data, we propose a cross-camera feature prediction method to mine cross-camera self supervision information from camera-specific feature distribution by transforming fake cross-camera positive feature pairs and minimize the distances of the fake pairs. Furthermore, we automatically localize and extract local-level feature by a transformer. Joint learning of global-level and local-level features forms a global-local cross-camera feature prediction scheme for mining fine-grained cross-camera self supervision information. Finally, cross-camera self supervision and intra-camera supervision are aggregated in a framework. The experiments are conducted in the ICS-DS setting on Market-SCT, Duke-SCT and MSMT17-SCT datasets. The evaluation results demonstrate the superiority of our method, which gains significant improvements of 15.4 Rank-1 and 22.3 mAP on Market-SCT as compared to the second best method.
翻訳日:2021-07-30 13:26:14 公開日:2021-07-29
# 3次元姿勢推定における相対情報符号化によるロバストさと精度の向上

Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose Estimation ( http://arxiv.org/abs/2107.13994v1 )

ライセンス: Link先を確認
Wenkang Shan, Haopeng Lu, Shanshe Wang, Xinfeng Zhang, Wen Gao(参考訳) 既存の3次元ポーズ推定手法のほとんどは、人体の全体的な軌道(グローバルモーション)ではなく、歯根関節と他のヒト関節(局所運動)との間の3次元位置関係の予測に焦点を当てている。 これらのアプローチによって達成された大きな進歩にもかかわらず、グローバルな動きには堅牢ではなく、小さな動き範囲で局所的な動きを正確に予測する能力が欠如している。 これら2つの問題を緩和するために,位置情報と時間的拡張表現を生成する相対的情報符号化法を提案する。 まず,2dポーズの相対座標を利用して位置情報をエンコードし,入力分布と出力分布の一貫性を高める。 絶対的な2次元位置が異なる同じ姿勢は、共通の表現にマッピングできる。 予測結果に対するグローバルな動きの干渉に抵抗することは有益である。 第2に、時間内に同一人物のポーズと他のポーズとの接続を確立することにより、時間情報を符号化する。 現在のポーズの前と後の動きの変化により多くの注意が払われ、小さな移動範囲を持つ局所的な動きの予測性能が向上する。 アブレーション研究は,提案する相対情報符号化手法の有効性を検証する。 さらに,多段階最適化手法をフレームワーク全体に導入し,位置および時間的拡張表現をさらに活用する。 提案手法は2つの公開データセットで最先端のメソッドよりも優れています。 コードはhttps://github.com/paTRICK-swk/Pose3D-RIEで入手できる。

Most of the existing 3D human pose estimation approaches mainly focus on predicting 3D positional relationships between the root joint and other human joints (local motion) instead of the overall trajectory of the human body (global motion). Despite the great progress achieved by these approaches, they are not robust to global motion, and lack the ability to accurately predict local motion with a small movement range. To alleviate these two problems, we propose a relative information encoding method that yields positional and temporal enhanced representations. Firstly, we encode positional information by utilizing relative coordinates of 2D poses to enhance the consistency between the input and output distribution. The same posture with different absolute 2D positions can be mapped to a common representation. It is beneficial to resist the interference of global motion on the prediction results. Second, we encode temporal information by establishing the connection between the current pose and other poses of the same person within a period of time. More attention will be paid to the movement changes before and after the current pose, resulting in better prediction performance on local motion with a small movement range. The ablation studies validate the effectiveness of the proposed relative information encoding method. Besides, we introduce a multi-stage optimization method to the whole framework to further exploit the positional and temporal enhanced representations. Our method outperforms state-of-the-art methods on two public datasets. Code is available at https://github.com/paTRICK-swk/Pose3D-RIE.
翻訳日:2021-07-30 13:25:47 公開日:2021-07-29
# AutoTinyBERT:効率的な事前学習言語モデルのハイパーパラメータ自動最適化

AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language Models ( http://arxiv.org/abs/2107.13686v1 )

ライセンス: Link先を確認
Yichun Yin, Cheng Chen, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu(参考訳) プレトレーニング言語モデル(PLM)は自然言語処理において大きな成功を収めている。 PLMの多くは、BERT (Devlin et al., 2019) におけるアーキテクチャハイパーパラメータのデフォルト設定(例えば、隠れ次元はフィードフォワードサブネットワークにおける中間次元の4分の1)に従う。 BERTにおけるアーキテクチャハイパーパラメータの設計,特に資源制約されたデバイスへの実用的展開に不可欠な,小型のより効率的なPLMについて,いくつかの研究がなされている。 本稿では,アーキテクチャのハイパーパラメータの自動検索にNAS(One-shot Neural Architecture Search)を採用する。 具体的には,単発学習の手法と探索空間を慎重に設計し,様々な遅延制約に対する小さなPLMの適応的かつ効率的な開発方法を提供する。 提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。 実験により,本手法は,SOTA検索ベースライン(NAS-BERT)とSOTA蒸留ベースライン(DistilBERT,TinyBERT,MiniLM,MobileBERT)のどちらよりも優れていることが示された。 また、得られたアーキテクチャに基づいて、単一のPLMの開発よりも高速な効率的な開発手法を提案する。

Pre-trained language models (PLMs) have achieved great success in natural language processing. Most of PLMs follow the default setting of architecture hyper-parameters (e.g., the hidden dimension is a quarter of the intermediate dimension in feed-forward sub-networks) in BERT (Devlin et al., 2019). Few studies have been conducted to explore the design of architecture hyper-parameters in BERT, especially for the more efficient PLMs with tiny sizes, which are essential for practical deployment on resource-constrained devices. In this paper, we adopt the one-shot Neural Architecture Search (NAS) to automatically search architecture hyper-parameters. Specifically, we carefully design the techniques of one-shot learning and the search space to provide an adaptive and efficient development way of tiny PLMs for various latency constraints. We name our method AutoTinyBERT and evaluate its effectiveness on the GLUE and SQuAD benchmarks. The extensive experiments show that our method outperforms both the SOTA search-based baseline (NAS-BERT) and the SOTA distillation-based methods (such as DistilBERT, TinyBERT, MiniLM and MobileBERT). In addition, based on the obtained architectures, we propose a more efficient development method that is even faster than the development of a single PLM.
翻訳日:2021-07-30 13:25:27 公開日:2021-07-29
# マルチモーダルコラーニング:課題,データセットへの応用,最近の進歩,今後の展開

Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future Directions ( http://arxiv.org/abs/2107.13782v1 )

ライセンス: Link先を確認
Anil Rahate, Rahee Walambe, Sheela Ramanna, Ketan Kotecha(参考訳) テキスト,画像,音声,ビデオなどの複数のモーダルを用いたマルチモーダルディープラーニングシステムは,個別のモーダル (unimodal) システムと比較すると,性能が向上している。 マルチモーダル機械学習には、表現、翻訳、アライメント、融合、コラーニングという複数の側面がある。 マルチモーダル機械学習の現在の状況では、トレーニングやテスト期間中にすべてのモダリティが存在、整列、ノイズのないことが前提となっている。 しかし、現実のタスクでは、通常、1つ以上のモダリティが欠落し、ノイズがあり、注釈付きデータが欠け、信頼できないラベルがあり、トレーニングやテストに不足している。 この課題はマルチモーダルコラーニングと呼ばれる学習パラダイムによって解決される。 モダリティのモデリングは、その表現や予測モデルを含むモダリティ間の知識の伝達を用いて、他の(リソースに富んだ)モダリティからの知識を活用することで支援される。 コラーニングは新興分野であり、コラーニングによって対処されるすべての課題に明示的にフォーカスする専用のレビューはない。 そこで,本研究では,マルチモーダル・コラーニングの新たな分野に関する総合的な調査を行い,その全体像について述べる。 ひとつ以上のコラーニング課題を克服する実装を、明示的にコラーニング課題とみなすことなくレビューする。 本稿では,マルチモーダル共学習の包括的分類法について,共学習と関連する実践の課題に基づいて述べる。 最新のものを含むために使用されるさまざまなテクニックは、アプリケーションやデータセットとともにレビューされる。 最後のゴールは、このエキサイティングな領域にフォーカスした研究コミュニティ全体に有益になることを望んでいる将来の仕事のための重要なアイデアと方向性と共に、課題と展望について話し合うことです。

Multimodal deep learning systems which employ multiple modalities like text, image, audio, video, etc., are showing better performance in comparison with individual modalities (i.e., unimodal) systems. Multimodal machine learning involves multiple aspects: representation, translation, alignment, fusion, and co-learning. In the current state of multimodal machine learning, the assumptions are that all modalities are present, aligned, and noiseless during training and testing time. However, in real-world tasks, typically, it is observed that one or more modalities are missing, noisy, lacking annotated data, have unreliable labels, and are scarce in training or testing and or both. This challenge is addressed by a learning paradigm called multimodal co-learning. The modeling of a (resource-poor) modality is aided by exploiting knowledge from another (resource-rich) modality using transfer of knowledge between modalities, including their representations and predictive models. Co-learning being an emerging area, there are no dedicated reviews explicitly focusing on all challenges addressed by co-learning. To that end, in this work, we provide a comprehensive survey on the emerging area of multimodal co-learning that has not been explored in its entirety yet. We review implementations that overcome one or more co-learning challenges without explicitly considering them as co-learning challenges. We present the comprehensive taxonomy of multimodal co-learning based on the challenges addressed by co-learning and associated implementations. The various techniques employed to include the latest ones are reviewed along with some of the applications and datasets. Our final goal is to discuss challenges and perspectives along with the important ideas and directions for future work that we hope to be beneficial for the entire research community focusing on this exciting domain.
翻訳日:2021-07-30 13:24:47 公開日:2021-07-29
# 時間的出力差による半教師付きアクティブラーニング

Semi-Supervised Active Learning with Temporal Output Discrepancy ( http://arxiv.org/abs/2107.14153v1 )

ライセンス: Link先を確認
Siyu Huang, Tianyang Wang, Haoyi Xiong, Jun Huan, Dejing Dou(参考訳) ディープラーニングは幅広いタスクで成功しますが、高価で時間を要する注釈付きデータの膨大なコレクションに大きく依存します。 データアノテーションのコストを下げるために、アクティブラーニングは、ラベルなしデータセット内の少数の情報サンプルに注釈を付けるために、オラクルに対話的に問い合わせることが提案されている。 本稿では,損失率の高いサンプルが,損失率の低いサンプルよりもモデルに有益であるという事実に触発されて,ラベルのないサンプルが損失率が高いと思われる場合に,oracleにデータアノテーションを求める新しいディープラーニング手法を提案する。 提案手法のコアとなるのは,異なる最適化ステップにおけるモデルによる出力の相違を評価することで,サンプル損失を推定する時間的出力不一致(TOD)である。 我々の理論的研究は,TODが蓄積したサンプルの損失を低く抑え,情報的未ラベルサンプルの選定に使用できることを示している。 さらに,TODに基づいて,ラベルなしデータを組み込むことでモデル性能を向上させる教師なし学習基準とともに,効果的なラベルなしデータサンプリング戦略を開発する。 TODの単純さのため、我々のアクティブな学習アプローチは効率的で柔軟性があり、タスクに依存しない。 その結果,画像分類や意味セグメンテーションタスクにおいて,最先端のアクティブラーニング手法よりも優れた性能が得られることがわかった。

While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion that enhances model performance by incorporating the unlabeled data. Due to the simplicity of TOD, our active learning approach is efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks.
翻訳日:2021-07-30 13:24:20 公開日:2021-07-29
# オープンワールドエンティティセグメンテーション

Open-World Entity Segmentation ( http://arxiv.org/abs/2107.14228v1 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Yi Wang, Jiuxiang Gu, Hengshuang Zhao, Zhe Lin, Philip Torr, Jiaya Jia(参考訳) 意味圏ラベルを考慮せずに、画像内のすべての視覚エンティティをセグメント化することを目的とした、エンティティセグメンテーション(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。 セグメンテーションマスクの品質は一般的に重要であるが、カテゴリラベルは重要ではない、画像操作/編集において多くの実用的な応用がある。 この設定では、意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。 統合されたエンティティ表現に基づいて、2つの新しいモジュールを持つセンターベースのエンティティセグメンテーションフレームワークを提案する。 実験によって、我々の新しいタスクとフレームワークは、既存の作業よりも優れた利点を示します。 特にesでは、(1)ラベルコンフリクトを解決する必要なしに、大きなトレーニングセットを形成するために複数のデータセットをマージすること、(2)1つのデータセットでトレーニングされたすべてのモデルは、見当たらないドメインを持つ他のデータセットに対して例外的にうまく一般化することができる。 私たちのコードはhttps://github.com/dvlab-research/entityで公開されています。

We introduce a new image segmentation task, termed Entity Segmentation (ES) with the aim to segment all visual entities in an image without considering semantic category labels. It has many practical applications in image manipulation/editing where the segmentation mask quality is typically crucial but category labels are less important. In this setting, all semantically-meaningful segments are equally treated as categoryless entities and there is no thing-stuff distinction. Based on our unified entity representation, we propose a center-based entity segmentation framework with two novel modules to improve mask quality. Experimentally, both our new task and framework demonstrate superior advantages as against existing work. In particular, ES enables the following: (1) merging multiple datasets to form a large training set without the need to resolve label conflicts; (2) any model trained on one dataset can generalize exceptionally well to other datasets with unseen domains. Our code is made publicly available at https://github.com/dvlab-research/Entity.
翻訳日:2021-07-30 13:23:59 公開日:2021-07-29
# $\mathbb{S}^2$上の関数データの振幅平均

Amplitude Mean of Functional Data on $\mathbb{S}^2$ ( http://arxiv.org/abs/2107.13721v1 )

ライセンス: Link先を確認
Zhengwu Zhang and Bayan Saparbayeva(参考訳) 近年, 主流値関数型データ解析 (FDA) は, 非線型多様体上で観測される軌跡や縦方向のデータの増加による研究の活発な領域となっている。 このようなデータ分析の課題は、無限次元や非線形性、時間領域や位相変動性など、多くの側面から生じている。 本稿では,不規則な時間ゆらぎや関数の再パラメータ化に不変な$\S^2$上の多様体値関数の振幅部分について検討する。 S^2$のよい幾何を利用して、関数の時間的アライメント、測地、サンプル平均計算のための効率的で正確なツールセットを開発する。 これらのツールの核心は、注意深く導出された勾配降下アルゴリズムに依存している。 本研究は, 大規模シミュレーションと実データによる競合相手に対するこれらのツールの利点を示し, メインフォールド評価FDAの位相変動と組み合わせるのではなく, 関数の振幅部分を考えることの重要性を示した。

Mainfold-valued functional data analysis (FDA) recently becomes an active area of research motivated by the raising availability of trajectories or longitudinal data observed on non-linear manifolds. The challenges of analyzing such data comes from many aspects, including infinite dimensionality and nonlinearity, as well as time domain or phase variability. In this paper, we study the amplitude part of manifold-valued functions on $\S^2$, which is invariant to random time warping or re-parameterization of the function. Utilizing the nice geometry of $\S^2$, we develop a set of efficient and accurate tools for temporal alignment of functions, geodesic and sample mean calculation. At the heart of these tools, they rely on gradient descent algorithms with carefully derived gradients. We show the advantages of these newly developed tools over its competitors with extensive simulations and real data, and demonstrate the importance of considering the amplitude part of functions instead of mixing it with phase variability in mainfold-valued FDA.
翻訳日:2021-07-30 13:22:45 公開日:2021-07-29
# 正規化流による多変量密度の時間変化の学習

Learning the temporal evolution of multivariate densities via normalizing flows ( http://arxiv.org/abs/2107.13735v1 )

ライセンス: Link先を確認
Yubin Lu, Romit Maulik, Ting Gao, Felix Dietrich, Ioannis G. Kevrekidis, Jinqiao Duan(参考訳) 本研究では,確率微分方程式からサンプルパスデータを用いて確率分布を学習する手法を提案する。 具体的には、時間発展する確率分布を考える(例えば、局所的あるいは非局所的フォッカー・プランク方程式を積分して生じる分布)。 我々は、この進化を機械学習によって分析し、進化している分布の各インスタンスに参照分布(例えばガウス分布)を取る時間依存マッピングの構築を支援する。 基準分布がフォッカー・プランク方程式の初期条件であるなら、我々が学んだことは対応する解の時間-T写像である。 具体的には、学習されたマップは、参照密度のサポートを時間内の各密度スナップショットのサポートに変形させる正規化フローである。 このアプローチは、ブラウンおよびL'evyノイズによって駆動されるシステムに生じるような非局所フォッカー・プランク方程式の解を学習できることを実証する。 本手法を検証するために,2次元および3次元,一様および多様分布を用いた例を示す。

In this work, we propose a method to learn probability distributions using sample path data from stochastic differential equations. Specifically, we consider temporally evolving probability distributions (e.g., those produced by integrating local or nonlocal Fokker-Planck equations). We analyze this evolution through machine learning assisted construction of a time-dependent mapping that takes a reference distribution (say, a Gaussian) to each and every instance of our evolving distribution. If the reference distribution is the initial condition of a Fokker-Planck equation, what we learn is the time-T map of the corresponding solution. Specifically, the learned map is a normalizing flow that deforms the support of the reference density to the support of each and every density snapshot in time. We demonstrate that this approach can learn solutions to non-local Fokker-Planck equations, such as those arising in systems driven by both Brownian and L\'evy noise. We present examples with two- and three-dimensional, uni- and multimodal distributions to validate the method.
翻訳日:2021-07-30 13:22:27 公開日:2021-07-29
# Min Max Optimizationのためのベイズ最適化

Bayesian Optimization for Min Max Optimization ( http://arxiv.org/abs/2107.13772v1 )

ライセンス: Link先を確認
Dorina Weichert, Alexander Kister(参考訳) 望ましい条件下でのみ信頼できるソリューションは、あまり安全なソリューションではない。 Min Max Optimizationは、最悪のケース条件に対して堅牢なオプティマを返すアプローチである。 本稿では,最適化すべき関数が事前に知られておらず,従って実験によって学習されるような設定でmin max最適化を行うアルゴリズムを提案する。 したがって、最大化問題に適したベイズ最適化設定をMin Max Optimization問題に拡張する。 関連する作業が2つの獲得関数の期待改善とガウス過程の上限を延長する一方で、2つの獲得関数のエントロピー探索と知識勾配を拡張する。 これらの獲得関数は、最適な点を探すだけでなく、最適な点に関する知識を得ることができる。 私たちの評価では、これらの獲得関数は、ベンチマーク設定よりも最適なものに収束するより優れたソリューションを可能にします。

A solution that is only reliable under favourable conditions is hardly a safe solution. Min Max Optimization is an approach that returns optima that are robust against worst case conditions. We propose algorithms that perform Min Max Optimization in a setting where the function that should be optimized is not known a priori and hence has to be learned by experiments. Therefore we extend the Bayesian Optimization setting, which is tailored to maximization problems, to Min Max Optimization problems. While related work extends the two acquisition functions Expected Improvement and Gaussian Process Upper Confidence Bound; we extend the two acquisition functions Entropy Search and Knowledge Gradient. These acquisition functions are able to gain knowledge about the optimum instead of just looking for points that are supposed to be optimal. In our evaluation we show that these acquisition functions allow for better solutions - converging faster to the optimum than the benchmark settings.
翻訳日:2021-07-30 13:22:13 公開日:2021-07-29
# 3次元超音波による骨盤底部自動切開用リカレントu-net

Recurrent U-net for automatic pelvic floor muscle segmentation on 3D ultrasound ( http://arxiv.org/abs/2107.13833v1 )

ライセンス: Link先を確認
Frieda van den Noort, Beril Sirmacek, Cornelis H. Slump(参考訳) 骨盤の床問題の事前評価は、女性の人口内で高い。 経ペリン超音波(TPUS)は、これらの問題を調べるために用いられる主な画像モダリティである。 TPUSデータ分析の自動化は骨盤床問題に対する理解を深めるのに役立つだろう。 本研究では, 畳み込み長短期記憶(CLSTM)層を有するU-netライクニューラルネットワークを用いて, TPUSボリュームにおけるレバターアニ筋(LAM)の3次元セグメンテーションを自動化する。 CLSTM層はスライス間3D情報を保持するために付加される。 このセグメンテーションタスクで人間レベルのパフォーマンスに到達する。 そこで我々は,3次元TPUSデータを用いて,LAMのセグメンテーションの自動化に成功した。 これは、大規模な研究人口の文脈におけるlam力学の自動的in-vivo解析への道を開く。

The prevalance of pelvic floor problems is high within the female population. Transperineal ultrasound (TPUS) is the main imaging modality used to investigate these problems. Automating the analysis of TPUS data will help in growing our understanding of pelvic floor related problems. In this study we present a U-net like neural network with some convolutional long short term memory (CLSTM) layers to automate the 3D segmentation of the levator ani muscle (LAM) in TPUS volumes. The CLSTM layers are added to preserve the inter-slice 3D information. We reach human level performance on this segmentation task. Therefore, we conclude that we successfully automated the segmentation of the LAM on 3D TPUS data. This paves the way towards automatic in-vivo analysis of the LAM mechanics in the context of large study populations.
翻訳日:2021-07-30 13:21:58 公開日:2021-07-29
# Break, Perturb, Build: 質問分解による推論パスの自動摂動

Break, Perturb, Build: Automatic Perturbation of Reasoning Paths through Question Decomposition ( http://arxiv.org/abs/2107.13935v1 )

ライセンス: Link先を確認
Mor Geva, Tomer Wolfson, Jonathan Berant(参考訳) 自然言語理解モデルの能力をテストするチャレンジベンチマークを作成する最近の取り組みは、主に人間のアノテーションに依存している。 本研究では,質問応答対の自動摂動のためのBPB(Break, Perturb, Build)フレームワークを提案する。 BPBは、それを答えるために必要な推論ステップに分解し、象徴的に分解を妨害し、新しい質問と答えのペアを生成する。 本研究では,3つの読影理解(RC)ベンチマークの評価セットを作成することにより,BPBの有効性を示す。 評価セット上でのRCモデルの評価を行い, 生成した実例に対して, 元のデータと比較して大きな性能差を示す。 さらに、シンボリック摂動はモデルの強度と限界のきめ細かい解析を可能にする。 最後に、BPBが生成した例によるトレーニングデータの強化は、元のデータ分布を落とさずに、パフォーマンスのギャップを埋めるのに役立つ。

Recent efforts to create challenge benchmarks that test the abilities of natural language understanding models have largely depended on human annotations. In this work, we introduce the "Break, Perturb, Build" (BPB) framework for automatic reasoning-oriented perturbation of question-answer pairs. BPB represents a question by decomposing it into the reasoning steps that are required to answer it, symbolically perturbs the decomposition, and then generates new question-answer pairs. We demonstrate the effectiveness of BPB by creating evaluation sets for three reading comprehension (RC) benchmarks, generating thousands of high-quality examples without human intervention. We evaluate a range of RC models on our evaluation sets, which reveals large performance gaps on generated examples compared to the original data. Moreover, symbolic perturbations enable fine-grained analysis of the strengths and limitations of models. Last, augmenting the training data with examples generated by BPB helps close performance gaps, without any drop on the original data distribution.
翻訳日:2021-07-30 13:21:29 公開日:2021-07-29
# 再現可能な名前付きエンティティ認識評価の障壁への対処

Addressing Barriers to Reproducible Named Entity Recognition Evaluation ( http://arxiv.org/abs/2107.14154v1 )

ライセンス: Link先を確認
Chester Palen-Michel, Nolan Holley, Constantine Lignos(参考訳) 名前付きエンティティ認識タスクに対する再現不能な評価の危機であると考えるものに対処するため、再現可能な評価のためのガイドラインを提案する。 私たちが提案するガイドラインは非常に単純で、チャンクのエンコードとスコア付けに関する透明性を重視しています。 NER評価の単純さにもかかわらず、評価方法の未報告の違いは、目立った大きさで統計的に有意なスコアの変化をもたらすことを示した。 SeqScoreはオープンソースのツールキットで、レプリケーションの失敗の原因となる多くの問題に対処し、ガイドラインに従うのを簡単にします。

To address what we believe is a looming crisis of unreproducible evaluation for named entity recognition tasks, we present guidelines for reproducible evaluation. The guidelines we propose are extremely simple, focusing on transparency regarding how chunks are encoded and scored, but very few papers currently being published fully comply with them. We demonstrate that despite the apparent simplicity of NER evaluation, unreported differences in the scoring procedure can result in changes to scores that are both of noticeable magnitude and are statistically significant. We provide SeqScore, an open source toolkit that addresses many of the issues that cause replication failures and makes following our guidelines easy.
翻訳日:2021-07-30 13:21:12 公開日:2021-07-29
# 感情認識型人工知能の開発を導くための倫理的枠組み

An Ethical Framework for Guiding the Development of Affectively-Aware Artificial Intelligence ( http://arxiv.org/abs/2107.13734v1 )

ライセンス: Link先を確認
Desmond C. Ong(参考訳) 最近の人工知能の研究と展開の急速な進歩は、社会的および感情的に知的なAIの潜在的な影響について、より多くの議論を巻き起こした。 問題は、研究がそのような感情に敏感なAIを作れるかどうかではなく、いつ実現するかだ。 機械と彼らが奉仕する企業や政府が人々の心や感情を「読む」ことができれば、社会にとって何を意味するのだろうか? そのようなaiの開発者とオペレーターは何をするべきで、どうすべきでないのか? 本稿の目的は、これらの発展の潜在的な影響のいくつかを先取りし、研究者、産業専門家、政策立案者を導くために、情緒的なAIの(道徳的および倫理的な)結果を評価するための一連のガイドラインを提案することである。 我々は、AI開発者による倫理的責任を分離し、そのようなAIをデプロイするエンティティをvis-\`a-visするマルチステークホルダ分析フレームワークを提案する。 私たちの分析では、それぞれのステークホルダーの責任を明確にする2つの柱が生まれています。aiの有効性の証明に重点を置くprovable beneficenceと、そのデータによるデータの収集、使用、保管を司る responsible stewardshipです。 最後に、研究者、開発者、オペレーター、規制当局、議員への推奨を締めくくります。

The recent rapid advancements in artificial intelligence research and deployment have sparked more discussion about the potential ramifications of socially- and emotionally-intelligent AI. The question is not if research can produce such affectively-aware AI, but when it will. What will it mean for society when machines -- and the corporations and governments they serve -- can "read" people's minds and emotions? What should developers and operators of such AI do, and what should they not do? The goal of this article is to pre-empt some of the potential implications of these developments, and propose a set of guidelines for evaluating the (moral and) ethical consequences of affectively-aware AI, in order to guide researchers, industry professionals, and policy-makers. We propose a multi-stakeholder analysis framework that separates the ethical responsibilities of AI Developers vis-\`a-vis the entities that deploy such AI -- which we term Operators. Our analysis produces two pillars that clarify the responsibilities of each of these stakeholders: Provable Beneficence, which rests on proving the effectiveness of the AI, and Responsible Stewardship, which governs responsible collection, use, and storage of data and the decisions made from such data. We end with recommendations for researchers, developers, operators, as well as regulators and law-makers.
翻訳日:2021-07-30 13:20:44 公開日:2021-07-29
# 公共飲料水貯水池における安全リスク評価のための水中音響ネットワーク

Underwater Acoustic Networks for Security Risk Assessment in Public Drinking Water Reservoirs ( http://arxiv.org/abs/2107.13977v1 )

ライセンス: Link先を確認
J\"org Stork, Philip Wenzel, Severin Landwein, Maria-Elena Algorri, Martin Zaefferer, Wolfgang Kusch, Martin Staubach, Thomas Bartz-Beielstein, Hartmut K\"ohn, Hermann Dejager, Christian Wolf(参考訳) 我々は,水中センサネットワークを用いた飲料水貯水池の監視システムを構築した。 水中イベントの検出,分類,ローカライズを行うための,革新的なaiベースのアプローチを実装した。 本稿では,センサネットワークであるハイドロフォンネットワークをベースとした,システムの技術と認知AIアーキテクチャについて述べる。 交通,ビジター,可変水環境が複雑で多様な環境を創出する貯水池におけるハイドロフォンネットワークの設置と利用の課題について論じる。 我々のAIソリューションは、分類と異常検出のための潜在符号化の教師なし学習と、音像定位のための時間遅延推定にオートエンコーダを使用する。 最後に, 実験室と貯水池で実施した実験結果について述べるとともに, システムの可能性について考察する。

We have built a novel system for the surveillance of drinking water reservoirs using underwater sensor networks. We implement an innovative AI-based approach to detect, classify and localize underwater events. In this paper, we describe the technology and cognitive AI architecture of the system based on one of the sensor networks, the hydrophone network. We discuss the challenges of installing and using the hydrophone network in a water reservoir where traffic, visitors, and variable water conditions create a complex, varying environment. Our AI solution uses an autoencoder for unsupervised learning of latent encodings for classification and anomaly detection, and time delay estimates for sound localization. Finally, we present the results of experiments carried out in a laboratory pool and the water reservoir and discuss the system's potential.
翻訳日:2021-07-30 13:20:23 公開日:2021-07-29
# 開世界認識のためのベイズ埋め込み

Bayesian Embeddings for Few-Shot Open World Recognition ( http://arxiv.org/abs/2107.13682v1 )

ライセンス: Link先を確認
John Willes, James Harrison, Ali Harakeh, Chelsea Finn, Marco Pavone, Steven Waslander(参考訳) 自律的な意思決定エージェントが狭い運用環境から非構造化の世界へと移行するにつれ、学習システムはクローズドワールドの定式化から、少量の情報から新しいクラスを継続的に学習するオープンワールドと少数のショットセッティングに移行する必要がある。 これは、一般的に既知のクラスのセットと、各クラスの多数の例で設計された現代の機械学習システムとは全く対照的である。 本研究では,組込み型少数ショット学習アルゴリズムをオープンワールド認識環境に拡張する。 ベイズ的非パラメトリッククラス事前学習と埋め込み型事前学習スキームを組み合わせることで,オープンワールド認識のための少数ショット学習(FLOWR)と呼ぶ,高度にフレキシブルなフレームワークを実現する。 当社のフレームワークは,MiniImageNetとTieredImageNetによる数ショット学習データセットのオープンワールド拡張をベンチマークする。 その結果,従来の手法と比較して高い分類精度を示し,非パラメトリックなオープンワールド・マルチショット学習手法によるH尺度(新しいクラス検出尺度)の最大12%の改善が得られた。

As autonomous decision-making agents move from narrow operating environments to unstructured worlds, learning systems must move from a closed-world formulation to an open-world and few-shot setting in which agents continuously learn new classes from small amounts of information. This stands in stark contrast to modern machine learning systems that are typically designed with a known set of classes and a large number of examples for each class. In this work we extend embedding-based few-shot learning algorithms to the open-world recognition setting. We combine Bayesian non-parametric class priors with an embedding-based pre-training scheme to yield a highly flexible framework which we refer to as few-shot learning for open world recognition (FLOWR). We benchmark our framework on open-world extensions of the common MiniImageNet and TieredImageNet few-shot learning datasets. Our results show, compared to prior methods, strong classification accuracy performance and up to a 12% improvement in H-measure (a measure of novel class detection) from our non-parametric open-world few-shot learning scheme.
翻訳日:2021-07-30 13:19:20 公開日:2021-07-29
# 融合最大化と高レベル空間注意による効率的なポーズ推定

Efficient Human Pose Estimation by Maximizing Fusion and High-Level Spatial Attention ( http://arxiv.org/abs/2107.13693v1 )

ライセンス: Link先を確認
Zhiyuan Ren, Yaohai Zhou, Yizhe Chen, Ruisong Zhou, Yayu Gao(参考訳) 本稿では,マルチレベル特徴を融合させ,HSA(High-Level Spatial Attention)という軽量な注意ブロックを追加することで,効率的な人体ポーズ推定ネットワークであるSFM(Slender fusion model)を提案する。 効率的なネットワーク上の多くの既存手法は機能融合を考慮に入れており、性能が大幅に向上している。 しかし、その性能はresnetやhrnetのような大規模ネットワークに比べて、ネットワークでの融合動作が限られているため、はるかに劣っている。 具体的には、レイヤを追加せずに2つのピラミッドフレームワーク間のブリッジを構築することで、融合操作数を拡大する。 一方,長距離依存を捉えるために,2次注目マップを演算する軽量アテンションブロック-HSAを提案する。 要約すると、SFMは限られた数の層における機能融合の数を最大化する。 HSAは空間注意マップの注意を計算して高精度な空間情報を学習する。 SFMとHSAの助けを借りて、我々のネットワークはマルチレベルの特徴を生成し、少ない計算資源で正確なグローバル空間情報を抽出することができる。 そこで本手法は,パラメータや計算コストを小さくして,比較あるいは精度の向上を図る。 我々は,PCKh@0.5で89.0,PCKh@0.1で42.0,APで71.7,AP@0.5で90.7,COCOで1.7GのFLOPと1.5Mのパラメータしか持たない。 ソースコードは近々公開される予定だ。

In this paper, we propose an efficient human pose estimation network -- SFM (slender fusion model) by fusing multi-level features and adding lightweight attention blocks -- HSA (High-Level Spatial Attention). Many existing methods on efficient network have already taken feature fusion into consideration, which largely boosts the performance. However, its performance is far inferior to large network such as ResNet and HRNet due to its limited fusion operation in the network. Specifically, we expand the number of fusion operation by building bridges between two pyramid frameworks without adding layers. Meanwhile, to capture long-range dependency, we propose a lightweight attention block -- HSA, which computes second-order attention map. In summary, SFM maximizes the number of feature fusion in a limited number of layers. HSA learns high precise spatial information by computing the attention of spatial attention map. With the help of SFM and HSA, our network is able to generate multi-level feature and extract precise global spatial information with little computing resource. Thus, our method achieve comparable or even better accuracy with less parameters and computational cost. Our SFM achieve 89.0 in PCKh@0.5, 42.0 in PCKh@0.1 on MPII validation set and 71.7 in AP, 90.7 in AP@0.5 on COCO validation with only 1.7G FLOPs and 1.5M parameters. The source code will be public soon.
翻訳日:2021-07-30 13:18:59 公開日:2021-07-29
# 階層的自己管理強化知識蒸留

Hierarchical Self-supervised Augmented Knowledge Distillation ( http://arxiv.org/abs/2107.13715v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Linhang Cai, Yongjun Xu(参考訳) 知識蒸留は、しばしば教師から学生に効果的に知識を定義し、伝達する方法を含んでいる。 近年の自己指導型コントラスト知識は最高の性能を達成しているが、ネットワークにそのような知識を学習させると、元のクラス認識タスクの表現学習が損なわれる可能性がある。 そこで,本研究では,自己教師付き拡張タスクを採用し,ネットワークを誘導し,元の認識タスクと自己教師付き補助タスクの合同分布を学習する。 正規分類能力を失うことなく表現力を向上させるための豊かな知識として示される。 さらに、従来の手法が最終層間でのみ確率的知識を伝達することは不完全である。 本稿では,階層的中間的特徴マップに複数の補助的分類器を付加し,多種多様な自己教師付き知識を生成し,学生ネットワークに徹底的に教えるための1対1の転送を行う。 提案手法は,CIFAR-100では平均2.56倍,画像ネットでは0.77倍,従来のSOTA SSKDよりも大幅に向上した。 コードはhttps://github.com/winycg/HSAKDで入手できる。

Knowledge distillation often involves how to define and transfer knowledge from teacher to student effectively. Although recent self-supervised contrastive knowledge achieves the best performance, forcing the network to learn such knowledge may damage the representation learning of the original class recognition task. We therefore adopt an alternative self-supervised augmented task to guide the network to learn the joint distribution of the original recognition task and self-supervised auxiliary task. It is demonstrated as a richer knowledge to improve the representation power without losing the normal classification capability. Moreover, it is incomplete that previous methods only transfer the probabilistic knowledge between the final layers. We propose to append several auxiliary classifiers to hierarchical intermediate feature maps to generate diverse self-supervised knowledge and perform the one-to-one transfer to teach the student network thoroughly. Our method significantly surpasses the previous SOTA SSKD with an average improvement of 2.56\% on CIFAR-100 and an improvement of 0.77\% on ImageNet across widely used network pairs. Codes are available at https://github.com/winycg/HSAKD.
翻訳日:2021-07-30 13:18:33 公開日:2021-07-29
# 画像画像とセマンティックスの間のギャップをスーパービジョンで埋める:サーベイ

Bridging Gap between Image Pixels and Semantics via Supervision: A Survey ( http://arxiv.org/abs/2107.13757v1 )

ライセンス: Link先を確認
Jiali Duan, C.-C. Jay Kuo(参考訳) 画像の低レベル特徴と意味的意味の間にギャップが存在するという事実は、意味的ギャップと呼ばれ、何十年も前から知られている。 意味的ギャップの解決は長期にわたる問題である。 セマンティクスギャップの問題を概観し,近年,このギャップを橋渡しする取り組みに関する調査を行った。 最も重要なのは,今日では,セマンティックギャップが主に教師付き学習によって橋渡しされている,という主張です。 1)オブジェクト検出と2)コンテンツベース画像検索(CBIR)のためのメートル法学習である。 はじめに、この論文は、監督に関する歴史的ふりかえりを提供し、現代データ駆動手法への段階的な移行を図り、よく使われるデータセットを紹介します。 次に,オブジェクト検出とメトリクス学習のコンテキストにおける意味的ギャップを橋渡しするための様々な監督手法を要約する。

The fact that there exists a gap between low-level features and semantic meanings of images, called the semantic gap, is known for decades. Resolution of the semantic gap is a long standing problem. The semantic gap problem is reviewed and a survey on recent efforts in bridging the gap is made in this work. Most importantly, we claim that the semantic gap is primarily bridged through supervised learning today. Experiences are drawn from two application domains to illustrate this point: 1) object detection and 2) metric learning for content-based image retrieval (CBIR). To begin with, this paper offers a historical retrospective on supervision, makes a gradual transition to the modern data-driven methodology and introduces commonly used datasets. Then, it summarizes various supervision methods to bridge the semantic gap in the context of object detection and metric learning.
翻訳日:2021-07-30 13:18:11 公開日:2021-07-29
# 時間モデルのための潜在経路構成を用いたテキストからの映像生成

Video Generation from Text Employing Latent Path Construction for Temporal Modeling ( http://arxiv.org/abs/2107.13766v1 )

ライセンス: Link先を確認
Amir Mazaheri, Mubarak Shah(参考訳) ビデオ生成は、機械学習とコンピュータビジョンの分野で最も困難なタスクの1つである。 本稿では,映像生成の条件付き形式であるテキストから映像生成問題に取り組む。 人間は自然言語の文を聴く/読むことができ、何が記述されているのかを想像または視覚化することができる。 ビデオ生成はコンピュータビジョンにおける比較的新しい研究分野であり、解決にはほど遠い。 最近の作品の大部分は、非常に限られた種類のオブジェクト、シーン、感情を持つ合成データセットや実際のデータセットを扱う。 私たちの知る限りでは、ActorやAction Dataset(A2D)やUCF101といった、より現実的なビデオデータセットでビデオを生成するためのテキスト(フリーフォームの文)に関する最初の作業です。 第1フレームと最後のフレームの潜在表現をレグレッションし、コンテキスト対応補間法を用いてフレーム間の潜在表現を構築することで、ビデオ生成の複雑な問題に取り組む。 本稿では,各潜在表現からRGBフレームを逐次生成し,段階的に解像度を向上する'upPooling'ブロックを提案する。 さらに,提案する判別器は,単一フレームと複数フレームに基づく映像を符号化する。 提案手法は,recurrent neural network (rnn) やdeconvolution (convolutional transpose として知られる) に基づくビデオ生成手法など,よく知られたベースラインよりも優れていることを示す。

Video generation is one of the most challenging tasks in Machine Learning and Computer Vision fields of study. In this paper, we tackle the text to video generation problem, which is a conditional form of video generation. Humans can listen/read natural language sentences, and can imagine or visualize what is being described; therefore, we believe that video generation from natural language sentences will have an important impact on Artificial Intelligence. Video generation is relatively a new field of study in Computer Vision, which is far from being solved. The majority of recent works deal with synthetic datasets or real datasets with very limited types of objects, scenes, and emotions. To the best of our knowledge, this is the very first work on the text (free-form sentences) to video generation on more realistic video datasets like Actor and Action Dataset (A2D) or UCF101. We tackle the complicated problem of video generation by regressing the latent representations of the first and last frames and employing a context-aware interpolation method to build the latent representations of in-between frames. We propose a stacking ``upPooling'' block to sequentially generate RGB frames out of each latent representation and progressively increase the resolution. Moreover, our proposed Discriminator encodes videos based on single and multiple frames. We provide quantitative and qualitative results to support our arguments and show the superiority of our method over well-known baselines like Recurrent Neural Network (RNN) and Deconvolution (as known as Convolutional Transpose) based video generation methods.
翻訳日:2021-07-30 13:17:56 公開日:2021-07-29
# 単眼3次元物体検出のための幾何不確かさ投影ネットワーク

Geometry Uncertainty Projection Network for Monocular 3D Object Detection ( http://arxiv.org/abs/2107.13774v1 )

ライセンス: Link先を確認
Yan Lu, Xinzhu Ma, Lei Yang, Tianzhu Zhang, Yating Liu, Qi Chu, Junjie Yan and Wanli Ouyang(参考訳) 幾何射影は単眼3次元物体検出における強力な深さ推定法である。 高度に依存する深さを推定し、深度モデルに数学的先行性を導入する。 しかし、プロジェクションプロセスは、推定高さの誤差を増幅し、出力深さに大きく反映する誤差増幅問題も導入する。 この性質は制御不能な深さ推定をもたらし、訓練効率を損なう。 本稿では,推論とトレーニングの両方において,誤り増幅問題に取り組むための幾何不確かさ投影ネットワーク(gup net)を提案する。 具体的には,各深さに対して高い信頼度を与えるだけでなく,奥行き学習にも有効となる,推定深さの幾何学的導出の不確かさを求めるgupモジュールを提案する。 さらに,学習段階では,誤り増幅による不安定性を低減するための階層的タスク学習戦略を提案する。 本学習アルゴリズムは、提案する指標により各タスクの学習状況を監視し、各タスクの適切な損失重みを、そのプレタスク状況に応じて適応的に割り当てる。 それに基づいて、各タスクは、事前タスクがうまく学習された場合にのみ学習を開始し、トレーニングプロセスの安定性と効率を大幅に向上させることができる。 大規模実験により提案手法の有効性が示された。 全体的なモデルでは、既存の方法よりも信頼性の高い物体深度を推定でき、KITTIベンチマークの車と歩行者のカテゴリーの3.74%と4.7%のAP40で最先端のイメージベースのモノクロ3D検出器より優れている。

Geometry Projection is a powerful depth estimation method in monocular 3D object detection. It estimates depth dependent on heights, which introduces mathematical priors into the deep model. But projection process also introduces the error amplification problem, in which the error of the estimated height will be amplified and reflected greatly at the output depth. This property leads to uncontrollable depth inferences and also damages the training efficiency. In this paper, we propose a Geometry Uncertainty Projection Network (GUP Net) to tackle the error amplification problem at both inference and training stages. Specifically, a GUP module is proposed to obtains the geometry-guided uncertainty of the inferred depth, which not only provides high reliable confidence for each depth but also benefits depth learning. Furthermore, at the training stage, we propose a Hierarchical Task Learning strategy to reduce the instability caused by error amplification. This learning algorithm monitors the learning situation of each task by a proposed indicator and adaptively assigns the proper loss weights for different tasks according to their pre-tasks situation. Based on that, each task starts learning only when its pre-tasks are learned well, which can significantly improve the stability and efficiency of the training process. Extensive experiments demonstrate the effectiveness of the proposed method. The overall model can infer more reliable object depth than existing methods and outperforms the state-of-the-art image-based monocular 3D detectors by 3.74% and 4.7% AP40 of the car and pedestrian categories on the KITTI benchmark.
翻訳日:2021-07-30 13:17:31 公開日:2021-07-29
# 外周誘導協調適応による注視推定の一般化

Generalizing Gaze Estimation with Outlier-guided Collaborative Adaptation ( http://arxiv.org/abs/2107.13780v1 )

ライセンス: Link先を確認
Yunfei Liu, Ruicong Liu, Haofei Wang, Feng Lu(参考訳) ディープニューラルネットワークは外観に基づく視線推定精度を大幅に改善した。 しかし、訓練されたモデルを新しいドメイン(例えば、見えない環境や人)に一般化する場合、まだ不十分なパフォーマンスに苦しむ。 本稿では,外乱の誘導と協調して学習するネットワークの集合体であるPnP-GAを提案する。 提案手法では対象領域の基底ラベルを必要としないため,既存の視線推定ネットワークをpnp-gaに直接接続し,アルゴリズムを新たな領域に一般化することができる。 PnP-GAは、ETH-to-MPII、ETH-to-EyeDiap、Gaze360-to-MPII、Gaze360-to-EyeDiapの4つの視線領域適応タスクでテストする。 実験の結果,pnp-gaフレームワークの性能改善は36.9%,31.6%,19.4%,11.8%であった。 提案するフレームワークは、視線領域適応タスクにおける最先端のドメイン適応アプローチよりも優れている。 コードはhttps://github.com/DreamtaleCore/PnP-GAでリリースされた。

Deep neural networks have significantly improved appearance-based gaze estimation accuracy. However, it still suffers from unsatisfactory performance when generalizing the trained model to new domains, e.g., unseen environments or persons. In this paper, we propose a plug-and-play gaze adaptation framework (PnP-GA), which is an ensemble of networks that learn collaboratively with the guidance of outliers. Since our proposed framework does not require ground-truth labels in the target domain, the existing gaze estimation networks can be directly plugged into PnP-GA and generalize the algorithms to new domains. We test PnP-GA on four gaze domain adaptation tasks, ETH-to-MPII, ETH-to-EyeDiap, Gaze360-to-MPII, and Gaze360-to-EyeDiap. The experimental results demonstrate that the PnP-GA framework achieves considerable performance improvements of 36.9%, 31.6%, 19.4%, and 11.8% over the baseline system. The proposed framework also outperforms the state-of-the-art domain adaptation approaches on gaze domain adaptation tasks. Code has been released at https://github.com/DreamtaleCore/PnP-GA.
翻訳日:2021-07-30 13:17:06 公開日:2021-07-29
# rignet: 奥行き完了のための反復画像誘導ネットワーク

RigNet: Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2107.13802v1 )

ライセンス: Link先を確認
Zhiqiang Yan and Kun Wang and Xiang Li and Zhenyu Zhang and Baobei Xu and Jun Li and Jian Yang(参考訳) 深度完備化は、この完成を促進するために色画像がしばしば使用されるスパースマップから深度マップを復元する問題を扱う。 近年のアプローチは主に画像誘導学習に焦点をあてて密集した結果を予測している。 しかし、ぼやけた画像誘導やオブジェクト構造は依然として画像案内フレームワークのパフォーマンスを妨げている。 これらの課題に対処するため,画像案内ネットワークにおける繰り返し設計を探索し,十分な深度値の復元を行う。 具体的には、カラー画像誘導枝及び深度生成枝に繰り返しを具現化する。 前者のブランチでは、複雑な環境の高次特徴を抽出する反復型時間ガラスネットワークを設計し、深度予測のための強力なコンテキストガイダンスを提供する。 後者では,動的畳み込みに基づく反復的誘導モジュールを設計し,畳み込み因子分解を適用してその複雑性を低減し,例えば境界などの高周波構造を漸進的にモデル化する。 さらに,本モジュールでは,多段深度特徴を効果的に集約する適応融合機構を提案する。 大規模な実験により,提案手法はNYUv2データセットの最先端化を実現し,提案時のKITTIベンチマークで1位となった。

Depth completion deals with the problem of recovering dense depth maps from sparse ones, where color images are often used to facilitate this completion. Recent approaches mainly focus on image guided learning to predict dense results. However, blurry image guidance and object structures in depth still impede the performance of image guided frameworks. To tackle these problems, we explore a repetitive design in our image guided network to sufficiently and gradually recover depth values. Specifically, the repetition is embodied in a color image guidance branch and a depth generation branch. In the former branch, we design a repetitive hourglass network to extract higher-level image features of complex environments, which can provide powerful context guidance for depth prediction. In the latter branch, we design a repetitive guidance module based on dynamic convolution where the convolution factorization is applied to simultaneously reduce its complexity and progressively model high-frequency structures, e.g., boundaries. Further, in this module, we propose an adaptive fusion mechanism to effectively aggregate multi-step depth features. Extensive experiments show that our method achieves state-of-the-art result on the NYUv2 dataset and ranks 1st on the KITTI benchmark at the time of submission.
翻訳日:2021-07-30 13:16:47 公開日:2021-07-29
# VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation

VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation ( http://arxiv.org/abs/2107.13824v1 )

ライセンス: Link先を確認
Zeyu Hu, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai(参考訳) 近年,sparse voxelベースの手法は,強力な3d cnnのおかげで,室内シーンの3d意味セグメンテーションの最先端技術となっている。 それにもかかわらず、ボクセルに基づく手法は、空間的に閉じた物体のあいまいな特徴に悩まされ、測地情報の欠如により複雑で不規則な測地を扱うのに苦労する。 このことから,voxel-mesh network (vmnet)は,ユークリッド情報と測地情報の両方を活用した,voxelおよびメッシュ表現上で動作する新しい3次元深層アーキテクチャである。 直感的には、ボクセルから抽出されたユークリッド情報は、近くの物体間の相互作用を表す文脈的手がかりを提供することができ、メッシュから抽出された測地線情報は、空間的に近接するが断線面を持つ別の物体を助けることができる。 この2つの領域からの情報を組み込むため、効果的な特徴集約のためのドメイン内注意モジュールと、適応的特徴融合のためのドメイン間注意モジュールを設計する。 特に、屋内シーンの大規模セグメンテーションのための挑戦的なScanNetデータセットでは、より単純なネットワーク構造(17M対30Mと38Mのパラメータ)で最先端のSparseConvNetとMinkowskiNet(74.6%対72.5%、73.6%はmIoU)を上回っている。 コードリリース: https://github.com/hzykent/VMNet

In recent years, sparse voxel-based methods have become the state-of-the-arts for 3D semantic segmentation of indoor scenes, thanks to the powerful 3D CNNs. Nevertheless, being oblivious to the underlying geometry, voxel-based methods suffer from ambiguous features on spatially close objects and struggle with handling complex and irregular geometries due to the lack of geodesic information. In view of this, we present Voxel-Mesh Network (VMNet), a novel 3D deep architecture that operates on the voxel and mesh representations leveraging both the Euclidean and geodesic information. Intuitively, the Euclidean information extracted from voxels can offer contextual cues representing interactions between nearby objects, while the geodesic information extracted from meshes can help separate objects that are spatially close but have disconnected surfaces. To incorporate such information from the two domains, we design an intra-domain attentive module for effective feature aggregation and an inter-domain attentive module for adaptive feature fusion. Experimental results validate the effectiveness of VMNet: specifically, on the challenging ScanNet dataset for large-scale segmentation of indoor scenes, it outperforms the state-of-the-art SparseConvNet and MinkowskiNet (74.6% vs 72.5% and 73.6% in mIoU) with a simpler network structure (17M vs 30M and 38M parameters). Code release: https://github.com/hzykent/VMNet
翻訳日:2021-07-30 13:16:27 公開日:2021-07-29
# 単眼3次元物体検出のための投影モデルによる幾何学誘導深度学習

Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection ( http://arxiv.org/abs/2107.13931v1 )

ライセンス: Link先を確認
Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu(参考訳) 自動運転の重要な課題として、近年3Dオブジェクト検出は大きな進歩を遂げている。 しかし, 深さ推定が不十分なため, 単眼的3次元物体検出が課題となっている。 ほとんどの既存の単分子法は、通常、シーンの深さを直接回帰するが、深さと様々な幾何学的要素(例えば、)の間の重要な関係を無視している。 境界ボックスのサイズ、3次元オブジェクトの次元、オブジェクトのポーズ)。 本稿では,投影モデルを用いて幾何学誘導深度推定を学習し,モノクル3次元物体検出の進歩を提案する。 具体的には、単眼3次元物体検出ネットワークにおける2次元および3次元深度予測の射影モデルを用いた原理幾何学式を考案する。 さらに,ジオメトリを意識した深部表現学習を実現するため,深部推定に有効な2次元および3次元インタラクションを実現するため,提案式を実装し,組み込む。 さらに,2次元アノテーションと投影ボックスの相違に対処し,幾何学式による頑健な学習を確保することで,強力なベースラインを提供する。 kittiデータセットを用いた実験により,本手法は,中程度のテスト設定において,余分なデータを持たずに,最先端モノキュラーベース手法の検出性能を2.80%向上させた。 モデルとコードはhttps://github.com/yinminzhang/monogeoでリリースされる。

As a crucial task of autonomous driving, 3D object detection has made great progress in recent years. However, monocular 3D object detection remains a challenging problem due to the unsatisfactory performance in depth estimation. Most existing monocular methods typically directly regress the scene depth while ignoring important relationships between the depth and various geometric elements (e.g. bounding box sizes, 3D object dimensions, and object poses). In this paper, we propose to learn geometry-guided depth estimation with projective modeling to advance monocular 3D object detection. Specifically, a principled geometry formula with projective modeling of 2D and 3D depth predictions in the monocular 3D object detection network is devised. We further implement and embed the proposed formula to enable geometry-aware deep representation learning, allowing effective 2D and 3D interactions for boosting the depth estimation. Moreover, we provide a strong baseline through addressing substantial misalignment between 2D annotation and projected boxes to ensure robust learning with the proposed geometric formula. Experiments on the KITTI dataset show that our method remarkably improves the detection performance of the state-of-the-art monocular-based method without extra data by 2.80% on the moderate test setting. The model and code will be released at https://github.com/YinminZhang/MonoGeo.
翻訳日:2021-07-30 13:15:53 公開日:2021-07-29
# 確率的・幾何学的深さ:遠近からの物体検出

Probabilistic and Geometric Depth: Detecting Objects in Perspective ( http://arxiv.org/abs/2107.14160v1 )

ライセンス: Link先を確認
Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin(参考訳) 3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。 単眼3d検出は、双眼視やlidarに依存する従来の設定と比較して経済的な解決策として近年注目が集まっているが、それでも不十分な結果をもたらす。 本稿では,まずこの問題を体系的に研究し,現状の単眼的3d検出問題をインスタンス深さ推定問題として単純化できることを示す。 しかし、近年の手法では、異なる物体間の幾何学的関係を無視しながら、孤立したインスタンスや画素に基づいて深度を直接推定する手法が提案されている。 そこで,予測対象に対して幾何関係グラフを構築し,そのグラフを用いて深度推定を行う。 この不正確な設定では、各インスタンスの事前の深さ推定が不正確なため、不確実性を捉える確率的表現が組み込まれている。 自信のある予測を識別し、さらに奥行きの伝播を導く重要な指標を提供する。 基本概念の単純さにもかかわらず,本手法はKITTIとnuScenesベンチマークの大幅な改善を実現し,リアルタイムの効率を保ちながら,すべての単眼視のみの手法から第1位を獲得している。 コードとモデルはhttps://github.com/open-mmlab/mmdetection3dでリリースされる。

3D object detection is an important capability needed in various practical applications such as driver assistance systems. Monocular 3D detection, as an economical solution compared to conventional settings relying on binocular vision or LiDAR, has drawn increasing attention recently but still yields unsatisfactory results. This paper first presents a systematic study on this problem and observes that the current monocular 3D detection problem can be simplified as an instance depth estimation problem: The inaccurate instance depth blocks all the other 3D attribute predictions from improving the overall detection performance. However, recent methods directly estimate the depth based on isolated instances or pixels while ignoring the geometric relations across different objects, which can be valuable constraints as the key information about depth is not directly manifest in the monocular image. Therefore, we construct geometric relation graphs across predicted objects and use the graph to facilitate depth estimation. As the preliminary depth estimation of each instance is usually inaccurate in this ill-posed setting, we incorporate a probabilistic representation to capture the uncertainty. It provides an important indicator to identify confident predictions and further guide the depth propagation. Despite the simplicity of the basic idea, our method obtains significant improvements on KITTI and nuScenes benchmarks, achieving the 1st place out of all monocular vision-only methods while still maintaining real-time efficiency. Code and models will be released at https://github.com/open-mmlab/mmdetection3d.
翻訳日:2021-07-30 13:15:33 公開日:2021-07-29
# 特徴量認識型トランスファーアタック

Feature Importance-aware Transferable Adversarial Attacks ( http://arxiv.org/abs/2107.14185v1 )

ライセンス: Link先を確認
Zhibo Wang, Hengchang Guo, Zhifei Zhang, Wenxin Liu, Zhan Qin, Kui Ren(参考訳) 敵の例の転送性は未知のモデルを攻撃する上で重要であり、ブラックボックス攻撃のようなより実用的なシナリオでの敵の攻撃を容易にする。 既存の転送可能な攻撃は、画像中のオブジェクトの固有の特徴を意識せずに、特徴を無差別に歪曲してソースモデルの予測精度を低下させることによって、敵の例を作る傾向にある。 このようなブルート力劣化は、モデル固有の局所最適化を敵の例に導入し、転送可能性を制限する。 対照的に、モデル決定を一貫して支配する重要なオブジェクト認識機能を妨害する特徴重要度認識攻撃(FIA)を提案する。 より具体的には、元のクリーン画像のランダム変換のバッチで計算されたソースモデルの特徴マップに対して、勾配を平均する集計勾配を導入することで、特徴量の重要性を得る。 勾配は興味のある対象と強く相関し、そのような相関は異なるモデルにまたがる不変性を示す。 さらに、ランダム変換はオブジェクトの固有の特徴を保持し、モデル固有の情報を抑制する。 最後に、特徴の重要性は、重要な特徴を破壊し、より強い伝達可能性を達成するための敵の例を探すためのガイドとなる。 広範囲な実験的評価は、提案されたFIAの有効性と優れた性能、すなわち、通常訓練されたモデルに対して8.4%、防衛モデルに対して11.7%の改善効果を示す。 コードは、https://github.com/hcguoO0/FIAで入手できる。

Transferability of adversarial examples is of central importance for attacking an unknown model, which facilitates adversarial attacks in more practical scenarios, e.g., blackbox attacks. Existing transferable attacks tend to craft adversarial examples by indiscriminately distorting features to degrade prediction accuracy in a source model without aware of intrinsic features of objects in the images. We argue that such brute-force degradation would introduce model-specific local optimum into adversarial examples, thus limiting the transferability. By contrast, we propose the Feature Importance-aware Attack (FIA), which disrupts important object-aware features that dominate model decisions consistently. More specifically, we obtain feature importance by introducing the aggregate gradient, which averages the gradients with respect to feature maps of the source model, computed on a batch of random transforms of the original clean image. The gradients will be highly correlated to objects of interest, and such correlation presents invariance across different models. Besides, the random transforms will preserve intrinsic features of objects and suppress model-specific information. Finally, the feature importance guides to search for adversarial examples towards disrupting critical features, achieving stronger transferability. Extensive experimental evaluation demonstrates the effectiveness and superior performance of the proposed FIA, i.e., improving the success rate by 8.4% against normally trained models and 11.7% against defense models as compared to the state-of-the-art transferable attacks. Code is available at: https://github.com/hcguoO0/FIA
翻訳日:2021-07-30 13:15:09 公開日:2021-07-29
# 対実解析による人間の軌道予測

Human Trajectory Prediction via Counterfactual Analysis ( http://arxiv.org/abs/2107.14202v1 )

ライセンス: Link先を確認
Guangyi Chen, Junlong Li, Jiwen Lu, Jie Zhou(参考訳) 複雑な動的環境における人間の軌道予測は、自動運転車やインテリジェントロボットにおいて重要な役割を果たす。 既存のほとんどの手法は、歴史の軌跡や環境からの相互作用の手がかりから行動の手がかりによって将来の軌跡を予測することを学ぶ。 しかしながら、トレーニングとデプロイメント環境の固有のバイアスは無視される。 そこで本研究では, 予測軌跡と入力手がかりとの因果関係を解明し, 環境バイアスによる負の影響を軽減するために, 人間の軌道予測に対する反実解析手法を提案する。 まず,歴史軌跡,未来軌跡,環境相互作用を考慮した軌跡予測のための因果グラフを構築した。 そして、軌道自体に対する反事実的介入を構築することにより、環境から軌道への推論を遮断する。 最後に,実例と反実例の軌跡を比較し,環境バイアスの影響を緩和し,軌跡の強調を行う。 反事実分析はプラグアンドプレイモジュールであり,rnn および cnn ベースの任意のベースライン予測手法に適用可能である。 提案手法は,異なる基準線に対する一貫した改善を実現し,公共歩行者軌道予測ベンチマークの最先端結果を得る。

Forecasting human trajectories in complex dynamic environments plays a critical role in autonomous vehicles and intelligent robots. Most existing methods learn to predict future trajectories by behavior clues from history trajectories and interaction clues from environments. However, the inherent bias between training and deployment environments is ignored. Hence, we propose a counterfactual analysis method for human trajectory prediction to investigate the causality between the predicted trajectories and input clues and alleviate the negative effects brought by environment bias. We first build a causal graph for trajectory forecasting with history trajectory, future trajectory, and the environment interactions. Then, we cut off the inference from environment to trajectory by constructing the counterfactual intervention on the trajectory itself. Finally, we compare the factual and counterfactual trajectory clues to alleviate the effects of environment bias and highlight the trajectory clues. Our counterfactual analysis is a plug-and-play module that can be applied to any baseline prediction methods including RNN- and CNN-based ones. We show that our method achieves consistent improvement for different baselines and obtains the state-of-the-art results on public pedestrian trajectory forecasting benchmarks.
翻訳日:2021-07-30 13:14:42 公開日:2021-07-29
# 分布識別によるパーソナライズされた軌道予測

Personalized Trajectory Prediction via Distribution Discrimination ( http://arxiv.org/abs/2107.14204v1 )

ライセンス: Link先を確認
Guangyi Chen, Junlong Li, Nuoxing Zhou, Liangliang Ren, Jiwen Lu(参考訳) 軌道予測は、多様性と精度の両方で将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。 本稿では,潜在的な分布を識別し,パーソナライズされた動作パターンを予測するDisDis(Disdis)手法を提案する。 それぞれの人の動作パターンが習慣によってパーソナライズされていることに動機づけられ、disdisは潜伏分布を学習し、異なる動きパターンを表現し、対比的な識別によって最適化する。 この分布判別により、潜伏分布はより差別的になる。 本手法は,既存のマルチモーダル確率予測モデルをプラグアンドプレイモジュールとして統合することで,より識別的な潜在分布を学習できる。 さらに, 潜在分布を評価するために, ソートされた確率の最小距離を累積計算する, 確率累積最小距離(PCMD)曲線を提案する。 ETHおよびUCYデータセットの実験結果から,本手法の有効性が示された。

Trajectory prediction is confronted with the dilemma to capture the multi-modal nature of future dynamics with both diversity and accuracy. In this paper, we present a distribution discrimination (DisDis) method to predict personalized motion patterns by distinguishing the potential distributions. Motivated by that the motion pattern of each person is personalized due to his/her habit, our DisDis learns the latent distribution to represent different motion patterns and optimize it by the contrastive discrimination. This distribution discrimination encourages latent distributions to be more discriminative. Our method can be integrated with existing multi-modal stochastic predictive models as a plug-and-play module to learn the more discriminative latent distribution. To evaluate the latent distribution, we further propose a new metric, probability cumulative minimum distance (PCMD) curve, which cumulatively calculates the minimum distance on the sorted probabilities. Experimental results on the ETH and UCY datasets show the effectiveness of our method.
翻訳日:2021-07-30 13:14:23 公開日:2021-07-29
# セマンティックセグメンテーションのための高効率ピラミッド変換器

A Unified Efficient Pyramid Transformer for Semantic Segmentation ( http://arxiv.org/abs/2107.14209v1 )

ライセンス: Link先を確認
Fangrui Zhu, Yi Zhu, Li Zhang, Chongruo Wu, Yanwei Fu, Mu Li(参考訳) セマンティクスのセグメンテーションは、複雑なシーンにおけるコンテキストモデリングの難しさと境界に沿ったクラス混乱のため、難しい問題である。 ほとんどの文献は、オープンワールドのシナリオでは一般化できない、コンテキストモデリングや境界の洗練に焦点を当てている。 本研究では,コンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトを分割する統一フレームワーク(UN-EPT)を提案する。 我々はまず,効率的なコンテキストモデリングのためのトランスフォーマーに基づくアテンション機構を組み込むために,スパースサンプリング戦略を適用した。 さらに、境界精細のための画像の詳細をキャプチャするために、別個の空間枝を導入する。 モデル全体をエンドツーエンドでトレーニングすることができる。 メモリフットプリントの少ないセマンティクスセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。 コードはまもなくリリースされる。

Semantic segmentation is a challenging problem due to difficulties in modeling context in complex scenes and class confusions along boundaries. Most literature either focuses on context modeling or boundary refinement, which is less generalizable in open-world scenarios. In this work, we advocate a unified framework(UN-EPT) to segment objects by considering both context information and boundary artifacts. We first adapt a sparse sampling strategy to incorporate the transformer-based attention mechanism for efficient context modeling. In addition, a separate spatial branch is introduced to capture image details for boundary refinement. The whole model can be trained in an end-to-end manner. We demonstrate promising performance on three popular benchmarks for semantic segmentation with low memory footprint. Code will be released soon.
翻訳日:2021-07-30 13:14:06 公開日:2021-07-29
# HAFLO: フェデレートロジスティック回帰のためのGPUベースのアクセラレーション

HAFLO: GPU-Based Acceleration for Federated Logistic Regression ( http://arxiv.org/abs/2107.13797v1 )

ライセンス: Link先を確認
Xiaodian Cheng, Wanhang Lu, Xinyang Huang, Shuihai Hu and Kai Chen(参考訳) 近年,統合学習(FL)は分散型協調学習シナリオのサポートに広く応用されている。 既存のFLモデルの中で、フェデレートロジスティック回帰(FLR)は広く使われている統計モデルであり、様々な産業で使われている。 データセキュリティとユーザのプライバシを確保するため、FLRは同型暗号化(HE)を活用して、異なる協力団体間で交換されたデータを保護する。 しかし、大きな計算オーバーヘッド(暗号化データに対するデータの暗号化/復号化と計算コスト)を導入し、最終的にはシステム全体のパフォーマンスボトルネックとなる。 本稿では,FLRの性能向上を目的としたGPUベースのHAFLOを提案する。 HAFLOの中核となる考え方は、FLRが使用する性能クリティカルなホモモルフィック演算子(HO)の集合をまとめ、ストレージ、IO、計算の最適化を通じてこれらの演算子の実行を高速化することである。 予備的な結果は、一般的なFLフレームワークであるFATE上の加速度が、異種LRの49.9$\times$スピードアップと同種LRの88.4$\times$を達成していることを示している。

In recent years, federated learning (FL) has been widely applied for supporting decentralized collaborative learning scenarios. Among existing FL models, federated logistic regression (FLR) is a widely used statistic model and has been used in various industries. To ensure data security and user privacy, FLR leverages homomorphic encryption (HE) to protect the exchanged data among different collaborative parties. However, HE introduces significant computational overhead (i.e., the cost of data encryption/decryption and calculation over encrypted data), which eventually becomes the performance bottleneck of the whole system. In this paper, we propose HAFLO, a GPU-based solution to improve the performance of FLR. The core idea of HAFLO is to summarize a set of performance-critical homomorphic operators (HO) used by FLR and accelerate the execution of these operators through a joint optimization of storage, IO, and computation. The preliminary results show that our acceleration on FATE, a popular FL framework, achieves a 49.9$\times$ speedup for heterogeneous LR and 88.4$\times$ for homogeneous LR.
翻訳日:2021-07-30 13:13:15 公開日:2021-07-29
# 深層学習におけるクラス不均衡と概念複雑性の複合効果について

On the combined effect of class imbalance and concept complexity in deep learning ( http://arxiv.org/abs/2107.14194v1 )

ライセンス: Link先を確認
Kushankur Ghosh, Colin Bellinger, Roberto Corizzo, Bartosz Krawczyk, Nathalie Japkowicz(参考訳) 構造的概念の複雑さ、クラス重なり、データ不足は、クラス不均衡条件下での分類器の性能に影響を与える最も重要な要素である。 これらの効果が2000年代初頭に明らかにされたとき、証明された分類器は、ディープラーニングのアプローチのカテゴリではなく、古典派に属していた。 ディープラーニングは、古典的機械学習に根ざしており、批判的な応用環境での利用が始まっているため、彼らが過去20年間、古典的機械学習と戦ってきた課題に、いかにうまく対応できるかを体系的に評価することが重要である。 本研究の目的は,従来,古典的機械学習システムにとって困難であった設定における深層学習システムの挙動を調べ,その奥行きがそのような設定の資産であるかどうかを明らかにすることである。 人工的および実世界のイメージデータセット(MNIST Fashion, CIFAR-10)の結果は、これらの設定がディープラーニングシステムでは難しいままであり、より深いアーキテクチャは構造的概念の複雑さに寄与するが、単純な人工ドメインでは重複しない。 データ不足も深いレイヤによって克服されない。 実世界の画像ドメインでは、オーバーフィッティングが人工ドメインよりも大きな関心事となるが、より深いアーキテクチャの利点は明らかではない。

Structural concept complexity, class overlap, and data scarcity are some of the most important factors influencing the performance of classifiers under class imbalance conditions. When these effects were uncovered in the early 2000s, understandably, the classifiers on which they were demonstrated belonged to the classical rather than Deep Learning categories of approaches. As Deep Learning is gaining ground over classical machine learning and is beginning to be used in critical applied settings, it is important to assess systematically how well they respond to the kind of challenges their classical counterparts have struggled with in the past two decades. The purpose of this paper is to study the behavior of deep learning systems in settings that have previously been deemed challenging to classical machine learning systems to find out whether the depth of the systems is an asset in such settings. The results in both artificial and real-world image datasets (MNIST Fashion, CIFAR-10) show that these settings remain mostly challenging for Deep Learning systems and that deeper architectures seem to help with structural concept complexity but not with overlap challenges in simple artificial domains. Data scarcity is not overcome by deeper layers, either. In the real-world image domains, where overfitting is a greater concern than in the artificial domains, the advantage of deeper architectures is less obvious: while it is observed in certain cases, it is quickly cancelled as models get deeper and perform worse than their shallower counterparts.
翻訳日:2021-07-30 13:12:54 公開日:2021-07-29
# 計算協調型ゲームai設計ツールの設計駆動要件

Design-Driven Requirements for Computationally Co-Creative Game AI Design Tools ( http://arxiv.org/abs/2107.13738v1 )

ライセンス: Link先を確認
Nathan Partlan, Erica Kleinman, Jim Howe, Sabbir Ahmad, Stacy Marsella, Magy Seif El-Nasr(参考訳) ゲームAIデザイナは、AIキャラクタ、ゲームワールド、プレイヤー間の複雑なインタラクションを管理しながら、設計ビジョンを達成する必要がある。 しかし第一に、aiとhciの研究者は要求を収集し、効果的な共同創造ツールを構築するために設計ヒューリスティックスを決定する必要がある。 本稿では,ゲームai設計者のワークフロー,目標,期待を分類し,分析する参加型デザイン研究について述べる。 我々は,ゲームai設計と共同創造ツールの設計との深いつながりを実証し,今後の共同創造ツール研究開発への示唆を示す。

Game AI designers must manage complex interactions between the AI character, the game world, and the player, while achieving their design visions. Computational co-creativity tools can aid them, but first, AI and HCI researchers must gather requirements and determine design heuristics to build effective co-creative tools. In this work, we present a participatory design study that categorizes and analyzes game AI designers' workflows, goals, and expectations for such tools. We evince deep connections between game AI design and the design of co-creative tools, and present implications for future co-creativity tool research and development.
翻訳日:2021-07-30 13:12:12 公開日:2021-07-29
# 深層埋め込みによる病理組織像の類似度測定

A Similarity Measure of Histopathology Images by Deep Embeddings ( http://arxiv.org/abs/2107.13703v1 )

ライセンス: Link先を確認
Mehdi Afshari, H.R. Tizhoosh(参考訳) 病理組織学 デジタルスキャンは、ピクセルレベルで貴重な情報を含む大きな画像である。 これらの画像のコンテンツベース比較は難しい課題である。 本研究では,高解像度ギガピクセル病理像に対するコンテントベース類似度尺度を提案する。 提案された類似度尺度は、行列に類似したコサインベクトルの拡張である。 各画像は、有意義な量の情報(つまり十分な組織を含む)を持つ同サイズのパッチに分割される。 この類似性は、4つの異なる倍率(1x, 2.5x, 5x, 10x)で事前訓練された深層モデルの最後のプール層のパッチレベルの深い埋め込みの抽出によって測定される。 さらに、より高速な測定のために、埋め込み削減について検討する。 最後に,提案手法を評価するため,画像検索手法を実装した。 その結果, スライドラベルの類似度は最大精度93.18\%であり, トップ5検索では5倍であることがわかった。

Histopathology digital scans are large-size images that contain valuable information at the pixel level. Content-based comparison of these images is a challenging task. This study proposes a content-based similarity measure for high-resolution gigapixel histopathology images. The proposed similarity measure is an expansion of cosine vector similarity to a matrix. Each image is divided into same-size patches with a meaningful amount of information (i.e., contained enough tissue). The similarity is measured by the extraction of patch-level deep embeddings of the last pooling layer of a pre-trained deep model at four different magnification levels, namely, 1x, 2.5x, 5x, and 10x magnifications. In addition, for faster measurement, embedding reduction is investigated. Finally, to assess the proposed method, an image search method is implemented. Results show that the similarity measure represents the slide labels with a maximum accuracy of 93.18\% for top-5 search at 5x magnification.
翻訳日:2021-07-30 13:11:59 公開日:2021-07-29
# 悪性・良性縦隔病変の鑑別のための3次元畳み込みニューラルネットワークを用いた内胚葉超音波像の解釈

The interpretation of endobronchial ultrasound image using 3D convolutional neural network for differentiating malignant and benign mediastinal lesions ( http://arxiv.org/abs/2107.13820v1 )

ライセンス: Link先を確認
Ching, Kai Lin, Shao, Hua Wu, Jerry Chang, Yun, Chien Cheng(参考訳) 本研究の目的は,3次元畳み込みニューラルネットワークを用いた気管支内超音波画像による悪性,良性縦隔病変の鑑別である。 前報と比較して,提案手法はノイズに耐性があり,EBUSビデオの様々な画像特徴と時空間的特徴を融合させることができる。 気管支内超音波ガイド下経気管支針吸引術(EBUS-TBNA)は胸腔内リンパ節の診断ツールである。 外科医は、手術中にグレースケールモード、ドップラーモード、エラストグラフィーを用いて病変の特徴を観察することができる。 ビデオ形式でEBUSデータを処理し、複数のイメージングモードの特徴を適切に統合するために、時系列3次元畳み込みニューラルネットワーク(3D CNN)を用いて時空間の特徴を学習し、各イメージングモードを融合させる様々なアーキテクチャを設計した。 本モデル(res3d_ude)は, トレーニングデータとしてグレースケールモード, ドップラーモード, エラストグラフィを用い, 精度82.00%, 曲線下領域(auc)0.83。 従来との比較では,術中記録した映像を直接トレーニング・検証データとして用いたが,手作業による選択は行わず,臨床応用は容易であった。 さらに、3D CNNで設計されたモデルは、時空間の特徴を効果的に学習し、精度を向上させることができる。 将来的には,検査期間中にスライス採取対象病変を迅速かつ正確に発見し,良性病変のスライス数を減少させ,検査時間を短縮するモデルが用いられるかもしれない。

The purpose of this study is to differentiate malignant and benign mediastinal lesions by using the three-dimensional convolutional neural network through the endobronchial ultrasound (EBUS) image. Compared with previous study, our proposed model is robust to noise and able to fuse various imaging features and spatiotemporal features of EBUS videos. Endobronchial ultrasound-guided transbronchial needle aspiration (EBUS-TBNA) is a diagnostic tool for intrathoracic lymph nodes. Physician can observe the characteristics of the lesion using grayscale mode, doppler mode, and elastography during the procedure. To process the EBUS data in the form of a video and appropriately integrate the features of multiple imaging modes, we used a time-series three-dimensional convolutional neural network (3D CNN) to learn the spatiotemporal features and design a variety of architectures to fuse each imaging mode. Our model (Res3D_UDE) took grayscale mode, Doppler mode, and elastography as training data and achieved an accuracy of 82.00% and area under the curve (AUC) of 0.83 on the validation set. Compared with previous study, we directly used videos recorded during procedure as training and validation data, without additional manual selection, which might be easier for clinical application. In addition, model designed with 3D CNN can also effectively learn spatiotemporal features and improve accuracy. In the future, our model may be used to guide physicians to quickly and correctly find the target lesions for slice sampling during the inspection process, reduce the number of slices of benign lesions, and shorten the inspection time.
翻訳日:2021-07-30 13:11:46 公開日:2021-07-29
# 条件付き生成逆数ネットワークを用いたディクソンMRIにおける無脂肪水分離

Swap-Free Fat-Water Separation in Dixon MRI using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2107.14175v1 )

ライセンス: Link先を確認
Nicolas Basty, Marjola Thanaj, Madeleine Cule, Elena P. Sorokin, Yi Liu, Jimmy D. Bell, E. Louise Thomas, and Brandon Whitcher(参考訳) ディクソンMRIは体組成研究に広く用いられている。 大規模な全身ボリュームに関連する現在の処理方法は、スキャナ上での脂肪-水分離中にアーチファクトに時間を要するため、分析が困難である。 最も一般的な人工物は脂肪水スワップであり、ラベルはボクセルレベルで逆転している。 研究者にとって、交換されたデータ(一般的に約10%)を捨てることが一般的であり、無駄になり、意図しない偏見につながる。 英国バイオバンクは、Dixon MRIを10万人以上の参加者で買収する。 検出されていない場合、エラーは腹部臓器のセグメンテーションなどのプロセスに伝播し、集団分析の結果を希薄化する。 脂肪と水チャネルを正確に分離する高速で堅牢な方法が必要であることは明らかである。 本稿では,条件付き生成型adversarial networkを用いたスタイル転送に基づく手法を提案する。 また、ジェネレータモデルのための新しいディクソン損失関数も導入する。 イギリスのバイオバンクDixon MRIのデータを用いて、我々のモデルは、人工物のない高度に正確な脂肪と水チャネルを予測することができる。 モデルでは, 単一入力 (相) または二重入力 (相) を用いて, 脂肪と水チャネルを分離し, 後者が改良された結果を示す。 提案手法は, 脂肪水交換による視覚的検査やデータ廃棄の必要性をなくし, ディクソンmriを用いたより高速かつ正確な体組成解析を可能にする。

Dixon MRI is widely used for body composition studies. Current processing methods associated with large whole-body volumes are time intensive and prone to artifacts during fat-water separation performed on the scanner, making the data difficult to analyse. The most common artifact are fat-water swaps, where the labels are inverted at the voxel level. It is common for researchers to discard swapped data (generally around 10%), which can be wasteful and lead to unintended biases. The UK Biobank is acquiring Dixon MRI for over 100,000 participants, and thousands of swaps will occur. If those go undetected, errors will propagate into processes such as abdominal organ segmentation and dilute the results in population-based analyses. There is a clear need for a fast and robust method to accurately separate fat and water channels. In this work we propose such a method based on style transfer using a conditional generative adversarial network. We also introduce a new Dixon loss function for the generator model. Using data from the UK Biobank Dixon MRI, our model is able to predict highly accurate fat and water channels that are free from artifacts. We show that the model separates fat and water channels using either single input (in-phase) or dual input (in-phase and opposed-phase), with the latter producing improved results. Our proposed method enables faster and more accurate downstream analysis of body composition from Dixon MRI in population studies by eliminating the need for visual inspection or discarding data due to fat-water swaps.
翻訳日:2021-07-30 13:11:18 公開日:2021-07-29
# タスク実行監視における視覚異常検出

Using Visual Anomaly Detection for Task Execution Monitoring ( http://arxiv.org/abs/2107.14206v1 )

ライセンス: Link先を確認
Santosh Thoduka and Juergen Gall and Paul G. Pl\"oger(参考訳) ロボットが障害を検出し、対応するためには、実行監視が不可欠である。 与えられたタスクのすべての障害を列挙することは不可能であるため、実行中の視覚異常を検出するためにタスクの実行を成功させることから学習する。 本手法は,カメラやロボットの身体の動きを含むタスクの実行中に発生する動作を予測することを学ぶ。 確率的u-netアーキテクチャは光流の予測に使われ、ロボットの運動学と3dモデルはカメラと体の動きのモデル化に使用される。 観測された動きと予測された動きの誤差を用いて異常スコアを算出する。 本手法は,本棚に本を置くロボットのデータセットを用いて評価し,本棚の落下,カメラの閉塞,ロボットの乱れなどの異常を含む。 カメラと体の動きのモデリングは,学習に基づく光学的フロー予測に加えて,受信機動作特性曲線0.752から0.804の領域,高精度リコール曲線0.467から0.549の領域の改善をもたらすことがわかった。

Execution monitoring is essential for robots to detect and respond to failures. Since it is impossible to enumerate all failures for a given task, we learn from successful executions of the task to detect visual anomalies during runtime. Our method learns to predict the motions that occur during the nominal execution of a task, including camera and robot body motion. A probabilistic U-Net architecture is used to learn to predict optical flow, and the robot's kinematics and 3D model are used to model camera and body motion. The errors between the observed and predicted motion are used to calculate an anomaly score. We evaluate our method on a dataset of a robot placing a book on a shelf, which includes anomalies such as falling books, camera occlusions, and robot disturbances. We find that modeling camera and body motion, in addition to the learning-based optical flow prediction, results in an improvement of the area under the receiver operating characteristic curve from 0.752 to 0.804, and the area under the precision-recall curve from 0.467 to 0.549.
翻訳日:2021-07-30 13:10:54 公開日:2021-07-29
# ロバストポイントクラウドセグメンテーションのためのノイズラベルによる学習

Learning with Noisy Labels for Robust Point Cloud Segmentation ( http://arxiv.org/abs/2107.14230v1 )

ライセンス: Link先を確認
Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao(参考訳) ポイントクラウドセグメンテーションは3Dの基本的なタスクである。 深層ネットワークのパワーによるポイントクラウドセグメンテーションの最近の進歩にもかかわらず、クリーンラベルの仮定に基づく現在のディープラーニング手法はノイズのあるラベルで失敗する可能性がある。 しかし、オブジェクトクラスのラベルはしばしば実世界のポイントクラウドデータセットで誤ってラベル付けされる。 本稿では,PNAL(Point Noise-Adaptive Learning)フレームワークを提案することにより,この問題の解決をリードする。 我々のPNALは、画像タスクにおける既存のノイズキャンバス法と比較してノイズレートブラインドであり、点群固有の空間変動ノイズレート問題に対処する。 具体的には,各点の履歴予測に基づいて,信頼度の高いラベルを得るための新しいポイントワイド信頼選択を提案する。 隣接点相関を考慮に入れた最適なラベルを生成するための投票戦略により,新しいクラスタワイズラベル補正を提案する。 我々は,PNALが合成および実世界の雑音データセットに与える影響を実証するために,広範な実験を行った。 特に60\%の対称雑音ラベルであっても、提案手法はPNALを使わずにベースラインよりもはるかに優れた結果が得られ、完全にクリーンなデータセットで訓練された理想的な上限値に匹敵する。 さらに、我々は、厳密な実験と将来の研究のために、人気のあるが騒がしい実世界のシーンデータセットScanNetV2のテストセットを完全に再ラベルした。 私たちのコードとデータは \url{https://shuquanye.com/PNAL_website/} で公開されます。

Point cloud segmentation is a fundamental task in 3D. Despite recent progress on point cloud segmentation with the power of deep networks, current deep learning methods based on the clean label assumptions may fail with noisy labels. Yet, object class labels are often mislabeled in real-world point cloud datasets. In this work, we take the lead in solving this issue by proposing a novel Point Noise-Adaptive Learning (PNAL) framework. Compared to existing noise-robust methods on image tasks, our PNAL is noise-rate blind, to cope with the spatially variant noise rate problem specific to point clouds. Specifically, we propose a novel point-wise confidence selection to obtain reliable labels based on the historical predictions of each point. A novel cluster-wise label correction is proposed with a voting strategy to generate the best possible label taking the neighbor point correlations into consideration. We conduct extensive experiments to demonstrate the effectiveness of PNAL on both synthetic and real-world noisy datasets. In particular, even with $60\%$ symmetric noisy labels, our proposed method produces much better results than its baseline counterpart without PNAL and is comparable to the ideal upper bound trained on a completely clean dataset. Moreover, we fully re-labeled the test set of a popular but noisy real-world scene dataset ScanNetV2 to make it clean, for rigorous experiment and future research. Our code and data will be available at \url{https://shuquanye.com/PNAL_website/}.
翻訳日:2021-07-30 13:10:34 公開日:2021-07-29
# 超アプリケーション環境における不正検出のための関係グラフニューラルネットワーク

Relational Graph Neural Networks for Fraud Detection in a Super-Appe nvironment ( http://arxiv.org/abs/2107.13673v1 )

ライセンス: Link先を確認
Jaime D. Acevedo-Viloria, Luisa Roa, Soji Adeshina, Cesar Charalla Olazo, Andr\'es Rodr\'iguez-Rey, Jose Alberto Ramos, Alejandro Correa-Bahnsen(参考訳) 大規模なデジタルプラットフォームは、さまざまなタイプのユーザインタラクションをキャプチャする環境を作成し、これらの関係は不正検出問題に対する新たな情報源を提供する。 本稿では,スーパーアプリケーションの金融サービスにおける不正行為防止のための関係グラフ畳み込みネットワーク手法の枠組みを提案する。 この目的のために,我々はこのフレームワークを,ユーザ,デバイス,クレジットカードの異なる異種グラフに適用し,最終的にグラフニューラルネットワークの解釈可能性アルゴリズムを用いて,ユーザの分類タスクに最も重要な関係性を決定する。 以上の結果から,スーパーアプリの代替データと,それらの高い接続性にあるインタラクションを利用するモデルを考えると,さらに価値が増すことが示され,より優れた意思決定や不正検出戦略に活用できることを示す。

Large digital platforms create environments where different types of user interactions are captured, these relationships offer a novel source of information for fraud detection problems. In this paper we propose a framework of relational graph convolutional networks methods for fraudulent behaviour prevention in the financial services of a Super-App. To this end, we apply the framework on different heterogeneous graphs of users, devices, and credit cards; and finally use an interpretability algorithm for graph neural networks to determine the most important relations to the classification task of the users. Our results show that there is an added value when considering models that take advantage of the alternative data of the Super-App and the interactions found in their high connectivity, further proofing how they can leverage that into better decisions and fraud detection strategies.
翻訳日:2021-07-30 13:09:37 公開日:2021-07-29
# 転送学習を用いたマルウェア分類

Malware Classification Using Transfer Learning ( http://arxiv.org/abs/2107.13743v1 )

ライセンス: Link先を確認
Hikmat Farhat and Veronica Rammouz(参考訳) インターネット上のデバイス数の増加に伴い、マルウェアは影響を受けるデバイスだけでなく、そのデバイスを使ってインターネットエコシステムへの攻撃を開始する能力にも脅威をもたらす。 マルウェアの迅速な分類は、その脅威に対処する重要なツールである。 分類において成功したアプローチの1つは、マルウェアの画像とディープラーニングに基づくものである。 多くのディープラーニングアーキテクチャは非常に正確だが、トレーニングには通常長い時間がかかる。 本研究では、トランスファー学習の文脈で、複数のよく知られた、事前学習されたディープネットワークアーキテクチャで実験を行う。 ほぼ全員が、非常に短い訓練期間でマルウェアを正確に分類している。

With the rapid growth of the number of devices on the Internet, malware poses a threat not only to the affected devices but also their ability to use said devices to launch attacks on the Internet ecosystem. Rapid malware classification is an important tools to combat that threat. One of the successful approaches to classification is based on malware images and deep learning. While many deep learning architectures are very accurate they usually take a long time to train. In this work we perform experiments on multiple well known, pre-trained, deep network architectures in the context of transfer learning. We show that almost all them classify malware accurately with a very short training period.
翻訳日:2021-07-30 13:09:25 公開日:2021-07-29
# 産業応用における予測モデル管理のための技術基盤の概念

Concept for a Technical Infrastructure for Management of Predictive Models in Industrial Applications ( http://arxiv.org/abs/2107.13821v1 )

ライセンス: Link先を確認
Florian Bachinger, Gabriel Kronberger(参考訳) 生成およびデプロイされた予測モデルと機械学習ワークフローの複雑さの増加に伴い、データサイエンティストのタスクをサポートするために、いわゆるモデル管理システムが必要です。 本稿では,このようなモデル管理システムの技術的概念について述べる。 このコンセプトには、データのバージョニングストレージ、さまざまな機械学習アルゴリズムのサポート、モデルの微調整、その後のモデルのデプロイ、デプロイ後のモデルパフォーマンスの監視が含まれる。 私たちはこの概念を、当社の業界アプリケーションケースに起因するモデルライフサイクル要件に密接に焦点を合わせながら、マシンラーニングのすべてのアプリケーションに関連する重要な機能を一般化します。

With the increasing number of created and deployed prediction models and the complexity of machine learning workflows we require so called model management systems to support data scientists in their tasks. In this work we describe our technological concept for such a model management system. This concept includes versioned storage of data, support for different machine learning algorithms, fine tuning of models, subsequent deployment of models and monitoring of model performance after deployment. We describe this concept with a close focus on model lifecycle requirements stemming from our industry application cases, but generalize key features that are relevant for all applications of machine learning.
翻訳日:2021-07-30 13:09:17 公開日:2021-07-29
# 多地点PV電力予測のための時空間グラフニューラルネットワーク

Spatio-temporal graph neural networks for multi-site PV power forecasting ( http://arxiv.org/abs/2107.13875v1 )

ライセンス: Link先を確認
Jelena Simeunovi\'c, Baptiste Schubnel, Pierre-Jean Alet and Rafael E. Carrillo(参考訳) 電力網の運転には,時間分解能と空間分解能による太陽発電の正確な予測が不可欠である。 しかし、機械学習と数値天気予報(NWP)を組み合わせた最先端のアプローチは、粗い解像度を持つ。 本稿では,グラフ信号処理の視点と多地点太陽光発電(PV)生成時系列をグラフ上の信号として捉え,その時空間依存性を把握し,空間的および時間的解像度の予測を行う。 グラフ畳み込み長短期メモリ(GCLSTM)とグラフ畳み込みトランスフォーマー(GCTrafo)モデルと呼ばれる,決定論的多地点PV予測のための2つの新しいグラフニューラルネットワークモデルを提案する。 これらの手法は生産データのみに依存し、PVシステムが仮想気象観測所の密集したネットワークを提供するという直感を利用する。 提案手法は, 1 台の実 pv システムからの生産データ, 2 台のスイスで配布された 1000 台の pv システムをシミュレートした2 台のデータセットで1年間評価した。 提案手法は6時間前の予測地平線に対する最先端のマルチサイト予測手法より優れている。 さらに,提案手法は,nwpをインプットとする最先端のシングルサイトメソッドを最大4時間先行する。

Accurate forecasting of solar power generation with fine temporal and spatial resolution is vital for the operation of the power grid. However, state-of-the-art approaches that combine machine learning with numerical weather predictions (NWP) have coarse resolution. In this paper, we take a graph signal processing perspective and model multi-site photovoltaic (PV) production time series as signals on a graph to capture their spatio-temporal dependencies and achieve higher spatial and temporal resolution forecasts. We present two novel graph neural network models for deterministic multi-site PV forecasting dubbed the graph-convolutional long short term memory (GCLSTM) and the graph-convolutional transformer (GCTrafo) models. These methods rely solely on production data and exploit the intuition that PV systems provide a dense network of virtual weather stations. The proposed methods were evaluated in two data sets for an entire year: 1) production data from 304 real PV systems, and 2) simulated production of 1000 PV systems, both distributed over Switzerland. The proposed models outperform state-of-the-art multi-site forecasting methods for prediction horizons of six hours ahead. Furthermore, the proposed models outperform state-of-the-art single-site methods with NWP as inputs on horizons up to four hours ahead.
翻訳日:2021-07-30 13:09:07 公開日:2021-07-29
# Bellamy: コンテキストを越えた分散データフロージョブのパフォーマンスモデルの使用

Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across Contexts ( http://arxiv.org/abs/2107.13921v1 )

ライセンス: Link先を確認
Dominik Scheinert, Lauritz Thamsen, Houkun Zhu, Jonathan Will, Alexander Acker, Thorsten Wittkopp, Odej Kao(参考訳) 分散データフローシステムは、スケーラブルなデータ分析にクラスタを利用することができる。 しかし、処理ジョブに適したクラスタリソースを選択するのは簡単ではないことが多い。 具体的なジョブの履歴実行に基づいてトレーニングされたパフォーマンスモデルは、このような状況では有効であるが、通常は特定のジョブ実行コンテキスト(例えば、)に縛られる。 ノードタイプ、ソフトウェアバージョン、ジョブパラメータ) 数少ない考慮された入力パラメータのため。 わずかなコンテキスト変更であっても、そのようなサポートモデルの再トレーニングが必要であり、関連するコンテキストからの過去の実行データから利益を得ることはできない。 本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。 これにより、ジョブ実行のコンテキストをキャプチャできる。 さらに、bellamyは2段階モデリングアプローチを実現している。 まず、一般的なモデルは、特定のスケーラブルな分析アルゴリズムのために利用可能なすべてのデータに基づいてトレーニングされます。 その後、具体的コンテキストの利用可能なデータに基づいて、特定の状況に対して汎用モデルを最適化する。 我々は,異なる環境で実行されるさまざまなデータフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価する。

Distributed dataflow systems enable the use of clusters for scalable data analytics. However, selecting appropriate cluster resources for a processing job is often not straightforward. Performance models trained on historical executions of a concrete job are helpful in such situations, yet they are usually bound to a specific job execution context (e.g. node type, software versions, job parameters) due to the few considered input parameters. Even in case of slight context changes, such supportive models need to be retrained and cannot benefit from historical execution data from related contexts. This paper presents Bellamy, a novel modeling approach that combines scale-outs, dataset sizes, and runtimes with additional descriptive properties of a dataflow job. It is thereby able to capture the context of a job execution. Moreover, Bellamy is realizing a two-step modeling approach. First, a general model is trained on all the available data for a specific scalable analytics algorithm, hereby incorporating data from different contexts. Subsequently, the general model is optimized for the specific situation at hand, based on the available data for the concrete context. We evaluate our approach on two publicly available datasets consisting of execution data from various dataflow jobs carried out in different environments, showing that Bellamy outperforms state-of-the-art methods.
翻訳日:2021-07-30 13:08:44 公開日:2021-07-29
# Tianshou: 高度にモジュール化された深層強化学習ライブラリ

Tianshou: a Highly Modularized Deep Reinforcement Learning Library ( http://arxiv.org/abs/2107.14171v1 )

ライセンス: Link先を確認
Jiayi Weng, Huayu Chen, Dong Yan, Kaichao You, Alexis Duburcq, Minghao Zhang, Hang Su, Jun Zhu(参考訳) 我々は,pytorchをバックエンドとする深層強化学習(drl)のための高度にモジュール化されたpythonライブラリであるtianshouを提案する。 Tianshouは、一般的なRL実験を再現するビルディングブロックを提供することを目的としており、15以上の古典的アルゴリズムを簡潔にサポートしている。 関連研究の促進とTianhouの信頼性を証明するため、TianhouのMuJoCo環境ベンチマークをリリースし、9つの古典的アルゴリズムと9/13のMujocoタスクを最先端のパフォーマンスでカバーした。 私たちはTianshouをhttps://github.com/thu-ml/tianshou/でオープンソース化しました。

We present Tianshou, a highly modularized python library for deep reinforcement learning (DRL) that uses PyTorch as its backend. Tianshou aims to provide building blocks to replicate common RL experiments and has officially supported more than 15 classic algorithms succinctly. To facilitate related research and prove Tianshou's reliability, we release Tianshou's benchmark of MuJoCo environments, covering 9 classic algorithms and 9/13 Mujoco tasks with state-of-the-art performance. We open-sourced Tianshou at https://github.com/thu-ml/tianshou/, which has received over 3k stars and become one of the most popular PyTorch-based DRL libraries.
翻訳日:2021-07-30 13:08:26 公開日:2021-07-29
# 機械学習を用いたソーラーオフグリッドシステムフィールドデータからのバッテリー寿命予測

Predicting battery end of life from solar off-grid system field data using machine learning ( http://arxiv.org/abs/2107.13856v1 )

ライセンス: Link先を確認
Antti Aitio and David A. Howey(参考訳) 何百万人もの人々が電気にアクセスできない。 分散型太陽熱システムは、二酸化炭素排出や大気汚染を回避しながらこれに対処する上で鍵となるが、比較的高いコストと、タイムリーな予防的維持を妨げる農村部によって妨げられている。 運用データからバッテリの正確な診断と寿命予測により、ユーザエクスペリエンスが向上し、コストが削減される。 しかし、制御された検証テストと可変データの品質の欠如は、既存のラボベースのテクニックが機能しないことを意味する。 ソーラー接続鉛酸電池1027台を400~760日、合計6億2000万行で稼働させ、健康診断にスケール可能な確率的機械学習手法を適用した。 終末期の正確な予測は73%で,8週間前であり,失敗時点では82%まで上昇した。 この研究は、"ビッグデータ"技術を用いて既存の測定値から健康を推定する機会を強調し、追加の機器を使わずに、寿命を延ばし、現実世界のアプリケーションの性能を向上させる。

Hundreds of millions of people lack access to electricity. Decentralised solar-battery systems are key for addressing this whilst avoiding carbon emissions and air pollution, but are hindered by relatively high costs and rural locations that inhibit timely preventative maintenance. Accurate diagnosis of battery health and prediction of end of life from operational data improves user experience and reduces costs. But lack of controlled validation tests and variable data quality mean existing lab-based techniques fail to work. We apply a scaleable probabilistic machine learning approach to diagnose health in 1027 solar-connected lead-acid batteries, each running for 400-760 days, totalling 620 million data rows. We demonstrate 73% accurate prediction of end of life, eight weeks in advance, rising to 82% at the point of failure. This work highlights the opportunity to estimate health from existing measurements using `big data' techniques, without additional equipment, extending lifetime and improving performance in real-world applications.
翻訳日:2021-07-30 13:08:12 公開日:2021-07-29
# (参考訳) 信頼度校正のためのエネルギーベースオープンワールド不確実性モデリング

Energy-Based Open-World Uncertainty Modeling for Confidence Calibration ( http://arxiv.org/abs/2107.12628v2 )

ライセンス: CC BY 4.0
Yezhen Wang, Bo Li, Tong Che, Kaiyang Zhou, Ziwei Liu, Dongsheng Li(参考訳) 信頼性校正は、機械学習システムによる決定の信頼性において非常に重要である。 しかし、ディープニューラルネットワークに基づく識別的分類器は、分類精度の真の正しさの可能性を反映しない過信予測を生成するためにしばしば批判される。 このような不確実性をモデル化できないのは、softmaxのクローズドワールドの性質に主に起因していると主張する: クロスエントロピー損失によって訓練されたモデルは、高い確率で、入力を$k$事前定義されたカテゴリの1つに分類しなければならない。 この問題に対処するために、我々は初めてオープンワールドの不確実性のモデリングを余剰次元として組み込んだ新しい$k$+1-way softmax定式法を提案する。 従来の$K$-wayの分類課題の学習と不確実性をモデル化する余剰次元を統一するために、我々は新しいエネルギーベースの目的関数を提案し、さらに、そのような目的を最適化することが本質的に余剰次元に限界データ分布を捕捉させることを理論的に証明する。 EOW-Softmax (Energy-based Open-World Softmax) は, 従来の信頼性校正手法よりも優れていることを示す。

Confidence calibration is of great importance to the reliability of decisions made by machine learning systems. However, discriminative classifiers based on deep neural networks are often criticized for producing overconfident predictions that fail to reflect the true correctness likelihood of classification accuracy. We argue that such an inability to model uncertainty is mainly caused by the closed-world nature in softmax: a model trained by the cross-entropy loss will be forced to classify input into one of $K$ pre-defined categories with high probability. To address this problem, we for the first time propose a novel $K$+1-way softmax formulation, which incorporates the modeling of open-world uncertainty as the extra dimension. To unify the learning of the original $K$-way classification task and the extra dimension that models uncertainty, we propose a novel energy-based objective function, and moreover, theoretically prove that optimizing such an objective essentially forces the extra dimension to capture the marginal data distribution. Extensive experiments show that our approach, Energy-based Open-World Softmax (EOW-Softmax), is superior to existing state-of-the-art methods in improving confidence calibration.
翻訳日:2021-07-30 11:11:10 公開日:2021-07-29
# (参考訳) 滑らかな1-wasserstein距離の極限分布理論とその応用

Limit Distribution Theory for the Smooth 1-Wasserstein Distance with Applications ( http://arxiv.org/abs/2107.13494v2 )

ライセンス: CC BY 4.0
Ritwik Sadhu and Ziv Goldfeld and Kengo Kato(参考訳) 滑らかな 1-wasserstein distance (swd) $w_1^\sigma$ は、ワッサーシュタイン構造を維持しながら経験的近似における次元の呪いを緩和する方法として最近提案されている。 実際、SWDはパラメトリック収束率を示し、古典的なワッサーシュタイン距離の計量と位相構造を継承する。 このように動機づけられた本研究は,経験値$w_1^\sigma$,ブートストラップ一貫性,濃度不等式,ベリー・エスセン型境界に対する高次元の極限分布結果を含む,swdの詳細な統計的研究を行っている。 導出非退化極限は、古典的な経験的 w_1$ と鋭く対照的であり、同様の結果が1次元の場合のみ知られている。 また、スムージングパラメータ$\sigma$が$n$にスケールされ、十分に遅いレートで$0$に収束するときに、漸近性を調べ、極限分布を特徴づける。 サンプル分布の次元性は、事前因子(すなわち定数)を通してのみ経験的なswd収束境界に入る。 我々は,この因子がスムースなパラメータと本質的な次元に依存していることの鋭い特徴を与える。 この結果は、古典的な$W_1$の新しい経験的収束率を本質的な次元で導き出すために用いられる。 極限分布理論の応用として、$W_1^\sigma$の下で二サンプル試験と最小距離推定(MDE)について検討する。 我々はSWDテストの漸近的妥当性を確立し、MDEでは測定可能性、ほぼ確実に収束し、最適推定器と対応する$W_1^\sigma$誤差の分布を制限する。 その結果,SWDは高次元の統計的学習や推論に適していることが示唆された。

The smooth 1-Wasserstein distance (SWD) $W_1^\sigma$ was recently proposed as a means to mitigate the curse of dimensionality in empirical approximation while preserving the Wasserstein structure. Indeed, SWD exhibits parametric convergence rates and inherits the metric and topological structure of the classic Wasserstein distance. Motivated by the above, this work conducts a thorough statistical study of the SWD, including a high-dimensional limit distribution result for empirical $W_1^\sigma$, bootstrap consistency, concentration inequalities, and Berry-Esseen type bounds. The derived nondegenerate limit stands in sharp contrast with the classic empirical $W_1$, for which a similar result is known only in the one-dimensional case. We also explore asymptotics and characterize the limit distribution when the smoothing parameter $\sigma$ is scaled with $n$, converging to $0$ at a sufficiently slow rate. The dimensionality of the sampled distribution enters empirical SWD convergence bounds only through the prefactor (i.e., the constant). We provide a sharp characterization of this prefactor's dependence on the smoothing parameter and the intrinsic dimension. This result is then used to derive new empirical convergence rates for classic $W_1$ in terms of the intrinsic dimension. As applications of the limit distribution theory, we study two-sample testing and minimum distance estimation (MDE) under $W_1^\sigma$. We establish asymptotic validity of SWD testing, while for MDE, we prove measurability, almost sure convergence, and limit distributions for optimal estimators and their corresponding $W_1^\sigma$ error. Our results suggest that the SWD is well suited for high-dimensional statistical learning and inference.
翻訳日:2021-07-30 10:56:52 公開日:2021-07-29
# より深くではなくより広く行く

Go Wider Instead of Deeper ( http://arxiv.org/abs/2107.11817v2 )

ライセンス: Link先を確認
Fuzhao Xue, Ziji Shi, Futao Wei, Yuxuan Lou, Yong Liu, Yang You(参考訳) トランスフォーマーは最近、様々なタスクで素晴らしい成果を上げています。 変圧器の有効性と効率をさらに向上させるため,(1)より訓練可能なパラメータに拡大し,(2)パラメータ共有によりより浅く,あるいは深度とともにモデルを圧縮する,という2つの既存の作業が検討されている。 しかし、大きなモデルは、訓練に利用可能なトークンが少ない場合、よくスケールせず、モデルが非常に大きい場合は高度な並列性が必要となる。 小型モデルは通常、表現力の喪失によりオリジナルのトランスモデルに比べて性能が劣る。 本稿では,トレーニング可能なパラメータの少ない性能を実現するために,より深く学習可能なパラメータを効率的にデプロイするフレームワークを提案する。 特に,フィードフォワードネットワーク(FFN)をMixix-of-experts(MoE)に置き換えることで,モデル幅を拡大する。 次に、各層正規化を用いて変換器ブロック間でMoE層を共有します。 このような配置は、様々な意味表現を変換する役割を担い、モデルをよりパラメータ効率よく効果的にする。 このフレームワークを評価するために、WideNetを設計し、ImageNet-1K上で評価する。 私たちの最良のモデルはViT(Vision Transformer)を1.46\%$、0.72 \times$トレーニング可能なパラメータで上回る。 0.46 \times$と0.13 \times$パラメータを使って、WideNetはViTとViT-MoEをそれぞれ0.83\%$と2.08\%$で上回ることができる。

The transformer has recently achieved impressive results on various tasks. To further improve the effectiveness and efficiency of the transformer, there are two trains of thought among existing works: (1) going wider by scaling to more trainable parameters; (2) going shallower by parameter sharing or model compressing along with the depth. However, larger models usually do not scale well when fewer tokens are available to train, and advanced parallelisms are required when the model is extremely large. Smaller models usually achieve inferior performance compared to the original transformer model due to the loss of representation power. In this paper, to achieve better performance with fewer trainable parameters, we propose a framework to deploy trainable parameters efficiently, by going wider instead of deeper. Specially, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). We then share the MoE layers across transformer blocks using individual layer normalization. Such deployment plays the role to transform various semantic representations, which makes the model more parameter-efficient and effective. To evaluate our framework, we design WideNet and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer (ViT) by $1.46\%$ with $0.72 \times$ trainable parameters. Using $0.46 \times$ and $0.13 \times$ parameters, our WideNet can still surpass ViT and ViT-MoE by $0.83\%$ and $2.08\%$, respectively.
翻訳日:2021-07-30 10:25:14 公開日:2021-07-29
# Slate Recommendationのためのリワード信号とランク信号の組み合わせ

Combining Reward and Rank Signals for Slate Recommendation ( http://arxiv.org/abs/2107.12455v2 )

ライセンス: Link先を確認
Imad Aouali, Sergey Ivanov, Mike Gartrell, David Rohde, Flavian Vasile, Victor Zaytsev, Diego Legrand(参考訳) 提案手法では,k個の推奨項目からなるコレクションやスレートをユーザに同時に提示するスレートレコメンデーションの問題を考える。 ユーザが推奨項目を見つけた場合、ユーザーはクリックし、レコメンダシステムはいくつかのフィードバックを受け取る。 推薦システムには2つの情報がある:スレートはクリックされたか? そしてもしスレートがクリックされたら、どのアイテムがクリックされたのか? (位) 本稿では,非パーソナライズスレート推薦のための報酬信号(reward model),ランク信号(rank model),あるいはその両方(full model)を組み込んだベイズモデルをいくつか定式化する。 本実験では, フルモデルの性能向上を解析し, カタログ内の製品数の増加やスレートサイズの増加に伴い, 誤差を著しく低減することを示した。

We consider the problem of slate recommendation, where the recommender system presents a user with a collection or slate composed of K recommended items at once. If the user finds the recommended items appealing then the user may click and the recommender system receives some feedback. Two pieces of information are available to the recommender system: was the slate clicked? (the reward), and if the slate was clicked, which item was clicked? (rank). In this paper, we formulate several Bayesian models that incorporate the reward signal (Reward model), the rank signal (Rank model), or both (Full model), for non-personalized slate recommendation. In our experiments, we analyze performance gains of the Full model and show that it achieves significantly lower error as the number of products in the catalog grows or as the slate size increases.
翻訳日:2021-07-30 10:24:17 公開日:2021-07-29