このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200320となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子計測における先行量子ビットのダイナミクスの位相図 Phase Diagram of the Dynamics of a Precessing Qubit under Quantum Measurement ( http://arxiv.org/abs/2003.09056v1 ) ライセンス: Link先を確認 | Xinru Tang, Fuxiang Li | (参考訳) 外部横磁場下で単一の量子ビットプリセシングを逐次測定することによって誘起される相転移について検討する。
射影量子測定では、測定結果の確率分布を1次元イジングモデルの熱力学的確率分布に正確にマッピングすることができ、その結合は強磁性から反強磁性への磁場によって変化する。
逐次量子測定の一般的な場合において、強磁性秩序と反強磁性秩序の確率分布関数を計算する高速かつ正確なアルゴリズムを開発し、測定強度と磁場強度に代表されるパラメータ空間で位相図を得る。
長距離相互作用イジングモデルへのマッピングは、小さな測定強度の限界で得られる。
位相図の理解、およびブレイド群によって特徴づけられる位相相転移と接続するために、全計数統計学的アプローチが適用される。
この研究は、量子測定によって引き起こされる相転移の理解を深め、量子進化を特徴付ける新しい方法を提供するかもしれない。 We study the phase transitions induced by sequentially measuring a single qubit precessing under an external transverse magnetic field. Under projective quantum measurement, the probability distribution of the measurement outcomes can be mapped exactly to the thermodynamic probability distribution of a one-dimensional Ising model, whose coupling can be varied by the magnetic field from ferromagnetic to anti-ferromagnetic. For the general case of sequential quantum measurement,we develop a fast and exact algorithm to calculate the probability distribution function of the ferromagnetic order and anti-ferromagnetic order, and a phase diagram is obtained in the parameter space spanned by the measurement strength and magnetic field strength. The mapping to a long-range interacting Ising model is obtained in the limit of small measurement strength. Full counting statistical approach is applied to understand the phase diagram, and to make connections with the topological phase transition that is characterized by the braid group. This work deepens the understanding of phase transitions induced by quantum measurement, and may provide a new method to characterize and steer the quantum evolution. | 翻訳日:2023-05-28 15:50:16 公開日:2020-03-20 |
# 最適なクラスタ状態の設定を見つける。
一方向量子計算誤差の最小化 Finding the optimal cluster state configuration. Minimization of one-way quantum computation errors ( http://arxiv.org/abs/2003.09197v1 ) ライセンス: Link先を確認 | S. B. Korolev, T. Yu. Golubeva, Yu. M. Golubev | (参考訳) 本稿では,各構成のクラスタ状態に対する一方向量子計算を用いたガウス変換の誤差を推定する。
可能なすべてのクラスタ状態設定から、最小の計算エラーを与えるものを選択する。
さらに,ガウス演算を行うハイブリッド計算スキームにおける誤差を,線形変換を付加した一方向計算を用いて評価する。
その結果、最小限の誤差で普遍ガウス計算を実装するための最適戦略を見出した。 In this paper, we estimate the errors of Gaussian transformations implemented using one-way quantum computations on cluster states of various configurations. From all possible cluster state configurations, we choose those that give the smallest computation error. Furthermore, we evaluate errors in hybrid computational schemes, in which Gaussian operations are performed using one-way computations with additional linear transformations. As a result, we find the optimal strategy for the implementation of universal Gaussian computations with minimal errors. | 翻訳日:2023-05-28 15:48:22 公開日:2020-03-20 |
# Pauli Basisにおける$\mathfrak{su}(8)$の表現 Representation of $\mathfrak{su}(8)$ in Pauli Basis ( http://arxiv.org/abs/2003.09192v1 ) ライセンス: Link先を確認 | K. Y. Chew, Nurisya M. Shah, K. T. Chan | (参考訳) 量子計算は、現在の計算能力のアップグレードに向けて大きな期待を抱いているため、重要な研究分野となり始めた。
量子状態の進化を研究することは、量子計算につながる量子情報を理解する上で良い基礎となる。
これはリー群やリー代数のようなそれぞれの数学的ツールで助けられた。
本研究では、$\mathfrak{su}(8)$ のリー代数は、3つのパウリ行列の間のテンソル積で表される。
これは一般化されたゲルマン行列を構築し、パウリ基底と比較することによってなされる。
この研究は、ゲルマン行列とパウリ基底との1対1の相関が座標の変化に類似していることを明確に示す。
これは特に量子回路問題を扱う際に有用である。 Quantum computation started to become significant field of studies as it hold great promising towards the upgrade of our current computational power. Studying the evolution of quantum states serves as a good fundamental in understanding quantum information which lead to quantum computation. This was assisted with the respective mathematical tools such as Lie group and Lie algebra. In this study, the Lie algebra of $\mathfrak{su}(8)$ is represented in tensor product between three Pauli matrices. This is done by constructing the generalized Gell-Mann matrices and compared to the Pauli basis. This study will explicitly shows the one-to-one correlation of Gell-Mann matrices with the Pauli basis resembled change of coordinates. This is particularly useful when dealing with quantum circuit problems. | 翻訳日:2023-05-28 15:48:16 公開日:2020-03-20 |
# 超伝導磁束量子ビットを用いた最大20スピン感度の電子スピン共鳴 Electron Spin Resonance with up to 20 Spin Sensitivity Measured using a Superconducting Flux Qubit ( http://arxiv.org/abs/2003.09131v1 ) ライセンス: Link先を確認 | Rangga P. Budoyo, Kosuke Kakuyanagi, Hiraku Toida, Yuichiro Matsuzaki, Shiro Saito | (参考訳) 超伝導フラックス量子ビットを用いた6flの電子スピン共鳴分光測定について報告する。
量子ビットは周波数可変のジョセフソン分岐増幅器を用いて読み出され、1s測定で推定される約20スピンの感度となる。
この感度はdc-squidswitching readout を用いたflux-qubit スキームと比較すると桁違いに改善される。
さらに、ノイズスペクトロスコピーにより、フラックスノイズ(1/f$)によって感度が制限されることが明らかとなった。 We report on electron spin resonance spectroscopy measurements using a superconducting flux qubit with a sensing volume of 6 fl. The qubit is read out using a frequency-tunable Josephson bifurcation amplifier, which leads to an inferred measurement sensitivity of about 20 spins in a 1 s measurement. This sensitivity represents an order of magnitude improvement when compared with flux-qubit schemes using a dc-SQUID switching readout. Furthermore, noise spectroscopy reveals that the sensitivity is limited by flicker ($1/f$) flux noise. | 翻訳日:2023-05-28 15:47:30 公開日:2020-03-20 |
# ベリリウムイオンを捕捉した量子情報処理のためのVECSELシステム VECSEL systems for quantum information processing with trapped beryllium ions ( http://arxiv.org/abs/2003.09060v1 ) ライセンス: Link先を確認 | S. C. Burd, J.-P. Penttinen, P.-Y. Hou, H. M. Knaack, S. Ranta, M. M\"aki, E. Kantola, M. Guina, D. H. Slichter, D. Leibfried, A. C. Wilson | (参考訳) 紫外線を235nmと313nmで生成する2つの垂直キャビティ表面発光レーザ(VECSEL)を実証した。
これらのシステムは、ベリリウムイオンを閉じ込めた量子情報処理用途に適している。
それぞれのシステムはコンパクトで単一周波数で連続波のVECSELで構成され、数十ナノメートルで調整可能な高出力近赤外光を発生させる。
1つのシステムは940nmで2.4wを生成し、gainas/gaas量子井戸に基づくゲインミラーを用いて、中性ベリリウム原子の光イオン化のために54mwの235nm光に変換される。
他方のシステムはGaInNAs/GaAs量子井戸に基づく新しい利得ミラーを使用し、GaAs格子内の管理可能なひずみによる波長拡張を可能にする。
このシステムは 1252 nm で1.6 w を生成し、313 nm の41 mw の光に変換し、冷却された$^{9}$be$^{+}$ イオンをレーザー照射し、量子状態の生成と検出を行う。
313nm系は高忠実度量子ゲートの実装にも適しており、より広範に、原子、分子、光学物理学への応用のためのVECSEL系の性能を拡張した。 Two vertical-external-cavity surface-emitting laser (VECSEL) systems producing ultraviolet (UV) radiation at 235 nm and 313 nm are demonstrated. The systems are suitable for quantum information processing applications with trapped beryllium ions. Each system consists of a compact, single-frequency, continuous-wave VECSEL producing high-power near-infrared light, tunable over tens of nanometers. One system generates 2.4 W at 940 nm, using a gain mirror based on GaInAs/GaAs quantum wells, which is converted to 54 mW of 235 nm light for photoionization of neutral beryllium atoms. The other system uses a novel gain mirror based on GaInNAs/GaAs quantum-wells, enabling wavelength extension with manageable strain in the GaAs lattice. This system generates 1.6 W at 1252 nm, which is converted to 41 mW of 313 nm light that is used to laser cool trapped $^{9}$Be$^{+}$ ions and to implement quantum state preparation and detection. The 313 nm system is also suitable for implementing high-fidelity quantum gates, and more broadly, our results extend the capabilities of VECSEL systems for applications in atomic, molecular, and optical physics. | 翻訳日:2023-05-28 15:46:39 公開日:2020-03-20 |
# 超伝導電荷量子ビットへの結合による空洞場の圧縮コヒーレント状態の重ね合わせ Preparation of a superposition of squeezed coherent states of a cavity field via coupling to a superconducting charge qubit ( http://arxiv.org/abs/2003.10843v1 ) ライセンス: Link先を確認 | Dagoberto S. Freitas | (参考訳) 放射場の非古典的状態の生成は、量子通信における様々な応用を考えると、近年ますます重要になっている。
このような非古典状態を生成する可能性は、空洞電磁力学、閉じ込められたイオン、量子ドット、空洞内の原子など、いくつかの物理学の分野に確立されている。
この意味では、マイクロキャビティにおける超伝導量子ビットの文脈における非古典状態の生成問題について論じる。
キャビティ内のsquid電荷量子ビットとキャビティ場と電荷量子ビットとの間の制御可能な相互作用を用いて量子状態を設計する方法が最近提案されている。
これらの量子状態を作るための重要な要素は、可変ゲート電圧とSQUIDに適用される古典磁場である。
これらの成分を含むいくつかのモデルと、相互作用と場の非古典状態の線形化を可能にする適切な近似を用いたモデルが生成された。
デコヒーレンスは量子効果に干渉なく影響を及ぼすことが知られており、デコヒーレンス過程は量子状態が形成される場合でも機能するので、量子重ね合わせができるだけ早く生成される過程を観察することは興味深い。
デコヒーレンス効果はキャビティqedの文脈で研究・定量化されており、量子が重ね合わせであるほど、量子状態の生成過程でより迅速に環境効果が生じることが示されている。
後者の参考において、適切なユニタリ変換の適用によりハミルトニアンを線形化することに成功し、関連するパラメータの特定の値に対して、特定のハミルトニアンを得ることができることを示した。
本研究では、2つの圧縮されたコヒーレント状態の重ね合わせにそのようなアプローチを用いる。 The generation of nonclassical states of a radiation field has become increasingly important in the past years given its various applications in quantum communication. The feasibility of generating such nonclassical states has been established in several branches of physics such as cavity electrodynamics, trapped ions, quantum dots, atoms inside cavities and so on. In this sense, we will discuss the issue of the generation of nonclassical states in the context of a superconducting qubit in a microcavity. It has been recently proposed a way to engineer quantum states using a SQUID charge qubit inside a cavity with a controllable interaction between the cavity field and the charge qubit. The key ingredients to engineer these quantum states are a tunable gate voltage and a classical magnetic field applied to SQUID. Some models including these ingredients and using some appropriate approximations which allow for the linearization of the interaction and nonclassical states of the field were generated. Since decoherence is known to affect quantum effects uninterruptedly and decoherence process are works even when the quantum state is being formed, therefore, it is interesting to envisage processes through which quantum superpositions are generated as fast as possible. The decoherence effect has been studied and quantified in the context of cavity QED where it is shown that the more quantum is the superposition, more rapidly the environmental effects occur during the process of creating the quantum state. In the latter reference, we have succeeded in linearizing the Hamiltonian through the application of an appropriate unitary transformation and for certain values of the parameters involved, we have showed that it is possible to obtain specific Hamiltonians. In this work we will use such approach for preparing superposition of two squeezed coherent states. | 翻訳日:2023-05-28 15:38:14 公開日:2020-03-20 |
# 新型コロナウイルス(covid-19)によるアラブ諸国や領土への打撃--状況報告i Novel Coronavirus COVID-19 Strike on Arab Countries and Territories: A Situation Report I ( http://arxiv.org/abs/2003.09501v1 ) ライセンス: Link先を確認 | Omar Reyad | (参考訳) 新型コロナウイルス(Coronavirus)は、中国武漢で最初に発見された新型コロナウイルス(COVID-19)または2019-nCoV(nCoV)による感染症である。
この病気は(インフルエンザのような)呼吸器疾患を引き起こすが、他の症状、例えばせき、熱、そしてより重篤なケースでは呼吸が困難になる。
新型コロナウイルスは非常に感染性が高く、急速に世界中に広がっている。
本研究では、covid-19に関する情報が提供され、アラブ諸国や新型コロナウイルスのストライキに関する領域の状況が提示される。
今後数週間の主な期待事項も提供される。 The novel Coronavirus (COVID-19) is an infectious disease caused by a new virus called COVID-19 or 2019-nCoV that first identified in Wuhan, China. The disease causes respiratory illness (such as the flu) with other symptoms such as a cough, fever, and in more severe cases, difficulty breathing. This new Coronavirus seems to be very infectious and has spread quickly and globally. In this work, information about COVID-19 is provided and the situation in Arab countries and territories regarding the COVID-19 strike is presented. The next few weeks main expectations is also given. | 翻訳日:2023-05-28 15:37:40 公開日:2020-03-20 |
# QSCOUTのための量子アセンブリ言語Jaqal Jaqal, the Quantum Assembly Language for QSCOUT ( http://arxiv.org/abs/2003.09382v1 ) ライセンス: Link先を確認 | Andrew J. Landahl and Daniel S. Lobser and Benjamin C. A. Morrison and Kenneth M. Rudinger and Antonio E. Russo and Jay W. Van Der Wall and Peter Maunz | (参考訳) qscoutは、量子科学計算のオープンユーザーテストベッドであり、サンディア国立研究所でエネルギー省のoffice of scienceとそのadvanced scientific computing(ascr)プログラムのために実現された、閉じ込められたイオン量子コンピュータテストベッドである。
JaqalはJust Another Quantum Assembly Languageの略で、QSCOUTで実行されるプログラムを指定するために使われるプログラミング言語である。
この文書には、Jaqalの仕様とQSCOUT 1.0の機能の概要、例えばJaqalプログラム、将来の拡張の計画が含まれている。
qscoutとそれのために開発されたjaqal言語について詳しく知るには、qscout.sandia.govを訪れるか、qscout@sandia.govにeメールを送ってください。 QSCOUT is the Quantum Scientific Computing Open User Testbed, a trapped-ion quantum computer testbed realized at Sandia National Laboratories on behalf of the Department of Energy's Office of Science and its Advanced Scientific Computing (ASCR) program. Jaqal, for Just Another Quantum Assembly Language, is the programming language used to specify programs executed on QSCOUT. This document contains a specification of Jaqal along with a summary of QSCOUT 1.0 capabilities, example Jaqal programs, and plans for possible future extensions. To learn more about QSCOUT and the Jaqal language developed for it, please visit qscout.sandia.gov or send an e-mail to qscout@sandia.gov. | 翻訳日:2023-05-28 15:36:19 公開日:2020-03-20 |
# グラフェンオンシリコン導波路における光子対生成によるグラフェン光非線形性の評価 Evaluation of graphene optical nonlinearity with photon-pair generation in graphene-on-silicon waveguides ( http://arxiv.org/abs/2003.09256v1 ) ライセンス: Link先を確認 | Yuya Yonezu, Rai Kou, Hidetaka Nishi, Koji Yamada, Takao Aoki, Atushi Ishizawa, Nobuyuki Matsuda | (参考訳) グラフェンオンシリコン導波路の非線形係数を, 自発的4波混合による光子ペアの偶然測定により評価した。
グラフェンシートの様々な転写配置における導波路からの光子対の時間的相関を観測した。
結合波方程式を用いた実験結果の簡易解析により, シリコン導波路の非線形性は10倍に向上した。
その結果、純粋な$\chi^{(3)}$ベースのグラフェンの有効非線形屈折率指数は10^{-13}$ m$^2$/Wの順であり、グラフェン系非線形光学のオンチップナノフォトニクスへの応用に重要な洞察を与えることが示された。 We evaluate the nonlinear coefficient of graphene-on-silicon waveguides through the coincidence measurement of photon-pairs generated via spontaneous four-wave mixing. We observed the temporal correlation of the photon-pairs from the waveguides over various transfer layouts of graphene sheets. A simple analysis of the experimental results using coupled-wave equations revealed that the atomically-thin graphene sheets enhanced the nonlinearity of silicon waveguides up to ten-fold. The results indicate that the purely $\chi^{(3)}$-based effective nonlinear refractive index of graphene is on the order of $10^{-13}$ m$^2$/W, and provide important insights for applications of graphene-based nonlinear optics in on-chip nanophotonics. | 翻訳日:2023-05-28 15:36:03 公開日:2020-03-20 |
# 環境支援ボソニック量子通信 Environment-assisted bosonic quantum communications ( http://arxiv.org/abs/2003.09246v1 ) ライセンス: Link先を確認 | Stefano Pirandola, Carlo Ottaviani, Christian S. Jacobsen, Gaetana Spedalieri, Samuel L. Braunstein, Tobias Gehring, and Ulrik L. Andersen | (参考訳) 我々は, 量子通信の連続変数プロトコルとして, 絡み合い分布(スワッピングと蒸留)から量子テレポーテーション, 量子鍵分布など, 二つの当事者が利用する量子リレーを考える。
これらのプロトコルの理論は、ボソニック環境における相関ガウス雑音によって特徴づけられる非マルコフ的デコヒーレンスモデルに好適に拡張される。
両端の絡み合いが完全に失われる最悪のシナリオでは、環境における古典的(分離可能な)相関によって、様々なプロトコルが再活性化可能であることを示す。
実際、臨界量を超えると、これらの相関関係はより弱い形の絡み合い(四分節)の分布を保証でき、それは中継によってより強い形(二分節)へと局所化することができる。
本研究は, 量子・プライベート通信における単一リピータをはるかに超えて, 環境中のメモリ効果が量子中継の性能を大幅に向上させることができることを示す実証実験により確認した。 We consider a quantum relay which is used by two parties to perform several continuous-variable protocols of quantum communication, from entanglement distribution (swapping and distillation), to quantum teleportation, and quantum key distribution. The theory of these protocols is suitably extended to a non-Markovian model of decoherence characterized by correlated Gaussian noise in the bosonic environment. In the worst case scenario where bipartite entanglement is completely lost at the relay, we show that the various protocols can be reactivated by the assistance of classical (separable) correlations in the environment. In fact, above a critical amount, these correlations are able to guarantee the distribution of a weaker form of entanglement (quadripartite), which can be localized by the relay into a stronger form (bipartite) that is exploitable by the parties. Our findings are confirmed by a proof-of-principle experiment where we show, for the first time, that memory effects in the environment can drastically enhance the performance of a quantum relay, well beyond the single-repeater bound for quantum and private communications. | 翻訳日:2023-05-28 15:35:49 公開日:2020-03-20 |
# ブロックチェーンガバナンス:nash均衡を用いた最適戦略の概要と予測 Blockchain Governance: An Overview and Prediction of Optimal Strategies using Nash Equilibrium ( http://arxiv.org/abs/2003.09241v1 ) ライセンス: Link先を確認 | Nida Khan, Tabrez Ahmad, Anass Patel and Radu State | (参考訳) ブロックチェーンガバナンスは進行中の研究対象であり、ブロックチェーンガバナンスの学際的な見解は、この初期段階の技術のための正式なガバナンスフレームワークを確立するためのさらなる研究を支援するために不可欠である。
本稿では,機関ガバナンスの階層におけるブロックチェーンガバナンスの位置づけについて論じる。
ブロックチェーンガバナンスは、異なるガバナンス決定の結果を予測するために、ナッシュ均衡を使用してITガバナンスの観点から分析されます。
ブロックチェーンガバナンスのためのペイオフ行列を作成し、すべてのNash平衡の計算のために異なる戦略プロファイルのシミュレーションを行う。
この論文は、ハードフォークの発生を最小限に抑え、プロトコル更新時の多数派行動を予測する最善のガバナンス戦略を予測するのに使用可能な、新しい数学的公式の提案に使用される、ブロックチェーンガバナンスのさまざまな種類のペイオフ行列について詳述している。
提案する式は,実Ethereumデータを用いて検証する。 Blockchain governance is a subject of ongoing research and an interdisciplinary view of blockchain governance is vital to aid in further research for establishing a formal governance framework for this nascent technology. In this paper, the position of blockchain governance within the hierarchy of Institutional governance is discussed. Blockchain governance is analyzed from the perspective of IT governance using Nash equilibrium to predict the outcome of different governance decisions. A payoff matrix for blockchain governance is created and simulation of different strategy profiles is accomplished for computation of all Nash equilibria. The paper elaborates upon payoff matrices for different kinds of blockchain governance, which are used in the proposition of novel mathematical formulae usable to predict the best governance strategy that minimizes the occurrence of a hard fork as well as predicts the behavior of the majority during protocol updates. The paper also includes validation of the proposed formulae using real Ethereum data. | 翻訳日:2023-05-28 15:35:31 公開日:2020-03-20 |
# オプティメカルシステムにおける境界状態によるリモート弱信号計測 Remote weak signal measurement via bound states in optomechanical system ( http://arxiv.org/abs/2003.09230v1 ) ライセンス: Link先を確認 | Xun Li, Biao Xiong, Shilei Chao, Chengsong Zhao, Hua-Tang Tan and Ling Zhou | (参考訳) 共振器型光導波路〜(CROW)を送信機として, 共振器型光導波路と共振器型光共振器と共振器型光共振器をそれぞれ結合する遠隔弱信号センサの方式を提案する。
非マルコフ的理論は、CROWをキャビティ場の非マルコフ的貯留体として扱うことで弱い力センサを研究するために用いられ、負効果質量~(NEM)発振器を導入してバックアクションノイズをキャンセルする。
特定の条件下では、散逸のない境界状態は、散逸することなく、弱い信号がCROWに転送されるように形成することができる。
その結果,特定のパラメータ条件下では,境界状態の補助により超高感度を実現することができた。 A scheme for remote weak signal sensor is proposed in which a coupled resonator optical waveguide~(CROW), as a transmitter, couples to a hybrid optomechanical cavity and an observing cavity, respectively. The non-Markovian theory is employed to study the weak force sensor by treating the CROW as a non-Markovian reservoir of the cavity fields, and the negative-effective-mass~(NEM) oscillator is introduced to cancel the back-action noise. Under certain conditions, dissipationless bound states can be formed such that weak signal can be transferred in the CROW without dissipation. Our results show that ultrahigh sensitivity can be achieved with the assistance of the bound states under certain parameters regime. | 翻訳日:2023-05-28 15:35:17 公開日:2020-03-20 |
# 効果的なフェデレーション学習のための適応的グラディエントスパシフィケーション:オンライン学習アプローチ Adaptive Gradient Sparsification for Efficient Federated Learning: An Online Learning Approach ( http://arxiv.org/abs/2001.04756v3 ) ライセンス: Link先を確認 | Pengchao Han, Shiqiang Wang, Kin K. Leung | (参考訳) フェデレートラーニング(FL)は、ローカルエンティティが収集した地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。
ローカルな計算と同期のステップを含む。
通信オーバーヘッドを低減し、FLの全体的な効率を向上させるため、勾配スペーシフィケーション(GS)を適用し、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。
既存のGSの作業は、データセンター内で分散されたデータに対して、一定の勾配間隔を使用する。
本稿では,適応度と非局所的データセットについて考察する。
まず、各クライアントが同様の量の更新を確実に行うフェアネス対応GS手法を提案する。
そこで本研究では,学習時間全体の最小化を目標とし,勾配スパーシティの程度によって制御される最適に近いコミュニケーションと計算トレードオフを自動的に決定するオンライン学習定式化とアルゴリズムを提案する。
オンライン学習アルゴリズムは、目的関数の導関数の推定符号を使い、正確な導関数が利用できる場合と漸近的に等しい後悔境界を与える。
実際のデータセットを用いた実験により提案手法の利点が確認でき、訓練時間限定でモデル精度が最大40\%向上した。 Federated learning (FL) is an emerging technique for training machine learning models using geographically dispersed data collected by local entities. It includes local computation and synchronization steps. To reduce the communication overhead and improve the overall efficiency of FL, gradient sparsification (GS) can be applied, where instead of the full gradient, only a small subset of important elements of the gradient is communicated. Existing work on GS uses a fixed degree of gradient sparsity for i.i.d.-distributed data within a datacenter. In this paper, we consider adaptive degree of sparsity and non-i.i.d. local datasets. We first present a fairness-aware GS method which ensures that different clients provide a similar amount of updates. Then, with the goal of minimizing the overall training time, we propose a novel online learning formulation and algorithm for automatically determining the near-optimal communication and computation trade-off that is controlled by the degree of gradient sparsity. The online learning algorithm uses an estimated sign of the derivative of the objective function, which gives a regret bound that is asymptotically equal to the case where exact derivative is available. Experiments with real datasets confirm the benefits of our proposed approaches, showing up to $40\%$ improvement in model accuracy for a finite training time. | 翻訳日:2023-01-11 12:25:08 公開日:2020-03-20 |
# 弱電場における量子ウォークとブロッホ振動 Quantum walks in weak electric fields and Bloch oscillations ( http://arxiv.org/abs/2001.05346v3 ) ライセンス: Link先を確認 | Pablo Arnault, Benjamin Pepper, and A. P\'erez | (参考訳) ブロッホ振動は、強結合ハミルトニアン(TBH)を持つ格子上で進化する量子粒子上に電場が重畳されたときに現れる。
同様の現象は、いわゆる電気離散時間量子ウォーク(dqws)に現れることが知られており、この現象はdqwブロッホ振動と呼ばれる。
この類似性は、DQWの電場が弱いときに特に顕著である。
広い、すなわち空間的に拡張された初期条件において、電気的tbhと電気的dqwの両方において、半古典的振動、すなわち局在した粒子の振動を数値的に観測する。
より正確には、数値シミュレーションは、半古典的dqwブロッホ振動が2つの逆伝播半古典的tbhブロッホ振動に対応することを強く示唆している。
この研究において、ある仮定の下では、弱い電場と広い初期条件に対する電気DQWの解は、2つの連続時間式を重畳することによってよく近似され、これはホッピング振幅が任意のコイン-演算混合角度の余弦である電気TBHの反伝播解である。
対照的に、空間的に局所化された初期条件に対して連続時間近似が成立することを望んだ場合、数値シミュレーションや消滅電界において証明されたという事実により、少なくともdqwは遅延である必要がある。 Bloch oscillations appear when an electric field is superimposed on a quantum particle that evolves on a lattice with a tight-binding Hamiltonian (TBH), i.e., evolves via what we will call an electric TBH; this phenomenon will be referred to as TBH Bloch oscillations. A similar phenomenon is known to show up in so-called electric discrete-time quantum walks (DQWs); this phenomenon will be referred to as DQW Bloch oscillations. This similarity is particularly salient when the electric field of the DQW is weak. For a wide, i.e., spatially extended initial condition, one numerically observes semi-classical oscillations, i.e., oscillations of a localized particle, both for the electric TBH and the electric DQW. More precisely: The numerical simulations strongly suggest that the semi-classical DQW Bloch oscillations correspond to two counter-propagating semi-classical TBH Bloch oscillations. In this work it is shown that, under certain assumptions, the solution of the electric DQW for a weak electric field and a wide initial condition is well approximated by the superposition of two continuous-time expressions, which are counter-propagating solutions of an electric TBH whose hopping amplitude is the cosine of the arbitrary coin-operator mixing angle. In contrast, if one wishes the continuous-time approximation to hold for spatially localized initial conditions, one needs at least the DQW to be lazy, as suggested by numerical simulations and by the fact that this has been proven in the case of a vanishing electric field. | 翻訳日:2023-01-11 06:51:12 公開日:2020-03-20 |
# LoCEC: 大規模オンラインソーシャルネットワークにおける地域コミュニティベースのエッジ分類 LoCEC: Local Community-based Edge Classification in Large Online Social Networks ( http://arxiv.org/abs/2002.04180v2 ) ライセンス: Link先を確認 | Chonggang Song, Qian Lin, Guohui Ling, Zongyi Zhang, Hongzhao Chen, Jun Liao, Chuan Chen | (参考訳) オンラインソーシャルネットワークにおける関係はしばしば、現実世界における社会的つながりを暗示する。
関係タイプに関する正確な理解は、ソーシャル広告やレコメンデーションなど、多くのアプリケーションに役立ちます。
ユーザ関係を事前定義型に分類するために,事前ラベル付きリレーションシップや豊富なリレーションシップのインタラクション機能を活用する試みが近年提案されている。
残念なことに、WeChatのような実際のソーシャルプラットフォームでは、機能データとラベルデータはどちらも疎結合で、既存のメソッドは適用できない。
本稿では,関係分類タスクの課題を特定するために,WeChat関係の詳細な分析を行う。
そこで本稿では,ソーシャルネットワーク上のユーザ関係を現実のソーシャル接続タイプに分類する,ローカルコミュニティベースのエッジ分類(LoCEC)フレームワークを提案する。
LoCECは、地域コミュニティ検出、地域分類、関係分類という3段階の処理を実行し、関係特徴と関係ラベルの空間的問題に対処する。
さらに、LoCECは並列および分散処理が可能な大規模ネットワークを扱うように設計されている。
実世界のWeChatネットワーク上で数十億のエッジで大規模な実験を行い、LoCECの有効性と効率性を検証する。 Relationships in online social networks often imply social connections in the real world. An accurate understanding of relationship types benefits many applications, e.g. social advertising and recommendation. Some recent attempts have been proposed to classify user relationships into predefined types with the help of pre-labeled relationships or abundant interaction features on relationships. Unfortunately, both relationship feature data and label data are very sparse in real social platforms like WeChat, rendering existing methods inapplicable. In this paper, we present an in-depth analysis of WeChat relationships to identify the major challenges for the relationship classification task. To tackle the challenges, we propose a Local Community-based Edge Classification (LoCEC) framework that classifies user relationships in a social network into real-world social connection types. LoCEC enforces a three-phase processing, namely local community detection, community classification and relationship classification, to address the sparsity issue of relationship features and relationship labels. Moreover, LoCEC is designed to handle large-scale networks by allowing parallel and distributed processing. We conduct extensive experiments on the real-world WeChat network with hundreds of billions of edges to validate the effectiveness and efficiency of LoCEC. | 翻訳日:2023-01-02 01:45:27 公開日:2020-03-20 |
# PointAugment: Point Cloud分類のための自動拡張フレームワーク PointAugment: an Auto-Augmentation Framework for Point Cloud Classification ( http://arxiv.org/abs/2002.10876v2 ) ライセンス: Link先を確認 | Ruihui Li, Xianzhi Li, Pheng-Ann Heng, Chi-Wing Fu | (参考訳) PointAugmentは、分類ネットワークをトレーニングする際のデータの多様性を高めるために、ポイントクラウドサンプルを自動的に最適化し、拡張する新しい自動拡張フレームワークである。
既存の2D画像の自動拡張方法とは異なり、PointAugmentはサンプル認識であり、対角学習戦略を用いて、拡張器ネットワークと分類器ネットワークを協調的に最適化し、分類器に最も適した拡張サンプルを作成することができる。
さらに, 学習可能な点増分関数を, 形状変換と点変位で定式化し, 分類器の学習進捗に基づいて, 加法サンプルを採用するための損失関数を慎重に設計する。
また、様々なネットワークの形状分類と検索性能を向上させるために、PointAugmentの有効性とロバスト性を確認した。 We present PointAugment, a new auto-augmentation framework that automatically optimizes and augments point cloud samples to enrich the data diversity when we train a classification network. Different from existing auto-augmentation methods for 2D images, PointAugment is sample-aware and takes an adversarial learning strategy to jointly optimize an augmentor network and a classifier network, such that the augmentor can learn to produce augmented samples that best fit the classifier. Moreover, we formulate a learnable point augmentation function with a shape-wise transformation and a point-wise displacement, and carefully design loss functions to adopt the augmented samples based on the learning progress of the classifier. Extensive experiments also confirm PointAugment's effectiveness and robustness to improve the performance of various networks on shape classification and retrieval. | 翻訳日:2022-12-28 21:57:42 公開日:2020-03-20 |
# 多出力分類問題におけるセマンティック・コヒーレントな埋め込み強化のための四重項損失 A Quadruplet Loss for Enforcing Semantically Coherent Embeddings in Multi-output Classification Problems ( http://arxiv.org/abs/2002.11644v3 ) ライセンス: Link先を確認 | Hugo Proen\c{c}a, Ehsan Yaghoubi and Pendar Alirezazadeh | (参考訳) 本稿では,多出力分類問題における意味的コヒーレントな特徴埋め込みを学習するための1つの目的関数,すなわち応答変数が1より高次元である場合について述べる。
特に,注目されている視覚監視環境における識別検索や生体認証の問題点について考察する。
三重項損失[34]関数に着想を得た一般化を提案する。
1) 要素のペア間の合意ラベルの数を考慮に入れた計量を定義する。
2) d(A1, A2) < d(A1, B) を d(A, B) < d(C, D) に置き換え、ペア間の合意ラベルの数に応じて A, B, C, D 距離の制約を課すアンカーの概念を無視する。
三重項損失の定式化として、我々の提案は正のペア間の小さな距離を特権化するが、同時に、他のペア間の距離はラベルの一致の観点から直接その類似性に対応することを明示的に強制する。
これにより、機能埋め込みは、センタロイドクラスとその意味記述、すなわち、要素が、完全に無関係なラベルメンバーシップを持つ要素よりも、いくつかのラベルを共有している他の要素に近いものとの間に強い対応を持つ。
実効例として,提案した損失は,従来からある損失関数であるk-neighboursのような単純な規則に基づいて,関節粗い(ソフトラベル)+細い(ID)推論を行うのに特に適していると考えられる。
また、三重項のそれとは対照的に、提案された損失は、学習インスタンス(例えば半ハードペア)のマイニングの要求基準について無関係である。
実験は,BIODI,LFW,IJB-A,Megaface,PETAの5種類のデータセットを用いて実施し,その仮定を検証し,有望な結果を示した。 This paper describes one objective function for learning semantically coherent feature embeddings in multi-output classification problems, i.e., when the response variables have dimension higher than one. In particular, we consider the problems of identity retrieval and soft biometrics labelling in visual surveillance environments, which have been attracting growing interests. Inspired by the triplet loss [34] function, we propose a generalization that: 1) defines a metric that considers the number of agreeing labels between pairs of elements; and 2) disregards the notion of anchor, replacing d(A1, A2) < d(A1, B) by d(A, B) < d(C, D), for A, B, C, D distance constraints, according to the number of agreeing labels between pairs. As the triplet loss formulation, our proposal also privileges small distances between positive pairs, but at the same time explicitly enforces that the distance between other pairs corresponds directly to their similarity in terms of agreeing labels. This yields feature embeddings with a strong correspondence between the classes centroids and their semantic descriptions, i.e., where elements are closer to others that share some of their labels than to elements with fully disjoint labels membership. As practical effect, the proposed loss can be seen as particularly suitable for performing joint coarse (soft label) + fine (ID) inference, based on simple rules as k-neighbours, which is a novelty with respect to previous related loss functions. Also, in opposition to its triplet counterpart, the proposed loss is agnostic with regard to any demanding criteria for mining learning instances (such as the semi-hard pairs). Our experiments were carried out in five different datasets (BIODI, LFW, IJB-A, Megaface and PETA) and validate our assumptions, showing highly promising results. | 翻訳日:2022-12-28 15:18:02 公開日:2020-03-20 |
# ジェット型アーキテクチャを用いた深層集合学習による風速予測 Wind Speed Prediction using Deep Ensemble Learning with a Jet-like Architecture ( http://arxiv.org/abs/2002.12592v2 ) ライセンス: Link先を確認 | Aqsa Saeed Qureshi, Asifullah Khan, and Muhammad Waleed Khan | (参考訳) 風は再生可能エネルギー資源として最も多く利用されている。
効率的な発電には、風速の正確で信頼性の高い予測が必要であるが、周辺地域の気象特性に依存するため、容易な作業ではない。
ディープラーニングは最近、機能抽出に広く使われている。
アンサンブル学習として知られるいくつかの学習モデルの統合は、一般に1つのモデルよりも優れたパフォーマンスをもたらすことが観察されている。
ジェットの翼、尾、鼻のデザインは空気力学を改善し、空気の流れの変化に対してジェットの滑らかで制御された飛行をもたらす。
ジェットの形状や動作に触発されて,ジェットライクアーキテクチャ(DEL-Jet)技術を用いたDeep Ensemble Learningを提案し,入力空間の変動に対する学習システムの多様性と堅牢性を高める。
ベースレグレッタの多様な特徴空間は、ジェットのようなアンサンブルアーキテクチャを用いて活用される。
入力データから多様な特徴空間を抽出するために、2つの畳み込みニューラルネットワーク(ジェット翼)と1つの深いオートエンコーダ(ジェットテール)を用いる。
その後、非線形PCA(ジェット本体)を用いて抽出した特徴空間の寸法を縮小する。
最後に、縮小された特徴空間と元の特徴空間の両方を利用して、風速を予測するメタ回帰器(ジェットノーズ)を訓練する。
DEL-Jet法の性能は,10個の独立系に対して評価され,深層・ジェット様アーキテクチャが学習システムの堅牢性と一般化に有効であることを示す。 The wind is one of the most increasingly used renewable energy resources. Accurate and reliable forecast of wind speed is necessary for efficient power production; however, it is not an easy task because it depends upon meteorological features of the surrounding region. Deep learning is extensively used these days for performing feature extraction. It has also been observed that the integration of several learning models, known as ensemble learning, generally gives better performance compared to a single model. The design of wings, tail, and nose of a jet improves the aerodynamics resulting in a smooth and controlled flight of the jet against the variations of the air currents. Inspired by the shape and working of a jet, a novel Deep Ensemble Learning using Jet-like Architecture (DEL-Jet) technique is proposed to enhance the diversity and robustness of a learning system against the variations in the input space. The diverse feature spaces of the base-regressors are exploited using the jet-like ensemble architecture. Two Convolutional Neural Networks (as jet wings) and one deep Auto-Encoder (as jet tail) are used to extract the diverse feature spaces from the input data. After that, nonlinear PCA (as jet main body) is employed to reduce the dimensionality of extracted feature space. Finally, both the reduced and the original feature spaces are exploited to train the meta-regressor (as jet nose) for forecasting the wind speed. The performance of the proposed DEL-Jet technique is evaluated for ten independent runs and shows that the deep and jet-like architecture helps in improving the robustness and generalization of the learning system. | 翻訳日:2022-12-28 01:56:39 公開日:2020-03-20 |
# リハビリテーション・エクササイズ評価のための計算手法の検討 A Review of Computational Approaches for Evaluation of Rehabilitation Exercises ( http://arxiv.org/abs/2003.08767v2 ) ライセンス: Link先を確認 | Yalin Liao, Aleksandar Vakanski, Min Xian, David Paul, Russell Baker | (参考訳) データ分析とコンピュータ支援診断の最近の進歩は、患者の健康記録と患者のニーズに基づいて治療計画をカスタマイズする患者中心の精密医療のビジョンを刺激している。
身体的リハビリテーションにおいて、機械学習の進歩と手頃で信頼性の高いモーションキャプチャーセンサーの出現は、患者パフォーマンスの自動評価と機能回復に向けたアプローチの発展に寄与している。
本研究は,モーションキャプチャシステムを用いたリハビリテーションプログラムにおける患者性能評価のための計算手法について検討する。
このようなアプローチは、研修医が行う伝統的なリハビリテーションアセスメントを補完し、在宅リハビリテーションに参加する患者を支援する上で重要な役割を果たす。
エクササイズ評価のための再検討された計算手法は, 離散的な運動スコア, ルールベース, テンプレートベースアプローチの3つのカテゴリに分類される。
本総説では,リハビリテーションにおける運動評価への機械学習手法の適用を強調する。
データ表現、特徴工学、運動分節、スコアリング関数に関する文献の関連研究について述べる。
この研究はまた、リハビリテーションの動きを捉えるための既存のセンサーをレビューし、関連するベンチマークデータセットのインフォメーションリストを提供する。
本研究の意義は,リハビリテーションプログラムにおける患者パフォーマンス評価のための計算手法の総合的なレビューを初めて提供することである。 Recent advances in data analytics and computer-aided diagnostics stimulate the vision of patient-centric precision healthcare, where treatment plans are customized based on the health records and needs of every patient. In physical rehabilitation, the progress in machine learning and the advent of affordable and reliable motion capture sensors have been conducive to the development of approaches for automated assessment of patient performance and progress toward functional recovery. The presented study reviews computational approaches for evaluating patient performance in rehabilitation programs using motion capture systems. Such approaches will play an important role in supplementing traditional rehabilitation assessment performed by trained clinicians, and in assisting patients participating in home-based rehabilitation. The reviewed computational methods for exercise evaluation are grouped into three main categories: discrete movement score, rule-based, and template-based approaches. The review places an emphasis on the application of machine learning methods for movement evaluation in rehabilitation. Related work in the literature on data representation, feature engineering, movement segmentation, and scoring functions is presented. The study also reviews existing sensors for capturing rehabilitation movements and provides an informative listing of pertinent benchmark datasets. The significance of this paper is in being the first to provide a comprehensive review of computational methods for evaluation of patient performance in rehabilitation programs. | 翻訳日:2022-12-27 20:28:00 公開日:2020-03-20 |
# イベントカメラを用いた高フレームレート映像のデブラリングと生成の学習 Learning to Deblur and Generate High Frame Rate Video with an Event Camera ( http://arxiv.org/abs/2003.00847v2 ) ライセンス: Link先を確認 | Chen Haoyu, Teng Minggui, Shi Boxin, Wang YIzhou and Huang Tiejun | (参考訳) イベントカメラはバイオインスパイアされたカメラで、時間分解能の高い非同期に強度の変化を測定することができる。
イベントカメラの利点の一つは、高速シーンを記録する際に動きのぼやけに苦しむことがないことである。
本稿では,イベントに向けられた従来のカメラのデブロアリングタスクを残留学習タスクとして定式化し,デブロアリングと高フレームレートビデオ生成タスクを効果的に学習するためのネットワークアーキテクチャを提案する。
まず、修正されたU-Netネットワークをトレーニングし、対応するイベントを用いてぼやけた画像からシャープなイメージを復元する。
次に、異なるダウンサンプリングブロックを持つ別の類似ネットワークをトレーニングし、復元されたシャープ画像とイベントを用いて高フレームレートビデオを生成する。
実験の結果,最先端の手法よりもシャープな画像や映像を復元できることがわかった。 Event cameras are bio-inspired cameras which can measure the change of intensity asynchronously with high temporal resolution. One of the event cameras' advantages is that they do not suffer from motion blur when recording high-speed scenes. In this paper, we formulate the deblurring task on traditional cameras directed by events to be a residual learning one, and we propose corresponding network architectures for effective learning of deblurring and high frame rate video generation tasks. We first train a modified U-Net network to restore a sharp image from a blurry image using corresponding events. Then we train another similar network with different downsampling blocks to generate high frame rate video using the restored sharp image and events. Experiment results show that our method can restore sharper images and videos than state-of-the-art methods. | 翻訳日:2022-12-27 05:23:36 公開日:2020-03-20 |
# 敵対的ロバストニューラルネットワークの訓練のためのカラーノイズインジェクション Colored Noise Injection for Training Adversarially Robust Neural Networks ( http://arxiv.org/abs/2003.02188v2 ) ライセンス: Link先を確認 | Evgenii Zheltonozhskii, Chaim Baskin, Yaniv Nemcovsky, Brian Chmiel, Avi Mendelson, Alex M. Bronstein | (参考訳) ディープラーニングは様々なタスクで不整合性能を示すが、ニューラルネットワークは入力の小さな逆方向の摂動に弱いことが示され、性能が著しく低下する。
本研究は,一般のホワイトボックス攻撃やブラックボックス攻撃に対する防御のためのカラーノイズ注入に対して,ネットワーク重み付けとPNI時の活性化に白色ガウスノイズを加えるという考え方を拡張した。
CIFAR-10 と CIFAR-100 データセットの逆精度の観点から,本手法は PNI と様々な従来手法より優れていることを示す。
また,提案手法が選択した構成を正当化するための広範囲なアブレーション実験を行った。 Even though deep learning has shown unmatched performance on various tasks, neural networks have been shown to be vulnerable to small adversarial perturbations of the input that lead to significant performance degradation. In this work we extend the idea of adding white Gaussian noise to the network weights and activations during adversarial training (PNI) to the injection of colored noise for defense against common white-box and black-box attacks. We show that our approach outperforms PNI and various previous approaches in terms of adversarial accuracy on CIFAR-10 and CIFAR-100 datasets. In addition, we provide an extensive ablation study of the proposed method justifying the chosen configurations. | 翻訳日:2022-12-26 12:04:44 公開日:2020-03-20 |
# バッチAROWによる株価回復予測 Predicting Stock Returns with Batched AROW ( http://arxiv.org/abs/2003.03076v2 ) ライセンス: Link先を確認 | Rachid Guennouni Hassani (X), Alexis Gilles, Emmanuel Lassalle, Arthur D\'enouveaux | (参考訳) 我々は,[vc11] において vaits と crammer が開発した arow 回帰アルゴリズムを拡張し,同期的ミニバッチ更新を処理し,株価リターン予測に適用する。
設計上、モデルはノイズに対してより頑健で、単純な転がり回帰よりも非定常性に適応すべきである。
われわれはこの新モデルがS\&P500株の戦略をバックテストすることで、より古典的なアプローチを上回ることを実証的に示す。 We extend the AROW regression algorithm developed by Vaits and Crammer in [VC11] to handle synchronous mini-batch updates and apply it to stock return prediction. By design, the model should be more robust to noise and adapt better to non-stationarity compared to a simple rolling regression. We empirically show that the new model outperforms more classical approaches by backtesting a strategy on S\&P500 stocks. | 翻訳日:2022-12-26 01:37:21 公開日:2020-03-20 |
# 視覚的な説明の質の測定と改善 Measuring and improving the quality of visual explanations ( http://arxiv.org/abs/2003.08774v2 ) ライセンス: Link先を確認 | Agnieszka Grabska-Barwi\'nska | (参考訳) ニューラルネットワークの決定を説明する能力は、安全なデプロイメントと密接に関連している。
与えられたネットワーク決定に重要な特徴を強調するために、いくつかの方法が提案されている。
しかし、これらの方法の有効性を測定する方法についての合意は得られていない。
説明を評価するための新しい手順を提案する。
ニューラルネットワークの可能な範囲から抽出した視覚的な説明を調べるために使用する。
我々はこれらの情報源を組み合わせる利点を定量化し、バイアスパラメータを考慮に入れた最近の魅力に挑戦する。
ImageNet分類器におけるバイアスパラメータの影響の一般評価で結論を支持する。 The ability of to explain neural network decisions goes hand in hand with their safe deployment. Several methods have been proposed to highlight features important for a given network decision. However, there is no consensus on how to measure effectiveness of these methods. We propose a new procedure for evaluating explanations. We use it to investigate visual explanations extracted from a range of possible sources in a neural network. We quantify the benefit of combining these sources and challenge a recent appeal for taking bias parameters into account. We support our conclusions with a general assessment of the impact of bias parameters in ImageNet classifiers | 翻訳日:2022-12-23 19:53:24 公開日:2020-03-20 |
# LT-Net:ワンショット医用画像セグメンテーションのための可逆ボクセル対応学習によるラベル転送 LT-Net: Label Transfer by Learning Reversible Voxel-wise Correspondence for One-shot Medical Image Segmentation ( http://arxiv.org/abs/2003.07072v3 ) ライセンス: Link先を確認 | Shuxin Wang, Shilei Cao, Dong Wei, Renzhen Wang, Kai Ma, Liansheng Wang, Deyu Meng, and Yefeng Zheng | (参考訳) 医療画像の手動アノテーションの負担を軽減するためのワンショットセグメンテーション手法を提案する。
第一の考え方は、単発セグメンテーションを古典的なアトラスに基づくセグメンテーション問題として扱うことである。
その後、アトラスのセグメンテーションラベルを学習対応でラベルなしデータに転送することができる。
しかし、画像間の地上の真実対応は通常利用できないため、学習システムはモード崩壊や収束失敗を避けるために十分に制御されなければならない。
この難しさを克服するために、対応問題に広く用いられている前方整合性を活用し、歪んだアトラスから元のアトラスへの後方整合性も学習する。
このサイクル対応学習設計により、様々なサイクル整合性に基づく監視信号がトレーニングプロセスを安定させ、性能を向上させることができる。
深層学習に基づくワンショットセグメンテーション法と古典的マルチアトラスセグメンテーション法に比較して,本手法が優れていることを示す。 We introduce a one-shot segmentation method to alleviate the burden of manual annotation for medical images. The main idea is to treat one-shot segmentation as a classical atlas-based segmentation problem, where voxel-wise correspondence from the atlas to the unlabelled data is learned. Subsequently, segmentation label of the atlas can be transferred to the unlabelled data with the learned correspondence. However, since ground truth correspondence between images is usually unavailable, the learning system must be well-supervised to avoid mode collapse and convergence failure. To overcome this difficulty, we resort to the forward-backward consistency, which is widely used in correspondence problems, and additionally learn the backward correspondences from the warped atlases back to the original atlas. This cycle-correspondence learning design enables a variety of extra, cycle-consistency-based supervision signals to make the training process stable, while also boost the performance. We demonstrate the superiority of our method over both deep learning-based one-shot segmentation methods and a classical multi-atlas segmentation method via thorough experiments. | 翻訳日:2022-12-23 03:32:31 公開日:2020-03-20 |
# 効率的な半教師組織像分類のための教師・学生連鎖 Teacher-Student chain for efficient semi-supervised histology image classification ( http://arxiv.org/abs/2003.08797v2 ) ライセンス: Link先を確認 | Shayne Shaw, Maciej Pajak, Aneta Lisowska, Sotirios A Tsaftaris, Alison Q O'Neil | (参考訳) ディープラーニングは、デジタル病理学の領域に大きな可能性を秘めている。
自動化されたデジタル病理システムは、第2読取装置として機能し、大規模なスクリーニング研究で初期トリアージを行うか、報告を支援することができる。
しかし、医療専門家が乏しいため、大規模な組織画像データベースを徹底的に注釈付けするのは費用がかかる。
本稿では,Yalnizらによる半教師型知識蒸留技術(2019)を大腸癌の予後特徴の定量化に応用する。
我々は,この手法を,各生徒の予測を用いて次の生徒を養成し,その生徒が教師になるようにすることで,精度を向上する。
チェーンアプローチとラベル付きデータはわずか0.5%(残りの99.5%はラベルなしプール)で、100%ラベル付きデータでのトレーニングの精度に合致する。
ラベル付きデータの低い割合では、同様の精度の向上が見られ、ラベル付きトレーニングセットの貧弱な初期選択からでもある程度の精度の回復が可能である。
結論として, 本手法は, アノテーションの負担を軽減し, 自動診断システムの実現可能性を高める。 Deep learning shows great potential for the domain of digital pathology. An automated digital pathology system could serve as a second reader, perform initial triage in large screening studies, or assist in reporting. However, it is expensive to exhaustively annotate large histology image databases, since medical specialists are a scarce resource. In this paper, we apply the semi-supervised teacher-student knowledge distillation technique proposed by Yalniz et al. (2019) to the task of quantifying prognostic features in colorectal cancer. We obtain accuracy improvements through extending this approach to a chain of students, where each student's predictions are used to train the next student i.e. the student becomes the teacher. Using the chain approach, and only 0.5% labelled data (the remaining 99.5% in the unlabelled pool), we match the accuracy of training on 100% labelled data. At lower percentages of labelled data, similar gains in accuracy are seen, allowing some recovery of accuracy even from a poor initial choice of labelled training set. In conclusion, this approach shows promise for reducing the annotation burden, thus increasing the affordability of automated digital pathology systems. | 翻訳日:2022-12-22 20:29:53 公開日:2020-03-20 |
# 再配布システムとPRAM Redistribution Systems and PRAM ( http://arxiv.org/abs/2003.08783v2 ) ライセンス: Link先を確認 | Paul Cohen and Tomasz Loboda | (参考訳) 再分配システムは、規則の制御の下で、グループ間で反復的に質量を再分配する。
PRAMは再配布システムを構築するためのフレームワークである。
本稿では,再分配システム,エージェントベースシステム,構成モデル,ベイズモデルとの関係について論じる。
PRAMは、エージェントベースのモデルを再配布システムとして再構成することで、音の確率的な足場に配置する。
これはエージェントベースと確率モデルの統合の基礎を提供する。
\pram/ は確率的関係モデルのテーマを拡張し、推論を解いて動的モデルとシミュレーションを組み込む。
疫学的な例でPRAMを解説する。 Redistribution systems iteratively redistribute mass between groups under the control of rules. PRAM is a framework for building redistribution systems. We discuss the relationships between redistribution systems, agent-based systems, compartmental models and Bayesian models. PRAM puts agent-based models on a sound probabilistic footing by reformulating them as redistribution systems. This provides a basis for integrating agent-based and probabilistic models. \pram/ extends the themes of probabilistic relational models and lifted inference to incorporate dynamical models and simulation. We illustrate PRAM with an epidemiological example. | 翻訳日:2022-12-22 13:18:10 公開日:2020-03-20 |
# MUTATT:表現理解の参照のための視覚的相互指導 MUTATT: Visual-Textual Mutual Guidance for Referring Expression Comprehension ( http://arxiv.org/abs/2003.08027v2 ) ライセンス: Link先を確認 | Shuai Wang, Fan Lyu, Wei Feng, and Song Wang | (参考訳) Referring Expression comprehension (REC) は、自然言語の参照式によって与えられた画像内のテキスト関連領域をローカライズすることを目的としている。
既存の手法は、説得力のある視覚情報と言語表現を独立して構築する方法に重点を置いている。
本稿では,RECにおいて参照表現と対象領域が意味的に相関し,視覚と言語の間に位置と関係の整合性が存在することを論じ,その上で,視覚と言語間の相互指導を構築するためのMutAttという手法を提案する。
特に、主題、位置、関係の各モジュールに対して、MutAttは2種類の注意に基づく相互指導戦略を構築している。
1つの戦略は、関連する視覚特徴にマッチするため、視覚誘導言語埋め込みを生成することである。
もう1つは、関連言語埋め込みにマッチする言語誘導ビジュアル機能を生成する。
この相互誘導戦略は、3つのモジュールの視覚言語一貫性を効果的に保証することができる。
3つの一般的なRECデータセットの実験は、提案手法が現在の最先端手法よりも優れていることを示している。 Referring expression comprehension (REC) aims to localize a text-related region in a given image by a referring expression in natural language. Existing methods focus on how to build convincing visual and language representations independently, which may significantly isolate visual and language information. In this paper, we argue that for REC the referring expression and the target region are semantically correlated and subject, location and relationship consistency exist between vision and language.On top of this, we propose a novel approach called MutAtt to construct mutual guidance between vision and language, which treat vision and language equally thus yield compact information matching. Specifically, for each module of subject, location and relationship, MutAtt builds two kinds of attention-based mutual guidance strategies. One strategy is to generate vision-guided language embedding for the sake of matching relevant visual feature. The other reversely generates language-guided visual feature to match relevant language embedding. This mutual guidance strategy can effectively guarantees the vision-language consistency in three modules. Experiments on three popular REC datasets demonstrate that the proposed approach outperforms the current state-of-the-art methods. | 翻訳日:2022-12-22 10:17:14 公開日:2020-03-20 |
# sparsity-enforced quadratic assignmentによる効率的かつロバストな形状対応 Efficient and Robust Shape Correspondence via Sparsity-Enforced Quadratic Assignment ( http://arxiv.org/abs/2003.08680v2 ) ライセンス: Link先を確認 | Rui Xiang, Rongjie Lai, Hongkai Zhao | (参考訳) 本研究では,新しい局所的ペアワイズ記述子を導入し,2つの近似等尺面間の形状対応のスパース性制御による二次配置の解法を考案した。
ラプラス・ベルトラミ微分作用素の有限要素近似の剛性と質量行列に基づいており、これは空間において局所的であり、表現し易く、大域的情報を含みながら計算が極めて容易である。
これにより、開曲面、部分マッチング、および位相摂動を頑健に扱うことができる。
結果の二次割当問題を効率的に解くために、反復アルゴリズムの2つの重要なアイデアは次のとおりである。
1) よい(近似)対応のペアをアンカーポイントとして選択する。
2) スパーシティ制御により, 選択されたアンカー点近傍のみに正規化二次割当問題を解く。
これら2つの成分は、各二次代入イテレーションの計算コストを大幅に削減しながら、アンカー点数を迅速に改善し、増加させることができる。
十分な高品質のアンカーポイントがあれば、これらのアンカーポイントを参照して様々なポイントワイズグローバル特徴を使用して、密度の高い形状対応をさらに改善することができる。
我々は,大規模データセット,パッチ,ポイントクラウド(グローバルメッシュを使用せずに)における手法の効率,品質,汎用性を示すために,さまざまな実験を行っている。 In this work, we introduce a novel local pairwise descriptor and then develop a simple, effective iterative method to solve the resulting quadratic assignment through sparsity control for shape correspondence between two approximate isometric surfaces. Our pairwise descriptor is based on the stiffness and mass matrix of finite element approximation of the Laplace-Beltrami differential operator, which is local in space, sparse to represent, and extremely easy to compute while containing global information. It allows us to deal with open surfaces, partial matching, and topological perturbations robustly. To solve the resulting quadratic assignment problem efficiently, the two key ideas of our iterative algorithm are: 1) select pairs with good (approximate) correspondence as anchor points, 2) solve a regularized quadratic assignment problem only in the neighborhood of selected anchor points through sparsity control. These two ingredients can improve and increase the number of anchor points quickly while reducing the computation cost in each quadratic assignment iteration significantly. With enough high-quality anchor points, one may use various pointwise global features with reference to these anchor points to further improve the dense shape correspondence. We use various experiments to show the efficiency, quality, and versatility of our method on large data sets, patches, and point clouds (without global meshes). | 翻訳日:2022-12-22 04:35:45 公開日:2020-03-20 |
# 深部表現学習のためのexemplar normalization Exemplar Normalization for Learning Deep Representation ( http://arxiv.org/abs/2003.08761v2 ) ライセンス: Link先を確認 | Ruimao Zhang, Zhanglin Peng, Lingyun Wu, Zhen Li, Ping Luo | (参考訳) 正規化技術は、異なる高度なニューラルネットワークと異なるタスクにおいて重要である。
本研究では,異なる畳み込み層と深層ネットワークの画像サンプルの異なる正規化法を学習可能なexemplar normalization (en)を提案することにより,新しい動的学習・正規化問題(l2n)について検討する。
enは、最近提案されたsn(switchable normalization)の柔軟性を大幅に向上させ、各正規化層で複数の正規化子を線形に結合することで静的l2n問題を解決する。
条件付きバッチ正規化(cBN)のようにデータ依存パラメータを直接学習するためにMLP(Multi-layer perceptron)を直接使用する代わりに、ENの内部アーキテクチャは最適化の安定化のために慎重に設計されており、多くの魅力的な利点をもたらす。
1) ENは,様々な畳み込み層,画像サンプル,カテゴリ,ベンチマーク,タスクを,様々な正規化手法を用いて,総合的な視点で解析に光を当てることができる。
2)ENは様々なネットワークアーキテクチャやタスクに有効である。
3) ディープネットワーク内の任意の正規化層を置き換えることができ、モデルトレーニングも安定したものになる。
広汎な実験は、画像認識、雑音ラベル学習、意味的セグメンテーションを含む幅広いタスクにおいて、ENの有効性を示す。
例えば、通常のResNet50でBNを置き換えることで、ENによって生成された改善は、ImageNetとノイズの多いWebVisionデータセットでSNよりも300%多い。 Normalization techniques are important in different advanced neural networks and different tasks. This work investigates a novel dynamic learning-to-normalize (L2N) problem by proposing Exemplar Normalization (EN), which is able to learn different normalization methods for different convolutional layers and image samples of a deep network. EN significantly improves flexibility of the recently proposed switchable normalization (SN), which solves a static L2N problem by linearly combining several normalizers in each normalization layer (the combination is the same for all samples). Instead of directly employing a multi-layer perceptron (MLP) to learn data-dependent parameters as conditional batch normalization (cBN) did, the internal architecture of EN is carefully designed to stabilize its optimization, leading to many appealing benefits. (1) EN enables different convolutional layers, image samples, categories, benchmarks, and tasks to use different normalization methods, shedding light on analyzing them in a holistic view. (2) EN is effective for various network architectures and tasks. (3) It could replace any normalization layers in a deep network and still produce stable model training. Extensive experiments demonstrate the effectiveness of EN in a wide spectrum of tasks including image recognition, noisy label learning, and semantic segmentation. For example, by replacing BN in the ordinary ResNet50, improvement produced by EN is 300% more than that of SN on both ImageNet and the noisy WebVision dataset. | 翻訳日:2022-12-22 04:35:23 公開日:2020-03-20 |
# 異種プラットフォームにおける資源管理のためのエネルギアウェアオンライン学習フレームワーク An Energy-Aware Online Learning Framework for Resource Management in Heterogeneous Platforms ( http://arxiv.org/abs/2003.09526v1 ) ライセンス: Link先を確認 | Sumit K. Mandal, Ganapati Bhat, Janardhan Rao Doppa, Partha Pratim Pande, Umit Y. Ogras | (参考訳) 動的に変化するアプリケーションの機能として、モバイルプラットフォームは、迅速な応答時間と最小エネルギー消費の矛盾した要求を満たす必要がある。
このニーズに対処するために、これらのデバイスの中心にあるシステムオンチップ(SoC)は、アクティブコアの数や電圧/周波数レベルなど、さまざまな制御ノブを提供する。
これらのノブを実行時に最適に制御することは2つの理由から難しい。
まず、大きな構成空間は、徹底的な解を禁止する。
第二に、オフラインで設計された制御ポリシーは、設計時に多くの潜在的な新しいアプリケーションが未知であるため、最適ではない。
オンラインの模倣学習アプローチを提案することで、これらの課題に対処する。
私たちの重要なアイデアは、オフラインポリシを構築し、それを新しいアプリケーションに適用して、所定のメトリック(エネルギーなど)を最適化することです。
提案手法は,実行時に学習したパワーパフォーマンスモデルによって実現された監視を活用する。
16種類のベンチマークによる商用モバイルプラットフォーム上での有効性を示す。
提案手法は,25%未満の命令を実行した後,制御ポリシを未知のアプリケーションに適用する。 Mobile platforms must satisfy the contradictory requirements of fast response time and minimum energy consumption as a function of dynamically changing applications. To address this need, system-on-chips (SoC) that are at the heart of these devices provide a variety of control knobs, such as the number of active cores and their voltage/frequency levels. Controlling these knobs optimally at runtime is challenging for two reasons. First, the large configuration space prohibits exhaustive solutions. Second, control policies designed offline are at best sub-optimal since many potential new applications are unknown at design-time. We address these challenges by proposing an online imitation learning approach. Our key idea is to construct an offline policy and adapt it online to new applications to optimize a given metric (e.g., energy). The proposed methodology leverages the supervision enabled by power-performance models learned at runtime. We demonstrate its effectiveness on a commercial mobile platform with 16 diverse benchmarks. Our approach successfully adapts the control policy to an unknown application after executing less than 25% of its instructions. | 翻訳日:2022-12-21 23:13:28 公開日:2020-03-20 |
# 空間周波数変換と深層学習に基づく画像応用の検討 Investigating Image Applications Based on Spatial-Frequency Transform and Deep Learning Techniques ( http://arxiv.org/abs/2004.02756v1 ) ライセンス: Link先を確認 | Qinkai Zheng, Han Qiu, Gerard Memmi, Isabelle Bloch | (参考訳) これはTelecom ParisにおけるPRIMプロジェクトの報告である。
本報告は,空間周波数変換と深層学習技術に基づく応用について述べる。
本報告では2つの主な著作がある。
最初の研究は、ディープラーニングに基づくJPEG圧縮の強化に関するものである。
本稿では,送信側の画像データが少なくなることによりJPEG圧縮を高度に向上させる手法を提案する。
受信機の最後には,高画質で画像の復元を行うための残差学習フレームワークとともに,直流回収アルゴリズムを提案する。
第2の作業は、信号処理に基づく敵例防御に関するものである。
本稿では,画像データの特徴を拡張するためのウェーブレット拡張手法を提案する。
さらに, 逆摂動の影響を低減するために, ウェーブレットデノージングも採用する。
集中的な実験では、両方の作業がアプリケーションシナリオで効果的であることを実証します。 This is the report for the PRIM project in Telecom Paris. This report is about applications based on spatial-frequency transform and deep learning techniques. In this report, there are two main works. The first work is about the enhanced JPEG compression method based on deep learning. we propose a novel method to highly enhance the JPEG compression by transmitting fewer image data at the sender's end. At the receiver's end, we propose a DC recovery algorithm together with the deep residual learning framework to recover images with high quality. The second work is about adversarial examples defenses based on signal processing. We propose the wavelet extension method to extend image data features, which makes it more difficult to generate adversarial examples. We further adopt wavelet denoising to reduce the influence of the adversarial perturbations. With intensive experiments, we demonstrate that both works are effective in their application scenarios. | 翻訳日:2022-12-21 23:11:43 公開日:2020-03-20 |
# 歌のモノフォニック・メロディの創発的特性を探る Exploring Inherent Properties of the Monophonic Melody of Songs ( http://arxiv.org/abs/2003.09287v1 ) ライセンス: Link先を確認 | Zehao Wang, Shicheng Zhang, Xiaoou Chen | (参考訳) メロディは音楽において最も重要な要素の1つである。
調和や対位法などの音楽理論の他の要素とは異なり、メロディの計算可能な特徴は緊急に必要である。
これらの特徴は,音楽情報検索や自動作曲などの分野を支配するデータ駆動手法として強く要求されている。
深層学習関連音楽課題の性能向上を目的として,音韻メロディの解釈可能な特徴セットを提案する。
これらの特徴は数学的形式だけでなく、作曲家の直観にも考慮されている。
例えば、メロディ重心はメロディの文の輪郭を反映することができ、局所的/大域的メロディダイナミクスは、文中のピッチと時間とを結合するメロディのダイナミクスを定量化する。
これらの特徴は,多くのジャンルの楽曲において,無音合成の実践においても普遍的に考慮されている。
これらのメロディックな特徴は、将来の研究者にMIRと自動合成の分野でのツールとして、nov elインスピレーションを与えてくれることを願っている。 Melody is one of the most important components in music. Unlike other components in music theory, such as harmony and counterpoint, computable features for melody is urgently in need. These features are highly demanded as data-driven methods dominating the fields such as musical information retrieval and automatic music composition. To boost the performance of deep-learning-related musical tasks, we propose a set of interpretable features on monophonic melody for computational purposes. These features are defined not only in mathematical form, but also with some considerations on composers 'intuition. For example, the Melodic Center of Gravity can reflect the sentence-wise contour of the melody, the local / global melody dynamics quantifies the dynamics of a melody that couples pitch and time in a sentence. We found that these features are considered by people universally in many genres of songs, even for atonal composition practices. Hopefully, these melodic features can provide nov el inspiration for future researchers as a tool in the field of MIR and automatic composition. | 翻訳日:2022-12-21 23:11:34 公開日:2020-03-20 |
# ラダーネットワークを用いた話者照合のための埋め込み抽出の改善 Improving Embedding Extraction for Speaker Verification with Ladder Network ( http://arxiv.org/abs/2003.09125v1 ) ライセンス: Link先を確認 | Fei Tao and Gokhan Tur | (参考訳) 話者検証は、音声処理において確立されながら難しい課題であり、非常に活発な研究領域である。
最近の話者検証(sv)システムは、ディープニューラルネットワークを使用して、ユーザの声を特徴付ける高レベルの埋め込みを抽出する。
多くの研究は、ネットワークの識別性を改善し、パフォーマンス改善のためのより良い埋め込みを抽出することを研究している。
しかし、一般化の改善に焦点を絞った研究は少ない。
本稿では,教師付き学習と教師なし学習を併用したラージネットワークフレームワークをSVシステムに適用することを提案する。
はしごネットワークは、トレードオフのバランスを保ち、可能な限り役に立たない情報を保持することで、システムをより高レベルな埋め込みを実現することができる。
我々はこのフレームワークをd-vectorとx-vectorという2つの最先端svシステムで評価した。
実験の結果,提案手法はパラメータや拡張データを加えることなく,最大10%の性能向上を実現した。 Speaker verification is an established yet challenging task in speech processing and a very vibrant research area. Recent speaker verification (SV) systems rely on deep neural networks to extract high-level embeddings which are able to characterize the users' voices. Most of the studies have investigated on improving the discriminability of the networks to extract better embeddings for performances improvement. However, only few research focus on improving the generalization. In this paper, we propose to apply the ladder network framework in the SV systems, which combines the supervised and unsupervised learning fashions. The ladder network can make the system to have better high-level embedding by balancing the trade-off to keep/discard as much useful/useless information as possible. We evaluated the framework on two state-of-the-art SV systems, d-vector and x-vector, which can be used for different use cases. The experiments showed that the proposed approach relatively improved the performance by 10% at most without adding parameters and augmented data. | 翻訳日:2022-12-21 23:11:15 公開日:2020-03-20 |
# 量子ノイズは量子分類器を敵から保護する Quantum noise protects quantum classifiers against adversaries ( http://arxiv.org/abs/2003.09416v1 ) ライセンス: Link先を確認 | Yuxuan Du, Min-Hsiu Hsieh, Tongliang Liu, Dacheng Tao and Nana Liu | (参考訳) 量子情報処理におけるノイズは、特に短期量子技術において、破壊的で避けにくい特徴と見なされることが多い。
しかし、ノイズはしばしば、確率共鳴の弱い信号の強化から、差分プライバシーにおけるデータのプライバシー保護まで、有益な役割を演じてきた。
では、量子コンピューティングに有益な量子ノイズのパワーを活用できるだろうか?
現在の量子コンピューティングの重要な方向性は、分類問題のような機械学習への応用である。
分類における機械学習の際立った問題は、敵の例に対する感度である。
これらは、摂動データが極めて正確な分類器で完全に誤分類される元のデータから、小さく、検出不能な摂動である。
また、未知のノイズ源による'Worst-case'摂動と見なすこともできる。
量子回路の非分極ノイズを分類に利用することにより,雑音の増加に伴ってロバスト性が向上する敵に拘束されるロバスト性が導出できることを示す。
この堅牢性特性は、量子微分プライバシーに拡張可能な差分プライバシーと呼ばれる重要なセキュリティ概念と密接に関連している。
量子データの保護のために、これは最も一般的な敵に対して使用できる最初の量子プロトコルである。
さらに、古典的ケースのロバスト性は分類モデルの詳細にどのように敏感であるかを示すが、量子的ケースでは分類モデルの詳細が欠如しており、量子スピードアップに依存しない古典的データに対して潜在的に量子的優位性を与える。
これにより、量子ノイズを私たちの好みの方法で使用できる他の方法や、量子アルゴリズムが量子スピードアップとは無関係に役に立つ他の方法を探究する機会が開かれる。 Noise in quantum information processing is often viewed as a disruptive and difficult-to-avoid feature, especially in near-term quantum technologies. However, noise has often played beneficial roles, from enhancing weak signals in stochastic resonance to protecting the privacy of data in differential privacy. It is then natural to ask, can we harness the power of quantum noise that is beneficial to quantum computing? An important current direction for quantum computing is its application to machine learning, such as classification problems. One outstanding problem in machine learning for classification is its sensitivity to adversarial examples. These are small, undetectable perturbations from the original data where the perturbed data is completely misclassified in otherwise extremely accurate classifiers. They can also be considered as `worst-case' perturbations by unknown noise sources. We show that by taking advantage of depolarisation noise in quantum circuits for classification, a robustness bound against adversaries can be derived where the robustness improves with increasing noise. This robustness property is intimately connected with an important security concept called differential privacy which can be extended to quantum differential privacy. For the protection of quantum data, this is the first quantum protocol that can be used against the most general adversaries. Furthermore, we show how the robustness in the classical case can be sensitive to the details of the classification model, but in the quantum case the details of classification model are absent, thus also providing a potential quantum advantage for classical data that is independent of quantum speedups. This opens the opportunity to explore other ways in which quantum noise can be used in our favour, as well as identifying other ways quantum algorithms can be helpful that is independent of quantum speedups. | 翻訳日:2022-12-21 23:10:33 公開日:2020-03-20 |
# 資源拘束型移動ロボットの超広帯域化のための学習型バイアス補正 Learning-based Bias Correction for Ultra-wideband Localization of Resource-constrained Mobile Robots ( http://arxiv.org/abs/2003.09371v1 ) ライセンス: Link先を確認 | Wenda Zhao, Abhishek Goudar, Jacopo Panerati, and Angela P. Schoellig (University of Toronto Institute for Aerospace Studies, Vector Institute for Artificial Intelligence) | (参考訳) 正確な屋内ローカライゼーションは、倉庫管理から監視タスクまで、多くのロボットアプリケーションにとって重要な技術である。
ウルトラワイドバンド(UWB)レンジは、同時ローカライゼーションやマッピングといった他の最先端のアプローチと比較して、安価で軽量で計算コストのかかる有望なソリューションであり、特に資源に制約のある航空ロボットに向いている。
しかし、商業的に利用可能な多くの超広帯域無線は、不正確で偏りのある範囲測定を提供する。
本稿では,到着する超広帯域ローカライゼーションの両方向距離と時間差に適合するバイアス補正フレームワークを提案する。
我々の方法は2つのステップから構成される。
(i)統計的外れ値拒絶、及び
(ii)学習に基づくバイアス補正。
このアプローチはスケーラブルで、ナノクァドコプターのマイクロコントローラに搭載できるほど多様である。
従来の研究は主に二方向偏差補正に重点を置いており、クローズドループや資源制約ロボットを用いても実装されていない。
実験の結果, 本手法では, 位置推定誤差を18.5%, 48% (twrとtdoaでは48%) 削減し, クワッドコプターはuwbからのみの位置情報を追跡できることがわかった。 Accurate indoor localization is a crucial enabling technology for many robotics applications, from warehouse management to monitoring tasks. Ultra-wideband (UWB) ranging is a promising solution which is low-cost, lightweight, and computationally inexpensive compared to alternative state-of-the-art approaches such as simultaneous localization and mapping, making it especially suited for resource-constrained aerial robots. Many commercially-available ultra-wideband radios, however, provide inaccurate, biased range measurements. In this article, we propose a bias correction framework compatible with both two-way ranging and time difference of arrival ultra-wideband localization. Our method comprises of two steps: (i) statistical outlier rejection and (ii) a learning-based bias correction. This approach is scalable and frugal enough to be deployed on-board a nano-quadcopter's microcontroller. Previous research mostly focused on two-way ranging bias correction and has not been implemented in closed-loop nor using resource-constrained robots. Experimental results show that, using our approach, the localization error is reduced by ~18.5% and 48% (for TWR and TDoA, respectively), and a quadcopter can accurately track trajectories with position information from UWB only. | 翻訳日:2022-12-21 23:09:47 公開日:2020-03-20 |
# 細胞エピゲノタイプを用いた細胞表現型識別 Distinguishing Cell Phenotype Using Cell Epigenotype ( http://arxiv.org/abs/2003.09432v1 ) ライセンス: Link先を確認 | Thomas P. Wytock and Adilson E. Motter | (参考訳) 顕微鏡観察とマクロな振る舞いの関係は、生体物理学システムにおける根本的なオープンな問題である。
そこで我々は,ヒトの組織多様性と利用可能なデータの制限を考慮に入れた場合においても,マクロ分子データから細胞型を予測する統一的な手法を開発した。
相関行列の固有ベクトルにデータを投影した後、k-nearest-neighborsアルゴリズムを適用し、遺伝子発現やクロマチンコンホメーションの多くの観測から推定した。
提案手法は, 細胞型に影響を与えるエピジェノタイプの変異を同定し, 細胞型アトラクタ仮説をサポートし, 生体系におけるモデル非依存制御戦略への第一歩を示す。 The relationship between microscopic observations and macroscopic behavior is a fundamental open question in biophysical systems. Here, we develop a unified approach that---in contrast with existing methods---predicts cell type from macromolecular data even when accounting for the scale of human tissue diversity and limitations in the available data. We achieve these benefits by applying a k-nearest-neighbors algorithm after projecting our data onto the eigenvectors of the correlation matrix inferred from many observations of gene expression or chromatin conformation. Our approach identifies variations in epigenotype that impact cell type, thereby supporting the cell type attractor hypothesis and representing the first step toward model-independent control strategies in biological systems. | 翻訳日:2022-12-21 23:09:24 公開日:2020-03-20 |
# プロセス誘導複合データベースに基づくインテリジェントマルチスケールシミュレーション Intelligent multiscale simulation based on process-guided composite database ( http://arxiv.org/abs/2003.09491v1 ) ライセンス: Link先を確認 | Zeliang Liu, Haoyan Wei, Tianyu Huang, C.T. Wu | (参考訳) 本稿では,プロセスモデリング,材料均質化,メカニスティック機械学習,並列マルチスケールシミュレーションに基づく統合データ駆動モデリングフレームワークを提案する。
我々は, 自動車, 航空宇宙, エレクトロニクス産業において重要な材料システムとして認識されてきた, 射出成形した短繊維強化複合材料に興味を持っている。
成形過程は様々な長さスケールにわたって空間的変化を誘導するが, 従来のモデリング手法では, 強異方性および非線形材料特性の把握が困難である。
機械学習タスクのための線形弾性トレーニングデータを作成するために、確率的再構成により、繊維配向と体積率の異なる代表ボリューム要素(rve)を生成する。
さらに,最近提案する深層物質ネットワーク(dmn)を用いて,データから隠れたマイクロスケール形態を学習する。
ビルディングブロックに本質的な物理が組み込まれているため、このデータ駆動材料モデルは、非線形材料挙動を効率的に正確に予測するために外挿することができる。
DMNの転写学習を通じて,短繊維強化複合材料のための全範囲の幾何学的記述子をカバーする統一的なプロセス誘導材料データベースを作成する。
最後に、この統合DMNデータベースをマクロスケール有限要素モデルと組み合わせて実装し、同時マルチスケールシミュレーションを実現する。
我々の見方では、このフレームワークは、添加性製造や圧縮成形など、他の多くの創発的なマルチスケールエンジニアリングシステムでも有望である。 In the paper, we present an integrated data-driven modeling framework based on process modeling, material homogenization, mechanistic machine learning, and concurrent multiscale simulation. We are interested in the injection-molded short fiber reinforced composites, which have been identified as key material systems in automotive, aerospace, and electronics industries. The molding process induces spatially varying microstructures across various length scales, while the resulting strongly anisotropic and nonlinear material properties are still challenging to be captured by conventional modeling approaches. To prepare the linear elastic training data for our machine learning tasks, Representative Volume Elements (RVE) with different fiber orientations and volume fractions are generated through stochastic reconstruction. More importantly, we utilize the recently proposed Deep Material Network (DMN) to learn the hidden microscale morphologies from data. With essential physics embedded in its building blocks, this data-driven material model can be extrapolated to predict nonlinear material behaviors efficiently and accurately. Through the transfer learning of DMN, we create a unified process-guided material database that covers a full range of geometric descriptors for short fiber reinforced composites. Finally, this unified DMN database is implemented and coupled with macroscale finite element model to enable concurrent multiscale simulations. From our perspective, the proposed framework is also promising in many other emergent multiscale engineering systems, such as additive manufacturing and compressive molding. | 翻訳日:2022-12-21 23:08:58 公開日:2020-03-20 |
# トレースラッソ正則化を用いた適応スパース正準相関解析のための余剰多様体拡張ラグランジアン法 An Inexact Manifold Augmented Lagrangian Method for Adaptive Sparse Canonical Correlation Analysis with Trace Lasso Regularization ( http://arxiv.org/abs/2003.09195v1 ) ライセンス: Link先を確認 | Kangkang Deng and Zheng Peng | (参考訳) 正準相関解析(英: canonical correlation analysis、略称cca)は、相関係数を最大化する変数の線形結合を見つけることによって、2つの変数の関係を記述する。
しかし、変数数がサンプルサイズを超えるような高次元の設定や、変数が高い相関関係にある場合、従来のCAAはもはや適切ではない。
本稿では, トレースラッソ正規化を用いて, CCAの適応スパース版(略してASCCA)を提案する。
提案したASCCAは,共変量と高い相関関係にある場合の推定器の不安定性を低減し,その解釈を改善する。
さらに、ASCCAはリーマン多様体上の最適化問題に再構成され、その結果の最適化問題に対して、多様体が不正確な拡張ラグランジアン法が提案される。
ASCCAの性能は、異なるシミュレーション設定における他のスパースCA技術と比較され、ASCCAが実現可能で効率的であることを示す。 Canonical correlation analysis (CCA for short) describes the relationship between two sets of variables by finding some linear combinations of these variables that maximizing the correlation coefficient. However, in high-dimensional settings where the number of variables exceeds sample size, or in the case of that the variables are highly correlated, the traditional CCA is no longer appropriate. In this paper, an adaptive sparse version of CCA (ASCCA for short) is proposed by using the trace Lasso regularization. The proposed ASCCA reduces the instability of the estimator when the covariates are highly correlated, and thus improves its interpretation. The ASCCA is further reformulated to an optimization problem on Riemannian manifolds, and an manifold inexact augmented Lagrangian method is then proposed for the resulting optimization problem. The performance of the ASCCA is compared with the other sparse CCA techniques in different simulation settings, which illustrates that the ASCCA is feasible and efficient. | 翻訳日:2022-12-21 23:02:42 公開日:2020-03-20 |
# 超音波イメージングにおけるDICOMメタデータを用いた弱補正コンテキストエンコーダ Weakly Supervised Context Encoder using DICOM metadata in Ultrasound Imaging ( http://arxiv.org/abs/2003.09070v1 ) ライセンス: Link先を確認 | Szu-Yeu Hu, Shuhang Wang, Wei-Hung Weng, JingChao Wang, XiaoHong Wang, Arinc Ozturk, Qian Li, Viksit Kumar, Anthony E. Samir | (参考訳) 臨床適応を目指した現代のディープラーニングアルゴリズムは、大量の高忠実度ラベル付きデータに依存している。
低リソース設定は、高忠実度データを取得し、人工知能アプリケーションの開発におけるボトルネックとなるような課題を引き起こす。
超音波画像は、Digital Imaging and Communication in Medicine (DICOM)形式で保存され、超音波画像パラメータと医療検査に対応する追加メタデータデータを有する。
本研究では,超音波画像からのdicomメタデータを活用し,超音波画像の表現を学習する。
提案手法は,下流タスク間の非メタッタ方式よりも優れていることを示す。 Modern deep learning algorithms geared towards clinical adaption rely on a significant amount of high fidelity labeled data. Low-resource settings pose challenges like acquiring high fidelity data and becomes the bottleneck for developing artificial intelligence applications. Ultrasound images, stored in Digital Imaging and Communication in Medicine (DICOM) format, have additional metadata data corresponding to ultrasound image parameters and medical exams. In this work, we leverage DICOM metadata from ultrasound images to help learn representations of the ultrasound image. We demonstrate that the proposed method outperforms the non-metadata based approaches across different downstream tasks. | 翻訳日:2022-12-21 23:02:24 公開日:2020-03-20 |
# 映像復元のための識別空間における損失関数の学習 Learning the Loss Functions in a Discriminative Space for Video Restoration ( http://arxiv.org/abs/2003.09124v1 ) ライセンス: Link先を確認 | Younghyun Jo, Jaeyeon Kang, Seoung Wug Oh, Seonghyeon Nam, Peter Vajda, and Seon Joo Kim | (参考訳) より高度なディープネットワークアーキテクチャとGANのような学習方式により、ビデオ復元アルゴリズムの性能は大幅に向上した。
一方、深層ニューラルネットワークを最適化する損失関数は比較的変化しない。
そこで本研究では,映像復元タスクに特有の識別空間を学習し,効果的な損失関数を構築するための新しい枠組みを提案する。
私たちのフレームワークはgansと似ており、ジェネレータと損失ネットワークという2つのネットワークを反復的にトレーニングしています。
ジェネレータは、損失ネットワークによって学習された識別空間における特徴マッチングを通じて、地上の真実の特徴に従って、監督された方法で映像を復元することを学ぶ。
また,出力ビデオの時間的一貫性を維持するために,新たな関係損失を導入する。
ビデオ・スーパーレゾリューションとデブロワーリングの実験により,本手法は,他の最先端手法よりも定量的な計測値を持つ映像を視覚的により快適に生成することを示した。 With more advanced deep network architectures and learning schemes such as GANs, the performance of video restoration algorithms has greatly improved recently. Meanwhile, the loss functions for optimizing deep neural networks remain relatively unchanged. To this end, we propose a new framework for building effective loss functions by learning a discriminative space specific to a video restoration task. Our framework is similar to GANs in that we iteratively train two networks - a generator and a loss network. The generator learns to restore videos in a supervised fashion, by following ground truth features through the feature matching in the discriminative space learned by the loss network. In addition, we also introduce a new relation loss in order to maintain the temporal consistency in output videos. Experiments on video superresolution and deblurring show that our method generates visually more pleasing videos with better quantitative perceptual metric values than the other state-of-the-art methods. | 翻訳日:2022-12-21 23:02:15 公開日:2020-03-20 |
# 大規模プロセス類似性に基づく画像超解像の補間 Across-scale Process Similarity based Interpolation for Image Super-Resolution ( http://arxiv.org/abs/2003.09182v1 ) ライセンス: Link先を確認 | Sobhan Kanti Dhara and Debashis Sen | (参考訳) 画像超解像技術における重要なステップは補間であり、ボケやリングなどのアーティファクトを導入することなく高解像度画像を生成することを目的としている。
本稿では,「プロセス類似性」を利用して計算した高周波信号成分の注入により補間を行う手法を提案する。
プロセス類似性' によって、解像度での像の分解と別の解像度での像の分解との類似性を参照する。
本研究では, 離散ウェーブレット (DWT) と定常ウェーブレット (SWT) 変換を用いて, 画像の詳細と近似を生成する分解値を求める。
DWTとSWTの相補的な性質を利用して、入力画像とその低分解能近似の構造的関係を得る。
構造関係は粒子群最適化(PSO)によって得られた最適モデルパラメータによって表される。
プロセス類似性のため、これらのパラメータは入力画像から高解像度の出力画像を生成するために使用される。
提案手法は, 計算時間(cpu時間)とともにpsnr, ssim, fsim測度の観点から, 定性的に6つの既存手法と比較した。
提案手法はCPU時間において最速であり,同等の結果が得られた。 A pivotal step in image super-resolution techniques is interpolation, which aims at generating high resolution images without introducing artifacts such as blurring and ringing. In this paper, we propose a technique that performs interpolation through an infusion of high frequency signal components computed by exploiting `process similarity'. By `process similarity', we refer to the resemblance between a decomposition of the image at a resolution to the decomposition of the image at another resolution. In our approach, the decompositions generating image details and approximations are obtained through the discrete wavelet (DWT) and stationary wavelet (SWT) transforms. The complementary nature of DWT and SWT is leveraged to get the structural relation between the input image and its low resolution approximation. The structural relation is represented by optimal model parameters obtained through particle swarm optimization (PSO). Owing to process similarity, these parameters are used to generate the high resolution output image from the input image. The proposed approach is compared with six existing techniques qualitatively and in terms of PSNR, SSIM, and FSIM measures, along with computation time (CPU time). It is found that our approach is the fastest in terms of CPU time and produces comparable results. | 翻訳日:2022-12-21 23:01:43 公開日:2020-03-20 |
# アンチコピー2次元バーコードにおける情報隠蔽の検出 Detection of Information Hiding at Anti-Copying 2D Barcodes ( http://arxiv.org/abs/2003.09316v1 ) ライセンス: Link先を確認 | Ning Xie, Ji Hu, Junjie Chen, Qiqi Zhang, and Changsheng Chen | (参考訳) 本稿では,2次元バーコードに隠れた情報の使用を検知する問題について述べる。
従来の隠れ情報検出スキームはヒューリスティックベースか機械学習(ML)ベースである。
先行ヒューリスティックスに基づくスキームの鍵となる制限は、なぜ2次元バーコードに隠された情報が検出できるのかという根本的な疑問に答えないことである。
従来のMLベースの情報スキームの鍵となる制限は、印刷された2Dバーコードが非常に環境に依存しており、ある環境で訓練された情報隠蔽検出スキームが他の環境でうまく機能しない場合が多いため、ロバスト性に欠けることである。
本稿では,既存の2dバーコードにおける2つの隠れ情報検出方式を提案する。
第1のスキームは、ピクセル距離を直接使用して、Pixel Distance Based Detection (PDBD)スキームと呼ばれる2Dバーコードにおける情報隠蔽スキームの使用を検出することである。
第2のスキームは、回収された信号と生信号との共分散を算出し、その分散結果に基づいて、Pixel Variance Based Detection (PVBD)スキームと呼ばれる2Dバーコードにおける情報隠蔽スキームの使用を検出する。
さらに,既存の2つのアンチコピー2Dバーコードのセキュリティを評価するため,高度なIC攻撃を設計する。
提案手法を実装し,スキャナやカメラフォンなどの異なる撮影装置において,提案方式と先行方式との広範な性能比較を行った。
実験の結果,PVBD方式は2LQRコードとLCAC2Dバーコードの両方で隠れた情報の存在を正確に検出できることがわかった。
さらに, ic攻撃を成功させる確率は, 2lqrコードでは 0.6538 であり, lcac 2d バーコードでは 1 である。 This paper concerns the problem of detecting the use of information hiding at anti-copying 2D barcodes. Prior hidden information detection schemes are either heuristicbased or Machine Learning (ML) based. The key limitation of prior heuristics-based schemes is that they do not answer the fundamental question of why the information hidden at a 2D barcode can be detected. The key limitation of prior MLbased information schemes is that they lack robustness because a printed 2D barcode is very much environmentally dependent, and thus an information hiding detection scheme trained in one environment often does not work well in another environment. In this paper, we propose two hidden information detection schemes at the existing anti-copying 2D barcodes. The first scheme is to directly use the pixel distance to detect the use of an information hiding scheme in a 2D barcode, referred as to the Pixel Distance Based Detection (PDBD) scheme. The second scheme is first to calculate the variance of the raw signal and the covariance between the recovered signal and the raw signal, and then based on the variance results, detects the use of information hiding scheme in a 2D barcode, referred as to the Pixel Variance Based Detection (PVBD) scheme. Moreover, we design advanced IC attacks to evaluate the security of two existing anti-copying 2D barcodes. We implemented our schemes and conducted extensive performance comparison between our schemes and prior schemes under different capturing devices, such as a scanner and a camera phone. Our experimental results show that the PVBD scheme can correctly detect the existence of the hidden information at both the 2LQR code and the LCAC 2D barcode. Moreover, the probability of successfully attacking of our IC attacks achieves 0.6538 for the 2LQR code and 1 for the LCAC 2D barcode. | 翻訳日:2022-12-21 23:01:01 公開日:2020-03-20 |
# 小児特発性scoliosis小児のrgb-topographyとx線画像登録 RGB-Topography and X-rays Image Registration for Idiopathic Scoliosis Children Patient Follow-up ( http://arxiv.org/abs/2003.09404v1 ) ライセンス: Link先を確認 | Insaf Setitra, Noureddine Aouaa, Abdelkrim Meziane, Afef Benrabia, Houria Kaced, Hanene Belabassi, Sara Ait Ziane, Nadia Henda Zenati, and Oualid Djekkoune | (参考訳) 各X線診断におけるイオン放射線の経過中に, 硬化症と診断された小児が露出する。
この曝露は患者の健康に悪影響を及ぼし、成人期の病気を引き起こす可能性がある。
X線スキャンを減らすため,近年のシステムでは,RGB画像のみを用いてスコリシス患者の診断を行っている。
このようなシステムの出力は、拡張画像とスコリシス関連角度のセットである。
しかし、これらの角度は、多くの医師を混乱させます。
さらに、X線スキャンの欠如により、医師がRGBとX線画像を比較できなくなり、X線被曝を減らすか否かが決定される。
そこで本研究では, 臨床診断中に採取したscoliosisのrgb画像と, 患者から提供されたx線ハードコピーを併用し, 両画像の登録と診断の比較を行った。
まず、モノモーダル(背中のRGBトポグラフィー)とマルチモーダル(RGBとXray)の画像データベースを確立し、次に患者のランドマークに基づいて画像を登録し、最後に登録された画像を視覚分析のためにブレンドし、医師が追跡する。
提案された登録は、患者の背中のトポロジを保存した剛体変換に基づいている。
硬質化のパラメータは、頚椎7の角度最小化と、ソースおよびターゲット診断における後上腸骨のランドマークを用いて推定される。
構築したデータベース上で行った実験は,提案手法を用いた単モーダルおよび多モーダルの登録が,方程式系解法に基づく登録よりも優れていることを示す。 Children diagnosed with a scoliosis pathology are exposed during their follow up to ionic radiations in each X-rays diagnosis. This exposure can have negative effects on the patient's health and cause diseases in the adult age. In order to reduce X-rays scanning, recent systems provide diagnosis of scoliosis patients using solely RGB images. The output of such systems is a set of augmented images and scoliosis related angles. These angles, however, confuse the physicians due to their large number. Moreover, the lack of X-rays scans makes it impossible for the physician to compare RGB and X-rays images, and decide whether to reduce X-rays exposure or not. In this work, we exploit both RGB images of scoliosis captured during clinical diagnosis, and X-rays hard copies provided by patients in order to register both images and give a rich comparison of diagnoses. The work consists in, first, establishing the monomodal (RGB topography of the back) and multimodal (RGB and Xrays) image database, then registering images based on patient landmarks, and finally blending registered images for a visual analysis and follow up by the physician. The proposed registration is based on a rigid transformation that preserves the topology of the patient's back. Parameters of the rigid transformation are estimated using a proposed angle minimization of Cervical vertebra 7, and Posterior Superior Iliac Spine landmarks of a source and target diagnoses. Experiments conducted on the constructed database show a better monomodal and multimodal registration using our proposed method compared to registration using an Equation System Solving based registration. | 翻訳日:2022-12-21 23:00:31 公開日:2020-03-20 |
# 合成データを用いたCNNによる胸部X線像の骨構造抽出と造影 Bone Structures Extraction and Enhancement in Chest Radiographs via CNN Trained on Synthetic Data ( http://arxiv.org/abs/2003.10839v1 ) ライセンス: Link先を確認 | Ophir Gozes and Hayit Greenspan | (参考訳) 本稿では,U-Net FCNNを用いた胸部X線写真における骨構造抽出のための深層学習に基づく画像処理手法を提案する。
U-Netは、完全に監督された環境でタスクを達成するために訓練された。
トレーニング画像ペアを作成するために、LIDC-IDRIデータセットに属する664個のCTスキャンから得られたX線またはデジタル再構成ラジオグラフ(DRR)を用いた。
CT領域における骨構造のHUベースセグメンテーションを用いて、合成2D "Bone x-ray" DRRを作成し、ネットワークのトレーニングに使用する。
復元損失にはl1損失と知覚損失の2つの損失関数を用いる。
骨構造が抽出されると、元の入力x線と合成された「骨x線」とを融合させて元の画像を強化することができる。
本手法は実X線データに適用可能であることを示すとともに,NIH Chest X-Ray-14データセットに結果を表示する。 In this paper, we present a deep learning-based image processing technique for extraction of bone structures in chest radiographs using a U-Net FCNN. The U-Net was trained to accomplish the task in a fully supervised setting. To create the training image pairs, we employed simulated X-Ray or Digitally Reconstructed Radiographs (DRR), derived from 664 CT scans belonging to the LIDC-IDRI dataset. Using HU based segmentation of bone structures in the CT domain, a synthetic 2D "Bone x-ray" DRR is produced and used for training the network. For the reconstruction loss, we utilize two loss functions- L1 Loss and perceptual loss. Once the bone structures are extracted, the original image can be enhanced by fusing the original input x-ray and the synthesized "Bone X-ray". We show that our enhancement technique is applicable to real x-ray data, and display our results on the NIH Chest X-Ray-14 dataset. | 翻訳日:2022-12-21 23:00:04 公開日:2020-03-20 |
# 総合的インストラクショナルビデオ分析:COINデータセットと性能評価 Comprehensive Instructional Video Analysis: The COIN Dataset and Performance Evaluation ( http://arxiv.org/abs/2003.09392v1 ) ライセンス: Link先を確認 | Yansong Tang and Jiwen Lu and Jie Zhou | (参考訳) インターネット上の相当で爆発的なインストラクショナルビデオのおかげで、初心者は様々なタスクを完了するための知識を習得することができる。
過去10年間で、教育ビデオ分析の問題を調査するための努力が増えている。
しかし、この分野で最も既存のデータセットは、多様性とスケールに制限があり、より多様なアクティビティが発生する多くの現実世界のアプリケーションとは程遠い。
そこで本研究では,包括的インストラクショナルビデオ解析のための大規模データセット"COIN"を提案する。
階層構造で編成されたCOINデータセットには、日々の生活に関連する12のドメイン(車、ガジェットなど)で180のタスクの11,827の動画が含まれている。
新たに開発されたツールボックスでは、すべてのビデオに一連のステップラベルと対応するテンポラルバウンダリをアノテートする。
指導ビデオ分析のベンチマークを提供するため,5つの異なる条件下でCOINデータセットに対する多くのアプローチを評価する。
さらに,2つの重要な特徴(タスク一貫性と順序依存性)を利用して,指導ビデオの重要なステップをローカライズする。
そこで本研究では,従来の提案に基づく行動検出モデルに簡単に接続可能な,シンプルで効果的な2つの手法を提案する。
coin datasetの導入は、コミュニティのためのインストラクショナルビデオ分析に関する今後の深い研究を促進するだろうと考えています。
私たちのデータセット、アノテーションツールボックス、ソースコードはhttp://coin-dataset.github.io.com/で利用可能です。 Thanks to the substantial and explosively inscreased instructional videos on the Internet, novices are able to acquire knowledge for completing various tasks. Over the past decade, growing efforts have been devoted to investigating the problem on instructional video analysis. However, the most existing datasets in this area have limitations in diversity and scale, which makes them far from many real-world applications where more diverse activities occur. To address this, we present a large-scale dataset named as "COIN" for COmprehensive INstructional video analysis. Organized with a hierarchical structure, the COIN dataset contains 11,827 videos of 180 tasks in 12 domains (e.g., vehicles, gadgets, etc.) related to our daily life. With a new developed toolbox, all the videos are annotated efficiently with a series of step labels and the corresponding temporal boundaries. In order to provide a benchmark for instructional video analysis, we evaluate plenty of approaches on the COIN dataset under five different settings. Furthermore, we exploit two important characteristics (i.e., task-consistency and ordering-dependency) for localizing important steps in instructional videos. Accordingly, we propose two simple yet effective methods, which can be easily plugged into conventional proposal-based action detection models. We believe the introduction of the COIN dataset will promote the future in-depth research on instructional video analysis for the community. Our dataset, annotation toolbox and source code are available at http://coin-dataset.github.io. | 翻訳日:2022-12-21 22:53:37 公開日:2020-03-20 |
# 自律走行車に対する説明可能な物体誘発行動決定 Explainable Object-induced Action Decision for Autonomous Vehicles ( http://arxiv.org/abs/2003.09405v1 ) ライセンス: Link先を確認 | Yiran Xu, Xiaoyin Yang, Lihang Gong, Hsuan-Chu Lin, Tz-Ying Wu, Yunsheng Li, Nuno Vasconcelos | (参考訳) 自動運転の新しいパラダイムが提案されている。
新しいパラダイムはエンドツーエンドとパイプライン化されたアプローチの間にあり、人間が問題を解決する方法に着想を得ている。
シーンの理解に頼っているが、後者は危険を引き起こす可能性のある物体のみを考える。
これらは、状態の変化が車両のアクションをトリガーするので、アクション誘導と表記される。
彼らはまた、これらのアクションの一連の説明を定義し、後者と共同で作成すべきである。
BDD100Kデータセットの拡張(4つのアクションと21の説明のセットに注釈を付ける)が提案されている。
次に,アクションコマンドと説明文の両方の精度を最適化するマルチタスクの新たな定式化を導入する。
CNNアーキテクチャは、アクション誘発オブジェクトとグローバルシーンコンテキストの推論を組み合わせることで、この問題を解決するために最終的に提案されている。
実験結果から,説明の要求は行動誘発物体の認識を改善することが示され,その結果,行動予測の精度が向上した。 A new paradigm is proposed for autonomous driving. The new paradigm lies between the end-to-end and pipelined approaches, and is inspired by how humans solve the problem. While it relies on scene understanding, the latter only considers objects that could originate hazard. These are denoted as action-inducing, since changes in their state should trigger vehicle actions. They also define a set of explanations for these actions, which should be produced jointly with the latter. An extension of the BDD100K dataset, annotated for a set of 4 actions and 21 explanations, is proposed. A new multi-task formulation of the problem, which optimizes the accuracy of both action commands and explanations, is then introduced. A CNN architecture is finally proposed to solve this problem, by combining reasoning about action inducing objects and global scene context. Experimental results show that the requirement of explanations improves the recognition of action-inducing objects, which in turn leads to better action predictions. | 翻訳日:2022-12-21 22:53:16 公開日:2020-03-20 |
# 公開データセットは、登録評価のための曖昧な比較を保証するか? Do Public Datasets Assure Unbiased Comparisons for Registration Evaluation? ( http://arxiv.org/abs/2003.09483v1 ) ライセンス: Link先を確認 | Jie Luo, Guangshen Ma, Sarah Frisken, Parikshit Juvekar, Nazim Haouchine, Zhe Xu, Yiming Xiao, Alexandra Golby, Patrick Codd, Masashi Sugiyama, and William Wells III | (参考訳) 新しい画像登録アプローチの可用性が高まるにつれて、臨床医がアプリケーションに適したアプローチを選択するために、偏りのない評価がますます必要になっている。
現在の評価では、通常は手動の注釈付きデータセットでランドマークを使用する。
その結果、アノテーションの品質はバイアスのない比較には不可欠である。
ほとんどのデータプロバイダはデータセットの品質管理を主張しているが、目的とするサードパーティのスクリーニングは、意図したユーザを安心させる可能性がある。
本研究では,画像ガイド下神経外科における登録のベンチマークに用いた2つのデータセットに,手作業で注釈付きランドマークを表示させた。
ヴァリグラムは、注釈付きランドマークの空間特性の直感的な2次元表現を提供する。
Variograms を用いて, 潜在的な疾患を同定し, 経験者により検討した。
その結果,(1) 少数のアノテーションが誤用している可能性があり,(2) いくつかのケースではランドマーク分布は公平な比較を行うのに理想的ではないことがわかった。
未解決の場合、どちらの発見も登録評価のバイアスを負う可能性がある。 With the increasing availability of new image registration approaches, an unbiased evaluation is becoming more needed so that clinicians can choose the most suitable approaches for their applications. Current evaluations typically use landmarks in manually annotated datasets. As a result, the quality of annotations is crucial for unbiased comparisons. Even though most data providers claim to have quality control over their datasets, an objective third-party screening can be reassuring for intended users. In this study, we use the variogram to screen the manually annotated landmarks in two datasets used to benchmark registration in image-guided neurosurgeries. The variogram provides an intuitive 2D representation of the spatial characteristics of annotated landmarks. Using variograms, we identified potentially problematic cases and had them examined by experienced radiologists. We found that (1) a small number of annotations may have fiducial localization errors; (2) the landmark distribution for some cases is not ideal to offer fair comparisons. If unresolved, both findings could incur bias in registration evaluation. | 翻訳日:2022-12-21 22:52:38 公開日:2020-03-20 |
# 特徴集約と選択の強化によるマルチパーソンポーズ推定 Multi-Person Pose Estimation with Enhanced Feature Aggregation and Selection ( http://arxiv.org/abs/2003.10238v1 ) ライセンス: Link先を確認 | Xixia Xu, Qi Zou, Xue Lin | (参考訳) 本稿では,多人数2次元ポーズ推定のための機能集約・選択ネットワーク(efasnet)を提案する。
特徴表現の強化により,混み合った,散らばった,閉ざされたシーンをうまく処理できる。
より具体的には、階層的なマルチスケールな特徴集約を構築し、集約された特徴を識別する機能集約選択モジュール(fasm)が、より正確な細粒度表現を得るために提案され、より正確なジョイントロケーションが導かれる。
そして,高分解能な空間特徴と低分解能な意味的特徴を効果的に融合し,より信頼性の高いコンテキスト情報を得るための簡易な特徴融合(FF)戦略を実行する。
最後に、より正確な予測を生成するために、Dense Upsampling Convolution (DUC)モジュールを構築します。
その結果、予測されたキーポイントヒートマップはより正確である。
包括的な実験では、提案されたアプローチが最先端の手法より優れ、最近のビッグデータCrowdPose、COCOキーポイント検出データセット、MPII Human Poseデータセットの3つのベンチマークデータセットよりも優れたパフォーマンスを実現している。
私たちのコードは受け入れ次第解放されます。 We propose a novel Enhanced Feature Aggregation and Selection network (EFASNet) for multi-person 2D human pose estimation. Due to enhanced feature representation, our method can well handle crowded, cluttered and occluded scenes. More specifically, a Feature Aggregation and Selection Module (FASM), which constructs hierarchical multi-scale feature aggregation and makes the aggregated features discriminative, is proposed to get more accurate fine-grained representation, leading to more precise joint locations. Then, we perform a simple Feature Fusion (FF) strategy which effectively fuses high-resolution spatial features and low-resolution semantic features to obtain more reliable context information for well-estimated joints. Finally, we build a Dense Upsampling Convolution (DUC) module to generate more precise prediction, which can recover missing joint details that are usually unavailable in common upsampling process. As a result, the predicted keypoint heatmaps are more accurate. Comprehensive experiments demonstrate that the proposed approach outperforms the state-of-the-art methods and achieves the superior performance over three benchmark datasets: the recent big dataset CrowdPose, the COCO keypoint detection dataset and the MPII Human Pose dataset. Our code will be released upon acceptance. | 翻訳日:2022-12-21 22:51:37 公開日:2020-03-20 |
# 音素認識ランキングに基づく発話検証によるテキストスクリプトと音声のミスマッチの検出 Detecting Mismatch between Text Script and Voice-over Using Utterance Verification Based on Phoneme Recognition Ranking ( http://arxiv.org/abs/2003.09180v1 ) ライセンス: Link先を確認 | Yoonjae Jeong, Hoon-Young Cho | (参考訳) 本研究の目的は,テキストスクリプトとボイスオーバーのミスマッチを検出することである。
そこで本研究では,文字の音声と音素列の対応度を計算する新しい発話検証(uv)法を提案する。
音声強調音声の音素認識確率は通常の発話に比べて低下するが,そのランクは大きな変化は示さない。
そこで,提案手法では,音素系列に対応する各音素セグメントの認識ランキングを用いて,対応する文字に対する音声オーバ発話の信頼度を測定する。
実験の結果,提案手法は,音声と書き起こしのミスマッチ検出に用いるクロスモーダル注意を用いた最先端手法よりも優れていることがわかった。 The purpose of this study is to detect the mismatch between text script and voice-over. For this, we present a novel utterance verification (UV) method, which calculates the degree of correspondence between a voice-over and the phoneme sequence of a script. We found that the phoneme recognition probabilities of exaggerated voice-overs decrease compared to ordinary utterances, but their rankings do not demonstrate any significant change. The proposed method, therefore, uses the recognition ranking of each phoneme segment corresponding to a phoneme sequence for measuring the confidence of a voice-over utterance for its corresponding script. The experimental results show that the proposed UV method outperforms a state-of-the-art approach using cross modal attention used for detecting mismatch between speech and transcription. | 翻訳日:2022-12-21 22:51:14 公開日:2020-03-20 |
# coq証明アシスタントのための戦術学習と証明 Tactic Learning and Proving for the Coq Proof Assistant ( http://arxiv.org/abs/2003.09140v1 ) ライセンス: Link先を確認 | Lasse Blaauwbroek, Josef Urban, and Herman Geuvers | (参考訳) 本稿では,Coq Proof Assistantの戦術的証明探索に機械学習を利用するシステムを提案する。
HOL4のTacticToeプロジェクトと同様、我々のシステムは適切な戦術を予測し、戦術スクリプトの形で証明を見つける。
これを実現するために、従来の戦術スクリプトから学習し、証明状態に適用する方法を学ぶ。
システムの性能は、Coq Standard Libraryで評価される。
現在、我々の予測者は、証明状態に適用する正しい戦術を23.4%の確率で特定することができる。
我々の証明探索者は 39.3%の補題を 自動的に証明できる
CoqHammerシステムと組み合わせると、2つのシステムは図書館の補題の56.7%を証明している。 We present a system that utilizes machine learning for tactic proof search in the Coq Proof Assistant. In a similar vein as the TacticToe project for HOL4, our system predicts appropriate tactics and finds proofs in the form of tactic scripts. To do this, it learns from previous tactic scripts and how they are applied to proof states. The performance of the system is evaluated on the Coq Standard Library. Currently, our predictor can identify the correct tactic to be applied to a proof state 23.4% of the time. Our proof searcher can fully automatically prove 39.3% of the lemmas. When combined with the CoqHammer system, the two systems together prove 56.7% of the library's lemmas. | 翻訳日:2022-12-21 22:50:44 公開日:2020-03-20 |
# CentripetalNet:オブジェクト検出のための高品質なキーポイントペア CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection ( http://arxiv.org/abs/2003.09119v1 ) ライセンス: Link先を確認 | Zhiwei Dong, Guoxuan Li, Yue Liao, Fei Wang, Pengju Ren, Chen Qian | (参考訳) キーポイントベースの検出器は、かなり高い性能を達成した。
しかし、不正確なキーポイントマッチングはいまだに広く、検出器の性能に大きな影響を与えている。
本稿では,同じインスタンスからペアコーナーキーポイントに遠心シフトを使用するcentripetalnetを提案する。
centripetalnetはコーナーポイントの位置と遠心シフトを予測し、シフト結果が一致したコーナーと一致する。
位置情報を組み合わせることで,従来の埋め込み手法よりも角点の精度が向上する。
コーナープーリングは境界ボックス内の情報を境界に抽出する。
この情報を隅でより認識するために、我々は機能適応を行うためにクロススター変形可能な畳み込みネットワークを設計する。
さらに,CentripetalNetにマスク予測モジュールを装着することにより,アンカーフリー検出器のインスタンスセグメンテーションを検討する。
MS-COCOテストデブでは、CentripetalNetは既存のアンカーフリー検出器を48.0%のAPで上回るだけでなく、40.2%のMaskAPで最先端のインスタンスセグメンテーションアプローチと同等のパフォーマンスを達成する。
コードはhttps://github.com/KiveeDong/CentripetalNetで入手できる。 Keypoint-based detectors have achieved pretty-well performance. However, incorrect keypoint matching is still widespread and greatly affects the performance of the detector. In this paper, we propose CentripetalNet which uses centripetal shift to pair corner keypoints from the same instance. CentripetalNet predicts the position and the centripetal shift of the corner points and matches corners whose shifted results are aligned. Combining position information, our approach matches corner points more accurately than the conventional embedding approaches do. Corner pooling extracts information inside the bounding boxes onto the border. To make this information more aware at the corners, we design a cross-star deformable convolution network to conduct feature adaption. Furthermore, we explore instance segmentation on anchor-free detectors by equipping our CentripetalNet with a mask prediction module. On MS-COCO test-dev, our CentripetalNet not only outperforms all existing anchor-free detectors with an AP of 48.0% but also achieves comparable performance to the state-of-the-art instance segmentation approaches with a 40.2% MaskAP. Code will be available at https://github.com/KiveeDong/CentripetalNet. | 翻訳日:2022-12-21 22:44:56 公開日:2020-03-20 |
# ドメイン適応オブジェクト検出のためのカテゴリ正規化の探索 Exploring Categorical Regularization for Domain Adaptive Object Detection ( http://arxiv.org/abs/2003.09152v1 ) ライセンス: Link先を確認 | Chang-Dong Xu and Xing-Ran Zhao and Xin Jin and Xiu-Shen Wei | (参考訳) 本稿では,ソース領域とターゲット領域の間の大きな領域間ギャップを主な課題とする,ドメイン適応オブジェクト検出問題に取り組む。
以前の作業では、イメージレベルのシフトとインスタンスレベルのシフトを明確化して、最終的にドメインの相違を最小限にしようとしています。
しかし、ドメイン間の重要な画像領域や重要なインスタンスと一致し、ドメインシフトの緩和に強く影響を及ぼすだろう。
本稿では,この問題を軽減するための,単純かつ効果的な分類規則化フレームワークを提案する。
一連のドメイン適応型高速なr-cnnメソッドのプラグイン・アンド・プレイコンポーネントとして適用することができ、ドメイン適応検出を扱うのに特筆される。
具体的には、検出バックボーンに画像レベルマルチラベル分類器を統合することにより、分類方法の弱局在化能力により、カテゴリ情報に対応するスパースだが重要な画像領域を得ることができる。
一方、インスタンスレベルでは、画像レベルの予測(分類器による)とインスタンスレベルの予測(検出ヘッドによる)のカテゴリ整合性を利用して、ターゲットドメインのハードアライメントされたインスタンスを自動的に検索する。
各種領域シフトシナリオの大規模実験により,本手法は元の領域適応型高速R-CNN検出器よりも大きな性能向上を示す。
さらに、質的可視化と分析により、ドメイン適応をターゲットとした重要領域/インスタンスへの出席方法の能力を示すことができる。
私たちのコードはオープンソースで、 \url{https://github.com/Megvii-Nanjing/CR-DA-DET}で利用可能です。 In this paper, we tackle the domain adaptive object detection problem, where the main challenge lies in significant domain gaps between source and target domains. Previous work seeks to plainly align image-level and instance-level shifts to eventually minimize the domain discrepancy. However, they still overlook to match crucial image regions and important instances across domains, which will strongly affect domain shift mitigation. In this work, we propose a simple but effective categorical regularization framework for alleviating this issue. It can be applied as a plug-and-play component on a series of Domain Adaptive Faster R-CNN methods which are prominent for dealing with domain adaptive detection. Specifically, by integrating an image-level multi-label classifier upon the detection backbone, we can obtain the sparse but crucial image regions corresponding to categorical information, thanks to the weakly localization ability of the classification manner. Meanwhile, at the instance level, we leverage the categorical consistency between image-level predictions (by the classifier) and instance-level predictions (by the detection head) as a regularization factor to automatically hunt for the hard aligned instances of target domains. Extensive experiments of various domain shift scenarios show that our method obtains a significant performance gain over original Domain Adaptive Faster R-CNN detectors. Furthermore, qualitative visualization and analyses can demonstrate the ability of our method for attending on the key regions/instances targeting on domain adaptation. Our code is open-source and available at \url{https://github.com/Megvii-Nanjing/CR-DA-DET}. | 翻訳日:2022-12-21 22:44:33 公開日:2020-03-20 |
# 3dDepthNet:Sparse DepthとSingle Color ImageのためのPoint Cloud Guided Depth Completion Network 3dDepthNet: Point Cloud Guided Depth Completion Network for Sparse Depth and Single Color Image ( http://arxiv.org/abs/2003.09175v1 ) ライセンス: Link先を確認 | Rui Xiang, Feng Zheng, Huapeng Su, Zhe Zhang | (参考訳) 本稿では3dDepthNetというエンド・ツー・エンドのディープラーニングネットワークを提案する。ロボットと自律走行タスクのための1対のスパースLiDAR深度とカラー画像から正確な深度画像を生成する。
奥行き画像の次元的性質に基づいて,ネットワークは高精度かつ軽量な,新しい3次元から2次元の粗い2次元密度設計を提供する。
深度密度化は3次元空間において点雲完備化により行われ、続いて投影された3次元完了からの深度と元のRGB-D画像を用いて2次元画像完備化を行うエンコーダ・デコーダ構造が特別に設計された。
KITTIデータセットの実験は、我々のネットワークがより効率的でありながら最先端の精度を達成することを示している。
アブレーションと一般化テストにより,ネットワーク内の各モジュールが最終結果に正の影響を示し,さらにネットワークはスパルサー深さにまで弾力性があることが証明された。 In this paper, we propose an end-to-end deep learning network named 3dDepthNet, which produces an accurate dense depth image from a single pair of sparse LiDAR depth and color image for robotics and autonomous driving tasks. Based on the dimensional nature of depth images, our network offers a novel 3D-to-2D coarse-to-fine dual densification design that is both accurate and lightweight. Depth densification is first performed in 3D space via point cloud completion, followed by a specially designed encoder-decoder structure that utilizes the projected dense depth from 3D completion and the original RGB-D images to perform 2D image completion. Experiments on the KITTI dataset show our network achieves state-of-art accuracy while being more efficient. Ablation and generalization tests prove that each module in our network has positive influences on the final results, and furthermore, our network is resilient to even sparser depth. | 翻訳日:2022-12-21 22:43:49 公開日:2020-03-20 |
# 逆レンダリングによる超高精度カメラ校正 Superaccurate Camera Calibration via Inverse Rendering ( http://arxiv.org/abs/2003.09177v1 ) ライセンス: Link先を確認 | Morten Hannemose and Jakob Wilm and Jeppe Revall Frisvad | (参考訳) カメラキャリブレーションの最も一般的なルーチンは、目的のキャリブレーションアーティファクト上で明確に定義された特徴点の検出に基づいている。
これらはチェッカーボードのサドル、円、リング、三角形で、しばしば平面構造に印刷される。
特徴点を最初に検出し, 非線形最適化により内部カメラパラメータを推定し, 逆レンダリングの原理を用いた新しいカメラキャリブレーション手法を提案する。
検出された特徴点のみに頼るのではなく、内部パラメータとキャリブレーション対象のポーズを推定し、光学的特徴と非フォトリアリスティックな類似性を暗黙的にレンダリングする。
これにより、補間アーティファクトを使わずに画像領域の画素差を計算することができる。
次に、ピクセル単位の最小二乗差を最小化することで、内部パラメータの推定を改善することができる。
このように,カメラセンサに通常分布するノイズ特性を仮定して,画像空間に有意な指標を最適化し,推定カメラパラメータの精度を現在のキャリブレーションルーチンと比較して改善できることを,合成および実カメラ画像を用いて実証する。
また,ノイズの有無やキャリブレーション画像の数が限られている状況において,これらのパラメータをよりロバストに推定する。 The most prevalent routine for camera calibration is based on the detection of well-defined feature points on a purpose-made calibration artifact. These could be checkerboard saddle points, circles, rings or triangles, often printed on a planar structure. The feature points are first detected and then used in a nonlinear optimization to estimate the internal camera parameters.We propose a new method for camera calibration using the principle of inverse rendering. Instead of relying solely on detected feature points, we use an estimate of the internal parameters and the pose of the calibration object to implicitly render a non-photorealistic equivalent of the optical features. This enables us to compute pixel-wise differences in the image domain without interpolation artifacts. We can then improve our estimate of the internal parameters by minimizing pixel-wise least-squares differences. In this way, our model optimizes a meaningful metric in the image space assuming normally distributed noise characteristic for camera sensors.We demonstrate using synthetic and real camera images that our method improves the accuracy of estimated camera parameters as compared with current state-of-the-art calibration routines. Our method also estimates these parameters more robustly in the presence of noise and in situations where the number of calibration images is limited. | 翻訳日:2022-12-21 22:43:30 公開日:2020-03-20 |
# 深層森林における皮膚病変画像の分布外検出 Out-of-Distribution Detection for Skin Lesion Images with Deep Isolation Forest ( http://arxiv.org/abs/2003.09365v1 ) ライセンス: Link先を確認 | Xuan Li, Yuchen Lu, Christian Desrosiers, Xue Liu | (参考訳) 本稿では,皮膚疾患画像における分布外検出の問題点について検討する。
一般に利用可能な医療データセットは通常、限られた数の病変クラス(例:HAM10000は8つの病変クラス)を持つ。
しかし、臨床的に特定された病気は数千ある。
したがって、訓練データにない病変を区別することが重要である。
本研究の目的は,非パラメトリック森林と深層畳み込みネットワークを組み合わせたDeepIFを提案することである。
我々は、DeepIFを3つのベースラインモデルと比較するための包括的な実験を行う。
以上の結果から, 皮膚異常病変検出作業における提案手法の有効性が示された。 In this paper, we study the problem of out-of-distribution detection in skin disease images. Publicly available medical datasets normally have a limited number of lesion classes (e.g. HAM10000 has 8 lesion classes). However, there exists a few thousands of clinically identified diseases. Hence, it is important if lesions not in the training data can be differentiated. Toward this goal, we propose DeepIF, a non-parametric Isolation Forest based approach combined with deep convolutional networks. We conduct comprehensive experiments to compare our DeepIF with three baseline models. Results demonstrate state-of-the-art performance of our proposed approach on the task of detecting abnormal skin lesions. | 翻訳日:2022-12-21 22:42:32 公開日:2020-03-20 |
# SER-FIQ:確率埋め込みロバストネスに基づく顔画像品質の教師なし推定 SER-FIQ: Unsupervised Estimation of Face Image Quality Based on Stochastic Embedding Robustness ( http://arxiv.org/abs/2003.09373v1 ) ライセンス: Link先を確認 | Philipp Terh\"orst, Jan Niklas Kolf, Naser Damer, Florian Kirchbuchner, Arjan Kuijper | (参考訳) 顔画像の品質は、高性能な顔認識システムを実現する上で重要な要素である。
顔品質評価は、認識のための顔画像の適合性を推定することを目的としている。
以前の研究では、人工的または人間のラベル付き品質値を必要とする教師付きソリューションを提案した。
しかし、両者のラベリング機構は、品質を明確に定義しないためエラーを起こしやすく、使用済みの顔認識システムに最適な特徴を知らない可能性がある。
不正確な品質ラベルの使用を避けるため、任意の顔認識モデルに基づいて顔品質を測定する新しい概念を提案した。
顔モデルのランダムサブネットワークから発生する埋め込み変動を判定することにより、サンプル表現のロバスト性が評価され、その品質が推定される。
実験は3つの公開データベース上のデータベース間評価設定で実施される。
提案手法を,学界と産業界からの6つの最先端アプローチと比較した。
その結果,調査シナリオの大部分において,教師なしのソリューションは,他のすべてのアプローチよりも優れていることがわかった。
従来の手法とは対照的に,提案手法はすべてのシナリオに対して安定した性能を示す。
顔品質評価手法に展開された顔認識モデルを用いることで、トレーニングフェーズを完全に回避し、さらに全てのベースラインアプローチを大きなマージンで上回る。
我々のソリューションは、現在の顔認識システムに簡単に統合でき、顔認識以外のタスクに修正できる。 Face image quality is an important factor to enable high performance face recognition systems. Face quality assessment aims at estimating the suitability of a face image for recognition. Previous work proposed supervised solutions that require artificially or human labelled quality values. However, both labelling mechanisms are error-prone as they do not rely on a clear definition of quality and may not know the best characteristics for the utilized face recognition system. Avoiding the use of inaccurate quality labels, we proposed a novel concept to measure face quality based on an arbitrary face recognition model. By determining the embedding variations generated from random subnetworks of a face model, the robustness of a sample representation and thus, its quality is estimated. The experiments are conducted in a cross-database evaluation setting on three publicly available databases. We compare our proposed solution on two face embeddings against six state-of-the-art approaches from academia and industry. The results show that our unsupervised solution outperforms all other approaches in the majority of the investigated scenarios. In contrast to previous works, the proposed solution shows a stable performance over all scenarios. Utilizing the deployed face recognition model for our face quality assessment methodology avoids the training phase completely and further outperforms all baseline approaches by a large margin. Our solution can be easily integrated into current face recognition systems and can be modified to other tasks beyond face recognition. | 翻訳日:2022-12-21 22:42:24 公開日:2020-03-20 |
# アイスランド語技術プログラム2019-2023 Language Technology Programme for Icelandic 2019-2023 ( http://arxiv.org/abs/2003.09244v1 ) ライセンス: Link先を確認 | Anna Bj\"ork Nikul\'asd\'ottir, J\'on Gu{\dh}nason, Anton Karl Ingason, Hrafn Loftsson, Eir\'ikur R\"ognvaldsson, Einar Freyr Sigur{\dh}sson and Stein{\th}\'or Steingr\'imsson | (参考訳) 本稿では,アイスランド語のための新しい国語技術プログラムについて述べる。
5年間にわたるこのプログラムは、アクセス可能なオープンソースの言語リソースとソフトウェアを開発することで、アイスランド語をデジタル世界でコミュニケーションや対話に利用できるようにすることを目的としている。
プログラム内の研究開発作業は、大学、機関、民間企業のコンソーシアムによって行われ、学術と産業の連携に重点が置かれている。
プログラムの中心となる5つのプロジェクトは、言語リソース、音声認識、音声合成、機械翻訳、スペルと文法チェックである。
また,アイスランドの言語技術史を概観し,他の国語技術プログラムについても述べる。 In this paper, we describe a new national language technology programme for Icelandic. The programme, which spans a period of five years, aims at making Icelandic usable in communication and interactions in the digital world, by developing accessible, open-source language resources and software. The research and development work within the programme is carried out by a consortium of universities, institutions, and private companies, with a strong emphasis on cooperation between academia and industries. Five core projects will be the main content of the programme: language resources, speech recognition, speech synthesis, machine translation, and spell and grammar checking. We also describe other national language technology programmes and give an overview over the history of language technology in Iceland. | 翻訳日:2022-12-21 22:35:10 公開日:2020-03-20 |
# ゴール認識のためのImagination-augmented Deep Learning Imagination-Augmented Deep Learning for Goal Recognition ( http://arxiv.org/abs/2003.09529v1 ) ライセンス: Link先を確認 | Thibault Duhamel, Mariane Maynard and Froduald Kabanza | (参考訳) 私たちが観察し、対話し、物語を読んだり、読んだりする人々の目標を推測できることは、人間の知能の目印のひとつです。
現在の目標認識研究における顕著なアイデアは、計画のコストの推定からエージェントが持つであろう異なる目標まで、エージェントの目標の可能性を推測することである。
異なるアプローチでは、手作りの象徴表現のみに依存することでこのアイデアを実装している。
しかし、現実の環境への応用は、主にゴール指向の行動に影響を与える要因のルールを抽出するので、非常に限定的です。
本稿では、記号型プラナーを用いて計画コストの洞察を計算し、深層ニューラルネットワークを想像力で拡張し、記号型認識器やディープラーニング型ゴール認識器単独と比較して、実・合成領域における目標認識精度を向上させる新しいアイデアを提案する。 Being able to infer the goal of people we observe, interact with, or read stories about is one of the hallmarks of human intelligence. A prominent idea in current goal-recognition research is to infer the likelihood of an agent's goal from the estimations of the costs of plans to the different goals the agent might have. Different approaches implement this idea by relying only on handcrafted symbolic representations. Their application to real-world settings is, however, quite limited, mainly because extracting rules for the factors that influence goal-oriented behaviors remains a complicated task. In this paper, we introduce a novel idea of using a symbolic planner to compute plan-cost insights, which augment a deep neural network with an imagination capability, leading to improved goal recognition accuracy in real and synthetic domains compared to a symbolic recognizer or a deep-learning goal recognizer alone. | 翻訳日:2022-12-21 22:34:40 公開日:2020-03-20 |
# 大規模ロバスト推定のための卒業フィルタ法 A Graduated Filter Method for Large Scale Robust Estimation ( http://arxiv.org/abs/2003.09080v1 ) ライセンス: Link先を確認 | Huu Le and Christopher Zach | (参考訳) 大規模なロバストパラメータ推定の非凸性のため、入力データが大きなまたは未知の外れ値によって汚染される実世界のアプリケーションでは、ローカルな最小値の低さを避けることが困難である。
本稿では,局所的な極小さから逃れる強力な能力を持つロバスト推定のための新しい解法を提案する。
提案アルゴリズムは,多くの最小値が不足する問題を解くために,最先端の局所的手法である従来手法のクラスに基づいて構築されている。
我々の研究の斬新さは適応的カーネル(または残留)スケーリングスキームの導入であり、より高速な収束率を達成することができる。
提案手法は,ロバストな推定タスクに適した局所最小値を返すことを目的とした他の手法と同様に,従来のロバストな問題を緩和するが,非線形制約最適化からフィルタフレームワークを適用して緩和のレベルを自動的に選択する。
バンドル調整インスタンスのような実大規模データセットの実験結果から,提案手法が競合的な結果を得ることを示す。 Due to the highly non-convex nature of large-scale robust parameter estimation, avoiding poor local minima is challenging in real-world applications where input data is contaminated by a large or unknown fraction of outliers. In this paper, we introduce a novel solver for robust estimation that possesses a strong ability to escape poor local minima. Our algorithm is built upon the class of traditional graduated optimization techniques, which are considered state-of-the-art local methods to solve problems having many poor minima. The novelty of our work lies in the introduction of an adaptive kernel (or residual) scaling scheme, which allows us to achieve faster convergence rates. Like other existing methods that aim to return good local minima for robust estimation tasks, our method relaxes the original robust problem but adapts a filter framework from non-linear constrained optimization to automatically choose the level of relaxation. Experimental results on real large-scale datasets such as bundle adjustment instances demonstrate that our proposed method achieves competitive results. | 翻訳日:2022-12-21 22:34:09 公開日:2020-03-20 |
# 3次元畳み込みニューラルネットワークを用いた完全自動手指衛生モニタリング\\inオペレーティングルーム Fully Automated Hand Hygiene Monitoring\\in Operating Room using 3D Convolutional Neural Network ( http://arxiv.org/abs/2003.09087v1 ) ライセンス: Link先を確認 | Minjee Kim, Joonmyeong Choi, Namkug Kim | (参考訳) 手指衛生は、手術室(OR)の患者に接触する医療スタッフによってしばしば伝達される病院接種感染症(HAI)を予防する最も重要な要因の1つである。
手の衛生モニタリングは、or内の感染症の発生を調査、軽減するために重要である。
しかし,ORシーンの視覚的複雑さのため,手衛生コンプライアンスのための効果的なモニタリングツールの開発は困難である。
畳み込みニューラルネット(CNN)による映像理解の進歩により,人間の行動の認識と検出の応用が増加している。
この進歩を活かし,3d cnnを用いた時空間的特徴を用いた麻酔科医のアルコールベースの手こり動作の完全自動計測ツールを提案した。
まず, 麻酔科医の上半身の関心領域(ROI)を検出し, 収穫した。
時間的平滑化フィルタをROIに適用した。
その後、ROIは3D CNNに与えられ、2つのクラスに分類された。
Kinetics-400からの転送学習は有用であり,光学フローストリームは我々のデータセットでは役に立たなかった。
最終精度、精度、リコール、F1スコアはそれぞれ0.76、0.85、0.65、0.74である。 Hand hygiene is one of the most significant factors in preventing hospital acquired infections (HAI) which often be transmitted by medical staffs in contact with patients in the operating room (OR). Hand hygiene monitoring could be important to investigate and reduce the outbreak of infections within the OR. However, an effective monitoring tool for hand hygiene compliance is difficult to develop due to the visual complexity of the OR scene. Recent progress in video understanding with convolutional neural net (CNN) has increased the application of recognition and detection of human actions. Leveraging this progress, we proposed a fully automated hand hygiene monitoring tool of the alcohol-based hand rubbing action of anesthesiologists on OR video using spatio-temporal features with 3D CNN. First, the region of interest (ROI) of anesthesiologists' upper body were detected and cropped. A temporal smoothing filter was applied to the ROIs. Then, the ROIs were given to a 3D CNN and classified into two classes: rubbing hands or other actions. We observed that a transfer learning from Kinetics-400 is beneficial and the optical flow stream was not helpful in our dataset. The final accuracy, precision, recall and F1 score in testing is 0.76, 0.85, 0.65 and 0.74, respectively. | 翻訳日:2022-12-21 22:33:50 公開日:2020-03-20 |
# Group-Stack Dual-GANによるデータ自由知識の集約 Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN ( http://arxiv.org/abs/2003.09088v1 ) ライセンス: Link先を確認 | Jingwen Ye, Yixin Ji, Xinchao Wang, Xin Gao, Mingli Song | (参考訳) ディープラーニングの最近の進歩は、事前学習された畳み込みニューラルネットワーク(cnn)モデルから知識ストリームを多元化するために1つのネットワークを学習する手順を提供し、アノテーションコストを削減している。
しかし、既存のほとんどの手法は、プライバシーや送信の問題のために利用できない大規模なトレーニングデータを必要とする。
本稿では,複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するための,データフリーな知識アマルガメート戦略を提案する。
主な考え方は、2つの双対発生器を持つグループスタック生成対向ネットワーク(GAN)を構築することである。
まず、教師の事前学習に使用する元のデータセットを近似したイメージを再構成することにより、知識収集を訓練する。
そして、前者生成器からの出力を入力としてデュアルジェネレータを訓練する。
最後に、デュアルパートジェネレータをターゲットネットワークとして扱い、再グループ化する。
マルチラベル分類のいくつかのベンチマークで示されたように、トレーニングデータを持たない提案手法は、フル教師付き手法と比較しても驚くほど競合的な結果が得られる。 Recent advances in deep learning have provided procedures for learning one network to amalgamate multiple streams of knowledge from the pre-trained Convolutional Neural Network (CNN) models, thus reduce the annotation cost. However, almost all existing methods demand massive training data, which may be unavailable due to privacy or transmission issues. In this paper, we propose a data-free knowledge amalgamate strategy to craft a well-behaved multi-task student network from multiple single/multi-task teachers. The main idea is to construct the group-stack generative adversarial networks (GANs) which have two dual generators. First one generator is trained to collect the knowledge by reconstructing the images approximating the original dataset utilized for pre-training the teachers. Then a dual generator is trained by taking the output from the former generator as input. Finally we treat the dual part generator as the target network and regroup it. As demonstrated on several benchmarks of multi-label classification, the proposed method without any training data achieves the surprisingly competitive results, even compared with some full-supervised methods. | 翻訳日:2022-12-21 22:33:33 公開日:2020-03-20 |
# FocalMix: 3D画像検出のための半教師付き学習 FocalMix: Semi-Supervised Learning for 3D Medical Image Detection ( http://arxiv.org/abs/2003.09108v1 ) ライセンス: Link先を確認 | Dong Wang, Yuan Zhang, Kexin Zhang, Liwei Wang | (参考訳) 医療画像に人工知能技術を適用することは、医学で最も有望な分野の1つである。
しかし、この分野での最近の成功の大部分は大量の注意深い注記データに依存しているが、医用画像の注記はコストのかかるプロセスである。
本稿では,FocalMixと呼ばれる新しい手法を提案する。この手法は,医用画像検出のための半教師あり学習(SSL)の最近の進歩を初めて活用するものである。
肺結節検出に広く用いられている2つのデータセット,LUNA16とNLSTについて広範な実験を行った。
その結果,提案手法は,400個の未ラベルCTスキャンを用いて,最先端の教師あり学習手法よりも最大17.3%向上できることがわかった。 Applying artificial intelligence techniques in medical imaging is one of the most promising areas in medicine. However, most of the recent success in this area highly relies on large amounts of carefully annotated data, whereas annotating medical images is a costly process. In this paper, we propose a novel method, called FocalMix, which, to the best of our knowledge, is the first to leverage recent advances in semi-supervised learning (SSL) for 3D medical image detection. We conducted extensive experiments on two widely used datasets for lung nodule detection, LUNA16 and NLST. Results show that our proposed SSL methods can achieve a substantial improvement of up to 17.3% over state-of-the-art supervised learning approaches with 400 unlabeled CT scans. | 翻訳日:2022-12-21 22:32:52 公開日:2020-03-20 |
# デュアル差別化GAN:プロファイル顔認識のためのGAN方式 Dual-discriminator GAN: A GAN way of profile face recognition ( http://arxiv.org/abs/2003.09116v1 ) ライセンス: Link先を確認 | Xinyu Zhang, Yang Zhao, Hao Zhang | (参考訳) 顔認識を行う際に生じる角度の問題は豊富であり、現在、特徴抽出ネットワークは、同一人物の正面顔とプロフィール顔認識との間に大きな差がある固有ベクトルを多数提示している。
このため、最先端の顔認識ネットワークでは、同じターゲットに対して複数のサンプルを使用して、トレーニング中に角度による固有ベクトル差が無視されるようにする。
しかし、認識前に顔画像のプロファイルを持つ前面画像を生成するという別の解決策がある。
本稿では,GAN(Generative Adversarial Network)に基づいて,画像と画像のプロファイルを持つ正面顔を生成する手法を提案する。 A wealth of angle problems occur when facial recognition is performed: At present, the feature extraction network presents eigenvectors with large differences between the frontal face and profile face recognition of the same person in many cases. For this reason, the state-of-the-art facial recognition network will use multiple samples for the same target to ensure that eigenvector differences caused by angles are ignored during training. However, there is another solution available, which is to generate frontal face images with profile face images before recognition. In this paper, we proposed a method of generating frontal faces with image-to-image profile faces based on Generative Adversarial Network (GAN). | 翻訳日:2022-12-21 22:32:40 公開日:2020-03-20 |
# 期待最大化を伴う3次元u-netを用いた腎分画 Kidney segmentation using 3D U-Net localized with Expectation Maximization ( http://arxiv.org/abs/2003.09075v1 ) ライセンス: Link先を確認 | Omid Bazgir, Kai Barck, Richard A.D. Carano, Robby M. Weimer, Luke Xie | (参考訳) 腎臓の体積はいくつかの腎疾患に大きな影響を及ぼす。
腎臓の精密かつ自動セグメンテーションは、腎臓の大きさを決定し、腎機能を評価するのに役立つ。
完全な畳み込みニューラルネットワークは、臓器を大きな生体医学的3d画像から切り離すのに使われてきた。
これらのネットワークは最先端のセグメンテーション性能を示すが、MRIデータセットの小さな前景オブジェクト、小さなサンプルサイズ、異方性分解能に即座に変換するわけではない。
本稿では,3次元MRIのセグメント化における課題に対処する新しい枠組みを提案する。
これらの手法はループス腎炎動物モデルにおける腎分画のための術前mriを用いて実施した。
実装戦略は2つあります
1)mri拡散画像を追加して一般腎臓領域を検出すること、及び
2)小さなサンプルサイズを扱う3d u-netカーネルを減らす。
このアプローチを用いて、0.88のDice類似度係数をn=196の限られたデータセットで達成した。
注意深い最適化を伴うこのセグメンテーション戦略は、様々な腎障害または他の臓器系に適用することができる。 Kidney volume is greatly affected in several renal diseases. Precise and automatic segmentation of the kidney can help determine kidney size and evaluate renal function. Fully convolutional neural networks have been used to segment organs from large biomedical 3D images. While these networks demonstrate state-of-the-art segmentation performances, they do not immediately translate to small foreground objects, small sample sizes, and anisotropic resolution in MRI datasets. In this paper we propose a new framework to address some of the challenges for segmenting 3D MRI. These methods were implemented on preclinical MRI for segmenting kidneys in an animal model of lupus nephritis. Our implementation strategy is twofold: 1) to utilize additional MRI diffusion images to detect the general kidney area, and 2) to reduce the 3D U-Net kernels to handle small sample sizes. Using this approach, a Dice similarity coefficient of 0.88 was achieved with a limited dataset of n=196. This segmentation strategy with careful optimization can be applied to various renal injuries or other organ systems. | 翻訳日:2022-12-21 22:27:02 公開日:2020-03-20 |
# DMV: 部分レベルDense Memoryと投票ベースの検索によるビジュアルオブジェクト追跡 DMV: Visual Object Tracking via Part-level Dense Memory and Voting-based Retrieval ( http://arxiv.org/abs/2003.09171v1 ) ライセンス: Link先を確認 | Gunhee Nam, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim | (参考訳) DMVと呼ばれる部分レベル高密度メモリと投票ベースの検索による新しいメモリベースのトラッカーを提案する。
追跡分野にディープラーニング技術が導入されて以来、シアムトラッカーは速度と精度のバランスのために多くの研究者を惹きつけてきた。
しかし、そのほとんどは単一のテンプレートマッチングに基づいているため、アクセス可能なインフォームを初期ターゲットの機能に制限するため、パフォーマンスが制限される。
本稿では,追跡記録を保存する外部メモリを維持することで,この制限を緩和する。
メモリからの部分レベルの検索もテンプレートから情報を解放し、ルックス変化やオクルージョンといった課題をよりうまく処理できるようにします。
トラッキング中にメモリを更新することで、対象オブジェクトの代表的なパワーをオンライン学習なしで強化することができる。
また,メモリの信頼できない情報をフィルタリングする新たな投票機構を提案する。
OTB-100,TrackingNet,GOT-10k,LaSOT,UAV123のトラッカーを網羅的に評価し,本手法が最先端手法に匹敵する結果をもたらすことを示す。 We propose a novel memory-based tracker via part-level dense memory and voting-based retrieval, called DMV. Since deep learning techniques have been introduced to the tracking field, Siamese trackers have attracted many researchers due to the balance between speed and accuracy. However, most of them are based on a single template matching, which limits the performance as it restricts the accessible in-formation to the initial target features. In this paper, we relieve this limitation by maintaining an external memory that saves the tracking record. Part-level retrieval from the memory also liberates the information from the template and allows our tracker to better handle the challenges such as appearance changes and occlusions. By updating the memory during tracking, the representative power for the target object can be enhanced without online learning. We also propose a novel voting mechanism for the memory reading to filter out unreliable information in the memory. We comprehensively evaluate our tracker on OTB-100,TrackingNet, GOT-10k, LaSOT, and UAV123, which show that our method yields comparable results to the state-of-the-art methods. | 翻訳日:2022-12-21 22:25:25 公開日:2020-03-20 |
# 行列乗算とリッジ回帰のための局所スケッチ Localized sketching for matrix multiplication and ridge regression ( http://arxiv.org/abs/2003.09097v1 ) ライセンス: Link先を確認 | Rakshith S Srinivasa, Mark A Davenport, Justin Romberg | (参考訳) 我々は,任意の点においてデータ行列の一部しか利用できない局所的スケッチの新たな設定において,スケッチ近似行列乗法とリッジ回帰を考える。
これはスケッチ行列上のブロック対角構造に対応する。
穏やかな条件下では、ブロック対角スケッチ行列は o(stable rank / \epsilon^2) と $o( stat) のみを必要とする。
ディム
epsilon)$ 行列の乗算とリッジ回帰に対する総サンプル複雑性。
これは、グローバルスケッチ行列を用いて得られる最先端の境界値と一致する。
スケッチのローカライズされた性質は、データマトリックスの異なる部分を独立してスケッチできるため、分散およびストリーミング環境での計算に適しており、結果としてメモリと計算フットプリントが小さくなる。 We consider sketched approximate matrix multiplication and ridge regression in the novel setting of localized sketching, where at any given point, only part of the data matrix is available. This corresponds to a block diagonal structure on the sketching matrix. We show that, under mild conditions, block diagonal sketching matrices require only O(stable rank / \epsilon^2) and $O( stat. dim. \epsilon)$ total sample complexity for matrix multiplication and ridge regression, respectively. This matches the state-of-the-art bounds that are obtained using global sketching matrices. The localized nature of sketching considered allows for different parts of the data matrix to be sketched independently and hence is more amenable to computation in distributed and streaming settings and results in a smaller memory and computational footprint. | 翻訳日:2022-12-21 22:24:55 公開日:2020-03-20 |
# 逆問題, 深層学習, 対称性の破れ Inverse Problems, Deep Learning, and Symmetry Breaking ( http://arxiv.org/abs/2003.09077v1 ) ライセンス: Link先を確認 | Kshitij Tayal, Chieh-Hsin Lai, Vipin Kumar, Ju Sun | (参考訳) 多くの物理系では、固有系対称性による入力は同じ出力にマッピングされる。
そのようなシステム、すなわち関連する逆問題を解決するとき、一意の解は存在しない。
これにより、新興のエンドツーエンドディープラーニングアプローチを展開する上で、根本的な困難が発生します。
一般化された位相検索問題を例示として,訓練データに対する注意深い対称性の破断が難易度を解消し,学習性能を著しく向上できることを示す。
また,他の逆問題に対して直接適用可能な解の数学的原理を抽出・強調する。 In many physical systems, inputs related by intrinsic system symmetries are mapped to the same output. When inverting such systems, i.e., solving the associated inverse problems, there is no unique solution. This causes fundamental difficulties for deploying the emerging end-to-end deep learning approach. Using the generalized phase retrieval problem as an illustrative example, we show that careful symmetry breaking on the training data can help get rid of the difficulties and significantly improve the learning performance. We also extract and highlight the underlying mathematical principle of the proposed solution, which is directly applicable to other inverse problems. | 翻訳日:2022-12-21 22:24:34 公開日:2020-03-20 |
# 頂点ネットワークを用いた制御親和システムの安全強化学習 Safe Reinforcement Learning of Control-Affine Systems with Vertex Networks ( http://arxiv.org/abs/2003.09488v1 ) ライセンス: Link先を確認 | Liyuan Zheng, Yuanyuan Shi, Lillian J. Ratliff, Baosen Zhang | (参考訳) 本稿では,ハード状態と動作制約のある制御系に対する強化学習方針の探索に着目する。
多くの領域で成功したにもかかわらず、強化学習は厳しい制約のある問題、特に状態変数と行動の両方が制約されている場合に適用することが困難である。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
しかし、このアプローチでは、すべてのポリシー実行ステップで最適化問題を解決する必要があるため、かなりの計算コストがかかる可能性がある。
この問題に対処するため,本論文では,安全制約をポリシネットワークアーキテクチャに組み込むことで,探索中の安全性と学習制御ポリシを保証し,VN(Vertex Networks)と呼ばれる新しいアプローチを提案する。
凸集合内のすべての点がその頂点の凸結合として表現できる幾何学的性質を利用して、提案するアルゴリズムはまず凸結合重みを学習し、これらの重みを事前計算された頂点と共に作用を出力する。
出力アクションは、建設によって安全であることが保証される。
数値例は,提案するvnアルゴリズムが様々なベンチマーク制御タスクにおいてバニラ強化学習よりも優れていることを示す。 This paper focuses on finding reinforcement learning policies for control systems with hard state and action constraints. Despite its success in many domains, reinforcement learning is challenging to apply to problems with hard constraints, especially if both the state variables and actions are constrained. Previous works seeking to ensure constraint satisfaction, or safety, have focused on adding a projection step to a learned policy. Yet, this approach requires solving an optimization problem at every policy execution step, which can lead to significant computational costs. To tackle this problem, this paper proposes a new approach, termed Vertex Networks (VNs), with guarantees on safety during exploration and on learned control policies by incorporating the safety constraints into the policy network architecture. Leveraging the geometric property that all points within a convex set can be represented as the convex combination of its vertices, the proposed algorithm first learns the convex combination weights and then uses these weights along with the pre-calculated vertices to output an action. The output action is guaranteed to be safe by construction. Numerical examples illustrate that the proposed VN algorithm outperforms vanilla reinforcement learning in a variety of benchmark control tasks. | 翻訳日:2022-12-21 22:17:22 公開日:2020-03-20 |
# 手動昇降時のバックパインリスク予測のための深層学習法 A deep learning approach for lower back-pain risk prediction during manual lifting ( http://arxiv.org/abs/2003.09521v1 ) ライセンス: Link先を確認 | Kristian Snyder (1), Brennan Thomas (1), Ming-Lun Lu (2), Rashmi Jha (1), Menekse S. Barim (2), Marie Hayden (2), Dwight Werren (2) ((1) University of Cincinnati, (2) National Institute for Occupational Safety and Health) | (参考訳) 作業によって引き起こされる腰痛は、産業における生産性の低下の主な原因である。
作業者が誤って持ち上げられていることや、背中の怪我のリスクが高いことの検出は、大きなメリットをもたらす。
これには、背中の負傷率の低下による労働者の生活の質の向上、労働者の報酬請求の削減、雇用主への時間の欠如などが含まれる。
しかし、リフトリスクを認識することは、通常は小さなデータセットと加速度計やジャイロスコープのデータに微妙な基礎的特徴があるため、課題となる。
本研究では,2次元畳み込みニューラルネットワーク(cnn)を用いた昇降データセットの分類法を提案し,手作業による特徴抽出は行わない。
提案した深層CNNは、代替のCNNと多層パーセプトロン(MLP)と比較して精度(90.6%)が高い。
ディープCNNは、伝統的に産業環境においてそのサイズと複雑さのためにより大きな課題をもたらす多くの他のアクティビティを分類するために適応することができる。 Occupationally-induced back pain is a leading cause of reduced productivity in industry. Detecting when a worker is lifting incorrectly and at increased risk of back injury presents significant possible benefits. These include increased quality of life for the worker due to lower rates of back injury and fewer workers' compensation claims and missed time for the employer. However, recognizing lifting risk provides a challenge due to typically small datasets and subtle underlying features in accelerometer and gyroscope data. A novel method to classify a lifting dataset using a 2D convolutional neural network (CNN) and no manual feature extraction is proposed in this paper; the dataset consisted of 10 subjects lifting at various relative distances from the body with 720 total trials. The proposed deep CNN displayed greater accuracy (90.6%) compared to an alternative CNN and multilayer perceptron (MLP). A deep CNN could be adapted to classify many other activities that traditionally pose greater challenges in industrial environments due to their size and complexity. | 翻訳日:2022-12-21 22:17:03 公開日:2020-03-20 |
# リアルタイム位置マージン価格予測:ganに基づくビデオ予測手法 Predicting Real-Time Locational Marginal Prices: A GAN-Based Video Prediction Approach ( http://arxiv.org/abs/2003.09527v1 ) ライセンス: Link先を確認 | Zhongxia Zhang, Meng Wu | (参考訳) 本稿では,rtlmps(real-time locational marginal prices)予測のための教師なしデータ駆動手法を提案する。
提案手法は,システム全体にわたるヘテロジニアスな市場データストリームを市場データ画像やビデオのフォーマットに整理する汎用データ構造に基づいて構築される。
この一般的なデータ構造を利用して、システム全体のRTLMP予測問題をビデオ予測問題として定式化する。
生成逆数ネットワーク(GAN)に基づく映像予測モデルを提案し, 過去のRTLMP間の時空間相関を学習し, 今後1時間にわたってシステム全体のRTLMPを予測する。
予測精度を向上させるために自己回帰移動平均(ARMA)キャリブレーション法を採用する。
提案手法は,システムトポロジやモデルパラメータ,マーケット操作の詳細などの機密情報を必要とせずに,公開市場データを入力として利用する。
ISO New England (ISO-NE) とSouthwest Power Pool (SPP) の公開市場データを用いたケーススタディにより,提案手法はRTLMP間の時空間相関を学習し,正確なRTLMP予測を行うことができることを示した。 In this paper, we propose an unsupervised data-driven approach to predict real-time locational marginal prices (RTLMPs). The proposed approach is built upon a general data structure for organizing system-wide heterogeneous market data streams into the format of market data images and videos. Leveraging this general data structure, the system-wide RTLMP prediction problem is formulated as a video prediction problem. A video prediction model based on generative adversarial networks (GAN) is proposed to learn the spatio-temporal correlations among historical RTLMPs and predict system-wide RTLMPs for the next hour. An autoregressive moving average (ARMA) calibration method is adopted to improve the prediction accuracy. The proposed RTLMP prediction method takes public market data as inputs, without requiring any confidential information on system topology, model parameters, or market operating details. Case studies using public market data from ISO New England (ISO-NE) and Southwest Power Pool (SPP) demonstrate that the proposed method is able to learn spatio-temporal correlations among RTLMPs and perform accurate RTLMP prediction. | 翻訳日:2022-12-21 22:16:44 公開日:2020-03-20 |
# QC-SPHRAM:半等角球高調波に基づく海馬表面の幾何歪みによるアルツハイマー病の早期発見 QC-SPHRAM: Quasi-conformal Spherical Harmonics Based Geometric Distortions on Hippocampal Surfaces for Early Detection of the Alzheimer's Disease ( http://arxiv.org/abs/2003.10229v1 ) ライセンス: Link先を確認 | Anthony Hei-Long Chan, Yishan Luo, Lin Shi, Ronald Lok-Ming Lui | (参考訳) アルツハイマー病(AD)の早期発見のために,QC-SPHARMと呼ばれる疾患分類モデルを提案する。
提案するqc-spharmは、正常コントロール(nc)患者とad患者を区別し、adに進行する可能性の高い健在性軽度認知障害(amci)患者とそうでない患者を区別することができる。
球面調和(SPHARM)に基づく登録を用いて、ADNIデータから区切られた海馬表面を、SPHARMを用いてNC被験者から構築されたテンプレート表面に個別に登録する。
テンプレート面から各被写体への変形の局所的な幾何学的歪みは、整合歪みと曲率歪みの観点から定量化される。
測定は、球面調和係数とテンプレートから被検体の総体積変化とを組み合わせて行う。
その後、バッキング戦略を組み込んだtテストに基づく特徴選択方法を適用し、これら2つのクラスの識別力の高い局所領域を抽出する。
したがって、この診断装置は、SVM(Support Vector Machine)設定でデータを用いて構築することができる。
adniデータベースから110名のnc被験者と110名のad患者を用いて,80名のランダムサンプルによる85:2%の検査精度を試験対象とし,分類装置に表面形状を組み込んだ。
2年間ADに進歩した20人のaMCI患者と、続く2年間ADに留まらない20人のaMCI患者を用いて、このアルゴリズムは、10人のランダムに選択された被験者をテストデータとして81:2%の精度で達成する。
提案手法は表面形状を組み込まない他の分類モデルよりも6%~15%優れている。
その結果, 局所幾何歪みを早期ad診断の判定基準として用いることの利点が示された。 We propose a disease classification model, called the QC-SPHARM, for the early detection of the Alzheimer's Disease (AD). The proposed QC-SPHARM can distinguish between normal control (NC) subjects and AD patients, as well as between amnestic mild cognitive impairment (aMCI) patients having high possibility progressing into AD and those who do not. Using the spherical harmonics (SPHARM) based registration, hippocampal surfaces segmented from the ADNI data are individually registered to a template surface constructed from the NC subjects using SPHARM. Local geometric distortions of the deformation from the template surface to each subject are quantified in terms of conformality distortions and curvatures distortions. The measurements are combined with the spherical harmonics coefficients and the total volume change of the subject from the template. Afterwards, a t-test based feature selection method incorporating the bagging strategy is applied to extract those local regions having high discriminating power of the two classes. The disease diagnosis machine can therefore be built using the data under the Support Vector Machine (SVM) setting. Using 110 NC subjects and 110 AD patients from the ADNI database, the proposed algorithm achieves 85:2% testing accuracy on 80 random samples as testing subjects, with the incorporation of surface geometry in the classification machine. Using 20 aMCI patients who has advanced to AD during a two-year period and another 20 aMCI patients who remain non-AD for the next two years, the algorithm achieves 81:2% accuracy using 10 randomly picked subjects as testing data. Our proposed method is 6%-15% better than other classification models without the incorporation of surface geometry. The results demonstrate the advantages of using local geometric distortions as the discriminating criterion for early AD diagnosis. | 翻訳日:2022-12-21 22:16:23 公開日:2020-03-20 |
# BusTime: 私のバス到着時刻の正しい予測モデルは何ですか? BusTime: Which is the Right Prediction Model for My Bus Arrival Time? ( http://arxiv.org/abs/2003.10373v1 ) ライセンス: Link先を確認 | Dairui Liu, Jingxiang Sun, Shen Wang | (参考訳) 近年,ビッグデータ技術の普及に伴い,バス到着時刻の予測など多くのスマートトランスポートアプリケーションが急速に開発されている。
この種のアプリケーションは、バスの停留所で予期せぬ待ち時間を無駄にすることなく、乗客がより効率的に旅行を計画するのに役立つ。
多くの研究は、様々な機械学習と統計モデルの予測精度の向上に重点を置いているが、実際の都市環境でのデプロイと利用の適用性を示す研究は少ない。
本稿では,バス到着時間の予測モデル(遅延,k-nearest-neighbour,カーネル回帰,加算モデル,リカレントニューラルネットワーク)を分析するための汎用的かつ実用的な評価フレームワークを提案することで,このギャップを埋めようとしている。
特に、このフレームワークは、十分な予測結果を維持しながら、入力データポイントの数をはるかに少なくする生のバスgpsデータ前処理方法を含んでいる。
この前処理方式により,KD木を用いた最寄り点探索法を用いて,バス停のみの到着時刻を予測できる。
この枠組みに基づき、アイルランドのダブリン市と異なるスケールで生バスGPSデータセットを用いて、トレーニングおよび一般的な予測モデルの予測段階における実践的強みと弱点を分析することで、市マネジャーに予備的な結果を提示する。 With the rise of big data technologies, many smart transportation applications have been rapidly developed in recent years including bus arrival time predictions. This type of applications help passengers to plan trips more efficiently without wasting unpredictable amount of waiting time at bus stops. Many studies focus on improving the prediction accuracy of various machine learning and statistical models, while much less work demonstrate their applicability of being deployed and used in realistic urban settings. This paper tries to fill this gap by proposing a general and practical evaluation framework for analysing various widely used prediction models (i.e. delay, k-nearest-neighbour, kernel regression, additive model, and recurrent neural network using long short term memory) for bus arrival time. In particular, this framework contains a raw bus GPS data pre-processing method that needs much less number of input data points while still maintain satisfactory prediction results. This pre-processing method enables various models to predict arrival time at bus stops only, by using a KD-tree based nearest point search method. Based on this framework, using raw bus GPS dataset in different scales from the city of Dublin, Ireland, we also present preliminary results for city managers by analysing the practical strengths and weaknesses in both training and predicting stages of commonly used prediction models. | 翻訳日:2022-12-21 22:15:50 公開日:2020-03-20 |
# カテゴリー共変量付き二元分類問題に適用したブール関数の確率論的学習 Probabilistic learning of boolean functions applied to the binary classification problem with categorical covariates ( http://arxiv.org/abs/2003.09454v1 ) ライセンス: Link先を確認 | Paulo Hubert | (参考訳) 本研究では、ベルヌーイデータ上の分割を推定する観点から二項分類の問題を提起する。
説明変数がすべて分類的であれば、ブール関数の言語を用いて問題をモデル化することができる。
本稿では,この問題の確率論的解析を行い,バイナリデータからブール関数を学習するための2つのアルゴリズムを提案する。 In this work we cast the problem of binary classification in terms of estimating a partition on Bernoulli data. When the explanatory variables are all categorical, the problem can be modelled using the language of boolean functions. We offer a probabilistic analysis of the problem, and propose two algorithms for learning boolean functions from binary data. | 翻訳日:2022-12-21 22:08:50 公開日:2020-03-20 |
# 軽量メタラーニング Weighted Meta-Learning ( http://arxiv.org/abs/2003.09465v1 ) ライセンス: Link先を確認 | Diana Cai, Rishit Sheth, Lester Mackey, Nicolo Fusi | (参考訳) メタラーニングは関連するソースタスクを活用して、ラベル付きのサンプルでターゲットタスクにすばやく微調整できる初期化を学ぶ。
しかし、モデルに依存しないメタラーニング(MAML)のような多くの一般的なメタラーニングアルゴリズムは、微調整のためにターゲットサンプルへのアクセスのみを前提としている。
本研究は,対象のサンプルに依存する重み付けを行うため,異なるソースタスクの損失を重み付けしたメタラーニングのための一般的なフレームワークを提供する。
この一般的な設定では、積分確率メートル法(IPM)とラデマッハ複雑性の観点から、ソースタスクの重み付けされた経験的リスクと期待される目標リスクの距離について上限を与え、MAMLや重み付けされたMAMLを含む多くのメタ学習設定に適用する。
次に、重み付きMAMLアルゴリズムである$\alpha$-MAMLを含む経験的IPMに対する誤差の最小化に基づく学習アルゴリズムを開発する。
最後に、重み付きメタ学習アルゴリズムがMAMLのような一様重み付きメタ学習アルゴリズムよりも優れた初期化を見つけることができるいくつかの回帰問題を実証的に示す。 Meta-learning leverages related source tasks to learn an initialization that can be quickly fine-tuned to a target task with limited labeled examples. However, many popular meta-learning algorithms, such as model-agnostic meta-learning (MAML), only assume access to the target samples for fine-tuning. In this work, we provide a general framework for meta-learning based on weighting the loss of different source tasks, where the weights are allowed to depend on the target samples. In this general setting, we provide upper bounds on the distance of the weighted empirical risk of the source tasks and expected target risk in terms of an integral probability metric (IPM) and Rademacher complexity, which apply to a number of meta-learning settings including MAML and a weighted MAML variant. We then develop a learning algorithm based on minimizing the error bound with respect to an empirical IPM, including a weighted MAML algorithm, $\alpha$-MAML. Finally, we demonstrate empirically on several regression problems that our weighted meta-learning algorithm is able to find better initializations than uniformly-weighted meta-learning algorithms, such as MAML. | 翻訳日:2022-12-21 22:08:46 公開日:2020-03-20 |
# ニューラルネットワークのオンライントレーニングのためのイベントベース制御 Event-Based Control for Online Training of Neural Networks ( http://arxiv.org/abs/2003.09503v1 ) ライセンス: Link先を確認 | Zilong Zhao, Sophie Cerf, Bogdan Robu, Nicolas Marchand | (参考訳) 畳み込みニューラルネットワーク(CNN)は画像分類タスクの最もよく使われる手法となっている。
そのトレーニングの間、学習速度と勾配はモデルの収束速度に影響を与える2つの重要な要因である。
通常の学習率戦略は時間ベースの単調な崩壊である。
最近の最先端技術は適応勾配アルゴリズム、すなわちAdamとそのバージョンに焦点を当てている。
本稿では,オンライン学習シナリオを考察し,古典的アルゴリズムe(指数)/pd(確率微分)制御の学習速度を調整する2つのイベントベース制御ループを提案する。
最初のイベントベースの制御ループは、モデルが最適に近づいているときの学習率の急落を防ぐために実装される。
第2のイベントベースの制御ループは、学習速度に基づいて、次のデータバッチに切り替えるタイミングを決定する。
実験評価は2つの最先端機械学習画像データセット(CIFAR-10とCIFAR-100)を用いて行われる。
その結果、イベントベースのe/pdは元のアルゴリズムよりも優れており(最終精度が高く、最終損失値が低い)、ダブルイベントベースのe/pdはトレーニングプロセスを加速し、最先端のアルゴリズムと比較して最大67%のトレーニング時間を節約できる。 Convolutional Neural Network (CNN) has become the most used method for image classification tasks. During its training the learning rate and the gradient are two key factors to tune for influencing the convergence speed of the model. Usual learning rate strategies are time-based i.e. monotonous decay over time. Recent state-of-the-art techniques focus on adaptive gradient algorithms i.e. Adam and its versions. In this paper we consider an online learning scenario and we propose two Event-Based control loops to adjust the learning rate of a classical algorithm E (Exponential)/PD (Proportional Derivative)-Control. The first Event-Based control loop will be implemented to prevent sudden drop of the learning rate when the model is approaching the optimum. The second Event-Based control loop will decide, based on the learning speed, when to switch to the next data batch. Experimental evaluationis provided using two state-of-the-art machine learning image datasets (CIFAR-10 and CIFAR-100). Results show the Event-Based E/PD is better than the original algorithm (higher final accuracy, lower final loss value), and the Double-Event-BasedE/PD can accelerate the training process, save up to 67% training time compared to state-of-the-art algorithms and even result in better performance. | 翻訳日:2022-12-21 22:08:26 公開日:2020-03-20 |
# 幾何制約による少数ショット学習 Few-Shot Learning with Geometric Constraints ( http://arxiv.org/abs/2003.09151v1 ) ライセンス: Link先を確認 | Hong-Gyu Jung and Seong-Whan Lee | (参考訳) 本稿では,分類における少数ショット学習の問題について考察する。
トレーニング例が多数あるベースカテゴリ向けにトレーニングされたネットワークを想定し,トレーニング例を1~5つに限定して,新たなカテゴリを追加することを目標としている。
これは難しいシナリオです なぜなら
1) 基礎と新規のカテゴリーの両方において高い性能が要求される。
2) ネットワークをいくつかのトレーニング例でトレーニングすることで, 基本カテゴリによく訓練された特徴空間を汚染することができる。
これらの課題に対処するために,ネットワークを微調整する2つの幾何学的制約を提案する。
第1の制約により、新規なカテゴリの特徴がカテゴリの重みの近くに集まり、第2の制約は、基本カテゴリの重みから遠く離れた新しいカテゴリの重みを維持できる。
提案した制約を適用して,基本カテゴリで学習した特徴空間を保存しながら,新しいカテゴリの識別的特徴を抽出する。
ImageNetのサブセットである数ショット学習のための公開データセットを用いて,提案手法が一般的な手法よりも大きなマージンで優れていることを示す。 In this article, we consider the problem of few-shot learning for classification. We assume a network trained for base categories with a large number of training examples, and we aim to add novel categories to it that have only a few, e.g., one or five, training examples. This is a challenging scenario because: 1) high performance is required in both the base and novel categories; and 2) training the network for the new categories with a few training examples can contaminate the feature space trained well for the base categories. To address these challenges, we propose two geometric constraints to fine-tune the network with a few training examples. The first constraint enables features of the novel categories to cluster near the category weights, and the second maintains the weights of the novel categories far from the weights of the base categories. By applying the proposed constraints, we extract discriminative features for the novel categories while preserving the feature space learned for the base categories. Using public data sets for few-shot learning that are subsets of ImageNet, we demonstrate that the proposed method outperforms prevalent methods by a large margin. | 翻訳日:2022-12-21 22:07:33 公開日:2020-03-20 |
# 相互情報を用いた命令型モデルの逐次ベイズ実験設計 Sequential Bayesian Experimental Design for Implicit Models via Mutual Information ( http://arxiv.org/abs/2003.09379v1 ) ライセンス: Link先を確認 | Steven Kleinegesse, Christopher Drovandi, Michael U. Gutmann | (参考訳) ベイズ実験設計(Bayesian experimental design, BED)は、統計モデルと不確実性に基づく意思決定を用いて、科学実験のコストと性能を最適化するフレームワークである。
静的なBEDとは対照的に、Sequential BEDは実験で収集されたデータを通じてモデルパラメータに関する信念を逐次更新できるシナリオを考察する。
自然科学や医学に特に興味を持つモデルのクラスは暗黙のモデルであり、データ生成分布は難解であるが、それからのサンプリングは可能である。
過去数年間、暗黙的モデルに対する静的BEDに関する多くの作業があったが、暗黙的モデルに対するシーケンシャルBEDの非常に難しい問題は、ほとんど触れられていない。
モデルパラメータとシミュレートされたデータ間の相互情報(MI)を実用関数として用いたパラメータ推定のための新しい逐次設計フレームワークを考案し,これまで暗黙的モデルでは行われていなかった最適な実験設計を見つけることで,このギャップを解消する。
本手法では,後方分布とmiを同時に推定するために,比推定による確率自由推定を用いる。
シーケンシャルなBED手順では、ベイズ最適化を利用してMIユーティリティの最適化を支援します。
私たちのフレームワークはテストされたさまざまな暗黙のモデルに対して効率的であり、ほんの数回のイテレーションで正確なパラメータの見積もりが得られます。 Bayesian experimental design (BED) is a framework that uses statistical models and decision making under uncertainty to optimise the cost and performance of a scientific experiment. Sequential BED, as opposed to static BED, considers the scenario where we can sequentially update our beliefs about the model parameters through data gathered in the experiment. A class of models of particular interest for the natural and medical sciences are implicit models, where the data generating distribution is intractable, but sampling from it is possible. Even though there has been a lot of work on static BED for implicit models in the past few years, the notoriously difficult problem of sequential BED for implicit models has barely been touched upon. We address this gap in the literature by devising a novel sequential design framework for parameter estimation that uses the Mutual Information (MI) between model parameters and simulated data as a utility function to find optimal experimental designs, which has not been done before for implicit models. Our approach uses likelihood-free inference by ratio estimation to simultaneously estimate posterior distributions and the MI. During the sequential BED procedure we utilise Bayesian optimisation to help us optimise the MI utility. We find that our framework is efficient for the various implicit models tested, yielding accurate parameter estimates after only a few iterations. | 翻訳日:2022-12-21 22:06:23 公開日:2020-03-20 |
# マイニングアソシエーションルールのための進化的多目的最適化フレームワーク Evolutionary Multi-Objective Optimization Framework for Mining Association Rules ( http://arxiv.org/abs/2003.09158v1 ) ライセンス: Link先を確認 | Shaik Tanveer Ul Huq and Vadlamani Ravi | (参考訳) 本稿では、トランザクションデータセットから関連ルールを見つけるために、2種類の多目的最適化フレームワーク(NSGA-III-ARM-V1、NSGA-III-ARM-V2、MOEAD-ARM-V1、MOEAD-ARM-V2)を提案する。
第1のフレームワークは非支配的ソート遺伝アルゴリズムIII(NSGA-III)を使用し、第2のフレームワークは分解に基づく多目的進化アルゴリズム(MOEA/D)を使用して、多種多様な非依存的かつ非支配的(高い目的関数値を持つ)な関連ルールを見つける。
どちらのフレームワークも、最小限のサポートと最小限の信頼性を指定する必要はない。
第1の変種では、サポート、信頼度、リフトは客観的関数、第2の変種では信頼度、リフト、関心度は客観的関数と見なされる。
これらのフレームワークは、2つの実生活の銀行データセットを含む7種類のデータセットでテストされる。
我々の研究は、NSGA-III-ARMフレームワークがMOEAD-ARMフレームワークより優れていることを示唆している。 In this paper, two multi-objective optimization frameworks in two variants (i.e., NSGA-III-ARM-V1, NSGA-III-ARM-V2; and MOEAD-ARM-V1, MOEAD-ARM-V2) are proposed to find association rules from transactional datasets. The first framework uses Non-dominated sorting genetic algorithm III (NSGA-III) and the second uses Decomposition based multi-objective evolutionary algorithm (MOEA/D) to find the association rules which are diverse, non-redundant and non-dominated (having high objective function values). In both these frameworks, there is no need to specify minimum support and minimum confidence. In the first variant, support, confidence, and lift are considered as objective functions while in second, confidence, lift, and interestingness are considered as objective functions. These frameworks are tested on seven different kinds of datasets including two real-life bank datasets. Our study suggests that NSGA-III-ARM framework works better than MOEAD-ARM framework in both the variants across majority of the datasets. | 翻訳日:2022-12-21 21:59:38 公開日:2020-03-20 |
# MLB核融合を用いた並列インテントとスロット予測 Parallel Intent and Slot Prediction using MLB Fusion ( http://arxiv.org/abs/2003.09211v1 ) ライセンス: Link先を確認 | Anmol Bhasin, Bharatram Natarajan, Gaurav Mathur and Himanshu Mangla | (参考訳) Intent と Slot Identification は Spoken Language Understanding (SLU) において重要な2つのタスクである。
自然言語発話では、これらの2つのタスクの間に高い相関関係がある。
いずれも、Recurrent-Neural-Networks(RNN)、Convolution Neural Networks(CNN)、Attentionベースのモデルを使用して、多くの作業が行われている。
過去の作業の多くはインテントとスロット予測のために2つの別々のモデルを使用していた。
それらの中には、発話レベルインテントの評価後にスロットが予測されるシーケンス・トゥ・シーケンス型モデルを用いたものもある。
本研究では,各タスクに別々の双方向Gated Recurrent Unit (GRU) を用いる並列Intent and Slot Prediction手法を提案する。
本稿では,MLB(Multimodal Low-rank Bilinear Attention Network)融合を用いた意図学習とスロット学習の性能向上を提案する。
我々の知る限りでは、このような手法をテキストベースの問題に応用する最初の試みである。
また,提案手法は,2つのベンチマークデータセット上での意図とスロット予測において,既存の最先端結果よりも優れていた。 Intent and Slot Identification are two important tasks in Spoken Language Understanding (SLU). For a natural language utterance, there is a high correlation between these two tasks. A lot of work has been done on each of these using Recurrent-Neural-Networks (RNN), Convolution Neural Networks (CNN) and Attention based models. Most of the past work used two separate models for intent and slot prediction. Some of them also used sequence-to-sequence type models where slots are predicted after evaluating the utterance-level intent. In this work, we propose a parallel Intent and Slot Prediction technique where separate Bidirectional Gated Recurrent Units (GRU) are used for each task. We posit the usage of MLB (Multimodal Low-rank Bilinear Attention Network) fusion for improvement in performance of intent and slot learning. To the best of our knowledge, this is the first attempt of using such a technique on text based problems. Also, our proposed methods outperform the existing state-of-the-art results for both intent and slot prediction on two benchmark datasets | 翻訳日:2022-12-21 21:58:42 公開日:2020-03-20 |
# 逆例とより深い誘導リドル--深層学習における人工物理論の必要性 Adversarial Examples and the Deeper Riddle of Induction: The Need for a Theory of Artifacts in Deep Learning ( http://arxiv.org/abs/2003.11917v1 ) ライセンス: Link先を確認 | Cameron Buckner | (参考訳) ディープラーニングは現在、人工知能において最も広く成功している技術である。
科学的発見のフロンティアを現在の限界を超えて押し上げることを約束している。
しかし、深層ニューラルネットワークがブラックボックスであることに懐疑的な人々は懸念しており、人間が理解できなければ、これらの進歩が科学的進歩と見なせるかどうかを疑問視している。
関連して、これらのシステムは新たな脆弱性も抱えている。
本稿では、敵対的な事例が哲学や多様な科学における議論のフラッシュポイントとなると論じる。
特に、敵対的な事例に関する新たな知見は、これらの事例に対するネットワークの判断がトレーニングセットの慣用的ノイズの過度な適合に起因するというコンセンサス見解に異議を唱え、その代わりに、人間が知覚できない予測可能な「データ幾何学の本質的な特徴」を検出する結果である可能性がある(Ilyas et al., 2019)。
これらの結果は、哲学と科学の交点における最も深いパズルの1つ、ネルソン・グッドマンの「新しい謎」に対する反応を再検討させることになる。
具体的には、多くの科学の進歩が、人間が見当たらないような有用な特徴の検出と操作に依存する可能性を高める。
レンズフレアやギブス現象のような深層学習のためのアーティファクトは、同様に予測に有用であるが、科学的な理論化の障害と見なされる。
このように,機械学習研究者は,深層ニューラルネットワークのためのアーティファクトの理論を緊急に開発する必要がある。 Deep learning is currently the most widespread and successful technology in artificial intelligence. It promises to push the frontier of scientific discovery beyond current limits. However, skeptics have worried that deep neural networks are black boxes, and have called into question whether these advances can really be deemed scientific progress if humans cannot understand them. Relatedly, these systems also possess bewildering new vulnerabilities: most notably a susceptibility to "adversarial examples". In this paper, I argue that adversarial examples will become a flashpoint of debate in philosophy and diverse sciences. Specifically, new findings concerning adversarial examples have challenged the consensus view that the networks' verdicts on these cases are caused by overfitting idiosyncratic noise in the training set, and may instead be the result of detecting predictively useful "intrinsic features of the data geometry" that humans cannot perceive (Ilyas et al., 2019). These results should cause us to re-examine responses to one of the deepest puzzles at the intersection of philosophy and science: Nelson Goodman's "new riddle" of induction. Specifically, they raise the possibility that progress in a number of sciences will depend upon the detection and manipulation of useful features that humans find inscrutable. Before we can evaluate this possibility, however, we must decide which (if any) of these inscrutable features are real but available only to "alien" perception and cognition, and which are distinctive artifacts of deep learning-for artifacts like lens flares or Gibbs phenomena can be similarly useful for prediction, but are usually seen as obstacles to scientific theorizing. Thus, machine learning researchers urgently need to develop a theory of artifacts for deep neural networks, and I conclude by sketching some initial directions for this area of research. | 翻訳日:2022-12-21 21:58:28 公開日:2020-03-20 |
# 複雑な時間記述子を用いた不規則サンプリング時系列学習の改善 Improving Irregularly Sampled Time Series Learning with Dense Descriptors of Time ( http://arxiv.org/abs/2003.09291v1 ) ライセンス: Link先を確認 | Rafael T. Sousa, Lucas A. Pereira, Anderson S. Soares | (参考訳) 不規則なサンプル時系列による教師付き学習は、不規則な時間間隔を扱う障害のため、機械学習手法の課題となっている。
最近、不規則性を扱うリカレントニューラルネットワークモデルを導入した論文もあるが、そのほとんどはパフォーマンス向上のために複雑なメカニズムに依存している。
本研究は、時間埋め込みと呼ばれる正弦波関数を用いて、タイムスタンプ(時間または日付)を密閉ベクトルとして表現する新しい手法を提案する。
データ入力方法として、ほとんどの機械学習モデルに適用できる。
本手法は, 電子健康記録の異常なサンプルデータであるMIMIC IIIの2つの予測タスクを用いて評価した。
LSTMベースおよび古典的機械学習モデル,特に不規則なデータに対して,本試験は改善した。 Supervised learning with irregularly sampled time series have been a challenge to Machine Learning methods due to the obstacle of dealing with irregular time intervals. Some papers introduced recently recurrent neural network models that deals with irregularity, but most of them rely on complex mechanisms to achieve a better performance. This work propose a novel method to represent timestamps (hours or dates) as dense vectors using sinusoidal functions, called Time Embeddings. As a data input method it and can be applied to most machine learning models. The method was evaluated with two predictive tasks from MIMIC III, a dataset of irregularly sampled time series of electronic health records. Our tests showed an improvement to LSTM-based and classical machine learning models, specially with very irregular data. | 翻訳日:2022-12-21 21:57:27 公開日:2020-03-20 |
# トポロジー法による単一ニューロンおよびトレーサー注入の検出と骨格化 Detection and skeletonization of single neurons and tracer injections using topological methods ( http://arxiv.org/abs/2004.02755v1 ) ライセンス: Link先を確認 | Dingkang Wang, Lucas Magee, Bing-Xing Huo, Samik Banerjee, Xu Li, Jaikishan Jayakumar, Meng Kuan Lin, Keerthi Ram, Suyi Wang, Yusu Wang, Partha P. Mitra | (参考訳) 神経科学的データ分析は伝統的に線形代数と確率過程理論に依存している。
しかし、ニューロンのツリー状形状はベクトル空間の点として簡単には説明できない(2つのニューロン形状の減算は意味のある操作ではない)。
本稿では,脳体積画像データから個々のニューロンの樹幹を抽出し,トレーサ注入により標識されたニューロンの集合を要約する離散モース(dm)理論の手法を紹介する。
個々のニューロンはトポロジカルツリーであるため、従来の「接続行列」アプローチよりも豊かな情報要約を提供するコンセンサスツリー形状を用いて神経細胞の集合を要約することは賢明である。
概念的にエレガントなDMアプローチは手動パラメータを欠き、本質的に局所的な従来のアプローチとは対照的にデータのグローバルな特性を捉えている。
緩やかなラベル付きニューロンの個々の骨格化では、最先端の非トポロジー法(精度が10%以上向上し、より高速な証明読解法)よりもかなりの性能向上が得られる。
トレーサインジェクションのコンセンサスツリー要約は、局所接続マトリックス情報を取り込んでいるが、さらに、インジェクションサイトに接続されたニューロンの集合の協調分岐パターンを捉え、単一ニューロン形態とトレーサインジェクションデータとの橋渡しを提供する。 Neuroscientific data analysis has traditionally relied on linear algebra and stochastic process theory. However, the tree-like shapes of neurons cannot be described easily as points in a vector space (the subtraction of two neuronal shapes is not a meaningful operation), and methods from computational topology are better suited to their analysis. Here we introduce methods from Discrete Morse (DM) Theory to extract the tree-skeletons of individual neurons from volumetric brain image data, and to summarize collections of neurons labelled by tracer injections. Since individual neurons are topologically trees, it is sensible to summarize the collection of neurons using a consensus tree-shape that provides a richer information summary than the traditional regional 'connectivity matrix' approach. The conceptually elegant DM approach lacks hand-tuned parameters and captures global properties of the data as opposed to previous approaches which are inherently local. For individual skeletonization of sparsely labelled neurons we obtain substantial performance gains over state-of-the-art non-topological methods (over 10% improvements in precision and faster proofreading). The consensus-tree summary of tracer injections incorporates the regional connectivity matrix information, but in addition captures the collective collateral branching patterns of the set of neurons connected to the injection site, and provides a bridge between single-neuron morphology and tracer-injection data. | 翻訳日:2022-12-21 21:51:11 公開日:2020-03-20 |
# シーケンシャルなオンライン連続学習 Online Continual Learning on Sequences ( http://arxiv.org/abs/2003.09114v1 ) ライセンス: Link先を確認 | German I. Parisi and Vincenzo Lomonaco | (参考訳) オンライン連続学習(オンライン連続学習、英: Online Continuousal Learning、OCL)とは、トレーニングサンプルを再考することなく、連続したデータストリームから時間とともに学習できるシステムである。
単一のデータパスで継続的に学習することは、変化する環境で動作するエージェントやロボットにとって不可欠であり、非i.i.d.入力分布からますます複雑な表現を取得し、微調整し、転送する必要がある。
oclに対処する機械学習モデルは、新しい入力のストリームから学習するとき、隠れた表現が中断されたり、完全に上書きされたりする \textit{catastrophic forgetting} を緩和しなければならない。
本章では, シナプス正則化, 構造的可塑性, 経験的再生の利用(および組み合わせ)を通じて, OCLを逐次入力する最近のディープラーニングモデルを要約し, 議論する。
リプレイの異なる実装は、入力配列の再帰によってコネクショニストアーキテクチャにおける破滅的な忘れを軽減し、哺乳類の脳における海馬リプレイの機構を機能的に類似させることが提案されている。
経験を積んだアーキテクチャは、(オンライン)インクリメンタルな学習タスクを伴わずに、一般的にアーキテクチャを上回ります。 Online continual learning (OCL) refers to the ability of a system to learn over time from a continuous stream of data without having to revisit previously encountered training samples. Learning continually in a single data pass is crucial for agents and robots operating in changing environments and required to acquire, fine-tune, and transfer increasingly complex representations from non-i.i.d. input distributions. Machine learning models that address OCL must alleviate \textit{catastrophic forgetting} in which hidden representations are disrupted or completely overwritten when learning from streams of novel input. In this chapter, we summarize and discuss recent deep learning models that address OCL on sequential input through the use (and combination) of synaptic regularization, structural plasticity, and experience replay. Different implementations of replay have been proposed that alleviate catastrophic forgetting in connectionists architectures via the re-occurrence of (latent representations of) input sequences and that functionally resemble mechanisms of hippocampal replay in the mammalian brain. Empirical evidence shows that architectures endowed with experience replay typically outperform architectures without in (online) incremental learning tasks. | 翻訳日:2022-12-21 21:50:48 公開日:2020-03-20 |
# RLにおける一般化のための深集合 Deep Sets for Generalization in RL ( http://arxiv.org/abs/2003.09443v1 ) ライセンス: Link先を確認 | Tristan Karch, C\'edric Colas, Laetitia Teodorescu, Cl\'ement Moulin-Frier and Pierre-Yves Oudeyer | (参考訳) 本稿では、言語誘導強化学習エージェントの報酬関数とポリシーアーキテクチャの設計におけるオブジェクト指向表現の符号化について検討する。
これは、ディープセットとゲートアテンション機構からインスパイアされた、オブジェクト毎の置換不変量ネットワークの組み合わせを用いて行われる。
自然言語で目標を目標とするエージェントがオブジェクトをナビゲートし、相互作用する2次元の手続き的生成の世界において、これらのアーキテクチャは分散目標に対して強い一般化能力を示す。
我々は、テスト時に異なるオブジェクト数への一般化を研究し、オブジェクト中心のアーキテクチャを関係推論を含む目標にさらに拡張する。 This paper investigates the idea of encoding object-centered representations in the design of the reward function and policy architectures of a language-guided reinforcement learning agent. This is done using a combination of object-wise permutation invariant networks inspired from Deep Sets and gated-attention mechanisms. In a 2D procedurally-generated world where agents targeting goals in natural language navigate and interact with objects, we show that these architectures demonstrate strong generalization capacities to out-of-distribution goals. We study the generalization to varying numbers of objects at test time and further extend the object-centered architectures to goals involving relational reasoning. | 翻訳日:2022-12-21 21:49:29 公開日:2020-03-20 |
# 楕円体部分空間支援ベクトルデータ記述 Ellipsoidal Subspace Support Vector Data Description ( http://arxiv.org/abs/2003.09504v1 ) ライセンス: Link先を確認 | Fahad Sohrab, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj | (参考訳) 本稿では,一級分類に最適化された低次元空間へのデータ変換手法を提案する。
提案手法は,対象クラスデータの楕円型カプセル化に最適化された新しいサブスペースにデータを反復的に変換する。
提案手法に対して線形および非線形の定式化を提供する。
この方法は部分空間内のデータの共分散を考慮しており、超球面に対する部分空間サポートベクトルデータ記述と比較してより一般化された解が得られる。
射影空間におけるクラス分散を表現する異なる正規化項を提案する。
従来の分類法や最近提案された一級分類法と比較し,多くのケースでより良い結果を得た。
提案手法は,最近提案したサブスペースサポートベクトルデータ記述よりもはるかに高速に収束する。 In this paper, we propose a novel method for transforming data into a low-dimensional space optimized for one-class classification. The proposed method iteratively transforms data into a new subspace optimized for ellipsoidal encapsulation of target class data. We provide both linear and non-linear formulations for the proposed method. The method takes into account the covariance of the data in the subspace; hence, it yields a more generalized solution as compared to Subspace Support Vector Data Description for a hypersphere. We propose different regularization terms expressing the class variance in the projected space. We compare the results with classic and recently proposed one-class classification methods and achieve better results in the majority of cases. The proposed method is also noticed to converge much faster than recently proposed Subspace Support Vector Data Description. | 翻訳日:2022-12-21 21:49:19 公開日:2020-03-20 |
# 教師なし潜在空間翻訳ネットワーク Unsupervised Latent Space Translation Network ( http://arxiv.org/abs/2003.09149v1 ) ライセンス: Link先を確認 | Magda Friedjungov\'a, Daniel Va\v{s}ata, Tom\'a\v{s} Chobola, Marcel Ji\v{r}ina | (参考訳) コンピュータビジョンでしばしば議論されるタスクの1つは、ある領域から別の領域の対応する画像への画像変換と呼ばれるマッピングである。
現在、この課題を解決するいくつかのアプローチがある。
本稿では、その主な欠点を取り除くのに役立つUNITフレームワークの強化について述べる。
より具体的には、VAEの代わりに使用される潜時表現に、両領域の潜時空間分布を類似に強制する追加の逆微分器を導入する。
MNISTとUSPSドメイン適応タスクでは、このアプローチは競合するアプローチよりも大幅に優れている。 One task that is often discussed in a computer vision is the mapping of an image from one domain to a corresponding image in another domain known as image-to-image translation. Currently there are several approaches solving this task. In this paper, we present an enhancement of the UNIT framework that aids in removing its main drawbacks. More specifically, we introduce an additional adversarial discriminator on the latent representation used instead of VAE, which enforces the latent space distributions of both domains to be similar. On MNIST and USPS domain adaptation tasks, this approach greatly outperforms competing approaches. | 翻訳日:2022-12-21 21:48:48 公開日:2020-03-20 |
# U-Det:肺結節分割のための双方向特徴ネットワークを用いたU-Netアーキテクチャ U-Det: A Modified U-Net architecture with bidirectional feature network for lung nodule segmentation ( http://arxiv.org/abs/2003.09293v1 ) ライセンス: Link先を確認 | Nikhil Varma Keetha, Samson Anosh Babu P, Chandra Sekhara Rao Annavarapu | (参考訳) 肺癌の早期診断と解析にはct画像における高精度かつ効率的な肺結節分画が関与している。
しかし,CT像における結節の匿名形状,視覚的特徴,周囲は,肺結節の堅牢な分節化に困難を呈する。
本稿では,資源効率のよいモデルアーキテクチャであるU-Detを提案する。
エンコーダとデコーダの間にBi-FPN(双方向機能ネットワーク)が組み込まれている。
さらに、Mishアクティベーション機能とマスクのクラスウェイトを使用してセグメンテーション効率を向上させる。
提案モデルは,1186個の肺結節からなるLUNA-16データセットを用いて,広範囲に訓練および評価を行った。
U-Detアーキテクチャは既存のU-Netモデルを82.82%のDice類似度係数(DSC)で上回り、人間の専門家に匹敵する結果が得られる。 Early diagnosis and analysis of lung cancer involve a precise and efficient lung nodule segmentation in computed tomography (CT) images. However, the anonymous shapes, visual features, and surroundings of the nodule in the CT image pose a challenging problem to the robust segmentation of the lung nodules. This article proposes U-Det, a resource-efficient model architecture, which is an end to end deep learning approach to solve the task at hand. It incorporates a Bi-FPN (bidirectional feature network) between the encoder and decoder. Furthermore, it uses Mish activation function and class weights of masks to enhance segmentation efficiency. The proposed model is extensively trained and evaluated on the publicly available LUNA-16 dataset consisting of 1186 lung nodules. The U-Det architecture outperforms the existing U-Net model with the Dice similarity coefficient (DSC) of 82.82% and achieves results comparable to human experts. | 翻訳日:2022-12-21 21:48:39 公開日:2020-03-20 |
# 機械学習によるCT画像を用いたコロナウイルス(COVID-19)の分類 Coronavirus (COVID-19) Classification using CT Images by Machine Learning Methods ( http://arxiv.org/abs/2003.09424v1 ) ライセンス: Link先を確認 | Mucahid Barstugan, Umut Ozkaya, Saban Ozturk | (参考訳) 本研究では,世界保健機関(WHO)が機械学習手法を用いてコロナウイルス(COVID-19)の早期検出を行った。
腹部CT(CT)画像で検出した。
CT画像から、新型コロナウイルスが他のウイルス性肺炎と異なる行動を示すことが検出された。
したがって、臨床専門家はCOVを規定する。
ID-19ウイルスは早期に診断する必要がある。
新型コロナウイルスの検出には、150個のct画像から16x16,32x32,48x48,64x64のパッチを採取し、4つの異なるデータセットを作成した。
特徴抽出処理をパッチに適用して分類性能を向上させた。
Grey Level Co-occurrence Matrix (GLCM), Local Directional Pattern (LDP), Grey Level Run Length Matrix (GLRLM), Grey-Level Size Zone Matrix (GLSZM), Discrete Wavelet Transform (DWT)アルゴリズムを特徴抽出法として用いた。
Support Vector Machines (SVM) は抽出した特徴を分類した。
2倍, 5倍, 10倍のクロスバリデーション処理を行った。
分類性能の評価には感度,特異性,精度,精度,Fスコアの測定値が用いられた。
最適分類精度は99.68%で10倍のクロスバリデーションとGLSZM特徴抽出法が得られた。 This study presents early phase detection of Coronavirus (COVID-19), which is named by World Health Organization (WHO), by machine learning methods. The detection process was implemented on abdominal Computed Tomography (CT) images. The expert radiologists detected from CT images that COVID-19 shows different behaviours from other viral pneumonia. Therefore, the clinical experts specify that COV\.ID-19 virus needs to be diagnosed in early phase. For detection of the COVID-19, four different datasets were formed by taking patches sized as 16x16, 32x32, 48x48, 64x64 from 150 CT images. The feature extraction process was applied to patches to increase the classification performance. Grey Level Co-occurrence Matrix (GLCM), Local Directional Pattern (LDP), Grey Level Run Length Matrix (GLRLM), Grey-Level Size Zone Matrix (GLSZM), and Discrete Wavelet Transform (DWT) algorithms were used as feature extraction methods. Support Vector Machines (SVM) classified the extracted features. 2-fold, 5-fold and 10-fold cross-validations were implemented during the classification process. Sensitivity, specificity, accuracy, precision, and F-score metrics were used to evaluate the classification performance. The best classification accuracy was obtained as 99.68% with 10-fold cross-validation and GLSZM feature extraction method. | 翻訳日:2022-12-21 21:48:24 公開日:2020-03-20 |