このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210121となっている論文です。

PDF登録状況(公開日: 20210121)

TitleAuthorsAbstract論文公表日・翻訳日
# 素粒子物理学におけるゲージ理論の量子および古典シミュレーションのための資源効率のよいアプローチ

A resource efficient approach for quantum and classical simulations of gauge theories in particle physics ( http://arxiv.org/abs/2006.14160v3 )

ライセンス: Link先を確認
Jan F. Haase, Luca Dellantonio, Alessio Celi, Danny Paulson, Angus Kan, Karl Jansen, Christine A. Muschik(参考訳) ゲージ理論は素粒子物理学の標準モデルを確立し、マルコフ連鎖モンテカルロ法(mcmc)を用いた格子ゲージ理論(lgt)の計算は基礎相互作用の理解において重要である。 mcmc技術の現在の限界は、古典的または量子的なデバイス上でのハミルトンに基づくシミュレーションによって克服され、これにより、現在のアプローチの能力を超えた問題にさらに対処できる可能性がある。 しかし、連続ゲージ群に対しては、ハミルトンに基づく定式化は、トランケーションによってのみ扱うことができる無限次元ゲージ自由度を含む。 現在のトランケーション方式では、磁場効果が重要となる素結合の小さな値において、計算資源を劇的に増加させる必要がある。 このような制限は有限資源を扱うときに「連続限界を取る」ことを妨げる。 この制限を克服するために、ハミルトニアン定式化において連続ゲージ群を持つLGTをシミュレートする資源効率のよいプロトコルを提供する。 提案手法はベアカップリングと格子間隔の任意の値での計算を可能にする。 このアプローチはヒルベルト空間の切り離しとゲージ群の正規化の組み合わせから成り、磁気的に支配された状態の効率的な記述を可能にする。 ここでは、アベリアゲージ理論に注目し、LGTの連続極限を達成するためのこの効率的なフレームワークを示すためのベンチマーク例として、2+1$の量子電磁力学を用いる。 この可能性は場理論のレベルで定量的な予測を行うための重要な要件であり、量子モンテカルロに先行する領域において物理的に有意義な量を計算するために量子シミュレーションを利用する長期的な展望を提供する。

Gauge theories establish the standard model of particle physics, and lattice gauge theory (LGT) calculations employing Markov Chain Monte Carlo (MCMC) methods have been pivotal in our understanding of fundamental interactions. The present limitations of MCMC techniques may be overcome by Hamiltonian-based simulations on classical or quantum devices, which further provide the potential to address questions that lay beyond the capabilities of the current approaches. However, for continuous gauge groups, Hamiltonian-based formulations involve infinite-dimensional gauge degrees of freedom that can solely be handled by truncation. Current truncation schemes require dramatically increasing computational resources at small values of the bare couplings, where magnetic field effects become important. Such limitation precludes one from `taking the continuous limit' while working with finite resources. To overcome this limitation, we provide a resource-efficient protocol to simulate LGTs with continuous gauge groups in the Hamiltonian formulation. Our new method allows for calculations at arbitrary values of the bare coupling and lattice spacing. The approach consists of the combination of a Hilbert space truncation with a regularization of the gauge group, which permits an efficient description of the magnetically-dominated regime. We focus here on Abelian gauge theories and use $2+1$ dimensional quantum electrodynamics as a benchmark example to demonstrate this efficient framework to achieve the continuum limit in LGTs. This possibility is a key requirement to make quantitative predictions at the field theory level and offers the long-term perspective to utilise quantum simulations to compute physically meaningful quantities in regimes that are precluded to quantum Monte Carlo.
翻訳日:2023-05-12 20:14:46 公開日:2021-01-21
# 共鳴およびカオス支援トンネルによる超低温ボソニック原子のNOON状態

NOON states with ultracold bosonic atoms via resonance- and chaos-assisted tunneling ( http://arxiv.org/abs/2008.12156v2 )

ライセンス: Link先を確認
Guillaume Vanhaele and Peter Schlagheck(参考訳) 理論上は, n ~ 5 粒子のコヒーレント |n,0> + |0,n> 重ね合わせに対応する微視的原子ヌーン状態の生成を, 相互作用するボソニック原子の自己トラップ系における対称二重ウェルポテンシャル内の集合トンネルにより理論的に検討した。 振幅と周波数パラメータを適切に調整したダブルウェルの周期駆動により、集合的特徴を変化させることなく、トンネル化プロセスが大幅に向上することを示す。 トンネル時間の半分に相当するNOON重畳を生成するための時間スケールは、原子集団に対する非駆動二重井戸において禁止的に大きいため、劇的な削減が可能であり、このプロトコルによるNOON状態の実現は実験的に実現可能である。 共鳴およびカオス支援トンネルは、この文脈において重要なメカニズムである。 集合トンネル過程に対するそれらの影響の定量的半古典的評価により、これらのNOON状態をできるだけ早く生成するために、駆動パラメータの最適な選択を決定できる。

We theoretically investigate the generation of microscopic atomic NOON states, corresponding to the coherent |N,0> + |0,N> superposition with N ~ 5 particles, via collective tunneling of interacting ultracold bosonic atoms within a symmetric double-well potential in the self-trapping regime. We show that a periodic driving of the double well with suitably tuned amplitude and frequency parameters allows one to substantially boost this tunneling process without altering its collective character. The time scale to generate the NOON superposition, which corresponds to half the tunneling time and would be prohibitively large in the undriven double well for the considered atomic populations, can thereby be drastically reduced, which renders the realization of NOON states through this protocol experimentally feasible. Resonance- and chaos-assisted tunneling are identified as key mechanisms in this context. A quantitative semiclassical evaluation of their impact onto the collective tunneling process allows one to determine the optimal choice for the driving parameters in order to generate those NOON states as fast as possible.
翻訳日:2023-05-04 19:38:35 公開日:2021-01-21
# クビットスピン回転誤差抑制のための準古典的規則

Quasi-Classical Rules for Qubit Spin-Rotation Error Suppression ( http://arxiv.org/abs/2009.00456v3 )

ライセンス: Link先を確認
Qile David Su(参考訳) 量子計算における系統的エラーの原因は、量子ビットゲート演算を制御する古典的なフィールドである制御パルスの不完全さである。 スピン波動関数の量子力学的時間進化作用素の解析から, 複合パルスが特定の系統的誤差を緩和し, 誤差抑制型複合パルスの設計に魅力的な幾何学的解釈が開発された。 ここでは、これら同じパルス列が準古典的枠組み内で得られることを示す。 これは、準古典的定式化では再現できない方法で絡み合いを利用する誤り訂正手順が存在するかどうかという問題を引き起こす。

A frequently encountered source of systematic error in quantum computations is imperfections in the control pulses which are the classical fields that control qubit gate operations. From an analysis of the quantum mechanical time-evolution operator of the spin wavefunction, it has been demonstrated that composite pulses can mitigate certain systematic errors and an appealing geometric interpretation was developed for the design of error-suppressing composite pulses. Here we show that these same pulse sequences can be obtained within a quasi-classical framework. This raises the question of whether error-correction procedures exist that exploit entanglement in a manner that can not be reproduced in the quasi-classical formulation.
翻訳日:2023-05-04 19:18:06 公開日:2021-01-21
# 局所操作と古典的通信によるフェルミオン状態の曖昧な識別

Unambiguous discrimination of Fermionic states through local operations and classical communication ( http://arxiv.org/abs/2009.05657v2 )

ライセンス: Link先を確認
Matteo Lugli and Paolo Perinotti and Alessandro Tosini(参考訳) 本論文は局所的な操作と古典的コミュニケーション(LOCC)を通してフェルミオン状態の曖昧な識別を研究する。 あいまいな差別のタスクでは、エラーは許容されないが、決定的な結果が許される。 量子の場合とは対照的に、LOCCを通して2つのフェルミオン状態を、大域的な測定が許されるのと同じ成功確率で区別することは必ずしも不可能であることを示す。 さらに,2つのフェルミオンモードからなる補助的なシステムを用いて,最大に絡み合った状態で用意されたシステムの次元とは独立に,そのような制限を克服できることを証明した。

The paper studies unambiguous discrimination of Fermionic states through local operations and classical communication (LOCC). In the task of unambiguous discrimination, no error is tolerated but an inconclusive result is allowed. We show that contrary to the quantum case, it is not always possible to distinguish two Fermionic states through LOCC unambiguously with the same success probability as if global measurements were allowed. Furthermore, we prove that we can overcome such a limit through an ancillary system made of two Fermionic modes, independently of the dimension of the system, prepared in a maximally entangled state: in this case, LOCC protocols achieve the optimal success probability.
翻訳日:2023-05-02 22:21:06 公開日:2021-01-21
# 単一マルチパスセルを用いたFemtotesla直接磁気勾配計

Femtotesla direct magnetic gradiometer using a single multipass cell ( http://arxiv.org/abs/2009.13212v2 )

ライセンス: Link先を確認
V. G. Lucivero, W. Lee, N. Dural and M. V. Romalis(参考訳) 我々は,光ポンピングを用いた直接勾配計を,1つのマルチパスセル内の2つの$^{87}$Rb原子アンサンブルで記述した。 遠方偏光プローブレーザーは、高偏光アンサンブルから3.5半径を超える2つのコントリビューションの内在的減算により、ほぼゼロの常磁性ファラデー回転を行う。 本研究では, 直接グラディメータ信号の解析手法を開発し, グラディメータ感度を10.1$fT/cm$\sqrt{\mathrm{Hz}}$で測定する。 また,我々のマルチパス設計は,光学的深さの増大に加えて,スピンノイズの時間相関に対する原子拡散の影響が著しく減少し,理論的な推定値とよく一致していることを示す。

We describe a direct gradiometer using optical pumping with opposite circular polarization in two $^{87}$Rb atomic ensembles within a single multipass cell. A far-detuned probe laser undergoes a near-zero paramagnetic Faraday rotation due to the intrinsic subtraction of two contributions exceeding 3.5 rad from the highly-polarized ensembles. We develop analysis methods for the direct gradiometer signal and measure a gradiometer sensitivity of $10.1$ fT/cm$\sqrt{\mathrm{Hz}}$. We also demonstrate that our multipass design, in addition to increasing the optical depth, provides a fundamental advantage due to the significantly reduced effect of atomic diffusion on the spin noise time-correlation, in excellent agreement with theoretical estimate.
翻訳日:2023-04-30 18:49:29 公開日:2021-01-21
# 右派と左派が誤った情報に対する(非対称な)脆弱性を予測

Right and left, partisanship predicts (asymmetric) vulnerability to misinformation ( http://arxiv.org/abs/2010.01462v2 )

ライセンス: Link先を確認
Dimitar Nikolov, Alessandro Flammini, Filippo Menczer(参考訳) 我々は,twitter上でのニュース共有行動を研究することによって,パルティザンシップとエコーチェンバー,オンライン誤情報の脆弱性の関係を分析した。 その結果,オンライン誤情報共有は右派政党主義と強く相関していることが明らかとなったが,左派ユーザーの傾向は低かった。 ユーザのパルチザン意識とパルチザンエコーチャンバー内の位置との相関関係から,このような影響を総合的に検討する。 その影響を抑えるために回帰分析を行い、誤情報に対する脆弱性は左利きと右利きの双方の利害関係に最も強く影響されていることを示す。

We analyze the relationship between partisanship, echo chambers, and vulnerability to online misinformation by studying news sharing behavior on Twitter. While our results confirm prior findings that online misinformation sharing is strongly correlated with right-leaning partisanship, we also uncover a similar, though weaker trend among left-leaning users. Because of the correlation between a user's partisanship and their position within a partisan echo chamber, these types of influence are confounded. To disentangle their effects, we perform a regression analysis and find that vulnerability to misinformation is most strongly influenced by partisanship for both left- and right-leaning users.
翻訳日:2023-04-30 00:31:53 公開日:2021-01-21
# マイクロ波量子光学の簡単な紹介と単一ポート状態空間表現

An engineer's brief introduction to microwave quantum optics and a single-port state-space representation ( http://arxiv.org/abs/2011.06734v2 )

ライセンス: Link先を確認
Malida O. Hecht, Antonio J. Cobarrubia and Kyle M. Sundqvist(参考訳) 古典的マイクロ波回路理論は量子レベルでのいくつかの現象を表現できない。 マイクロ波ネットワークを扱う際の量子統計的効果を含めるには、量子入出力ネットワーク(QION)理論やSLH理論など、様々な理論的処理を用いることができる。 しかし、これらは古典的マイクロ波理論の再構成を必要とする。 これらの話題を電気技術者に理解させるため、マイクロ波工学の分野におけるマイクロ波量子光学の基盤を実証する。 例えば、伝送線路(V_0^+$)で進行波の位相をボソニック場演算子に直接近似する。 さらに、QIONを1ポート量子ネットワークのための状態空間表現と転送関数を含むように拡張する。 これは、電子レンジ法がオープン量子系にどのように適用できるかを明らかにするためのケーススタディである。 完全なSLH理論からも同じ結論が得られたが,本手法はQIONの第一原理から直接導いたものである。

Classical microwave circuit theory is incapable of representing some phenomena at the quantum level. To include quantum statistical effects when treating microwave networks, various theoretical treatments can be employed such as quantum input-output network (QION) theory and SLH theory. However, these require a reformulation of classical microwave theory. To make these topics comprehensible to an electrical engineer, we demonstrate some underpinnings of microwave quantum optics in terms of microwave engineering. For instance, we equate traveling-wave phasors in a transmission line ($V_0^+$) directly to bosonic field operators. Furthermore, we extend QION to include a state-space representation and a transfer function for a single port quantum network. This serves as a case study to highlight how microwave methodologies can be applied in open quantum systems. Although the same conclusion could be found from a full SLH theory treatment, our method was derived directly from first principles of QION.
翻訳日:2023-04-24 05:34:39 公開日:2021-01-21
# 量子加算器をインスパイアした量子ランダムウォークのゲート型回路設計

Gate-Based Circuit Designs For Quantum Adder Inspired Quantum Random Walks on Superconducting Qubits ( http://arxiv.org/abs/2012.10268v2 )

ライセンス: Link先を確認
Daniel Koch, Michael Samodurov, Andrew Projansky, Paul M. Alsing(参考訳) 量子ランダムウォーク(quantum random walk)は、その非古典的振る舞いによって過去数十年にわたって多くの注目を集めてきたが、量子コンピューティングにおいて有望なサブフィールドである。 これらのウォークの理論的枠組みと応用は、多くの大きな数学的進歩を経験し、実験的なデモが追いついている。 本研究では,量子加算器を用いたシフト演算子を用いたコイン量子ランダムウォークの実現可能性と,超伝導量子ビット専用量子回路設計について検討する。 歩行の長所や短所、特に回路の深さ、ゲート数、接続性要件、スケーラビリティに重点を置いています。 本研究では,この手法を1次元と2次元で明確に実証し,境界条件を実装するための新しい手法を提案する。 そして最後に、ibmのquantum volume 32 ‘toronto’チップで回路を動かすことで、これらのnisqデバイスが現在量子ウォークを処理できる範囲を示す、いくつかの忠実性結果を示します。

Quantum Random Walks, which have drawn much attention over the past few decades for their distinctly non-classical behavior, is a promising subfield within Quantum Computing. Theoretical framework and applications for these walks have seen many great mathematical advances, with experimental demonstrations now catching up. In this study, we examine the viability of implementing Coin Quantum Random Walks using a Quantum Adder based Shift Operator, with quantum circuit designs specifically for superconducting qubits. We focus on the strengths and weaknesses of these walks, particularly circuit depth, gate count, connectivity requirements, and scalability. We propose and analyze a novel approach to implementing boundary conditions for these walks, demonstrating the technique explicitly in one and two dimensions. And finally, we present several fidelity results from running our circuits on IBM's quantum volume 32 `Toronto' chip, showcasing the extent to which these NISQ devices can currently handle quantum walks.
翻訳日:2023-04-20 06:26:26 公開日:2021-01-21
# ディラックダイナミクスの時間再スケーリング--イオントラップとワイル半金属の短絡と断熱

Time-rescaling of Dirac dynamics: shortcuts to adiabaticity in ion traps and Weyl semimetals ( http://arxiv.org/abs/2012.11763v2 )

ライセンス: Link先を確認
Agniva Roychowdhury, Sebastian Deffner(参考訳) ごく最近になって、高速プロセスで断熱的なダイナミクスを達成する方法として、リスケーリング時間(rescaling time)が認識されるようになった。 他のショートカットに対する時間再スケーリングの利点は、ハミルトニアンの固有スペクトルや固有状態に依存しないことである。 しかし、時間再スケーリングは元の力学は断熱的であり、再スケールされた時間枠ではハミルトンは非自明な時間依存性を示す。 本研究では,ディラックダイナミクスに時間リスケーリングを適用する方法を示し,すべての時間依存性を,適切に選択されたユニタリ変換によって有効ポテンシャルに吸収できることを示す。 これはイオントラップとワイル点の断熱的生成という2つの実験的なシナリオで実証されている。

Only very recently, rescaling time has been recognized as a way to achieve adiabatic dynamics in fast processes. The advantage of time-rescaling over other shortcuts to adiabaticity is that it does not depend on the eigenspectrum and eigenstates of the Hamiltonian. However, time-rescaling requires that the original dynamics are adiabatic, and in the rescaled time frame the Hamiltonian exhibits non-trivial time-dependence. In this work, we show how time-rescaling can be applied to Dirac dynamics, and we show that all time-dependence can be absorbed into the effective potentials through a judiciously chosen unitary transformation. This is demonstrated for two experimentally relevant scenarios, namely for ion traps and adiabatic creation of Weyl points.
翻訳日:2023-04-19 22:22:19 公開日:2021-01-21
# 実験ノイズにより歪んだ射影計測による純状態の量子トモグラフィー

Quantum Tomography of Pure States with Projective Measurements Distorted by Experimental Noise ( http://arxiv.org/abs/2012.13402v2 )

ライセンス: Link先を確認
Artur Czerwinski(参考訳) 本論文は、光子計数に基づく投影計測から純状態推定の問題に取り組む。 量子トモグラフィーのための2つの一般的なフレーム - 1つはSIC-POVMの要素で構成され、もう1つは相互に偏りのない基底(MUB)からベクトルによって定義される。 両方のフレームは、入力キュービットのサンプルを不完全な測定値で再構成するために最小二乗法と組み合わせられる。 各フレームの精度は平均忠実度と純度で定量化される。 フレームの効率を比較検討し,検討した。 この方法は高次元の状態に一般化でき、複素ベクトル再構成の問題が発生する他の場に移すことができる。

The article undertakes the problem of pure state estimation from projective measurements based on photon counting. Two generic frames for qubit tomography are considered -- one composed of the elements of the SIC-POVM and the other defined by the vectors from the mutually unbiased bases (MUBs). Both frames are combined with the method of least squares in order to reconstruct a sample of input qubits with imperfect measurements. The accuracy of each frame is quantified by the average fidelity and purity. The efficiency of the frames is compared and discussed. The method can be generalized to higher-dimensional states and transferred to other fields where the problem of complex vectors reconstruction appears.
翻訳日:2023-04-19 11:43:17 公開日:2021-01-21
# 設計・予測パラダイム下での予備宇宙船構成の制約付き最適化

Constrained optimisation of preliminary spacecraft configurations under the design-for-demise paradigm ( http://arxiv.org/abs/2101.01558v2 )

ライセンス: Link先を確認
Mirko Trisolini and Hugh G. Lewis and Camilla Colombo(参考訳) ここ数年、デザイン・フォー・デミネーションの実施に対する関心は着実に高まっている。 現在打ち上げられ既に軌道上にある中型の衛星のほとんどは、0.0001の死亡リスク閾値を満たさない。 そのため、衛星メーカーやミッションオペレーターは、コストが高く、複雑さが増す制御された再突入によって処理を行う必要がある。 この追加のコストと複雑さは、宇宙船が死傷者リスク規則に直接準拠しているため取り除くことができる。 しかし、ほとんどの部品が枯渇するような宇宙船の構築は、宇宙ゴミの衝突に弱い設計に繋がる可能性があるため、ミッションの信頼性を損なうことになる。 実際、可逆性と生存可能性に関連する要件は一般に競合している。 この競合する性質を考えると、宇宙デブリの影響に耐性のある宇宙船を維持しながら、設計・廃止対策の実施を好むトレードオフ解が見つかる。 従来の研究で,多目的最適化フレームワークを開発した。 このフレームワークの目的は、ミッション設計の初期段階から宇宙船の分離性と生存可能性の競合性を考慮した予備設計ソリューションを見つけることである。 これにより、より統合的な設計が可能になる。 本研究は,制約を含む多目的最適化フレームワークの改善に焦点をあてる。 本稿では,タンク組立体の最適化と典型的な衛星構成の最適化という,制約付き最適化の2つの応用例を示す。

In the past few years, the interest towards the implementation of design-for-demise measures has increased steadily. Most mid-sized satellites currently launched and already in orbit fail to comply with the casualty risk threshold of 0.0001. Therefore, satellites manufacturers and mission operators need to perform a disposal through a controlled re-entry, which has a higher cost and increased complexity. Through the design-for-demise paradigm, this additional cost and complexity can be removed as the spacecraft is directly compliant with the casualty risk regulations. However, building a spacecraft such that most of its parts will demise may lead to designs that are more vulnerable to space debris impacts, thus compromising the reliability of the mission. In fact, the requirements connected to the demisability and the survivability are in general competing. Given this competing nature, trade-off solutions can be found, which favour the implementation of design-for-demise measures while still maintaining the spacecraft resilient to space debris impacts. A multi-objective optimisation framework has been developed by the authors in previous works. The framework's objective is to find preliminary design solutions considering the competing nature of the demisability and the survivability of a spacecraft since the early stages of the mission design. In this way, a more integrated design can be achieved. The present work focuses on the improvement of the multi-objective optimisation framework by including constraints. The paper shows the application of the constrained optimisation to two relevant examples: the optimisation of a tank assembly and the optimisation of a typical satellite configuration.
翻訳日:2023-04-19 03:58:19 公開日:2021-01-21
# MIT SafePaths Card (MiSaCa): 印刷コードによる紙ベースのワクチンカードの拡張

MIT SafePaths Card (MiSaCa): Augmenting Paper Based Vaccination Cards with Printed Codes ( http://arxiv.org/abs/2101.07931v2 )

ライセンス: Link先を確認
Joseph Bae, Rohan Sukumaran, Sheshank Shankar, Saurish Srivastava, Rohan Iyer, Aryan Mahindra, Qamil Mirza, Maurizio Arseni, Anshuman Sharma, Saras Agrawal, Orna Mukhopadhyay, Colin Kang, Priyanshi Katiyar, Apurv Shekhar, Sifat Hasan, Krishnendu Dasgupta, Darshan Gandhi, Sethuramen TV, Parth Patwa, Ishaan Singh, Abhishek Singh and Ramesh Raskar(参考訳) 本稿では,ワクチン配布のためのユーザ中心のカードベースのシステムについて述べる。 本システムでは, デジタル署名QRコードを用いて, フェーズドワクチン配布, ワクチン管理・記録管理, 免疫確認, 続報を行う。 さらに, 予防接種クリニック, 公衆衛生局, 予防接種検証団体が, カードベースのフレームワークを効果的に活用するための補完的スキャナーアプリシステムを提案する。 本システムでは,開発地域と開発地域の両方において,ワクチン配布のためのプライバシ保護と効率のよい枠組みを提供すると考えられる。

In this early draft, we describe a user-centric, card-based system for vaccine distribution. Our system makes use of digitally signed QR codes and their use for phased vaccine distribution, vaccine administration/record-keeping, immunization verification, and follow-up symptom reporting. Furthermore, we propose and describe a complementary scanner app system to be used by vaccination clinics, public health officials, and immunization verification parties to effectively utilize card-based framework. We believe that the proposed system provides a privacy-preserving and efficient framework for vaccine distribution in both developed and developing regions.
翻訳日:2023-04-14 11:32:56 公開日:2021-01-21
# デコヒーレンス下における量子重力誘起質量の絡み合い

Qudits for Witnessing Quantum Gravity Induced Entanglement of Masses Under Decoherence ( http://arxiv.org/abs/2101.08086v2 )

ライセンス: Link先を確認
Jules Tilly, Ryan J. Marshman, Anupam Mazumdar, Sougato Bose(参考訳) 最近、量子重力による質量の絡み合い(QGEM)と呼ばれる理論と実験的プロトコルが提案され、2つの位置の重ね合わせにそれぞれ2つのメソスコピック質量を用いて重力の量子的性質をテストする。 もしそれらの間の全ての非重力相互作用を取り除いた後、粒子が絡み合うと、重力ポテンシャルは量子メディエーター、すなわち仮想重力子によって誘導されると結論付けることができる。 そこで本研究では, 異なる測地線と空間的重ね合わせ状態の数を考慮し, 様々な実験的な集合を考察し, いずれがより早く絡み合いを生じさせるかを決定する。 重ね合わせの任意の2つの空間状態の間の最大距離$\Delta x$を与えられると、互いに平行な空間的重ね合わせに配置された2つのキュービットの集合は、現実的な実験パラメータが与えられた他のモデルよりも優れる。 さらに、十分に高いデコヒーレンス率を導入すると、多成分重ね合わせは2ビットのセットアップよりも優れる。 これはさらに実験シミュレーションで検証され、99.9$\%の信頼レベルでのデコヒーレンスを伴わずに並列量子ビットをセットアップした非絡み合い仮説を拒否するために$O(10^3)$測定が必要であることを示した。 デコヒーレンスを導入すると測定回数が増加する。 デコヒーレンスレートが0.125$~Hzに達すると、2量子系の絡み合いを目撃できないため、6次元のクイディットが要求される。 しかし、この場合、$o(10^6)$の測定が必要となる。 測定対象のオペレータをグループ化し、測定対象数(最大10倍)を減らすことができる。 しかし、これは実験的に実装することが難しいかもしれない。

Recently a theoretical and an experimental protocol known as quantum gravity induced entanglement of masses (QGEM) has been proposed to test the quantum nature of gravity using two mesoscopic masses each placed in a superposition of two locations. If, after eliminating all non-gravitational interactions between them, the particles become entangled, one can conclude that the gravitational potential is induced via a quantum mediator, i.e. a virtual graviton. In this paper, we examine a range of different experimental set-ups, considering different geometries and the number of spatially superposed states taken, in order to determine which would generate entanglement faster. We conclude that without decoherence, and given a maximum distance $\Delta x$ between any two spatial states of a superposition, a set of two qubits placed in spatial superposition parallel to one another will outperform all other models given realistic experimental parameters. Furthermore, when a sufficiently high decoherence rate is introduced, multi-component superpositions can outperform the two-qubit set-up. This is further verified with an experimental simulation, showing that $O(10^3)$ measurements are required to reject the no entanglement hypothesis with a parallel qubits set-up without decoherence at a 99.9$\%$ confidence level. The number of measurements increases when decoherence is introduced. When the decoherence rate reaches $0.125$~Hz, 6-dimensional qudits are required as the two-qubit system entanglement cannot be witnessed anymore. However, in this case, $O(10^6)$ measurements will be required. One can group the witness operators to measure in order to reduce the number of measurements (up to ten-fold). However, this may be challenging to implement experimentally.
翻訳日:2023-04-14 11:27:01 公開日:2021-01-21
# 依存入力モデルに対するデータ駆動スパース多項式カオス展開

Data-driven sparse polynomial chaos expansion for models with dependent inputs ( http://arxiv.org/abs/2101.07997v2 )

ライセンス: Link先を確認
Zhanlin Liu and Youngjun Choe(参考訳) ポリノミアルカオス展開(PCE)は、入力から出力の不確実性がどのように伝播するかを定量化するために、多くの実世界の工学アプリケーションで使われている。 独立した入力を持つモデルのためのPCEは、文献で広く研究されている。 近年,PCEを現実世界のアプリケーションに拡張するために,入力に依存するモデルに対して異なるアプローチが提案されている。 典型的なアプローチとしては、Gram-Schmidtアルゴリズムに基づくPCEの構築や、依存する入力を独立した入力に変換することが挙げられる。 しかし、2つのアプローチはそれぞれ、計算効率に関する制限と、入力分布に関する追加の仮定がある。 本稿では,依存入力を持つモデルに対して,スパースPCEを構築するためのデータ駆動型アプローチを提案する。 提案アルゴリズムは, 出力との相関に基づいて, 単項集合を用いて正規直交多項式を再帰的に構成する。 スパースPCEを構築するアルゴリズムは,必要最小限の観測回数を減らすだけでなく,数値安定性と計算効率を向上させる。 提案アルゴリズムを検証するために, 4つの数値例を実装した。

Polynomial chaos expansions (PCEs) have been used in many real-world engineering applications to quantify how the uncertainty of an output is propagated from inputs. PCEs for models with independent inputs have been extensively explored in the literature. Recently, different approaches have been proposed for models with dependent inputs to expand the use of PCEs to more real-world applications. Typical approaches include building PCEs based on the Gram-Schmidt algorithm or transforming the dependent inputs into independent inputs. However, the two approaches have their limitations regarding computational efficiency and additional assumptions about the input distributions, respectively. In this paper, we propose a data-driven approach to build sparse PCEs for models with dependent inputs. The proposed algorithm recursively constructs orthonormal polynomials using a set of monomials based on their correlations with the output. The proposed algorithm on building sparse PCEs not only reduces the number of minimally required observations but also improves the numerical stability and computational efficiency. Four numerical examples are implemented to validate the proposed algorithm.
翻訳日:2023-04-14 11:25:53 公開日:2021-01-21
# 量子光学応用のための広ダイナミックなシリコン光増倍器の爆発

Exploiting the wide dynamic range of Silicon photomultipliers for Quantum Optics applications ( http://arxiv.org/abs/2101.08530v1 )

ライセンス: Link先を確認
S. Cassina, A. Allevi, V. Mascagna, M. Prest, E. Vallazza and M. Bondani(参考訳) シリコン光増倍器は、数百の細胞を配した光子数分解検出器であり、高密度の量子光学状態を明らかにすることができる。 本稿では,採用可能な買収戦略を示し,そのメリットと限界について議論することで,このような目標に対処する。 特に、メソスコピック量子光学状態の古典的あるいは非古典的の性質を適切に明らかにするために、最良の取得解を決定する。

Silicon photomultipliers are photon-number-resolving detectors endowed with hundreds of cells enabling them to reveal high-populated quantum optical states. In this paper, we address such a goal by showing the possible acquisition strategies that can be adopted and discussing their advantages and limitations. In particular, we determine the best acquisition solution in order to properly reveal the nature, either classical or nonclassical, of mesoscopic quantum optical states.
翻訳日:2023-04-14 08:45:54 公開日:2021-01-21
# 世代間移動の動的モデルにおける機会配分

Allocating Opportunities in a Dynamic Model of Intergenerational Mobility ( http://arxiv.org/abs/2101.08451v1 )

ライセンス: Link先を確認
Hoda Heidari and Jon Kleinberg(参考訳) 高等教育のような機会は世代間移動を促進することができ、個人は両親よりも社会経済的地位を達成できる。 我々は,モビリティのボトルネックを呈する社会において,このような機会を割り当てる動的なモデルを開発し,最適な配分の問題は,次世代の機会が与える利益と,受取人の社会経済的地位を高める可能性とのトレードオフを反映したものである。 我々は, モデルにおける最適割り当てが, 複数世代にわたる連続最適化問題の解として生じることを示すとともに, これらの最適解は, 社会経済的地位の高いわずかに高い評価を受けた個人よりも, 社会経済的地位の低い受給者に有利であることを示す。 モデルの構造が一時的あるいは永続的な肯定的行動にどのようにつながるかを特徴付け、より複雑なプロセスでモデルの拡張を検討し、社会経済的地位の異なるレベル間の移動を調節する。

Opportunities such as higher education can promote intergenerational mobility, leading individuals to achieve levels of socioeconomic status above that of their parents. We develop a dynamic model for allocating such opportunities in a society that exhibits bottlenecks in mobility; the problem of optimal allocation reflects a trade-off between the benefits conferred by the opportunities in the current generation and the potential to elevate the socioeconomic status of recipients, shaping the composition of future generations in ways that can benefit further from the opportunities. We show how optimal allocations in our model arise as solutions to continuous optimization problems over multiple generations, and we find in general that these optimal solutions can favor recipients of low socioeconomic status over slightly higher-performing individuals of high socioeconomic status -- a form of socioeconomic affirmative action that the society in our model discovers in the pursuit of purely payoff-maximizing goals. We characterize how the structure of the model can lead to either temporary or persistent affirmative action, and we consider extensions of the model with more complex processes modulating the movement between different levels of socioeconomic status.
翻訳日:2023-04-14 08:44:59 公開日:2021-01-21
# 時空における量子相関:基礎と応用

Quantum Correlations in Space-Time: Foundations and Applications ( http://arxiv.org/abs/2101.08693v1 )

ライセンス: Link先を確認
Tian Zhang(参考訳) 宇宙と時間の性質に関する絶対的/相対的な議論は何千年も続いている。 本稿では,情報理論の観点から空間と時間を調査し,相対的な仮定の下での空間的および時間的相関を理解する。 2つの量の間の関係の尺度としての相関は、古典的確率理論では空間と時間とを区別しない;空間における量子相関はよく研究されているが、時間相関はよく理解されていない。 本論文は、時空間相関として等しく時空間相関を扱い、時空間相関を統一することにより、時空間相関を考察する。 特に、時空の量子状態が測定からの相関によって適切に定義される擬密度行列形式に従う。 まず、古典相関、空間と時間における量子相関を見直し、有限次元の擬密度行列形式化を動機付ける。 次に擬密度行列の定式化をガウスの場合、ウィグナー表現による一般連続変数、弱い測定のような一般的な測定過程に一般化する。 そして、擬密度行列形式と他の時空の定式化(不定因数構造、一貫した履歴、一般化された非局所ゲーム、時間外相関関数、経路積分)を比較する。 非相対論的量子力学では、異なる時空の定式化は、経路積分を除いて量子相関によって密接に関連していると論じる。 最後に、擬似密度行列定式化を時間結晶に適用する。 時間結晶を時間内の長距離秩序として定義することにより,連続および離散時間翻訳対称性を解析し,代数的観点から時間結晶の存在を考察する。 最後に、作業の要約と今後の方向性の展望を提供する。

The absolute/relative debate on the nature of space and time is ongoing for thousands of years. Here we attempt to investigate space and time from the information theoretic point of view to understand spatial and temporal correlations under the relative assumption. Correlations, as a measure of relationship between two quantities, do not distinguish space and time in classical probability theory; quantum correlations in space are well-studied but temporal correlations are not well understood. The thesis investigates quantum correlations in space-time, by treating temporal correlations equally in form as spatial correlations and unifying quantum correlations in space and time. In particular, we follow the pseudo-density matrix formalism in which quantum states in spacetime are properly defined by correlations from measurements. We first review classical correlations, quantum correlations in space and time, to motivate the pseudo-density matrix formalism in finite dimensions. Next we generalise the pseudo-density matrix formulation to the Gaussian case, general continuous variables via Wigner representations, and general measurement processes like weak measurements. Then we compare the pseudo-density matrix formalism with other spacetime formulations: indefinite causal structures, consistent histories, generalised non-local games, out-of-time-order correlation functions, and path integrals. We argue that in non-relativistic quantum mechanics, different spacetime formulations are closely related via quantum correlations, except path integrals. Finally, we apply the pseudo-density matrix formulation to time crystals. By defining time crystals as long-range order in time, we analyse continuous and discrete time translation symmetry as well as discuss the existence of time crystals from an algebraic point of view. Finally, we summarise our work and provide the outlook for future directions.
翻訳日:2023-04-14 08:39:13 公開日:2021-01-21
# 量子回帰定理を超えた2時間相関関数:外部雑音の影響

Two-time correlation functions beyond quantum regression theorem: Effect of external noise ( http://arxiv.org/abs/2101.08663v1 )

ライセンス: Link先を確認
Arzu Kurt(参考訳) 本研究では, 量子回帰定理を超越した補正を用いて, 熱浴と接触する2段駆動2段系の2時間相関関数について検討した。 強いシステム環境結合系では, 騒音パラメータを調整して, 低温下での補正の規模を制御できることが判明した。 2状態系の吸収スペクトルと放射スペクトルに対して, 外部雑音の運動平均化と狭め効果が観察された。 さらに, トンネル破壊や輸送騒音の増大に類似した効果が, 2時間相関のダイナミクスで観察された。

We present the results of a study of the two-time correlation functions of a dichotomously driven two-level system in contact with a thermal bath by using corrections beyond the quantum regression theorem. In the strong system-environment coupling regime, it is found that the noise parameters could be tuned to control the magnitude of corrections at low environmental temperatures. The motional averaging and narrowing effect of the external noise was observed on the absorption and emission spectra of the two-state system. Furthermore, effects similar to the destruction of tunneling and noise enhancement of transport are observed in the dynamics of the two-time correlations.
翻訳日:2023-04-14 08:38:46 公開日:2021-01-21
# 非エルミタン量子単一分子接合の一定温度での進化

Evolution of a Non-Hermitian Quantum Single-Molecule Junction at Constant Temperature ( http://arxiv.org/abs/2101.08636v1 )

ライセンス: Link先を確認
Andrea Grimaldi, Alessandro Sergi, and Antonino Messina(参考訳) 本研究は、熱揺らぎと確率損失を伴う分子接合の量子力学の理論的記述に関するもので、常温環境に埋め込まれた非エルミート量子系を記述するための理論を提案する。 A. Sergi et al, Symmetry 10 518 (2018)] で議論された線に沿って、作用素値の量子力学のウィグナー定式化(密度行列は系に関連するウィグナー位相空間の点に依存する)を採用し、運動の非線形方程式を導出する。 さらに,非エルミート量子単一分子接合(nHQSMJ)のモデルを導入する。 このモデルでは、鉛はトンネル状の2段階の系にマッピングされ、これは交互に調和モード(すなわち分子)に結合する。 2レベル系に作用する減衰作用素は現象論的に確率損失を記述する。 最後に、分子の温度はNos\'e-Hoover鎖のサーモスタットによって制御される。 異なる温度でのこの玩具モデルの量子力学に関する数値的研究を報告する。 確率損失と熱揺らぎの組み合わせは、分子接合を通過する量子輸送を補助する。 ここで提示される形式主義は、より量子状態(10)と多くの古典的なモードまたは原子粒子(10^3 - 10^5)の両方を扱うように拡張することができる。

This work concerns the theoretical description of the quantum dynamics of molecular junctions with thermal fluctuations and probability losses To this end, we propose a theory for describing non-Hermitian quantum systems embedded in constant-temperature environments. Along the lines discussed in [A. Sergi et al, Symmetry 10 518 (2018)], we adopt the operator-valued Wigner formulation of quantum mechanics (wherein the density matrix depends on the points of the Wigner phase space associated to the system) and derive a non-linear equation of motion. Moreover, we introduce a model for a non-Hermitian quantum single-molecule junction (nHQSMJ). In this model the leads are mapped to a tunneling two-level system, which is in turn coupled to a harmonic mode (i.e., the molecule). A decay operator acting on the two-level system describes phenomenologically probability losses. Finally, the temperature of the molecule is controlled by means of a Nos\'e-Hoover chain thermostat. A numerical study of the quantum dynamics of this toy model at different temperatures is reported. We find that the combined action of probability losses and thermal fluctuations assists quantum transport through the molecular junction. The possibility that the formalism here presented can be extended to treat both more quantum states (about 10) and many more classical modes or atomic particles (about 10^3 - 10^5) is highlighted.
翻訳日:2023-04-14 08:38:38 公開日:2021-01-21
# 格子上のホール絶縁体の絶対連続エッジスペクトル

Absolutely Continuous Edge Spectrum of Hall Insulators on the Lattice ( http://arxiv.org/abs/2101.08603v1 )

ライセンス: Link先を確認
Alex Bols and Albert H. Werner(参考訳) 量子ホール効果を理解するには、量子ホールサンプルの端にカイラルモードが存在することが不可欠である。 特に、これらのエッジモードは弾道輸送をサポートし、従って単一の粒子像において、単一粒子ハミルトニアンの絶対連続スペクトルで支持される。 このノートでは、2次元格子上の自由フェルミオン系がバルクに隙間があり、ホール伝導が存在しない場合、半空間幾何学上の同じ系は、スペクトルがバルクギャップ全体を満たすエッジモードをサポートし、絶対連続であることを示す。

The presence of chiral modes on the edges of quantum Hall samples is essential to our understanding of the quantum Hall effect. In particular, these edge modes should support ballistic transport and therefore, in a single particle picture, be supported in the absolutely continuous spectrum of the single-particle Hamiltonian. We show in this note that if a free fermion system on the two-dimensional lattice is gapped in the bulk, and has a nonvanishing Hall conductance, then the same system put on a half-space geometry supports edge modes whose spectrum fills the entire bulk gap and is absolutely continuous.
翻訳日:2023-04-14 08:37:51 公開日:2021-01-21
# オープン量子力学の機械学習時間局所生成器

Machine learning time-local generators of open quantum dynamics ( http://arxiv.org/abs/2101.08591v1 )

ライセンス: Link先を確認
Paolo P. Mazza, Dominik Zietlow, Federico Carollo, Sabine Andergassen, Georg Martius, Igor Lesanovsky(参考訳) 閉多体量子システムの研究において、自由度の部分集合の進化に興味を持つことが多い。 浴室やシステムに適切な分解を行うことで、問題にアプローチすることが可能であることが多い。 最も単純な場合では、システムの還元状態の進化は時間に依存しない量子マスター方程式、すなわちマルコフ生成器によって制御される。 このような進化は通常、システムと無限大の浴の間の弱いカップリングを仮定して現れる。 ここでは、ニューラルネットワーク関数近似器が、基礎となるユニタリダイナミクスから時間ローカルジェネレータによって記述されたオープン量子力学をどの程度予測できるかを理解することに興味がある。 本研究では,最近の実験結果に触発されたスピンモデルを用いて,この問題を考察する。 実際、時間ローカルなジェネレータが学べることに気付きます。 ある状況では、それらは時間に依存しず、未知の時間までダイナミクスを外挿することができる。 これは、実験や数値シミュレーションが長時間のダイナミクスを捉えない状況や、閉じた量子系で起こる熱化を探索するのに有用である。

In the study of closed many-body quantum systems one is often interested in the evolution of a subset of degrees of freedom. On many occasions it is possible to approach the problem by performing an appropriate decomposition into a bath and a system. In the simplest case the evolution of the reduced state of the system is governed by a quantum master equation with a time-independent, i.e. Markovian, generator. Such evolution is typically emerging under the assumption of a weak coupling between the system and an infinitely large bath. Here, we are interested in understanding to which extent a neural network function approximator can predict open quantum dynamics - described by time-local generators - from an underlying unitary dynamics. We investigate this question using a class of spin models, which is inspired by recent experimental setups. We find that indeed time-local generators can be learned. In certain situations they are even time-independent and allow to extrapolate the dynamics to unseen times. This might be useful for situations in which experiments or numerical simulations do not allow to capture long-time dynamics and for exploring thermalization occurring in closed quantum systems.
翻訳日:2023-04-14 08:37:39 公開日:2021-01-21
# 港湾におけるモノのインターネット: 英国における6つの重要なセキュリティとガバナンスの課題

The Internet of Things in Ports: Six Key Security and Governance Challenges for the UK (Policy Brief) ( http://arxiv.org/abs/2101.08812v1 )

ライセンス: Link先を確認
Feja Lesniewska, Uchenna D Ani, Jeremy M Watson, Madeline Carr(参考訳) 2019年1月、英国政府は将来の戦略について海事2050を発表した。 この戦略では、英国が海事部門でグローバルな指導的役割を果たすことを保証するという目標を達成するために、デジタル化の重要性を強調した。 イギリスの貿易運動の95%の入り口であるポートは、技術革新への投資の鍵となった。 政府は、共有データプラットフォームや人工知能アプリケーション(AI)といった他の情報共有技術とともに、モノのインターネット(IoT)の可能性を特定し、ポートエコシステム内のプロセスを同期させ、効率性、安全性、環境上の利益を向上する。

In January 2019, the UK Government published its Maritime 2050 on Navigating the Future strategy. In the strategy, the government highlighted the importance of digitalization (with well-designed regulatory support) to achieve its goal of ensuring that the UK plays a global leadership role in the maritime sector. Ports, the gateways for 95% of UK trade movements, were identified as key sites for investment in technological innovation. The government identified the potential of the Internet of Things (IoT), in conjunction with other information-sharing technologies, such as shared data platforms, and Artificial Intelligence applications (AI), to synchronize processes within the port ecosystem leading to improved efficiency, safety, and environmental benefits, including improved air quality and lower greenhouse gas emissions.
翻訳日:2023-04-14 08:29:36 公開日:2021-01-21
# 未定のグローバルタイム

Indefinite global time ( http://arxiv.org/abs/2101.08739v1 )

ライセンス: Link先を確認
Tom Holden-Dye, Sandu Popescu(参考訳) 物理系間の理論的に可能な相関関係の集合を時間的に遡ることなく研究することにより、系間の順序が根本的に不確定である場合にのみ達成できる相関関係を同定する。 これらの相関性は、もしそれらが自然界に存在するならば、非古典的、非決定論的時間から生じなければならず、従って、一定の大域的な時間が存在しない量子重力(あるいは量子後重力)に関連があるかもしれない。

By studying the set of correlations that are theoretically possible between physical systems without allowing for signalling of information backwards in time, we here identify correlations that can only be achieved if the time ordering between the systems is fundamentally indefinite. These correlations, if they exist in nature, must result from non-classical, non-deterministic time, and so may have relevance for quantum (or post-quantum) gravity, where a definite global time might not exist.
翻訳日:2023-04-14 08:28:05 公開日:2021-01-21
# 量子アルゴリズムに基づくレーダイメージングのためのスパース再構成

Sparse Reconstruction for Radar Imaging based on Quantum Algorithms ( http://arxiv.org/abs/2101.10125v1 )

ライセンス: Link先を確認
Xiaowen Liu, Chen Dong, Ying Luo, Le Kang, Yong Liu, Qun Zhang(参考訳) スパース駆動レーダイメージングは、ダウンサンプリングデータを用いてターゲットシーンの高解像度画像を得ることができる。 しかしながら、特定の状況に対する古典的スパース回復法の膨大な計算複雑性は、スパースイメージング技術の実用性に深刻な影響を及ぼす。 本稿では,レーダスパースイメージングのための画像復元に量子アルゴリズムを適用するのは,これが初めてである。 まず、レーダスパース撮像問題を解析し、量子アルゴリズムで解く計算問題を判定する。 次に、対応する量子回路とそのパラメータを極端に低い計算複雑性を保証するように設計し、スパースイメージングのための量子エンハンス再構成アルゴリズムを提案する。 最後に,提案手法の計算複雑性を分析し,本手法の有効性を検証するために生レーダデータを用いたシミュレーション実験を行った。

The sparse-driven radar imaging can obtain the high-resolution images about target scene with the down-sampled data. However, the huge computational complexity of the classical sparse recovery method for the particular situation seriously affects the practicality of the sparse imaging technology. In this paper, this is the first time the quantum algorithms are applied to the image recovery for the radar sparse imaging. Firstly, the radar sparse imaging problem is analyzed and the calculation problem to be solved by quantum algorithms is determined. Then, the corresponding quantum circuit and its parameters are designed to ensure extremely low computational complexity, and the quantum-enhanced reconstruction algorithm for sparse imaging is proposed. Finally, the computational complexity of the proposed method is analyzed, and the simulation experiments with the raw radar data are illustrated to verify the validity of the proposed method.
翻訳日:2023-04-14 08:20:42 公開日:2021-01-21
# 研究の炭素フットプリントを評価するオープンソースツール

An open-source tool to assess the carbon footprint of research ( http://arxiv.org/abs/2101.10124v1 )

ライセンス: Link先を確認
J\'er\^ome Mariette (MIAT INRA), Odile Blanchard (GAEL), Olivier Bern\'e (IRAP), Tamara Ben Ari (CIRED)(参考訳) 研究機関は温室効果ガス排出削減の取り組みにいくつかの理由から貢献しなければならない。 第一に、科学コミュニティの研究の一部は気候変動の問題を扱う。 第二に、科学者は生徒の教育に貢献する:それらは一貫性と役割モデルでなければならない。 第3に、研究者のカーボンフットプリントに関する文献は、個々のフットプリントの高レベルを指摘している。 一貫性と役割モデルを求めて、科学者、科学者、大学のチームがカーボンフットプリントの定量化と削減オプションに関する議論を始めた。 実際、研究活動の炭素フットプリントを測定するには、その特定の特徴に取り組むためのツールが必要である。 本稿では,フランスのいくつかの研究所の科学者チームが開発した,オープンソースのWebアプリケーション GES 1point5 について述べる。 GES 1point5は、フランスの研究活動の炭素フットプリントを推定するために特別に設計された。 これはフランスで研究が組織される社会構造であり、フランスの研究システムの中では最小の意思決定機関である。 この応用により、フランスの研究所は、標準化されたオープンプロトコルに沿って、カーボンフットプリントを計算できる。 急速に成長するラボのネットワークで収集されたデータは、フランスのカーボンフットプリントを推定するLabos 1point5プロジェクトの一部として使用される。 この原稿を提出したとき、89の研究所が温室効果ガス排出量を推定するためにGES 1point5に関わった。 GES 1point5(国内仕様に適合する)の国際的採用が、世界中のカーボンフットプリント研究の原動力のグローバルな理解と、その削減に寄与することを期待している。

Research institutions are bound to contribute to greenhouse gas emission (GHG) reduction efforts for several reasons. First, part of the scientific community's research deals with climate change issues. Second, scientists contribute to students' education: they must be consistent and role models. Third the literature on the carbon footprint of researchers points to the high level of some individual footprints. In a quest for consistency and role models, scientists, teams of scientists or universities have started to quantify their carbon footprints and debate on reduction options. Indeed, measuring the carbon footprint of research activities requires tools designed to tackle its specific features. In this paper, we present an open-source web application, GES 1point5, developed by an interdisciplinary team of scientists from several research labs in France. GES 1point5 is specifically designed to estimate the carbon footprint of research activities in France. It operates at the scale of research labs, i.e. laboratoires, which are the social structures around which research is organized in France and the smallest decision making entities in the French research system. The application allows French research labs to compute their own carbon footprint along a standardized, open protocol. The data collected in a rapidly growing network of labs will be used as part of the Labos 1point5 project to estimate France's research carbon footprint. At the time of submitting this manuscript, 89 research labs had engaged with GES 1point5 to estimate their greenhouse gas emissions. We expect that an international adoption of GES 1point5 (adapted to fit domestic specifics) could contribute to establishing a global understanding of the drivers of the research carbon footprint worldwide and the levers to decrease it.
翻訳日:2023-04-14 08:20:30 公開日:2021-01-21
# コールセンターの労働計画に関する実践的概要

A practice-oriented overview of call center workforce planning ( http://arxiv.org/abs/2101.10122v1 )

ライセンス: Link先を確認
Ger Koole and Siqao Li(参考訳) 本稿では,コールセンター労働者計画の実践と科学について概観し,その品質と理論を応用性で評価する。 そこで本論文は,労働管理の背景および先進的方法論に関心を持つ開発者やコンサルタントや,実践的な科学に関心を持つ研究者にとって有用である。

We give an overview of the practice and science of call center workforce planning, where we evaluate the commonly used methods by their quality and the theory by its applicability. As such this paper is useful for developers and consultants interested in the background and advanced methodology of workforce management, and for researchers interested in practically relevant science.
翻訳日:2023-04-14 08:20:04 公開日:2021-01-21
# パイロット波理論のハミルトン定式化

Hamiltonian Formulation of the Pilot-Wave Theory ( http://arxiv.org/abs/2101.10117v1 )

ライセンス: Link先を確認
Dan N. Vollick(参考訳) 量子力学のパイロット波理論では、粒子は定位と速度を持ち、システムは決定論的に進化する。 粒子の速度は系の波動関数(誘導方程式)によって決定され、シュロディンガーの方程式に従って波動関数が発展する。 本稿ではまず,シュロディンガー方程式と粒子の誘導方程式を与えるハミルトニアンを構築した。 次に、ディラック理論における相対論的粒子と量子スカラー場についてハミルトン粒子を見つける。

In the pilot-wave theory of quantum mechanics particles have definite positions and velocities and the system evolves deterministically. The velocity of a particle is determined by the wave function of the system (the guidance equation) and the wave function evolves according to Schrodinger's equation. In this paper I first construct a Hamiltonian that gives Schrodinger's equation and the guidance equation for the particle. I then find the Hamiltonian for a relativistic particle in Dirac's theory and for a quantum scalar field.
翻訳日:2023-04-14 08:19:42 公開日:2021-01-21
# ストロング量子ダーウィン主義と強い独立性はスペクトル放送構造と等価である」へのコメント

Comment on "Strong Quantum Darwinism and Strong Independence are Equivalent to Spectrum Broadcast Structure" ( http://arxiv.org/abs/2101.09186v1 )

ライセンス: Link先を確認
Alexandre Feller, Benjamin Roussel, Ir\'en\'ee Fr\'erot and Pascal Degiovanni(参考訳) 最近のレター[Phys. Rev. Lett. 122, 010403 (2019)]では、システムマルチ環境量子状態に対するいわゆるスペクトル放送構造と2つの情報理論の概念の結合の間に等価性が提案されている。 (a)強い量子ダーウィン主義、そして (b)強い独立。 ここでは条件の数学的定式化を示す。 (b)著者による(すなわち、システム上で条件付けられた環境の断片の対独立性は必要であるが、等価性を保証するには不十分である。 条件の強固な定式化とともに,簡単な反例を提案する。 (b)著者が提案した等価性を確保する。

In a recent Letter [Phys. Rev. Lett. 122, 010403 (2019)], an equivalence is proposed between the so-called Spectrum Broadcast Structure for a system-multienvironment quantum state, and the conjunction of two information-theory notions: (a) Strong Quantum Darwinism; and (b) Strong Independence. Here, we show that the mathematical formulation of condition (b) by the authors (namely, the pairwise independence of the fragments of the environment, conditioned on the system), is necessary but not sufficient to ensure the equivalence. We propose a simple counter-example, together with a strengthened formulation of condition (b), ensuring the equivalence proposed by the authors.
翻訳日:2023-04-14 08:19:33 公開日:2021-01-21
# 計算複雑量子回路における情報スクランブル

Information Scrambling in Computationally Complex Quantum Circuits ( http://arxiv.org/abs/2101.08870v1 )

ライセンス: Link先を確認
Xiao Mi, Pedram Roushan, Chris Quintana, Salvatore Mandra, Jeffrey Marshall, Charles Neill, Frank Arute, Kunal Arya, Juan Atalaya, Ryan Babbush, Joseph C. Bardin, Rami Barends, Andreas Bengtsson, Sergio Boixo, Alexandre Bourassa, Michael Broughton, Bob B. Buckley, David A. Buell, Brian Burkett, Nicholas Bushnell, Zijun Chen, Benjamin Chiaro, Roberto Collins, William Courtney, Sean Demura, Alan R. Derk, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Edward Farhi, Austin G. Fowler, Brooks Foxen, Craig Gidney, Marissa Giustina, Jonathan A. Gross, Matthew P. Harrigan, Sean D. Harrington, Jeremy Hilton, Alan Ho, Sabrina Hong, Trent Huang, William J. Huggins, L. B. Ioffe, Sergei V. Isakov, Evan Jeffrey, Zhang Jiang, Cody Jones, Dvir Kafri, Julian Kelly, Seon Kim, Alexei Kitaev, Paul V. Klimov, Alexander N. Korotkov, Fedor Kostritsa, David Landhuis, Pavel Laptev, Erik Lucero, Orion Martin, Jarrod R. McClean, Trevor McCourt, Matt McEwen, Anthony Megrant, Kevin C. Miao, Masoud Mohseni, Wojciech Mruczkiewicz, Josh Mutus, Ofer Naaman, Matthew Neeley, Michael Newman, Murphy Yuezhen Niu, Thomas E. O'Brien, Alex Opremcak, Eric Ostby, Balint Pato, Andre Petukhov, Nicholas Redd, Nicholas C. Rubin, Daniel Sank, Kevin J. Satzinger, Vladimir Shvarts, Doug Strain, Marco Szalay, Matthew D. Trevithick, Benjamin Villalonga, Theodore White, Z. Jamie Yao, Ping Yeh, Adam Zalcman, Hartmut Neven, Igor Aleiner, Kostyantyn Kechedzhi, Vadim Smelyanskiy, Yu Chen(参考訳) 量子系における相互作用は、初期局所化された量子情報をシステム全体の自由度に拡散することができる。 量子スクランブル(quantum scrambling)として知られるこの過程を理解することは、物理学における様々な共役を解く鍵となる。 そこで我々は,53量子ビットの量子プロセッサ上での量子スクランブルのダイナミクスを実験的に検証した。 量子スクランブルに関連する2つの機構、演算子のスプレッドとオペレータの絡み合いを区別する量子回路を設計し、それぞれのシグネチャを実験的に観察する。 演算子の拡散は効率的な古典モデルによって捉えられるが、演算子の絡み合いは指数関数的に拡大した計算資源を必要とする。 これらの結果は、短期量子プロセッサを用いた複雑で実用的な物理観測可能性の研究への道を開く。

Interaction in quantum systems can spread initially localized quantum information into the many degrees of freedom of the entire system. Understanding this process, known as quantum scrambling, is the key to resolving various conundrums in physics. Here, by measuring the time-dependent evolution and fluctuation of out-of-time-order correlators, we experimentally investigate the dynamics of quantum scrambling on a 53-qubit quantum processor. We engineer quantum circuits that distinguish the two mechanisms associated with quantum scrambling, operator spreading and operator entanglement, and experimentally observe their respective signatures. We show that while operator spreading is captured by an efficient classical model, operator entanglement requires exponentially scaled computational resources to simulate. These results open the path to studying complex and practically relevant physical observables with near-term quantum processors.
翻訳日:2023-04-14 08:19:18 公開日:2021-01-21
# 有機太陽電池におけるエキシトン移動 : ドナードメインにおける局所および非局所電子-フォノン相互作用の役割

Exciton Transfer in Organic Photovoltaic Cells: A Role of Local and Nonlocal Electron-Phonon Interactions in a Donor Domain ( http://arxiv.org/abs/2101.08869v1 )

ライセンス: Link先を確認
Mauro Cainelli and Yoshitaka Tanimura(参考訳) 有機太陽電池のドナードメインにおける励起子移動過程を理論的に検討し、局所的および非局所的な電子-フォノン相互作用の役割に焦点を当てた。 本モデルは,ブラウンスペクトル分布関数を特徴とする局所および非局所分子モードに対して,ホルシュタイン・ピエルス・ハミルトニアンによって記述された3レベル系からなる。 我々は、局所モードと非局所モードのスペクトル分布関数が存在する参照ドナー分子としてテトラセンを選んだ。 次に,電子-フォノン結合強度と温度の関数として,環境の影響下でのシステムのダイナミクスをシミュレートするために,緩和階層方程式(heom)を用いた。 分散密度行列要素を厳密に計算し,散逸局所モードおよび非局所モードの影響下でのダイナミクスの時間スケールを説明する。 その結果, 高温条件下での強い非局所電子-フォノン相互作用は, 励起子移動過程を好ましく, 有機太陽電池材料の効率を高める一方, 励起子の寿命は低周波局所モードにより短くなることがわかった。

We theoretically investigate an exciton transfer process in a donor domain of organic photovoltaic cells focusing on the roles of local and nonlocal electron-phonon interactions. Our model consists of a three-level system described by the Holstein-Peierls Hamiltonian coupled to multiple heat baths for local and nonlocal molecular modes characterized by Brownian spectral distribution functions. We chose tetracene as a reference donor molecule, where the spectral distribution functions of the local and nonlocal modes exist. We then employ the reduced hierarchy equations of motion (HEOM) approach to simulating the dynamics of the system under the influence of the environment as a function of the electron-phonon coupling strength and temperature. We rigorously calculate the reduced density matrix elements to explain the timescale of dynamics under the influence of the dissipative local and nonlocal modes. The results indicate that the strong nonlocal electron-phonon interaction under high temperature conditions favors the exciton transfer process and enhances the efficiency of organic photovoltaic materials, while the lifetime of the exciton becomes shorter due to a low frequency local mode.
翻訳日:2023-04-14 08:19:02 公開日:2021-01-21
# スピン伝達における動的磁化状態の影響

Effects of the dynamical magnetization state on spin transfer ( http://arxiv.org/abs/2101.08868v1 )

ライセンス: Link先を確認
Neil Tramsen, Alexander Mitrofanov, Sergei Urazhdin(参考訳) 量子スピンの連鎖による電子散乱のシミュレーションを利用して、スピン伝達効果と磁化ダイナミクスの相互作用を分析する。 スピン偏極電子と局所スピンの動的状態の間の複雑な相互作用は、電子の反射と透過を含む別々の過程と、磁化ダイナミクスの量子であるマグノンの吸収と放出に分解できることを示す。 解析により、これらの過程はエネルギーと運動量との相互作用則によって実質的に制限され、電子のエネルギーと局所スピンの動的状態に対するスピン移動のかなりの依存性が示されている。 この結果から, 伝導電子と磁気系のスペクトル特性を調整することにより, スピン伝達効率と結果の動的磁化状態の精密制御が可能であることが示唆された。

We utilize simulations of electron scattering by a chain of dynamical quantum spins, to analyze the interplay between the spin transfer effect and the magnetization dynamics. We show that the complex interactions between the spin-polarized electrons and the dynamical states of the local spins can be decomposed into separate processes involving electron reflection and transmission, as well as absorption and emission of magnons - the quanta of magnetization dynamics. Analysis shows that these processes are substantially constrained by the energy and momentum conversation laws, resulting in a significant dependence of spin transfer on the electron's energy and the dynamical state of the local spins. Our results suggest that exquisite control of spin transfer efficiency and of the resulting dynamical magnetization states may be achievable by tailoring the spectral characteristics of the conduction electrons and of the magnetic systems.
翻訳日:2023-04-14 08:18:44 公開日:2021-01-21
# Tm$^{3+}$ドープLiNbO$_{3}$導波路のケルビン下温度における光コヒーレンスとエネルギー準位特性

Optical coherence and energy-level properties of a Tm$^{3+}$-doped LiNbO$_{3}$ waveguide at sub-Kelvin temperatures ( http://arxiv.org/abs/2101.08863v1 )

ライセンス: Link先を確認
Neil Sinclair, Daniel Oblak, Erhan Saglamyurek, Rufus L. Cone, Charles W. Thiel, and Wolfgang Tittel(参考訳) 795 nm $^3$h$_6$ to $^3$h$_4$ tm$^{3+}$ in a ti$^{4+}$:linbo$_{3}$ 導波路の光コヒーレンスとエネルギー準位特性を特徴づける。 また, 磁場とレーザー励起パワーの異なる原子核スピン誘起超微細構造と集団ダイナミクスについても検討した。 Ti$^{4+}$とTm$^{3+}$-ドーピング濃度の違いによる説明可能な差を除いて、Tm$^{3+}$:Ti$^{4+}$:LiNbO$_{3}$の物性は、同じ条件下で測定されたバルクドープTm$^{3+}$:LiNbO$_{3}$の結晶と一致する。 これまでの研究をより狭いパラメータ空間で補完し,光学的および量子的な信号処理にレアアースイオンを用いた。

We characterize the optical coherence and energy-level properties of the 795 nm $^3$H$_6$ to $^3$H$_4$ transition of Tm$^{3+}$ in a Ti$^{4+}$:LiNbO$_{3}$ waveguide at temperatures as low as 0.65 K. Coherence properties are measured with varied temperature, magnetic field, optical excitation power and wavelength, and measurement time-scale. We also investigate nuclear spin-induced hyperfine structure and population dynamics with varying magnetic field and laser excitation power. Except for accountable differences due to difference Ti$^{4+}$ and Tm$^{3+}$-doping concentrations, we find that the properties of Tm$^{3+}$:Ti$^{4+}$:LiNbO$_{3}$ produced by indiffusion doping are consistent with those of a bulk-doped Tm$^{3+}$:LiNbO$_{3}$ crystal measured under similar conditions. Our results, which complement previous work in a narrower parameter space, support using rare-earth-ions for integrated optical and quantum signal processing.
翻訳日:2023-04-14 08:18:29 公開日:2021-01-21
# マルチブランチCNNによるソースターゲット曖昧化のコピー

Copy Move Source-Target Disambiguation through Multi-Branch CNNs ( http://arxiv.org/abs/1912.12640v2 )

ライセンス: Link先を確認
Mauro Barni, Quoc-Tin Phan, Benedetta Tondi(参考訳) そこで本研究では,コピー・ムーブ・フォージェリのソース領域とターゲット領域を同定し,適切な位置決めを可能にする手法を提案する。 まず,一般のコピー-ムーブ検出器によって検出された2つのほぼ重複領域間の領域を決定することが目的である仮説テストフレームワークに問題を投入した。 次に,複写領域における補間アーティファクトの存在と境界の不整合を明らかにすることのできる特徴の集合を学習することにより,仮説テスト問題を解決するマルチブランチcnnアーキテクチャを設計する。 提案したアーキテクチャは、この目的のために明示的に構築された合成データセットに基づいてトレーニングされ、合成データセットと現実データセットの両方からコピー・モーブ・フォージェリーの良好な結果が得られる。 提案手法は,最先端のコピー・モーブ検出アルゴリズムにより,コピー・モーブ局在マスクの近似バージョンが提供された実例においても,目標領域を確実に明らかにすることができる。

We propose a method to identify the source and target regions of a copy-move forgery so allow a correct localisation of the tampered area. First, we cast the problem into a hypothesis testing framework whose goal is to decide which region between the two nearly-duplicate regions detected by a generic copy-move detector is the original one. Then we design a multi-branch CNN architecture that solves the hypothesis testing problem by learning a set of features capable to reveal the presence of interpolation artefacts and boundary inconsistencies in the copy-moved area. The proposed architecture, trained on a synthetic dataset explicitly built for this purpose, achieves good results on copy-move forgeries from both synthetic and realistic datasets. Based on our tests, the proposed disambiguation method can reliably reveal the target region even in realistic cases where an approximate version of the copy-move localization mask is provided by a state-of-the-art copy-move detection algorithm.
翻訳日:2023-01-17 08:03:32 公開日:2021-01-21
# リンク予測のための知識グラフ埋め込み:比較分析

Knowledge Graph Embedding for Link Prediction: A Comparative Analysis ( http://arxiv.org/abs/2002.00819v4 )

ライセンス: Link先を確認
Andrea Rossi, Donatella Firmani, Antonio Matinata, Paolo Merialdo, Denilson Barbosa(参考訳) 知識グラフ (KGs) は、産業や学術的な環境における多くの応用を見つけており、様々な情報源から大規模な情報抽出に向けた研究の動機となっている。 このような努力にもかかわらず、最先端のkgsでさえも不完全さに苦しむことはよく知られている。 リンク予測(リンク予測、英: Link Prediction、LP)は、KGの不完全性に対処するための有望かつ広く研究されている課題である。 最近のLP技術の中で、KG埋め込みに基づくものは、いくつかのベンチマークで非常に有望なパフォーマンスを達成した。 急速に成長している文学にもかかわらず、これらの手法における様々なデザイン選択の効果には十分な注意が払われていない。 さらに、この領域の標準的な実践は、いくつかのエンティティが過剰に表現されている多数のテスト事実を集約して、精度を報告することであり、lpメソッドは、そのようなエンティティを含む構造的特性にのみ従うだけで、kgの残り多数を無視しながら、優れたパフォーマンスを示すことができる。 この分析は、埋め込みに基づくLP法を包括的に比較し、文献で一般的に見られるものを超えて解析の次元を拡張する。 16の最先端手法の有効性と効率を実験的に比較し,ルールベースラインを検討し,文献でもっとも人気のあるベンチマークについて詳細な分析を行った。

Knowledge Graphs (KGs) have found many applications in industry and academic settings, which in turn, have motivated considerable research efforts towards large-scale information extraction from a variety of sources. Despite such efforts, it is well known that even state-of-the-art KGs suffer from incompleteness. Link Prediction (LP), the task of predicting missing facts among entities already a KG, is a promising and widely studied task aimed at addressing KG incompleteness. Among the recent LP techniques, those based on KG embeddings have achieved very promising performances in some benchmarks. Despite the fast growing literature in the subject, insufficient attention has been paid to the effect of the various design choices in those methods. Moreover, the standard practice in this area is to report accuracy by aggregating over a large number of test facts in which some entities are over-represented; this allows LP methods to exhibit good performance by just attending to structural properties that include such entities, while ignoring the remaining majority of the KG. This analysis provides a comprehensive comparison of embedding-based LP methods, extending the dimensions of analysis beyond what is commonly available in the literature. We experimentally compare effectiveness and efficiency of 16 state-of-the-art methods, consider a rule-based baseline, and report detailed analysis over the most popular benchmarks in the literature.
翻訳日:2023-01-04 08:39:38 公開日:2021-01-21
# 生理的信号に対する自己教師あり転送学習による手術事象の予測

Forecasting adverse surgical events using self-supervised transfer learning for physiological signals ( http://arxiv.org/abs/2002.04770v2 )

ライセンス: Link先を確認
Hugh Chen, Scott Lundberg, Gabe Erion, Jerry H. Kim, Su-In Lee(参考訳) 毎年何百万もの外科手術が世界中で行われており、時系列の生理的信号を含む電子健康記録(EHR)データを生成する。 本稿では,時系列信号を予測機械学習モデルのための入力特徴に変換するトランスファー可能な埋め込み法であるphase (physiological signal embeddeds)を提案する。 我々は,2つの手術室(OR)データセットと集中治療室(ICU)データセットの5万件以上の手術群について,分単位でPHASEを評価した。 フェーズは、低酸素血症、低脳症、低血圧、高血圧、フェニルエフリン投与の5つの異なる結果を予測するために、生のデータと勾配で訓練された長期記憶ネットワークのような、最先端のアプローチよりも優れています。 1つのデータセットに埋め込みモデルを訓練し、信号を埋め込み、未知のデータに有害事象を予測する伝達学習環境において、PHASEは従来の手法に比べて計算コストの低い予測精度を著しく向上させる。 最後に, 臨床応用におけるモデル理解の重要性から, フェーズが説明可能であり, 局所的特徴帰属法を用いて予測モデルを検証することを実証する。

Hundreds of millions of surgical procedures take place annually across the world, which generate a prevalent type of electronic health record (EHR) data comprising time series physiological signals. Here, we present a transferable embedding method (i.e., a method to transform time series signals into input features for predictive machine learning models) named PHASE (PHysiologicAl Signal Embeddings) that enables us to more accurately forecast adverse surgical outcomes based on physiological signals. We evaluate PHASE on minute-by-minute EHR data of more than 50,000 surgeries from two operating room (OR) datasets and patient stays in an intensive care unit (ICU) dataset. PHASE outperforms other state-of-the-art approaches, such as long-short term memory networks trained on raw data and gradient boosted trees trained on handcrafted features, in predicting five distinct outcomes: hypoxemia, hypocapnia, hypotension, hypertension, and phenylephrine administration. In a transfer learning setting where we train embedding models in one dataset then embed signals and predict adverse events in unseen data, PHASE achieves significantly higher prediction accuracy at lower computational cost compared to conventional approaches. Finally, given the importance of understanding models in clinical applications we demonstrate that PHASE is explainable and validate our predictive models using local feature attribution methods.
翻訳日:2023-01-01 19:37:58 公開日:2021-01-21
# deepurl:水中相対位置推定のための深部ポーズ推定フレームワーク

DeepURL: Deep Pose Estimation Framework for Underwater Relative Localization ( http://arxiv.org/abs/2003.05523v4 )

ライセンス: Link先を確認
Bharat Joshi, Md Modasshir, Travis Manderson, Hunter Damron, Marios Xanthidis, Alberto Quattrini Li, Ioannis Rekleitis, Gregory Dudek(参考訳) 本稿では,自律型水中車両(AUV)の6次元相対姿勢を1つの画像から決定するためのリアルタイム深層学習手法を提案する。 通信に制約のある水中環境に自在に配置する自律ロボットチームは、水中探査、マッピング、マルチロボット輸送、その他のマルチロボットタスクなど、多くのアプリケーションで不可欠である。 水中での正確な6Dポーズで地上の真実画像を集めることの難しさから、この研究はUnreal Game Engineシミュレーションのレンダリング画像をトレーニングに利用している。 画像間翻訳ネットワークを用いて、レンダリングと実画像とのギャップを埋めて、トレーニング用合成画像を生成する。 提案手法は、AUVの3Dモデルの8角を表す2D画像キーポイントとして、単一画像からAUVの6Dポーズを予測し、RANSACベースのPnPを用いて、カメラ座標における6Dポーズを決定する。 異なるカメラを用いた実世界の水中環境(プールと海洋)における実験結果から,提案手法の頑健さと精度を,最先端手法による翻訳誤差と配向誤差の観点から実証した。 コードは公開されている。

In this paper, we propose a real-time deep learning approach for determining the 6D relative pose of Autonomous Underwater Vehicles (AUV) from a single image. A team of autonomous robots localizing themselves in a communication-constrained underwater environment is essential for many applications such as underwater exploration, mapping, multi-robot convoying, and other multi-robot tasks. Due to the profound difficulty of collecting ground truth images with accurate 6D poses underwater, this work utilizes rendered images from the Unreal Game Engine simulation for training. An image-to-image translation network is employed to bridge the gap between the rendered and the real images producing synthetic images for training. The proposed method predicts the 6D pose of an AUV from a single image as 2D image keypoints representing 8 corners of the 3D model of the AUV, and then the 6D pose in the camera coordinates is determined using RANSAC-based PnP. Experimental results in real-world underwater environments (swimming pool and ocean) with different cameras demonstrate the robustness and accuracy of the proposed technique in terms of translation error and orientation error over the state-of-the-art methods. The code is publicly available.
翻訳日:2022-12-24 15:35:49 公開日:2021-01-21
# Prune2Edge: IIoTの深層学習のためのマルチフェーズプルーニングパイプライン

Prune2Edge: A Multi-Phase Pruning Pipelines to Deep Ensemble Learning in IIoT ( http://arxiv.org/abs/2004.04710v2 )

ライセンス: Link先を確認
Besher Alhalabi, Mohamed Gaber, Shadi Basurra(参考訳) 最近では、IoTデバイスの普及、製造システムIIoT(Industrial-Internet-of-Things)における計算ノード、および5Gネットワークのランチなどにより、大量のデータを生成する数百万の接続デバイスが存在する。 このような環境では、制御システムは、リアルタイムプロセスの欠陥を検出するために大量のデータを扱うのに十分な知性を持つ必要がある。 このようなニーズにより、ディープラーニングのような人工知能モデルをIIoTシステムにデプロイする必要がある。 しかし、ディープラーニングモデルの学習と使用は計算コストが高いため、計算能力に制限のあるIoTデバイスではそのようなモデルを実行できない。 この問題に取り組むために、エッジデバイス上で人工知能モデルを実行するための新しいパラダイムとして、エッジインテリジェンスが登場した。 この領域ではかなりの量の研究が提案されているが、研究はまだ初期段階にある。 本稿では,IIoTデバイス上での学習をアンサンブルするためのエッジベースのマルチフェーズ・プルーニングパイプラインを提案する。 第1フェーズでは、様々なプルーンドモデルのアンサンブルを生成し、次いで整数量子化を適用し、次にクラスタリングに基づく手法を用いて生成されたアンサンブルをプルークする。 最後に、各生成されたクラスタから、分散IoT環境にデプロイする最適な代表を選択します。 CIFAR-100 と CIFAR-10 では,提案手法がベースラインモデルの予測可能性レベル(最大7%)を上回り,生成した学習者は,資源制約デバイス上での推論に必要な計算能力を最小限に抑えるため,より小さなサイズ(最大90%のモデルサイズ削減)を達成できた。

Most recently, with the proliferation of IoT devices, computational nodes in manufacturing systems IIoT(Industrial-Internet-of-things) and the lunch of 5G networks, there will be millions of connected devices generating a massive amount of data. In such an environment, the controlling systems need to be intelligent enough to deal with a vast amount of data to detect defects in a real-time process. Driven by such a need, artificial intelligence models such as deep learning have to be deployed into IIoT systems. However, learning and using deep learning models are computationally expensive, so an IoT device with limited computational power could not run such models. To tackle this issue, edge intelligence had emerged as a new paradigm towards running Artificial Intelligence models on edge devices. Although a considerable amount of studies have been proposed in this area, the research is still in the early stages. In this paper, we propose a novel edge-based multi-phase pruning pipelines to ensemble learning on IIoT devices. In the first phase, we generate a diverse ensemble of pruned models, then we apply integer quantisation, next we prune the generated ensemble using a clustering-based technique. Finally, we choose the best representative from each generated cluster to be deployed to a distributed IoT environment. On CIFAR-100 and CIFAR-10, our proposed approach was able to outperform the predictability levels of a baseline model (up to 7%), more importantly, the generated learners have small sizes (up to 90% reduction in the model size) that minimise the required computational capabilities to make an inference on the resource-constraint devices.
翻訳日:2022-12-15 02:09:42 公開日:2021-01-21
# ハイパーニーミー検出のためのデータ拡張

Data Augmentation for Hypernymy Detection ( http://arxiv.org/abs/2005.01854v2 )

ライセンス: Link先を確認
Thomas Kober, Julie Weeds, Lorenzo Bertolini, David Weir(参考訳) ハイパーネミー関係の自動検出は、NLPにおいて難しい問題である。 分散表現を用いた最先端の教師付きアプローチの成功は、一般的に高品質なトレーニングデータの可用性の制限によって妨げられている。 既存のデータから新しいトレーニング例を生成する2つの新しいデータ拡張手法を開発した。 まず,ハイパーニーミー関係を仮定可能な「小犬 - 犬」や「小犬 - 動物」などのベクトル対を生成するために,ハイパーニーム推移性の言語原理と交叉修飾子-名詞合成を組み合わせる。 第二に、超ニーミー関係を仮定できるベクトル対を生成するために生成逆ネットワーク(gans)を用いる。 さらに,WordNetなどの言語資源を活用することで,既存のデータセットを拡張するための2つの補完的戦略を提案する。 ハイパーニーミー検出のための3つの異なるデータセットと2つの異なるベクトル空間の評価を用いて、提案する自動データ拡張戦略とデータセット拡張戦略の両方が分類器の性能を大幅に改善することを示す。

The automatic detection of hypernymy relationships represents a challenging problem in NLP. The successful application of state-of-the-art supervised approaches using distributed representations has generally been impeded by the limited availability of high quality training data. We have developed two novel data augmentation techniques which generate new training examples from existing ones. First, we combine the linguistic principles of hypernym transitivity and intersective modifier-noun composition to generate additional pairs of vectors, such as "small dog - dog" or "small dog - animal", for which a hypernymy relationship can be assumed. Second, we use generative adversarial networks (GANs) to generate pairs of vectors for which the hypernymy relation can also be assumed. We furthermore present two complementary strategies for extending an existing dataset by leveraging linguistic resources such as WordNet. Using an evaluation across 3 different datasets for hypernymy detection and 2 different vector spaces, we demonstrate that both of the proposed automatic data augmentation and dataset extension strategies substantially improve classifier performance.
翻訳日:2022-12-07 00:12:02 公開日:2021-01-21
# 高次元バイオメディカルデータからの解釈可能・類似性駆動型多視点埋め込み

Interpretable, similarity-driven multi-view embeddings from high-dimensional biomedical data ( http://arxiv.org/abs/2006.06545v3 )

ライセンス: Link先を確認
Brian B. Avants, Nicholas J. Tustison, James R. Stone(参考訳) 類似性駆動型多視点線形再構成(SiMLR)は、モーダリティ間の関係を利用して、大規模な科学データセットをより小さく、よりよく機能し、解釈可能な低次元空間に変換するアルゴリズムである。 SiMLRは、結合信号を特定するための新しい目的関数、事前のモダリティ関係を表すスパース行列に基づく正規化、大規模データ行列の共用還元を可能にする実装、それぞれに数百万のエントリがある可能性がある。 シミュレーションデータ,マルチオミクス癌生存予測データセット,マルチモーダル・ニューロイメージングデータセットにおいて,SiMLRは教師付き学習問題において,密接に関連した手法よりも優れていることを示す。 まとめると、この結果の集合は、SiMLRを異なるモダリティからの結合信号推定にデフォルトパラメータで適用でき、様々なアプリケーション領域で実用的な結果が得られることを示している。

Similarity-driven multi-view linear reconstruction (SiMLR) is an algorithm that exploits inter-modality relationships to transform large scientific datasets into smaller, more well-powered and interpretable low-dimensional spaces. SiMLR contributes a novel objective function for identifying joint signal, regularization based on sparse matrices representing prior within-modality relationships and an implementation that permits application to joint reduction of large data matrices, each of which may have millions of entries. We demonstrate that SiMLR outperforms closely related methods on supervised learning problems in simulation data, a multi-omics cancer survival prediction dataset and multiple modality neuroimaging datasets. Taken together, this collection of results shows that SiMLR may be applied with default parameters to joint signal estimation from disparate modalities and may yield practically useful results in a variety of application domains.
翻訳日:2022-11-22 10:13:07 公開日:2021-01-21
# ロバスト性による公平性:深層学習におけるロバスト性格差の検討

Fairness Through Robustness: Investigating Robustness Disparity in Deep Learning ( http://arxiv.org/abs/2006.12621v4 )

ライセンス: Link先を確認
Vedant Nanda and Samuel Dooley and Sahil Singla and Soheil Feizi and John P. Dickerson(参考訳) ディープニューラルネットワーク(DNN)は、現実世界のアプリケーション(例えば顔認識)でますます使われている。 これにより、これらのモデルによる決定の公平性に関する懸念が生じている。 意思決定システムが集団の特定のサブグループに不当に害(または利益)を及ぼさないよう、公平性の様々な概念と尺度が提案されている。 本稿では,モデルが敵攻撃に対して脆弱である場合,モデル出力のみに基づく従来の公平性の概念は不十分である,と論じる。 いくつかのケースでは、攻撃者が特定のサブグループをターゲットにするのは容易であり、結果として \textit{robustness bias} という形式になるかもしれない。 頑健性バイアスを測定することはDNNにとって難しい課題であり,この2つの方法を提案する。 次に,cifar-10,cifar-100,adience,utkfaceなど,一般的に使用されている実世界のデータセット上で,最先端のニューラルネットワークに関する実証研究を行い,ほぼすべてのケースにおいて,ロバストが低く不利なサブグループ(人種や性別などの繊細な属性に基づく場合もある)が存在することを示した。 このようなバイアスは、dnnの場合のデータ分布と学習された決定境界の非常に複雑な性質の両方によって生じるため、バイアスの軽減は非自明なタスクであると主張する。 その結果,意思決定にdnnに依存する実世界のシステムを監査する上で,堅牢性バイアスは考慮すべき重要な基準であることがわかった。 すべての結果を再現するコードは以下の通りである。 \url{https://github.com/nvedant07/Fairness-Through-Robustness}

Deep neural networks (DNNs) are increasingly used in real-world applications (e.g. facial recognition). This has resulted in concerns about the fairness of decisions made by these models. Various notions and measures of fairness have been proposed to ensure that a decision-making system does not disproportionately harm (or benefit) particular subgroups of the population. In this paper, we argue that traditional notions of fairness that are only based on models' outputs are not sufficient when the model is vulnerable to adversarial attacks. We argue that in some cases, it may be easier for an attacker to target a particular subgroup, resulting in a form of \textit{robustness bias}. We show that measuring robustness bias is a challenging task for DNNs and propose two methods to measure this form of bias. We then conduct an empirical study on state-of-the-art neural networks on commonly used real-world datasets such as CIFAR-10, CIFAR-100, Adience, and UTKFace and show that in almost all cases there are subgroups (in some cases based on sensitive attributes like race, gender, etc) which are less robust and are thus at a disadvantage. We argue that this kind of bias arises due to both the data distribution and the highly complex nature of the learned decision boundary in the case of DNNs, thus making mitigation of such biases a non-trivial task. Our results show that robustness bias is an important criterion to consider while auditing real-world systems that rely on DNNs for decision making. Code to reproduce all our results can be found here: \url{https://github.com/nvedant07/Fairness-Through-Robustness}
翻訳日:2022-11-19 21:29:34 公開日:2021-01-21
# 連続変換によるカテゴリー正規化流れ

Categorical Normalizing Flows via Continuous Transformations ( http://arxiv.org/abs/2006.09790v3 )

ライセンス: Link先を確認
Phillip Lippe and Efstratios Gavves(参考訳) その人気にもかかわらず、現在まで、分類データへの正規化フローの適用は限られている。 離散データを連続空間にマッピングするためにデカンタライズを用いる現在の実践は、分類データが本質的な順序を持たないため適用できない。 その代わり、分類データは、単語間の同義語のように、推論されなければならない複雑で潜在的な関係を持つ。 本稿では,分類データに対する流れの正規化である,emph{categorical normalizing flow} について検討する。 変分推論問題としてカテゴリデータの符号化を連続空間にキャストすることで,連続表現とモデルの確率を共同で最適化する。 因数分解デコーダを用いて、正規化フローにおける相互作用をモデル化するための誘導バイアスを導入する。 結果として、ジョイントデコーダを持つよりも最適化を単純化するだけでなく、離散正規化フローでは現在不可能である多数のカテゴリまでスケールアップすることができる。 分類正規化フローに基づいて,グラフ上の置換不変な生成モデルとしてGraphCNFを提案する。 graphcnfは、ノード、エッジ、隣接マトリックスを段階的にモデル化して効率を向上させる3段階のアプローチを実装している。 分子生成において、GraphCNFは単発と自己回帰フローベースの両方に優れる。

Despite their popularity, to date, the application of normalizing flows on categorical data stays limited. The current practice of using dequantization to map discrete data to a continuous space is inapplicable as categorical data has no intrinsic order. Instead, categorical data have complex and latent relations that must be inferred, like the synonymy between words. In this paper, we investigate \emph{Categorical Normalizing Flows}, that is normalizing flows for categorical data. By casting the encoding of categorical data in continuous space as a variational inference problem, we jointly optimize the continuous representation and the model likelihood. Using a factorized decoder, we introduce an inductive bias to model any interactions in the normalizing flow. As a consequence, we do not only simplify the optimization compared to having a joint decoder, but also make it possible to scale up to a large number of categories that is currently impossible with discrete normalizing flows. Based on Categorical Normalizing Flows, we propose GraphCNF a permutation-invariant generative model on graphs. GraphCNF implements a three step approach modeling the nodes, edges and adjacency matrix stepwise to increase efficiency. On molecule generation, GraphCNF outperforms both one-shot and autoregressive flow-based state-of-the-art.
翻訳日:2022-11-19 19:33:11 公開日:2021-01-21
# ニアリアルタイムセマンティックセマンティックセグメンテーションのためのLookahead Adversarial Learning

Lookahead Adversarial Learning for Near Real-Time Semantic Segmentation ( http://arxiv.org/abs/2006.11227v3 )

ライセンス: Link先を確認
Hadi Jamali-Rad, Attila Szabo(参考訳) 意味セグメンテーション(semantic segmentation)は、コンピュータビジョンにおける最も根本的な問題の1つであり、幅広いアプリケーションに大きな影響を与える。 対立学習は,高レベルの画素相関と構造情報を強制することにより,セマンティックセグメンテーションの品質向上に有効な手法であることが示されている。 しかし、現状のセマンティックセグメンテーションモデルは、敵ネットワークの収束や安定性の問題に対処するために設計されていないため、敵設定に簡単に接続することはできない。 現状のセグメンテーションモデル(DeepLabv3+)をコアとした条件付き対向ネットワークを構築することで,このギャップを埋める。 安定性問題に対処するために,組込みラベルマップアグリゲーションモジュールを用いて,新たなルックアヘッド逆学習(load)アプローチを導入する。 リアルタイムに近いフィールドアプリケーションの推論を高速に実行するセマンティックセグメンテーションモデルに注目した。 広範な実験を通じて,提案手法は,逆意味セグメンテーション設定における発散問題を軽減し,3つの標準データセットのベースライン上で相当な性能向上(一部のクラスでは+5%)を実現した。

Semantic segmentation is one of the most fundamental problems in computer vision with significant impact on a wide variety of applications. Adversarial learning is shown to be an effective approach for improving semantic segmentation quality by enforcing higher-level pixel correlations and structural information. However, state-of-the-art semantic segmentation models cannot be easily plugged into an adversarial setting because they are not designed to accommodate convergence and stability issues in adversarial networks. We bridge this gap by building a conditional adversarial network with a state-of-the-art segmentation model (DeepLabv3+) at its core. To battle the stability issues, we introduce a novel lookahead adversarial learning (LoAd) approach with an embedded label map aggregation module. We focus on semantic segmentation models that run fast at inference for near real-time field applications. Through extensive experimentation, we demonstrate that the proposed solution can alleviate divergence issues in an adversarial semantic segmentation setting and results in considerable performance improvements (+5% in some classes) on the baseline for three standard datasets.
翻訳日:2022-11-19 04:15:37 公開日:2021-01-21
# カリキュラム誘導による安全強化学習

Safe Reinforcement Learning via Curriculum Induction ( http://arxiv.org/abs/2006.12136v2 )

ライセンス: Link先を確認
Matteo Turchetta, Andrey Kolobov, Shital Shah, Andreas Krause, Alekh Agarwal(参考訳) 安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。 このような設定では、エージェントは学習中だけでなく、後にも安全に振る舞う必要がある。 これを実現するために、既存の安全強化学習手法は、高い確率で探索中の危険な状況を避けるための事前条件に依存するが、確率的保証と事前に内在する滑らかさの仮定の両方が、自動運転のような多くの利害のシナリオでは実現できない。 本稿では,エージェントが学習中に制約を犯すのを防ぐ自動インストラクターの監督下で学習する,人間の指導にインスパイアされた代替手法を提案する。 本モデルでは,エージェントが学習しているタスクにおいて,その動作方法を知る必要も,環境の動作方法を知る必要もないモニタを導入する。 代わりに、エージェントが危険な振る舞いを始めると起動するリセットコントローラのライブラリがあり、損傷を防止している。 重要なことは、エージェント学習の速度に影響を及ぼす状況において、リセットコントローラが適用すべき選択である。 エージェントの進捗の観察に基づいて、教師は、エージェントの最終方針報酬を最適化するカリキュラムであるリセットコントローラを選択するためのポリシーを学習する。 実験ではこのフレームワークを2つの環境で使用し,安全かつ効率的な学習のためにカリキュラムを誘導する。

In safety-critical applications, autonomous agents may need to learn in an environment where mistakes can be very costly. In such settings, the agent needs to behave safely not only after but also while learning. To achieve this, existing safe reinforcement learning methods make an agent rely on priors that let it avoid dangerous situations during exploration with high probability, but both the probabilistic guarantees and the smoothness assumptions inherent in the priors are not viable in many scenarios of interest such as autonomous driving. This paper presents an alternative approach inspired by human teaching, where an agent learns under the supervision of an automatic instructor that saves the agent from violating constraints during learning. In this model, we introduce the monitor that neither needs to know how to do well at the task the agent is learning nor needs to know how the environment works. Instead, it has a library of reset controllers that it activates when the agent starts behaving dangerously, preventing it from doing damage. Crucially, the choices of which reset controller to apply in which situation affect the speed of agent learning. Based on observing agents' progress, the teacher itself learns a policy for choosing the reset controllers, a curriculum, to optimize the agent's final policy reward. Our experiments use this framework in two environments to induce curricula for safe and efficient learning.
翻訳日:2022-11-18 05:30:06 公開日:2021-01-21
# グラフ表現学習における結合と分離の最大化:距離対応負サンプリングアプローチ

Maximizing Cohesion and Separation in Graph Representation Learning: A Distance-aware Negative Sampling Approach ( http://arxiv.org/abs/2007.01423v2 )

ライセンス: Link先を確認
M. Maruf and Anuj Karpatne(参考訳) unsupervised graph representation learning(grl)の目的は、与えられたラベルなしグラフの構造を反映したノード埋め込みの低次元空間を学ぶことである。 このタスクの既存のアルゴリズムは、ノードペアの正のコーパスと負のコーパスを維持することで、ノード埋め込みの類似性を最大化する負のサンプリング目的に依存している。 正のサンプルは短いランダムウォークで共起するノード対から引き出されるが、従来の手法では一様にランダムペアをサンプリングすることで負のコーパスを構築するため、遠いノード対間の構造的相似性についての貴重な情報を無視している(「分離」と呼ぶ)。 本稿では,2対の短距離に比例する負のサンプリング確率を設定することにより,近傍ノードペアにおける凝集を最大化しながら,遠隔ノードペアの分離を最大化する,距離対応負サンプリング(DNS)を提案する。 提案手法は任意のGRLアルゴリズムと組み合わせて使用することができ,多くのベンチマークデータセットとGRLアルゴリズムを用いて,下流ノード分類タスクに対するベースライン負のサンプリング手法に対するアプローチの有効性を示す。 コードとデータセットはすべてhttps://github.com/Distance-awareNS/DNS/.comで公開されています。

The objective of unsupervised graph representation learning (GRL) is to learn a low-dimensional space of node embeddings that reflect the structure of a given unlabeled graph. Existing algorithms for this task rely on negative sampling objectives that maximize the similarity in node embeddings at nearby nodes (referred to as "cohesion") by maintaining positive and negative corpus of node pairs. While positive samples are drawn from node pairs that co-occur in short random walks, conventional approaches construct negative corpus by uniformly sampling random pairs, thus ignoring valuable information about structural dissimilarity among distant node pairs (referred to as "separation"). In this paper, we present a novel Distance-aware Negative Sampling (DNS) which maximizes the separation of distant node-pairs while maximizing cohesion at nearby node-pairs by setting the negative sampling probability proportional to the pair-wise shortest distances. Our approach can be used in conjunction with any GRL algorithm and we demonstrate the efficacy of our approach over baseline negative sampling methods over downstream node classification tasks on a number of benchmark datasets and GRL algorithms. All our codes and datasets are available at https://github.com/Distance-awareNS/DNS/.
翻訳日:2022-11-14 14:01:21 公開日:2021-01-21
# 1-vs-Each P\'olya-Gamma Augmented Gaussian Processsを用いたBayesian Few-Shot分類

Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma Augmented Gaussian Processes ( http://arxiv.org/abs/2007.10417v2 )

ライセンス: Link先を確認
Jake Snell, Richard Zemel(参考訳) FSC(Few-shot Classification)は、小さなラベル付きデータセットが与えられたクラスに分類器を適応させるタスクであり、人間のような機械学習への道のりの重要なステップである。 ベイズ法(ベイズほう、英: bayesian method)は、経験者が事前の信念を明示し、観測されたデータに照らしてそれらの信念を更新することを可能にするため、少数のシナリオでオーバーフィットする根本的な問題に取り組むのに適した方法である。 ベイズ小ショット分類に対する現代のアプローチでは、モデルパラメータの後方分布は遅く、モデルサイズでスケールするストレージを必要とする。 そこで本研究では,p\'olya-gamma拡張と1-vs- each softmax近似を組み合わせたガウス過程分類法を提案する。 標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確実性を実証した。

Few-shot classification (FSC), the task of adapting a classifier to unseen classes given a small labeled dataset, is an important step on the path toward human-like machine learning. Bayesian methods are well-suited to tackling the fundamental issue of overfitting in the few-shot scenario because they allow practitioners to specify prior beliefs and update those beliefs in light of observed data. Contemporary approaches to Bayesian few-shot classification maintain a posterior distribution over model parameters, which is slow and requires storage that scales with model size. Instead, we propose a Gaussian process classifier based on a novel combination of P\'olya-Gamma augmentation and the one-vs-each softmax approximation that allows us to efficiently marginalize over functions rather than model parameters. We demonstrate improved accuracy and uncertainty quantification on both standard few-shot classification benchmarks and few-shot domain transfer tasks.
翻訳日:2022-11-08 12:56:00 公開日:2021-01-21
# TriFinger: ディクスタリティを学習するオープンソースのロボット

TriFinger: An Open-Source Robot for Learning Dexterity ( http://arxiv.org/abs/2008.03596v2 )

ライセンス: Link先を確認
Manuel W\"uthrich, Felix Widmaier, Felix Grimminger, Joel Akpo, Shruti Joshi, Vaibhav Agrawal, Bilal Hammoud, Majid Khadiv, Miroslav Bogdanovic, Vincent Berenz, Julian Viereck, Maximilien Naveau, Ludovic Righetti, Bernhard Sch\"olkopf, Stefan Bauer(参考訳) 過去10年間の機械学習の急速な進歩にもかかわらず、デクサラスオブジェクト操作はロボット工学において未解決の問題のままである。 障害とは、時間とお金の両方の観点から、実システムにおける実験の高コストであると主張する。 我々は、人間の監督なしに安全に操作できるオープンソースのロボットプラットフォームを提案することで、この問題に対処する。 ハードウェアは安価で(約 \SI{5000}[\$]{})、非常に動的で堅牢で、外部オブジェクトとの複雑な相互作用が可能である。 ソフトウェアは1キロヘルツで動作し、ハードウェアが壊れないように安全チェックを行う。 使いやすいフロントエンド(C++とPython)は、リアルタイム制御と深い強化学習に適している。 加えて、ソフトウェアフレームワークはロボットに依存しないため、ここで提案されているハードウェアとは独立して使用できる。 最後に、提案プラットフォームの可能性について、リアルタイム最適制御、スクラッチからの深層強化学習、投球、書き込みなど、数多くの実験を通して説明する。

Dexterous object manipulation remains an open problem in robotics, despite the rapid progress in machine learning during the past decade. We argue that a hindrance is the high cost of experimentation on real systems, in terms of both time and money. We address this problem by proposing an open-source robotic platform which can safely operate without human supervision. The hardware is inexpensive (about \SI{5000}[\$]{}) yet highly dynamic, robust, and capable of complex interaction with external objects. The software operates at 1-kilohertz and performs safety checks to prevent the hardware from breaking. The easy-to-use front-end (in C++ and Python) is suitable for real-time control as well as deep reinforcement learning. In addition, the software framework is largely robot-agnostic and can hence be used independently of the hardware proposed herein. Finally, we illustrate the potential of the proposed platform through a number of experiments, including real-time optimal control, deep reinforcement learning from scratch, throwing, and writing.
翻訳日:2022-11-01 12:23:16 公開日:2021-01-21
# オートエンコーダニューラルネットワークを用いた屋内環境データ時系列再構成

Indoor environment data time-series reconstruction using autoencoder neural networks ( http://arxiv.org/abs/2009.08155v2 )

ライセンス: Link先を確認
Antonio Liguori, Romana Markovic, Thi Thu Ha Dam, J\'er\^ome Frisch, Christoph van Treeck, Francesco Causone(参考訳) 建物に設置するメーターの数が増加するにつれて、データ駆動型モデルの構築や建物運用の最適化に使用できるデータ時系列が増えている。 しかし、データセットの構築には誤りや値の欠如が特徴であり、近年の研究では、提案モデルの性能の制限要因として挙げられている。 ビルディングオペレーションにおけるデータ欠落の問題に対処する必要性に動機づけられた本研究は、これらのギャップを埋めるデータ駆動アプローチを提案する。 本研究では,ドイツ・アーヘンのオフィスビルで収集した,短期的な屋内環境データ時系列を復元するために,3つの異なるオートエンコーダニューラルネットワークを訓練した。 これは2014年から2017年までの4年間の監視活動であり、84の異なる部屋があった。 これらのモデルは、室内気温、相対湿度、$co_{2}$データストリームなど、部屋の自動化から得られる様々な時系列に適用できる。 その結果, 提案手法は従来の数値的手法よりも優れており, 対応する変数の平均rmsは 0.42 {\deg}c, 1.30 %, 78.41 ppmであった。

As the number of installed meters in buildings increases, there is a growing number of data time-series that could be used to develop data-driven models to support and optimize building operation. However, building data sets are often characterized by errors and missing values, which are considered, by the recent research, among the main limiting factors on the performance of the proposed models. Motivated by the need to address the problem of missing data in building operation, this work presents a data-driven approach to fill these gaps. In this study, three different autoencoder neural networks are trained to reconstruct missing short-term indoor environment data time-series in a data set collected in an office building in Aachen, Germany. This consisted of a four year-long monitoring campaign in and between the years 2014 and 2017, of 84 different rooms. The models are applicable for different time-series obtained from room automation, such as indoor air temperature, relative humidity and $CO_{2}$ data streams. The results prove that the proposed methods outperform classic numerical approaches and they result in reconstructing the corresponding variables with average RMSEs of 0.42 {\deg}C, 1.30 % and 78.41 ppm, respectively.
翻訳日:2022-10-17 08:36:31 公開日:2021-01-21
# 有界合理性下の階層ゲームにおける解の概念と自律運転への応用

Solution Concepts in Hierarchical Games under Bounded Rationality with Applications to Autonomous Driving ( http://arxiv.org/abs/2009.10033v4 )

ライセンス: Link先を確認
Atrisha Sarkar, Krzysztof Czarnecki(参考訳) 自動運転車(AV)が通常の人間の交通にさらに統合されることで、AVモーションプランニングをマルチエージェント問題として扱うというコンセンサスが高まっている。 しかしながら、完全合理性の伝統的なゲーム理論仮定は、人間の運転目的には強すぎるため、人間の運転を行動ゲーム理論レンズを通して「emph{bounded rational}」の活動として理解する必要がある。 その目的のために,有界有理行動の3つのメタモデルを適用する。2つは量子レベルkに基づくもので,もう1つは量子誤差を伴うnash平衡に基づくものである。 運転行動のゲーム理論モデルを作成するために,多エージェント動作計画に使用されるフレームワークである階層型ゲーム(hierarchical game)のコンテキストに適用可能な,異なる解の概念を定式化する。 さらに,4kエージェントと44k決定ポイントの多忙な都市交差点における人間運転のデータセットに基づいて,自然主義的データに適合するモデルに基づく行動モデルと,その予測能力を評価した。 以上の結果から, 行動モデルのうち, 純粋戦略としての運転行動のモデル化 ne は, 操作のレベルでは量的誤差を伴うが, 軌跡のレベルでの行動のサンプリングは, 自然主義的運転行動に最も適しており, 行動モデルの性能には状況因子の影響が大きいことが示唆された。

With autonomous vehicles (AV) set to integrate further into regular human traffic, there is an increasing consensus of treating AV motion planning as a multi-agent problem. However, the traditional game theoretic assumption of complete rationality is too strong for the purpose of human driving, and there is a need for understanding human driving as a \emph{bounded rational} activity through a behavioral game theoretic lens. To that end, we adapt three metamodels of bounded rational behavior; two based on Quantal level-k and one based on Nash equilibrium with quantal errors. We formalize the different solution concepts that can be applied in the context of hierarchical games, a framework used in multi-agent motion planning, for the purpose of creating game theoretic models of driving behavior. Furthermore, based on a contributed dataset of human driving at a busy urban intersection with a total of ~4k agents and ~44k decision points, we evaluate the behavior models on the basis of model fit to naturalistic data, as well as their predictive capacity. Our results suggest that among the behavior models evaluated, modeling driving behavior as pure strategy NE with quantal errors at the level of maneuvers with bounds sampling of actions at the level of trajectories provides the best fit to naturalistic driving behavior, and there is a significant impact of situational factors on the performance of behavior models.
翻訳日:2022-10-16 05:33:53 公開日:2021-01-21
# COVID-19患者のX線画像におけるICU適応の可能性

Potential Features of ICU Admission in X-ray Images of COVID-19 Patients ( http://arxiv.org/abs/2009.12597v2 )

ライセンス: Link先を確認
Douglas P. S. Gomes, Anwaar Ulhaq, Manoranjan Paul, Michael J. Horry, Subrata Chakraborty, Manas Saha, Tanmoy Debnath, D.M. Motiur Rahaman(参考訳) x線画像は、新型コロナウイルスの重篤な症状を発症する患者の予測情報と非自明な特徴を示す可能性がある。 もし本当なら、この仮説は比較的安価なイメージング技術を用いて、特定の患者にリソースを割り当てる実践的な価値があるかもしれない。 このような仮説をテストすることの難しさは、十分な注釈付きで、画像後の重大性の結果を熟考する必要がある、ラベル付きデータの大規模なセットの必要性から生じる。 本稿では,患者ICU入院ラベル付きデータセットから重度と相関する意味的特徴を解釈可能なモデルで抽出する手法を提案する。 この手法は、肺の病理を認識して意味的特徴を抽出するように訓練されたニューラルネットワークを使用しており、それを低複雑さモデルで分析し、オーバーフィッティングを制限し、解釈可能性を高める。 この分析から,重篤な症状を呈する患者間の差異のほとんどが説明できる特徴はごくわずかであることが示唆された。 病理学関連の臨床記録を持つ無関係な大きなデータセットに適用すると、この方法は学習した特徴の画像を選択でき、肺内の一般的な位置に関する情報を翻訳することができる。 重篤な症状を呈する患者に対する分離性の検証に加えて,提案手法は,質的にのみ報告された icu 入会に関する特徴の重要性を強調する統計的アプローチである。 限られたデータセットを扱う一方で、最先端の肺セグメンテーションネットワークの提示や、オーバーフィッティングを避けるために低複雑さモデルの使用など、注目すべき方法論が採用されている。 方法論と実験用のコードも利用できる。

X-ray images may present non-trivial features with predictive information of patients that develop severe symptoms of COVID-19. If true, this hypothesis may have practical value in allocating resources to particular patients while using a relatively inexpensive imaging technique. The difficulty of testing such a hypothesis comes from the need for large sets of labelled data, which need to be well-annotated and should contemplate the post-imaging severity outcome. This paper presents an original methodology for extracting semantic features that correlate to severity from a data set with patient ICU admission labels through interpretable models. The methodology employs a neural network trained to recognise lung pathologies to extract the semantic features, which are then analysed with low-complexity models to limit overfitting while increasing interpretability. This analysis points out that only a few features explain most of the variance between patients that developed severe symptoms. When applied to an unrelated larger data set with pathology-related clinical notes, the method has shown to be capable of selecting images for the learned features, which could translate some information about their common locations in the lung. Besides attesting separability on patients that eventually develop severe symptoms, the proposed methods represent a statistical approach highlighting the importance of features related to ICU admission that may have been only qualitatively reported. While handling limited data sets, notable methodological aspects are adopted, such as presenting a state-of-the-art lung segmentation network and the use of low-complexity models to avoid overfitting. The code for methodology and experiments is also available.
翻訳日:2022-10-14 09:12:40 公開日:2021-01-21
# KG-BART:生成コモンセンス推論のための知識グラフ強化BART

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning ( http://arxiv.org/abs/2009.12677v2 )

ライセンス: Link先を確認
Ye Liu, Yao Wan, Lifang He, Hao Peng, Philip S. Yu(参考訳) 機械が一連の概念を推論する能力を持つ文を生成することを目的とした生成コモンセンス推論は、テキスト生成にとって重要なボトルネックである。 最先端の事前訓練された言語生成モデルでさえ、このタスクに苦労し、しばしば不明瞭で異常な文を生成する。 ひとつの理由は、コモンセンスの概念の中で豊富な関係情報を提供できる知識グラフを組み込むことをほとんど検討していないためである。 テキスト生成におけるコモンセンス推論の能力を促進するために,知識グラフを通して概念の複雑な関係を包含し,より論理的で自然な文を出力として生成する,事前学習型言語生成モデルKG-BARTを提案する。 さらに、KG-BARTはグラフの注意を生かして、目に見えない概念集合のモデル一般化を強化するリッチな概念セマンティクスを集約することができる。 ベンチマークによるCommonGenデータセットの実験では、BLEU-3,4.60でBARTを5.80,460で上回り、トレーニング済みの強力な言語生成モデルとの比較により、提案手法の有効性が検証された。 さらに、我々のモデルが生成したコンテキストが背景シナリオとして機能し、下流のcommonsense QAタスクに役立てることを示す。

Generative commonsense reasoning which aims to empower machines to generate sentences with the capacity of reasoning over a set of concepts is a critical bottleneck for text generation. Even the state-of-the-art pre-trained language generation models struggle at this task and often produce implausible and anomalous sentences. One reason is that they rarely consider incorporating the knowledge graph which can provide rich relational information among the commonsense concepts. To promote the ability of commonsense reasoning for text generation, we propose a novel knowledge graph augmented pre-trained language generation model KG-BART, which encompasses the complex relations of concepts through the knowledge graph and produces more logical and natural sentences as output. Moreover, KG-BART can leverage the graph attention to aggregate the rich concept semantics that enhances the model generalization on unseen concept sets. Experiments on benchmark CommonGen dataset verify the effectiveness of our proposed approach by comparing with several strong pre-trained language generation models, particularly KG-BART outperforms BART by 5.80, 4.60, in terms of BLEU-3, 4. Moreover, we also show that the generated context by our model can work as background scenarios to benefit downstream commonsense QA tasks.
翻訳日:2022-10-14 09:02:24 公開日:2021-01-21
# Duff: 指数メカニズムのためのデータセット距離に基づくユーティリティ機能ファミリー

Duff: A Dataset-Distance-Based Utility Function Family for the Exponential Mechanism ( http://arxiv.org/abs/2010.04235v2 )

ライセンス: Link先を確認
Andr\'es Mu\~noz Medina and Jenny Gillenwater(参考訳) 差分プライバシの指数関数機構に対して,汎用データセット距離ベースユーティリティ関数ファミリーであるDuffを提案し,解析する。 特定のデータセットと統計値(例えば、中央値、モード)が与えられた場合、この関数ファミリーは、統計値がo値を取るためにデータセットにデータを追加するか削除する必要がある個人数に基づいて、可能な出力oにユーティリティを割り当てる。 duffに基づく指数関数的メカニズムは、滑らかな感度に基づく既存の差分プライバシメカニズムと比較して、統計の真の価値に対して確実に高い忠実性を提供する。 特に、ダフは、分散が滑らかな感度に比例し、尾がより速いポリノミカル速度で崩壊するノイズ分布を持つことができるかどうかというオープンな疑問に対する肯定的な答えである。 本稿では,計算中央値のタスクにおけるduffの実用的利点を実証的に評価した。

We propose and analyze a general-purpose dataset-distance-based utility function family, Duff, for differential privacy's exponential mechanism. Given a particular dataset and a statistic (e.g., median, mode), this function family assigns utility to a possible output o based on the number of individuals whose data would have to be added to or removed from the dataset in order for the statistic to take on value o. We show that the exponential mechanism based on Duff often offers provably higher fidelity to the statistic's true value compared to existing differential privacy mechanisms based on smooth sensitivity. In particular, Duff is an affirmative answer to the open question of whether it is possible to have a noise distribution whose variance is proportional to smooth sensitivity and whose tails decay at a faster-than-polynomial rate. We conclude our paper with an empirical evaluation of the practical advantages of Duff for the task of computing medians.
翻訳日:2022-10-09 13:10:47 公開日:2021-01-21
# 群同変畳み込みカーネルのウィグナー・エッカート理論

A Wigner-Eckart Theorem for Group Equivariant Convolution Kernels ( http://arxiv.org/abs/2010.10952v4 )

ライセンス: Link先を確認
Leon Lang, Maurice Weiler(参考訳) グループ同変畳み込みネットワーク(GCNN)は、古典的畳み込みネットワークに追加の対称性を付与し、性能が大幅に向上する可能性がある。 gcnnの理論的な記述の最近の進歩により、そのようなモデルは一般に、g-ステアブルカーネル、すなわち同分散制約自体を満たすカーネルとの畳み込みの実行として理解することができる。 G-ステアビリティ制約は導出されているが、現在では特定のユースケースに対してのみ解決される必要があり、G-ステアビリティカーネル空間の一般的な特徴はいまだに欠落している。 この研究は、G が任意のコンパクト群である実際に関係のある場合のそのような特徴づけを与える。 我々の研究は、他方で制御可能な核の制約と、他方で量子力学による球面テンソル作用素との類似性によって動機づけられている。 球面テンソル作用素に対する有名なウィグナー・エッカートの定理を一般化することにより、ステアブル核空間が完全に理解されパラメータ化されることを示す。 1)一般化された還元マトリクス要素 2)クレブシュ=ゴルダン係数及び 3)等質空間上の調和基底関数。

Group equivariant convolutional networks (GCNNs) endow classical convolutional networks with additional symmetry priors, which can lead to a considerably improved performance. Recent advances in the theoretical description of GCNNs revealed that such models can generally be understood as performing convolutions with G-steerable kernels, that is, kernels that satisfy an equivariance constraint themselves. While the G-steerability constraint has been derived, it has to date only been solved for specific use cases - a general characterization of G-steerable kernel spaces is still missing. This work provides such a characterization for the practically relevant case of G being any compact group. Our investigation is motivated by a striking analogy between the constraints underlying steerable kernels on the one hand and spherical tensor operators from quantum mechanics on the other hand. By generalizing the famous Wigner-Eckart theorem for spherical tensor operators, we prove that steerable kernel spaces are fully understood and parameterized in terms of 1) generalized reduced matrix elements, 2) Clebsch-Gordan coefficients, and 3) harmonic basis functions on homogeneous spaces.
翻訳日:2022-10-04 23:15:44 公開日:2021-01-21
# マルチグラフテンソルネットワーク

Multi-Graph Tensor Networks ( http://arxiv.org/abs/2010.13209v4 )

ライセンス: Link先を確認
Yao Lei Xu, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 多数の現代のデータソースの不規則かつマルチモーダルな性質は、従来のディープラーニングアルゴリズムに深刻な課題をもたらす。 この目的のために、最近の取り組みは、グラフトポロジーを通してデータからさらなる洞察を得ることを目的として、グラフを通して既存のアルゴリズムを不規則なドメインに一般化した。 同時に、テンソルに基づく手法は、次元の呪いによって課されるボトルネックをバイパスする有望な結果を示している。 本稿では,不規則なデータソースを扱うグラフの能力と,ディープラーニング環境下でのテンソルネットワークの圧縮特性を両立させる,新しいMulti-Graph Tensor Network(MGTN)フレームワークを提案する。 MGTNをベースとしたFOREX(Deep Q Agent for Foreign Exchange)アルゴリズムにより,提案手法の可能性を示す。 mgtnの利点により、forexの通貨グラフを利用して、この要求するタスクに経済的に有意義な構造を課し、3つの競合するモデルに対して非常に優れたパフォーマンスをもたらし、複雑さを著しく低下させる。

The irregular and multi-modal nature of numerous modern data sources poses serious challenges for traditional deep learning algorithms. To this end, recent efforts have generalized existing algorithms to irregular domains through graphs, with the aim to gain additional insights from data through the underlying graph topology. At the same time, tensor-based methods have demonstrated promising results in bypassing the bottlenecks imposed by the Curse of Dimensionality. In this paper, we introduce a novel Multi-Graph Tensor Network (MGTN) framework, which exploits both the ability of graphs to handle irregular data sources and the compression properties of tensor networks in a deep learning setting. The potential of the proposed framework is demonstrated through an MGTN based deep Q agent for Foreign Exchange (FOREX) algorithmic trading. By virtue of the MGTN, a FOREX currency graph is leveraged to impose an economically meaningful structure on this demanding task, resulting in a highly superior performance against three competing models and at a drastically lower complexity.
翻訳日:2022-10-03 04:59:01 公開日:2021-01-21
# DeepWay:グローバルパス生成のためのディープラーニングウェイポイント推定器

DeepWay: a Deep Learning Waypoint Estimator for Global Path Generation ( http://arxiv.org/abs/2010.16322v2 )

ライセンス: Link先を確認
Vittorio Mazzia, Francesco Salvetti, Diego Aghi and Marcello Chiaberge(参考訳) 農業3.0と4.0は徐々にサービスロボティクスと自動化をいくつかの農業プロセスに導入し、主に作物の品質と季節的な収量を改善する。 ローベースの作物は、収穫の監視と管理が可能なスマートマシンのテストとデプロイに最適です。 この文脈では、グローバルパスの生成は地上または航空車両に必須であり、あらゆる種類のミッション計画の出発点である。 それにもかかわらず、現在研究コミュニティによるこの問題への関心はほとんどなく、グローバルパス生成自動化はいまだに解決されていない。 本研究は、自律機械の実行可能な経路を生成するために、占有グリッドマップを与えられた経路ポイントを推定できる機能学習完全畳み込みモデルを提案する。 特に,提案するデータ駆動手法を,作物の伸長を完全にカバー可能なグローバルパスを生成することを目的とした,行ベースの作物の特定の場合に適用する。 カスタムメイドの合成データセットと、異なるシナリオの実際の衛星画像を用いた広範な実験により、この手法の有効性が証明され、エンドツーエンドかつ完全に自律的なグローバルパスプランナーの実現可能性が実証された。

Agriculture 3.0 and 4.0 have gradually introduced service robotics and automation into several agricultural processes, mostly improving crops quality and seasonal yield. Row-based crops are the perfect settings to test and deploy smart machines capable of monitoring and manage the harvest. In this context, global path generation is essential either for ground or aerial vehicles, and it is the starting point for every type of mission plan. Nevertheless, little attention has been currently given to this problem by the research community and global path generation automation is still far to be solved. In order to generate a viable path for an autonomous machine, the presented research proposes a feature learning fully convolutional model capable of estimating waypoints given an occupancy grid map. In particular, we apply the proposed data-driven methodology to the specific case of row-based crops with the general objective to generate a global path able to cover the extension of the crop completely. Extensive experimentation with a custom made synthetic dataset and real satellite-derived images of different scenarios have proved the effectiveness of our methodology and demonstrated the feasibility of an end-to-end and completely autonomous global path planner.
翻訳日:2022-10-01 16:01:03 公開日:2021-01-21
# 統計的パリティの道徳的正当性について

On the Moral Justification of Statistical Parity ( http://arxiv.org/abs/2011.02079v2 )

ライセンス: Link先を確認
Corinna Hertweck and Christoph Heitz and Michele Loi(参考訳) アルゴリズム的公正性の重要かつしばしば無視される側面は、道徳的観点からある公正度測定をいかに正当化するかという問題である。 公平性メトリクスが提案されるとき、それらは通常、数学的性質を強調することで議論される。 基準の下にある道徳的な仮定はまれである。 本研究の目的は,独立性(統計的パリティ)の統計的公平性基準に関連する道徳的側面を検討することである。 この目的のために、我々は、"What You See Is What You Get"(WYSIWYG)と"We're All Equal"(WAE)の2つの世界観を論じ、アルゴリズムの設計における想定される仮定を明らかにするためのガイダンスを提供している。 我々は、道徳に焦点を当てたこの作品の拡張を提示する。 最も自然な道徳的拡張は、社会的デモグラフィーグループ間の予測的特徴(例えば高校の成績や標準テストスコア)の違いが不公平な社会的格差や測定誤差によって引き起こされる場合のみ、独立が満たされる必要があることである。 2つの反例を通して、この拡張が普遍的に真でないことを示す。 これは、予測的特徴の相違点の正しさを考慮すれば、独立性の使用の有無を満足して答えることができないことを意味する。

A crucial but often neglected aspect of algorithmic fairness is the question of how we justify enforcing a certain fairness metric from a moral perspective. When fairness metrics are proposed, they are typically argued for by highlighting their mathematical properties. Rarely are the moral assumptions beneath the metric explained. Our aim in this paper is to consider the moral aspects associated with the statistical fairness criterion of independence (statistical parity). To this end, we consider previous work, which discusses the two worldviews "What You See Is What You Get" (WYSIWYG) and "We're All Equal" (WAE) and by doing so provides some guidance for clarifying the possible assumptions in the design of algorithms. We present an extension of this work, which centers on morality. The most natural moral extension is that independence needs to be fulfilled if and only if differences in predictive features (e.g. high school grades and standardized test scores are predictive of performance at university) between socio-demographic groups are caused by unjust social disparities or measurement errors. Through two counterexamples, we demonstrate that this extension is not universally true. This means that the question of whether independence should be used or not cannot be satisfactorily answered by only considering the justness of differences in the predictive features.
翻訳日:2022-09-29 23:08:37 公開日:2021-01-21
# (参考訳) 経過時間サンプリングによる変換速度予測における遅延フィードバックの捕捉

Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling ( http://arxiv.org/abs/2012.03245v2 )

ライセンス: CC BY 4.0
Jia-Qi Yang, Xiang Li, Shuguang Han, Tao Zhuang, De-Chuan Zhan, Xiaoyi Zeng, Bin Tong(参考訳) コンバージョンレート(CVR)予測は、デジタルディスプレイ広告において最も重要なタスクの1つである。 商用システムは、進化するデータ配布に追いつくために、しばしばオンライン学習方法でモデルを更新する必要がある。 しかし、通常はユーザーがクリックした直後に変換は行われない。 これは遅延フィードバック問題と呼ばれる不正確なラベリングをもたらす可能性がある。 従来の研究では、遅延フィードバック問題は、長い期間正のラベルを待ち、または到着時に負のサンプルを消費し、後で変換が発生したときに正の重複を挿入することによって処理される。 実際、より正確なラベルを待つことと、既存の作品では考慮されていないフレッシュデータを利用するというトレードオフがある。 このトレードオフにおいてバランスをとるために,観測された変換分布と真の変換分布の関係をモデル化したElapsed-Time Smpling Delayed Feedback Model (ES-DFM)を提案する。 そして、経過時間サンプリング分布下で重要サンプリングによる真の変換分布の期待値を最適化する。 さらに,cvr予測において損失関数の重みとして使用される各インスタンスの重み付け量を推定する。 ES-DFMの有効性を実証するため,公開データとプライベート産業データセットについて広範な実験を行った。 実験結果から,本手法が先行する最新結果を一貫して上回っていることが確認された。

Conversion rate (CVR) prediction is one of the most critical tasks for digital display advertising. Commercial systems often require to update models in an online learning manner to catch up with the evolving data distribution. However, conversions usually do not happen immediately after a user click. This may result in inaccurate labeling, which is called delayed feedback problem. In previous studies, delayed feedback problem is handled either by waiting positive label for a long period of time, or by consuming the negative sample on its arrival and then insert a positive duplicate when a conversion happens later. Indeed, there is a trade-off between waiting for more accurate labels and utilizing fresh data, which is not considered in existing works. To strike a balance in this trade-off, we propose Elapsed-Time Sampling Delayed Feedback Model (ES-DFM), which models the relationship between the observed conversion distribution and the true conversion distribution. Then we optimize the expectation of true conversion distribution via importance sampling under the elapsed-time sampling distribution. We further estimate the importance weight for each instance, which is used as the weight of loss function in CVR prediction. To demonstrate the effectiveness of ES-DFM, we conduct extensive experiments on a public data and a private industrial dataset. Experimental results confirm that our method consistently outperforms the previous state-of-the-art results.
翻訳日:2021-05-22 06:23:43 公開日:2021-01-21
# Euclidean-Norm-induced Schatten-p Quasi-Norm regularization による低ランクテンソル回復

Low-Rank Tensor Recovery with Euclidean-Norm-Induced Schatten-p Quasi-Norm Regularization ( http://arxiv.org/abs/2012.03436v2 )

ライセンス: Link先を確認
Jicong Fan, Lijun Ding, Chengrun Yang, Madeleine Udell(参考訳) 行列の核ノルムとSchatten-$p$準ノルムは、低ランク行列回復において一般的な階数プロキシである。 残念なことに、テンソルの核ノルムやSchatten-$p$準ノルムの計算はNPハードであり、ローランクテンソル完備化(LRTC)とテンソルロバストな主成分分析(TRPCA)の哀れみである。 本論文では、テンソルのCP成分ベクトルのユークリッドノルムに基づく新しい階数正規化器のクラスを提案し、これらの正規化器がテンソルシャッテン-$p$準ノルムの単調変換であることを示す。 この接続により、LRTC と TRPCA における Schatten-$p$ quasi-norm を暗黙的に最小化できる。 この方法は特異値分解を使わず、従って大きなテンソルにスケールする。 さらに、これらの手法は初期ランクの選択に敏感ではなく、核ノルムと比較して低ランクテンソルリカバリのための任意にシャープなランクプロキシを提供する。 LRTC と TRPCA の回復誤差について理論的に保証し、Schatten-$p$ 準ノルムの相対的に小さい値が誤差境界を狭くすることを示す。 合成データと自然画像に対するLRTCとTRPCAを用いた実験により,本手法の有効性と優位性が確認された。

The nuclear norm and Schatten-$p$ quasi-norm of a matrix are popular rank proxies in low-rank matrix recovery. Unfortunately, computing the nuclear norm or Schatten-$p$ quasi-norm of a tensor is NP-hard, which is a pity for low-rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA). In this paper, we propose a new class of rank regularizers based on the Euclidean norms of the CP component vectors of a tensor and show that these regularizers are monotonic transformations of tensor Schatten-$p$ quasi-norm. This connection enables us to minimize the Schatten-$p$ quasi-norm in LRTC and TRPCA implicitly. The methods do not use the singular value decomposition and hence scale to big tensors. Moreover, the methods are not sensitive to the choice of initial rank and provide an arbitrarily sharper rank proxy for low-rank tensor recovery compared to nuclear norm. We provide theoretical guarantees in terms of recovery error for LRTC and TRPCA, which show relatively smaller $p$ of Schatten-$p$ quasi-norm leads to tighter error bounds. Experiments using LRTC and TRPCA on synthetic data and natural images verify the effectiveness and superiority of our methods compared to baseline methods.
翻訳日:2021-05-16 21:50:04 公開日:2021-01-21
# インタラクティブインテリジェンスを省略する

Imitating Interactive Intelligence ( http://arxiv.org/abs/2012.05672v2 )

ライセンス: Link先を確認
Josh Abramson, Arun Ahuja, Iain Barr, Arthur Brussee, Federico Carnevale, Mary Cassin, Rachita Chhaparia, Stephen Clark, Bogdan Damoc, Andrew Dudzik, Petko Georgiev, Aurelia Guy, Tim Harley, Felix Hill, Alden Hung, Zachary Kenton, Jessica Landon, Timothy Lillicrap, Kory Mathewson, So\v{n}a Mokr\'a, Alistair Muldal, Adam Santoro, Nikolay Savinov, Vikrant Varma, Greg Wayne, Duncan Williams, Nathaniel Wong, Chen Yan, Rui Zhu(参考訳) SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。 本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法を検討する。 それでもこの設定は、複雑な視覚知覚と目標指向の物理的制御、接地言語理解と生産、マルチエージェントの社会的相互作用など、人工知能(ai)研究の多くの中心的課題を統合している。 人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。 しかし、これは現実的ではない。 そこで我々は,人間の役割を他の学習エージェントと近似し,逆強化学習のアイデアを用いて,人間とエージェントの対話行動の相違を低減する。 エージェントを厳格に評価することは大きな課題であり、エージェントのビデオを見たり直接対話したりする人間による評価など、さまざまな行動テストを開発します。 これらの評価は、対話的トレーニングと補助的損失が、行動の教師付き学習によって達成されることを超えて、エージェントの行動を改善することを示す。 さらに、エージェント機能がデータセットのリテラル体験を超えて一般化することを実証する。 最後に,エージェントの格付けが人間の判断に合致する評価モデルを訓練し,新たなエージェントモデルの評価を追加の努力なしに行えるようにした。 この仮想環境における我々の結果は、大規模人間の行動模倣が知的で対話的なエージェントを作るための有望なツールであり、そのようなエージェントを確実に評価することの課題が克服可能であることを示す。

A common vision from science fiction is that robots will one day inhabit our physical spaces, sense the world as we do, assist our physical labours, and communicate with us through natural language. Here we study how to design artificial agents that can interact naturally with humans using the simplification of a virtual environment. This setting nevertheless integrates a number of the central challenges of artificial intelligence (AI) research: complex visual perception and goal-directed physical control, grounded language comprehension and production, and multi-agent social interaction. To build agents that can robustly interact with humans, we would ideally train them while they interact with humans. However, this is presently impractical. Therefore, we approximate the role of the human with another learned agent, and use ideas from inverse reinforcement learning to reduce the disparities between human-human and agent-agent interactive behaviour. Rigorously evaluating our agents poses a great challenge, so we develop a variety of behavioural tests, including evaluation by humans who watch videos of agents or interact directly with them. These evaluations convincingly demonstrate that interactive training and auxiliary losses improve agent behaviour beyond what is achieved by supervised learning of actions alone. Further, we demonstrate that agent capabilities generalise beyond literal experiences in the dataset. Finally, we train evaluation models whose ratings of agents agree well with human judgement, thus permitting the evaluation of new agent models without additional effort. Taken together, our results in this virtual environment provide evidence that large-scale human behavioural imitation is a promising tool to create intelligent, interactive agents, and the challenge of reliably evaluating such agents is possible to surmount.
翻訳日:2021-05-15 06:32:46 公開日:2021-01-21
# すべてのプライバシー制度に有効な(\epsilon, \delta)$-微分的プライベートガウス機構に縛られる閉じた形式スケール

A closed form scale bound for the $(\epsilon, \delta)$-differentially private Gaussian Mechanism valid for all privacy regimes ( http://arxiv.org/abs/2012.10523v2 )

ライセンス: Link先を確認
Staal A. Vinterbo(参考訳) 分散$\sigma^2$ is $\sigma > \delta\sqrt {2}(\epsilon^{-1}) \sqrt {\log \left(5/4\delta^{-1} \right)}$\epsilon \in (0,1)$である。 同様の閉形式は、$\sigma \geq \Delta (\epsilon\sqrt{2})^{-1} \left(\sqrt{az+\epsilon} + s\sqrt{az}\right)$ for $z=-\log(4\delta(1-\delta))$ and $(a,s)=(1,1)$ if $\delta \leq 1/2$ and $(a,s)=(\pi/4,-1)$である。 我々の境界はすべての$\epsilon > 0$に対して有効であり、常に低い(より低い)。 また,偶数と対数対数対数密度に比例して分布するノイズを付加する場合,$(\epsilon, \delta)$-differential プライバシの十分条件を示す。

The standard closed form lower bound on $\sigma$ for providing $(\epsilon, \delta)$-differential privacy by adding zero mean Gaussian noise with variance $\sigma^2$ is $\sigma > \Delta\sqrt {2}(\epsilon^{-1}) \sqrt {\log \left( 5/4\delta^{-1} \right)}$ for $\epsilon \in (0,1)$. We present a similar closed form bound $\sigma \geq \Delta (\epsilon\sqrt{2})^{-1} \left(\sqrt{az+\epsilon} + s\sqrt{az}\right)$ for $z=-\log(4\delta(1-\delta))$ and $(a,s)=(1,1)$ if $\delta \leq 1/2$ and $(a,s)=(\pi/4,-1)$ otherwise. Our bound is valid for all $\epsilon > 0$ and is always lower (better). We also present a sufficient condition for $(\epsilon, \delta)$-differential privacy when adding noise distributed according to even and log-concave densities supported everywhere.
翻訳日:2021-05-01 18:04:46 公開日:2021-01-21
# (参考訳) トランスフォーマベースのcovid-19偽ニュース検出システム

Transformer based Automatic COVID-19 Fake News Detection System ( http://arxiv.org/abs/2101.00180v3 )

ライセンス: CC BY 4.0
Sunil Gundapu, Radhika Mamidi(参考訳) Twitterなどのオンラインソーシャルネットワークの急速な技術進歩は、偽情報やフェイクニュースの普及に大きく貢献している。 新型コロナウイルス(COVID-19)のパンデミックでは、誤報が特に多く発生し、個人は偽情報や有害な主張や記事を受け入れている。 フェイクニュースの迅速な検出は、パニックや混乱の拡散を減少させる可能性がある。 本稿では,新型コロナウイルスのパンデミックに関連するソーシャルメディア上で共有される情報の信頼性を解析するための方法論について報告する。 我々の最良のアプローチは、偽ニュースを検出するための3つのトランスフォーマーモデル(BERT、ALBERT、XLNET)のアンサンブルに基づいている。 このモデルは、constraintai 2021 shared task covid19 fake news detection in englishの文脈で訓練され、評価された。 テストセットでは0.9855 f1スコアを獲得し,160チーム中5位にランクインした。

Recent rapid technological advancements in online social networks such as Twitter have led to a great incline in spreading false information and fake news. Misinformation is especially prevalent in the ongoing coronavirus disease (COVID-19) pandemic, leading to individuals accepting bogus and potentially deleterious claims and articles. Quick detection of fake news can reduce the spread of panic and confusion among the public. For our analysis in this paper, we report a methodology to analyze the reliability of information shared on social media pertaining to the COVID-19 pandemic. Our best approach is based on an ensemble of three transformer models (BERT, ALBERT, and XLNET) to detecting fake news. This model was trained and evaluated in the context of the ConstraintAI 2021 shared task COVID19 Fake News Detection in English. Our system obtained 0.9855 f1-score on testset and ranked 5th among 160 teams.
翻訳日:2021-04-17 12:40:17 公開日:2021-01-21
# (参考訳) Ignoreを学ぶ: 公平でタスクに依存しない表現

Learning to Ignore: Fair and Task Independent Representations ( http://arxiv.org/abs/2101.04047v2 )

ライセンス: CC BY 4.0
Linda H. Boedi and Helmut Grabner(参考訳) ドメインシフトの問題の解釈可能性と解決を目的とした、公正な機械学習モデルのトレーニングは、ここ数年で大きな関心を集めている。 これらのトピックには多くの作業があり、その大部分は分離にあります。 本研究では,不変表現を学習するための共通フレームワークとして捉えることができることを示す。 表現は、データセットをサブグループに分割するセンシティブな属性に不変であると同時に、ターゲットを予測することを可能にします。 提案手法は,任意の学習アルゴリズムが同じ特徴表現を持つ場合,サンプルを識別することは不可能である,という単純な観察に基づいている。 これはサブグループ間で共通の特徴表現を強制する追加の損失(レギュラライザー)として定式化されている。 公平なモデルを学び、センシティブな属性の影響を解釈するために適用する。 さらに、ごく少数の例からドメイン適応、知識の伝達、学習に効果的に使用できる。 すべてのアプリケーションにおいて、ターゲットを予測することを学ぶだけでなく、何を無視するかを学ぶことが不可欠です。

Training fair machine learning models, aiming for their interpretability and solving the problem of domain shift has gained a lot of interest in the last years. There is a vast amount of work addressing these topics, mostly in separation. In this work we show that they can be seen as a common framework of learning invariant representations. The representations should allow to predict the target while at the same time being invariant to sensitive attributes which split the dataset into subgroups. Our approach is based on the simple observation that it is impossible for any learning algorithm to differentiate samples if they have the same feature representation. This is formulated as an additional loss (regularizer) enforcing a common feature representation across subgroups. We apply it to learn fair models and interpret the influence of the sensitive attribute. Furthermore it can be used for domain adaptation, transferring knowledge and learning effectively from very few examples. In all applications it is essential not only to learn to predict the target, but also to learn what to ignore.
翻訳日:2021-04-04 17:06:30 公開日:2021-01-21
# 単変量アルゴリズムによる糖尿病患者における血糖値予測

Forecasting blood sugar levels in Diabetes with univariate algorithms ( http://arxiv.org/abs/2101.04770v2 )

ライセンス: Link先を確認
Ignacio Rodriguez(参考訳) ウェアラブルガジェットと結合したAIプロシージャは、正確な一過性の血糖レベル予測モデルを伝達することができる。 また、これらのモデルでは、生理状態のいくつかの部分と人の毎日の動きを観察して収集されたセンサー情報に依存する、カスタマイズされたグルコースインスリン要素を学習することができる。 この時点まで、情報駆動予測モデルを作成する主要な手法は、医師や患者が治療を理想的に変えるのに役立つ「期待できる限りの情報」を収集することであった。 この研究の目的は、正確な個別駆動型最小項期待モデルを達成するのに必要な基本情報のソート、ボリューム、速度を調べることである。 我々は、ウェアラブルプロセッサ内での実行に適したAIタイムアレンジメントガイダンス戦略を利用して、これらのモデルの進歩を構築した。 我々は,強い情報収集を行うために,真の状態に集中した広範囲の患者検査を完了した。 検査対象は1型糖尿病患者の一部で, 血糖値検査フレームワークを装着した。 我々は、生成した情報駆動予測モデルの提示とAI手法の比較に関する相対的な定量的評価を指示した。 以上の結果から, 短時間で間質性グルコース情報を確認し, 低検査再発率を生かして, 正確な瞬間予測が可能であった。 生成したモデルは、6時間以内に収集された24の記憶可能な品質だけを利用して15分のスカイライン内のグルコース濃度を15.43mg/dL以下に予測でき、検査を繰り返して72の品質を組み込むことにより、通常のブラダーは10.15mg/dLに制限される。 当社の予測モデルは、ウェアラブルガジェット内での実行に適しており、高い期待精度を同時に達成しつつ、基本機器を必要とする。

AI procedures joined with wearable gadgets can convey exact transient blood glucose level forecast models. Also, such models can learn customized glucose-insulin elements dependent on the sensor information gathered by observing a few parts of the physiological condition and every day movement of a person. Up to this point, the predominant methodology for creating information driven forecast models was to gather "however much information as could be expected" to help doctors and patients ideally change treatment. The goal of this work was to examine the base information assortment, volume, and speed needed to accomplish exact individual driven diminutive term expectation models. We built up a progression of these models utilizing distinctive AI time arrangement guaging strategies that are appropriate for execution inside a wearable processor. We completed a broad aloof patient checking concentrate in genuine conditions to fabricate a strong informational collection. The examination included a subset of type-1 diabetic subjects wearing a glimmer glucose checking framework. We directed a relative quantitative assessment of the presentation of the created information driven expectation models and comparing AI methods. Our outcomes show that precise momentary forecast can be accomplished by just checking interstitial glucose information over a brief timeframe and utilizing a low examining recurrence. The models created can anticipate glucose levels inside a 15-minute skyline with a normal mistake as low as 15.43 mg/dL utilizing just 24 memorable qualities gathered inside a time of 6 hours, and by expanding the inspecting recurrence to incorporate 72 qualities, the normal blunder is limited to 10.15 mg/dL. Our forecast models are reasonable for execution inside a wearable gadget, requiring the base equipment necessities while simultaneously accomplishing high expectation precision.
翻訳日:2021-04-04 01:40:17 公開日:2021-01-21
# 医用イメージングのための大規模トランスファー学習

Supervised Transfer Learning at Scale for Medical Imaging ( http://arxiv.org/abs/2101.05913v3 )

ライセンス: Link先を確認
Basil Mustafa, Aaron Loh, Jan Freyberg, Patricia MacWilliams, Megan Wilson, Scott Mayer McKinney, Marcin Sieniek, Jim Winkens, Yuan Liu, Peggy Bui, Shruthi Prabhakara, Umesh Telang, Alan Karthikesalingam, Neil Houlsby and Vivek Natarajan(参考訳) 転送学習は、限られたデータでタスクのパフォーマンスを改善するための標準技術である。 しかし, 医用画像では, 転校学習の価値はさほど明らかではない。 これは、通常の自然像事前学習(例)の間の大きなドメインミスマッチによる可能性がある。 画像ネット)と医療画像。 しかし、最近の転校学習の進歩は、規模から大きく改善されている。 医用画像における伝達学習の長所を現代的手法で変えられるかを検討する。 本研究では,kolesnikovらによる大規模事前学習ネットワークのクラスについて検討した。 胸部x線撮影, マンモグラフィ, 皮膚科の3つの画像診断課題について 医療領域における展開における転送性能と臨界特性の両方について検討し, 分散一般化, データ効率, サブグループ公平性, 不確実性推定などについて検討した。 興味深いことに、これらの性質のいくつかは、自然画像から医療画像への転送には極めて有効であるが、十分な規模で実行される場合に限られる。

Transfer learning is a standard technique to improve performance on tasks with limited data. However, for medical imaging, the value of transfer learning is less clear. This is likely due to the large domain mismatch between the usual natural-image pre-training (e.g. ImageNet) and medical images. However, recent advances in transfer learning have shown substantial improvements from scale. We investigate whether modern methods can change the fortune of transfer learning for medical imaging. For this, we study the class of large-scale pre-trained networks presented by Kolesnikov et al. on three diverse imaging tasks: chest radiography, mammography, and dermatology. We study both transfer performance and critical properties for the deployment in the medical domain, including: out-of-distribution generalization, data-efficiency, sub-group fairness, and uncertainty estimation. Interestingly, we find that for some of these properties transfer from natural to medical images is indeed extremely effective, but only when performed at sufficient scale.
翻訳日:2021-03-29 00:49:33 公開日:2021-01-21
# 二分決定木の別の表現法--数学的デモンストレーション

Yet Another Representation of Binary Decision Trees: A Mathematical Demonstration ( http://arxiv.org/abs/2101.07077v3 )

ライセンス: Link先を確認
Jinxiong Zhang(参考訳) 決定木はサイクルのない単純な計算グラフのように見え、葉ノードだけが出力値を指定し、非終端ノードがテストや分割条件を指定する。 数値的な観点からは、計算グラフの言語で決定木を表現する。 非終端ノードのビットベクトルに基づいて、決定木のテストフェーズ、トラバーサルフェーズ、予測フェーズを明示的にパラメータ化する。 後述するように、決定木は何らかの意味で浅いバイナリネットワークである。 特に,論理'and'演算を演算演算に変換することを核とする数値的手法でツリートラバーサルを実装するためにbitvector行列を導入する。 そして、この数値表現を多種多様な決定木を概念的に拡張し統一するために応用する。

A decision tree looks like a simple computational graph without cycles, where only the leaf nodes specify the output values and the non-terminals specify their tests or split conditions. From the numerical perspective, we express decision trees in the language of computational graph. We explicitly parameterize the test phase, traversal phase and prediction phase of decision trees based on the bitvectors of non-terminal nodes. As shown later, the decision tree is a shallow binary network in some sense. Especially, we introduce the bitvector matrix to implement the tree traversal in numerical approach, where the core is to convert the logical `AND' operation to arithmetic operations. And we apply this numerical representation to extend and unify diverse decision trees in concept.
翻訳日:2021-03-27 05:54:26 公開日:2021-01-21
# (参考訳) 代数トポロジーを用いたニューラルネットワークの構造特性決定

Determining Structural Properties of Artificial Neural Networks Using Algebraic Topology ( http://arxiv.org/abs/2101.07752v2 )

ライセンス: CC BY 4.0
David P\'erez Fern\'andez and Asier Guti\'errez-Fandi\~no and Jordi Armengol-Estap\'e and Marta Villegas(参考訳) 人工ニューラルネットワーク(ANN)は複雑な関数の近似に広く用いられている。 通常、特定の関数が与えられたANNの最も適切なアーキテクチャを定義するために従うプロセスは、主に経験的である。 このアーキテクチャが定義されると、通常はエラー関数に従って重みが最適化される。 一方、ANNはグラフとして表現でき、そのトポロジ的「フィンガープリント」は Persistent Homology (PH) を用いて得られる。 本稿では,より原則的なアーキテクチャ探索手順の設計に焦点を当てた提案について述べる。 これを実現するために、異種データセットに関連する問題を解くための異なるアーキテクチャが分析されている。 ANN密度(層とニューロン)またはサンプル摂食順序が唯一の差である場合、PHトポロジカル不変量は、異なるサブプロブレム(すなわち、異なるサブプロブレム)の反対方向に現れる。 異なるラベル) phは異なる。 トポロジカル分析に基づくこのアプローチは、より原則化されたアーキテクチャ検索手順を設計し、annをより理解することの目標に役立ちます。

Artificial Neural Networks (ANNs) are widely used for approximating complex functions. The process that is usually followed to define the most appropriate architecture for an ANN given a specific function is mostly empirical. Once this architecture has been defined, weights are usually optimized according to the error function. On the other hand, we observe that ANNs can be represented as graphs and their topological 'fingerprints' can be obtained using Persistent Homology (PH). In this paper, we describe a proposal focused on designing more principled architecture search procedures. To do this, different architectures for solving problems related to a heterogeneous set of datasets have been analyzed. The results of the evaluation corroborate that PH effectively characterizes the ANN invariants: when ANN density (layers and neurons) or sample feeding order is the only difference, PH topological invariants appear; in the opposite direction in different sub-problems (i.e. different labels), PH varies. This approach based on topological analysis helps towards the goal of designing more principled architecture search procedures and having a better understanding of ANNs.
翻訳日:2021-03-22 13:30:09 公開日:2021-01-21
# (参考訳) 深部特徴と手作り特徴の組み合わせによる新型コロナウイルスx線画像の分類

Classification of COVID-19 X-ray Images Using a Combination of Deep and Handcrafted Features ( http://arxiv.org/abs/2101.07866v2 )

ライセンス: CC0 1.0
Weihan Zhang, Bryan Pogorelsky, Mark Loveland, Trevor Wolf(参考訳) コロナウイルス病2019(COVID-19)は、早発性ウイルス病の正確な迅速診断方法の必要性を示した。 新型コロナウイルス(covid-19)の出現から間もなく、医療従事者は患者の肺のx線画像とct画像を使用してcovid-19を検出した。 機械学習の手法は、x線やct画像におけるcovid-19の識別精度を高め、ほぼリアルタイムで結果を提供すると同時に、医療従事者の負担を軽減することができる。 本研究では,x線胸部スキャンから抽出した深部畳み込み特徴と手作り特徴を組み合わせて訓練したサポートベクターマシン(svm)分類器の有効性を示す。 この機能を組み合わせることで、健康な肺炎、一般的な肺炎、およびcovid-19患者を区別することができる。 複合機能アプローチのパフォーマンスは、標準的な畳み込みニューラルネットワーク(CNN)と手作り機能で訓練されたSVMと比較される。 新たなフレームワークの機能を組み合わせることで,畳み込みと手工芸の独立的な応用と比較して,分類作業のパフォーマンスが向上することがわかった。 具体的には,SVM と CNN のハンドクラフト特徴に対して 0.963 と 0.983 との組み合わせによる分類作業において 0.988 の精度を実現する。

Coronavirus Disease 2019 (COVID-19) demonstrated the need for accurate and fast diagnosis methods for emergent viral diseases. Soon after the emergence of COVID-19, medical practitioners used X-ray and computed tomography (CT) images of patients' lungs to detect COVID-19. Machine learning methods are capable of improving the identification accuracy of COVID-19 in X-ray and CT images, delivering near real-time results, while alleviating the burden on medical practitioners. In this work, we demonstrate the efficacy of a support vector machine (SVM) classifier, trained with a combination of deep convolutional and handcrafted features extracted from X-ray chest scans. We use this combination of features to discriminate between healthy, common pneumonia, and COVID-19 patients. The performance of the combined feature approach is compared with a standard convolutional neural network (CNN) and the SVM trained with handcrafted features. We find that combining the features in our novel framework improves the performance of the classification task compared to the independent application of convolutional and handcrafted features. Specifically, we achieve an accuracy of 0.988 in the classification task with our combined approach compared to 0.963 and 0.983 accuracy for the handcrafted features with SVM and CNN respectively.
翻訳日:2021-03-22 12:40:46 公開日:2021-01-21
# (参考訳) 教師なし言語間検索のための多言語テキストエンコーダの評価

Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval ( http://arxiv.org/abs/2101.08370v1 )

ライセンス: CC BY-SA 4.0
Robert Litschko and Ivan Vuli\'c and Simone Paolo Ponzetto and Goran Glava\v{s}(参考訳) マルチリンガルBERT(mBERT)やXLMのようなニューラルトランスフォーマーアーキテクチャに基づく事前訓練された多言語テキストエンコーダは、多言語理解タスクにおいて高いパフォーマンスを達成している。 その結果、多言語および多言語間表現学習と伝達のためのゴートパラダイムとして採用され、言語間単語埋め込み(CLWE)は事実上廃れた。 しかし、この発見は(1)教師なしの設定に一般化し、(2)アドホックなクロスリンガルIR(CLIR)タスクに対して疑問が残る。 そこで本研究では,多数の言語対を横断する言語間文書および文検索タスクのための最先端の多言語エンコーダの適合性に着目した体系的実証研究を行う。 教師付き言語理解とは対照的に,教師なしの文書レベルclir(ir固有の微調整の関連性判定を含まない設定)では,clwesに基づくモデルを大幅に上回ってはいない。 文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。 しかし、ピーク性能は汎用多言語テキストエンコーダ「off-the-shelf」ではなく、文理解タスクにさらに特化された派生型に依存する。

Pretrained multilingual text encoders based on neural Transformer architectures, such as multilingual BERT (mBERT) and XLM, have achieved strong performance on a myriad of language understanding tasks. Consequently, they have been adopted as a go-to paradigm for multilingual and cross-lingual representation learning and transfer, rendering cross-lingual word embeddings (CLWEs) effectively obsolete. However, questions remain to which extent this finding generalizes 1) to unsupervised settings and 2) for ad-hoc cross-lingual IR (CLIR) tasks. Therefore, in this work we present a systematic empirical study focused on the suitability of the state-of-the-art multilingual encoders for cross-lingual document and sentence retrieval tasks across a large number of language pairs. In contrast to supervised language understanding, our results indicate that for unsupervised document-level CLIR -- a setup with no relevance judgments for IR-specific fine-tuning -- pretrained encoders fail to significantly outperform models based on CLWEs. For sentence-level CLIR, we demonstrate that state-of-the-art performance can be achieved. However, the peak performance is not met using the general-purpose multilingual text encoders `off-the-shelf', but rather relying on their variants that have been further specialized for sentence understanding tasks.
翻訳日:2021-03-21 23:38:00 公開日:2021-01-21
# (参考訳) CNNに基づくペアワイズサブシーケンスアライメントスコア予測を用いたモチーフ同定

Motif Identification using CNN-based Pairwise Subsequence Alignment Score Prediction ( http://arxiv.org/abs/2101.08385v1 )

ライセンス: CC BY 4.0
Ethan Jacob Moyer and Anup Das(参考訳) バイオインフォマティクスにおける一般的な問題は、モチーフの比較的高い頻度で特徴付けられる遺伝子制御領域や、転写やエンハンサータンパク質をコードするデオキシリボ核酸配列を特定することである。 サブシーケンスのk-mersと所定のモチーフとのアライメントスコアの予測は、これらのタンパク質の転写に対応する遺伝子の候補調節領域の同定を可能にする。 与えられたモチーフパターンと相互作用するk-merフォーマット配列に基づいて訓練された1次元(1-D)畳み込みニューラルネットワークを提案し、コンセンサスモチーフとサブシーケンスk-mer間のペアのアライメントスコアを予測する。 本モデルでは, 1次元畳み込み層, バッチ正規化層, 高密度層, 1次元最大プーリング層からなる15層からなる。 dna配列にランダムに挿入されたモチーフパターンの異なる4つの異なるデータセットについて平均二乗誤差損失を用いてモデルをトレーニングする。最初の3つのデータセットは、挿入されたモチーフに適用される0、1、および2つの変異を持ち、第4のデータセットは挿入されたモチーフを位置特異的確率行列として表現する。 モデルの性能を評価するために提案された新しい指標である$S_{\alpha}$は、Jaccard Indexに基づいています。 モデルの評価には10倍のクロスバリデーションを使用します。 そこで、$s_{\alpha}$を用いて、選択された$\alpha$領域内の実際のスコアと一致する予測スコアの15-merインデックスを識別することにより、モデルの精度を測定する。 最も優れたデータセットについては、サンプルデータから上位15のモチーフの平均99.3%が1つのベースペアのストライド(\alpha = 1$)内で正しく識別されたことを示している。 私たちの知る限りでは、これはインテリジェントな方法でフォーマットされたデータを機械学習を使って外挿する方法を示す、新しいアプローチです。

A common problem in bioinformatics is related to identifying gene regulatory regions marked by relatively high frequencies of motifs, or deoxyribonucleic acid sequences that often code for transcription and enhancer proteins. Predicting alignment scores between subsequence k-mers and a given motif enables the identification of candidate regulatory regions in a gene, which correspond to the transcription of these proteins. We propose a one-dimensional (1-D) Convolution Neural Network trained on k-mer formatted sequences interspaced with the given motif pattern to predict pairwise alignment scores between the consensus motif and subsequence k-mers. Our model consists of fifteen layers with three rounds of a one-dimensional convolution layer, a batch normalization layer, a dense layer, and a 1-D maximum pooling layer. We train the model using mean squared error loss on four different data sets each with a different motif pattern randomly inserted in DNA sequences: the first three data sets have zero, one, and two mutations applied on each inserted motif, and the fourth data set represents the inserted motif as a position-specific probability matrix. We use a novel proposed metric in order to evaluate the model's performance, $S_{\alpha}$, which is based on the Jaccard Index. We use 10-fold cross validation to evaluate out model. Using $S_{\alpha}$, we measure the accuracy of the model by identifying the 15 highest-scoring 15-mer indices of the predicted scores that agree with that of the actual scores within a selected $\alpha$ region. For the best performing data set, our results indicate on average 99.3% of the top 15 motifs were identified correctly within a one base pair stride ($\alpha = 1$) in the out of sample data. To the best of our knowledge, this is a novel approach that illustrates how data formatted in an intelligent way can be extrapolated using machine learning.
翻訳日:2021-03-21 23:14:50 公開日:2021-01-21
# (参考訳) 情報理論の観点からみたブロックと階層的不整合表現

Blocked and Hierarchical Disentangled Representation From Information Theory Perspective ( http://arxiv.org/abs/2101.08408v1 )

ライセンス: CC BY 4.0
Ziwen Liu, Mingqiang Li, Congying Han(参考訳) 本稿では,新しい理論モデルであるブロック型および階層型変分オートエンコーダ(bhivae)を提案する。 情報理論がネットワークにとって優れた説明的意味を持つことはよく知られているので,情報理論の観点からも問題を解く。 BHiVAEは主に情報ボトルネック理論と情報最大化原理に由来する。 1)ニューロンブロックは1つのニューロンノードだけでなく、十分な情報を含むことができる属性を表現できる。(2)異なるレイヤに異なる属性を持つ階層構造を作成することにより、各レイヤに情報を分割し、最終的な表現が歪むことを保証する。 さらに,各ブロック間の情報の分離に主に差が反映されるBHiVAEについて,教師付き・教師なしのBHiVAEを提案する。 BHiVAEでは、ラベル情報を標準として利用してブロックを分離する。 教師なしBHiVAEでは、余分な情報なしで、独立性を達成するためにトータル相関(TC)尺度を使用し、表現学習を導くために潜在空間の新しい事前分布を設計する。 また,実験において優れた不等角化結果を示し,表現学習において優れた分類精度を示す。

We propose a novel and theoretical model, blocked and hierarchical variational autoencoder (BHiVAE), to get better-disentangled representation. It is well known that information theory has an excellent explanatory meaning for the network, so we start to solve the disentanglement problem from the perspective of information theory. BHiVAE mainly comes from the information bottleneck theory and information maximization principle. Our main idea is that (1) Neurons block not only one neuron node is used to represent attribute, which can contain enough information; (2) Create a hierarchical structure with different attributes on different layers, so that we can segment the information within each layer to ensure that the final representation is disentangled. Furthermore, we present supervised and unsupervised BHiVAE, respectively, where the difference is mainly reflected in the separation of information between different blocks. In supervised BHiVAE, we utilize the label information as the standard to separate blocks. In unsupervised BHiVAE, without extra information, we use the Total Correlation (TC) measure to achieve independence, and we design a new prior distribution of the latent space to guide the representation learning. It also exhibits excellent disentanglement results in experiments and superior classification accuracy in representation learning.
翻訳日:2021-03-21 22:37:27 公開日:2021-01-21
# (参考訳) 未知雑音統計を用いたMIMOシステムの学習に基づく信号検出

Learning based signal detection for MIMO systems with unknown noise statistics ( http://arxiv.org/abs/2101.08435v1 )

ライセンス: CC BY 4.0
Ke He, Le He, Lisheng Fan, Yansha Deng, George K. Karagiannidis, and Arumugam Nallanathan(参考訳) 本稿では,Multiple-input multiple-output (MIMO)システムにおいて,未知の雑音統計を持つ信号を頑健に検出する一般化最大度推定器を提案する。 実際には、システムノイズに関する統計的知識はほとんど、あるいは全く存在せず、多くの場合、非ガウス的であり、衝動的であり分析不可能である。 既存の検出手法は主に特定のノイズモデルに焦点を合わせており、未知のノイズ統計量では十分に堅牢ではない。 この問題に対処するために,所望の信号を効果的に回復する新しいML検出フレームワークを提案する。 我々のフレームワークは、正規化フローを通して未知の雑音分布を効率的に近似できる完全確率的手法である。 重要なことに、このフレームワークは、ノイズサンプルのみを必要とする教師なし学習アプローチによって駆動される。 計算複雑性を低減するために,初期推定を利用して探索空間を小さくすることで,低複雑さのフレームワークを提案する。 シミュレーションの結果,本フレームワークは非解析ノイズ環境でのビット誤り率(BER)で他の既存アルゴリズムよりも優れており,解析ノイズ環境でのML性能に到達できることがわかった。 この論文のコードはhttps://github.com/skypitcher/manfe.comで入手できる。

This paper aims to devise a generalized maximum likelihood (ML) estimator to robustly detect signals with unknown noise statistics in multiple-input multiple-output (MIMO) systems. In practice, there is little or even no statistical knowledge on the system noise, which in many cases is non-Gaussian, impulsive and not analyzable. Existing detection methods have mainly focused on specific noise models, which are not robust enough with unknown noise statistics. To tackle this issue, we propose a novel ML detection framework to effectively recover the desired signal. Our framework is a fully probabilistic one that can efficiently approximate the unknown noise distribution through a normalizing flow. Importantly, this framework is driven by an unsupervised learning approach, where only the noise samples are required. To reduce the computational complexity, we further present a low-complexity version of the framework, by utilizing an initial estimation to reduce the search space. Simulation results show that our framework outperforms other existing algorithms in terms of bit error rate (BER) in non-analytical noise environments, while it can reach the ML performance bound in analytical noise environments. The code of this paper is available at https://github.com/skypitcher/manfe.
翻訳日:2021-03-21 22:18:27 公開日:2021-01-21
# (参考訳) 運動活動と心電図記録との関連性の解析

Analysis of Relation between Motor Activity and Imaginary EEG Records ( http://arxiv.org/abs/2101.10215v1 )

ライセンス: CC BY 4.0
Enver Kaan Alpturk, Yakup Kutlu(参考訳) 脳波(EEG)信号は脳の構造を学習し、何を考えているかを学ぶためにしばしば用いられる。 脳波信号は外部因子によって容易に影響を受ける。 そのため、分析中に様々な事前処理を適用する必要がある。 本研究では,左右の拳を開閉し,手足の動作を行い,同じ動きを想像する際に,被験者109名から受信した脳波信号を用いた。 運動活動とその運動活動の想像力の関係について検討した。 性能の高いアルゴリズムは、最も近い隣り合うアルゴリズムを用いて特徴抽出、選択、分類に使われている。

Electroencephalography (EEG) signals signals are often used to learn about brain structure and to learn what thinking. EEG signals can be easily affected by external factors. For this reason, they should be applied various pre-process during their analysis. In this study, it is used the EEG signals received from 109 subjects when opening and closing their right or left fists and performing hand and foot movements and imagining the same movements. The relationship between motor activities and imaginary of that motor activities were investigated. Algorithms with high performance rates have been used for feature extraction , selection and classification using the nearest neighbour algorithm.
翻訳日:2021-03-21 21:52:49 公開日:2021-01-21
# (参考訳) UNIT: テンソル化命令コンパイルの統合

UNIT: Unifying Tensorized Instruction Compilation ( http://arxiv.org/abs/2101.08458v1 )

ライセンス: CC BY 4.0
Jian Weng, Animesh Jain, Jie Wang, Leyuan Wang, Yida Wang, and Tony Nowatzki(参考訳) DNNにおける計算の需要が高まっているため、研究者は計算とメモリの負担を軽減するため、ハードウェアとソフトウェアの両方のメカニズムを開発した。 広く採用されているアプローチは、混合精度データ型を使用することである。 しかし,データキャスティングのオーバーヘッドのため,ハードウェアサポートを伴わない混合精度の活用は困難である。 ハードウェアベンダは、Intel VNNI、Tensor Core、ARM-DOTなどの混合精度テンソル操作のためのテンソル化命令を提供する。 これらの命令は、複数の低精度要素を1つの高精度要素に還元する計算イディオムを含む。 計算集約的なカーネルにベンダが提供するライブラリを使用することは柔軟性がなく、さらなる最適化を防ぎ、ハードウェア固有の手作業による記述はエラーを起こしやすく、プログラマにとって困難である。 以前の作業では、各命令用のコンパイラを作成することでこの問題に対処していた。 これは多くのテンソル化された命令に関して過剰な労力を必要とする。 本研究では,これらの命令のコンパイルを統一するコンパイラフレームワークを開発する。統一されたセマンティックス抽象化により,新しい命令の統合が容易になり,解析と変換が再利用される。 異なるプラットフォームからのテンソル化命令はUNITを通じて適切なパフォーマンスのために適度な努力でコンパイルできる。 テンソル化命令とテンソル演算が与えられた後、UNITは自動的に適用性を検出し、操作のループ構造を変換し、ループ本体を書き換えてテンソル化命令を利用する。 評価によると、UNITは様々な主要なハードウェアプラットフォームをターゲットにすることができる。 生成されたエンドツーエンド推論モデルは、x86 CPU上のIntel oneDNNの1.3倍のスピードアップ、NvidiaGPU上のNvidia cuDNNの1.75倍のスピードアップ、ARM CPU上のARM DOT用の注意深く調整されたTVMソリューションの1.13倍のスピードアップを達成する。

Because of the increasing demand for computation in DNN, researchers develope both hardware and software mechanisms to reduce the compute and memory burden. A widely adopted approach is to use mixed precision data types. However, it is hard to leverage mixed precision without hardware support because of the overhead of data casting. Hardware vendors offer tensorized instructions for mixed-precision tensor operations, like Intel VNNI, Tensor Core, and ARM-DOT. These instructions involve a computing idiom that reduces multiple low precision elements into one high precision element. The lack of compilation techniques for this makes it hard to utilize these instructions: Using vendor-provided libraries for computationally-intensive kernels is inflexible and prevents further optimizations, and manually writing hardware intrinsics is error-prone and difficult for programmers. Some prior works address this problem by creating compilers for each instruction. This requires excessive effort when it comes to many tensorized instructions. In this work, we develop a compiler framework to unify the compilation for these instructions -- a unified semantics abstraction eases the integration of new instructions, and reuses the analysis and transformations. Tensorized instructions from different platforms can be compiled via UNIT with moderate effort for favorable performance. Given a tensorized instruction and a tensor operation, UNIT automatically detects the applicability, transforms the loop organization of the operation,and rewrites the loop body to leverage the tensorized instruction. According to our evaluation, UNIT can target various mainstream hardware platforms. The generated end-to-end inference model achieves 1.3x speedup over Intel oneDNN on an x86 CPU, 1.75x speedup over Nvidia cuDNN on an NvidiaGPU, and 1.13x speedup over a carefully tuned TVM solution for ARM DOT on an ARM CPU.
翻訳日:2021-03-21 20:14:13 公開日:2021-01-21
# (参考訳) Q-Rough セットによる映像からの火災検知

Fire Threat Detection From Videos with Q-Rough Sets ( http://arxiv.org/abs/2101.08459v1 )

ライセンス: CC BY 4.0
Debarati B. Chakrabortya, Vinay Detania and Shah Parshv Jigneshkumar(参考訳) 本稿では,ビデオストリームからの非監視火災領域分割と火災脅威検出のための新しい手法について述べる。 火の制御は人類文明に多くの目的をもたらすが、その拡散が制御不能になると同時に脅威となる可能性がある。 火災地域区分や火災非火災分類には多くの方法がある。 しかし、火災に関連する脅威を決定するアプローチは比較的脆弱であり、そのような監視されていない方法はまだ定式化されていない。 本稿では, 火災の脅威を定量化し, 屋内および屋外における自動監視システムにおいてアラームを発生させる未監視手法の開発に焦点をあてる。 手動介入/ラベル付きデータセットのないファイアリージョンセグメンテーションは、そのようなメソッドを定式化しながら大きな課題となる。 ここでは, 火災領域を近似し, 事前情報がないため, 知識ベースの不完全性を管理するために, 粗い近似を用いた。 q-learningの実用的最大化は、粗い近似の曖昧さを最小化するために用いられてきた。 そこで開発された新しい集合近似法はQ-rough集合と呼ばれる。 ビデオフレームからの消火領域のセグメンテーションに使用される。 入力されたビデオストリーム上の火炎に対する脅威指数は、最近のフレームの火炎セグメントの相対的な成長と同期して定義されている。 ここで定義されたすべての理論と指標は、デモや比較を通じて様々な種類のファイアビデオで実験的に検証され、芸術の状況よりも優れている。

This article defines new methods for unsupervised fire region segmentation and fire threat detection from video stream. Fire in control serves a number of purposes to human civilization, but it could simultaneously be a threat once its spread becomes uncontrolled. There exists many methods on fire region segmentation and fire non-fire classification. But the approaches to determine the threat associated with fire is relatively scare, and no such unsupervised method has been formulated yet. Here we focus on developing an unsupervised method with which the threat of fire can be quantified and accordingly generate an alarm in automated surveillance systems in indoor as well as in outdoors. Fire region segmentation without any manual intervention/ labelled data set is a major challenge while formulating such a method. Here we have used rough approximations to approximate the fire region, and to manage the incompleteness of the knowledge base, due to absence of any prior information. Utility maximization of Q-learning has been used to minimize ambiguities in the rough approximations. The new set approximation method, thus developed here, is named as Q-rough set. It is used for fire region segmentation from video frames. The threat index of fire flame over the input video stream has been defined in sync with the relative growth in the fire segments on the recent frames. All theories and indices defined here have been experimentally validated with different types of fire videos, through demonstrations and comparisons, as superior to the state of the art.
翻訳日:2021-03-21 19:30:43 公開日:2021-01-21
# (参考訳) COLLIDE-PRED:サーベイランスビデオからのオンロード衝突予測

COLLIDE-PRED: Prediction of On-Road Collision From Surveillance Videos ( http://arxiv.org/abs/2101.08463v1 )

ライセンス: CC BY 4.0
Deesha Chavan, Dev Saad and Debarati B. Chakraborty(参考訳) 交通事故や交通違反などの道路上の異常を予測することは、交通監視において難しい課題である。 このような予測を事前に行えば、多くのダメージをコントロールできる。 ここでは、コンピュータビジョンとディープネットワークを用いた交通監視ビデオにおける自動衝突予測のソリューションを定式化しようとした。 対象の検出、追跡、軌道推定、衝突予測を含む。 本研究では,ビデオ中の衝突を予測するために,移動物体の過去および将来の軌跡情報をインテリジェントに統合した衝突予測システムcollaboration-predを提案する。 物体の追跡に使用される物体検出から始まり、衝突検出によって結論付ける軌道予測を行うパイプラインである。 衝突の可能性のある場所と衝突の原因となる可能性のある物体は、どちらも衝突によって正しく識別できる。 提案手法は様々なビデオを用いて実験的に検証され,事故の特定に有効であることが証明された。

Predicting on-road abnormalities such as road accidents or traffic violations is a challenging task in traffic surveillance. If such predictions can be done in advance, many damages can be controlled. Here in our wok, we tried to formulate a solution for automated collision prediction in traffic surveillance videos with computer vision and deep networks. It involves object detection, tracking, trajectory estimation, and collision prediction. We propose an end-to-end collision prediction system, named as COLLIDE-PRED, that intelligently integrates the information of past and future trajectories of moving objects to predict collisions in videos. It is a pipeline that starts with object detection, which is used for object tracking, and then trajectory prediction is performed which concludes by collision detection. The probable place of collision, and the objects those may cause the collision, both can be identified correctly with COLLIDE-PRED. The proposed method is experimentally validated with a number of different videos and proves to be effective in identifying accident in advance.
翻訳日:2021-03-21 18:50:43 公開日:2021-01-21
# (参考訳) 簡易分子入力線入力システムによる薬剤候補の毒性検出

Toxicity Detection in Drug Candidates using Simplified Molecular-Input Line-Entry System ( http://arxiv.org/abs/2101.10831v1 )

ライセンス: CC BY 4.0
Mriganka Nath and Subhasish Goswami(参考訳) 新たな薬物候補における毒性の分析の必要性と、それを迅速に行うことの必要性は、人工知能ツールを用いて毒性レベルを調べ、将来薬物の毒性レベルを効率的に測定するために商業的に使用できる程度までモデルを開発するよう科学者に求めている。 人工知能に基づくモデルは、定量的構造活性相関法を用いて化学物質の毒性を予測するために用いられる。 畳み込みニューラルネットワークモデルは、毒性を決定するために化学物質の質的分析を予測する大きな結果を示した。 本稿では, 分子の毒性と, 実世界の応用に向けての今後の展望とともに, 実用上のニーズを満たすために, 長期記憶(LSTM)に基づくモデルを開発するためのパラメータとして, SMILES(Simplified Molecular Input Line-Entry System)について検討する。

The need for analysis of toxicity in new drug candidates and the requirement of doing it fast have asked the consideration of scientists towards the use of artificial intelligence tools to examine toxicity levels and to develop models to a degree where they can be used commercially to measure toxicity levels efficiently in upcoming drugs. Artificial Intelligence based models can be used to predict the toxic nature of a chemical using Quantitative Structure Activity Relationship techniques. Convolutional Neural Network models have demonstrated great outcomes in predicting the qualitative analysis of chemicals in order to determine the toxicity. This paper goes for the study of Simplified Molecular Input Line-Entry System (SMILES) as a parameter to develop Long short term memory (LSTM) based models in order to examine the toxicity of a molecule and the degree to which the need can be fulfilled for practical use alongside its future outlooks for the purpose of real world applications.
翻訳日:2021-03-21 18:43:59 公開日:2021-01-21
# (参考訳) マルチメディア呼吸データベース(respiratorydatabase@tr):聴診音と胸部x線

Multimedia Respiratory Database (RespiratoryDatabase@TR): Auscultation Sounds and Chest X-rays ( http://arxiv.org/abs/2101.10946v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu, Yusuf Garbi, Adnan Ozhan Pekmezci, Serkan Nural(参考訳) オースカルテーション(英: Auscultation)は、心臓、肺、心肺などの特に内科疾患を、体内の音を聴くことによって診断する方法である。 臨床スキルの評価過程において、最も単純かつ最も一般的な身体検査である。 本研究は,アンタクヤ州立病院の2台のデジタル聴診器を用いて,左右胸壁と胸壁の左右から肺と心臓の音を同期的に記録するものである。 胸部x線, 肺機能検査値, スピロメトリー曲線, st. george respiratory questionnaire (sgrq-c) をマルチメディアおよび臨床機能解析変数として収集した。 心臓音の4チャンネルは、大動脈、肺、三尖部、僧帽弁領域に焦点を当てている。 肺音の12チャンネルは、上肺、中肺、下肺、胸部および前胸部の気道角度領域に焦点が当てられている。 対象者の胸部X線, PFT, 聴診音を評価した結果, 2人の肺科医が記録を検証, ラベル付けした。 データベースは健常者30名,気管支喘息,慢性閉塞性肺疾患,気管支炎などの肺疾患患者45名からなる。 胸部X線とPFTの併用能力、肺の同期評価能力、胸部X線を用いた呼吸の画像処理解析、肺疾患および心臓疾患における肺の音と心臓の音の両方の分析を改善する機会を提供する。

Auscultation is a method for diagnosis of especially internal medicine diseases such as cardiac, pulmonary and cardio-pulmonary by listening the internal sounds from the body parts. It is the simplest and the most common physical examination in the assessment processes of the clinical skills. In this study, the lung and heart sounds are recorded synchronously from left and right sides of posterior and anterior chest wall and back using two digital stethoscopes in Antakya State Hospital. The chest X-rays and the pulmonary function test variables and spirometric curves, the St. George respiratory questionnaire (SGRQ-C) are collected as multimedia and clinical functional analysis variables of the patients. The 4 channels of heart sounds are focused on aortic, pulmonary, tricuspid and mitral areas. The 12 channels of lung sounds are focused on upper lung, middle lung, lower lung and costophrenic angle areas of posterior and anterior sides of the chest. The recordings are validated and labelled by two pulmonologists evaluating the collected chest x-ray, PFT and auscultation sounds of the subjects. The database consists of 30 healthy subjects and 45 subjects with pulmonary diseases such as asthma, chronic obstructive pulmonary disease, bronchitis. The novelties of the database are the combination ability between auscultation sound results, chest X-ray and PFT; synchronously assessment capability of the lungs sounds; image processing based computerized analysis of the respiratory using chest X-ray and providing opportunity for improving analysis of both lung sounds and heart sounds on pulmonary and cardiac diseases.
翻訳日:2021-03-21 18:19:44 公開日:2021-01-21
# (参考訳) 障害者支援のためのオンラインldaベース脳コンピューターインタフェースシステム

Online LDA based brain-computer interface system to aid disabled people ( http://arxiv.org/abs/2101.11435v1 )

ライセンス: CC BY 4.0
Apdullah Yayik, Yakup Kutlu(参考訳) 本研究の目的は、日常生活の障害者を支援する脳波に基づく脳-コンピューターインタフェースシステムの開発である。 このシステムは最も効果的な事象関連電位波 P300 に依存しており、これは奇異球のパラダイムによって引き起こされる。 開発されたアプリケーションには基本的なインタラクションツールがあり、障害者が関連するオブジェクトを選択する他の人にニーズを伝えることができる。 これらのオブジェクトはコンピュータ画面上のビジュアルインターフェースに擬似ランダムにフラッシュする。 ユーザーは必要なニーズを伝達するために関連するオブジェクトに焦点を合わせる必要がある。 取得した14チャネル脳波信号のP300波を検出し、15秒で線形判別分析分類器を用いて分類することで、所望の要求を正しく伝達することができる。 開発したbciシステムを検証するために,19名のボランティアで実験を行った。 その結果、オンラインのパフォーマンスにおいて精度が90.83%に達する。

This paper aims to develop brain-computer interface system based on electroencephalography that can aid disabled people in daily life. The system relies on one of the most effective event-related potential wave, P300, which can be elicited by oddball paradigm. Developed application has a basic interaction tool that enables disabled people to convey their needs to other people selecting related objects. These objects pseudo-randomly flash in a visual interface on computer screen. The user must focus on related object to convey desired needs. The system can convey desired needs correctly by detecting P300 wave in acquired 14-channel EEG signal and classifying using linear discriminant analysis classifier just in 15 seconds. Experiments have been carried out on 19 volunteers to validate developed BCI system. As a result, accuracy rate of 90.83% is achieved in online performance
翻訳日:2021-03-21 18:08:27 公開日:2021-01-21
# (参考訳) 脳活動解析のためのディープラーニングのための生成オートエンコーダカーネル

Generative Autoencoder Kernels on Deep Learning for Brain Activity Analysis ( http://arxiv.org/abs/2101.10263v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu(参考訳) deep learning (dl) は2段階の分類モデルであり、教師なしの手法による特徴表現の生成と、ニューラルネットワークに依存した完全連結層による提案構造上の少なくとも2つの隠れレイヤを用いたモデルの最終段階における教師付き学習ステージを生成する。 教師付きモデルに対する事前定義された分類パラメータの最適化は、正確なゼロトレーニング誤差で大域的最適性に到達するのを容易にする。 オートエンコーダ(AE)モデルは、隠されたニューロンの出力重みを様々な表現で定義するために、DLの教師なし段階の高度に一般化された方法である。 従来の Extreme Learning Machines (ELM) AE の代替として、ヘッセンバーグ分解に基づくEMMオートエンコーダ (HessELM-AE) は、モデルが意図したサイズで入力データの異なる表示を生成する新しいカーネルである。 本研究の目的は、脳卒中患者に対する脳波検査(EEG)における新しいDeep AEカーネルの性能分析である。 Hilbert-Huang Transform を用いた8回の神経フィードバックセッションにおける脳卒中患者の遅い皮質電位(SCP)訓練について検討した。 異なる周波数変調の統計的特徴を生成型AEカーネルのためのディープEMMモデルに入力した。 新たなELM-AEカーネルは脳卒中患者の肯定性および否定性タスクに対する高い分類性能で脳活動を識別している。

Deep Learning (DL) is a two-step classification model that consists feature learning, generating feature representations using unsupervised ways and the supervised learning stage at the last step of model using at least two hidden layers on the proposed structures by fully connected layers depending on of the artificial neural networks. The optimization of the predefined classification parameters for the supervised models eases reaching the global optimality with exact zero training error. The autoencoder (AE) models are the highly generalized ways of the unsupervised stages for the DL to define the output weights of the hidden neurons with various representations. As alternatively to the conventional Extreme Learning Machines (ELM) AE, Hessenberg decomposition-based ELM autoencoder (HessELM-AE) is a novel kernel to generate different presentations of the input data within the intended sizes of the models. The aim of the study is analyzing the performance of the novel Deep AE kernel for clinical availability on electroencephalogram (EEG) with stroke patients. The slow cortical potentials (SCP) training in stroke patients during eight neurofeedback sessions were analyzed using Hilbert-Huang Transform. The statistical features of different frequency modulations were fed into the Deep ELM model for generative AE kernels. The novel Deep ELM-AE kernels have discriminated the brain activity with high classification performances for positivity and negativity tasks in stroke patients.
翻訳日:2021-03-21 17:56:59 公開日:2021-01-21
# (参考訳) 畳み込みニューラルネットワークに対する深層学習マシンの優位性

Superiorities of Deep Extreme Learning Machines against Convolutional Neural Networks ( http://arxiv.org/abs/2101.10265v1 )

ライセンス: CC BY 4.0
Gokhan Altan, Yakup Kutlu(参考訳) Deep Learning(DL)は、ニューラルネットワークのサイズと隠されたレイヤの数を増やすことで、入力データを詳細に分析する人工知能のための機械学習手順である。 DLはグラフィカル処理ユニット機能の一般的な改善で人気がある。 各層および隠れ層におけるニューロンサイズの増加は、分類器モデルの計算時間および訓練速度に直接関係している。 ニューロンの重み、出力の重み、バイアスを含む分類パラメータを最適化して最適なモデルを得る必要がある。 一般的なdlアルゴリズムの多くは、特徴学習の進歩とバックプロシージャを持つパラメータの最適化に長い訓練時間を必要とする。 トレーニング時間を短縮し、リアルタイムな意思決定システムを提供することが、新しいアプローチの基本的焦点である。 ディープ・エクストリーム・ラーニング・マシン(deep extreme learning machines、ディープ・エルム)分類モデルは、高速な分類問題を解決する最も速く効果的な方法の1つである。 本研究では,畳み込みニューラルネットワークに基づくdlアルゴリズムに対する分類器に適合する問題である,深層elmモデルとその優位性と弱点について論じる。

Deep Learning (DL) is a machine learning procedure for artificial intelligence that analyzes the input data in detail by increasing neuron sizes and number of the hidden layers. DL has a popularity with the common improvements on the graphical processing unit capabilities. Increasing number of the neuron sizes at each layer and hidden layers is directly related to the computation time and training speed of the classifier models. The classification parameters including neuron weights, output weights, and biases need to be optimized for obtaining an optimum model. Most of the popular DL algorithms require long training times for optimization of the parameters with feature learning progresses and back-propagated training procedures. Reducing the training time and providing a real-time decision system are the basic focus points of the novel approaches. Deep Extreme Learning machines (Deep ELM) classifier model is one of the fastest and effective way to meet fast classification problems. In this study, Deep ELM model, its superiorities and weaknesses are discussed, the problems that are more suitable for the classifiers against Convolutional neural network based DL algorithms.
翻訳日:2021-03-21 17:46:09 公開日:2021-01-21
# (参考訳) トルコの自然言語処理研究における課題

Challenges Encountered in Turkish Natural Language Processing Studies ( http://arxiv.org/abs/2101.11436v1 )

ライセンス: CC BY 4.0
Kadir Tohma, Yakup Kutlu(参考訳) 自然言語処理は、人工知能と言語学を組み合わせたコンピュータ科学の分野である。 ソフトウェアで書いたり話したりといった言語要素を分析し、それを情報に変換することを目的としている。 各言語には独自の文法規則と語彙の多様性があるので、この分野の研究の複雑さはある程度理解できる。 例えば、トルコ語は多くの点で非常に興味深い言語です。 例えば、凝集語構造、子音/母音調和、多くの生産的導出的形態素(実際には無限の語彙)、導出と構文の関係、語彙と音韻規則の複雑な強調などがある。 本研究では,トルコ語の自然言語処理における興味深い特徴について述べる。 また,トルコ語向けに開発された自然言語処理技術,システム,各種資料の要約情報も提供される。

Natural language processing is a branch of computer science that combines artificial intelligence with linguistics. It aims to analyze a language element such as writing or speaking with software and convert it into information. Considering that each language has its own grammatical rules and vocabulary diversity, the complexity of the studies in this field is somewhat understandable. For instance, Turkish is a very interesting language in many ways. Examples of this are agglutinative word structure, consonant/vowel harmony, a large number of productive derivational morphemes (practically infinite vocabulary), derivation and syntactic relations, a complex emphasis on vocabulary and phonological rules. In this study, the interesting features of Turkish in terms of natural language processing are mentioned. In addition, summary info about natural language processing techniques, systems and various sources developed for Turkish are given.
翻訳日:2021-03-21 17:40:42 公開日:2021-01-21
# (参考訳) 重み付きファジィを用いた透かし用PSNR

Weighted Fuzzy-Based PSNR for Watermarking ( http://arxiv.org/abs/2101.08502v1 )

ライセンス: CC BY 4.0
Maedeh Jamali, Nader Karimi, Shadrokh Samavi(参考訳) PSNR や MSE のような従来の視覚品質評価基準の問題点の1つは、人間の視覚システム(HVS)に基づく適切な基準の欠如である。 原画像と操作画像の対応する画素の差に基づいて算出する。 したがって、それらは実際には画質の正確な理解を提供していない。 ウォーターマーキング(Watermarking)は、画像の視覚的品質が評価に不可欠な基準である画像処理アプリケーションである。 透かしには、PSNRなどの従来の指標よりも正確な値を提供するHVSに基づく基準が必要である。 本稿では,HVSに基づく画像の基本部分を見つけるために,重み付きファジィ基準を提案する。 その後、これらの部品はPSNRの最終値を計算する際により大きな重みを持つ。 実験結果と標準PSNRを比較した結果,有意な結果が得られた。

One of the problems of conventional visual quality evaluation criteria such as PSNR and MSE is the lack of appropriate standards based on the human visual system (HVS). They are calculated based on the difference of the corresponding pixels in the original and manipulated image. Hence, they practically do not provide a correct understanding of the image quality. Watermarking is an image processing application in which the image's visual quality is an essential criterion for its evaluation. Watermarking requires a criterion based on the HVS that provides more accurate values than conventional measures such as PSNR. This paper proposes a weighted fuzzy-based criterion that tries to find essential parts of an image based on the HVS. Then these parts will have larger weights in computing the final value of PSNR. We compare our results against standard PSNR, and our experiments show considerable consequences.
翻訳日:2021-03-21 17:33:34 公開日:2021-01-21
# (参考訳) 影響関数による分布の一般化解析

Out-of-Distribution Generalization Analysis via Influence Function ( http://arxiv.org/abs/2101.08521v1 )

ライセンス: CC BY 4.0
Haotian Ye, Chuanlong Xie, Yue Liu, Zhenguo Li(参考訳) トレーニングとターゲットデータのミスマッチは、現在の機械学習システムにとって大きな課題のひとつだ。 複数のドメインからトレーニングデータを収集し、対象ドメインがすべてのトレーニングドメインや他の新しいドメインを含む場合、最適なOOD精度のモデルを見つけることを目的とした、アウト・オブ・ディストリビューション(OOD)一般化問題に直面している。 OODの精度の定義の1つは、最悪の領域の精度である。 一般に、対象ドメインの集合は未知であり、観測されたドメインの数が限られている場合、対象ドメインに対する最悪の状態は見つからない可能性がある。 本稿では,観測領域における最悪の精度は,OODの精度を劇的に識別できない可能性があることを示す。 そこで本研究では,ロバスト統計学の古典的ツールであるインフルエント関数をood一般化問題に導入し,モデルの安定性を監視するためにインフルエント関数の分散を提案する。 実験領域と提案指標の精度は,OODアルゴリズムが必要かどうか,モデルが優れたOOD一般化を実現するかどうかを判別する上で有効であることを示す。

The mismatch between training and target data is one major challenge for current machine learning systems. When training data is collected from multiple domains and the target domains include all training domains and other new domains, we are facing an Out-of-Distribution (OOD) generalization problem that aims to find a model with the best OOD accuracy. One of the definitions of OOD accuracy is worst-domain accuracy. In general, the set of target domains is unknown, and the worst over target domains may be unseen when the number of observed domains is limited. In this paper, we show that the worst accuracy over the observed domains may dramatically fail to identify the OOD accuracy. To this end, we introduce Influence Function, a classical tool from robust statistics, into the OOD generalization problem and suggest the variance of influence function to monitor the stability of a model on training domains. We show that the accuracy on test domains and the proposed index together can help us discern whether OOD algorithms are needed and whether a model achieves good OOD generalization.
翻訳日:2021-03-21 17:26:15 公開日:2021-01-21
# (参考訳) 微細視分類のためのプログレッシブコアテンションネットワーク

Progressive Co-Attention Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2101.08527v1 )

ライセンス: CC BY 4.0
Tian Zhang, Dongliang Chang, Zhanyu Ma and Jun Guo(参考訳) きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。 これは、高度に強調されたカテゴリの本質的に微妙なバリエーションのため、困難なタスクである。 既存の手法のほとんどは個々の画像のみを入力として取り、異なる画像からの対照的な手がかりをモデルが認識する能力を制限する可能性がある。 本稿では,この問題に対処するために,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。 具体的には、同一カテゴリ画像内の特徴チャネルを相互作用させてチャネルワイドの類似性を計算し、共通の識別的特徴を捉える。 補完的インフォーメーションも認識に不可欠であると考えると、チャネルインタラクションによって強化された顕著な領域を消去し、ネットワークを他の識別領域に集中させる。 提案モデルはエンドツーエンドでトレーニング可能であり,イメージレベルのラベル管理のみを必要とする。 CUB-200-2011、Stanford Cars、FGVC Aircraftの3つのきめ細かな視覚分類ベンチマークデータセットで競合する結果を得た。

Fine-grained visual classification aims to recognize images belonging to multiple sub-categories within a same category. It is a challenging task due to the inherently subtle variations among highly-confused categories. Most existing methods only take individual image as input, which may limit the ability of models to recognize contrastive clues from different images. In this paper, we propose an effective method called progressive co-attention network (PCA-Net) to tackle this problem. Specifically, we calculate the channel-wise similarity by interacting the feature channels within same-category images to capture the common discriminative features. Considering that complementary imformation is also crucial for recognition, we erase the prominent areas enhanced by the channel interaction to force the network to focus on other discriminative regions. The proposed model can be trained in an end-to-end manner, and only requires image-level label supervision. It has achieved competitive results on three fine-grained visual classification benchmark datasets: CUB-200-2011, Stanford Cars, and FGVC Aircraft.
翻訳日:2021-03-21 16:49:26 公開日:2021-01-21
# (参考訳) 人物再識別のための効果的なデータ拡張

An Effective Data Augmentation for Person Re-identification ( http://arxiv.org/abs/2101.08533v1 )

ライセンス: CC BY 4.0
Yunpeng Gong and Zhiyong Zeng(参考訳) 本稿では, グレースケール画像の構造情報を十分に活用し, 人物再同定(reid)における照明変動の悪影響を低減するために, ランダムグレースケール変換, ランダムグレースケールパッチ置換, それらの組合せを含む効果的なデータ拡張法を提案する。 構造情報はReIDモデルの性能に重要な影響を及ぼし,RGB画像ReIDの補完となることが判明した。 reidモデルのトレーニング中、rgb画像の矩形領域をランダムに選択し、その色を対応するグレースケール画像において同じ矩形領域グレースケールに置き換えることにより、グレースケール領域の異なるトレーニング画像を生成する一方、グレースケール画像に変換する。 これら2つの方法は、照明のバリエーションによってモデルが過度に適合するリスクを低減し、モデルがクロスカメラに対してより堅牢になる。 実験の結果,提案手法は最大3.3%の性能向上を実現し,複数のデータセット上での検索精度を最大化できることがわかった。

In order to make full use of structural information of grayscale images and reduce adverse impact of illumination variation for person re-identification (ReID), an effective data augmentation method is proposed in this paper, which includes Random Grayscale Transformation, Random Grayscale Patch Replacement and their combination. It is discovered that structural information has a significant effect on the ReID model performance, and it is very important complementary to RGB images ReID. During ReID model training, on the one hand, we randomly selected a rectangular area in the RGB image and replace its color with the same rectangular area grayscale in corresponding grayscale image, thus we generate a training image with different grayscale areas; On the other hand, we convert an image into a grayscale image. These two methods will reduce the risk of overfitting the model due to illumination variations and make the model more robust to cross-camera. The experimental results show that our method achieves a performance improvement of up to 3.3%, achieving the highest retrieval accuracy currently on multiple datasets.
翻訳日:2021-03-21 16:38:09 公開日:2021-01-21
# (参考訳) 再帰的統合解析と弾性重み付けに基づく非定常過程のモニタリング

Monitoring nonstationary processes based on recursive cointegration analysis and elastic weight consolidation ( http://arxiv.org/abs/2101.08579v1 )

ライセンス: CC BY 4.0
Jingxin Zhang and Donghua Zhou and Maoyin Chen(参考訳) 本稿では,頻繁な動作条件下での非定常プロセスモニタリングの問題点について考察する。 伝統的なアプローチは一般的に、通常の動的偏差を断層と誤認し、高い誤報を引き起こす。 また、比較的安定した単独の運転条件を考慮し、連続した運転条件を学習する際に壊滅的な忘れる問題に苦しむ。 本稿では,新しい正規サンプルが到着するとモデルが更新され,結合関係の緩やかな変化に適応できる,通常のシステム変化と実際の欠陥を区別する再帰的統合解析(RCA)を最初に提案する。 RCAが抽出した長期均衡情報に基づいて、残りの短期動的情報を再帰主成分分析(RPCA)により監視する。 したがって、包括的な監視フレームワークが構築される。 システムが新しい動作状態に入ると、RCA-RPCAモデルが再構築され、新しい状態に対処する。 一方、RPCA固有の「破滅的忘れ」問題に対処するために、弾性重み強化(EWC)を用いており、同様のモードの急激な性能劣化を避けるために、重要なパラメータの情報が強化されている。 本手法の有効性は実用的産業システムによって示される。

This paper considers the problem of nonstationary process monitoring under frequently varying operating conditions. Traditional approaches generally misidentify the normal dynamic deviations as faults and thus lead to high false alarms. Besides, they generally consider single relatively steady operating condition and suffer from the catastrophic forgetting issue when learning successive operating conditions. In this paper, recursive cointegration analysis (RCA) is first proposed to distinguish the real faults from normal systems changes, where the model is updated once a new normal sample arrives and can adapt to slow change of cointegration relationship. Based on the long-term equilibrium information extracted by RCA, the remaining short-term dynamic information is monitored by recursive principal component analysis (RPCA). Thus a comprehensive monitoring framework is built. When the system enters a new operating condition, the RCA-RPCA model is rebuilt to deal with the new condition. Meanwhile, elastic weight consolidation (EWC) is employed to settle the `catastrophic forgetting' issue inherent in RPCA, where significant information of influential parameters is enhanced to avoid the abrupt performance degradation for similar modes. The effectiveness of the proposed method is illustrated by a practical industrial system.
翻訳日:2021-03-21 15:05:41 公開日:2021-01-21
# (参考訳) マインドレス・トラクタ : 聴覚摂動による注意喚起のための偽陽性抵抗的介入

Mindless Attractor: A False-Positive Resistant Intervention for Drawing Attention Using Auditory Perturbation ( http://arxiv.org/abs/2101.08621v1 )

ライセンス: CC BY 4.0
Riku Arakawa and Hiromu Yakura(参考訳) ユーザに明示的に警告することは、特に従うモチベーションがない場合に、必ずしも最適な介入ではない。 例えば、ビデオベースの学習では、ビデオに気を取られている学習者は、注意を払うよう促す警告に従わない。 マインドレスコンピューティングの概念に触発されて,学習者がモチベーションに頼らずに注意を喚起することを支援するために,人間の音声コミュニケーションの性質を活用する新たな介入手法であるマインドレス・アトラクタを提案する。 具体的には、ビデオの音声を混乱させ、意識を気にせずに注意を向ける。 提案手法の有効性を検証しただけでなく,機械学習に基づくセンシングモジュールと組み合わせてその利点を強調した。 すなわち、注意状態の誤検出によって介入が活性化されたとしても、ユーザをいらいらさせることはない。 我々の介入アプローチは、ヒト-ai共生における行動変化を誘発する信頼できる方法である。

Explicitly alerting users is not always an optimal intervention, especially when they are not motivated to obey. For example, in video-based learning, learners who are distracted from the video would not follow an alert asking them to pay attention. Inspired by the concept of Mindless Computing, we propose a novel intervention approach, Mindless Attractor, that leverages the nature of human speech communication to help learners refocus their attention without relying on their motivation. Specifically, it perturbs the voice in the video to direct their attention without consuming their conscious awareness. Our experiments not only confirmed the validity of the proposed approach but also emphasized its advantages in combination with a machine learning-based sensing module. Namely, it would not frustrate users even though the intervention is activated by false-positive detection of their attentive state. Our intervention approach can be a reliable way to induce behavioral change in human-AI symbiosis.
翻訳日:2021-03-21 14:05:13 公開日:2021-01-21
# (参考訳) 3次元マルチオブジェクト追跡のための2段階データアソシエーションアプローチ

A two-stage data association approach for 3D Multi-object Tracking ( http://arxiv.org/abs/2101.08684v1 )

ライセンス: CC BY 4.0
Minh-Quan Dao, Vincent Fr\'emont(参考訳) マルチオブジェクトトラッキング(MOT)は、シーン内の他の移動物体が捉えた軌跡を発生させ、将来の動きを予測するため、あらゆる自律走行パイプラインの不可欠な部分である。 近年のディープラーニングによる3Dオブジェクト検出の進歩により、トラック・バイ・ディテクトは3D MOTの主要なパラダイムとなっている。 このパラダイムでは、MOTシステムは基本的にオブジェクト検出器と、トラック対検出対応を確立するデータアソシエーションアルゴリズムから構成される。 3Dオブジェクト検出は活発に研究されているが、3D MOTの関連性は線形代入確率 (LAP) として定式化され、ハンガリーのアルゴリズムによって解決された双対マッチングに収まるようである。 本稿では,3次元MOTのためのデータアソシエーションの代替として,画像ベースのトラッキングに成功した2段階のデータアソシエーション手法を3次元設定に適用する。 提案手法は,NuScenes 検証セットにおいて0.587 AMOTA を達成し,データアソシエーションのための一段二部マッチングを用いてベースラインより優れる。

Multi-object tracking (MOT) is an integral part of any autonomous driving pipelines because itproduces trajectories which has been taken by other moving objects in the scene and helps predicttheir future motion. Thanks to the recent advances in 3D object detection enabled by deep learning,track-by-detection has become the dominant paradigm in 3D MOT. In this paradigm, a MOT systemis essentially made of an object detector and a data association algorithm which establishes track-to-detection correspondence. While 3D object detection has been actively researched, associationalgorithms for 3D MOT seem to settle at a bipartie matching formulated as a linear assignmentproblem (LAP) and solved by the Hungarian algorithm. In this paper, we adapt a two-stage dataassociation method which was successful in image-based tracking to the 3D setting, thus providingan alternative for data association for 3D MOT. Our method outperforms the baseline using one-stagebipartie matching for data association by achieving 0.587 AMOTA in NuScenes validation set.
翻訳日:2021-03-21 13:40:37 公開日:2021-01-21
# (参考訳) 楽しみと利益のためのオーバーフィット: インスタンス適応型データ圧縮

Overfitting for Fun and Profit: Instance-Adaptive Data Compression ( http://arxiv.org/abs/2101.08687v1 )

ライセンス: CC BY 4.0
Ties van Rozendaal, Iris A.M. Huijben, Taco S. Cohen(参考訳) ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法よりも優れており、結果はまだ急速に改善されている。 高いレベルでは、ニューラルネットワークの圧縮は、(量子化された)潜在表現から入力インスタンスを再構築しようとするオートエンコーダと、これらの潜在オブジェクトを損失なく圧縮するために使用される前処理を組み合わせる。 モデルのキャパシティの制限と不完全な最適化と一般化のため、このようなモデルは一般にテストデータをサブオプティマイズ圧縮する。 しかし、学習圧縮の大きな強みの1つは、テスト時のデータ分布が知られ、エントロピーが比較的低い場合である(例)。 静的なシーンを見ているカメラ、自動運転車のダッシュカメラなど。 モデルを簡単に調整したり、このディストリビューションに適合させたりすることで、RD$のパフォーマンスが向上します。 本稿では、この概念を極端に取り入れ、全モデルを単一のビデオに適応させ、モデルの更新(パラメータ空間を事前に定量化し圧縮する)を潜在表現と共に送信する。 これまでの作業とは異なり、エンコーダ/ラタントだけでなく、モデル全体を微調整し、微調整中にモデル量子化の効果とモデル更新の送信によって生じる追加コストの両方を考慮に入れます。 xiphデータセットのビデオからiフレーム上の画像圧縮モデル(2fpsでサンプリング)を評価し、エンコーダのみの微調整に関して、フルモデル適応により$rd$性能が~1db向上することを示す。

Neural data compression has been shown to outperform classical methods in terms of $RD$ performance, with results still improving rapidly. At a high level, neural compression is based on an autoencoder that tries to reconstruct the input instance from a (quantized) latent representation, coupled with a prior that is used to losslessly compress these latents. Due to limitations on model capacity and imperfect optimization and generalization, such models will suboptimally compress test data in general. However, one of the great strengths of learned compression is that if the test-time data distribution is known and relatively low-entropy (e.g. a camera watching a static scene, a dash cam in an autonomous car, etc.), the model can easily be finetuned or adapted to this distribution, leading to improved $RD$ performance. In this paper we take this concept to the extreme, adapting the full model to a single video, and sending model updates (quantized and compressed using a parameter-space prior) along with the latent representation. Unlike previous work, we finetune not only the encoder/latents but the entire model, and - during finetuning - take into account both the effect of model quantization and the additional costs incurred by sending the model updates. We evaluate an image compression model on I-frames (sampled at 2 fps) from videos of the Xiph dataset, and demonstrate that full-model adaptation improves $RD$ performance by ~1 dB, with respect to encoder-only finetuning.
翻訳日:2021-03-21 13:27:33 公開日:2021-01-21
# (参考訳) HELIOS++を用いた仮想レーザー走査--トポグラフィー3次元レーザー走査の光トレーシングに基づく新しいシミュレーション

Virtual laser scanning with HELIOS++: A novel take on ray tracing-based simulation of topographic 3D laser scanning ( http://arxiv.org/abs/2101.09154v1 )

ライセンス: CC BY 4.0
Lukas Winiwarter, Alberto Manuel Esmor\'is Pena, Hannah Weiser, Katharina Anders, Jorge Mart\'inez Sanchez, Mark Searle, Bernhard H\"ofle(参考訳) 地形レーザースキャンは、地球表面の詳細な3次元点雲表現を作成するためのリモートセンシング手法である。 データ取得は高価であるため、シミュレーションは3Dシーンとスキャナーのモデル、ビームシーンの相互作用のモデル、物理的に現実的なレベルで計算可能に単純化されたアプリケーション、そして、シミュレーションされたデータが使用に適合するアプリケーションなど、特定の前提によって実際のデータを補完することができる。 異なる目的のレーザー走査シミュレータが多数存在し、 helios++ を提示することで富む。 HELIOS++は、C++で実装された地上静的、移動型、UAVベース、空中レーザースキャンのためのオープンソースのシミュレーションフレームワークである。 HELIOS++の概念は、物理精度(リアリズム)と計算複雑性(ランタイム、メモリフットプリント)のトレードオフに対する柔軟なソリューションと、使いやすさと構成の容易さを提供する。 HELIOS++のユニークな特徴は、シミュレーションを制御するPythonバインディング(pyhelios)と、3Dシーン表現のためのモデルタイプの範囲である。 HELIOS++はさらに、サブサンプリング戦略を用いてビーム分散のシミュレーションを可能にし、詳細な解析の基盤としてフルウェーブフォーム出力を作成することができる。 波形の生成と解析がランタイムに大きな影響を与える可能性があるため、ユーザはサブサンプリングのディテールレベルを設定するか、オプションでフルウェーブフォーム出力を完全に無効にすることができる。 計算上の考慮事項の詳細な評価と、HELIOS++と前任のHELIOSとの比較により、ランタイムの最大83%削減が明らかになった。 同時に、メモリ要求は最大94 %削減され、さらに大きな(すなわち)処理が可能になった。 より複雑な)3Dシーンをメモリにロードし、レーザー走査シミュレーションによって事実上取得する。

Topographic laser scanning is a remote sensing method to create detailed 3D point cloud representations of the Earth's surface. Since data acquisition is expensive, simulations can complement real data given certain premises are available: i) a model of 3D scene and scanner, ii) a model of the beam-scene interaction, simplified to a computationally feasible while physically realistic level, and iii) an application for which simulated data is fit for use. A number of laser scanning simulators for different purposes exist, which we enrich by presenting HELIOS++. HELIOS++ is an open-source simulation framework for terrestrial static, mobile, UAV-based and airborne laser scanning implemented in C++. The HELIOS++ concept provides a flexible solution for the trade-off between physical accuracy (realism) and computational complexity (runtime, memory footprint), as well as ease of use and of configuration. Unique features of HELIOS++ include the availability of Python bindings (pyhelios) for controlling simulations, and a range of model types for 3D scene representation. HELIOS++ further allows the simulation of beam divergence using a subsampling strategy, and is able to create full-waveform outputs as a basis for detailed analysis. As generation and analysis of waveforms can strongly impact runtimes, the user may set the level of detail for the subsampling, or optionally disable full-waveform output altogether. A detailed assessment of computational considerations and a comparison of HELIOS++ to its predecessor, HELIOS, reveal reduced runtimes by up to 83 %. At the same time, memory requirements are reduced by up to 94 %, allowing for much larger (i.e. more complex) 3D scenes to be loaded into memory and hence to be virtually acquired by laser scanning simulation.
翻訳日:2021-03-21 12:59:03 公開日:2021-01-21
# (参考訳) Cain: 葉面センサプロセッサ上の同時畳み込みカーネルの自動コード生成

Cain: Automatic Code Generation for Simultaneous Convolutional Kernels on Focal-plane Sensor-processors ( http://arxiv.org/abs/2101.08715v1 )

ライセンス: CC BY 4.0
Edward Stow, Riku Murai, Sajad Saeedi, Paul H. J. Kelly(参考訳) FPSP(Focal-plane Sensor-processors)は、低消費電力、高フレームレートの計算を可能にするカメラ技術である。 残念ながら、これらの装置の限られた命令セットとレジスタは複雑なアルゴリズムの開発を困難にしている。 本研究では,複数の畳み込みカーネルからコードを生成する汎用fpspである scamp-5 をターゲットとするコンパイラ cain を提案する。 例えば、MNISTデジタル認識ニューラルネットワークの畳み込みカーネルを考えると、CainはSCAMP-5の他のコンパイラと比較して、半分の長さのコードを生成する。

Focal-plane Sensor-processors (FPSPs) are a camera technology that enable low power, high frame rate computation, making them suitable for edge computation. Unfortunately, these devices' limited instruction sets and registers make developing complex algorithms difficult. In this work, we present Cain - a compiler that targets SCAMP-5, a general-purpose FPSP - which generates code from multiple convolutional kernels. As an example, given the convolutional kernels for an MNIST digit recognition neural network, Cain produces code that is half as long, when compared to the other available compilers for SCAMP-5.
翻訳日:2021-03-21 12:57:29 公開日:2021-01-21
# (参考訳) 自己適応型トレーニング - 教師付き,自己監視型学習のブリッジ

Self-Adaptive Training: Bridging the Supervised and Self-Supervised Learning ( http://arxiv.org/abs/2101.08732v1 )

ライセンス: CC BY 4.0
Lang Huang, Chao Zhang and Hongyang Zhang(参考訳) 深層ニューラルネットワークの教師付き学習と自己教師付き学習の両方を進めるために,計算コストを伴わずにモデル予測による学習プロセスを動的にコーディネートし,強化する統合学習アルゴリズムを提案する。 例えば、ランダムノイズや逆向きの例によって破損したトレーニングデータに基づいて、ディープネットワークのトレーニングダイナミクスを分析する。 分析の結果、モデル予測はデータ中の有用な基盤情報を最大化することが可能であり、この現象は「emph{any}」ラベル情報がない場合でも広範に発生し、モデル予測がトレーニングプロセスに有益であることを強調した: 自己適応学習は、ノイズ下でのディープネットワークの一般化を改善し、自己教師付き表現学習を強化する。 この分析は、例えば、最近発見された経験的リスク最小化における二重発散現象と、最先端の自己教師型学習アルゴリズムの崩壊問題について、深層学習の理解にも光を当てている。 CIFAR, STL, ImageNetデータセットを用いた実験により, ラベルノイズによる分類, 選択的分類, 線形評価の3つの応用において, 提案手法の有効性が検証された。 将来の研究を容易にするため、コードはhttps://github.com/LayneH/self-adaptive-trainingで公開されている。

We propose self-adaptive training -- a unified training algorithm that dynamically calibrates and enhances training process by model predictions without incurring extra computational cost -- to advance both supervised and self-supervised learning of deep neural networks. We analyze the training dynamics of deep networks on training data that are corrupted by, e.g., random noise and adversarial examples. Our analysis shows that model predictions are able to magnify useful underlying information in data and this phenomenon occurs broadly even in the absence of \emph{any} label information, highlighting that model predictions could substantially benefit the training process: self-adaptive training improves the generalization of deep networks under noise and enhances the self-supervised representation learning. The analysis also sheds light on understanding deep learning, e.g., a potential explanation of the recently-discovered double-descent phenomenon in empirical risk minimization and the collapsing issue of the state-of-the-art self-supervised learning algorithms. Experiments on the CIFAR, STL and ImageNet datasets verify the effectiveness of our approach in three applications: classification with label noise, selective classification and linear evaluation. To facilitate future research, the code has been made public available at https://github.com/LayneH/self-adaptive-training.
翻訳日:2021-03-21 12:13:25 公開日:2021-01-21
# (参考訳) 部分測定可能なシステムのモデルに基づくポリシー探索

Model-based Policy Search for Partially Measurable Systems ( http://arxiv.org/abs/2101.08740v1 )

ライセンス: CC BY 4.0
Fabio Amadio, Alberto Dalla Libera, Ruggero Carli, Daniel Nikovski, Diego Romeres(参考訳) 本稿では, 状態を直接測定することはできないが, 適切な状態観察者によって推定されなければならない部分計測システム (pms) のためのモデルベース強化学習 (mbrl) アルゴリズムを提案する。 提案したアルゴリズムは、MC-PILCO4PMS (Monte Carlo Probabilistic Inference for Learning Control for partially Measurable Systems) と名付けられ、システムダイナミクスをモデル化するためにガウス過程(GP)、およびポリシーパラメータを更新するためのモンテカルロアプローチに依存している。 W.r.t. これまでのGPベースのMBRLアルゴリズム、MC-PILCO4PMSモデルは、ポリシー最適化中の状態オブザーバの存在を明確に示しており、PMSを処理できる。 提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。

In this paper, we propose a Model-Based Reinforcement Learning (MBRL) algorithm for Partially Measurable Systems (PMS), i.e., systems where the state can not be directly measured, but must be estimated through proper state observers. The proposed algorithm, named Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS), relies on Gaussian Processes (GPs) to model the system dynamics, and on a Monte Carlo approach to update the policy parameters. W.r.t. previous GP-based MBRL algorithms, MC-PILCO4PMS models explicitly the presence of state observers during policy optimization, allowing to deal PMS. The effectiveness of the proposed algorithm has been tested both in simulation and in two real systems.
翻訳日:2021-03-21 11:24:22 公開日:2021-01-21
# (参考訳) ソフト遺伝的プログラミングバイナリ分類器

Soft Genetic Programming Binary Classifiers ( http://arxiv.org/abs/2101.08742v1 )

ライセンス: CC BY 4.0
Ivan Gridin(参考訳) 分類器の設計と利用に関する研究は、最も重要な機械学習分野の1つである。 自動機械学習手法の開発により、ロバストな分類器モデルを構築するために様々なアプローチが用いられる。 実装の難しさとカスタマイズの複雑さのため、遺伝的プログラミング(GP)法は分類器の構築にはあまり使われない。 GP分類器にはいくつかの制限と欠点がある。 しかし、"ソフト"遺伝プログラミング(SGP)の概念が開発され、論理演算木はより柔軟になり、データセットに依存性を見出すことができ、ほとんどのケースで有望な結果が得られる。 本稿では,SGP手法を用いてバイナリ分類器を構築する手法について述べる。 テスト結果が示されます。 ソースコード - https://github.com/survexman/sgp_classifier。

The study of the classifier's design and it's usage is one of the most important machine learning areas. With the development of automatic machine learning methods, various approaches are used to build a robust classifier model. Due to some difficult implementation and customization complexity, genetic programming (GP) methods are not often used to construct classifiers. GP classifiers have several limitations and disadvantages. However, the concept of "soft" genetic programming (SGP) has been developed, which allows the logical operator tree to be more flexible and find dependencies in datasets, which gives promising results in most cases. This article discusses a method for constructing binary classifiers using the SGP technique. The test results are presented. Source code - https://github.com/survexman/sgp_classifier.
翻訳日:2021-03-21 11:06:05 公開日:2021-01-21
# (参考訳) 放物型二重投射型白内障カメラの3次元特性解析

Three-Dimensional Investigation of the Metric Properties of Parabolic Double Projection Involving Catadioptric Camera ( http://arxiv.org/abs/2101.10840v1 )

ライセンス: CC BY 4.0
Ahmed Hamdy, Ahmed Elsherif, Saiid Shebl(参考訳) 本稿では,パラボロイド二重射影の計量特性,すなわち,解析的研究について述べる。 頭頂部カメラシステムで使用される 中央および直交の投射。 このようなシステムの以前の処理では、計量特性は十分に研究されていない。 これらの性質は、射影線と射影線で区切られた領域の真の長さの決定を含む。 パラボロイド二重射影の計量要素を決定する利点は、歪み解析とカメラキャリブレーションを研究することである。 また、これは異なるカメラプロジェクションシステムの比較分析を研究する上で重要な有用性であると考えられる。

This paper presents an analytical study for the metric properties of the paraboloidal double projection, i.e. central and orthogonal projections used in the catadioptric camera system. Metric properties have not sufficiently studied in previous treatments of such system. These properties incorporate the determination of the true lengths of projected lines and areas bounded by projected lines. The advantageous main gain of determining metric elements of the paraboloidal double projection is studying distortion analysis and camera calibration, which is considered an essential tool in testing camera accuracy. Also, this may be considered as a significant utility in studying comparison analysis between different cameras projection systems.
翻訳日:2021-03-21 10:58:14 公開日:2021-01-21
# (参考訳) 私たちがしていることは、すること以上のものです

What we are is more than what we do ( http://arxiv.org/abs/2102.04219v1 )

ライセンス: CC BY 4.0
Larissa Albantakis and Giulio Tononi(参考訳) 意識の主観的特性を真剣に考えると、意識は「行動」ではなく「行動」の問題となる。 行動」は「行動」から切り離すことができるため、機能的基準だけでは、システムが意識の物理的基盤となるために必要な要件を持っているかどうかを判断できない。 行動」と「行動」の解離は、人工知能において最も有能なものであり、コンピュータは意識のない状態で複雑な機能(人間の行動に類似した限界)を実行することができる。 意識的な存在によって行われない場合、複雑な行動は意味をなさない。

If we take the subjective character of consciousness seriously, consciousness becomes a matter of "being" rather than "doing". Because "doing" can be dissociated from "being", functional criteria alone are insufficient to decide whether a system possesses the necessary requirements for being a physical substrate of consciousness. The dissociation between "being" and "doing" is most salient in artificial general intelligence, which may soon replicate any human capacity: computers can perform complex functions (in the limit resembling human behavior) in the absence of consciousness. Complex behavior becomes meaningless if it is not performed by a conscious being.
翻訳日:2021-03-21 10:09:30 公開日:2021-01-21
# (参考訳) 機械学習能力を用いた離散的選択分析

Discrete Choice Analysis with Machine Learning Capabilities ( http://arxiv.org/abs/2101.10261v1 )

ライセンス: CC BY 4.0
Youssef M. Aboutaleb, Mazen Danaf, Yifei Xie, Moshe Ben-Akiva(参考訳) 本稿では、ポリシー分析のモデルに適用する上で不可欠な機能と、そのような設定への市販機械学習方法論の直接適用の限界について述べる。 政策分析のための離散的選択モデルを構築する伝統的な計量方法論は、データと主題・マッターの考察によるモデリングの仮定を組み合わせたものである。 このような考察は、ランダム効用離散選択モデルの体系的な構成要素を特定するのに最も有用であるが、典型的にはランダム成分の形式を決定するのに限定的な助けとなる。 機械学習のパラダイムを活用できる分野、すなわち、ユーティリティ方程式のランダム成分の最良の仕様を特定し、体系的に選択する分野を特定する。 本稿では, ネストされたロジットおよびロジット混合モデルのランダムなユーティリティコンポーネントの最適仕様をアルゴリズム的に選択するために, 混合整数最適化とクロスバリデーションを用いる新しい2つの応用について述べる。

This paper discusses capabilities that are essential to models applied in policy analysis settings and the limitations of direct applications of off-the-shelf machine learning methodologies to such settings. Traditional econometric methodologies for building discrete choice models for policy analysis involve combining data with modeling assumptions guided by subject-matter considerations. Such considerations are typically most useful in specifying the systematic component of random utility discrete choice models but are typically of limited aid in determining the form of the random component. We identify an area where machine learning paradigms can be leveraged, namely in specifying and systematically selecting the best specification of the random component of the utility equations. We review two recent novel applications where mixed-integer optimization and cross-validation are used to algorithmically select optimal specifications for the random utility components of nested logit and logit mixture models subject to interpretability constraints.
翻訳日:2021-03-21 10:06:23 公開日:2021-01-21
# (参考訳) ゲーム理論と機械学習によるディフェンシブ・ディセプションのアプローチ:調査

Game-Theoretic and Machine Learning-based Approaches for Defensive Deception: A Survey ( http://arxiv.org/abs/2101.10121v1 )

ライセンス: CC BY 4.0
Mu Zhu, Ahmed H. Anwar, Zelin Wan, Jin-Hee Cho, Charles Kamhoua, and Munindar P. Singh(参考訳) 防衛詐欺はサイバー防衛にとって有望なアプローチだ。 ディフェンシブ・デセプションは研究コミュニティで人気が高まっているが、キーコンポーネント、基本原理、様々な問題設定におけるトレードオフに関する体系的な調査は行われていない。 本研究は,ゲーム理論と機械学習を中心とした防御的デセプション研究に焦点を当て,防御的デセプションに広く用いられている人工知能アプローチの著名なファミリーである。 本稿では,先行作業から洞察,教訓,限界を導き出す。 現在の防衛詐欺研究の大きなギャップに対処するためのいくつかの研究の方向性の概要をまとめて締めくくっている。

Defensive deception is a promising approach for cyberdefense. Although defensive deception is increasingly popular in the research community, there has not been a systematic investigation of its key components, the underlying principles, and its tradeoffs in various problem settings. This survey paper focuses on defensive deception research centered on game theory and machine learning, since these are prominent families of artificial intelligence approaches that are widely employed in defensive deception. This paper brings forth insights, lessons, and limitations from prior work. It closes with an outline of some research directions to tackle major gaps in current defensive deception research.
翻訳日:2021-03-21 09:53:00 公開日:2021-01-21
# (参考訳) GPU-Accelerated Dask アプリケーションのための MPI ベースの効率的な通信

Efficient MPI-based Communication for GPU-Accelerated Dask Applications ( http://arxiv.org/abs/2101.08878v1 )

ライセンス: CC BY 4.0
Aamir Shafi, Jahanzeb Maqbool Hashmi, Hari Subramoni and Dhabaleswar K. Panda(参考訳) daskは人気の並列分散コンピューティングフレームワークで、apache sparkに匹敵し、ビッグデータのタスクベースのスケーラブルな処理を可能にする。 Dask Distributedライブラリは、このコンピューティングエンジンの基礎を形成し、新しい通信デバイスの追加をサポートする。 ひとつはTCP用、もうひとつはUCXのCythonラッパーであるUCX-Pyを使用した高速ネットワーク用である。 本稿では,GPUで構築した最新のHPCクラスタを対象とした,ダスクの新しい通信バックエンド MPI4Dask の設計と実装について述べる。 MPI4Daskは、Message Passing Interface (MPI)標準のGPU対応実装であるMVAPICH2-GDRよりもmpi4pyを利用している。 MPI4Daskは、Pythonのasyncioフレームワークからasync/awaitキーワードを使用して定義された非ブロッキング並行操作である、ポイントツーポイントの非同期I/O通信コルーチンを提供する。 我々のレイテンシとスループットの比較から、MPI4Daskは1バイトメッセージでUCXを6倍、大きなメッセージで4倍(MByteとそれ以上)上回っていることが示唆されている。 また,MPI4DaskとUCXの比較評価を,1) cuPy配列の総和と2) cuDFマージの2つのベンチマークアプリケーションを用いて行った。 mpi4daskは、nvidia tesla v100 gpuで構築された社内クラスタで、平均3.47xと3.11xで、2つのアプリケーションの全体的な実行時間を高速化する。 また、最大32人のDaskワーカーが32個のNVIDIA Quadro RTX 5000 GPUと256個のCPUコアを持つTACCのFronterera(GPU)システム上で、UCXに対してMPI4Daskのスケーラビリティ解析を行う。 MPI4Daskは、Frontera(GPU)システム上の1-32Daskワーカーに対して、cuPyおよびcuDFアプリケーションの実行時間を平均1.71xと2.91xで高速化する。

Dask is a popular parallel and distributed computing framework, which rivals Apache Spark to enable task-based scalable processing of big data. The Dask Distributed library forms the basis of this computing engine and provides support for adding new communication devices. It currently has two communication devices: one for TCP and the other for high-speed networks using UCX-Py -- a Cython wrapper to UCX. This paper presents the design and implementation of a new communication backend for Dask -- called MPI4Dask -- that is targeted for modern HPC clusters built with GPUs. MPI4Dask exploits mpi4py over MVAPICH2-GDR, which is a GPU-aware implementation of the Message Passing Interface (MPI) standard. MPI4Dask provides point-to-point asynchronous I/O communication coroutines, which are non-blocking concurrent operations defined using the async/await keywords from the Python's asyncio framework. Our latency and throughput comparisons suggest that MPI4Dask outperforms UCX by 6x for 1 Byte message and 4x for large messages (2 MBytes and beyond) respectively. We also conduct comparative performance evaluation of MPI4Dask with UCX using two benchmark applications: 1) sum of cuPy array with its transpose, and 2) cuDF merge. MPI4Dask speeds up the overall execution time of the two applications by an average of 3.47x and 3.11x respectively on an in-house cluster built with NVIDIA Tesla V100 GPUs for 1-6 Dask workers. We also perform scalability analysis of MPI4Dask against UCX for these applications on TACC's Frontera (GPU) system with upto 32 Dask workers on 32 NVIDIA Quadro RTX 5000 GPUs and 256 CPU cores. MPI4Dask speeds up the execution time for cuPy and cuDF applications by an average of 1.71x and 2.91x respectively for 1-32 Dask workers on the Frontera (GPU) system.
翻訳日:2021-03-21 09:01:00 公開日:2021-01-21
# (参考訳) 人間の行動認識とオンライン行動検出のギャップを埋める

Bridging the gap between Human Action Recognition and Online Action Detection ( http://arxiv.org/abs/2101.08851v1 )

ライセンス: CC BY 4.0
Alban Main de Boissiere, Rita Noumeir(参考訳) 行動認識、早期予測、オンライン行動検出は、しばしば独立して研究される補完的な分野である。 ほとんどのオンラインアクション検出ネットワークは、トレーニング済みの機能抽出器を使用しているが、新しいタスクには最適ではないかもしれない。 本稿では,前述の分野間の教師・学生の枠組みと新しい学習戦略を用いて,タスク固有の特徴抽出について述べる。 我々のネットワークである Online Knowledge Distillation Action Detection Network (OKDAD) は、オンライン早期予測とオンライン時間セグメント提案サブネットを並列に埋め込む。 低学級と高学級の類似性が教員養成中に奨励される。 OKDADネットワークへの知識蒸留は、教師-学生特徴ベクトル間の層再利用とコサイン類似性によって保証される。 レイヤ再利用と類似性学習は,汎用的特徴抽出器を用いたベースラインを大幅に改善する。 我々は、NTU RGB+D(行動認識、早期予測)とPKU MMD(行動検出)の2つの一般的なデータセットから赤外線ビデオの枠組みを評価する。 これらのデータセットに対する以前の試みとは異なり、学生ネットワークは将来について何も知らないまま実行します。 この難しさが増しても、両方のデータセットで最先端の結果が得られます。 さらに、当社のネットワークはRGB-Dカメラからの赤外線を使用しており、オンラインアクション検出に最初に使用しています。

Action recognition, early prediction, and online action detection are complementary disciplines that are often studied independently. Most online action detection networks use a pre-trained feature extractor, which might not be optimal for its new task. We address the task-specific feature extraction with a teacher-student framework between the aforementioned disciplines, and a novel training strategy. Our network, Online Knowledge Distillation Action Detection network (OKDAD), embeds online early prediction and online temporal segment proposal subnetworks in parallel. Low interclass and high intraclass similarity are encouraged during teacher training. Knowledge distillation to the OKDAD network is ensured via layer reuse and cosine similarity between teacher-student feature vectors. Layer reuse and similarity learning significantly improve our baseline which uses a generic feature extractor. We evaluate our framework on infrared videos from two popular datasets, NTU RGB+D (action recognition, early prediction) and PKU MMD (action detection). Unlike previous attempts on those datasets, our student networks perform without any knowledge of the future. Even with this added difficulty, we achieve state-of-the-art results on both datasets. Moreover, our networks use infrared from RGB-D cameras, which we are the first to use for online action detection, to our knowledge.
翻訳日:2021-03-21 08:40:51 公開日:2021-01-21
# Adv-OLM:OLMによるテキスト・アドベナリーの生成

Adv-OLM: Generating Textual Adversaries via OLM ( http://arxiv.org/abs/2101.08523v1 )

ライセンス: Link先を確認
Vijit Malik and Ashwani Bhat and Ashutosh Modi(参考訳) ディープラーニングモデルは、元の入力に不可避な摂動を持つ敵の例に影響を受けやすく、その結果、これらのモデルに対する敵意攻撃を引き起こす。 nlpにおけるアートトランスフォーマーの状態に対するこれらの攻撃の解析は、そのような敵対的入力に対するこれらのモデルのロバスト性を改善するのに役立つ。 本稿では,オクルージョンと言語モデル(olm)の考え方をアートアタック手法の現況に適用するブラックボックス攻撃法adv-olmを提案する。 OLMは文の単語のランク付けに使われ、後に単語置換戦略を用いて置換される。 提案手法は,テキスト分類タスクにおいて,他の攻撃方法よりも優れていることを示す。

Deep learning models are susceptible to adversarial examples that have imperceptible perturbations in the original input, resulting in adversarial attacks against these models. Analysis of these attacks on the state of the art transformers in NLP can help improve the robustness of these models against such adversarial inputs. In this paper, we present Adv-OLM, a black-box attack method that adapts the idea of Occlusion and Language Models (OLM) to the current state of the art attack methods. OLM is used to rank words of a sentence, which are later substituted using word replacement strategies. We experimentally show that our approach outperforms other attack methods for several text classification tasks.
翻訳日:2021-03-21 08:08:25 公開日:2021-01-21
# 学習した最適逆境を用いた状態観察によるロバスト強化学習

Robust Reinforcement Learning on State Observations with Learned Optimal Adversary ( http://arxiv.org/abs/2101.08452v1 )

ライセンス: Link先を確認
Huan Zhang, Hongge Chen, Duane Boning, Cho-Jui Hsieh(参考訳) 本研究は,高次強化学習(DRL)に対する多くの敵攻撃の設定と整合し,予測不能な感知雑音下で実世界のRLエージェントをロールアウトする上でも重要である,逆摂動状態観測による強化学習(RL)の堅牢性について検討する。 固定されたエージェントポリシーでは、摂動状態の観測に最適な敵が見つかることが示され、最悪のエージェント報酬が得られることが保証される。 DRL設定の場合、これはRLエージェントに対する新しい経験的敵攻撃につながる。 エージェントのロバスト性を高めるため,我々は,最適な攻撃枠組みに従うポリシー勾配を用いて,エージェントと共にオンラインの敵を訓練する学習敵(atla)による交互訓練の枠組みを提案する。 さらに,SA-MDPの分析から,過去状態や行動(歴史)が堅牢なエージェントの学習に有用であること,LSTMに基づく政策が敵の立場でより堅牢であることが実証的に確認された。 いくつかの連続制御環境における実証的な評価は、ATLAが強い敵の下で最先端の性能を達成することを示している。 私たちのコードはhttps://github.com/huanzhang12/atla_robust_rlで利用可能です。

We study the robustness of reinforcement learning (RL) with adversarially perturbed state observations, which aligns with the setting of many adversarial attacks to deep reinforcement learning (DRL) and is also important for rolling out real-world RL agent under unpredictable sensing noise. With a fixed agent policy, we demonstrate that an optimal adversary to perturb state observations can be found, which is guaranteed to obtain the worst case agent reward. For DRL settings, this leads to a novel empirical adversarial attack to RL agents via a learned adversary that is much stronger than previous ones. To enhance the robustness of an agent, we propose a framework of alternating training with learned adversaries (ATLA), which trains an adversary online together with the agent using policy gradient following the optimal adversarial attack framework. Additionally, inspired by the analysis of state-adversarial Markov decision process (SA-MDP), we show that past states and actions (history) can be useful for learning a robust agent, and we empirically find a LSTM based policy can be more robust under adversaries. Empirical evaluations on a few continuous control environments show that ATLA achieves state-of-the-art performance under strong adversaries. Our code is available at https://github.com/huanzhang12/ATLA_robust_RL.
翻訳日:2021-03-21 08:08:15 公開日:2021-01-21
# 自己教師型半教師型学習のための指数移動平均正規化

Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning ( http://arxiv.org/abs/2101.08482v1 )

ライセンス: Link先を確認
Zhaowei Cai, Avinash Ravichandran, Subhransu Maji, Charless Fowlkes, Zhuowen Tu, Stefano Soatto(参考訳) 本稿では,既存の学生教師による自己教師型および半教師型学習手法の性能を向上させるために,指数的移動平均正規化(eman)と呼ばれるバッチ正規化(bn)のプラグイン置換を提案する。 統計が各バッチ内で計算される標準的なBNとは異なり、教師で使用されるEMANは、学生のBN統計から指数的な移動平均によって統計を更新する。 この設計は、BNの内在的なクロスサンプル依存性を減らし、教師の一般化を促進する。 emanは自己教師付き学習の強力なベースラインを4-6/1-2ポイント、半教師付き学習を約7/2ポイント改善する。 これらの改善は、メソッド、ネットワークアーキテクチャ、トレーニング期間、データセット間で一貫性があり、この技術の一般的な有効性を示している。

We present a plug-in replacement for batch normalization (BN) called exponential moving average normalization (EMAN), which improves the performance of existing student-teacher based self- and semi-supervised learning techniques. Unlike the standard BN, where the statistics are computed within each batch, EMAN, used in the teacher, updates its statistics by exponential moving average from the BN statistics of the student. This design reduces the intrinsic cross-sample dependency of BN and enhance the generalization of the teacher. EMAN improves strong baselines for self-supervised learning by 4-6/1-2 points and semi-supervised learning by about 7/2 points, when 1%/10% supervised labels are available on ImageNet. These improvements are consistent across methods, network architectures, training duration, and datasets, demonstrating the general effectiveness of this technique.
翻訳日:2021-03-21 08:07:53 公開日:2021-01-21
# NERデータアノテーションにおけるラベル一貫性の検証

Validating Label Consistency in NER Data Annotation ( http://arxiv.org/abs/2101.08698v1 )

ライセンス: Link先を確認
Qingkai Zeng, Mengxia Yu, Wenhao Yu, Tianwen Jiang, Tim Weninger and Meng Jiang(参考訳) データアノテーションは、名前付きエンティティ認識(ner)プロジェクトが学習する適切な情報で訓練されることを保証する上で重要な役割を担います。 最も正確なラベルを生成することは、アノテーションに関する複雑さのために難しい。 データアノテーションの複数のサブセット(例えば、トレーニングセットとテストセット、または複数のトレーニングサブセット)間のラベルの不整合はラベルミスの指標である。 本稿では,ラベル(イン)一貫性とnerモデル性能の関係を明らかにするための経験的手法を提案する。 複数のNERデータアノテーションセットでラベルの一貫性を検証する(あるいは一貫性をキャッチする)ために使用できる。 実験では,SCIERCとCoNLL03データセット(26.7%,ラベルミス5.4%)におけるテストデータのラベルの不一致を同定した。 両方のデータセットの修正バージョンにおける一貫性を検証する。

Data annotation plays a crucial role in ensuring your named entity recognition (NER) projects are trained with the right information to learn from. Producing the most accurate labels is a challenge due to the complexity involved with annotation. Label inconsistency between multiple subsets of data annotation (e.g., training set and test set, or multiple training subsets) is an indicator of label mistakes. In this work, we present an empirical method to explore the relationship between label (in-)consistency and NER model performance. It can be used to validate the label consistency (or catches the inconsistency) in multiple sets of NER data annotation. In experiments, our method identified the label inconsistency of test data in SCIERC and CoNLL03 datasets (with 26.7% and 5.4% label mistakes). It validated the consistency in the corrected version of both datasets.
翻訳日:2021-03-21 08:07:05 公開日:2021-01-21
# pqrnnを用いた小学生への大規模言語モデルの蒸留

Distilling Large Language Models into Tiny and Effective Students using pQRNN ( http://arxiv.org/abs/2101.08890v1 )

ライセンス: Link先を確認
Prabhu Kaliamoorthi, Aditya Siddhant, Edward Li, Melvin Johnson(参考訳) mBERTやXLM-Rのような訓練済みの大規模多言語モデルでは、言語理解タスクにおける技術結果の状態を達成している。 しかし、それらはサーバーとエッジデバイスの両方の遅延クリティカルなアプリケーションには適していない。 これらのモデルに必要なメモリと計算リソースを減らすことが重要です。 この目的のために,提案するpQRNNは,自然言語処理タスクに小型かつ効果的であるプロジェクションベースの埋め込み不要なニューラルエンコーダである。 事前トレーニングなしでは、pQRNNは、140倍小さいにもかかわらず、事前トレーニングされた埋め込みでLSTMモデルよりも大幅に優れていた。 同じパラメータ数で、それらはトランスフォーマーベースラインを上回り、パラメータ効率を示す。 さらに,pQRNNは,大規模な事前学習言語モデルの蒸留に有効な学生アーキテクチャであることを示す。 我々は、pQRNNパラメータ、データ拡張、蒸留設定の影響を慎重に研究する。 MTOPでは、pQRNNの学生がmBERT教師のパフォーマンスの95.9%を達成し、350倍小さい。 一般的なパースタスクであるmatisでは、平均してpqrnnの学生は教師の97.1\%に達するが、350倍も小さくなる。 我々の強い結果は、我々のアプローチが大きなmBERTのようなモデルを活用しながら、レイテンシに敏感なアプリケーションに最適であることを示唆している。

Large pre-trained multilingual models like mBERT, XLM-R achieve state of the art results on language understanding tasks. However, they are not well suited for latency critical applications on both servers and edge devices. It's important to reduce the memory and compute resources required by these models. To this end, we propose pQRNN, a projection-based embedding-free neural encoder that is tiny and effective for natural language processing tasks. Without pre-training, pQRNNs significantly outperform LSTM models with pre-trained embeddings despite being 140x smaller. With the same number of parameters, they outperform transformer baselines thereby showcasing their parameter efficiency. Additionally, we show that pQRNNs are effective student architectures for distilling large pre-trained language models. We perform careful ablations which study the effect of pQRNN parameters, data augmentation, and distillation settings. On MTOP, a challenging multilingual semantic parsing dataset, pQRNN students achieve 95.9\% of the performance of an mBERT teacher while being 350x smaller. On mATIS, a popular parsing task, pQRNN students on average are able to get to 97.1\% of the teacher while again being 350x smaller. Our strong results suggest that our approach is great for latency-sensitive applications while being able to leverage large mBERT-like models.
翻訳日:2021-03-21 08:06:52 公開日:2021-01-21
# 生成ゼロショットネットワーク量子化

Generative Zero-shot Network Quantization ( http://arxiv.org/abs/2101.08430v1 )

ライセンス: Link先を確認
Xiangyu He, Qinghao Hu, Peisong Wang, Jian Cheng(参考訳) 畳み込みニューラルネットワークは、低レベルの画像生成と復元において、多数のトレーニングサンプルから現実的なイメージ先行を学習することができる。 また,高レベル画像認識タスクでは,本質的バッチ正規化(bn)統計をトレーニングデータなしで活用することにより,各カテゴリの「現実的」画像をさらに再構築できることを示す。 VAE/GAN法にインスパイアされた合成画像のゼロショット最適化プロセスは、BN統計量の分布に一致する生成的モデリングであると考えている。 生成された画像は、以下のゼロショットネットワーク量子化のためのキャリブレーションセットとして機能する。 本手法は,プライバシー上の懸念から,機密情報に基づくモデルの定量化の必要性を満たす。 ベンチマークデータセットに関する広範な実験は、生成されたデータの助けを借りて、我々のアプローチが既存のデータフリー量子化手法を一貫して上回っていることを示している。

Convolutional neural networks are able to learn realistic image priors from numerous training samples in low-level image generation and restoration. We show that, for high-level image recognition tasks, we can further reconstruct "realistic" images of each category by leveraging intrinsic Batch Normalization (BN) statistics without any training data. Inspired by the popular VAE/GAN methods, we regard the zero-shot optimization process of synthetic images as generative modeling to match the distribution of BN statistics. The generated images serve as a calibration set for the following zero-shot network quantizations. Our method meets the needs for quantizing models based on sensitive information, \textit{e.g.,} due to privacy concerns, no data is available. Extensive experiments on benchmark datasets show that, with the help of generated data, our approach consistently outperforms existing data-free quantization methods.
翻訳日:2021-03-21 08:06:32 公開日:2021-01-21
# ジェネリックオブジェクト検出におけるオクルージョンハンドリング

Occlusion Handling in Generic Object Detection: A Review ( http://arxiv.org/abs/2101.08845v1 )

ライセンス: Link先を確認
Kaziwa Saleh, S\'andor Sz\'en\'asi, Zolt\'an V\'amossy(参考訳) ディープラーニングネットワークの強大な力は、オブジェクト検出に大きな発展をもたらした。 ここ数年、オブジェクト検出フレームワークは精度と効率の両方で大きな成功を収めてきた。 しかし、その能力はいくつかの要因から人間の能力とはかけ離れており、その1つである。 閉塞は様々な場所、規模、比率で起こりうるため、対処は非常に困難である。 本稿では,屋外および屋内の両方の場面における総合物体検出における隠蔽処理の課題に対処し,これらの課題を克服するための最近の研究について述べる。 最後に,今後の研究の方向性について述べる。

The significant power of deep learning networks has led to enormous development in object detection. Over the last few years, object detector frameworks have achieved tremendous success in both accuracy and efficiency. However, their ability is far from that of human beings due to several factors, occlusion being one of them. Since occlusion can happen in various locations, scale, and ratio, it is very difficult to handle. In this paper, we address the challenges in occlusion handling in generic object detection in both outdoor and indoor scenes, then we refer to the recent works that have been carried out to overcome these challenges. Finally, we discuss some possible future directions of research.
翻訳日:2021-03-21 08:06:18 公開日:2021-01-21
# イベント駆動型物体認識のためのスパイク学習システム

A Spike Learning System for Event-driven Object Recognition ( http://arxiv.org/abs/2101.08850v1 )

ライセンス: Link先を確認
Shibo Zhou, Wei Wang, Xiaohua Li, Zhanpeng Jin(参考訳) LiDARやダイナミックビジョンセンサー(DVS)のようなイベント駆動型センサーは、高分解能および高速な応用において注目を集めている。 認識精度を高めるために多くの研究がなされている。 しかし、認識遅延や時間効率に関する本質的な話題はほとんど未定である。 本稿では,スパイキングニューラルネットワーク(SNN)を用いたスパイキング学習システムを提案する。 提案方式では,各イベントの到着時刻とデータをSNNスパイク時間にマッピングし,非同期に送信されたイベントを遅延なく即時に処理する。 このスキームはSNNの非同期処理機能とうまく統合され、時間効率が向上する。 既存のシステムに対する大きな利点は、各認識タスクのイベント蓄積時間が、ユーザの事前設定ではなく、システムによって自動的に決定される点である。 システムは全ての入力イベントを待つことなく、早期に認識を終了することができる。 7つのLiDARとDVSデータセットのリストで大規模な実験が行われた。 その結果,提案システムは最先端の認識精度を有し,時間効率は優れていた。 一般的なKITTIデータセットの様々な実験環境では、認識遅延が56.3%減少して91.7%となった。

Event-driven sensors such as LiDAR and dynamic vision sensor (DVS) have found increased attention in high-resolution and high-speed applications. A lot of work has been conducted to enhance recognition accuracy. However, the essential topic of recognition delay or time efficiency is largely under-explored. In this paper, we present a spiking learning system that uses the spiking neural network (SNN) with a novel temporal coding for accurate and fast object recognition. The proposed temporal coding scheme maps each event's arrival time and data into SNN spike time so that asynchronously-arrived events are processed immediately without delay. The scheme is integrated nicely with the SNN's asynchronous processing capability to enhance time efficiency. A key advantage over existing systems is that the event accumulation time for each recognition task is determined automatically by the system rather than pre-set by the user. The system can finish recognition early without waiting for all the input events. Extensive experiments were conducted over a list of 7 LiDAR and DVS datasets. The results demonstrated that the proposed system had state-of-the-art recognition accuracy while achieving remarkable time efficiency. Recognition delay was shown to reduce by 56.3% to 91.7% in various experiment settings over the popular KITTI dataset.
翻訳日:2021-03-21 08:06:09 公開日:2021-01-21
# 深層学習時代におけるアンサンブル学習の考察

Discussion of Ensemble Learning under the Era of Deep Learning ( http://arxiv.org/abs/2101.08387v1 )

ライセンス: Link先を確認
Yongquan Yang, Haijun Lv(参考訳) 様々な人工知能応用におけるディープラーニング(主にディープニューラルネットワーク)の優位な位置から、近年、深層ニューラルネットワーク(センスブル深層学習)に基づくアンサンブル学習は、学習システムの一般化を改善する上で大きな成果を上げている。 しかし、現代のディープニューラルネットワークは通常、数百万から数十億のパラメータを持つため、複数のベース深層学習者とアンサンブル深層学習者によるテストのための時間と空間オーバーヘッドは、従来のアンサンブル学習よりもはるかに大きい。 いくつかのアプリケーションでアンサンブル深層学習の展開を促進するために、高速アンサンブル深層学習のアルゴリズムが提案されているが、開発時間や計算資源が制限されたり、処理すべきデータが大次元的であったり、特定の分野で多くのアプリケーションでさらなる進歩が求められる。 緊急に解決すべき問題は、深層学習をアンサンブルし、必要な時間と空間のオーバーヘッドを減らし、特定の分野の多くのアプリケーションがその恩恵を受けられるようにする方法である。 この問題を解決するためには,深層学習の時代にアンサンブル学習がどのように発達してきたのかを知る必要がある。 そこで,本稿では,出版作品のデータ分析,従来のアンサンブル学習の方法論と不適合性,および近年のアンサンブル深層学習の発展について論じる。 深層学習の時代におけるアンサンブル学習の今後の発展に直面する技術的課題を実現する上で,本稿が役立つことを願っている。

Due to the dominant position of deep learning (mostly deep neural networks) in various artificial intelligence applications, recently, ensemble learning based on deep neural networks (ensemble deep learning) has shown significant performances in improving the generalization of learning system. However, since modern deep neural networks usually have millions to billions of parameters, the time and space overheads for training multiple base deep learners and testing with the ensemble deep learner are far greater than that of traditional ensemble learning. Though several algorithms of fast ensemble deep learning have been proposed to promote the deployment of ensemble deep learning in some applications, further advances still need to be made for many applications in specific fields, where the developing time and computing resources are usually restricted or the data to be processed is of large dimensionality. An urgent problem needs to be solved is how to take the significant advantages of ensemble deep learning while reduce the required time and space overheads so that many more applications in specific fields can benefit from it. For the alleviation of this problem, it is necessary to know about how ensemble learning has developed under the era of deep learning. Thus, in this article, we present discussion focusing on data analyses of published works, the methodology and unattainability of traditional ensemble learning, and recent developments of ensemble deep learning. We hope this article will be helpful to realize the technical challenges faced by future developments of ensemble learning under the era of deep learning.
翻訳日:2021-03-21 08:05:36 公開日:2021-01-21
# ランダム林における交雑交配

Crossbreeding in Random Forest ( http://arxiv.org/abs/2101.08585v1 )

ライセンス: Link先を確認
Abolfazl Nadi, Hadi Moradi, Khalil Taheri(参考訳) アンサンブル学習法は、予測性能を改善するために複数の学習アルゴリズムの恩恵を受けるように設計されている。 この改良された性能のトレードオフは、シングルラーニングシステムと比較して、より遅い速度とより大きいアンサンブル学習システムである。 本稿では,最も強力なアンサンブル手法の一つとして,ランダムフォレスト(RF)でこの問題に対処する新しい手法を提案する。 本手法は, 木枝の交配により, 空間および速度におけるRFの性能を向上させるとともに, 分類基準における性能を維持する。 提案手法は、合成データセットと実データセットのグループでテストされ、標準RF手法と比較されている。 CRF(Crossbred RF)が森林における樹木の精度と数に与える影響を明らかにするために,いくつかの評価を行った。 その結果, RFと比較してCRFの性能は良好であった。

Ensemble learning methods are designed to benefit from multiple learning algorithms for better predictive performance. The tradeoff of this improved performance is slower speed and larger size of ensemble learning systems compared to single learning systems. In this paper, we present a novel approach to deal with this problem in Random Forest (RF) as one of the most powerful ensemble methods. The method is based on crossbreeding of the best tree branches to increase the performance of RF in space and speed while keeping the performance in the classification measures. The proposed approach has been tested on a group of synthetic and real datasets and compared to the standard RF approach. Several evaluations have been conducted to determine the effects of the Crossbred RF (CRF) on the accuracy and the number of trees in a forest. The results show better performance of CRF compared to RF.
翻訳日:2021-03-21 08:05:10 公開日:2021-01-21
# 知識生成 --知識グラフ上の変分ベイズ

Knowledge Generation -- Variational Bayes on Knowledge Graphs ( http://arxiv.org/abs/2101.08857v1 )

ライセンス: Link先を確認
Florian Wolf(参考訳) この論文は、現実世界の知識グラフ(KG)の表現学習における変分オートエンコーダ(VAE)の可能性の実証である。 分子グラフの生成に成功しているアプローチに着想を得て,rgvae(relational graph variational auto-encoder)というモデルの性能評価を行った。 グラフ畳み込み、グラフマッチング、潜在空間を事前にエンコードするモジュラーハイパーパラメータの選択の影響を比較する。 RGVAEはリンク予測に基づいて評価される。 2つのデータセットFB15K-237とWN18RRの平均相互ランク(MRR)スコアは、埋め込みベースのモデルDistMultと比較される。 遅延空間事前制約のない変分DistMultとRGVAEを制御モデルとして実装する。 その結果、異なる設定の間、緩和された潜在空間を持つRGVAEは、両方のデータセットで最高となるが、DistMultを上回りません。 さらに, 2次元実験において, 2 つの三重項の潜在表現間の線形補間を行い, それぞれの潜在次元を 95 % の信頼区間で探索する。 どちらの補間も、RGVAEは隣接行列の再構築を学ぶが、解離しないことを示している。 最後に,FB15K-237データセットに対する新しい検証手法を提案する。 生成されたトリプルの関係型コンストレインはフィルタされ、エンティティタイプにマッチする。 有意な三重項の観測率はランダムしきい値よりも著しく高い。 生成した三重項と有効三重項は見当たらない。 $\delta$-VAE法を用いて、異なる潜在空間の比較を行ったところ、デコーダの崩壊が判明した。 最後に,分子生成に対するアプローチの限界因子を解析し,デコーダの崩壊とマルチリレーショナルKGの表現学習を成功させる手法を提案する。

This thesis is a proof of concept for the potential of Variational Auto-Encoder (VAE) on representation learning of real-world Knowledge Graphs (KG). Inspired by successful approaches to the generation of molecular graphs, we evaluate the capabilities of our model, the Relational Graph Variational Auto-Encoder (RGVAE). The impact of the modular hyperparameter choices, encoding through graph convolutions, graph matching and latent space prior, is compared. The RGVAE is first evaluated on link prediction. The mean reciprocal rank (MRR) scores on the two datasets FB15K-237 and WN18RR are compared to the embedding-based model DistMult. A variational DistMult and a RGVAE without latent space prior constraint are implemented as control models. The results show that between different settings, the RGVAE with relaxed latent space, scores highest on both datasets, yet does not outperform the DistMult. Further, we investigate the latent space in a twofold experiment: first, linear interpolation between the latent representation of two triples, then the exploration of each latent dimension in a $95\%$ confidence interval. Both interpolations show that the RGVAE learns to reconstruct the adjacency matrix but fails to disentangle. For the last experiment we introduce a new validation method for the FB15K-237 data set. The relation type-constrains of generated triples are filtered and matched with entity types. The observed rate of valid generated triples is insignificantly higher than the random threshold. All generated and valid triples are unseen. A comparison between different latent space priors, using the $\delta$-VAE method, reveals a decoder collapse. Finally we analyze the limiting factors of our approach compared to molecule generation and propose solutions for the decoder collapse and successful representation learning of multi-relational KGs.
翻訳日:2021-03-21 08:04:56 公開日:2021-01-21
# 異なる病院での臨床リスク予測アプリケーションを開発するためのスケーラブルなアプローチ

A scalable approach for developing clinical risk prediction applications in different hospitals ( http://arxiv.org/abs/2101.10268v1 )

ライセンス: Link先を確認
Hong Sun, Kristof Depraetere, Laurent Meesseman, Jos De Roo, Martijn Vanbiervliet, Jos De Baerdemaeker, Herman Muys, Vera von Dossow, Nikolai Hulde, Ralph Szymanowsky(参考訳) 目的: 機械学習アルゴリズムは現在、臨床応用のための急性事象の予測に広く使われている。 このような予測アプリケーションのほとんどは、ある病院で特定の急性事象のリスクを予測するために開発されているが、開発された解決策を他の病院や病院に拡張する試みは少ない。 我々は,複数の疾患のリスク予測モデルの開発プロセスと,異なる電子健康記録(ehr)システムへの展開を拡張可能なスケーラブルなソリューションを提供する。 材料と方法: 臨床リスク予測モデル開発のための汎用プロセスを定義した。 モデル生成プロセスを自動化するためにキャリブレーションツールが作成されている。 4つの病院でモデルキャリブレーションを行い, それぞれの病院で, デリリウム, 敗血症, 急性腎障害(AKI)のリスク予測モデルを作成した。 結果: 4つの病院の検査データセット上で病院滞在の異なる段階において,受信者特性曲線 (auroc) 下のデリウムリスク予測モデルが0.82から0.95の範囲で達成された。 セシスモデルは0.88から0.95までAUROCを達成し、AKIモデルは0.85から0.92までAUROCを達成した。 考察:本稿で論じるスケーラビリティは,異なる病院に保管されているEMH間の共通データ表現(シンタクティック・インターオペラビリティ)の構築に基づいている。 セマンティック相互運用性(Semantic interoperability)は、異なるEHRがデータの同じ意味を共有するというより難しい要件である。 同じラボのコーディングシステムに アプローチは義務付けられていません 結論:本研究では,臨床リスク予測モデルをスケーラブルな方法で開発・展開する方法について述べる。 4つの病院で3つの疾患のリスク予測モデルを構築し,その可能性を示す。

Objective: Machine learning algorithms are now widely used in predicting acute events for clinical applications. While most of such prediction applications are developed to predict the risk of a particular acute event at one hospital, few efforts have been made in extending the developed solutions to other events or to different hospitals. We provide a scalable solution to extend the process of clinical risk prediction model development of multiple diseases and their deployment in different Electronic Health Records (EHR) systems. Materials and Methods: We defined a generic process for clinical risk prediction model development. A calibration tool has been created to automate the model generation process. We applied the model calibration process at four hospitals, and generated risk prediction models for delirium, sepsis and acute kidney injury (AKI) respectively at each of these hospitals. Results: The delirium risk prediction models achieved area under the receiver-operating characteristic curve (AUROC) ranging from 0.82 to 0.95 over different stages of a hospital stay on the test datasets of the four hospitals. The sepsis models achieved AUROC ranging from 0.88 to 0.95, and the AKI models achieved AUROC ranging from 0.85 to 0.92. Discussion: The scalability discussed in this paper is based on building common data representations (syntactic interoperability) between EHRs stored in different hospitals. Semantic interoperability, a more challenging requirement that different EHRs share the same meaning of data, e.g. a same lab coding system, is not mandated with our approach. Conclusions: Our study describes a method to develop and deploy clinical risk prediction models in a scalable way. We demonstrate its feasibility by developing risk prediction models for three diseases across four hospitals.
翻訳日:2021-03-21 08:04:29 公開日:2021-01-21
# 直交正則化による平均治療効果の推定

Estimating Average Treatment Effects via Orthogonal Regularization ( http://arxiv.org/abs/2101.08490v1 )

ライセンス: Link先を確認
Tobias Hatt, Stefan Feuerriegel(参考訳) 意思決定は、しばしば観測データから治療効果を正確に推定する必要がある。 代替決定の結果は観察されず、見積もる必要があるため、これは難しいことです。 従来の方法は根拠のない結果に基づいて成果を見積もるが、根拠のない結果に課されるいかなる制約も無視する。 本稿では,不整合性を利用した平均治療効果を推定するための新しい正規化フレームワークを提案する。 この目的のために, 既定性が直交性制約として定式化され, 結果が治療課題と直交することを保証する。 この直交性制約は正規化によって損失関数に含まれる。 正規化の枠組みに基づいて、治療課題に直交する結果を学習する未確立治療のための深層直交ネットワーク(DONUT)を開発した。 平均治療効果を推定するために様々なベンチマークデータセットを用いて、DONUTが最先端の精度を大幅に上回ることを示した。

Decision-making often requires accurate estimation of treatment effects from observational data. This is challenging as outcomes of alternative decisions are not observed and have to be estimated. Previous methods estimate outcomes based on unconfoundedness but neglect any constraints that unconfoundedness imposes on the outcomes. In this paper, we propose a novel regularization framework for estimating average treatment effects that exploits unconfoundedness. To this end, we formalize unconfoundedness as an orthogonality constraint, which ensures that the outcomes are orthogonal to the treatment assignment. This orthogonality constraint is then included in the loss function via a regularization. Based on our regularization framework, we develop deep orthogonal networks for unconfounded treatments (DONUT), which learn outcomes that are orthogonal to the treatment assignment. Using a variety of benchmark datasets for estimating average treatment effects, we demonstrate that DONUT outperforms the state-of-the-art substantially.
翻訳日:2021-03-21 08:04:06 公開日:2021-01-21
# 半バンドフィードバックを用いた組合せバンディットの効率的純探査

Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback ( http://arxiv.org/abs/2101.08534v1 )

ライセンス: Link先を確認
Marc Jourdan, Mojm\'ir Mutn\'y, Johannes Kirschner, Andreas Krause(参考訳) 半バンドフィードバックの組合せバンディットはマルチアームのバンディットを一般化し、エージェントはアームセットを選択し、選択されたセットに含まれる各アームに対するノイズの報奨を観察する。 アクションセットは、グラフ内のマトロイドやパスの基底を形成するような所定の構造を満たす。 我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。 最近普及したゲームフレームワークを用いて、この問題を逐次ゼロサムゲームとして解釈し、有限時間保証の漸近的最適アルゴリズムであるCombGameメタアルゴリズムを開発する。 学習者の2つの家族を比較してメタアルゴリズムをインスタンス化することに加えて、我々の研究の主な貢献は、組合せ行動を伴うベストアーム識別のための特定のオラクル効率の良い例である。 凸多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づき、漸近的に最適であり、競合的な経験的性能を持つ最初の計算効率の高いアルゴリズムである。

Combinatorial bandits with semi-bandit feedback generalize multi-armed bandits, where the agent chooses sets of arms and observes a noisy reward for each arm contained in the chosen set. The action set satisfies a given structure such as forming a base of a matroid or a path in a graph. We focus on the pure-exploration problem of identifying the best arm with fixed confidence, as well as a more general setting, where the structure of the answer set differs from the one of the action set. Using the recently popularized game framework, we interpret this problem as a sequential zero-sum game and develop a CombGame meta-algorithm whose instances are asymptotically optimal algorithms with finite time guarantees. In addition to comparing two families of learners to instantiate our meta-algorithm, the main contribution of our work is a specific oracle efficient instance for best-arm identification with combinatorial actions. Based on a projection-free online learning algorithm for convex polytopes, it is the first computationally efficient algorithm which is asymptotically optimal and has competitive empirical performance.
翻訳日:2021-03-21 08:03:52 公開日:2021-01-21
# 直交最小角形を用いた線形分類のための高速特徴選択

Orthogonal Least Squares Based Fast Feature Selection for Linear Classification ( http://arxiv.org/abs/2101.08539v1 )

ライセンス: Link先を確認
Sikai Zhang, Zi-Qiang Lang(参考訳) 直交最小二乗法(ols)に基づく特徴選択法を,二項分類と多項分類の両方に対して提案する。 新規な正方形相関係数(SOCC)は、OLSの誤差削減比(ERR)に基づいて定義され、特徴ランキング基準として使用される。 標準相関係数,フィッシャーの基準,SOCCの和の等価性を明らかにし,初めてORSにおけるERRの統計的含意を明らかにした。 また,OLSに基づく特徴選択法は,欲求探索に適用した場合の速度優位性を示した。 提案手法は、2つの合成データと7つの実世界データセットにおける相互情報に基づく特徴選択手法と包括的に比較される。 その結果,提案手法は10の候補手法のうち,常に上位5位にあることがわかった。 さらに,提案手法は離散化を伴わずに連続的な特徴に対して直接適用することが可能であり,相互情報に基づく手法よりも大きな利点がある。

An Orthogonal Least Squares (OLS) based feature selection method is proposed for both binomial and multinomial classification. The novel Squared Orthogonal Correlation Coefficient (SOCC) is defined based on Error Reduction Ratio (ERR) in OLS and used as the feature ranking criterion. The equivalence between the canonical correlation coefficient, Fisher's criterion, and the sum of the SOCCs is revealed, which unveils the statistical implication of ERR in OLS for the first time. It is also shown that the OLS based feature selection method has speed advantages when applied for greedy search. The proposed method is comprehensively compared with the mutual information based feature selection methods in 2 synthetic and 7 real world datasets. The results show that the proposed method is always in the top 5 among the 10 candidate methods. Besides, the proposed method can be directly applied to continuous features without discretisation, which is another significant advantage over mutual information based methods.
翻訳日:2021-03-21 08:03:34 公開日:2021-01-21
# ディープラーニングにおけるサブレベル集合の接続性に関する一考察

A Note on Connectivity of Sublevel Sets in Deep Learning ( http://arxiv.org/abs/2101.08576v1 )

ライセンス: Link先を確認
Quynh Nguyen(参考訳) ディープニューラルネットワークでは、トレーニング損失関数のサブレベルセットの接続性を証明するために、幅の広い1層$n+1$ (n$はトレーニングサンプルの数) が十分であることが示されている。 2層配置では、同じ性質が1つのニューロン(すなわち1つのニューロン)が少ない場合でも保持されない。 幅$N$は非連結なサブレベルセットにつながる。

It is shown that for deep neural networks, a single wide layer of width $N+1$ ($N$ being the number of training samples) suffices to prove the connectivity of sublevel sets of the training loss function. In the two-layer setting, the same property may not hold even if one has just one neuron less (i.e. width $N$ can lead to disconnected sublevel sets).
翻訳日:2021-03-21 08:03:18 公開日:2021-01-21
# MoG-QSM:定量的サセプティビリティマッピングのためのモデルベース生成逆深層学習ネットワーク

MoG-QSM: Model-based Generative Adversarial Deep Learning Network for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2101.08413v1 )

ライセンス: Link先を確認
Ruimin Feng, Jiayi Zhao, He Wang, Baofeng Yang, Jie Feng, Yuting Shi, Ming Zhang, Chunlei Liu, Yuyao Zhang, Jie Zhuang, Hongjiang Wei(参考訳) 定量的感受性マッピング (QSM) はMRI勾配エコ相信号から基底組織の磁気感受性を推定し, 様々な脳疾患における組織感受性の定量化に大きな可能性を示した。 しかし, 組織相と組織感受性分布の関連性は, 組織感受性の定量化の精度に影響を及ぼす。 その結果生じる感受性マップはノイズ増幅とストレッチアーティファクトに苦しむことが知られている。 これらの課題に対処するため,本論文では,逆問題(MoG-QSM)の解を制約する事前情報を含む正規化項をトレーニングするために,生成敵ネットワークの利点を浸透させるモデルベースフレームワークを提案する。 最小二乗(LS)GANとL1コストの混合を併用した残差ネットワークを発電機として訓練し,先行情報を感受性マップで学習した。 出力画像の品質を識別するために多層畳み込みニューラルネットワークを共同で訓練した。 MoG-QSMは単方向位相マップから高精度な感受性マップを生成する。 近年開発されたディープラーニングqsm法と定量的評価パラメータを比較し,mog-qsmの最適性能が得られた。 さらに,移動対象者のmog-qsmマップから高いクラス内相関係数(icc)を求め,多施設研究の大きなコホートなど,将来の応用の可能性を示した。 MoG-QSMは、神経変性疾患における金属イオン蓄積のより正確なモニタリングを可能にするため、感受性の経時的測定にも有用である。

Quantitative susceptibility mapping (QSM) estimates the underlying tissue magnetic susceptibility from the MRI gradient-echo phase signal and has demonstrated great potential in quantifying tissue susceptibility in various brain diseases. However, the intrinsic ill-posed inverse problem relating the tissue phase to the underlying susceptibility distribution affects the accuracy for quantifying tissue susceptibility. The resulting susceptibility map is known to suffer from noise amplification and streaking artifacts. To address these challenges, we propose a model-based framework that permeates benefits from generative adversarial networks to train a regularization term that contains prior information to constrain the solution of the inverse problem, referred to as MoG-QSM. A residual network leveraging a mixture of least-squares (LS) GAN and the L1 cost was trained as the generator to learn the prior information in susceptibility maps. A multilayer convolutional neural network was jointly trained to discriminate the quality of output images. MoG-QSM generates highly accurate susceptibility maps from single orientation phase maps. Quantitative evaluation parameters were compared with recently developed deep learning QSM methods and the results showed MoG-QSM achieves the best performance. Furthermore, a higher intraclass correlation coefficient (ICC) was obtained from MoG-QSM maps of the traveling subjects, demonstrating its potential for future applications, such as large cohorts of multi-center studies. MoG-QSM is also helpful for reliable longitudinal measurement of susceptibility time courses, enabling more precise monitoring for metal ion accumulation in neurodegenerative disorders.
翻訳日:2021-03-21 08:03:10 公開日:2021-01-21
# 自然画像のない事前学習

Pre-training without Natural Images ( http://arxiv.org/abs/2101.08515v1 )

ライセンス: Link先を確認
Hirokatsu Kataoka and Kazushige Okayasu and Asato Matsumoto and Eisuke Yamagata and Ryosuke Yamada and Nakamasa Inoue and Akio Nakamura and Yutaka Satoh(参考訳) 自然画像の理解を補助するために、自然画像なしで事前学習された畳み込みニューラルネットワークを使うことは可能か? この論文は、新しい概念、公式駆動教師あり学習を提案する。 実世界の背景知識に存在する自然法則に基づいたフラクタルを割り当てることで,画像パターンとそのカテゴリラベルを自動的に生成する。 理論的には、事前学習段階で自然画像の代わりに自動生成画像を使用することで、ラベル付き画像の無限規模のデータセットを生成することができる。 自然画像のないデータベースであるフラクタルデータベース(fractaldb)で事前トレーニングされたモデルは、すべての設定で人間の注釈付きデータセットで事前トレーニングされたモデルを上回るとは限らないが、imagenet/placesプリトレーニングモデルの精度を部分的に上回ることができる。 提案するfractaldbによる画像表現は、畳み込み層と注意の可視化においてユニークな特徴を捉えている。

Is it possible to use convolutional neural networks pre-trained without any natural images to assist natural image understanding? The paper proposes a novel concept, Formula-driven Supervised Learning. We automatically generate image patterns and their category labels by assigning fractals, which are based on a natural law existing in the background knowledge of the real world. Theoretically, the use of automatically generated images instead of natural images in the pre-training phase allows us to generate an infinite scale dataset of labeled images. Although the models pre-trained with the proposed Fractal DataBase (FractalDB), a database without natural images, does not necessarily outperform models pre-trained with human annotated datasets at all settings, we are able to partially surpass the accuracy of ImageNet/Places pre-trained models. The image representation with the proposed FractalDB captures a unique feature in the visualization of convolutional layers and attentions.
翻訳日:2021-03-21 08:02:44 公開日:2021-01-21
# MPASNET:ビデオシーンにおける非教師なしディープ・クラウド・セグメンテーションのためのモーション・プレア・アウェア・シームズ・ネットワーク

MPASNET: Motion Prior-Aware Siamese Network for Unsupervised Deep Crowd Segmentation in Video Scenes ( http://arxiv.org/abs/2101.08609v1 )

ライセンス: Link先を確認
Jinhai Yang, Hua Yang(参考訳) 群集のセグメンテーションは,混雑したシーン解析の基礎となる基本課題であり,精巧なピクセルレベルのセグメンテーションマップを得るのが望ましい。 しかし、既存のアプローチでは、深層学習モデルのトレーニングに高密度なピクセルレベルのアノテーションを必要とするか、光学系や粒子流から物理的モデルで粗いセグメンテーションマップを作成するだけでよいため、依然として難しい問題である。 本稿では,クラウドセマンティックセマンティックセグメンテーションのためのMotion Prior-Aware Siamese Network (MPASNET)を提案する。 このモデルはアノテーションの必要性をなくすだけでなく、高品質のセグメンテーションマップをもたらす。 特に,まずフレーム間のコヒーレント運動パターンを解析し,その後,集合粒子に円形領域マージ戦略を適用して擬似ラベルを生成する。 さらに, mpasnet と siamese branch を組み合わせることで, 拡張不変正規化と siamese feature aggregate を実現する。 ベンチマークデータセットによる実験から、我々のモデルはmIoUで12%以上性能が向上していることが示された。

Crowd segmentation is a fundamental task serving as the basis of crowded scene analysis, and it is highly desirable to obtain refined pixel-level segmentation maps. However, it remains a challenging problem, as existing approaches either require dense pixel-level annotations to train deep learning models or merely produce rough segmentation maps from optical or particle flows with physical models. In this paper, we propose the Motion Prior-Aware Siamese Network (MPASNET) for unsupervised crowd semantic segmentation. This model not only eliminates the need for annotation but also yields high-quality segmentation maps. Specially, we first analyze the coherent motion patterns across the frames and then apply a circular region merging strategy on the collective particles to generate pseudo-labels. Moreover, we equip MPASNET with siamese branches for augmentation-invariant regularization and siamese feature aggregation. Experiments over benchmark datasets indicate that our model outperforms the state-of-the-arts by more than 12% in terms of mIoU.
翻訳日:2021-03-21 08:02:30 公開日:2021-01-21
# エンドツーエンド・モジュラーシステムと人間によるアラビア語音声認識

Arabic Speech Recognition by End-to-End, Modular Systems and Human ( http://arxiv.org/abs/2101.08454v1 )

ライセンス: Link先を確認
Amir Hussein, Shinji Watanabe, Ahmed Ali(参考訳) 自動音声認識(ASR)の最近の進歩は、人間のトランスクリバーに匹敵する精度の水準に達しており、この機械が人間のパフォーマンスに到達したかどうかの議論につながっている。 以前の研究は、英語とモジュール型隠れマルコフモデルディープニューラルネットワーク(HMM-DNN)システムに焦点を当てていた。 本稿では, エンドツーエンドトランスフォーマーASR, モジュール型HMM-DNN ASR, アラビア語とその方言におけるヒューマン音声認識(HSR)の総合的なベンチマークを行う。 本研究では,本研究の一環として収集した新しいデータセットを用いて,言語学者のパフォーマンスと在来話者のパフォーマンスを評価する。 ASRにとって、エンドツーエンドの作業は12.5%、27.5%、33.8% WERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスのマイルストーンとなった。 以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。

Recent advances in automatic speech recognition (ASR) have achieved accuracy levels comparable to human transcribers, which led researchers to debate if the machine has reached human performance. Previous work focused on the English language and modular hidden Markov model-deep neural network (HMM-DNN) systems. In this paper, we perform a comprehensive benchmarking for end-to-end transformer ASR, modular HMM-DNN ASR, and human speech recognition (HSR) on the Arabic language and its dialects. For the HSR, we evaluate linguist performance and lay-native speaker performance on a new dataset collected as a part of this study. For ASR the end-to-end work led to 12.5%, 27.5%, 33.8% WER; a new performance milestone for the MGB2, MGB3, and MGB5 challenges respectively. Our results suggest that human performance in the Arabic language is still considerably better than the machine with an absolute WER gap of 3.6% on average.
翻訳日:2021-03-21 08:01:55 公開日:2021-01-21
# 雑音型中間スケール量子(NISQ)アルゴリズム

Noisy intermediate-scale quantum (NISQ) algorithms ( http://arxiv.org/abs/2101.08448v1 )

ライセンス: Link先を確認
Kishor Bharti, Alba Cervera-Lierta, Thi Ha Kyaw, Tobias Haug, Sumner Alperin-Lea, Abhinav Anand, Matthias Degroote, Hermanni Heimonen, Jakob S. Kottmann, Tim Menke, Wai-Keong Mok, Sukin Sim, Leong-Chuan Kwek, Al\'an Aspuru-Guzik(参考訳) 整数因数分解や非構造データベース探索のような効率よく解くことができる普遍的フォールトトレラント量子コンピュータは、誤り率の低い数百万の量子ビットと長いコヒーレンス時間を必要とする。 このようなデバイスの実現に向けた実験的進歩は数十年の研究を要する可能性があるが、ノイズの多い中規模量子コンピュータ(NISQ)はすでに存在する。 これらのコンピュータは数百のノイズ量子ビットで構成されている。 誤り訂正されていないキュービットは、限られたコヒーレンス時間で不完全な操作を実行する。 これらのデバイスを用いた量子アドバンテージの探索では、物理学、機械学習、量子化学、組合せ最適化など幅広い分野のアルゴリズムが提案されている。 このようなアルゴリズムの目標は、制限されたリソースを活用して古典的に困難なタスクを実行することである。 本稿では,NISQ計算のパラダイムとアルゴリズムについて概説する。 我々は,これらのアルゴリズムの鍵構造,限界,利点について論じる。 また、NISQデバイスをプログラムし、テストするのに有用な各種ベンチマークおよびソフトウェアツールの概要を概説する。

A universal fault-tolerant quantum computer that can solve efficiently problems such as integer factorization and unstructured database search requires millions of qubits with low error rates and long coherence times. While the experimental advancement towards realizing such devices will potentially take decades of research, noisy intermediate-scale quantum (NISQ) computers already exist. These computers are composed of hundreds of noisy qubits, i.e. qubits that are not error-corrected, and therefore perform imperfect operations in a limited coherence time. In the search for quantum advantage with these devices, algorithms have been proposed for applications in various disciplines spanning physics, machine learning, quantum chemistry and combinatorial optimization. The goal of such algorithms is to leverage the limited available resources to perform classically challenging tasks. In this review, we provide a thorough summary of NISQ computational paradigms and algorithms. We discuss the key structure of these algorithms, their limitations, and advantages. We additionally provide a comprehensive overview of various benchmarking and software tools useful for programming and testing NISQ devices.
翻訳日:2021-03-21 08:01:40 公開日:2021-01-21
# boost then convolve:gradient boostingがグラフニューラルネットワークと出会う

Boost then Convolve: Gradient Boosting Meets Graph Neural Networks ( http://arxiv.org/abs/2101.08543v1 )

ライセンス: Link先を確認
Sergei Ivanov, Liudmila Prokhorenkova(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ表現学習タスクで成功した強力なモデルである。 一方、GBDTは不均一な表データに直面する場合、他の機械学習手法よりも優れていることが多い。 しかし、グラフノード機能を持つグラフには、どのようなアプローチを使うべきか? 従来のGNNモデルは、均質なスパース特徴を持つネットワークに主に焦点を合わせており、示すように、不均一な設定では準最適である。 本稿では,GBDTモデルが不均一な特徴を扱うのに対して,GNNはグラフ構造を考慮し,GBDTとGNNを併用して両世界を最大限に活用する新しいアーキテクチャを提案する。 我々のモデルは、GNNの勾配更新に新しい木を適合させることにより、エンドツーエンドの最適化の恩恵を受ける。 主要なGBDTモデルとGNNモデルとの比較により,グラフ特徴を持つ多種多様グラフの性能が顕著に向上したことを示す。 コードはhttps://github.com/nd7141/bgnn.com/。

Graph neural networks (GNNs) are powerful models that have been successful in various graph representation learning tasks. Whereas gradient boosted decision trees (GBDT) often outperform other machine learning methods when faced with heterogeneous tabular data. But what approach should be used for graphs with tabular node features? Previous GNN models have mostly focused on networks with homogeneous sparse features and, as we show, are suboptimal in the heterogeneous setting. In this work, we propose a novel architecture that trains GBDT and GNN jointly to get the best of both worlds: the GBDT model deals with heterogeneous features, while GNN accounts for the graph structure. Our model benefits from end-to-end optimization by allowing new trees to fit the gradient updates of GNN. With an extensive experimental comparison to the leading GBDT and GNN models, we demonstrate a significant increase in performance on a variety of graphs with tabular features. The code is available: https://github.com/nd7141/bgnn.
翻訳日:2021-03-21 08:00:58 公開日:2021-01-21
# palmtree: 命令埋め込みのためのアセンブリ言語モデルを学ぶ

PalmTree: Learning an Assembly Language Model for Instruction Embedding ( http://arxiv.org/abs/2103.03809v1 )

ライセンス: Link先を確認
Xuezixiang Li, Qu Yu, Heng Yin(参考訳) ディープラーニングは、関数境界検出、バイナリコード検索、関数プロトタイプ推論、値セット分析など、多数のバイナリ分析タスクにおいて、その強みを実証している。 二元分析タスクにディープラーニングを適用する場合、ニューラルネットワークモデルにどの入力を入力すべきかを決定する必要があります。 具体的には、固定長ベクトルで命令を表現する方法に答える必要がある。 命令表現を自動的に学習するというアイデアは興味深いが、既存のスキームは分解のユニークな特徴を捉えていない。 これらのスキームは複雑なインストラクション構造を無視し、主にコンテキスト情報がノイズの多い制御フローに依存し、コンパイラの最適化の影響を受けやすい。 本稿では,大規模非ラベルバイナリコーパス上で自己教師あり学習を行うことで汎用命令埋め込みを生成するために,palmtreeと呼ばれるアセンブリ言語モデルを事前学習することを提案する。 PalmTreeは3つの事前訓練タスクを使用して、アセンブリ言語の様々な特性をキャプチャする。 これらのトレーニングタスクは既存のスキームの問題を克服し、高品質な表現を生成するのに役立つ。 内在的および外在的評価を行い、PalmTreeと他の命令埋め込み方式との比較を行う。 PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。

Deep learning has demonstrated its strengths in numerous binary analysis tasks, including function boundary detection, binary code search, function prototype inference, value set analysis, etc. When applying deep learning to binary analysis tasks, we need to decide what input should be fed into the neural network model. More specifically, we need to answer how to represent an instruction in a fixed-length vector. The idea of automatically learning instruction representations is intriguing, however the existing schemes fail to capture the unique characteristics of disassembly. These schemes ignore the complex intra-instruction structures and mainly rely on control flow in which the contextual information is noisy and can be influenced by compiler optimizations. In this paper, we propose to pre-train an assembly language model called PalmTree for generating general-purpose instruction embeddings by conducting self-supervised training on large-scale unlabeled binary corpora. PalmTree utilizes three pre-training tasks to capture various characteristics of assembly language. These training tasks overcome the problems in existing schemes, thus can help to generate high-quality representations. We conduct both intrinsic and extrinsic evaluations, and compare PalmTree with other instruction embedding schemes. PalmTree has the best performance for intrinsic metrics, and outperforms the other instruction embedding schemes for all downstream tasks.
翻訳日:2021-03-21 08:00:42 公開日:2021-01-21
# 不定値非パラメトリック最大度推定におけるブースティング

Boosting in Univariate Nonparametric Maximum Likelihood Estimation ( http://arxiv.org/abs/2101.08505v1 )

ライセンス: Link先を確認
YunPeng Li, ZhaoHui Ye(参考訳) 非パラメトリック最大推定は、できるだけ少ない仮定で未知の密度分布を推定することを目的としている。 非パラメトリックデータフィッティングにおけるオーバーパラメータ化を軽減するため、スムーズな仮定は通常、推定にマージされる。 本稿では,単変量の場合の非パラメトリック推定に新しいブースティング法を提案する。 非パラメトリックログ類似性の2次近似によりブースティングアルゴリズムを推定する。 ガウスカーネルと滑らかなスプラインは、滑らかな仮定を満たすために強化の弱い学習者として選択される。 シミュレーションと実データ実験により提案手法の有効性が示された。

Nonparametric maximum likelihood estimation is intended to infer the unknown density distribution while making as few assumptions as possible. To alleviate the over parameterization in nonparametric data fitting, smoothing assumptions are usually merged into the estimation. In this paper a novel boosting-based method is introduced to the nonparametric estimation in univariate cases. We deduce the boosting algorithm by the second-order approximation of nonparametric log-likelihood. Gaussian kernel and smooth spline are chosen as weak learners in boosting to satisfy the smoothing assumptions. Simulations and real data experiments demonstrate the efficacy of the proposed approach.
翻訳日:2021-03-21 08:00:24 公開日:2021-01-21
# TDA-Net:胸部X線画像におけるウイルス検出のための持続的ホモロジーと深層学習の融合

TDA-Net: Fusion of Persistent Homology and Deep Learning Features for COVID-19 Detection in Chest X-Ray Images ( http://arxiv.org/abs/2101.08398v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Fawwaz Batayneh(参考訳) トポロジカルデータ分析(TDA)は、データセットの構造を抽出し比較するための堅牢なツールとして最近登場した。 TDAは接続されたコンポーネントやホールなどのデータの特徴を特定し、これらの特徴に定量的な尺度を割り当てる。 いくつかの研究では、tdaツールによって抽出されたトポロジカルな特徴は、データに関するユニークな情報を提供し、新しい洞察を発見し、どの特徴が結果とより関連があるかを決定すると報告されている。 一方、学習パターンや関係性におけるディープニューラルネットワークの圧倒的な成功は、膨大なデータアプリケーション、特に画像で証明されている。 両強力なツールの特徴を捉えるために,モデル一般化性と精度を高めるために,トポロジと深部の特徴を融合した新しいアンサンブルネットワークである「textit{TDA-Net}」を提案する。 提案する \textit{tda-net} をcxr画像からcovid-19の自動検出を行う重要なアプリケーションに適用する。 実験の結果,提案したネットワークは優れた性能を示し,本手法の適用性が示唆された。

Topological Data Analysis (TDA) has emerged recently as a robust tool to extract and compare the structure of datasets. TDA identifies features in data such as connected components and holes and assigns a quantitative measure to these features. Several studies reported that topological features extracted by TDA tools provide unique information about the data, discover new insights, and determine which feature is more related to the outcome. On the other hand, the overwhelming success of deep neural networks in learning patterns and relationships has been proven on a vast array of data applications, images in particular. To capture the characteristics of both powerful tools, we propose \textit{TDA-Net}, a novel ensemble network that fuses topological and deep features for the purpose of enhancing model generalizability and accuracy. We apply the proposed \textit{TDA-Net} to a critical application, which is the automated detection of COVID-19 from CXR images. The experimental results showed that the proposed network achieved excellent performance and suggests the applicability of our method in practice.
翻訳日:2021-03-21 08:00:16 公開日:2021-01-21
# U-Netによる情報フローの解析

Analysis of Information Flow Through U-Nets ( http://arxiv.org/abs/2101.08427v1 )

ライセンス: Link先を確認
Suemin Lee and Ivan V. Baji\'c(参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、医用画像処理と分析においてユビキタスである。 U-Netは様々な画像分割タスクで非常に人気がある。 しかし、これらのネットワークを通して情報がどのように流れるのか、そして彼らが実際に提案されているタスクのために適切に設計されているかどうかについてはほとんど知られていない。 本稿では,U-Netを介する情報フローの洞察を得るために,情報理論ツールを用いる。 特に,入力/出力層と中間層の間の相互情報がどのように,U-Netの様々な部分を通過する情報の流れを理解し,そのアーキテクチャ効率を評価し,より効率的な設計を提案するのに役立つかを示す。

Deep Neural Networks (DNNs) have become ubiquitous in medical image processing and analysis. Among them, U-Nets are very popular in various image segmentation tasks. Yet, little is known about how information flows through these networks and whether they are indeed properly designed for the tasks they are being proposed for. In this paper, we employ information-theoretic tools in order to gain insight into information flow through U-Nets. In particular, we show how mutual information between input/output and an intermediate layer can be a useful tool to understand information flow through various portions of a U-Net, assess its architectural efficiency, and even propose more efficient designs.
翻訳日:2021-03-21 07:59:56 公開日:2021-01-21
# 深部生成モデルによる正規化--解析的視点から

Regularization via deep generative models: an analysis point of view ( http://arxiv.org/abs/2101.08661v1 )

ライセンス: Link先を確認
Thomas Oberlin and Mathieu Verm(参考訳) 本稿では, イメージングにおける逆問題(例えば, デブロアリングやインペインティング)を, 深部生成ニューラルネットワークを用いて正則化する新しい手法を提案する。 エンド・ツー・エンドのモデルと比較すると、生成モデルがデータに適合するとすぐに同じネットワークが様々な問題や実験条件に使用できるため、このようなアプローチは特に興味深いように見える。 以前の研究では、潜在ベクトル上で推定を行い、その後デコーダを介して解を得る合成フレームワークを使用するように提案されている。 そこで我々は,画像自体を直接最適化し,潜伏ベクトルをペナルティ化する解析式を提案する。 インペイント,デブロアリング,超解像実験を行ない,そのような定式化の関心を述べる。 多くの場合、我々の技術はパフォーマンスの明確な改善を実現し、特に初期化に関してより堅牢であるように思われる。

This paper proposes a new way of regularizing an inverse problem in imaging (e.g., deblurring or inpainting) by means of a deep generative neural network. Compared to end-to-end models, such approaches seem particularly interesting since the same network can be used for many different problems and experimental conditions, as soon as the generative model is suited to the data. Previous works proposed to use a synthesis framework, where the estimation is performed on the latent vector, the solution being obtained afterwards via the decoder. Instead, we propose an analysis formulation where we directly optimize the image itself and penalize the latent vector. We illustrate the interest of such a formulation by running experiments of inpainting, deblurring and super-resolution. In many cases our technique achieves a clear improvement of the performance and seems to be more robust, in particular with respect to initialization.
翻訳日:2021-03-21 07:59:47 公開日:2021-01-21
# Copycat CNN: ランダムな非ラベルデータはブラックボックスモデルからのステルス知識に十分か?

Copycat CNN: Are Random Non-Labeled Data Enough to Steal Knowledge from Black-box Models? ( http://arxiv.org/abs/2101.08717v1 )

ライセンス: Link先を確認
Jacson Rodrigues Correia-Silva, Rodrigo F. Berriel, Claudine Badue, Alberto F. De Souza, Thiago Oliveira-Santos(参考訳) 畳み込みニューラルネットワークは、企業がデータ取得とアノテーションを含む高価なプロセスを必要とするニューラルネットワーク製品を開発することを可能にするために、最近成功している。 これらのコストで、企業はモデルのコピーに対するセキュリティを心配し、APIによってアクセスされるブラックボックスとして提供します。 それでも、ブラックボックスモデルでさえいくつかの脆弱性があると主張する。 予備研究として,自然ランダム画像で検索することでブラックボックスモデルをコピーする,シンプルかつパワフルな手法を提案する。 本研究は,コピーキャット法を統合し,拡張する: (i) いくつかの制約を放棄し, (ii) 問題のある広範囲な評価を行い, (iii) モデルが異なるアーキテクチャ間でコピーされ, (iv) コピーキャットの挙動を見てより深い解析を行う。 その結果、自然ランダム画像は複数の問題に対してコピーキャットを生成するのに有効であることがわかった。

Convolutional neural networks have been successful lately enabling companies to develop neural-based products, which demand an expensive process, involving data acquisition and annotation; and model generation, usually requiring experts. With all these costs, companies are concerned about the security of their models against copies and deliver them as black-boxes accessed by APIs. Nonetheless, we argue that even black-box models still have some vulnerabilities. In a preliminary work, we presented a simple, yet powerful, method to copy black-box models by querying them with natural random images. In this work, we consolidate and extend the copycat method: (i) some constraints are waived; (ii) an extensive evaluation with several problems is performed; (iii) models are copied between different architectures; and, (iv) a deeper analysis is performed by looking at the copycat behavior. Results show that natural random images are effective to generate copycats for several problems.
翻訳日:2021-03-21 07:59:33 公開日:2021-01-21
# DataLoc+: ルームレベル屋内ローカライゼーションにおける機械学習のためのデータ拡張手法

DataLoc+: A Data Augmentation Technique for Machine Learning in Room-Level Indoor Localization ( http://arxiv.org/abs/2101.10833v1 )

ライセンス: Link先を確認
Amr E Hilal, Ismail Arai, Samy El-Tawab(参考訳) 屋内のローカライゼーションは過去20年間、ホットな研究領域だった。 登場以来、新しいテクノロジーを着実に活用して精度を高めてきたが、機械学習はその中心にある。 指紋に基づく屋内位置推定では、位置情報が与えられた位置を予測するために使用される無線地図を置き換えたり、エミュレートするために機械学習がますます使われている。 機械学習モデルの予測品質は、トレーニングに使用されるデータの量と品質に依存するため、モデルがどのようにトレーニングされたかに大きく依存する。 データ拡張は、より多くのトレーニングデータを合成してトレーニングモデルの質を向上させるために使用され、異なる角度からのトレーニングデータの欠如に対処する文献でいくつかのアプローチが用いられた。 本稿では,シンプルなアルゴリズムで異なるアプローチを組み合わせた室内位置推定のためのデータ拡張手法であるDataLoc+を提案する。 本手法は,病院で実施したフィールド実験から収集したデータを用いて,典型的な直接スナップショットアプローチと比較することで評価する。 評価の結果,提案手法を用いて訓練したモデルの方が精度が高いことがわかった。 また,この手法は,高い精度を維持しつつ,限られたデータセットを用いてより大きな問題に適応することを示す。

Indoor localization has been a hot area of research over the past two decades. Since its advent, it has been steadily utilizing the emerging technologies to improve accuracy, and machine learning has been at the heart of that. Machine learning has been increasingly used in fingerprint-based indoor localization to replace or emulate the radio map that is used to predict locations given a location signature. The prediction quality of a machine learning model primarily depends on how well the model was trained, which relies on the amount and quality of data used to train it. Data augmentation has been used to improve quality of the trained models by synthetically producing more training data, and several approaches were used in the literature that tackles the problem of lack of training data from different angles. In this paper, we propose DataLoc+, a data augmentation technique for room-level indoor localization that combines different approaches in a simple algorithm. We evaluate the technique by comparing it to the typical direct snapshot approach using data collected from a field experiment conducted in a hospital. Our evaluation shows that the model trained using the proposed technique achieves higher accuracy. We also show that the technique adapts to larger problems using a limited dataset while maintaining high accuracy.
翻訳日:2021-03-21 07:58:51 公開日:2021-01-21
# hmcは、データマイニングのアルゴリズムに適用された関数解析の例である。 l^p$ における収束

HMC, an example of Functional Analysis applied to Algorithms in Data Mining. The convergence in $L^p$ ( http://arxiv.org/abs/2101.08688v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz Nowicki(参考訳) 本稿では,ハミルトニアンモンテカルロアルゴリズムの関数解析による収束の証明を示す。 このアルゴリズムを密度関数上の作用素として表現し、この作用素の反復の収束を$L^p$, $1<p<\infty$, and strong convergence for $2\le p<\infty$とする。

We present a proof of convergence of the Hamiltonian Monte Carlo algorithm in terms of Functional Analysis. We represent the algorithm as an operator on the density functions, and prove the convergence of iterations of this operator in $L^p$, for $1<p<\infty$, and strong convergence for $2\le p<\infty$.
翻訳日:2021-03-21 07:58:33 公開日:2021-01-21
# 文書検索型チャットボットのコンテンツ選択ネットワーク

Content Selection Network for Document-grounded Retrieval-based Chatbots ( http://arxiv.org/abs/2101.08426v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Pan Du, Zhicheng Dou(参考訳) 文書に人間と機械の会話を接地することは、検索ベースのチャットボットのパフォーマンスを改善する効果的な方法である。 しかし、文書コンテンツの一部だけが、ラウンドの適切な応答を選択するのに役立つかもしれない。 したがって、現在の会話コンテキストに関連する文書コンテンツの一部を選択することが重要である。 本稿では,関連文書の明示的な選択を行い,無関係部分をフィルタリングする文書コンテンツ選択ネットワーク(csn)を提案する。 本研究では,2つの公開文書グラウンド会話データセットを用いて,CSNが関連文書の内容を会話コンテキストに効果的に選択できることを示す。 私たちのコードとデータセットはhttps://github.com/daod/csnで利用可能です。

Grounding human-machine conversation in a document is an effective way to improve the performance of retrieval-based chatbots. However, only a part of the document content may be relevant to help select the appropriate response at a round. It is thus crucial to select the part of document content relevant to the current conversation context. In this paper, we propose a document content selection network (CSN) to perform explicit selection of relevant document contents, and filter out the irrelevant parts. We show in experiments on two public document-grounded conversation datasets that CSN can effectively help select the relevant document contents to the conversation context, and it produces better results than the state-of-the-art approaches. Our code and datasets are available at https://github.com/DaoD/CSN.
翻訳日:2021-03-21 07:58:10 公開日:2021-01-21
# 単語感覚の曖昧化過程におけるマルチセンス埋め込み

Multi-sense embeddings through a word sense disambiguation process ( http://arxiv.org/abs/2101.08700v1 )

ライセンス: Link先を確認
Terry Ruas, William Grosky, Aiko Aizawa(参考訳) 自然言語理解はここ数年で出版物が増えており、特に大量のデータから意味的関係を捉え、表現できることが証明され、強固な単語埋め込みモデルが顕著になった後である。 それにもかかわらず、伝統的なモデルはポリセミーやホモニミーのような言語学の本質的な問題において不足することが多い。 自然言語をコアとして使用するすべてのエキスパートシステムは、テキストの弱い意味表現に影響され、不正確な決定に基づく不正確な結果をもたらす。 そこで本研究では,文脈の意味的効果を考慮し,各単語を特定の意味で曖昧化・注釈化する,最も適切な意味アノテーション(mssa)と呼ばれる新しい手法を提案する。 提案手法は, 意味表現のシナリオに3つの寄与をもたらす: (i) 単語を知覚によって曖昧にし, 注釈づけする教師なし手法, (ii) 従来の単語埋め込みアルゴリズムに拡張可能なマルチセンス埋め込みモデル, (iii) モデルの再使用と表現の洗練を可能にする再帰的方法論。 我々は,単語類似性タスクのための6つの異なるベンチマークでアプローチを検証し,我々のアプローチが最先端の結果を生成し,さらに複雑な最先端システムより優れていることを示す。

Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
翻訳日:2021-03-21 07:57:58 公開日:2021-01-21
# 説明可能性とモデル選択のためのセマンティックセグメンテーション評価の再考

Rethinking Semantic Segmentation Evaluation for Explainability and Model Selection ( http://arxiv.org/abs/2101.08418v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Sachin Mehta, Anat Caspi(参考訳) セマンティックセグメンテーションは、画像の領域全体のコヒーレントなクラスラベルを堅牢に予測することを目的としている。 これは実世界のアプリケーション(例えば自律ナビゲーション)を動かすシーン理解タスクである。 歩行者環境の自動意味理解のための画像の使用は、道路環境におけるアクセシビリティ機能のリモートマッピングを提供する。 このアプリケーション(およびそのように)は、地理的対象の詳細な幾何学的情報を必要とする。 セマンティクスセグメンテーションは、単一のエンティティと同じクラスの連続した領域をマップするため、このタスクの前提条件である。 重要なことに、私たちのような意味的セグメンテーションの使用はピクセル単位の成果ではない。しかし、それらの定量的評価指標(例えば、結合の平均交点)のほとんどは、セグメンテーションモデルのオーバーセグメンテーション特性とアンダーセグメンテーション特性の強調に失敗している。 本稿では,地域別オーバー・アンダー・セグメンテーションを評価するための新しい指標を提案する。 分析して他のメトリクスと比較し、実世界のアプリケーションにおけるセマンティックセグメンテーションモデルのパフォーマンスをより説明しやすくなることを示す。

Semantic segmentation aims to robustly predict coherent class labels for entire regions of an image. It is a scene understanding task that powers real-world applications (e.g., autonomous navigation). One important application, the use of imagery for automated semantic understanding of pedestrian environments, provides remote mapping of accessibility features in street environments. This application (and others like it) require detailed geometric information of geographical objects. Semantic segmentation is a prerequisite for this task since it maps contiguous regions of the same class as single entities. Importantly, semantic segmentation uses like ours are not pixel-wise outcomes; however, most of their quantitative evaluation metrics (e.g., mean Intersection Over Union) are based on pixel-wise similarities to a ground-truth, which fails to emphasize over- and under-segmentation properties of a segmentation model. Here, we introduce a new metric to assess region-based over- and under-segmentation. We analyze and compare it to other metrics, demonstrating that the use of our metric lends greater explainability to semantic segmentation model performance in real-world applications.
翻訳日:2021-03-21 07:57:05 公開日:2021-01-21
# ビデオ要約:様々な技法の研究

Video Summarization: Study of various techniques ( http://arxiv.org/abs/2101.08434v1 )

ライセンス: Link先を確認
Ravi Raj, Varad Bhatnagar, Aman Kumar Singh, Sneha Mane and Nilima Walde(参考訳) 映像の要約に使用できる様々な技術の比較研究 ビデオからビデオへの変換は、それぞれのアーキテクチャ、結果、強み、欠点とともに提供される。 いずれのアプローチでも、長いビデオは短いビデオに変換され、オリジナルのビデオにあるすべての重要なイベントをキャプチャすることを目的としている。 「重要イベント」の定義は、スポーツ映像やドキュメンタリーなど、重要と分類される異なるイベントがある場合など、文脈によって異なる場合がある。

A comparative study of various techniques which can be used for summarization of Videos i.e. Video to Video conversion is presented along with respective architecture, results, strengths and shortcomings. In all approaches, a lengthy video is converted into a shorter video which aims to capture all important events that are present in the original video. The definition of 'important event' may vary according to the context, such as a sports video and a documentary may have different events which are classified as important.
翻訳日:2021-03-21 07:56:43 公開日:2021-01-21
# FWB-Net:Front White Balance Network for Color Shift Correction in Single Image Dehazing via atmosphere light Estimation

FWB-Net:Front White Balance Network for Color Shift Correction in Single Image Dehazing via Atmospheric Light Estimation ( http://arxiv.org/abs/2101.08465v1 )

ライセンス: Link先を確認
Cong Wang, Yan Huang, Yuexian Zou, Yong Xu(参考訳) 近年,大気散乱モデル(ASM)に基づく単一画像デハージングディープモデルが顕著な成果を上げている。 しかし、これらのモデルのデヘイジングアウトプットはカラーシフトに苦しむ。 ASMモデルを解析すると、大気光因子(ALF)がスカラーとして設定され、ALFが全画像に対して一定であることを示している。 しかし、実世界の画像の場合、照明は全体像に均一に分布せず、モデルミスマッチをもたらし、おそらくはASMを用いた深層モデルのカラーシフトをもたらす。 このことを念頭に置いて、まず、複雑な照明条件下で撮影されたヘイズ画像の画像モデリングを改善するために、新しい非均一大気散乱モデル(NH-ASM)を提案する。 第2に,新しいu-netベースのフロントホワイトバランスモジュール(fwb-module)は,大気光量推定による消光結果を生成する前に色シフトを補正するように特別に設計されている。 第3に,色シフトにペナルティを課すfwbモジュールのトレーニングにおいて,新たなfwbロスが革新的に開発された。 最後に、nh-asmとフロントホワイトバランス技術に基づき、fwb-netと呼ばれるエンドツーエンドのcnnベースのカラーシフト抑制デヘイジングネットワークを開発した。 提案するFWB-Netの有効性と優位性は,合成画像と実画像の両方で実証された。

In recent years, single image dehazing deep models based on Atmospheric Scattering Model (ASM) have achieved remarkable results. But the dehazing outputs of those models suffer from color shift. Analyzing the ASM model shows that the atmospheric light factor (ALF) is set as a scalar which indicates ALF is constant for whole image. However, for images taken in real-world, the illumination is not uniformly distributed over whole image which brings model mismatch and possibly results in color shift of the deep models using ASM. Bearing this in mind, in this study, first, a new non-homogeneous atmospheric scattering model (NH-ASM) is proposed for improving image modeling of hazy images taken under complex illumination conditions. Second, a new U-Net based front white balance module (FWB-Module) is dedicatedly designed to correct color shift before generating dehazing result via atmospheric light estimation. Third, a new FWB loss is innovatively developed for training FWB-Module, which imposes penalty on color shift. In the end, based on NH-ASM and front white balance technology, an end-to-end CNN-based color-shift-restraining dehazing network is developed, termed as FWB-Net. Experimental results demonstrate the effectiveness and superiority of our proposed FWB-Net for dehazing on both synthetic and real-world images.
翻訳日:2021-03-21 07:56:37 公開日:2021-01-21
# 2台の校正カメラ間の相対値の高速かつロバストな評価

Fast and Robust Certifiable Estimation of the Relative Pose Between Two Calibrated Cameras ( http://arxiv.org/abs/2101.08524v1 )

ライセンス: Link先を確認
Mercedes Garcia-Salguero and Javier Gonzalez-Jimenez(参考訳) カメラの相対ポーズ問題(RPp)は、2台の中央カメラと校正カメラのペアワイズ特徴対応を考慮し、相対配向と翻訳(目的)を推定することを目的としている。 RPp は二乗正規化エピポーラ誤差が正規化必須行列の集合上で最小化される最適化問題として記述される。 本研究では, rppインスタンスに対する解が大域的最適かどうかを検証できる双対性理論の結果に基づいて, 効率的かつ完全なアルゴリズムを提案する。 具体的には,検出された最適解の比率を増加させる証明器群を提案する。 この証明器のセットは、rppの初期推定が与えられたとき、3次元回転と2次元球面の積空間上で反復的に精製し、解の最適性を証明する効率的な本質行列推定パイプラインに組み込まれている。 我々は、高速な証明可能なパイプラインを、高次非凸性とロバスト関数とラインプロセスの間のブラックランガラジャン双対性を組み合わせた堅牢なフレームワークに統合する。 この組み合わせは、RANSACに基づくアプローチによって提供される外れ値に対する堅牢性を上回ることが文献で示されている。 提案手法が高速でロバストなポーズ推定を実現することを, 合成および実データに関する広範な実験により実証した。 提案手法を精度と計算コストの両面で比較し, RPpのゴールドスタンダード手法である2ビューバンドル調整の出力を改善することを示す。 コードを公開している。 \url{https://github.com/mergarsal/FastCertRelPose.git}。

The Relative Pose problem (RPp) for cameras aims to estimate the relative orientation and translation (pose) given a set of pair-wise feature correspondences between two central and calibrated cameras. The RPp is stated as an optimization problem where the squared, normalized epipolar error is minimized over the set of normalized essential matrices. In this work, we contribute an efficient and complete algorithm based on results from duality theory that is able to certify whether the solution to a RPp instance is the global optimum. Specifically, we present a family of certifiers that is shown to increase the ratio of detected optimal solutions. This set of certifiers is incorporated into an efficient essential matrix estimation pipeline that, given any initial guess for the RPp, refines it iteratively on the product space of 3D rotations and 2-sphere and thereupon, certifies the optimality of the solution. We integrate our fast certifiable pipeline into a robust framework that combines Graduated Non-convexity and the Black-Rangarajan duality between robust functions and line processes. This combination has been shown in the literature to outperform the robustness to outliers provided by approaches based on RANSAC. We proved through extensive experiments on synthetic and real data that the proposed framework provides a fast and robust relative pose estimation. We compare our proposal against the state-of-the-art methods on both accuracy and computational cost, and show that our estimations improve the output of the gold-standard approach for the RPp, the 2-view Bundle-Adjustment. We make the code publicly available \url{https://github.com/mergarsal/FastCertRelPose.git}.
翻訳日:2021-03-21 07:55:24 公開日:2021-01-21
# 弱教師環境におけるマルチラベルアクタ-アクション関係の発見

Discovering Multi-Label Actor-Action Association in a Weakly Supervised Setting ( http://arxiv.org/abs/2101.08567v1 )

ライセンス: Link先を確認
Sovan Biswas and Juergen Gall(参考訳) 時空間的行動検出のためのデータの収集と注釈は非常に高価であるため、少ない監督でアプローチを学ぶ必要がある。 弱い教師付きアプローチはバウンディングボックスアノテーションを一切必要とせず、ビデオクリップでアクションが発生するかどうかを示すラベルからのみトレーニングすることができる。 しかし、現在のアプローチでは、複数のアクションを同時に実行するビデオに複数の人がいる場合、そのケースに対処できない。 この作業では、この非常に困難なタスクに初めて対処します。 本稿では,マルチインスタンス学習とマルチラベル学習に基づくベースラインを提案する。 さらに,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。 計算により、動作クラス数が増加するにつれて、全パワーセットの確率が失われるので、各検出された人物に、その割り当てがビデオクリップのアノテーションと一致するという制約の下で、アクションセットを割り当てる。 提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的なAVAデータセットに対する提案手法の評価を行った。

Since collecting and annotating data for spatio-temporal action detection is very expensive, there is a need to learn approaches with less supervision. Weakly supervised approaches do not require any bounding box annotations and can be trained only from labels that indicate whether an action occurs in a video clip. Current approaches, however, cannot handle the case when there are multiple persons in a video that perform multiple actions at the same time. In this work, we address this very challenging task for the first time. We propose a baseline based on multi-instance and multi-label learning. Furthermore, we propose a novel approach that uses sets of actions as representation instead of modeling individual action classes. Since computing, the probabilities for the full power set becomes intractable as the number of action classes increases, we assign an action set to each detected person under the constraint that the assignment is consistent with the annotation of the video clip. We evaluate the proposed approach on the challenging AVA dataset where the proposed approach outperforms the MIML baseline and is competitive to fully supervised approaches.
翻訳日:2021-03-21 07:54:55 公開日:2021-01-21
# マルチアクティビティの動作検出のための階層グラフ-RNN

Hierarchical Graph-RNNs for Action Detection of Multiple Activities ( http://arxiv.org/abs/2101.08581v1 )

ライセンス: Link先を確認
Sovan Biswas, Yaser Souri and Juergen Gall(参考訳) 本稿では,複数の人物が同時に複数の活動を行うことのできる映像フレーム内のアクティビティを空間的に局所化する手法を提案する。 本手法は,検出者の行動の時間的文脈と関係を考慮に入れたものである。 時間的コンテキストは時間的リカレントニューラルネットワーク(RNN)によってモデル化されるが、アクションの関係はグラフRNNによってモデル化される。 どちらのネットワークも一緒にトレーニングされており、提案手法はAVAデータセットのアート結果の状態を達成している。

In this paper, we propose an approach that spatially localizes the activities in a video frame where each person can perform multiple activities at the same time. Our approach takes the temporal scene context as well as the relations of the actions of detected persons into account. While the temporal context is modeled by a temporal recurrent neural network (RNN), the relations of the actions are modeled by a graph RNN. Both networks are trained together and the proposed approach achieves state of the art results on the AVA dataset.
翻訳日:2021-03-21 07:54:38 公開日:2021-01-21
# 画像間翻訳:方法と応用

Image-to-Image Translation: Methods and Applications ( http://arxiv.org/abs/2101.08629v1 )

ライセンス: Link先を確認
Yingxue Pang, Jianxin Lin, Tao Qin, and Zhibo Chen(参考訳) image-to-image translation (i2i) は、コンテンツ表現を保持しながら、ソースドメインからターゲットドメインにイメージを転送することを目的としている。 I2Iは画像合成、セグメンテーション、スタイル転送、復元、ポーズ推定といった多くのコンピュータビジョンや画像処理問題に幅広く応用されているため、近年は注目され、大きな進歩を遂げている。 本稿では,近年開発されたI2Iについて概説する。 我々は,既存のi2i作業の重要な技術を分析し,コミュニティが行った主な進歩を明らかにする。 また、I2Iが研究・産業コミュニティに与える影響について詳しく述べ、関連分野の課題を指摘したい。

Image-to-image translation (I2I) aims to transfer images from a source domain to a target domain while preserving the content representations. I2I has drawn increasing attention and made tremendous progress in recent years because of its wide range of applications in many computer vision and image processing problems, such as image synthesis, segmentation, style transfer, restoration, and pose estimation. In this paper, we provide an overview of the I2I works developed in recent years. We will analyze the key techniques of the existing I2I works and clarify the main progress the community has made. Additionally, we will elaborate on the effect of I2I on the research and industry community and point out remaining challenges in related fields.
翻訳日:2021-03-21 07:54:29 公開日:2021-01-21
# DAF:アニメキャラクタ認識のためのクラウドソース、大規模、長期のデータセット

DAF:re: A Challenging, Crowd-Sourced, Large-Scale, Long-Tailed Dataset For Anime Character Recognition ( http://arxiv.org/abs/2101.08674v1 )

ライセンス: Link先を確認
Edwin Arkel Rios, Wen-Huang Cheng, Bo-Cheng Lai(参考訳) 本研究では,アニメキャラクタ認識の課題に挑戦する。 アニメ(アニメ)とは、日本国内で制作されたアニメーションをいう。 この目的のために、DAF:re(DanbooruAnimeFaces:revamped)という、3000以上のクラスに約500Kの画像が散在する大規模でクラウドソースのロングテールデータセットを提示する。 さらに、CNNベースのResNetsや自己注意に基づく視覚変換器(ViT)など、さまざまな分類モデルを用いて、DAF:reと類似したデータセットの実験を行う。 以上の結果から,VTモデルのアップストリーム事前学習用データセットとは大きく異なる領域データセットに対する一般化と伝達学習特性について,バッチや画像サイズの影響など,新たな知見が得られた。 さらに、データセット、ソースコード、事前トレーニングされたチェックポイントと結果も、大規模なアニメ文字認識のための最初のエンドツーエンドフレームワークであるAnimesionとして共有しています。

In this work we tackle the challenging problem of anime character recognition. Anime, referring to animation produced within Japan and work derived or inspired from it. For this purpose we present DAF:re (DanbooruAnimeFaces:revamped), a large-scale, crowd-sourced, long-tailed dataset with almost 500 K images spread across more than 3000 classes. Additionally, we conduct experiments on DAF:re and similar datasets using a variety of classification models, including CNN based ResNets and self-attention based Vision Transformer (ViT). Our results give new insights into the generalization and transfer learning properties of ViT models on substantially different domain datasets from those used for the upstream pre-training, including the influence of batch and image size in their training. Additionally, we share our dataset, source-code, pre-trained checkpoints and results, as Animesion, the first end-to-end framework for large-scale anime character recognition: https://github.com/arkel23/animesion
翻訳日:2021-03-21 07:54:18 公開日:2021-01-21
# SSTVOS:ビデオオブジェクトセグメンテーションのためのスパース時空間変換器

SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation ( http://arxiv.org/abs/2101.08833v1 )

ライセンス: Link先を確認
Brendan Duke and Abdalla Ahmed and Christian Wolf and Parham Aarabi and Graham W. Taylor(参考訳) 本稿では,ビデオオブジェクトセグメンテーション(VOS)に対するTransformerベースのアプローチを提案する。 従来の作業の複雑なエラーやスケーラビリティの問題に対処するために,スパース時空間変換器(SST)と呼ばれるVOSのスケーラブルでエンドツーエンドな手法を提案する。 SSTは、時空間的特徴に対するスパースアテンションを用いて、ビデオ内の各オブジェクトのピクセルごとの表現を抽出する。 VOSの注意に基づく定式化により、複数のフレームの履歴を学習し、動きのセグメンテーションを解くのに必要な対応計算を行うのに適した帰納的バイアスを提供する。 時空間領域における注意に基づく再帰的ネットワークの有効性を示す。 提案手法は,YouTube-VOS と DAVIS 2017 において,オクルージョンに対するスケーラビリティとロバスト性を改善した競合性を実現する。

In this paper we introduce a Transformer-based approach to video object segmentation (VOS). To address compounding error and scalability issues of prior work, we propose a scalable, end-to-end method for VOS called Sparse Spatiotemporal Transformers (SST). SST extracts per-pixel representations for each object in a video using sparse attention over spatiotemporal features. Our attention-based formulation for VOS allows a model to learn to attend over a history of multiple frames and provides suitable inductive bias for performing correspondence-like computations necessary for solving motion segmentation. We demonstrate the effectiveness of attention-based over recurrent networks in the spatiotemporal domain. Our method achieves competitive results on YouTube-VOS and DAVIS 2017 with improved scalability and robustness to occlusions compared with the state of the art.
翻訳日:2021-03-21 07:53:47 公開日:2021-01-21
# イクスハナ:人間の情景理解機構の理論

Ikshana: A Theory of Human Scene Understanding Mechanism ( http://arxiv.org/abs/2101.10837v1 )

ライセンス: Link先を確認
Venkata Satya Sai Ajay Daliparthi(参考訳) 近年、ディープニューラルネットワークは多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成した。 これらのディープニューラルネットワークの最もよく見られる欠点は、大量のラベル付きデータと膨大な数のパラメータの要求である。 本研究では,人間の脳機能を説明するために,イクサナという理論を提案し,自然のシーンやイメージを理解する。 我々はIkshanaNetというアーキテクチャを設計し、Cityscapesのピクセルレベルのセマンティックセマンティックセグメンテーションベンチマークで評価し、我々の理論を実際にどのように実装するかを示す。 その結果、イクシャナ理論はより少ない訓練データで実行可能であることが判明した。 また、検証セットで評価したいくつかの実験により、Ikshana理論はネットワークのパラメータ数を著しく削減できることを示した。 結論として、イクスハナ理論に従って設計されたディープニューラルネットワークは、任意のコンピュータビジョンタスクに有用な、画像のベクトル表現をより良く学習する。

In recent years, deep neural networks achieved state-of-the-art performance on many computer vision tasks. The two most commonly observed drawbacks of these deep neural networks are: the requirement of a massive amount of labeled data and a vast number of parameters. In this work, we propose a theory named Ikshana, to explain the functioning of the human brain, while humans understand a natural scene/image. We have designed an architecture named IkshanaNet and evaluated on the Cityscapes pixel-level semantic segmentation benchmark, to show how to implement our theory in practice. The results showed that the Ikshana theory could perform with less training data. Also, through some experiments evaluated on the validation set, we showed that the Ikshana theory can significantly reduce the number of parameters of the network. In conclusion, a deep neural network designed by following the Ikshana theory will learn better vector representations of the image, useful for any computer vision task.
翻訳日:2021-03-21 07:53:34 公開日:2021-01-21
# Greedyよりも短い - 最適ルールブースティングによる解釈可能なモデル

Better Short than Greedy: Interpretable Models through Optimal Rule Boosting ( http://arxiv.org/abs/2101.08380v1 )

ライセンス: Link先を確認
Mario Boley and Simon Teshuva and Pierre Le Bodic and Geoffrey I Webb(参考訳) ルールアンサンブルは、予測精度とモデル解釈可能性の間の有用なトレードオフを提供するように設計されている。 しかし、現在のルールアンサンブルの筋力とランダムな検索コンポーネントは、特定の精度レベルに達するために必要以上のルールを必要とする場合や、いくつかのルールで実際にうまく記述できる分布を正確にモデル化できない場合など、この目標を克服することができる。 本稿では,与えられたアンサンブルサイズに対する最大予測パワーの規則アンサンブル(従ってモデル理解可能性)を適合させることを目的とした新しいアプローチを提案する。 特に,人気のある二階勾配ブースティングフレームワークのルール毎の目的関数を最適に解く効率的な分岐・境界アルゴリズムを提案する。 我々の主な洞察は、対象とするデータポイントの数を線形時間で厳密に拘束できるということである。 ルール冗長性に関連する新たなプルーニング技術とともに、この手法は最適なルールを推し進めるための計算可能なアプローチをもたらし、幅広い共通ベンチマーク問題で示されるように、グレディルールを推し進めるという予測性能を一貫して上回る。

Rule ensembles are designed to provide a useful trade-off between predictive accuracy and model interpretability. However, the myopic and random search components of current rule ensemble methods can compromise this goal: they often need more rules than necessary to reach a certain accuracy level or can even outright fail to accurately model a distribution that can actually be described well with a few rules. Here, we present a novel approach aiming to fit rule ensembles of maximal predictive power for a given ensemble size (and thus model comprehensibility). In particular, we present an efficient branch-and-bound algorithm that optimally solves the per-rule objective function of the popular second-order gradient boosting framework. Our main insight is that the boosting objective can be tightly bounded in linear time of the number of covered data points. Along with an additional novel pruning technique related to rule redundancy, this leads to a computationally feasible approach for boosting optimal rules that, as we demonstrate on a wide range of common benchmark problems, consistently outperforms the predictive performance of boosting greedy rules.
翻訳日:2021-03-21 07:53:18 公開日:2021-01-21
# Differential Euler: カオス三体問題を解決するニューラルネットワーク近似器の設計

Differential Euler: Designing a Neural Network approximator to solve the Chaotic Three Body Problem ( http://arxiv.org/abs/2101.08486v1 )

ライセンス: Link先を確認
Pratyush Kumar, Aishwarya Das, Debayan Gupta(参考訳) 3つの体問題は、ニュートンの運動法則と普遍重力法則に従って3つの点の質量の初期位置と速度を計算し、その運動を時間とともに予測しようとする n 体の問題の特別な場合である。 分析解は特別な場合においても発見されているが、一般的な問題は未解決のままであり、存在する解は実用的ではない。 幸いなことに、多くのアプリケーションにとって、この問題を完全に解決する必要はないかもしれない。 breenらは最近、単純なニューラルネットワークを使って3つのボディ問題をほぼ解決しようと試みた。 彼らの手法は計算のオーバーヘッドを減らすことに成功しているように見えるが、モデルは極めて制限され、特殊な2次元の場合に適用される。 著者らは、実験的な設計で取られた決定に関する説明や、モデルやアーキテクチャの詳細は提供せず、コードを公開もしていない。 さらに、モデルは見当たらないケースにうまく一般化しない。 本稿では,ニューラルネットワークを用いた3つの身体問題の解法の実現可能性について,一定の時間ステップで決定できる詳細な実験装置を提案する。 我々は,データセットサイズに関するベンチマークを定め,実用的応用における結果の有効性を測定するための精度閾値を設定できる。 そして、標準数値積分器から生成されたデータセットを用いて、NNの一覧クラスに従ってモデルを構築する。 NNが実生活シナリオにおける数値積分器を置き換えるのに十分なカオス的な3体問題の表現を学べるかどうかを判断するために、データセットの複雑さを徐々に増す。

The three body problem is a special case of the n body problem where one takes the initial positions and velocities of three point masses and attempts to predict their motion over time according to Newtonian laws of motion and universal gravitation. Though analytical solutions have been found for special cases, the general problem remains unsolved; the solutions that do exist are impractical. Fortunately, for many applications, we may not need to solve the problem completely, i.e., predicting with reasonable accuracy for some time steps, may be sufficient. Recently, Breen et al attempted to approximately solve the three body problem using a simple neural network. Although their methods appear to achieve some success in reducing the computational overhead, their model is extremely restricted, applying to a specialized 2D case. The authors do not provide explanations for critical decisions taken in their experimental design, no details on their model or architecture, and nor do they publish their code. Moreover, the model does not generalize well to unseen cases. In this paper, we propose a detailed experimental setup to determine the feasibility of using neural networks to solve the three body problem up to a certain number of time steps. We establish a benchmark on the dataset size and set an accuracy threshold to measure the viability of our results for practical applications. Then, we build our models according to the listed class of NNs using a dataset generated from standard numerical integrators. We gradually increase the complexity of our data set to determine whether NNs can learn a representation of the chaotic three body problem well enough to replace numerical integrators in real life scenarios.
翻訳日:2021-03-21 07:52:57 公開日:2021-01-21
# ファウショット学習のためのメタラーニングアプローチのストレステスト

Stress Testing of Meta-learning Approaches for Few-shot Learning ( http://arxiv.org/abs/2101.08587v1 )

ライセンス: Link先を確認
Aroof Aimen, Sahil Sidheekh, Vineet Madan, Narayanan C. Krishnan(参考訳) メタラーニング(ml)は,少人数学習などの資源制約下での有望な学習方法として登場した。 MLアプローチは通常、一般化可能なモデルを学ぶための方法論を提案する。 本稿では,最近のmlアプローチをストレステストに適用し,その限界を明らかにする。 より正確には、タスク複雑性の増加に対して、数ショット学習のためのMLアプローチの性能を測定する。 その結果,MLの初期化戦略(MAML,TAML,MetaSGD)の性能は急速に低下した。 さらに,MAML方式で学習したML(MetaLSTM++)の最適化戦略が,純粋最適化戦略よりも有効であることを示す。 また,MLの最適化手法により,単純なタスクから複雑なタスクへの転送性が向上することを示す。

Meta-learning (ML) has emerged as a promising learning method under resource constraints such as few-shot learning. ML approaches typically propose a methodology to learn generalizable models. In this work-in-progress paper, we put the recent ML approaches to a stress test to discover their limitations. Precisely, we measure the performance of ML approaches for few-shot learning against increasing task complexity. Our results show a quick degradation in the performance of initialization strategies for ML (MAML, TAML, and MetaSGD), while surprisingly, approaches that use an optimization strategy (MetaLSTM) perform significantly better. We further demonstrate the effectiveness of an optimization strategy for ML (MetaLSTM++) trained in a MAML manner over a pure optimization strategy. Our experiments also show that the optimization strategies for ML achieve higher transferability from simple to complex tasks.
翻訳日:2021-03-21 07:52:32 公開日:2021-01-21
# アクティブハイブリッド分類

Active Hybrid Classification ( http://arxiv.org/abs/2101.08854v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Fabio Casati, Alessandro Bozzon(参考訳) ハイブリッドクラウドマシン分類器は、自動分類のコスト効率と人間の判断精度を組み合わせることで、優れた性能を達成できる。 本稿では,群集と機械が分類問題に取り組む際の相互サポートについて述べる。 具体的には,活発な学習と群集分類を編成し,それらを活発なサイクルで組み合わせるアーキテクチャを提案する。 分類すべき項目のプールが有限である場合、学習対ハイブリッド分類における搾取トレードオフに直面し、プール内の項目の分類に最適化されたタスクとトレーニングデータセットを作成するために最適化された群集タスクのバランスをとる必要があることを示す。 この問題を定義し,提案するヒューリスティックスと,マシンとクラウドの分類性能の異なる3つの実世界のデータセットに対するアプローチを評価し,我々のアクティブハイブリッドアプローチがベースラインを大幅に上回ることを示す。

Hybrid crowd-machine classifiers can achieve superior performance by combining the cost-effectiveness of automatic classification with the accuracy of human judgment. This paper shows how crowd and machines can support each other in tackling classification problems. Specifically, we propose an architecture that orchestrates active learning and crowd classification and combines them in a virtuous cycle. We show that when the pool of items to classify is finite we face learning vs. exploitation trade-off in hybrid classification, as we need to balance crowd tasks optimized for creating a training dataset with tasks optimized for classifying items in the pool. We define the problem, propose a set of heuristics and evaluate the approach on three real-world datasets with different characteristics in terms of machine and crowd classification performance, showing that our active hybrid approach significantly outperforms baselines.
翻訳日:2021-03-21 07:51:54 公開日:2021-01-21
# Xavierの導出の厳密な証明とDeep ReLUネットワークの初期化

A Fully Rigorous Proof of the Derivation of Xavier and He's Initialization for Deep ReLU Networks ( http://arxiv.org/abs/2101.12017v1 )

ライセンス: Link先を確認
Quynh Nguyen(参考訳) ReLUネットに対するXavier/Heの初期化の導出の完全な厳密な証明が与えられる。

A fully rigorous proof of the derivation of Xavier/He's initialization for ReLU nets is given.
翻訳日:2021-03-21 07:51:24 公開日:2021-01-21
# 制約付き多目的ポートフォリオ問題に対する変数分割と最適化

Variable Division and Optimization for Constrained Multiobjective Portfolio Problems ( http://arxiv.org/abs/2101.08552v1 )

ライセンス: Link先を確認
Yi Chen, Aimin Zhou(参考訳) 変数分割と最適化 (D\&O) は進化的アルゴリズム(EA)においてよく利用されるアルゴリズム設計パラダイムである。 D\&O EAは変数を部分変数に分割し、それぞれ最適化する。 したがって、複雑な問題は単純なサブタスクに分割される。 例えば、ポートフォリオ問題の変数は2つの部分変数、すなわち2つの部分変数に分けられる。 資産の選択と資本配分です これにより、これら2つの部分変数をそれぞれ最適化する。 部分変数が反復的に最適化されているか、なぜそれがD\&Oの単目的問題と多目的問題の両方で機能するのか、という公式な議論はない。 本稿では,この隙間を埋める。 議論によると,多目的問題における部分変数のエリート的選択法を開発した。 次に、この手法を分解ベース多目的進化アルゴリズム(D\&O-MOEA/D)に組み込む。 数学的プログラミング最適化の助けを借りて、制約付き多目的ポートフォリオ問題で実現される。 実証研究では、d\&o-moea/dは20の事例と最近の中国株式市場で実施されている。 その結果,大規模インスタンスにおけるD&O-MOEA/Dの優位性と汎用性を示した。 前者のターゲットはパレートフロントに収束し、後者は探索過程における非支配的なソリューション間の多様性を促進する。

Variable division and optimization (D\&O) is a frequently utilized algorithm design paradigm in Evolutionary Algorithms (EAs). A D\&O EA divides a variable into partial variables and then optimize them respectively. A complicated problem is thus divided into simple subtasks. For example, a variable of portfolio problem can be divided into two partial variables, i.e. the selection of assets and the allocation of capital. Thereby, we optimize these two partial variables respectively. There is no formal discussion about how are the partial variables iteratively optimized and why can it work for both single- and multi-objective problems in D\&O. In this paper, this gap is filled. According to the discussion, an elitist selection method for partial variables in multiobjective problems is developed. Then this method is incorporated into the Decomposition-Based Multiobjective Evolutionary Algorithm (D\&O-MOEA/D). With the help of a mathematical programming optimizer, it is achieved on the constrained multiobjective portfolio problems. In the empirical study, D\&O-MOEA/D is implemented for 20 instances and recent Chinese stock markets. The results show the superiority and versatility of D\&O-MOEA/D on large-scale instances while the performance of it on small-scale problems is also not bad. The former targets convergence towards the Pareto front and the latter helps promote diversity among the non-dominated solutions during the search process.
翻訳日:2021-03-21 07:51:20 公開日:2021-01-21
# GPU加速オプティマイザ-サブモジュール外乱クラスタリングの評価

GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar Clustering ( http://arxiv.org/abs/2101.08763v1 )

ライセンス: Link先を確認
Philipp-Jan Honysz, Sebastian Buschj\"ager, Katharina Morik(参考訳) 部分モジュラ関数の最適化はクラスタリングを実行するための実行可能な方法を構成する。 強近似保証と実現可能な最適化 w.r.t. ストリーミングデータはこのクラスタリングアプローチが好都合です 技術的には、サブモジュラ関数はデータのサブセットを実際の値にマップする。 最適なセットは、データ空間を分割し、クラスタを推論するために使われる。 exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。 しかし、実用的なアプリケーションでは、特定のリアルタイムまたはウォールクロックのランタイムが決定的です。 本稿では,GPU上での特定の機能の評価方法を提案する。これは最適化器の必要を念頭に置いて,ウォールタイムの実行時間を短縮する。 我々は,データ次元やサブセット内のデータポイント数など,異なる実行時臨界問題特性の影響と,必要な浮動小数点精度の影響について検討した。 再現可能な実験では,CPU上のマルチスレッド計算を比較対象とし,浮動小数点精度のタイプに応じて,最大72倍の競合高速化を実現した。 半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。

The optimization of submodular functions constitutes a viable way to perform clustering. Strong approximation guarantees and feasible optimization w.r.t. streaming data make this clustering approach favorable. Technically, submodular functions map subsets of data to real values, which indicate how "representative" a specific subset is. Optimal sets might then be used to partition the data space and to infer clusters. Exemplar-based clustering is one of the possible submodular functions, but suffers from high computational complexity. However, for practical applications, the particular real-time or wall-clock run-time is decisive. In this work, we present a novel way to evaluate this particular function on GPUs, which keeps the necessities of optimizers in mind and reduces wall-clock run-time. To discuss our GPU algorithm, we investigated both the impact of different run-time critical problem properties, like data dimensionality and the number of data points in a subset, and the influence of required floating-point precision. In reproducible experiments, our GPU algorithm was able to achieve competitive speedups of up to 72x depending on whether multi-threaded computation on CPUs was used for comparison and the type of floating-point precision required. Half-precision GPU computation led to large speedups of up to 452x compared to single-precision, single-thread CPU computations.
翻訳日:2021-03-21 07:50:42 公開日:2021-01-21
# 低コストドローンを用いた機械学習による早期火災検知システム

Machine Learning Based Early Fire Detection System using a Low-Cost Drone ( http://arxiv.org/abs/2101.09362v1 )

ライセンス: Link先を確認
Ay\c{s}eg\"ul Yan{\i}k, Mehmet Serdar G\"uzel, Mertkan Yan{\i}k, Erkan Bostanc{\i}(参考訳) 本稿では,森林火災の早期検出を低コストかつ高精度に行う機械学習システムを提案する。 そのため、森林火災の視覚検出に新しく明確な視点をもたらすことを目的としている。 この目的のためにドローンが構築されます。 システム内のマイクロコントローラは深層学習の訓練によってプログラムされ、無人航空機は火災検知の最も初期の兆候である煙を認識する能力が与えられた。 火災検出に使用される一般的なアルゴリズムの一般的な問題は、高い誤報と過失率である。 可視化から得られた結果を監視段階の追加で確認することにより、システムの信頼性を高め、結果の正確性を保証する。 無人航空機の移動ビジョン能力により、データは任意の視点から明確に連続的に制御できる。 システム性能はシミュレーションと物理環境の両方で実験を行うことで検証される。

This paper proposes a new machine learning based system for forest fire earlier detection in a low-cost and accurate manner. Accordingly, it is aimed to bring a new and definite perspective to visual detection in forest fires. A drone is constructed for this purpose. The microcontroller in the system has been programmed by training with deep learning methods, and the unmanned aerial vehicle has been given the ability to recognize the smoke, the earliest sign of fire detection. The common problem in the prevalent algorithms used in fire detection is the high false alarm and overlook rates. Confirming the result obtained from the visualization with an additional supervision stage will increase the reliability of the system as well as guarantee the accuracy of the result. Due to the mobile vision ability of the unmanned aerial vehicle, the data can be controlled from any point of view clearly and continuously. System performance are validated by conducting experiments in both simulation and physical environments.
翻訳日:2021-03-21 07:50:22 公開日:2021-01-21
# GhostSR: 効率的な画像超解法のためのゴースト機能を学ぶ

GhostSR: Learning Ghost Features for Efficient Image Super-Resolution ( http://arxiv.org/abs/2101.08525v1 )

ライセンス: Link先を確認
Ying Nie, Kai Han, Zhenhua Liu, An Xiao, Yiping Deng, Chunjing Xu, Yunhe Wang(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく現代の単一画像超解像システム(SISR)は、膨大な計算コストを必要とする間、豪華な性能を実現する。 特徴冗長性に関する問題は、視覚認識タスクにおいてよく研究されているが、SISRで論じられることは稀である。 sisrモデルの多くの特徴が互いに類似しているという観測に基づいて,シフト演算を用いて冗長な特徴(ゴースト特徴)を生成することを提案する。 GPUやNPUと親和性のないディープワイド・コンボリューションと比較して、シフト操作は一般的なハードウェア上でのCNNの実用的な推論アクセラレーションをもたらす。 本稿では,sisrのシフト操作の利点を分析し,ガムベルソフトマックストリックに基づいてシフト方向を学習可能にする。 与えられた事前学習モデルに対して、まず各畳み込み層に全てのフィルタをクラスタリングし、固有の特徴を生成する固有のものを特定する。 ゴースト機能は、これらの固有の特徴を特定の方向に沿って移動させることによって引き起こされる。 完全な出力特徴は、本質的特徴とゴースト特徴を結合して構成される。 いくつかのベンチマークモデルとデータセットに対する大規模な実験により、提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が、パラメータ、FLOP、GPUレイテンシを大幅に削減することで、ベースラインのモデルと同等のパフォーマンスを達成できることが示されている。 例えば、パラメータを47%削減し、フロップを46%、gpuレイテンシをedsr x2ネットワークの41%削減しました。

Modern single image super-resolution (SISR) system based on convolutional neural networks (CNNs) achieves fancy performance while requires huge computational costs. The problem on feature redundancy is well studied in visual recognition task, but rarely discussed in SISR. Based on the observation that many features in SISR models are also similar to each other, we propose to use shift operation to generate the redundant features (i.e., Ghost features). Compared with depth-wise convolution which is not friendly to GPUs or NPUs, shift operation can bring practical inference acceleration for CNNs on common hardware. We analyze the benefits of shift operation for SISR and make the shift orientation learnable based on Gumbel-Softmax trick. For a given pre-trained model, we first cluster all filters in each convolutional layer to identify the intrinsic ones for generating intrinsic features. Ghost features will be derived by moving these intrinsic features along a specific orientation. The complete output features are constructed by concatenating the intrinsic and ghost features together. Extensive experiments on several benchmark models and datasets demonstrate that both the non-compact and lightweight SISR models embedded in our proposed module can achieve comparable performance to that of their baselines with large reduction of parameters, FLOPs and GPU latency. For instance, we reduce the parameters by 47%, FLOPs by 46% and GPU latency by 41% of EDSR x2 network without significant performance degradation.
翻訳日:2021-03-21 07:50:11 公開日:2021-01-21
# データ駆動ベースステーション睡眠制御のための時空間トラヒック予測を用いた深層強化学習

Deep Reinforcement Learning with Spatio-temporal Traffic Forecasting for Data-Driven Base Station Sleep Control ( http://arxiv.org/abs/2101.08391v1 )

ライセンス: Link先を確認
Qiong Wu and Xu Chen and Zhi Zhou and Liang Chen and Junshan Zhang(参考訳) 5g時代のモバイルトラフィックの増加に対応するため、基地局(bss)は無線アクセスネットワーク(ran)に密に配置され、ネットワークのカバレッジとキャパシティが向上している。 しかし、高密度のBSsはピークトラフィックに対応するように設計されているため、オフピーク時にBSsがオンになっている場合、不要に大量のエネルギーを消費する。 セルラーネットワークのエネルギー消費を抑えるために、交通需要に応えないアイドルベースステーションを非活性化する方法が効果的である。 本稿では,より少ないエネルギー消費とQoS(Quality of Service)要件を満たしつつ,BSのアクティブ/スリープモードを決定するための新しいデータ駆動学習手法であるDeepBSCという,トラフィックを考慮した動的BS睡眠制御フレームワークを開発する。 具体的には,移動トラフィックの地理的および意味的空間的相関を利用したGS-STNモデルにより交通需要を予測する。 正確な移動トラヒック予測では、bs睡眠制御問題をマルコフ決定プロセスとしてキャストし、アクタ-クリティック強化学習法によって解決する。 動的環境におけるコスト推定のばらつきを低減すべく,ポリシー更新にロバストなパフォーマンス指標を提供するベンチマーク変換手法を提案する。 トレーニングプロセスを迅速化するために,我々は,探索をさらに強化するエクスプローラネットワークとともに,ddpg(deep deterministic policy gradient)アプローチを採用する。 実世界のデータセットを用いた広範囲な実験は、提案フレームワークが既存のメソッドを大幅に上回っていることを裏付ける。

To meet the ever increasing mobile traffic demand in 5G era, base stations (BSs) have been densely deployed in radio access networks (RANs) to increase the network coverage and capacity. However, as the high density of BSs is designed to accommodate peak traffic, it would consume an unnecessarily large amount of energy if BSs are on during off-peak time. To save the energy consumption of cellular networks, an effective way is to deactivate some idle base stations that do not serve any traffic demand. In this paper, we develop a traffic-aware dynamic BS sleep control framework, named DeepBSC, which presents a novel data-driven learning approach to determine the BS active/sleep modes while meeting lower energy consumption and satisfactory Quality of Service (QoS) requirements. Specifically, the traffic demands are predicted by the proposed GS-STN model, which leverages the geographical and semantic spatial-temporal correlations of mobile traffic. With accurate mobile traffic forecasting, the BS sleep control problem is cast as a Markov Decision Process that is solved by Actor-Critic reinforcement learning methods. To reduce the variance of cost estimation in the dynamic environment, we propose a benchmark transformation method that provides robust performance indicator for policy update. To expedite the training process, we adopt a Deep Deterministic Policy Gradient (DDPG) approach, together with an explorer network, which can strengthen the exploration further. Extensive experiments with a real-world dataset corroborate that our proposed framework significantly outperforms the existing methods.
翻訳日:2021-03-21 07:49:21 公開日:2021-01-21
# 大規模コンテンツに基づくテキストファイル型検出

Content-Based Textual File Type Detection at Scale ( http://arxiv.org/abs/2101.08508v1 )

ライセンス: Link先を確認
Francesca Del Bonifro, Maurizio Gabbrielli, Stefano Zacchiroli(参考訳) プログラミング言語検出は、大規模なソースコードの解析において一般的なニーズである。 ファイルタイプを決定するために、いくつかの機能、特にファイル拡張に依存する既存のツールによってサポートされている。 我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。 そのためには、ファイル拡張を欠いたソースコード(例えば、Webに投稿されたコードスニペットや実行可能スクリプト)を分類し、間違ったファイル拡張や珍しいファイル拡張で記録されたソースコードの誤分類を避けるとともに、ソースコードファイルの本質的な認識性にも光を当てる。 本稿では, (a) テキストファイルに言語に依存しない単語トークン化器, (b) 1-/2-gram のグループトークン, (c) n-gram周波数に基づく特徴ベクトルの構築, (d) 単純な完全接続型ニューラルネットワークを分類器として使用する簡易モデルを提案する。 トレーニングセットとしては、既存のファイル拡張を根拠として、少なくとも1000の星を持つgithubリポジトリから抽出されたテキストファイルを使用する。 その単純さにもかかわらず、提案されたモデルは比較的多くの認識されたクラス(130以上のファイルタイプ)に対する実験で85%に達する。

Programming language detection is a common need in the analysis of large source code bases. It is supported by a number of existing tools that rely on several features, and most notably file extensions, to determine file types. We consider the problem of accurately detecting the type of files commonly found in software code bases, based solely on textual file content. Doing so is helpful to classify source code that lack file extensions (e.g., code snippets posted on the Web or executable scripts), to avoid misclassifying source code that has been recorded with wrong or uncommon file extensions, and also shed some light on the intrinsic recognizability of source code files. We propose a simple model that (a) use a language-agnostic word tokenizer for textual files, (b) group tokens in 1-/2-grams, (c) build feature vectors based on N-gram frequencies, and (d) use a simple fully connected neural network as classifier. As training set we use textual files extracted from GitHub repositories with at least 1000 stars, using existing file extensions as ground truth. Despite its simplicity the proposed model reaches 85% in our experiments for a relatively high number of recognized classes (more than 130 file types).
翻訳日:2021-03-21 07:48:56 公開日:2021-01-21
# 競争力のある自動車保険市場の顧客価格感性

Customer Price Sensitivities in Competitive Automobile Insurance Markets ( http://arxiv.org/abs/2101.08551v1 )

ライセンス: Link先を確認
Robert Matthijs Verschuren(参考訳) 保険業者は、政策ステークホルダーの滞在意欲に対するプレミアム・チェンジの間接効果を取り入れるため、より需要ベースの戦略を採用する傾向にある。 しかし、実際には、保険業者のリニューアル・プレミアと顧客のリアクションは、通常、顧客のリスクレベルに依存しているため、これらの戦略では、この不確実性に対する適切なコントロール方法を決定することが困難である。 そこで本稿では,顧客価格のセンシティビティを考慮し,プレミアム更新オファーを最大化する最適多時期利益を導き出す因果推論手法を検討する。 具体的には, エクストリームグラディエントブースティング (XGBoost) による Guelman と Guill\'en (2014) の離散的処理フレームワークを拡張し, 反事実応答の不確かさをよりよく説明するために, 多重計算により拡張する。 さらに,xgboostを用いた継続的処理フレームワークを保険文献に導入し,適切な更新提案の特定と,競合オファーを含む市場での競合に対する説明を可能にした。 オランダの自動車保険ポートフォリオへの2つの治療枠組みの適用は、市場における政策の競争性が顧客の価格感度に不可欠であること、XGBoostが従来のロジスティック回帰よりもこれを記述するのが適切であることを示唆している。 さらに、両方のフレームワークの効率的なフロンティアは、実現したよりもはるかに多くの利益を得ることができることを示しています。 複数周期の更新最適化がこれらの結果を確認し、競争性が将来の需要に対する過去のレート変化の時間的フィードバックを可能にすることを示す。

Insurers are increasingly adopting more demand-based strategies to incorporate the indirect effect of premium changes on their policyholders' willingness to stay. However, since in practice both insurers' renewal premia and customers' responses to these premia typically depend on the customer's level of risk, it remains challenging in these strategies to determine how to properly control for this confounding. We therefore consider a causal inference approach in this paper to account for customer price sensitivities and to deduce optimal, multi-period profit maximizing premium renewal offers. More specifically, we extend the discrete treatment framework of Guelman and Guill\'en (2014) by Extreme Gradient Boosting, or XGBoost, and by multiple imputation to better account for the uncertainty in the counterfactual responses. We additionally introduce the continuous treatment framework with XGBoost to the insurance literature to allow identification of the exact optimal renewal offers and account for any competition in the market by including competitor offers. The application of the two treatment frameworks to a Dutch automobile insurance portfolio suggests that a policy's competitiveness in the market is crucial for a customer's price sensitivity and that XGBoost is more appropriate to describe this than the traditional logistic regression. Moreover, an efficient frontier of both frameworks indicates that substantially more profit can be gained on the portfolio than realized, also already with less churn and in particular if we allow for continuous rate changes. A multi-period renewal optimization confirms these findings and demonstrates that the competitiveness enables temporal feedback of previous rate changes on future demand.
翻訳日:2021-03-21 07:48:36 公開日:2021-01-21
# Clairvoyant Prefetching for Distributed Machine Learning I/O

Clairvoyant Prefetching for Distributed Machine Learning I/O ( http://arxiv.org/abs/2101.08734v1 )

ライセンス: Link先を確認
Roman B\"ohringer, Nikoli Dryden, Tal Ben-Nun, Torsten Hoefler(参考訳) I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。 最適なデータ取り込みパイプラインはシステムによって異なり、効率の向上にはローカルストレージ、外部ファイルシステム、リモートワーカーへのアクセスの微妙なバランスが必要となるが、既存のフレームワークではそのようなリソースを効率的に利用できない。 種子がsgdでトレーニングするためのランダムアクセスパターンを生成すると、我々は透視能力を持ち、与えられたサンプルがいつアクセスされるかを正確に予測できる。 トレーニングおよびパフォーマンスモデリングにおけるアクセスパターンの理論的分析と組み合わせて、新しい機械学習I/OミドルウェアであるHDMLPを作成し、I/Oボトルネックに取り組む。 HDMLPは使いやすく、フレキシブルでスケーラブルなソリューションを提供し、最先端のアプローチよりも優れたパフォーマンスを提供すると同時に、既存のコードベースにわずかな変更を必要とせず、幅広い環境をサポートする。

I/O is emerging as a major bottleneck for machine learning training, especially in distributed environments such as clouds and supercomputers. Optimal data ingestion pipelines differ between systems, and increasing efficiency requires a delicate balance between access to local storage, external filesystems, and remote workers; yet existing frameworks fail to efficiently utilize such resources. We observe that, given the seed generating the random access pattern for training with SGD, we have clairvoyance and can exactly predict when a given sample will be accessed. We combine this with a theoretical analysis of access patterns in training and performance modeling to produce a novel machine learning I/O middleware, HDMLP, to tackle the I/O bottleneck. HDMLP provides an easy-to-use, flexible, and scalable solution that delivers better performance than state-of-the-art approaches while requiring very few changes to existing codebases and supporting a broad range of environments.
翻訳日:2021-03-21 07:48:06 公開日:2021-01-21
# インシシットフィードバックからの項目推薦

Item Recommendation from Implicit Feedback ( http://arxiv.org/abs/2101.08769v1 )

ライセンス: Link先を確認
Steffen Rendle(参考訳) アイテムレコメンデーションのタスクは、大きなアイテムカタログからユーザのために最適なアイテムを選択することである。 アイテムレコメンダは、通常、前向きな過去のアクションからなる暗黙のフィードバックから訓練される。 項目推薦の主な課題は,(1)暗黙のフィードバックからトレーニング対象を定式化し,(2)大規模項目カタログ上でモデルを効率的にトレーニングする方法である。 この記事では、アイテムレコメンデーションの概要、ユニークな特徴、そしていくつかの一般的なアプローチについて説明する。 問題の導入から始まり、異なるトレーニング目標について議論する。 本体は学習アルゴリズムを扱い、一般的な推奨者のためのサンプリングベースのアルゴリズムと、ドット製品モデルのためのより効率的なアルゴリズムを提示する。 最後に,検索タスクに対するアイテムレコメンダの適用について論じる。

The task of item recommendation is to select the best items for a user from a large catalogue of items. Item recommenders are commonly trained from implicit feedback which consists of past actions that are positive only. Core challenges of item recommendation are (1) how to formulate a training objective from implicit feedback and (2) how to efficiently train models over a large item catalogue. This article provides an overview of item recommendation, its unique characteristics and some common approaches. It starts with an introduction to the problem and discusses different training objectives. The main body deals with learning algorithms and presents sampling based algorithms for general recommenders and more efficient algorithms for dot product models. Finally, the application of item recommenders for retrieval tasks is discussed.
翻訳日:2021-03-21 07:47:50 公開日:2021-01-21
# PyGlove: 自動機械学習のためのシンボリックプログラミング

PyGlove: Symbolic Programming for Automated Machine Learning ( http://arxiv.org/abs/2101.08809v1 )

ライセンス: Link先を確認
Daiyi Peng, Xuanyi Dong, Esteban Real, Mingxing Tan, Yifeng Lu, Hanxiao Liu, Gabriel Bender, Adam Kraft, Chen Liang, Quoc V. Le(参考訳) ニューラルネットワークはハイパーパラメータとアーキテクチャの選択に敏感である。 Automated Machine Learning (AutoML)は、これらの選択を自動化するための有望なパラダイムである。 しかし、現在のMLソフトウェアライブラリは、AutoMLのコンポーネント間の動的インタラクションの処理に非常に制限されている。 例えば、ENASやDARTSのような効率的なNASアルゴリズムは、通常、検索空間と検索アルゴリズムの間の実装結合を必要とする。 さらに,ハードウェア構成を探索するループ内のアーキテクチャの探索など,複雑な検索フローの実装も困難である。 要約すると、現在のMLライブラリの検索空間、検索アルゴリズム、または検索フローを変更するには、プログラムロジックに大きな変更が必要になる。 本稿では,記号型プログラミングに基づくAutoMLの新しいプログラミング手法を提案する。 このパラダイムでは、MLプログラムは変更可能であり、他のプログラムで容易に操作できる。 その結果、AutoMLはシンボル操作の自動化プロセスとして再編成できる。 この定式化により,探索アルゴリズム,探索空間,児童プログラムの三角形を分離する。 この分離により、検索スペースと検索アルゴリズム(ウェイトシェアなし)の変更が容易になり、既存のコードに検索機能を追加し、複雑な検索フローを実装することができる。 次に、このパラダイムを実装した新しいPythonライブラリであるPyGloveを紹介します。 ImageNetとNAS-Bench-101のケーススタディを通じて、PyGloveのユーザは静的プログラムを検索スペースに簡単に変換でき、検索スペースと検索アルゴリズムをすばやくイテレーションでき、複雑な検索フローを作成でき、より良い結果が得られることを示す。

Neural networks are sensitive to hyper-parameter and architecture choices. Automated Machine Learning (AutoML) is a promising paradigm for automating these choices. Current ML software libraries, however, are quite limited in handling the dynamic interactions among the components of AutoML. For example, efficientNAS algorithms, such as ENAS and DARTS, typically require an implementation coupling between the search space and search algorithm, the two key components in AutoML. Furthermore, implementing a complex search flow, such as searching architectures within a loop of searching hardware configurations, is difficult. To summarize, changing the search space, search algorithm, or search flow in current ML libraries usually requires a significant change in the program logic. In this paper, we introduce a new way of programming AutoML based on symbolic programming. Under this paradigm, ML programs are mutable, thus can be manipulated easily by another program. As a result, AutoML can be reformulated as an automated process of symbolic manipulation. With this formulation, we decouple the triangle of the search algorithm, the search space and the child program. This decoupling makes it easy to change the search space and search algorithm (without and with weight sharing), as well as to add search capabilities to existing code and implement complex search flows. We then introduce PyGlove, a new Python library that implements this paradigm. Through case studies on ImageNet and NAS-Bench-101, we show that with PyGlove users can easily convert a static program into a search space, quickly iterate on the search spaces and search algorithms, and craft complex search flows to achieve better results.
翻訳日:2021-03-21 07:47:37 公開日:2021-01-21
# 貯留層計算のためのスパース行列乗算器の直接空間実装

Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing ( http://arxiv.org/abs/2101.08884v1 )

ライセンス: Link先を確認
Matthew Denton and Herman Schmit(参考訳) 貯水池計算システムは、非常に大きくスパースで固定された行列の繰り返しの乗算に依存する。 これらの固定行列の空間的直接的実装は計算における作業を最小限にし、定常伝播と論理最小化による遅延と電力の大幅な削減を可能にする。 ビットシリアル演算により、巨大な静的行列を実装できる。 本稿では,ビットシリアル行列乗算器の構造を示し,正規符号付き桁表現を用いて論理利用のさらなる削減を図る。 我々は、これらの行列を大きなFPGA上に実装し、シンプルで拡張可能なコストモデルを提供する。 これらのFPGAの実装は平均して、GPUライブラリと比較して50倍のレイテンシを86倍に削減する。 最近のスパースdnn加速器と比較すると、マトリックス次元とスパース性に依存するレイテンシの4.1倍から47倍削減できる。 FPGAソリューションのスループットは、幅広い行列次元とバッチサイズに対して競合する。 最後に,これらの手法をASICに展開する方法について議論し,動的スパース行列計算に適用する。

Reservoir computing systems rely on the recurrent multiplication of a very large, sparse, fixed matrix. We argue that direct spatial implementation of these fixed matrices minimizes the work performed in the computation, and allows for significant reduction in latency and power through constant propagation and logic minimization. Bit-serial arithmetic enables massive static matrices to be implemented. We present the structure of our bit-serial matrix multiplier, and evaluate using canonical signed digit representation to further reduce logic utilization. We have implemented these matrices on a large FPGA and provide a cost model that is simple and extensible. These FPGA implementations, on average, reduce latency by 50x up to 86x versus GPU libraries. Comparing against a recent sparse DNN accelerator, we measure a 4.1x to 47x reduction in latency depending on matrix dimension and sparsity. Throughput of the FPGA solution is also competitive for a wide range of matrix dimensions and batch sizes. Finally, we discuss ways these techniques could be deployed in ASICs, making them applicable for dynamic sparse matrix computations.
翻訳日:2021-03-21 07:47:12 公開日:2021-01-21
# リモート電気ネットワークコンディションモニタリングのための人工知能を用いたセンサデータ分析フレームワーク

Artificial Intelligence based Sensor Data Analytics Framework for Remote Electricity Network Condition Monitoring ( http://arxiv.org/abs/2102.03356v1 )

ライセンス: Link先を確認
Tharmakulasingam Sirojan(参考訳) 農村電化は、単一ワイヤアースリターン(SWER)ネットワークのような安価な技術の使用を要求する。 リモート消費者からのエネルギー需要は着実に増加しており、既存の路線の容量はすぐに不足する可能性がある。 さらに、SWER線からの高インピーダンスアーク断層(HIF)は、2009年のブラック・サタデー・イベントのような大火を引き起こす可能性がある。 ソリューションとして、既存のシステムをマイクログリッドに分解することで、信頼性の高い遠隔電気ネットワークを確立することができ、既存のSWER回線を使用してマイクログリッドを相互接続することができる。 エネルギー需要管理を向上した信頼性の高いネットワークの開発は、ネットワーク全体の状態監視システムの構築に依存している。 この論文の最初の貢献として、SWERネットワークにおける電力品質モニタリング、リアルタイムHIF識別、過渡分類を含む分散オンライン監視プラットフォームを開発した。 人工知能(AI)ベースの技術は、障害と過渡性を分類するために開発されている。 提案手法は高いHIF検出精度 (98.67%) と検出遅延 (115.2 ms) を示す。 次に,その過渡状態から負荷タイプを検出するために,リモートコンシューマの負荷識別手法を開発した。 負荷同定のための高周波解析を容易にするためにエッジコンピューティングに基づくアーキテクチャを提案する。 提案手法はリアルタイムに評価され,負荷の同定において平均98%の精度が得られる。 最後に、集約信号から負荷特異的エネルギーの使用を分離するために、ディープニューラルネットワークに基づくエネルギー分散フレームワークを開発する。 提案フレームワークは実世界のデータセットを用いて評価される。 信号集約誤差を44%改善し、最先端技術と比較して平均集約誤差を19%改善する。

Rural electrification demands the use of inexpensive technologies such as single wire earth return (SWER) networks. There is a steadily growing energy demand from remote consumers, and the capacity of existing lines may become inadequate soon. Furthermore, high impedance arcing faults (HIF) from SWER lines can cause catastrophic bushfires such as the 2009 Black Saturday event. As a solution, reliable remote electricity networks can be established through breaking the existing systems down into microgrids, and existing SWER lines can be utilised to interconnect those microgrids. The development of such reliable networks with better energy demand management will rely on having an integrated network-wide condition monitoring system. As the first contribution of this thesis, a distributed online monitoring platform is developed that incorporates power quality monitoring, real-time HIF identification and transient classification in SWER network. Artificial Intelligence (AI) based techniques are developed to classify faults and transients. The proposed approach demonstrates higher HIF detection accuracy (98.67%) and reduced detection latency (115.2 ms). Secondly, a remote consumer load identification methodology is developed to detect the load type from its transients. An edge computing-based architecture is proposed to facilitate the high-frequency analysis for load identification. The proposed approach is evaluated in real-time, and it achieves an average accuracy of 98% in identifying different loads. Finally, a deep neural network-based energy disaggregation framework is developed to separate the load specific energy usage from an aggregated signal. The proposed framework is evaluated using a real-world data set. It improves the signal aggregate error by 44% and mean aggregate error by 19% in comparison with the state-of-the-art techniques.
翻訳日:2021-03-21 07:46:32 公開日:2021-01-21
# 対数比較による最適フルランキング

Optimal Full Ranking from Pairwise Comparisons ( http://arxiv.org/abs/2101.08421v1 )

ライセンス: Link先を確認
Pinhan Chen, Chao Gao, Anderson Y. Zhang(参考訳) ブラッドリー・テリー・ルースモデルに基づく部分対比較データからn$プレイヤーをランク付けする問題を考える。 文献の中で初めて、このランキング問題の最小値は、逆数を数えて2つのランクベクトル間の差を測定するケンドールのタウ距離について導出される。 ランキングの最小レートは、問題の信号対雑音比の大きさに応じて指数率と多項式率の遷移を示す。 我々の知る限りでは、この現象は完全なランキングに特有であり、他の統計的推定問題では見られていない。 ミニマックスレートを達成するために,まず,n$ プレーヤーを類似したスキルのグループに分割し,次に各グループ内のローカル mle を計算する分割・コンクエストランキングアルゴリズムを提案する。 提案アルゴリズムの最適性は、2つのステップ間の注意深い近似独立性論によって確立される。

We consider the problem of ranking $n$ players from partial pairwise comparison data under the Bradley-Terry-Luce model. For the first time in the literature, the minimax rate of this ranking problem is derived with respect to the Kendall's tau distance that measures the difference between two rank vectors by counting the number of inversions. The minimax rate of ranking exhibits a transition between an exponential rate and a polynomial rate depending on the magnitude of the signal-to-noise ratio of the problem. To the best of our knowledge, this phenomenon is unique to full ranking and has not been seen in any other statistical estimation problem. To achieve the minimax rate, we propose a divide-and-conquer ranking algorithm that first divides the $n$ players into groups of similar skills and then computes local MLE within each group. The optimality of the proposed algorithm is established by a careful approximate independence argument between the two steps.
翻訳日:2021-03-21 07:46:09 公開日:2021-01-21
# コード生成による指静脈認識

Finger Vein Recognition by Generating Code ( http://arxiv.org/abs/2101.08415v1 )

ライセンス: Link先を確認
Zhongxia Zhang, Mingwen Wang(参考訳) フィンガー静脈認識は、高い識別能力、セキュリティ、非侵襲的な処置のために最も人気があり有望な生体認証の1つとして注目されている。 伝統的なスキームの主なアイデアは、指の静脈の画像やパターンから特徴を直接抽出し、特徴を比較して最適なマッチングを見つけることである。 しかし,画像から抽出した特徴には冗長なデータが多く,パターンから抽出した特徴は画像分割法に大きく影響されている。 これらの問題を解決するために,コード生成による新しい指静脈認識を提案する。 提案手法は,画像分割アルゴリズムを必要とせず,計算が容易で,少ないデータ量を有する。 まず、指静脈像をブロックに分割して平均値を算出した。 そして、生成した固有行列を用いて遠心対称符号化を行う。 得られたコードワードは、画像の特徴コードワードとして連結される。 静脈コード間の類似度は、最小ハミング距離とコードワード長の比率で測定される。 提案手法の有効性を検証するため,2つの公衆指静脈データベースを用いた広範囲な実験を行った。 その結果,本手法は最先端の手法よりも優れ,マッチングタスクの実行において競争力を有することがわかった。

Finger vein recognition has drawn increasing attention as one of the most popular and promising biometrics due to its high distinguishes ability, security and non-invasive procedure. The main idea of traditional schemes is to directly extract features from finger vein images or patterns and then compare features to find the best match. However, the features extracted from images contain much redundant data, while the features extracted from patterns are greatly influenced by image segmentation methods. To tack these problems, this paper proposes a new finger vein recognition by generating code. The proposed method does not require an image segmentation algorithm, is simple to calculate and has a small amount of data. Firstly, the finger vein images were divided into blocks to calculate the mean value. Then the centrosymmetric coding is performed by using the generated eigenmatrix. The obtained codewords are concatenated as the feature codewords of the image. The similarity between vein codes is measured by the ratio of minimum Hamming distance to codeword length. Extensive experiments on two public finger vein databases verify the effectiveness of the proposed method. The results indicate that our method outperforms the state-of-theart methods and has competitive potential in performing the matching task.
翻訳日:2021-03-21 07:45:56 公開日:2021-01-21
# LEAF: オーディオ分類のための学習可能なフロントエンド

LEAF: A Learnable Frontend for Audio Classification ( http://arxiv.org/abs/2101.08596v1 )

ライセンス: Link先を確認
Neil Zeghidour, Olivier Teboul, F\'elix de Chaumont Quitry, Marco Tagliasacchi(参考訳) メルフィルターバンクは、人間の知覚をエミュレートする、固定されたオーディオ機能で、現在までの音声理解の歴史を通じて使われている。 しかし、その不確定な性質は手作り表現の基本的な限界によって相反する。 本研究では,メルフィルタバンクを,音声,音楽,音声イベント,動物音など幅広い音声信号で上回る1つの学習可能なフロントエンドを訓練できることを示し,音声分類のための汎用学習フロントエンドを提供する。 そこで我々は,メルフィルタバンクのドロップイン代替として使用可能な,原則付きで軽量で完全に学習可能なアーキテクチャを提案する。 本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。 我々は8つの多様な音声分類タスクでマルチタスクトレーニングを行い、メルフィルタバンクや従来の学習可能な代替品よりもモデルの一貫した改善を示す。 さらに,本システムは,現在学習可能な音声セットのフロントエンドを,桁違いに少ないパラメータで上回っている。

Mel-filterbanks are fixed, engineered audio features which emulate human perception and have been used through the history of audio understanding up to today. However, their undeniable qualities are counterbalanced by the fundamental limitations of handmade representations. In this work we show that we can train a single learnable frontend that outperforms mel-filterbanks on a wide range of audio signals, including speech, music, audio events and animal sounds, providing a general-purpose learned frontend for audio classification. To do so, we introduce a new principled, lightweight, fully learnable architecture that can be used as a drop-in replacement of mel-filterbanks. Our system learns all operations of audio features extraction, from filtering to pooling, compression and normalization, and can be integrated into any neural network at a negligible parameter cost. We perform multi-task training on eight diverse audio classification tasks, and show consistent improvements of our model over mel-filterbanks and previous learnable alternatives. Moreover, our system outperforms the current state-of-the-art learnable frontend on Audioset, with orders of magnitude fewer parameters.
翻訳日:2021-03-21 07:44:59 公開日:2021-01-21
# Synwalk -- ランダムウォークモデルによるコミュニティ検出

Synwalk -- Community Detection via Random Walk Modelling ( http://arxiv.org/abs/2101.08623v1 )

ライセンス: Link先を確認
Christian Toth, Denis Helic, Bernhard C. Geiger(参考訳) 複雑なシステムは、抽象的にネットワークとして表現され、日常生活においてユビキタスである。 これらのシステムの解析と理解には,コミュニティ検出ツールなどが必要である。 最良のコミュニティ検出アルゴリズムは存在しないため、さまざまな問題設定における堅牢性が望ましい。 本研究では,ランダムな歩行に基づくコミュニティ検出手法であるSynwalkを提案する。 Synwalkは確固たる理論的基盤の上に構築され、与えられたネットワークによって誘導されるランダムウォークを、候補となるランダムウォークのクラスから合成することによって、コミュニティを検出する。 合成ネットワークと経験ネットワークにおけるアプローチの有効性を徹底的に検証し,Synwalkの性能とInfomapとWalktrapの性能を比較した。 この結果から,Synwalkは様々な混合パラメータと次数分布を持つネットワーク上で頑健に動作することがわかった。 混合パラメータが高いネットワークではInfomapを上回り、小さなコミュニティが多くて平均度が低いネットワークではInfomapとWalktrapを上回ります。 我々の研究は、ランダムウォークの合成によるコミュニティ検出のさらなる発展を促す可能性があり、将来の研究に具体的なアイデアを提供する。

Complex systems, abstractly represented as networks, are ubiquitous in everyday life. Analyzing and understanding these systems requires, among others, tools for community detection. As no single best community detection algorithm can exist, robustness across a wide variety of problem settings is desirable. In this work, we present Synwalk, a random walk-based community detection method. Synwalk builds upon a solid theoretical basis and detects communities by synthesizing the random walk induced by the given network from a class of candidate random walks. We thoroughly validate the effectiveness of our approach on synthetic and empirical networks, respectively, and compare Synwalk's performance with the performance of Infomap and Walktrap. Our results indicate that Synwalk performs robustly on networks with varying mixing parameters and degree distributions. We outperform Infomap on networks with high mixing parameter, and Infomap and Walktrap on networks with many small communities and low average degree. Our work has a potential to inspire further development of community detection via synthesis of random walks and we provide concrete ideas for future research.
翻訳日:2021-03-21 07:44:40 公開日:2021-01-21
# コミュニケーション効率のよい連合学習のための時間相関スパルサフィケーション

Time-Correlated Sparsification for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2101.08837v1 )

ライセンス: Link先を確認
Emre Ozfatura and Kerem Ozfatura and Deniz Gunduz(参考訳) フェデレーション学習(fl)は、複数のクライアントがローカルデータセットを開示することなく、共有モデルを協調的にトレーニングすることを可能にする。 これはパラメータサーバ(PS)の助けを借りてローカルモデルの更新を交換することで実現される。 しかし、トレーニングされたモデルのサイズが大きくなるため、クライアントとps間の反復的な交換による通信負荷がパフォーマンスのボトルネックとなることが多い。 スパース通信は、モデル更新のごく一部のみがクライアントからpsに通信されるため、通信負荷を低減するためにしばしば使用される。 本稿では、スパース通信フレームワークを基礎となるモデルの最も重要な要素を識別できると考えることができるという概念に基づいて、新しい時間相関スパース化(tcs)スキームを提案する。 従って、tcsは、flの連続イテレーションで使用されるスパース表現と、スパース表現の符号化と伝送によるオーバーヘッドがテスト精度を損なうことなく大幅に低減されるように、一定の相関関係を求める。 cifar-10データセットの広範なシミュレーションを通じて、tcsは100倍のスパーシフィケーションと最大2000倍の量子化による通信負荷削減で集中的なトレーニング精度を達成できることを示した。

Federated learning (FL) enables multiple clients to collaboratively train a shared model without disclosing their local datasets. This is achieved by exchanging local model updates with the help of a parameter server (PS). However, due to the increasing size of the trained models, the communication load due to the iterative exchanges between the clients and the PS often becomes a bottleneck in the performance. Sparse communication is often employed to reduce the communication load, where only a small subset of the model updates are communicated from the clients to the PS. In this paper, we introduce a novel time-correlated sparsification (TCS) scheme, which builds upon the notion that sparse communication framework can be considered as identifying the most significant elements of the underlying model. Hence, TCS seeks a certain correlation between the sparse representations used at consecutive iterations in FL, so that the overhead due to encoding and transmission of the sparse representation can be significantly reduced without compromising the test accuracy. Through extensive simulations on the CIFAR-10 dataset, we show that TCS can achieve centralized training accuracy with 100 times sparsification, and up to 2000 times reduction in the communication load when employed together with quantization.
翻訳日:2021-03-21 07:44:25 公開日:2021-01-21