このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210228となっている論文です。

PDF登録状況(公開日: 20210228)

TitleAuthorsAbstract論文公表日・翻訳日
# 緩和時間近似による非可積分系の流体力学

Hydrodynamics of nonintegrable systems from a relaxation-time approximation ( http://arxiv.org/abs/2005.13546v3 )

ライセンス: Link先を確認
Javier Lopez-Piqueres, Brayden Ware, Sarang Gopalakrishnan, Romain Vasseur(参考訳) 強相互作用のある非平衡量子系の流体力学を記述するための一般動力学理論の枠組みを考案し, 可積分性が弱く破れ, 残余保存量を残している。 このフレームワークは一般化された緩和時間近似に基づいており、強い相互作用を持つシステムでさえも非平衡輸送を計算するための単純だが驚くほど正確に処方する。 この近似は1次元ボース気体と可積分性破壊摂動と相互作用する運動量保存と非運動量保存の双方において、一般化から従来の流体力学への交叉を再現する。 また、カオス量子スピン鎖の流体力学を行列積演算子計算とよく一致して予測する。

We develop a general kinetic theory framework to describe the hydrodynamics of strongly interacting, nonequilibrium quantum systems in which integrability is weakly broken, leaving a few residual conserved quantities. This framework is based on a generalized relaxation-time approximation; it gives a simple, but surprisingly accurate, prescription for computing nonequilibrium transport even in strongly interacting systems. This approximation reproduces the crossover from generalized to conventional hydrodynamics in interacting one-dimensional Bose gases with integrability-breaking perturbations, both with and without momentum conservation. It also predicts the hydrodynamics of chaotic quantum spin chains, in good agreement with matrix product operator calculations.
翻訳日:2023-05-18 05:03:38 公開日:2021-02-28
# 安定した事実 相対的な事実

Stable Facts, Relative Facts ( http://arxiv.org/abs/2006.15543v3 )

ライセンス: Link先を確認
Andrea Di Biagio and Carlo Rovelli(参考訳) 事実はあらゆる相互作用で起こるが、それらは絶対的ではなく、相互作用に関わるシステムと相対的である。 安定事実は相対性理論を効果的に無視できるものである。 本稿では,相対的事実の世界において安定な事実がどのように出現するかを説明し,量子論と世界を結ぶ上でのそれぞれの役割について議論する。 相対的事実と安定な事実の区別は、Frauchiger と Renner, Brukner, Bong のノーゴー定理によって指摘される困難を解消する。 アル... 相対的事実に関する理論のオントロジーは、古典的世界をもたらすデコヒーレンスの役割を明確にし、'線形進化'と'射影'の間の明らかな非可逆性を解く。

Facts happen at every interaction, but they are not absolute: they are relative to the systems involved in the interaction. Stable facts are those whose relativity can effectively be ignored. In this work, we describe how stable facts emerge in a world of relative facts and discuss their respective roles in connecting quantum theory and the world. The distinction between relative and stable facts resolves the difficulties pointed out by the no-go theorems of Frauchiger and Renner, Brukner, Bong et. al.. Basing the ontology of the theory on relative facts clarifies the role of decoherence in bringing about the classical world and solves the apparent incompatibility between the `linear evolution' and `projection' postulates.
翻訳日:2023-05-12 05:41:15 公開日:2021-02-28
# 光ポンピングによるキラル混合物のエナンチオ変換

Enantio-conversion of chiral mixtures via optical pumping ( http://arxiv.org/abs/2008.09810v2 )

ライセンス: Link先を確認
Chong Ye, Bo Liu, Yu-Yuan Chen, Yong Li(参考訳) 電磁場の助けを借りたエナンチオ変換は、多くの化学的、生物学的、医薬的プロセスのキラリティ依存性のために重要な問題である。 そこで本研究では、キラル分子の5レベルdouble-$\Delta$モデルに基づくこの問題の解法を提案する。 2つの$\delta$-型部分構造における左右対称性の破れを利用して、1つのキラル基底状態がアキラル励起状態に励起され、もう1つは乱れのないキラル状態選択的励起を確立することができる。 一方、アキラル励起状態は2つのキラル基底状態に緩和される。 キラル混合物に同時に作用する2つの効果は、異なるキラル性の分子を同じキラリティー、すなわち光ポンピングによるエナンチオ変換の分子に変換することができる。 気相実験における典型的なパラメータを用いて,高効率なエナンチオ変換を実現できることを示す。 本手法は,パルスデュレーション(パルス領域)やパルス形状を正確に制御することなく,デコヒーレンスを出現させる。 これらの利点は、enantio-conversionの将来的な探索を促進する上で有望な機能を提供する。

Enantio-conversion with the help of electromagnetic fields is an essential issue due to the chirality-dependence of many chemical, biological, and pharmaceutical processes. Here, we propose a method for this issue based on a five-level double-$\Delta$ model of chiral molecules. By utilizing the breaking of left-right symmetry in the two $\Delta$-type sub-structures, we can establish the chiral-state-selective excitation with one chiral ground state being excited to an achiral excited state and the other one being undisturbed. In the meanwhile, the achiral excited state will relax to the two chiral ground states. The two effects simultaneously acting on the chiral mixtures can convert molecules of different chiralities to the ones of the same chirality, i.e., the enantio-conversion via optical pumping. With typical parameters in gas-phase experiments, we numerically show that highly efficient enantio-conversion can be achieved. Our method works in the appearance of decoherences and without the precise control of pulse-durations (pulse-areas) and/or pulse-shapes. These advantages offer it promising features in promoting the future exploring of enantio-conversion.
翻訳日:2023-05-05 05:57:38 公開日:2021-02-28
# 圧縮熱浴における量子フィッシャー情報のダイナミクス

Dynamics of quantum Fisher information in a squeezed thermal bath ( http://arxiv.org/abs/2012.15512v2 )

ライセンス: Link先を確認
Asghar Ullah(参考訳) 本稿では,圧縮された熱環境と相互作用するキュービットの量子フィッシャー情報のダイナミクスについて検討する。 量子フィッシャー情報を最大化する量子ビットの最適初期状態、環境温度、相互作用時間を求める。 環境のオーミック性に基づいて、オーミック、サブオーミック、超オーミックな環境における量子フィッシャー情報のダイナミクスを比較する。 さらに、パラメータの正確な推定は、スクイーズに対して堅牢であることを示す。

In this paper, the dynamics of quantum Fisher information of a qubit interacting with a squeezed thermal environment are studied. The optimal initial state of the qubit, the temperature of the environment, and the interaction time, which maximize quantum Fisher information are obtained. Based on the ohmicity of the environment, we compare the dynamics of quantum Fisher information in ohmic, sub-ohmic, and super-ohmic regimes of the environment. Moreover, it is shown that the precise estimation of parameters is robust against squeezing.
翻訳日:2023-04-18 05:49:55 公開日:2021-02-28
# ボース-ボース混合物の自己結合液滴の量子相

Quantum Phases of Self-Bound Droplets of Bose-Bose Mixtures ( http://arxiv.org/abs/2102.02361v2 )

ライセンス: Link先を確認
Junqiao Pan, Su Yi, and Tao Shi(参考訳) 準2次元ボース気体の自己有界液滴の基底状態特性をガウス状態理論を用いて体系的に検討する。 量子液滴は2つの巨視的スクイズド相と1つの巨視的コヒーレント相からなる。 位相図をマッピングし、数値的およびほぼ解析的な手法で全ての位相境界を決定する。 特に、量子相の3つの容易なシグネチャと、その放射径を正確に測定することで自己結合液滴の安定化機構を見いだす。 本研究は, 液滴状態の量子的性質を詳細に調査する上で, 二値液滴が理想的なプラットフォームであることを示唆する。

We systematically investigate the ground-state properties of self-bound droplets of quasi-two-dimensional binary Bose gases by using the Gaussian state theory. We find that quantum droplets consists two macroscopic squeezed phases and a macroscopic coherent phase. We map out the phase diagram and determine all phase boundaries via both numerical and nearly analytical methods. In particular, we find three easily accessible signatures for the quantum phases and the stablization mechanism of the self-bound droplets by precisely measuring their radial size. Our studies indicate that binary droplets represent an ideal platform for in-depth investigations of the quantum nature of the droplet state.
翻訳日:2023-04-12 20:10:37 公開日:2021-02-28
# 自由電子・光相互作用における交換媒介相互相関と強調

Exchange-Mediated Mutual Correlation and Dephasing in Free-Electron and Light Interactions ( http://arxiv.org/abs/2102.07439v2 )

ライセンス: Link先を確認
Nahid Talebi and Iva B\v{r}ezinov\'a(参考訳) 量子世界は確率よりも確率振幅によって支配されることによって、古典世界と自分を区別する。 単一粒子レベルでは、量子相は、例えば物質波顕微鏡においてプローブとして使用できる観測可能な干渉パターンへと導かれる。 しかし量子世界は、複数の粒子間の相互作用に関してさらに魅力的な効果を持っている。 絡み合いなどの量子粒子間の相関は、計算アルゴリズムの高速化やセキュアな暗号の実現に利用することができる。 本稿では,粒子間の量子相関を物質波顕微鏡に応用できるのかという問いに対して,思考実験を提案し,数値的に検討する。 相互にスピン相関する2つの自由電子波束間で情報を転送するには、どうすればよいのか? クーロンと交換相関は物質波のデコヒーレンス機構と結びつくことができるか? 時間依存型ハートリー・フォックアルゴリズムを用いて、交換項が2つのスピン関連電子間の情報を伝達する上で重要な役割を担っているのに対し、ハートリーポテンシャル(平均場クーロンポテンシャル)は1粒子レベルでのデフォーカスを支配していることを示す。 本研究は,非古典的相関情報やオープン量子系とクローズド量子系におけるデコヒーレンス機構を検索可能なフェルミオン物質-波動干渉実験の促進に寄与する。

The quantum world distinguishes itself from the classical world by being governed by probability amplitudes rather than probabilities. On a single-particle level, quantum phases can be manipulated leading to observable interference patterns that can be used as a probe e.g. in matter wave microscopy. But the quantum world bears even more fascinating effects when it comes to the interplay between more than one particle. Correlations between quantum particles such as entanglement can be exploited to speed up computational algorithms or enable secure cryptography. Here, we propose and numerically explore a thought experiment to address the question whether quantum correlations between particles can be used in matter wave microscopy. Specifically, we address the following questions: How can information be transferred between two mutually spin-correlated free-electron wavepackets? Can Coulomb and exchange correlations be linked to the decoherence mechanism of matter waves? Using a time-dependent Hartree-Fock algorithm, we will show that the exchange term has a substantial role in transferring the information between two mutually spin-correlated electrons, whereas the Hartree potential (or mean-field Coulomb potential) dominates the dephasing on a single-particle level. Our findings might facilitate fermionic matter-wave interferometry experiments in which it is possible to retrieve information about non-classical correlations and the mechanism of decoherence in open versus closed quantum systems.
翻訳日:2023-04-11 02:30:06 公開日:2021-02-28
# 対称周波数チャープの対生成に及ぼす影響

Effect of symmetrical frequency chirp on pair production ( http://arxiv.org/abs/2103.00389v1 )

ライセンス: Link先を確認
Kun Wang, Xuehua Hu, Sayipjamal Dulat and B. S. Xie(参考訳) Dirac-Heisenberg-Wignerフォーマリズムを用いて、対称周波数チャープを持つ電場の線形、楕円、ほぼ円形、円偏光に対する電子-陽電子対の生成を研究し、モーメントスペクトルとペア収率を得る。 偏極場間の結果の差は小さいチャープでは明らかである。 チャープパラメータが増加すると、運動量スペクトルは多心円環構造によって特徴づけられる多光子対生成を示す傾向にある。 非対称周波数チャープの場合と比較して、数密度の増加も顕著である。 動的支援シュウィンガー機構は対称周波数チャープにおけるペア生成の強化に重要な役割を果たしている。

By using Dirac-Heisenberg-Wigner formalism we study electron-positron pair production for linear, elliptic, nearly circular and circular polarizations of electric fields with symmetrical frequency chirp, and we obtain Momentum spectra and pair yield. The difference of results among polarized fields is obvious for the small chirp. When the chirp parameter increases, the momentum spectra tend to exhibit the multiphoton pair generation that is characterized by the multi-concentric ring structure. The increase of number density is also remarkable compared to the case of asymmetrical frequency chirp. Note that the dynamically assisted Schwinger Mechanism plays an important role for the enhanced pair production in the symmetrical frequency chirp.
翻訳日:2023-04-09 16:47:56 公開日:2021-02-28
# サイバーセキュリティの意識

Cybersecurity Awareness ( http://arxiv.org/abs/2103.00474v1 )

ライセンス: Link先を確認
Jason R. C. Nurse(参考訳) サイバーセキュリティの認識は、サイバーセキュリティや情報セキュリティに関する評価、理解、知識のレベルと見なすことができる。 このような側面には、サイバーリスクと脅威の認識に加えて、適切な保護措置も含まれる。

Cybersecurity awareness can be viewed as the level of appreciation, understanding or knowledge of cybersecurity or information security aspects. Such aspects include cognizance of cyber risks and threats, but also appropriate protection measures.
翻訳日:2023-04-09 16:45:06 公開日:2021-02-28
# デジタル時代におけるデジタル歴史と歴史教育

Digital History and History Teaching in the Digital Age ( http://arxiv.org/abs/2103.00473v1 )

ライセンス: Link先を確認
Maria Papadopoulou, Zacharoula Smyrnaiou(参考訳) インターネットや人工知能といったデジタル技術は、私たちの日常生活の一部であり、私たちの生活様式の幅広い側面、そして過去との対話の仕方に影響を与えています。 知識の創造と消費のやり方を劇的に変えたアルゴリズム時代は、一般大衆が歴史と持つ関係を根本的に変えた。 公共や口頭史などの歴史分野は、特にデジタル文化の興隆から恩恵を受けている。 私たちのデジタル文化は、歴史的証拠が公共の場に急速に広がるにつれて、過去の考え方、研究、研究、教育にどのように影響するか? デジタル技術は歴史の研究、執筆、教育をいかに促進するか? 歴史学者、歴史学者、歴史教師は、デジタルコンテンツやデジタルコンテンツに群がり、インターネット上で常に成長しているときに、何が批判的に認識されるべきなのか? ギリシャでは、デジタルトランスフォーメーションが急速に進む中で、歴史の規律はどのように位置づけられているのか? 最後に、ギリシャの中学校で教わる科目として、これらの変更の結果はどうなるのか。 これは、2020-2021年の冬期、アテネ大学哲学部、教育学、心理学部で提供される学部コースのコース資料の一部である。 コースタイトル:「歴史教育学:理論と実践」、学術機関:アテネ大学哲学教育心理学科。

Digital technologies, such as the Internet and Artificial Intelligence, are part of our daily lives, influencing broader aspects of our way of life, as well as the way we interact with the past. Having dramatically changed the ways in which knowledge is produced and consumed, the algorithmic age has also radically changed the relationship that the general public has with History. Fields of History such as Public and Oral History have particularly benefitted from the rise of digital culture. How does our digital culture affect the way we think, study, research and teach the past, as historical evidence spreads rapidly in the public sphere? How do digital technologies promote the study, writing and teaching of History? What should historians, students of history and pre-service history teachers be critically aware of, when swarmed with digitized or born-digital content, constantly growing on the Internet? And while these changes are now visible globally, how is the discipline of History situated within the digital transformation rapidly advancing in Greece? Finally, what are the consequences of these changes for History as a subject taught at Greek secondary schools? These are some of the issues raised in the text that follows, which is part of the course materials of the undergraduate course offered during winter semester 2020-2021 at the School University of Athens, School of Philosophy, Pedagogy, Psychology. Course Title: 'Pedagogics of History: Theory and Practice', Academic Institution: School of Philosophy-Pedagogy-Psychology, University of Athens.
翻訳日:2023-04-09 16:45:02 公開日:2021-02-28
# グラフ距離によるミスデータシナリオの犯罪ネットワーク解析

Criminal Networks Analysis in Missing Data scenarios through Graph Distances ( http://arxiv.org/abs/2103.00457v1 )

ライセンス: Link先を確認
Annamaria Ficara, Lucia Cavallaro, Francesco Curreri, Giacomo Fiumara, Pasquale De Meo, Ovidiu Bagdasar, Wei Song, Antonio Liotta(参考訳) 刑事捜査で収集されたデータは、 (i) 犯罪組織の隠ぺいな性質による不完全性 二 意図しないデータ収集の誤り及び犯罪者の故意の偽造により生じた不正 (iii)同一情報が複数回法執行機関データベースに収集された場合、又は異なるフォーマットで収集された場合。 本稿では,不完全なデータの影響を定量化し,その影響を受けるネットワークタイプを決定するために,異なる性質の9つの犯罪ネットワーク(マフィアネットワーク,犯罪ストリートギャング,テロ組織)を分析した。 ネットワークは、まず2つの特定の方法に従って切断される。 (i)無作為な縁の取り外し、法執行機関(leas)がいくつかの呼び出しを傍受せず、又は被疑者間の散発的な会議を見付けるシナリオをシミュレートすること。 (ii)ノード除去は、一部の被疑者を傍受または調査できないという仮説を捉えている。 最後に、完全なネットワークとプルーンドネットワークの間のスペクトル(すなわち、隣接性、ラプラシアンおよび正規化ラプラシアンスペクトル距離)と行列(すなわち、ルートユークリッド距離)を計算し、統計解析を用いて比較する。 第一に、犯罪ネットワークの全体的な理解は、犯罪行為に関する不完全なデータ(10%除去エッジ)でさえも高いままであり、第二に、調査されていない少数の容疑者(2%除去ノード)を除去しても、ネットワーク全体の重大な誤解を招く可能性がある。

Data collected in criminal investigations may suffer from: (i) incompleteness, due to the covert nature of criminal organisations; (ii) incorrectness, caused by either unintentional data collection errors and intentional deception by criminals; (iii) inconsistency, when the same information is collected into law enforcement databases multiple times, or in different formats. In this paper we analyse nine real criminal networks of different nature (i.e., Mafia networks, criminal street gangs and terrorist organizations) in order to quantify the impact of incomplete data and to determine which network type is most affected by it. The networks are firstly pruned following two specific methods: (i) random edges removal, simulating the scenario in which the Law Enforcement Agencies (LEAs) fail to intercept some calls, or to spot sporadic meetings among suspects; (ii) nodes removal, that catches the hypothesis in which some suspects cannot be intercepted or investigated. Finally we compute spectral (i.e., Adjacency, Laplacian and Normalised Laplacian Spectral Distances) and matrix (i.e., Root Euclidean Distance) distances between the complete and pruned networks, which we compare using statistical analysis. Our investigation identified two main features: first, the overall understanding of the criminal networks remains high even with incomplete data on criminal interactions (i.e., 10% removed edges); second, removing even a small fraction of suspects not investigated (i.e., 2% removed nodes) may lead to significant misinterpretation of the overall network.
翻訳日:2023-04-09 16:44:12 公開日:2021-02-28
# フェルミ超流体中のアンダーソン-ボゴリューボモードの創発的$\mathcal{pt}$-symmetry breaking

Emergent $\mathcal{PT}$-symmetry breaking of Anderson-Bogoliubov modes in Fermi superfluids ( http://arxiv.org/abs/2103.00450v1 )

ライセンス: Link先を確認
Jian-Song Pan, Wei Yi, Jiangbin Gong(参考訳) パリティ時間(\mathcal{PT}$)対称性の自発的な破れは、非エルミート系において豊かな臨界挙動をもたらす。 これまでのほとんどの研究は、単一粒子または平均場フレームワーク内で行われたが、$\mathcal{PT}$対称性と多体設定における量子ゆらぎの間の相互作用を探索することは、華やかなフロンティアである。 ここでは、想像上のスピン軌道カップリングの下でフェルミ超流体の集合励起を研究することによって、アンダーソン-ボゴリボフ(AB)モードにおける創発的な$\mathcal{PT}$対称性の破れが発見され、その準粒子スペクトルは、超流動基底状態が非破壊の$\mathcal{PT}$対称性を保持するにもかかわらず、完全に実数から完全に虚数への遷移を起こす。 遷移の臨界点は、系の低周波摂動に免疫のある臨界点で完全に消滅するため、音速の非解析的キンクによって特徴づけられ、これらの臨界現象は複素準粒子分散におけるスペクトル点ギャップの存在から導かれる。

The spontaneous breaking of parity-time ($\mathcal{PT}$) symmetry, which yields rich critical behavior in non-Hermitian systems, has stimulated much interest. Whereas most previous studies were performed within the single-particle or mean-field framework, exploring the interplay between $\mathcal{PT}$ symmetry and quantum fluctuations in a many-body setting is a burgeoning frontier. Here, by studying the collective excitations of a Fermi superfluid under an imaginary spin-orbit coupling, we uncover an emergent $\mathcal{PT}$-symmetry breaking in the Anderson-Bogoliubov (AB) modes, whose quasiparticle spectra undergo a transition from being completely real to completely imaginary, even though the superfluid ground state retains an unbroken $\mathcal{PT}$ symmetry. The critical point of the transition is marked by a non-analytic kink in the speed of sound, as the latter completely vanishes at the critical point where the system is immune to low-frequency perturbations.These critical phenomena derive from the presence of a spectral point gap in the complex quasiparticle dispersion, and are therefore topological in origin.
翻訳日:2023-04-09 16:43:44 公開日:2021-02-28
# GHZ型エンタングルメントを用いたNビットの非局所変動強度測定

Nonlocal Variable-Strength Measurements of N Qubits Using GHZ-like Entanglement ( http://arxiv.org/abs/2103.00443v1 )

ライセンス: Link先を確認
Pierre Vidil and Keiichi Edamatsu(参考訳) 絡み合った量子系の非局所的性質の直接測定は、最近のいくつかの実験的研究の対象となっている。 特に興味深いのは、間接測定スキームによる非局所測定の実装であり、測定強度の制御の柔軟性を高めることができる。 バイパルタイトの場合において, GHZ のような絡み合った qubit メータを用いて,N-qubit 系の実非局所測定を可変強度で実施する手法を提案する。 この手法は可換積観測器の合同測定に適用でき、ベル状態のような直交非局所状態を最小の乱れと任意の分解能で区別することができる。 n$-tangleによって定量化される測定強度とメーターの絡み合いとの明確な関係が導出され、非局所測定のためのリソースとして$n$-tangleの新たな解釈への扉を開く。

The direct measurement of nonlocal properties of entangled quantum systems has been the subject of several recent experimental investigations. Of particular interest is the implementation of nonlocal measurements via indirect measurement schemes, which allow for greater flexibility in the control of the measurement strength. Building on previous results established in the bipartite case, we present a scheme to implement genuine nonlocal measurements of N-qubit systems with variable strength, using GHZ-like entangled qubit meters. This method can be applied to the joint measurement of commuting product observables, enabling us to distinguish between orthogonal nonlocal states, such as Bell states, with minimal disturbance and arbitrary resolution. An explicit relation between the overall measurement strength and the meter entanglement as quantified by the $n$-tangle is derived, opening the door to a new interpretation of the $n$-tangle as a resource for nonlocal measurements.
翻訳日:2023-04-09 16:43:18 公開日:2021-02-28
# SparkXD: 近似DRAMを用いたレジリエントでエネルギー効率の良いスパイクニューラルネットワーク推論のためのフレームワーク

SparkXD: A Framework for Resilient and Energy-Efficient Spiking Neural Network Inference using Approximate DRAM ( http://arxiv.org/abs/2103.00421v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的に疎い計算のために低エネルギー消費を達成する可能性がある。 いくつかの研究により、オフチップメモリ(DRAM)アクセスがSNN処理において最もエネルギー消費が大きいことが示されている。 しかし、SNNシステムにおける最先端技術は、アクセス当たりのDRAMエネルギーを最適化しないため、高いエネルギー効率を達成するのを妨げている。 アクセス当たりのDRAMエネルギーを実質的に最小化するために、キーノブはDRAMの供給電圧を減らすが、これはDRAMエラー(いわゆる近似DRAM)を引き起こす可能性がある。 そこで本稿では,低消費電力DRAMを用いた高効率SNN推論に対して,電圧誘起誤差を考慮した包括的コンジョイントソリューションであるSparkXDを提案する。 SparkXDの主なメカニズムは,(1)近似DRAMからビットエラーを考慮した故障認識トレーニングによるSNNエラー耐性の向上,(2)目標の精度制約を満たす最大許容ビット誤り率(BER)を求めるための改良されたSNNモデルのエラー耐性の解析,(3)DRAMアクセスエネルギーを最小化するために適切なDRAM位置の重みをマッピングするレジリエントSNNモデルに対するエネルギー効率のよいDRAMデータマッピングである。 これらのメカニズムを通じて、SparkXDはDRAM(近似)エラーの負の影響を緩和し、必要な精度を提供する。 実験の結果,ベースライン設計の1%以内の目標精度(DRAMエラーのないSNN)において,SparkXDはDRAMエネルギーをcaで低減することがわかった。 40%がネットワークサイズによって異なる。

Spiking Neural Networks (SNNs) have the potential for achieving low energy consumption due to their biologically sparse computation. Several studies have shown that the off-chip memory (DRAM) accesses are the most energy-consuming operations in SNN processing. However, state-of-the-art in SNN systems do not optimize the DRAM energy-per-access, thereby hindering achieving high energy-efficiency. To substantially minimize the DRAM energy-per-access, a key knob is to reduce the DRAM supply voltage but this may lead to DRAM errors (i.e., the so-called approximate DRAM). Towards this, we propose SparkXD, a novel framework that provides a comprehensive conjoint solution for resilient and energy-efficient SNN inference using low-power DRAMs subjected to voltage-induced errors. The key mechanisms of SparkXD are: (1) improving the SNN error tolerance through fault-aware training that considers bit errors from approximate DRAM, (2) analyzing the error tolerance of the improved SNN model to find the maximum tolerable bit error rate (BER) that meets the targeted accuracy constraint, and (3) energy-efficient DRAM data mapping for the resilient SNN model that maps the weights in the appropriate DRAM location to minimize the DRAM access energy. Through these mechanisms, SparkXD mitigates the negative impact of DRAM (approximation) errors, and provides the required accuracy. The experimental results show that, for a target accuracy within 1% of the baseline design (i.e., SNN without DRAM errors), SparkXD reduces the DRAM energy by ca. 40% on average across different network sizes.
翻訳日:2023-04-09 16:42:41 公開日:2021-02-28
# スピン・ワン・ハーフ場のスピノル

Spinors of Spin-one-half Fields ( http://arxiv.org/abs/2104.07017v1 )

ライセンス: Link先を確認
Kevin Cahill(参考訳) 本稿では,2状態のスピン・ワン・ハーフ系が回転下でどのように変形するかを概説する。 そしてその知識を使って、運動量ゼロ、スピン1半消滅、生成演算子がどのように回転の下で変換するかを説明する。 この論文は、スピン・ワン・ハーフ場が回転の下でどのように変形するかを説明する。 運動量ゼロのスピノルは、回転の下で回転するスピン・ワン・ハーフ系とディラック方程式から得られる。 運動量ゼロのスピノルが知られると、ディラック方程式はすぐに有限運動量でスピノルを得る。 論文は、これらのスピノルにより、ディラック場は電荷共役、パリティ、時間反転の下で適切に変換されることを示す。 また、ディラック場を2つの4成分マヨラナ体に分解するか、2成分左手体と2成分右手体に分解するかについても述べる。 ウィグナー回転やワインバーグのスピノルの性質の導出についても論じる。

This paper reviews how a two-state, spin-one-half system transforms under rotations. It then uses that knowledge to explain how momentum-zero, spin-one-half annihilation and creation operators transform under rotations. The paper then explains how a spin-one-half field transforms under rotations. The momentum-zero spinors are found from the way spin-one-half systems transform under rotations and from the Dirac equation. Once the momentum-zero spinors are known, the Dirac equation immediately yields the spinors at finite momentum. The paper then shows that with these spinors, a Dirac field transforms appropriately under charge conjugation, parity, and time reversal. The paper also describes how a Dirac field may be decomposed either into two 4-component Majorana fields or into a 2-component left-handed field and a 2-component right-handed field. Wigner rotations and Weinberg's derivation of the properties of spinors are also discussed.
翻訳日:2023-04-09 16:35:05 公開日:2021-02-28
# eヘルスの課題と最近のeヘルス応用の動向

Current eHealth Challenges and recent trends in eHealth applications ( http://arxiv.org/abs/2103.01756v1 )

ライセンス: Link先を確認
Muhammad Mudassar Qureshi, Amjad Farooq, Muhammad Mazhar Qureshi(参考訳) eHealth (Health Informatics/Medical Informatics) 分野は、世界保健機関、米国医学研究所など、信頼できる機関の承認により、世界中で成長している。 この分野は多くの課題に直面しており、この分野の異なる研究者によるこれらの課題を分類する必要がある。 本研究の目的は、より広いカテゴリーで異なるeHealth課題を分類することである。 また,近年のehealthアプリケーションを分析し,その最新動向について検討した。 本稿では,特定の ehealth 課題への貢献を担っている利害関係者を特定する。 ehealthアプリケーション分析を通じて,これらのアプリケーションを異なる要因に基づいて分類する。 これらの応用がもたらす社会経済的メリットは,それぞれ異なる。 また、ehealthアプリケーションのエコシステムも提示します。 我々は情報技術分野に関連するehealthの課題を推奨した。 今後の研究領域を指定し、研究者に対して、異なるeHealthアプリケーションでどの病気をコントロールおよび管理できるかを特定するよう推奨することで、議論をまとめる。

eHealth (Health Informatics/Medical Informatics) field is growing worldwide due to acknowledge of reputable Organizations such as World Health Organization, Institute of Medicine in USA and several others. This field is facing number of challenges and there is need to classify these challenges mentioned by different researchers of this area. The purpose of this study is to classify different eHealth challenges in broader categories. We also analyzed recent eHealth Applications to identify current trends of such applications. In this paper, we identify stakeholders who are responsible to contribute in a particular eHealth challenge. Through eHealth application analysis, we categories these applications based on different factors. We identify different socio-economic benefits, which these applications can provide. We also present ecosystem of an eHealth application. We gave recommendations for eHealth challenges relevant to Information Technology domain. We conclude our discussion by specifying areas for future research and recommending researchers to work on identify which type of disease can control and manage by different eHealth applications.
翻訳日:2023-04-09 16:34:36 公開日:2021-02-28
# 量子時代の非可逆匿名通信

Non-invertible Anonymous Communication for the Quantum Era ( http://arxiv.org/abs/2103.00598v1 )

ライセンス: Link先を確認
Luis Adri\'an Lizama-P\'erez(参考訳) 本稿では,lizamaの非可逆鍵交換プロトコル(ni-kep)に基づく回路匿名通信手法を提案する。 リザマのプロトコルは量子後スキームと比較して最小の鍵サイズを持ち、量子時代にとって有望な代替となる。 回路ベースの通信は、Hidden Service Protocol(HSP)と、より大きなコンピューティングセキュリティ、スピード、効率を保証するクロスドメインデジタル証明書をサポートするように拡張することができる。

We introduce a new approach for circuit anonymous communication based on Lizama's non-invertible Key Exchange Protocol (ni-KEP) which has been conceived to work in the quantum era. Lizama's protocol has the smallest key size when compared to main post-quantum schemes thus it becomes a promising alternative for the quantum era. Circuit-based communication can be scaled to support the Hidden Service Protocol (HSP) as well as cross-domain digital certificates that promise greater computing security, speed and efficiency.
翻訳日:2023-04-09 16:34:21 公開日:2021-02-28
# イオントラップ量子コンピュータ上のネイティブマルチ量子ビット toffoli ゲート

Native multiqubit Toffoli gates on ion trap quantum computers ( http://arxiv.org/abs/2103.00593v1 )

ライセンス: Link先を確認
Nilesh Goel and J. K. Freericks(参考訳) イオントラップ量子コンピュータ上でn制御量子ビットトッフォリゲートと選択ゲートを実装するための詳細なシナリオ、特にイオンを相互作用ゾーンに輸送するゲートについて検討する。 イオントラップ量子コンピュータの現実的なパラメータを持つこれらのゲートの期待性能を判定し、交換積分の時間変化を考慮した。 これにより、スピンフォノンの絡み合いによる誤差も推定できる。 これらのゲートの実装には課題があるが、性能は常にある程度のエラーがあるため、現在のハードウェアでは実現可能であるが、ノイズの多い中間スケール量子コンピュータの量子コードで効率的に使用するには遅すぎる可能性がある。

We examine the detailed scenario for implementing n-control-qubit Toffoli gates and select gates on ion-trap quantum computers, especially those that shuttle ions into interaction zones. We determine expected performance of these gates with realistic parameters for an ion-trap quantum computer and taking into account the time variation of the exchange integrals. This allows us to estimate the errors due to spin-phonon entanglement as well. While there are challenges with implementing these gates, because their performance always has some degree of error, they should be feasible on current hardware, but they may be too slow to be used efficiently in quantum codes on noisy intermediate scale quantum computers.
翻訳日:2023-04-09 16:34:03 公開日:2021-02-28
# 量子論の因果的かつ連続的な解釈:1951年にデビッド・ボームがルイ・ド・ブロイに送った原本について

A causal and continuous interpretation of the quantum theory: About an original manuscript by David Bohm sent to Louis de Broglie in 1951 ( http://arxiv.org/abs/2103.00576v1 )

ライセンス: Link先を確認
Aur\'elien Drezet, Benjamin Stock(参考訳) この記事の目的は、1951年にルイ・ド・ブロイに送られたデイヴィッド・ボームのオリジナル記事の複製と分析である。 この論文は、ルートヴィヒ・ド・ブロイのパイロット波解釈に基づくよく知られた隠れ変数理論に関するデイヴィッド・ボームの古い文書である。 我々はこの興味深い文書の年代と歴史を分析した。

The aim of this article is reproduce and analyze an original article of David Bohm sent to Louis de Broglie in 1951. This article is the older document of David Bohm about his well known hidden variable theory based on the pilot wave interpretation of Louis de Broglie. We analyse the chronology and the history of this fascinating document.
翻訳日:2023-04-09 16:33:51 公開日:2021-02-28
# Abertos Governamentais no contexto de Pol\'iticas P\'ublicas de Sa\'ude e Sistemas Prisionais: Realidade ou Utopia?

Dados Abertos Governamentais no contexto de Pol\'iticas P\'ublicas de Sa\'ude e Sistemas Prisionais: Realidade ou Utopia? ( http://arxiv.org/abs/2103.00541v1 )

ライセンス: Link先を確認
Rafael Ant\^onio Lima Cardoso, Glauco de Figueiredo Carneiro, Jos\'e Euclimar Xavier de Menezes(参考訳) 政府のオープンデータへのアクセスと使用に関して、透明性に関する多くのイニシアティブが報告されている。 このプラクティスは、参加型ガバナンスを実現するための重要な要件を明らかにします。 この文献は、特定のデータリポジトリをオープンに分類するための最小限の基準を報告している。 本稿では、各国および国際データのレポジトリがどの範囲でこれらの基準を満たしているかについて述べる。 分析されたリポジトリは公衆衛生と刑務所システムに焦点を当てている。 結果は、基準と異なるレベルの一致を示し、政府によるオープンデータプラクティスの採用が現実であることの証拠を提供する。 一方で、定義された基準を完全に一致させるには、まだ長い道のりがあります。

There are many initiatives of transparency reported in the access and use of government open data for different purposes. This practice reveals an important requirement to accomplish the participatory governance. The literature has reported a minimal set of criteria to categorize a specific data repository as open. This paper discusses to which extent specific national and international data repositories address these criteria. The analyzed repositories focus on public health and prison systems. The results show different levels of alignment to the criteria and provide evidence that the adoption of government open data practices are a reality. On the other hand, there is still a long way to achieve full alignment to the stated criteria.
翻訳日:2023-04-09 16:33:42 公開日:2021-02-28
# Qubit Coupled Optomechanical Systemsにおけるカオス

Chaos in Qubit Coupled Optomechanical Systems ( http://arxiv.org/abs/2103.00521v1 )

ライセンス: Link先を確認
Manik Kapil and Amarendra K. Sarma(参考訳) 2レベルシステム(qubit)と組み合わされた光力学系の安定なカオス解を見出した。 このシステムでは、カオスの内外と様々なn周期運動のチューンに使用できる方法が発見されている。 これには、デチューニング、結合パラメータ、駆動レーザのパワーを変更することでカオスを実現することが含まれる。 これにより、量子ビットまたは光学キャビティを使ってカオスを操作できます。 また, クビットとキャビティの両方でカオス運動が観察され, 両者の駆動場間の相対位相が変化した。 これにより、量子力学系におけるカオス運動の創出と探索がさらに容易になる。

We have found stable chaotic solutions for optomechanical systems coupled with a Two-Level System or qubit. In this system methods have been found which can be used to Tune in and out of Chaos as well as various n-period motions. This includes achieving chaos by changing the detuning, coupling parameters, and Power of the driving laser. This allows us to manipulate chaos using either the qubit or the optical cavity. Chaotic motion was also observed in both the qubit and cavity by only changing the relative phase between of driving fields of the two. This gives us the prospect of creating and exploring chaotic motion in quantum mechanical systems with further ease
翻訳日:2023-04-09 16:33:30 公開日:2021-02-28
# ロバストpcaにおけるブリッジング凸と非凸最適化:ノイズ、異常値、欠落データ

Bridging Convex and Nonconvex Optimization in Robust PCA: Noise, Outliers, and Missing Data ( http://arxiv.org/abs/2001.05484v2 )

ライセンス: Link先を確認
Yuxin Chen, Jianqing Fan, Cong Ma, Yuling Yan(参考訳) 本稿では,(1)ランダムノイズ,(2)粗疎外乱,(3)欠落データの存在下で,低ランク行列推定における凸プログラミング手法に関する理論的保証を改良した。 この問題はロバスト主成分分析 (robust pca) と呼ばれ、様々な領域で応用されている。 凸緩和の幅広い適用性にもかかわらず、利用可能な統計的支援(特に安定性解析 vis-\`a-visランダムノイズ)は、非常に最適であり、本論文ではさらに強化する。 未知行列がよく条件付きで、一貫性がなく、一定ランクのとき、ユークリッド損失と$\ell_{\infty}$損失の両方の観点から、原理化された凸プログラムがほぼ最適の統計精度を達成することを示す。 これらは、ほぼ一定数の観測が任意の大きさの外れ値によって崩壊しても起こる。 重要な分析の考え方は、使用中の凸プログラムと補助的な非凸最適化アルゴリズムをブリッジすることであり、したがって本論文の題名である。

This paper delivers improved theoretical guarantees for the convex programming approach in low-rank matrix estimation, in the presence of (1) random noise, (2) gross sparse outliers, and (3) missing data. This problem, often dubbed as robust principal component analysis (robust PCA), finds applications in various domains. Despite the wide applicability of convex relaxation, the available statistical support (particularly the stability analysis vis-\`a-vis random noise) remains highly suboptimal, which we strengthen in this paper. When the unknown matrix is well-conditioned, incoherent, and of constant rank, we demonstrate that a principled convex program achieves near-optimal statistical accuracy, in terms of both the Euclidean loss and the $\ell_{\infty}$ loss. All of this happens even when nearly a constant fraction of observations are corrupted by outliers with arbitrary magnitudes. The key analysis idea lies in bridging the convex program in use and an auxiliary nonconvex optimization algorithm, and hence the title of this paper.
翻訳日:2023-01-11 06:33:23 公開日:2021-02-28
# 類似行列に基づくCNNを用いた知識駆動注意による短文分類

Short Text Classification via Knowledge powered Attention with Similarity Matrix based CNN ( http://arxiv.org/abs/2002.03350v2 )

ライセンス: Link先を確認
Mingchen Li and Gabtone.Clinton and Yijia Miao and Feng Gao(参考訳) ショートテキストは、チャットメッセージ、SMS、プロダクトレビューなど、Web上でますます人気が高まっている。 簡潔テキストの正確な分類は重要で困難な作業である。 多くの研究が曖昧さとデータの疎さのためにこの問題に対処するのに苦労している。 そこで本研究では,類似度行列に基づく畳み込みニューラルネットワーク(KASM)モデルを用いて,知識と深層ニューラルネットワークを利用して包括的情報を計算できる知識ベースニューラルネットワークを提案する。 我々は知識グラフ(kg)を用いて短文の意味表現を充実させた。 一方、短いテキストとラベルの表現のリテラルレベルにおける単語の相互作用を考察し、類似性行列に基づく畳み込みニューラルネットワーク(CNN)を用いて抽出する。 知識の重要性を計測するために,重要な情報を選択するための注意機構を導入する。 5つの標準データセットの実験結果から、我々のモデルは最先端の手法よりも大幅に優れていた。

Short text is becoming more and more popular on the web, such as Chat Message, SMS and Product Reviews. Accurately classifying short text is an important and challenging task. A number of studies have difficulties in addressing this problem because of the word ambiguity and data sparsity. To address this issue, we propose a knowledge powered attention with similarity matrix based convolutional neural network (KASM) model, which can compute comprehensive information by utilizing the knowledge and deep neural network. We use knowledge graph (KG) to enrich the semantic representation of short text, specially, the information of parent-entity is introduced in our model. Meanwhile, we consider the word interaction in the literal-level between short text and the representation of label, and utilize similarity matrix based convolutional neural network (CNN) to extract it. For the purpose of measuring the importance of knowledge, we introduce the attention mechanisms to choose the important information. Experimental results on five standard datasets show that our model significantly outperforms state-of-the-art methods.
翻訳日:2023-01-02 14:34:06 公開日:2021-02-28
# 知識蒸留の理解と改善

Understanding and Improving Knowledge Distillation ( http://arxiv.org/abs/2002.03532v2 )

ライセンス: Link先を確認
Jiaxi Tang, Rakesh Shivanna, Zhe Zhao, Dong Lin, Anima Singh, Ed H. Chi, Sagar Jain(参考訳) 知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。 モデル圧縮の一般的な手法であり、より優れた品質を持つより大きな容量の教師モデルを用いて、推論効率のよいよりコンパクトな学生モデルを訓練する。 蒸留を通じて、モデルの質を犠牲にすることなく、学生のコンパクトさの恩恵を受けたいと考えている。 知識蒸留の大きな成功にもかかわらず、それが学生モデルの訓練力学にどのように役立つかの理解はいまだに未解明のままである。 本稿では,教師の知識を3つの階層的レベルに分類し,その知識蒸留への影響について検討する。(1)kdの知識がラベル平滑化によって正規化効果をもたらす「ユニバース」,(2)教師が学生のロジット層構造に先立ってクラス関係を注入する「ドメイン知識」,(3)教師が学生モデルのインスタンスごとの勾配を,イベント難易度の測定に基づいて再スケールする「インスタンス固有知識」について述べる。 総合的および実世界のデータセットの系統的分析と広範な実証研究を用いて,上記3つの因子が知識蒸留において重要な役割を担っていることを確認した。 また,最近の研究からkdを応用した失敗例のいくつかを診断した。

Knowledge Distillation (KD) is a model-agnostic technique to improve model quality while having a fixed capacity budget. It is a commonly used technique for model compression, where a larger capacity teacher model with better quality is used to train a more compact student model with better inference efficiency. Through distillation, one hopes to benefit from student's compactness, without sacrificing too much on model quality. Despite the large success of knowledge distillation, better understanding of how it benefits student model's training dynamics remains under-explored. In this paper, we categorize teacher's knowledge into three hierarchical levels and study its effects on knowledge distillation: (1) knowledge of the `universe', where KD brings a regularization effect through label smoothing; (2) domain knowledge, where teacher injects class relationships prior to student's logit layer geometry; and (3) instance specific knowledge, where teacher rescales student model's per-instance gradients based on its measurement on the event difficulty. Using systematic analyses and extensive empirical studies on both synthetic and real-world datasets, we confirm that the aforementioned three factors play a major role in knowledge distillation. Furthermore, based on our findings, we diagnose some of the failure cases of applying KD from recent studies.
翻訳日:2023-01-02 07:11:07 公開日:2021-02-28
# ゲーミングヘルプ! 自然力学における戦略的相互作用から学ぶ

Gaming Helps! Learning from Strategic Interactions in Natural Dynamics ( http://arxiv.org/abs/2002.07024v3 )

ライセンス: Link先を確認
Yahav Bechavod, Katrina Ligett, Zhiwei Steven Wu, Juba Ziani(参考訳) 我々は、個人が回帰モデルに適応するオンライン回帰設定を考察する: 到着した個人は現在のモデルを認識し、現在のモデルが割り当てる予測スコアを改善するために、自分たちの特徴を変更するために戦略的に投資する。 このような特徴操作は、信用評価から学校入学まで、さまざまなシナリオで観察されており、学習者には課題となっている。 意外なことに、このような戦略的操作は、学習者が意味のある変数、つまり変化した時に本当のラベルに影響を及ぼす特徴(効果のない意味のない特徴とは対照的に)を回復するのに役立ちます。 学習者の単純な行動でも同時に行うことができることを示す。 一 意味のある特徴を正確に回復し 二 この有意義な機能に投資するインセンティブをエージェントに与え、改善のインセンティブを提供する。

We consider an online regression setting in which individuals adapt to the regression model: arriving individuals are aware of the current model, and invest strategically in modifying their own features so as to improve the predicted score that the current model assigns to them. Such feature manipulation has been observed in various scenarios -- from credit assessment to school admissions -- posing a challenge for the learner. Surprisingly, we find that such strategic manipulations may in fact help the learner recover the meaningful variables -- that is, the features that, when changed, affect the true label (as opposed to non-meaningful features that have no effect). We show that even simple behavior on the learner's part allows her to simultaneously i) accurately recover the meaningful features, and ii) incentivize agents to invest in these meaningful features, providing incentives for improvement.
翻訳日:2022-12-31 12:36:44 公開日:2021-02-28
# スケーラブル制約ベイズ最適化

Scalable Constrained Bayesian Optimization ( http://arxiv.org/abs/2002.08526v3 )

ライセンス: Link先を確認
David Eriksson and Matthias Poloczek(参考訳) ブラックボックス制約下での高次元ブラックボックス関数のグローバルな最適化は、機械学習、制御、エンジニアリングにおける広範囲なタスクである。 これらの問題は、一般に実現可能な集合は非凸であり、次元性の呪いや下層の函数の不均一性に加えて見つからないため、難しい。 特に、これらの特徴はベイズ最適化法の性能に劇的に影響し、そうでなければ非拘束環境におけるサンプル効率最適化のデファクトスタンダードとなり、実践者は進化戦略やヒューリスティックに悩まされる。 本稿では,上記の課題を克服し,最先端のベイズ最適化をはるかに越えたスケーラブル制約ベイズ最適化(scbo)アルゴリズムを提案する。 総合的な実験的評価は、SCBOが様々なベンチマークで優れた結果を得ることを示す。 この目的のために,我々は科学コミュニティに独立した価値を期待する2つの新たな制御問題を提案する。

The global optimization of a high-dimensional black-box function under black-box constraints is a pervasive task in machine learning, control, and engineering. These problems are challenging since the feasible set is typically non-convex and hard to find, in addition to the curses of dimensionality and the heterogeneity of the underlying functions. In particular, these characteristics dramatically impact the performance of Bayesian optimization methods, that otherwise have become the de facto standard for sample-efficient optimization in unconstrained settings, leaving practitioners with evolutionary strategies or heuristics. We propose the scalable constrained Bayesian optimization (SCBO) algorithm that overcomes the above challenges and pushes the applicability of Bayesian optimization far beyond the state-of-the-art. A comprehensive experimental evaluation demonstrates that SCBO achieves excellent results on a variety of benchmarks. To this end, we propose two new control problems that we expect to be of independent value for the scientific community.
翻訳日:2022-12-30 06:13:03 公開日:2021-02-28
# ベイズ型非パラメトリック空間分割:調査

Bayesian Nonparametric Space Partitions: A Survey ( http://arxiv.org/abs/2002.11394v2 )

ライセンス: Link先を確認
Xuhui Fan, Bin Li, Ling Luo, Scott A. Sisson(参考訳) ベイズ非パラメトリック空間分割(bnsp)モデルは、$d$次元空間をブロックの集合に分割するための様々な戦略を提供する。 このようにして、同じブロックにあるデータポイントは、ある種の均質性を共有する。 BNSPモデルは、回帰/分類木、ランダムな特徴構築、リレーショナルモデリングなど、さまざまな領域に適用することができる。 本稿では, BNSP研究の現在の動向について, 空間における分割を生成するための様々な戦略をレビューし, その理論的基盤である「自己整合性」について論じるモデル, BNSPモデルが現在主流に使われているアプリケーションとその将来的な実践について述べるアプリケーション, 未解決問題と今後の課題を特定する課題の3つの観点から検討する。 BNSP文献の総合的なレビューは行われていないため、本調査がさらなる探究と活用を促すことを願っている。

Bayesian nonparametric space partition (BNSP) models provide a variety of strategies for partitioning a $D$-dimensional space into a set of blocks. In this way, the data points lie in the same block would share certain kinds of homogeneity. BNSP models can be applied to various areas, such as regression/classification trees, random feature construction, relational modeling, etc. In this survey, we investigate the current progress of BNSP research through the following three perspectives: models, which review various strategies for generating the partitions in the space and discuss their theoretical foundation `self-consistency'; applications, which cover the current mainstream usages of BNSP models and their potential future practises; and challenges, which identify the current unsolved problems and valuable future research topics. As there are no comprehensive reviews of BNSP literature before, we hope that this survey can induce further exploration and exploitation on this topic.
翻訳日:2022-12-28 14:16:32 公開日:2021-02-28
# FMix: 混合サンプルデータ拡張の強化

FMix: Enhancing Mixed Sample Data Augmentation ( http://arxiv.org/abs/2002.12047v3 )

ライセンス: Link先を確認
Ethan Harris, Antonia Marcu, Matthew Painter, Mahesan Niranjan, Adam Pr\"ugel-Bennett, Jonathon Hare(参考訳) Mixed Sample Data Augmentation (MSDA)は近年注目を集めており、MixUpやCutMixなど多くの改良が成功している。 元のデータに基づいてVAEが学習した関数と拡張したデータとの相互情報を調べることにより、MixUpはCutMixがしない方法で学習した関数を歪曲することを示す。 さらに、MixUpが敵対的トレーニングの形式として機能し、MixUpに類似した例を生成するDeep FoolやUniform Noiseのような攻撃に対する堅牢性を高めていることを示す。 この歪みは、モデルがデータのサンプル特有の特徴を学習するのを妨げ、一般化性能を補助する。 対照的に、CutMixは従来の拡張のように機能し、データ分布を歪ませることなく暗記を防止して性能を向上させることを提案する。 しかし、正方形ではなく任意の形状のマスクを含むようにCutMix上に構築されたMSDAは、データ分布を同じように保ちながら記憶をさらに防ぐことができると論じる。 そこで本稿では,Fourier空間からサンプリングした低周波画像に閾値を適用したランダム二元マスクを用いたMSDAのFMixを提案する。 これらのランダムマスクは幅広い形状を取り入れることができ、1, 2, 3次元のデータで使用するために生成される。 FMixは、トレーニング時間を増やすことなくMixUpやCutMixよりもパフォーマンスを改善し、さまざまなデータセットや問題設定のモデルに対して、外部データなしでCIFAR-10上で新しい単一モデルのステート・オブ・ザ・アート結果を得る。 最後に,MixUpなどのMSDAの補間とFMixのようなマスキングMSDAの相違により,両者を組み合わせて性能をさらに向上できることを示す。 すべての実験のコードはhttps://github.com/ecs-vlc/fmixで提供される。

Mixed Sample Data Augmentation (MSDA) has received increasing attention in recent years, with many successful variants such as MixUp and CutMix. By studying the mutual information between the function learned by a VAE on the original data and on the augmented data we show that MixUp distorts learned functions in a way that CutMix does not. We further demonstrate this by showing that MixUp acts as a form of adversarial training, increasing robustness to attacks such as Deep Fool and Uniform Noise which produce examples similar to those generated by MixUp. We argue that this distortion prevents models from learning about sample specific features in the data, aiding generalisation performance. In contrast, we suggest that CutMix works more like a traditional augmentation, improving performance by preventing memorisation without distorting the data distribution. However, we argue that an MSDA which builds on CutMix to include masks of arbitrary shape, rather than just square, could further prevent memorisation whilst preserving the data distribution in the same way. To this end, we propose FMix, an MSDA that uses random binary masks obtained by applying a threshold to low frequency images sampled from Fourier space. These random masks can take on a wide range of shapes and can be generated for use with one, two, and three dimensional data. FMix improves performance over MixUp and CutMix, without an increase in training time, for a number of models across a range of data sets and problem settings, obtaining a new single model state-of-the-art result on CIFAR-10 without external data. Finally, we show that a consequence of the difference between interpolating MSDA such as MixUp and masking MSDA such as FMix is that the two can be combined to improve performance even further. Code for all experiments is provided at https://github.com/ecs-vlc/FMix .
翻訳日:2022-12-28 07:19:44 公開日:2021-02-28
# 畳み込みニューラルネットワークを用いた高速対称性拡散型画像登録

Fast Symmetric Diffeomorphic Image Registration with Convolutional Neural Networks ( http://arxiv.org/abs/2003.09514v3 )

ライセンス: Link先を確認
Tony C.W. Mok, Albert C.S. Chung(参考訳) 異形変形可能な画像登録は、トポロジー保存や変換の可逆性を含む特別な特性を提供するため、多くの医学画像研究において重要である。 近年の深層学習に基づく変形可能な画像登録法は、畳み込みニューラルネットワーク(CNN)を利用して、合成基底真理や類似度メートル法から空間変換を学習することにより、高速な画像登録を実現する。 しかし、これらのアプローチは、大域的平滑化エネルギー関数のみによって強制される変換のトポロジー保存と変換の滑らかさをしばしば無視する。 さらに、深層学習に基づくアプローチは、逆変換の存在を保証できない変位場を直接推定することが多い。 本稿では, 微分写像空間内の画像間の類似性を最大化し, 前方および逆変換を同時に推定する, 効率的な非教師なし対称画像登録手法を提案する。 大規模脳画像データセットを用いた3次元画像登録法の評価を行った。 本手法は,所望の微分特性を維持しつつ,最先端の登録精度と走行時間を実現する。

Diffeomorphic deformable image registration is crucial in many medical image studies, as it offers unique, special properties including topology preservation and invertibility of the transformation. Recent deep learning-based deformable image registration methods achieve fast image registration by leveraging a convolutional neural network (CNN) to learn the spatial transformation from the synthetic ground truth or the similarity metric. However, these approaches often ignore the topology preservation of the transformation and the smoothness of the transformation which is enforced by a global smoothing energy function alone. Moreover, deep learning-based approaches often estimate the displacement field directly, which cannot guarantee the existence of the inverse transformation. In this paper, we present a novel, efficient unsupervised symmetric image registration method which maximizes the similarity between images within the space of diffeomorphic maps and estimates both forward and inverse transformations simultaneously. We evaluate our method on 3D image registration with a large scale brain image dataset. Our method achieves state-of-the-art registration accuracy and running time while maintaining desirable diffeomorphic properties.
翻訳日:2022-12-21 22:51:54 公開日:2021-02-28
# 極モデル圧縮のための量子化雑音による訓練

Training with Quantization Noise for Extreme Model Compression ( http://arxiv.org/abs/2004.07320v3 )

ライセンス: Link先を確認
Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, Armand Joulin(参考訳) 我々は,コンパクトモデルの作成の問題に取り組み,そのモデルの精度を最大化する。 標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練によるネットワークのトレーニングである。 本稿では, 製品量子化など, STE が導入した近似が重大であるような極端な圧縮手法を用いて, int8 の固定点量子化を超えて, このアプローチを拡張した。 我々の提案は、それぞれの前方で異なるランダムな重みのサブセットだけを定量化し、不偏勾配が他の重みを流れるようにすることである。 ノイズ量とその形状を制御することで、元のモデルの性能を維持しながら、極端な圧縮率が得られる。 その結果,自然言語処理と画像分類の両方において,精度とモデルサイズの間に新たな妥協点が確立された。 例えば、我々の手法を最先端のTransformerおよびConvNetアーキテクチャに適用すると、RoBERTaを14MBに、ImageNetで80.0 Top-1の精度を3.3MBに圧縮することで、MNLIの82.5%の精度が得られる。

We tackle the problem of producing compact models, maximizing their accuracy for a given model size. A standard solution is to train networks with Quantization Aware Training, where the weights are quantized during training and the gradients approximated with the Straight-Through Estimator. In this paper, we extend this approach to work beyond int8 fixed-point quantization with extreme compression methods where the approximations introduced by STE are severe, such as Product Quantization. Our proposal is to only quantize a different random subset of weights during each forward, allowing for unbiased gradients to flow through the other weights. Controlling the amount of noise and its form allows for extreme compression rates while maintaining the performance of the original model. As a result we establish new state-of-the-art compromises between accuracy and model size both in natural language processing and image classification. For example, applying our method to state-of-the-art Transformer and ConvNet architectures, we can achieve 82.5% accuracy on MNLI by compressing RoBERTa to 14MB and 80.0 top-1 accuracy on ImageNet by compressing an EfficientNet-B3 to 3.3MB.
翻訳日:2022-12-13 02:54:44 公開日:2021-02-28
# 参照透明性による機械翻訳のテスト

Testing Machine Translation via Referential Transparency ( http://arxiv.org/abs/2004.10361v2 )

ライセンス: Link先を確認
Pinjia He, Clara Meister, Zhendong Su(参考訳) 近年,深層ニューラルネットワークの進歩により,機械翻訳ソフトウェアが急速に進歩している。 外国のレストランで食事を注文したり、外国の医師から診断や治療を受けたり、国際政治ニュースをオンラインで読むなど、日常的に機械翻訳ソフトを使う。 しかし、基盤となるニューラルネットワークの複雑さと難易度のため、現代の機械翻訳ソフトウェアはまだ堅牢には程遠いため、誤解、金銭的損失、個人の安全と健康への脅威、政治的対立につながる可能性がある。 そこで本研究では,機械翻訳ソフトウェアを検証するための簡易かつ広く適用可能な手法であるrtis(re referentially transparent inputs)を提案する。 参照的に透明な入力は、異なる文脈で使われる場合、同様の翻訳を持つべきテキストである。 私たちの実用的な実装であるpurityは、このプロパティが翻訳によって破られたときに検出します。 RTIを評価するために、Google TranslateとBing Microsoft Translatorを200のラベルのない文でテストし、高い精度(79.3%と78.3%)で123と142の誤訳を検出した。 翻訳誤りは多様であり、過翻訳、過剰翻訳、単語/フレーズの誤訳、不正な修正、不明瞭な論理などがある。

Machine translation software has seen rapid progress in recent years due to the advancement of deep neural networks. People routinely use machine translation software in their daily lives, such as ordering food in a foreign restaurant, receiving medical diagnosis and treatment from foreign doctors, and reading international political news online. However, due to the complexity and intractability of the underlying neural networks, modern machine translation software is still far from robust and can produce poor or incorrect translations; this can lead to misunderstanding, financial loss, threats to personal safety and health, and political conflicts. To address this problem, we introduce referentially transparent inputs (RTIs), a simple, widely applicable methodology for validating machine translation software. A referentially transparent input is a piece of text that should have similar translations when used in different contexts. Our practical implementation, Purity, detects when this property is broken by a translation. To evaluate RTI, we use Purity to test Google Translate and Bing Microsoft Translator with 200 unlabeled sentences, which detected 123 and 142 erroneous translations with high precision (79.3% and 78.3%). The translation errors are diverse, including examples of under-translation, over-translation, word/phrase mistranslation, incorrect modification, and unclear logic.
翻訳日:2022-12-10 18:32:05 公開日:2021-02-28
# コーン投影パワーイテレーションによる高次元非スパースPCA

Non-Sparse PCA in High Dimensions via Cone Projected Power Iteration ( http://arxiv.org/abs/2005.07587v2 )

ライセンス: Link先を確認
Yufei Yi, Matey Neykov(参考訳) 本稿では,雑音正の半定値行列から第1主固有ベクトルを復元するコーン投影電力反復アルゴリズムを提案する。 真の主固有ベクトルが凸錐に属すると仮定すると,提案アルゴリズムは高速かつトラクタブルな誤差を有する。 具体的には、モノトーンコーンのような高速射影を備えた凸錐に対して多項式時間複雑性を実現する。 雑音行列が小さい円錐制限作用素ノルムを持つ場合、小さな誤差が得られる。 以上の結果をスパイク共分散モデルの下で誤差の最小値下限で補足する。 シミュレーションおよび実データに関する数値実験により,主固有ベクトルが凸円錐内にある場合,本手法は通常の電力繰り返しと疎大な主成分分析アルゴリズムと比較して実行時間と誤差が短いことを示す。

In this paper, we propose a cone projected power iteration algorithm to recover the first principal eigenvector from a noisy positive semidefinite matrix. When the true principal eigenvector is assumed to belong to a convex cone, the proposed algorithm is fast and has a tractable error. Specifically, the method achieves polynomial time complexity for certain convex cones equipped with fast projection such as the monotone cone. It attains a small error when the noisy matrix has a small cone-restricted operator norm. We supplement the above results with a minimax lower bound of the error under the spiked covariance model. Our numerical experiments on simulated and real data, show that our method achieves shorter run time and smaller error in comparison to the ordinary power iteration and some sparse principal component analysis algorithms if the principal eigenvector is in a convex cone.
翻訳日:2022-12-02 23:35:56 公開日:2021-02-28
# バイオメトリック品質:FaceQnetによる顔認識のレビューと応用

Biometric Quality: Review and Application to Face Recognition with FaceQnet ( http://arxiv.org/abs/2006.03298v3 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Javier Galbally, Julian Fierrez, Laurent Beslay(参考訳) 「コンピュータ化されたシステムの出力は、入力された情報と同じくらい正確である。」 このかなり自明な言明は、生体認証における駆動的概念の1つ、バイオメトリック品質の基礎となっている。 現在、品質は自動生体認証システムの良し悪しに寄与する第1の要因として広く見なされている。 バイオメトリックなサンプルを認識目的に使用し、一貫性があり、正確で、信頼性の高い結果を生成する能力を指す。 このような主観的用語は、いわゆるバイオメトリック品質指標によって客観的に推定される。 これらのアルゴリズムは現在、システムの正しい機能において重要な役割を担い、ユーザにフィードバックを提供し、貴重な監査ツールとして機能している。 網羅的に受け入れられた関連性にもかかわらず、最も利用され、デプロイされた生体認証特性のいくつかは、これらの手法の開発に欠如している。 これは顔認識のケースです。 バイオメトリック・クオリティに関する一般的な話題を穏やかに紹介し、顔品質指標における過去の取り組みをレビューした後、本研究では、FaceQnetの開発による顔品質指標の改善の必要性に対処する。 FaceQnetは、ディープラーニング技術にインスパイアされ、その認識精度の予測として、顔画像にスカラー品質測定を割り当てる、新しいオープンソースの顔品質評価ツールである。 FaceQnetの2つのバージョンは、この研究とNISTによって独立に評価され、現在の最先端メトリクスに対するアプローチの健全性と競争性を示している。 我々の研究は特に顔バイオメトリクスの枠組みで紹介されているが、完全に自動化された品質指標を構築するための提案手法は、他の人工知能タスクに非常に有用で容易に適応できる。

"The output of a computerised system can only be as accurate as the information entered into it." This rather trivial statement is the basis behind one of the driving concepts in biometric recognition: biometric quality. Quality is nowadays widely regarded as the number one factor responsible for the good or bad performance of automated biometric systems. It refers to the ability of a biometric sample to be used for recognition purposes and produce consistent, accurate, and reliable results. Such a subjective term is objectively estimated by the so-called biometric quality metrics. These algorithms play nowadays a pivotal role in the correct functioning of systems, providing feedback to the users and working as invaluable audit tools. In spite of their unanimously accepted relevance, some of the most used and deployed biometric characteristics are lacking behind in the development of these methods. This is the case of face recognition. After a gentle introduction to the general topic of biometric quality and a review of past efforts in face quality metrics, in the present work, we address the need for better face quality metrics by developing FaceQnet. FaceQnet is a novel open-source face quality assessment tool, inspired and powered by deep learning technology, which assigns a scalar quality measure to facial images, as prediction of their recognition accuracy. Two versions of FaceQnet have been thoroughly evaluated both in this work and also independently by NIST, showing the soundness of the approach and its competitiveness with respect to current state-of-the-art metrics. Even though our work is presented here particularly in the framework of face biometrics, the proposed methodology for building a fully automated quality metric can be very useful and easily adapted to other artificial intelligence tasks.
翻訳日:2022-11-25 03:07:23 公開日:2021-02-28
# オンデバイス非接触バイタル計測のためのマルチタスク時間シフトアテンションネットワーク

Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement ( http://arxiv.org/abs/2006.03790v2 )

ライセンス: Link先を確認
Xin Liu, Josh Fromm, Shwetak Patel, Daniel McDuff(参考訳) SARS-CoV-2パンデミックの間、遠隔医療と遠隔医療のモニタリングがますます重要になってきており、これが医療実践に持続的な影響を与えることが広く期待されている。 これらのツールは、患者や医療スタッフを感染に晒すリスクを減らし、医療サービスをよりアクセスしやすくし、提供者がより多くの患者を見ることを可能にする。 しかし, 患者と直接接触することなく, バイタルサインの客観的測定は困難である。 ビデオベースおよびオンデバイス型光学式心肺蘇生標識計測手法を提案する。 MTTS-CAN(Multi-task temporal shift convolutional attention network)を活用し、モバイルプラットフォーム上でリアルタイムの心血管および呼吸測定を可能にする。 我々は,高度なRISCマシン(ARM)CPU上でのシステム評価を行い,リアルタイムアプリケーションを実現するために,毎秒150フレーム以上動作しながら最先端の精度を実現する。 大規模なベンチマークデータセットの体系的な実験により、我々のアプローチはエラーの大幅な(20%-50%)削減とデータセット全体の一般化につながることが明らかとなった。

Telehealth and remote health monitoring have become increasingly important during the SARS-CoV-2 pandemic and it is widely expected that this will have a lasting impact on healthcare practices. These tools can help reduce the risk of exposing patients and medical staff to infection, make healthcare services more accessible, and allow providers to see more patients. However, objective measurement of vital signs is challenging without direct contact with a patient. We present a video-based and on-device optical cardiopulmonary vital sign measurement approach. It leverages a novel multi-task temporal shift convolutional attention network (MTTS-CAN) and enables real-time cardiovascular and respiratory measurements on mobile platforms. We evaluate our system on an Advanced RISC Machine (ARM) CPU and achieve state-of-the-art accuracy while running at over 150 frames per second which enables real-time applications. Systematic experimentation on large benchmark datasets reveals that our approach leads to substantial (20%-50%) reductions in error and generalizes well across datasets.
翻訳日:2022-11-24 22:06:39 公開日:2021-02-28
# 確率的ソフトマックストリックによる勾配推定

Gradient Estimation with Stochastic Softmax Tricks ( http://arxiv.org/abs/2006.08063v3 )

ライセンス: Link先を確認
Max B. Paulus, Dami Choi, Daniel Tarlow, Andreas Krause, Chris J. Maddison(参考訳) ガンベル・マックスのトリックは多くの緩和された勾配推定器の基礎である。 これらの推定器は実装が容易で分散度も低いが、大規模な組合せ分布に包括的にスケールするという目的はまだ優れている。 摂動モデルフレームワーク内で作業し、Gumbel-Softmax トリックを組合せ空間に一般化する確率的ソフトマックストリックを導入する。 我々のフレームワークは、摂動モデルのための既存の緩和推定器の統一的な視点であり、多くの新しい緩和を含んでいる。 我々は、サブセット選択、スパンニングツリー、アーボラッセンスなどの構造的緩和を設計する。 より構造化の少ないベースラインと比較して、確率的ソフトマックスのトリックは、より優れた性能を示す潜在変数モデルを訓練し、より潜在構造を発見するために使用できる。

The Gumbel-Max trick is the basis of many relaxed gradient estimators. These estimators are easy to implement and low variance, but the goal of scaling them comprehensively to large combinatorial distributions is still outstanding. Working within the perturbation model framework, we introduce stochastic softmax tricks, which generalize the Gumbel-Softmax trick to combinatorial spaces. Our framework is a unified perspective on existing relaxed estimators for perturbation models, and it contains many novel relaxations. We design structured relaxations for subset selection, spanning trees, arborescences, and others. When compared to less structured baselines, we find that stochastic softmax tricks can be used to train latent variable models that perform better and discover more latent structure.
翻訳日:2022-11-21 02:49:20 公開日:2021-02-28
# コラリング確率バンディットアルゴリズム

Corralling Stochastic Bandit Algorithms ( http://arxiv.org/abs/2006.09255v3 )

ライセンス: Link先を確認
Raman Arora, Teodor V. Marinov, Mehryar Mohri(参考訳) 本研究では,確率的環境向けに設計した複数のバンディットアルゴリズムを結合する確率的バンディットアルゴリズムと,最良ベースアルゴリズムとほぼ同等の性能のコアリングアルゴリズムを考案することを目的とした。 この設定に2つの一般的なアルゴリズムを与え、好意的な後悔の保証の恩恵を示す。 相関アルゴリズムの後悔は、最高の報酬を持つarmを含む最高のアルゴリズムよりも悪くないことを示し、最高の報酬と他の報酬の間のギャップに依存することを示した。

We study the problem of corralling stochastic bandit algorithms, that is combining multiple bandit algorithms designed for a stochastic environment, with the goal of devising a corralling algorithm that performs almost as well as the best base algorithm. We give two general algorithms for this setting, which we show benefit from favorable regret guarantees. We show that the regret of the corralling algorithms is no worse than that of the best algorithm containing the arm with the highest reward, and depends on the gap between the highest reward and other rewards.
翻訳日:2022-11-20 19:26:13 公開日:2021-02-28
# スパース因子分析モデルにおける疎度制御:一方向線形次元削減のための適応潜在特徴共有

Controlling for sparsity in sparse factor analysis models: adaptive latent feature sharing for piecewise linear dimensionality reduction ( http://arxiv.org/abs/2006.12369v3 )

ライセンス: Link先を確認
Adam Farooq and Yordan P. Raykov and Petar Raykov and Max A. Little(参考訳) 原理成分分析(PCA)や因子分析(FA)といったユビキタス線形ガウス探索ツールは、探索分析、前処理、データの可視化、関連するタスクのツールとして広く使われている。 しかしながら、高次元データの群集を含む厳密な仮定により、それらは多くの設定でより柔軟でまだ解釈可能な潜在性特徴モデルに置き換えられている。 特徴割り当ては通常、パラメトリックベータ・ベルヌーリ分布またはベイズ非パラメトリック前のいずれかに従うと仮定される離散潜在変数を用いてモデル化される。 本研究では,現在の潜在特徴分解手法の重要な限界に対処できる,単純で扱いやすいパラメトリック特徴割当モデルを提案する。 新しいフレームワークでは、各ポイントを表現するために使用される機能の数を明示的にコントロールすることができ、より柔軟なアロケーション分布のセットを可能にします。 このアプローチは、新しい適応因子分析(afa)や、幅広いシナリオにおいて柔軟な構造発見と次元縮小が可能な適応確率原理成分分析(appca)を導出するために用いられる。 我々は、標準ギブスサンプリングアルゴリズムと、予想最大化推論アルゴリズムの両方を導出し、適度な点推定解よりもはるかに早くオーダーを収束させる。 提案手法は,特徴学習やデータ可視化,データの白化など,標準的なPCAタスクに対して有効である。 APPCAとaFAは、生のMNISTに適用した場合と、オートエンコーダの特徴を解釈する場合の両方において、高いレベルの特徴を推測できることを示す。 機能的磁気共鳴画像(fMRI)における、より堅牢なブラインドソース分離へのAPPCAの適用を実証した。

Ubiquitous linear Gaussian exploratory tools such as principle component analysis (PCA) and factor analysis (FA) remain widely used as tools for: exploratory analysis, pre-processing, data visualization and related tasks. However, due to their rigid assumptions including crowding of high dimensional data, they have been replaced in many settings by more flexible and still interpretable latent feature models. The Feature allocation is usually modelled using discrete latent variables assumed to follow either parametric Beta-Bernoulli distribution or Bayesian nonparametric prior. In this work we propose a simple and tractable parametric feature allocation model which can address key limitations of current latent feature decomposition techniques. The new framework allows for explicit control over the number of features used to express each point and enables a more flexible set of allocation distributions including feature allocations with different sparsity levels. This approach is used to derive a novel adaptive Factor analysis (aFA), as well as, an adaptive probabilistic principle component analysis (aPPCA) capable of flexible structure discovery and dimensionality reduction in a wide case of scenarios. We derive both standard Gibbs sampler, as well as, an expectation-maximization inference algorithms that converge orders of magnitude faster to a reasonable point estimate solution. The utility of the proposed aPPCA model is demonstrated for standard PCA tasks such as feature learning, data visualization and data whitening. We show that aPPCA and aFA can infer interpretable high level features both when applied on raw MNIST and when applied for interpreting autoencoder features. We also demonstrate an application of the aPPCA to more robust blind source separation for functional magnetic resonance imaging (fMRI).
翻訳日:2022-11-18 05:38:25 公開日:2021-02-28
# マルチモーダル・セルフスーパービジョンで動画をスクラッチから切り離す

Labelling unlabelled videos from scratch with multi-modal self-supervision ( http://arxiv.org/abs/2006.13662v3 )

ライセンス: Link先を確認
Yuki M. Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi(参考訳) 現在のディープラーニングの成功の大部分は、データの有効性にある -- もっと正確に言えば、ラベル付きデータです。 しかし、人間のアノテーションによるデータセットのラベル付けは、特にビデオのコストが高い。 画像領域では、最近の手法ではラベルなしデータセットに対して有意義な(pseudo-)ラベルを生成できるが、学習機能表現が現在注目されているビデオ領域では、この開発が欠落している。 この作品では、 a) ビデオデータセットの教師なしラベリングが強機能エンコーダから解放されないことを示すこと。 b)音声と視覚のモダリティの自然な対応を利用して,人間のアノテーションを使わずにビデオデータセットを擬似ラベリングできる新しいクラスタリング手法を提案する。 広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップを持つことが示された。 さらに、一般的なビデオデータセットであるKinetics、Kinetics-Sound、VGG-Sound、AVEの教師なしラベル付けに関する最初のベンチマーク結果を紹介する。

A large part of the current success of deep learning lies in the effectiveness of data -- more precisely: labelled data. Yet, labelling a dataset with human annotation continues to carry high costs, especially for videos. While in the image domain, recent methods have allowed to generate meaningful (pseudo-) labels for unlabelled datasets without supervision, this development is missing for the video domain where learning feature representations is the current focus. In this work, we a) show that unsupervised labelling of a video dataset does not come for free from strong feature encoders and b) propose a novel clustering method that allows pseudo-labelling of a video dataset without any human annotations, by leveraging the natural correspondence between the audio and visual modalities. An extensive analysis shows that the resulting clusters have high semantic overlap to ground truth human labels. We further introduce the first benchmarking results on unsupervised labelling of common video datasets Kinetics, Kinetics-Sound, VGG-Sound and AVE.
翻訳日:2022-11-17 09:41:50 公開日:2021-02-28
# 短光・長時間露光による低照度画像復元

Low-light Image Restoration with Short- and Long-exposure Raw Pairs ( http://arxiv.org/abs/2007.00199v2 )

ライセンス: Link先を確認
Meng Chang, Huajun Feng, Zhihai Xu, Qi Li(参考訳) 携帯型モバイルデバイスによる低照度撮影は難しい課題である。 既存のモデルとトレーニングデータによって制限されているため、既存のメソッドは実際のシナリオで効果的に適用できない。 本稿では,短露光画像と長露光画像の補完情報を用いて,新しい低照度画像復元手法を提案する。 まず,低光環境下での撮像パイプラインをシミュレートし,実写的な短時間・長時間露光生画像を合成する新しいデータ生成法を提案する。 そこで我々は,低光度画像融合の課題である高ノイズ,動きのぼかし,色歪み,ずれなどに対処するために,新しい長短露光融合ネットワーク (lsfnet) を設計した。 提案したLSFNetは、短い露光と長時間露光の生画像のペアを入力として取り、明確なRGB画像を出力する。 このデータ生成手法とLSFNetを用いて、元のシーンの詳細と色を復元し、低照度画像の品質を効果的に向上させることができる。 実験により,本手法が最先端の手法に勝ることを実証した。

Low-light imaging with handheld mobile devices is a challenging issue. Limited by the existing models and training data, most existing methods cannot be effectively applied in real scenarios. In this paper, we propose a new low-light image restoration method by using the complementary information of short- and long-exposure images. We first propose a novel data generation method to synthesize realistic short- and longexposure raw images by simulating the imaging pipeline in lowlight environment. Then, we design a new long-short-exposure fusion network (LSFNet) to deal with the problems of low-light image fusion, including high noise, motion blur, color distortion and misalignment. The proposed LSFNet takes pairs of shortand long-exposure raw images as input, and outputs a clear RGB image. Using our data generation method and the proposed LSFNet, we can recover the details and color of the original scene, and improve the low-light image quality effectively. Experiments demonstrate that our method can outperform the state-of-the art methods.
翻訳日:2022-11-14 23:38:50 公開日:2021-02-28
# HOBFLOPS CNN:畳み込みニューラルネットワークのためのハードウェア最適化ビットスライス・パラレル浮動小数点演算

HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point Operations for Convolutional Neural Networks ( http://arxiv.org/abs/2007.06563v3 )

ライセンス: Link先を確認
James Garland, David Gregg(参考訳) 畳み込みニューラルネットワーク(cnns)は通常16ビットまたは32ビット浮動小数点(fp)を用いて訓練され、研究者は低精度浮動小数点(fp)が推論に非常に有効であることを示した。 低精度のFPは、フィールドプログラマブルゲートアレイ(FPGA)やアプリケーション固有の集積回路(ASIC)アクセラレータで実装できるが、既存のプロセッサは一般的にカスタムのFPをサポートしていない。 本稿では,ハードウェア最適化されたbitslice-parallel floating-point operator (hobflops)を提案する。 我々は、ハードウェア合成設計フローを用いて最適化されたカスタム精度FPルーチンを生成し、回路を作成する。 我々は、ターゲットマイクロプロセッサアーキテクチャのビット単位演算に適合する標準セルライブラリと、ハードウェア回路をビット単位のソフトウェアに変換するコード生成器を提供する。 我々はbitslice並列性を利用して、非常に広い(32-512要素)ベクター化畳み込みニューラルネットワーク(cnn)畳み込みを生成する。 ハードウェア最適化のbitslice-parallel floating-point operators (hobflops) multiply-accumulate (mac) performance in cnn convolution on arm and intel processorは、バークレーのsoftfp16同等のmacと比較される。 HOBFLOPS16はIntel AVX512でSoftFP16を8倍に上回る。 例えば、HOBFLOPS9はArm NeonのHOBFLOPS16の6倍の性能を発揮する。 HOBFLOPSは、ソフトウェアCNNアクセラレータの演算において、様々なレベルのカスタムFP精度をプロトタイプできる。 さらに、HOBFLOPSの高速カスタム精度FP CNNは、メモリ帯域幅が制限されている場合に有用である。

Convolutional neural networks (CNNs) are typically trained using 16- or 32-bit floating-point (FP) and researchers show that low-precision floating-point (FP) can be highly effective for inference. Low-precision FP can be implemented in field programmable gate array (FPGA) and application-specific integrated circuit (ASIC) accelerators, but existing processors do not generally support custom precision FP. We propose hardware optimized bitslice-parallel floating-point operators (HOBFLOPS), a method of generating efficient custom-precision emulated bitslice-parallel software FP arithmetic. We generate custom-precision FP routines optimized using a hardware synthesis design flow to create circuits. We provide standard cell libraries matching the bitwise operations on the target microprocessor architecture, and a code-generator to translate the hardware circuits to bitslice software equivalents. We exploit bitslice parallelism to create a very wide (32-512 element) vectorized convolutional neural network (CNN) convolution. Hardware optimized bitslice-parallel floating-point operators (HOBFLOPS) multiply-accumulate (MAC) performance in CNN convolution on Arm and Intel processors are compared to Berkeley's SoftFP16 equivalent MAC. HOBFLOPS16 outperforms SoftFP16 by 8x on Intel AVX512. HOBFLOPS offers arbitrary-precision FP with custom range and precision e.g., HOBFLOPS9 performs at 6x the performance of HOBFLOPS16 on Arm Neon. HOBFLOPS allows researchers to prototype different levels of custom FP precision in the arithmetic of software CNN accelerators. Furthermore, HOBFLOPS fast custom-precision FP CNNs may be valuable in cases where memory bandwidth is limited.
翻訳日:2022-11-11 13:44:18 公開日:2021-02-28
# 非剛性ナノトモグラフィの分散最適化

Distributed optimization for nonrigid nano-tomography ( http://arxiv.org/abs/2008.03375v2 )

ライセンス: Link先を確認
Viktor Nikitin, Vincent De Andrade, Azat Slyamov, Benjamin J. Gould, Yuepeng Zhang, Vandana Sampathkumar, Narayanan Kasthuri, Doga Gursoy, Francesco De Carlo(参考訳) ナノCT(nano-CT)の分解能レベルと再現性は、走査中の機械的振動の大きさが画像分解能に匹敵するようになり、試料がデータ取得時にビーム損傷に耐えられるため、顕微鏡の安定性によって部分的に制限されている。 このような場合、時間分解再構成法のように異なる時間ステップでサンプル状態を復元するインセンティブはないが、最も高い空間分解能と画像アーティファクトを伴わずに単一の再構成を回収することが目的である。 本稿では,ナノスケールの試料を投影アライメント,乱れ,正則化で画像化するためのジョイントソルバを提案する。 投影データの一貫性は、ファーネバックのアルゴリズムによって推定される密集した光の流れによって制御され、より少ないアーティファクトで鋭いサンプル再構成に繋がる。 合成データテストは、ポアソンと低周波背景雑音に対する手法の堅牢性を示す。 2つの大規模ナノイメージング実験データセットに本手法の適用性を示す。

Resolution level and reconstruction quality in nano-computed tomography (nano-CT) are in part limited by the stability of microscopes, because the magnitude of mechanical vibrations during scanning becomes comparable to the imaging resolution, and the ability of the samples to resist beam damage during data acquisition. In such cases, there is no incentive in recovering the sample state at different time steps like in time-resolved reconstruction methods, but instead the goal is to retrieve a single reconstruction at the highest possible spatial resolution and without any imaging artifacts. Here we propose a joint solver for imaging samples at the nanoscale with projection alignment, unwarping and regularization. Projection data consistency is regulated by dense optical flow estimated by Farneback's algorithm, leading to sharp sample reconstructions with less artifacts. Synthetic data tests show robustness of the method to Poisson and low-frequency background noise. Applicability of the method is demonstrated on two large-scale nano-imaging experimental data sets.
翻訳日:2022-11-11 13:43:21 公開日:2021-02-28
# MosAIc: 条件付きイメージ検索で文化全体の芸術的つながりを見つける

MosAIc: Finding Artistic Connections across Culture with Conditional Image Retrieval ( http://arxiv.org/abs/2007.07177v3 )

ライセンス: Link先を確認
Mark Hamilton, Stephanie Fu, Mindren Lu, Johnny Bui, Darius Bopp, Zhenbang Chen, Felix Tran, Margaret Wang, Marina Rogers, Lei Zhang, Chris Hoder, William T. Freeman(参考訳) MosAIcはインタラクティブなウェブアプリケーションで、ユーザーは異なる文化、メディア、千年紀にまたがるセマンティックな関連アートワークのペアを見つけることができる。 このアプリケーションを作成するために,視覚的類似性検索とユーザが提供するフィルタや条件を組み合わせた条件付き画像検索(Conditional Image Retrieval, CIR)を導入する。 このテクニックにより、イメージコーパスの異なるサブセットにまたがる類似したイメージのペアを見つけることができる。 既存の画像検索データ構造をこの新しいドメインに適応させる汎用的な方法を提供し,提案手法の効率性に関する理論的境界を提供する。 CIRシステムの性能を定量化するために、CIR手法の評価のための新しいデータセットを導入し、CIRが非パラメトリックなスタイル転送を行うことを示す。 最後に、我々のCIRデータ構造がGAN(Generative Adversarial Networks)において真のデータ分布を適切にモデル化できない「盲点」を識別できることを実証する。

We introduce MosAIc, an interactive web app that allows users to find pairs of semantically related artworks that span different cultures, media, and millennia. To create this application, we introduce Conditional Image Retrieval (CIR) which combines visual similarity search with user supplied filters or "conditions". This technique allows one to find pairs of similar images that span distinct subsets of the image corpus. We provide a generic way to adapt existing image retrieval data-structures to this new domain and provide theoretical bounds on our approach's efficiency. To quantify the performance of CIR systems, we introduce new datasets for evaluating CIR methods and show that CIR performs non-parametric style transfer. Finally, we demonstrate that our CIR data-structures can identify "blind spots" in Generative Adversarial Networks (GAN) where they fail to properly model the true data distribution.
翻訳日:2022-11-10 13:31:03 公開日:2021-02-28
# ガスパー:GrAph信号のRでのプロセシング

Gasper: GrAph Signal ProcEssing in R ( http://arxiv.org/abs/2007.10642v3 )

ライセンス: Link先を確認
Basile de Loynes, Fabien Navarro, Baptiste Olivier(参考訳) 本稿では,Proglang{R} \pkg{gasper}パッケージの使用に関する簡単なチュートリアルを紹介する。 Gasperはグラフ上の信号処理専用のパッケージである。 SuiteSparse Matrix Collectionへのインターフェースも提供する。

We present a short tutorial on to the use of the \proglang{R} \pkg{gasper} package. Gasper is a package dedicated to signal processing on graphs. It also provides an interface to the SuiteSparse Matrix Collection.
翻訳日:2022-11-08 05:49:58 公開日:2021-02-28
# ニューラルネットワークに基づく音声認識のための適応アルゴリズム:概要

Adaptation Algorithms for Neural Network-Based Speech Recognition: An Overview ( http://arxiv.org/abs/2008.06580v2 )

ライセンス: Link先を確認
Peter Bell, Joachim Fainberg, Ondrej Klejch, Jinyu Li, Steve Renals, Pawel Swietojanski(参考訳) 本稿では,話者適応,ドメイン適応,アクセント適応に焦点をあてた,ハイブリッド型隠れマルコフモデル/ニューラルネットワークシステムとエンドツーエンドニューラルネットワークシステムの両方を考慮した,ニューラルネットワークに基づく音声認識のための適応アルゴリズムの構造化概要を示す。 この概要は、埋め込み、モデルパラメータ適応、データ拡張に基づく適応アルゴリズムを特徴付ける。 本稿では,本論文で報告した相対誤差率低減に基づく音声認識適応アルゴリズムの性能のメタ解析を行う。

We present a structured overview of adaptation algorithms for neural network-based speech recognition, considering both hybrid hidden Markov model / neural network systems and end-to-end neural network systems, with a focus on speaker adaptation, domain adaptation, and accent adaptation. The overview characterizes adaptation algorithms as based on embeddings, model parameter adaptation, or data augmentation. We present a meta-analysis of the performance of speech recognition adaptation algorithms, based on relative error rate reductions as reported in the literature.
翻訳日:2022-10-30 17:46:47 公開日:2021-02-28
# HALO: 収縮を伴うニューラルネットワークの創成を学ぶ

HALO: Learning to Prune Neural Networks with Shrinkage ( http://arxiv.org/abs/2008.10183v3 )

ライセンス: Link先を確認
Skyler Seto, Martin T. Wells, Wenyu Zhang(参考訳) ディープニューラルネットワークは、非構造化データから豊富な特徴集合を抽出することで、さまざまなタスクで最先端のパフォーマンスを実現するが、この性能はモデルサイズと密接に関連している。 提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。 ベイズ的階層モデルの観点から異なる間隔のペナルティを導出し、トレーニング可能なパラメータによって与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(HALO)と呼ばれる新しいペナルティを示す。 過パラメータネットワークのトレーニングに使用する場合,このペナルティは,微調整をすることなく,高精度な小サブネットワークを実現する。 画像認識タスクにおいて,halo は高いスパースネットワーク(パラメータの5%のみ)を学習でき,同じレベルのスパース性で最先端のマグニチュードプルーニング法よりも性能が著しく向上することがわかった。 コードはhttps://github.com/skyler120/sparsity-haloで入手できる。

Deep neural networks achieve state-of-the-art performance in a variety of tasks by extracting a rich set of features from unstructured data, however this performance is closely tied to model size. Modern techniques for inducing sparsity and reducing model size are (1) network pruning, (2) training with a sparsity inducing penalty, and (3) training a binary mask jointly with the weights of the network. We study different sparsity inducing penalties from the perspective of Bayesian hierarchical models and present a novel penalty called Hierarchical Adaptive Lasso (HALO) which learns to adaptively sparsify weights of a given network via trainable parameters. When used to train over-parametrized networks, our penalty yields small subnetworks with high accuracy without fine-tuning. Empirically, on image recognition tasks, we find that HALO is able to learn highly sparse network (only 5% of the parameters) with significant gains in performance over state-of-the-art magnitude pruning methods at the same level of sparsity. Code is available at https://github.com/skyler120/sparsity-halo.
翻訳日:2022-10-25 08:56:45 公開日:2021-02-28
# AI研究の問題点とSPシステムがそれをどのように解決するか

Problems in AI research and how the SP System may help to solve them ( http://arxiv.org/abs/2009.09079v3 )

ライセンス: Link先を確認
J Gerard Wolff(参考訳) 本稿では,AI研究の問題点とSPシステム(付録に記載されている)がそれらをどう解決するかについて述べる。 問題の大部分は、科学作家のMartin Ford氏へのインタビューでAIの先駆的な研究者によって説明され、彼の著書 {\em Architects of Intelligence} で報告されている。 These problems are: the need to bridge the divide between symbolic and non-symbolic kinds of knowledge and processing; the tendency of deep neural networks (DNNs) to make large and unexpected errors in recognition; the need to strengthen the representation and processing of natural languages; the challenges of unsupervised learning; the need for a coherent account of generalisation; how to learn usable knowledge from a single exposure; how to achieve transfer learning; how to increase the efficiency of AI processing; the need for transparency in AI structures and processes; how to achieve varieties of probabilistic reasoning; the need for more emphasis on top-down strategies; how to minimise the risk of accidents with self-driving vehicles; the need for strong compositionality in AI knowledge; the challenges of commonsense reasoning and commonsense knowledge; establishing the importance of information compression in AI research; establishing the importance of a biological perspective in AI research; establishing whether knowledge in the brain is represented in `distributed' or `localist' form; how to bypassing the limited scope for adaptation in deep neural networks; the need to develop `broad AI'; and how to eliminate the problem of catastrophic forgetting.

This paper describes problems in AI research and how the SP System (described in an appendix) may help to solve them. Most of the problems are described by leading researchers in AI in interviews with science writer Martin Ford, and reported by him in his book {\em Architects of Intelligence}. These problems are: the need to bridge the divide between symbolic and non-symbolic kinds of knowledge and processing; the tendency of deep neural networks (DNNs) to make large and unexpected errors in recognition; the need to strengthen the representation and processing of natural languages; the challenges of unsupervised learning; the need for a coherent account of generalisation; how to learn usable knowledge from a single exposure; how to achieve transfer learning; how to increase the efficiency of AI processing; the need for transparency in AI structures and processes; how to achieve varieties of probabilistic reasoning; the need for more emphasis on top-down strategies; how to minimise the risk of accidents with self-driving vehicles; the need for strong compositionality in AI knowledge; the challenges of commonsense reasoning and commonsense knowledge; establishing the importance of information compression in AI research; establishing the importance of a biological perspective in AI research; establishing whether knowledge in the brain is represented in `distributed' or `localist' form; how to bypassing the limited scope for adaptation in deep neural networks; the need to develop `broad AI'; and how to eliminate the problem of catastrophic forgetting.
翻訳日:2022-10-22 19:46:45 公開日:2021-02-28
# 肺超音波マルチシンプトム分類のための半教師あり能動学習

Semi-Supervised Active Learning for COVID-19 Lung Ultrasound Multi-symptom Classification ( http://arxiv.org/abs/2009.05436v2 )

ライセンス: Link先を確認
Lei Liu, Wentao Lei, Yongfang Luo, Cheng Feng, Xiang Wan, Li Liu(参考訳) 超音波(US)は、新型コロナウイルス(COVID-19)の世界的なパンデミックに対する非侵襲的で効果的な医療診断技術である。 しかし、米国画像の複雑な特徴行動や高価なアノテーションのため、肺の多症状(複数ラベル)分類にAI(Artificial Intelligence)のアプローチを適用することは困難である。 これらの課題を克服するために,複雑な特徴をモデル化し,反復的手順におけるラベリングコストを低減するための,半教師付き2ストリームアクティブラーニング(TSAL)手法を提案する。 TSALのコアコンポーネントはマルチラベル学習機構であり、ラベル相関情報を用いてマルチラベルマージン(MLM)戦略を設計し、情報的サンプルと信頼性ラベルを自動的に選択する信頼性検証を行う。 本研究では,肺症状の判別的特徴を学習するためにマルチシンプトムマルチラベル (msml) 分類ネットワークを提案し,人間と機械の相互作用を利用して,msmlを漸進的ラベル付きデータで微調整するための最終アノテーションを確認する。 さらに、678本の動画から6,836枚の画像が採取された71人の臨床患者を含む、COVID19-LUSMSという新しい肺データセットが構築されている。 実験により,20%のデータしか使用していないTSALは,ベースラインや最先端よりも優れた性能が得られることが示された。 注意図とサンプル分布の可視化は,臨床知識との整合性を確認した。

Ultrasound (US) is a non-invasive yet effective medical diagnostic imaging technique for the COVID-19 global pandemic. However, due to complex feature behaviors and expensive annotations of US images, it is difficult to apply Artificial Intelligence (AI) assisting approaches for lung's multi-symptom (multi-label) classification. To overcome these difficulties, we propose a novel semi-supervised Two-Stream Active Learning (TSAL) method to model complicated features and reduce labeling costs in an iterative procedure. The core component of TSAL is the multi-label learning mechanism, in which label correlations information is used to design multi-label margin (MLM) strategy and confidence validation for automatically selecting informative samples and confident labels. On this basis, a multi-symptom multi-label (MSML) classification network is proposed to learn discriminative features of lung symptoms, and a human-machine interaction is exploited to confirm the final annotations that are used to fine-tune MSML with progressively labeled data. Moreover, a novel lung US dataset named COVID19-LUSMS is built, currently containing 71 clinical patients with 6,836 images sampled from 678 videos. Experimental evaluations show that TSAL using only 20% data can achieve superior performance to the baseline and the state-of-the-art. Qualitatively, visualization of both attention map and sample distribution confirms the good consistency with the clinic knowledge.
翻訳日:2022-10-20 09:13:21 公開日:2021-02-28
# テンソル補完のための低ランク符号化係数を用いた辞書学習

Dictionary Learning with Low-rank Coding Coefficients for Tensor Completion ( http://arxiv.org/abs/2009.12507v2 )

ライセンス: Link先を確認
Tai-Xiang Jiang, Xi-Le Zhao, Hao Zhang, Michael K. Ng(参考訳) 本稿では,3次データ補完のためのテンソル学習と符号化モデルを提案する。 本モデルでは,与えられた観測からデータ適応辞書を学習し,三階テンソル管の符号化係数を決定する。 完了過程において、符号化係数を含む各テンソルスライスの低ランク化を最小化する。 従来の事前定義された変換ベースと比較して、提案モデルの利点は、 (i)基礎をより適応的かつ正確に構築できるように、与えられたデータ観測に基づいて辞書を学習することができる。 (ii) 符号化係数の低ランク性は辞書の特徴の線形結合をより効果的にすることができる。 また、このようなテンソル学習および符号化モデルを解決するためのマルチブロック近位最小化アルゴリズムを開発し、アルゴリズムが生成したシーケンスが臨界点にグローバルに収束できることを示す。 ビデオ,ハイパースペクトル画像,トラヒックデータなどの実データに対する広範囲な実験結果が報告され,これらの利点を実証し,提案手法の性能が他のテンソル補完法と比較して,評価指標として有意に優れていることを示した。

In this paper, we propose a novel tensor learning and coding model for third-order data completion. Our model is to learn a data-adaptive dictionary from the given observations, and determine the coding coefficients of third-order tensor tubes. In the completion process, we minimize the low-rankness of each tensor slice containing the coding coefficients. By comparison with the traditional pre-defined transform basis, the advantages of the proposed model are that (i) the dictionary can be learned based on the given data observations so that the basis can be more adaptively and accurately constructed, and (ii) the low-rankness of the coding coefficients can allow the linear combination of dictionary features more effectively. Also we develop a multi-block proximal alternating minimization algorithm for solving such tensor learning and coding model, and show that the sequence generated by the algorithm can globally converge to a critical point. Extensive experimental results for real data sets such as videos, hyperspectral images, and traffic data are reported to demonstrate these advantages and show the performance of the proposed tensor learning and coding method is significantly better than the other tensor completion methods in terms of several evaluation metrics.
翻訳日:2022-10-14 08:53:38 公開日:2021-02-28
# マルチエージェント通信のための修正体験リプレイ

Correcting Experience Replay for Multi-Agent Communication ( http://arxiv.org/abs/2010.01192v2 )

ライセンス: Link先を確認
Sanjeevan Ahilan, Peter Dayan(参考訳) マルチエージェント強化学習(MARL)を用いたコミュニケーション学習の問題点を考察する。 一般的なアプローチは、リプレイバッファからサンプリングされたデータを使用して、オフポリシーを学ぶことだ。 しかし、過去に受信したメッセージは、各エージェントの現在の通信方針を正確に反映するものではなく、学習を複雑にする。 そこで我々は,マルチエージェント学習による観察コミュニケーションの非定常性を考慮した「コミュニケーション補正」を導入する。 受信したメッセージをリラベリングすることで、通信者の現在の方針に合致するようにし、受信者の現在の環境をより良く反映する。 エージェントが送信側と受信側の両方である場合を考慮し,順序付きリラベル方式を導入する。 我々の補正は計算効率が良く、様々なオフポリシーアルゴリズムと統合できる。 実験の結果,多種多様な協調的・競争的な課題において,MARLシステムのコミュニケーション能力を大幅に向上することがわかった。

We consider the problem of learning to communicate using multi-agent reinforcement learning (MARL). A common approach is to learn off-policy, using data sampled from a replay buffer. However, messages received in the past may not accurately reflect the current communication policy of each agent, and this complicates learning. We therefore introduce a 'communication correction' which accounts for the non-stationarity of observed communication induced by multi-agent learning. It works by relabelling the received message to make it likely under the communicator's current policy, and thus be a better reflection of the receiver's current environment. To account for cases in which agents are both senders and receivers, we introduce an ordered relabelling scheme. Our correction is computationally efficient and can be integrated with a range of off-policy algorithms. We find in our experiments that it substantially improves the ability of communicating MARL systems to learn across a variety of cooperative and competitive tasks.
翻訳日:2022-10-12 01:16:06 公開日:2021-02-28
# 学習中の最適表現の活用情報と進化

Usable Information and Evolution of Optimal Representations During Training ( http://arxiv.org/abs/2010.02459v2 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Daksh Idnani, Jonathan C. Kao(参考訳) 深層ネットワークで学習した表現に含まれる有用な情報の概念を導入し、学習中にタスクの最適な表現がどのように現れるかを研究する。 学習速度が高く,バッチサイズが小さい確率的勾配降下による学習からの暗黙的正規化は,タスクの最小限の表現を学習する上で重要な役割を担っている。 最小限の表現に到達する過程において、トレーニング中に表現の内容が動的に変化することが分かる。 特に、意味的に意味があるが究極的には無関係な情報は、後に破棄される前に、訓練の初期過渡的なダイナミクスに符号化されている。 さらに,トレーニングの初期部分の摂動が学習力学と結果の表現にどのように影響するかを評価する。 神経科学文献に触発された知覚的意思決定課題と標準画像分類課題の両方にこれらの効果を示す。

We introduce a notion of usable information contained in the representation learned by a deep network, and use it to study how optimal representations for the task emerge during training. We show that the implicit regularization coming from training with Stochastic Gradient Descent with a high learning-rate and small batch size plays an important role in learning minimal sufficient representations for the task. In the process of arriving at a minimal sufficient representation, we find that the content of the representation changes dynamically during training. In particular, we find that semantically meaningful but ultimately irrelevant information is encoded in the early transient dynamics of training, before being later discarded. In addition, we evaluate how perturbing the initial part of training impacts the learning dynamics and the resulting representations. We show these effects on both perceptual decision-making tasks inspired by neuroscience literature, as well as on standard image classification tasks.
翻訳日:2022-10-10 06:11:12 公開日:2021-02-28
# ディープオートエンコーディング予測成分を用いたシーケンスデータの表現学習

Representation Learning for Sequence Data with Deep Autoencoding Predictive Components ( http://arxiv.org/abs/2010.03135v2 )

ライセンス: Link先を確認
Junwen Bai, Weiran Wang, Yingbo Zhou, Caiming Xiong(参考訳) 本稿では,シーケンスデータの有用な表現は潜在空間において単純な構造を示すべきであるという直観に基づいて,シーケンスデータに対する自己教師あり表現学習手法であるdeep autoencoding prediction components (dapc)を提案する。 我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。 コントラスト学習で一般的に用いられる相互情報下限とは対照的に、我々が採用する予測情報の推定はガウス的仮定の下で正確である。 さらに、負のサンプリングなしで計算することもできる。 強力なエンコーダによって抽出された潜伏空間の縮退を低減し、入力から有用な情報を保持するため、我々はマスクによる復元損失に挑戦して予測情報学習を規則化する。 提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。

We propose Deep Autoencoding Predictive Components (DAPC) -- a self-supervised representation learning method for sequence data, based on the intuition that useful representations of sequence data should exhibit a simple structure in the latent space. We encourage this latent structure by maximizing an estimate of predictive information of latent feature sequences, which is the mutual information between past and future windows at each time step. In contrast to the mutual information lower bound commonly used by contrastive learning, the estimate of predictive information we adopt is exact under a Gaussian assumption. Additionally, it can be computed without negative sampling. To reduce the degeneracy of the latent space extracted by powerful encoders and keep useful information from the inputs, we regularize predictive information learning with a challenging masked reconstruction loss. We demonstrate that our method recovers the latent space of noisy dynamical systems, extracts predictive features for forecasting tasks, and improves automatic speech recognition when used to pretrain the encoder on large amounts of unlabeled data.
翻訳日:2022-10-09 23:46:29 公開日:2021-02-28
# 大規模データセットを用いた音声認識用リアルタイムストリーミングトランストランスデューサの開発

Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset ( http://arxiv.org/abs/2010.11395v3 )

ライセンス: Link先を確認
Xie Chen, Yu Wu, Zhenghao Wang, Shujie Liu, Jinyu Li(参考訳) 近年,トランスフォーマーを用いたエンドツーエンドモデルは音声認識を含む多くの分野で大きな成功を収めている。 しかし、LSTMモデルと比較して、推論中のTransformerの計算コストは、その適用を防ぐための重要な問題である。 本研究では,高速かつ低レイテンシで高速なFistパスデコーディングを実現するTransformer Transducer (T-T) モデルの可能性を検討した。 我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。 ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。 さらに、ランタイムのコストとレイテンシは、比較的小さなルックアヘッドで最適化できる。

Recently, Transformer based end-to-end models have achieved great success in many areas including speech recognition. However, compared to LSTM models, the heavy computational cost of the Transformer during inference is a key issue to prevent their applications. In this work, we explored the potential of Transformer Transducer (T-T) models for the fist pass decoding with low latency and fast speed on a large-scale dataset. We combine the idea of Transformer-XL and chunk-wise streaming processing to design a streamable Transformer Transducer model. We demonstrate that T-T outperforms the hybrid model, RNN Transducer (RNN-T), and streamable Transformer attention-based encoder-decoder model in the streaming scenario. Furthermore, the runtime cost and latency can be optimized with a relatively small look-ahead.
翻訳日:2022-10-04 07:06:55 公開日:2021-02-28
# 自動数学的モデリングのための知識表現手法

A Knowledge Representation Approach to Automated Mathematical Modelling ( http://arxiv.org/abs/2011.06300v2 )

ライセンス: Link先を確認
Bahadorreza Ofoghi, Vicky Mak, John Yearwood(参考訳) 本稿では,milpモデルオントロジー(mixed-integer linear programming)とmilp定式化の新しい制約タイプ論を提案する。 MILPは、製造業、農業、防衛、医療、医療、エネルギー、金融、交通といった産業分野に最適化されたビジネスソリューションを提供する、現実のスケジューリング、ルーティング、計画、資源配分、タイムタブル最適化の問題をモデル化し、解決するための一般的な数学的プログラミング手法である。 発見、解決、そして数百万が発見、定式化されていない多くの実生活の組合せ最適化問題にもかかわらず、制約の種類(milpのビルディングブロック)は比較的少ない。 そこで本研究では,MILPモデルオントロジーに基づいて構築された最適化モデル木を,組換えビジネス最適化問題に基づいてエンドユーザーからMILPモデルを引き出すための自動システムのためのガイドとして用いることを提案する。 究極の目標は、ビジネス最適化問題のエンドユーザの自然言語記述を、自動数学的モデリングへの第一歩としてmilp形式仕様にマップ可能にする、milpのための機械可読な知識表現を開発することです。

In this paper, we propose a new mixed-integer linear programming (MILP) model ontology and a novel constraint typology of MILP formulations. MILP is a commonly used mathematical programming technique for modelling and solving real-life scheduling, routing, planning, resource allocation, and timetabling optimization problems providing optimized business solutions for industry sectors such as manufacturing, agriculture, defence, healthcare, medicine, energy, finance, and transportation. Despite the numerous real-life Combinatorial Optimization Problems found and solved and millions yet to be discovered and formulated, the number of types of constraints (the building blocks of a MILP) is relatively small. In the search for a suitable machine-readable knowledge representation structure for MILPs, we propose an optimization modelling tree built based upon an MILP model ontology that can be used as a guide for automated systems to elicit an MILP model from end-users on their combinatorial business optimization problems. Our ultimate aim is to develop a machine-readable knowledge representation for MILP that allows us to map an end-user's natural language description of the business optimization problem to an MILP formal specification as a first step towards automated mathematical modelling.
翻訳日:2022-09-26 07:06:50 公開日:2021-02-28
# 計算シミュレーションによるCOVID-19感染抑制因子の小学校効果分析 : ソーシャルディスタンシングとマスク使用の重要性

Elementary Effects Analysis of factors controlling COVID-19 infections in computational simulation reveals the importance of Social Distancing and Mask Usage ( http://arxiv.org/abs/2011.11381v3 )

ライセンス: Link先を確認
Kelvin K.F. Li, Stephen A. Jarvis, Fayyaz Minhas(参考訳) 新型コロナウイルスは2020年3月11日に世界保健機関(WHO)によってパンデミックと宣言された。 このパンデミックの影響で世界の半数がロックダウン状態となり、ウイルスの拡散や感染率、これらの要因が行動パラメータや社会的パラメータにどのように関係しているかを監視・理解することが、効果的な政策立案に不可欠だ。 本稿では,sars-cov-2の感染拡大を抑制するためのマスク,ソーシャルディスタンシング,ロックダウン,自己隔離の有効性について検討する。 エージェント・ベース・シミュレーション・モデリングにより, ロックダウンの要求は感染数を減らす最も効率的な方法であると考えられるが, ソーシャル・ディスタンシングの実践や手術用マスクの使用は, ロックダウンよりも効果的である可能性が示唆された。 モリス・プライマリ・エフェクト法によるシミュレーション結果の多変量解析により,人口の十分な割合が手術用マスクを着用し,社会的距離調整規則に従うと,sars-cov-2感染はロックダウンを必要とせずにコントロールできることが示唆された。

COVID-19 was declared a pandemic by the World Health Organization (WHO) on March 11th, 2020. With half of the world's countries in lockdown as of April due to this pandemic, monitoring and understanding the spread of the virus and infection rates and how these factors relate to behavioural and societal parameters is crucial for effective policy making. This paper aims to investigate the effectiveness of masks, social distancing, lockdown and self-isolation for reducing the spread of SARS-CoV-2 infections. Our findings based on agent-based simulation modelling show that whilst requiring a lockdown is widely believed to be the most efficient method to quickly reduce infection numbers, the practice of social distancing and the usage of surgical masks can potentially be more effective than requiring a lockdown. Our multivariate analysis of simulation results using the Morris Elementary Effects Method suggests that if a sufficient proportion of the population wore surgical masks and followed social distancing regulations, then SARS-CoV-2 infections can be controlled without requiring a lockdown.
翻訳日:2022-09-23 06:23:41 公開日:2021-02-28
# CARE:潜在概念を用いたコモンセンス対応感情応答生成

CARE: Commonsense-Aware Emotional Response Generation with Latent Concepts ( http://arxiv.org/abs/2012.08377v2 )

ライセンス: Link先を確認
Peixiang Zhong, Di Wang, Pengfei Li, Chen Zhang, Hao Wang, Chunyan Miao(参考訳) 合理性と感情は人間の2つの基本的な要素である。 合理性と感情を持ったエージェントを導くことは、AIの主要なマイルストーンの1つです。 しかし、会話型aiの分野では、既存のモデルのほとんどは一方の側面のみを専門とし、もう一方の側面を無視する。 本稿では、合理性と感情を会話エージェントに組み合わせることで、反応品質を向上させることができると仮定する。 仮説を検証するために,コモンセンスという合理性の1つの基本的な側面に注目し,コモンセンスを意識した感情応答生成のための新しいモデルであるケアを提案する。 具体的には、まず、入力メッセージと所望の感情を与えられた応答の常識的感情的潜在概念を学習し、構築する枠組みを提案する。 次に,潜在概念を応答生成に協調的に組み込む3つの手法を提案する。 2つの大規模データセットの実験結果は,我々の仮説を支持し,我々のモデルが1つの側面のみを専門とする最先端モデルよりも正確で常識に合った感情応答を生成できることを示す。

Rationality and emotion are two fundamental elements of humans. Endowing agents with rationality and emotion has been one of the major milestones in AI. However, in the field of conversational AI, most existing models only specialize in one aspect and neglect the other, which often leads to dull or unrelated responses. In this paper, we hypothesize that combining rationality and emotion into conversational agents can improve response quality. To test the hypothesis, we focus on one fundamental aspect of rationality, i.e., commonsense, and propose CARE, a novel model for commonsense-aware emotional response generation. Specifically, we first propose a framework to learn and construct commonsense-aware emotional latent concepts of the response given an input message and a desired emotion. We then propose three methods to collaboratively incorporate the latent concepts into response generation. Experimental results on two large-scale datasets support our hypothesis and show that our model can produce more accurate and commonsense-aware emotional responses and achieve better human ratings than state-of-the-art models that only specialize in one aspect.
翻訳日:2021-05-07 05:39:26 公開日:2021-02-28
# キーワード誘導型ニューラル会話モデル

Keyword-Guided Neural Conversational Model ( http://arxiv.org/abs/2012.08383v3 )

ライセンス: Link先を確認
Peixiang Zhong, Yong Liu, Hao Wang, Chunyan Miao(参考訳) 本研究では,オープンドメインの会話エージェントに対して対話目標/キーワードを付与する問題について検討し,対話を目標キーワードに円滑かつ迅速に導くためにエージェントが要求される場合について検討する。 この問題を解決することで、例えばレコメンデーションや心理療法など、多くの現実世界のシナリオにおける会話エージェントの応用が可能になる。 この問題に対処する主要なパラダイムは、1)次のターンキーワード分類器を訓練し、2)キーワード拡張応答検索モデルを訓練することである。 しかし、このパラダイムにおける既存のアプローチには、2つの制限がある: 1)次のターンキーワード分類のトレーニングと評価データセットは、人間のアノテーションのない会話から直接抽出されるので、ノイズが少なく、人間の判断と相関が小さい、2) キーワード遷移の間、エージェントは、ターゲットキーワードに近づくために、単語埋め込み間の類似性のみに頼っている。 本稿では、人間の会話がコモンセンスに基づいていると仮定し、キーワード遷移と応答検索の両方に外部コモンセンス知識グラフ(CKG)を活用できるキーワード誘導型ニューラルネットワークモデルを提案する。 自動評価では、コモンセンスは、next-turnキーワード予測とキーワード拡張応答検索の両方の性能を改善することが示唆されている。 さらに,自己評価と人的評価の両面から,我々のモデルは,よりスムーズなキーワード遷移による応答を生成し,競合するベースラインよりも高速にターゲットキーワードに到達することを示す。

We study the problem of imposing conversational goals/keywords on open-domain conversational agents, where the agent is required to lead the conversation to a target keyword smoothly and fast. Solving this problem enables the application of conversational agents in many real-world scenarios, e.g., recommendation and psychotherapy. The dominant paradigm for tackling this problem is to 1) train a next-turn keyword classifier, and 2) train a keyword-augmented response retrieval model. However, existing approaches in this paradigm have two limitations: 1) the training and evaluation datasets for next-turn keyword classification are directly extracted from conversations without human annotations, thus, they are noisy and have low correlation with human judgements, and 2) during keyword transition, the agents solely rely on the similarities between word embeddings to move closer to the target keyword, which may not reflect how humans converse. In this paper, we assume that human conversations are grounded on commonsense and propose a keyword-guided neural conversational model that can leverage external commonsense knowledge graphs (CKG) for both keyword transition and response retrieval. Automatic evaluations suggest that commonsense improves the performance of both next-turn keyword prediction and keyword-augmented response retrieval. In addition, both self-play and human evaluations show that our model produces responses with smoother keyword transition and reaches the target keyword faster than competitive baselines.
翻訳日:2021-05-07 05:39:09 公開日:2021-02-28
# (参考訳) モロッコ語 -Darija- Open Dataset

Moroccan Dialect -Darija- Open Dataset ( http://arxiv.org/abs/2103.09687v1 )

ライセンス: CC BY 4.0
Aissam Outchakoucht, Hamza Es-Samaali(参考訳) Darija Open Dataset (DODa) はモロッコ方言のオープンソースプロジェクトである。 1万以上のエントリを持つDODaは、自然言語処理のために作られたDarija- English翻訳のための、おそらく最大のオープンソース共同プロジェクトである。 実際、dodaは意味論的分類の他に、異なる綴りで単語を提示し、動詞と名詞、男性と女性間の対応を提供し、異なるテンスで数百の動詞の結合を含み、研究者がモロッコ方言をよりよく理解し、研究するための多くのサブセットを含んでいる。 本稿では,Darija に翻訳された ImageNet ラベルを用いた画像分類において,DODa の特徴,その収集方法,および最初のアプリケーションについて述べる。 この共同プロジェクトはMITのオープンソースライセンスの下でGitHubプラットフォーム上でホストされており、研究者、学生、モロッコ方言に興味のある人のための標準リソースになることを目指している。

Darija Open Dataset (DODa) is an open-source project for the Moroccan dialect. With more than 10,000 entries DODa is arguably the largest open-source collaborative project for Darija-English translation built for Natural Language Processing purposes. In fact, besides semantic categorization, DODa also adopts a syntactic one, presents words under different spellings, offers verb-to-noun and masculine-to-feminine correspondences, contains the conjugation of hundreds of verbs in different tenses, and many other subsets to help researchers better understand and study Moroccan dialect. This data paper presents a description of DODa, its features, how it was collected, as well as a first application in Image Classification using ImageNet labels translated to Darija. This collaborative project is hosted on GitHub platform under MIT's Open-Source license and aims to be a standard resource for researchers, students, and anyone who is interested in Moroccan Dialect
翻訳日:2021-04-05 07:46:42 公開日:2021-02-28
# スマートフォンとスマートウォッチセンサデータを用いた深層学習モデルを用いた人間の活動認識

Human Activity Recognition using Deep Learning Models on Smartphones and Smartwatches Sensor Data ( http://arxiv.org/abs/2103.03836v1 )

ライセンス: Link先を確認
Bolu Oluwalade, Sunil Neela, Judy Wawira, Tobiloba Adejumo, Saptarshi Purkayastha(参考訳) 近年、スマートフォンやスマートウォッチなどの製品に加速度計やジャイロスコープなどのセンサーが広く配備されているため、産業研究と学術研究の両方で人間の活動認識が注目されている。 活動認識は現在、個人の機能的能力と生活様式に関する貴重な情報を必要とする様々な分野に適用されている。 本研究では,WISDMデータセットを用いて活動認識を行った。 共分散の多変量解析 (MANCOVA) を用いて, スマートフォンとスマートウォッチに埋め込まれたセンサから生成されたデータと, 統計的に有意な差(p<0.05)を確立した。 これによって、スマートフォンやスマートウォッチは、着ている場所によって、同じ方法でデータをキャプチャできないことが分かります。 15の異なる手と非手動のアクティビティを分類するために、いくつかのニューラルネットワークアーキテクチャをデプロイしました。 これらのモデルには、Long short-term memory (LSTM)、Bi-directional Long short-term memory (BiLSTM)、Convolutional Neural Network (CNN)、Convolutional LSTM (ConvLSTM)が含まれる。 開発したモデルは、時計加速度計のデータで最高の性能を示した。 また,畳み込み入力分類器 (cnn, convlstm) で得られた分類精度は, 15のアクティビティのうち, エンド・ツー・エンドのlstm分類器よりも高かった。 さらに、時計加速度計のCNNモデルは、手動のアクティビティと比較して、手動のアクティビティを分類しやすくなった。

In recent years, human activity recognition has garnered considerable attention both in industrial and academic research because of the wide deployment of sensors, such as accelerometers and gyroscopes, in products such as smartphones and smartwatches. Activity recognition is currently applied in various fields where valuable information about an individual's functional ability and lifestyle is needed. In this study, we used the popular WISDM dataset for activity recognition. Using multivariate analysis of covariance (MANCOVA), we established a statistically significant difference (p<0.05) between the data generated from the sensors embedded in smartphones and smartwatches. By doing this, we show that smartphones and smartwatches don't capture data in the same way due to the location where they are worn. We deployed several neural network architectures to classify 15 different hand and non-hand-oriented activities. These models include Long short-term memory (LSTM), Bi-directional Long short-term memory (BiLSTM), Convolutional Neural Network (CNN), and Convolutional LSTM (ConvLSTM). The developed models performed best with watch accelerometer data. Also, we saw that the classification precision obtained with the convolutional input classifiers (CNN and ConvLSTM) was higher than the end-to-end LSTM classifier in 12 of the 15 activities. Additionally, the CNN model for the watch accelerometer was better able to classify non-hand oriented activities when compared to hand-oriented activities.
翻訳日:2021-04-05 00:52:52 公開日:2021-02-28
# 貯留層計算による予測:一般化同期の役割

Forecasting Using Reservoir Computing: The Role of Generalized Synchronization ( http://arxiv.org/abs/2102.08930v2 )

ライセンス: Link先を確認
Jason A. Platt, Adrian Wong, Randall Clark, Stephen G. Penny, and Henry D. I. Abarbanel(参考訳) 貯留層コンピュータ(Reservoir computer、RC)は、時系列データの予測に使用されるリカレントニューラルネットワーク(RNN)の一種である。 すべてのRNNと同様に、ハイパーパラメータを選択することは、新しい入力をトレーニングする際の課題である。 本稿では,一般化同期(GS)に基づくRCのアーキテクチャとハイパーパラメータの設計と評価の方向性を示す手法を提案する。 GSを検出するための「補助的方法」は、ハイパーパラメータの選択をガイドする事前トレーニングテストを提供する。 さらに、入力システムのリアプノフ指数の再現を用いた「よく訓練された」RCの計量を提供する。

Reservoir computers (RC) are a form of recurrent neural network (RNN) used for forecasting time series data. As with all RNNs, selecting the hyperparameters presents a challenge when training on new inputs. We present a method based on generalized synchronization (GS) that gives direction in designing and evaluating the architecture and hyperparameters of a RC. The 'auxiliary method' for detecting GS provides a pre-training test that guides hyperparameter selection. Furthermore, we provide a metric for a "well trained" RC using the reproduction of the input system's Lyapunov exponents.
翻訳日:2021-04-05 00:30:32 公開日:2021-02-28
# GP:text-to-SQLパーサのための文脈自由文法事前学習

GP: Context-free Grammar Pre-training for Text-to-SQL Parsers ( http://arxiv.org/abs/2101.09901v2 )

ライセンス: Link先を確認
Liang Zhao, Hexin Cao, Yunsong Zhao(参考訳) 質問とデータベースの深い関係を解読するための新しいテキスト-SQL解析手法であるGrammar Pre-training(GP)を提案する。 まず、データベースの情報をよりよく活用するために、列として認識される質問語の後ろにランダム値を追加し、新しい文がモデル入力として機能する。 次に、デコーダ部に対するベクトルの初期化を前者符号化を参照して最適化し、質問情報を関連付ける。 最後に、フラッディングレベルと呼ばれる新しいアプローチを採用し、より良い結果を一般化できる非ゼロのトレーニング損失を得る。 文をGRAPPAとRAT-SQLモデルでエンコードすることで、クロスDB Text-to-SQLデータセット(72.8 dev, 69.8 test)であるクモのパフォーマンスを向上する。 実験により,本手法は訓練中に収束しやすく,堅牢性に優れることがわかった。

A new method for Text-to-SQL parsing, Grammar Pre-training (GP), is proposed to decode deep relations between question and database. Firstly, to better utilize the information of databases, a random value is added behind a question word which is recognized as a column, and the new sentence serves as the model input. Secondly, initialization of vectors for decoder part is optimized, with reference to the former encoding so that question information can be concerned. Finally, a new approach called flooding level is adopted to get the non-zero training loss which can generalize better results. By encoding the sentence with GRAPPA and RAT-SQL model, we achieve better performance on spider, a cross-DB Text-to-SQL dataset (72.8 dev, 69.8 test). Experiments show that our method is easier to converge during training and has excellent robustness.
翻訳日:2021-03-14 19:11:53 公開日:2021-02-28
# (参考訳) 対人情報ボトルネック

Adversarial Information Bottleneck ( http://arxiv.org/abs/2103.00381v1 )

ライセンス: CC BY 4.0
Pemhlong Zhai and Shihua Zhang(参考訳) 情報ボトルネック(IB)の原則は、トレードオフハイパーパラメータによってバランスのとれた情報圧縮と予測の観点でディープラーニングを説明するために採用されています。 IBの原理を最適化してロバスト性を向上し、トレードオフハイパーパラメータによる圧縮の効果を明らかにする方法は2つの課題である。 従来の手法では、表現の学習にランダムノイズを導入し、ニュアンス情報圧縮と意味情報抽出における最先端性能を実現し、ISBの原理を最適化しようとした。 しかし、逆境の摂動に抵抗する彼らのパフォーマンスは、それほど印象的ではない。 この目的のために,Min-Max最適化問題を解くことで効率よく最適化できる,表現の基盤分布に関する明確な仮定を伴わない逆情報ボトルネック(AIB)手法を提案する。 合成および実世界のデータセットに関する数値実験は、複数の競合するIB法と比較して、より不変な表現を学習し、敵対的な摂動を緩和する効果を示す。 さらに,IB曲線と対比する多様なIB手法の対角的ロバスト性を解析し,IB曲線の膝点に対応するハイパーパラメータ$\beta$のIBモデルが,圧縮と予測の最良のトレードオフを達成し,様々な攻撃に対して最良のロバスト性を有することを示す。

The information bottleneck (IB) principle has been adopted to explain deep learning in terms of information compression and prediction, which are balanced by a trade-off hyperparameter. How to optimize the IB principle for better robustness and figure out the effects of compression through the trade-off hyperparameter are two challenging problems. Previous methods attempted to optimize the IB principle by introducing random noise into learning the representation and achieved state-of-the-art performance in the nuisance information compression and semantic information extraction. However, their performance on resisting adversarial perturbations is far less impressive. To this end, we propose an adversarial information bottleneck (AIB) method without any explicit assumptions about the underlying distribution of the representations, which can be optimized effectively by solving a Min-Max optimization problem. Numerical experiments on synthetic and real-world datasets demonstrate its effectiveness on learning more invariant representations and mitigating adversarial perturbations compared to several competing IB methods. In addition, we analyse the adversarial robustness of diverse IB methods contrasting with their IB curves, and reveal that IB models with the hyperparameter $\beta$ corresponding to the knee point in the IB curve achieve the best trade-off between compression and prediction, and has best robustness against various attacks.
翻訳日:2021-03-05 23:22:10 公開日:2021-02-28
# (参考訳) 非可逆性能測定のためのミニマックス確率機械

A Minimax Probability Machine for Non-Decomposable Performance Measures ( http://arxiv.org/abs/2103.00396v1 )

ライセンス: CC BY 4.0
Junru Luo, Hong Qiao and Bo Zhang(参考訳) 不均衡な分類タスクは多くの現実世界のアプリケーションで広く使われている。 このような分類タスクでは、精度と比べ、レシーバ動作特性曲線(AUC)のエリアやラベルクラスが不均衡であるため、$F_\beta$測定などの非分解不能な性能測定を分類基準として使うのが適当である。 一方,ミニマックス確率機械は二項分類問題に対する一般的な手法であり,精度を最大化して線形分類器の学習を目的としており,不均衡な分類タスクに対処するには不適当である。 本論文の目的は, 分類の不均衡な処理に用いることができるMPMFと呼ばれる$F_\beta$測度のための新しいミニマックス確率機械を開発することである。 また、MPMFモデルをいくつかの非分解性性能指標に拡張する方法についても簡単な議論がなされている。 mpmfモデルを効果的に解くために、交互降下法で解くことのできる等価な形式を導出して線形分類器を学習する。 さらに、カーネルトリックを用いて非線形MPMFモデルを導出し、非線形分類器を学習する。 実世界のベンチマークデータセットに関するいくつかの実験は、新しいモデルの有効性を示しています。

Imbalanced classification tasks are widespread in many real-world applications. For such classification tasks, in comparison with the accuracy rate, it is usually much more appropriate to use non-decomposable performance measures such as the Area Under the receiver operating characteristic Curve (AUC) and the $F_\beta$ measure as the classification criterion since the label class is imbalanced. On the other hand, the minimax probability machine is a popular method for binary classification problems and aims at learning a linear classifier by maximizing the accuracy rate, which makes it unsuitable to deal with imbalanced classification tasks. The purpose of this paper is to develop a new minimax probability machine for the $F_\beta$ measure, called MPMF, which can be used to deal with imbalanced classification tasks. A brief discussion is also given on how to extend the MPMF model for several other non-decomposable performance measures listed in the paper. To solve the MPMF model effectively, we derive its equivalent form which can then be solved by an alternating descent method to learn a linear classifier. Further, the kernel trick is employed to derive a nonlinear MPMF model to learn a nonlinear classifier. Several experiments on real-world benchmark datasets demonstrate the effectiveness of our new model.
翻訳日:2021-03-05 22:58:39 公開日:2021-02-28
# (参考訳) アクティブラーニングのためのフィードバックコーディング

Feedback Coding for Active Learning ( http://arxiv.org/abs/2103.00654v1 )

ライセンス: CC BY 4.0
Gregory Canal, Matthieu Bloch, Christopher Rozell(参考訳) アクティブ機械学習におけるラベル付けの例の反復的な選択は、情報理論におけるフィードバックチャネル符号化と概念的に類似している。 このハイレベルな重複は以前にも指摘されているが、既存の分析とアルゴリズムをフィードバックコーディングに活用するために、コミュニケーションシステムとしてアクティブラーニングを最適に定式化する方法についての疑問が残されている。 本研究では,エンコーダとノイズチャネル成分のキャラクタリゼーションを含む2つの問題間の構造的共通性を形式的に同定・活用し,新しいアルゴリズムを考案する。 具体的には、アクティブサンプル選択のタスクに対して、最適なトランスポートベースのフィードバックコーディングスキームであるApproximate Posterior Matching(APM)を開発し、アクティブラーニングで人気のモデルであるBayesian Logistic Regressionへの適用を検討する。 各種データセット上でAPMを評価し,既存のアクティブラーニング手法に匹敵する学習性能を計算コストの削減で実証した。 これらの結果は、フィードバックチャネルコーディングから効率的なアクティブラーニング戦略の設計まで、概念を直接デプロイする可能性を示しています。

The iterative selection of examples for labeling in active machine learning is conceptually similar to feedback channel coding in information theory: in both tasks, the objective is to seek a minimal sequence of actions to encode information in the presence of noise. While this high-level overlap has been previously noted, there remain open questions on how to best formulate active learning as a communications system to leverage existing analysis and algorithms in feedback coding. In this work, we formally identify and leverage the structural commonalities between the two problems, including the characterization of encoder and noisy channel components, to design a new algorithm. Specifically, we develop an optimal transport-based feedback coding scheme called Approximate Posterior Matching (APM) for the task of active example selection and explore its application to Bayesian logistic regression, a popular model in active learning. We evaluate APM on a variety of datasets and demonstrate learning performance comparable to existing active learning methods, at a reduced computational cost. These results demonstrate the potential of directly deploying concepts from feedback channel coding to design efficient active learning strategies.
翻訳日:2021-03-05 22:31:42 公開日:2021-02-28
# 大規模データのサブバッギング推定について

On the Subbagging Estimation for Massive Data ( http://arxiv.org/abs/2103.00631v1 )

ライセンス: Link先を確認
Tao Zou, Xian Li, Xuan Liang, Hansheng Wang(参考訳) 本稿では,コンピュータのメモリ制約を伴うビッグデータ解析のためのサブバッキング(サブサンプル集約)推定手法を紹介する。 具体的には、サイズが$N$のデータセット全体に対して、$m_N$サブサンプルをランダムに描画し、メモリ制約を満たすためにサブサンプルサイズ$k_N\ll N$のサブサンプルを、置き換えることなく一様にサンプリングする。 m_N$サブサンプルの見積もりを集約すると、サブバグ推定につながります。 サブバッグング推定器の理論的特性を解析するために、無限次カーネルで不完全$U$-statistics理論を適用し、サンプリング手順において重なり合うサブサンプルを許容する。 この新しい理論的な枠組みを用いて,$k_n$ と $m_n$ の適切なハイパーパラメータ選択により,サブバッキング推定器が $(k_nm_n)/n\to \alpha \in (0,\infty]$ 条件下で $\sqrt{n}$-consistency と漸近正規性を達成することを実証する。 完全なサンプル推定器と比較すると、理論的には$\sqrt{n}$- consistent subbagging 推定器は漸近的分散において1/\alpha$のインフレーション率を持つ。 有限サンプル性能を示すためにシミュレーション実験を行った。 アメリカン航空のデータセットを分析して、サブバッキング推定が全サンプル推定に数値的に近く、メモリ制約下では計算速度が速いことを示す。

This article introduces subbagging (subsample aggregating) estimation approaches for big data analysis with memory constraints of computers. Specifically, for the whole dataset with size $N$, $m_N$ subsamples are randomly drawn, and each subsample with a subsample size $k_N\ll N$ to meet the memory constraint is sampled uniformly without replacement. Aggregating the estimators of $m_N$ subsamples can lead to subbagging estimation. To analyze the theoretical properties of the subbagging estimator, we adapt the incomplete $U$-statistics theory with an infinite order kernel to allow overlapping drawn subsamples in the sampling procedure. Utilizing this novel theoretical framework, we demonstrate that via a proper hyperparameter selection of $k_N$ and $m_N$, the subbagging estimator can achieve $\sqrt{N}$-consistency and asymptotic normality under the condition $(k_Nm_N)/N\to \alpha \in (0,\infty]$. Compared to the full sample estimator, we theoretically show that the $\sqrt{N}$-consistent subbagging estimator has an inflation rate of $1/\alpha$ in its asymptotic variance. Simulation experiments are presented to demonstrate the finite sample performances. An American airline dataset is analyzed to illustrate that the subbagging estimate is numerically close to the full sample estimate, and can be computationally fast under the memory constraint.
翻訳日:2021-03-05 14:43:54 公開日:2021-02-28
# (参考訳) 画像から直接のフレキシブルな手術器具の姿勢回帰に対する運動的ボツネックアプローチ

A Kinematic Bottleneck Approach For Pose Regression of Flexible Surgical Instruments directly from Images ( http://arxiv.org/abs/2103.00586v1 )

ライセンス: CC BY-SA 4.0
Luca Sestini, Benoit Rosa, Elena De Momi, Giancarlo Ferrigno and Nicolas Padoy(参考訳) ロボットの最小侵襲手術における3次元姿勢推定はシーンの自動理解に欠かせない一歩である。 ロボットシステムは、ジョイントバリューを直接提供することができるが、この情報は、信頼性の低い、アクセスの制限、特に連続ロボットに必要な時間を要するキャリブレーションのため、手術室内では一般的に利用されない。 このため、3次元ポーズ推定の標準的なアプローチは、外部トラッキングシステムの使用を伴う。 近年,画像ベースの手法が有望で非侵襲的な代替手段として登場している。 文献における多くの画像ベースのアプローチは正確な結果を示しているが、一般的には、処理された各画像に対して複雑な反復的最適化を必要とするため、リアルタイムアプリケーションには適さない。 本稿では,ロボットが提供する不正確な運動情報を学習時間のみに活用し,自己教師付き画像ベース手法を提案する。 時間を要する手動アノテーションの導入を避けるために、ロボット機器と手術用カメラの物理モデルの存在によりスマートにボトルネックとなり、画像背景とキネマティックコンテンツの分離を強いるオートエンコーダとして問題を定式化する。 柔軟なロボット内視鏡を用いて, 半合成, ファントムおよびin-vivoデータセットを用いて, 手術器具のリアルタイム画像に基づく3次元ポーズ推定に有望な結果を得た。

3-D pose estimation of instruments is a crucial step towards automatic scene understanding in robotic minimally invasive surgery. Although robotic systems can potentially directly provide joint values, this information is not commonly exploited inside the operating room, due to its possible unreliability, limited access and the time-consuming calibration required, especially for continuum robots. For this reason, standard approaches for 3-D pose estimation involve the use of external tracking systems. Recently, image-based methods have emerged as promising, non-invasive alternatives. While many image-based approaches in the literature have shown accurate results, they generally require either a complex iterative optimization for each processed image, making them unsuitable for real-time applications, or a large number of manually-annotated images for efficient learning. In this paper we propose a self-supervised image-based method, exploiting, at training time only, the imprecise kinematic information provided by the robot. In order to avoid introducing time-consuming manual annotations, the problem is formulated as an auto-encoder, smartly bottlenecked by the presence of a physical model of the robotic instruments and surgical camera, forcing a separation between image background and kinematic content. Validation of the method was performed on semi-synthetic, phantom and in-vivo datasets, obtained using a flexible robotized endoscope, showing promising results for real-time image-based 3-D pose estimation of surgical instruments.
翻訳日:2021-03-05 13:24:06 公開日:2021-02-28
# (参考訳) ディープニューラルネットワークを使ったトピックモデリング:サーベイ

Topic Modelling Meets Deep Neural Networks: A Survey ( http://arxiv.org/abs/2103.00498v1 )

ライセンス: CC BY 4.0
He Zhao, Dinh Phung, Viet Huynh, Yuan Jin, Lan Du, Wray Buntine(参考訳) トピックモデリングは、ほぼ20年間、テキスト分析に成功した技術です。 トピックモデリングがディープニューラルネットワークと出会うと、100以上のモデルが開発され、テキスト生成、要約、言語モデルといったニューラルネットワーク理解の幅広い応用が、新たな研究領域であるニューラルトピックモデル(neural topic model)が出現した。 研究の展開を要約し、オープンな問題や今後の方向性について議論する必要がある。 本稿では,AIコミュニティの興味ある研究者を対象に,この急成長する研究領域のナビゲートと革新を促進するために,ニューラルネットワークモデルの概要について概説する。 私たちの知る限りでは、この特定のトピックに焦点を当てた最初のレビューです。

Topic modelling has been a successful technique for text analysis for almost twenty years. When topic modelling met deep neural networks, there emerged a new and increasingly popular research area, neural topic models, with over a hundred models developed and a wide range of applications in neural language understanding such as text generation, summarisation and language models. There is a need to summarise research developments and discuss open problems and future directions. In this paper, we provide a focused yet comprehensive overview of neural topic models for interested researchers in the AI community, so as to facilitate them to navigate and innovate in this fast-growing research area. To the best of our knowledge, ours is the first review focusing on this specific topic.
翻訳日:2021-03-05 11:34:38 公開日:2021-02-28
# (参考訳) 会話型ユーモア分析とデザインに向けて

Towards Conversational Humor Analysis and Design ( http://arxiv.org/abs/2103.00536v1 )

ライセンス: CC BY 4.0
Tanishq Chaudhary, Mayank Goel, Radhika Mamidi(参考訳) よく定義されたジョークはセットアップとパンチラインに分けられる。 現在ユーモアに関する作業の多くはジョーク全般について語られているが、セットアップにパンチラインを生成するというアイデアは、会話のユーモアに応用されている。 そこで本稿では,インコンギュラリティ理論に基づく,特定の設定によるパンチラインの分類と生成の2つの基本概念について述べる。 まず,ユーモアを分類する機能ベースの機械学習モデルを実装した。 ユーモア生成には、ニューラルモデルを使用し、古典的なルールベースのアプローチとニューラルアプローチをマージしてハイブリッドモデルを作成します。 他のタスクから得られた洞察とセットアップ-プッシュラインモデルを組み合わせて、既存のテキスト生成アプローチに適用する。 次に、我々のモデルを人間の記述したジョークと人間の評価者の助けを借りて、二重盲検研究で使用し比較する。

Well-defined jokes can be divided neatly into a setup and a punchline. While most works on humor today talk about a joke as a whole, the idea of generating punchlines to a setup has applications in conversational humor, where funny remarks usually occur with a non-funny context. Thus, this paper is based around two core concepts: Classification and the Generation of a punchline from a particular setup based on the Incongruity Theory. We first implement a feature-based machine learning model to classify humor. For humor generation, we use a neural model, and then merge the classical rule-based approaches with the neural approach to create a hybrid model. The idea behind being: combining insights gained from other tasks with the setup-punchline model and thus applying it to existing text generation approaches. We then use and compare our model with human written jokes with the help of human evaluators in a double-blind study.
翻訳日:2021-03-05 11:20:31 公開日:2021-02-28
# (参考訳) タスクと運動計画のための記号演算子の学習

Learning Symbolic Operators for Task and Motion Planning ( http://arxiv.org/abs/2103.00589v1 )

ライセンス: CC BY 4.0
Tom Silver, Rohan Chitnis, Joshua Tenenbaum, Leslie Pack Kaelbling, Tomas Lozano-Perez(参考訳) ハイブリッド状態とアクション空間におけるロボット計画問題は、動きレベルの決定とタスクレベルの計画実現性の複雑な相互作用を処理する統合タスクおよびモーションプランナー(TAMP)によって解決される。 TAMPアプローチは、タスクレベルの検索を導くためにドメイン固有のシンボリック演算子に依存し、計画を効率的にします。 本研究では,tampにおけるオペレーター学習の問題を定式化し,検討する。 この研究の中心は、オペレーターが基礎となるドメインの遷移モデルの損失のある抽象化を定義するという考え方である。 次に,演算子学習のためのボトムアップ・リレーショナル学習法を提案し,TAMPシステムにおける学習子の利用方法を示す。 実験では、ロボットの長期計画タスクを含む3つの領域で結果を提供する。 最近の研究に基づく3つのグラフニューラルネットワークベースのモデルフリーアプローチを含む、いくつかのベースラインを大幅に上回るアプローチを見つけました。 ビデオ: https://youtu.be/iVfpX9BpBRo

Robotic planning problems in hybrid state and action spaces can be solved by integrated task and motion planners (TAMP) that handle the complex interaction between motion-level decisions and task-level plan feasibility. TAMP approaches rely on domain-specific symbolic operators to guide the task-level search, making planning efficient. In this work, we formalize and study the problem of operator learning for TAMP. Central to this study is the view that operators define a lossy abstraction of the transition model of the underlying domain. We then propose a bottom-up relational learning method for operator learning and show how the learned operators can be used for planning in a TAMP system. Experimentally, we provide results in three domains, including long-horizon robotic planning tasks. We find our approach to substantially outperform several baselines, including three graph neural network-based model-free approaches based on recent work. Video: https://youtu.be/iVfpX9BpBRo
翻訳日:2021-03-05 10:23:09 公開日:2021-02-28
# (参考訳) 過度パラメータ化類似モデルの漸近リスク:深部ニューラルネットワークの二重発振理論

Asymptotic Risk of Overparameterized Likelihood Models: Double Descent Theory for Deep Neural Networks ( http://arxiv.org/abs/2103.00500v1 )

ライセンス: CC BY 4.0
Ryumei Nakada, Masaaki Imaizumi(参考訳) 深層モデルを含む、オーバーパラメータ化可能性モデルの一般クラスの無症状リスクを調査する。 大規模なモデルの最近の実証的な成功は、サンプルの数、$n$とパラメータ、$p$の両方が無限に分散し、限界での無症状リスクを導出するシナリオを調査するためにいくつかの理論的研究を動機づけた。 しかし、これらの定理は一般化線形回帰、カーネル回帰、浅層ニューラルネットワークといった特徴量モデルに対してのみ有効である。 したがって、3つ以上の層を持つディープニューラルネットワークを含むより広範な非線形モデルの研究は困難である。 本研究では,モデル制約を伴わない確率最大化問題を検討し,ペナリゼーションを伴う推定者の漸近リスクの上限を解析する。 技術的には、フィッシャー情報マトリックスのプロパティと拡張マルシェンコ・パストゥル法を結合し、経験的なプロセス技術との組み合わせを関連付けます。 導出境界は、ペナリゼーションに依存する二重降下曲線と正規化リスク曲線の両方を記述するため、一般に一般化される。 この結果はモデル上の線形-機能制約なしで有効であり、フィッシャー情報行列の一般的なスペクトル分布を導出することができる。 並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。 この結果は、大きなモデルや深いモデルでさえ、可視性のような特定の構造を示す場合の漸近リスクが小さいことを示している。 この発見を検証するために,並列深層ニューラルネットワークを用いた実データ実験を行った。 その結果,漸近的リスク分析の適用性が拡大し,深層学習の理解と応用に寄与する可能性がある。

We investigate the asymptotic risk of a general class of overparameterized likelihood models, including deep models. The recent empirical success of large-scale models has motivated several theoretical studies to investigate a scenario wherein both the number of samples, $n$, and parameters, $p$, diverge to infinity and derive an asymptotic risk at the limit. However, these theorems are only valid for linear-in-feature models, such as generalized linear regression, kernel regression, and shallow neural networks. Hence, it is difficult to investigate a wider class of nonlinear models, including deep neural networks with three or more layers. In this study, we consider a likelihood maximization problem without the model constraints and analyze the upper bound of an asymptotic risk of an estimator with penalization. Technically, we combine a property of the Fisher information matrix with an extended Marchenko-Pastur law and associate the combination with empirical process techniques. The derived bound is general, as it describes both the double descent and the regularized risk curves, depending on the penalization. Our results are valid without the linear-in-feature constraints on models and allow us to derive the general spectral distributions of a Fisher information matrix from the likelihood. We demonstrate that several explicit models, such as parallel deep neural networks and ensemble learning, are in agreement with our theory. This result indicates that even large and deep models have a small asymptotic risk if they exhibit a specific structure, such as divisibility. To verify this finding, we conduct a real-data experiment with parallel deep neural networks. Our results expand the applicability of the asymptotic risk analysis, and may also contribute to the understanding and application of deep learning.
翻訳日:2021-03-05 09:28:32 公開日:2021-02-28
# (参考訳) 視覚検索のためのモデル予測可能性

Model-Agnostic Explainability for Visual Search ( http://arxiv.org/abs/2103.00370v1 )

ライセンス: CC BY 4.0
Mark Hamilton, Scott Lundberg, Lei Zhang, Stephanie Fu, William T. Freeman(参考訳) 2つの画像が似ている理由? 画像の類似性、検索、検索のためのモデルに依存しない説明を生成する新しいアプローチを提案します。 特に、クラスアクティベーションマップ(CAM)、付加シェープ説明(SHAP)、局所的に解釈可能なモデル認識説明(LIME)を画像検索と検索の領域に拡張します。 これらのアプローチは、ブラックおよびグレーボックスモデルのイントロスペクションを可能にし、エラーを診断し、モデルの類似性判断の背後にある根拠を理解するのに役立ちます。 さらに、これらのアプローチを拡張して、クエリと検索された画像ピクセルの間の完全なペアワイズ対応を抽出します。 形式的には、Harsanyi配当の予測から生じる共同検索の解釈を示し、このアプローチはShapley ValuesとThe Shapley-Taylorインデックスを一般化する。 そこで本研究では,shapley-taylorの指標を高速カーネル法で推定し,これらのゲーム理論的な指標が画像類似性アーキテクチャのより一貫性のある説明をもたらすことを示す。

What makes two images similar? We propose new approaches to generate model-agnostic explanations for image similarity, search, and retrieval. In particular, we extend Class Activation Maps (CAMs), Additive Shapley Explanations (SHAP), and Locally Interpretable Model-Agnostic Explanations (LIME) to the domain of image retrieval and search. These approaches enable black and grey-box model introspection and can help diagnose errors and understand the rationale behind a model's similarity judgments. Furthermore, we extend these approaches to extract a full pairwise correspondence between the query and retrieved image pixels, an approach we call "joint interpretations". Formally, we show joint search interpretations arise from projecting Harsanyi dividends, and that this approach generalizes Shapley Values and The Shapley-Taylor indices. We introduce a fast kernel-based method for estimating Shapley-Taylor indices and empirically show that these game-theoretic measures yield more consistent explanations for image similarity architectures.
翻訳日:2021-03-05 07:05:18 公開日:2021-02-28
# (参考訳) OpenICS: Open Image Compressive Sensing ToolboxとBenchmark

OpenICS: Open Image Compressive Sensing Toolbox and Benchmark ( http://arxiv.org/abs/2103.00652v1 )

ライセンス: CC BY 4.0
Jonathan Zhao, Matthew Westerham, Mark Lakatos-Toth, Zhikang Zhang, Avi Moskoff, Fengbo Ren(参考訳) 我々は過去10年間に提案された複数の画像圧縮センシングと再構成アルゴリズムを含む画像圧縮センシングツールボックスOpenICSを提案する。 提案アルゴリズムの実装と評価における標準化の欠如のために、現実世界での画像圧縮センシングの適用は限定的である。 このツールボックスは、複数の画像圧縮センシングアルゴリズムの統一的で標準化された実装を提供する最初のフレームワークであると考えています。 また,本フレームワークに含まれる手法について,復元精度と復元効率という2つの側面からベンチマーク研究を行った。 このツールボックスとベンチマークが、拡大する圧縮センシング研究コミュニティと、新しい問題に画像圧縮センシングを適用する業界に役立ち、新しい手法をより効率的に開発できることを願っています。 コードとモデルはhttps://github.com/PSCLab-ASU/OpenICSで入手できる。 プロジェクトはまだメンテナンス中であり、このドキュメントは更新されます。

We present OpenICS, an image compressive sensing toolbox that includes multiple image compressive sensing and reconstruction algorithms proposed in the past decade. Due to the lack of standardization in the implementation and evaluation of the proposed algorithms, the application of image compressive sensing in the real-world is limited. We believe this toolbox is the first framework that provides a unified and standardized implementation of multiple image compressive sensing algorithms. In addition, we also conduct a benchmarking study on the methods included in this framework from two aspects: reconstruction accuracy and reconstruction efficiency. We wish this toolbox and benchmark can serve the growing research community of compressive sensing and the industry applying image compressive sensing to new problems as well as developing new methods more efficiently. Code and models are available at https://github.com/PSCLab-ASU/OpenICS. The project is still under maintenance, and we will keep this document updated.
翻訳日:2021-03-05 06:50:22 公開日:2021-02-28
# (参考訳) アクションとは何か: 確率的動的車両ルーティング問題に対する強化学習を機能させよう!

Where the Action is: Let's make Reinforcement Learning for Stochastic Dynamic Vehicle Routing Problems work! ( http://arxiv.org/abs/2103.00507v1 )

ライセンス: CC BY 4.0
Florentin D Hildebrandt, Barrett Thomas, Marlin W Ulmer(参考訳) 近年、都市物流サービスにはパラダイムシフトがあり、リアルタイム、インスタントモビリティ、デリバリーサービスの需要が増加しています。 これはロジスティックサービスプロバイダにとって、基礎となる確率動的車両ルーティング問題(SDVRP)が予測されたリアルタイムルーティングアクションを必要とするため、新たな課題となる。 効率的なルーティングアクションのための組合せアクション空間の探索自体は、オペレーション研究コミュニティでよく知られた混合整数プログラミング(mip)の複雑なタスクである。 この複雑さは、未来のダイナミズムと不確実性を考えると、そのような行動の有効性を評価するという課題によって乗じられ、コンピュータサイエンスコミュニティでよく知られた強化学習(rl)の理想的なケースである。 SDVRPの解決には、両コミュニティの共同作業が必要であるが、私たちが示すように、基本的には存在しない。 双方のコミュニティは個々の強みに集中し、改善の可能性を残します。 本研究は,両コミュニティを起源とする研究の可能性を強調する。 SDVRPの現在の障害を指摘し、それらを克服するための共同アプローチを導きます。

There has been a paradigm-shift in urban logistic services in the last years; demand for real-time, instant mobility and delivery services grows. This poses new challenges to logistic service providers as the underlying stochastic dynamic vehicle routing problems (SDVRPs) require anticipatory real-time routing actions. Searching the combinatorial action space for efficient routing actions is by itself a complex task of mixed-integer programming (MIP) well-known by the operations research community. This complexity is now multiplied by the challenge of evaluating such actions with respect to their effectiveness given future dynamism and uncertainty, a potentially ideal case for reinforcement learning (RL) well-known by the computer science community. For solving SDVRPs, joint work of both communities is needed, but as we show, essentially non-existing. Both communities focus on their individual strengths leaving potential for improvement. Our survey paper highlights this potential in research originating from both communities. We point out current obstacles in SDVRPs and guide towards joint approaches to overcome them.
翻訳日:2021-03-05 01:37:08 公開日:2021-02-28
# (参考訳) 成功を想像した視覚ナビゲーションの学習

Learning for Visual Navigation by Imagining the Success ( http://arxiv.org/abs/2103.00446v1 )

ライセンス: CC BY 4.0
Mahdi Kazemi Moghaddam, Ehsan Abbasnejad, Qi Wu, Javen Shi and Anton Van Den Hengel(参考訳) 視覚ナビゲーションはしばしば強化学習(RL)問題として扱われる。 現在の方法は通常、一般的な障害回避と探索行動を学ぶ準最適ポリシーとなる。 例えば、ターゲットオブジェクトナビゲーション設定では、従来の方法によって学習されたポリシーは、ターゲットが人間の視点から明確に到達できる範囲にある場合でも、タスクを完了できないことが多い。 この問題に対処するために,我々は,成功した(サブ)ゴール状態の潜在表現を想像することを提案する。 そのために、私たちはForeSIT(Foresight Imagination)と呼ばれるモジュールを開発しました。 ForeSITは、成功につながる将来の状態の繰り返し潜在表現を想像するように訓練されている。 ターゲットの前に到達することが重要なサブゴール状態、またはゴール状態自体のいずれか。 トレーニング中に生成されたイマジネーションにポリシーを条件付けすることで、エージェントは、このイマジネーションを使って目標をしっかりと達成する方法を学ぶ。 我々のエージェントは、(サブ)ゴール状態が(潜在空間で)どのように見えるかを想像することができ、その状態に向かって進むことを学べます。 ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。 統合は、イマジネーションとポリシーの両方で共有される状態表現が絶えず進化しているため、簡単ではない。 我々は,一般的に受け入れられているベンチマークAI2THOR環境において,我々の手法が最先端の手法よりもはるかに優れていることを実証的に観察した。 このメソッドは、他のモデルフリーのRLナビゲーションフレームワークに簡単に統合または追加できます。

Visual navigation is often cast as a reinforcement learning (RL) problem. Current methods typically result in a suboptimal policy that learns general obstacle avoidance and search behaviours. For example, in the target-object navigation setting, the policies learnt by traditional methods often fail to complete the task, even when the target is clearly within reach from a human perspective. In order to address this issue, we propose to learn to imagine a latent representation of the successful (sub-)goal state. To do so, we have developed a module which we call Foresight Imagination (ForeSIT). ForeSIT is trained to imagine the recurrent latent representation of a future state that leads to success, e.g. either a sub-goal state that is important to reach before the target, or the goal state itself. By conditioning the policy on the generated imagination during training, our agent learns how to use this imagination to achieve its goal robustly. Our agent is able to imagine what the (sub-)goal state may look like (in the latent space) and can learn to navigate towards that state. We develop an efficient learning algorithm to train ForeSIT in an on-policy manner and integrate it into our RL objective. The integration is not trivial due to the constantly evolving state representation shared between both the imagination and the policy. We, empirically, observe that our method outperforms the state-of-the-art methods by a large margin in the commonly accepted benchmark AI2THOR environment. Our method can be readily integrated or added to other model-free RL navigation frameworks.
翻訳日:2021-03-04 23:02:02 公開日:2021-02-28
# (参考訳) ルールベースと機械学習による感情認識技術

Emotion recognition techniques with rule based and machine learning approaches ( http://arxiv.org/abs/2103.00658v1 )

ライセンス: CC BY 4.0
Aasma Aslam, Babar Hussian(参考訳) デジタル画像処理を用いた感情認識は、性別、年齢、文化だけでなく、歪んだ顔の特徴にも依存するため、多義的な課題である。 さらに、さまざまな照明や複雑な設定などの要因があり、顔の感情認識の複雑さを高めます。 本論文では, 正常, 閉塞, 部分閉塞画像からの情動を識別するために, 眼球運動, ムース開口, モースコーナー, フォアヘッドの4つの顔特徴を用いた。 我々はルールベースアプローチを採用し,新しい手法を用いて局所ビットパターンに似た顔特徴を抽出する新しい手法を開発した。 そこで我々は,眼球位置,眼窩収縮,口角を検出する新しい方法を提案する。 眼球検出のために提案された方法は、Cr赤(ECrR)の増強とCr青(SCrB)の抑制であり、これは98%の精度をもたらす。 また,眼球収縮検出には,(1)形態的傾斜画像強度(mgii)と(2)曲率線度(dcl)の2つの手法を提案する。 さらに,口角検出のための新しい手法を提案する。 分類には,人間感情感性(HES)を模倣した個人分類器,多数決(MV)および重み付け多数決(WMV)方式を用いる。 これらの方法は実装が簡単で、結果の精度が向上し、部分閉塞画像を用いた感情認識に最適である。 この方法が以前のアプローチよりも優れていることは、結果から明らかです。 全体の精度率は約94%です。 プロセッサコアi5を用いた1画像の処理時間は0.12秒である。

Emotion recognition using digital image processing is a multifarious task because facial emotions depend on warped facial features as well as on gender, age, and culture. Furthermore, there are several factors such as varied illumination and intricate settings that increase complexity in facial emotion recognition. In this paper, we used four salient facial features, Eyebrows, Mouth opening, Mouth corners, and Forehead wrinkles to identifying emotions from normal, occluded and partially-occluded images. We have employed rule-based approach and developed new methods to extract aforementioned facial features similar to local bit patterns using novel techniques. We propose new methods to detect eye location, eyebrow contraction, and mouth corners. For eye detection, the proposed methods are Enhancement of Cr Red (ECrR) and Suppression of Cr Blue (SCrB) which results in 98% accuracy. Additionally, for eyebrow contraction detection, we propose two techniques (1) Morphological Gradient Image Intensity (MGII) and (2) Degree of Curvature Line (DCL). Additionally, we present a new method for mouth corners detection. For classification purpose, we use an individual classifier, majority voting (MV) and weighted majority voting (WMV) methods which mimic Human Emotions Sensitivity (HES). These methods are straightforward to implement, improve the accuracy of results, and work best for emotion recognition using partially occluded images. It is ascertained from the results that our method outperforms previous approaches. Overall accuracy rates are around 94%. The processing time on one image using processor core i5 is ~0.12 sec.
翻訳日:2021-03-04 22:45:37 公開日:2021-02-28
# (参考訳) 深層半指導学習に関する調査

A Survey on Deep Semi-supervised Learning ( http://arxiv.org/abs/2103.00550v1 )

ライセンス: CC BY 4.0
Xiangli Yang, Zixing Song, Irwin King, Zenglin Xu(参考訳) 深層半教師あり学習は、様々な実践的応用を持つ急速に成長する分野である。 本稿では,モデル設計の観点からの深層半教師あり学習法と非教師なし損失関数の両基礎と最近の進歩に関する包括的調査を行う。 まず, 深層生成法, 整合性正規化法, グラフベース法, 擬似ラベル法, ハイブリッド法など既存の手法を分類した深層半教師付き学習の分類法を提案する。 次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。 過去数年間の進歩に加えて、我々はさらに既存の方法のいくつかの欠点を議論し、これらのオープンな問題を解決するための一時的なヒューリスティックソリューションを提供します。

Deep semi-supervised learning is a fast-growing field with a range of practical applications. This paper provides a comprehensive survey on both fundamentals and recent advances in deep semi-supervised learning methods from model design perspectives and unsupervised loss functions. We first present a taxonomy for deep semi-supervised learning that categorizes existing methods, including deep generative methods, consistency regularization methods, graph-based methods, pseudo-labeling methods, and hybrid methods. Then we offer a detailed comparison of these methods in terms of the type of losses, contributions, and architecture differences. In addition to the past few years' progress, we further discuss some shortcomings of existing methods and provide some tentative heuristic solutions for solving these open problems.
翻訳日:2021-03-04 17:22:55 公開日:2021-02-28
# (参考訳) 最適外乱検出のためのハイブリッド生成型分類器を用いた概念ニューラルネットワークウォッチドッグの証明

A Proof of Concept Neural Network Watchdog using a Hybrid Generative Classifier For Optimized Outlier Detection ( http://arxiv.org/abs/2103.00582v1 )

ライセンス: CC BY-SA 4.0
Justin Bui and Robert J. Marks II(参考訳) TensorFlowやPyTorchなどのツールの継続的な開発により、ニューラルネットワークは開発とトレーニングが容易になっています。 しかし、これらのツールの拡大に伴い、ニューラルネットワークはよりブラックボックス化されている。 果物を分類するために訓練されたニューラルネットワークは、キリンの絵をバナナとして分類することができる。 ニューラルネットワークのwatchdogは、そのような分布外の入力を識別するために実装され、分類器はそのようなデータを無視することができる。 ハイブリッドジェネレータ/分類ネットワークを構築することで,トレーニングや評価効率の向上を図りながら,監視犬の実装が容易になる。

With the continuous development of tools such as TensorFlow and PyTorch, Neural Networks are becoming easier to develop and train. With the expansion of these tools, however, neural networks have also become more black boxed. A neural network trained to classify fruit may classify a picture of a giraffe as a banana. A neural network watchdog may be implemented to identify such out-of-distribution inputs, allowing a classifier to disregard such data. By building a hybrid generator/classifier network, we can easily implement a watchdog while improving training and evaluation efficiency.
翻訳日:2021-03-04 16:04:01 公開日:2021-02-28
# (参考訳) リアルタイム電子商取引レコメンデーションのためのユーザ近所の探索

Explore User Neighborhood for Real-time E-commerce Recommendation ( http://arxiv.org/abs/2103.00442v1 )

ライセンス: CC BY-SA 4.0
Xu Xie, Fei Sun, Xiaoyong Yang, Zhao Yang, Jinyang Gao, Wenwu Ou, and Bin Cui(参考訳) リコメンダーシステムは、AmazonやTaobaoなどの現代のオンラインサービスにおいて重要な役割を果たしています。 ユーザ・イテム(UI)関係に焦点をあてた従来のパーソナライズ手法は、その効率性と有効性から、産業的に広く適用されてきた。 それらの成功にもかかわらず、我々はこれらのアプローチは類似のユーザーで隠されたローカル情報を無視すると主張します。 この問題に対処するため、ユーザーベースのメソッドは、同様のユーザー関係を利用して、ローカルの視点で推奨します。 それでも、 userKNN やMatrix Factorization のような従来のユーザベースの手法は、そのようなトランスダクティブモデルが新しいインタラクションで再コンパイルまたは再トレーニングされる必要があるため、リアルタイムアプリケーションにデプロイすることは困難である。 この課題を克服するために,グローバル情報とローカル情報の両方をリアルタイムにレコメンデーションする,自己補完的協調フィルタリング(SCCF)というフレームワークを提案する。 一方、UI関係とユーザ近傍を利用して、グローバル情報とローカル情報の両方をキャプチャする。 一方、インダクティブモデルにより、オンザフライでユーザ表現を推測することで、各ユーザーの類似したユーザーをリアルタイムで識別できます。 提案されたフレームワークは,既存のインダクタティブUIアプローチにシームレスに組み込むことができ,追加計算の少ないユーザ近所の恩恵を受けることができる。 また、リアルタイム設定にユーザーベースのメソッドを適用する最初の試みです。 SCCFの有効性と効率は、4つのパブリックデータセットに対する大規模なオフライン実験と、Taobaoでの大規模なオンラインA/Bテストによって実証される。

Recommender systems play a vital role in modern online services, such as Amazon and Taobao. Traditional personalized methods, which focus on user-item (UI) relations, have been widely applied in industrial settings, owing to their efficiency and effectiveness. Despite their success, we argue that these approaches ignore local information hidden in similar users. To tackle this problem, user-based methods exploit similar user relations to make recommendations in a local perspective. Nevertheless, traditional user-based methods, like userKNN and matrix factorization, are intractable to be deployed in the real-time applications since such transductive models have to be recomputed or retrained with any new interaction. To overcome this challenge, we propose a framework called self-complementary collaborative filtering~(SCCF) which can make recommendations with both global and local information in real time. On the one hand, it utilizes UI relations and user neighborhood to capture both global and local information. On the other hand, it can identify similar users for each user in real time by inferring user representations on the fly with an inductive model. The proposed framework can be seamlessly incorporated into existing inductive UI approach and benefit from user neighborhood with little additional computation. It is also the first attempt to apply user-based methods in real-time settings. The effectiveness and efficiency of SCCF are demonstrated through extensive offline experiments on four public datasets, as well as a large scale online A/B test in Taobao.
翻訳日:2021-03-04 11:32:27 公開日:2021-02-28
# (参考訳) ECGT2T:2つの非同期リードからテンリードへの心電図合成

ECGT2T: Electrocardiogram synthesis from Two asynchronous leads to Ten leads ( http://arxiv.org/abs/2103.00006v1 )

ライセンス: CC BY 4.0
Yong-Yeon Jo and Joon-Myoung Kwon(参考訳) 心電図(ECG)は、心臓の状態を観察する非侵襲的な方法で電気信号を記録する。 それは異なる方向から心臓を見る12のリードで構成されています。 近年、様々なウェアラブルデバイスが、ワイルディ機器を使わずにECGへの即時アクセスを可能にしている。 しかし、ECGに1つまたは2つのリードのみを提供する。 この結果、心疾患の診断が不正確になる。 本稿では,2つの非同期リードから10リード(ECGT2T)へのECG合成の深部生成モデルを提案する。 最初は2つのリードを参照する心臓状態を表し、その後、代表される心臓状態に基づいて10個のリードを生成する。 ECGT2Tが生成したリードのリズムと振幅は、元のリードと似ているが、この手法はノイズを除去し、ベースラインが元のリードに現れる。 データ拡張手法として、ECGT2Tは、複数のリードを持つECGを用いたモデルと比較して、モデルの分類性能を改善する。

The electrocardiogram (ECG) records electrical signals in a non-invasive way to observe the condition of the heart. It consists of 12 leads that look at the heart from different directions. Recently, various wearable devices have enabled immediate access to the ECG without the use of wieldy equipment. However, they only provide ECGs with one or two leads. This results in an inaccurate diagnosis of cardiac disease. We propose a deep generative model for ECG synthesis from two asynchronous leads to ten leads (ECGT2T). It first represents a heart condition referring to two leads, and then generates ten leads based on the represented heart condition. Both the rhythm and amplitude of leads generated by ECGT2T resemble those of the original ones, while the technique removes noise and the baseline wander appearing in the original leads. As a data augmentation method, ECGT2T improves the classification performance of models compared with models using ECGs with a couple of leads.
翻訳日:2021-03-04 05:58:51 公開日:2021-02-28
# (参考訳) 強化学習における探索とインセンティブ

Exploration and Incentives in Reinforcement Learning ( http://arxiv.org/abs/2103.00360v1 )

ライセンス: CC0 1.0
Max Simchowitz, Aleksandrs Slivkins(参考訳) 自己関心のあるエージェントが$\textit{exploit}$を好む場合、どうやって$\textit{explore}$にインセンティブを与えるのですか? 各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。 強化学習の伝統的な定式化とは対照的に、エージェントはポリシーの選択を制御し、アルゴリズムは推奨事項のみを発行できる。 しかし、アルゴリズムは情報の流れを制御し、エージェントに情報非対称性による探索のインセンティブを与えることができる。 MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。 我々は、以前に研究された静的でステートレスな探査問題の探索を奨励するためのものと同様の実証可能な保証を達成します。

How do you incentivize self-interested agents to $\textit{explore}$ when they prefer to $\textit{exploit}$ ? We consider complex exploration problems, where each agent faces the same (but unknown) MDP. In contrast with traditional formulations of reinforcement learning, agents control the choice of policies, whereas an algorithm can only issue recommendations. However, the algorithm controls the flow of information, and can incentivize the agents to explore via information asymmetry. We design an algorithm which explores all reachable states in the MDP. We achieve provable guarantees similar to those for incentivizing exploration in static, stateless exploration problems studied previously.
翻訳日:2021-03-04 05:27:30 公開日:2021-02-28
# (参考訳) Johnson-Lindenstrauss変換の紹介

An Introduction to Johnson-Lindenstrauss Transforms ( http://arxiv.org/abs/2103.00564v1 )

ライセンス: CC BY 4.0
Casper Benjamin Freksen(参考訳) Johnson--Lindenstrauss Transformsは、データの主要特性を維持しながらデータの寸法性を低減するための強力なツールであり、機械学習から差分プライバシーなど、多くの分野で使用されています。 1980年代に導入されて以来、その使用状況と開発状況の概要を提供し、読者がこれらのトピックをより深く探求したい場合、多くの参考文献を提供する。

Johnson--Lindenstrauss Transforms are powerful tools for reducing the dimensionality of data while preserving key characteristics of that data, and they have found use in many fields from machine learning to differential privacy and more. This note explains what they are; it gives an overview of their use and their development since they were introduced in the 1980s; and it provides many references should the reader wish to explore these topics more deeply.
翻訳日:2021-03-04 05:26:44 公開日:2021-02-28
# (参考訳) Virus-MNIST:ベンチマークマルウェアデータセット

Virus-MNIST: A Benchmark Malware Dataset ( http://arxiv.org/abs/2103.00602v1 )

ライセンス: CC BY 4.0
David Noever, Samantha E. Miller Noever(参考訳) 以下に示すのは、10の実行可能なコード変種と約50,000のウイルス例からなる画像分類データセットである。 悪意のあるクラスには、9種類のコンピュータウイルスと1つの良性セットが含まれる。 ポータブル実行テーブル(PE)の最初の1024バイトの画像フォーマットは、慣れ親しんだMNIST手書きデータセットを反映しており、以前に検討されたアルゴリズムメソッドのほとんどは小さな変更で転送することができる。 マルウェアに対する9つのウイルスファミリーの指定は、クラスラベルの監視されていない学習に由来する。 深層学習法(mobilenetv2)を用いたベンチマークでは,家族間でのウイルス識別の80%の精度が得られた。 また,(シグネチャやヒューリスティックスによって)正のマルウェア検出が行われると,最初の1024バイトのサムネイル画像への投影がウイルスの87%の精度で分類できることが分かった。 この研究は、他のマルウェア研究者が画像問題を解決するために開発された有望な畳み込みニューラルネットワークとして証明したものを一般化し、実行可能なファイルからピクセルバイトの新しい抽象ドメインに適用した。 データセットはKaggleとGithubで入手できる。

The short note presents an image classification dataset consisting of 10 executable code varieties and approximately 50,000 virus examples. The malicious classes include 9 families of computer viruses and one benign set. The image formatting for the first 1024 bytes of the Portable Executable (PE) mirrors the familiar MNIST handwriting dataset, such that most of the previously explored algorithmic methods can transfer with minor modifications. The designation of 9 virus families for malware derives from unsupervised learning of class labels; we discover the families with KMeans clustering that excludes the non-malicious examples. As a benchmark using deep learning methods (MobileNetV2), we find an overall 80% accuracy for virus identification by families when beneware is included. We also find that once a positive malware detection occurs (by signature or heuristics), the projection of the first 1024 bytes into a thumbnail image can classify with 87% accuracy the type of virus. The work generalizes what other malware investigators have demonstrated as promising convolutional neural networks originally developed to solve image problems but applied to a new abstract domain in pixel bytes from executable files. The dataset is available on Kaggle and Github.
翻訳日:2021-03-04 05:25:54 公開日:2021-02-28
# (参考訳) 能動学習に基づく広帯域材料発見のための生成設計

Active learning based generative design for the discovery of wide bandgap materials ( http://arxiv.org/abs/2103.00608v1 )

ライセンス: CC BY 4.0
Rui Xin, Edirisuriya M. D. Siriwardane, Yuqi Song, Yong Zhao, Steph-Yves Louis, Alireza Nasiri, Jianjun Hu(参考訳) アクティブラーニングは、所望の特性を持つ既存の材料データベースから機能材料のスクリーニングにますます応用されている。 しかし、icdやmaterials projectのような一般的な材料データベースに蓄積されている既知の材料の数は極めて限られており、広大な化学設計スペースのほんの一部に過ぎない。 本論文では,化学設計空間全体におけるターゲット特性を有する新しい材料を探索するために,アクティブラーニングと深変量オートエンコーダニューラルネットワークと生成対比ディープニューラルネットワークモデルを組み合わせたアクティブジェネレーティブ逆設計手法を提案する。 この方法の適用により、高バンドギャップ(SrYF$_5$)と指定されたバンドギャップ範囲(SrClF$_3$、CaClF$_5$、YCl$_3$、SrC$_2$F$_3$、AlSCl、As$_2$O$_3$)の半導体を持つ新しい熱力学的に安定した材料を発見することができました。 本実験は, 能動学習自体が化学的に不可能な候補を抽出するのに対して, これらのサンプルは, 生成モデルが生成する仮説材料から望ましい特性を持つ材料をフィルタリングする効果的なスクリーニングモデルを訓練するのに有効であることを示した。 実験では, アクティブ生成型逆設計手法の有効性を示す。

Active learning has been increasingly applied to screening functional materials from existing materials databases with desired properties. However, the number of known materials deposited in the popular materials databases such as ICSD and Materials Project is extremely limited and consists of just a tiny portion of the vast chemical design space. Herein we present an active generative inverse design method that combines active learning with a deep variational autoencoder neural network and a generative adversarial deep neural network model to discover new materials with a target property in the whole chemical design space. The application of this method has allowed us to discover new thermodynamically stable materials with high band gap (SrYF$_5$) and semiconductors with specified band gap ranges (SrClF$_3$, CaClF$_5$, YCl$_3$, SrC$_2$F$_3$, AlSCl, As$_2$O$_3$), all of which are verified by the first principle DFT calculations. Our experiments show that while active learning itself may sample chemically infeasible candidates, these samples help to train effective screening models for filtering out materials with desired properties from the hypothetical materials created by the generative model. The experiments show the effectiveness of our active generative inverse design approach.
翻訳日:2021-03-04 05:17:48 公開日:2021-02-28
# (参考訳) 機械学習と金融研究の対決

Confronting Machine Learning With Financial Research ( http://arxiv.org/abs/2103.00366v1 )

ライセンス: CC BY 4.0
Kristof Lommers, Ouns El Harzli, Jack Kim(参考訳) 本研究の目的は,金融研究における機械学習の課題と応用を検討することである。 機械学習アルゴリズムは、金融業界で遭遇したものとは大きく異なる特定のデータ環境向けに開発された。 金融市場の特異性によって困難が生じるだけでなく、基礎となる機械学習のパラダイムと金融経済学の研究哲学の間には根本的な緊張関係がある。 金融市場の特異な特徴と社会科学における経験的枠組みを考えると、従来の機械学習手法に様々な調整を加える必要がある。 金融における機械学習の主な課題について論じ、それらがどのように説明できるのかを検討する。 課題のいくつかにもかかわらず、機械学習は金融研究と統合され、エコノメトリアンのツールボックスの堅牢な補完になる可能性があると主張しています。 さらに、推定、経験的発見、テスト、因果推論、予測といった研究プロセスにおける機械学習のさまざまな応用について論じる。

This study aims to examine the challenges and applications of machine learning for financial research. Machine learning algorithms have been developed for certain data environments which substantially differ from the one we encounter in finance. Not only do difficulties arise due to some of the idiosyncrasies of financial markets, there is a fundamental tension between the underlying paradigm of machine learning and the research philosophy in financial economics. Given the peculiar features of financial markets and the empirical framework within social science, various adjustments have to be made to the conventional machine learning methodology. We discuss some of the main challenges of machine learning in finance and examine how these could be accounted for. Despite some of the challenges, we argue that machine learning could be unified with financial research to become a robust complement to the econometrician's toolbox. Moreover, we discuss the various applications of machine learning in the research process such as estimation, empirical discovery, testing, causal inference and prediction.
翻訳日:2021-03-03 22:55:30 公開日:2021-02-28
# (参考訳) 失語症・失語症・失語症を救済する脳信号

Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech Recognition ( http://arxiv.org/abs/2103.00383v1 )

ライセンス: CC BY 4.0
Gautam Krishna, Mason Carnahan, Shilpa Shamapant, Yashitha Surendranath, Saumya Jain, Arundhati Ghosh, Co Tran, Jose del R Millan and Ahmed H Tewfik(参考訳) 本稿では, 失語, 失語, 失語症, 失語症に同期して記録される脳波特徴量を用いて, 失語症, 失語症, 失語症の自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。 単離音声認識タスクの試験時間中に50\%以上のデコード性能向上を実証するとともに、脳波機能を利用してより困難な連続音声認識タスクのパフォーマンス向上を示す予備結果も提供します。 本研究は, 失語症, 失語症, 構音障害から回復した脳卒中患者に対して, 非侵襲的神経信号を用いて実時間ロバストな音声補綴物を設計できる可能性を示す。 我々の失語症、失語症、失語症-EEGデータセットは、この興味深い重要な研究をさらに進めるために一般に公開される。

In this paper, we propose a deep learning-based algorithm to improve the performance of automatic speech recognition (ASR) systems for aphasia, apraxia, and dysarthria speech by utilizing electroencephalography (EEG) features recorded synchronously with aphasia, apraxia, and dysarthria speech. We demonstrate a significant decoding performance improvement by more than 50\% during test time for isolated speech recognition task and we also provide preliminary results indicating performance improvement for the more challenging continuous speech recognition task by utilizing EEG features. The results presented in this paper show the first step towards demonstrating the possibility of utilizing non-invasive neural signals to design a real-time robust speech prosthetic for stroke survivors recovering from aphasia, apraxia, and dysarthria. Our aphasia, apraxia, and dysarthria speech-EEG data set will be released to the public to help further advance this interesting and crucial research.
翻訳日:2021-03-03 22:54:33 公開日:2021-02-28
# (参考訳) H\"older クラスにおけるReLU-Sine-Exponential Activations Break Curse of Dimensionalityを用いたディープニューラルネットワーク

Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse of Dimensionality on H\"older Class ( http://arxiv.org/abs/2103.00542v1 )

ライセンス: CC BY 4.0
Yuling Jiao, Yanming Lai, Xiliang Lu, Zhijian Yang(参考訳) 本論文では,ReLU,sine,および2^x$をアクティベーション関数とするニューラルネットワークを構築する。 for general continuous $f$ defined on $[0,1]^d$ with continuity modulus $\omega_f(\cdot)$, we construct ReLU-sine-$2^x$ networks that enjoy a approximation rate $\mathcal{O}(\omega_f(\sqrt{d})\cdot2^{-M}+\omega_{f}\left(\frac{\sqrt{d}}{N}\right)$, where $M,N\in \mathbb{N}^{+}$。 As a consequence, we can construct ReLU-sine-$2^x$ network with the depth $5$ and width $\max\left\{\left\lceil2d^{3/2}\left(\frac{3\mu}{\epsilon}\right)^{1/{\alpha}}\right\rceil,2\left\lceil\log_2\frac{3\mu d^{\alpha/2}}{2\epsilon}\right\rceil+2\right\}$ that approximates $f\in \mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ within a given tolerance $\epsilon >0$ measured in $L^p$ norm $p\in[1,\infty)$, where $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ denotes the H\"older continuous function class defined on $[0,1]^d$ with order $\alpha \in (0,1]$ and constant $\mu > 0$. したがって、ReLU-sine-$2^x$ネットワークは、$\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$上の次元の呪いを克服する。 スーパー表現力に加えて、ReLU-sine-$2^x$ネットワークで実装された関数は(一般化)微分可能であり、SGDを訓練に適用することができる。

In this paper, we construct neural networks with ReLU, sine and $2^x$ as activation functions. For general continuous $f$ defined on $[0,1]^d$ with continuity modulus $\omega_f(\cdot)$, we construct ReLU-sine-$2^x$ networks that enjoy an approximation rate $\mathcal{O}(\omega_f(\sqrt{d})\cdot2^{-M}+\omega_{f}\left(\frac{\sqrt{d}}{N}\right))$, where $M,N\in \mathbb{N}^{+}$ denote the hyperparameters related to widths of the networks. As a consequence, we can construct ReLU-sine-$2^x$ network with the depth $5$ and width $\max\left\{\left\lceil2d^{3/2}\left(\frac{3\mu}{\epsilon}\right)^{1/{\alpha}}\right\rceil,2\left\lceil\log_2\frac{3\mu d^{\alpha/2}}{2\epsilon}\right\rceil+2\right\}$ that approximates $f\in \mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ within a given tolerance $\epsilon >0$ measured in $L^p$ norm $p\in[1,\infty)$, where $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$ denotes the H\"older continuous function class defined on $[0,1]^d$ with order $\alpha \in (0,1]$ and constant $\mu > 0$. Therefore, the ReLU-sine-$2^x$ networks overcome the curse of dimensionality on $\mathcal{H}_{\mu}^{\alpha}([0,1]^d)$. In addition to its supper expressive power, functions implemented by ReLU-sine-$2^x$ networks are (generalized) differentiable, enabling us to apply SGD to train.
翻訳日:2021-03-03 22:42:17 公開日:2021-02-28
# Q-Learningのためのアンサンブルブートストラップ

Ensemble Bootstrapping for Q-Learning ( http://arxiv.org/abs/2103.00445v1 )

ライセンス: Link先を確認
Oren Peer, Chen Tessler, Nadav Merlis, Ron Meir(参考訳) 一般的な強化学習アルゴリズムであるQラーニング(QL)は、最適なベルマン演算子の最大化項による過大評価バイアスに悩まされる。 このバイアスは最適でない行動につながる可能性がある。 ダブルQ学習は2つの推定器を利用することでこの問題に対処するが、結果として過小評価バイアスが生じる。 q-learningの過剰推定と同様に、特定のシナリオでは、過推定バイアスはパフォーマンスを低下させる可能性がある。 本研究では,2次Q学習からアンサンブルへの自然な拡張であるEnsemble Bootstrapped Q-Learning(EBQL)というバイアス低減アルゴリズムを導入する。 我々は理論的にも経験的にも方法を分析する。 理論的には、独立確率変数の集合の最大平均を推定する場合、ebqlライクな更新はmseを低下させる。 経験的に、オーバーとアンダー推定の両方が最適な性能をもたらす領域が存在することを示す。 最後に、AtARIゲームスイートの他のディープQLアルゴリズムよりも、EBQLのディープRLバリアントの優れたパフォーマンスを実証します。

Q-learning (QL), a common reinforcement learning algorithm, suffers from over-estimation bias due to the maximization term in the optimal Bellman operator. This bias may lead to sub-optimal behavior. Double-Q-learning tackles this issue by utilizing two estimators, yet results in an under-estimation bias. Similar to over-estimation in Q-learning, in certain scenarios, the under-estimation bias may degrade performance. In this work, we introduce a new bias-reduced algorithm called Ensemble Bootstrapped Q-Learning (EBQL), a natural extension of Double-Q-learning to ensembles. We analyze our method both theoretically and empirically. Theoretically, we prove that EBQL-like updates yield lower MSE when estimating the maximal mean of a set of independent random variables. Empirically, we show that there exist domains where both over and under-estimation result in sub-optimal performance. Finally, We demonstrate the superior performance of a deep RL variant of EBQL over other deep QL algorithms for a suite of ATARI games.
翻訳日:2021-03-03 17:34:22 公開日:2021-02-28
# Tiny Adversarial Mulit-Objective Oneshot Neural Architecture Search

Tiny Adversarial Mulit-Objective Oneshot Neural Architecture Search ( http://arxiv.org/abs/2103.00363v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Guo Yu, Feng Zheng, Yaochu Jin(参考訳) 計算コストの制限とエネルギー消費のため、モバイルデバイスにデプロイされるほとんどのニューラルネットワークモデルは小さい。 しかし、小さなニューラルネットワークは一般に攻撃に対して非常に脆弱である。 現在の研究では、モデルサイズが大きくなるとロバスト性が向上することが証明されているが、小さなニューラルネットワークのロバスト性を高める方法に関する研究はほとんどない。 私たちの研究は、モバイルレベルのリソースの下でクリーンな精度を損なうことなく、小さなニューラルネットワークの堅牢性を改善する方法にフォーカスしています。 そこで本研究では, 対向的精度, クリーンな精度, モデルサイズという観点から, 最適なトレードオフネットワークを得るための, 多目的のワンショットネットワークアーキテクチャ探索(NAS)アルゴリズムを提案する。 具体的には,モデルサイズと逆行性能のバランスをとるために,新しい小ブロックとチャネルに基づく新しい検索空間を設計する。 さらに,このスーパーネットはNASアルゴリズムのサブネットの性能に大きく影響するため,ホワイトボックス攻撃下でスーパーネットが最適なサブネットを得るのにどのように役立つかを明らかにする。 具体的には,逆転性,スーパーネットの幅,スクラッチから微調整までのトレーニングの違いを解析することにより,新たな逆転訓練パラダイムを探求する。 最後に、第1の非支配フロント上の特定のブロックとチャネルの階層的結合に関する統計的解析を行い、敵の摂動のレジリエンスのための小さなニューラルネットワークアーキテクチャを設計するためのガイドラインとして機能する。

Due to limited computational cost and energy consumption, most neural network models deployed in mobile devices are tiny. However, tiny neural networks are commonly very vulnerable to attacks. Current research has proved that larger model size can improve robustness, but little research focuses on how to enhance the robustness of tiny neural networks. Our work focuses on how to improve the robustness of tiny neural networks without seriously deteriorating of clean accuracy under mobile-level resources. To this end, we propose a multi-objective oneshot network architecture search (NAS) algorithm to obtain the best trade-off networks in terms of the adversarial accuracy, the clean accuracy and the model size. Specifically, we design a novel search space based on new tiny blocks and channels to balance model size and adversarial performance. Moreover, since the supernet significantly affects the performance of subnets in our NAS algorithm, we reveal the insights into how the supernet helps to obtain the best subnet under white-box adversarial attacks. Concretely, we explore a new adversarial training paradigm by analyzing the adversarial transferability, the width of the supernet and the difference between training the subnets from scratch and fine-tuning. Finally, we make a statistical analysis for the layer-wise combination of certain blocks and channels on the first non-dominated front, which can serve as a guideline to design tiny neural network architectures for the resilience of adversarial perturbations.
翻訳日:2021-03-03 17:32:08 公開日:2021-02-28
# 超データ効率のGANトレーニング:まず宝くじを描き、次にそれを激しく訓練する

Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then Training It Toughly ( http://arxiv.org/abs/2103.00397v1 )

ライセンス: Link先を確認
Tianlong Chen, Yu Cheng, Zhe Gan, Jingjing Liu, Zhangyang Wang(参考訳) 限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。 この挑戦を克服するために、我々はKalibhat et alの最新の観察に触発された。 (2020年):チェンら。 (2021d)は、GANから独立して訓練可能で、高度にスパースなサブネットワーク(すなわち宝くじ)を発見できるものである。 これを誘導的前処理として扱い、データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する: (i) 元のGANから宝くじを識別し、 (ii) 攻撃的なデータと機能拡張で見つかったスパースサブネットワークをトレーニングする。 両方のサブプロブレムは、同じ小さな実画像のトレーニングセットを再利用する。 このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中でき、トレーニングを効果的に安定化し、収束性を向上させることができます。 GANアーキテクチャ(SNGAN,BigGAN,StyleGAN2)と多種多様なデータセット(CIFAR-10,CIFAR-100,Tiny-ImageNet,ImageNet)を対象として,提案した超データ効率トレーニングフレームワークの有効性を総合的に検証した。 さらに、私たちのトレーニングフレームワークはまた、強力な数ショット一般化能力、すなわち、事前トレーニングなしで、わずか100の実際の画像でゼロから訓練することによって高忠実度画像を生成する。 コードは以下の通り。 https://github.com/VITA-Group/Ultra-Data-Efficient-GAN-Training。

Training generative adversarial networks (GANs) with limited data generally results in deteriorated performance and collapsed models. To conquer this challenge, we are inspired by the latest observation of Kalibhat et al. (2020); Chen et al.(2021d), that one can discover independently trainable and highly sparse subnetworks (a.k.a., lottery tickets) from GANs. Treating this as an inductive prior, we decompose the data-hungry GAN training into two sequential sub-problems: (i) identifying the lottery ticket from the original GAN; then (ii) training the found sparse subnetwork with aggressive data and feature augmentations. Both sub-problems re-use the same small training set of real images. Such a coordinated framework enables us to focus on lower-complexity and more data-efficient sub-problems, effectively stabilizing training and improving convergence. Comprehensive experiments endorse the effectiveness of our proposed ultra-data-efficient training framework, across various GAN architectures (SNGAN, BigGAN, and StyleGAN2) and diverse datasets (CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet). Besides, our training framework also displays powerful few-shot generalization ability, i.e., generating high-fidelity images by training from scratch with just 100 real images, without any pre-training. Codes are available at: https://github.com/VITA-Group/Ultra-Data-Efficient-GAN-Training.
翻訳日:2021-03-03 17:31:41 公開日:2021-02-28
# 中間分類器ヘッドによる蒸留知識

Distilling Knowledge via Intermediate Classifier Heads ( http://arxiv.org/abs/2103.00497v1 )

ライセンス: Link先を確認
Aryan Asadian, Amirali Salehi-Abari(参考訳) トランスファーラーニングアプローチとしての知識蒸留の要点は、事前訓練されたより大きな教師モデルのガイドでリソース限定の学生モデルを効果的に訓練することである。 しかし、教師と生徒のモデルの複雑さ(すなわち能力格差)に大きな違いがある場合、知識蒸留は教師から生徒への知識の伝達においてその強さを失い、より弱い生徒の訓練を行う。 キャパシティギャップの影響を軽減するため,中間ヘッドによる知識蒸留を導入する。 教師の中間層(様々な深さ)を分類器ヘッドで拡張することにより、異種事前学習教師のコホートを安価に取得する。 中間分類器ヘッドは、予め訓練された教師の背骨を凍結しながら効率よく学習することができる。 教師のコーホート(元教師を含む)は同時に生徒を指導する。 種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法とその拡張法より優れていることを示した。

The crux of knowledge distillation -- as a transfer-learning approach -- is to effectively train a resource-limited student model with the guide of a pre-trained larger teacher model. However, when there is a large difference between the model complexities of teacher and student (i.e., capacity gap), knowledge distillation loses its strength in transferring knowledge from the teacher to the student, thus training a weaker student. To mitigate the impact of the capacity gap, we introduce knowledge distillation via intermediate heads. By extending the intermediate layers of the teacher (at various depths) with classifier heads, we cheaply acquire a cohort of heterogeneous pre-trained teachers. The intermediate classifier heads can all together be efficiently learned while freezing the backbone of the pre-trained teacher. The cohort of teachers (including the original teacher) co-teach the student simultaneously. Our experiments on various teacher-student pairs and datasets have demonstrated that the proposed approach outperforms the canonical knowledge distillation approach and its extensions.
翻訳日:2021-03-03 17:31:09 公開日:2021-02-28
# NLP-CUET@DravidianLangTech-EACL2021: マルチモーダルソーシャルメディアミームからトロールを識別するための視覚およびテキスト機能の調査

NLP-CUET@DravidianLangTech-EACL2021: Investigating Visual and Textual Features to Identify Trolls from Multimodal Social Media Memes ( http://arxiv.org/abs/2103.00466v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque(参考訳) ここ数年で、ミームはインターネット上での新しいコミュニケーションの方法になりました。 ミームはテキストを埋め込んだ画像なので、すぐに憎しみ、犯罪、暴力を広めることができる。 分類ミームは、マルチモーダルな性質と地域固有の解釈のために非常に困難です。 共有タスクは、マルチモーダルソーシャルメディアミームからトロールを識別することができるモデルを開発するために組織されます。 この研究は、私たちがタスクへの参加の一部として開発した計算モデルを提示します。 トレーニングデータには2つの形式がある: タミル語を混ざったテキストを埋め込んだ画像と、英語で書かれた関連キャプション。 CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNetモデルを用いて視覚的およびテキスト的特徴を検討した。 画像(CNN, ResNet50, Inception)とテキスト(Long short term memory network)を早期融合方式で組み合わせることで, マルチモーダルな特徴を抽出する。 結果から,xlnet によるテキストアプローチは,最大$f_1$-score ($0.58$) を達成し,このタスクで 3^{rd}$ のランクを確保することができた。

In the past few years, the meme has become a new way of communication on the Internet. As memes are the images with embedded text, it can quickly spread hate, offence and violence. Classifying memes are very challenging because of their multimodal nature and region-specific interpretation. A shared task is organized to develop models that can identify trolls from multimodal social media memes. This work presents a computational model that we have developed as part of our participation in the task. Training data comes in two forms: an image with embedded Tamil code-mixed text and an associated caption given in English. We investigated the visual and textual features using CNN, VGG16, Inception, Multilingual-BERT, XLM-Roberta, XLNet models. Multimodal features are extracted by combining image (CNN, ResNet50, Inception) and text (Long short term memory network) features via early fusion approach. Results indicate that the textual approach with XLNet achieved the highest weighted $f_1$-score of $0.58$, which enabled our model to secure $3^{rd}$ rank in this task.
翻訳日:2021-03-03 17:28:15 公開日:2021-02-28
# ビデオに基づく深層学習による術後右室不全の予測

Predicting post-operative right ventricular failure using video-based deep learning ( http://arxiv.org/abs/2103.00364v1 )

ライセンス: Link先を確認
Rohan Shad, Nicolas Quach, Robyn Fong, Patpilai Kasinpila, Cayley Bowles, Miguel Castro, Ashrith Guha, Eddie Suarez, Stefan Jovinge, Sangjin Lee, Theodore Boeve, Myriam Amsallem, Xiu Tang, Francois Haddad, Yasuhiro Shudo, Y. Joseph Woo, Jeffrey Teuteberg, John P. Cunningham, Curt P. Langlotz, William Hiesinger(参考訳) 非侵襲的かつ費用対効果の高い心エコー図は、心臓の筋肉と弁の包括的評価を可能にする。 数十年の進歩にもかかわらず、心エコー図ビデオのリッチな時間的解決データは未使用のままである。 心エコー図の読み書きは、心臓壁運動の複雑なパターンを、心臓機能の小さな測定リストに還元する。 さらに、現代の心エコー図型人工知能(ai)システムはすべて、エコー研究に埋め込まれたデータの豊富な利用ではなく、同じ還元効果測定値の設計自動化によっても同様に制限されている。 この低利用は、臨床的な意思決定が病気の視力の主観的評価によって導かれる状況において最も顕著であり、臨床的に実行可能な時間枠内で発症する疾患を予測するツールは利用できない。 メカニカル・サーキュレーション・サポートの設定において,術後右室不全(RV不全)を発症する可能性を予測することは,そのような臨床例である。 そこで我々は,術前心エコー検査から得られた情報の全時空間密度を用いて,術後右室不全(RV障害)の予測を訓練した新しいビデオAIシステムを開発した。 aucは0.729, 特異度52%, 感度80%, 感度46%, 特異度80%であった。 さらに,我々のMLシステムは,独立臨床評価におけるRV障害の予測に携わる人間専門家のチームよりも有意に優れていた。 最後に, 定性心エコー検査により治療や患者の選択が誘導される心臓臨床判断支援アプリケーションに対して, 本手法を一般化する。

Non-invasive and cost effective in nature, the echocardiogram allows for a comprehensive assessment of the cardiac musculature and valves. Despite progressive improvements over the decades, the rich temporally resolved data in echocardiography videos remain underutilized. Human reads of echocardiograms reduce the complex patterns of cardiac wall motion, to a small list of measurements of heart function. Furthermore, all modern echocardiography artificial intelligence (AI) systems are similarly limited by design - automating measurements of the same reductionist metrics rather than utilizing the wealth of data embedded within each echo study. This underutilization is most evident in situations where clinical decision making is guided by subjective assessments of disease acuity, and tools that predict disease onset within clinically actionable timeframes are unavailable. Predicting the likelihood of developing post-operative right ventricular failure (RV failure) in the setting of mechanical circulatory support is one such clinical example. To address this, we developed a novel video AI system trained to predict post-operative right ventricular failure (RV failure), using the full spatiotemporal density of information from pre-operative echocardiography scans. We achieve an AUC of 0.729, specificity of 52% at 80% sensitivity and 46% sensitivity at 80% specificity. Furthermore, we show that our ML system significantly outperforms a team of human experts tasked with predicting RV failure on independent clinical evaluation. Finally, the methods we describe are generalizable to any cardiac clinical decision support application where treatment or patient selection is guided by qualitative echocardiography assessments.
翻訳日:2021-03-03 17:27:11 公開日:2021-02-28
# CREATe : 臨床報告の抽出とアノテーション技術

CREATe: Clinical Report Extraction and Annotation Technology ( http://arxiv.org/abs/2103.00562v1 )

ライセンス: Link先を確認
Yichao Zhou, Wei-Ting Chen, Bowen Zhang, David Lee, J. Harry Caufield, Kai-Wei Chang, Yizhou Sun, Peipei Ping and Wei Wang(参考訳) 臨床症例報告は、特定の臨床症例のユニークな側面の記述であり、非定型疾患の表現型と新しい治療法に関する臨床経験を共有する上で重要な役割を果たします。 しかし、私たちの知る限りでは、これらのレポートを注釈付け、インデックス付け、あるいはキュレートするエンドツーエンドシステムを開発する試みは行われていない。 本稿では,臨床症例報告の内容の抽出,インデックス化,検索を行うための新しい計算資源プラットフォーム CREATe を提案する。 CREATeは持続可能な資源支援と発見の環境を育み、研究者は情報科学の課題を克服することができる。 デモのオンラインビデオはhttps://youtu.be/Q8owBQYTjDcで見ることができる。

Clinical case reports are written descriptions of the unique aspects of a particular clinical case, playing an essential role in sharing clinical experiences about atypical disease phenotypes and new therapies. However, to our knowledge, there has been no attempt to develop an end-to-end system to annotate, index, or otherwise curate these reports. In this paper, we propose a novel computational resource platform, CREATe, for extracting, indexing, and querying the contents of clinical case reports. CREATe fosters an environment of sustainable resource support and discovery, enabling researchers to overcome the challenges of information science. An online video of the demonstration can be viewed at https://youtu.be/Q8owBQYTjDc.
翻訳日:2021-03-03 17:26:02 公開日:2021-02-28
# 効率的な局所因果構造学習に向けて

Towards Efficient Local Causal Structure Learning ( http://arxiv.org/abs/2103.00378v1 )

ライセンス: Link先を確認
Shuai Yang, Hao Wang, Kui Yu, Fuyuan Cao, and Xindong Wu(参考訳) 局所因果構造学習は、データから関心のある変数の直接的な原因(親)と直接的な影響(子供)を発見し、区別することを目的とする。 従来の手法では,対象変数Tの直接的な影響と直接的な原因を区別するために,大きな空間を探索する必要がある。この問題に対処するために,ELCSという新しい局所因果構造学習アルゴリズムを提案する。 Specifically, we first propose the concept of N-structures, then design an efficient Markov Blanket (MB) discovery subroutine to integrate MB learning with N-structures to learn the MB of T and simultaneously distinguish direct causes from direct effects of T. With the proposed MB subroutine, ELCS starts from the target variable, sequentially finds MBs of variables connected to the target variable and simultaneously constructs local causal structures over MBs until the direct causes and direct effects of the target variable have been distinguished. 8つのベイジアンネットワークを用いて、ELCSが最先端のアルゴリズムよりも精度と効率が良いことを検証した。

Local causal structure learning aims to discover and distinguish direct causes (parents) and direct effects (children) of a variable of interest from data. While emerging successes have been made, existing methods need to search a large space to distinguish direct causes from direct effects of a target variable T. To tackle this issue, we propose a novel Efficient Local Causal Structure learning algorithm, named ELCS. Specifically, we first propose the concept of N-structures, then design an efficient Markov Blanket (MB) discovery subroutine to integrate MB learning with N-structures to learn the MB of T and simultaneously distinguish direct causes from direct effects of T. With the proposed MB subroutine, ELCS starts from the target variable, sequentially finds MBs of variables connected to the target variable and simultaneously constructs local causal structures over MBs until the direct causes and direct effects of the target variable have been distinguished. Using eight Bayesian networks the extensive experiments have validated that ELCS achieves better accuracy and efficiency than the state-of-the-art algorithms.
翻訳日:2021-03-03 17:25:41 公開日:2021-02-28
# adaptive regularized submodular maximization

Adaptive Regularized Submodular Maximization ( http://arxiv.org/abs/2103.00384v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) 本稿では,適応的条件下での適応的部分モジュラー関数と非負的モジュラー関数との差を最大化する問題について検討する。 問題の入力は$n$アイテムのセットで、各アイテムは既知の事前ディストリビューションである$p$から引き出された特定の状態を持っています。 収益関数 $g$ はアイテムとステートで定義され、コスト関数 $c$ はアイテム、すなわち各アイテムが固定コストで定義される。 それぞれのアイテムの状態は最初不明であり、実現された状態を監視するためにアイテムを選択する必要がある。 ポリシー$\pi$は、これまでの観察に基づいて次に選択すべき項目を指定する。 注意:$g_{avg}(\pi)$ 期待される$\pi$ と $c_{avg}(\pi)$ は、期待される$\pi$ のコストを表す。 私たちの目標は、$k$-cardinality制約の下で最高のポリシー$\pi^o\in \arg\max_{\pi}g_{avg}(\pi)-c_{avg}(\pi)$を特定することです。 目的関数は負値と正値の両方を取ることができるので、サブモジュラー最大化の既存の結果は適用できないかもしれない。 この課題を克服するために,我々は,パフォーマンス付与者による効果的なソリューションを連続的に開発する。 $\pi^o$ を最適方針とする。 g$ が適応モノトーンおよび適応部分モジュラの場合、$g_{avg}(\pi^l) - c_{avg}(\pi^l) \geq (1-\frac{1}{e}-\epsilon)g_{avg}(\pi^o) - c_{avg}(\pi^o)$ のみを使用して、$O(n\epsilon^{-2}\log \epsilon^{-1})$ の値オラクルクエリを行うような有効なポリシー $\pi^l$ を開発する。 g$ が適応部分モジュラーである場合、$g_{avg}(\pi^r) - c_{avg}(\pi^r) \geq \frac{1}{e}g_{avg}(\pi^o)c_{avg}(\pi^o)$ となるようなランダム化されたポリシー $\pi^r$ を示す。

In this paper, we study the problem of maximizing the difference between an adaptive submodular (revenue) function and an non-negative modular (cost) function under the adaptive setting. The input of our problem is a set of $n$ items, where each item has a particular state drawn from some known prior distribution $p$. The revenue function $g$ is defined over items and states, and the cost function $c$ is defined over items, i.e., each item has a fixed cost. The state of each item is unknown initially, one must select an item in order to observe its realized state. A policy $\pi$ specifies which item to pick next based on the observations made so far. Denote by $g_{avg}(\pi)$ the expected revenue of $\pi$ and let $c_{avg}(\pi)$ denote the expected cost of $\pi$. Our objective is to identify the best policy $\pi^o\in \arg\max_{\pi}g_{avg}(\pi)-c_{avg}(\pi)$ under a $k$-cardinality constraint. Since our objective function can take on both negative and positive values, the existing results of submodular maximization may not be applicable. To overcome this challenge, we develop a series of effective solutions with performance grantees. Let $\pi^o$ denote the optimal policy. For the case when $g$ is adaptive monotone and adaptive submodular, we develop an effective policy $\pi^l$ such that $g_{avg}(\pi^l) - c_{avg}(\pi^l) \geq (1-\frac{1}{e}-\epsilon)g_{avg}(\pi^o) - c_{avg}(\pi^o)$, using only $O(n\epsilon^{-2}\log \epsilon^{-1})$ value oracle queries. For the case when $g$ is adaptive submodular, we present a randomized policy $\pi^r$ such that $g_{avg}(\pi^r) - c_{avg}(\pi^r) \geq \frac{1}{e}g_{avg}(\pi^o) - c_{avg}(\pi^o)$.
翻訳日:2021-03-03 17:25:26 公開日:2021-02-28
# 階層的誘導点ガウス過程による領域間観測

Hierarchical Inducing Point Gaussian Process for Inter-domain Observations ( http://arxiv.org/abs/2103.00393v1 )

ライセンス: Link先を確認
Luhuan Wu, Andrew Miller, Lauren Anderson, Geoff Pleiss, David Blei, John Cunningham(参考訳) 我々は、領域間ガウス過程(GPs)の一般的な問題を検討する:GP実現とその実現の騒々しい観察が異なる領域にある問題。 これらのドメイン間のマッピングが積分や微分のような線形であるとき、推論は依然として閉じた形式である。 しかし、我々のコミュニティが開発したスケーリングと近似のテクニックの多くは、この設定には当てはまらない。 本研究では,階層型誘導点GP(HIP-GP)を提案する。これは拡張性のあるドメイン間GP推論手法で,数百万への誘導点数を増やすことで近似精度を向上させることができる。 格子構造と定常核仮定を持つ誘導点に依存するHIP-GPは、低次元問題に適しています。 HIP-GPの開発において、(1)高速な白化戦略、(2)一般的なGP設定に役立つ共役勾配のための新しいプレコンディショナーを導入する。

We examine the general problem of inter-domain Gaussian Processes (GPs): problems where the GP realization and the noisy observations of that realization lie on different domains. When the mapping between those domains is linear, such as integration or differentiation, inference is still closed form. However, many of the scaling and approximation techniques that our community has developed do not apply to this setting. In this work, we introduce the hierarchical inducing point GP (HIP-GP), a scalable inter-domain GP inference method that enables us to improve the approximation accuracy by increasing the number of inducing points to the millions. HIP-GP, which relies on inducing points with grid structure and a stationary kernel assumption, is suitable for low-dimensional problems. In developing HIP-GP, we introduce (1) a fast whitening strategy, and (2) a novel preconditioner for conjugate gradients which can be helpful in general GP settings.
翻訳日:2021-03-03 17:18:57 公開日:2021-02-28
# gaussian-smoothed optimal transport distanceのサブガンマ分布と依存サンプルによる収束

Convergence of Gaussian-smoothed optimal transport distance with sub-gamma distributions and dependent samples ( http://arxiv.org/abs/2103.00394v1 )

ライセンス: Link先を確認
Yixing Zhang, Xiuyuan Cheng, Galen Reeves(参考訳) 最近Goldfeldらによって提案されたガウススムース最適輸送(GOT)フレームワークは、推定の高次元にスケールし、エントロピー正規化の代替手段を提供する。 本稿では,より一般的な設定下でのGOT距離を推定するための収束保証を提供する。 d$次元のガウス-スムース$p$-Wasserstein距離の場合、私たちの結果は$d + 2p$より大きい瞬間の存在のみを必要とします。 サブガンマ分布の特別な場合については、次元 $d$ への依存性を定量化し、スケールパラメータに関して位相遷移を確立する。 また,従属標本に対する収束を証明し,核空間の特徴写像の共分散によって測定された試料の対依存条件のみを条件とする。 我々の分析における重要なステップは、ゲット距離がコスト関数とガウス平滑化の量に依存するカーネルの最大平均差(mmd)距離の族によって支配されていることを示すことである。 この洞察は、GOTフレームワークのさらなる解釈可能性を提供し、望ましい特性を持つカーネルMDD距離のクラスも導入する。 理論結果は数値実験によって支持される。

The Gaussian-smoothed optimal transport (GOT) framework, recently proposed by Goldfeld et al., scales to high dimensions in estimation and provides an alternative to entropy regularization. This paper provides convergence guarantees for estimating the GOT distance under more general settings. For the Gaussian-smoothed $p$-Wasserstein distance in $d$ dimensions, our results require only the existence of a moment greater than $d + 2p$. For the special case of sub-gamma distributions, we quantify the dependence on the dimension $d$ and establish a phase transition with respect to the scale parameter. We also prove convergence for dependent samples, only requiring a condition on the pairwise dependence of the samples measured by the covariance of the feature map of a kernel space. A key step in our analysis is to show that the GOT distance is dominated by a family of kernel maximum mean discrepancy (MMD) distances with a kernel that depends on the cost function as well as the amount of Gaussian smoothing. This insight provides further interpretability for the GOT framework and also introduces a class of kernel MMD distances with desirable properties. The theoretical results are supported by numerical experiments.
翻訳日:2021-03-03 17:18:42 公開日:2021-02-28
# 幅・深さを考慮したReLUネットワークの最適近似速度

Optimal Approximation Rate of ReLU Networks in terms of Width and Depth ( http://arxiv.org/abs/2103.00502v1 )

ライセンス: Link先を確認
Zuowei Shen, Haizhao Yang, Shijun Zhang(参考訳) 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。 構成により、幅 $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,N+2\}\big)$ と深さ $\mathcal{O}(L)$ の H\"older continuous function on $[0,1]^d$ の近似レート $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$ を持つ ReLUネットワークがそれぞれ H\alpha\in (0,1]$ と $\lambda>0$ は H\"older order and constantである。 このような速度は、幅と深さの点で別々に一定まで最適であるが、既存の結果は近似率の対数係数なしではほぼ最適である。 より一般的には、任意の連続関数 $f$ on $[0,1]^d$ に対して、近似レートは $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big((N^2L^2\ln N)^{-1/d}\big)\,\big)$ となる。 また、境界付き集合上の任意の連続関数 $f$ に解析を拡張します。 特に、深さ$1$と幅$\mathcal{O}(N)$がLipschitz定数$\lambda>0$で1次元Lipschitz連続関数を$[0,1]$で近似するために使用される場合、パラメータの総数の観点から近似レートは$W=\mathcal{O}(N^2)$となり、固定深度ReLUネットワークの文献では発見されていない$\mathcal{O}(\tfrac{\lambda}{W\ln W})$となる。

This paper concentrates on the approximation power of deep feed-forward neural networks in terms of width and depth. It is proved by construction that ReLU networks with width $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\, N+2\}\big)$ and depth $\mathcal{O}(L)$ can approximate a H\"older continuous function on $[0,1]^d$ with an approximation rate $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$, where $\alpha\in (0,1]$ and $\lambda>0$ are H\"older order and constant, respectively. Such a rate is optimal up to a constant in terms of width and depth separately, while existing results are only nearly optimal without the logarithmic factor in the approximation rate. More generally, for an arbitrary continuous function $f$ on $[0,1]^d$, the approximation rate becomes $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big( (N^2L^2\ln N)^{-1/d}\big)\,\big)$, where $\omega_f(\cdot)$ is the modulus of continuity. We also extend our analysis to any continuous function $f$ on a bounded set. Particularly, if ReLU networks with depth $31$ and width $\mathcal{O}(N)$ are used to approximate one-dimensional Lipschitz continuous functions on $[0,1]$ with a Lipschitz constant $\lambda>0$, the approximation rate in terms of the total number of parameters, $W=\mathcal{O}(N^2)$, becomes $\mathcal{O}(\tfrac{\lambda}{W\ln W})$, which has not been discovered in the literature for fixed-depth ReLU networks.
翻訳日:2021-03-03 17:18:23 公開日:2021-02-28
# 情報融合のためのラベル付きマルチカノニカル相関解析

The Labeled Multiple Canonical Correlation Analysis for Information Fusion ( http://arxiv.org/abs/2103.00359v1 )

ライセンス: Link先を確認
Lei Gao, Rui Zhang, Lin Qi, Enqing Chen, and Ling Guan(参考訳) マルチモーダル情報融合の目的は、異なるソースに含まれる情報を数学的に分析し、パターン認識やその他のマルチメディア情報処理タスクでより効果的に利用される新しい表現を作成することです。 本稿では,ラベル付き多重正準相関解析(LMCCA)に基づくマルチモーダル情報融合と表現の新しい手法を提案する。 LMCCAは、トレーニングサンプルのクラスラベル情報を取り入れることにより、融合した特徴がマルチモーダル情報表現の識別特性を担い、優れた認識性能を提供できることを保証します。 音声領域と視覚領域の両方の情報を含むバイモーダルな人間の感情認識を用いて,手書き文字認識,顔認識,物体認識においてその効果を示すために,lmccaのプロトタイプを実装した。 LMCCAの一般的な性質は、ディープラーニング(DL)手法を含むあらゆる手段によって抽出された入力特徴として利用することができる。 実験結果から,提案手法は統計的機械学習(SML)手法とDLに基づく手法の両方の性能を向上させた。

The objective of multimodal information fusion is to mathematically analyze information carried in different sources and create a new representation which will be more effectively utilized in pattern recognition and other multimedia information processing tasks. In this paper, we introduce a new method for multimodal information fusion and representation based on the Labeled Multiple Canonical Correlation Analysis (LMCCA). By incorporating class label information of the training samples,the proposed LMCCA ensures that the fused features carry discriminative characteristics of the multimodal information representations, and are capable of providing superior recognition performance. We implement a prototype of LMCCA to demonstrate its effectiveness on handwritten digit recognition,face recognition and object recognition utilizing multiple features,bimodal human emotion recognition involving information from both audio and visual domains. The generic nature of LMCCA allows it to take as input features extracted by any means,including those by deep learning (DL) methods. Experimental results show that the proposed method enhanced the performance of both statistical machine learning (SML) methods, and methods based on DL.
翻訳日:2021-03-03 17:13:28 公開日:2021-02-28
# 限られた監督による医用画像分割:深層ネットワークモデルの検討

Medical Image Segmentation with Limited Supervision: A Review of Deep Network Models ( http://arxiv.org/abs/2103.00429v1 )

ライセンス: Link先を確認
Jialin Peng, Ye Wang(参考訳) さまざまなタスクにおけるディープラーニングメソッドの驚くべきパフォーマンスにもかかわらず、ほとんどの最先端のモデルは、大規模な注釈付きトレーニングの例に大きく依存しています。 医用画像のラベリングコストは非常に高く、特に医療用画像のセグメンテーションでは、通常はピクセル/ボクセル単位でのラベリングが必要となる。 したがって,医療画像分割における深層学習モデルの成功には,限定的なアノテーション量,スパースアノテーション,不正確なアノテーションなど,限定的な監督による学習と一般化の強力な能力が不可欠である。 しかし、本質的な困難さから、限定的な監督によるセグメンテーションは困難であり、特定のモデル設計および/または学習戦略が必要である。 本稿では,上記のソリューションの体系的かつ最新のレビューを行い,方法論に関する要約とコメントを提供する。 また,本研究の問題点を浮き彫りにし,今後の研究の方向性について考察した。

Despite the remarkable performance of deep learning methods on various tasks, most cutting-edge models rely heavily on large-scale annotated training examples, which are often unavailable for clinical and health care tasks. The labeling costs for medical images are very high, especially in medical image segmentation, which typically requires intensive pixel/voxel-wise labeling. Therefore, the strong capability of learning and generalizing from limited supervision, including a limited amount of annotations, sparse annotations, and inaccurate annotations, is crucial for the successful application of deep learning models in medical image segmentation. However, due to its intrinsic difficulty, segmentation with limited supervision is challenging and specific model design and/or learning strategies are needed. In this paper, we provide a systematic and up-to-date review of the solutions above, with summaries and comments about the methodologies. We also highlight several problems in this field, discussed future directions observing further investigations.
翻訳日:2021-03-03 17:13:11 公開日:2021-02-28
# LRG at TREC 2020: Document Ranking with XLNet-based Models

LRG at TREC 2020: Document Ranking with XLNet-Based Models ( http://arxiv.org/abs/2103.00380v1 )

ライセンス: Link先を確認
Abheesht Sharma and Harshit Pandey(参考訳) 人気のあるエンターテインメント媒体で優れた情報検索システムを確立することは、企業や研究者にとっても急速に成長している調査分野です。 私たちはポッドキャストの情報検索の領域を掘り下げます。 SpotifyのPodcast Challengeでは、すべてのポッドキャストを持つ特定のデータセットから最も関連する短いセグメントを見つけるための説明付きのユーザーのクエリが与えられています。 古典的情報検索(IR)技術のみを含む従来の手法では、記述的なクエリが提示された場合、性能が低下する。 一方、大規模ニューラルネットワークにのみ依存するモデルは、パフォーマンスが向上する傾向にある。 この手法の欠点は、結果を推測するためにかなりの時間と計算能力が必要であることである。 従来のIR技術を用いて,ユーザからの問い合わせに基づいてベストなポッドキャストをフィルタリングし,トランスベースモデルを用いて詳細記述に基づくショートリスト文書を再ランク付けする2つのハイブリッドモデルを実験した。

Establishing a good information retrieval system in popular mediums of entertainment is a quickly growing area of investigation for companies and researchers alike. We delve into the domain of information retrieval for podcasts. In Spotify's Podcast Challenge, we are given a user's query with a description to find the most relevant short segment from the given dataset having all the podcasts. Previous techniques that include solely classical Information Retrieval (IR) techniques, perform poorly when descriptive queries are presented. On the other hand, models which exclusively rely on large neural networks tend to perform better. The downside to this technique is that a considerable amount of time and computing power are required to infer the result. We experiment with two hybrid models which first filter out the best podcasts based on user's query with a classical IR technique, and then perform re-ranking on the shortlisted documents based on the detailed description using a transformer-based model.
翻訳日:2021-03-03 17:07:00 公開日:2021-02-28
# オンラインストリーミングアテンションに基づく音声認識のためのアライメント知識蒸留

Alignment Knowledge Distillation for Online Streaming Attention-based Speech Recognition ( http://arxiv.org/abs/2103.00422v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Tatsuya Kawahara(参考訳) 本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。 AEDモデルは、すべてのコンポーネントを共同最適化することで、オフラインシナリオにおける競合的なパフォーマンスを実現している。 最近では monotonic chunkwise attention (mocha) などのモデルを通じて,オンラインストリーミングフレームワークにも拡張されている。 しかし, 長文発話では, 精巧な注意計算処理は頑健ではない。 さらに、シーケンスレベルのトレーニング目標と時間制限ストリーミングエンコーダは、推論中にトークンの放出が無視できない遅延を引き起こす。 そこで本研究では,CTC同期トレーニング(CTC-ST)を提案し,CTCアライメントをトークンバウンダリの参照として利用し,MoChAモデルが最適のモノトニック入力出力アライメントを学習できるようにする。 CTCとMoChAの境界を同期させるため、純粋にエンドツーエンドのトレーニング目標を定式化する。 CTCモデルはエンコーダ表現を強化するために、MoChAモデルとエンコーダを共有する。 さらに,提案手法はctcブランチで学習したアライメント情報を注意に基づくデコーダに提供する。 したがって、CTC-STはCTCからMoChAへのアライメント知識の自己蒸留とみなすことができる。 様々なベンチマークデータセットにおける実験的評価により,提案手法は認識誤りと遅延を同時に低減し,特に長文音声と雑音音声を同時に検出できることがわかった。 また, ハイブリッドasrシステムからアライメント知識を蒸留する手法とctc-stを比較し, 外部アライメント情報に頼らずに精度とレイテンシのトレードオフを実現できることを示した。 最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。

This article describes an efficient training method for online streaming attention-based encoder-decoder (AED) automatic speech recognition (ASR) systems. AED models have achieved competitive performance in offline scenarios by jointly optimizing all components. They have recently been extended to an online streaming framework via models such as monotonic chunkwise attention (MoChA). However, the elaborate attention calculation process is not robust for long-form speech utterances. Moreover, the sequence-level training objective and time-restricted streaming encoder cause a nonnegligible delay in token emission during inference. To address these problems, we propose CTC synchronous training (CTC-ST), in which CTC alignments are leveraged as a reference for token boundaries to enable a MoChA model to learn optimal monotonic input-output alignments. We formulate a purely end-to-end training objective to synchronize the boundaries of MoChA to those of CTC. The CTC model shares an encoder with the MoChA model to enhance the encoder representation. Moreover, the proposed method provides alignment information learned in the CTC branch to the attention-based decoder. Therefore, CTC-ST can be regarded as self-distillation of alignment knowledge from CTC to MoChA. Experimental evaluations on a variety of benchmark datasets show that the proposed method significantly reduces recognition errors and emission latency simultaneously, especially for long-form and noisy speech. We also compare CTC-ST with several methods that distill alignment knowledge from a hybrid ASR system and show that the CTC-ST can achieve a comparable tradeoff of accuracy and latency without relying on external alignment information. The best MoChA system shows performance comparable to that of RNN-transducer (RNN-T).
翻訳日:2021-03-03 17:06:45 公開日:2021-02-28
# よりよい民主主義のための市民参加と機械学習

Citizen Participation and Machine Learning for a Better Democracy ( http://arxiv.org/abs/2103.00508v1 )

ライセンス: Link先を確認
M. Arana-Catania, F.A. Van Lier, Rob Procter, Nataliya Tkachenko, Yulan He, Arkaitz Zubiaga, Maria Liakata(参考訳) 民主システムの開発は、国連によるミレニアム持続可能な開発目標の1つとして、その選択によって確認される重要なタスクです。 本稿では、情報過負荷の障壁に対処することを目的としたプロジェクトの進捗状況を報告し、民主的な意思決定プロセスで効果的な直接市民参加を達成する。 主な目的は、自然言語処理(NLP)と機械学習の応用が、デジタル市民参加プラットフォームにおける市民の経験を改善することができるかどうかを探ることである。 市民が市議会で採用したい政策の提案を提出できる「デシド・マドリード」・コンサル・プラットフォームを事例研究として、我々は、NLPと機械学習を使って、(a)支援したいと思われる市民の提案に新しい方法を提案し、(b)グループ市民が互いにより簡単に対話できるようにし、(c)提案に応えて投稿されたコメントを要約し、(d)提案を集約し、開発する市民を支援する。 結果の評価は、NLPと機械学習が、現在経験しているConsulのようなプラットフォームの障壁ユーザに対処するために果たす役割があることを証明している。

The development of democratic systems is a crucial task as confirmed by its selection as one of the Millennium Sustainable Development Goals by the United Nations. In this article, we report on the progress of a project that aims to address barriers, one of which is information overload, to achieving effective direct citizen participation in democratic decision-making processes. The main objectives are to explore if the application of Natural Language Processing (NLP) and machine learning can improve citizens' experience of digital citizen participation platforms. Taking as a case study the "Decide Madrid" Consul platform, which enables citizens to post proposals for policies they would like to see adopted by the city council, we used NLP and machine learning to provide new ways to (a) suggest to citizens proposals they might wish to support; (b) group citizens by interests so that they can more easily interact with each other; (c) summarise comments posted in response to proposals; (d) assist citizens in aggregating and developing proposals. Evaluation of the results confirms that NLP and machine learning have a role to play in addressing some of the barriers users of platforms such as Consul currently experience.
翻訳日:2021-03-03 17:06:18 公開日:2021-02-28
# 手眼協調による一般化:空間不変振動数制御学習のための行動空間

Generalization Through Hand-Eye Coordination: An Action Space for Learning Spatially-Invariant Visuomotor Control ( http://arxiv.org/abs/2103.00375v1 )

ライセンス: Link先を確認
Chen Wang, Rui Wang, Danfei Xu, Ajay Mandlekar, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習(il)は、オフラインデモデータから視覚能力を学ぶための効果的なフレームワークである。 しかし、ILメソッドはトレーニングデータでカバーされていない新しいシーン構成に一般化できないことが多い。 一方、人間は様々な条件で物体を操作することができる。 このような能力の鍵となるのは、目の動きをタスク関連オブジェクトに適応的に誘導し、物体の絶対的な空間的位置と不変な認知能力である。 本研究では,人間の遠隔操作による実演から学習することにより,人間の手目協調行動を近似する学習可能な行動空間である手目行動ネットワーク(han)を提案する。 課題のある多段階操作タスクの集合を通じて,HANを具備したビズモータポリシが,目視調整の重要空間不変性を継承し,新たなシーン構成へのゼロショット一般化を実現することができることを示す。 https://sites.google.com/stanford.edu/han

Imitation Learning (IL) is an effective framework to learn visuomotor skills from offline demonstration data. However, IL methods often fail to generalize to new scene configurations not covered by training data. On the other hand, humans can manipulate objects in varying conditions. Key to such capability is hand-eye coordination, a cognitive ability that enables humans to adaptively direct their movements at task-relevant objects and be invariant to the objects' absolute spatial location. In this work, we present a learnable action space, Hand-eye Action Networks (HAN), that can approximate human's hand-eye coordination behaviors by learning from human teleoperated demonstrations. Through a set of challenging multi-stage manipulation tasks, we show that a visuomotor policy equipped with HAN is able to inherit the key spatial invariance property of hand-eye coordination and achieve zero-shot generalization to new scene configurations. Additional materials available at https://sites.google.com/stanford.edu/han
翻訳日:2021-03-03 17:03:49 公開日:2021-02-28
# 複雑クエリアンサーのためのロジック埋め込み

Logic Embeddings for Complex Query Answering ( http://arxiv.org/abs/2103.00418v1 )

ライセンス: Link先を確認
Francois Luus, Prithviraj Sen, Pavan Kapanipathi, Ryan Riegel, Ndivhuwo Makondo, Thabang Lebese, Alexander Gray(参考訳) 不完全知識ベースに対する論理的クエリの解答は,1)暗黙的リンク予測,2)存在一階述語論理的クエリのブルート力応答は,存在変数数で指数関数的であるため,困難である。 クエリ埋め込みの最近の作業は高速なクエリを提供するが、ほとんどのアプローチはクローズドな領域で論理をモデル化する。 否定をサポートするクエリ埋め込みは、欠点を被る密度を使用する。1) ロジックの即興化、2) 高価なディストリビューションの使用、3) モデルの答えの不確実性。 本稿では,skolemizationを用いて効率的なクエリのための存在変数を排除する,複雑なクエリを組込む新しい手法であるlogic embeddedsを提案する。 1) 熟達した t-ノルム論理を統合し、満足度を直接評価する、2) 真理値によるモデリングを単純化する、3) 真理境界を持つ不確かさをモデル化する。 論理埋め込みは、大きな不完全な知識グラフ上でのクエリ応答において競争的に高速で正確であり、否定クエリよりも優れており、特に、応答集合のサイズと埋め込みエントロピーの間の優れた相関によって証明された、応答の不確かさのモデリングを改善する。

Answering logical queries over incomplete knowledge bases is challenging because: 1) it calls for implicit link prediction, and 2) brute force answering of existential first-order logic queries is exponential in the number of existential variables. Recent work of query embeddings provides fast querying, but most approaches model set logic with closed regions, so lack negation. Query embeddings that do support negation use densities that suffer drawbacks: 1) only improvise logic, 2) use expensive distributions, and 3) poorly model answer uncertainty. In this paper, we propose Logic Embeddings, a new approach to embedding complex queries that uses Skolemisation to eliminate existential variables for efficient querying. It supports negation, but improves on density approaches: 1) integrates well-studied t-norm logic and directly evaluates satisfiability, 2) simplifies modeling with truth values, and 3) models uncertainty with truth bounds. Logic Embeddings are competitively fast and accurate in query answering over large, incomplete knowledge graphs, outperform on negation queries, and in particular, provide improved modeling of answer uncertainty as evidenced by a superior correlation between answer set size and embedding entropy.
翻訳日:2021-03-03 17:03:31 公開日:2021-02-28
# SpikeDyn: 動的環境における継続的および教師なし学習能力を備えたエネルギー効率の高いスパイクニューラルネットワークのフレームワーク

SpikeDyn: A Framework for Energy-Efficient Spiking Neural Networks with Continual and Unsupervised Learning Capabilities in Dynamic Environments ( http://arxiv.org/abs/2103.00424v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) Spiking Neural Networks(SNN)は、生物学的な可能性のために効率的な教師なしおよび継続的な学習能力を持つ可能性がありますが、その複雑さは、リソース制約のあるシナリオ(組み込みシステム、IoT-Edgeなど)のエネルギー効率の高い設計を可能にするための深刻な研究課題です。 本研究では,動的環境下での非教師なし学習機能を備えたエネルギー効率の高いSNNのための総合的なフレームワークであるSpikeDynを提案する。 It is achieved through the following multiple diverse mechanisms: 1) reduction of neuronal operations, by replacing the inhibitory neurons with direct lateral inhibitions; 2) a memory- and energy-constrained SNN model search algorithm that employs analytical models to estimate the memory footprint and energy consumption of different candidate SNN models and selects a Pareto-optimal SNN model; and 3) a lightweight continual and unsupervised learning algorithm that employs adaptive learning rates, adaptive membrane threshold potential, weight decay, and reduction of spurious updates. 実験の結果,400個の興奮ニューロンを持つネットワークでは,SpykeDynはトレーニングで平均51%,推論で平均37%のエネルギー消費を減少させることがわかった。 学習アルゴリズムの改善により、SpikeDynはavgを提供する。 21%の精度向上で,最新の学習タスクを分類し,前回の学習タスクでは平均8%向上した。

Spiking Neural Networks (SNNs) bear the potential of efficient unsupervised and continual learning capabilities because of their biological plausibility, but their complexity still poses a serious research challenge to enable their energy-efficient design for resource-constrained scenarios (like embedded systems, IoT-Edge, etc.). We propose SpikeDyn, a comprehensive framework for energy-efficient SNNs with continual and unsupervised learning capabilities in dynamic environments, for both the training and inference phases. It is achieved through the following multiple diverse mechanisms: 1) reduction of neuronal operations, by replacing the inhibitory neurons with direct lateral inhibitions; 2) a memory- and energy-constrained SNN model search algorithm that employs analytical models to estimate the memory footprint and energy consumption of different candidate SNN models and selects a Pareto-optimal SNN model; and 3) a lightweight continual and unsupervised learning algorithm that employs adaptive learning rates, adaptive membrane threshold potential, weight decay, and reduction of spurious updates. Our experimental results show that, for a network with 400 excitatory neurons, our SpikeDyn reduces the energy consumption on average by 51% for training and by 37% for inference, as compared to the state-of-the-art. Due to the improved learning algorithm, SpikeDyn provides on avg. 21% accuracy improvement over the state-of-the-art, for classifying the most recently learned task, and by 8% on average for the previously learned tasks.
翻訳日:2021-03-03 17:03:07 公開日:2021-02-28
# 統計的保証付きコミュニケーション効率の高いビザンチン・ロバスト分散学習

Communication-efficient Byzantine-robust distributed learning with statistical guarantee ( http://arxiv.org/abs/2103.00373v1 )

ライセンス: Link先を確認
Xingcai Zhou, Le Chang, Pengfei Xu and Shaogao Lv(参考訳) コミュニケーション効率と堅牢性は、現代の分散学習フレームワークにおける2つの大きな問題である。 これは、一部の計算ノードが通信能力に制限がある場合や、敵対的な振る舞いをする場合の現実的な状況によるものである。 この2つの問題を同時に解決するために,本論文では,凸問題に対するコミュニケーション効率とロバストな分散学習アルゴリズムを2つ開発する。 我々のモチベーションは、確率フレームワークと中央値とトリミング平均演算に基づいている。 特に,提案手法はビザンチンの故障に対して頑健であり,かつ,強い凸損失と凸(非スムース)ペナルティに対する最適統計率を達成している。 一般化線形モデルのような典型的な統計モデルでは、統計的誤差が有限反復の最適化誤差を支配していることを示す。 シミュレーションおよび実データ実験を行い,アルゴリズムの数値性能を実証した。

Communication efficiency and robustness are two major issues in modern distributed learning framework. This is due to the practical situations where some computing nodes may have limited communication power or may behave adversarial behaviors. To address the two issues simultaneously, this paper develops two communication-efficient and robust distributed learning algorithms for convex problems. Our motivation is based on surrogate likelihood framework and the median and trimmed mean operations. Particularly, the proposed algorithms are provably robust against Byzantine failures, and also achieve optimal statistical rates for strong convex losses and convex (non-smooth) penalties. For typical statistical models such as generalized linear models, our results show that statistical errors dominate optimization errors in finite iterations. Simulated and real data experiments are conducted to demonstrate the numerical performance of our algorithms.
翻訳日:2021-03-03 17:00:00 公開日:2021-02-28
# ジェネレーティブ・アドバーサリー・ネットワークを1つの段階でトレーニングする

Training Generative Adversarial Networks in One Stage ( http://arxiv.org/abs/2103.00430v1 )

ライセンス: Link先を確認
Chengchao Shen, Youtan Yin, Xinchao Wang, Xubin LI, Jie Song, Mingli Song(参考訳) GAN(Generative Adversarial Networks)は、様々な画像生成タスクで前例のない成功を収めています。 しかし、奨励的な結果は、発電機と識別器が2つの段階に交互に更新される面倒なトレーニングプロセスの価格で提供されます。 本稿では,1段階のみに効率よくGANを訓練できる総合的な訓練手法について検討する。 生成器と識別器の対角的損失に基づいて、GANを対称的GANと非対称的GANの2つのクラスに分類し、2つのクラスを統一する新たな勾配分解法を導入し、両方のクラスを1段階にトレーニングし、トレーニング作業を緩和する。 いくつかのデータセットと様々なネットワークアーキテクチャの計算解析と実験結果から,提案した1段階トレーニングスキームは,ジェネレータと判別器のネットワークアーキテクチャによらず,従来のトレーニングスキームよりも1.5$\times$加速度が得られた。 さらに,提案手法は,データフリーナレッジ蒸留など,他の対比訓練シナリオにも容易に適用できることを示した。 ソースコードはもうすぐ公開します。

Generative Adversarial Networks (GANs) have demonstrated unprecedented success in various image generation tasks. The encouraging results, however, come at the price of a cumbersome training process, during which the generator and discriminator are alternately updated in two stages. In this paper, we investigate a general training scheme that enables training GANs efficiently in only one stage. Based on the adversarial losses of the generator and discriminator, we categorize GANs into two classes, Symmetric GANs and Asymmetric GANs, and introduce a novel gradient decomposition method to unify the two, allowing us to train both classes in one stage and hence alleviate the training effort. Computational analysis and experimental results on several datasets and various network architectures demonstrate that, the proposed one-stage training scheme yields a solid 1.5$\times$ acceleration over conventional training schemes, regardless of the network architectures of the generator and discriminator. Furthermore, we show that the proposed method is readily applicable to other adversarial-training scenarios, such as data-free knowledge distillation. Our source code will be published soon.
翻訳日:2021-03-03 16:56:11 公開日:2021-02-28
# 自己診断と自己偏見:NLPにおけるコーパスベースのバイアス削減の提案

Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP ( http://arxiv.org/abs/2103.00453v1 )

ライセンス: Link先を確認
Timo Schick, Sahana Udupa, Hinrich Sch\"utze(参考訳) インターネットから大規模なフィルターなしのクロールで訓練されると、言語モデルはデータに含まれるすべての種類の望ましくないバイアスを拾い、再現します。 大規模なモデルは、しばしば優れたパフォーマンスを達成するために数百万のトレーニング例を必要とするため、そのようなコンテンツに曝されることを完全に防ぐことは困難です。 本論文では,事前に訓練された言語モデルが好ましくないバイアスを示すか,あるいは有毒なコンテンツを生成するかについて検討する。 そこで本研究では,意図しない動作のテキスト記述だけで問題のあるテキストを生成するモデルの確率を低減できる復号アルゴリズムを提案する。 このアルゴリズムは、手動でキュレートされたワードリストに頼らず、トレーニングデータやモデルのパラメータの変更も必要としない。 このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。

When trained on large, unfiltered crawls from the internet, language models pick up and reproduce all kinds of undesirable biases that can be found in the data: they often generate racist, sexist, violent or otherwise toxic language. As large models often require millions of training examples to achieve good performance, it is difficult to completely prevent them from being exposed to such content. In this paper, we investigate whether pretrained language models at least know when they exhibit some undesirable bias or produce toxic content. Based on our findings, we propose a decoding algorithm that reduces the probability of a model producing problematic text given only a textual description of the undesired behavior. This algorithm does not rely on manually curated word lists, nor does it require any training data or changes to the model's parameters. While our approach does by no means eliminate the issue of language models generating biased text, we believe it to be an important step in this direction.
翻訳日:2021-03-03 16:49:59 公開日:2021-02-28
# NLP-CUET@DravidianLangTech-EACL2021:Transformerを用いた多言語コード混合テキストからの攻撃言語検出

NLP-CUET@DravidianLangTech-EACL2021: Offensive Language Detection from Multilingual Code-Mixed Text using Transformers ( http://arxiv.org/abs/2103.00455v1 )

ライセンス: Link先を確認
Omar Sharif, Eftekhar Hossain, Mohammed Moshiul Hoque(参考訳) インターネットのアクセシビリティが高まり、ソーシャルメディアの利用が促進され、個人は自由に意見を表現できるようになった。 それにもかかわらず、コンテンツ汚染者が攻撃的な投稿やコンテンツを広める場所も作成します。 このような攻撃的な投稿のほとんどは多言語で書かれており、オンライン監視システムを簡単に回避できます。 本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。 タスクでは、Tamil、Malayalam、Kannadaの3つの言語で提供されるデータセットが英語とコードミックスされ、参加者は言語ごとに別々のモデルを実装するように求められます。 これらの課題を達成するために,我々は,2つの機械学習技術(LR,SVM),3つのディープラーニング技術(LSTM,LSTM+Attention)と3つのトランスフォーマー(m-BERT,Indic-BERT,XLM-R)を用いた。 結果は、XLM-Rがタミル語とマラヤラム語の他の技術よりも優れていることを示し、m-BERTはカンナダ語で最も高いスコアを達成している。 提案されたモデルは、それぞれ$0.76$(タミル用)、$0.93$(マラヤラム用)、$0.71$(カンナダ用)の重み付き$f_1$スコアを獲得し、それぞれ$3^{rd}$、$5^{th}$、$4^{th}$となった。

The increasing accessibility of the internet facilitated social media usage and encouraged individuals to express their opinions liberally. Nevertheless, it also creates a place for content polluters to disseminate offensive posts or contents. Most of such offensive posts are written in a cross-lingual manner and can easily evade the online surveillance systems. This paper presents an automated system that can identify offensive text from multilingual code-mixed data. In the task, datasets provided in three languages including Tamil, Malayalam and Kannada code-mixed with English where participants are asked to implement separate models for each language. To accomplish the tasks, we employed two machine learning techniques (LR, SVM), three deep learning (LSTM, LSTM+Attention) techniques and three transformers (m-BERT, Indic-BERT, XLM-R) based methods. Results show that XLM-R outperforms other techniques in Tamil and Malayalam languages while m-BERT achieves the highest score in the Kannada language. The proposed models gained weighted $f_1$ score of $0.76$ (for Tamil), $0.93$ (for Malayalam), and $0.71$ (for Kannada) with a rank of $3^{rd}$, $5^{th}$ and $4^{th}$ respectively.
翻訳日:2021-03-03 16:49:43 公開日:2021-02-28
# NLP-CUET@LT-EDI-EACL2021:クロスランガル表現学習者を用いた多言語コード混合希望音声検出

NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner ( http://arxiv.org/abs/2103.00464v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque(参考訳) 近年, ネットプラットフォームからの攻撃的, 攻撃的, 虐待的コンテンツを排除するために, ネガティビティの拡散を規制するシステムが開発されている。 それでも、肯定的、奨励的、支持的な内容を特定するために行われた研究は限られている。 本研究の目的は,ソーシャルメディアの投稿や投稿がホープスピーチを含むかどうかを識別することである。 本研究では, 英語, タミル語, マラヤラム語の希望語を同定する3つのモデルを提案する。 この目標を達成するために、我々は様々な機械学習(サポートベクターマシン、ロジスティック回帰、アンサンブル)、ディープラーニング(畳み込みニューラルネットワーク+長期記憶)、トランスフォーマー(m-BERT, Indic-BERT, XLNet, XLM-Roberta)ベースの手法を用いた。 その結果、XLM-Robertaは、英語、タミル語、マラヤラム語で重み付き$0.93$、$0.60$、$0.85$の$f_1$スコアを得ることで、他のすべてのテクニックを上回っている。 私たちのチームは、3つのタスクでそれぞれ$1^{st}$、$2^{nd}$、$1^{st}$ランクを達成しました。

In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a social media post/comment contains hope speech or not. We propose three distinct models to identify hope speech in English, Tamil and Malayalam language to serve this purpose. To attain this goal, we employed various machine learning (support vector machine, logistic regression, ensemble), deep learning (convolutional neural network + long short term memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods. Results indicate that XLM-Roberta outdoes all other techniques by gaining a weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English, Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and $1^{st}$ rank in these three tasks respectively.
翻訳日:2021-03-03 16:49:15 公開日:2021-02-28
# KANDINSKYPatterns -- パターン分析とマシンインテリジェンスのための実験的探索環境

KANDINSKYPatterns -- An experimental exploration environment for Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2103.00519v1 )

ライセンス: Link先を確認
Andreas Holzinger, Anna Saranti, Heimo Mueller(参考訳) 機械学習は、高品質なトレーニングデータを持つ標準的な認識タスクで非常に成功しています。 機械レベルのパターン認識と人間レベルの概念学習の間にはまだ大きなギャップがあります。 人間はいくつかの例から不確実性の下で学び、これらの概念を一般化して新しい問題を解決することができる。 説明可能なマシンインテリジェンスへの関心が高まっているため、現場の進歩を促進するために既存のアプローチの弱点を分析するために実験環境と診断テストが必要である。 本稿では, cleVR, CLEVERER, CLOSURE, CURI, Bongard-LOGO, V-PROMなどの既存の診断テストとテストデータセットについて考察し, 自身の実験環境を提示する。 すべての知覚が 幾何学的に原始的な個々の要素から成り立っています これは1960年代にHubel & Wieselによって実験的に証明され、NeocognitronやDeep Learningのような機械学習アプローチの基礎となった。 一方、KADINSKYPatternsは計算的に制御可能な性質を持つが、人間の観察者、すなわち制御されたパターンは人間とアルゴリズムの両方で記述できるため、機械知能の国際研究にもう1つの重要な貢献をする。

Machine intelligence is very successful at standard recognition tasks when having high-quality training data. There is still a significant gap between machine-level pattern recognition and human-level concept learning. Humans can learn under uncertainty from only a few examples and generalize these concepts to solve new problems. The growing interest in explainable machine intelligence, requires experimental environments and diagnostic tests to analyze weaknesses in existing approaches to drive progress in the field. In this paper, we discuss existing diagnostic tests and test data sets such as CLEVR, CLEVERER, CLOSURE, CURI, Bongard-LOGO, V-PROM, and present our own experimental environment: The KANDINSKYPatterns, named after the Russian artist Wassily Kandinksy, who made theoretical contributions to compositivity, i.e. that all perceptions consist of geometrically elementary individual components. This was experimentally proven by Hubel &Wiesel in the 1960s and became the basis for machine learning approaches such as the Neocognitron and the even later Deep Learning. While KANDINSKYPatterns have computationally controllable properties on the one hand, bringing ground truth, they are also easily distinguishable by human observers, i.e., controlled patterns can be described by both humans and algorithms, making them another important contribution to international research in machine intelligence.
翻訳日:2021-03-03 16:46:09 公開日:2021-02-28
# オンラインミラーDescentで平均フィールドゲームを拡大

Scaling up Mean Field Games with Online Mirror Descent ( http://arxiv.org/abs/2103.00623v1 )

ライセンス: Link先を確認
Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Lauri\`ere, Georgios Piliouras, Matthieu Geist, Karl Tuyls, Olivier Pietquin(参考訳) オンラインミラーディサント(OMD)を用いた平均フィールドゲーム(MFG)における平衡計算のスケールアップに取り組んでいます。 連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。 この理論結果は、マルチ人口ゲームや一般的なノイズを含む設定にうまく拡張されます。 様々な単一および多集団のMFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。 我々は、数十億の国家を持つMFGの例を初めて解くことにより、OCDがFPよりもスケールアップし、大幅に速く収束することを実証的に示しています。 この研究は、大規模なマルチエージェントおよびマルチ人口ゲームで学習するための最先端を確立します。

We address scaling up equilibrium computation in Mean Field Games (MFGs) using Online Mirror Descent (OMD). We show that continuous-time OMD provably converges to a Nash equilibrium under a natural and well-motivated set of monotonicity assumptions. This theoretical result nicely extends to multi-population games and to settings involving common noise. A thorough experimental investigation on various single and multi-population MFGs shows that OMD outperforms traditional algorithms such as Fictitious Play (FP). We empirically show that OMD scales up and converges significantly faster than FP by solving, for the first time to our knowledge, examples of MFGs with hundreds of billions states. This study establishes the state-of-the-art for learning in large-scale multi-agent and multi-population games.
翻訳日:2021-03-03 16:45:45 公開日:2021-02-28
# デュアル不確実性推定を用いたラベルノイズによる医用画像分類の改善

Improving Medical Image Classification with Label Noise Using Dual-uncertainty Estimation ( http://arxiv.org/abs/2103.00528v1 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Lin Wang, Dwarikanath Mahapatra, Xin Zhao, Mehrtash Harandi, Tom Drummond, Tongliang Liu, Zongyuan Ge(参考訳) ディープニューラルネットワークはデータ駆動であることが知られており、ラベルノイズはモデルのパフォーマンスに著しい影響を与える可能性がある。 近年の研究では、高雑音下でも古典的な画像認識に強い頑健性が示されている。 医療用アプリケーションでは、医療用イメージングデータセットが非対称(クラス依存)ノイズを持ち、高いオブザーバー変動に苦しむため、ラベルノイズを持つデータセットからの学習はより困難です。 本稿では,医用画像における2つの一般的なラベルノイズ,すなわち不整合専門家の意見と誤診断記録の単一目標ラベルノイズを系統的に議論し,定義する。 次に、医用画像分類作業中の2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。 直接不確実性予測とモンテカルロドロップアウトによる不一致ラベルノイズと単一目標ラベルノイズの2つの不確実性推定手法を考案した。 後日、堅牢な学習のために強化ベースのカリキュラムトレーニング手順が導入される。 皮膚病変,前立腺癌,網膜疾患の3つの疾患について広範な実験を行い,本手法の有効性を実証した。 また、評価とベンチマークのための非バイアスの黄金標準データセットを持つ10人以上の眼科医のアノテーションで構成される大規模な再エンジニアリングデータベースもリリースしました。

Deep neural networks are known to be data-driven and label noise can have a marked impact on model performance. Recent studies have shown great robustness to classic image recognition even under a high noisy rate. In medical applications, learning from datasets with label noise is more challenging since medical imaging datasets tend to have asymmetric (class-dependent) noise and suffer from high observer variability. In this paper, we systematically discuss and define the two common types of label noise in medical images - disagreement label noise from inconsistency expert opinions and single-target label noise from wrong diagnosis record. We then propose an uncertainty estimation-based framework to handle these two label noise amid the medical image classification task. We design a dual-uncertainty estimation approach to measure the disagreement label noise and single-target label noise via Direct Uncertainty Prediction and Monte-Carlo-Dropout. A boosting-based curriculum training procedure is later introduced for robust learning. We demonstrate the effectiveness of our method by conducting extensive experiments on three different diseases: skin lesions, prostate cancer, and retinal diseases. We also release a large re-engineered database that consists of annotations from more than ten ophthalmologists with an unbiased golden standard dataset for evaluation and benchmarking.
翻訳日:2021-03-03 16:41:49 公開日:2021-02-28
# スノーハザードインジケーターの積雪夜間変換器とセマンティックセグメンテーションラベル類似性

Snowy Night-to-Day Translator and Semantic Segmentation Label Similarity for Snow Hazard Indicator ( http://arxiv.org/abs/2103.00545v1 )

ライセンス: Link先を確認
Takato Yasuno, Hiroaki Sugawara, Junichiro Fujii, Ryuto Yoshida(参考訳) 2021年、日本は通常の3倍以上の降雪を記録したため、道路利用者は危険な状況に遭遇する可能性がある。 雪による視界不良は交通事故を引き起こします。 例えば、2021年1月19日、乾燥した雪と27m/sの強い風速のために吹雪が発生し、展望は効果が無かった。 ホワイトアウト現象により17名が負傷した複数の事故が発生し、134台の車両が1kmにわたって10時間積み上げられた。 夜の時間帯には気温が下がり、路面は凍る傾向がある。 道路面のCCTV画像は,主要地点の状況を同時に監視できるという利点がある。 道路管理者は、夜間でも路面状態のため、道路閉鎖や除雪作業の決定を行う必要があります。 並行して、危険な道路表面の警告を道路利用者に提供する。 本稿では, 夜間降雪画像から道路表面積が生成する雪害指標を, 条件GAN, pix2pixを用いて自動化する手法を提案する。 また,道路面と積雪ROIの予測には,道路表面の積雪量を自動的に算出する積雪危険指標と背骨MobileNetを用いたDeepLabv3+のセマンティックセグメンテーションが用いられる。 2021年1月19日から21日にかけての冬季の寒冷地と積雪地域に適用されたいくつかの結果を示し, 積雪の夜間フェイクアウトプットと実際の積雪日画像との類似度が高いことの有用性について述べる。

In 2021, Japan recorded more than three times as much snowfall as usual, so road user maybe come across dangerous situation. The poor visibility caused by snow triggers traffic accidents. For example, 2021 January 19, due to the dry snow and the strong wind speed of 27 m / s, blizzards occurred and the outlook has been ineffective. Because of the whiteout phenomenon, multiple accidents with 17 casualties occurred, and 134 vehicles were stacked up for 10 hours over 1 km. At the night time zone, the temperature drops and the road surface tends to freeze. CCTV images on the road surface have the advantage that we enable to monitor the status of major points at the same time. Road managers are required to make decisions on road closures and snow removal work owing to the road surface conditions even at night. In parallel, they would provide road users to alert for hazardous road surfaces. This paper propose a method to automate a snow hazard indicator that the road surface region is generated from the night snow image using the Conditional GAN, pix2pix. In addition, the road surface and the snow covered ROI are predicted using the semantic segmentation DeepLabv3+ with a backbone MobileNet, and the snow hazard indicator to automatically compute how much the night road surface is covered with snow. We demonstrate several results applied to the cold and snow region in the winter of Japan January 19 to 21 2021, and mention the usefulness of high similarity between snowy night-to-day fake output and real snowy day image for night snow visibility.
翻訳日:2021-03-03 16:41:27 公開日:2021-02-28
# セマンティクスセグメンテーションにおけるボトムアップアプローチによる競争的プレーの実現

Achieving Competitive Play Through Bottom-Up Approach in Semantic Segmentation ( http://arxiv.org/abs/2103.00657v1 )

ライセンス: Link先を確認
E. Pryzant, Q. Deng, B. Mei, E. Shrestha(参考訳) ニューラルネットワークのルネサンスにより、オブジェクト検出はボトムアップ認識問題からトップダウンアプローチへと徐々にシフトしている。 クラスアルゴリズムのベストは、オブジェクトのほぼ完全なリストを列挙し、それぞれをオブジェクト/notオブジェクトに分類する。 本稿では,視覚に基づくオブジェクト認識タスクのボトムアップアプローチと,競争力のあるゲームプレイを実現することで,強力なパフォーマンスを実現することができることを示す。 本稿では,完全畳み込みニューラルネットワークを用いて物体の4つの極点(上・左・下・右端)と1つの中心点を検出するpucknetを提案する。 オブジェクト検出は、暗黙的な特徴学習や領域分類なしに、純粋にキーポイントに基づく外観推定問題である。 提案手法は,COCOテストデブ上でのバウンディングボックスAPが36.4%で,クラス領域に基づく検出法で最良である。 さらに、推定される極端点は直交する物体マスクに直結し、COCO Mask APは17.6%であり、バニラ境界ボックスのMask APよりも優れている。 極点のガイド付きセグメンテーションによりさらにこれを 32.1% Mask AP に改善する。 我々は,PuckNetビジョンシステムをSuperTuxKartゲームに適用し,動的かつ協調的なマルチプレイヤー環境での競争力を実現する能力をテストする。

With the renaissance of neural networks, object detection has slowly shifted from a bottom-up recognition problem to a top-down approach. Best in class algorithms enumerate a near-complete list of objects and classify each into object/not object. In this paper, we show that strong performance can still be achieved using a bottom-up approach for vision-based object recognition tasks and achieve competitive video game play. We propose PuckNet, which is used to detect four extreme points (top, left, bottom, and right-most points) and one center point of objects using a fully convolutional neural network. Object detection is then a purely keypoint-based appearance estimation problem, without implicit feature learning or region classification. The method proposed herein performs on-par with the best in class region-based detection methods, with a bounding box AP of 36.4% on COCO test-dev. In addition, the extreme points estimated directly resolve into a rectangular object mask, with a COCO Mask AP of 17.6%, outperforming the Mask AP of vanilla bounding boxes. Guided segmentation of extreme points further improves this to 32.1% Mask AP. We applied the PuckNet vision system to the SuperTuxKart video game to test it's capacity to achieve competitive play in dynamic and co-operative multiplayer environments.
翻訳日:2021-03-03 16:40:58 公開日:2021-02-28
# 情報融合のための識別多重正準相関解析

Discriminative Multiple Canonical Correlation Analysis for Information Fusion ( http://arxiv.org/abs/2103.00361v1 )

ライセンス: Link先を確認
Lei Gao, Lin Qi, Enqing Chen, Ling Guan(参考訳) 本稿では,マルチモーダル情報解析と融合のための識別型多重正準相関解析(DMCCA)を提案する。 DMCCAはマルチモーダル情報表現からより差別的な特徴を抽出することができる。 具体的には,クラス内相関を最大化し,クラス間相関を最小化し,マルチモーダル情報の利用性を向上させるための投影方向を見出した。 このプロセスでは, DMCCAによる最適投影次元を精度良く予測できることを解析的に示し, 性能と計算コストの大幅な削減の両立を図った。 さらに、DMCCAでは、CCA(Canonical Correlation Analysis)、MCCA(Multiple Canonical Correlation Analysis)、DCCA(Idriminative Canonical Correlation Analysis)が特別なケースであることを確認し、Canonical Correlation Analysisの統一フレームワークを確立しました。 DMCCAのプロトタイプを実装し、手書きの数字認識と人間の感情認識でその性能を実証します。 DMCCAは, 従来のシリアル核融合法, CCA, MCCA, DCCAよりも優れていた。

In this paper, we propose the Discriminative Multiple Canonical Correlation Analysis (DMCCA) for multimodal information analysis and fusion. DMCCA is capable of extracting more discriminative characteristics from multimodal information representations. Specifically, it finds the projected directions which simultaneously maximize the within-class correlation and minimize the between-class correlation, leading to better utilization of the multimodal information. In the process, we analytically demonstrate that the optimally projected dimension by DMCCA can be quite accurately predicted, leading to both superior performance and substantial reduction in computational cost. We further verify that Canonical Correlation Analysis (CCA), Multiple Canonical Correlation Analysis (MCCA) and Discriminative Canonical Correlation Analysis (DCCA) are special cases of DMCCA, thus establishing a unified framework for Canonical Correlation Analysis. We implement a prototype of DMCCA to demonstrate its performance in handwritten digit recognition and human emotion recognition. Extensive experiments show that DMCCA outperforms the traditional methods of serial fusion, CCA, MCCA and DCCA.
翻訳日:2021-03-03 16:20:45 公開日:2021-02-28
# 2次元相関解析のための完全識別テンソル表現学習

A Complete Discriminative Tensor Representation Learning for Two-Dimensional Correlation Analysis ( http://arxiv.org/abs/2103.00367v1 )

ライセンス: Link先を確認
Lei Gao, and Ling Guan(参考訳) 2次元データ解析の有効なツールとして、2次元正準相関解析(2DCCA)は、元の2次元(2D)データの固有構造情報を保存できるだけでなく、計算複雑性を効果的に低減する。 しかし、2DCCAは教師なしの性質のため、十分な識別表現を抽出できないため、満足のいく性能は得られない。 本稿では,2次元信号解析のための線形相関解析に基づく完全判別テンソル表現学習(CDTRL)法を提案する。 画像)。 本文は, 完全判別テンソル表現戦略の導入により, 2次元データセット間での識別表現を明らかにする, 抽出する有効な手段が得られ, 結果が向上したことを示す。 実験の結果,提案したCDTRLは評価されたデータセット上で最先端の手法よりも優れていた。

As an effective tool for two-dimensional data analysis, two-dimensional canonical correlation analysis (2DCCA) is not only capable of preserving the intrinsic structural information of original two-dimensional (2D) data, but also reduces the computational complexity effectively. However, due to the unsupervised nature, 2DCCA is incapable of extracting sufficient discriminatory representations, resulting in an unsatisfying performance. In this letter, we propose a complete discriminative tensor representation learning (CDTRL) method based on linear correlation analysis for analyzing 2D signals (e.g. images). This letter shows that the introduction of the complete discriminatory tensor representation strategy provides an effective vehicle for revealing, and extracting the discriminant representations across the 2D data sets, leading to improved results. Experimental results show that the proposed CDTRL outperforms state-of-the-art methods on the evaluated data sets.
翻訳日:2021-03-03 16:20:25 公開日:2021-02-28
# クロスオブジェクトFew-Shot神経症状検出のための非監視領域適応

Unsupervised Domain Adaptation for Cross-Subject Few-Shot Neurological Symptom Detection ( http://arxiv.org/abs/2103.00606v1 )

ライセンス: Link先を確認
Bingzhao Zhu, Mahsa Shoaran(参考訳) 現代の機械学習ツールは、神経障害の症状を検出することに有望である。 しかし、現在のアプローチは典型的には各主題に固有の分類器を訓練する。 この被験者固有の訓練は、各患者からの長いラベル付き記録を必要とするため、記録が限られた新規患者の症状を検出できない。 本論文では, 対人ネットワークに基づく非監視的領域適応手法を提案する。 敵意学習を用いて,複数の患者から得られた特徴を主観不変空間に符号化し,判別モデルを用いて主観不変特徴を訓練し,予測を行った。 てんかん患者9例の頭蓋内脳波(iEEG)記録について検討した。 本手法は,従来手法に比べて1ショット識別精度が9.4\%向上したクロスサブジェクト発作検出を可能にした。

Modern machine learning tools have shown promise in detecting symptoms of neurological disorders. However, current approaches typically train a unique classifier for each subject. This subject-specific training scheme requires long labeled recordings from each patient, thus failing to detect symptoms in new patients with limited recordings. This paper introduces an unsupervised domain adaptation approach based on adversarial networks to enable few-shot, cross-subject epileptic seizure detection. Using adversarial learning, features from multiple patients were encoded into a subject-invariant space and a discriminative model was trained on subject-invariant features to make predictions. We evaluated this approach on the intracranial EEG (iEEG) recordings from 9 patients with epilepsy. Our approach enabled cross-subject seizure detection with a 9.4\% improvement in 1-shot classification accuracy compared to the conventional subject-specific scheme.
翻訳日:2021-03-03 16:20:08 公開日:2021-02-28
# 従来の人工ニューラルネットワークのスパイクニューラルネットワークへの最適変換

Optimal Conversion of Conventional Artificial Neural Networks to Spiking Neural Networks ( http://arxiv.org/abs/2103.00476v1 )

ライセンス: Link先を確認
Shikuang Deng, Shi Gu(参考訳) スパイクニューラルネットワーク(SNN)は、非同期離散信号を処理するためにスパイクニューロンからなる生物由来の人工ニューラルネットワーク(ANN)である。 ニューロモルフィックハードウェアの消費電力と推論速度はより効率的であるが、SNNは離散性のため、スクラッチから直接スパイクで訓練することが通常困難である。 代替として、従来のANNをSNNに変換するためには、ANNの重みをコピーし、SNNのニューロンのスパイク閾値電位を調整し、多くの努力が注がれている。 研究者は新しいSNNアーキテクチャと変換アルゴリズムを設計し、変換エラーを低減した。 しかし、効果的な変換は、フィールドに欠けているロス関数の効率的な近似 \DSK{of} で SNN と ANN のアーキテクチャの違いに対処するべきである。 本研究では、再帰的還元による変換誤差を層方向に要約して解析し、しきい値バランスとソフトリセット機構を組み合わせることで、重みをターゲットSNNに転送する新しい戦略パイプラインを提案する。 このパイプラインは、変換されたSNNと従来のANNの間で、典型的なSNNシミュレーション時間のうち、$\sim1/10$しか正確に損失しない。 提案手法は,SNNのエネルギーとメモリの制限によるサポートを向上し,組込みプラットフォームに組み込むことが期待できる。

Spiking neural networks (SNNs) are biology-inspired artificial neural networks (ANNs) that comprise of spiking neurons to process asynchronous discrete signals. While more efficient in power consumption and inference speed on the neuromorphic hardware, SNNs are usually difficult to train directly from scratch with spikes due to the discreteness. As an alternative, many efforts have been devoted to converting conventional ANNs into SNNs by copying the weights from ANNs and adjusting the spiking threshold potential of neurons in SNNs. Researchers have designed new SNN architectures and conversion algorithms to diminish the conversion error. However, an effective conversion should address the difference between the SNN and ANN architectures with an efficient approximation \DSK{of} the loss function, which is missing in the field. In this work, we analyze the conversion error by recursive reduction to layer-wise summation and propose a novel strategic pipeline that transfers the weights to the target SNN by combining threshold balance and soft-reset mechanisms. This pipeline enables almost no accuracy loss between the converted SNNs and conventional ANNs with only $\sim1/10$ of the typical SNN simulation time. Our method is promising to get implanted onto embedded platforms with better support of SNNs with limited energy and memory.
翻訳日:2021-03-03 16:08:59 公開日:2021-02-28
# 指数ランダムグラフモデルのための適合性試験の定常性

A Stein Goodness of fit Test for Exponential Random Graph Models ( http://arxiv.org/abs/2103.00580v1 )

ライセンス: Link先を確認
Wenkai Xu and Gesine Reinert(参考訳) 交換可能な指数ランダムグラフモデル (ERGM) に対する適合性試験手順の新規な非パラメトリック性について, 単一のネットワーク実現が観察されたときに提案し, 分析する。 このテストは、ターゲットの非正規化ERGM密度から観測が生成される確率を決定する。 私たちのテスト統計は、Stein法で構築されたカーネルHilbert空間内の関数とERGMのための離散的なStein演算子を結合して構築されたカーネルStein不一致から導かれる。 テストは、ターゲットのergmによるシミュレーションネットワークに基づくモンテカルロテストである。 ERGMのクラスに対する試験手順に関する理論的特性を示す。 シミュレーション研究と実ネットワーク応用について述べる。

We propose and analyse a novel nonparametric goodness of fit testing procedure for exchangeable exponential random graph models (ERGMs) when a single network realisation is observed. The test determines how likely it is that the observation is generated from a target unnormalised ERGM density. Our test statistics are derived from a kernel Stein discrepancy, a divergence constructed via Steins method using functions in a reproducing kernel Hilbert space, combined with a discrete Stein operator for ERGMs. The test is a Monte Carlo test based on simulated networks from the target ERGM. We show theoretical properties for the testing procedure for a class of ERGMs. Simulation studies and real network applications are presented.
翻訳日:2021-03-03 16:08:37 公開日:2021-02-28
# 生物学とコンピュータビジョンからみた個体識別の展望

Perspectives on individual animal identification from biology and computer vision ( http://arxiv.org/abs/2103.00560v1 )

ライセンス: Link先を確認
Maxime Vidal and Nathan Wolf and Beth Rosenberg and Bradley P. Harris and Alexander Mathis(参考訳) 個々の動物を特定することは多くの生物学的調査にとって重要である。 現在の識別手法のいくつかの制限に応えて、新しい自動コンピュータビジョンアプローチが強力な性能で登場した。 本稿では,コンピュータ科学者と生物学者の両方に利用可能なツールの概要を提供し,それらの応用について論じるコンピュータビジョン識別技術の最近の進歩を概観する。 動物識別プロジェクトを始めるための勧告を提示し、現在の限界を説明し、将来どのように対処されるかを提案する。

Identifying individual animals is crucial for many biological investigations. In response to some of the limitations of current identification methods, new automated computer vision approaches have emerged with strong performance. Here, we review current advances of computer vision identification techniques to provide both computer scientists and biologists with an overview of the available tools and discuss their applications. We conclude by offering recommendations for starting an animal identification project, illustrate current limitations and propose how they might be addressed in the future.
翻訳日:2021-03-03 16:06:49 公開日:2021-02-28
# PairRank:オンラインペアワイズ学習を分割してランク付けする

PairRank: Online Pairwise Learning to Rank by Divide-and-Conquer ( http://arxiv.org/abs/2103.00368v1 )

ライセンス: Link先を確認
Yiling Jia, Huazheng Wang, Stephen Guo, Hongning Wang(参考訳) online learning to rank (ol2r)は、ユーザとのインタラクションからランク付けを直接最適化することで、明示的な関連アノテーションの必要性をなくす。 しかし、必要な探索は、オフライン学習の成功した実践からランク付けへと追いやられ、OL2Rの実証的なパフォーマンスと実用性が制限されます。 本研究は,オンラインモデルランキングのペアワイズ学習を推定することを提案する。 各ラウンドでは、候補文書は推定される一対のランク順に対するモデルの信頼に従って分割されランク付けされ、探索は不確定な文書、すなわち \emph{divide-and-conquer} に対してのみ行われる。 オンラインソリューションの理論的収束と期待されたランキングパフォーマンスを結びつける、誤った順序付けされたペアの数で直接定義された後悔が証明される。 ベンチマークデータセットをランク付けする2つの公開学習におけるOL2Rベースラインの広範なリストと比較すると,提案手法の有効性が示されている。

Online Learning to Rank (OL2R) eliminates the need of explicit relevance annotation by directly optimizing the rankers from their interactions with users. However, the required exploration drives it away from successful practices in offline learning to rank, which limits OL2R's empirical performance and practical applicability. In this work, we propose to estimate a pairwise learning to rank model online. In each round, candidate documents are partitioned and ranked according to the model's confidence on the estimated pairwise rank order, and exploration is only performed on the uncertain pairs of documents, i.e., \emph{divide-and-conquer}. Regret directly defined on the number of mis-ordered pairs is proven, which connects the online solution's theoretical convergence with its expected ranking performance. Comparisons against an extensive list of OL2R baselines on two public learning to rank benchmark datasets demonstrate the effectiveness of the proposed solution.
翻訳日:2021-03-03 15:57:57 公開日:2021-02-28
# 実践における自動テストケース生成の導入について:成功事例と教訓

On Introducing Automatic Test Case Generation in Practice: A Success Story and Lessons Learned ( http://arxiv.org/abs/2103.00465v1 )

ライセンス: Link先を確認
Matteo Brunetto, Giovanni Denaro, Leonardo Mariani, Mauro Pezz\`e(参考訳) 自動化のレベルと品質は、ソフトウェアテスト活動に劇的に影響し、テストプロセスのコストと有効性を決定し、最終製品の品質に大きく影響します。 産業プラクティスにおける多くのテストアクティビティ(品質プロセスの管理、大規模なテストスイートの実行、回帰テストスイートの管理など)を自動化するコストとメリットはよく理解され、文書化されているが、自動化テストケース生成ツールの最近の進歩にもかかわらず、産業プラクティスにおけるシステムテストスイートの自動生成のメリットと障害はまだ報告されていない。 テストケースを自動的に生成するプロプライエタリなツールは、大規模なソフトウェア組織では一般的なプラクティスとなり、いくつかのアプリケーションドメインやテストレベルで商用ツールが利用できるようになる。 しかし、中小規模のソフトウェア企業でシステムテストケースを生成することは、まだ手作業、非効率、アドホックな活動です。 本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。 我々は、企業の開発プロセスに自動テストケース生成を導入する際に直面する技術的および組織的障害について述べ、その状況において私たちがうまく経験したソリューションを示します。 特に,中規模企業が多国籍企業向けに開発したカスタマイズされたerpアプリケーションを参照して,テストケース生成の自動化の問題を説明し,最先端のguiテストジェネレータであるabtを産業環境に調整して開発したテストケースジェネレータであるabt2.0を提案する。 本稿では,abt2.0の新機能を紹介するとともに,これらの新機能が直面した課題に対する対処方法について述べる。

The level and quality of automation dramatically affects software testing activities, determines costs and effectiveness of the testing process, and largely impacts on the quality of the final product. While costs and benefits of automating many testing activities in industrial practice (including managing the quality process, executing large test suites, and managing regression test suites) are well understood and documented, the benefits and obstacles of automatically generating system test suites in industrial practice are not well reported yet, despite the recent progresses of automated test case generation tools. Proprietary tools for automatically generating test cases are becoming common practice in large software organisations, and commercial tools are becoming available for some application domains and testing levels. However, generating system test cases in small and medium-size software companies is still largely a manual, inefficient and ad-hoc activity. This paper reports our experience in introducing techniques for automatically generating system test suites in a medium-size company. We describe the technical and organisational obstacles that we faced when introducing automatic test case generation in the development process of the company, and present the solutions that we successfully experienced in that context. In particular, the paper discusses the problems of automating the generation of test cases by referring to a customised ERP application that the medium-size company developed for a third party multinational company, and presents ABT2.0, the test case generator that we developed by tailoring ABT, a research state-of-the-art GUI test generator, to their industrial environment. This paper presents the new features of ABT2.0, and discusses how these new features address the issues that we faced.
翻訳日:2021-03-03 15:57:40 公開日:2021-02-28
# Kaggle仮想コミュニティのM5競争に対する社会的影響を探る

Exploring the social influence of Kaggle virtual community on the M5 competition ( http://arxiv.org/abs/2103.00501v1 )

ライセンス: Link先を確認
Xixi Li and Yun Bai and Yanfei Kang(参考訳) 前回の予測競争に対するM5の最も重要な違いの1つは、データサイエンティストと機械学習実践者のオンラインコミュニティであるKaggleで開催されたことです。 Kaggleプラットフォームでは、オンラインノートブックやディスカッションなどの仮想コミュニティを構築して、モデルや機能の選択、損失関数などについて議論することができる。 本論文では,仮想コミュニティの競争に対する社会的影響について検討する。 まず、トピックモデリングとトレンド分析によって、M5仮想コミュニティの内容を調べます。 さらに,仮想コミュニティの潜在的な関係ネットワークを特定するために,ソーシャルメディア分析を行う。 ネットワークにおいて重要な役割を見つけ,LightGBM関連情報をネットワーク内に広める上で,その役割について検討する。 本研究は,参加者に仮想コミュニティが与えるダイナミックなメカニズムを深く理解し,今後のオンラインコンペティションに潜在的に影響を及ぼす可能性を示唆する。

One of the most significant differences of M5 over previous forecasting competitions is that it was held on Kaggle, an online community of data scientists and machine learning practitioners. On the Kaggle platform, people can form virtual communities such as online notebooks and discussions to discuss their models, choice of features, loss functions, etc. This paper aims to study the social influence of virtual communities on the competition. We first study the content of the M5 virtual community by topic modeling and trend analysis. Further, we perform social media analysis to identify the potential relationship network of the virtual community. We find some key roles in the network and study their roles in spreading the LightGBM related information within the network. Overall, this study provides in-depth insights into the dynamic mechanism of the virtual community influence on the participants and has potential implications for future online competitions.
翻訳日:2021-03-03 15:57:11 公開日:2021-02-28
# 決定論的仮想軌道を持つ加速ジャジンスキー推定器

Accelerated Jarzynski Estimator with Deterministic Virtual Trajectories ( http://arxiv.org/abs/2103.00529v1 )

ライセンス: Link先を確認
Nobumasa Ishida and Yoshihiko Hasegawa(参考訳) ジャージンスキー推定器は非平衡統計物理学を用いて確率分布の分配関数を数値的に得る強力なツールである。 推定器はジャジンスキー等式を通じてシミュレーションされたランゲビン力学の軌道で分割関数を再構築する。 しかし、元の推定器は、確率力学の希少な軌道に依存するため、収束が遅い。 本稿では,ハミルトニアンダイナミクスの下で拡張状態空間で生成される決定論的仮想軌道を導入することにより,収束を著しく加速する手法を提案する。 理論上,本手法は,高調波ポテンシャルに対するランジュバンダイナミクスとゼロ分散推定を持つナイーブ推定器と比較して,二階加速を実現する。 さらに,提案手法が従来の手法より優れている3つのマルチモーダル分布の数値実験を行い,理論的説明を行う。

The Jarzynski estimator is a powerful tool that uses nonequilibrium statistical physics to numerically obtain partition functions of probability distributions. The estimator reconstructs partition functions with trajectories of simulated Langevin dynamics through the Jarzynski equality. However, the original estimator suffers from its slow convergence because it depends on rare trajectories of stochastic dynamics. In this paper we present a method to significantly accelerate the convergence by introducing deterministic virtual trajectories generated in augmented state space under Hamiltonian dynamics. We theoretically show that our approach achieves second-order acceleration compared to a naive estimator with Langevin dynamics and zero variance estimation on harmonic potentials. Moreover, we conduct numerical experiments on three multimodal distributions where the proposed method outperforms the conventional method, and provide theoretical explanations.
翻訳日:2021-03-03 15:56:58 公開日:2021-02-28
# 分散トレーニングシステムにおける勾配圧縮の有用性について

On the Utility of Gradient Compression in Distributed Training Systems ( http://arxiv.org/abs/2103.00543v1 )

ライセンス: Link先を確認
Saurabh Agarwal, Hongyi Wang, Shivaram Venkataraman, Dimitris Papailiopoulos(参考訳) データセットの急速な成長とニューラルネットワークアーキテクチャのスケールは、分散トレーニングを必要としている。 同期データ並列トレーニングにおける通信ボトルネックの存在を強調し、これらのボトルネックを軽減するため、機械学習コミュニティはグラデーションとモデルの圧縮メソッドの開発に重点を置いています。 並行して、システムコミュニティは分散トレーニングをスピードアップするためにいくつかのハイパフォーマンスコンピューティング(hpc)技術を採用した。 本研究では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。 意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。 我々は,この現象の根本原因を特定するために広範囲な調査を行い,様々なシステム構成に対する勾配圧縮の利点を特定するために使用できる性能モデルを提供する。 解析に基づいて, 勾配圧縮法が満足すべき望ましい特性のリストを提案し, それらが有意義なエンドツーエンドの高速化を実現する。

Rapid growth in data sets and the scale of neural network architectures have rendered distributed training a necessity. A rich body of prior work has highlighted the existence of communication bottlenecks in synchronous data-parallel training.To alleviate these bottlenecks, the machine learning community has largely focused on developing gradient and model compression methods. In parallel, the systems community has adopted several High Performance Computing (HPC)techniques to speed up distributed training. In this work, we evaluate the efficacy of gradient compression methods and compare their scalability with optimized implementations of synchronous data-parallel SGD. Surprisingly, we observe that due to computation overheads introduced by gradient compression, the net speedup over vanilla data-parallel training is marginal, if not negative. We conduct an extensive investigation to identify the root causes of this phenomenon, and offer a performance model that can be used to identify the benefits of gradient compression for a variety of system setups. Based on our analysis, we propose a list of desirable properties that gradient compression methods should satisfy, in order for them to provide a meaningful end-to-end speedup
翻訳日:2021-03-03 15:56:46 公開日:2021-02-28
# 顎・動脈瘤検出のための機械学習 : 生理学的に現実的な仮想患者データベースへの応用

Machine learning for detection of stenoses and aneurysms: application in a physiologically realistic virtual patient database ( http://arxiv.org/abs/2103.00599v1 )

ライセンス: Link先を確認
Gareth Jones, Jim Parr, Perumal Nithiarasu, Sanjay Pant(参考訳) 本研究は,ヒト動脈系におけるステントオースと動脈瘤の存在を検出するための機械学習(ML)手法の応用について述べる。 動脈硬化症(CAS)、鎖骨下動脈硬化症(SAC)、末梢動脈疾患(PAD)、腹部大動脈瘤(AAA)の4つの主要な形態が検討されている。 ml法は,8,868名の健常者を含む,生理的に現実的な仮想患者データベース (vpd) 上で訓練し,その4つの病型を含むように拡張した。 Naive Bayes, Logistic Regression, Support Vector Machine, Multi-layer Perceptron, Random Forests, Gradient Boostingの6つのMLメソッドが分類精度と比較され,Random ForestとGradient Boostingのツリーベース手法が他のアプローチよりも優れていることが明らかになった。 ML手法の性能は、F1スコアと感性および特異性の計算によって定量化される。 すべての6つの測定値を使用する場合、CASおよびPADでは0.9より大きい最大F1スコア、SASでは0.85以上、低重度および高重度のAAAでは0.98より大きいことが判明した。 感度と特異性は、CASおよびPADでは90%以上、SASでは85%以上、低重度AAAと高重度AAAでは98%以上である。 測定回数を減らすと、3つの測定が使用されると5%未満で性能が低下し、2つの測定が分類にのみ使用される場合は10%未満であることが判明しました。 AAAでは、F1スコアが0.85以上、それに対応する感度と85%以上の特異性は、1つの測定だけを使用すると達成可能である。 結果は、圧力や流量を確実に測定できるウェアラブルデバイスを介してAAAの監視とスクリーニングを追求することを奨励しています。

This study presents an application of machine learning (ML) methods for detecting the presence of stenoses and aneurysms in the human arterial system. Four major forms of arterial disease -- carotid artery stenosis (CAS), subclavian artery stenosis (SAC), peripheral arterial disease (PAD), and abdominal aortic aneurysms (AAA) -- are considered. The ML methods are trained and tested on a physiologically realistic virtual patient database (VPD) containing 28,868 healthy subjects, which is adapted from the authors previous work and augmented to include the four disease forms. Six ML methods -- Naive Bayes, Logistic Regression, Support Vector Machine, Multi-layer Perceptron, Random Forests, and Gradient Boosting -- are compared with respect to classification accuracies and it is found that the tree-based methods of Random Forest and Gradient Boosting outperform other approaches. The performance of ML methods is quantified through the F1 score and computation of sensitivities and specificities. When using all the six measurements, it is found that maximum F1 scores larger than 0.9 are achieved for CAS and PAD, larger than 0.85 for SAS, and larger than 0.98 for both low- and high-severity AAAs. Corresponding sensitivities and specificities are larger than 90% for CAS and PAD, larger than 85% for SAS, and larger than 98% for both low- and high-severity AAAs. When reducing the number of measurements, it is found that the performance is degraded by less than 5% when three measurements are used, and less than 10% when only two measurements are used for classification. For AAA, it is shown that F1 scores larger than 0.85 and corresponding sensitivities and specificities larger than 85% are achievable when using only a single measurement. The results are encouraging to pursue AAA monitoring and screening through wearable devices which can reliably measure pressure or flow-rates
翻訳日:2021-03-03 15:56:28 公開日:2021-02-28
# 悪意あるAndroidアプリケーションの検出: 古典的機械学習対. クラスタリングを統合したディープニューラルネットワーク

Detection of Malicious Android Applications: Classical Machine Learning vs. Deep Neural Network Integrated with Clustering ( http://arxiv.org/abs/2103.00637v1 )

ライセンス: Link先を確認
Hemant Rathore, Sanjay K. Sahay, Shivin Thukral, Mohit Sewak(参考訳) 今日、アンチマルウェアコミュニティは、敵が開発するマルウェア攻撃の高度化と量の増加により、課題に直面しています。 従来のマルウェア検出メカニズムは、次世代のマルウェア攻撃に対応できない。 そこで本稿では,機械学習とクラスタリングを統合したディープラーニングに基づく効果的かつ効率的なandroidマルウェア検出モデルを提案する。 androidのマルウェア検出モデルを構築するために,様々な性能指標に対する特徴量削減,分類,クラスタリングアルゴリズムの包括的研究を行った。 実験の結果,Random Forest を用いたマルウェア検出モデルでは,性能指標の大部分がディープニューラルネットワークやその他の分類器に偏っていることがわかった。 ベースラインのランダムフォレストモデルは特徴の減少がなく、最高AUC 99.4%を達成した。 また、ランダムフォレストと統合されたクラスタリングによるベクトル空間の分離により、AUCは1つのクラスタで99.6%に向上し、別のクラスタでAndroidマルウェアを直接検出した。 さらに,検出モデルにおける特徴量削減は,検出モデルの有効性に多くのペナルティを伴わずに,モデル効率(トレーニングおよびテスト時間)を向上することがわかった。

Today anti-malware community is facing challenges due to the ever-increasing sophistication and volume of malware attacks developed by adversaries. Traditional malware detection mechanisms are not able to cope-up with next-generation malware attacks. Therefore in this paper, we propose effective and efficient Android malware detection models based on machine learning and deep learning integrated with clustering. We performed a comprehensive study of different feature reduction, classification and clustering algorithms over various performance metrics to construct the Android malware detection models. Our experimental results show that malware detection models developed using Random Forest eclipsed deep neural network and other classifiers on the majority of performance metrics. The baseline Random Forest model without any feature reduction achieved the highest AUC of 99.4%. Also, the segregating of vector space using clustering integrated with Random Forest further boosted the AUC to 99.6% in one cluster and direct detection of Android malware in another cluster, thus reducing the curse of dimensionality. Additionally, we found that feature reduction in detection models does improve the model efficiency (training and testing time) many folds without much penalty on the effectiveness of the detection model.
翻訳日:2021-03-03 15:55:52 公開日:2021-02-28
# 効率的なAndroidマルウェア検出のための重要なパーミッションの同定

Identification of Significant Permissions for Efficient Android Malware Detection ( http://arxiv.org/abs/2103.00643v1 )

ライセンス: Link先を確認
Hemant Rathore, Sanjay K. Sahay, Ritvik Rajvanshi, Mohit Sewak(参考訳) Googleがスマートフォン向けAndroid OSを発表して以来、マルウェアは3Vで繁栄している。 容積、速度および変化。 最近のレポートでは、ビジネス/産業モバイルアプリの1つに1つが機密個人データを漏洩しています。 従来のシグネチャ/ヒューリスティックベースのマルウェア検出システムは、現在のマルウェア問題に対処できず、Androidエコシステムを脅かす。 そのため、近年、機械学習とディープラーニングに基づくマルウェア検出システムの研究が始まっている。 本稿では,重要なAndroidパーミッションを特定するための包括的特徴分析を行い,機械学習とディープニューラルネットワークを用いた効率的なAndroidマルウェア検出システムを提案する。 分散しきい値,オートエンコーダ,主成分分析から得られた16ドルのパーミッション(全セットの8.%)のセットを構築して,モデル精度に大きな妥協を伴わずに,より少ない列車とテスト時間を消費するマルウェア検出エンジンを構築した。 私たちの実験結果は、ランダムな森林分類器に基づくAndroidマルウェア検出モデルが最もバランス良く、現在の最先端のシステムよりも優れた曲線スコアで最高面積の97.7\%$を達成していることを示しています。 また、ディープニューラルネットワークは、ベースライン結果に匹敵する精度を持つが、計算のペナルティは大きいことも観察した。

Since Google unveiled Android OS for smartphones, malware are thriving with 3Vs, i.e. volume, velocity, and variety. A recent report indicates that one out of every five business/industry mobile application leaks sensitive personal data. Traditional signature/heuristic-based malware detection systems are unable to cope up with current malware challenges and thus threaten the Android ecosystem. Therefore recently researchers have started exploring machine learning and deep learning based malware detection systems. In this paper, we performed a comprehensive feature analysis to identify the significant Android permissions and propose an efficient Android malware detection system using machine learning and deep neural network. We constructed a set of $16$ permissions ($8\%$ of the total set) derived from variance threshold, auto-encoders, and principal component analysis to build a malware detection engine that consumes less train and test time without significant compromise on the model accuracy. Our experimental results show that the Android malware detection model based on the random forest classifier is most balanced and achieves the highest area under curve score of $97.7\%$, which is better than the current state-of-art systems. We also observed that deep neural networks attain comparable accuracy to the baseline results but with a massive computational penalty.
翻訳日:2021-03-03 15:55:34 公開日:2021-02-28
# ニューラルネットワークによる古典的可積分系の構築

Neural Network Approach to Construction of Classical Integrable Systems ( http://arxiv.org/abs/2103.00372v1 )

ライセンス: Link先を確認
Fumihiro Ishikawa, Hidemaro Suwa, Synge Todo(参考訳) 統合可能なシステムは、物理現象と数学に関する様々な洞察を与えてきた。 多体可積分系を構築する方法は、保存量の高い発明的な発見を除いて、ラックス対のアンサッチ数に制限される。 機械学習技術は最近、幅広い物理学分野に応用され、非自明な変換やポテンシャル関数を構築する上で強力であることが証明されている。 本稿では,古典統合システムの体系的構築のための機械学習手法を提案する。 潜在空間におけるハミルトニアンあるいはサンプルを考えると、ニューラルネットワークは実空間における対応する自然ハミルトニアンと、潜在空間と実空間変数の間の正準変換を同時に学習する。 また,可積分系を構築するための損失関数を提案し,toda格子の教師なし学習を成功させることを示す。 この手法により, 正準変換やラックス対のアンサッツを事前に知ることなく, 新たな可積分系を探索できる。

Integrable systems have provided various insights into physical phenomena and mathematics. The way of constructing many-body integrable systems is limited to few ansatzes for the Lax pair, except for highly inventive findings of conserved quantities. Machine learning techniques have recently been applied to broad physics fields and proven powerful for building non-trivial transformations and potential functions. We here propose a machine learning approach to a systematic construction of classical integrable systems. Given the Hamiltonian or samples in latent space, our neural network simultaneously learns the corresponding natural Hamiltonian in real space and the canonical transformation between the latent space and the real space variables. We also propose a loss function for building integrable systems and demonstrate successful unsupervised learning for the Toda lattice. Our approach enables exploring new integrable systems without any prior knowledge about the canonical transformation or any ansatz for the Lax pair.
翻訳日:2021-03-03 15:46:29 公開日:2021-02-28
# 音響イベントローカリゼーションのための注意に基づくシーケンス・トゥ・シークエンスアーキテクチャの探索

Exploiting Attention-based Sequence-to-Sequence Architectures for Sound Event Localization ( http://arxiv.org/abs/2103.00417v1 )

ライセンス: Link先を確認
Christopher Schymura, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Dorothea Kolossa(参考訳) ディープニューラルネットワークに基づく音響事象定位フレームワークは、古典的パラメトリックアプローチと比較して、残響や雑音に対する頑健性が向上している。 特に、時間的コンテキストを推定プロセスに組み込んだ繰り返しアーキテクチャは、このタスクに適しているように思われる。 本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。 このようなモデルは、自然言語処理や自動音声認識の問題にうまく適用されている。 本研究では、マルチチャンネルオーディオ信号を潜入表現に符号化し、その後、推定される到着方向の列に復号する。 ここで注意は、現在の時間ステップにおける音声イベントのアクティビティと方向の推定に関連する特定のフレームに注目して、音声信号の時間依存性を捉えることを可能にする。 このフレームワークは、サウンドイベントローカライズのための3つの公開データセットで評価される。 それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。

Sound event localization frameworks based on deep neural networks have shown increased robustness with respect to reverberation and noise in comparison to classical parametric approaches. In particular, recurrent architectures that incorporate temporal context into the estimation process seem to be well-suited for this task. This paper proposes a novel approach to sound event localization by utilizing an attention-based sequence-to-sequence model. These types of models have been successfully applied to problems in natural language processing and automatic speech recognition. In this work, a multi-channel audio signal is encoded to a latent representation, which is subsequently decoded to a sequence of estimated directions-of-arrival. Herein, attentions allow for capturing temporal dependencies in the audio signal by focusing on specific frames that are relevant for estimating the activity and direction-of-arrival of sound events at the current time-step. The framework is evaluated on three publicly available datasets for sound event localization. It yields superior localization performance compared to state-of-the-art methods in both anechoic and reverberant conditions.
翻訳日:2021-03-03 15:46:15 公開日:2021-02-28
# 逐次反復ハードホールドを用いた正確なスパース回収のための動的サンプル複雑性

Dynamic Sample Complexity for Exact Sparse Recovery using Sequential Iterative Hard Thresholding ( http://arxiv.org/abs/2103.00449v1 )

ライセンス: Link先を確認
Samrat Mukhopadhyay(参考訳) 本稿では,連続的に到達する測定行列と対応する測定値との固定スパースベクトルの正確な回復の問題を検討する。 本研究では, 繰り返しハードしきい値化 (IHT) アルゴリズムの拡張を提案する。このアルゴリズムはシーケンシャル IHT (SIHT) と呼ばれ, 総時間線を各フェーズでIHTが実行されるような数段階に分割する。 我々は,各位相で得られる測定行列が,ガウスの確率行列の独立なサンプルである確率的集合を考える。 各段階における測定行列の大きさと、その期間と位相の数に依存する特定の動的サンプルの複雑さが、一定の下限を満たす場合、固定時間線上のSIHTの推定誤差は急速に崩壊することを証明します。 興味深いことに、この境界は、非常に小さな数の測定が異なる位相で散発的に使われているとしても、推定誤差の崩壊の確率がほとんど影響しないことを示している。 この理論的観察は、SIHTがオフラインIHTと比較して回復の確率を改善することを実証した数値実験を用いても相関する。

In this paper we consider the problem of exact recovery of a fixed sparse vector with the measurement matrices sequentially arriving along with corresponding measurements. We propose an extension of the iterative hard thresholding (IHT) algorithm, termed as sequential IHT (SIHT) which breaks the total time horizon into several phases such that IHT is executed in each of these phases using a fixed measurement matrix obtained at the beginning of that phase. We consider a stochastic setting where the measurement matrices obtained at each phase are independent samples of a sub Gaussian random matrix. We prove that if a certain dynamic sample complexity that depends on the sizes of the measurement matrices at each phase, along with their duration and the number of phases, satisfy certain lower bound, the estimation error of SIHT over a fixed time horizon decays rapidly. Interestingly, this bound reveals that the probability of decay of estimation error is hardly affected even if very small number measurements are sporadically used in different phases. This theoretical observation is also corroborated using numerical experiments demonstrating that SIHT enjoys improved probability of recovery compared to offline IHT.
翻訳日:2021-03-03 15:46:01 公開日:2021-02-28
# 単体サンプリングはアウトレーヤ付きセンターベースのクラスタリングに有効か:いつとなぜか?

Is Simple Uniform Sampling Efficient for Center-Based Clustering With Outliers: When and Why? ( http://arxiv.org/abs/2103.00558v1 )

ライセンス: Link先を確認
Hu Ding and Jiawei Huang(参考訳) クラスタリングは、コンピュータ科学において多くの重要な応用があるが、現実世界のデータセットは、しばしば外れ値を含んでいる。 異常値の存在は、クラスタリングの問題をもっと難しくする可能性がある。 本論文では, アウトプライヤ問題に代表される3つの代表的なセンタベースのクラスタリングを解決するためのフレームワークを提案する。 実際にフレームワークは非常にシンプルで、入力から小さな一様サンプルを取り出して、既存の近似アルゴリズムをサンプル上で実行する必要があります。 しかし,本分析は,従来の(一様かつ非一様)サンプリングに基づく考え方とは根本的に異なる。 統一サンプリングの有効性を理論的に説明するために,「重要度」基準を導入し,提案手法の性能が与えられたインスタンスの重要度に依存することを証明した。 特に、サンプルサイズは入力データサイズ $n$ と次元 $d$ とは独立であり、与えられたインスタンスが十分「重要な」ものであると仮定すれば、実際にはかなり適切な仮定となる。 その単純さから、一様サンプリングアプローチは非一様サンプリングアプローチに対していくつかの大きな利点を享受する。 実験の結果,既存手法と同等のクラスタリング結果が得られるが,実装が容易であり,実行時間を大幅に削減できることがわかった。 我々の知る限りでは、これは理論と実験の両方の観点から一様サンプリングの有効性を体系的に研究する最初の作品である。

Clustering has many important applications in computer science, but real-world datasets often contain outliers. The presence of outliers can make the clustering problems to be much more challenging. In this paper, we propose a framework for solving three representative center-based clustering with outliers problems: $k$-center/median/means clustering with outliers. The framework actually is very simple, where we just need to take a small uniform sample from the input and run an existing approximation algorithm on the sample. However, our analysis is fundamentally different from the previous (uniform and non-uniform) sampling based ideas. To explain the effectiveness of uniform sampling in theory, we introduce a "significance" criterion and prove that the performance of our framework depends on the significance degree of the given instance. In particular, the sample size can be independent of the input data size $n$ and the dimensionality $d$, if we assume the given instance is sufficiently "significant", which is in fact a fairly appropriate assumption in practice. Due to its simplicity, the uniform sampling approach also enjoys several significant advantages over the non-uniform sampling approaches. The experiments suggest that our framework can achieve comparable clustering results with existing methods, but is much easier to implement and can greatly reduce the running times. To the best of our knowledge, this is the first work that systematically studies the effectiveness of uniform sampling from both theoretical and experimental aspects.
翻訳日:2021-03-03 15:45:40 公開日:2021-02-28
# 永続的ホモロジーとグラフ表現学習

Persistent Homology and Graphs Representation Learning ( http://arxiv.org/abs/2102.12926v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Xuanting Cai(参考訳) 本稿では,ノードグラフ表現埋め込みにエンコードされる位相不変性について,永続ホモロジーで利用可能なツールを用いて研究することを目的とした。 具体的には,ノード埋め込み表現アルゴリズムを考えると,これらの埋め込みが実数値化されている場合を考える。 これらの埋め込みを関心領域上のスカラー関数として見ることにより、永続ホモロジーで利用可能なツールを用いて、これらの表現に符号化された位相情報を研究することができる。 我々の構成では,ノード表現アルゴリズム毎に,グラフレベルとノードレベルの両方で,ユニークな永続性ベースのグラフ記述子を効果的に定義している。 提案手法の有効性を実証するため,DeepWalk,Node2Vec,Diff2Vecのトポロジカル記述子について検討した。

This article aims to study the topological invariant properties encoded in node graph representational embeddings by utilizing tools available in persistent homology. Specifically, given a node embedding representation algorithm, we consider the case when these embeddings are real-valued. By viewing these embeddings as scalar functions on a domain of interest, we can utilize the tools available in persistent homology to study the topological information encoded in these representations. Our construction effectively defines a unique persistence-based graph descriptor, on both the graph and node levels, for every node representation algorithm. To demonstrate the effectiveness of the proposed method, we study the topological descriptors induced by DeepWalk, Node2Vec and Diff2Vec.
翻訳日:2021-03-02 12:45:59 公開日:2021-02-28