このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210113となっている論文です。

PDF登録状況(公開日: 20210113)

TitleAuthorsAbstract論文公表日・翻訳日
# 開量子系における未結合マヨラナフェルミオン:二次フェルミモデルの非平衡定常状態の効率的なシミュレーションについて

Uncoupled Majorana fermions in open quantum systems: On the efficient simulation of non-equilibrium stationary states of quadratic Fermi models ( http://arxiv.org/abs/2002.11160v2 )

ライセンス: Link先を確認
Jose Reslen(参考訳) 線形浴に影響された二次フェルミ系の非平衡定常状態の分解を求め,テンソル状態のシミュレーションプロトコルの確立に用いた。 このスキームは、キタエフ連鎖における未結合のマヨルナフェルミオンの発生を端の浴槽で調べるために適用される。 結果の位相図を平衡鎖の位相的特性と比較し、このモデルについてプロトコル効率について検討する。

A decomposition of the non-equilibrium stationary state of a quadratic Fermi system influenced by linear baths is obtained and used to establish a simulation protocol in terms of tensor states. The scheme is then applied to examine the occurrence of uncoupled Majorana fermions in Kitaev chains subject to baths on the ends. The resulting phase diagram is compared against the topological characterization of the equilibrium chain and the protocol efficiency is studied with respect to this model
翻訳日:2023-06-01 23:45:18 公開日:2021-01-13
# 長鎖イオン鎖における高速エンタングリングゲート

Fast entangling gates in long ion chains ( http://arxiv.org/abs/2004.04372v5 )

ライセンス: Link先を確認
Zain Mehdi, Alexander K. Ratcliffe, and Joseph J. Hope(参考訳) 本稿では,超高速パルスを用いた高速絡み込みゲート({\sim}1~\mu$s)を任意に長鎖イオン鎖に実装するモデルを提案する。 任意の長さのイオン鎖において99.99\%以上の理論的忠実度を持つパルス列を、100-300$~MHzの順序でレーザー繰り返し速度で最適化できることを実証した。 特に、より長いイオン鎖のゲートに対して高い繰り返し速度は不要であり、他のゲートスキームとのスケーリング解析とは対照的である。 我々の計算でパルス不完全性を考えると、達成可能なゲートの忠実度は鎖内のイオンの数に依存しないことが分かる。 また,パルス制御の要求はイオン数に比例しないことを示した。 個々の超高速パルスから99.9\%以上の人口移動効率が、近未来の実験で達成可能な高密度ゲートの実現のしきい値であることがわかった。

We present a model for implementing fast entangling gates (${\sim}1~\mu$s) with ultra-fast pulses in arbitrarily long ion chains, that requires low numbers of pulses and can be implemented with laser repetition rates well within experimental capability. We demonstrate that we are able to optimise pulse sequences that have theoretical fidelities above $99.99\%$ in arbitrarily long ion-chains, for laser repetition rates on the order of $100-300$~MHz. Notably, we find higher repetition rates are not required for gates in longer ion chains, which is in contrast to scaling analyses with other gate schemes. When pulse imperfections are considered in our calculations, we find that achievable gate fidelity is independent of the number of ions in the chain. We also show that pulse control requirements do not scale up with the number of ions. We find that population transfer efficiencies of above $99.9\%$ from individual ultra-fast pulses is the threshold for realising high-fidelity gates, which may be achievable in near-future experiments.
翻訳日:2023-05-25 08:51:53 公開日:2021-01-13
# 計測のみのダイナミクスにおける絡み合い相転移

Entanglement phase transitions in measurement-only dynamics ( http://arxiv.org/abs/2004.09560v3 )

ライセンス: Link先を確認
Matteo Ippoliti, Michael J. Gullans, Sarang Gopalakrishnan, David A. Huse, Vedika Khemani(参考訳) 繰り返し射影測定を受けるユニタリ回路は、測定速度の関数として絡み合った位相遷移(EPT)を行うことができる。 この遷移は、ユニタリダイナミクスのスクランブル効果と測定のアンタングリング効果との競合の観点から一般的に理解されている。 驚くべきことに、EPTは単体力学が欠如していても可能であり、そこでは測定だけで生じると理解されている。 これはemph{measurement-only models}の導入動機となり、eptを駆動する「スクランブル」効果と「アンスクランブル」効果は基本的に相互に絡み合っており、物理的に異なるプロセスに起因するものではない。 これはEPTの新しい形式であり、概念的にはハイブリッドユニタリ・プロジェクティブ回路とは異なっている。 我々は、これらの測定専用モデルの絡み合い位相図、臨界点、量子コード特性について検討する。 これらのモデルでEPTを駆動する原理は測定の「emph{frustration}」、すなわち相互不和合性であることがわかった。 仮定として、エンタングリング(ボリュームロー)フェーズは、十分長いが局所的な演算子(3$-body)を測定する場合の一般的な結果である。 この挙動の例外(「双対アンサンブル(bipartite ensembles)」)は、絡み合う位相を維持できないが、多種多様な量子秩序を持つ二重領域法相を自己双対臨界点によって分離して表示する。 最後に, 量子計測に固有の非局所性にもかかわらず, 統計的な光円錐の出現を示すために, 動的に拡散する情報の尺度を紹介する。

Unitary circuits subject to repeated projective measurements can undergo an entanglement phase transition (EPT) as a function of the measurement rate. This transition is generally understood in terms of a competition between the scrambling effects of unitary dynamics and the disentangling effects of measurements. We find that, surprisingly, EPTs are possible even in the absence of scrambling unitary dynamics, where they are best understood as arising from measurements alone. This motivates us to introduce \emph{measurement-only models}, in which the "scrambling" and "un-scrambling" effects driving the EPT are fundamentally intertwined and cannot be attributed to physically distinct processes. This represents a novel form of an EPT, conceptually distinct from that in hybrid unitary-projective circuits. We explore the entanglement phase diagrams, critical points, and quantum code properties of some of these measurement-only models. We find that the principle driving the EPTs in these models is \emph{frustration}, or mutual incompatibility, of the measurements. Suprisingly, an entangling (volume-law) phase is the generic outcome when measuring sufficiently long but still local ($\gtrsim 3$-body) operators. We identify a class of exceptions to this behavior ("bipartite ensembles") which cannot sustain an entangling phase, but display dual area-law phases, possibly with different kinds of quantum order, separated by self-dual critical points. Finally, we introduce a measure of information spreading in dynamics with measurements and use it to demonstrate the emergence of a statistical light-cone, despite the non-locality inherent to quantum measurements.
翻訳日:2023-05-22 22:35:31 公開日:2021-01-13
# 開系に対する量子断熱ブラキストロン

Quantum adiabatic brachistochrone for open systems ( http://arxiv.org/abs/2006.13718v2 )

ライセンス: Link先を確認
Alan C. Santos, Celso J. Villas-Boas, Romain Bachelard(参考訳) オープンシステムのための量子断熱ブラヒストローネ(qab)を計算するための変分原理を提案する。 エネルギーギャップに基づく「断熱速度」の概念を用いて、断熱挙動を達成するために費やされた時間を関数的に測定するラグランジアンを導出し、それによって最適化を行うことができる。 QABはSTIRAPプロセスの非単位力学、Deutsch-Jozsa量子計算アルゴリズム、およびトランスモンキュートリットのために説明される。 数値的プロトコルが考案され、正確なシミュレーションが可能である任意の量子系に対するQABを計算することができる。 また,ラグランジアン間の同値性,すなわち開・閉系の qab について十分条件を定めている。

We propose a variational principle to compute a quantum adiabatic brachistochrone (QAB) for open systems. Using the notion of "adiabatic speed" based on the energy gaps, we derive a Lagrangian associated to the functional measuring the time spent to achieve adiabatic behavior, which in turn allows us to perform the optimization. The QAB is illustrated for non-unitary dynamics of STIRAP process, the Deutsch-Jozsa quantum computing algorithm and of a transmon qutrit. A numerical protocol is devised, which allows to compute the QAB for arbitrary quantum systems for which exact simulations can be afforded. We also establish sufficient conditions for the equivalence between the Lagrangians, and thus the QAB, of open and closed systems.
翻訳日:2023-05-12 22:36:22 公開日:2021-01-13
# 等尺テンソルネットワークのリーマン最適化

Riemannian optimization of isometric tensor networks ( http://arxiv.org/abs/2007.03638v4 )

ライセンス: Link先を確認
Markus Hauru, Maarten Van Damme, and Jutho Haegeman(参考訳) いくつかのテンソルネットワークは等尺テンソル、すなわち$w^\dagger w = \mathrm{i}$ を満たすテンソルで構成されている。 代表的な例としては、正準形式の行列積状態(MPS)、多スケールエンタングルメント再正規化アンサッツ(MERA)、状態準備や量子変分固有解法に必要な量子回路などがある。 リーマン多様体上の勾配に基づく最適化手法は、等長体のテンソルネットワークを最適化して、例えば1次元量子ハミルトニアンの基底状態を表現することができることを示す。 本稿では、グラスマン多様体とスティーフェル多様体の幾何学、等尺テンソルのリーマン多様体について論じ、非線形共役勾配や準ニュートンアルゴリズムのような最先端最適化手法をこの文脈でどのように実装できるかを考察する。 これらの手法を無限のmpsとmeraの文脈に適用し、それらの特定の変分クラスに合わせた最適化手法の最高値を上回るベンチマーク結果を示す。 アルゴリズムのオープンソース実装も提供しています。

Several tensor networks are built of isometric tensors, i.e. tensors satisfying $W^\dagger W = \mathrm{I}$. Prominent examples include matrix product states (MPS) in canonical form, the multiscale entanglement renormalization ansatz (MERA), and quantum circuits in general, such as those needed in state preparation and quantum variational eigensolvers. We show how gradient-based optimization methods on Riemannian manifolds can be used to optimize tensor networks of isometries to represent e.g. ground states of 1D quantum Hamiltonians. We discuss the geometry of Grassmann and Stiefel manifolds, the Riemannian manifolds of isometric tensors, and review how state-of-the-art optimization methods like nonlinear conjugate gradient and quasi-Newton algorithms can be implemented in this context. We apply these methods in the context of infinite MPS and MERA, and show benchmark results in which they outperform the best previously-known optimization methods, which are tailor-made for those specific variational classes. We also provide open-source implementations of our algorithms.
翻訳日:2023-05-11 01:42:10 公開日:2021-01-13
# ジョイントデータ処理による測定デバイス非依存量子鍵分布の高速化

Higher key rate of measurement-device-independent quantum key distribution through joint data processing ( http://arxiv.org/abs/2007.08915v3 )

ライセンス: Link先を確認
Cong Jiang, Zong-Wen Yu, Xiao-Long Hu, and Xiang-Bin Wang(参考訳) 本研究では,計測デバイス非依存量子鍵分布(mdi-qkd)の鍵速度を劇的に向上させる,二重走査法という手法を提案する。 本手法では,2つのパラメータを同時に走査し,単光子対の個数と位相フリップ誤差率を同時推定する。 数値的な結果から,本手法は典型的な実験値設定において,鍵レートを35\%-280\%$向上できることがわかった。 さらに、MDI-QKDプロトコルの最適化について、ソースパラメータや故障確率パラメータを含む全てのパラメータ、対称チャネルや非対称チャネルの最適化について検討する。 ソースパラメータのみを最適化した結果と比較して、全パラメータ最適化法はキーレートを約10\%$に改善できる。

We propose a method named as double-scanning method, to improve the key rate of measurement-device-independent quantum key distribution (MDI-QKD) drastically. In the method, two parameters are scanned simultaneously to tightly estimate the counts of single-photon pairs and the phase-flip error rate jointly. Numerical results show that the method in this work can improve the key rate by $35\%-280\%$ in a typical experimental set-up. Besides, we study the optimization of MDI-QKD protocol with all parameters including the source parameters and failure probability parameters, over symmetric channel or asymmetric channel. Compared with the optimized results with only the source parameters, the all-parameter-optimization method could improve the key rate by about $10\%$.
翻訳日:2023-05-09 05:02:23 公開日:2021-01-13
# 不整合保存操作における多値コヒーレント状態の決定論的変換

Deterministic transformations of multilevel coherent states under incoherence-preserving operations ( http://arxiv.org/abs/2008.00377v2 )

ライセンス: Link先を確認
Limei Zhang, Ting Gao, Fengli Yan(参考訳) 量子コヒーレンス(quantum coherence)は、量子状態の「重ね合わせ」から生まれ、様々な情報処理タスクで広く使われている。 近年,多レベル量子コヒーレンスの資源理論が注目されている。 本稿では,多レベルコヒーレンスの理論的枠組みにおける自由操作による資源純状態の決定論的変換を主に研究する。 我々は、任意の2つの多レベルコヒーレントリソース純状態が完全正かつトレースな非従属保存写像を介して非ゼロ確率と相互変換可能であることを証明する。 一方、k$-coherence-preserving 操作下で2つの多レベルコヒーレントリソース純状態の相互変換の条件を示す。 さらに、マルチレベルコヒーレンス(英語版)の資源理論的枠組みでは、リソース状態が孤立せず、すなわち、他のマルチレベルコヒーレント純状態 $|\psi\rangle$ と $k$-コヒーレンス保存操作 $\Lambda_k$ が存在して、$\Lambda_k(|\phi\rangle)=|\psi\rangle$ となる。

Quantum coherence, emerging from the 'superposition' of quantum states, is widely used in various information processing tasks. Recently, the resource theory of multilevel quantum coherence is attracting substantial attention. In this paper, we mainly study the deterministic transformations of resource pure states via free operations in the theoretical framework for multilevel coherence. We prove that any two multilevel coherent resource pure states can be interconverted with a nonzero probability via a completely positive and trace non-increasing $k$-coherence-preserving map. Meanwhile, we present the condition of the interconversions of two multilevel coherent resource pure states under $k$-coherence-preserving operations. In addition, we obtain that in the resource-theoretic framework of multilevel coherence, no resource state is isolated, that is, given a multilevel coherent pure state $|\psi\rangle$, there exists another multilevel coherent pure state $|\phi\rangle$ and a $k$-coherence-preserving operation $\Lambda_k$, such that $\Lambda_k(|\phi\rangle)=|\psi\rangle$.
翻訳日:2023-05-07 08:43:29 公開日:2021-01-13
# スケーラブルフォトニック量子システムの統計的ベンチマーク

Statistical Benchmarking of Scalable Photonic Quantum Systems ( http://arxiv.org/abs/2008.11542v2 )

ライセンス: Link先を確認
Johannes Tiedau, Melanie Engelkemeier, Benjamin Brecht, Jan Sperling, Christine Silberhorn(参考訳) スケーラブルなフォトニック量子技術の実現を目指して、多くの光子の生成、大きな光ネットワークでの伝播、そしてそれに続く洗練された量子相関の検出と解析は、マクロ量子システムを理解する上で不可欠である。 本研究は, 上記すべての成分の協同操作について検討する。 我々は,多光子状態の高性能な情報源と大規模多重化ネットワークと,量子光の分散と複雑な量子相関測定が可能な高光子数分解能の独特な検出器を含む時間多重化フレームワークをベンチマークした。 多くのモードに分散した光子の高次非古典相関を,静的ではなく柔軟なタイムビンを用いる適応的手法を用いて検証した。 システムの対称性を活用し,強力な分析ツールを用いることで,古典的手法ではアクセスできない相関を解析できる。 特に、光子10個のオーダーで生成し、64個のモードに分散します。 非古典性は128位までの相関関数と最大20個の標準偏差の統計的意義で検証される。

Targeting at the realization of scalable photonic quantum technologies, the generation of many photons, their propagation in large optical networks, and a subsequent detection and analysis of sophisticated quantum correlations are essential for the understanding of macroscopic quantum systems. In this experimental contribution, we explore the joint operation of all mentioned ingredients. We benchmark our time-multiplexing framework that includes a high-performance source of multiphoton states and a large multiplexing network, together with unique detectors with high photon-number resolution, readily available for distributing quantum light and measuring complex quantum correlations. Using an adaptive approach that employs flexible time bins, rather than static ones, we successfully verify high-order nonclassical correlations of many photons distributed over many modes. By exploiting the symmetry of our system and using powerful analysis tools, we can analyze correlations that would be inaccessible by classical means otherwise. In particular, we produce on the order of ten photons and distribute them over 64 modes. Nonclassicality is verified with correlation functions up to the 128th order and statistical significances of up to 20 standard deviations.
翻訳日:2023-05-04 21:50:38 公開日:2021-01-13
# パルスから回路へ、そして再び振り返る:変分量子アルゴリズムにおける量子最適制御の観点から

From pulses to circuits and back again: A quantum optimal control perspective on variational quantum algorithms ( http://arxiv.org/abs/2009.06702v2 )

ライセンス: Link先を確認
Alicia B. Magann, Christian Arenz, Matthew D. Grace, Tak-San Ho, Robert L. Kosut, Jarrod R. McClean, Herschel A. Rabitz, Mohan Sarovar(参考訳) 過去10年間、量子技術の発展は目覚ましい進歩を遂げてきた。 耐故障性デバイスは数年先にとどまる可能性が高いが、今日のノイズの多い中間スケールの量子デバイスは他の目的のために活用されるかもしれない。 主な候補は変分量子アルゴリズム(VQA)で、化学、最適化、機械学習を含むアプリケーション向けに開発されたが、量子デバイスの実装は古典的な能力よりも改善を実証していない。 本稿では,量子最適制御理論によりVQAの性能を伝達できる様々な方法を提案する。 ステージを設定するために、vqaと量子最適制御を回路レベルとパルスレベルでの変分最適化の定式化として同定し、これらは我々が検討する抽象化のより広い階層の2つのレベルを表す。 この統一的な図では,量子最適制御理論のアンサッツ選択,最適化景観,雑音,ロバスト性に関連するvqa課題への適用を容易にするため,異なる抽象レベルが接続される可能性があるいくつかの方法を提案する。 VQA実装における十分なコントロールリソースの必要性、必要なさまざまな方法について議論し、さまざまなオープンな質問を概説し、将来を見据えて結論付けます。

The last decade has witnessed remarkable progress in the development of quantum technologies. Although fault-tolerant devices likely remain years away, the noisy intermediate-scale quantum devices of today may be leveraged for other purposes. Leading candidates are variational quantum algorithms (VQAs), which have been developed for applications including chemistry, optimization, and machine learning, but whose implementations on quantum devices have yet to demonstrate improvements over classical capabilities. In this Perspective, we propose a variety of ways that the performance of VQAs could be informed by quantum optimal control theory. To set the stage, we identify VQAs and quantum optimal control as formulations of variational optimization at the circuit level and pulse level, respectively, where these represent just two levels in a broader hierarchy of abstractions that we consider. In this unified picture, we suggest several ways that the different levels of abstraction may be connected, in order to facilitate the application of quantum optimal control theory to VQA challenges associated with ansatz selection, optimization landscapes, noise, and robustness. A major theme throughout is the need for sufficient control resources in VQA implementations; we discuss different ways this need can manifest, outline a variety of open questions, and conclude with a look to the future.
翻訳日:2023-05-02 06:25:46 公開日:2021-01-13
# 量子多粒子状態に対するハイブリッド畳み込みニューラルネットワークとPEPS波動関数

Hybrid convolutional neural network and PEPS wave functions for quantum many-particle states ( http://arxiv.org/abs/2009.14370v2 )

ライセンス: Link先を確認
Xiao Liang, Shao-Jun Dong and Lixin He(参考訳) ニューラルネットワークは量子多粒子問題の変分波動関数として使われてきた。 高精度な基底状態エネルギーを得るためには, 正しい符号構造が重要であることが示されている。 本研究では,畳み込み型ニューラルネットワーク(CNN)と投影型絡み合ったペア状態(PEPS)を組み合わせたハイブリッド波動関数を提案する。 我々は、非常にフラストレーションの高いスピン-1/2$J_1$-$J_2$モデルでアンサッツをベンチマークする。 得られた基底エネルギーが最先端の結果と競合することを示す。

Neural networks have been used as variational wave functions for quantum many-particle problems. It has been shown that the correct sign structure is crucial to obtain the high accurate ground state energies. In this work, we propose a hybrid wave function combining the convolutional neural network (CNN) and projected entangled pair states (PEPS), in which the sign structures are determined by the PEPS, and the amplitudes of the wave functions are provided by CNN. We benchmark the ansatz on the highly frustrated spin-1/2 $J_1$-$J_2$ model. We show that the achieved ground energies are competitive to state-of-the-art results.
翻訳日:2023-04-30 14:24:03 公開日:2021-01-13
# 低複雑性量子主成分分析アルゴリズム

A Low Complexity Quantum Principal Component Analysis Algorithm ( http://arxiv.org/abs/2010.00831v2 )

ライセンス: Link先を確認
Chen He, Jiazhen Li, Weiqi Liu and Z.Jane Wang(参考訳) 本稿では,低複雑性量子主成分分析(qPCA)アルゴリズムを提案する。 最先端のqPCAと同様に、データマトリックスのすべてのコンポーネントではなく、データマトリックスの主成分を量子レジスタに抽出することで次元の縮小を実現し、必要な測定サンプルを大幅に削減することができる。 しかし、最先端のqPCAに対する我々のqPCAの大きな利点は、より少ない量子ゲートを必要とすることである。 さらに、量子回路の単純化により、より正確である。 提案したqPCAをIBM量子コンピューティングプラットフォーム上に実装し,実験結果と期待値が一致した。

In this paper, we propose a low complexity quantum principal component analysis (qPCA) algorithm. Similar to the state-of-the-art qPCA, it achieves dimension reduction by extracting principal components of the data matrix, rather than all components of the data matrix, to quantum registers, so that samples of measurement required can be reduced considerably. However, the major advantage of our qPCA over the state-of-the-art qPCA is that it requires much less quantum gates. In addition, it is more accurate due to the simplification of the quantum circuit. We implement the proposed qPCA on the IBM quantum computing platform, and the experimental results are consistent with our expectations.
翻訳日:2023-04-30 04:09:58 公開日:2021-01-13
# 有限ヒルベルト空間次元をもつ量子系における長距離レベル相関

Long-range level correlations in quantum systems with finite Hilbert space dimension ( http://arxiv.org/abs/2010.06489v2 )

ライセンス: Link先を確認
\'Angel L. Corps, Armando Rela\~no(参考訳) 有限ヒルベルト空間を持つ量子系のスペクトル統計学を研究する。 そのような系における固有レベルが、完全に可積分なダイナミクスの場合であっても、展開手順の結果として、グローバルに無相関であることを示す定理を導出する。 我々は、レベル反発を伴う中間統計モデルに対して、$\delta_n$ statisticのパワースペクトルに対する解析式を提供し、その結果が展開手順によって損なわれることを数値的にも解析的にも示す。 次に、この現象を説明するための簡単なモデルを提供し、混乱したxxz鎖の数値、多体局在のパラダイムモデル、量子積分可能性の原型モデルであるrational gaudin-richardsonモデルを用いてテストする。

We study the spectral statistics of quantum systems with finite Hilbert spaces. We derive a theorem showing that eigenlevels in such systems cannot be globally uncorrelated, even in the case of fully integrable dynamics, as a consequence of the unfolding procedure. We provide an analytic expression for the power spectrum of the $\delta_n$ statistic for a model of intermediate statistics with level repulsion but independent spacings, and we show both numerically and analytically that the result is spoiled by the unfolding procedure. Then, we provide a simple model to account for this phenomenon, and test it by means of numerics on the disordered XXZ chain, the paradigmatic model of many-body localization, and the rational Gaudin-Richardson model, a prototypical model for quantum integrability.
翻訳日:2023-04-29 05:06:27 公開日:2021-01-13
# スピン系の選択的およびロバストな時間最適回転

Selective and Robust Time-Optimal Rotations of Spin Systems ( http://arxiv.org/abs/2010.12454v2 )

ライセンス: Link先を確認
Quentin Ansel, Steffen J. Glaser, Dominique Sugny(参考訳) オフセット項が異なるスピン1/2粒子の選択的かつロバストな時間最適回転制御について検討した。 この目的のために、ポントリャーギンの最大原理は2つのスピンのモデルに適用され、解析計算には十分単純であり、不均一効果を記述するのに十分複雑である。 選択制御とロバスト制御はそれぞれ特異軌道と正則軌道によって記述される。 幾何学的解析と数値シミュレーションを組み合わせることで,異なる制御問題の最適解を決定する。 選択的かつ堅牢な制御は、数値最適化なしで解析的に導出することができる。 核磁気共鳴におけるいくつかの標準制御機構の最適性を示すが、新しいロバスト制御も設計されている。

We study the selective and robust time-optimal rotation control of several spin-1/2 particles with different offset terms. For that purpose, the Pontryagin Maximum Principle is applied to a model of two spins, which is simple enough for analytic computations and sufficiently complex to describe inhomogeneity effects. We find that selective and robust controls are respectively described by singular and regular trajectories. Using a geometric analysis combined with numerical simulations, we determine the optimal solutions of different control problems. Selective and robust controls can be derived analytically without numerical optimization. We show the optimality of several standard control mechanisms in Nuclear Magnetic Resonance, but new robust controls are also designed.
翻訳日:2023-04-27 22:43:31 公開日:2021-01-13
# オープン量子システムにおける測定誘起リセット

Measurement-induced resetting in open quantum systems ( http://arxiv.org/abs/2011.04403v2 )

ライセンス: Link先を確認
Andreu Riera-Campeny, Jan Oll\'e, and Axel Mas\'o-Puigdellosas(参考訳) 我々は、任意の開量子系のリセット過程における進化を研究するための新しいアプローチを提唱した。 リニューアル方程式の枠組みを用いて、ユニタリダイナミクスとマルコフ測定を超越した平均第一帰納時間に対する普遍的な振る舞いを見つける。 その結果、平均切替時間の非自明な挙動を平均測定時間$\tau$で示しており、状態間の平均遷移時間を最小化するために$\tau$をチューニングできる。 その結果を数値解析で補完し,ユニタリな \textit{and} 開放系力学の下での低次元系の解析研究に対してベンチマークを行った。

We put forward a novel approach to study the evolution of an arbitrary open quantum system under a resetting process. Using the framework of renewal equations, we find a universal behavior for the mean first return time that goes beyond unitary dynamics and Markovian measurements. Our results show a non-trivial behavior of the mean switching times with the mean measurement time $\tau$, which permits tuning $\tau$ for minimizing the mean transition time between states. We complement our results with a numerical analysis and we benchmark the results against the corresponding analytical study for low dimensional systems under unitary \textit{and} open system dynamics.
翻訳日:2023-04-24 21:28:17 公開日:2021-01-13
# 自由量子場理論における擬似エントロピー

Pseudo Entropy in Free Quantum Field Theories ( http://arxiv.org/abs/2011.09648v2 )

ライセンス: Link先を確認
Ali Mollabashi, Noburo Shiba, Tadashi Takayanagi, Kotaro Tamaoka, and Zixia Wei(参考訳) 擬似エントロピーは単純な重力双対を持つ興味深い量であり、初期状態と最終状態の両方に依存するように絡み合いエントロピーを一般化する。 ここでは,2次元自由スカラー場理論とイジングスピン鎖の組に対する数値計算により,量子場理論における擬似エントロピーの基本特性を明らかにする。 自由スカラー理論における擬エントロピーのガウス法を2つのパラメータで拡張する: mass $m$ と dynamical exponent $z$。 この計算は、面積法則の振る舞いに加えて、場の理論において普遍的であると推測する擬似エントロピーの2つの新しい性質を見出す。 1つは飽和挙動であり、もう1つは擬エントロピーと平均エンタングルメントエントロピーの差の非正則である。 さらに,Ising連鎖の数値計算結果から,擬似エントロピーは2つの状態が同じ量子相であるか否かを検出する新しい量子秩序パラメータとして機能することが示された。

Pseudo entropy is an interesting quantity with a simple gravity dual, which generalizes entanglement entropy such that it depends on both an initial and a final state. Here we reveal the basic properties of pseudo entropy in quantum field theories by numerically calculating this quantity for a set of two-dimensional free scalar field theories and the Ising spin chain. We extend the Gaussian method for pseudo entropy in free scalar theories with two parameters: mass $m$ and dynamical exponent $z$. This computation finds two novel properties of Pseudo entropy which we conjecture to be universal in field theories, in addition to an area law behavior. One is a saturation behavior and the other one is non-positivity of the difference between pseudo entropy and averaged entanglement entropy. Moreover, our numerical results for the Ising chain imply that pseudo entropy can play a role as a new quantum order parameter which detects whether two states are in the same quantum phase or not.
翻訳日:2023-04-23 17:24:10 公開日:2021-01-13
# 単一CdSe/ZnSe量子ドットにおける耐熱性コヒーレンスのフェムト秒移動と操作

Femtosecond Transfer and Manipulation of Persistent Hot-Trion Coherence in a Single CdSe/ZnSe Quantum Dot ( http://arxiv.org/abs/2011.10393v2 )

ライセンス: Link先を確認
Philipp Henzler, Christian Traum, Matthias Holtkemper, David Nabben, Marcel Erbe, Doris E. Reiter, Tilmann Kuhn, Suddhassatta Mahapatra, Karl Brunner, Denis V. Seletskiy, and Alfred Leitenstorfer(参考訳) 負電荷II-VI量子ドット中のp殻励起子を励起した後、基本トライアン共鳴の周囲の超高速透過変化を研究する。 バイエクシトニック誘導吸収は133ghzのホットトリオン状態の間の量子ビートを示す。 バンド間デファスメントは390fs以内のp殻穴の緩和によって支配されるが、三重項電子のポーリブロッキングにより、三重項コヒーレンスは85psのスピン系に保存される。 伝達の複雑な分光時間進化はマクスウェル・リウヴィル方程式を解くことによって解析的に説明される。 ポンプとプローブの偏光は、量子ビートの振幅と位相を完全に制御する。

Ultrafast transmission changes around the fundamental trion resonance are studied after exciting a p-shell exciton in a negatively charged II-VI quantum dot. The biexcitonic induced absorption reveals quantum beats between hot trion states at 133 GHz. While interband dephasing is dominated by relaxation of the P-shell hole within 390 fs, trionic coherence remains stored in the spin system for 85 ps due to Pauli blocking of the triplet electron. The complex spectro-temporal evolution of transmission is explained analytically by solving the Maxwell-Liouville equations. Pump and probe polarizations provide full control over amplitude and phase of the quantum beats.
翻訳日:2023-04-23 15:05:11 公開日:2021-01-13
# メタマテリアル導波路における非摂動減衰ダイナミクス

Nonperturbative decay dynamics in metamaterial waveguides ( http://arxiv.org/abs/2101.04936v1 )

ライセンス: Link先を確認
I\~nigo Liberal and Richard W. Ziolkowski(参考訳) 本研究では, 複合直交伝送線路(CRLH-TL)に結合した量子エミッタの非摂動減衰ダイナミクスについて検討する。 この理論は導波路の異なるスペクトル特性から寄与を捉え、弱い結合状態を超えて正確な予測を行い、メタマテリアル導波路の非自明な分散によって提供される多重可能性を示す。 導波路は2つの非対称エッジを持つバンドギャップによって特徴づけられる。 (i)自発的な放出が抑制され、不安定な極が円滑に境界状態に変換されるmu−near-zero(mnz)バンドエッジ (II)エプシロン・ニアゼロ(ENZ)バンドエッジは、崩壊速度が分岐し、不安定で実(バウンド状態)の極が共存する。 どちらの場合も、分岐切断特異性は、バンドエッジの性質に依存する分数分解ダイナミクスに寄与する。

In this work we investigate the nonperturbative decay dynamics of a quantum emitter coupled to a composite right/left handed transmission line (CRLH-TL). Our theory captures the contributions from the different spectral features of the waveguide, providing an accurate prediction beyond the weak coupling regime, and illustrating the multiple possibilities offered by the nontrivial dispersion of metamaterial waveguides. We show that the waveguide is characterized by a band-gap with two asymmetric edges: (i) a mu-near-zero (MNZ) band edge, where spontaneous emission is inhibited and an unstable pole is smoothly transformed into a bound state, and (ii) an epsilon-near-zero (ENZ) band edge, where the decay rate diverges and unstable and real (bound state) poles coexist. In both cases, branch cut singularities contribute with fractional decay dynamics whose nature depend on the properties of the band-edges.
翻訳日:2023-04-15 17:48:35 公開日:2021-01-13
# ガウスパス符号化フォトニックquditの角スペクトルの影響と絡み合い特性

Angular spectrum influence and entanglement characterization of Gaussian-path encoded photonic qudits ( http://arxiv.org/abs/2101.04870v1 )

ライセンス: Link先を確認
Gilberto F. Borges, Roberto D. Baldij\~ao, Artur A. Matoso, Sebasti\~ao P\'adua(参考訳) 絡み合った量子状態は、量子情報科学や量子力学の基礎研究において重要な役割を果たす。 このような分野では、絡み合った状態を簡単に作成できる技術の実装と評価が重要なステップである。 そこで,複数のガウスビームを持つ非線形結晶を励起することにより,光子に符号化されたエンタングル量子状態を生成する。 このようなアプローチにより、2つの量子ビットと2つの量子ビットの絡み合った状態を生成することができる。 我々は,ポンプ角スペクトルが生成状態に及ぼす影響を考慮し,その純度と絡み合い度を特徴付けることで,この源を理論的に解析する。 実験の結果, 生成した状態は高い純度と絡み合いを示し, 理論的解析により, ポンプビームプロファイルを用いた光状態の操作方法が解明された。

Entangled quantum states play an important role in quantum information science and also in quantum mechanics fundamental investigations. Implementation and characterization of techniques allowing for easy preparation of entangled states are important steps in such fields. Here we generated entangled quantum states encoded in photons transversal paths, obtained by pumping a non-linear crystal with multiple transversal Gaussian beams. Such approach allows us to generate entangled states of two qubits and two qutrits encoded in Gaussian transversal path of twin photons. We make a theoretical analyses of this source, considering the influence of the pump angular spectrum on the generated states, further characterizing those by their purity and entanglement degree. Our experimental results reveals that the generated states presents both high purity and entanglement, and the theoretical analysis elucidates how the pump beams profile can be used to manipulate such photonic states.
翻訳日:2023-04-15 17:47:43 公開日:2021-01-13
# ダークパターンって何? ダーク? 設計属性, 規範的考察, 測定方法

What Makes a Dark Pattern... Dark? Design Attributes, Normative Considerations, and Measurement Methods ( http://arxiv.org/abs/2101.04843v1 )

ライセンス: Link先を確認
Arunesh Mathur, Jonathan Mayer, Mihir Kshirsagar(参考訳) ダークパターンやユーザインターフェース設計(一般的にはショッピングやプライバシに関連する)に関する文献が急速に増えている。 最近の作業は、主に記述的であり、ドキュメント化され、不快なユーザーインターフェースを分類している。 これらの貢献は研究者や政策立案者のための特定のデザインの強調に役立っている。 しかし、現在の文献には概念的な基盤が欠けている。 ユーザインターフェースをダークパターンにする理由は何か? なぜユーザや社会に特定のデザインが問題なのか? 暗黒パターンに関する最近の研究をレビューし、この文献が特定の関心事や一貫した定義を反映していないことを実証する。 心理学,経済学,倫理学,哲学,法学の奨学金から,暗黒パターンとその個人や社会への影響を分析するための規範的視点を明らかにした。 次に,暗黒パターンに関する今後の研究が,ユーザインタフェース設計に対する主観的批判を超越し,規範的視点に基づく経験的手法を適用できることを示す。

There is a rapidly growing literature on dark patterns, user interface designs -- typically related to shopping or privacy -- that researchers deem problematic. Recent work has been predominantly descriptive, documenting and categorizing objectionable user interfaces. These contributions have been invaluable in highlighting specific designs for researchers and policymakers. But the current literature lacks a conceptual foundation: What makes a user interface a dark pattern? Why are certain designs problematic for users or society? We review recent work on dark patterns and demonstrate that the literature does not reflect a singular concern or consistent definition, but rather, a set of thematically related considerations. Drawing from scholarship in psychology, economics, ethics, philosophy, and law, we articulate a set of normative perspectives for analyzing dark patterns and their effects on individuals and society. We then show how future research on dark patterns can go beyond subjective criticism of user interface designs and apply empirical methods grounded in normative perspectives.
翻訳日:2023-04-15 17:47:28 公開日:2021-01-13
# ゲルマニウム半導体ナノ結晶のレーザー冷却

Laser Cooling of Germanium Semiconductor Nanocrystals ( http://arxiv.org/abs/2101.04833v1 )

ライセンス: Link先を確認
Manuchehr Ebrahimi, Wei Sun, Amr S. Helmy, Nazir P. Kherani(参考訳) 熱振動エネルギーの吸収により光の放射周波数が衝突レーザのそれを超える反ストークス発光による物質のレーザー冷却は、凝縮媒体、特に100K以下の固体光冷凍を実現する希土類ドープ系において成功している。 半導体のレーザー冷却は、温度を10kまで下げる可能性があり、その直接統合によってユニークな高性能ナノ構造半導体デバイスが導かれることが示唆されている。 ナノ構造II-VI半導体のレーザー冷却は近年報告されているが、IV族シリコンやゲルマニウムなどの間接バンドギャップ半導体のレーザー冷却は大きな課題である。 本稿では,ゲルマニウムナノ結晶における抗ストークス発光の異常な観察について報告する。 この結果は,超高純度ナノ結晶ゲルマニウムの結合,電子ホールプラズマの高密度化,非極性間接バンドギャップ半導体における縦・横光フォノンの固有縮退,空間閉じ込め効果に起因している。 高レーザ強度では、50k以下の格子温度のレーザー冷却を推定する。

Laser cooling of matter through anti-Stokes photoluminescence, where the emitted frequency of light exceeds that of the impinging laser by virtue of absorption of thermal vibrational energy, has been successfully realized in condensed media, and in particular with rare earth doped systems achieving sub-100K solid state optical refrigeration. Studies suggest that laser cooling in semiconductors has the potential of achieving temperatures down to ~10K and that its direct integration can usher unique high-performance nanostructured semiconductor devices. While laser cooling of nanostructured II-VI semiconductors has been reported recently, laser cooling of indirect bandgap semiconductors such as group IV silicon and germanium remains a major challenge. Here we report on the anomalous observation of dominant anti-Stokes photoluminescence in germanium nanocrystals. We attribute this result to the confluence of ultra-high purity nanocrystal germanium, generation of high density of electron-hole plasma, the inherent degeneracy of longitudinal and transverse optical phonons in non-polar indirect bandgap semiconductors, and commensurate spatial confinement effects. At high laser intensities, laser cooling with lattice temperature as low as ~50K is inferred.
翻訳日:2023-04-15 17:47:11 公開日:2021-01-13
# リカレントイノベーションの拡散を理解する

Understanding Diffusion of Recurrent Innovations ( http://arxiv.org/abs/2101.05094v1 )

ライセンス: Link先を確認
Fuqi Lin(参考訳) イノベーション理論の拡散は長年研究されてきた。 これまでの研究は主に重要な要素、採用者カテゴリ、イノベーション拡散のプロセスに焦点を当てている。 しかし、その多くは単一のイノベーションしか考えていない。 近代技術の発展に伴い、再帰的なイノベーションが徐々に流行する。 再帰的イノベーションの特徴を明らかにするために,モバイルアプリ更新の文脈における再帰的イノベーションの採用について,最初の大規模分析を行う。 本分析では, 再帰的イノベーションの導入行動と新たな採用カテゴリ, 導入プロセスに影響を及ぼす特徴を明らかにした。

The diffusion of innovations theory has been studied for years. Previous research efforts mainly focus on key elements, adopter categories, and the process of innovation diffusion. However, most of them only consider single innovations. With the development of modern technology, recurrent innovations gradually come into vogue. In order to reveal the characteristics of recurrent innovations, we present the first large-scale analysis of the adoption of recurrent innovations in the context of mobile app updates. Our analysis reveals the adoption behavior and new adopter categories of recurrent innovations as well as the features that have impact on the process of adoption.
翻訳日:2023-04-15 17:42:47 公開日:2021-01-13
# プライバシ保護と新型コロナウイルスのケース監視データセットの変革

Protecting Privacy and Transforming COVID-19 Case Surveillance Datasets for Public Use ( http://arxiv.org/abs/2101.05093v1 )

ライセンス: Link先を確認
Brian Lee, Brandi Dupervil, Nicholas P. Deputy, Wil Duck, Stephen Soroka, Lyndsay Bottichio, Benjamin Silk, Jason Price, Patricia Sweeney, Jennifer Fuld, Todd Weber, Dan Pollock(参考訳) 目的:連邦政府が収集したデータの共有を促進する連邦オープンデータイニシアチブは、透明性、データ品質、信頼、および公的および州、部族、地域および地域(stlt)パートナーとの関係において重要である。 これらのイニシアチブは、CDCの対応者以外の研究者、科学者、政策立案者にデータを提供することで、健康状態や病気の理解を深める。 これは、私たちが学習し、データニーズを進化させている新型コロナウイルスのような新興の状況に特に当てはまる。 感染拡大の当初から、cdcは個人レベルの身元不明のデータを管轄区域から収集しており、現在800万件以上の記録があり、毎日増加している。 本稿では,cdcが収集したデータから2つの識別されていない公開データセットを設計・作成する方法について述べる。 資料と方法:データ要素は、有用性、公開要求、プライバシーの影響に基づいて含まれ、特定のフィールド値が抑制され、機密情報の再識別や暴露のリスクが軽減された。 データ管理プラットフォーム分析ツールとRスクリプトを使用して、プライバシと機密性のためにデータセットが作成、検証された。 結果: 制限のないデータはdata.cdc.govを通じて公開され、制限されたデータは追加フィールドとともにgithub.comのプライベートリポジトリを通じてデータ使用契約で利用可能である。 プラクティスの意味: 利用可能な公開データの理解を深め、これらのデータを作成するのに使用される方法、および身元不明の個人のプライバシーを保護するために使用されるアルゴリズムにより、データ使用が改善される。 データ生成手順の自動化により、データのよりタイムリーな共有が可能になる。

Objectives: Federal open data initiatives that promote increased sharing of federally collected data are important for transparency, data quality, trust, and relationships with the public and state, tribal, local, and territorial (STLT) partners. These initiatives advance understanding of health conditions and diseases by providing data to more researchers, scientists, and policymakers for analysis, collaboration, and valuable use outside CDC responders. This is particularly true for emerging conditions such as COVID-19 where we have much to learn and have evolving data needs. Since the beginning of the outbreak, CDC has collected person-level, de-identified data from jurisdictions and currently has over 8 million records, increasing each day. This paper describes how CDC designed and produces two de-identified public datasets from these collected data. Materials and Methods: Data elements were included based on the usefulness, public request, and privacy implications; specific field values were suppressed to reduce risk of reidentification and exposure of confidential information. Datasets were created and verified for privacy and confidentiality using data management platform analytic tools as well as R scripts. Results: Unrestricted data are available to the public through Data.CDC.gov and restricted data, with additional fields, are available with a data use agreement through a private repository on GitHub.com. Practice Implications: Enriched understanding of the available public data, the methods used to create these data, and the algorithms used to protect privacy of de-identified individuals allow for improved data use. Automating data generation procedures allows greater and more timely sharing of data.
翻訳日:2023-04-15 17:42:40 公開日:2021-01-13
# 新型コロナウイルス感染拡大に伴うインターネットパフォーマンスの多面的調査

A Multi-Perspective Study of Internet Performance during the COVID-19 Outbreak ( http://arxiv.org/abs/2101.05030v1 )

ライセンス: Link先を確認
Ahmed Elmokashfi, Alfred Arouna, Ioana Livadariu, Mah-Rukh Fida, Amund Kvalbein, Anas Al-Selwi, Thomas Dreibholz, Haakon Bryhni(参考訳) 新型コロナウイルスSARS-CoV-2の急速な普及は、世界中の政府から前例のない反応を引き起こしている。 世界の人口の3分の1はロックダウンの度合いが変化しており、インターネットはほとんどのビジネスや学校活動を行う主要な媒体となっている。 本稿では,パンデミック第1波におけるインターネットパフォーマンスのマルチプロスペクティブな説明を目的とする。 本研究では,インターネット制御プレーンとデータプレーンの性能を,世界中に分散した複数のバンテージポイントから検討する。 2つのケーススタディについても詳しく調べる。 まず、グローバルなビデオ会議プロバイダからのトラフィックログを使用して、パンデミック中のビデオトラフィックの増加に注目します。 第2に,全国的に測定プローブを配備し,感染拡大時のモバイルネットワークの性能を評価する。 ロックダウンはインターネットのパフォーマンスのほとんどすべての面に目に見える影響を与えている。 アクセスネットワークはピークとオフピークの待ち時間の増加を経験している。 モバイルネットワークはダウンロード速度を大きく変化させる一方、特定の種類のビデオトラフィックは桁違いに増加している。 これらの変更にもかかわらず、インターネットはロックダウントラフィックに十分対応しているようだ。

The rapid spread of the novel corona virus, SARS-CoV-2, has prompted an unprecedented response from governments across the world. A third of the world population have been placed in varying degrees of lockdown, and the Internet has become the primary medium for conducting most businesses and schooling activities. This paper aims to provide a multi-prospective account of Internet performance during the first wave of the pandemic. We investigate the performance of the Internet control plane and data plane from a number of globally spread vantage points. We also look closer at two case studies. First, we look at growth in video traffic during the pandemic, using traffic logs from a global video conferencing provider. Second, we leverage a country-wide deployment of measurement probes to assess the performance of mobile networks during the outbreak. We find that the lockdown has visibly impacted almost all aspects of Internet performance. Access networks have experienced an increase in peak and off-peak end to end latency. Mobile networks exhibit significant changes in download speed, while certain types of video traffic has increased by an order of magnitude. Despite these changes, the Internet seems to have coped reasonably well with the lockdown traffic.
翻訳日:2023-04-15 17:41:43 公開日:2021-01-13
# discordにおける音声によるオンラインコミュニティのモデレーション課題

Moderation Challenges in Voice-based Online Communities on Discord ( http://arxiv.org/abs/2101.05258v1 )

ライセンス: Link先を確認
Jialun Aaron Jiang, Charles Kiene, Skyler Middler, Jed R. Brubaker, Casey Fiesler(参考訳) オンラインコミュニティのモデレーターはヘイトスピーチやハラスメントといった問題と戦う最前線にいるが、新しいインタラクションのモードは予期せぬ課題をもたらす可能性がある。 本稿では、discordのモデレーターと25の詳細なインタビューを通して、リアルタイム音声ベースのコミュニケーションの文脈におけるモデレーションの実践と課題について考察する。 以上の結果から,音声ベースのオンラインコミュニティが,コンテンツやインタラクションの穏健化の意味を変えることが示唆された。 テキストベースのコミュニティのモデレーターは、ディスラプティブノイズや音声レイディングのような不慣れなルールを破る新しい方法があるだけでなく、リアルタイム音声の短命性のため、ルール破壊的な行動の証拠を得るのもより困難である。 モデレーターは新しいモデレーション戦略を開発したが、これらの戦略は限定的であり、しばしば聞き取りや最初の印象に基づいており、その結果、モデレーションの失敗から偽の告発まで様々な問題が生じる。 これらの結果に基づき,音声コミュニケーションがモデレーションに関する現在の理解や仮定を複雑にし,プラットフォーム設計者や管理者がモデレーションを容易にする技術を設計する方法について概説する。

Online community moderators are on the front lines of combating problems like hate speech and harassment, but new modes of interaction can introduce unexpected challenges. In this paper, we consider moderation practices and challenges in the context of real-time, voice-based communication through 25 in-depth interviews with moderators on Discord. Our findings suggest that the affordances of voice-based online communities change what it means to moderate content and interactions. Not only are there new ways to break rules that moderators of text-based communities find unfamiliar, such as disruptive noise and voice raiding, but acquiring evidence of rule-breaking behaviors is also more difficult due to the ephemerality of real-time voice. While moderators have developed new moderation strategies, these strategies are limited and often based on hearsay and first impressions, resulting in problems ranging from unsuccessful moderation to false accusations. Based on these findings, we discuss how voice communication complicates current understandings and assumptions about moderation, and outline ways that platform designers and administrators can design technology to facilitate moderation.
翻訳日:2023-04-15 17:31:35 公開日:2021-01-13
# キックドディックモデルにおけるカオスと量子傷のフィンガープリント--時間外相関による研究

Fingerprint of chaos and quantum scars in kicked Dicke model: An out-of-time-order correlator study ( http://arxiv.org/abs/2101.05155v1 )

ライセンス: Link先を確認
Sudip Sinha, Sayak Ray and Subhasis Sinha(参考訳) 振動子とスピン部分空間の両方の診断ツールとしてOTOC(Out-of-time-order correlator)を用いた周期的蹴りディックモデル(KDM)のカオス発生について検討した。 大きなスピン極限では、古典的ハミルトニアン写像が構築され、対応する位相空間のダイナミクスを調べ、リャプノフ指数を計算することができる。 振動子の正準共役座標に対するOTOCの成長速度は、カオス状態におけるリャプノフ指数を捉えることができることを示す。 さらに、一般的な相互作用量子系におけるカオスの代替指標として機能するOTOCの飽和値を用いてカオスの開始について検討する。 これはまた、システム独立な実効ランダム行列モデルによってもサポートされている。 さらに,kdmの量子傷を同定し,otocダイナミクスを用いてその動的シグネチャを検出する。 また,現在進行中の冷間原子実験における本研究の意義についても論じる。

We investigate the onset of chaos in a periodically kicked Dicke model (KDM), using the out-of-time-order correlator (OTOC) as a diagnostic tool, in both the oscillator and the spin subspaces. In the large spin limit, the classical Hamiltonian map is constructed, which allows us to investigate the corresponding phase space dynamics and to compute the Lyapunov exponent. We show that the growth rate of the OTOC for the canonically conjugate coordinates of the oscillator is able to capture the Lyapunov exponent in the chaotic regime. The onset of chaos is further investigated using the saturation value of the OTOC, that can serve as an alternate indicator of chaos in a generic interacting quantum system. This is also supported by a system independent effective random matrix model. We further identify the quantum scars in KDM and detect their dynamical signature by using the OTOC dynamics. The relevance of the present study in the context of ongoing cold atom experiments is also discussed.
翻訳日:2023-04-15 17:30:38 公開日:2021-01-13
# 一様連続量子マルコフ半群のデコヒーレンスフリー部分環の一般構造

The general structure of the Decoherence-free subalgebra for uniformly continuous Quantum Markov semigroups ( http://arxiv.org/abs/2101.05121v1 )

ライセンス: Link先を確認
Emanuela Sasso, Veronica Umanit\`a(参考訳) 因子の直積分におけるデコヒーレンス自由部分代数 N(T) の分解を利用することで、一様連続 QMS のすべての構造定理を得る。 さらに、忠実な正規不変状態が存在する場合、N(T) は原子でなければならず、デコヒーレンスが発生することを証明している。

By using the decomposition of the decoherence-free subalgebra N(T) in direct integrals of factors, we obtain a structure theorem for every uniformly continuous QMSs. Moreover we prove that, when there exists a faithful normal invariant state, N(T) has to be atomic and decoherence takes place.
翻訳日:2023-04-15 17:30:09 公開日:2021-01-13
# ios app storeで削除されたアプリ

Demystifying Removed Apps in iOS App Store ( http://arxiv.org/abs/2101.05100v1 )

ライセンス: Link先を確認
Fuqi Lin(参考訳) モバイルデバイスの普及に伴い、モバイルアプリケーションは人々の生活の重要な部分となっている。 ユーザのためのセキュアなモバイルアプリダウンロードチャネルを提供するため、様々な現代的なアプリ市場は異なる企業によって維持されている。 例えば、GoogleはAndroidユーザー向けのGoogle Playを維持し、AppleはiOS、iPadOS、MacOSユーザー向けのApp Storeを維持している。 アプリ市場は、潜在的に有害なアプリケーションを避けるためにデベロッパーに制限を課す厳格なポリシーを考案しましたが、アプリベッティングのプロセスや潜在的有害なアプリの状態に関する知識は依然として限られています。 このギャップを埋めるために,本稿では,iOSアプリストアで削除されたアプリの大規模かつ縦断的な調査を行う。 私たちの分析によると、削除されたアプリのほとんどは低品質のアプリだが、その多くがとても人気がある。 さらに、これらのアプリの誤動作はアプリのメタデータに反映され、潜在的に有害なアプリを区別することができる。

With the popularity of mobile devices, mobile applications have become an essential part of people's lives. To provide secure mobile application download channels for users, various modern app markets are maintained by different companies. For example, Google maintains Google Play for Android users, while Apple maintains App Store for iOS, iPadOS, and MacOS users. Though app markets have come up with strict policies which impose restrictions on developers to avoid the potential harmful applications, we still have quite limited knowledge on the process of app vetting and the status of potential harmful apps. To fill this gap, this paper takes the initiative to conduct a large-scale and longitudinal study of removed apps in the iOS app store. Our analysis reveals that although most of the removed apps are low-quality apps, a number of them are quite popular. Furthermore, the mis-behaviors of these apps are reflected on app metadata, which makes it possible to distinguish potential harmful apps.
翻訳日:2023-04-15 17:30:01 公開日:2021-01-13
# 遠隔マルチモード量子メモリ間の通信ヘラルド絡み合い

Telecom-heralded entanglement between remote multimode solid-state quantum memories ( http://arxiv.org/abs/2101.05097v1 )

ライセンス: Link先を確認
Dario Lago-Rivera, Samuele Grandi, Jelena V. Rakonjac, Alessandro Seri, Hugues de Riedmatten(参考訳) 将来の量子ネットワークは、遠隔地間の絡み合いの分散を可能にし、量子通信、量子センシング、分散量子計算の応用を可能にする。 このネットワークの中核は、遠隔で相互接続された量子ノードで絡み合いを生成して保存する能力である。 様々な性質の遠隔物理システムが絡み合っているが、通信互換性やマルチモード操作など、ネットワーク運用の要件をすべて包含することはなかった。 本稿では,空間的に分離された2つの量子ノード間のエンタングルメントの実証を行い,そのエンタングルメントをマルチモードの量子メモリに格納する。 各ノードにおいて、プラセオジムドープ結晶は相関対の光子を、第2の光子は通信波長で保存する。 異なる研究室に置かれる量子メモリ間の絡み合いは、最大1.4kHzの速度で通信光子を検出し、あらかじめ決定された保存時間25マイクロ秒の結晶に格納される。 また, 得られた絡み合いは, ヘラルディング経路の損失に対して頑健であり, 62時間モードで時間的多重動作を示した。 我々の実現は、長い距離の絡み合いに拡張可能であり、固体資源に基づく電界展開型多重量子リピータへの実行可能な経路を提供する。

Future quantum networks will enable the distribution of entanglement between distant locations and allow applications in quantum communication, quantum sensing and distributed quantum computation. At the core of this network lies the ability of generating and storing entanglement at remote, interconnected quantum nodes. While remote physical systems of various nature have been successfully entangled, none of these realisations encompassed all of the requirements for network operation, such as telecom-compatibility and multimode operation. Here we report the demonstration of heralded entanglement between two spatially separated quantum nodes, where the entanglement is stored in multimode solid-state quantum memories. At each node a praseodymium-doped crystal stores a photon of a correlated pair, with the second photon at telecommunication wavelengths. Entanglement between quantum memories placed in different labs is heralded by the detection of a telecom photon at a rate up to 1.4 kHz and is stored in the crystals for a pre-determined storage time up to 25 microseconds. We also show that the generated entanglement is robust against loss in the heralding path, and demonstrate temporally multiplexed operation, with 62 temporal modes. Our realisation is extendable to entanglement over longer distances and provides a viable route towards field-deployed, multiplexed quantum repeaters based on solid-state resources.
翻訳日:2023-04-15 17:29:45 公開日:2021-01-13
# コメント:「ローレンツ対称性違反によって誘導されるクーロン型中心電位を受けるディラック発振子について」

Comment on: "On the Dirac oscillator subject to a Coulomb-type central potential induced by the Lorentz symmetry violation" ( http://arxiv.org/abs/2101.06117v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) ディラック発振器の最近の結果を分析する。 フロベニウス級数の切り抜きは、ラジアル方程式のすべての固有値や固有関数をもたらすわけではないことを示す。 このため、著者らが報告した固有値は役に立たず、許容発振周波数の予測は意味をなさない。

We analyze recent results on a Dirac oscillator. We show that the truncation of the Frobenius series does not yield all the eigenvalues and eigenfunctions of the radial equation. For this reason the eigenvalues reported by the authors are useless and the prediction of allowed oscillator frequencies meaningless.
翻訳日:2023-04-15 17:23:16 公開日:2021-01-13
# 自動運転車技術が長距離走行行動に及ぼす影響

Impact of Autonomous Vehicle Technology on Long Distance Travel Behavior ( http://arxiv.org/abs/2101.06097v1 )

ライセンス: Link先を確認
Maryam Maleki, Yupo Chan, Mohammad Arani(参考訳) 車両内自動化技術は急速に進歩しており、公共用途に完全自動化技術を使用する可能性が高まっているが、長距離走行に自動運転車(AV)技術が及ぼす影響についてはほとんど研究されていない。 この技術は、都市間旅行に大きな影響を与える可能性がある。 本研究では,この技術が長距離旅行に与える影響を予想する旅行調査を行った。 私たちは旅行を、喜びのための旅行とビジネスのための旅行の2つのカテゴリに分けました。 著者の知識に基づく異なる仮説と既存の文献による支援は、旅行の種類ごとに定義されている。 Pearson法を用いてこれらの仮説を検証し、回答者の正あるいは負の反応を評価した。 その結果,観光旅行にAVを使用すると旅行者の数が増加し,旅行距離が長くなることが示唆された。 さらに、人々はより楽しみ、より頻繁に旅行することに興味を持ちます。 ビジネス旅行では、AV技術は旅行コストと仕事関連のストレスを減らすことができる。 人々が夜の旅行に興味がない遊興旅行とは異なり、ビジネス旅行者は夜の旅行を好む。

Although rapid progress in-vehicle automated technology has sped up the possibility of using fully automated technology for public use, little research has been done on the possible influences of autonomous vehicles (AVs) technology on long-distance travel. This technology has the potential to have a significant effect on intercity trips. This study analyzed a travel survey to anticipate the impact of this technology on long-distance trips. We have divided trips into two different categories including trips for pleasure and trips for business. Different hypotheses based on the authors' knowledge and assisted by existing literature have been defined for each type of trip. By using the Pearson method these hypotheses have been tested and the positive or negative responses from respondents have been evaluated. The findings show that using AVs for pleasure trips can increase the number of travelers and stimulate people to choose longer distances for their trips. In addition, people enjoy more and will be interested to travel more frequently. For business trips, AV technology can reduce travel costs and job-related stress. Unlike pleasure trips for which people are not interested in traveling at night, business travelers prefer to travel at night.
翻訳日:2023-04-15 17:22:58 公開日:2021-01-13
# 盗難防止機能を有する最適道路安全自動車システム

Motorcycle System for Optimum Road Safety with Anti-theft Capability ( http://arxiv.org/abs/2101.06096v1 )

ライセンス: Link先を確認
Carlo H Godoy Jr(参考訳) 2010年、交通事故により6941人のフィリピン人が死亡し、さらに数千人が負傷した。 頭部と首の怪我は、主な死因、重傷、オートバイ利用者の障害である。 自動車の利用者は、殺害された道路上の乗客のかなりの割合を占める。 この研究の主な目的は、道路を走行中にオートバイ乗りが安全になるのに役立つ、最適道路安全のためのMCUベースのオートバイシステムを開発することである。 研究者たちはプロトタイピングの手法を使って、プロトタイプをモーター自体から集めた最初の要件に従って構築する。 提案手法の期待される結果は,各モジュールの異なる機能を利用して,ライダーが道路上での危険の検出と回避を可能にすることである。 それぞれのモジュールに関する異なる文献の結果として、このシステムはフィリピンのすべてのライダーの安全を確保するための新しい飛躍をもたらすことが期待されている。 今後の研究では、システムの開発、テスト提供、テスト結果によるシステムの機能向上が保証される予定である。 全国の道路を走行する自動車やオートバイの数が増加し、事故率も上昇している。 これに合わせて,提案システムでは事故原因の回避による事故率の低減が期待されている。

Due to road traffic accidents, 6941 Filipinos died in 2010, and thousands more were wounded or disabled. Head and neck injuries are the main cause of death, severe injury, and motorcycle users disabilities. Motorcycle users make up a large proportion of those on the road who were killed. The main purpose of the study is to develop an MCU Based Motorcycle System for Optimum Road Safety with Anti-theft Capability that will help motorcycle riders to be safe while travelling in national roads. The researchers will be using the prototyping methodology where in a prototype is built according to the initial requirements gathered from the motorists themselves. The expected result of the proposed methodology is the system will be utilizing the different function of each modules to ensure that the riders will be able to detect and avoid possible danger while on the road. As a result of different literature in relation to each module, the system is expected to provide a new leap to ensure the safety of all riders here in the Philippines. Future studies will ensure the development of the system, provide testing and improve the functionality of the system depending on the test result. Due to the high increase in the number of cars and motorcycle travelling on national road, the percentage of accidents also is getting higher. In line with that, the proposed system is expected to lessen the percentage of accident by avoiding the possible cause of it.
翻訳日:2023-04-15 17:22:43 公開日:2021-01-13
# 駆動散逸型イジングモデル: 正確な場理論解析

Driven-dissipative Ising Model: An exact field-theoretical analysis ( http://arxiv.org/abs/2101.05297v1 )

ライセンス: Link先を確認
Daniel A. Paz and Mohammad F. Maghrebi(参考訳) 駆動散逸多体系は非平衡力学、散逸、多体相互作用により解析的に解析することが難しい。 本稿では,局所自発的放出を伴う非散逸的無限範囲イジングモデルについて考察する。 鈴木-トロッター量子-古典写像の適応を利用して、単純な散乱画像から理解可能な正確な場理論解析とスピンモデルの図式表現を開発した。 この表現により, 臨界挙動, 有限スケールおよび各相転移近傍の有効温度を解析できる。 我々の形式主義はさらに、有効な温度が負になる「加熱」領域を見つけ、真に非平衡な挙動を示す秩序相の詳細な研究を可能にする。 相転移では, 破壊過多と破壊過小の2つの臨界挙動が, 総称的および弱散逸的臨界点においてそれぞれ見出される。 さらに, 弱減衰臨界挙動は短距離摂動に対して頑健であり, モデルの平均場特性の人工物ではないことを示した。 このような摂動を扱うため、短距離相互作用によるスピン波への結合を含む図式表現を拡張した。 本研究で開発された場理論的なアプローチと図式論は、汎用短距離駆動散逸スピン系への応用において有用である。

Driven-dissipative many-body systems are difficult to analyze analytically due to their non-equilibrium dynamics, dissipation and many-body interactions. In this paper, we consider a driven-dissipative infinite-range Ising model with local spontaneous emission, which naturally emerges from the open Dicke model in the large-detuning limit. Utilizing an adaptation of the Suzuki-Trotter quantum-to-classical mapping, we develop an exact field-theoretical analysis and a diagrammatic representation of the spin model that can be understood from a simple scattering picture. With this representation, we are able to analyze critical behavior, finite-size scaling and the effective temperature near the respective phase transition. Our formalism further allows a detailed study of the ordered phase where we find a "heating" region within which the effective temperature becomes negative, thereby exhibiting a truly non-equilibrium behavior. At the phase transition, we find two distinct critical behaviors with overdamped and underdamped critical dynamics at generic and weakly-dissipative critical points, respectively. We further show that the underdamped critical behavior is robust against short-range perturbations and is not an artifact of the mean-field nature of the model. To treat such perturbations, we extend our diagrammatic representation to include the coupling to spin waves due to the short-range interactions. The field-theoretical approach and the diagrammatics developed in this work should prove useful in applications to generic short-range driven-dissipative spin systems.
翻訳日:2023-04-15 17:21:15 公開日:2021-01-13
# 遊びたいことを教える:人間とロボットのインタラクションを通じて4つの接続を学習する

Teach Me What You Want to Play: Learning Variants of Connect Four through Human-Robot Interaction ( http://arxiv.org/abs/2001.01004v4 )

ライセンス: Link先を確認
Ali Ayub and Alan R. Wagner(参考訳) 本稿では,connect 4 のようなインタラクティブなゲームを表現し,学習するためのゲーム理論表現の利用について検討する。 実演、アクティブラーニング、ゲーム理論による学習の側面を組み合わせることで、ロボットがその発展するゲーム表現を利用して、人との質問/回答セッションを行い、知識のギャップを埋めることができる。 本論文は,ロボットに1つの実演と,ロボットが指導する質問・回答セッションによるいくつかの試行例を用いて,ゲーム「コネクテッド・フォー」とその変種の勝利条件を教える方法を示す。 その結果,ロボットは勝条件の事前知識をほとんど持たずに任意の勝条件を学習し,学習した勝条件を利用して人間とゲームをすることができることがわかった。 我々の実験は、ゲームの勝利条件を学習する上で、いくつかの質問がより重要であることも示している。 この手法はさまざまなインタラクティブな学習シナリオに広く適用できると考えています。

This paper investigates the use of game theoretic representations to represent and learn how to play interactive games such as Connect Four. We combine aspects of learning by demonstration, active learning, and game theory allowing a robot to leverage its developing representation of the game to conduct question/answer sessions with a person, thus filling in gaps in its knowledge. The paper demonstrates a method for teaching a robot the win conditions of the game Connect Four and its variants using a single demonstration and a few trial examples with a question and answer session led by the robot. Our results show that the robot can learn arbitrary win conditions for the game with little prior knowledge of the win conditions and then play the game with a human utilizing the learned win conditions. Our experiments also show that some questions are more important for learning the game's win conditions. We believe that this method could be broadly applied to a variety of interactive learning scenarios.
翻訳日:2023-01-14 17:54:08 公開日:2021-01-13
# 新しい後方マッピング(画像前再構成)戦略を用いたカーネル主成分分析(kPCA)ダイジェスト

A kernel Principal Component Analysis (kPCA) digest with a new backward mapping (pre-image reconstruction) strategy ( http://arxiv.org/abs/2001.01958v2 )

ライセンス: Link先を確認
Alberto Garc\'ia-Gonz\'alez, Antonio Huerta, Sergio Zlotnik and Pedro D\'iez(参考訳) 多次元性低減手法は、データ範囲の低次元多様体を発見することを目的としている。 主成分分析(PCA)は、データが線形構造を持つ場合、非常に効果的である。 しかし、データが非線形の低次元多様体に属する場合、次元減少の可能性を特定することに失敗する。 非線形次元の低減のために、カーネル主成分分析(kpca)はその単純さと実装の容易さから評価されている。 本稿は、PCAとkPCAの主な考え方を簡潔にレビューし、しばしば分散される単一のドキュメントの側面で収集しようとするものである。 また、離散汎関数の最小化に基づいて、縮小次元を元の高次元空間にマップする戦略も考案されている。

Methodologies for multidimensionality reduction aim at discovering low-dimensional manifolds where data ranges. Principal Component Analysis (PCA) is very effective if data have linear structure. But fails in identifying a possible dimensionality reduction if data belong to a nonlinear low-dimensional manifold. For nonlinear dimensionality reduction, kernel Principal Component Analysis (kPCA) is appreciated because of its simplicity and ease implementation. The paper provides a concise review of PCA and kPCA main ideas, trying to collect in a single document aspects that are often dispersed. Moreover, a strategy to map back the reduced dimension into the original high dimensional space is also devised, based on the minimization of a discrepancy functional.
翻訳日:2023-01-13 21:29:15 公開日:2021-01-13
# Trajectron++: 異種データによる動的に実現可能なトラジェクトリ予測

Trajectron++: Dynamically-Feasible Trajectory Forecasting With Heterogeneous Data ( http://arxiv.org/abs/2001.03093v5 )

ライセンス: Link先を確認
Tim Salzmann, Boris Ivanovic, Punarjay Chakravarty, Marco Pavone(参考訳) 人間の動きに関する推論は、安全で社会的に認識されたロボットナビゲーションにとって重要な前提条件である。 その結果、マルチエージェント行動予測は、自動運転車のような現代の人間ロボットインタラクティブシステムの中核となる。 軌道予測には多くの方法が存在するが、その多くは動的制約を強制せず、環境情報(例えば地図)を説明できない。 この目的に向けて,多種多様なエージェントのトラジェクタを予測し,エージェントのダイナミクスと異種データ(意味マップなど)を組み込む,モジュラーなグラフ構造リカレントモデルtrajectron++を提案する。 Trajectron++は、ロボット計画とコントロールフレームワークと密に統合されるように設計されている。 実世界の軌道予測データセットにおいて,その性能を実証し,最先端の決定論的および生成的手法よりも優れた性能を示す。

Reasoning about human motion is an important prerequisite to safe and socially-aware robotic navigation. As a result, multi-agent behavior prediction has become a core component of modern human-robot interactive systems, such as self-driving cars. While there exist many methods for trajectory forecasting, most do not enforce dynamic constraints and do not account for environmental information (e.g., maps). Towards this end, we present Trajectron++, a modular, graph-structured recurrent model that forecasts the trajectories of a general number of diverse agents while incorporating agent dynamics and heterogeneous data (e.g., semantic maps). Trajectron++ is designed to be tightly integrated with robotic planning and control frameworks; for example, it can produce predictions that are optionally conditioned on ego-agent motion plans. We demonstrate its performance on several challenging real-world trajectory forecasting datasets, outperforming a wide array of state-of-the-art deterministic and generative methods.
翻訳日:2023-01-13 05:43:33 公開日:2021-01-13
# 準周期冷原子鎖の位相的量子光学状態

Topological quantum optical states in quasiperiodic cold atomic chains ( http://arxiv.org/abs/2001.05123v2 )

ライセンス: Link先を確認
B. X. Wang and C. Y. Zhao(参考訳) 1次元(1D)準周期冷原子鎖における位相量子光学状態の研究を行った。 本研究では, 1次元周期的原子鎖の原子間距離に不規則な変調を導入することにより, 長距離双極子-双極子相互作用が存在するにもかかわらず, 対角方向のオーブリー-アンドル-ハーパーモデル(AAH)を模倣できることを示す。 次元拡張パラメータの役割を担う変調位相に関する離散バンド構造は、近傍近似を超えた有限鎖に対して計算される。 本システムは実際に境界上に局在した非自明な位相状態をサポートする。 非対称なバンド構造につながる長距離双極子-双極子相互作用の存在にもかかわらず、このシステムは二次元整数量子ホール系の位相的性質を継承することを示した。 実数と虚数の両方のスペクトル位置とこれらの位相的に保護されたエッジ状態の数は、いまだにギャップラベルの定理によって制御されており、位相不変量、すなわち(第一)チャーン数によって特徴づけられる。 準周期性に起因するフラクタルスペクトルは, 概ね広い範囲の系パラメータで発生するため, 多数の位相ギャップと光学状態が実用的に容易に得られる。 また、トポロジカルエッジ状態のかなりの割合は、非常に低い崩壊率で非常にサブラジアンであり、したがって外部量子エミッタの放出を制御し、高忠実な量子状態記憶を実現するための魅力的な経路を提供する。

Topological quantum optical states in one-dimensional (1D) quasiperiodic cold atomic chains are studied in this work. We propose that by introducing incommensurate modulations on the interatomic distances of 1D periodic atomic chains, the off-diagonal Aubry-Andr\'e-Harper (AAH) model can be mimicked, although the crucial difference is the existence of long-range dipole-dipole interactions. The discrete band structures with respect to the modulation phase, which plays the role of a dimension extension parameter, are calculated for finite chains beyond the nearest-neighbor approximation. It is found that the present system indeed supports nontrivial topological states localized over the boundaries. Despite the presence of long-range dipole-dipole interactions that leads to an asymmetric band structure, it is demonstrated that this system inherits the topological properties of two-dimensional integer quantum Hall systems. The spectral position, for both real and imaginary frequencies, and number of these topologically protected edge states are still governed by the gap-labeling theorem and characterized by the topological invariant, namely, the (first) Chern number, indicating the validity of bulk-boundary correspondence. Due to the fractal spectrum arising from the quasiperiodicity in a substantially wide range of system parameters, our system provides a large number of topological gaps and optical states readily for practical use. It is also revealed that a substantial proportion of the topological edge states are highly subradiant with extremely low decay rates, which therefore offer an appealing route for controlling the emission of external quantum emitters and achieving high-fidelity quantum state storage.
翻訳日:2023-01-11 07:26:15 公開日:2021-01-13
# 機械によって学習された一群の異なる顔特徴は野生の外観バイアスの予測ではない

A Set of Distinct Facial Traits Learned by Machines Is Not Predictive of Appearance Bias in the Wild ( http://arxiv.org/abs/2002.05636v3 )

ライセンス: Link先を確認
Ryan Steed and Aylin Caliskan(参考訳) 社会心理学の研究は、人の人格に関する偏見や主観的な判断は、外見のみに基づくものであり、実際の人格の特徴を予測していないことを示した。 しかし、研究者や企業はコンピュータビジョンモデルを使って「雇用可能性」のような類似の主観的性格特性を予測することが多い。 我々は、最先端のブラックボックス・フェイス・プロセッシング技術が人間の外観バイアスを学習できるかどうかを判断する。 顔認識フレームワークであるfacenetで抽出された特徴を用いて,他の顔における人格特性の最初の印象について,社会心理学者が測定した転向学習モデルを学習する。 FaceNetで抽出した特徴は、意図的に操作された顔に対して人間の外見バイアススコアを予測するのに利用できるが、人間が無作為に生成した顔には適用できない。 さらに、社会心理学における人間のバイアスとは対照的に、このモデルは政治家の票共有と能力バイアスとを関連づける重要なシグナルを見出さない。 LIME(Local Interpretable Model-Agnostic Explanations)では,この違いについていくつかの説明を行う。 以上の結果から,社会心理学における外見バイアスの信号は,調査対象の機械学習技術に埋め込まれていないことが示唆された。 我々は,顔処理技術に外観バイアスを組み込む方法を明らかにし,外観に基づく主観的特徴を予測する実践に疑問を投げかけた。

Research in social psychology has shown that people's biased, subjective judgments about another's personality based solely on their appearance are not predictive of their actual personality traits. But researchers and companies often utilize computer vision models to predict similarly subjective personality attributes such as "employability." We seek to determine whether state-of-the-art, black box face processing technology can learn human-like appearance biases. With features extracted with FaceNet, a widely used face recognition framework, we train a transfer learning model on human subjects' first impressions of personality traits in other faces as measured by social psychologists. We find that features extracted with FaceNet can be used to predict human appearance bias scores for deliberately manipulated faces but not for randomly generated faces scored by humans. Additionally, in contrast to work with human biases in social psychology, the model does not find a significant signal correlating politicians' vote shares with perceived competence bias. With Local Interpretable Model-Agnostic Explanations (LIME), we provide several explanations for this discrepancy. Our results suggest that some signals of appearance bias documented in social psychology are not embedded by the machine learning techniques we investigate. We shed light on the ways in which appearance bias could be embedded in face processing technology and cast further doubt on the practice of predicting subjective traits based on appearances.
翻訳日:2023-01-01 09:34:51 公開日:2021-01-13
# 組合せ半帯域に対する統計的に効率的な多項式時間アルゴリズム

Statistically Efficient, Polynomial Time Algorithms for Combinatorial Semi Bandits ( http://arxiv.org/abs/2002.07258v2 )

ライセンス: Link先を確認
Thibaut Cuvelier and Richard Combes and Eric Gourdin(参考訳) 我々は、集合のアーム上の組合せ半バンドを考える。${\cal x} \subset \{0,1\}^d$ ここで、報酬はアイテム間で無関係である。 この問題に対して、アルゴリズム escb は最小の後悔の束縛 $r(t) = {\cal o}\big( {d (\ln m)^2 (\ln t) \over \delta_{\min} }\big)$ を与えるが、計算複雑性 ${\cal o}(|{\cal x}|)$ は典型的には $d$ で指数関数的であり、大次元では使用できない。 本稿では,r(t) = {\cal o} \big({d (\ln m)^2 (\ln t)\over \delta_{\min} }\big)$ と計算複雑性 ${\cal o}(t {\bf poly}(d))$ を用いて,この問題に対して計算量的かつ統計的に効率的な最初のアルゴリズムを提案する。 我々のアプローチは、同じ後悔の保証を持つescbの近似バージョンを慎重に設計することを含み、この近似アルゴリズムは、線形予算制約の対象である${\cal x}$上の線型関数を繰り返し最大化することで、時間${\cal o}(t {\bf poly}(d))$で実装できることを示し、この最大化問題を効率的に解く方法を示す。

We consider combinatorial semi-bandits over a set of arms ${\cal X} \subset \{0,1\}^d$ where rewards are uncorrelated across items. For this problem, the algorithm ESCB yields the smallest known regret bound $R(T) = {\cal O}\Big( {d (\ln m)^2 (\ln T) \over \Delta_{\min} }\Big)$, but it has computational complexity ${\cal O}(|{\cal X}|)$ which is typically exponential in $d$, and cannot be used in large dimensions. We propose the first algorithm which is both computationally and statistically efficient for this problem with regret $R(T) = {\cal O} \Big({d (\ln m)^2 (\ln T)\over \Delta_{\min} }\Big)$ and computational complexity ${\cal O}(T {\bf poly}(d))$. Our approach involves carefully designing an approximate version of ESCB with the same regret guarantees, showing that this approximate algorithm can be implemented in time ${\cal O}(T {\bf poly}(d))$ by repeatedly maximizing a linear function over ${\cal X}$ subject to a linear budget constraint, and showing how to solve this maximization problems efficiently.
翻訳日:2022-12-31 12:35:02 公開日:2021-01-13
# インクリメンタルおよびデクリメントデータ修正のための感度解析のより厳密な境界推定

Tighter Bound Estimation of Sensitivity Analysis for Incremental and Decremental Data Modification ( http://arxiv.org/abs/2003.03351v4 )

ライセンス: Link先を確認
Kaichen Zhou, Shiji Song, Gao Huang, Wu Cheng, Quan Zhou(参考訳) 大規模な分類問題では、データの一部が元のデータセットに追加または削除された場合、データセットは常に頻繁な更新に直面する。 この場合、既存の分類器を明示的にモデル化して更新する従来のインクリメンタル学習は、新しい分類器をスクラッチから再トレーニングするよりも効率的である。 しかしながら、分類器を更新すべきか、あるいは感度分析タスクを実行するべきかを決定することに関心がある場合もあります。 このようなタスクに対処するため,線形分類器を正確に更新することなく,線形分類器について合理的な推論を行うアルゴリズムを提案する。 具体的には,更新された分類器の係数行列の上および下限を,更新されたデータセットのサイズに関連する計算量の低い計算量で推定する手法を提案する。 理論的解析と実験の結果から,提案手法は係数境界の厳密性や計算複雑性の観点から既存手法よりも優れていることが示された。

In large-scale classification problems, the data set always be faced with frequent updates when a part of the data is added to or removed from the original data set. In this case, conventional incremental learning, which updates an existing classifier by explicitly modeling the data modification, is more efficient than retraining a new classifier from scratch. However, sometimes, we are more interested in determining whether we should update the classifier or performing some sensitivity analysis tasks. To deal with these such tasks, we propose an algorithm to make rational inferences about the updated linear classifier without exactly updating the classifier. Specifically, the proposed algorithm can be used to estimate the upper and lower bounds of the updated classifier's coefficient matrix with a low computational complexity related to the size of the updated dataset. Both theoretical analysis and experiment results show that the proposed approach is superior to existing methods in terms of tightness of coefficients' bounds and computational complexity.
翻訳日:2022-12-26 00:54:55 公開日:2021-01-13
# ニュアサンスパラメータ付き双対ポアソン推定に基づくニューラルネットワーク最適化による系統的不確実性の存在下での最適統計的推測

Optimal statistical inference in the presence of systematic uncertainties using neural network optimization based on binned Poisson likelihoods with nuisance parameters ( http://arxiv.org/abs/2003.07186v3 )

ライセンス: Link先を確認
Stefan Wunsch and Simon J\"orger and Roger Wolf and G\"unter Quast(参考訳) 科学におけるデータ分析、例えば高エネルギー粒子物理学は、観測と観測が高次元の入力空間にまたがる場合、しばしば難解な可能性にさらされる。 通常、この問題は特徴工学とヒストグラムを用いて次元性を減らすことで解決され、後者の手法はポアソン統計を用いて可能性を構築することができる。 しかし, ニュアサンスパラメータで表される系統的不確実性が存在する場合, 興味のあるパラメータに関する情報の損失を最小限に抑える最適次元性低減効果は分かっていない。 本研究は,特徴工学のためのニューラルネットワークによる次元性低減とヒストグラムの微分的定式化を新たに構築し,統計学的推論の結果,例えば興味のあるパラメータの分散を目的として,ワークフロー全体を最適化する手法を提案する。 提案手法は, 擬似実験に基づく簡単な例と高エネルギー粒子物理学によるより複雑な例を用いて, 最適に近い利害パラメータを推定し, 適用可能性を示す。

Data analysis in science, e.g., high-energy particle physics, is often subject to an intractable likelihood if the observables and observations span a high-dimensional input space. Typically the problem is solved by reducing the dimensionality using feature engineering and histograms, whereby the latter technique allows to build the likelihood using Poisson statistics. However, in the presence of systematic uncertainties represented by nuisance parameters in the likelihood, the optimal dimensionality reduction with a minimal loss of information about the parameters of interest is not known. This work presents a novel strategy to construct the dimensionality reduction with neural networks for feature engineering and a differential formulation of histograms so that the full workflow can be optimized with the result of the statistical inference, e.g., the variance of a parameter of interest, as objective. We discuss how this approach results in an estimate of the parameters of interest that is close to optimal and the applicability of the technique is demonstrated with a simple example based on pseudo-experiments and a more complex example from high-energy particle physics.
翻訳日:2022-12-23 03:50:14 公開日:2021-01-13
# entity-switched datasets: 名前付きエンティティ認識モデルのドメイン内ロバスト性監査へのアプローチ

Entity-Switched Datasets: An Approach to Auditing the In-Domain Robustness of Named Entity Recognition Models ( http://arxiv.org/abs/2004.04123v2 )

ライセンス: Link先を確認
Oshin Agarwal, Yinfei Yang, Byron C. Wallace, Ani Nenkova(参考訳) 名前付きエンティティ認識システムは、英語ニュースを含む標準データセットでよく機能する。 しかし、データの曖昧さを考えると、多様な実体の認識に関してシステムの堅牢性に関する結論を引き出すのは難しい。 そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。 私たちは、エンティティスイッチ付きデータセットを作成し、元のテキストにある名前付きエンティティを、同じタイプの名前付きエンティティに置き換えます。 同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。 システムは、アメリカとインド、そしてベトナムとインドネシアの組織で最善を尽くしている。 この監査アプローチは、より堅牢な名前付きエンティティ認識システムの開発を促進することができ、この分野の研究は、他の予測技術作業で注目を浴びた公平性基準を検討することができる。

Named entity recognition systems perform well on standard datasets comprising English news. But given the paucity of data, it is difficult to draw conclusions about the robustness of systems with respect to recognizing a diverse set of entities. We propose a method for auditing the in-domain robustness of systems, focusing specifically on differences in performance due to the national origin of entities. We create entity-switched datasets, in which named entities in the original texts are replaced by plausible named entities of the same type but of different national origin. We find that state-of-the-art systems' performance vary widely even in-domain: In the same context, entities from certain origins are more reliably recognized than entities from elsewhere. Systems perform best on American and Indian entities, and worst on Vietnamese and Indonesian entities. This auditing approach can facilitate the development of more robust named entity recognition systems, and will allow research in this area to consider fairness criteria that have received heightened attention in other predictive technology work.
翻訳日:2022-12-15 08:54:17 公開日:2021-01-13
# BERTのフルストーリーを語る - ローカルアテンションからグローバルアグリゲーションへ

Telling BERT's full story: from Local Attention to Global Aggregation ( http://arxiv.org/abs/2004.05916v2 )

ライセンス: Link先を確認
Damian Pascual, Gino Brunner and Roger Wattenhofer(参考訳) トランスフォーマーアーキテクチャにおけるセルフ・アテンション・ヘッドの挙動を深く検討する。 注意分布をモデル行動に用いていない最近の研究に照らして,注意分布は注意頭部の局所的行動に対する洞察を与えることができることを示した。 本研究では,注意によって明らかになった局所パターンと入力を参照するグローバルパターンの区別を提案し,両角度からbertの解析を行う。 グラデーション・アトリビューションを用いて,注意注目ヘッドの出力が入力トークンに依存するかを分析し,局部注意に基づく分析を効果的に拡張し,トランス層全体の情報の混合を考慮した。 モデル内の文脈の混合に起因する注意分布と帰属分布の間には大きな相違があることが判明した。 この相違を定量化し、興味深いことに、混合にもかかわらずすべての層に持続するパターンが存在することを観察します。

We take a deep look into the behavior of self-attention heads in the transformer architecture. In light of recent work discouraging the use of attention distributions for explaining a model's behavior, we show that attention distributions can nevertheless provide insights into the local behavior of attention heads. This way, we propose a distinction between local patterns revealed by attention and global patterns that refer back to the input, and analyze BERT from both angles. We use gradient attribution to analyze how the output of an attention attention head depends on the input tokens, effectively extending the local attention-based analysis to account for the mixing of information throughout the transformer layers. We find that there is a significant discrepancy between attention and attribution distributions, caused by the mixing of context inside the model. We quantify this discrepancy and observe that interestingly, there are some patterns that persist across all layers despite the mixing.
翻訳日:2022-12-14 20:19:20 公開日:2021-01-13
# 胸部x線を用いた深部畳み込みニューラルネットワークによる新型コロナウイルス検出

A Deep Convolutional Neural Network for COVID-19 Detection Using Chest X-Rays ( http://arxiv.org/abs/2005.01578v4 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Romis Attux(参考訳) 目的: Dense Convolutional Networks に基づく画像分類器を提示し, 胸部X線画像の分類を, 新型コロナウイルス, 肺炎, 正常の3つのラベルで行う。 方法:ImageNetで事前トレーニングしたニューラルネットワークを微調整し,NIH ChestX-ray14データセットを中間ステップとして,2回転送学習アプローチを適用した。 また,2回移動学習技術を変える出力ニューロン保持という新規性も提案した。 モデルのモード操作を明らかにするために,レイヤワイド・レバレンス・プロパゲーション(LRP)を用いて熱マップを生成する。 結果:テストデータセットで100%のテスト精度に到達することができました。 2つの伝達学習と出力ニューロン保持は、主にトレーニングプロセスの開始時に、パフォーマンスを向上する有望な結果を示した。 LRPは、X線上の単語がネットワークの予測に影響を及ぼすことを示したが、精度にはほとんど影響を与えなかった。 結論: 臨床研究とより大きなデータセットは、優れた一般化を実現するためにはまだ必要だが、私たちが達成した最先端のパフォーマンスは、人工知能の助けを借りて、胸部x線が新型コロナウイルスの診断の安価で正確な補助手段になることを示している。 lrpが生成するヒートマップはディープニューラルネットワークの解釈性を改善し、将来の診断研究のための分析経路を示す。 出力ニューロンによる2つの伝達学習の性能向上

Purpose: We present image classifiers based on Dense Convolutional Networks and transfer learning to classify chest X-ray images according to three labels: COVID-19, pneumonia and normal. Methods: We fine-tuned neural networks pretrained on ImageNet and applied a twice transfer learning approach, using NIH ChestX-ray14 dataset as an intermediate step. We also suggested a novelty called output neuron keeping, which changes the twice transfer learning technique. In order to clarify the modus operandi of the models, we used Layer-wise Relevance Propagation (LRP) to generate heatmaps. Results: We were able to reach test accuracy of 100% on our test dataset. Twice transfer learning and output neuron keeping showed promising results improving performances, mainly in the beginning of the training process. Although LRP revealed that words on the X-rays can influence the networks' predictions, we discovered this had only a very small effect on accuracy. Conclusion: Although clinical studies and larger datasets are still needed to further ensure good generalization, the state-of-the-art performances we achieved show that, with the help of artificial intelligence, chest X-rays can become a cheap and accurate auxiliary method for COVID-19 diagnosis. Heatmaps generated by LRP improve the interpretability of the deep neural networks and indicate an analytical path for future research on diagnosis. Twice transfer learning with output neuron keeping improved performances.
翻訳日:2022-12-08 03:48:19 公開日:2021-01-13
# 長い科学文書の教師なし要約を意識した談話

Discourse-Aware Unsupervised Summarization of Long Scientific Documents ( http://arxiv.org/abs/2005.00513v2 )

ライセンス: Link先を確認
Yue Dong, Andrei Mircea, Jackie C. K. Cheung(参考訳) 長い学術文書の抽出要約のための教師なしグラフに基づくランキングモデルを提案する。 本手法では,ソース文書の2段階の階層グラフ表現を仮定し,非対称位置手がかりを用いて文重要度を判定する。 PubMed と arXiv のデータセットの結果から,我々の手法は,自動測定と人的評価において,幅広いマージンで強い教師なしベースラインを上回ります。 さらに、数十万のサンプルでトレーニングされた最先端の教師付きアプローチに匹敵するパフォーマンスを達成する。 これらの結果から, 談話構造におけるパターンは, 科学論文の重要性を判断するための強いシグナルであることが示唆された。

We propose an unsupervised graph-based ranking model for extractive summarization of long scientific documents. Our method assumes a two-level hierarchical graph representation of the source document, and exploits asymmetrical positional cues to determine sentence importance. Results on the PubMed and arXiv datasets show that our approach outperforms strong unsupervised baselines by wide margins in automatic metrics and human evaluation. In addition, it achieves performance comparable to many state-of-the-art supervised approaches which are trained on hundreds of thousands of examples. These results suggest that patterns in the discourse structure are a strong signal for determining importance in scientific articles.
翻訳日:2022-12-07 23:56:30 公開日:2021-01-13
# 希少データからの制御方程式の物理インフォームド学習

Physics-informed learning of governing equations from scarce data ( http://arxiv.org/abs/2005.03448v3 )

ライセンス: Link先を確認
Zhao Chen, Yang Liu and Hao Sun(参考訳) 複雑な物理システムの振る舞いを記述する基礎となる法則や方程式を発見するためにデータを活用すれば、様々な科学や工学の分野において、そのようなシステムのモデリング、シミュレーション、理解を著しく前進させることができる。 本研究は, 非線形時空間系における偏微分方程式 (PDE) の希少・雑音データから決定する物理インフォームド深層学習フレームワークを提案する。 特に、このアプローチは、リッチな表現学習、物理埋め込み、自動微分、スパース回帰のためのディープニューラルネットワークの強みを、(1)システム変数の解を近似し、(2)本質的な微分を計算し、(3)pdesの構造と明示的な表現を形成する主要な微分項とパラメータを特定するためにシームレスに統合する。 本手法の有効性とロバスト性は,データ不足度が異なる様々なpdeシステムと初期・境界条件のノイズ計算について,数値的および実験的に証明した。 得られた計算フレームワークは、大規模で正確なデータセットをキャプチャーできる実用的なアプリケーションにおいて、クローズドフォームモデル発見の可能性を示している。

Harnessing data to discover the underlying governing laws or equations that describe the behavior of complex physical systems can significantly advance our modeling, simulation and understanding of such systems in various science and engineering disciplines. This work introduces a novel physics-informed deep learning framework to discover governing partial differential equations (PDEs) from scarce and noisy data for nonlinear spatiotemporal systems. In particular, this approach seamlessly integrates the strengths of deep neural networks for rich representation learning, physics embedding, automatic differentiation and sparse regression to (1) approximate the solution of system variables, (2) compute essential derivatives, as well as (3) identify the key derivative terms and parameters that form the structure and explicit expression of the PDEs. The efficacy and robustness of this method are demonstrated, both numerically and experimentally, on discovering a variety of PDE systems with different levels of data scarcity and noise accounting for different initial/boundary conditions. The resulting computational framework shows the potential for closed-form model discovery in practical applications where large and accurate datasets are intractable to capture.
翻訳日:2022-12-06 13:49:49 公開日:2021-01-13
# 現実的前提下における会員推定の再検討

Revisiting Membership Inference Under Realistic Assumptions ( http://arxiv.org/abs/2005.10881v5 )

ライセンス: Link先を確認
Bargav Jayaraman, Lingxiao Wang, Katherine Knipmeyer, Quanquan Gu, David Evans(参考訳) 従来研究でよく用いられていた仮定のいくつかが緩和された環境での会員推定について検討する。 まず, 相手を対象とする候補プールのごく一部のみが実際にメンバーであるような場合を対象とし, この設定に適したppvベースのメトリクスを開発する。 この設定は、研究者が通常考慮するバランスのとれた事前設定よりも現実的である。 第2に,攻撃目標に応じて推論しきい値を選択する敵を検討し,推論攻撃を改善するしきい値選択手順を開発する。 従来の推論攻撃は事前設定が不均衡であるため、トレーニングセットメンバーに対応する入力が損失関数の局所最小値に近いという直観に基づく新たな推論攻撃を開発し、これと入力毎損失のしきい値を組み合わせた攻撃が、他の攻撃が有効でないと思われる設定でも高いppvを達成可能であることを示す。 実験のコードは、https://github.com/bargavj/evaluatingdpml。

We study membership inference in settings where some of the assumptions typically used in previous research are relaxed. First, we consider skewed priors, to cover cases such as when only a small fraction of the candidate pool targeted by the adversary are actually members and develop a PPV-based metric suitable for this setting. This setting is more realistic than the balanced prior setting typically considered by researchers. Second, we consider adversaries that select inference thresholds according to their attack goals and develop a threshold selection procedure that improves inference attacks. Since previous inference attacks fail in imbalanced prior setting, we develop a new inference attack based on the intuition that inputs corresponding to training set members will be near a local minimum in the loss function, and show that an attack that combines this with thresholds on the per-instance loss can achieve high PPV even in settings where other attacks appear to be ineffective. Code for our experiments can be found here: https://github.com/bargavj/EvaluatingDPML.
翻訳日:2022-11-30 23:13:43 公開日:2021-01-13
# グラフ学習による物理システムの高精度解法

Accurately Solving Physical Systems with Graph Learning ( http://arxiv.org/abs/2006.03897v2 )

ライセンス: Link先を確認
Han Shao, Tassilo Kugelstadt, Torsten H\"adrich, Wojciech Pa{\l}ubicki, Jan Bender, S\"oren Pirk, Dominik L. Michels(参考訳) 反復解法は物理系を正確にシミュレートするために広く用いられている。 これらの解法では、近似解の列を改善するために初期推測が必要となる。 本稿では, グラフネットワーク(gns)を用いた物理システムの反復解法を, 初期推定値の予測により高速化し, 反復数を削減する新しい手法を提案する。 物理的システムをエンドツーエンドで学習することを目的とした既存の手法とは異なり、このアプローチは長期的な安定性を保証し、より正確な解決策をもたらす。 さらに,本手法は従来の反復解法の性能を向上させる。 本手法を検討するために, 物理系の共通解法として位置ベースダイナミクス(pbd)を用い, 弾性棒の動力学をシミュレートして評価する。 我々のアプローチは、異なる初期条件、離散化、および現実的な材料特性にまたがって一般化することができる。 最後に,各ロッド間の衝突など不連続な効果を考慮に入れた場合にも,本手法が有効であることを示す。 最後に, この手法のスケーラビリティを説明するために, 風場に浮かぶ1000個以上の分岐セグメントからなる複雑な3次元ツリーモデルをシミュレートする。 弾性棒のグラフ学習支援シミュレーションのダイナミックな結果を示すビデオは、http://computationalsciences.org/publications/shao-2021-physical-systems-graph-learning.htmlにある。

Iterative solvers are widely used to accurately simulate physical systems. These solvers require initial guesses to generate a sequence of improving approximate solutions. In this contribution, we introduce a novel method to accelerate iterative solvers for physical systems with graph networks (GNs) by predicting the initial guesses to reduce the number of iterations. Unlike existing methods that aim to learn physical systems in an end-to-end manner, our approach guarantees long-term stability and therefore leads to more accurate solutions. Furthermore, our method improves the run time performance of traditional iterative solvers. To explore our method we make use of position-based dynamics (PBD) as a common solver for physical systems and evaluate it by simulating the dynamics of elastic rods. Our approach is able to generalize across different initial conditions, discretizations, and realistic material properties. Finally, we demonstrate that our method also performs well when taking discontinuous effects into account such as collisions between individual rods. Finally, to illustrate the scalability of our approach, we simulate complex 3D tree models composed of over a thousand individual branch segments swaying in wind fields. A video showing dynamic results of our graph learning assisted simulations of elastic rods can be found on the project website available at http://computationalsciences.org/publications/shao-2021-physical-systems-graph-learning.html .
翻訳日:2022-11-24 22:07:01 公開日:2021-01-13
# 軌跡集合と自律領域知識を用いた動き予測

Motion Prediction using Trajectory Sets and Self-Driving Domain Knowledge ( http://arxiv.org/abs/2006.04767v2 )

ライセンス: Link先を確認
Freddy A. Boulton and Elena Corina Grigore and Eric M. Wolff(参考訳) 車両の将来の動きを予測するには、確率的ポリシー、生成モデル、回帰など様々な手法が研究されている。 近年の研究では、運動を近似する軌道集合上の分類が最先端のパフォーマンスを達成し、モード崩壊のような問題を回避することが示されている。 しかし, この定式化では, 地図情報や周辺軌道間の物理的関係が十分に活用されない。 オフロード予測をペナライズする補助損失を追加することで,動作予測に対する分類に基づくアプローチを構築する。 この補助損失は、地図情報(例えばオフロードエリア)のみを使用して容易に事前訓練することができ、小さなデータセットのパフォーマンスを大幅に向上させる。 また, 重み付きクロスエントロピー損失について検討し, 軌道間の空間的・時間的関係を捉えた。 最後の貢献は、2つの公的な自動運転データセットの分類と順序回帰の詳細な比較です。

Predicting the future motion of vehicles has been studied using various techniques, including stochastic policies, generative models, and regression. Recent work has shown that classification over a trajectory set, which approximates possible motions, achieves state-of-the-art performance and avoids issues like mode collapse. However, map information and the physical relationships between nearby trajectories is not fully exploited in this formulation. We build on classification-based approaches to motion prediction by adding an auxiliary loss that penalizes off-road predictions. This auxiliary loss can easily be pretrained using only map information (e.g., off-road area), which significantly improves performance on small datasets. We also investigate weighted cross-entropy losses to capture spatial-temporal relationships among trajectories. Our final contribution is a detailed comparison of classification and ordinal regression on two public self-driving datasets.
翻訳日:2022-11-24 00:04:18 公開日:2021-01-13
# 音声処理のための畳み込みニューラルネットワークにおけるタスク不変性の反トランスファー学習

Anti-Transfer Learning for Task Invariance in Convolutional Neural Networks for Speech Processing ( http://arxiv.org/abs/2006.06494v2 )

ライセンス: Link先を確認
Eric Guizzo, Tillman Weyde, Giacomo Tarroni(参考訳) 本稿では,畳み込みニューラルネットワークを用いた音声処理におけるアンチトランスファー学習の概念を紹介する。 トランスファー学習は、対象タスクの学習プロセスが他のタスクで学習された表現の再使用から恩恵を受けると仮定するが、反トランスファー学習は、直交タスクで学習された表現の学習、すなわち、音声認識のための話者識別や感情認識のための音声コンテンツなど、対象タスクに関連性がなく、潜在的に誤解を招くものを避ける。 アンチトランスファー学習では、トレーニング対象のネットワークのアクティベーションと、直交タスクでトレーニング済みのネットワークとの類似性をペナルティ化し、より適切な表現を生成する。 これにより一般化が改善され、社会的偏見を避けるために、散発的あるいは望ましくない相関をある程度制御できる。 我々は,様々な構成の畳み込みニューラルネットワークに対して,いくつかの類似度指標と集約関数を用いたアンチトランスファーを実装し,6つのデータセットを用いて,複数の音声・音声タスクと設定を用いて評価・分析を行った。 本研究は, 反伝達が, 直交タスクに対する意図的不変性や, 対象タスクに対してより適切な特徴をもたらすことを示す。 アンチトランスファー学習は、全てのテストケースの分類精度を一貫して改善する。 反トランスファーは、トレーニング時に計算とメモリコストを生成するが、直交タスクのために事前訓練されたモデルを使用する場合、計算コストは比較的低い。 反移動は広く適用可能であり、特に特定の不変性が望ましい場合や、訓練されたモデルが利用可能で、直交作業のためのラベル付きデータを得るのが困難である場合に有用である。

We introduce the novel concept of anti-transfer learning for speech processing with convolutional neural networks. While transfer learning assumes that the learning process for a target task will benefit from re-using representations learned for another task, anti-transfer avoids the learning of representations that have been learned for an orthogonal task, i.e., one that is not relevant and potentially misleading for the target task, such as speaker identity for speech recognition or speech content for emotion recognition. In anti-transfer learning, we penalize similarity between activations of a network being trained and another one previously trained on an orthogonal task, which yields more suitable representations. This leads to better generalization and provides a degree of control over correlations that are spurious or undesirable, e.g. to avoid social bias. We have implemented anti-transfer for convolutional neural networks in different configurations with several similarity metrics and aggregation functions, which we evaluate and analyze with several speech and audio tasks and settings, using six datasets. We show that anti-transfer actually leads to the intended invariance to the orthogonal task and to more appropriate features for the target task at hand. Anti-transfer learning consistently improves classification accuracy in all test cases. While anti-transfer creates computation and memory cost at training time, there is relatively little computation cost when using pre-trained models for orthogonal tasks. Anti-transfer is widely applicable and particularly useful where a specific invariance is desirable or where trained models are available and labeled data for orthogonal tasks are difficult to obtain.
翻訳日:2022-11-22 09:20:19 公開日:2021-01-13
# AMENet:軌道予測のための注意マップエンコーダネットワーク

AMENet: Attentive Maps Encoder Network for Trajectory Prediction ( http://arxiv.org/abs/2006.08264v2 )

ライセンス: Link先を確認
Hao Cheng, Wentong Liao, Michael Ying Yang, Bodo Rosenhahn, Monika Sester(参考訳) 軌道予測は将来の安全な移動計画の応用には不可欠であり、都市混成交通の今後数秒間も挑戦を続けている。 エージェントの動作は、異なる環境における近隣エージェントの様々な振る舞いに影響される。 動作を予測するために,エージェントの動作と相互作用情報を符号化し,高精度かつリアルなマルチパス軌道予測を行う, Attentive Maps Encoder Network (AMENet) というエンドツーエンド生成モデルを提案する。 条件付き変分オートエンコーダモジュールを訓練して、相互作用モデリングのための注意動的マップに基づいて、可能性のある将来の経路の潜在空間を学習し、観測された過去の軌道上に条件付けられた複数の妥当な将来の軌道を予測する。 AMENetの有効性は、TrajnetとInDの2つの公開軌道予測ベンチマークを用いて検証される。

Trajectory prediction is critical for applications of planning safe future movements and remains challenging even for the next few seconds in urban mixed traffic. How an agent moves is affected by the various behaviors of its neighboring agents in different environments. To predict movements, we propose an end-to-end generative model named Attentive Maps Encoder Network (AMENet) that encodes the agent's motion and interaction information for accurate and realistic multi-path trajectory prediction. A conditional variational auto-encoder module is trained to learn the latent space of possible future paths based on attentive dynamic maps for interaction modeling and then is used to predict multiple plausible future trajectories conditioned on the observed past trajectories. The efficacy of AMENet is validated using two public trajectory prediction benchmarks Trajnet and InD.
翻訳日:2022-11-21 04:37:06 公開日:2021-01-13
# デモから生み出した本質的な動機

Show me the Way: Intrinsic Motivation from Demonstrations ( http://arxiv.org/abs/2006.12917v2 )

ライセンス: Link先を確認
L\'eonard Hussenot, Robert Dadashi, Matthieu Geist, Olivier Pietquin(参考訳) 意思決定分野における探索研究は長い歴史があるが、現在も活発に議論されている。 様々な視点(例えば発達心理学、実験設計、人工知能など)で何十年もこの問題に取り組んできた膨大な文献から、本質的な動機づけは、実際に人工的なエージェントに移行できる概念として現れた。 特に近年のDeep Reinforcement Learning (RL)では、エージェントが探索ボーナスの形で(主に斬新な議論を用いて)そのような概念を実装し、タスク報酬に付加され、環境全体への訪問を促進する。 このアプローチは、最適性への収束が徹底的な探索を前提とするRLに関する大量の理論によって支持される。 しかし、人間や哺乳類は世界を徹底的に探索するだけでなく、その動機は新奇性だけでなく、他の様々な要因(好奇性、楽しさ、スタイル、楽しさ、安全、競争など)にも基づいている。 彼らは生涯学習を最適化し、明確な目標なしに遊び場で移行可能なスキルを学ぶように訓練する。 彼らはまた、時間を節約し安全に保つために、生来的または学習済みの事前を適用する。 これらの理由から,我々は,これらの動機づけを,その理論的根拠をほとんど仮定せずに人工エージェントに伝達する実験から,探索ボーナスを学ぶことを提案する。 逆RL手法を用いて、複雑な探索行動は、異なる動機を反映し、RLエージェントが学習し、効率的に使用し、徹底的な探索が禁止される課題を解決することができることを示す。

The study of exploration in the domain of decision making has a long history but remains actively debated. From the vast literature that addressed this topic for decades under various points of view (e.g., developmental psychology, experimental design, artificial intelligence), intrinsic motivation emerged as a concept that can practically be transferred to artificial agents. Especially, in the recent field of Deep Reinforcement Learning (RL), agents implement such a concept (mainly using a novelty argument) in the shape of an exploration bonus, added to the task reward, that encourages visiting the whole environment. This approach is supported by the large amount of theory on RL for which convergence to optimality assumes exhaustive exploration. Yet, Human Beings and mammals do not exhaustively explore the world and their motivation is not only based on novelty but also on various other factors (e.g., curiosity, fun, style, pleasure, safety, competition, etc.). They optimize for life-long learning and train to learn transferable skills in playgrounds without obvious goals. They also apply innate or learned priors to save time and stay safe. For these reasons, we propose to learn an exploration bonus from demonstrations that could transfer these motivations to an artificial agent with little assumptions about their rationale. Using an inverse RL approach, we show that complex exploration behaviors, reflecting different motivations, can be learnt and efficiently used by RL agents to solve tasks for which exhaustive exploration is prohibitive.
翻訳日:2022-11-17 22:09:16 公開日:2021-01-13
# テール適応ベイズ収縮

Tail-adaptive Bayesian shrinkage ( http://arxiv.org/abs/2007.02192v2 )

ライセンス: Link先を確認
Se Yoon Lee, Debdeep Pati, Bani K. Mallick(参考訳) 現代のゲノム研究は、健康反応に関連するより興味深い遺伝子の発見にますます力を入れている。 従来の縮小前兆は、主に数十から数千の予測器からのわずかな信号を検出するように設計されている。 多様な疎性体制の下では、信号検出の性質は前者の尾の動きと関連している。 望ましいテールの振舞いはテール適応収縮特性(tail-adaptive shrinkage property)と呼ばれ、余剰レベルが増加(あるいは減少)してより多くの(または少ない)信号に対応すると、前者のテール重みが適応的に大きくなる。 本研究では,グローバル・ローカル・テール(GLT)ガウス混合分布を提案する。 極値理論にピーク・オーバー・スレッショルド法を組み込んで,gltプリエントの自動テール学習アルゴリズムを開発した。 我々は2つの遺伝子発現データセットと数値例において,ホースシュー以前のGLTの性能を比較した。 その結果, 多様なスパーシティ領域において, 異なるテールルールは固定テールルールよりも有利であることが示唆された。

Modern genomic studies are increasingly focused on discovering more and more interesting genes associated with a health response. Traditional shrinkage priors are primarily designed to detect a handful of signals from tens and thousands of predictors. Under diverse sparsity regimes, the nature of signal detection is associated with a tail behaviour of a prior. A desirable tail behaviour is called tail-adaptive shrinkage property where tail-heaviness of a prior gets adaptively larger (or smaller) as a sparsity level increases (or decreases) to accommodate more (or less) signals. We propose a global-local-tail (GLT) Gaussian mixture distribution to ensure this property and provide accurate inference under diverse sparsity regimes. Incorporating a peaks-over-threshold method in extreme value theory, we develop an automated tail learning algorithm for the GLT prior. We compare the performance of the GLT prior to the Horseshoe in two gene expression datasets and numerical examples. Results suggest that varying tail rule is advantageous over fixed tail rule under diverse sparsity domains.
翻訳日:2022-11-13 13:54:19 公開日:2021-01-13
# ReMOTS: 自己監督型マルチオブジェクト追跡とセグメンテーション

ReMOTS: Self-Supervised Refining Multi-Object Tracking and Segmentation ( http://arxiv.org/abs/2007.03200v3 )

ライセンス: Link先を確認
Fan Yang, Xin Chang, Chenyu Dang, Ziqiang Zheng, Sakriani Sakti, Satoshi Nakamura, Yang Wu(参考訳) 我々は,複数のオブジェクト追跡およびセグメント化(mots)の性能向上を目的とした。 しかし、MOTS結果の精細化は依然として困難であり、外観的特徴がターゲットビデオに適応していないことや、それらを識別する適切なしきい値を見つけることも困難である。 この問題に対処するために,自己監督型リフィニングMOTS(ReMOTS)フレームワークを提案する。 ReMOTSは主にデータアソシエーションの観点からMOTS結果を洗練するために4つのステップを踏む。 1)予測マスクを用いた外観エンコーダの訓練 2)隣接したフレーム間の観測を関連付けて短期トラックレットを形成する。 (3) 短期トラッカーを疑似ラベルとして用いた外観エンコーダの訓練 (4)統計情報から自動的に得られる出現特徴と閾値を利用した短期トラックレットと長期トラックレットの融合 ReMOTSを使用して、CVPR 2020 MOTS Challenge 1で1^{st}$に到達し、sMOTSAスコアは69.9ドルだった。

We aim to improve the performance of Multiple Object Tracking and Segmentation (MOTS) by refinement. However, it remains challenging for refining MOTS results, which could be attributed to that appearance features are not adapted to target videos and it is also difficult to find proper thresholds to discriminate them. To tackle this issue, we propose a self-supervised refining MOTS (i.e., ReMOTS) framework. ReMOTS mainly takes four steps to refine MOTS results from the data association perspective. (1) Training the appearance encoder using predicted masks. (2) Associating observations across adjacent frames to form short-term tracklets. (3) Training the appearance encoder using short-term tracklets as reliable pseudo labels. (4) Merging short-term tracklets to long-term tracklets utilizing adopted appearance features and thresholds that are automatically obtained from statistical information. Using ReMOTS, we reached the $1^{st}$ place on CVPR 2020 MOTS Challenge 1, with an sMOTSA score of $69.9$.
翻訳日:2022-11-12 19:50:25 公開日:2021-01-13
# 2次元x線画像から3次元立脚姿勢を推定する

Inferring the 3D Standing Spine Posture from 2D Radiographs ( http://arxiv.org/abs/2007.06612v2 )

ライセンス: Link先を確認
Amirhossein Bayat, Anjany Sekuboyina, Johannes C. Paetzold, Christian Payer, Darko Stern, Martin Urschler, Jan S. Kirschke, Bjoern H. Menze(参考訳) 変性性脊椎疾患の治療には、個々の脊髄解剖学と3Dの曲率の理解が必要である。 このような生体力学的解析には、自然重量軸受下での直立姿勢(すなわち立位)が不可欠である。 3Dボリューム・モダリティ(CTやMRIなど)は、横たわる患者に対して行われる。 一方、X線写真は直立したポーズで撮影されるが、2次元投影の結果となる。 この研究は、x線写真からの直立性脊椎曲率とct画像からの3次元椎体形状を組み合わせることで、自然にロードされる直立性脊椎の3dモデルを合成することを目的としている。 具体的には, 2次元x線撮影を行い, 脊椎の3次元姿勢を推定する新しいニューラルネットワークアーキテクチャ, \emph{transvert} を提案する。 我々は,デジタルで再構成したラジオグラフィのアーキテクチャを検証し,ほぼ完璧な2D-to-3Dドメイン変換を示すDiceの3D再構成を95.52.%で達成した。 臨床用X線写真にモデルを配置し, フル3D, アップライト, 患者固有の脊椎モデルを初めて合成した。

The treatment of degenerative spinal disorders requires an understanding of the individual spinal anatomy and curvature in 3D. An upright spinal pose (i.e. standing) under natural weight bearing is crucial for such bio-mechanical analysis. 3D volumetric imaging modalities (e.g. CT and MRI) are performed in patients lying down. On the other hand, radiographs are captured in an upright pose, but result in 2D projections. This work aims to integrate the two realms, i.e. it combines the upright spinal curvature from radiographs with the 3D vertebral shape from CT imaging for synthesizing an upright 3D model of spine, loaded naturally. Specifically, we propose a novel neural network architecture working vertebra-wise, termed \emph{TransVert}, which takes orthogonal 2D radiographs and infers the spine's 3D posture. We validate our architecture on digitally reconstructed radiographs, achieving a 3D reconstruction Dice of $95.52\%$, indicating an almost perfect 2D-to-3D domain translation. Deploying our model on clinical radiographs, we successfully synthesise full-3D, upright, patient-specific spine models for the first time.
翻訳日:2022-11-11 00:33:42 公開日:2021-01-13
# 音声領域におけるニューラルネットワークに対するadversarial attack : 主成分の活用

Adversarial Attacks against Neural Networks in Audio Domain: Exploiting Principal Components ( http://arxiv.org/abs/2007.07001v3 )

ライセンス: Link先を確認
Ken Alparslan, Yigit Alparslan, Matthew Burlick(参考訳) 敵攻撃は、元の入力と似ているが、目的によって変更される入力である。 今日広く使われている音声とテキストのニューラルネットワークは、敵の攻撃を誤分類する傾向がある。 本研究は,まず,共通の音声データからウェーブフォームを変更させることにより,対象とする対向攻撃の存在について検討する。 我々は,コネクショニストの時間的分類損失関数を用いて逆波形式を作成し,mozillaが実装した音声対テキストニューラルネットワークであるdeepspeechを攻撃させる。 構築した25種類の逆波に対して100%の逆成功率(DeepSpeechによるゼロ成功分類)を達成する。 第2に,敵攻撃に対する防御機構としてのPCAの使用について検討した。 私たちは、DeepSpeechに対して作成した25の攻撃にPCAを適用することで、次元性を低減します。 音声領域において,pcaが防御機構に適さないことを示唆するdeepspeechによるゼロ分類を観察した。 最後に,PCAを防御機構として使用する代わりに,敵の知識を最小限に抑えたブラックボックス設定で敵の入力を作成するためにPCAを使用する。 モデル,パラメータ,重みに関する知識がなければ,共通音声データセットのサンプルにPCAを適用して,DeepSpeechに対して再度テストした場合,ブラックボックス設定で100%の敵攻撃を行う。 また,攻撃過程における分類に要する成分の比率についても実験を行った。 いずれの場合も、逆境は成功する。

Adversarial attacks are inputs that are similar to original inputs but altered on purpose. Speech-to-text neural networks that are widely used today are prone to misclassify adversarial attacks. In this study, first, we investigate the presence of targeted adversarial attacks by altering wave forms from Common Voice data set. We craft adversarial wave forms via Connectionist Temporal Classification Loss Function, and attack DeepSpeech, a speech-to-text neural network implemented by Mozilla. We achieve 100% adversarial success rate (zero successful classification by DeepSpeech) on all 25 adversarial wave forms that we crafted. Second, we investigate the use of PCA as a defense mechanism against adversarial attacks. We reduce dimensionality by applying PCA to these 25 attacks that we created and test them against DeepSpeech. We observe zero successful classification by DeepSpeech, which suggests PCA is not a good defense mechanism in audio domain. Finally, instead of using PCA as a defense mechanism, we use PCA this time to craft adversarial inputs under a black-box setting with minimal adversarial knowledge. With no knowledge regarding the model, parameters, or weights, we craft adversarial attacks by applying PCA to samples from Common Voice data set and achieve 100% adversarial success under black-box setting again when tested against DeepSpeech. We also experiment with different percentage of components necessary to result in a classification during attacking process. In all cases, adversary becomes successful.
翻訳日:2022-11-10 14:15:49 公開日:2021-01-13
# 相互レコメンデーションシステム--社会レコメンデーションに向けた最先端文学・課題・機会の分析

Reciprocal Recommender Systems: Analysis of State-of-Art Literature, Challenges and Opportunities towards Social Recommendation ( http://arxiv.org/abs/2007.16120v3 )

ライセンス: Link先を確認
Ivan Palomares, Carlos Porcel, Luiz Pizzato, Ido Guy, Enrique Herrera-Viedma(参考訳) インターネットには情報過剰による意思決定の状況があり、eコマースサイトで購入する製品や大都市で訪れるレストランなど、選択可能な選択肢が圧倒的に多い。 データ駆動のパーソナライズされた意思決定支援ツールとして、ユーザに関連するデータを処理したり、ユーザの好みやニーズ、行動に基づいてアイテムをフィルタリングしたり、推奨したりすることが可能になる。 従来のリコメンデーターアプローチでは、アイテムがユーザに対して推奨され、成功は、受信されたリコメンデーションに対するエンドユーザー反応によってのみ決定されるが、Reciprocal Recommender System (RRS) ユーザーは、他のユーザに対して推奨されるアイテムとなる。 したがって、エンドユーザと推奨されるユーザの両方が"マッチング"レコメンデーションを受け入れて、RSパフォーマンスを成功させる必要がある。 rrsの操作は、従来のレコメンデーターのように、ユーザインタラクションデータに対する正確な選好推定を予測するだけでなく、通常、一方的なユーザ対ユーザ選好情報に融合プロセスを適用することによって、ユーザ間の相互互換性を計算することを伴う。 本稿では,従来のユーザ・イテムレコメンデーションモデルから受け継いだアルゴリズム,融合プロセス,RSの基本的特徴に着目し,現在まで最先端のRSS研究を要約したスナップショットスタイルの分析を行った。 代表的なRSモデルも同様に強調される。 次に,今後のrss研究の課題と機会について,特にその課題について論じる。 (i)相互関係を考慮した核融合戦略 (ii)ソーシャルレコメンデーションに関連する新興アプリケーションドメイン。

There exist situations of decision-making under information overload in the Internet, where people have an overwhelming number of available options to choose from, e.g. products to buy in an e-commerce site, or restaurants to visit in a large city. Recommender systems arose as a data-driven personalized decision support tool to assist users in these situations: they are able to process user-related data, filtering and recommending items based on the users preferences, needs and/or behaviour. Unlike most conventional recommender approaches where items are inanimate entities recommended to the users and success is solely determined upon the end users reaction to the recommendation(s) received, in a Reciprocal Recommender System (RRS) users become the item being recommended to other users. Hence, both the end user and the user being recommended should accept the 'matching' recommendation to yield a successful RRS performance. The operation of an RRS entails not only predicting accurate preference estimates upon user interaction data as classical recommenders do, but also calculating mutual compatibility between (pairs of) users, typically by applying fusion processes on unilateral user-to-user preference information. This paper presents a snapshot-style analysis of the extant literature that summarizes the state-of-the-art RRS research to date, focusing on the algorithms, fusion processes and fundamental characteristics of RRS, both inherited from conventional user-to-item recommendation models and those inherent to this emerging family of approaches. Representative RRS models are likewise highlighted. Following this, we discuss the challenges and opportunities for future research on RRSs, with special focus on (i) fusion strategies to account for reciprocity and (ii) emerging application domains related to social recommendation.
翻訳日:2022-11-09 14:51:17 公開日:2021-01-13
# EMaQ: シンプルで効果的なオフラインとオンラインRLのためのQ-Learningオペレータ

EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL ( http://arxiv.org/abs/2007.11091v2 )

ライセンス: Link先を確認
Seyed Kamyar Seyed Ghasemipour, Dale Schuurmans, Shixiang Shane Gu(参考訳) オフ政治強化学習は、過去の経験を生かして意思決定政策のサンプル効率の高い学習を約束する。 しかしながら、オフラインのRL設定 -- 特定のインタラクションのコレクションが提供され、それ以上のインタラクションが許可されていない -- では、標準のオフポリティなRLメソッドが大幅に性能が低下する可能性があることが示されている。 最近提案された手法は、与えられた相互作用のデータセットに近づくように学習ポリシーを制約することで、この欠点に対処することを目的としている。 本稿では,BCQ の重要な単純化 - オフライン RL に対する以前のアプローチ - について詳しく検討する。これはヒューリスティックな設計選択を排除し,抽出したポリシーを与えられた行動ポリシーの支持範囲内に留まるように自然に制限する。 重要となるのは,従来の理論的な考察とは対照的に,新しいバックアップ演算子であるexped-max q-learning (emaq) の導入により,この簡易化アルゴリズムを導出することである。 具体的には、分布支援に加えて、EMaQはサンプル数と提案分布を明示的に考慮し、オフラインRL問題に対する新しい複雑性尺度として機能する、新しい準最適境界を導出することができる。 オフラインのRL設定 -- この作業の主な焦点 -- では、EMaQはD4RLベンチマークにおいて、以前の最先端よりも優れています。 オンラインRL設定では、EMaQがSoft Actor Criticと競合していることを示す。 実験結果の鍵となる貢献は,行動方針推定における注意深い生成モデル設計の重要性と,オフラインrl問題に対する複雑さの直感的概念の実証である。 そのシンプルな解釈と、ポリシーを表す明示的な関数近似子など、より少ない可動部により、EMaQは、将来の作業のベースラインを実装するのに強力だが容易である。

Off-policy reinforcement learning holds the promise of sample-efficient learning of decision-making policies by leveraging past experience. However, in the offline RL setting -- where a fixed collection of interactions are provided and no further interactions are allowed -- it has been shown that standard off-policy RL methods can significantly underperform. Recently proposed methods often aim to address this shortcoming by constraining learned policies to remain close to the given dataset of interactions. In this work, we closely investigate an important simplification of BCQ -- a prior approach for offline RL -- which removes a heuristic design choice and naturally restricts extracted policies to remain exactly within the support of a given behavior policy. Importantly, in contrast to their original theoretical considerations, we derive this simplified algorithm through the introduction of a novel backup operator, Expected-Max Q-Learning (EMaQ), which is more closely related to the resulting practical algorithm. Specifically, in addition to the distribution support, EMaQ explicitly considers the number of samples and the proposal distribution, allowing us to derive new sub-optimality bounds which can serve as a novel measure of complexity for offline RL problems. In the offline RL setting -- the main focus of this work -- EMaQ matches and outperforms prior state-of-the-art in the D4RL benchmarks. In the online RL setting, we demonstrate that EMaQ is competitive with Soft Actor Critic. The key contributions of our empirical findings are demonstrating the importance of careful generative model design for estimating behavior policies, and an intuitive notion of complexity for offline RL problems. With its simple interpretation and fewer moving parts, such as no explicit function approximator representing the policy, EMaQ serves as a strong yet easy to implement baseline for future work.
翻訳日:2022-11-08 04:23:09 公開日:2021-01-13
# DeepCLR: エンドツーエンドのクラウド登録のための対応レスアーキテクチャ

DeepCLR: Correspondence-Less Architecture for Deep End-to-End Point Cloud Registration ( http://arxiv.org/abs/2007.11255v2 )

ライセンス: Link先を確認
Markus Horn, Nico Engel, Vasileios Belagiannis, Michael Buchholz and Klaus Dietmayer(参考訳) 本研究は,ディープニューラルネットワークを用いたポイントクラウド登録の問題に対処する。 重なり合ったデータ内容を持つ2つの点雲間のアライメントを予測する手法を提案する。 このような点雲は、例えば、移動プラットフォームに搭載されたLiDARの連続的な測定から生じる。 生のポイントクラウドの深い登録の難しさは、テンプレートとソース・ポイント・クラウドの融合である。 提案アーキテクチャはフロー埋め込みを用いてこの問題に対処し,各テンプレート点の運動を記述する特徴を生成する。 これらの特徴は、両方の入力雲間の明確な点対応を抽出することなく、エンドツーエンドでアライメントを予測するために使用される。 我々は,KITTI odometry と ModelNet40 のデータセットを用いて,各点分布の手法を評価する。 本手法は,最新の精度と比較手法の最小実行時間を実現する。

This work addresses the problem of point cloud registration using deep neural networks. We propose an approach to predict the alignment between two point clouds with overlapping data content, but displaced origins. Such point clouds originate, for example, from consecutive measurements of a LiDAR mounted on a moving platform. The main difficulty in deep registration of raw point clouds is the fusion of template and source point cloud. Our proposed architecture applies flow embedding to tackle this problem, which generates features that describe the motion of each template point. These features are then used to predict the alignment in an end-to-end fashion without extracting explicit point correspondences between both input clouds. We rely on the KITTI odometry and ModelNet40 datasets for evaluating our method on various point distributions. Our approach achieves state-of-the-art accuracy and the lowest run-time of the compared methods.
翻訳日:2022-11-07 22:47:04 公開日:2021-01-13
# 新型コロナウイルスの予測のための解釈可能なシーケンス学習

Interpretable Sequence Learning for COVID-19 Forecasting ( http://arxiv.org/abs/2008.00646v2 )

ライセンス: Link先を確認
Sercan O. Arik, Chun-Liang Li, Jinsung Yoon, Rajarishi Sinha, Arkady Epshteyn, Long T. Le, Vikas Menon, Shashank Singh, Leyou Zhang, Nate Yoder, Martin Nikoltchev, Yash Sonthalia, Hootan Nakhost, Elli Kanal and Tomas Pfister(参考訳) そこで本研究では,機械学習を病原体モデルに統合し,covid-19の進行を予測する新しい手法を提案する。 我々のモデルは、異なるコンパートメントがどのように進化するかを明確に示すため、設計によって説明可能である。 説明可能性(Explainability)は、モデルの予測が疫学者に信頼性を保証し、政策立案者や医療機関のようなエンドユーザに信頼を与えるために重要である。 私たちのモデルは異なる地理的解像度で適用でき、ここでは米国の州や郡でそれを実証します。 私たちのモデルは、最先端の代替手段よりも、米国全体で平均される測定値において、より正確な予測を提供し、質的に有意義な説明的洞察を提供します。 最後に, 郡内のサブグループ分布に基づいて, 異なるサブグループに対するモデルの性能を解析した。

We propose a novel approach that integrates machine learning into compartmental disease modeling to predict the progression of COVID-19. Our model is explainable by design as it explicitly shows how different compartments evolve and it uses interpretable encoders to incorporate covariates and improve performance. Explainability is valuable to ensure that the model's forecasts are credible to epidemiologists and to instill confidence in end-users such as policy makers and healthcare institutions. Our model can be applied at different geographic resolutions, and here we demonstrate it for states and counties in the United States. We show that our model provides more accurate forecasts, in metrics averaged across the entire US, than state-of-the-art alternatives, and that it provides qualitatively meaningful explanatory insights. Lastly, we analyze the performance of our model for different subgroups based on the subgroup distributions within the counties.
翻訳日:2022-11-03 05:47:18 公開日:2021-01-13
# knapsack 制約付き単調部分モジュラー最大化のための修正greedyアルゴリズムの再検討

Revisiting Modified Greedy Algorithm for Monotone Submodular Maximization with a Knapsack Constraint ( http://arxiv.org/abs/2008.05391v2 )

ライセンス: Link先を確認
Jing Tang, Xueyan Tang, Andrew Lim, Kai Han, Chongshou Li, Junsong Yuan(参考訳) クナップサック制約付きモノトンサブモジュラー最大化はnpハードである。 この最適化問題に対処するために様々な近似アルゴリズムが考案された。 本稿では,広く知られている改良グレディアルゴリズムを再検討する。 まず、このアルゴリズムが0.405$の近似係数を達成できることを示し、wolseyが与えた0.357$と、khullerらによって与えられた$(1-1/\mathrm{e})/2\approx 0.316$の既知の因子を大幅に改善する。 より重要なことに、我々の分析は、この問題に対する長年の誤解を明らかにするために文献に約0.393ドルの近似係数(1-1/\sqrt{\mathrm{e}})\ に関するkhullerらの証明のギャップを閉じている。 第2に,修正グリーディアルゴリズムを拡張し,最適なデータ依存上界を導出する。 私たちは実世界のアプリケーションで上界の厳密さを実証的に示します。 このバウンドにより、修正グリーディアルゴリズムの解値と最適解の間で、典型的には$0.405$よりもずっと高いデータ依存比が得られる。 分岐やバウンドといったアルゴリズムの効率を大幅に改善するためにも使用できる。

Monotone submodular maximization with a knapsack constraint is NP-hard. Various approximation algorithms have been devised to address this optimization problem. In this paper, we revisit the widely known modified greedy algorithm. First, we show that this algorithm can achieve an approximation factor of $0.405$, which significantly improves the known factors of $0.357$ given by Wolsey and $(1-1/\mathrm{e})/2\approx 0.316$ given by Khuller et al. More importantly, our analysis closes a gap in Khuller et al.'s proof for the extensively mentioned approximation factor of $(1-1/\sqrt{\mathrm{e}})\approx 0.393$ in the literature to clarify a long-standing misconception on this issue. Second, we enhance the modified greedy algorithm to derive a data-dependent upper bound on the optimum. We empirically demonstrate the tightness of our upper bound with a real-world application. The bound enables us to obtain a data-dependent ratio typically much higher than $0.405$ between the solution value of the modified greedy algorithm and the optimum. It can also be used to significantly improve the efficiency of algorithms such as branch and bound.
翻訳日:2022-10-31 05:57:11 公開日:2021-01-13
# Line-Circle-Square (LCS):エッジベース検出のための多層幾何フィルタ

Line-Circle-Square (LCS): A Multilayered Geometric Filter for Edge-Based Detection ( http://arxiv.org/abs/2008.09315v3 )

ライセンス: Link先を確認
Seyed Amir Tafrishi and Xiaotian Dai and Vahid Esmaeilzadeh Kandjani(参考訳) 本稿では,オブジェクト検出,追跡,マッピングアプリケーションの複雑さを軽減する最先端フィルタを提案する。 既存のエッジ検出とトラッキング手法は,移動ロボットに適した自律性を実現するために提案されているが,その多くが,膨大な数のランドマークを持つシナリオへの入り口において,過信と大規模計算に直面している。 この研究の方法であるLine-Circle-Square (LCS)フィルタは、物体認識のための大規模なデータベースや高度な予測手法を持たない移動ロボットは、カメラがリアルタイムでキャプチャするオブジェクトを処理できると主張している。 提案するフィルタは,各専門家に対して検出,追跡,学習を行い,過剰な計算を行わずにシーンを判断するための高レベル情報を抽出する。 各専門家間のインタラクティブな学習フィードは、混雑したシーンで圧倒的に検出された特徴に対して機能する検出されたランドマークの一貫性を高める。 我々の専門家は,幾何学的定義の下で検出されたランドマークを無視,創発,比較するための信頼要因の共分散に依存する。 本実験は,実験と実世界のシナリオの両方において,検出精度と資源使用量の観点から,提案フィルタの有効性を検証する。

This paper presents a state-of-the-art filter that reduces the complexity in object detection, tracking and mapping applications. Existing edge detection and tracking methods are proposed to create suitable autonomy for mobile robots, however, many of them face overconfidence and large computations at the entrance to scenarios with an immense number of landmarks. The method in this work, the Line-Circle-Square (LCS) filter, claims that mobile robots without a large database for object recognition and highly advanced prediction methods can deal with incoming objects that the camera captures in real-time. The proposed filter applies detection, tracking and learning to each defined expert to extract higher level information for judging scenes without over-calculation. The interactive learning feed between each expert increases the consistency of detected landmarks that works against overwhelming detected features in crowded scenes. Our experts are dependent on trust factors' covariance under the geometric definitions to ignore, emerge and compare detected landmarks. The experiment validates the effectiveness of the proposed filter in terms of detection precision and resource usage in both experimental and real-world scenarios.
翻訳日:2022-10-26 22:13:50 公開日:2021-01-13
# ここで何をすればいいのですか。 ペッパーによる文脈特有ノルムのオンライン学習

What am I allowed to do here?: Online Learning of Context-Specific Norms by Pepper ( http://arxiv.org/abs/2009.05105v2 )

ライセンス: Link先を確認
Ali Ayub, Alan R. Wagner(参考訳) 社会規範は社会における協調と協力を支援する。 社会ロボットが我々の社会にますます関わるようになるにつれ、社会の社会的規範に従う必要がある。 本稿では,ロボット上でコンテキストと社会的規範をオンライン的に学習するための計算フレームワークを提案する。 本論文は、最近の最先端のアプローチをインクリメンタルラーニングに活用し、シーン(コンテキスト)のオンラインラーニングに適応する。 この論文はさらに、デンプスター・シャーファー理論を用いて文脈固有のノルムをモデル化する。 シーン(コンテキスト)を学習した後、能動的学習を用いて関連する規範を学習する。 私たちは、pepperロボットのアプローチを、異なるシーンでテストします。 その結果、pepperは人間のパートナーとオンラインでコミュニケーションすることで、異なる場面や関連する規範を学ぶことができることがわかった。

Social norms support coordination and cooperation in society. With social robots becoming increasingly involved in our society, they also need to follow the social norms of the society. This paper presents a computational framework for learning contexts and the social norms present in a context in an online manner on a robot. The paper utilizes a recent state-of-the-art approach for incremental learning and adapts it for online learning of scenes (contexts). The paper further utilizes Dempster-Schafer theory to model context-specific norms. After learning the scenes (contexts), we use active learning to learn related norms. We test our approach on the Pepper robot by taking it through different scene locations. Our results show that Pepper can learn different scenes and related norms simply by communicating with a human partner in an online manner.
翻訳日:2022-10-26 08:20:29 公開日:2021-01-13
# 完全畳み込みネットワークを用いた深氷層追跡と厚さ推定

Deep Ice Layer Tracking and Thickness Estimation using Fully Convolutional Networks ( http://arxiv.org/abs/2009.00191v3 )

ライセンス: Link先を確認
Debvrat Varshney, Maryam Rahnemoonfar, Masoud Yari, and John Paden(参考訳) 地球温暖化は世界中の氷河や氷床を急速に減らしている。 この削減のリアルタイム評価は、地球の気候への影響を監視するために必要である。 本論文では,Snow Radar画像とFully Convolutional Networksを用いて,各内部氷層の厚さを推定する新しい手法を提案する。 推定厚さは毎年雪の蓄積を理解するために使われる。 内部氷層の深さと構造を理解するため,レーダ画像のマルチクラスセマンティックセマンティックセマンティックセグメンテーションを行う。 レーダ画像には良好なトレーニングラベルがないため、クリーンなラベルセットを得るための事前処理技術を実行します。 各氷層を一意に検出した後、厚みを計算し、加工した地層真実と比較する。 各氷層が別々に検出され、その厚さが自動化技術によって計算されるのはこれが初めてである。 この方法で約3.6ピクセルの平均絶対誤差内の氷層厚を推定することができた。 このような深層学習に基づく手法は、常に増大するデータセットを用いて、凍結圏研究の正確な評価を行うことができる。

Global warming is rapidly reducing glaciers and ice sheets across the world. Real time assessment of this reduction is required so as to monitor its global climatic impact. In this paper, we introduce a novel way of estimating the thickness of each internal ice layer using Snow Radar images and Fully Convolutional Networks. The estimated thickness can be used to understand snow accumulation each year. To understand the depth and structure of each internal ice layer, we perform multi-class semantic segmentation on radar images, which hasn't been performed before. As the radar images lack good training labels, we carry out a pre-processing technique to get a clean set of labels. After detecting each ice layer uniquely, we calculate its thickness and compare it with the processed ground truth. This is the first time that each ice layer is detected separately and its thickness calculated through automated techniques. Through this procedure we were able to estimate the ice-layer thicknesses within a Mean Absolute Error of approximately 3.6 pixels. Such a Deep Learning based method can be used with ever-increasing datasets to make accurate assessments for cryospheric studies.
翻訳日:2022-10-23 01:45:39 公開日:2021-01-13
# クラウドソーシングによるカザフ語音声コーパスと初期音声認識ベースライン

A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech Recognition Baseline ( http://arxiv.org/abs/2009.10334v2 )

ライセンス: Link先を確認
Yerbolat Khassanov, Saida Mussakhojayeva, Almas Mirzakhmetov, Alen Adiyev, Mukhamet Nurpeiissov and Huseyin Atakan Varol(参考訳) カザフ語のためのオープンソースの音声コーパスを提示する。 カザフ語コーパス(KSC)は、異なる地域や年齢集団の参加者によって話される153,000以上の発話を含む約332時間の書き起こされた音声を含む。 品質を確保するため、カザフ語話者によって慎重に検査された。 KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。 本稿では,まずデータ収集と事前処理の手順を記述し,続いてデータベース仕様について述べる。 また、データベース構築中に直面した経験と課題を共有し、低リソース言語のための音声コーパスの構築を計画している他の研究者にとって有益かもしれない。 データベースの信頼性を示すために,予備的な音声認識実験を行った。 実験結果は、音声と書き起こしの品質が有望であることを示している(テストセットで2.8%の文字誤り率と8.7%の単語誤り率)。 実験再現性とコーパス使用の容易化を目的として,音声認識モデル用のESPnetレシピもリリースした。

We present an open-source speech corpus for the Kazakh language. The Kazakh speech corpus (KSC) contains around 332 hours of transcribed audio comprising over 153,000 utterances spoken by participants from different regions and age groups, as well as both genders. It was carefully inspected by native Kazakh speakers to ensure high quality. The KSC is the largest publicly available database developed to advance various Kazakh speech and language processing applications. In this paper, we first describe the data collection and preprocessing procedures followed by a description of the database specifications. We also share our experience and challenges faced during the database construction, which might benefit other researchers planning to build a speech corpus for a low-resource language. To demonstrate the reliability of the database, we performed preliminary speech recognition experiments. The experimental results imply that the quality of audio and transcripts is promising (2.8% character error rate and 8.7% word error rate on the test set). To enable experiment reproducibility and ease the corpus usage, we also released an ESPnet recipe for our speech recognition models.
翻訳日:2022-10-15 23:00:32 公開日:2021-01-13
# 非決定論的プログラムの代数:悪魔作用素、順序および公理

The algebra of non-deterministic programs: demonic operators, orders and axioms ( http://arxiv.org/abs/2009.12081v2 )

ライセンス: Link先を確認
Robin Hirsch, Szabolcs Mikul\'as and Tim Stokes(参考訳) 悪魔的構成、悪魔的洗練、悪魔的結合は、通常の「天使的」構成、天使的洗練(包括的)、二元関係で定義される天使的(実質的)結合の代替である。 我々はまず,非決定論的プログラムの振る舞いの分析を通じて,天使的プログラムと悪魔的プログラムの両方を動機付け,部分的正当性と全正当性に関連づけられた天使的プログラムを,両側面を取り入れたより豊かな代数的プログラムモデルから出現する。 Zareckii は、二項関係の同型類は、アンジェリックな構成と包含は順序半群の類として有限公理化されることを示した。 この証明は、同じ公理化がデーモン構成と精製の下での二項関係に適用されることを証明するために使用することができ、さらにその証明の修正は、アンジェリックの場合における空の関係とデーモンの場合における完全関係を表すゼロ要素を組み込むことができる。 天使の組成と結合の署名については、有限公理化は存在しないことが知られており、同じ公理化が両方のために成り立つことを示すことによって、デーモン構成とデーモン結合の類似の結果を示す。 我々は、二項関係の代数の同型類が、デモン構成の「混合」符号とエンジェル包含が有限公理化を持たないことを示す。 対照的に、連立関係のある部分代数の同型類と、連立積の部分演算と包含(これも「混合」符号)との同型類は有限公理化可能であることを示した。

Demonic composition, demonic refinement and demonic union are alternatives to the usual "angelic" composition, angelic refinement (inclusion) and angelic (usual) union defined on binary relations. We first motivate both the angelic and demonic via an analysis of the behaviour of non-deterministic programs, with the angelic associated with partial correctness and demonic with total correctness, both cases emerging from a richer algebraic model of non-deterministic programs incorporating both aspects. Zareckii has shown that the isomorphism class of algebras of binary relations under angelic composition and inclusion is finitely axiomatised as the class of ordered semigroups. The proof can be used to establish that the same axiomatisation applies to binary relations under demonic composition and refinement, and a further modification of the proof can be used to incorporate a zero element representing the empty relation in the angelic case and the full relation in the demonic case. For the signature of angelic composition and union, it is known that no finite axiomatisation exists, and we show the analogous result for demonic composition and demonic union by showing that the same axiomatisation holds for both. We show that the isomorphism class of algebras of binary relations with the "mixed" signature of demonic composition and angelic inclusion has no finite axiomatisation. As a contrast, we show that the isomorphism class of partial algebras of binary relations with the partial operation of constellation product and inclusion (also a "mixed" signature) is finitely axiomatisable.
翻訳日:2022-10-14 23:17:11 公開日:2021-01-13
# 共通ベンガル手書きグラフの大規模多目的データセット

A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes ( http://arxiv.org/abs/2010.00170v3 )

ライセンス: Link先を確認
Samiul Alam, Tahsin Reasat, Asif Shahriyar Sushmit, Sadi Mohammad Siddiquee, Fuad Rahman, Mahady Hasan, Ahmed Imtiaz Humayun(参考訳) ラテン語は歴史的に、手書きの光学文字認識(ocr)研究の最先端を導いてきた。 既存のシステムをラテン語からアルファ音節言語に適応させることは特に困難である。 文字に対応するグラフィカルな構成要素のセグメンテーションは、カーシブな文字体系と、α-syllabary系言語におけるダイアクリティックの頻繁な使用のために著しく困難になる。 本稿では, 日常の文脈でよく用いられるベンガル手書きグラフエムの最初のデータセットとして, 単語生成の言語セグメントを線形に分割するグラフエムに基づくラベリング手法を提案する。 データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。 さらに、テストセットは、辞書の性能評価から外れた900の一般的なベンガルグラフを含む。 このデータセットは、Kaggleに関する公開ハンドライトグラフ分類チャレンジの一部としてオープンソースとして公開され、マルチターゲットグラフ分類のためのビジョンアルゴリズムをベンチマークする。 このデータセットに存在するユニークなグラフは、Google Bengali ASRコーパスの共通性に基づいて選択される。 競合手順から,ディープラーニング手法は,学習中に欠落している辞書グラフの膨大な範囲に一般化できることが分かる。 dataset and starter codes at www.kaggle.com/c/bengaliai-cv19

Latin has historically led the state-of-the-art in handwritten optical character recognition (OCR) research. Adapting existing systems from Latin to alpha-syllabary languages is particularly challenging due to a sharp contrast between their orthographies. The segmentation of graphical constituents corresponding to characters becomes significantly hard due to a cursive writing system and frequent use of diacritics in the alpha-syllabary family of languages. We propose a labeling scheme based on graphemes (linguistic segments of word formation) that makes segmentation in-side alpha-syllabary words linear and present the first dataset of Bengali handwritten graphemes that are commonly used in an everyday context. The dataset contains 411k curated samples of 1295 unique commonly used Bengali graphemes. Additionally, the test set contains 900 uncommon Bengali graphemes for out of dictionary performance evaluation. The dataset is open-sourced as a part of a public Handwritten Grapheme Classification Challenge on Kaggle to benchmark vision algorithms for multi-target grapheme classification. The unique graphemes present in this dataset are selected based on commonality in the Google Bengali ASR corpus. From competition proceedings, we see that deep-learning methods can generalize to a large span of out of dictionary graphemes which are absent during training. Dataset and starter codes at www.kaggle.com/c/bengaliai-cv19.
翻訳日:2022-10-12 07:10:09 公開日:2021-01-13
# 深層ニューラルネットワークの最適化景観は最適である

Optimization Landscapes of Wide Deep Neural Networks Are Benign ( http://arxiv.org/abs/2010.00885v2 )

ライセンス: Link先を確認
Johannes Lederer(参考訳) 広域ネットワークを用いた深層学習の最適化の展望を分析した。 我々は,そのようなネットワークに対する制約の重要性を強調し,制約や制約のない制約が,そのようなネットワーク上での経験的リスク最小化には制限点がなく,逃れ難い最適パラメータが存在しないことを示す。 したがって、我々の理論は、ワイドニューラルネットワークは高度に表現力のあるだけでなく、最適化し易いという共通の信念を裏付けている。

We analyze the optimization landscapes of deep learning with wide networks. We highlight the importance of constraints for such networks and show that constraint -- as well as unconstraint -- empirical-risk minimization over such networks has no confined points, that is, suboptimal parameters that are difficult to escape from. Hence, our theories substantiate the common belief that wide neural networks are not only highly expressive but also comparably easy to optimize.
翻訳日:2022-10-12 00:39:49 公開日:2021-01-13
# 大変形ポロメカニクス問題に対する多構成ニューラルネットワーク

Multi-Constitutive Neural Network for Large Deformation Poromechanics Problem ( http://arxiv.org/abs/2010.15549v3 )

ライセンス: Link先を確認
Qi Zhang, Yilin Chen, Ziyi Yang, Eric Darve(参考訳) 本稿では,深層ニューラルネットワーク(DNN)を用いたポロメカニクスにおける大ひずみ凝縮問題について検討する。 異なる材料特性と異なる荷重条件が与えられると、その目標は細孔の圧力と沈降を予測することである。 本稿では,複数の異なる構成則を解くための新しい手法である"multi-constitutive neural network" (mcnn)を提案する。 我々は, 1-hot 符号化ベクトルを追加入力ベクトルとして導入し,我々が解決したい構成則のラベル付けを行う。 次に、DNNを構築し、入力として$(\hat{X}, \hat{t})$を、構成法則ラベルとともに取り、対応する解を出力する。 我々の知る限りでは、1つのトレーニングプロセスだけで複数の構成法則を評価できるが、それでも良好な評価を得ることができるのは初めてである。 MCNNは複数のPDEの解法を訓練し、PDEで訓練した個々のニューラルネットワークの解法よりも優れていた。

In this paper, we study the problem of large-strain consolidation in poromechanics with deep neural networks (DNN). Given different material properties and different loading conditions, the goal is to predict pore pressure and settlement. We propose a novel method "multi-constitutive neural network" (MCNN) such that one model can solve several different constitutive laws. We introduce a one-hot encoding vector as an additional input vector, which is used to label the constitutive law we wish to solve. Then we build a DNN which takes $(\hat{X}, \hat{t})$ as input along with a constitutive law label and outputs the corresponding solution. It is the first time, to our knowledge, that we can evaluate multi-constitutive laws through only one training process while still obtaining good accuracies. We found that MCNN trained to solve multiple PDEs outperforms individual neural network solvers trained with PDE in some cases.
翻訳日:2022-10-08 14:07:42 公開日:2021-01-13
# DiSCO: 向きのある異なるスキャンコンテキスト

DiSCO: Differentiable Scan Context with Orientation ( http://arxiv.org/abs/2010.10949v2 )

ライセンス: Link先を確認
Xuecheng Xu, Huan Yin, Zexi Chen, Yue Wang and Rong Xiong(参考訳) グローバルなローカライゼーションはロボットナビゲーションに不可欠であり、最初のステップはマップデータベースからクエリを取得することである。 この問題は場所認識と呼ばれる。 近年,LiDARスキャンによる位置認識が注目されている。 本稿では,同一地点で同時にスキャンを見つけ,その相対方向を推定する,微分可能スキャンコンテキスト(disco)というlidarベースの位置認識手法を提案する。 この方向を下流の局所最適メトリックポーズ推定の初期値として用いることができ、特に現在のスキャンと検索されたスキャンの間に大きな方向がある場合のポーズ推定を改善することができる。 私たちの重要なアイデアは、機能を周波数領域に変換することです。 我々は、理論上回転不変な位置シグネチャとしてスペクトルの大きさを利用する。 さらに, 微分可能な位相相関に基づいて, スペクトルを用いた全球的最適相対方向を効率的に推定する。 このような構造上の制約により、ネットワークはエンドツーエンドで学習でき、バックボーンは2つのタスクで完全に共有され、解釈性と軽量化を実現します。 最後に、DiSCOは長期の屋外条件を持つ3つのデータセットで検証され、比較した手法よりも優れた性能を示す。

Global localization is essential for robot navigation, of which the first step is to retrieve a query from the map database. This problem is called place recognition. In recent years, LiDAR scan based place recognition has drawn attention as it is robust against the appearance change. In this paper, we propose a LiDAR-based place recognition method, named Differentiable Scan Context with Orientation (DiSCO), which simultaneously finds the scan at a similar place and estimates their relative orientation. The orientation can further be used as the initial value for the down-stream local optimal metric pose estimation, improving the pose estimation especially when a large orientation between the current scan and retrieved scan exists. Our key idea is to transform the feature into the frequency domain. We utilize the magnitude of the spectrum as the place signature, which is theoretically rotation-invariant. In addition, based on the differentiable phase correlation, we can efficiently estimate the global optimal relative orientation using the spectrum. With such structural constraints, the network can be learned in an end-to-end manner, and the backbone is fully shared by the two tasks, achieving interpretability and light weight. Finally, DiSCO is validated on three datasets with long-term outdoor conditions, showing better performance than the compared methods.
翻訳日:2022-10-05 00:45:58 公開日:2021-01-13
# t-SNE, DBSCAN, ランダムフォレストによるデータセグメンテーション

Data Segmentation via t-SNE, DBSCAN, and Random Forest ( http://arxiv.org/abs/2010.13682v2 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 本研究では,t-SNE,DBSCAN,Random Forestの分類器を組み合わせたデータセグメンテーションアルゴリズムを提案する。 サンプル外のクラスタラベルは推論でき、この技術は実際のデータセットでよく一般化される。 このアルゴリズムについて述べるとともに、irisとmnistデータセットとinstagramの実際のソーシャルメディアサイトデータを用いたケーススタディを提供する。 これは概念の証明であり、さらに深い理論分析の段階を定める。

This research proposes a data segmentation algorithm which combines t-SNE, DBSCAN, and Random Forest classifier to form an end-to-end pipeline that separates data into natural clusters and produces a characteristic profile of each cluster based on the most important features. Out-of-sample cluster labels can be inferred, and the technique generalizes well on real data sets. We describe the algorithm and provide case studies using the Iris and MNIST data sets, as well as real social media site data from Instagram. This is a proof of concept and sets the stage for further in-depth theoretical analysis.
翻訳日:2022-10-02 20:06:37 公開日:2021-01-13
# エピソード強化学習の定常状態解析

Steady State Analysis of Episodic Reinforcement Learning ( http://arxiv.org/abs/2011.06631v2 )

ライセンス: Link先を確認
Huang Bojun(参考訳) 本稿では,すべての有限ホライゾン決定課題の韻律学習環境が,任意の行動方針の下で一意な定常状態を持ち,エージェントの入力の限界分布が本質的にすべての韻律学習過程における定常分布に収束することを示す。 この観察は、伝統的な知恵に対する興味深い逆の考え方を支持している: 特異な定常状態の存在は、連続的な学習では想定されるが、エピソジックな学習では考慮されていない。 この知見に基づいて、本論文は、これらの2つのRL形式において別々に扱われたいくつかの重要な概念について、エピソード的および連続的なRLを統一する。 実際、一意かつ接近可能な定常状態の存在は、新しい定常状態のポリシー勾配定理に基づいて、ポリシー勾配アルゴリズムを実証として適用した、漸進的RLタスクにおけるデータ収集の一般的な方法を可能にする。 最後に,実世界のrlタスクにおける高速定常収束を容易にする摂動法を提案し,実験的に検証する。

This paper proves that the episodic learning environment of every finite-horizon decision task has a unique steady state under any behavior policy, and that the marginal distribution of the agent's input indeed converges to the steady-state distribution in essentially all episodic learning processes. This observation supports an interestingly reversed mindset against conventional wisdom: While the existence of unique steady states was often presumed in continual learning but considered less relevant in episodic learning, it turns out their existence is guaranteed for the latter. Based on this insight, the paper unifies episodic and continual RL around several important concepts that have been separately treated in these two RL formalisms. Practically, the existence of unique and approachable steady state enables a general way to collect data in episodic RL tasks, which the paper applies to policy gradient algorithms as a demonstration, based on a new steady-state policy gradient theorem. Finally, the paper also proposes and experimentally validates a perturbation method that facilitates rapid steady-state convergence in real-world RL tasks.
翻訳日:2022-09-26 06:31:22 公開日:2021-01-13
# OpenKBP: オープンアクセスの知識ベースの計画大挑戦

OpenKBP: The open-access knowledge-based planning grand challenge ( http://arxiv.org/abs/2011.14076v2 )

ライセンス: Link先を確認
Aaron Babier, Binghao Zhang, Rafid Mahmood, Kevin L. Moore, Thomas G. Purdie, Andrea L. McNiven, Timothy C. Y. Chan(参考訳) 本研究の目的は,放射線治療研究における知識ベースプランニング(KBP)のための線量予測手法の公平かつ一貫した比較を推し進めることである。 我々は,2020年のAAPMグランドチャレンジであるOpenKBPを主催し,参加者にCT画像の量を予測する最善の方法の開発を依頼した。 1)3次元線量分布を評価する線量スコアと,(2)DVH測定値を評価する線量ヒストグラム(DVH)スコアの2つの異なるスコアで評価した。 対象者は放射線治療により頭頸部癌治療を受けた340例であった。 データはトレーニング(n=200),検証(n=40),テスト(n=100)データセットに分割された。 参加者全員がチャレンジの検証フェーズで対応するデータセットでトレーニングと検証を行い、アウトオブサンプルのパフォーマンスに基づいてテストフェーズでモデルをランク付けした。 このチャレンジには28カ国から195人が参加し、そのうち73人が検証フェーズで44チームを結成し、合計で1750人が応募した。 テストフェーズでは28チームが応募した。 検証期間の平均では、参加者はそれぞれ2.7と5.7の因子で投与量とDVHのスコアを改善した。 テストフェーズでは,1つのモデルが,ランナーアップモデルよりも有意に優れた線量とDVHスコアを得た。 最後に、上位パフォーマンスチームの多くは、競争相手よりも高いパフォーマンスを達成するために、一般化可能なテクニック(アンサンブルなど)を使用して報告した。 これは知識に基づく計画研究のための最初の競争であり、KBP予測手法を公平かつ一貫して比較するための最初のプラットフォームをローンチした。 OpenKBPデータセットは、将来のKBP研究のベンチマークを支援するために公開されている。

The purpose of this work is to advance fair and consistent comparisons of dose prediction methods for knowledge-based planning (KBP) in radiation therapy research. We hosted OpenKBP, a 2020 AAPM Grand Challenge, and challenged participants to develop the best method for predicting the dose of contoured CT images. The models were evaluated according to two separate scores: (1) dose score, which evaluates the full 3D dose distributions, and (2) dose-volume histogram (DVH) score, which evaluates a set DVH metrics. Participants were given the data of 340 patients who were treated for head-and-neck cancer with radiation therapy. The data was partitioned into training (n=200), validation (n=40), and testing (n=100) datasets. All participants performed training and validation with the corresponding datasets during the validation phase of the Challenge, and we ranked the models in the testing phase based on out-of-sample performance. The Challenge attracted 195 participants from 28 countries, and 73 of those participants formed 44 teams in the validation phase, which received a total of 1750 submissions. The testing phase garnered submissions from 28 teams. On average, over the course of the validation phase, participants improved the dose and DVH scores of their models by a factor of 2.7 and 5.7, respectively. In the testing phase one model achieved significantly better dose and DVH score than the runner-up models. Lastly, many of the top performing teams reported using generalizable techniques (e.g., ensembles) to achieve higher performance than their competition. This is the first competition for knowledge-based planning research, and it helped launch the first platform for comparing KBP prediction methods fairly and consistently. The OpenKBP datasets are available publicly to help benchmark future KBP research, which has also democratized KBP research by making it accessible to everyone.
翻訳日:2022-09-19 19:48:39 公開日:2021-01-13
# CUED_speech at TREC 2020 Podcast Summarisation Track

CUED_speech at TREC 2020 Podcast Summarisation Track ( http://arxiv.org/abs/2012.02535v2 )

ライセンス: Link先を確認
Potsawee Manakul and Mark Gales(参考訳) 本稿では,trac 2020におけるポッドキャスト要約チャレンジのアプローチについて述べる。 ポッドキャストのエピソードが書き起こされ、そのゴールはコンテンツの中で最も重要な情報をキャプチャする要約を生成することである。 提案手法は,(1)階層的モデルに着目して書き起こし中の冗長文や情報の少ない文をフィルタリングすること,(2)シーケンスレベルの報酬関数を用いたPodcastデータに最先端のテキスト要約システム(BART)を適用すること,の2段階からなる。 さらに,提案方式では3モデルと9モデルのアンサンブルを行う。 また、PodcastデータのBARTモデルをベースラインとして微調整します。 NISTによる人間による評価では,EGFB尺度では1.777,クリエーターによる記述スコアは1.291であった。 本研究では, TREC2020 Podcast Track におけるSpotify Podcast Summarisation Challenge を人的および自動評価で獲得した。

In this paper, we describe our approach for the Podcast Summarisation challenge in TREC 2020. Given a podcast episode with its transcription, the goal is to generate a summary that captures the most important information in the content. Our approach consists of two steps: (1) Filtering redundant or less informative sentences in the transcription using the attention of a hierarchical model; (2) Applying a state-of-the-art text summarisation system (BART) fine-tuned on the Podcast data using a sequence-level reward function. Furthermore, we perform ensembles of three and nine models for our submission runs. We also fine-tune the BART model on the Podcast data as our baseline. The human evaluation by NIST shows that our best submission achieves 1.777 in the EGFB scale, while the score of creator-provided description is 1.291. Our system won the Spotify Podcast Summarisation Challenge in the TREC2020 Podcast Track in both human and automatic evaluation.
翻訳日:2021-05-22 20:44:28 公開日:2021-01-13
# 射影ロバスト・ワッサーシュタイン距離計算のためのリーマンブロック座標Descent法

A Riemannian Block Coordinate Descent Method for Computing the Projection Robust Wasserstein Distance ( http://arxiv.org/abs/2012.05199v3 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma and Lifeng Lai(参考訳) wasserstein距離は、機械学習とディープラーニングにおいてますます重要になっている。 その人気にもかかわらず、ワッサーシュタイン距離は次元の呪いのために近似が難しい。 最近提案された次元の呪いを緩和するためのアプローチは、サンプルデータを高次元確率分布から低次元部分空間に投影し、投影されたデータ間のワッサースタイン距離を計算することである。 しかし、このアプローチはスティフェル多様体上の極小問題を解く必要があり、これは実際は非常に難しい。 この問題を直接解く既存の仕事は、rgas(riemannian gradient ascent with sinkhorn iteration)アルゴリズムのみであり、各イテレーションでエントロピー正規化された最適輸送問題を解く必要があるため、大規模な問題にはコストがかかる。 本稿では,この問題をStiefel多様体上の正規化最大ミン問題の新たな再定式化に基づく,リーマンブロック座標降下法(RBCD)を提案する。 RBCDの算術演算の複雑さから、$\epsilon$-stationary point は$O(\epsilon^{-3})$であることが示される。 これは RGAS の複雑性を大幅に改善し、これは$O(\epsilon^{-12})$である。 さらに,我々のRBCDは点数当たりの複雑性が非常に低く,大規模な問題に適している。 合成データと実データの両方における数値的な結果から,本手法は既存の手法よりも効率的であることが明らかとなった。

The Wasserstein distance has become increasingly important in machine learning and deep learning. Despite its popularity, the Wasserstein distance is hard to approximate because of the curse of dimensionality. A recently proposed approach to alleviate the curse of dimensionality is to project the sampled data from the high dimensional probability distribution onto a lower-dimensional subspace, and then compute the Wasserstein distance between the projected data. However, this approach requires to solve a max-min problem over the Stiefel manifold, which is very challenging in practice. The only existing work that solves this problem directly is the RGAS (Riemannian Gradient Ascent with Sinkhorn Iteration) algorithm, which requires to solve an entropy-regularized optimal transport problem in each iteration, and thus can be costly for large-scale problems. In this paper, we propose a Riemannian block coordinate descent (RBCD) method to solve this problem, which is based on a novel reformulation of the regularized max-min problem over the Stiefel manifold. We show that the complexity of arithmetic operations for RBCD to obtain an $\epsilon$-stationary point is $O(\epsilon^{-3})$. This significantly improves the corresponding complexity of RGAS, which is $O(\epsilon^{-12})$. Moreover, our RBCD has very low per-iteration complexity, and hence is suitable for large-scale problems. Numerical results on both synthetic and real datasets demonstrate that our method is more efficient than existing methods, especially when the number of sampled data is very large.
翻訳日:2021-05-16 02:08:48 公開日:2021-01-13
# ヒューマン・コンピュータインタラクション改善のための心理言語特性のベンチマーク自動検出

Benchmarking Automatic Detection of Psycholinguistic Characteristics for Better Human-Computer Interaction ( http://arxiv.org/abs/2012.09692v4 )

ライセンス: Link先を確認
Sanja \v{S}tajner, Seren Yenikent and Marc Franco-Salvador(参考訳) 2人がお互いに注意を払って、相手が言うべきことや書くことに興味がある場合、互いに一致するように書き書き書きスタイルにほぼ即座に適応します。 ユーザとの対話を成功させるためには、チャットボットと対話システムも同じように行う必要がある。 本稿では,人間とコンピュータの相互作用を改善するための5つの心理言語学的テキスト特徴からなる枠組みを提案する。 データ収集に使用されるアノテーションプロセスを説明し,5つのバイナリ分類タスクをベンチマークし,異なるトレーニングサイズとモデルアーキテクチャを実験する。 英語、スペイン語、ドイツ語、中国語、アラビア語で実験を行います。 最高のアーキテクチャはいくつかのベースラインを著しく上回り、言語とタスクによって72%から96%のマクロ平均F1スコアを達成する。 トレーニングデータが少ない場合でも、同様の結果が得られる。 提案するフレームワークは,適切なアーキテクチャを使用すれば,手動でアノテートしたデータが少ない場合でも,さまざまな言語でモデル化が比較的容易であることが証明された。 同時に、既存のチャットボットに適用すれば、ユーザー満足度を向上させる可能性を示した。

When two people pay attention to each other and are interested in what the other has to say or write, they almost instantly adapt their writing/speaking style to match the other. For a successful interaction with a user, chatbots and dialogue systems should be able to do the same. We propose a framework consisting of five psycholinguistic textual characteristics for better human-computer interaction. We describe the annotation processes used for collecting the data, and benchmark five binary classification tasks, experimenting with different training sizes and model architectures. We perform experiments in English, Spanish, German, Chinese, and Arabic. The best architectures noticeably outperform several baselines and achieve macro-averaged F1-scores between 72% and 96% depending on the language and the task. Similar results are achieved even with a small amount of training data. The proposed framework proved to be fairly easy to model for various languages even with small amount of manually annotated data if right architectures are used. At the same time, it showed potential for improving user satisfaction if applied in existing commercial chatbots.
翻訳日:2021-05-02 07:30:14 公開日:2021-01-13
# ShineOn:実用的なビデオベースの仮想衣料試着のためのデザイン選択

ShineOn: Illuminating Design Choices for Practical Video-based Virtual Clothing Try-on ( http://arxiv.org/abs/2012.10495v2 )

ライセンス: Link先を確認
Gaurav Kuppa, Andrew Jong, Vera Liu, Ziwei Liu, and Teng-Sheng Moh(参考訳) 仮想試行は、複雑なオブジェクト転送とシーン構成を評価するニューラルネットワークベンチマークタスクとして関心を集めている。 仮想衣料品の試着に関する最近の研究には、アーキテクチャとデータ表現の選択肢が多数含まれている。 しかし、それぞれの選択の孤立した視覚効果の定量化についてはほとんど明確ではないし、実験的な再現の鍵となるハイパーパラメータの詳細を特定できない。 ShineOnはボトムアップアプローチから試行課題にアプローチし、それぞれの実験の視覚的および定量的効果に光を当てることを目的としています。 仮想衣料試着のためのビデオ合成における効果的な設計選択を分離するための一連の科学的実験を構築した。 具体的には,ビデオ仮想トライオンの定量的・質的性能に及ぼす異なるポーズアノテーション,セルフアテンション層配置,アクティベーション機能の影響について検討した。 DensePoseアノテーションは顔の詳細を向上するだけでなく、メモリ使用量やトレーニング時間を短縮する。 次に、注意層は顔と首の品質を改善する。 最後に,swish や sine のような新しい活性化の魅力にもかかわらず,gelu と relu の活性化関数は実験において最も効果的であることを示した。 結果の再現性をサポートするために、よく組織されたコードベース、ハイパーパラメータ、モデルチェックポイントをリリースします。 われわれの広範な実験とコードは、ビデオ仮想トライオンにおける将来の設計選択に大きな影響を与えることを期待している。 私たちのコードはhttps://github.com/andrewjong/ShineOn-Virtual-Tryonでアクセスできます。

Virtual try-on has garnered interest as a neural rendering benchmark task to evaluate complex object transfer and scene composition. Recent works in virtual clothing try-on feature a plethora of possible architectural and data representation choices. However, they present little clarity on quantifying the isolated visual effect of each choice, nor do they specify the hyperparameter details that are key to experimental reproduction. Our work, ShineOn, approaches the try-on task from a bottom-up approach and aims to shine light on the visual and quantitative effects of each experiment. We build a series of scientific experiments to isolate effective design choices in video synthesis for virtual clothing try-on. Specifically, we investigate the effect of different pose annotations, self-attention layer placement, and activation functions on the quantitative and qualitative performance of video virtual try-on. We find that DensePose annotations not only enhance face details but also decrease memory usage and training time. Next, we find that attention layers improve face and neck quality. Finally, we show that GELU and ReLU activation functions are the most effective in our experiments despite the appeal of newer activations such as Swish and Sine. We will release a well-organized code base, hyperparameters, and model checkpoints to support the reproducibility of our results. We expect our extensive experiments and code to greatly inform future design choices in video virtual try-on. Our code may be accessed at https://github.com/andrewjong/ShineOn-Virtual-Tryon.
翻訳日:2021-05-01 18:21:35 公開日:2021-01-13
# (参考訳) 連続作用空間における量子強化学習

Quantum reinforcement learning in continuous action space ( http://arxiv.org/abs/2012.10711v2 )

ライセンス: CC BY 4.0
Shaojun Wu, Shan Jin, Dingding Wen, Xiaoting Wang(参考訳) 量子力学は強化学習(RL)を含む機械学習アルゴリズムを高速化する可能性がある。 前回の研究では、量子アルゴリズムは離散的作用空間におけるrl問題を効率的に解くことができるが、連続領域では難解となり、特に離散化による次元の呪いに苦しむことがある。 本研究では,連続行動空間におけるRL問題を次元問題なしで解くことのできる量子回路設計を提案する。 具体的には,量子ニューラルネットワークを用いた決定論的ポリシ勾配法(deep deterministic policy gradient method)の量子バージョンを提案する。 応用として,固有値問題や量子状態生成を含む量子制御タスクを逐次決定問題として定式化し,その解法によって解決できることを実証する。

Quantum mechanics has the potential to speedup machine learning algorithms, including reinforcement learning(RL). Previous works have shown that quantum algorithms can efficiently solve RL problems in discrete action space, but could become intractable in continuous domain, suffering notably from the curse of dimensionality due to discretization. In this work, we propose an alternative quantum circuit design that can solve RL problems in continuous action space without the dimensionality problem. Specifically, we propose a quantum version of the Deep Deterministic Policy Gradient method constructed from quantum neural networks, with the potential advantage of obtaining an exponential speedup in gate complexity for each iteration. As applications, we demonstrate that quantum control tasks, including the eigenvalue problem and quantum state generation, can be formulated as sequential decision problems and solved by our method.
翻訳日:2021-05-01 14:44:44 公開日:2021-01-13
# (参考訳) g2tmn at Constraint@AAAI2021: Exploiting CT-BERT and Ensembling Learning for COVID-19 Fake News Detection

g2tmn at Constraint@AAAI2021: Exploiting CT-BERT and Ensembling Learning for COVID-19 Fake News Detection ( http://arxiv.org/abs/2012.11967v3 )

ライセンス: CC BY 4.0
Anna Glazkova, Maksim Glazkov, Timofey Trifonov(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、さまざまな人間の生活に多大な影響を与えた。 そのため、新型コロナウイルスのパンデミックとその影響はソーシャルメディア上で積極的に議論されている。 しかし、すべてのソーシャルメディア投稿が真実であるわけではない。 多くは偽ニュースを拡散し、読者の間でパニックを引き起こし、不信感を抱き、パンデミックの影響を悪化させた。 本稿では,Constraint@AAAI2021 Shared Task: COVID-19 Fake News Detection in Englishについて述べる。 特に,トランスフォーマーを用いた COVID-Twitter-BERT (CT-BERT) モデルのアンサンブルを用いたアプローチを提案する。 使用するモデル、テキスト前処理の方法、追加データの追加について説明する。 その結果、最善のモデルは166チームが参加したこの共有タスクのテストセット(リーダボードの第1位)で、重み付きf1-scoreを98.69で達成しました。

The COVID-19 pandemic has had a huge impact on various areas of human life. Hence, the coronavirus pandemic and its consequences are being actively discussed on social media. However, not all social media posts are truthful. Many of them spread fake news that cause panic among readers, misinform people and thus exacerbate the effect of the pandemic. In this paper, we present our results at the Constraint@AAAI2021 Shared Task: COVID-19 Fake News Detection in English. In particular, we propose our approach using the transformer-based ensemble of COVID-Twitter-BERT (CT-BERT) models. We describe the models used, the ways of text preprocessing and adding extra data. As a result, our best model achieved the weighted F1-score of 98.69 on the test set (the first place in the leaderboard) of this shared task that attracted 166 submitted teams in total.
翻訳日:2021-04-26 22:11:57 公開日:2021-01-13
# 選択ラベルによる良いモデルの集合上の公正性の評価

Characterizing Fairness Over the Set of Good Models Under Selective Labels ( http://arxiv.org/abs/2101.00352v2 )

ライセンス: Link先を確認
Amanda Coston and Ashesh Rambachan and Alexandra Chouldechova(参考訳) アルゴリズムによるリスクアセスメントは、さまざまな高リスク設定で意思決定を行い、通知するためにますます使われています。 実際には、「羅生門効果」として知られる経験的現象である同様の総合的な性能をもたらす予測モデルが多数存在することが多い。 多くの競合モデルも同様に振る舞うが、それらは様々な部分群に対して異なる性質を持ち、従って予測的公正性が著しく異なる。 本稿では,同様の全体的な性能を提供するモデル群,すなわち「良いモデルの集合」に対して,予測的公平性特性を特徴付けるフレームワークを開発した。 我々は、到達可能なグループレベルの予測格差の範囲を計算するための抽出可能なアルゴリズムと、良いモデルの集合上での差最小化モデルを提供する。 我々は、観測データの特徴から、選択決定と結果が未確立の環境で、選択的にラベル付けされたデータに対処するために、我々のフレームワークを拡張した。 本手法を実証的な2つの応用例で説明する。 実世界の信用評価タスクでは,ベンチマークモデルよりも予測格差の低いモデルを構築し,選択ラベル問題を適切に考慮する利点を実証する。 recidivism risk predictionタスクでは、既存のリスクスコアを監査し、良質なモデルセットのどのモデルよりも大きな予測の不一致を生み出すことを確認します。

Algorithmic risk assessments are increasingly used to make and inform decisions in a wide variety of high-stakes settings. In practice, there is often a multitude of predictive models that deliver similar overall performance, an empirical phenomenon commonly known as the "Rashomon Effect." While many competing models may perform similarly overall, they may have different properties over various subgroups, and therefore have drastically different predictive fairness properties. In this paper, we develop a framework for characterizing predictive fairness properties over the set of models that deliver similar overall performance, or "the set of good models." We provide tractable algorithms to compute the range of attainable group-level predictive disparities and the disparity minimizing model over the set of good models. We extend our framework to address the empirically relevant challenge of selectively labelled data in the setting where the selection decision and outcome are unconfounded given the observed data features. We illustrate our methods in two empirical applications. In a real world credit-scoring task, we build a model with lower predictive disparities than the benchmark model, and demonstrate the benefits of properly accounting for the selective labels problem. In a recidivism risk prediction task, we audit an existing risk score, and find that it generates larger predictive disparities than any model in the set of good models.
翻訳日:2021-04-13 07:21:33 公開日:2021-01-13
# (参考訳) 否定言語のためのローカル翻訳サービス

Local Translation Services for Neglected Languages ( http://arxiv.org/abs/2101.01628v2 )

ライセンス: CC BY 4.0
David Noever, Josh Kalin, Matt Ciolino, Dom Hambrick, and Gerry Dozier(参考訳) 計算量的に軽量だが高品質な翻訳者を利用すると、無視された言語を扱う新しいアプリケーションを考えることができる。 人気の低い言語でローカルに実行される翻訳者は、公開翻訳apiに投稿する前に特定のコンプライアンスチェックが必要な保護されたデータや個人データを持つデータプロジェクトを支援することができる。 専門家の方言を扱うのと同様に、この研究は歴史的に興味深いが難解な2つの言語を翻訳している: 1) ハッカーピーク(l33t)と2) レオナルド・ダ・ヴィンチが実践した逆(または「ミラー」)である。 この研究は、lite、medium、hard vocabularyで翻訳可能なhacker-speakにディープラーニングアーキテクチャを一般化している。 オリジナルのコントリビュートでは、50メガバイト未満のハッカー講演の流行った翻訳者が強調され、100万以上のバイリンガル文ペアで将来のデータセットを補完するジェネレータが示されている。 長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。 この研究はさらに26の言語で同等の翻訳問題を解決し、それらのモデルをランク付けし、イタリア語を最も成功し、中国語を最も挑戦的な言語とした。 無視された言語に対しては、Kabyle(アルジェ方言)のようなより小さなニッチな翻訳のための新しいサービスのプロトタイプが作成されている。 1つは、技術的な(医学的または法的)用語の翻訳や健康記録の処理など、他の重要な方言へのこのアプローチの拡張を予想している。

Taking advantage of computationally lightweight, but high-quality translators prompt consideration of new applications that address neglected languages. Locally run translators for less popular languages may assist data projects with protected or personal data that may require specific compliance checks before posting to a public translation API, but which could render reasonable, cost-effective solutions if done with an army of local, small-scale pair translators. Like handling a specialist's dialect, this research illustrates translating two historically interesting, but obfuscated languages: 1) hacker-speak ("l33t") and 2) reverse (or "mirror") writing as practiced by Leonardo da Vinci. The work generalizes a deep learning architecture to translatable variants of hacker-speak with lite, medium, and hard vocabularies. The original contribution highlights a fluent translator of hacker-speak in under 50 megabytes and demonstrates a generator for augmenting future datasets with greater than a million bilingual sentence pairs. The long short-term memory, recurrent neural network (LSTM-RNN) extends previous work demonstrating an English-to-foreign translation service built from as little as 10,000 bilingual sentence pairs. This work further solves the equivalent translation problem in twenty-six additional (non-obfuscated) languages and rank orders those models and their proficiency quantitatively with Italian as the most successful and Mandarin Chinese as the most challenging. For neglected languages, the method prototypes novel services for smaller niche translations such as Kabyle (Algerian dialect) which covers between 5-7 million speakers but one which for most enterprise translators, has not yet reached development. One anticipates the extension of this approach to other important dialects, such as translating technical (medical or legal) jargon and processing health records.
翻訳日:2021-04-11 14:38:45 公開日:2021-01-13
# (参考訳) Constraint 2021: COVID-19フェイクニュース検出共有タスクのための機械学習モデル

Constraint 2021: Machine Learning Models for COVID-19 Fake News Detection Shared Task ( http://arxiv.org/abs/2101.03717v2 )

ライセンス: CC BY 4.0
Thomas Felber(参考訳) 本稿では,新型コロナウイルス関連ソーシャルメディア投稿を偽か偽かのどちらかに分類する上での課題となる,2021年の「Fake News Detection Shared Task」への貢献について述べる。 本システムでは,古典的機械学習アルゴリズムと,n-gram,可読性,感情的トーン,句読点などの言語的特徴を組み合わせることで,この課題を解決する。 プリプロセッシングの観点からは,ストップワードの除去,ストーミング/レンマティゼーション,リンクの除去など,さまざまなステップを試す。 テストデータから平均95.19%の重み付け平均f1スコアを得られる線形svmをベースとし、リードボードの中央に位置する場所(167箇所中80箇所)に配置した。

In this system paper we present our contribution to the Constraint 2021 COVID-19 Fake News Detection Shared Task, which poses the challenge of classifying COVID-19 related social media posts as either fake or real. In our system, we address this challenge by applying classical machine learning algorithms together with several linguistic features, such as n-grams, readability, emotional tone and punctuation. In terms of pre-processing, we experiment with various steps like stop word removal, stemming/lemmatization, link removal and more. We find our best performing system to be based on a linear SVM, which obtains a weighted average F1 score of 95.19% on test data, which lands a place in the middle of the leaderboard (place 80 of 167).
翻訳日:2021-04-04 20:26:44 公開日:2021-01-13
# Deeplite Neutrino: 制約付きディープラーニングモデル最適化のためのエンドツーエンドフレームワーク

Deeplite Neutrino: An End-to-End Framework for Constrained Deep Learning Model Optimization ( http://arxiv.org/abs/2101.04073v2 )

ライセンス: Link先を確認
Anush Sankaran, Olivier Mastropietro, Ehsan Saboori, Yasser Idris, Davis Sawyer, MohammadHossein AskariHemmat, Ghouthi Boukli Hacene(参考訳) ディープラーニングベースのソリューションの設計は、より多くのレイヤを持つより深いモデルをトレーニングするためのレースになりつつある。 大規模な深層モデルは、競合の正確さをもたらす可能性があるが、開発とデプロイメントの間に多くのロジスティックな課題と不合理なリソース要件を生み出している。 これは、ディープラーニングモデルがさまざまなプロダクション環境、特にエッジデバイスで過剰に使われていない主な理由の1つです。 デバイス上のインテリジェンスを実現するために、これらのディープラーニングモデルを最適化し、圧縮する必要がある。 本研究では,ディープラーニングモデルのプロダクション対応最適化のためのブラックボックスフレームワークであるDeeplite Neutrinoを紹介する。 このフレームワークは、最適化されたモデルの精度の低下やターゲットサイズなどの制約をエンドユーザが簡単に提供し、最適化プロセス全体をガイドするメカニズムを提供する。 フレームワークは既存のプロダクションパイプラインに簡単に組み込むことができ、Python Packageとして利用可能で、PyTorchとTensorflowライブラリをサポートする。 フレームワークの最適化性能は、複数のベンチマークデータセットと人気のあるディープラーニングモデルで示されている。 さらに、このフレームワークは現在本番環境で使用されており、いくつかのクライアントによる結果と証言が要約されている。

Designing deep learning-based solutions is becoming a race for training deeper models with a greater number of layers. While a large-size deeper model could provide competitive accuracy, it creates a lot of logistical challenges and unreasonable resource requirements during development and deployment. This has been one of the key reasons for deep learning models not being excessively used in various production environments, especially in edge devices. There is an immediate requirement for optimizing and compressing these deep learning models, to enable on-device intelligence. In this research, we introduce a black-box framework, Deeplite Neutrino for production-ready optimization of deep learning models. The framework provides an easy mechanism for the end-users to provide constraints such as a tolerable drop in accuracy or target size of the optimized models, to guide the whole optimization process. The framework is easy to include in an existing production pipeline and is available as a Python Package, supporting PyTorch and Tensorflow libraries. The optimization performance of the framework is shown across multiple benchmark datasets and popular deep learning models. Further, the framework is currently used in production and the results and testimonials from several clients are summarized.
翻訳日:2021-04-04 14:51:14 公開日:2021-01-13
# 多視点プログレッシブサブスペースクラスタリングのための深い対立的不整合認知サンプリング

Deep Adversarial Inconsistent Cognitive Sampling for Multi-view Progressive Subspace Clustering ( http://arxiv.org/abs/2101.03783v2 )

ライセンス: Link先を確認
Renhao Sun, Yang Wang, Zhao Zhang, Richang Hong, and Meng Wang(参考訳) ディープマルチビュークラスタリングは驚くべきパフォーマンスを達成している。 しかし、これら全てはマルチビューサンプルの難易度ラベル(トレーニングサンプルの真偽の確認)を考慮せず、トレーニングプロセス中に悪いローカルオプティマに固執する非理想的クラスタリングネットワークになる可能性があり、さらに悪いことに、マルチビューサンプルからの難易度ラベルは常に一貫性に欠けるため、処理がさらに困難になる。 本稿では,多視点プログレッシブ・サブスペースクラスタリングのための新しい深層非整合認知サンプリング(daics)法を提案する。 マルチビュー一貫したサンプルの難易度ラベルを克服する対向ミニマックスゲームを通して、バイナリ分類器と深い一貫した特徴埋め込みネットワークを共同学習するために、多視点二分分類(容易か困難か)損失と特徴類似性損失を提案する。 マルチビュークラスタリングネットワークトレーニングにおいて,入力サンプルを容易から困難に選択するための多視点認知サンプリング戦略を開発した。 しかし、簡単で難しいサンプルの分布は混ざり合っており、目的を達成するのに簡単なものではない。 これを解決するため,理論的保証付きサンプリング確率を定義した。 これに基づいてゴールデンセクション機構はさらにサンプルセット境界を生成し、ゲートユニットを介して様々な難易度ラベルを持つサンプルを段階的に選択し、より効率的なクラスタリングのためにマルチビュー共通プログレッシブサブスペースとクラスタリングネットワークを共同学習する。 4つの実世界のデータセットの実験結果は、最先端の手法よりもDAICSの方が優れていることを示している。

Deep multi-view clustering methods have achieved remarkable performance. However, all of them failed to consider the difficulty labels (uncertainty of ground-truth for training samples) over multi-view samples, which may result into a nonideal clustering network for getting stuck into poor local optima during training process; worse still, the difficulty labels from multi-view samples are always inconsistent, such fact makes it even more challenging to handle. In this paper, we propose a novel Deep Adversarial Inconsistent Cognitive Sampling (DAICS) method for multi-view progressive subspace clustering. A multiview binary classification (easy or difficult) loss and a feature similarity loss are proposed to jointly learn a binary classifier and a deep consistent feature embedding network, throughout an adversarial minimax game over difficulty labels of multiview consistent samples. We develop a multi-view cognitive sampling strategy to select the input samples from easy to difficult for multi-view clustering network training. However, the distributions of easy and difficult samples are mixed together, hence not trivial to achieve the goal. To resolve it, we define a sampling probability with theoretical guarantee. Based on that, a golden section mechanism is further designed to generate a sample set boundary to progressively select the samples with varied difficulty labels via a gate unit, which is utilized to jointly learn a multi-view common progressive subspace and clustering network for more efficient clustering. Experimental results on four real-world datasets demonstrate the superiority of DAICS over the state-of-the-art methods.
翻訳日:2021-04-04 14:42:38 公開日:2021-01-13
# 自律運転における対向攻撃に対する意味セグメンテーションネットワークの脆弱性:広範な環境センシングの強化

The Vulnerability of Semantic Segmentation Networks to Adversarial Attacks in Autonomous Driving: Enhancing Extensive Environment Sensing ( http://arxiv.org/abs/2101.03924v2 )

ライセンス: Link先を確認
Andreas B\"ar, Jonas L\"ohdefink, Nikhil Kapoor, Serin J. Varghese, Fabian H\"uger, Peter Schlicht, Tim Fingscheidt(参考訳) 自律運転(AD)の実現は,今日のテクノロジにおける最大の課題のひとつだと考えることができる。 ADはいくつかの機能によって達成される複雑なタスクであり、環境認識はその中核機能の一つである。 環境認識は通常、複数のセンサー、すなわちライダーやカメラが捉えた意味情報を組み合わせることで行われる。 各センサからのセマンティック情報は、畳み込みニューラルネットワーク(CNN)を用いて高密度予測により抽出することができる。 これまでcnnは、カメラが提供した赤緑色(rgb)画像のみを使用してトラフィックシーンをセマンティクスセグメンテーションするなど、視覚関連のタスクで常に最先端のパフォーマンスを見せていた。 CNNはクリーンな画像で最先端のパフォーマンスを得るが、逆境の摂動と呼ばれる入力に対するほとんど知覚できない変化は致命的な騙しにつながる可能性がある。 この記事の目的は、敵の攻撃に関して意味セグメンテーションに使用されるcnnの脆弱性側面を照らし、既存の敵防御戦略に関する洞察を共有することである。 今後の研究のモチベーションとして,ADにおける環境認識にCNNを適用することのメリットとデメリットを明らかにすることを目的とする。

Enabling autonomous driving (AD) can be considered one of the biggest challenges in today's technology. AD is a complex task accomplished by several functionalities, with environment perception being one of its core functions. Environment perception is usually performed by combining the semantic information captured by several sensors, i.e., lidar or camera. The semantic information from the respective sensor can be extracted by using convolutional neural networks (CNNs) for dense prediction. In the past, CNNs constantly showed state-of-the-art performance on several vision-related tasks, such as semantic segmentation of traffic scenes using nothing but the red-green-blue (RGB) images provided by a camera. Although CNNs obtain state-of-the-art performance on clean images, almost imperceptible changes to the input, referred to as adversarial perturbations, may lead to fatal deception. The goal of this article is to illuminate the vulnerability aspects of CNNs used for semantic segmentation with respect to adversarial attacks, and share insights into some of the existing known adversarial defense strategies. We aim to clarify the advantages and disadvantages associated with applying CNNs for environment perception in AD to serve as a motivation for future research in this field.
翻訳日:2021-04-04 14:40:25 公開日:2021-01-13
# Covid19フェイクニュース検出のためのディープラーニング手法の評価

Evaluating Deep Learning Approaches for Covid19 Fake News Detection ( http://arxiv.org/abs/2101.04012v2 )

ライセンス: Link先を確認
Apurva Wani, Isha Joshi, Snehal Khandve, Vedangi Wagh, Raviraj Joshi(参考訳) facebook、twitter、instagramなどのソーシャルメディアプラットフォームは、大規模な接続とコミュニケーションを可能にした。 情報の共有率に革命をもたらし、そのリーチを拡大した。 しかし、硬貨の別の側面は不安な話を起こさせる。 これらのプラットフォームはフェイクニュースの作成と拡散に繋がった。 この偽ニュースは、間違った方向の人々に影響を与えただけでなく、人間の生活にも影響を与えた。 コビッド19のパンデミックにおいて、人々を誤解させ、致命的な情報を信じさせるのは容易である。 したがって、情報源で偽ニュースを抑え、大観衆に広まるのを防ぐことが重要である。 データマイニングの観点から,偽ニュース検出のための自動化手法を検討する。 contraint@aaai 2021 covid-19 偽ニュース検出データセット上で,様々な教師付きテキスト分類アルゴリズムを評価した。 分類アルゴリズムは、畳み込みニューラルネットワーク(CNN)、長短記憶(LSTM)、および変換器からの双方向エンコーダ表現(BERT)に基づいている。 また,教師なし学習の重要性を,未ラベルのcovid-19ツイートコーパスを用いた言語モデルの事前学習と分散表現の形で評価した。 我々は、Covid-19 Fakeニュース検出データセットで98.41\%の最高の精度を報告した。

Social media platforms like Facebook, Twitter, and Instagram have enabled connection and communication on a large scale. It has revolutionized the rate at which information is shared and enhanced its reach. However, another side of the coin dictates an alarming story. These platforms have led to an increase in the creation and spread of fake news. The fake news has not only influenced people in the wrong direction but also claimed human lives. During these critical times of the Covid19 pandemic, it is easy to mislead people and make them believe in fatal information. Therefore it is important to curb fake news at source and prevent it from spreading to a larger audience. We look at automated techniques for fake news detection from a data mining perspective. We evaluate different supervised text classification algorithms on Contraint@AAAI 2021 Covid-19 Fake news detection dataset. The classification algorithms are based on Convolutional Neural Networks (CNN), Long Short Term Memory (LSTM), and Bidirectional Encoder Representations from Transformers (BERT). We also evaluate the importance of unsupervised learning in the form of language model pre-training and distributed word representations using unlabelled covid tweets corpus. We report the best accuracy of 98.41\% on the Covid-19 Fake news detection dataset.
翻訳日:2021-04-04 14:30:25 公開日:2021-01-13
# (参考訳) 救急車位置問題を解決する深層強化学習エージェントのテストのためのopenaiジム対応フレームワークとシミュレーション環境の開発

Developing an OpenAI Gym-compatible framework and simulation environment for testing Deep Reinforcement Learning agents solving the Ambulance Location Problem ( http://arxiv.org/abs/2101.04434v2 )

ライセンス: CC BY 4.0
Michael Allen, Kerry Pearn and Tom Monks(参考訳) 背景と動機: 深層強化学習(Deep RL)は急速に発展している分野です。 歴史的に、ほとんどの応用はゲーム(チェス、atariゲーム、goなど)に行われている。 Deep RLは現在、医療システムの最適化など、現実世界の問題に価値を提供する段階に達している。 そのような問題の1つは、緊急呼び出しから救急車への緊急呼び出しまでの時間を最小化するために、呼び出し間の救急車の配置がどこにあるかである。 これは救急車の場所問題として知られている。 Aim: Deep RLエージェントをテストするためのOpenAI Gym互換フレームワークとシミュレーション環境を開発する。 方法: OpenAI Gym と SimPy を用いた独自の救急搬送シミュレーション環境を開発した。 ディープRLエージェントはPyTorchを使用して構築された。 環境は現実世界を単純化したものですが、インシデント場所のクラスタ数、送信可能な場所の数、病院の数、そして毎日異なる場所で発生したインシデントの生成を制御できます。 結果: このカスタム環境では,深いqネットワークに基づく深いrlエージェントがテストされた。 緊急呼び出しに応答する時間はすべて、ディスパッチポイントへのランダムな割り当てに比べます。 Bagging Noisy Duelling Deep Q ネットワークは最も構成性能が高かった。 すべてのメソッドは、トレーニングが長すぎるとパフォーマンスが低下する傾向があり、エージェントは最適なパフォーマンスで保存され、独立したシミュレーション実行でテストされた。 結論: シミュレーション環境を用いて開発された深層rlエージェントは, 救急車位置問題を最適化するための新しいアプローチを提供する可能性がある。 オープンシミュレーション環境の構築は、この分野のより迅速な進展を可能にするだろう。

Background and motivation: Deep Reinforcement Learning (Deep RL) is a rapidly developing field. Historically most application has been made to games (such as chess, Atari games, and go). Deep RL is now reaching the stage where it may offer value in real world problems, including optimisation of healthcare systems. One such problem is where to locate ambulances between calls in order to minimise time from emergency call to ambulance on-scene. This is known as the Ambulance Location problem. Aim: To develop an OpenAI Gym-compatible framework and simulation environment for testing Deep RL agents. Methods: A custom ambulance dispatch simulation environment was developed using OpenAI Gym and SimPy. Deep RL agents were built using PyTorch. The environment is a simplification of the real world, but allows control over the number of clusters of incident locations, number of possible dispatch locations, number of hospitals, and creating incidents that occur at different locations throughout each day. Results: A range of Deep RL agents based on Deep Q networks were tested in this custom environment. All reduced time to respond to emergency calls compared with random allocation to dispatch points. Bagging Noisy Duelling Deep Q networks gave the most consistence performance. All methods had a tendency to lose performance if trained for too long, and so agents were saved at their optimal performance (and tested on independent simulation runs). Conclusions: Deep RL agents, developed using simulated environments, have the potential to offer a novel approach to optimise the Ambulance Location problem. Creating open simulation environments should allow more rapid progress in this field.
翻訳日:2021-04-04 08:36:57 公開日:2021-01-13
# FaceX-Zoo:顔認識のためのPyTorchツールボックス

FaceX-Zoo: A PyTorch Toolbox for Face Recognition ( http://arxiv.org/abs/2101.04407v2 )

ライセンス: Link先を確認
Jun Wang, Yinglu Liu, Yibo Hu, Hailin Shi and Tao Mei(参考訳) 近年,ディープラーニングに基づく顔認識は大きな進歩を遂げている。 しかし、実際のモデル作成と深層顔認識のさらなる研究は、対応する公的支援を大いに必要としている。 For example, the production of face representation network desires a modular training scheme to consider the proper choice from various candidates of state-of-the-art backbone and training supervision subject to the real-world face recognition demand; for performance analysis and comparison, the standard and automatic evaluation with a bunch of models on multiple benchmarks will be a desired tool as well; besides, a public groundwork is welcomed for deploying the face recognition in the shape of holistic pipeline. さらに、新型コロナウイルス(covid-19)の世界的なパンデミックによるマスク付き顔認識など、実用化に注目が集まっている新たな課題もある。 実現可能でエレガントな解決策は、上記の要求を満たすために簡単に使える統一フレームワークを構築することです。 そこで我々は,顔認識の研究開発コミュニティを指向した,新たなオープンソースフレームワークFaceX-Zooを紹介した。 高度にモジュール化されたスケーラブルな設計に代わり、FaceX-Zooは、最先端の顔認識に向けた様々なスーパーバイザリーヘッドとバックボーンを備えたトレーニングモジュールと、単純な構成を編集するだけで、人気のあるベンチマークのほとんどのモデルを評価するための標準化された評価モジュールを提供する。 また、訓練されたモデルの検証と主要な応用のために、シンプルで完全に機能するface sdkが提供されている。 従来のテクニックを可能な限り多く含めるのではなく、顔関連ドメインの開発とともに、FaceX-Zooを簡単にアップグレードおよび拡張できるようにします。 ソースコードとモデルはhttps://github.com/jdai-cv/facex-zooで入手できる。

Deep learning based face recognition has achieved significant progress in recent years. Yet, the practical model production and further research of deep face recognition are in great need of corresponding public support. For example, the production of face representation network desires a modular training scheme to consider the proper choice from various candidates of state-of-the-art backbone and training supervision subject to the real-world face recognition demand; for performance analysis and comparison, the standard and automatic evaluation with a bunch of models on multiple benchmarks will be a desired tool as well; besides, a public groundwork is welcomed for deploying the face recognition in the shape of holistic pipeline. Furthermore, there are some newly-emerged challenges, such as the masked face recognition caused by the recent world-wide COVID-19 pandemic, which draws increasing attention in practical applications. A feasible and elegant solution is to build an easy-to-use unified framework to meet the above demands. To this end, we introduce a novel open-source framework, named FaceX-Zoo, which is oriented to the research-development community of face recognition. Resorting to the highly modular and scalable design, FaceX-Zoo provides a training module with various supervisory heads and backbones towards state-of-the-art face recognition, as well as a standardized evaluation module which enables to evaluate the models in most of the popular benchmarks just by editing a simple configuration. Also, a simple yet fully functional face SDK is provided for the validation and primary application of the trained models. Rather than including as many as possible of the prior techniques, we enable FaceX-Zoo to easily upgrade and extend along with the development of face related domains. The source code and models are available at https://github.com/JDAI-CV/FaceX-Zoo.
翻訳日:2021-04-04 01:44:15 公開日:2021-01-13
# (参考訳) mlgo: 機械学習によるコンパイラ最適化フレームワーク

MLGO: a Machine Learning Guided Compiler Optimizations Framework ( http://arxiv.org/abs/2101.04808v1 )

ライセンス: CC BY 4.0
Mircea Trofin (1), Yundi Qian (1), Eugene Brevdo (1), Zinan Lin (2), Krzysztof Choromanski (1), David Li (1) ((1) Google, Inc., (2) Carnegie Mellon University)(参考訳) コンパイラ最適化のための機械学習(ML)技術の導入は、学界で広く研究され研究されている。 しかし、MLを汎用的で産業力のあるコンパイラに採用することは、まだない。 産業用コンパイラLLVMにMLテクニックを体系的に統合するフレームワークであるMLGOを提案する。 ケーススタディでは、LLVMにおけるヒューリスティックスに基づくインライン・フォー・サイズ最適化を機械学習モデルに置き換える詳細と結果を示す。 私たちの知る限りでは、この作業は、複雑なコンパイラにおけるMLの完全な統合を現実の環境で実現した初めてのものです。 これは、メインのLLVMリポジトリで利用できる。 我々は、ポリシーグラディエントと進化戦略の2つの異なるMLアルゴリズムを使用して、インライン・フォー・サイズモデルをトレーニングし、アートLLVM-Ozの状態と比較して最大7倍のサイズの縮小を実現しています。 1つのコーパスでトレーニングされた同じモデルは、現実世界のターゲットの多様性と、数ヶ月のアクティブな開発後に同じターゲットのセットを一般化する。 トレーニングされたモデルのこの特性は、実世界の設定でMLテクニックをデプロイする上で有益である。

Leveraging machine-learning (ML) techniques for compiler optimizations has been widely studied and explored in academia. However, the adoption of ML in general-purpose, industry strength compilers has yet to happen. We propose MLGO, a framework for integrating ML techniques systematically in an industrial compiler -- LLVM. As a case study, we present the details and results of replacing the heuristics-based inlining-for-size optimization in LLVM with machine learned models. To the best of our knowledge, this work is the first full integration of ML in a complex compiler pass in a real-world setting. It is available in the main LLVM repository. We use two different ML algorithms: Policy Gradient and Evolution Strategies, to train the inlining-for-size model, and achieve up to 7\% size reduction, when compared to state of the art LLVM -Oz. The same model, trained on one corpus, generalizes well to a diversity of real-world targets, as well as to the same set of targets after months of active development. This property of the trained models is beneficial to deploy ML techniques in real-world settings.
翻訳日:2021-04-03 23:34:56 公開日:2021-01-13
# (参考訳) AutoMLは? 機械学習ワークフローにおけるオートメーションの役割を理解する

Whither AutoML? Understanding the Role of Automation in Machine Learning Workflows ( http://arxiv.org/abs/2101.04834v1 )

ライセンス: CC BY 4.0
Doris Xin, Eva Yiwei Wu, Doris Jung-Lin Lee, Niloufar Salehi, Aditya Parameswaran(参考訳) 機械学習をより広く利用できるようにする努力は、機械学習のトレーニングとデプロイのプロセスを自動化することを目的としたAuto-MLツールの急速な増加につながった。 今日、Auto-MLツールが実際にどのように使われているかを理解するために、初心者ホビーストからAuto-MLツールを使用する業界研究者まで、参加者と質的研究を行った。 我々は、既存のツールの利点と欠陥に関する洞察と、MLワークフローにおける人間と自動化の役割について述べる。 最後に,Auto-MLツール開発の将来について考察する。 完全な自動化がAuto-MLの究極の目標である代わりに、これらのツールの設計者は、ユーザとAuto-MLツールとのパートナーシップをサポートすることに集中する必要があります。 つまり、シンプルさ、再現性、信頼性など、さまざまなユーザ目標をサポートするために、さまざまなAuto-MLツールを開発する必要がある。

Efforts to make machine learning more widely accessible have led to a rapid increase in Auto-ML tools that aim to automate the process of training and deploying machine learning. To understand how Auto-ML tools are used in practice today, we performed a qualitative study with participants ranging from novice hobbyists to industry researchers who use Auto-ML tools. We present insights into the benefits and deficiencies of existing tools, as well as the respective roles of the human and automation in ML workflows. Finally, we discuss design implications for the future of Auto-ML tool development. We argue that instead of full automation being the ultimate goal of Auto-ML, designers of these tools should focus on supporting a partnership between the user and the Auto-ML tool. This means that a range of Auto-ML tools will need to be developed to support varying user goals such as simplicity, reproducibility, and reliability.
翻訳日:2021-04-03 23:00:51 公開日:2021-01-13
# (参考訳) 積分型ランドマーク注意によるロバストGPSビジョン位置決め

Robust GPS-Vision Localization via Integrity-Driven Landmark Attention ( http://arxiv.org/abs/2101.04836v1 )

ライセンス: CC BY 4.0
Sriramya Bhamidipati and Grace Xingxin Gao(参考訳) 都市部におけるロバストGPSビジョンナビゲーションのために,確率的到達性を利用した統合性駆動型ランドマーク注意(ILA)手法を提案する。 ヒトの認知的注意に刺激されて、GPSと視力測定からランドマークのサブセットを選択するために凸最適化を行い、完全性駆動性能を最大化する。 非デフォルト条件での既知の測定誤差を考慮に入れれば、我々のIAAはGPSと視覚の両方に対処するための統一的なアプローチに従っており、市販の推定装置と互換性がある。 確率的ゾノトープ (p-Zonotope) によりパラメータ化されるランドマーク毎の確率的到達可能な位置のセットを推定するために, 測定偏差を分析した。 ランドマーク包含/排他性に基づく位置境界の大きさを表すp-ゾノトピーコストを定式化するために集合結合を適用する。 p-Zonotopicコストを最小化し,凸緩和によるランドマーク数を最大化する。 都市域のデータセットに対して,事前定義された警報限界に対する局所化精度の向上とロバストな予測可用性を示す。

For robust GPS-vision navigation in urban areas, we propose an Integrity-driven Landmark Attention (ILA) technique via stochastic reachability. Inspired by cognitive attention in humans, we perform convex optimization to select a subset of landmarks from GPS and vision measurements that maximizes integrity-driven performance. Given known measurement error bounds in non-faulty conditions, our ILA follows a unified approach to address both GPS and vision faults and is compatible with any off-the-shelf estimator. We analyze measurement deviation to estimate the stochastic reachable set of expected position for each landmark, which is parameterized via probabilistic zonotope (p-Zonotope). We apply set union to formulate a p-Zonotopic cost that represents the size of position bounds based on landmark inclusion/exclusion. We jointly minimize the p-Zonotopic cost and maximize the number of landmarks via convex relaxation. For an urban dataset, we demonstrate improved localization accuracy and robust predicted availability for a pre-defined alert limit.
翻訳日:2021-04-03 22:31:06 公開日:2021-01-13
# (参考訳) top-kレコメンデーションのための適応マージンを用いた確率的メトリック学習

Probabilistic Metric Learning with Adaptive Margin for Top-K Recommendation ( http://arxiv.org/abs/2101.04849v1 )

ライセンス: CC BY 4.0
Chen Ma, Liheng Ma, Yingxue Zhang, Ruiming Tang, Xue Liu and Mark Coates(参考訳) パーソナライズされたレコメンデーションシステムは、より多くのコンテンツやサービスが利用可能になり、ユーザーが関心のあるものを特定するのに苦労するにつれて、ますます重要な役割を担っている。 行列分解と深層学習に基づく手法は, ユーザの嗜好モデリングに有効であることが証明されているが, 三角形の不等式に反し, きめ細かい選好情報の取得に失敗している。 この課題を解決するために,各ユーザと項目がガウス分布によってパラメータ化され,学習の不確実性を捉えること,(ii)異なるトレーニング三重項に関するマージンを生成する適応的マージン生成スキームを提案すること,(iii)明示的なユーザ・ユーザ・イテム類似性モデリングを目的関数に組み込むこと,の2つの新しい側面を持つ距離ベースレコメンデーションモデルを開発する。 ワッサースタイン距離は三角不等式に従い確率分布間の距離を測定するため、選好を決定するために用いられる。 提案したモデルでは,5つの実世界のデータセットと最先端の手法を比較して,Top-Kレコメンデーションにおけるリコール@Kで,最高の既存モデルを4~22%上回った。

Personalized recommender systems are playing an increasingly important role as more content and services become available and users struggle to identify what might interest them. Although matrix factorization and deep learning based methods have proved effective in user preference modeling, they violate the triangle inequality and fail to capture fine-grained preference information. To tackle this, we develop a distance-based recommendation model with several novel aspects: (i) each user and item are parameterized by Gaussian distributions to capture the learning uncertainties; (ii) an adaptive margin generation scheme is proposed to generate the margins regarding different training triplets; (iii) explicit user-user/item-item similarity modeling is incorporated in the objective function. The Wasserstein distance is employed to determine preferences because it obeys the triangle inequality and can measure the distance between probabilistic distributions. Via a comparison using five real-world datasets with state-of-the-art methods, the proposed model outperforms the best existing models by 4-22% in terms of recall@K on Top-K recommendation.
翻訳日:2021-04-03 22:08:58 公開日:2021-01-13
# (参考訳) 対立サンプル強化ドメイン適応 : 電子健康記録を用いた予測モデリングの一事例

Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records ( http://arxiv.org/abs/2101.04853v1 )

ライセンス: CC0 1.0
Yiqin Yu, Pin-Yu Chen, Yuan Zhou, Jing Mei(参考訳) 電子健康記録(EHR)における機械学習の採用が成功し、様々な臨床問題に対処するために多くの計算モデルが導入された。 しかし, EHRsの不均一性のため, 異なる患者群で訓練されたモデルは, 一般化性に乏しい。 モデルが構築されているソース患者グループと、モデルがデプロイされるターゲットグループとのドメインシフトを緩和する方法は、重要な問題になります。 本稿では,対象者に対するトレーニングモデルにおいて,ソース患者グループからの知識を活用する,ドメイン適応を容易にするデータ拡張手法を提案する。 具体的には、2つの患者群間の一般化ギャップを埋めるために、ドメイン適応中に逆向きに生成されたサンプルを使用する。 提案手法はMIMIC-III EHRデータセット上での様々な予測モデルタスクのケーススタディにより評価される。 その結果,提案手法の有効性と課題に対する一般性が確認された。

With the successful adoption of machine learning on electronic health records (EHRs), numerous computational models have been deployed to address a variety of clinical problems. However, due to the heterogeneity of EHRs, models trained on different patient groups suffer from poor generalizability. How to mitigate domain shifts between the source patient group where the model is built upon and the target one where the model will be deployed becomes a critical issue. In this paper, we propose a data augmentation method to facilitate domain adaptation, which leverages knowledge from the source patient group when training model on the target one. Specifically, adversarially generated samples are used during domain adaptation to fill the generalization gap between the two patient groups. The proposed method is evaluated by a case study on different predictive modeling tasks on MIMIC-III EHR dataset. Results confirm the effectiveness of our method and the generality on different tasks.
翻訳日:2021-04-03 21:33:44 公開日:2021-01-13
# (参考訳) 針ステアリングにおける繰り返しニューラルネットワークによるロール推定

A Recurrent Neural Network Approach to Roll Estimation for Needle Steering ( http://arxiv.org/abs/2101.04856v1 )

ライセンス: CC BY 4.0
Maxwell Emerson, James M. Ferguson, Tayfun Efe Ertop, Margaret Rox, Josephine Granna, Michael Lester, Fabien Maldonado, Erin A. Gillaspie, Ron Alterovitz, Robert J. Webster III., and Alan Kuntz(参考訳) ステアブル・ニードル(steerable needles)は、解剖学的障害の周りを曲がり、解剖学的標的にぶつかることができるため、最小限の侵襲的な方法で身体に標的治療を提供する有望な技術である。 正確に操縦するためには、制御装置は針先の位置を十分に知る必要がある。 しかし、現在のセンサーは完全な向き情報を提供していないか、針が治療を行う能力に干渉する。 さらに、ねじれのダイナミクスは、操作可能な針を正確にモデル化することが難しい多くのパラメータに依存し、従来のオブザーバー法の有効性を制限できる。 これらの制限を克服するために,LSTMニューラルネットワークを利用して針先方向をオンラインで推定するモデルレス学習手法を提案する。 本手法はスライディングモードコントローラに統合し,ゼラチンおよび卵子外脳組織の標的に針を操ることで検証する。 提案手法の性能をモデルベースオブザーバである拡張カルマンフィルタと比較し,ターゲット誤差を大幅に低減した。

Steerable needles are a promising technology for delivering targeted therapies in the body in a minimally-invasive fashion, as they can curve around anatomical obstacles and hone in on anatomical targets. In order to accurately steer them, controllers must have full knowledge of the needle tip's orientation. However, current sensors either do not provide full orientation information or interfere with the needle's ability to deliver therapy. Further, torsional dynamics can vary and depend on many parameters making steerable needles difficult to accurately model, limiting the effectiveness of traditional observer methods. To overcome these limitations, we propose a model-free, learned-method that leverages LSTM neural networks to estimate the needle tip's orientation online. We validate our method by integrating it into a sliding-mode controller and steering the needle to targets in gelatin and ex vivo ovine brain tissue. We compare our method's performance against an Extended Kalman Filter, a model-based observer, achieving significantly lower targeting errors.
翻訳日:2021-04-03 21:21:30 公開日:2021-01-13
# (参考訳) A*HAR: クラス不均衡な人間活動認識のための半教師あり学習のための新しいベンチマーク

A*HAR: A New Benchmark towards Semi-supervised learning for Class-imbalanced Human Activity Recognition ( http://arxiv.org/abs/2101.04859v1 )

ライセンス: CC BY 4.0
Govind Narasimman, Kangkang Lu, Arun Raja, Chuan Sheng Foo, Mohamed Sabry Aly, Jie Lin, Vijay Chandrasekhar(参考訳) ウェアラブル慣性センサーデータを用いたHAR(Human Activity Recognition)に関する膨大な文献があるにもかかわらず、HARのための半教師付き学習の研究は、特にクラス不均衡の問題のある挑戦的なシナリオにおいて、おそらく少ないだろう。 本研究では,クラス不均衡HARの半教師付き学習に向けて,A*HARと呼ばれる新しいベンチマークを提案する。 平均教師と畳み込みニューラルネットワークを組み合わせることで,A*HARにおける最先端半教師付き学習手法の評価を行った。 興味深いことに,比較的少ないラベル付きサンプルと大量のラベル付きサンプルで分類器を訓練する場合,平均教師は全体的な性能を向上させるが,非バランスなアクティビティを扱う場合には分類器は不足する。 これらの発見は興味深いオープン問題、すなわちラベルなしサンプルのクラス分布に関する事前の知識なしにクラス不均衡を認識できる半教師付きharアルゴリズムの開発に繋がる。 データセットとベンチマーク評価は、将来の研究のためにhttps://github.com/I2RDL2/ASTAR-HARでリリースされている。

Despite the vast literature on Human Activity Recognition (HAR) with wearable inertial sensor data, it is perhaps surprising that there are few studies investigating semisupervised learning for HAR, particularly in a challenging scenario with class imbalance problem. In this work, we present a new benchmark, called A*HAR, towards semisupervised learning for class-imbalanced HAR. We evaluate state-of-the-art semi-supervised learning method on A*HAR, by combining Mean Teacher and Convolutional Neural Network. Interestingly, we find that Mean Teacher boosts the overall performance when training the classifier with fewer labelled samples and a large amount of unlabeled samples, but the classifier falls short in handling unbalanced activities. These findings lead to an interesting open problem, i.e., development of semi-supervised HAR algorithms that are class-imbalance aware without any prior knowledge on the class distribution for unlabeled samples. The dataset and benchmark evaluation are released at https://github.com/I2RDL2/ASTAR-HAR for future research.
翻訳日:2021-04-03 21:12:19 公開日:2021-01-13
# (参考訳) 5g+モバイル端末上でのエネルギー効率のよい連合学習に向けて

Towards Energy Efficient Federated Learning over 5G+ Mobile Devices ( http://arxiv.org/abs/2101.04866v1 )

ライセンス: CC BY 4.0
Dian Shi, Liang Li, Rui Chen, Pavana Prakash, Miao Pan, Yuguang Fang(参考訳) 機械学習アルゴリズム、5G以降の(5G+)無線通信、人工知能(AI)ハードウェア実装の継続的な収束により、5G以上のモバイルデバイス上でのフェデレーション学習(FL)の誕生が促進され、AI機能をモバイルデバイスにプッシュし、デバイス上でAIアプリケーションの新しい時代が始まる。 FLの顕著な進歩にもかかわらず、巨大なエネルギー消費は、電池に制約された5G以上のモバイルデバイスよりもFLの開発を制限する最も重要な障害の1つである。 本稿では,5g+モバイル端末上でのエネルギー効率の向上を図るために,「作業」(すなわちローカルコンピューティング)と「会話」(すなわち無線通信)のトレードオフを行うことにより,エネルギー効率の高いflを5g+モバイル端末上で開発する方法を検討する。 具体的には,グラフィックス処理ユニット(GPU)計算と無線伝送のエネルギー消費モデルについて検討する。 次に,FL法とエネルギー効率の学習技術(勾配スペーシング,重み量子化,プルーニングなど)を統合する技術の現状について概説する。 最後に, エネルギー効率の観点から, 5g以上のモバイルデバイスにおけるflの将来研究の方向性について述べる。

The continuous convergence of machine learning algorithms, 5G and beyond (5G+) wireless communications, and artificial intelligence (AI) hardware implementation hastens the birth of federated learning (FL) over 5G+ mobile devices, which pushes AI functions to mobile devices and initiates a new era of on-device AI applications. Despite the remarkable progress made in FL, huge energy consumption is one of the most significant obstacles restricting the development of FL over battery-constrained 5G+ mobile devices. To address this issue, in this paper, we investigate how to develop energy efficient FL over 5G+ mobile devices by making a trade-off between energy consumption for "working" (i.e., local computing) and that for "talking" (i.e., wireless communications) in order to boost the overall energy efficiency. Specifically, we first examine energy consumption models for graphics processing unit (GPU) computation and wireless transmissions. Then, we overview the state of the art of integrating FL procedure with energy-efficient learning techniques (e.g., gradient sparsification, weight quantization, pruning, etc.). Finally, we present several potential future research directions for FL over 5G+ mobile devices from the perspective of energy efficiency.
翻訳日:2021-04-03 21:04:58 公開日:2021-01-13
# (参考訳) 畳み込みニューラルネットワークの基礎,計算,新しい応用

Convolutional Neural Nets: Foundations, Computations, and New Applications ( http://arxiv.org/abs/2101.04869v1 )

ライセンス: CC BY 4.0
Shengli Jiang and Victor M. Zavala(参考訳) 我々は,畳み込みニューラルネット(CNN)の数学的基礎を,統計学,信号処理,線形代数,微分方程式,最適化,基礎となる計算のデミスティフィケーション,および新しいタイプの応用の特定といった技術との連携を強調した。 CNNは、グリッドデータから予測(回帰と分類)を行う特徴を強調する強力な機械学習モデルである。 グリッドデータオブジェクトはベクトル(1D)、行列(2D)、テンソル(3D以上)として表現することができ、複数のチャネル(入力データ表現に高い柔軟性を提供するため)を組み込むことができる。 例えば、画像は赤、緑、青(RBG)チャネルを含む2Dグリッドデータオブジェクトとして表現することができる(各チャネルは2Dマトリックスである)。 同様に、ビデオはRGBチャンネル(各チャンネルは3Dテンソル)を持つ3Dグリッドデータオブジェクト(空間次元と時間)として表現することができる。 CNNは、異なるタイプの演算子で畳み込み操作を実行することで、グリッドデータから特徴を強調する。 演算子は異なるタイプの特徴(例えばパターン、勾配、幾何学的特徴)を強調し、最適化手法を用いて学習する。 言い換えれば、CNNは入力データを出力データに最もよくマッピングする最適な演算子を見つけ出そうとする。 よくある誤解は、cnnは画像やビデオのデータしか処理できないが、アプリケーションの範囲は広く、特に多様なアプリケーションで発生するデータセットはグリッドデータとして表現できるということである。 本稿では,CNNを最適制御,フローサイトメトリー,多変量プロセスモニタリング,分子シミュレーションといった新しいタイプのアプリケーションに適用する方法を示す。

We review mathematical foundations of convolutional neural nets (CNNs) with the goals of: i) highlighting connections with techniques from statistics, signal processing, linear algebra, differential equations, and optimization, ii) demystifying underlying computations, and iii) identifying new types of applications. CNNs are powerful machine learning models that highlight features from grid data to make predictions (regression and classification). The grid data object can be represented as vectors (in 1D), matrices (in 2D), or tensors (in 3D or higher dimensions) and can incorporate multiple channels (thus providing high flexibility in the input data representation). For example, an image can be represented as a 2D grid data object that contains red, green, and blue (RBG) channels (each channel is a 2D matrix). Similarly, a video can be represented as a 3D grid data object (two spatial dimensions plus time) with RGB channels (each channel is a 3D tensor). CNNs highlight features from the grid data by performing convolution operations with different types of operators. The operators highlight different types of features (e.g., patterns, gradients, geometrical features) and are learned by using optimization techniques. In other words, CNNs seek to identify optimal operators that best map the input data to the output data. A common misconception is that CNNs are only capable of processing image or video data but their application scope is much wider; specifically, datasets encountered in diverse applications can be expressed as grid data. Here, we show how to apply CNNs to new types of applications such as optimal control, flow cytometry, multivariate process monitoring, and molecular simulations.
翻訳日:2021-04-03 20:53:45 公開日:2021-01-13
# (参考訳) ピアノスキル評価

Piano Skills Assessment ( http://arxiv.org/abs/2101.04884v1 )

ライセンス: CC BY 4.0
Paritosh Parmar, Jaiden Reddy, Brendan Morris(参考訳) コンピュータはピアノ奏者のスキルレベルを決定できるのか? この評価を選手のパフォーマンスの視覚的分析に基づくのが望ましいのか、それとも耳を目の上から信頼すべきなのか。 現在のCNNは長いビデオの処理が難しいので、どのようにして短いクリップをサンプリングしてプレイヤーのスキルレベルを最もよく反映できるか? 本研究では,ピアノ演奏者のスキルレベル評価に着目したマルチモーダルスキル評価のための初歩的なデータセットを収集,リリースし,質問に答え,ピアノ演奏スキルの自動評価作業を開始するとともに,今後の作業のベースラインを提供する。

Can a computer determine a piano player's skill level? Is it preferable to base this assessment on visual analysis of the player's performance or should we trust our ears over our eyes? Since current CNNs have difficulty processing long video videos, how can shorter clips be sampled to best reflect the players skill level? In this work, we collect and release a first-of-its-kind dataset for multimodal skill assessment focusing on assessing piano player's skill level, answer the asked questions, initiate work in automated evaluation of piano playing skills and provide baselines for future work.
翻訳日:2021-04-03 20:52:18 公開日:2021-01-13
# (参考訳) 記号規則学習のためのニューラルシーケンス-グリッドモジュール

Neural Sequence-to-grid Module for Learning Symbolic Rules ( http://arxiv.org/abs/2101.04921v1 )

ライセンス: CC BY 4.0
Segwang Kim, Hyoungwook Nam, Joonyoung Kim, Kyomin Jung(参考訳) 算術演算やコンピュータプログラム評価などの記号に対する論理的推論タスクは、深層学習の課題となっている。 特に、最先端のニューラルネットワークでさえ、シンボリック推論タスクの一般化である \textit{out-of-distribution} (ood) を達成することができない。 そこで本研究では,入力列をグリッドに自動的に分割調整する入力プリプロセッサであるneural sequence-to-grid (seq2grid)モジュールを提案する。 我々のモジュールは、新しい微分可能マッピングを通じてグリッドを出力するので、ResNetやTextCNNのようなグリッド入力を受信するニューラルネットワーク構造は、エンドツーエンドで、我々のモジュールと共同でトレーニングすることができる。 入力前処理系としてモジュールを持つニューラルネットワークは,数列予測問題,代数語問題,コンピュータプログラム評価問題など,様々な算術的およびアルゴリズム的な問題に対してOOD一般化を実現する一方で,他の最先端のシーケンス変換モデルでは実現できないことを示す。 さらに,外部メモリを使わずにbAbIのQAタスクを解くために,我々のモジュールがTextCNNを強化することを確認した。

Logical reasoning tasks over symbols, such as learning arithmetic operations and computer program evaluations, have become challenges to deep learning. In particular, even state-of-the-art neural networks fail to achieve \textit{out-of-distribution} (OOD) generalization of symbolic reasoning tasks, whereas humans can easily extend learned symbolic rules. To resolve this difficulty, we propose a neural sequence-to-grid (seq2grid) module, an input preprocessor that automatically segments and aligns an input sequence into a grid. As our module outputs a grid via a novel differentiable mapping, any neural network structure taking a grid input, such as ResNet or TextCNN, can be jointly trained with our module in an end-to-end fashion. Extensive experiments show that neural networks having our module as an input preprocessor achieve OOD generalization on various arithmetic and algorithmic problems including number sequence prediction problems, algebraic word problems, and computer program evaluation problems while other state-of-the-art sequence transduction models cannot. Moreover, we verify that our module enhances TextCNN to solve the bAbI QA tasks without external memory.
翻訳日:2021-04-03 19:39:01 公開日:2021-01-13
# (参考訳) EventPlus: 一時的なイベント理解パイプライン

EventPlus: A Temporal Event Understanding Pipeline ( http://arxiv.org/abs/2101.04922v1 )

ライセンス: CC BY 4.0
Mingyu Derek Ma, Jiao Sun, Mu Yang, Kung-Hsiang Huang, Nuan Wen, Shikhar Singh, Rujun Han and Nanyun Peng(参考訳) イベントトリガと型検出,イベント引数検出,イベント継続時間,時間関係抽出など,さまざまな最先端イベント理解コンポーネントを統合する,時間的イベント理解パイプラインであるeventplusを提案する。 イベント情報、特に事象の時間的知識は、人々がストーリーがどのように進化するかを理解し、将来の出来事に予測的なヒントを提供するのに役立つ常識知識の一種である。 EventPlusは、最初の包括的な時間的イベント理解パイプラインであり、ユーザがイベントに関するアノテーションと、ユーザが提供するドキュメントの時間的情報を簡単に取得するための便利なツールを提供する。 さらに、eventplusが他のドメイン(例えばバイオメディカルドメイン)に容易に適応できることを示した。 EventPlusを公開して、イベント関連の情報抽出とダウンストリームアプリケーションを容易にします。

We present EventPlus, a temporal event understanding pipeline that integrates various state-of-the-art event understanding components including event trigger and type detection, event argument detection, event duration and temporal relation extraction. Event information, especially event temporal knowledge, is a type of common sense knowledge that helps people understand how stories evolve and provides predictive hints for future events. EventPlus as the first comprehensive temporal event understanding pipeline provides a convenient tool for users to quickly obtain annotations about events and their temporal information for any user-provided document. Furthermore, we show EventPlus can be easily adapted to other domains (e.g., biomedical domain). We make EventPlus publicly available to facilitate event-related information extraction and downstream applications.
翻訳日:2021-04-03 19:22:26 公開日:2021-01-13
# (参考訳) 曲線の形状空間上の弾性SRV距離の教師付き深度学習

Supervised deep learning of elastic SRV distances on the shape space of curves ( http://arxiv.org/abs/2101.04929v1 )

ライセンス: CC BY 4.0
Emmanuel Hartman, Yashil Sukurdeep, Nicolas Charon, Eric Klassen, Martin Bauer(参考訳) コンピュータビジョンからバイオインフォマティクスへの応用によって動機づけられた形状解析の分野は、曲線のような幾何学的対象を解析したいという問題を扱う一方で、翻訳、回転、再パラメータ化などの形状を保存する行動を無視している。 幾何学的対象に対する距離、平均、最適な変形の概念を定義するために数学的ツールが開発された。 このようなフレームワークは、多くのアプリケーションで成功したことが証明されており、正方根速度(SRV)変換に基づいており、どのようにパラメータ化されているかに関わらず、空間曲線間の計算可能な距離を定義することができる。 本稿では,曲線間のSRV距離を直接計算するための教師付きディープラーニングフレームワークを提案する。 本手法の計算速度と精度の点での利点は,いくつかの数値実験によって示される。

Motivated by applications from computer vision to bioinformatics, the field of shape analysis deals with problems where one wants to analyze geometric objects, such as curves, while ignoring actions that preserve their shape, such as translations, rotations, or reparametrizations. Mathematical tools have been developed to define notions of distances, averages, and optimal deformations for geometric objects. One such framework, which has proven to be successful in many applications, is based on the square root velocity (SRV) transform, which allows one to define a computable distance between spatial curves regardless of how they are parametrized. This paper introduces a supervised deep learning framework for the direct computation of SRV distances between curves, which usually requires an optimization over the group of reparametrizations that act on the curves. The benefits of our approach in terms of computational speed and accuracy are illustrated via several numerical experiments.
翻訳日:2021-04-03 19:10:25 公開日:2021-01-13
# (参考訳) 非パラメトリック部分空間解析手法と異常検出アンサンブルへの応用

A Non-Parametric Subspace Analysis Approach with Application to Anomaly Detection Ensembles ( http://arxiv.org/abs/2101.04932v1 )

ライセンス: CC BY 4.0
Marcelo Bacher, Irad Ben-Gal, Erez Shmueli(参考訳) 多次元データセットにおける異常の特定は、多くの実世界のアプリケーションにおいて重要なタスクである。 特別なケースは、異常が小さな属性の集合(通常は部分空間と呼ばれる)に閉じ込められ、必ずしもデータ空間全体に留まらないときに発生する。 本稿では,aag(agglomerative attribute grouping)と呼ばれる新しい部分空間分析手法を提案する。 このような属性間の相関は、通常の観測の振る舞いをよりよく反映できる属性間の体系的な相互作用を表しており、従って、特に興味深い2つのデータサンプルの識別を改善するために用いられる:属性の比較的小さなサブセットに隠された異常と、新しいデータクラスを表す異常である。 AAGは、データ属性のグループ間の「情報距離」を評価するために、分割の情報理論測度から派生した、新しいマルチ属性測度に依存している。 使用すべき部分空間の集合を決定するために、AAGは、よく知られた集約的クラスタリングアルゴリズムと、提案したマルチ属性測度を基礎となる距離関数として適用する。 最後に、サブスペースの集合は異常検出のためのアンサンブルで使用される。 広範囲な評価の結果,提案手法は異常検出アンサンブルにおいて古典的および最先端のサブスペース解析手法よりも優れており,また, (ii) 個々の属性数が少ないサブスペースがより少ない(平均)ため,異常検出アンサンブルの訓練時間が短縮されることがわかった。 さらに,既存の手法とは対照的に,提案手法ではパラメータのチューニングは不要である。

Identifying anomalies in multi-dimensional datasets is an important task in many real-world applications. A special case arises when anomalies are occluded in a small set of attributes, typically referred to as a subspace, and not necessarily over the entire data space. In this paper, we propose a new subspace analysis approach named Agglomerative Attribute Grouping (AAG) that aims to address this challenge by searching for subspaces that are comprised of highly correlative attributes. Such correlations among attributes represent a systematic interaction among the attributes that can better reflect the behavior of normal observations and hence can be used to improve the identification of two particularly interesting types of abnormal data samples: anomalies that are occluded in relatively small subsets of the attributes and anomalies that represent a new data class. AAG relies on a novel multi-attribute measure, which is derived from information theory measures of partitions, for evaluating the "information distance" between groups of data attributes. To determine the set of subspaces to use, AAG applies a variation of the well-known agglomerative clustering algorithm with the proposed multi-attribute measure as the underlying distance function. Finally, the set of subspaces is used in an ensemble for anomaly detection. Extensive evaluation demonstrates that, in the vast majority of cases, the proposed AAG method (i) outperforms classical and state-of-the-art subspace analysis methods when used in anomaly detection ensembles, and (ii) generates fewer subspaces with a fewer number of attributes each (on average), thus resulting in a faster training time for the anomaly detection ensemble. Furthermore, in contrast to existing methods, the proposed AAG method does not require any tuning of parameters.
翻訳日:2021-04-03 18:33:01 公開日:2021-01-13
# (参考訳) 機械学習ツールボックスの設計:概念、原則、パターン

Designing Machine Learning Toolboxes: Concepts, Principles and Patterns ( http://arxiv.org/abs/2101.04938v1 )

ライセンス: CC BY 4.0
Franz J. Kir\'aly, Markus L\"oning, Anthony Blaom, Ahmed Guecioueur, Raphael Sonabend(参考訳) 機械学習(ML)と、Scikit-learnやWekaといったAIツールボックスは、現代のデータサイエンスプラクティスの成果物である。 しかし、その普遍的な成功にもかかわらず、その建設における重要な設計原則は完全には分析されていない。 本稿では,AIモデリングツールボックスの設計における重要なパターンの概要について,ソフトウェア工学の分野,現代のツールボックスに見られる実装パターン,MLツールボックスの開発経験から,インスピレーションを等しく受けながら概説する。 特に、我々はAI/MLドメインの概念モデルを開発し、その中核に科学型と呼ばれる新しい型システムを構築している。 科学的なタイプは、私たちが通常実行する操作のセット(すなわち、MLワークフローにおける共通要素の科学的意味を捉えます。 それらのインターフェース)とその統計特性。 概念分析から、デザインの原則とパターンのセットを導き出します。 我々は,既存のツールボックスの設計を説明するだけでなく,新しいツールボックスの開発を導くことができることを示す。 私たちは、将来のツールボックスエンジニアに対する最先端のリファレンス、ベストプラクティスの要約、将来の研究に役立つmlデザインパターンのコレクション、そしてai構築のための高レベルプログラミングパラダイムへの第一歩として、私たちの貢献を意図しています。

Machine learning (ML) and AI toolboxes such as scikit-learn or Weka are workhorses of contemporary data scientific practice -- their central role being enabled by usable yet powerful designs that allow to easily specify, train and validate complex modeling pipelines. However, despite their universal success, the key design principles in their construction have never been fully analyzed. In this paper, we attempt to provide an overview of key patterns in the design of AI modeling toolboxes, taking inspiration, in equal parts, from the field of software engineering, implementation patterns found in contemporary toolboxes, and our own experience from developing ML toolboxes. In particular, we develop a conceptual model for the AI/ML domain, with a new type system, called scientific types, at its core. Scientific types capture the scientific meaning of common elements in ML workflows based on the set of operations that we usually perform with them (i.e. their interface) and their statistical properties. From our conceptual analysis, we derive a set of design principles and patterns. We illustrate that our analysis can not only explain the design of existing toolboxes, but also guide the development of new ones. We intend our contribution to be a state-of-art reference for future toolbox engineers, a summary of best practices, a collection of ML design patterns which may become useful for future research, and, potentially, the first steps towards a higher-level programming paradigm for constructing AI.
翻訳日:2021-04-03 18:03:44 公開日:2021-01-13
# (参考訳) 一部注釈付き全スライド画像を用いた気管支喘息の正確な細胞検出法

Learning to be EXACT, Cell Detection for Asthma on Partially Annotated Whole Slide Images ( http://arxiv.org/abs/2101.04943v1 )

ライセンス: CC BY 4.0
Christian Marzahl, Christof A. Bertram, Frauke Wilm, J\"orn Voigt, Ann K. Barton, Robert Klopfleisch, Katharina Breininger, Andreas Maier, Marc Aubreville(参考訳) 喘息は下気道の慢性炎症性疾患であり、自然にヒトや馬を含む動物に発生する。 喘息顕微鏡全スライド画像(WSI)のアノテーションは、WSI当たり数十万の細胞のために非常に労働集約的な作業である。 非完全なWSIアノテーションの制限を克服するため,WSIを部分的にアノテートした深層学習に基づくオブジェクト検出モデルを訓練し,クラス不均衡を補う訓練パイプラインを開発した。 このアプローチでは、アノテーション付きの WSI 領域から自由にサンプルをサンプリングすることができ、古典的なアプローチと同様に、WSI の完全アノテーション付きサブイメージに制限されない。 我々は,6馬wsisのデータセットを部分的にアノテーションし,トレーニングに使用し,検証とテストに完全にアノテーションされたwsiを2つ使用する固定トレーニングセットを用いて,パイプラインをクロスバリデーション設定で評価した。 我々のWSIベースのトレーニングアプローチは、従来のサブイメージベースのトレーニング手法を最大15 %$mAP$で上回り、訓練された10人の病理医のアノテーションと比較して人間のようなパフォーマンスを得た。

Asthma is a chronic inflammatory disorder of the lower respiratory tract and naturally occurs in humans and animals including horses. The annotation of an asthma microscopy whole slide image (WSI) is an extremely labour-intensive task due to the hundreds of thousands of cells per WSI. To overcome the limitation of annotating WSI incompletely, we developed a training pipeline which can train a deep learning-based object detection model with partially annotated WSIs and compensate class imbalances on the fly. With this approach we can freely sample from annotated WSIs areas and are not restricted to fully annotated extracted sub-images of the WSI as with classical approaches. We evaluated our pipeline in a cross-validation setup with a fixed training set using a dataset of six equine WSIs of which four are partially annotated and used for training, and two fully annotated WSI are used for validation and testing. Our WSI-based training approach outperformed classical sub-image-based training methods by up to 15\% $mAP$ and yielded human-like performance when compared to the annotations of ten trained pathologists.
翻訳日:2021-04-03 18:02:35 公開日:2021-01-13
# (参考訳) LaDiff ULMFiT: ULMFiTの層差学習手法

LaDiff ULMFiT: A Layer Differentiated training approach for ULMFiT ( http://arxiv.org/abs/2101.04965v1 )

ライセンス: CC BY 4.0
Mohammed Azhan, Mohammad Ahmad(参考訳) 本稿では,英語におけるタスク@制約2021サブタスクcovid-19偽ニュース検出と,ヒンズー語における敵対的なポスト検出に使用される層別トレーニング手法を用いたディープラーニングモデルを提案する。 本稿では,事前学習したULMFiT arXiv:1801.06146モデルの層差分訓練手法を提案する。 ツイートの特定の部分に注釈をつけるために特別なトークンを使用して、言語理解を改善し、ツイートをより解釈しやすいものにするためのモデルに関する洞察を得ました。 他の2つの提案には、改良されたRoBERTaモデルと単純なランダムフォレスト分類器が含まれていた。 提案手法の精度は0.96728972と0.967324832であり、それぞれサブタスク「COVID19 Fake News Detection in English」である。 また, ヒンディー語では, 粗粒度f1得点, 重み付き細粒度f1得点は0.908648, 0.533907であった。 提案手法はサブタスク164中61位、「英語における偽ニュース検出covid19」とヒンディー語におけるサブタスク敵対的なポスト検出45中18位」でランク付けされた。

In our paper, we present Deep Learning models with a layer differentiated training method which were used for the SHARED TASK@ CONSTRAINT 2021 sub-tasks COVID19 Fake News Detection in English and Hostile Post Detection in Hindi. We propose a Layer Differentiated training procedure for training a pre-trained ULMFiT arXiv:1801.06146 model. We used special tokens to annotate specific parts of the tweets to improve language understanding and gain insights on the model making the tweets more interpretable. The other two submissions included a modified RoBERTa model and a simple Random Forest Classifier. The proposed approach scored a precision and f1 score of 0.96728972 and 0.967324832 respectively for sub-task "COVID19 Fake News Detection in English". Also, Coarse-Grained Hostility f1 Score and Weighted FineGrained f1 score of 0.908648 and 0.533907 respectively for sub-task Hostile Post Detection in Hindi. The proposed approach ranked 61st out of 164 in the sub-task "COVID19 Fake News Detection in English and 18th out of 45 in the sub-task Hostile Post Detection in Hindi".
翻訳日:2021-04-03 17:36:59 公開日:2021-01-13
# (参考訳) グラディエントDescentとWakly Convex Lossesによる学習

Learning with Gradient Descent and Weakly Convex Losses ( http://arxiv.org/abs/2101.04968v1 )

ライセンス: CC0 1.0
Dominic Richards, Mike Rabbat(参考訳) 本研究では,経験的リスクが弱凸である場合の勾配降下の学習性能,すなわち経験的リスクのヘッシアンの最小負の固有値について検討する。 この固有値が勾配降下の安定性を制御できることを示せば、一般化誤差境界は以前の研究よりも広いステップサイズで保持できることが証明される。 サンプル保証のうち、テストエラーを一般化、最適化、近似誤差に分解し、それぞれがアルゴリズムパラメータ、サンプルサイズ、この固有値の大きさに関して有界かつトレードオフできる。 2層ニューラルネットワークの場合、経験的リスクは局所的弱凸の概念を満たすことが示され、特に、トレーニング中のヘッセンの最小固有値は、ネットワークスケーリングと呼ばれるレイヤの正規化によって制御できる。 これにより、人口リスクの最小化者が複雑性の仮定を満たすと、テストエラーの保証が達成される。 ネットワークの複雑さとスケーリングのトレードオフによって、ニューラルネットワークのスケーリングの暗黙のバイアスに洞察が入り込む。

We study the learning performance of gradient descent when the empirical risk is weakly convex, namely, the smallest negative eigenvalue of the empirical risk's Hessian is bounded in magnitude. By showing that this eigenvalue can control the stability of gradient descent, generalisation error bounds are proven that hold under a wider range of step sizes compared to previous work. Out of sample guarantees are then achieved by decomposing the test error into generalisation, optimisation and approximation errors, each of which can be bounded and traded off with respect to algorithmic parameters, sample size and magnitude of this eigenvalue. In the case of a two layer neural network, we demonstrate that the empirical risk can satisfy a notion of local weak convexity, specifically, the Hessian's smallest eigenvalue during training can be controlled by the normalisation of the layers, i.e., network scaling. This allows test error guarantees to then be achieved when the population risk minimiser satisfies a complexity assumption. By trading off the network complexity and scaling, insights are gained into the implicit bias of neural network scaling, which are further supported by experimental findings.
翻訳日:2021-04-03 17:31:17 公開日:2021-01-13
# (参考訳) 微調整多言語埋め込みを用いたヒンディー語ポストの粗大および細粒度の敵意検出

Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine Tuned Multilingual Embeddings ( http://arxiv.org/abs/2101.04998v1 )

ライセンス: CC BY 4.0
Arkadipta De, Venkatesh E, Kaushal Kumar Maurya, Maunendra Sankar Desarkar(参考訳) facebookやtwitterなどのソーシャルメディアプラットフォームが広く採用されているため、コミュニティの受け入れ基準に反し得るオンライン投稿を検出する必要性が高まっている。 敵意検出タスクは英語のようなリソース豊富な言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。 我々は、この敵意検出をマルチラベルのマルチクラス分類問題と見なしている。 ヒンディー語投稿における敵意検出に有効なニューラルネットワーク技術を提案する。 我々は,Hindiポストの文脈表現を得るために,事前学習した多言語双方向トランスフォーマー表現(mBERT)を利用する。 我々は,様々な前処理技術,事前学習モデル,ニューラルアーキテクチャ,ハイブリッド戦略などを含む広範な実験を行った。 我々の最も優れた神経分類モデルには、1つのvs-the-restアプローチがあり、それぞれ92.60%、81.14%、69.59%、75.29%、73.01%のf1スコアを敵意、偽、憎悪、嫌悪、不名誉のラベルで獲得した。 提案モデルは,既存のベースラインモデルよりも優れており,ヒンディー語ポストの敵意を検出するための最先端モデルとして出現した。

Due to the wide adoption of social media platforms like Facebook, Twitter, etc., there is an emerging need of detecting online posts that can go against the community acceptance standards. The hostility detection task has been well explored for resource-rich languages like English, but is unexplored for resource-constrained languages like Hindidue to the unavailability of large suitable data. We view this hostility detection as a multi-label multi-class classification problem. We propose an effective neural network-based technique for hostility detection in Hindi posts. We leverage pre-trained multilingual Bidirectional Encoder Representations of Transformer (mBERT) to obtain the contextual representations of Hindi posts. We have performed extensive experiments including different pre-processing techniques, pre-trained models, neural architectures, hybrid strategies, etc. Our best performing neural classifier model includes One-vs-the-Rest approach where we obtained 92.60%, 81.14%,69.59%, 75.29% and 73.01% F1 scores for hostile, fake, hate, offensive, and defamation labels respectively. The proposed model outperformed the existing baseline models and emerged as the state-of-the-art model for detecting hostility in the Hindi posts.
翻訳日:2021-04-03 17:30:04 公開日:2021-01-13
# (参考訳) Generative Adversarial Networks を用いた逐次IoTデータ拡張

Sequential IoT Data Augmentation using Generative Adversarial Networks ( http://arxiv.org/abs/2101.05003v1 )

ライセンス: CC BY-SA 4.0
Maximilian Ernst Tschuchnig and Cornelia Ferner and Stefan Wegenkittl(参考訳) 産業アプリケーションにおけるシーケンシャルデータは、機械学習モデルのトレーニングと評価に使用することができる(例)。 分類器) 代表的なデータの収集は困難で時間がかかるため、小さな根拠からそれを生成するインセンティブがある。 データ拡張は、1つの特定の方法で事前知識を通じてより多くのデータを生成する一般的な方法であり、gans(generative adversarial networks)と呼ばれ、ノイズからデータを生成する。 本稿では,水泳プールの有無に関わらず家庭のエネルギー消費データを生成する例として,モノのインターネット(iot)データを逐次的に強化するためにgansを使用する可能性について検討する。 サンプル実装の結果は、元のデータと主観的に類似しているように見える。 この主観評価に加えて,ラベルが提供される場合のGANの定量的評価手法も導入する。 評価による肯定的な結果は、小さな基底真理から逐次データを生成することができるという初期仮定を支持する。 これは、シーケンシャルデータの退屈なデータ取得を短縮できることを意味する。 将来、この論文の結果は、小さなデータ課題に対処する機械学習のツールとして含められるかもしれない。

Sequential data in industrial applications can be used to train and evaluate machine learning models (e.g. classifiers). Since gathering representative amounts of data is difficult and time consuming, there is an incentive to generate it from a small ground truth. Data augmentation is a common method to generate more data through a priori knowledge with one specific method, so called generative adversarial networks (GANs), enabling data generation from noise. This paper investigates the possibility of using GANs in order to augment sequential Internet of Things (IoT) data, with an example implementation that generates household energy consumption data with and without swimming pools. The results of the example implementation seem subjectively similar to the original data. Additionally to this subjective evaluation, the paper also introduces a quantitative evaluation technique for GANs if labels are provided. The positive results from the evaluation support the initial assumption that generating sequential data from a small ground truth is possible. This means that tedious data acquisition of sequential data can be shortened. In the future, the results of this paper may be included as a tool in machine learning, tackling the small data challenge.
翻訳日:2021-04-03 17:15:36 公開日:2021-01-13
# (参考訳) 焦点を合わせる学習:わずかな画像認識のためのカスケード特徴マッチングネットワーク

Learning to Focus: Cascaded Feature Matching Network for Few-shot Image Recognition ( http://arxiv.org/abs/2101.05018v1 )

ライセンス: CC BY 4.0
Mengting Chen and Xinggang Wang and Heng Luo and Yifeng Geng and Wenyu Liu(参考訳) ディープネットワークは、多数の注釈付き画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。 しかし、ローショット画像認識タスクとして知られるメタラーニングの課題は、あるカテゴリの認識モデルを学ぶためにアノテーション付きの少数の画像しか利用できないことである。 テスト/クエリおよびトレーニング/サポートイメージのオブジェクトは、サイズ、ロケーション、スタイルなどによって異なる可能性が高い。 提案手法はCFMN (Cascaded Feature Matching Network) と呼ばれ,この問題を解決する。 我々は,比較画像間の相関度が高い特徴に着目し,それらの特徴を整合させ,非識別的特徴を自然に無視できる特徴マッチングブロックを用いて,メタリーナーを訓練し,より細粒度で適応的な深層距離計測法を学ぶ。 提案する特徴マッチングブロックをマイナショット認識ネットワークの異なる層に適用することにより、比較画像間のマルチスケール情報を最終カスケードマッチング機能に組み込むことができ、認識性能をさらに高め、関係を学習することでより一般化することができる。 2つの標準データセットである \emph{mini}imagenet と omniglot を用いた短時間学習実験を行い,本手法の有効性を確認した。 さらに,複数ラベルのマイトショットタスクをまずcocoの新たなデータ分割について検討し,複雑な画像でマイトショット学習を行う際に,提案する特徴マッチングネットワークの優位性を示す。 コードは公開される予定だ。

Deep networks can learn to accurately recognize objects of a category by training on a large number of annotated images. However, a meta-learning challenge known as a low-shot image recognition task comes when only a few images with annotations are available for learning a recognition model for one category. The objects in testing/query and training/support images are likely to be different in size, location, style, and so on. Our method, called Cascaded Feature Matching Network (CFMN), is proposed to solve this problem. We train the meta-learner to learn a more fine-grained and adaptive deep distance metric by focusing more on the features that have high correlations between compared images by the feature matching block which can align associated features together and naturally ignore those non-discriminative features. By applying the proposed feature matching block in different layers of the few-shot recognition network, multi-scale information among the compared images can be incorporated into the final cascaded matching feature, which boosts the recognition performance further and generalizes better by learning on relationships. The experiments for few-shot learning on two standard datasets, \emph{mini}ImageNet and Omniglot, have confirmed the effectiveness of our method. Besides, the multi-label few-shot task is first studied on a new data split of COCO which further shows the superiority of the proposed feature matching network when performing few-shot learning in complex images. The code will be made publicly available.
翻訳日:2021-04-03 17:07:55 公開日:2021-01-13
# (参考訳) imagenetの再ラベル:シングルからマルチラベル、グローバルからローカライズラベル

Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels ( http://arxiv.org/abs/2101.05022v1 )

ライセンス: CC BY-SA 4.0
Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, Sanghyuk Chun(参考訳) ImageNetは間違いなく最も人気のある画像分類ベンチマークであるが、ラベルノイズがかなり高いベンチマークでもある。 近年の研究では、シングルラベルベンチマークと仮定されているにもかかわらず、多くのサンプルが複数のクラスを含んでいることが示されている。 そのため、イメージネットの評価を、画像毎に徹底的な複数ラベルアノテーションを備えたマルチラベルタスクにすることを提案している。 しかし、おそらくアノテーションコストがひどいため、トレーニングセットは修正されていない。 単一ラベルのアノテーションと効果的に複数ラベルのイメージのミスマッチは、ランダムな作物が適用されるトレーニング設定において問題となる。 シングルラベルアノテーションでは、画像のランダムな収穫物は、基礎的な真実とは全く異なるオブジェクトを含んでいて、トレーニング中にノイズや不正な監視を導入する。 そこで我々は,imagenet トレーニングセットをマルチラベルで再ラベルする。 我々は,強固な画像分類器を,余分なデータソースに基づいて訓練し,マルチラベルを生成することで,アノテーションコストの障壁に対処する。 最終プーリング層に先立って,画素単位のマルチラベル予測を行い,付加的な位置特異的監視信号を利用する。 再ラベルされたサンプルのトレーニングにより、ボード全体のモデルパフォーマンスが改善される。 ResNet-50は、当社のローカライズされたマルチラベルでImageNetで78.9%のトップ1の分類精度を獲得し、CutMix正規化によってさらに80.2%に向上できる。 ローカライズされたマルチラベルでトレーニングされたモデルは、オブジェクト検出やインスタンスセグメンテーションタスクへの転送学習のベースラインや、さまざまなロバスト性ベンチマークよりも優れています。 re-labeled imagenet training set, pre-trained weights, and the source codeは、{https://github.com/naver-ai/relabel_imagenet}で入手できる。

ImageNet has been arguably the most popular image classification benchmark, but it is also the one with a significant level of label noise. Recent studies have shown that many samples contain multiple classes, despite being assumed to be a single-label benchmark. They have thus proposed to turn ImageNet evaluation into a multi-label task, with exhaustive multi-label annotations per image. However, they have not fixed the training set, presumably because of a formidable annotation cost. We argue that the mismatch between single-label annotations and effectively multi-label images is equally, if not more, problematic in the training setup, where random crops are applied. With the single-label annotations, a random crop of an image may contain an entirely different object from the ground truth, introducing noisy or even incorrect supervision during training. We thus re-label the ImageNet training set with multi-labels. We address the annotation cost barrier by letting a strong image classifier, trained on an extra source of data, generate the multi-labels. We utilize the pixel-wise multi-label predictions before the final pooling layer, in order to exploit the additional location-specific supervision signals. Training on the re-labeled samples results in improved model performances across the board. ResNet-50 attains the top-1 classification accuracy of 78.9% on ImageNet with our localized multi-labels, which can be further boosted to 80.2% with the CutMix regularization. We show that the models trained with localized multi-labels also outperforms the baselines on transfer learning to object detection and instance segmentation tasks, and various robustness benchmarks. The re-labeled ImageNet training set, pre-trained weights, and the source code are available at {https://github.com/naver-ai/relabel_imagenet}.
翻訳日:2021-03-30 14:24:25 公開日:2021-01-13
# (参考訳) LSTM-RNNを用いたアテンションメカニズムによる話者の高さと年齢推定

End-to-End Speaker Height and age estimation using Attention Mechanism with LSTM-RNN ( http://arxiv.org/abs/2101.05056v1 )

ライセンス: CC BY 4.0
Manav Kaushik, Van Tung Pham, Eng Siong Chng(参考訳) 音響的特徴を用いた話者の自動高さ・年齢推定は,人間とコンピュータの相互作用,法医学などのために広く用いられている。 本研究では,アテンション機構を用いて,身長と年齢推定のためのエンドツーエンド・アーキテクチャを構築する新しい手法を提案する。 注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。 我々は、エンコーダユニット全体の注意を考慮に入れた修正されたコンテキストベクトルを導入することで、コンテキストベクトルが時間枠をまたいでのみ注意の総和を計算する、従来の注意を変更できる。 これとは別に、話者の高さと年齢を同時推定するマルチタスク学習手法についても検討する。 TIMITコーパスでモデルをトレーニングし、テストします。 我々のモデルは文学のいくつかのアプローチを上回っている。 男性では根平均二乗誤差 (rmse) が6.92cm, 女性では6.34cm, 男性では7.85年, 女性では8.75年であった。 異なる電話機に割り当てられた注意重みを追跡することで、母音電話は最も重要なホイッスルストップ電話であり、推定作業において重要でないことが分かる。

Automatic height and age estimation of speakers using acoustic features is widely used for the purpose of human-computer interaction, forensics, etc. In this work, we propose a novel approach of using attention mechanism to build an end-to-end architecture for height and age estimation. The attention mechanism is combined with Long Short-Term Memory(LSTM) encoder which is able to capture long-term dependencies in the input acoustic features. We modify the conventionally used Attention -- which calculates context vectors the sum of attention only across timeframes -- by introducing a modified context vector which takes into account total attention across encoder units as well, giving us a new cross-attention mechanism. Apart from this, we also investigate a multi-task learning approach for jointly estimating speaker height and age. We train and test our model on the TIMIT corpus. Our model outperforms several approaches in the literature. We achieve a root mean square error (RMSE) of 6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years and 8.75years for male and females ages respectively. By tracking the attention weights allocated to different phones, we find that Vowel phones are most important whistlestop phones are least important for the estimation task.
翻訳日:2021-03-30 13:41:02 公開日:2021-01-13
# (参考訳) beyond procrustes:非対称低ランクマトリクスセンシングのためのバランスフリー勾配降下

Beyond Procrustes: Balancing-Free Gradient Descent for Asymmetric Low-Rank Matrix Sensing ( http://arxiv.org/abs/2101.05113v1 )

ライセンス: CC BY 4.0
Cong Ma, Yuanxin Li, Yuejie Chi(参考訳) 低位行列の推定は、科学と工学の様々な応用において中心的な役割を果たす。 近年, 行列分解に基づく非凸定式化は, 計算量および統計量の強い単純な勾配降下アルゴリズムによって実現可能である。 しかし、低ランク行列が非対称である場合、既存のアプローチでは、スペクトル法による初期化時に性能を損なうことなく安全に除去できる2つの行列因子のスケールのバランスをとるために正規化項を追加することに依存している。 本稿では,少数の線形測定値から低ランク行列を回収することを目的とした,行列センシング問題に対する理論的正当性について述べる。 測定アンサンブルが制限された等尺性を満たす限り、スペクトル初期化とともに勾配降下は、因子のバランス性を明確に促進することなく線形に収束する。 我々の分析は、可逆変換によるあいまいさを直接考慮し、独立した関心を持つ新しい距離計量の進化を分析することに基づいている。

Low-rank matrix estimation plays a central role in various applications across science and engineering. Recently, nonconvex formulations based on matrix factorization are provably solved by simple gradient descent algorithms with strong computational and statistical guarantees. However, when the low-rank matrices are asymmetric, existing approaches rely on adding a regularization term to balance the scale of the two matrix factors which in practice can be removed safely without hurting the performance when initialized via the spectral method. In this paper, we provide a theoretical justification to this for the matrix sensing problem, which aims to recover a low-rank matrix from a small number of linear measurements. As long as the measurement ensemble satisfies the restricted isometry property, gradient descent -- in conjunction with spectral initialization -- converges linearly without the need of explicitly promoting balancedness of the factors; in fact, the factors stay balanced automatically throughout the execution of the algorithm. Our analysis is based on analyzing the evolution of a new distance metric that directly accounts for the ambiguity due to invertible transforms, and might be of independent interest.
翻訳日:2021-03-30 13:32:27 公開日:2021-01-13
# (参考訳) VoxelHop:構造MRIを用いたALS疾患分類のための逐次サブスペース学習

VoxelHop: Successive Subspace Learning for ALS Disease Classification Using Structural MRI ( http://arxiv.org/abs/2101.05131v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Chao Yang, C.-C. Jay Kuo, Suma Babu, Georges El Fakhri, Thomas Jenkins, Jonghye Woo(参考訳) 深層学習は、医療画像データを用いて病気の正確な検出と分類を行う大きな可能性を持っているが、その性能はトレーニングデータセットの数とメモリ要件によって制限されることが多い。 さらに、多くの深層学習モデルは「ブラックボックス」と見なされ、臨床応用における導入を制限することがしばしばある。 そこで本研究では,T2重み付き構造MRIデータを用いた筋萎縮性側索硬化症(ALS)の正確な分類法として,VoxelHopというサブスペース学習モデルを提案する。 一般的な畳み込みニューラルネットワーク(CNN)アーキテクチャと比較して、VoxelHopは、バックプロパゲーションのないパラメータが少なく、モジュール的で透明な構造であるため、小さなデータセットサイズと3Dイメージングデータに適している。 ボクセルホップは,(1)多チャンネル3次元データに対する近距離近傍の逐次展開,(2)教師なし次元減少のための部分空間近似,(3)教師付き次元減少のためのラベル支援回帰,(4)特徴の結合,コントロールと患者間の分類,の4つの重要な構成要素を有する。 実験の結果,本研究の枠組みは20個のコントロールセットと26個の患者を用いて93.48$\%$,aucスコア0.9394の精度を実現し,比較的少ないデータセットでもそのロバスト性と有効性を示している。 また,最新の3D CNN分類法の有効性と優位性を示した。 我々のフレームワークは、異なる画像モダリティを用いて、他の分類タスクに容易に一般化できる。

Deep learning has great potential for accurate detection and classification of diseases with medical imaging data, but the performance is often limited by the number of training datasets and memory requirements. In addition, many deep learning models are considered a "black-box," thereby often limiting their adoption in clinical applications. To address this, we present a successive subspace learning model, termed VoxelHop, for accurate classification of Amyotrophic Lateral Sclerosis (ALS) using T2-weighted structural MRI data. Compared with popular convolutional neural network (CNN) architectures, VoxelHop has modular and transparent structures with fewer parameters without any backpropagation, so it is well-suited to small dataset size and 3D imaging data. Our VoxelHop has four key components, including (1) sequential expansion of near-to-far neighborhood for multi-channel 3D data; (2) subspace approximation for unsupervised dimension reduction; (3) label-assisted regression for supervised dimension reduction; and (4) concatenation of features and classification between controls and patients. Our experimental results demonstrate that our framework using a total of 20 controls and 26 patients achieves an accuracy of 93.48$\%$ and an AUC score of 0.9394 in differentiating patients from controls, even with a relatively small number of datasets, showing its robustness and effectiveness. Our thorough evaluations also show its validity and superiority to the state-of-the-art 3D CNN classification methods. Our framework can easily be generalized to other classification tasks using different imaging modalities.
翻訳日:2021-03-30 12:50:48 公開日:2021-01-13
# (参考訳) 収益管理システムへの改善の影響を推定する:航空会社の申請

Estimating the Impact of an Improvement to a Revenue Management System: An Airline Application ( http://arxiv.org/abs/2101.10249v1 )

ライセンス: CC BY 4.0
Greta Laage, Emma Frejinger, William L. Hamilton, Andrea Lodi and Guillaume Rabusseau(参考訳) 航空会社は数十年間、収益を最大化するために非常に複雑な収益管理システムを利用している。 収益など重要な結果に対するシステムの1つのコンポーネントの変更の影響を見積もることは重要ですが、非常に難しいのです。 これは、生成した値と、通常通りビジネスを維持するために生成された値との違いであり、観測不可能である。 本稿では, 対物予測モデルの概要を概観し, エア・カナダのデータに基づく広範な計算研究に利用して, その影響を推定する。 我々は、対物収益を予測することに集中し、影響の観測された収益と比較する。 当社のマイクロエコノミクス応用と軽微な治療効果は,通常の合成制御応用と異なる。 本稿では, 誤差の1.1%, 1%を精度良く予測し, シミュレーション効果を正確に推定できる線形および深層学習対実予測モデルを提案する。

Airlines have been making use of highly complex Revenue Management Systems to maximize revenue for decades. Estimating the impact of changing one component of those systems on an important outcome such as revenue is crucial, yet very challenging. It is indeed the difference between the generated value and the value that would have been generated keeping business as usual, which is not observable. We provide a comprehensive overview of counterfactual prediction models and use them in an extensive computational study based on data from Air Canada to estimate such impact. We focus on predicting the counterfactual revenue and compare it to the observed revenue subject to the impact. Our microeconomic application and small expected treatment impact stand out from the usual synthetic control applications. We present accurate linear and deep-learning counterfactual prediction models which achieve respectively 1.1% and 1% of error and allow to estimate a simulated effect quite accurately.
翻訳日:2021-03-30 12:16:36 公開日:2021-01-13
# (参考訳) 同期指向サブイメージの逐次逆サンプルに基づく画像ステガノグラフィー

Image Steganography based on Iteratively Adversarial Samples of A Synchronized-directions Sub-image ( http://arxiv.org/abs/2101.05209v1 )

ライセンス: CC BY 4.0
Xinghong Qin, Shunquan Tan, Bin Li, Weixuan Tang and Jiwu Huang(参考訳) 現在、ステガノグラフィーは、特徴ベースのスタアナリシスと畳み込みニューラルネットワーク(CNN)ベースのステガナリシスの両方の課題に直面している。 本稿では, ite-syn(同期指向サブイメージへの反復的逆摂動に基づく)と呼ばれる新しいステガノグラフィスキームを提案する。そこで, セキュリティデータを同期修正方向に埋め込み, セキュリティを強化し, サブイメージに反復的に増加する摂動を付加し, 対象のcnn分類器のカバークラスラベルによる損失を低減する。 第一に、初期コストを計算するために既存のステガノグラフィー関数が用いられる。 そして、カバー画像をいくつかの非オーバーラップサブイメージに分解する。 各サブイメージを埋め込んだ後、クラスタリング修正方向プロファイルに従ってコストが調整される。 そして次のサブイメージは、すべての秘密データが埋め込まれるまで、調整されたコストで埋め込まれる。 対象のCNN分類器が、調整コストに基づいてステゴ画像をカバーイメージとして識別しない場合、CNN分類器から逆転した勾配の兆候に応じて、逆方向のコストを変更する。 その後、サブイメージが選択され、コストが変わる。 敵のステゴ画像がターゲットのCNN分類器を騙すまで、敵の強度は反復的に増大する。 実験により,提案手法は,従来の特徴ベース分類器とCNN分類器,さらには他のターゲットでないCNN分類器の両方に対処するセキュリティを効果的に向上することを示した。

Nowadays a steganography has to face challenges of both feature based staganalysis and convolutional neural network (CNN) based steganalysis. In this paper, we present a novel steganography scheme denoted as ITE-SYN (based on ITEratively adversarial perturbations onto a SYNchronized-directions sub-image), by which security data is embedded with synchronizing modification directions to enhance security and then iteratively increased perturbations are added onto a sub-image to reduce loss with cover class label of the target CNN classifier. Firstly an exist steganographic function is employed to compute initial costs. Then the cover image is decomposed into some non-overlapped sub-images. After each sub-image is embedded, costs will be adjusted following clustering modification directions profile. And then the next sub-image will be embedded with adjusted costs until all secret data has been embedded. If the target CNN classifier does not discriminate the stego image as a cover image, based on adjusted costs, we change costs with adversarial manners according to signs of gradients back-propagated from the CNN classifier. And then a sub-image is chosen to be re-embedded with changed costs. Adversarial intensity will be iteratively increased until the adversarial stego image can fool the target CNN classifier. Experiments demonstrate that the proposed method effectively enhances security to counter both conventional feature-based classifiers and CNN classifiers, even other non-target CNN classifiers.
翻訳日:2021-03-30 11:40:14 公開日:2021-01-13
# (参考訳) Rの実装によるテキストデータの一貫性スコアについて

On consistency scores in text data with an implementation in R ( http://arxiv.org/abs/2101.05225v1 )

ライセンス: CC BY 4.0
Ke-Li Chiu and Rohan Alexander(参考訳) 本稿では,n-gramモデルを用いてPDFから抽出したテキストの再現可能なクリーニングプロセスを提案する。 提案手法は,従来のテキストを刺激として用いたこれらのモデルから生成された,あるいは予想されるテキストと比較する。 このプロセスを導くために,モデルが期待するテキストの割合を示す一貫性スコアの概念を導入する。 これは、クリーニングプロセス中、および異なるコーパス間での変化を監視するために使用される。 私たちは、Jane Eyreという本からテキストでプロセスを説明し、S ShinyアプリケーションとRパッケージの両方を導入して、プロセスを他の人が簡単に採用できるようにします。

In this paper, we introduce a reproducible cleaning process for the text extracted from PDFs using n-gram models. Our approach compares the originally extracted text with the text generated from, or expected by, these models using earlier text as stimulus. To guide this process, we introduce the notion of a consistency score, which refers to the proportion of text that is expected by the model. This is used to monitor changes during the cleaning process, and across different corpuses. We illustrate our process on text from the book Jane Eyre and introduce both a Shiny application and an R package to make our process easier for others to adopt.
翻訳日:2021-03-30 11:16:46 公開日:2021-01-13
# (参考訳) ランダムフーリエ機能を用いたスコアマッチング

Denoising Score Matching with Random Fourier Features ( http://arxiv.org/abs/2101.05239v1 )

ライセンス: CC BY 4.0
Tsimboy Olga, Yermek Kapushev, Evgeny Burnaev, Ivan Oseledets(参考訳) 密度推定は統計学における主要な問題の一つである。 それにもかかわらず、最大確率推定のような既存の手法は正規化定数の難解性のために計算効率が良くない。 このため、スコアマッチングに対する関心は正規化定数上で独立性を高めている。 しかし、そのような推定器は完全な空間サポートを持つ分布に対してのみ一貫性がある。 一貫性を持たせるアプローチの1つは、Denoising Score Matchingと呼ばれる入力データにノイズを加えることである。 本研究は,カーネル指数関数群をモデル分布として用い,発声スコアマッチングの解析的表現を導出する。 核指数族の使用は、このクラスの密度の豊かさによって動機付けられる。 計算複雑性に取り組むために、カーネル関数の近似に基づくランダムフーリエ特徴を用いる。 解析式は、既に暗黙的に含まれているため、高階微分に基づくさらなる正規化項を下げることができる。 さらに、得られた式はノイズ分散に明示的に依存するため、ノイズレベルの調整にバリデーション損失を直接使用することができる。 ベンチマーク実験とともに、モデルが様々な場合におけるモデルの挙動を研究するために、様々な合成分布で試験された。 実験により,提案手法は計算処理が高速であるのに対し,競合手法に匹敵する品質を示した。 後者は複雑な高次元データへのスケールアップを可能にする。

The density estimation is one of the core problems in statistics. Despite this, existing techniques like maximum likelihood estimation are computationally inefficient due to the intractability of the normalizing constant. For this reason an interest to score matching has increased being independent on the normalizing constant. However, such estimator is consistent only for distributions with the full space support. One of the approaches to make it consistent is to add noise to the input data which is called Denoising Score Matching. In this work we derive analytical expression for the Denoising Score matching using the Kernel Exponential Family as a model distribution. The usage of the kernel exponential family is motivated by the richness of this class of densities. To tackle the computational complexity we use Random Fourier Features based approximation of the kernel function. The analytical expression allows to drop additional regularization terms based on the higher-order derivatives as they are already implicitly included. Moreover, the obtained expression explicitly depends on the noise variance, so the validation loss can be straightforwardly used to tune the noise level. Along with benchmark experiments, the model was tested on various synthetic distributions to study the behaviour of the model in different cases. The empirical study shows comparable quality to the competing approaches, while the proposed method being computationally faster. The latter one enables scaling up to complex high-dimensional data.
翻訳日:2021-03-30 11:03:59 公開日:2021-01-13
# (参考訳) グラディエントDescent Ascentによる隠れ構造による最小最適化の解法

Solving Min-Max Optimization with Hidden Structure via Gradient Descent Ascent ( http://arxiv.org/abs/2101.05248v1 )

ライセンス: CC BY 4.0
Lampros Flokas, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Georgios Piliouras(参考訳) 最近のaiアーキテクチャの多くはゼロサムゲームにインスパイアされているが、ダイナミクスの振る舞いはまだよく分かっていない。 これに触発されて、非凸なゼロサムゲームの特定のクラスにおいて、隠れゼロサムゲームと呼ばれる標準勾配降下(GDA)ダイナミクスを研究する。 このクラスでは、プレイヤーは凸凹ゲームへの入力として出力が適用される滑らかだが、おそらく非線形関数の入力を制御する。 一般的なゼロサムゲームとは異なり、これらのゲームは解の概念をよく定義しており、"隠れた"凸凸凸ゲームにおけるフォン・ノイマン均衡を実装する結果である。 隠れたゲームが厳密な凸凸であれば、バニラ GDA は局所ナッシュに限らず、通常フォン・ノイマン解に収束する。 ゲームに厳密な凸性がなければ、GDAは任意の平衡に収束しないかもしれないが、標準的な正規化手法を適用することで、わずかに摂動したゼロサムゲームのフォン・ノイマン解への収束を証明できる。 我々の収束保証は非局所的であり、これは我々が知る限り、非凸な非凸ゲームにおける第一種の結果である。 最後に,当社のフレームワークとジェネレイティブ・アドバーサリー・ネットワークとの関連について論じる。

Many recent AI architectures are inspired by zero-sum games, however, the behavior of their dynamics is still not well understood. Inspired by this, we study standard gradient descent ascent (GDA) dynamics in a specific class of non-convex non-concave zero-sum games, that we call hidden zero-sum games. In this class, players control the inputs of smooth but possibly non-linear functions whose outputs are being applied as inputs to a convex-concave game. Unlike general zero-sum games, these games have a well-defined notion of solution; outcomes that implement the von-Neumann equilibrium of the "hidden" convex-concave game. We prove that if the hidden game is strictly convex-concave then vanilla GDA converges not merely to local Nash, but typically to the von-Neumann solution. If the game lacks strict convexity properties, GDA may fail to converge to any equilibrium, however, by applying standard regularization techniques we can prove convergence to a von-Neumann solution of a slightly perturbed zero-sum game. Our convergence guarantees are non-local, which as far as we know is a first-of-its-kind type of result in non-convex non-concave games. Finally, we discuss connections of our framework with generative adversarial networks.
翻訳日:2021-03-30 10:36:54 公開日:2021-01-13
# (参考訳) 深層学習コンピュータビジョンを用いた好酸球性食道炎の診断と表現型評価

Advancing Eosinophilic Esophagitis Diagnosis and Phenotype Assessment with Deep Learning Computer Vision ( http://arxiv.org/abs/2101.05326v1 )

ライセンス: CC BY 4.0
William Adorno III, Alexis Catalano, Lubaina Ehsan, Hans Vitzhum von Eckstaedt, Barrett Barnes, Emily McGowan, Sana Syed, Donald E. Brown(参考訳) 好酸球性食道炎(英: eosinophilic esophagitis, eoe)は炎症性食道疾患である。 診断用ゴールドスタンダードは、臨床病理医が患者の生検組織サンプルを手動で検査し、1つの高出力フィールド(400倍倍)内に15以上の好酸球が存在することを含む。 EoEの診断は、病気の重症度と進行度を評価するのに困難である。 深部画像分割を用いた好酸球定量化のための自動手法を提案する。 U-Netモデルと後処理システムを適用して、EoEを診断し、疾患の重症度と進行を記述できる好酸球統計を生成する。 これらの統計は、初期EoE診断の生検で取得され、患者メタデータ(臨床および治療表現型)と比較される。 目標は、新しい患者の初期診断における治療計画を導く可能性のある連鎖を見つけることである。 さらに、EoEの診断に使用できる好酸球以外の特徴を発見するために、深層画像分類モデルを適用する。 本研究は,EoE診断にディープラーニングコンピュータビジョンアプローチを利用した最初の研究であり,疾患の重症度と進行を自動追跡するプロセスを提供する。

Eosinophilic Esophagitis (EoE) is an inflammatory esophageal disease which is increasing in prevalence. The diagnostic gold-standard involves manual review of a patient's biopsy tissue sample by a clinical pathologist for the presence of 15 or greater eosinophils within a single high-power field (400x magnification). Diagnosing EoE can be a cumbersome process with added difficulty for assessing the severity and progression of disease. We propose an automated approach for quantifying eosinophils using deep image segmentation. A U-Net model and post-processing system are applied to generate eosinophil-based statistics that can diagnose EoE as well as describe disease severity and progression. These statistics are captured in biopsies at the initial EoE diagnosis and are then compared with patient metadata: clinical and treatment phenotypes. The goal is to find linkages that could potentially guide treatment plans for new patients at their initial disease diagnosis. A deep image classification model is further applied to discover features other than eosinophils that can be used to diagnose EoE. This is the first study to utilize a deep learning computer vision approach for EoE diagnosis and to provide an automated process for tracking disease severity and progression.
翻訳日:2021-03-30 10:00:13 公開日:2021-01-13
# (参考訳) X-CAL: 生存分析のための明確な校正

X-CAL: Explicit Calibration for Survival Analysis ( http://arxiv.org/abs/2101.05346v1 )

ライセンス: CC BY 4.0
Mark Goldstein, Xintian Han, Aahlad Puli, Adler J. Perotte and Rajesh Ranganath(参考訳) 生存分析は、病院からの退院やICUへの入院など、興味のある出来事までの時間分布をモデル化する。 モデルが任意の時間間隔内で予測した事象の数を観測値に類似させると、それを well-calibrated と呼ぶ。 サバイバルモデルのキャリブレーションは、例えば分布キャリブレーション(d-キャリブレーション) [haider et al., 2020] を用いて測定でき、異なる時間間隔内で観測された事象数と予測された事象数の2乗差を計算することができる。 古典的には、キャリブレーションはトレーニング後の分析で対処される。 我々は,D-CALIBrationを,最大推定値と他の目的値と並行して生存モデルに使用可能な,識別可能な目的に転換する明示的キャリブレーション(X-CAL)を開発する。 X-CALにより、実践者はキャリブレーションを直接最適化し、予測パワーとキャリブレーションのバランスを望ましいものにすることができる。 実験では, シミュレーションデータ, mnistに基づくサバイバルデータセット, mimic-iiiデータを用いた長寿命予測, 癌ゲノムアトラスからの脳がんデータに, 様々な浅層モデルと深層モデルを適用した。 研究対象のモデルは誤校正可能であることを示す。 X-CALによるD-CALIBationの改善は, 一致や可能性の大きな低下を伴わずに, 実験的な証拠を提示する。

Survival analysis models the distribution of time until an event of interest, such as discharge from the hospital or admission to the ICU. When a model's predicted number of events within any time interval is similar to the observed number, it is called well-calibrated. A survival model's calibration can be measured using, for instance, distributional calibration (D-CALIBRATION) [Haider et al., 2020] which computes the squared difference between the observed and predicted number of events within different time intervals. Classically, calibration is addressed in post-training analysis. We develop explicit calibration (X-CAL), which turns D-CALIBRATION into a differentiable objective that can be used in survival modeling alongside maximum likelihood estimation and other objectives. X-CAL allows practitioners to directly optimize calibration and strike a desired balance between predictive power and calibration. In our experiments, we fit a variety of shallow and deep models on simulated data, a survival dataset based on MNIST, on length-of-stay prediction using MIMIC-III data, and on brain cancer data from The Cancer Genome Atlas. We show that the models we study can be miscalibrated. We give experimental evidence on these datasets that X-CAL improves D-CALIBRATION without a large decrease in concordance or likelihood.
翻訳日:2021-03-30 09:44:42 公開日:2021-01-13
# (参考訳) 優先的混合--人間の知識を最大限に活用する解釈可能なモデル

Preferential Mixture-of-Experts: Interpretable Models that Rely on Human Expertise as much as Possible ( http://arxiv.org/abs/2101.05360v1 )

ライセンス: CC BY 4.0
Melanie F. Pradier, Javier Zazo, Sonali Parbhoo, Roy H. Perlis, Maurizio Zazzi, Finale Doshi-Velez(参考訳) 予測性能に必要な場合にのみ、データに基づく分類器を用いて意思決定における人間の専門知識を高める新しい人間-ML混合専門家モデルであるPreferential MoEを提案する。 我々のモデルは、人間のルールをいつ守るべきか、あるいは避けるべきかの情報を提供する解釈可能なゲーティング機能を示す。 ゲーティング関数は、人間ベースのルールを使用するために最大化され、分類エラーが最小化される。 本稿では,凸部分問題を用いた多目的結合問題の解法を提案する。 近似アルゴリズムを開発し,その性能と収束について検討する。 最後に,ヒト免疫不全ウイルス(hiv)治療と大うつ病性障害(mdd)治療における2つの臨床応用における優先的moeの有用性を示す。

We propose Preferential MoE, a novel human-ML mixture-of-experts model that augments human expertise in decision making with a data-based classifier only when necessary for predictive performance. Our model exhibits an interpretable gating function that provides information on when human rules should be followed or avoided. The gating function is maximized for using human-based rules, and classification errors are minimized. We propose solving a coupled multi-objective problem with convex subproblems. We develop approximate algorithms and study their performance and convergence. Finally, we demonstrate the utility of Preferential MoE on two clinical applications for the treatment of Human Immunodeficiency Virus (HIV) and management of Major Depressive Disorder (MDD).
翻訳日:2021-03-30 09:21:13 公開日:2021-01-13
# (参考訳) サッカー選手の評価:ライブカメラから深層強化学習へ

Evaluating Soccer Player: from Live Camera to Deep Reinforcement Learning ( http://arxiv.org/abs/2101.05388v1 )

ライセンス: CC BY 4.0
Paul Garnier, Th\'eophane Gregoir(参考訳) 科学的にサッカー選手を評価することは、難しい機械学習の問題である。 残念ながら、既存の回答のほとんどは、非常に不透明なアルゴリズムのトレーニング手順を持っています。 本稿では,オープンソースのプレイヤー追跡モデルと,人間のデータトレーニングや指導なしに,深層強化学習のみに基づいてプレイヤーを評価する新しい手法を提案する。 私たちの追跡モデルは、リリース予定のデータセットに基づいて教師ありの方法でトレーニングされ、評価モデルは仮想サッカーの試合のシミュレーションのみに依存しています。 これら2つのアーキテクチャを組み合わせることで、大きなデータセットの制約なしに、ライブカメラから直接サッカー選手を評価することができる。 私たちは、チームが特定の状態から得点または譲歩できるゴールの数を表わすため、新しいアプローチであるEDG(Expeded Discounted Goal)を表現します。 このアプローチは、現実世界のデータに基づいており、他のスポーツにも容易に拡張できる既存のデータよりも有意義な結果をもたらす。

Scientifically evaluating soccer players represents a challenging Machine Learning problem. Unfortunately, most existing answers have very opaque algorithm training procedures; relevant data are scarcely accessible and almost impossible to generate. In this paper, we will introduce a two-part solution: an open-source Player Tracking model and a new approach to evaluate these players based solely on Deep Reinforcement Learning, without human data training nor guidance. Our tracking model was trained in a supervised fashion on datasets we will also release, and our Evaluation Model relies only on simulations of virtual soccer games. Combining those two architectures allows one to evaluate Soccer Players directly from a live camera without large datasets constraints. We term our new approach Expected Discounted Goal (EDG), as it represents the number of goals a team can score or concede from a particular state. This approach leads to more meaningful results than the existing ones that are based on real-world data, and could easily be extended to other sports.
翻訳日:2021-03-30 09:02:42 公開日:2021-01-13
# (参考訳) 貯留層コンピュータのモード分解と最適化

Reservoir Computers Modal Decomposition and Optimization ( http://arxiv.org/abs/2101.07219v1 )

ライセンス: CC BY 4.0
Chad Nathe, Enrico Del Frate, Thomas Carroll, Louis Pecora, Afroza Shirin, Francesco Sorrentino(参考訳) 貯水池コンピュータに関連付けられたネットワークのトポロジーは、接続と重みがランダムに選択されるようにしばしば取られる。 パラメータ空間が大きすぎるので最適化を考えることはほとんどない。 本稿では, 貯水池の動的分解をモードに分解し, 互いに独立して計算できる貯水池コンピュータのクラスについて, この問題を考察する。 各モードは、ネットワーク隣接行列の固有値に依存する。 次に、固有値は適切な設計と最適化が可能なパラメータであるパラメトリックなアプローチをとる。 さらに,各モードへのタイムシフトの適用についても紹介する。 固有値や時間シフトの観点から個々のモードの操作が、トレーニングエラーの劇的な削減につながることを示す。

The topology of a network associated with a reservoir computer is often taken so that the connectivity and the weights are chosen randomly. Optimization is hardly considered as the parameter space is typically too large. Here we investigate this problem for a class of reservoir computers for which we obtain a decomposition of the reservoir dynamics into modes, which can be computed independently of one another. Each mode depends on an eigenvalue of the network adjacency matrix. We then take a parametric approach in which the eigenvalues are parameters that can be appropriately designed and optimized. In addition, we introduce the application of a time shift to each individual mode. We show that manipulations of the individual modes, either in terms of the eigenvalues or the time shifts, can lead to dramatic reductions in the training error.
翻訳日:2021-03-30 08:46:42 公開日:2021-01-13
# Robustness Gym: NLP評価ランドスケープの統合

Robustness Gym: Unifying the NLP Evaluation Landscape ( http://arxiv.org/abs/2101.04840v1 )

ライセンス: Link先を確認
Karan Goel, Nazneen Rajani, Jesse Vig, Samson Tan, Jason Wu, Stephan Zheng, Caiming Xiong, Mohit Bansal, Christopher R\'e(参考訳) 標準ベンチマークでの印象的なパフォーマンスにもかかわらず、深層ニューラルネットワークは現実世界のシステムにデプロイすると不安定になることが多い。 その結果、近年の研究は、このようなモデルの堅牢性をテストすることに集中し、敵対的攻撃からルールベースのデータ変換まで、様々な評価手法を生み出した。 本研究では,NLPシステム評価における課題を特定し,サブポピュレーション,変換,評価セット,敵攻撃という4つの標準評価パラダイムを統一した,シンプルで拡張可能な評価ツールキットであるRobustness Gym (RG) の形でソリューションを提案する。 評価のための共通のプラットフォームを提供することで、ロバストネスジムは4つの評価パラダイムすべての結果をほんの数クリックで比較し、ビルトインされた抽象セットを使って新しい評価方法を簡単に開発し共有することができる。 実践者に対するロバストネスジムの有用性を検証するために,感情モデリングチームと実世界のケーススタディを行い,パフォーマンスが18%以上低下したことを明らかにした。 ロバストネス・ガイムが新しい研究分析に役立つことを検証するため、我々は最先端の商業的および学術的な名前付きエンティティリンク(NEL)システムの研究と、最先端の要約モデルのきめ細かい分析を行う。 nelの場合、商用システムはレアエンティティのリンクに苦労し、学術的なエンティティの10%以上遅れるが、最先端の要約モデルは抽象化と蒸留を必要とする例で苦労し、9%以上低下する。 Robustness Gymはhttps://robustnessgym.com/にある。

Despite impressive performance on standard benchmarks, deep neural networks are often brittle when deployed in real-world systems. Consequently, recent research has focused on testing the robustness of such models, resulting in a diverse set of evaluation methodologies ranging from adversarial attacks to rule-based data transformations. In this work, we identify challenges with evaluating NLP systems and propose a solution in the form of Robustness Gym (RG), a simple and extensible evaluation toolkit that unifies 4 standard evaluation paradigms: subpopulations, transformations, evaluation sets, and adversarial attacks. By providing a common platform for evaluation, Robustness Gym enables practitioners to compare results from all 4 evaluation paradigms with just a few clicks, and to easily develop and share novel evaluation methods using a built-in set of abstractions. To validate Robustness Gym's utility to practitioners, we conducted a real-world case study with a sentiment-modeling team, revealing performance degradations of 18%+. To verify that Robustness Gym can aid novel research analyses, we perform the first study of state-of-the-art commercial and academic named entity linking (NEL) systems, as well as a fine-grained analysis of state-of-the-art summarization models. For NEL, commercial systems struggle to link rare entities and lag their academic counterparts by 10%+, while state-of-the-art summarization models struggle on examples that require abstraction and distillation, degrading by 9%+. Robustness Gym can be found at https://robustnessgym.com/
翻訳日:2021-03-30 08:09:19 公開日:2021-01-13
# 離散最適化に基づく離散知識グラフ埋め込み

Discrete Knowledge Graph Embedding based on Discrete Optimization ( http://arxiv.org/abs/2101.04817v1 )

ライセンス: Link先を確認
Yunqi Li, Shuyuan Xu, Bo Liu, Zuohui Fu, Shuchang Liu, Xu Chen, Yongfeng Zhang(参考訳) 本稿では,従来の連続グラフ埋め込み法において,計算的に抽出可能な離散最適化アルゴリズムに基づいて,KGエンティティと関係をハミング空間に投影する離散知識グラフ埋め込み(DKGE)法を提案する。 DKGEの収束は理論的に保証できる。 大規模な実験により、DKGEは、有効な連続埋め込みを離散コードにマッピングする古典的なハッシュ関数よりも優れた精度を達成することが示された。 さらに、DKGEは、多くの連続グラフ埋め込み法と比較して計算量や記憶量が少なく、同等の精度に達する。

This paper proposes a discrete knowledge graph (KG) embedding (DKGE) method, which projects KG entities and relations into the Hamming space based on a computationally tractable discrete optimization algorithm, to solve the formidable storage and computation cost challenges in traditional continuous graph embedding methods. The convergence of DKGE can be guaranteed theoretically. Extensive experiments demonstrate that DKGE achieves superior accuracy than classical hashing functions that map the effective continuous embeddings into discrete codes. Besides, DKGE reaches comparable accuracy with much lower computational complexity and storage compared to many continuous graph embedding methods.
翻訳日:2021-03-30 08:08:49 公開日:2021-01-13
# ロボットマニピュレーションにおける目標自動発見のための非対称自己再生

Asymmetric self-play for automatic goal discovery in robotic manipulation ( http://arxiv.org/abs/2101.04882v1 )

ライセンス: Link先を確認
OpenAI OpenAI, Matthias Plappert, Raul Sampedro, Tao Xu, Ilge Akkaya, Vineet Kosaraju, Peter Welinder, Ruben D'Sa, Arthur Petron, Henrique P. d.O. Pinto, Alex Paino, Hyeonwoo Noh, Lilian Weng, Qiming Yuan, Casey Chu, Wojciech Zaremba(参考訳) 私たちは、これまで見つからなかったゴールやオブジェクトを含む多くのロボット操作タスクを解決できる、単一の目標条件のポリシーをトレーニングします。 ゴール発見には、アリスとボブという2人のエージェントがゲームをする非対称なセルフプレイに依存しています。 アリスは挑戦的な目標を提案し、ボブはそれを解決しようとする。 この手法は,人間の事前知識を必要とせずに,高度に多様で複雑な目標を発見できることを示す。 なぜなら、アリスとボブの相互作用は自然のカリキュラムとなり、ボブはゴール条件のデモンストレーションとしてリラベルされたときにアリスの軌道から学ぶことができるからである。 その結果、テーブルの設定、ブロックの積み重ね、単純なパズルの解法など、目に見えない多くのタスクに一般化できる単一のポリシーが得られた。 学習したポリシーのビデオはhttps://robotics-self-play.github.ioで閲覧できる。

We train a single, goal-conditioned policy that can solve many robotic manipulation tasks, including tasks with previously unseen goals and objects. We rely on asymmetric self-play for goal discovery, where two agents, Alice and Bob, play a game. Alice is asked to propose challenging goals and Bob aims to solve them. We show that this method can discover highly diverse and complex goals without any human priors. Bob can be trained with only sparse rewards, because the interaction between Alice and Bob results in a natural curriculum and Bob can learn from Alice's trajectory when relabeled as a goal-conditioned demonstration. Finally, our method scales, resulting in a single policy that can generalize to many unseen tasks such as setting a table, stacking blocks, and solving simple puzzles. Videos of a learned policy is available at https://robotics-self-play.github.io.
翻訳日:2021-03-30 08:08:22 公開日:2021-01-13
# ビジョンに基づく自律運転システムの説明可能性:レビューと課題

Explainability of vision-based autonomous driving systems: Review and challenges ( http://arxiv.org/abs/2101.05307v1 )

ライセンス: Link先を確認
\'Eloi Zablocki, H\'edi Ben-Younes, Patrick P\'erez, Matthieu Cord(参考訳) 本調査は,視覚に基づく自動運転システムの説明可能性について検討する。 説明可能性の概念にはいくつかの側面があり、説明可能性の必要性は運転において強い。 コンピュータビジョン、ディープラーニング、自動運転、説明可能なAI(X-AI)など、いくつかの研究分野からのコントリビューションを集め、この調査はいくつかの点に取り組む。 まず、自動運転システムからより解釈可能性と説明可能性を得るための定義、文脈、モチベーションについて論じる。 第2に、自動運転システムを開発するための最先端のアプローチが、すぐに紹介される。 第3に、ポストホック方式でブラックボックス自動運転システムに説明を提供する手法を包括的に整理し、詳述する。 第4に、より解釈可能な自動運転システムを設計により構築することを目的とした文献からのアプローチを提示し、詳述する。 最後に, 残りの開水路と今後の研究方向性を特定し, 検討した。

This survey reviews explainability methods for vision-based self-driving systems. The concept of explainability has several facets and the need for explainability is strong in driving, a safety-critical application. Gathering contributions from several research fields, namely computer vision, deep learning, autonomous driving, explainable AI (X-AI), this survey tackles several points. First, it discusses definitions, context, and motivation for gaining more interpretability and explainability from self-driving systems. Second, major recent state-of-the-art approaches to develop self-driving systems are quickly presented. Third, methods providing explanations to a black-box self-driving system in a post-hoc fashion are comprehensively organized and detailed. Fourth, approaches from the literature that aim at building more interpretable self-driving systems by design are presented and discussed in detail. Finally, remaining open-challenges and potential future research directions are identified and examined.
翻訳日:2021-03-30 08:08:07 公開日:2021-01-13
# hls4mlを用いたFPGA上の高速畳み込みニューラルネットワーク

Fast convolutional neural networks on FPGAs with hls4ml ( http://arxiv.org/abs/2101.05108v1 )

ライセンス: Link先を確認
Thea Aarrestad, Vladimir Loncar, Maurizio Pierini, Sioni Summers, Jennifer Ngadiuba, Christoffer Petersson, Hampus Linander, Yutaro Iiyama, Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Dylan Rankin, Sergo Jindariani, Kevin Pedro, Nhan Tran, Mia Liu, Edward Kreinar, Zhenbin Wu, and Duc Hoang(参考訳) FPGA上に大きな畳み込み層を持つ超低レイテンシで低消費電力のディープニューラルネットワークをデプロイする自動化ツールを導入する。 hls4mlライブラリを拡張することで、畳み込みアーキテクチャを用いて5\,\mu$sの推論遅延を達成し、最先端のモデル性能を維持する方法を示す。 ストリートビューハウス番号データセットで訓練されたベンチマークモデルを考えると、典型的なFPGAデバイスの計算制約に適合するために、モデル圧縮の様々な方法を示す。 特に,プルーニングと量子化対応トレーニングについて論じ,元のモデルの精度を維持しながら資源利用率を90%以上削減できることを示す。

We introduce an automated tool for deploying ultra low-latency, low-power deep neural networks with large convolutional layers on FPGAs. By extending the hls4ml library, we demonstrate how to achieve inference latency of $5\,\mu$s using convolutional architectures, while preserving state-of-the-art model performance. Considering benchmark models trained on the Street View House Numbers Dataset, we demonstrate various methods for model compression in order to fit the computational constraints of a typical FPGA device. In particular, we discuss pruning and quantization-aware training, and demonstrate how resource utilization can be reduced by over 90% while maintaining the original model accuracy.
翻訳日:2021-03-30 08:07:55 公開日:2021-01-13
# 階層型マルチラベル分類のための双曲ラベル埋め込みの合同学習

Joint Learning of Hyperbolic Label Embeddings for Hierarchical Multi-label Classification ( http://arxiv.org/abs/2101.04997v1 )

ライセンス: Link先を確認
Soumya Chatterjee, Ayush Maheshwari, Ganesh Ramakrishnan, Saketha Nath Jagaralpudi(参考訳) ラベルが階層構造にあるマルチラベル分類の問題を考える。 しかしながら、階層的マルチラベル分類の既存の作品の多くとは異なり、ラベル階層性が知られているとは考えていない。 階層的関係を捉えた双曲的埋め込みが最近成功したことを踏まえ,分類器パラメータとラベル埋め込みを共同で学習することを提案する。 このような共同学習は、2つの利点をもたらすことが期待されている: i) 分類器はラベル上の階層の存在に関する事前の知識を活用し、ii) ラベル共起情報に加えて、ラベル埋め込みは入力データポイントの多様体構造から恩恵を受け、ラベル階層に対してより忠実な埋め込みをもたらす。 共同学習のための新しい定式化を提案し,その効果を実証的に評価する。 その結果,共同学習はラベル共起に基づく事前学習型双曲埋め込みを用いたベースラインよりも改善した。 さらに,提案した分類器は標準ベンチマークの最先端の一般化を実現する。 また,共同学習によって得られる双曲的埋め込みの評価を行い,それらが他の方法よりも正確に階層を表すことを示す。

We consider the problem of multi-label classification where the labels lie in a hierarchy. However, unlike most existing works in hierarchical multi-label classification, we do not assume that the label-hierarchy is known. Encouraged by the recent success of hyperbolic embeddings in capturing hierarchical relations, we propose to jointly learn the classifier parameters as well as the label embeddings. Such a joint learning is expected to provide a twofold advantage: i) the classifier generalizes better as it leverages the prior knowledge of existence of a hierarchy over the labels, and ii) in addition to the label co-occurrence information, the label-embedding may benefit from the manifold structure of the input datapoints, leading to embeddings that are more faithful to the label hierarchy. We propose a novel formulation for the joint learning and empirically evaluate its efficacy. The results show that the joint learning improves over the baseline that employs label co-occurrence based pre-trained hyperbolic embeddings. Moreover, the proposed classifiers achieve state-of-the-art generalization on standard benchmarks. We also present evaluation of the hyperbolic embeddings obtained by joint learning and show that they represent the hierarchy more accurately than the other alternatives.
翻訳日:2021-03-30 08:07:29 公開日:2021-01-13
# ニューラルodeを用いた時間知識グラフ予測

Temporal Knowledge Graph Forecasting with Neural ODE ( http://arxiv.org/abs/2101.05151v1 )

ライセンス: Link先を確認
Zifeng Ding, Zhen Han, Yunpu Ma, Volker Tresp(参考訳) 動的に進化するマルチリレーショナルグラフデータに対するノード表現の学習は、大きな研究関心を集めている。 しかし、時間的知識グラフ予測のための既存のモデルのほとんどは、時間的情報を取得するために離散的な深度を持つリカレントニューラルネットワーク(RNN)を使用している。 NODE(Neural Ordinary Differential Equation)に着想を得て,連続体深度モデルの概念を時間発展型マルチリレーショナルグラフデータに拡張し,NODEを用いた新しい時間知識グラフ予測モデルを提案する。 本モデルでは, 時間的情報をNODEおよび構造的情報をグラフニューラルネットワーク(GNN)で取得する。 このように,グラフodeモデルでは連続モデルが実現され,将来予測のためのノード表現を効率的に学習する。 リンク予測を行い、6つの時間的知識グラフデータセット上でモデルを評価する。 実験結果から,本モデルの優位性を示した。

Learning node representation on dynamically-evolving, multi-relational graph data has gained great research interest. However, most of the existing models for temporal knowledge graph forecasting use Recurrent Neural Network (RNN) with discrete depth to capture temporal information, while time is a continuous variable. Inspired by Neural Ordinary Differential Equation (NODE), we extend the idea of continuum-depth models to time-evolving multi-relational graph data, and propose a novel Temporal Knowledge Graph Forecasting model with NODE. Our model captures temporal information through NODE and structural information through a Graph Neural Network (GNN). Thus, our graph ODE model achieves a continuous model in time and efficiently learns node representation for future prediction. We evaluate our model on six temporal knowledge graph datasets by performing link forecasting. Experiment results show the superiority of our model.
翻訳日:2021-03-30 08:07:09 公開日:2021-01-13
# ユーザは会話を楽しみますか? 報酬機能への影響に関する事例研究

Is the User Enjoying the Conversation? A Case Study on the Impact on the Reward Function ( http://arxiv.org/abs/2101.05004v1 )

ライセンス: Link先を確認
Lina M. Rojas-Barahona(参考訳) 政策学習課題指向対話システムにおけるユーザ満足度の影響は、長い間研究対象とされてきた。 ユーザ満足度を推定するための現在のモデルの多くは、(i)製品レビューのようなコンテキスト外のショートテキストを扱うか、(ii)分散意味表現ではなくターン機能に依存している。 本研究では,会話中のユーザの満足度を推定するために,分散意味表現学習を用いたディープニューラルネットワークを採用する。 これらのネットワークにおけるコンテキスト長のモデル化の影響を評価する。 さらに,提案する階層ネットワークが最先端品質推定器を上回っていることを示す。 さらに,これらのネットワークを用いて部分観測可能マルコフ決定プロセス(POMDP)の報酬関数を推定することにより,タスク成功率を大幅に向上することを示す。

The impact of user satisfaction in policy learning task-oriented dialogue systems has long been a subject of research interest. Most current models for estimating the user satisfaction either (i) treat out-of-context short-texts, such as product reviews, or (ii) rely on turn features instead of on distributed semantic representations. In this work we adopt deep neural networks that use distributed semantic representation learning for estimating the user satisfaction in conversations. We evaluate the impact of modelling context length in these networks. Moreover, we show that the proposed hierarchical network outperforms state-of-the-art quality estimators. Furthermore, we show that applying these networks to infer the reward function in a Partial Observable Markov Decision Process (POMDP) yields to a great improvement in the task success rate.
翻訳日:2021-03-30 08:06:55 公開日:2021-01-13
# アンサンブルメンバーは校正されるべきか?

Should Ensemble Members Be Calibrated? ( http://arxiv.org/abs/2101.05397v1 )

ライセンス: Link先を確認
Xixin Wu and Mark Gales(参考訳) 幅広い応用に統計的アプローチを用いることは、統計モデルから得られる確率が、事象または結果が生じる「真の」確率を表すという仮定である。 残念なことに、現代のディープニューラルネットワークでは、これはそうではない。 さらに、これらの深層学習手法は多数のモデルパラメータを使用し、ベイズ近似(英語版)やアンサンブル近似(英語版)を用いてパラメータ推定の問題に対処する。 本稿では,CIFAR-100という標準画像分類タスクにおいて,理論的にも経験的にも深層アンサンブルへのキャリブレーション手法の適用について検討する。 キャリブレーションの基本的な理論的要件と関連するキャリブレーション基準について最初に述べる。 適切に校正されたアンサンブル部材は必ずしも十分に校正されたアンサンブル予測を得られず、もしアンサンブル予測が十分に校正されたとしても、その性能は校正されたアンサンブル部材の平均性能を上回ることはできない。 CIFAR-100では、アンサンブル予測と関連するキャリブレーションに対するキャリブレーションの影響を評価する。 さらに、複数の異なるトポロジを組み合わせる状況についても論じる。

Underlying the use of statistical approaches for a wide range of applications is the assumption that the probabilities obtained from a statistical model are representative of the "true" probability that event, or outcome, will occur. Unfortunately, for modern deep neural networks this is not the case, they are often observed to be poorly calibrated. Additionally, these deep learning approaches make use of large numbers of model parameters, motivating the use of Bayesian, or ensemble approximation, approaches to handle issues with parameter estimation. This paper explores the application of calibration schemes to deep ensembles from both a theoretical perspective and empirically on a standard image classification task, CIFAR-100. The underlying theoretical requirements for calibration, and associated calibration criteria, are first described. It is shown that well calibrated ensemble members will not necessarily yield a well calibrated ensemble prediction, and if the ensemble prediction is well calibrated its performance cannot exceed that of the average performance of the calibrated ensemble members. On CIFAR-100 the impact of calibration for ensemble prediction, and associated calibration is evaluated. Additionally the situation where multiple different topologies are combined together is discussed.
翻訳日:2021-03-30 08:06:01 公開日:2021-01-13
# 車線変化分類のための映像行動認識と周辺車両の予測

Video action recognition for lane-change classification and prediction of surrounding vehicles ( http://arxiv.org/abs/2101.05043v1 )

ライセンス: Link先を確認
Mahdi Biparva, David Fern\'andez-Llorca, Rub\'en Izquierdo-Gonzalo, John K. Tsotsos(参考訳) 高速道路のシナリオでは、アラートの人間ドライバーは、主に視覚情報を使用して、周囲の車両の早期のカット/カットアウト操作を予想する。 自動運転車は安全性と効率を高めるために、これらの状況を早期に予測する必要がある。 本研究では,車線変化認識と予測タスクを映像行動認識問題として提示する。 人間の行動認識に成功している最大4つの異なる2ストリームベースのアプローチは、前方ビデオカメラからの視覚的手がかりを積み重ねて、目標車両の車線変化を認識し予測することによって、ここで適用される。 文脈と観測地平線が性能に及ぼす影響について検討し,予測地平線の違いを分析した。 異なるモデルをトレーニングし、PreVENTIONデータセットを使用して評価する。 その結果, これらの手法が, 1~2秒間の時間地平線において90%以上の精度で周囲車両の車線変化を予測できる可能性を明らかにした。

In highway scenarios, an alert human driver will typically anticipate early cut-in/cut-out maneuvers of surrounding vehicles using visual cues mainly. Autonomous vehicles must anticipate these situations at an early stage too, to increase their safety and efficiency. In this work, lane-change recognition and prediction tasks are posed as video action recognition problems. Up to four different two-stream-based approaches, that have been successfully applied to address human action recognition, are adapted here by stacking visual cues from forward-looking video cameras to recognize and anticipate lane-changes of target vehicles. We study the influence of context and observation horizons on performance, and different prediction horizons are analyzed. The different models are trained and evaluated using the PREVENTION dataset. The obtained results clearly demonstrate the potential of these methodologies to serve as robust predictors of future lane-changes of surrounding vehicles proving an accuracy higher than 90% in time horizons of between 1-2 seconds.
翻訳日:2021-03-30 08:05:07 公開日:2021-01-13
# ウィスパードとロンバルドのニューラル音声合成

Whispered and Lombard Neural Speech Synthesis ( http://arxiv.org/abs/2101.05313v1 )

ライセンス: Link先を確認
Qiong Hu, Tobias Bleisch, Petko Petkov, Tuomo Raitio, Erik Marchi, Varun Lakshminarasimhan(参考訳) 合成音声が提示される環境を考慮し、適切な文脈依存出力をユーザに提供することは、テキスト対音声システムにとって望ましい。 本稿では, 限られたデータのみを用いて, 話し方, 正常, ロンバルド, ささやき声など, 異なる発話スタイルを生成するための様々なアプローチを提示, 比較する。 1) 各スタイルを事前学習し,微調整するシステムを提案する。 2)信号処理に基づくアプローチによるロンバルドとささやき声の変換 3)話者検証モデルに基づく単一モデルを用いたマルチスタイル生成 平均世論スコアとAB選好聴取テストは,(1)すべての話し方に対する事前学習/微調整アプローチにより,高品質な音声を生成できることを示している。 2)我々の話者照合(sv)モデルは,異なる発話スタイルを識別するために明示的に訓練されていないが,このシステムの事前学習にはロンバルドやささやき声は用いられていないが,タコトロンシステムの入力として異なるスタイル埋め込みを生成するためのスタイルエンコーダとして使用できる。 また, 合成ロンバルド音声は, 明瞭度向上に有意な影響を与えることが示された。

It is desirable for a text-to-speech system to take into account the environment where synthetic speech is presented, and provide appropriate context-dependent output to the user. In this paper, we present and compare various approaches for generating different speaking styles, namely, normal, Lombard, and whisper speech, using only limited data. The following systems are proposed and assessed: 1) Pre-training and fine-tuning a model for each style. 2) Lombard and whisper speech conversion through a signal processing based approach. 3) Multi-style generation using a single model based on a speaker verification model. Our mean opinion score and AB preference listening tests show that 1) we can generate high quality speech through the pre-training/fine-tuning approach for all speaking styles. 2) Although our speaker verification (SV) model is not explicitly trained to discriminate different speaking styles, and no Lombard and whisper voice is used for pre-training this system, the SV model can be used as a style encoder for generating different style embeddings as input for the Tacotron system. We also show that the resulting synthetic Lombard speech has a significant positive impact on intelligibility gain.
翻訳日:2021-03-30 08:04:50 公開日:2021-01-13
# 対物推論のための構造化生物学的知識の活用 : ウイルス発生の事例研究

Leveraging Structured Biological Knowledge for Counterfactual Inference: a Case Study of Viral Pathogenesis ( http://arxiv.org/abs/2101.05136v1 )

ライセンス: Link先を確認
Jeremy Zucker, Kaushal Paneri, Sara Mohammad-Taheri, Somya Bhargava, Pallavi Kolambkar, Craig Bakker, Jeremy Teuton, Charles Tapley Hoyt, Kristie Oxford, Robert Ness and Olga Vitek(参考訳) カウンターファクト推論は、複雑なシステムにおける介入の結果を比較するのに有用なツールである。 システムを構造的因果モデルとして表現し、因果図、外因性変数の確率的仮定、機能的代入を完備する必要がある。 このようなモデルを特定することは、実際は非常に困難である。 このプロセスには相当な専門知識が必要で、大規模システムや複数のシステム、新しいシステム修正に容易にスケールできない。 同時に、分子生物学のような多くの応用領域は、自然界で定性的である構造化因果知識に富んでいる。 本書では,因果的生物学的知識グラフを問合せし,質的結果を定量的構造的因果モデルに変換し,その質問に答えるためにデータから学習する手法を提案する。 システム生物学における2つのケーススタディを用いて,本手法の実現可能性,正確性,汎用性を示す。 まず、基礎となる仮定の適切性と結果の正確性を示す。 第2に、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)誘発サイトカイン嵐の分子的決定因子に関する知識ベースを問合せ、重篤な患者に対する医療対策の因果効果を推定する反実的推論を行うことにより、アプローチの汎用性を示す。

Counterfactual inference is a useful tool for comparing outcomes of interventions on complex systems. It requires us to represent the system in form of a structural causal model, complete with a causal diagram, probabilistic assumptions on exogenous variables, and functional assignments. Specifying such models can be extremely difficult in practice. The process requires substantial domain expertise, and does not scale easily to large systems, multiple systems, or novel system modifications. At the same time, many application domains, such as molecular biology, are rich in structured causal knowledge that is qualitative in nature. This manuscript proposes a general approach for querying a causal biological knowledge graph, and converting the qualitative result into a quantitative structural causal model that can learn from data to answer the question. We demonstrate the feasibility, accuracy and versatility of this approach using two case studies in systems biology. The first demonstrates the appropriateness of the underlying assumptions and the accuracy of the results. The second demonstrates the versatility of the approach by querying a knowledge base for the molecular determinants of a severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)-induced cytokine storm, and performing counterfactual inference to estimate the causal effect of medical countermeasures for severely ill patients.
翻訳日:2021-03-30 08:04:29 公開日:2021-01-13
# 分子動力学シミュレーションにおけるランダム・システマティック誤差低減のための学習によるアモルファス高分子電解質のスクリーニングの促進

Accelerating the screening of amorphous polymer electrolytes by learning to reduce random and systematic errors in molecular dynamics simulations ( http://arxiv.org/abs/2101.05339v1 )

ライセンス: Link先を確認
Tian Xie, Arthur France-Lanord, Yanming Wang, Jeffrey Lopez, Michael Austin Stolberg, Megan Hill, Graham Michael Leverick, Rafael Gomez-Bombarelli, Jeremiah A. Johnson, Yang Shao-Horn, Jeffrey C. Grossman(参考訳) 機械学習は材料のスクリーニングを加速するために広く採用されている。 既存の研究の多くは、トレーニングデータは決定論的で偏見のないプロセスによって生成されると暗黙的に仮定しているが、この仮定は複雑な物質のシミュレーションには当てはまらないかもしれない。 本研究では,次世代リチウムイオン電池の候補として有望なアモルファス高分子電解質の遮蔽を目的としているが,その構造的複雑さからシミュレートするコストは極めて高い。 マルチタスクグラフニューラルネットワークは,ノイズの多いバイアスデータと少数の非バイアスデータから学習し,高分子電解質の輸送特性を予測する際にランダムな誤差と系統的な誤差を低減できることを実証する。 この観察により, シミュレーション誤差を低減させるために, 繰り返し高価なシミュレーションを行うのではなく, トレーニングデータの誤差を低減し, 複雑な材料の特性を正確に予測することができる。 このアプローチでは、以前の計算結果よりも桁違いに大きい6247個の高分子電解質の空間をスクリーン化する。 また, 53362 ポリマーと 31 個の実験的実現ポリマーの広い空間から, トップポリマーの補間性能も良好であることがわかった。 この研究で採用された戦略は、複雑な非晶質材料のシミュレーションを含む幅広い種類の物質発見問題に適用できるかもしれない。

Machine learning has been widely adopted to accelerate the screening of materials. Most existing studies implicitly assume that the training data are generated through a deterministic, unbiased process, but this assumption might not hold for the simulation of some complex materials. In this work, we aim to screen amorphous polymer electrolytes which are promising candidates for the next generation lithium-ion battery technology but extremely expensive to simulate due to their structural complexity. We demonstrate that a multi-task graph neural network can learn from a large amount of noisy, biased data and a small number of unbiased data and reduce both random and systematic errors in predicting the transport properties of polymer electrolytes. This observation allows us to achieve accurate predictions on the properties of complex materials by learning to reduce errors in the training data, instead of running repetitive, expensive simulations which is conventionally used to reduce simulation errors. With this approach, we screen a space of 6247 polymer electrolytes, orders of magnitude larger than previous computational studies. We also find a good extrapolation performance to the top polymers from a larger space of 53362 polymers and 31 experimentally-realized polymers. The strategy employed in this work may be applicable to a broad class of material discovery problems that involve the simulation of complex, amorphous materials.
翻訳日:2021-03-30 08:03:46 公開日:2021-01-13
# 未知多様体上のマルチスケール回帰

Multiscale regression on unknown manifolds ( http://arxiv.org/abs/2101.05119v1 )

ライセンス: Link先を確認
Wenjing Liao, Mauro Maggioni and Stefano Vigogna(参考訳) 我々は、$\mathbb{r}^d$ で関数を推定する回帰問題を考えるが、$d$-次元多様体 $ \mathcal{m} \subset \mathbb{r}^d $ でサポートされ、$d \ll d $ である。 多分解能解析と非線形近似からアイデアを導き、$\mathcal{M}$の低次元座標を複数スケールで構築し、局所多項式フィッティングによるマルチスケール回帰を行う。 本研究では,関数の未知の規則性に自動的に適応するデータ駆動型ウェーブレットしきい値決定手法を提案し,異なる位置とスケールで不均一な規則性を示す関数を効率的に推定する。 本手法は,事前のリッチクラスに対して高い確率で有限サンプル境界を証明し,一般化誤差を解析した。 我々の推定器は、函数が既知の次元$d$のユークリッド領域上で定義されているような最適学習率(対数因子まで)を、$\mathbb{R}^D$に埋め込まれた未知多様体の代わりに達成する。 実装されたアルゴリズムはサンプルサイズが準線形で、定数は$D$、指数は$d$である。 そこで本研究では,高次元に埋め込まれた低次元集合に対する回帰のための新しい枠組みを確立し,高速実装と強い理論的保証を実現した。

We consider the regression problem of estimating functions on $\mathbb{R}^D$ but supported on a $d$-dimensional manifold $ \mathcal{M} \subset \mathbb{R}^D $ with $ d \ll D $. Drawing ideas from multi-resolution analysis and nonlinear approximation, we construct low-dimensional coordinates on $\mathcal{M}$ at multiple scales, and perform multiscale regression by local polynomial fitting. We propose a data-driven wavelet thresholding scheme that automatically adapts to the unknown regularity of the function, allowing for efficient estimation of functions exhibiting nonuniform regularity at different locations and scales. We analyze the generalization error of our method by proving finite sample bounds in high probability on rich classes of priors. Our estimator attains optimal learning rates (up to logarithmic factors) as if the function was defined on a known Euclidean domain of dimension $d$, instead of an unknown manifold embedded in $\mathbb{R}^D$. The implemented algorithm has quasilinear complexity in the sample size, with constants linear in $D$ and exponential in $d$. Our work therefore establishes a new framework for regression on low-dimensional sets embedded in high dimensions, with fast implementation and strong theoretical guarantees.
翻訳日:2021-03-30 08:03:25 公開日:2021-01-13
# ガウス過程回帰のための一様誤差と後変境界と安全制御への応用

Uniform Error and Posterior Variance Bounds for Gaussian Process Regression with Application to Safe Control ( http://arxiv.org/abs/2101.05328v1 )

ライセンス: Link先を確認
Armin Lederer, Jonas Umlauft, Sandra Hirche(参考訳) データ生成が高価であるアプリケーション領域では、ガウスプロセスはデータ効率が高いため、教師あり学習モデルが望ましい。 特にモデルベース制御において、ガウス過程は確率的モデル誤差境界を用いた性能保証の導出を可能にする。 これらのアプローチを実際に適用するには、2つのオープンな課題を解決しなければなりません i) 既存のエラー境界は、多くの現実世界のタスクでは利用できない、事前の知識に依存します。 (ii)主にエラーバウンドを駆動するトレーニングデータと後方分散の関係はよく理解されておらず、漸近解析を妨げている。 本稿では、リプシッツ連続性を用いた新しい一様誤差と、大規模カーネルの後方分散関数の解析により、これらの問題に対処する。 さらに,未知力学系の安全な制御を保証するためにこれらの結果をどのように利用できるかを示し,数値的な例を示す。

In application areas where data generation is expensive, Gaussian processes are a preferred supervised learning model due to their high data-efficiency. Particularly in model-based control, Gaussian processes allow the derivation of performance guarantees using probabilistic model error bounds. To make these approaches applicable in practice, two open challenges must be solved i) Existing error bounds rely on prior knowledge, which might not be available for many real-world tasks. (ii) The relationship between training data and the posterior variance, which mainly drives the error bound, is not well understood and prevents the asymptotic analysis. This article addresses these issues by presenting a novel uniform error bound using Lipschitz continuity and an analysis of the posterior variance function for a large class of kernels. Additionally, we show how these results can be used to guarantee safe control of an unknown dynamical system and provide numerical illustration examples.
翻訳日:2021-03-30 08:03:02 公開日:2021-01-13
# 不確定離散時間系の安定化のためのシミュレータを用いた連続Q-Learning

Continuous Deep Q-Learning with Simulator for Stabilization of Uncertain Discrete-Time Systems ( http://arxiv.org/abs/2101.05640v1 )

ライセンス: Link先を確認
Junya Ikemoto and Toshimitsu Ushio(参考訳) 実システムの安定化問題に対する強化学習(RL)の適用は、エージェントが最適な政策を学ぶために多くの経験を必要とし、探索中に危険な行動を決定するため制限される。 実システムの数学的モデルを知っている場合、与えられたシステムパラメータベクトルを持つ数学的モデルを用いて実システムの振る舞いを述語するのでシミュレータは有用である。 実際のシステムとのインタラクションよりも、多くの経験を効率的に収集することができる。 しかし,システムパラメータベクトルを正確に同定することは困難である。 識別エラーが発生した場合、シミュレータによって得られた経験は、学習したポリシーのパフォーマンスを低下させる可能性がある。 そこで本研究では,2段階からなる実用的なRLアルゴリズムを提案する。 最初の段階では、複数のシステムパラメータベクトルを選択する。 次に,仮想システムと呼ばれる各システムパラメータベクトルの数学的モデルを構築する。 連続深層q学習アルゴリズムを用いて,複数の仮想システムに対して最適なq関数を求める。 第2段階では、基底関数が第1段階で学習された最適Q関数である線形近似関数により実システムのQ関数を表現する。 エージェントは実際のシステムとのインタラクションを通じてq関数を学習する。 数値シミュレーションにより,提案手法の有用性を示す。

Applications of reinforcement learning (RL) to stabilization problems of real systems are restricted since an agent needs many experiences to learn an optimal policy and may determine dangerous actions during its exploration. If we know a mathematical model of a real system, a simulator is useful because it predicates behaviors of the real system using the mathematical model with a given system parameter vector. We can collect many experiences more efficiently than interactions with the real system. However, it is difficult to identify the system parameter vector accurately. If we have an identification error, experiences obtained by the simulator may degrade the performance of the learned policy. Thus, we propose a practical RL algorithm that consists of two stages. At the first stage, we choose multiple system parameter vectors. Then, we have a mathematical model for each system parameter vector, which is called a virtual system. We obtain optimal Q-functions for multiple virtual systems using the continuous deep Q-learning algorithm. At the second stage, we represent a Q-function for the real system by a linear approximated function whose basis functions are optimal Q-functions learned at the first stage. The agent learns the Q-function through interactions with the real system online. By numerical simulations, we show the usefulness of our proposed method.
翻訳日:2021-03-30 08:02:48 公開日:2021-01-13
# 深層学習を用いたディジタル標高モデルの強化

Digital Elevation Model enhancement using Deep Learning ( http://arxiv.org/abs/2101.04812v1 )

ライセンス: Link先を確認
Casey Handmer(参考訳) 我々は、光学画像と畳み込みニューラルネットワークを用いた深層学習を用いて、惑星デジタル標高モデル(DEM)の高忠実性向上を示す。 拡張は利用可能な光学データの限界に再帰的に適用することができ、地球規模の火星DEMの90倍の解像度向上を示す。 深層学習に基づくフォトクリノメトリは、非理想的な照明条件によって不明瞭に特徴を回復する。 方法はグローバルスケールで自動化できる。 解析の結果,DEM傾斜誤差は従来の労働集約手法を用いた高分解能マップに匹敵することがわかった。

We demonstrate high fidelity enhancement of planetary digital elevation models (DEMs) using optical images and deep learning with convolutional neural networks. Enhancement can be applied recursively to the limit of available optical data, representing a 90x resolution improvement in global Mars DEMs. Deep learning-based photoclinometry robustly recovers features obscured by non-ideal lighting conditions. Method can be automated at global scale. Analysis shows enhanced DEM slope errors are comparable with high resolution maps using conventional, labor intensive methods.
翻訳日:2021-03-30 08:02:34 公開日:2021-01-13
# 小さな入力ノイズはクエリベースのブラックボックス攻撃を防御するのに十分である

Small Input Noise is Enough to Defend Against Query-based Black-box Attacks ( http://arxiv.org/abs/2101.04829v1 )

ライセンス: Link先を確認
Junyoung Byun, Hyojun Go, Changick Kim(参考訳) ディープニューラルネットワークは、さまざまなタスクで前例のないパフォーマンスを示すが、敵の例に対する脆弱性は、安全クリティカルなシステムへのデプロイを妨げる。 多くの研究により、敵がターゲットモデルの内部情報にアクセスできないブラックボックス設定でも攻撃が可能であることが示されている。 ほとんどのブラックボックス攻撃はクエリに基づいており、それぞれが入力に対するターゲットモデルの出力を取得し、近年では要求されるクエリの数を減らすことに重点を置いている。 本稿では,対象モデルの出力がクエリ入力と正確に一致するという,これらの攻撃の暗黙の仮定に注意する。 この仮定を破るためにモデルにランダム性を導入すると、クエリベースの攻撃は勾配推定と局所探索の両方において非常に困難になる可能性がある。 このモチベーションから、小さな付加的な入力ノイズでもほとんどのクエリベースの攻撃を中和でき、この単純で効果的なアプローチをSND(Small Noise Defense)と呼ぶ。 SNDがクエリベースのブラックボックス攻撃に対してどのように防御できるかを分析し、CIFAR-10とImageNetデータセットによる8種類の最先端攻撃に対してその効果を示す。 強力な防御能力があるにもかかわらず、SNDは元のクリーンな精度と計算速度をほぼ維持している。 SNDは、推論段階で1行のコードのみを追加することで、事前訓練されたモデルに容易に適用できるので、将来的にはクエリベースのブラックボックス攻撃に対する防御のベースラインとして使用されることを期待します。

While deep neural networks show unprecedented performance in various tasks, the vulnerability to adversarial examples hinders their deployment in safety-critical systems. Many studies have shown that attacks are also possible even in a black-box setting where an adversary cannot access the target model's internal information. Most black-box attacks are based on queries, each of which obtains the target model's output for an input, and many recent studies focus on reducing the number of required queries. In this paper, we pay attention to an implicit assumption of these attacks that the target model's output exactly corresponds to the query input. If some randomness is introduced into the model to break this assumption, query-based attacks may have tremendous difficulty in both gradient estimation and local search, which are the core of their attack process. From this motivation, we observe even a small additive input noise can neutralize most query-based attacks and name this simple yet effective approach Small Noise Defense (SND). We analyze how SND can defend against query-based black-box attacks and demonstrate its effectiveness against eight different state-of-the-art attacks with CIFAR-10 and ImageNet datasets. Even with strong defense ability, SND almost maintains the original clean accuracy and computational speed. SND is readily applicable to pre-trained models by adding only one line of code at the inference stage, so we hope that it will be used as a baseline of defense against query-based black-box attacks in the future.
翻訳日:2021-03-30 08:02:27 公開日:2021-01-13
# 画像に基づくマルウェア検出のための解釈型アンサンブル学習に向けて

Towards Interpretable Ensemble Learning for Image-based Malware Detection ( http://arxiv.org/abs/2101.04889v1 )

ライセンス: Link先を確認
Yuzhou Lin, Xiaolin Chang(参考訳) 画像に基づくマルウェア検出のためのディープラーニング(DL)モデルは、高い予測精度を生み出す能力を示した。 しかし、モデル解釈性は、セキュリティおよび安全クリティカルなアプリケーションドメインにおいて、広く応用される上で課題を提起している。 本稿では,画像に基づくマルウェア検出(IEMD)のための解釈可能なアンサンブル学習手法の設計を目的とする。 まず,選択型深絞り学習(SDEL)検出器を提案し,次にEnsemble Deep Taylor Decomposition(EDTD)アプローチを設計し,SDEL検出器の出力にピクセルレベルの説明を与える。 さらに,画素レベルのヒートマップに対する忠実性,ロバスト性,表現性を計算する式を開発し,edtd説明の質を評価する。 EDTD の説明により,SDEL 検出器のトレーニングにより IEMD を確立する新しい解釈型ドロップアウト手法 (IDrop) を開発した。 実験結果は、画像に基づくマルウェア検出の従来の説明方法よりも、EDTDのより良い説明を示す。 さらに実験の結果,IEMDの精度は99.87%まで向上し,高い精度の予測結果が得られた。 さらに,IEMD構築時の検出精度の向上に伴い,IEMDの解釈可能性の向上が示唆された。 この一貫性は、IDropがモデルの解釈可能性と検出精度のトレードオフを軽減することを示唆している。

Deep learning (DL) models for image-based malware detection have exhibited their capability in producing high prediction accuracy. But model interpretability is posing challenges to their widespread application in security and safety-critical application domains. This paper aims for designing an Interpretable Ensemble learning approach for image-based Malware Detection (IEMD). We first propose a Selective Deep Ensemble Learning-based (SDEL) detector and then design an Ensemble Deep Taylor Decomposition (EDTD) approach, which can give the pixel-level explanation to SDEL detector outputs. Furthermore, we develop formulas for calculating fidelity, robustness and expressiveness on pixel-level heatmaps in order to assess the quality of EDTD explanation. With EDTD explanation, we develop a novel Interpretable Dropout approach (IDrop), which establishes IEMD by training SDEL detector. Experiment results exhibit the better explanation of our EDTD than the previous explanation methods for image-based malware detection. Besides, experiment results indicate that IEMD achieves a higher detection accuracy up to 99.87% while exhibiting interpretability with high quality of prediction results. Moreover, experiment results indicate that IEMD interpretability increases with the increasing detection accuracy during the construction of IEMD. This consistency suggests that IDrop can mitigate the tradeoff between model interpretability and detection accuracy.
翻訳日:2021-03-30 08:01:43 公開日:2021-01-13
# 好酸球性食道炎の生検に基づく機械学習による同定と世界的特徴の重要性

Machine learning approach for biopsy-based identification of eosinophilic esophagitis reveals importance of global features ( http://arxiv.org/abs/2101.04989v1 )

ライセンス: Link先を確認
Tomer Czyzewski, Nati Daniel, Mark Rochman, Julie M. Caldwell, Garrett A. Osswald, Margaret H. Collins, Marc E. Rothenberg, and Yonatan Savir(参考訳) ゴール:好酸球性食道炎(EoE)は食道粘膜に好酸球の蓄積を特徴とするアレルギー性炎症性疾患である。 eoe診断には、粘膜生検における好酸球レベルを手動で評価することが含まれる。 このプロセスの自動化における大きな課題の1つは、他の多くの生検ベースの診断と同様に、生検のサイズに対して小さい特徴を検出することである。 結果: 本研究では, 活性型EoE患者の食道生検からヘマトキシリンおよびエオシン含有スライドを用いて, 85%の精度, 82.5%の感度, 87%の感度で食道生検を分類できるディープ畳み込みニューラルネットワーク(DCNN)に基づくプラットフォームを開発した。 さらに,いくつかのダウンスケーリング戦略とクロッピング戦略を組み合わせることで,適切な分類に寄与するいくつかの機能は,特定の局所的特徴よりもグローバルであることを示す。 結論: 食道生検スライドのコンピュータビジョン解析を用いて, 人工知能によるEoEの同定能力について報告する。 さらに、EoEに関連するDCNNの特徴は、局所好酸球だけでなく、グローバルな組織学的変化にも基づいている。 本手法は生検による組織診断に依存する他の病態にも応用できる。

Goal: Eosinophilic esophagitis (EoE) is an allergic inflammatory condition characterized by eosinophil accumulation in the esophageal mucosa. EoE diagnosis includes a manual assessment of eosinophil levels in mucosal biopsies - a time-consuming, laborious task that is difficult to standardize. One of the main challenges in automating this process, like many other biopsy-based diagnostics, is detecting features that are small relative to the size of the biopsy. Results: In this work, we utilized hematoxylin- and eosin-stained slides from esophageal biopsies from patients with active EoE and control subjects to develop a platform based on a deep convolutional neural network (DCNN) that can classify esophageal biopsies with an accuracy of 85%, sensitivity of 82.5%, and specificity of 87%. Moreover, by combining several downscaling and cropping strategies, we show that some of the features contributing to the correct classification are global rather than specific, local features. Conclusions: We report the ability of artificial intelligence to identify EoE using computer vision analysis of esophageal biopsy slides. Further, the DCNN features associated with EoE are based on not only local eosinophils but also global histologic changes. Our approach can be used for other conditions that rely on biopsy-based histologic diagnostics.
翻訳日:2021-03-30 08:01:23 公開日:2021-01-13
# 線形逆問題に対するdaes:証明可能保証による回復の改善

DAEs for Linear Inverse Problems: Improved Recovery with Provable Guarantees ( http://arxiv.org/abs/2101.05130v1 )

ライセンス: Link先を確認
Jasjeet Dhaliwal, Kyle Hambrook(参考訳) 生成先行は線形逆問題における疎度先行よりも改善された結果をもたらすことが示されている。 しかし, (a) 回復速度が遅い, (b) 再建品質が不十分, (c) 再構成品質が計算に高価なハイパーパラメータのチューニングプロセスに付随している,といった欠点が, 現状ではある。 そこで本研究では,denoizing auto encoder (daes) をプリエントとして活用し,元の信号回復のための投影勾配降下アルゴリズムを提案する。 我々は,本手法の厳密な理論的保証と,圧縮センシング,塗布,超解像における工法の現状に対する優位性を実験的に実証する。 我々のアルゴリズムは2桁(100倍以上)のリカバリを高速化し、コンストラクションの質を1桁(10倍以上)向上させ、ハイパーパラメータのチューニングを必要としない。

Generative priors have been shown to provide improved results over sparsity priors in linear inverse problems. However, current state of the art methods suffer from one or more of the following drawbacks: (a) speed of recovery is slow; (b) reconstruction quality is deficient; (c) reconstruction quality is contingent on a computationally expensive process of tuning hyperparameters. In this work, we address these issues by utilizing Denoising Auto Encoders (DAEs) as priors and a projected gradient descent algorithm for recovering the original signal. We provide rigorous theoretical guarantees for our method and experimentally demonstrate its superiority over existing state of the art methods in compressive sensing, inpainting, and super-resolution. We find that our algorithm speeds up recovery by two orders of magnitude (over 100x), improves quality of reconstruction by an order of magnitude (over 10x), and does not require tuning hyperparameters.
翻訳日:2021-03-30 08:01:01 公開日:2021-01-13
# 大規模自己教師モデルによる医用画像分類

Big Self-Supervised Models Advance Medical Image Classification ( http://arxiv.org/abs/2101.05224v1 )

ライセンス: Link先を確認
Shekoofeh Azizi, Basil Mustafa, Fiona Ryan, Zachary Beaver, Jan Freyberg, Jonathan Deaton, Aaron Loh, Alan Karthikesalingam, Simon Kornblith, Ting Chen, Vivek Natarajan, Mohammad Norouzi(参考訳) 自己監督型プレトレーニングと教師付き微調整は、特にラベル付き例が乏しい場合には画像認識に成功しているが、医学的画像分析では注目されていない。 本稿では,医用画像分類のための事前学習戦略として,自己指導型学習の有効性について検討する。 デジタルカメラ画像からの皮膚科皮膚状態分類とマルチラベル胸部x線分類の2つの異なる課題について実験を行い,imagenet上での自己教師付き学習と,ラベルなし領域特異的医用画像に対する自己教師付き学習が医療画像分類器の精度を大幅に向上させることを示した。 本稿では,患者1人あたりの病態の複数の画像を用いて,より情報に富んだポジティブなペアを自己教師型学習のために構築するMICLe法を提案する。 コントリビューションを合わせると,トップ1の精度が6.7%,AUCが1.1%,胸部X線分類が1.1%向上し,ImageNetで事前訓練した強い教師付きベースラインを上回った。 さらに,大規模な自己教師型モデルでは分布シフトに頑健であり,少数のラベル付き医療画像を用いて効率よく学習できることを示す。

Self-supervised pretraining followed by supervised fine-tuning has seen success in image recognition, especially when labeled examples are scarce, but has received limited attention in medical image analysis. This paper studies the effectiveness of self-supervised learning as a pretraining strategy for medical image classification. We conduct experiments on two distinct tasks: dermatology skin condition classification from digital camera images and multi-label chest X-ray classification, and demonstrate that self-supervised learning on ImageNet, followed by additional self-supervised learning on unlabeled domain-specific medical images significantly improves the accuracy of medical image classifiers. We introduce a novel Multi-Instance Contrastive Learning (MICLe) method that uses multiple images of the underlying pathology per patient case, when available, to construct more informative positive pairs for self-supervised learning. Combining our contributions, we achieve an improvement of 6.7% in top-1 accuracy and an improvement of 1.1% in mean AUC on dermatology and chest X-ray classification respectively, outperforming strong supervised baselines pretrained on ImageNet. In addition, we show that big self-supervised models are robust to distribution shift and can learn efficiently with a small number of labeled medical images.
翻訳日:2021-03-30 08:00:44 公開日:2021-01-13
# グローバル注意型局所リカレントネットワークを用いた低コストな時間領域音声分離

Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent Networks ( http://arxiv.org/abs/2101.05014v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu(参考訳) 時間領域音声分離ネットワーク(TasNets)の最近の研究は,音声分離に大きな成功を収めている。 それでも従来のtasnetは、産業アプリケーションにおけるメモリとレイテンシの制約を満たすのに苦労している。 この点において、我々は低コストで高性能なアーキテクチャ、すなわちグローバルな注意的局所再帰(GALR)ネットワークを設計する。 デュアルパスRNN(DPRNN)と同様に、まず特徴系列を2次元セグメントに分割し、その配列をセグメント内次元とセグメント間次元の両方に沿って処理する。 我々の主な革新は、セグメント間次元に沿って繰り返し処理される機能に加えて、GALRはセグメント間次元に沿ったシーケンスに自己アテンション機構を適用し、コンテキスト認識情報を集約し、並列化を可能にします。 実験の結果,GALRは従来よりも優れたネットワークであることが示唆された。 一方、1.5Mのパラメータしか持たず、DPRNNと比較して36.1%のランタイムメモリ、49.4%の計算処理で同等の分離性能を実現している。 一方、DPRNNと同等のモデルサイズであるGALRは、3つのデータセットにおいて一貫してDPRNNを上回り、特にベンチマークWSJ0-2mixタスクにおいて、SI-SNRiを2.4dB絶対的に改善した。

Recent research on the time-domain audio separation networks (TasNets) has brought great success to speech separation. Nevertheless, conventional TasNets struggle to satisfy the memory and latency constraints in industrial applications. In this regard, we design a low-cost high-performance architecture, namely, globally attentive locally recurrent (GALR) network. Alike the dual-path RNN (DPRNN), we first split a feature sequence into 2D segments and then process the sequence along both the intra- and inter-segment dimensions. Our main innovation lies in that, on top of features recurrently processed along the inter-segment dimensions, GALR applies a self-attention mechanism to the sequence along the inter-segment dimension, which aggregates context-aware information and also enables parallelization. Our experiments suggest that GALR is a notably more effective network than the prior work. On one hand, with only 1.5M parameters, it has achieved comparable separation performance at a much lower cost with 36.1% less runtime memory and 49.4% fewer computational operations, relative to the DPRNN. On the other hand, in a comparable model size with DPRNN, GALR has consistently outperformed DPRNN in three datasets, in particular, with a substantial margin of 2.4dB absolute improvement of SI-SNRi in the benchmark WSJ0-2mix task.
翻訳日:2021-03-30 08:00:19 公開日:2021-01-13
# 対人訓練とデータ強化による常識因果推論の改善

Improving Commonsense Causal Reasoning by Adversarial Training and Data Augmentation ( http://arxiv.org/abs/2101.04966v1 )

ライセンス: Link先を確認
Ieva Stali\=unait\.e, Philip John Gorinski, Ignacio Iacobacci(参考訳) 節間の因果関係の可能性を決定することは、複雑な推論能力を必要とする常識推論タスクである。 このタスクに対する一般的なアプローチは、特定のデータセット上で大きな事前学習された言語モデルをトレーニングすることです。 しかし、利用可能なタスクのトレーニングデータは、しばしば不足し、モデルのトレーニングが不安定になるか、データセットの浅い特徴に依存します。 本稿では,因果推論の領域においてモデルをより堅牢にするための多くの手法を提案する。 まず,同義語置換により摂動入力を生成し,逆行訓練を行う。 第2に、談話接続の言語理論に基づいて、大文の因果関係節を検出するための談話パーサと、散逸子を生成するための生成言語モデルを用いてデータ拡張を行う。 どちらの手法も、Compose of Plausible Alternatives (COPA)データセットと、表面的な手がかりを避けるために開発されたオリジナルデータの修正版であるBa balanced COPAデータセットのモデルパフォーマンスを高め、より難しいベンチマークにつながった。 予備生成したデータポイントは少ないが,両データセットのパフォーマンスと堅牢性は統計的に著しく向上した。

Determining the plausibility of causal relations between clauses is a commonsense reasoning task that requires complex inference ability. The general approach to this task is to train a large pretrained language model on a specific dataset. However, the available training data for the task is often scarce, which leads to instability of model training or reliance on the shallow features of the dataset. This paper presents a number of techniques for making models more robust in the domain of causal reasoning. Firstly, we perform adversarial training by generating perturbed inputs through synonym substitution. Secondly, based on a linguistic theory of discourse connectives, we perform data augmentation using a discourse parser for detecting causally linked clauses in large text, and a generative language model for generating distractors. Both methods boost model performance on the Choice of Plausible Alternatives (COPA) dataset, as well as on a Balanced COPA dataset, which is a modified version of the original data that has been developed to avoid superficial cues, leading to a more challenging benchmark. We show a statistically significant improvement in performance and robustness on both datasets, even with only a small number of additionally generated data points.
翻訳日:2021-03-30 07:59:55 公開日:2021-01-13
# ウズベクキキリル-ラチンキリル機械転写

Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration ( http://arxiv.org/abs/2101.05162v1 )

ライセンス: Link先を確認
B. Mansurov and A. Mansurov(参考訳) 本稿では,キリル文字からラテン文字へのウズベク語辞書語翻訳のためのデータ駆動型アプローチを提案する。 我々は、ソーススクリプト内の単語の文字と、ターゲットスクリプト内の対応する単語のサブストリングをヒューリスティックにアライメントし、これらのアライメントを学習する決定木分類器を訓練する。 テストセットでは、キリルからラテンへのモデルは文字レベルのマイクロ平均f1スコア 0.9992、ラテンからキリルへのモデルは 0.9959 のスコアを達成する。 本研究は,低リソースのウズベク語のための機械翻訳テキストを生成する新しい手法である。

In this paper, we introduce a data-driven approach to transliterating Uzbek dictionary words from the Cyrillic script into the Latin script, and vice versa. We heuristically align characters of words in the source script with sub-strings of the corresponding words in the target script and train a decision tree classifier that learns these alignments. On the test set, our Cyrillic to Latin model achieves a character level micro-averaged F1 score of 0.9992, and our Latin to Cyrillic model achieves the score of 0.9959. Our contribution is a novel method of producing machine transliterated texts for the low-resource Uzbek language.
翻訳日:2021-03-30 07:59:35 公開日:2021-01-13
# geoGAT:地理テキスト分類のための注意機構に基づくグラフモデル

geoGAT: Graph Model Based on Attention Mechanism for Geographic Text Classification ( http://arxiv.org/abs/2101.11424v1 )

ライセンス: Link先を確認
Weipeng Jing, Xianyang Song, Donglin Di, Houbing Song(参考訳) 地理情報処理の分野では 地理的テキスト分類の研究はほとんどない。 しかし、中国語でのこの作業の応用は比較的稀である。 本研究は,多数のネットワークテキストから地理的実体を含むテキストを抽出する手法を実装することを目的としている。 これらのテキストの地理情報は、交通、都市計画、農村計画、災害救助などの分野において、非常に実用的なものである。 本稿では,注意機構を有するグラフ畳み込みニューラルネットワークの手法を用いてその機能を実現する。 グラフアテンションネットワークは、グラフ畳み込みニューラルネットワークの改良である。 gcnと比較してgatの利点は、隣接ノードの特性の和を重み付けるために注意機構が提案されていることである。 また,中国語テキスト分類の複数のデータセットから地理的分類を含む中国語データセットを構築する。 使用したジオガットのマクロfスコアは、新しい中国データセットで95\%に達した。

In the area of geographic information processing. There are few researches on geographic text classification. However, the application of this task in Chinese is relatively rare. In our work, we intend to implement a method to extract text containing geographical entities from a large number of network text. The geographic information in these texts is of great practical significance to transportation, urban and rural planning, disaster relief and other fields. We use the method of graph convolutional neural network with attention mechanism to achieve this function. Graph attention networks is an improvement of graph convolutional neural networks. Compared with GCN, the advantage of GAT is that the attention mechanism is proposed to weight the sum of the characteristics of adjacent nodes. In addition, We construct a Chinese dataset containing geographical classification from multiple datasets of Chinese text classification. The Macro-F Score of the geoGAT we used reached 95\% on the new Chinese dataset.
翻訳日:2021-03-30 07:59:21 公開日:2021-01-13
# 多項式時間メタ解釈学習のためのトッププログラムの構築と削減

Top Program Construction and Reduction for polynomial time Meta-Interpretive Learning ( http://arxiv.org/abs/2101.05050v1 )

ライセンス: Link先を確認
Stassa Patsantzis, Stephen H. Muggleton(参考訳) メタ解釈学習者は、ほとんどのILPシステムと同様に、仮説空間における正しい仮説、すべての構成可能な節のパワーセットを探すことで学習する。 この指数関数的に増加する探索が、トッププログラムの構築によってどのように置き換えられるかを示す: 正しい仮説の全ての正しい仮説における節の集合は、それ自体が正しい仮説である。 そこで我々はTopプログラム構築のためのアルゴリズムを提案し、多項式時間と有限個の例から正しいTopプログラムを構築することを示す。 我々はPrologのアルゴリズムを新しいMILシステムであるLouiseの基盤として実装し、Topプログラムを構築し、冗長な節を削除してそれを減らす。 我々は、格子世界ナビゲーション、グラフ接続性、文法学習データセットの実験において、Louiseを最先端の検索ベースMILシステムであるMetagolと比較し、仮説空間とターゲット理論が共に大きい場合、あるいは仮説空間が「分類ノイズ」の形で正しい仮説を含まない場合、LouiseがMetagolの予測精度を改善することを発見した。 仮説空間や対象理論が小さいとき、ルイーズとメタゴールも同様にうまく機能する。

Meta-Interpretive Learners, like most ILP systems, learn by searching for a correct hypothesis in the hypothesis space, the powerset of all constructible clauses. We show how this exponentially-growing search can be replaced by the construction of a Top program: the set of clauses in all correct hypotheses that is itself a correct hypothesis. We give an algorithm for Top program construction and show that it constructs a correct Top program in polynomial time and from a finite number of examples. We implement our algorithm in Prolog as the basis of a new MIL system, Louise, that constructs a Top program and then reduces it by removing redundant clauses. We compare Louise to the state-of-the-art search-based MIL system Metagol in experiments on grid world navigation, graph connectedness and grammar learning datasets and find that Louise improves on Metagol's predictive accuracy when the hypothesis space and the target theory are both large, or when the hypothesis space does not include a correct hypothesis because of "classification noise" in the form of mislabelled examples. When the hypothesis space or the target theory are small, Louise and Metagol perform equally well.
翻訳日:2021-03-30 07:59:10 公開日:2021-01-13
# 接地抽象としてのホルマライジング概念

Formalising Concepts as Grounded Abstractions ( http://arxiv.org/abs/2101.05125v1 )

ライセンス: Link先を確認
Stephen Clark, Alexander Lerchner, Tamara von Glehn, Olivier Tieleman, Richard Tanburn, Misha Dashevskiy, Matko Bosnjak(参考訳) 概念の概念は数世紀にわたって哲学者、言語学者、認知科学者、人工知能の研究者によって研究されてきた(margolis & laurence, 1999)。 概念の形式的、数学的モデルに関する多くの文献があり、aiのすべてのサブフィールド -- 形式的概念分析 -- がこのトピックに捧げられている(ganter & obiedkov, 2016)。 近年、機械学習の研究者は、表現学習から生の知覚データ(higgins, sonnerat, et al., 2018)から概念を誘導する方法について研究を始めた。 本報告の目的は、このディープラーニングにおける最新の研究と互換性のある概念の正式な説明を提供することである。 本報告の主な技術的目標は,表現学習の技法を格子理論による概念空間の定式化と組み合わせることである。 部分順序と格子の数学は、概念空間をモデル化するための標準的なツール(ch.2, mitchell (1997), ganter and obiedkov (2016))であるが、教師なしの深層学習を用いて誘導される表現の上に概念格子を定義する形式的な研究は、我々が気づいていない(goodfellow et al., 2016)。 部分順序格子構造の利点は、これらが格子の交わりと結合を通して概念発見アルゴリズムで使用される自然なメカニズムを提供することである。

The notion of concept has been studied for centuries, by philosophers, linguists, cognitive scientists, and researchers in artificial intelligence (Margolis & Laurence, 1999). There is a large literature on formal, mathematical models of concepts, including a whole sub-field of AI -- Formal Concept Analysis -- devoted to this topic (Ganter & Obiedkov, 2016). Recently, researchers in machine learning have begun to investigate how methods from representation learning can be used to induce concepts from raw perceptual data (Higgins, Sonnerat, et al., 2018). The goal of this report is to provide a formal account of concepts which is compatible with this latest work in deep learning. The main technical goal of this report is to show how techniques from representation learning can be married with a lattice-theoretic formulation of conceptual spaces. The mathematics of partial orders and lattices is a standard tool for modelling conceptual spaces (Ch.2, Mitchell (1997), Ganter and Obiedkov (2016)); however, there is no formal work that we are aware of which defines a conceptual lattice on top of a representation that is induced using unsupervised deep learning (Goodfellow et al., 2016). The advantages of partially-ordered lattice structures are that these provide natural mechanisms for use in concept discovery algorithms, through the meets and joins of the lattice.
翻訳日:2021-03-30 07:58:47 公開日:2021-01-13
# 特徴改善:マイクロ圧縮認識のための表現特異的特徴学習と融合法

Feature refinement: An expression-specific feature learning and fusion method for micro-expression recognition ( http://arxiv.org/abs/2101.04838v1 )

ライセンス: Link先を確認
Ling Zhou, Qirong Mao, Xiaohua Huang, Feifei Zhang, Zhihong Zhang(参考訳) マイクロ表現の微妙な顔変化を抽出することが極めて困難であるため、マイクロ表現認識は困難になっている。 近年,マイクロ表現認識のための表現共有特徴量アルゴリズムが提案されている。 しかし、それらは特定の識別特性を明らかにしておらず、それが準最適性能をもたらす。 本稿では,表現特異的な特徴学習とマイクロ表現認識のための融合による特徴再構成({FR})を提案する。 特定の表現に対して有意かつ差別的な特徴を得ることを目的としており、表現特有の特徴を融合して表現を予測することを目的としている。 FRは、注意機構と分類分岐を備えた式提案モジュールからなる。 まず、開始モジュールを光学的フローに基づいて設計し、表現共有特徴を得る。 第二に、特定の表現に対して有意で差別的な特徴を抽出するために、表現共有された特徴を注意要因と提案損失を伴う式提案モジュールに供給する。 最後に、分類枝において、カテゴリのラベルは、表現特化特徴の融合によって予測される。 3つの公開データベースの実験は、異なるプロトコルの下でFRの有効性を検証する。 公開ベンチマークの結果,我々のfrは,マイクロ表現認識に有意かつ差別的な情報を提供することがわかった。 以上の結果から,従来のマイクロ圧縮認識技術によるFRの性能向上や性能向上が期待できる。

Micro-Expression Recognition has become challenging, as it is extremely difficult to extract the subtle facial changes of micro-expressions. Recently, several approaches proposed several expression-shared features algorithms for micro-expression recognition. However, they do not reveal the specific discriminative characteristics, which lead to sub-optimal performance. This paper proposes a novel Feature Refinement ({FR}) with expression-specific feature learning and fusion for micro-expression recognition. It aims to obtain salient and discriminative features for specific expressions and also predict expression by fusing the expression-specific features. FR consists of an expression proposal module with attention mechanism and a classification branch. First, an inception module is designed based on optical flow to obtain expression-shared features. Second, in order to extract salient and discriminative features for specific expression, expression-shared features are fed into an expression proposal module with attention factors and proposal loss. Last, in the classification branch, labels of categories are predicted by a fusion of the expression-specific features. Experiments on three publicly available databases validate the effectiveness of FR under different protocol. Results on public benchmarks demonstrate that our FR provides salient and discriminative information for micro-expression recognition. The results also show our FR achieves better or competitive performance with the existing state-of-the-art methods on micro-expression recognition.
翻訳日:2021-03-30 07:58:20 公開日:2021-01-13
# ニューラルネットワークを用いた合成交通標識による道路画像の強調

Road images augmentation with synthetic traffic signs using neural networks ( http://arxiv.org/abs/2101.04927v1 )

ライセンス: Link先を確認
Anton Konushin, Boris Faizov, Vlad Shakhuro(参考訳) 交通標識認識はコンピュータビジョンにおいてよく研究されている問題である。 しかし、アートメソッドの状態は、トレーニングデータセットでよく表現されている頻繁な手話クラスにのみ機能する。 稀な交通標識の検出・分類の課題を考察する。 我々は,合成学習データを用いてこの問題を解決しようとする。 このようなトレーニングデータは、実際の写真にサインの合成画像を埋め込むことで得られる。 本稿では,合成標識を外観に整合させる3つの手法を提案する。 これらの手法は現代のgenerative adversarial network (gan) アーキテクチャに基づいている。 提案手法では,トレーニングセットに存在しない希少な交通標識クラスを現実的に組み込むことができる。 画像中の新しい交通標識の正確な位置をサンプリングするために変分オートエンコーダを適用する。 実データと合成データの混合により,分類器と検出器の精度が向上することが実証された。

Traffic sign recognition is a well-researched problem in computer vision. However, the state of the art methods works only for frequent sign classes, which are well represented in training datasets. We consider the task of rare traffic sign detection and classification. We aim to solve that problem by using synthetic training data. Such training data is obtained by embedding synthetic images of signs in the real photos. We propose three methods for making synthetic signs consistent with a scene in appearance. These methods are based on modern generative adversarial network (GAN) architectures. Our proposed methods allow realistic embedding of rare traffic sign classes that are absent in the training set. We adapt a variational autoencoder for sampling plausible locations of new traffic signs in images. We demonstrate that using a mixture of our synthetic data with real data improves the accuracy of both classifier and detector.
翻訳日:2021-03-30 07:57:41 公開日:2021-01-13
# 指紋に基づく大規模重複解消

Large scale deduplication based on fingerprints ( http://arxiv.org/abs/2101.04976v1 )

ライセンス: Link先を確認
Jean Aymar Biyiha Nlend, Ibrahim Moukouop Nguena and Thomas Bouetou Bouetou(参考訳) 指紋ベースのシステムでは、人口増加に伴ってデータベースのサイズが大幅に増加する。 発展途上国では、有権者登録時に中央システムを使うのが難しいため、複数の地方有権者データベースを作成して統合して中央データベースを形成することが多い。 プロセスは重複を取り除き、投票者によって独自性を確保するために使用される。 これまでバイオメトリックスを専門とする企業は、複数の高価な計算サーバとアルゴリズムを使用して、指紋に基づいて大規模な重複解消を行う。 これらのアルゴリズムは、データベースのサイズが n である O (n2) の複雑さのため、かなり時間がかかる。 本稿では,O(2n)での演算をコンピュータで行うアルゴリズムを提案する。 これは、各指紋に対して5×5マトリクスを用いて得られる指標の開発に基づいている。 このインデックスは、指紋を比較するためにO(1)のサイズのクラスタを構築することができる。 この手法は, 約11 4000 個の指紋を用いて評価されており, その結果, 浸透率が 1% 未満, ほぼ o(1) の同定, o (n) の重複が認められていることがわかった。 10万の指紋のベースは、通常のツールの数日とサーバーとは対照的に、2時間以内のコンピュータで複製できる。 キーワード: 指紋、クラスタ、インデックス、重複排除。

In fingerprint-based systems, the size of databases increases considerably with population growth. In developing countries, because of the difficulty in using a central system when enlisting voters, it often happens that several regional voter databases are created and then merged to form a central database. A process is used to remove duplicates and ensure uniqueness by voter. Until now, companies specializing in biometrics use several costly computing servers with algorithms to perform large-scale deduplication based on fingerprints. These algorithms take a considerable time because of their complexity in O (n2), where n is the size of the database. This article presents an algorithm that can perform this operation in O (2n), with just a computer. It is based on the development of an index obtained using a 5 * 5 matrix performed on each fingerprint. This index makes it possible to build clusters of O (1) in size in order to compare fingerprints. This approach has been evaluated using close to 11 4000 fingerprints, and the results obtained show that this approach allows a penetration rate of less than 1%, an almost O (1) identification, and an O (n) deduplication. A base of 10 000 000 fingerprints can be deduplicated with a just computer in less than two hours, contrary to several days and servers for the usual tools. Keywords: fingerprint, cluster, index, deduplication.
翻訳日:2021-03-30 07:57:31 公開日:2021-01-13
# クロスモーダル検索のための確率的埋め込み

Probabilistic Embeddings for Cross-Modal Retrieval ( http://arxiv.org/abs/2101.05068v1 )

ライセンス: Link先を確認
Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio de Rezende, Yannis Kalantidis, Diane Larlus(参考訳) クロスモーダル検索法では、複数のモダリティ、典型的には視覚と言語領域からのサンプルの共通表現空間を構築する。 画像やキャプションについては、対応文の多さが課題を特に難しくしている。 画像(主にキャプション)が与えられると、同じ意味を持つ複数のキャプション(しばしば画像)が存在する。 本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。 代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。 また,COCOなどの一般的なベンチマークでは,クロスモーダルマッチングのための非排他的アノテーションに悩まされているため,CUBデータセットの検索も追加で評価することを提案する。 我々はPCMEを広範囲に短縮し、決定論的手法よりも検索性能を向上するだけでなく、埋め込みをより解釈可能な不確実性の評価も提供することを示した。

Cross-modal retrieval methods build a common representation space for samples from multiple modalities, typically from the vision and the language domains. For images and their captions, the multiplicity of the correspondences makes the task particularly challenging. Given an image (respectively a caption), there are multiple captions (respectively images) that equally make sense. In this paper, we argue that deterministic functions are not sufficiently powerful to capture such one-to-many correspondences. Instead, we propose to use Probabilistic Cross-Modal Embedding (PCME), where samples from the different modalities are represented as probabilistic distributions in the common embedding space. Since common benchmarks such as COCO suffer from non-exhaustive annotations for cross-modal matches, we propose to additionally evaluate retrieval on the CUB dataset, a smaller yet clean database where all possible image-caption pairs are annotated. We extensively ablate PCME and demonstrate that it not only improves the retrieval performance over its deterministic counterpart, but also provides uncertainty estimates that render the embeddings more interpretable.
翻訳日:2021-03-30 07:57:11 公開日:2021-01-13
# 画像ナビゲーションのためのメモリ型強化学習

Memory-Augmented Reinforcement Learning for Image-Goal Navigation ( http://arxiv.org/abs/2101.05181v1 )

ライセンス: Link先を確認
Lina Mezghani, Sainbayar Sukhbaatar, Thibaut Lavril, Oleksandr Maksymets, Dhruv Batra, Piotr Bojanowski, Karteek Alahari(参考訳) 本研究では,視覚現実的な3D環境における画像ゴールナビゲーションの問題に対処する。 このタスクは、以前目にしたことのない環境でターゲットイメージが示す場所にナビゲートすることを含む。 rlベースやslamベースのアプローチを含む初期の試みでは、一般化性能が低かったり、ポーズ/深度センサーに依存していたりしている。 本稿では,クロスエピソードメモリを利用してナビゲートを学ぶ新しい手法を提案する。 まず,ステートエンベディングネットワークを自己教師あり方式でトレーニングし,それをメモリに予め訪問した状態を埋め込む。 オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。 我々は、広範囲な評価を通じてアプローチを検証するとともに、我々のデータ拡張メモリベースのモデルが、挑戦的なGibsonデータセットにおける画像ゴールナビゲーションタスクの新たな状態を確立することを示す。 この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。

In this work, we address the problem of image-goal navigation in the context of visually-realistic 3D environments. This task involves navigating to a location indicated by a target image in a previously unseen environment. Earlier attempts, including RL-based and SLAM-based approaches, have either shown poor generalization performance, or are heavily-reliant on pose/depth sensors. We present a novel method that leverages a cross-episode memory to learn to navigate. We first train a state-embedding network in a self-supervised fashion, and then use it to embed previously-visited states into a memory. In order to avoid overfitting, we propose to use data augmentation on the RGB input during training. We validate our approach through extensive evaluations, showing that our data-augmented memory-based model establishes a new state of the art on the image-goal navigation task in the challenging Gibson dataset. We obtain this competitive performance from RGB input only, without access to additional sensors such as position or depth.
翻訳日:2021-03-30 07:56:52 公開日:2021-01-13
# 粗量子化信号に対するエネルギー効率の良い分散学習アルゴリズム

Energy-Efficient Distributed Learning Algorithms for Coarsely Quantized Signals ( http://arxiv.org/abs/2101.04824v1 )

ライセンス: Link先を確認
A. Danaee, R. C. de Lamare and V. H. Nascimento(参考訳) 本研究では、低解像度のADCと、IoT(Internet of Things)ネットワークのための粗い量子信号を用いたエネルギー効率のよい分散学習フレームワークを提案する。 特に、数ビットで量子化された信号を用いてエネルギー効率の良い方法でパラメータを学習できる分散量子化認識最小平均正方形(dqa-lms)アルゴリズムを開発した。 また,安定性条件を含むDQA-LMSアルゴリズムの統計的解析を行った。 シミュレーションにより、IoTデバイスがピアツーピアモードで動作する分散パラメータ推定タスクにおいて、DQA-LMSアルゴリズムを既存の手法と比較し、DQA-LMSアルゴリズムの有効性を実証する。

In this work, we present an energy-efficient distributed learning framework using low-resolution ADCs and coarsely quantized signals for Internet of Things (IoT) networks. In particular, we develop a distributed quantization-aware least-mean square (DQA-LMS) algorithm that can learn parameters in an energy-efficient fashion using signals quantized with few bits while requiring a low computational cost. We also carry out a statistical analysis of the proposed DQA-LMS algorithm that includes a stability condition. Simulations assess the DQA-LMS algorithm against existing techniques for a distributed parameter estimation task where IoT devices operate in a peer-to-peer mode and demonstrate the effectiveness of the DQA-LMS algorithm.
翻訳日:2021-03-30 07:56:21 公開日:2021-01-13
# gaussian mixed graphics lassoの脳ネットワークにおけるエッジ検出への応用

Gaussian Mixture Graphical Lasso with Application to Edge Detection in Brain Networks ( http://arxiv.org/abs/2101.05348v1 )

ライセンス: Link先を確認
Hang Yin, Xinyue Liu, Xiangnan Kong(参考訳) 疎逆共分散推定(エッジデテクション)は近年重要な研究課題であり、観測されたノードアクティビティに基づいてネットワークシステム内のノードの集合間の直接接続を発見することが目的である。 既存の著作は主に一様分布に焦点を合わせており、観測された活動はアシングルガウス分布(すなわち1つのグラフ)から生成されると仮定されている。 多くの現実世界の応用(例えば脳ネットワークス)において、ノードのアクティビティは通常より複雑なパターンを示し、単一のガウス分布によって捉えるのが困難である。 本研究では、Latent DirichletAllocation (LDA) [4] にインスパイアされ、エッジ検出プロブレムを、それぞれが別々のサブネットワークに対応する多重ガウス分布の混合を推定するものとしてモデル化することを検討する。 この問題を解決するために,GaussianMixture Graphical Lasso (MGL) と呼ばれる新しいモデルを提案する。 それぞれの混合成分とそれらのパラメータによって生成された信号の比率をemフレームワークを介して反復的に学習する。 より解釈可能なネットワークを得るために、MGLはMER(Mutual Exclusivity Regularization)と呼ばれる特別な正規化を課し、異なるサブネットワーク間のオーバーラップを最小限にする。 MERはまた、リードワールドデータセット、すなわちノイズの多い観測と小さなサンプルサイズにおける一般的な問題にも対処する。 合成および実脳のデータセットに関する広範な実験を通じて、MGLは観測されたノード活動から複数の接続構造を効果的に発見できることを示した。

Sparse inverse covariance estimation (i.e., edge de-tection) is an important research problem in recent years, wherethe goal is to discover the direct connections between a set ofnodes in a networked system based upon the observed nodeactivities. Existing works mainly focus on unimodal distributions,where it is usually assumed that the observed activities aregenerated from asingleGaussian distribution (i.e., one graph).However, this assumption is too strong for many real-worldapplications. In many real-world applications (e.g., brain net-works), the node activities usually exhibit much more complexpatterns that are difficult to be captured by one single Gaussiandistribution. In this work, we are inspired by Latent DirichletAllocation (LDA) [4] and consider modeling the edge detectionproblem as estimating a mixture ofmultipleGaussian distribu-tions, where each corresponds to a separate sub-network. Toaddress this problem, we propose a novel model called GaussianMixture Graphical Lasso (MGL). It learns the proportionsof signals generated by each mixture component and theirparameters iteratively via an EM framework. To obtain moreinterpretable networks, MGL imposes a special regularization,called Mutual Exclusivity Regularization (MER), to minimize theoverlap between different sub-networks. MER also addresses thecommon issues in read-world data sets,i.e., noisy observationsand small sample size. Through the extensive experiments onsynthetic and real brain data sets, the results demonstrate thatMGL can effectively discover multiple connectivity structuresfrom the observed node activities
翻訳日:2021-03-30 07:56:09 公開日:2021-01-13
# レーザー粉体融合添加物製造におけるポロシティ解析のための物理インフォームド機械学習モデル

A Physics-Informed Machine Learning Model for Porosity Analysis in Laser Powder Bed Fusion Additive Manufacturing ( http://arxiv.org/abs/2101.05605v1 )

ライセンス: Link先を確認
Rui Liu and Sen Liu and Xiaoli Zhang(参考訳) 部品品質の制御には, 細孔発生機構の解析が不可欠であり, 将来的な細孔制御の理論的基礎を定めている。 現在のポロシティ分析モデルは、レーザーアングルや部分ポーズなどのマシン設定パラメータを使用する。 しかし、これらの設定ベースモデルは機械に依存しているため、しばしば異なる機械のポロシティの分析に移行しない。 最初の問題に対処するため、PIM(Physical-informed, data-driven model)は、機械設定パラメータを直接使用して印刷部品のポロシティレベルを予測する代わりに、まず機械設定をレーザーエネルギー密度やレーザー放射圧などの物理的効果に解釈する。 次に、これらの物理的、マシンに依存しない効果は、定量的な孔径予測ではなく、パス、フラグ、フェールカテゴリに従ってポロシティレベルを予測するために使用される。 6つの学習方法の評価により, PIMは10$\sim$26%の予測誤差で良好な性能を示した。 最後に, 品質解析のために, 細孔効果と細孔抑制効果を解析した。

To control part quality, it is critical to analyze pore generation mechanisms, laying theoretical foundation for future porosity control. Current porosity analysis models use machine setting parameters, such as laser angle and part pose. However, these setting-based models are machine dependent, hence they often do not transfer to analysis of porosity for a different machine. To address the first problem, a physics-informed, data-driven model (PIM), which instead of directly using machine setting parameters to predict porosity levels of printed parts, it first interprets machine settings into physical effects, such as laser energy density and laser radiation pressure. Then, these physical, machine independent effects are used to predict porosity levels according to pass, flag, fail categories instead of focusing on quantitative pore size prediction. With six learning methods evaluation, PIM proved to achieve good performances with prediction error of 10$\sim$26%. Finally, pore-encouraging influence and pore-suppressing influence were analyzed for quality analysis.
翻訳日:2021-03-30 07:55:42 公開日:2021-01-13
# 時系列における非目標・目標・普遍的敵攻撃・防衛

Untargeted, Targeted and Universal Adversarial Attacks and Defenses on Time Series ( http://arxiv.org/abs/2101.05639v1 )

ライセンス: Link先を確認
Pradeep Rathore, Arghya Basak, Sri Harsha Nistala, Venkataramana Runkana(参考訳) ディープラーニングベースのモデルは、敵攻撃に対して脆弱である。 これらの攻撃は、攻撃者がディープラーニングモデルを騙すだけでなく、特定のクラスを予測するためにモデルを誤認識しようとする場合、より有害である可能性がある。 このような標的または目標外の攻撃は、個々のサンプルのために特別に調整され、サンプルに不可避なノイズを追加する必要がある。 対照的に、普遍的敵対攻撃は、与えられたデータセットの任意のサンプルに追加できる特別な知覚不能ノイズを計算し、深層学習モデルが間違ったクラスを予測せざるを得ない。 我々の知る限り、これらの時系列データに対する標的的で普遍的な攻撃は、これまでのどの研究でも研究されていない。 本研究では,UCR時系列データセットに対して,対象外,対象外,普遍的攻撃を行った。 これらの攻撃に対して,ディープラーニングに基づく時系列分類モデルが脆弱であることを示す。 また、トレーニングデータのごく一部しか必要とせず、普遍的敵攻撃は優れた一般化特性を有することを示す。 また,対人訓練による対人防御も行った。 その結果,一段階攻撃であるfast gradient sign method (fgsm) を用いて対向的に訓練されたモデルでは,一般的な反復攻撃である basic iterative method (bim) と同様に,fgsm に対する防御が可能であることがわかった。

Deep learning based models are vulnerable to adversarial attacks. These attacks can be much more harmful in case of targeted attacks, where an attacker tries not only to fool the deep learning model, but also to misguide the model to predict a specific class. Such targeted and untargeted attacks are specifically tailored for an individual sample and require addition of an imperceptible noise to the sample. In contrast, universal adversarial attack calculates a special imperceptible noise which can be added to any sample of the given dataset so that, the deep learning model is forced to predict a wrong class. To the best of our knowledge these targeted and universal attacks on time series data have not been studied in any of the previous works. In this work, we have performed untargeted, targeted and universal adversarial attacks on UCR time series datasets. Our results show that deep learning based time series classification models are vulnerable to these attacks. We also show that universal adversarial attacks have good generalization property as it need only a fraction of the training data. We have also performed adversarial training based adversarial defense. Our results show that models trained adversarially using Fast gradient sign method (FGSM), a single step attack, are able to defend against FGSM as well as Basic iterative method (BIM), a popular iterative attack.
翻訳日:2021-03-30 07:55:26 公開日:2021-01-13
# AI開発者が多分野チームにおけるコミュニケーション上の課題を克服する方法:ケーススタディ

How AI Developers Overcome Communication Challenges in a Multidisciplinary Team: A Case Study ( http://arxiv.org/abs/2101.06098v1 )

ライセンス: Link先を確認
David Piorkowski, Soya Park, April Yi Wang, Dakuo Wang, Michael Muller, Felix Portnoy(参考訳) aiアプリケーションの開発は、複数の分野にわたる取り組みであり、ai開発者と協力する複数の役割、データサイエンティストを含むための包括的用語、および同じチームにおける他のai関連の役割を含む。 これらのコラボレーションの間に、データサイエンスに熟練したAI開発者と、通常はそうでない外部ステークホルダとの間には、知識のミスマッチがあります。 この違いはコミュニケーションのギャップを招き、AI開発者はコラボレータにデータサイエンスの概念を説明することに失敗する。 本稿では,AI開発者へのインタビューとコミュニケーションのために作成したアーティファクトの両方の分析を含む研究について報告する。 共有精神モデルの分析レンズを用いて、AI開発者が直面するコミュニケーションギャップの種類、AI開発者が規律や組織の境界を越えてコミュニケーションする方法、信頼と期待に関する問題を同時に管理する方法を報告します。

The development of AI applications is a multidisciplinary effort, involving multiple roles collaborating with the AI developers, an umbrella term we use to include data scientists and other AI-adjacent roles on the same team. During these collaborations, there is a knowledge mismatch between AI developers, who are skilled in data science, and external stakeholders who are typically not. This difference leads to communication gaps, and the onus falls on AI developers to explain data science concepts to their collaborators. In this paper, we report on a study including analyses of both interviews with AI developers and artifacts they produced for communication. Using the analytic lens of shared mental models, we report on the types of communication gaps that AI developers face, how AI developers communicate across disciplinary and organizational boundaries, and how they simultaneously manage issues regarding trust and expectations.
翻訳日:2021-03-30 07:54:59 公開日:2021-01-13
# ネットワークマイクログリッドの神経受容性

Neuro-Reachability of Networked Microgrids ( http://arxiv.org/abs/2101.05159v1 )

ライセンス: Link先を確認
Yifan Zhou, Peng Zhang(参考訳) ニューラル常微分方程式ネットワーク(ODE-Net)を用いた到達可能性法(Neuro-Reachability)は,未同定サブシステムと不均一不確実性を有するネットワークマイクログリッド(NM)の動的検証のために考案された。 1)NMsシステムの非線形および微分構造を保存したデータ駆動状態空間モデルを構築するためのODENet対応動的モデル探索手法,2)物理データ統合(PDI)NMsモデルの構築,3)PDI駆動動的検証の信頼性を高めるために適合性を利用した到達性解析を開発した。 大規模ケーススタディでは、マイクログリッド動的モデル発見におけるODE-Net対応手法の有効性と、複数の不確実性および様々な運用シナリオ下でのNMsダイナミックスの検証におけるNeuro-Reachabilityアプローチの有効性が示されている。

A neural ordinary differential equations network (ODE-Net)-enabled reachability method (Neuro-Reachability) is devised for the dynamic verification of networked microgrids (NMs) with unidentified subsystems and heterogeneous uncertainties. Three new contributions are presented: 1) An ODENet-enabled dynamic model discovery approach is devised to construct the data-driven state-space model which preserves the nonlinear and differential structure of the NMs system; 2) A physics-data-integrated (PDI) NMs model is established, which empowers various NM analytics; and 3) A conformance-empowered reachability analysis is developed to enhance the reliability of the PDI-driven dynamic verification. Extensive case studies demonstrate the efficacy of the ODE-Net-enabled method in microgrid dynamic model discovery, and the effectiveness of the Neuro-Reachability approach in verifying the NMs dynamics under multiple uncertainties and various operational scenarios.
翻訳日:2021-03-30 07:54:43 公開日:2021-01-13
# ビデオスナップショット圧縮イメージングのためのプラグアンドプレイアルゴリズム

Plug-and-Play Algorithms for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2101.04822v1 )

ライセンス: Link先を確認
Xin Yuan, Yang Liu, Jinli Suo, Fr\'edo Durand, Qionghai Dai(参考訳) 本稿では,低速2次元センサ(検出器)を用いて高速映像を撮影するビデオスナップショット圧縮画像(SCI)の再構成問題を考察する。 SCIの基本的な原理は、異なるマスクでシーケンシャルな高速フレームを変調し、次にこれらの符号化されたフレームをセンサー上のスナップショットに統合することで、センサーを低速にすることができる。 一方、ビデオSCIは低帯域幅、低消費電力、低コストの利点を享受している。 一方、私たちの日常生活における大規模問題(HDやUHDビデオ)にSCIを適用することは依然として困難であり、そのボトルネックの1つは再構築アルゴリズムにある。 出口アルゴリズムは遅すぎる(反復最適化アルゴリズム)か、エンコーディングプロセス(ディープラーニングベースのエンドツーエンドネットワーク)に柔軟性がない。 本稿では,プラグイン・アンド・プレイ(PnP)フレームワークに基づく高速かつ柔軟なSCIアルゴリズムを開発する。 PnP-ADMM法に加えて,計算負荷の少ないPnP-GAPアルゴリズムを提案する。 まず,画像の奥行き変化に先立って,pnpが30フレームのuhdカラー映像をスナップショット計測から復元できることを示す。 ビデオは時間的相関が強いので,ビデオの深いデノイジングプリミティブを用いることで,結果の大幅な改善を実現する。 さらに,提案したPnPアルゴリズムをモザイクセンサを用いたカラーSCIシステムに拡張し,各画素が赤,緑,青のチャネルのみをキャプチャする。 カラービデオSCIシステムのフレキシブルで高品質な再構成を実現するために,共同再構成・復調パラダイムを開発した。 シミュレーションと実データの両方の広範な結果から,提案アルゴリズムの優越性が検証された。

We consider the reconstruction problem of video snapshot compressive imaging (SCI), which captures high-speed videos using a low-speed 2D sensor (detector). The underlying principle of SCI is to modulate sequential high-speed frames with different masks and then these encoded frames are integrated into a snapshot on the sensor and thus the sensor can be of low-speed. On one hand, video SCI enjoys the advantages of low-bandwidth, low-power and low-cost. On the other hand, applying SCI to large-scale problems (HD or UHD videos) in our daily life is still challenging and one of the bottlenecks lies in the reconstruction algorithm. Exiting algorithms are either too slow (iterative optimization algorithms) or not flexible to the encoding process (deep learning based end-to-end networks). In this paper, we develop fast and flexible algorithms for SCI based on the plug-and-play (PnP) framework. In addition to the PnP-ADMM method, we further propose the PnP-GAP (generalized alternating projection) algorithm with a lower computational workload. We first employ the image deep denoising priors to show that PnP can recover a UHD color video with 30 frames from a snapshot measurement. Since videos have strong temporal correlation, by employing the video deep denoising priors, we achieve a significant improvement in the results. Furthermore, we extend the proposed PnP algorithms to the color SCI system using mosaic sensors, where each pixel only captures the red, green or blue channels. A joint reconstruction and demosaicing paradigm is developed for flexible and high quality reconstruction of color video SCI systems. Extensive results on both simulation and real datasets verify the superiority of our proposed algorithm.
翻訳日:2021-03-30 07:54:27 公開日:2021-01-13
# 深部残存u-netアーキテクチャに基づく尿管内視鏡像のルーメンセグメンテーション法

A Lumen Segmentation Method in Ureteroscopy Images based on a Deep Residual U-Net architecture ( http://arxiv.org/abs/2101.05021v1 )

ライセンス: Link先を確認
Jorge F. Lazo, Aldo Marzullo, Sara Moccia, Michele Catellani, Benoit Rosa, Michel de Mathelin, Elena De Momi(参考訳) 尿管鏡は、尿中愛着の大多数に対して、最初の外科的治療の選択肢となっている。 この手順は、外科医に尿道内をナビゲートするために必要な視覚情報を提供する内視鏡を用いて実行される。 外科的補助システムの開発を念頭において, 内視鏡が従うべき経路を示す視覚的な基準であるため, ルーメンセグメンテーションの課題は基本的な部分である。 これは、これまで尿管内視鏡データで分析されていないものです。 しかし, この課題は, 尿管鏡検査の画質と条件を考慮に入れたいくつかの課題を提起する。 本稿では,U-Netに基づくアーキテクチャにおける残余単位の利点を利用したディープニューラルネットワークの実装について検討する。 これらのネットワークのトレーニングのために、グレースケールとRGBデータイメージの2つの異なる色空間の使用を分析する。 その結果, 灰色スケール画像のトレーニングは, それぞれ0.73, 0.58, 0.92のサイコロスコア, 精度, およびリコールの平均値が得られた。 その結果,尿路を通したナビゲーションおよび誘導のためのコンピュータ支援システムの開発に,残留u-netの使用が適したモデルとなる可能性が示唆された。

Ureteroscopy is becoming the first surgical treatment option for the majority of urinary affections. This procedure is performed using an endoscope which provides the surgeon with the visual information necessary to navigate inside the urinary tract. Having in mind the development of surgical assistance systems, that could enhance the performance of surgeon, the task of lumen segmentation is a fundamental part since this is the visual reference which marks the path that the endoscope should follow. This is something that has not been analyzed in ureteroscopy data before. However, this task presents several challenges given the image quality and the conditions itself of ureteroscopy procedures. In this paper, we study the implementation of a Deep Neural Network which exploits the advantage of residual units in an architecture based on U-Net. For the training of these networks, we analyze the use of two different color spaces: gray-scale and RGB data images. We found that training on gray-scale images gives the best results obtaining mean values of Dice Score, Precision, and Recall of 0.73, 0.58, and 0.92 respectively. The results obtained shows that the use of residual U-Net could be a suitable model for further development for a computer-aided system for navigation and guidance through the urinary system.
翻訳日:2021-03-30 07:53:45 公開日:2021-01-13
# 比較的怠け者: vision と gnss を用いた屋内外ナビゲーション

Relatively Lazy: Indoor-Outdoor Navigation Using Vision and GNSS ( http://arxiv.org/abs/2101.05107v1 )

ライセンス: Link先を確認
Benjamin Congram and Timothy D. Barfoot(参考訳) Visual Teach and Repeat (VT&R)は、困難な環境での自律的な視覚ベースのパスに対する、相対的なナビゲーションが堅牢で効率的なソリューションであることを示した。 グローバルナビゲーション衛星システム(gnss)のような追加の絶対センサーを追加することで、vt&rの領域を視覚的にローカライズする能力が保証されない環境に拡大する可能性がある。 経路追従誤差が必要とされるまで遅延写像と遅延推定の手法は絶対状態を推定する必要がない。 その結果、マップの最適化は不要であり、教えられた直後にパスを駆動することができる。 様々な照明条件にまたがる3.5kmの自律走行路を含む屋内・屋外共同環境で実験を行い,実際のロボットに対するアプローチを検証する。 センサ毎に大量のドロップアウトがあるにも関わらず,スムーズなエラー信号を実現する。

Visual Teach and Repeat (VT&R) has shown relative navigation is a robust and efficient solution for autonomous vision-based path following in difficult environments. Adding additional absolute sensors such as Global Navigation Satellite Systems (GNSS) has the potential to expand the domain of VT&R to environments where the ability to visually localize is not guaranteed. Our method of lazy mapping and delaying estimation until a path-tracking error is needed avoids the need to estimate absolute states. As a result, map optimization is not required and paths can be driven immediately after being taught. We validate our approach on a real robot through an experiment in a joint indoor-outdoor environment comprising 3.5km of autonomous route repeating across a variety of lighting conditions. We achieve smooth error signals throughout the runs despite large sections of dropout for each sensor.
翻訳日:2021-03-30 07:53:29 公開日:2021-01-13
# 微分型レイトレーシングによる実用的顔再建

Practical Face Reconstruction via Differentiable Ray Tracing ( http://arxiv.org/abs/2101.05356v1 )

ライセンス: Link先を確認
Abdallah Dib, Gaurav Bharaj, Junghyun Ahn, C\'edric Th\'ebault, Philippe-Henri Gosselin, Marco Romeo, Louis Chevallier(参考訳) 本研究では,3次元形状,反射率(拡散,鏡面および粗さ),ポーズ,カメラパラメータ,およびシーン照明などの特徴を,無拘束単眼画像から推定する,微分可能なレイトレーシングに基づく新しい顔再構成手法を提案する。 提案手法は, 顔再構成のための粗大な最適化式を導入し, パラメータ化された仮想光ステージによるシーン照明をモデル化する。 本手法は,無拘束照明や自己シャドウ条件を処理できるだけでなく,拡散および鏡面アルベドを推定できる。 顔属性を一貫して実用的な意味論的に推定するために、2段階最適化戦略はパラメトリック属性のサブセットを体系的に使用する。 例えば、自己陰影は第1段階で推定され、後に第2段階におけるパーソナライズされた拡散と特異なアルベドへの焼き込みを防ぐ。 本手法は,過度な照明条件下でも顔属性を推定できる実世界シナリオでの有効性を示す。 近年の最先端手法に対するアブレーション研究,解析,比較の結果,提案手法の精度と汎用性は向上した。 一貫性のある顔属性の再構成により,本手法は照明,アルベド,自己陰影といった様々なスタイルのアプリケーションの作成と転送を行う。

We present a differentiable ray-tracing based novel face reconstruction approach where scene attributes - 3D geometry, reflectance (diffuse, specular and roughness), pose, camera parameters, and scene illumination - are estimated from unconstrained monocular images. The proposed method models scene illumination via a novel, parameterized virtual light stage, which in-conjunction with differentiable ray-tracing, introduces a coarse-to-fine optimization formulation for face reconstruction. Our method can not only handle unconstrained illumination and self-shadows conditions, but also estimates diffuse and specular albedos. To estimate the face attributes consistently and with practical semantics, a two-stage optimization strategy systematically uses a subset of parametric attributes, where subsequent attribute estimations factor those previously estimated. For example, self-shadows estimated during the first stage, later prevent its baking into the personalized diffuse and specular albedos in the second stage. We show the efficacy of our approach in several real-world scenarios, where face attributes can be estimated even under extreme illumination conditions. Ablation studies, analyses and comparisons against several recent state-of-the-art methods show improved accuracy and versatility of our approach. With consistent face attributes reconstruction, our method leads to several style -- illumination, albedo, self-shadow -- edit and transfer applications, as discussed in the paper.
翻訳日:2021-03-30 07:53:15 公開日:2021-01-13
# eコマース検索におけるディープセマンティクスマッチングのためのヘテロジニアスネットワーク埋め込み

Heterogeneous Network Embedding for Deep Semantic Relevance Match in E-commerce Search ( http://arxiv.org/abs/2101.04850v1 )

ライセンス: Link先を確認
Ziyang Liu, Zhaomeng Cheng, Yunjiang Jiang, Yue Shang, Wei Xiong, Sulong Xu, Bo Long, Di Jin(参考訳) 検索結果の妥当性予測は,検索エンジンの利便性を高め,ユーザエクスペリエンスを円滑に確保するために,eコマース検索エンジンにとって不可欠な課題である。 ここ数年、トランスフォーマースタイルのモデルと深いテキストマッチングモデルを使って関連性を高める研究が相次いだ。 しかし、これらの2種類のモデルは、電子商取引の検索ログにユビキタスに存在する2部ネットワーク構造を無視しており、これらのモデルは非効率である。 本稿では,従来の一階関係とは根本的に異なる2階関係を新たに提案し,結果の関連性を予測する。 我々は、eコマースアイテムの関連性に対するエンドツーエンドのファースト・アンド・セブンド・オーディエンス・レバレンス予測モデルを初めて設計する。 このモデルは、クリックや購入を含むユーザの行動フィードバックの情報を用いて構築されたバイパートイトネットワークの近傍構造によって強化される。 エッジが関連情報を正確にエンコードすることを保証するため,BERTから生成された外部知識を導入し,ユーザ行動のネットワークを改良する。 これにより、新しいモデルが、考慮中のフォーカスクエリ-テーマペアに非常に関係のある、隣り合う項目とクエリからの情報を統合できるようになる。 オフライン実験の結果,新しいモデルにより,人間関係判定における予測精度が有意に向上した。 アブレーション研究では、一階と二階のモデルは一階のモデルよりも平均4.3%向上した。 オンラインa/bテストの結果、この新しいモデルはベースモデルよりも商業的利益を導き出した。

Result relevance prediction is an essential task of e-commerce search engines to boost the utility of search engines and ensure smooth user experience. The last few years eyewitnessed a flurry of research on the use of Transformer-style models and deep text-match models to improve relevance. However, these two types of models ignored the inherent bipartite network structures that are ubiquitous in e-commerce search logs, making these models ineffective. We propose in this paper a novel Second-order Relevance, which is fundamentally different from the previous First-order Relevance, to improve result relevance prediction. We design, for the first time, an end-to-end First-and-Second-order Relevance prediction model for e-commerce item relevance. The model is augmented by the neighborhood structures of bipartite networks that are built using the information of user behavioral feedback, including clicks and purchases. To ensure that edges accurately encode relevance information, we introduce external knowledge generated from BERT to refine the network of user behaviors. This allows the new model to integrate information from neighboring items and queries, which are highly relevant to the focus query-item pair under consideration. Results of offline experiments showed that the new model significantly improved the prediction accuracy in terms of human relevance judgment. An ablation study showed that the First-and-Second-order model gained a 4.3% average gain over the First-order model. Results of an online A/B test revealed that the new model derived more commercial benefits compared to the base model.
翻訳日:2021-03-30 07:52:49 公開日:2021-01-13
# ディープニューラルネットワークを用いたブラックボックスソフトウェアの行動モデル推論

Behavioral Model Inference of Black-box Software using Deep Neural Networks ( http://arxiv.org/abs/2101.04948v1 )

ライセンス: Link先を確認
Mohammad Jafar Mashhadi, Foozhan Ataiefard, Hadi Hemmati and Niel Walkinshaw(参考訳) テストや異常検出といった多くのソフトウェアエンジニアリングタスクは、ソフトウェアの振る舞いモデルを推論する能力から恩恵を受ける可能性がある。 本稿では,分析対象のシステムをこの粒度的に計測できないブラックボックスシナリオについて検討し,このシナリオは連続的な信号の形で制御システムのログ解析に特に有効である。 この状況では、実行トレースは入力信号と出力信号の多変量時系列に比例し、システムの異なる状態が時系列内の異なる「フェーズ」に対応する。 主な課題は、これらのフェーズがいつ変化するかを検出することである。 Unfortunately, most existing solutions are either univariate, make assumptions on the data distribution, or have limited learning power.Therefore, we propose a hybrid deep neural network that accepts as input a multivariate time series and applies a set of convolutional and recurrent layers to learn the non-linear correlations between signals and the patterns over time.We show how this approach can be used to accurately detect state changes, and how the inferred models can be successfully applied to transfer-learning scenarios, to accurately process traces from different products with similar execution characteristics. Our experimental results on two UAV autopilot case studies indicate that our approach is highly accurate (over 90% F1 score for state classification) and significantly improves baselines (by up to 102% for change point detection).Using transfer learning we also show that up to 90% of the maximum achievable F1 scores in the open-source case study can be achieved by reusing the trained models from the industrial case and only fine tuning them using as low as 5 labeled samples, which reduces the manual labeling effort by 98%.

Many software engineering tasks, such as testing, and anomaly detection can benefit from the ability to infer a behavioral model of the software.Most existing inference approaches assume access to code to collect execution sequences. In this paper, we investigate a black-box scenario, where the system under analysis cannot be instrumented, in this granular fashion.This scenario is particularly prevalent with control systems' log analysis in the form of continuous signals. In this situation, an execution trace amounts to a multivariate time-series of input and output signals, where different states of the system correspond to different `phases` in the time-series. The main challenge is to detect when these phase changes take place. Unfortunately, most existing solutions are either univariate, make assumptions on the data distribution, or have limited learning power.Therefore, we propose a hybrid deep neural network that accepts as input a multivariate time series and applies a set of convolutional and recurrent layers to learn the non-linear correlations between signals and the patterns over time.We show how this approach can be used to accurately detect state changes, and how the inferred models can be successfully applied to transfer-learning scenarios, to accurately process traces from different products with similar execution characteristics. Our experimental results on two UAV autopilot case studies indicate that our approach is highly accurate (over 90% F1 score for state classification) and significantly improves baselines (by up to 102% for change point detection).Using transfer learning we also show that up to 90% of the maximum achievable F1 scores in the open-source case study can be achieved by reusing the trained models from the industrial case and only fine tuning them using as low as 5 labeled samples, which reduces the manual labeling effort by 98%.
翻訳日:2021-03-30 07:52:23 公開日:2021-01-13
# 時間的テキストネットワークにおける重複コミュニティ検出

Overlapping Community Detection in Temporal Text Networks ( http://arxiv.org/abs/2101.05137v1 )

ライセンス: Link先を確認
Shuhan Yan, Yuting Jia, Xinbing Wang(参考訳) ネットワーク内のグループを同じ属性、機能、ノード間の接続に基づいて分析することは、ネットワーク情報を理解する方法である。 一連のノードグループを発見するタスクは、コミュニティ検出と呼ばれる。 一般に、このタスク、すなわちリンク構造とノード属性を満たすために2種類の情報を利用することができる。 時間的テキストネットワークは、両方の情報源を含む特別な種類のネットワークである。 典型的な代表者は、オンラインブログネットワーク、World Wide Web(WWW)、学術引用ネットワークである。 本稿では,時間的テキストネットワークにおけるコミュニティ検出の重複問題について検討する。 32の大規模テンポラリテキストネットワークを調べると,共通コミュニティのない2つのノードを接続するエッジが多数存在し,同じコミュニティ内のノードが類似したテキストコンテンツを共有していることが分かる。 このシナリオは、既存の全てのコミュニティ検出手法で定量的にモデル化することはできない。 これらの経験的観察に動機づけられ、コミュニティ間の相互作用を捉え、リンク構造とノード属性の両方からの情報を検討する生成モデルであるmagic(model affiliation graph with interaction communities)を提案する。 3種類のデータセットに対する実験により,MAGICは4つの最先端手法に対して,4つの広く使用されているメトリクスにおいて大きな改善を達成していることが示された。

Analyzing the groups in the network based on same attributes, functions or connections between nodes is a way to understand network information. The task of discovering a series of node groups is called community detection. Generally, two types of information can be utilized to fulfill this task, i.e., the link structures and the node attributes. The temporal text network is a special kind of network that contains both sources of information. Typical representatives include online blog networks, the World Wide Web (WWW) and academic citation networks. In this paper, we study the problem of overlapping community detection in temporal text network. By examining 32 large temporal text networks, we find a lot of edges connecting two nodes with no common community and discover that nodes in the same community share similar textual contents. This scenario cannot be quantitatively modeled by practically all existing community detection methods. Motivated by these empirical observations, we propose MAGIC (Model Affiliation Graph with Interacting Communities), a generative model which captures community interactions and considers the information from both link structures and node attributes. Our experiments on 3 types of datasets show that MAGIC achieves large improvements over 4 state-of-the-art methods in terms of 4 widely-used metrics.
翻訳日:2021-03-30 07:52:02 公開日:2021-01-13
# autods: データサイエンスの人間中心自動化に向けて

AutoDS: Towards Human-Centered Automation of Data Science ( http://arxiv.org/abs/2101.05273v1 )

ライセンス: Link先を確認
Dakuo Wang, Josh Andres, Justin Weisz, Erick Oduor, Casey Dugan(参考訳) データサイエンス(DS)プロジェクトは、しばしばデータ科学者やドメインエキスパート(例えば、データ探索、モデルトレーニングなど)のための精力的なタスクからなるライフサイクルに従う。 最近まで、機械学習(ml)研究者は、これらのタスクでデータワーカーを支援する、有望な自動化技術を開発した。 本稿では,最新のml自動化技術を活用し,データサイエンスプロジェクトを支援する自動機械学習(automl)システムであるautodsについて紹介する。 データワーカーはデータセットをアップロードするだけで、システムは自動的にML設定、プリプロセスデータ、アルゴリズムの選択、モデルをトレーニングすることができる。 これらの提案は、Webベースのグラフィカルユーザインタフェースとノートブックベースのプログラミングユーザーインターフェースを介してユーザに提示される。 データサイエンスプロジェクトを完成させるために、あるグループがautodを使用していない30人のプロデータサイエンティストとautodを研究した。 予想通り、autodsは生産性を向上させる。しかし驚くべきことに、autods groupが生成するモデルは品質が高く、エラーが少ないが、人間の信頼度スコアは低い。 我々は,データサイエンスのライフサイクルにおいて,自動化技術を人間の作業に組み込むための設計上の意味を考察した。

Data science (DS) projects often follow a lifecycle that consists of laborious tasks for data scientists and domain experts (e.g., data exploration, model training, etc.). Only till recently, machine learning(ML) researchers have developed promising automation techniques to aid data workers in these tasks. This paper introduces AutoDS, an automated machine learning (AutoML) system that aims to leverage the latest ML automation techniques to support data science projects. Data workers only need to upload their dataset, then the system can automatically suggest ML configurations, preprocess data, select algorithm, and train the model. These suggestions are presented to the user via a web-based graphical user interface and a notebook-based programming user interface. We studied AutoDS with 30 professional data scientists, where one group used AutoDS, and the other did not, to complete a data science project. As expected, AutoDS improves productivity; Yet surprisingly, we find that the models produced by the AutoDS group have higher quality and less errors, but lower human confidence scores. We reflect on the findings by presenting design implications for incorporating automation techniques into human work in the data science lifecycle.
翻訳日:2021-03-30 07:51:43 公開日:2021-01-13
# 義手のための展開可能な把持型確率推定器の作成に向けて

Towards Creating a Deployable Grasp Type Probability Estimator for a Prosthetic Hand ( http://arxiv.org/abs/2101.05357v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Mo Han, Deniz Erdogmus, and Gunar Schirner(参考訳) 下腕のアンプの場合、義手は身体的な相互作用の能力のほとんどを回復する。 これは、さまざまなオブジェクトをつかみ、ユーザが意図したようにタイムリーに実行することのできる手振りを正確に予測する必要がある。 現在のアプローチはしばしば、意図した動きを推測するために、残肢筋からの電気筋電図(EMG)信号のような生理学的信号入力に依存する。 しかし、信号品質、ユーザの多様性、高い変動性はシステムのロバスト性に悪影響を及ぼす。 本研究は,EMG信号のみに頼るのではなく,機械学習とコンピュータビジョン手法により,EMG意図推論を物理的状態の確率で拡張する。 この目的のために、(1)最先端のディープニューラルネットワークアーキテクチャを研究して、義手における知識伝達の動作源を選択する(2)対象画像を含むデータセットと、従来の分類ラベルとしてゼロと1の絶対値を使用するのではなく、その合計が1となる確率の集合であるようなラベル付けの新たな形式として、把握型の確率分布を用いる。 提案手法は,手のひらカメラの視覚情報を用いて,握り以上の確率のEMG予測と融合可能な確率予測を生成する。 その結果,inceptionv3 は 0.95 角類似度で最高精度を達成し,1.4 mobilenetv2 は 0.93 で 20% の演算量を達成できた。

For lower arm amputees, prosthetic hands promise to restore most of physical interaction capabilities. This requires to accurately predict hand gestures capable of grabbing varying objects and execute them timely as intended by the user. Current approaches often rely on physiological signal inputs such as Electromyography (EMG) signal from residual limb muscles to infer the intended motion. However, limited signal quality, user diversity and high variability adversely affect the system robustness. Instead of solely relying on EMG signals, our work enables augmenting EMG intent inference with physical state probability through machine learning and computer vision method. To this end, we: (1) study state-of-the-art deep neural network architectures to select a performant source of knowledge transfer for the prosthetic hand, (2) use a dataset containing object images and probability distribution of grasp types as a new form of labeling where instead of using absolute values of zero and one as the conventional classification labels, our labels are a set of probabilities whose sum is 1. The proposed method generates probabilistic predictions which could be fused with EMG prediction of probabilities over grasps by using the visual information from the palm camera of a prosthetic hand. Our results demonstrate that InceptionV3 achieves highest accuracy with 0.95 angular similarity followed by 1.4 MobileNetV2 with 0.93 at ~20% the amount of operations.
翻訳日:2021-03-30 07:51:24 公開日:2021-01-13
# NetCut:レイヤ除去を利用したリアルタイムDNN推論

NetCut: Real-Time DNN Inference Using Layer Removal ( http://arxiv.org/abs/2101.05363v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Deniz Erdogmus, Gunar Schirner(参考訳) ディープラーニングは、人生の多くの側面において、人間を助ける上で重要な役割を果たす。 これらのネットワークは時間とともに深くなる傾向にあるため、追加の推論レイテンシーのコストで精度を高めるために、より多くの機能を抽出する。 この精度と性能のトレードオフにより、リソース制約の厳しいプロセッサである組み込みシステムでは、効率的なデプロイが困難になる。 これにより、特定の期限を早めに満たすネットワークの選択につながり、余分なslack時間によって、精度向上に寄与する可能性がある。 本研究では, (i) トランスファーラーニングに使用される事前学習ネットワークの問題を除去するTRN(TRimmed Networks) を構築する方法としての層除去の概念と, (ii) アプリケーションの期限を満たすTRNのみを提案して再学習し, 探索時間を著しく短縮する手法であるNetCutを提案する。 TRNがParetoフロンティアを拡張してレイテンシと精度をトレードオフし、任意の期限を満たすネットワークを、オフザシェルフネットワークよりも高い精度で提供できることを実証する。 実験結果から,NetCutと組み合わせて,より単純なデータセットにTRNを移行しながら,特定の期限を満たした状態で,既存のオフザシェルニューラルアーキテクチャで最大10.43%の精度向上を実現し,探索時間の27倍のスピードアップを実現するネットワークを提案することができた。

Deep Learning plays a significant role in assisting humans in many aspects of their lives. As these networks tend to get deeper over time, they extract more features to increase accuracy at the cost of additional inference latency. This accuracy-performance trade-off makes it more challenging for Embedded Systems, as resource-constrained processors with strict deadlines, to deploy them efficiently. This can lead to selection of networks that can prematurely meet a specified deadline with excess slack time that could have potentially contributed to increased accuracy. In this work, we propose: (i) the concept of layer removal as a means of constructing TRimmed Networks (TRNs) that are based on removing problem-specific features of a pretrained network used in transfer learning, and (ii) NetCut, a methodology based on an empirical or an analytical latency estimator, which only proposes and retrains TRNs that can meet the application's deadline, hence reducing the exploration time significantly. We demonstrate that TRNs can expand the Pareto frontier that trades off latency and accuracy to provide networks that can meet arbitrary deadlines with potential accuracy improvement over off-the-shelf networks. Our experimental results show that such utilization of TRNs, while transferring to a simpler dataset, in combination with NetCut, can lead to the proposal of networks that can achieve relative accuracy improvement of up to 10.43% among existing off-the-shelf neural architectures while meeting a specific deadline, and 27x speedup in exploration time.
翻訳日:2021-03-30 07:51:02 公開日:2021-01-13
# プロセス分類を用いた異常検出支援

Anomaly Detection Support Using Process Classification ( http://arxiv.org/abs/2101.05371v1 )

ライセンス: Link先を確認
Sebastian Eresheim, Lukas Daniel Klausner, Patrick Kochberger(参考訳) 異常検出システムは異常をスキャンする際に多くの情報を考慮する必要がある。 例えば、あるプロセスの異常は別のプロセスの異常ではないかもしれないため、異常が発生する可能性があるプロセスのコンテキストである。 したがって、システムイベントのようなデータは、それらが発するプログラムに割り当てられる必要がある。 本稿では,これらのシステムイベントの発生の原因となったプログラムの動作を,システムイベントのリストから推測できるかどうかを検討する。 そのため、等価でないイベント間の遷移確率をモデル化し、$k$-nearest neighborsアルゴリズムを適用する。 このシステムは4つの異なる評価スコアを用いて,非現実的な実世界データを用いて評価される。 本稿では,システムイベントからプログラム名を正しく推測する手法を提案する。

Anomaly detection systems need to consider a lot of information when scanning for anomalies. One example is the context of the process in which an anomaly might occur, because anomalies for one process might not be anomalies for a different one. Therefore data -- such as system events -- need to be assigned to the program they originate from. This paper investigates whether it is possible to infer from a list of system events the program whose behavior caused the occurrence of these system events. To that end, we model transition probabilities between non-equivalent events and apply the $k$-nearest neighbors algorithm. This system is evaluated on non-malicious, real-world data using four different evaluation scores. Our results suggest that the approach proposed in this paper is capable of correctly inferring program names from system events.
翻訳日:2021-03-30 07:50:33 公開日:2021-01-13
# FBGEMM:高性能低精度ディープラーニング推論の実現

FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference ( http://arxiv.org/abs/2101.05615v1 )

ライセンス: Link先を確認
Daya Khudia, Jianyu Huang, Protonu Basu, Summer Deng, Haixin Liu, Jongsoo Park, Mikhail Smelyanskiy(参考訳) ディープラーニングモデルでは、活性化と重みを表すために単一精度(FP32)浮動小数点データ型を用いるのが一般的であるが、最近の研究で、縮小精度のデータ型(FP16、16ビット整数、8ビット整数、さらには4ビット整数)による計算はFP32と同じ精度を達成するのに十分であることが示されている。 そこで我々は,次世代cpu上で高性能量子化推論を行うため,高性能カーネルライブラリfbgemmをゼロから設計した。 fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。 このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。

Deep learning models typically use single-precision (FP32) floating point data types for representing activations and weights, but a slew of recent research work has shown that computations with reduced-precision data types (FP16, 16-bit integers, 8-bit integers or even 4- or 2-bit integers) are enough to achieve same accuracy as FP32 and are much more efficient. Therefore, we designed fbgemm, a high-performance kernel library, from ground up to perform high-performance quantized inference on current generation CPUs. fbgemm achieves efficiency by fusing common quantization operations with a high-performance gemm implementation and by shape- and size-specific kernel code generation at runtime. The library has been deployed at Facebook, where it delivers greater than 2x performance gains with respect to our current production baseline.
翻訳日:2021-03-30 07:50:23 公開日:2021-01-13
# 不確実性定量化を伴うPDEの弱解に対するベイズニューラルネットワーク

Bayesian neural networks for weak solution of PDEs with uncertainty quantification ( http://arxiv.org/abs/2101.04879v1 )

ライセンス: Link先を確認
Xiaoxuan Zhang, Krishna Garikipati(参考訳) 偏微分方程式 (PDE) を解くことは、物理系の振る舞いを理解するための標準的アプローチである。 しかし,PDEの最先端技術を用いた大規模解法は依然として高価である。 本研究では,設計と意思決定を支援する高スループットソリューションの実現を目的として,ラベル無しでpdesを解くための新しい物理制約付きニューラルネットワーク(nn)手法を提案する。 PDE の強い形や弱い形を用いて損失関数を構成する既存の物理情報処理NN のアプローチとは対照的に,PDE の離散化残差に基づく NN の損失関数を,効率的で畳み込み演算子に基づくベクトル化実装により記述する。 決定論的モデルと確率的モデルの両方のエンコーダ-デコーダnn構造について検討し、後者のベイズnn(bnns)を用いてモデルパラメータからの認識的不確実性とデータのノイズからのアレータ的不確実性の両方を定量化する。 BNN の場合、離散化残差は確率関数を構成するために用いられる。 提案手法では, 決定的および確率的畳み込み層を用いて, 適用境界条件(BC)を学習し, 問題領域を検出する。 ディリクレ (Dirichlet) とノイマン (Neumann) の BC は NN への入力として指定されるため、一つの NN は同様の物理に対して解けるが、BC と多くの問題領域では異なる。 訓練された代理PDEソルバは、訓練中に露出していないBCの補間および外挿(ある程度)予測を行うこともできる。 このようなサロゲートモデルは問題にとって特に重要であり、同様のタイプのPDEを若干のバリエーションで何度も繰り返し解決する必要がある。 本研究では, 定常拡散, 線形弾性, 非線形弾性に応用し, 提案フレームワークの性能と性能を示す。

Solving partial differential equations (PDEs) is the canonical approach for understanding the behavior of physical systems. However, large scale solutions of PDEs using state of the art discretization techniques remains an expensive proposition. In this work, a new physics-constrained neural network (NN) approach is proposed to solve PDEs without labels, with a view to enabling high-throughput solutions in support of design and decision-making. Distinct from existing physics-informed NN approaches, where the strong form or weak form of PDEs are used to construct the loss function, we write the loss function of NNs based on the discretized residual of PDEs through an efficient, convolutional operator-based, and vectorized implementation. We explore an encoder-decoder NN structure for both deterministic and probabilistic models, with Bayesian NNs (BNNs) for the latter, which allow us to quantify both epistemic uncertainty from model parameters and aleatoric uncertainty from noise in the data. For BNNs, the discretized residual is used to construct the likelihood function. In our approach, both deterministic and probabilistic convolutional layers are used to learn the applied boundary conditions (BCs) and to detect the problem domain. As both Dirichlet and Neumann BCs are specified as inputs to NNs, a single NN can solve for similar physics, but with different BCs and on a number of problem domains. The trained surrogate PDE solvers can also make interpolating and extrapolating (to a certain extent) predictions for BCs that they were not exposed to during training. Such surrogate models are of particular importance for problems, where similar types of PDEs need to be repeatedly solved for many times with slight variations. We demonstrate the capability and performance of the proposed framework by applying it to steady-state diffusion, linear elasticity, and nonlinear elasticity.
翻訳日:2021-03-30 07:50:05 公開日:2021-01-13
# 分散ITシステムにおけるマルチソース異常検出

Multi-Source Anomaly Detection in Distributed IT Systems ( http://arxiv.org/abs/2101.04977v1 )

ライセンス: Link先を確認
Jasmin Bogatinovski and Sasho Nedelkoski(参考訳) 分散システムが生成するマルチソースデータは、システム全体の記述を提供する。 学習モデルによる異なるモダリティのジョイント分布を活用することは、分散システムのメンテナンスに重要な応用に有用である。 このような重要な課題の1つは異常検出のタスクであり、理論上期待されているシステム現在の動作のずれを検出することに興味がある。 本研究では,分散システムにおける異常検出作業において,分散トレースからの結合表現とシステムログデータを利用する。 その結果,単一モード異常検出法に比べ,トレースとログの併用が良好な結果を得た。 さらに、ログと分散トレースの両方の異常検出の一般化として使用される学習タスク、次のテンプレート予測NTPを形式化する。 最後に、この形式化により、トレースとログの両方にテンプレート埋め込みを学習できることを示す。 ジョイント埋め込みは、スパンとログの適切な初期化として、他のアプリケーションで再利用することができる。

The multi-source data generated by distributed systems, provide a holistic description of the system. Harnessing the joint distribution of the different modalities by a learning model can be beneficial for critical applications for maintenance of the distributed systems. One such important task is the task of anomaly detection where we are interested in detecting the deviation of the current behaviour of the system from the theoretically expected. In this work, we utilize the joint representation from the distributed traces and system log data for the task of anomaly detection in distributed systems. We demonstrate that the joint utilization of traces and logs produced better results compared to the single modality anomaly detection methods. Furthermore, we formalize a learning task - next template prediction NTP, that is used as a generalization for anomaly detection for both logs and distributed trace. Finally, we demonstrate that this formalization allows for the learning of template embedding for both the traces and logs. The joint embeddings can be reused in other applications as good initialization for spans and logs.
翻訳日:2021-03-30 07:49:34 公開日:2021-01-13
# 無線通信のためのランダムフーリエ特徴に基づくディープラーニング

Random Fourier Feature Based Deep Learning for Wireless Communications ( http://arxiv.org/abs/2101.05254v1 )

ライセンス: Link先を確認
Rangeet Mitra, Georges Kaddoum(参考訳) ディープラーニング(dl)は、ジェネリック無線通信で遭遇するいくつかの古典的な問題に対する強力な機械学習技術として登場した。 特に、ランダムフーリエ機能(rff)ベースのディープラーニングは、いくつかの機械学習問題に対する魅力的なソリューションとして登場したが、rffベースのdl-algorithmsの有効性を正当化するための厳密な結果がある。 このギャップに対処するため,我々はrffベースのdlの有効性を解析的に定量化することを試みる。 本稿では,rffベースのdlアーキテクチャが従来のdlアーキテクチャと比較して近似誤差と誤分類の確率が低いことを示す解析的証明を示す。 さらに, 学習複雑度が低いDLアーキテクチャを実現するために, 分散依存型RFFを提案する。 計算機シミュレーションにより, 提案した解析結果と分布依存RFFの実践的応用は, 次世代通信システムで発生する様々な機械学習問題に対して説明される: a) 視線(LOS)/視線(NLOS)分類, b) メッセージパスに基づく非線形可視光通信(VLC)チャネル上の低密度パリティチェックコード(LDPC)の検出。 特に低トレーニングデータ環境では,実測値のrffマップを利用した場合,有意な性能向上が得られた。 最後に, 提案した分布依存型RFFがRFFを著しく上回り, 次世代通信システムにおける機械学習/DLベースの応用に有用であることを示す。

Deep-learning (DL) has emerged as a powerful machine-learning technique for several classic problems encountered in generic wireless communications. Specifically, random Fourier Features (RFF) based deep-learning has emerged as an attractive solution for several machine-learning problems; yet there is a lacuna of rigorous results to justify the viability of RFF based DL-algorithms in general. To address this gap, we attempt to analytically quantify the viability of RFF based DL. Precisely, in this paper, analytical proofs are presented demonstrating that RFF based DL architectures have lower approximation-error and probability of misclassification as compared to classical DL architectures. In addition, a new distribution-dependent RFF is proposed to facilitate DL architectures with low training-complexity. Through computer simulations, the practical application of the presented analytical results and the proposed distribution-dependent RFF, are depicted for various machine-learning problems encountered in next-generation communication systems such as: a) line of sight (LOS)/non-line of sight (NLOS) classification, and b) message-passing based detection of low-density parity check codes (LDPC) codes over nonlinear visible light communication (VLC) channels. Especially in the low training-data regime, the presented simulations show that significant performance gains are achieved when utilizing RFF maps of observations. Lastly, in all the presented simulations, it is observed that the proposed distribution-dependent RFFs significantly outperform RFFs, which make them useful for potential machine-learning/DL based applications in the context of next-generation communication systems.
翻訳日:2021-03-30 07:49:21 公開日:2021-01-13
# 深層メタ強化学習によるグリッド緊急制御のための学習と高速適応

Learning and Fast Adaptation for Grid Emergency Control via Deep Meta Reinforcement Learning ( http://arxiv.org/abs/2101.05317v1 )

ライセンス: Link先を確認
Renke Huang, Yujiao Chen, Tianzhixi Yin, Qiuhua Huang, Jie Tan, Wenhao Yu, Xinya Li, Ang Li, Yan Du(参考訳) 電力系統は、不確実性が低く、慣性が低く、運転限界に近い大きな変化を遂げているため、大規模な停電のリスクが高まっている。 したがって、システムの信頼性とセキュリティを維持するために、グリッド緊急制御を強化する必要がある。 この目的に向けて、近年、深層強化学習(DRL)に基づくグリッド制御ソリューションの開発において大きな進歩を遂げている。 しかし、既存のDRLベースのソリューションには2つの大きな制限がある: 1) グリッド操作条件、システムパラメータ、およびコンテンシーにうまく対応できない; 2) 新しいグリッド動作条件、システムパラメータ、およびコンテンシーに迅速に適応する能力が欠如し、現実のアプリケーションへの適用性が制限されている。 本稿では,新しい深層メタ強化学習(dmrl)アルゴリズムの開発により,これらの制限を緩和する。 DMRLは、メタ戦略最適化とDRLを組み合わせて、新しいシナリオに迅速に適応できる潜在空間によって変調されたポリシーを訓練する。 IEEE 300-busシステム上でDMRLアルゴリズムを試作した。 提案手法を用いて,潜伏変数を持つメタ訓練DRL警察を新しい運転条件やシナリオに迅速に適応し,現状のDRLとモデル予測制御(MPC)法と比較して優れた性能を実現する。

As power systems are undergoing a significant transformation with more uncertainties, less inertia and closer to operation limits, there is increasing risk of large outages. Thus, there is an imperative need to enhance grid emergency control to maintain system reliability and security. Towards this end, great progress has been made in developing deep reinforcement learning (DRL) based grid control solutions in recent years. However, existing DRL-based solutions have two main limitations: 1) they cannot handle well with a wide range of grid operation conditions, system parameters, and contingencies; 2) they generally lack the ability to fast adapt to new grid operation conditions, system parameters, and contingencies, limiting their applicability for real-world applications. In this paper, we mitigate these limitations by developing a novel deep meta reinforcement learning (DMRL) algorithm. The DMRL combines the meta strategy optimization together with DRL, and trains policies modulated by a latent space that can quickly adapt to new scenarios. We test the developed DMRL algorithm on the IEEE 300-bus system. We demonstrate fast adaptation of the meta-trained DRL polices with latent variables to new operating conditions and scenarios using the proposed method and achieve superior performance compared to the state-of-the-art DRL and model predictive control (MPC) methods.
翻訳日:2021-03-30 07:48:50 公開日:2021-01-13
# C^3DRec$:GDPR後における時間勧告のためのクラウドクライアント協調ディープラーニング

$C^3DRec$: Cloud-Client Cooperative Deep Learning for Temporal Recommendation in the Post-GDPR Era ( http://arxiv.org/abs/2101.05641v1 )

ライセンス: Link先を確認
Jialiang Han, Yun Ma(参考訳) モバイル機器により、ユーザーはいつでもどこでも情報を検索できる。 モバイルユーザの時折要求とフラグメンテーション利用パターンを考慮して,短期的ユーザインタラクション行動を伴う時間的関心を学習することで,モバイルデバイス上での情報検索の効率を向上させるための時間的推奨手法を提案する。 しかし、GDPRのようなプライバシー保護法や規制の施行は、時間的勧告の成功を覆す可能性がある。 なぜなら、最先端のレコメンデーションシステムは、中央集権的なサーバでユーザーデータを収集して処理する必要があるが、時間的レコメンデーションに使用されるインタラクションの行動データは、GDPRに従ってユーザの明確な許可なしには収集できない非トランザクショナルデータである。 結果として、サービスが対話行動データを集めることを許可していない場合、時間的推奨は機能しない。 本稿では,GDPR後における時間的推奨を実現するために,ユーザのプライバシを保護しつつ,推奨事項のマイニングを行うクラウド型協調型ディープラーニングフレームワークであるC^3DRec$を提案する。 C^3DRec$は、GDPRの前に収集されたデータを使用して集中サーバ上のグローバルレコメンデーションモデルを構築し、GDPR後に収集されたデータを使用して、個々のローカルデバイス上でモデルを微調整する。 私たちは推奨を達成するために2つのモードを設計します。 プルモード – 候補項目をデバイスにプルダウンしてローカルモデルに入力して推奨項目を取得する,プルモード,ローカルモデルの出力をサーバにプッシュして,候補項目と組み合わせて推奨項目を取得する,プッシュモード。 評価の結果、$C^3DRec$は、プライバシーの懸念を最小限に抑えながら、集中型アプローチに匹敵するレコメンデーション精度を達成している。

Mobile devices enable users to retrieve information at any time and any place. Considering the occasional requirements and fragmentation usage pattern of mobile users, temporal recommendation techniques are proposed to improve the efficiency of information retrieval on mobile devices by means of accurately recommending items via learning temporal interests with short-term user interaction behaviors. However, the enforcement of privacy-preserving laws and regulations, such as GDPR, may overshadow the successful practice of temporal recommendation. The reason is that state-of-the-art recommendation systems require to gather and process the user data in centralized servers but the interaction behaviors data used for temporal recommendation are usually non-transactional data that are not allowed to gather without the explicit permission of users according to GDPR. As a result, if users do not permit services to gather their interaction behaviors data, the temporal recommendation fails to work. To realize the temporal recommendation in the post-GDPR era, this paper proposes $C^3DRec$, a cloud-client cooperative deep learning framework of mining interaction behaviors for recommendation while preserving user privacy. $C^3DRec$ constructs a global recommendation model on centralized servers using data collected before GDPR and fine-tunes the model directly on individual local devices using data collected after GDPR. We design two modes to accomplish the recommendation, i.e. pull mode where candidate items are pulled down onto the devices and fed into the local model to get recommended items, and push mode where the output of the local model is pushed onto the server and combined with candidate items to get recommended ones. Evaluation results show that $C^3DRec$ achieves comparable recommendation accuracy to the centralized approaches, with minimal privacy concern.
翻訳日:2021-03-30 07:48:04 公開日:2021-01-13