このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201216となっている論文です。

PDF登録状況(公開日: 20201216)

TitleAuthorsAbstract論文公表日・翻訳日
# パウリ結晶の観察

Observation of Pauli Crystals ( http://arxiv.org/abs/2005.03929v2 )

ライセンス: Link先を確認
Marvin Holten, Luca Bayha, Keerthan Subramanian, Carl Heintze, Philipp M. Preiss and Selim Jochim(参考訳) パウリ排他原理(Pauli exclusion principle)は、物質の構造を支える基本法である。 反対称波動関数のため、2つのフェルミオンが同じ量子状態を占めることはない。 本稿では,2次元高調波発振器の基底状態における最大6粒子の連続系におけるパウリ原理の直接観測について報告する。 この目的のために、運動量空間に単一原子分解イメージングスキームを適用することで、全多体波動関数をサンプリングする。 いわゆるパウリ結晶は高次相関の表れである。 真の結晶相とは対照的に、これらの一意な高次密度相関は相互作用がなくても現れる。 我々の研究は、多くのフェルミオンの強い相互作用系における相関の将来の研究の基礎を築いている。

The Pauli exclusion principle is a fundamental law underpinning the structure of matter. Due to their anti-symmetric wave function, no two fermions can occupy the same quantum state. Here, we report on the direct observation of the Pauli principle in a continuous system of up to six particles in the ground state of a two-dimensional harmonic oscillator. To this end, we sample the full many-body wavefunction by applying a single atom resolved imaging scheme in momentum space. We find so-called Pauli crystals as a manifestation of higher order correlations. In contrast to true crystalline phases, these unique high-order density correlations emerge even without any interactions present. Our work lays the foundation for future studies of correlations in strongly interacting systems of many fermions.
翻訳日:2023-05-20 20:17:03 公開日:2020-12-16
# 相関小ノルム, 絡み合い検出および不一致

Correlation Minor Norms, Entanglement Detection and Discord ( http://arxiv.org/abs/2005.12079v2 )

ライセンス: Link先を確認
Bar Y. Peled, Amit Te'eni, Avishy Carmi, Eliahu Cohen(参考訳) 本稿では,量子相関の測定と相関行列の構築に基づく絡み合い検出手法を提案する。 その後、相関行列は相関小ノルムと呼ばれるパラメータの族を定義するために使用され、絡みを検出できる。 このアプローチは計算可能なクロスノーム(CCNR)基準を一般化し、さらに状態に依存しない演算子の集合を測定する必要がある。 さらに、各相関小ノルムに対して最大化する分離可能な状態を与えるスキームについて説明する。 提案手法は, 相関関係が単純で直感的な意味を持ち, 実験で直接測定できるため, 他の手法と比較して有利であると考えられる。 また、CCNR基準よりも強いことが示されている。 また、純状態に対する相関小ノルムと絡み合いエントロピーの関係についても述べる。 最後に,相関マイナーノルムと量子ディスコードの関係について考察する。 CMNは量子不協和の新しい尺度を定義するために用いられる可能性がある。

In this paper we develop an approach for detecting entanglement, which is based on measuring quantum correlations and constructing a correlation matrix. The correlation matrix is then used for defining a family of parameters, named Correlation Minor Norms, which allow one to detect entanglement. This approach generalizes the computable cross-norm or realignment (CCNR) criterion, and moreover requires measuring a state-independent set of operators. Furthermore, we illustrate a scheme which yields for each Correlation Minor Norm a separable state that maximizes it. The proposed entanglement detection scheme is believed to be advantageous in comparison to other methods because correlations have a simple, intuitive meaning and in addition they can be directly measured in experiment. Moreover, it is demonstrated to be stronger than the CCNR criterion. We also illustrate the relation between the Correlation Minor Norm and entanglement entropy for pure states. Finally, we discuss the relation between the Correlation Minor Norm and quantum discord. We demonstrate that the CMN may be used to define a new measure for quantum discord.
翻訳日:2023-05-18 12:32:20 公開日:2020-12-16
# 量子分子ロボット

Quantum Molecular Robots ( http://arxiv.org/abs/2006.06779v2 )

ライセンス: Link先を確認
Thiago Guerreiro(参考訳) 生物は複雑な分子機械を利用してカオス環境で重要な機能を実行する。 自然の分子構成にインスパイアされた我々は、ノイズの多い環境に対して量子情報を自己保護する量子機械装置のアイデアを探求する。

Living organisms exploit complex molecular machines to execute crucial functions in chaotic environments. Inspired by nature's molecular setups we explore the idea of a quantum mechanical device whose purpose is self-protecting quantum information against a noisy environment.
翻訳日:2023-05-16 00:18:52 公開日:2020-12-16
# 可積分性の破れたスピン鎖の弾道-拡散遷移

Ballistic-to-diffusive transition in spin chains with broken integrability ( http://arxiv.org/abs/2006.13891v3 )

ライセンス: Link先を確認
Jo\~ao S. Ferreira and Michele Filippone(参考訳) 境界駆動型XXZスピンチェーンにおける可積分性の弱破壊による弾道-拡散遷移について検討した。 スピン電流密度 $\mathcal j^s$ の進化をシステムサイズ $l$ の関数として研究し、境界効果を考慮した場合、遷移は xx の極限に近い自明な普遍的な振る舞いを持つことを示した。 これは散乱長 $l^*\propto v^{-2}$ によって制御され、ここでは$v$ は可積分破壊項の強さである。 XXZモデルでは、相互作用の相互作用は、長さが$L^*$よりもはるかに短い過渡的な「準弾道的」体制の出現を制御する。 このパラメトリックな大きな状態は、XXモデルとは異なり普遍的なスケーリングを禁ずる電流の強い再正規化によって特徴づけられる。 本結果は,行列積演算子の数値シミュレーションに基づいて,摂動解析計算に一致する。

We study the ballistic-to-diffusive transition induced by the weak breaking of integrability in a boundary-driven XXZ spin-chain. Studying the evolution of the spin current density $\mathcal J^s$ as a function of the system size $L$, we show that, accounting for boundary effects, the transition has a non-trivial universal behavior close to the XX limit. It is controlled by the scattering length $L^*\propto V^{-2}$, where $V$ is the strength of the integrability breaking term. In the XXZ model, the interplay of interactions controls the emergence of a transient "quasi-ballistic" regime at length scales much shorter than $L^*$. This parametrically large regime is characterized by a strong renormalization of the current which forbids a universal scaling, unlike the XX model. Our results are based on Matrix Product Operator numerical simulations and agree with perturbative analytical calculations.
翻訳日:2023-05-12 22:26:56 公開日:2020-12-16
# 非平衡熱電流による量子電池の充電

Charging a quantum battery via non equilibrium heat current ( http://arxiv.org/abs/2007.04463v2 )

ライセンス: Link先を確認
Francesco Tacchino, Tiago F. F. Santos, Dario Gerace, Michele Campisi and Marcelo F. Santos(参考訳) 量子系が熱勾配を受けると、いわゆる非平衡定常状態(NESS)に入ることによって、定常な非平衡熱電流を持続させることができる。 ここで、nessは量子熱エンジンの燃料として利用できる熱力学資源であることを示す。 これは、コヒーレンス、絡み合い、量子測定など、ナノスケールで利用可能な最近報告されたソースのリストに追加される。 この概念は、2量子ビットの量子電池を熱勾配で充電し、適切に選択されたユニタリゲートで放電する解析的および数値的研究によって解明する。 充電ステップにおけるNESSの存在は、正の出力で安定した動作を保証する。 チャージステップの持続時間を減少させると、効率と出力電力の増加を伴う周期的な定常状態が発生する。 このデバイスは、さまざまなナノテクノロジープラットフォームで実装することができる。

When a quantum system is subject to a thermal gradient it may sustain a steady non-equilibrium heat current, by entering into a so-called non equilibrium steady state (NESS). Here we show that NESS constitute a thermodynamic resource that can be exploited to fuel a quantum heat engine. This adds to the list of recently reported sources available at the nano-scale, such as coherence, entanglement and quantum measurements. We elucidate this concept by showing analytic and numerical studies of a two-qubits quantum battery that is alternatively charged by a thermal gradient and discharged by application of a properly chosen unitary gate. The presence of a NESS for the charging step guarantees steady operation with positive power output. Decreasing the duration of the charging step results in a time periodic steady state accompanied by increased efficiency and output power. The device is amenable to implementation with different nanotechnology platforms.
翻訳日:2023-05-10 23:22:10 公開日:2020-12-16
# 光位相推定における位相拡散対策資源としてのスクイージング

Squeezing as a resource to counteract phase diffusion in optical phase estimation ( http://arxiv.org/abs/2008.03161v2 )

ライセンス: Link先を確認
Giacomo Carrara, Marco G. Genoni, Simone Cialdi, Matteo G. A. Paris, Stefano Olivares(参考訳) 非ガウス位相雑音の存在下でガウス状態を用いた位相推定法を提案する。 従来の解析と異なり,位相情報を符号化する前に雑音が発生する状況を分析する。 特に, 位相拡散の前後において, スクイージングの利益性について検討した。 その結果,ノイズの後にプローブを絞り込むと,量子フィッシャー情報の増加が示すように,推定手法の感度が大幅に向上することがわかった。 次に,ホモダイン検出を計測段階で行う現実的なセットアップを検討し,その最適性と2つの異なるシナリオにおける性能について考察する。

We address a phase estimation scheme using Gaussian states in the presence of non-Gaussian phase noise. At variance with previous analysis, we analyze situations in which the noise occurs before encoding phase information. In particular, we study how squeezing may be profitably used before or after phase diffusion. Our results show that squeezing the probe after the noise greatly enhances the sensitivity of the estimation scheme, as witnessed by the increase of the quantum Fisher information. We then consider a realistic setup where homodyne detection is employed at the measurement stage, and address its optimality as well as its performance in the two different scenarios.
翻訳日:2023-05-06 21:44:06 公開日:2020-12-16
# 量子機械学習による毒性予測

Predicting toxicity by quantum machine learning ( http://arxiv.org/abs/2008.07715v3 )

ライセンス: Link先を確認
Teppei Suzuki, Michio Katouda(参考訳) 近年、パラメータ化量子回路は、ハイブリッド量子古典的アプローチの枠組みの中で機械学習モデルと見なされている。 量子機械学習(QML)は二項分類問題や教師なし学習に応用されている。 しかし、非線形回帰タスクに対する実用的な量子応用は、あまり注目されていない。 本稿では, 定量的構造活性相関に基づく221種類のフェノールの毒性予測のためのQMLモデルを開発した。 その結果、量子エンタングルメントによって強化されたデータエンコーディングは、従来のデータよりも表現力が高く、古典的データの特徴マップ表現に量子相関が有益であることが示唆された。 qmlモデルは多重線形回帰法よりも有意に良好であった。 さらに,本シミュレーションでは,QMLモデルと放射基底関数ネットワークを用いたモデルとを比較検討し,一般化性能を向上した。 本研究は,QMLがケミノフォマティクスなどの非線形回帰タスクの代替手法である可能性を示唆している。

In recent years, parameterized quantum circuits have been regarded as machine learning models within the framework of the hybrid quantum-classical approach. Quantum machine learning (QML) has been applied to binary classification problems and unsupervised learning. However, practical quantum application to nonlinear regression tasks has received considerably less attention. Here, we develop QML models designed for predicting the toxicity of 221 phenols on the basis of quantitative structure activity relationship. The results suggest that our data encoding enhanced by quantum entanglement provided more expressive power than the previous ones, implying that quantum correlation could be beneficial for the feature map representation of classical data. Our QML models performed significantly better than the multiple linear regression method. Furthermore, our simulations indicate that the QML models were comparable to those obtained using radial basis function networks, while improving the generalization performance. The present study implies that QML could be an alternative approach for nonlinear regression tasks such as cheminformatics.
翻訳日:2023-05-05 22:55:08 公開日:2020-12-16
# 機械学習と時系列衛星画像を用いた新しいインフォーマルな集落のマッピング:ベネズエラ移住危機における応用

Mapping New Informal Settlements using Machine Learning and Time Series Satellite Images: An Application in the Venezuelan Migration Crisis ( http://arxiv.org/abs/2008.13583v3 )

ライセンス: Link先を確認
Isabelle Tingzon, Niccolo Dejito, Ren Avell Flores, Rodolfo De Guzman, Liliana Carvajal, Katerine Zapata Erazo, Ivan Enrique Contreras Cala, Jeffrey Villaveces, Daniela Rubio, Rayid Ghani(参考訳) 2014年以降、ベネズエラ人約200万人がコロンビアに逃亡し、経済的に荒廃した国から逃れてきた。 非政府組織と地方自治体は、緊急の人道支援を提供するために急速に成長する移民コミュニティを特定し、評価し、監視するという課題に直面している。 しかし、これらの移住人口の多くが全国の非公式集落に居住しているため、大規模な領土にまたがる移住集落の配置は大きな課題となる。 そこで本研究では,機械学習とsentinel-2の時系列衛星画像を用いて,迅速かつ費用対効果の高い新規・未解決地を探索する新しい手法を提案する。 我々は,2015年から2020年にかけて出現したコロンビアのベネズエラ移民入植地を特定するためのアプローチの有効性を実証する。 最後に,分類後検証の重要性を強調し,(1)google earthを用いたリモート検証,(2)モバイルクラウドソーシングプラットフォームであるpremises appを通じたオンザグ検証からなる2段階検証アプローチを提案する。

Since 2014, nearly 2 million Venezuelans have fled to Colombia to escape an economically devastated country during what is one of the largest humanitarian crises in modern history. Non-government organizations and local government units are faced with the challenge of identifying, assessing, and monitoring rapidly growing migrant communities in order to provide urgent humanitarian aid. However, with many of these displaced populations living in informal settlements areas across the country, locating migrant settlements across large territories can be a major challenge. To address this problem, we propose a novel approach for rapidly and cost-effectively locating new and emerging informal settlements using machine learning and publicly accessible Sentinel-2 time-series satellite imagery. We demonstrate the effectiveness of the approach in identifying potential Venezuelan migrant settlements in Colombia that have emerged between 2015 to 2020. Finally, we emphasize the importance of post-classification verification and present a two-step validation approach consisting of (1) remote validation using Google Earth and (2) on-the-ground validation through the Premise App, a mobile crowdsourcing platform.
翻訳日:2023-05-04 19:29:30 公開日:2020-12-16
# 3次元ホモロジー積符号の単発誤差補正

Single-shot error correction of three-dimensional homological product codes ( http://arxiv.org/abs/2009.11790v2 )

ライセンス: Link先を確認
Armanda O. Quintavalle, Michael Vasmer, Joschka Roffe, Earl T. Campbell(参考訳) シングルショット誤り訂正は、データキュービット上の1ラウンドのノイズ測定のみを使用してデータノイズを補正し、集中的な測定繰り返しの必要性をなくす。 量子符号の閉じ込めという一般的な概念を導入し、量子ビット誤りがより多くの測定症候群を引き起こすことなく大きくなることを大まかに規定する。 逆数誤差の単ショット復号には閉包が十分であり, 局所確率誤差の単ショット復号には線形閉包が十分であることを示す。 さらに,すべての3次元ホモロジー積符号がx$成分に閉じ込められていることを証明し,逆相フリップノイズに対する単一ショットであることを示す。 局所的な確率的位相フリップノイズに対しては、これらの符号を数値的に探索し、シングルショット保護の証拠を再度発見する。 我々のモンテカルロシミュレーションでは、持続可能なしきい値が3次元表面およびトーリック符号に対して3.08(4)\%$と2.90(2)\%$であり、これまで観測された最も高いシングルショットしきい値である。 トポロジコードのクラスを超えた単発誤差補正を実証するために、ランダムに構築された3次元ホモロジー積コード上でシミュレーションを実行する。

Single-shot error correction corrects data noise using only a single round of noisy measurements on the data qubits, removing the need for intensive measurement repetition. We introduce a general concept of confinement for quantum codes, which roughly stipulates qubit errors cannot grow without triggering more measurement syndromes. We prove confinement is sufficient for single-shot decoding of adversarial errors and linear confinement is sufficient for single-shot decoding of local stochastic errors. Further to this, we prove that all three-dimensional homological product codes exhibit confinement in their $X$-components and are therefore single-shot for adversarial phase-flip noise. For local stochastic phase-flip noise, we numerically explore these codes and again find evidence of single-shot protection. Our Monte Carlo simulations indicate sustainable thresholds of $3.08(4)\%$ and $2.90(2)\%$ for 3D surface and toric codes respectively, the highest observed single-shot thresholds to date. To demonstrate single-shot error correction beyond the class of topological codes, we also run simulations on a randomly constructed 3D homological product code.
翻訳日:2023-05-01 02:34:58 公開日:2020-12-16
# CNOTゲートの量子回路

Quantum circuits of CNOT gates ( http://arxiv.org/abs/2009.13247v3 )

ライセンス: Link先を確認
Marc Bataille(参考訳) 我々は、CNOTゲートによって生成される量子回路の基礎となる代数構造について詳細に研究する。 我々は,CNOT回路のゲート数を削減するための多項式時間ヒューリスティックを提案し,特定の場合において,このタイプの回路を最適化するアルゴリズムを提供する。 最後に、CNOT回路が完全に分解された状態に作用するときに有用な絡み合った状態を生成する方法を示す。

We study in detail the algebraic structures underlying quantum circuits generated by CNOT gates. Our results allow us to propose polynomial-time heuristics to reduce the number of gates used in a given CNOT circuit and we also give algorithms to optimize this type of circuits in some particular cases. Finally we show how to create some usefull entangled states when a CNOT circuit acts on a fully factorized state.
翻訳日:2023-05-01 02:26:55 公開日:2020-12-16
# 長距離相互作用をもつイジング鎖の非均一性による断熱的切断

Inhomogeneity induced shortcut to adiabaticity in Ising chains with long-range interactions ( http://arxiv.org/abs/2010.05621v2 )

ライセンス: Link先を確認
Aritra Sinha, Debasis Sadhukhan, Marek M. Rams and Jacek Dziarmaga(参考訳) クエンチ時$\tau_q$ で量子相転移を横断する均質系を駆動すると、kz 時間ウィンドウ $\hat t\propto\tau_q^{z\nu/(1+z\nu)} 内でkibble-zurek (kz) の長さよりも長い波長の励起が生成され、ここで $z$ と $\nu$ は臨界指数である。 局所時間依存の不均一性で設計されたクエンチはスペクトルのギャップをもたらす。 短距離相互作用を持つ様々なセットアップに対して、不均質前線の空間速度が特性 KZ 速度 $\hat v \propto \hat\xi/\hat t$ 以下の場合、励起を抑制することが示されている。 長距離相互作用を持つイジングのようなモデルはソニックな地平線を持たず、システム全体に瞬時に情報を拡散する。 通常、これは不均質な遷移が前部速度によらず動的に断熱することを意味する。 しかし、不均質前線が特性的交叉速度より遅い場合にのみ、欠陥のない断熱遷移が得られることを示し、その際、臨界点における不均質前線の傾斜である$\tilde v \propto \theta^{(z-1)\nu/(1+\nu)}$。 このモデルの交叉速度と断熱性の存在は、不均一性によって開放される準粒子スペクトルのエネルギーギャップの結果である。 この効果は、長距離相互作用を持つ系における効率的な断熱量子状態形成に利用できる。

Driving a homogeneous system across a quantum phase transition in a quench-time $\tau_Q$ generates excitations on wavelengths longer than the Kibble-Zurek (KZ) length $\hat\xi\propto\tau_Q^{\nu/(1+z\nu)}$ within the KZ time window $\hat t\propto\tau_Q^{z\nu/(1+z\nu)}$, where $z$ and $\nu$ are the critical exponents. Quenches designed with local time-dependent inhomogeneity can introduce a gap in the spectrum. For a variety of setups with short-range interactions, they have been shown to suppress excitations if the spatial velocity of the inhomogenous front is below the characteristic KZ velocity $\hat v \propto \hat\xi/\hat t$. Ising-like models with long-range interactions can have no sonic horizon, spreading information instantaneously across the system. Usually, this should imply that inhomogenous transitions will render the dynamics adiabatic regardless of the front velocity. However, we show that we get an adiabatic transition with no defects only when the inhomogeneous front moves slower than a characteristic crossover velocity $\tilde v \propto \theta^{(z-1)\nu/(1+\nu)}$, where $\theta$ is the slope of the inhomogeneous front at the critical point. The existence of this crossover velocity and adiabaticity of the model is a consequence of the energy gap in the quasiparticle spectrum that is opened by the inhomogeneity. This effect can be employed for efficient adiabatic quantum state preparation in systems with long-range interactions.
翻訳日:2023-04-29 07:18:14 公開日:2020-12-16
# 複素ジョセフソン量子回路の効率的な数値シミュレーション

Efficient numerical simulation of complex Josephson quantum circuits ( http://arxiv.org/abs/2010.14929v2 )

ライセンス: Link先を確認
Andrew J. Kerman(参考訳) 超伝導回路量子化の確立した手法に基づいて、ジョセフソン量子回路の近似数値シミュレーションのための新しい理論的枠組みを提案する。 この枠組みに基づくシミュレーションは、基本的に新しい種類の超伝導量子デバイスを含む、定量的分析に到達できないような複雑さと回路サイズへのアクセスを提供する。 This capability is made possible by two improvements over previous methods: first, physically-motivated choices for the canonical circuit modes and physical basis states which allow a highly-efficient matrix representation; and second, an iterative method in which subsystems are diagonalized separately and then coupled together, at increasing size scales with each iteration, allowing diagonalization of Hamiltonians in extremely large Hilbert spaces to be approximated using a sequence of diagonalizations in much smaller spaces.

Building on the established methods for superconducting circuit quantization, we present a new theoretical framework for approximate numerical simulation of Josephson quantum circuits. Simulations based on this framework provide access to a degree of complexity and circuit size heretofore inaccessible to quantitative analysis, including fundamentally new kinds of superconducting quantum devices. This capability is made possible by two improvements over previous methods: first, physically-motivated choices for the canonical circuit modes and physical basis states which allow a highly-efficient matrix representation; and second, an iterative method in which subsystems are diagonalized separately and then coupled together, at increasing size scales with each iteration, allowing diagonalization of Hamiltonians in extremely large Hilbert spaces to be approximated using a sequence of diagonalizations in much smaller spaces.
翻訳日:2023-04-27 06:22:32 公開日:2020-12-16
# 量子シークレット共有とトリパーティイト情報

Quantum Secret Sharing and Tripartite Information ( http://arxiv.org/abs/2012.08445v2 )

ライセンス: Link先を確認
Marius Junge, Chloe Kim, Guangkuo Liu, Peixue Wu(参考訳) トライパーティイト情報$I_3$,シークレット共有プロトコル,マルチユニット間の接続を開発する。 これにより、任意の次元における明示的な((2,3))しきい値スキームが、3部情報$I_3$を最小化する。 アプリケーションとして、ページスクランブルユニタリがaliceが共有するすべての秘密に対して同時に機能することを示します。 不完全な共有スキームに$I_3$-Ansatzを用いると、VIP共有スキームの例が見つかる。

We develop a connection between tripartite information $I_3$, secret sharing protocols and multi-unitaries. This leads to explicit ((2,3)) threshold schemes in arbitrary dimension minimizing tripartite information $I_3$. As an application we show that Page scrambling unitaries simultaneously work for all secrets shared by Alice. Using the $I_3$-Ansatz for imperfect sharing schemes we discover examples of VIP sharing schemes.
翻訳日:2023-04-20 18:53:33 公開日:2020-12-16
# 低散逸モデルを用いた有限時間カルノーエンジンの自己一貫性

Self-consistency of optimizing finite-time Carnot engines with the low-dissipation model ( http://arxiv.org/abs/2012.08748v1 )

ライセンス: Link先を確認
Yu-Han Ma, C. P. Sun, and Hui Dong(参考訳) 低散逸モデルで確立された有限時間カルノーエンジンの最大出力(emp)の効率は、操作時間$\tau$、すなわち$\delta s^{(\mathrm{ir})}\propto1/\tau$の非可逆エントロピー生成の逆比例スケーリングの仮定に大きく依存する。 EMPの有限時間等温過程の最適運転時間は、逆比スケールの有効な状態にある必要がある。 しかし、1/\tau$-scalingの未知の係数のため、このような一貫性はテストされなかった。 本稿では, 2段階の原子熱エンジンを例示として, 低散逸モデルを持つ有限時間カルノーエンジンの最適化は, $\eta_{\mathrm{c}}\ll1$, ここで$\eta_{\mathrm{c}}$ がカルノー効率である場合にのみ自己整合であることを明らかにする。 大規模な$\eta_{\mathrm{C}}$ regimeでは、低散逸モデルで得られたEMPの演算時間は1/\tau$-scalingの有効レギュレーションの範囲内ではなく、正確なEMPはよく知られた有界な$\eta_{+}=\eta_{\mathrm{C}}/(2-\eta_{\mathrm{C}})$を超えることが分かる。

The efficiency at the maximum power (EMP) for finite-time Carnot engines established with the low-dissipation model, relies significantly on the assumption of the inverse proportion scaling of the irreversible entropy generation $\Delta S^{(\mathrm{ir})}$ on the operation time $\tau$, i.e., $\Delta S^{(\mathrm{ir})}\propto1/\tau$. The optimal operation time of the finite-time isothermal process for EMP has to be within the valid regime of the inverse proportion scaling. Yet, such consistency was not tested due to the unknown coefficient of the $1/\tau$-scaling. In this paper, using a two-level atomic heat engine as an illustration, we reveal that the optimization of the finite-time Carnot engines with the low-dissipation model is self-consistent only in the regime of $\eta_{\mathrm{C}}\ll1$, where $\eta_{\mathrm{C}}$ is the Carnot efficiency. In the large-$\eta_{\mathrm{C}}$ regime, the operation time for EMP obtained with the low-dissipation model is not within the valid regime of the $1/\tau$-scaling, and the exact EMP is found to surpass the well-known bound $\eta_{+}=\eta_{\mathrm{C}}/(2-\eta_{\mathrm{C}})$
翻訳日:2023-04-20 11:30:54 公開日:2020-12-16
# 線形光マルチポートを用いた高次元Hong-Ou-Mandel効果と状態再分配

Higher-dimensional Hong-Ou-Mandel effect and state redistribution with linear-optical multiports ( http://arxiv.org/abs/2012.08745v1 )

ライセンス: Link先を確認
Shuto Osawa, David S. Simon, Alexander V. Sergienko(参考訳) 二光子であるHong-Ou-Mandel(HOM)効果を高次元空間モードの集合に拡張し、選択後の非線形光学4ポートを用いてこれらのモード上で量子状態の制御可能な再分配を可能にする効果を導入する。 オリジナルのHOM効果により、光子対は宇宙空間で2方向にしか出られない。 しかし、ビームスプリッタと位相シフト器を伴い、4つの空間モードで方向制御可能な2光子HOM効果がシステム内の位相を変化させることで方向制御される。 この制御可能な量子振幅操作は、2つの接続されたマルチポート装置のシステムで位相シフト器を活用することで「遅延」HOM効果の実証を可能にする。 これにより、ネットワークを介して2光子重畳状態の伝播の空間的および時間的制御を実現することができる。

We expand the two-photon Hong-Ou-Mandel (HOM) effect onto a higher-dimensional set of spatial modes and introduce an effect that allows controllable redistribution of quantum states over these modes using directionally unbiased linear-optical four-ports without post-selection. The original HOM effect only allows photon pairs to exit in two directions in space. But when accompanied by beam splitters and phase shifters, the result is a directionally controllable two-photon HOM effect in four spatial modes, with direction controlled by changing the phases in the system. This controllable quantum amplitude manipulation also allows demonstration of a "delayed" HOM effect by exploiting phase shifters in a system of two connected multiport devices. By this means, both spatial and temporal control of the propagation of the two-photon superposition state through a network can be achieved.
翻訳日:2023-04-20 11:30:22 公開日:2020-12-16
# 動的分割マトロイド制約を用いたサブセット選択のためのパレート最適化

Pareto Optimization for Subset Selection with Dynamic Partition Matroid Constraints ( http://arxiv.org/abs/2012.08738v1 )

ライセンス: Link先を確認
Anh Viet Do, Frank Neumann(参考訳) 本研究では,閾値が動的である分割マトロイド制約の下で,部分モジュラあるいは単調な離散目的関数に対する部分集合選択問題を考察する。 このような問題に対して有効であることを示す単純なPareto最適化手法であるPOMCに焦点をあてる。 解析は特異制約問題から外れ,複数の制約問題へと拡張する。 POMCの性能の以前の結果は、複数の制約にも当てはまることを示す。 ランダムな無方向性の最大カット問題に対する実験研究は、再起動戦略を持つ古典的GREEDYアルゴリズムに対するPOMCの競合性を実証している。

In this study, we consider the subset selection problems with submodular or monotone discrete objective functions under partition matroid constraints where the thresholds are dynamic. We focus on POMC, a simple Pareto optimization approach that has been shown to be effective on such problems. Our analysis departs from singular constraint problems and extends to problems of multiple constraints. We show that previous results of POMC's performance also hold for multiple constraints. Our experimental investigations on random undirected maxcut problems demonstrate POMC's competitiveness against the classical GREEDY algorithm with restart strategy.
翻訳日:2023-04-20 11:30:05 公開日:2020-12-16
# Poisson分散光子対を用いたオンデマンド量子相関の観測

Observations of on-demand quantum correlation using Poisson-distributed photon pairs ( http://arxiv.org/abs/2012.08700v1 )

ライセンス: Link先を確認
Sangbae Kim and Byoung S. Ham(参考訳) 相補性(complementarity)または波動-粒子双対性(Wave- Particle duality)は、前世紀を通じて量子力学の基礎となった。 1956年のハンベリー・ブラウン・アンド・ツイツの実験以来、単光子の粒子の性質は反相関やベルの不等式違反などの様々な量子現象に対して集中的に研究されてきた。 しかし、量子性や非古典性に関する基本的な問題に関して、量子の絡み合いとそれをどのように生成すべきかについての明確な答えは存在しない。 ここでは、単一光子の波動特性を用いて量子性の秘密を実験的に示す。

Complementarity or wave-particle duality has been the basis of quantum mechanics over the last century. Since the Hanbury Brown and Twiss experiments in 1956, the particle nature of single photons has been intensively studied for various quantum phenomena such as anticorrelation and Bell inequality violation. Regarding the fundamental question on quantumness or nonclassicality, however, no clear answer exists for what quantum entanglement should be and how to generate it. Here, we experimentally demonstrate the secrete of quantumness using the wave nature of single photons.
翻訳日:2023-04-20 11:28:33 公開日:2020-12-16
# 量子フォールトトレラントしきい値の光学的実証

Optical demonstration of quantum fault-tolerant threshold ( http://arxiv.org/abs/2012.08927v1 )

ライセンス: Link先を確認
Kai Sun, Jin-Shi Xu, Xiao-Ye Xu, Yong-Jian Han, Chuan-Feng Li, and Guang-Can Guo(参考訳) 実用的な量子計算における大きな課題は、量子システムと環境の相互作用によって生じる不可解な誤差である。 論理キュービットを複数の物理キュービットで符号化するフォールトトレラントスキームは、エラーの存在下で論理キュービットの正しい出力を可能にする。 しかし、量子ビットと演算子をエンコードする厳格な要件は、実現可能なノイズの多い中間スケール量子技術でさえも、完全なフォールトトレラントな計算の実装を困難にしている。 本稿では,特殊耐故障プロトコルにおけるしきい値の存在を実験的に実証する。 4つの物理量子ビットは16の光空間モードで実装され、8つのモードで2つの論理量子ビットを符号化する。 実験の結果、フォールトトレラントゲートで形成された回路内の正しい出力の確率は、誤差率がしきい値より低い場合に対応する非符号化回路よりも高いことが明らかとなった。 対照的に、エラー率がしきい値を超えると、フォールトトレラントな実装では利点は見られません。 開発した高精度光学系は、耐故障ゲートを有するより複雑な回路におけるエラー伝搬を調査するための信頼性の高いプラットフォームを提供することができる。

A major challenge in practical quantum computation is the ineludible errors caused by the interaction of quantum systems with their environment. Fault-tolerant schemes, in which logical qubits are encoded by several physical qubits, enable correct output of logical qubits under the presence of errors. However, strict requirements to encode qubits and operators render the implementation of a full fault-tolerant computation challenging even for the achievable noisy intermediate-scale quantum technology. Here, we experimentally demonstrate the existence of the threshold in a special fault-tolerant protocol. Four physical qubits are implemented using 16 optical spatial modes, in which 8 modes are used to encode two logical qubits. The experimental results clearly show that the probability of correct output in the circuit, formed with fault-tolerant gates, is higher than that in the corresponding non-encoded circuit when the error rate is below the threshold. In contrast, when the error rate is above the threshold, no advantage is observed in the fault-tolerant implementation. The developed high-accuracy optical system may provide a reliable platform to investigate error propagation in more complex circuits with fault-tolerant gates.
翻訳日:2023-04-20 11:22:56 公開日:2020-12-16
# 捕捉イオンを用いた最適温度推定のための断熱センシング技術

Adiabatic Sensing Technique for Optimal Temperature Estimation using Trapped Ions ( http://arxiv.org/abs/2012.08915v1 )

ライセンス: Link先を確認
Aleksandrina V. Kirkova, Weibin Li, and Peter A. Ivanov(参考訳) 本研究では,Lmb-Dicke系以外のイオンを捕捉し,最適なフォノン温度推定法を提案する。 量子センシング技術は、非線形jaynes-cummingsモデルによって一般に記述されるフォノンモードの時間依存性の赤側バンド遷移に依存する。 我々のセンシングテクニックのユニークな特徴は、フォノンの熱分布の関連情報を集団自由スピン度に転送できることである。 本研究では, 各熱状態確率を各スピン励起構成に断熱的にマッピングし, 断熱遷移の終わりにスピン依存レーザ蛍光測定を行うことで, 温度推定を行うことを示した。 本研究では,フィッシャー情報を用いて温度の不確かさを特徴付け,状態投影計測が熱平衡で量子振動子に結合する基本量子クレーア・ラオを飽和させることを示した。

We propose an adiabatic method for optimal phonon temperature estimation using trapped ions which can be operated beyond the Lamb-Dicke regime. The quantum sensing technique relies on a time-dependent red-sideband transition of phonon modes, described by the non-linear Jaynes-Cummings model in general. A unique feature of our sensing technique is that the relevant information of the phonon thermal distributions can be transferred to the collective spin-degree of freedom. We show that each of the thermal state probabilities is adiabatically mapped onto the respective collective spin-excitation configuration and thus the temperature estimation is carried out simply by performing a spin-dependent laser fluorescence measurement at the end of the adiabatic transition. We characterize the temperature uncertainty in terms of the Fisher information and show that the state projection measurement saturates the fundamental quantum Cram\'er-Rao bound for quantum oscillator at thermal equilibrium.
翻訳日:2023-04-20 11:22:39 公開日:2020-12-16
# 極低温ファイバリング共振器へのレーザー安定化

Laser stabilization to a cryogenic fiber ring resonator ( http://arxiv.org/abs/2012.08898v1 )

ライセンス: Link先を確認
Benjamin Merkel, Daniel Repp, Andreas Reiserer(参考訳) レーザーの周波数安定性は、最先端の周波数参照における熱ノイズによって制限される。 さらなる改良には低温での運転が必要である。 本研究では,ファイバベースリング共振器について検討する。 我々のシステムは、結晶シリコンよりもはるかに低い約3.55ドルKの1次非感温点を示す。 振動に関して観測された低感度(<5\cdot{10^{-11}}\,\text{m}^{-1} \text{s}^{2}$)、温度(-22(1)\cdot{10^{-9}}\,\text{k}^{-2}$)および圧力変化(4.2(2)\cdot{10^{-11}}\,\text{mbar}^{-2}$)は、将来の精密実験に有望である。

The frequency stability of lasers is limited by thermal noise in state-of-the-art frequency references. Further improvement requires operation at cryogenic temperature. In this context, we investigate a fiber-based ring resonator. Our system exhibits a first-order temperature-insensitive point around $3.55$ K, much lower than that of crystalline silicon. The observed low sensitivity with respect to vibrations ($<5\cdot{10^{-11}}\,\text{m}^{-1} \text{s}^{2}$), temperature ($-22(1)\cdot{10^{-9}}\,\text{K}^{-2}$) and pressure changes ($4.2(2)\cdot{10^{-11}}\,\text{mbar}^{-2}$) makes our approach promising for future precision experiments.
翻訳日:2023-04-20 11:22:22 公開日:2020-12-16
# ガンマフィッティングを用いた光源の分類と生成

Classification and Generation of Light Sources Using Gamma Fitting ( http://arxiv.org/abs/2012.08881v1 )

ライセンス: Link先を確認
Shuanghao Zhang, Huaibin Zheng, Gao Wang, Hui Chen, Yuchen He, Sheng Luo, Jianbin Liu, Yu Zhou and Zhuo Xu(参考訳) 一般に、反束、束ね、重ね合わせのカテゴリを区別する典型的なアプローチは、光の第2次コヒーレンス関数 ${g^{(2)}}(\tau )$ を計算する方法である。 古典光源は二階コヒーレンス {{g^{(2)}}(0)$ の特定の次数に対応するが、光源を特徴付け、決定するための識別可能な計量を構成するだけではない。 ここでは, 1 つの特性パラメータ$\alpha$ または $\beta$ に従ってガンマフィッティングにより, 熱光やコヒーレント光などの古典光源と同様に, アンチバンチング, バンチング、スーパーバンチングを直接分類し, 生成する新しい機構を提案する。 4波混合過程からのビームの実験的検証は, 提案機構と一致しており, 温度$t$ およびレーザーデチューニング $\delta$ が測定結果に及ぼす影響について検討した。 提案手法は, 異なる性質の光を分類・識別する可能性を示し, 最も重要な点として, 提案規則に従って様々な応用要件を満たす光源を生成するための簡便かつ簡便な方法を提供する。 最も注目すべきは、この機構を用いて超ポアソン統計学において、束と超バンチは区別可能であることである。

In general, the typical approach to discriminate antibunching, bunching or superbunching categories make use of calculating the second-order coherence function ${g^{(2)}}(\tau )$ of light. Although the classical light sources correspond to the specific degree of second-order coherence ${g^{(2)}}(0)$, it does not alone constitute a distinguishable metric to characterize and determine light sources. Here we propose a new mechanism to directly classify and generate antibunching, bunching or superbunching categories of light, as well as the classical light sources such as thermal and coherent light, by Gamma fitting according to only one characteristic parameter $\alpha$ or $\beta$. Experimental verification of beams from four-wave mixing process is in agreement with the presented mechanism, and the in fluence of temperature $T$ and laser detuning $\Delta$ on the measured results are investigated. The proposal demonstrates the potential of classifying and identifying light with different nature, and the most importantly, provides a convenient and simple method to generate light sources meeting various application requirements according to the presented rules. Most notably, the bunching and superbunching are distinguishable in super-Poissonian statistics using our mechanism.
翻訳日:2023-04-20 11:21:44 公開日:2020-12-16
# 駆動散逸光学における結合強度の量子推定

Quantum estimation of coupling strengths in driven-dissipative optomechanics ( http://arxiv.org/abs/2012.08876v1 )

ライセンス: Link先を確認
Kamila Sala, Anton Doicin, Andrew D. Armour, Tommaso Tufarelli(参考訳) 局所量子推定理論を用いて,駆動散逸光力学系における線形および二次結合強度の測定を行う。 モデルパラメータの実験的に現実的な値に対して、線形結合強度は二次値よりも推定がかなり容易である。 また, これらのパラメータに関する情報のほとんどが機械要素の還元状態にエンコードされていること, また, 結合パラメータの最適推定戦略は機械位置二次の直接測定によりよく近似されることを明らかにした。 興味深いことに, 温度が推定精度に悪影響を及ぼすとは限らないこと, 二次結合パラメータの場合, 温度の影響がより顕著であることも示されている。

We exploit local quantum estimation theory to investigate the measurement of linear and quadratic coupling strengths in a driven-dissipative optomechanical system. For experimentally realistic values of the model parameters, we find that the linear coupling strength is considerably easier to estimate than the quadratic one. Our analysis also reveals that the majority of information about these parameters is encoded in the reduced state of the mechanical element, and that the best estimation strategy for both coupling parameters is well approximated by a direct measurement of the mechanical position quadrature. Interestingly, we also show that temperature does not always have a detrimental effect on the estimation precision, and that the effects of temperature are more pronounced in the case of the quadratic coupling parameter.
翻訳日:2023-04-20 11:21:20 公開日:2020-12-16
# 測定デバイスに依存しない絡み合い証人におけるノイズ量子入力ループホール

Noisy quantum input loophole in measurement-device-independent entanglement witnesses ( http://arxiv.org/abs/2012.09089v1 )

ライセンス: Link先を確認
Kornikar Sen, Chirag Srivastava, Shiladitya Mal, Aditi Sen De, Ujjwal Sen(参考訳) 絡み合い目撃者は、全密度行列の事前知識を持たずに、実験室内の絡み合いを局所的に検出する効果的な方法を形成する。 しかし、分離可能な状態は、誤った測定や検出器の損失の存在下で、そのような検出に絡み合っていると誤って示すことができる。 測定デバイスに依存しない絡み合いの目撃者(MDI-EWs)は、間違った測定でも、特定の種類の損失検出器に対しても偽の絡み合いを決して検出しない。 mdi-ewsを用いた絡み合いの忠実な検出において重要な仮定は、絡み合いが検出される量子状態に追加される入力である「量子入力」を生成する準備装置は完全であり、伝達中にノイズがないということである。 ここでは、これらの仮定を緩和し、量子入力に対するノイズの影響を研究するための一般的な枠組みを提供する。 MDI-EWの特性を維持するために一様雑音マップ上で十分な条件を導出する。 非一様・絡み合い雑音の文脈では,MDI-EWでも偽絡み検出が可能であることが判明した。 また,局所雑音の様々なパラダイムモデルを調査し,ヴェルナー状態のクラスにおける絡み合いを明らかにした。

Entanglement witnesses form an effective method to locally detect entanglement in the laboratory without having the prior knowledge of the full density matrix. However, separable states can be erroneously indicated as entangled in such detections in the presence of wrong measurements or loss in detectors. Measurement-device-independent entanglement witnesses (MDI-EWs) never detect fake entanglement even under wrong measurements and for a particular kind of lossy detectors. A crucial assumption in the case of faithful detection of entanglement employing MDI-EWs is that the preparation devices producing "quantum inputs" - which are inputs additional to the quantum state whose entanglement is to be detected - are perfect and there is no noise during their transmission. Here, we relax these assumptions and provide a general framework for studying the effect of noise on the quantum inputs, invoking uniform and non-uniform noise models. We derive sufficient conditions on the uniform noisy map for retaining the characteristic of MDI-EWs. We find that in the context of non-uniform and entangling noise, fake entanglement detection is possible even by MDI-EWs. We also investigate various paradigmatic models of local noise and find conditions of revealing entanglement in the class of Werner states.
翻訳日:2023-04-20 11:14:18 公開日:2020-12-16
# マルチモードファイバによる低温原子の高分解能イメージング

High-Resolution Imaging of Cold Atoms through a Multimode Fiber ( http://arxiv.org/abs/2012.09073v1 )

ライセンス: Link先を確認
Nicolas Vitrant, S\'ebastien Garcia, Kilian M\"uller, and Alexei Ourjoumtsev(参考訳) 低温原子の超コンパクト高分解能イメージングシステムを開発した。 真空中唯一の素子は、直径230\,\mu$mのマルチモード光ファイバであり、同時に光を集め、真空室から誘導する。 外部アダプティブ光学は、100 \times 100\,\mu$m$^2$の視野上で、$\sim 1\,\mu$mの解像度で冷えたRb原子を画像化することができる。 これらの光学系は、高速吸収イメージングと高感度蛍光イメージングを切り替えるために容易に再配置できる。 このシステムは、低温原子と光学キャビティ、超伝導回路、または光学アクセスを制限する光学デバイスを組み合わせたハイブリッド量子工学プラットフォームに特に適している。

We developed an ultra-compact high-resolution imaging system for cold atoms. Its only in-vacuum element is a multimode optical fiber with a diameter of $230\,\mu$m, which simultaneously collects light and guides it out of the vacuum chamber. External adaptive optics allow us to image cold Rb atoms with a $\sim 1\,\mu$m resolution over a $100 \times 100\,\mu$m$^2$ field of view. These optics can be easily rearranged to switch between fast absorption imaging and high-sensitivity fluorescence imaging. This system is particularly suited for hybrid quantum engineering platforms where cold atoms are combined with optical cavities, superconducting circuits or optomechanical devices restricting the optical access.
翻訳日:2023-04-20 11:13:55 公開日:2020-12-16
# サイバーテロリズムのダイナミックな概念化に向けて

Beyond kinetic harm and towards a dynamic conceptualization of cyberterrorism ( http://arxiv.org/abs/2012.09056v1 )

ライセンス: Link先を確認
Vince J. Straub(参考訳) 20年以上にわたる議論の後、サイバーテロという概念は混乱に悩まされている。 本稿は,この用語の展開を地図化し,議論を形作る認識論的コミュニティを配置した統合的レビューの結果について述べる。 既存のアカウントを批判的に評価し、サイバーテロ攻撃を防ぐ上で重要な倫理的、社会的、法的側面を強調した後、サイバーテロリズムをより抽象的で、予測が難しく、隔離が困難であると見なすよりダイナミックな概念化を求める。 結論として、新たな研究プログラムを触媒することを目的として、サイバーテロの新しい定義を提案し、さらなる研究のロードマップをスケッチする。

After more than two decades of discussion, the concept of cyberterrorism remains plagued by confusion. This article presents the result of an integrative review which maps the development of the term and situates the epistemic communities that have shaped the debate. After critically assessing existing accounts and highlighting the key ethical, social, and legal dimensions at stake in preventing cyberterrorist attacks, it calls for a more dynamic conceptualization that views cyberterrorism as more abstract, difficult to predict, and hard to isolate; and which embraces a different conception of sufficient harm. In concluding it proposes a novel definition of cyberterrorism, intended to catalyse a new research programme, and sketches a roadmap for further research.
翻訳日:2023-04-20 11:13:16 公開日:2020-12-16
# 任意の数のモードに対する位相感度増幅器の雑音図形の一般化表現

Generalised expression of the noise figure of phase sensitive amplifiers for an arbitrary number of modes ( http://arxiv.org/abs/2012.09031v1 )

ライセンス: Link先を確認
Yousra Bouasria and Debanuj Chatterjee and Fabienne Goldfarb and Yassine Hassouni and Fabien Bretenaker(参考訳) 位相感応増幅器(psa)は、通常位相感応増幅器(pia)とは対照的に、原則として無ノイズ増幅、すなわち0dbの量子制限雑音図形(nf)を示すことができる。 非線形ファイバーに4波混合(FWM)を用いて実装すると、望ましくないFWMプロセスによって余分な波が生成され、真空揺らぎのための余分な入力ポートが導入されたため、NFは劣化する可能性がある。 この状況では、任意の数の非線形結合モードに有効なPSA NFの一般的な解析量子導出を与える。 この式は、関連するモードの消滅および生成演算子に対して線形入力出力関係が見つかるとすぐに利用できる。 ノイズレベルは相互作用する波の数に依存すると予測される。 相互作用量子モードに対応する6つの波の場合のこの表現の有用性について述べる。 この例では、信号NFを0.4dBで劣化させ、同じスキームのPIA動作で得られる10dBと比較する。

Phase sensitive amplifiers (PSA), contrary to usual phase insensitive amplifiers (PIA), are in principle capable to achieve noiseless amplification, i.e. exhibit a quantum-limited noise figure (NF) of 0 dB. When implemented using four-wave mixing (FWM) in a nonlinear fiber, extra waves can be generated by undesired FWM processes, which may introduce extra input ports for vacuum fluctuations, thus potentially degrading the NF. In this situation, we give here a general analytical quantum derivation of the PSA NF, valid for an arbitrary number of nonlinearly coupled modes. This expression is usable as soon as a linear input-output relation can be found for the annihilation and creation operators of the involved modes. It predicts that the noise level depends on the number of interacting waves. We illustrate the usefulness of this expression in the case of six waves, corresponding to four interacting quantum modes. In this example the signal NF is degraded by 0.4 dB, compared to 10 dB obtained for PIA operation of the same scheme.
翻訳日:2023-04-20 11:11:57 公開日:2020-12-16
# CMOS量子コンピューティング:量子コンピュータシステムに向けて

CMOS Quantum Computing: Toward A Quantum Computer System-on-Chip ( http://arxiv.org/abs/2012.09021v1 )

ライセンス: Link先を確認
Reza Nikandish, Elena Blokhina, and Robert Bogdan Staszewski(参考訳) 量子コンピューティングは科学分野から工学分野への移行を経験しており、高性能コンピューティングを要求する広範囲のアプリケーションを革新することを約束している。 量子コンピューティングシステムには多くの実装アプローチが追求されており、現在のメインストリームは超伝導、フォトニック、トラップイオン、半導体量子ビットに基づいて識別できる。 半導体ベースの量子コンピューティング、特にCMOS技術は、単一のチップ上の制御回路と読み出し回路との量子ビットの統合の可能性を秘めている。 これは、実用的な問題を解決するための大規模量子コンピューティングシステムの実現の道を開く。 本稿では,半導体量子ビット構造,量子ゲート,制御および読み出し回路について検討し,cmos実装の期待と課題に焦点を当てたcmos量子コンピューティングの概要と今後の展望について述べる。

Quantum computing is experiencing the transition from a scientific to an engineering field with the promise to revolutionize an extensive range of applications demanding high-performance computing. Many implementation approaches have been pursued for quantum computing systems, where currently the main streams can be identified based on superconducting, photonic, trapped-ion, and semiconductor qubits. Semiconductor-based quantum computing, specifically using CMOS technologies, is promising as it provides potential for the integration of qubits with their control and readout circuits on a single chip. This paves the way for the realization of a large-scale quantum computing system for solving practical problems. In this paper, we present an overview and future perspective of CMOS quantum computing, exploring developed semiconductor qubit structures, quantum gates, as well as control and readout circuits, with a focus on the promises and challenges of CMOS implementation.
翻訳日:2023-04-20 11:11:38 公開日:2020-12-16
# 古典的な影のベイズ解析

A Bayesian analysis of classical shadows ( http://arxiv.org/abs/2012.08997v1 )

ライセンス: Link先を確認
Joseph M. Lukens, Kody J. H. Law, and Ryan S. Bennink(参考訳) 古典的なシャドウ法は、限られた測定値(H.-Y. Huang, R. Kueng, and J. Preskill, Nat. Phys. 16, 1050 (2020)))による量子推定に先例のない機会を秘めている。 しかし、確立された量子トモグラフィーアプローチ(特に確率モデルに基づくもの)との関係は未だ不明である。 本稿では,ベイズ平均推定(BME)のレンズによる古典的影について検討する。 数値データの直接検定では、BMEは平均よりも誤差が著しく低いことが分かるが、古典的な影は、ヒルベルト空間において完全に均一にできない、高忠実な基底状態のような特定の状況において、著しく正確である。 次に、古典的影の次元独立性と状態固有最適性をうまくエミュレートする観測可能指向の擬似様相を導入する。 本研究は,古典影が従来の量子状態推定における考え方と,統計的仮定を解明・定式化するためのベイズ法の有用性を明らかにした。

The method of classical shadows heralds unprecedented opportunities for quantum estimation with limited measurements [H.-Y. Huang, R. Kueng, and J. Preskill, Nat. Phys. 16, 1050 (2020)]. Yet its relationship to established quantum tomographic approaches, particularly those based on likelihood models, remains unclear. In this article, we investigate classical shadows through the lens of Bayesian mean estimation (BME). In direct tests on numerical data, BME is found to attain significantly lower error on average, but classical shadows prove remarkably more accurate in specific situations -- such as high-fidelity ground truth states -- which are improbable in a fully uniform Hilbert space. We then introduce an observable-oriented pseudo-likelihood that successfully emulates the dimension-independence and state-specific optimality of classical shadows, but within a Bayesian framework that ensures only physical states. Our research reveals how classical shadows effect important departures from conventional thinking in quantum state estimation, as well as the utility of Bayesian methods for uncovering and formalizing statistical assumptions.
翻訳日:2023-04-20 11:11:25 公開日:2020-12-16
# 単一分子電子輸送をシミュレートする量子アルゴリズム

Quantum Algorithm for Simulating Single-Molecule Electron Transport ( http://arxiv.org/abs/2012.09231v1 )

ライセンス: Link先を確認
Soran Jahangiri, Juan Miguel Arrazola, Alain Delgado(参考訳) 分子レベルでの電子輸送の正確な記述は、量子効果の正確な処理を必要とする。 これらの効果は、電流電圧曲線のような単一分子の電子輸送特性を決定する上で重要な役割を果たしており、古典的にシミュレートすることは困難である。 ここでは、弱い結合状態における単一分子接合を通した電子電流を効率的に計算する量子アルゴリズムを提案する。 分子の異なる電荷状態間の振動遷移をシミュレートするためにプログラムされた量子コンピュータは、シーケンシャルな電子移動速度と電流を計算するのに使うことができる。 調和近似では、このアルゴリズムはフォトニック量子コンピューティングの短期的プラットフォームであるガウスボソンサンプリング装置を用いて実装することができる。 マグネシウムポルフィン分子の電流とコンダクタンスをシミュレートするアルゴリズムを適用した。 シミュレーションは、実験データや理論データと一致して、電流とコンダクタンスにおける離散的なステップとして表される量子効果を示す。

An accurate description of electron transport at a molecular level requires a precise treatment of quantum effects. These effects play a crucial role in determining the electron transport properties of single molecules, such as current-voltage curves, which can be challenging to simulate classically. Here we introduce a quantum algorithm to efficiently calculate the electronic current through single-molecule junctions in the weak-coupling regime. We show that a quantum computer programmed to simulate vibronic transitions between different charge states of a molecule can be used to compute sequential electron transfer rates and electric current. In the harmonic approximation, the algorithm can be implemented using Gaussian boson sampling devices, which are a near-term platform for photonic quantum computing. We apply the algorithm to simulate the current and conductance of a magnesium porphine molecule. The simulations demonstrate quantum effects that are manifested as discrete steps in the current and conductance, in agreement with experimental and theoretical data.
翻訳日:2023-04-20 11:04:37 公開日:2020-12-16
# 固体スピンの非ユニタリダイナミクスによる非エルミート位相の観察

Observation of non-Hermitian topology with non-unitary dynamics of solid-state spins ( http://arxiv.org/abs/2012.09191v1 )

ライセンス: Link先を確認
Wengang Zhang, Xiaolong Ouyang, Xianzhi Huang, Xin Wang, Huili Zhang, Yefei Yu, Xiuying Chang, Yanqing Liu, Dong-Ling Deng, L.-M. Duan(参考訳) 非エルミートトポロジカルな位相は、従来のバルク境界対応の皮膚効果や分解など、エルミート的な特徴を持たない多くのエキゾチックな特徴を示す。 ここでは、非エルミート型Su-Schrieffer-Heeger(SSH)ハミルトニアンを、ダイヤモンド中の窒素空孔(NV)中心に電子スピンと$^{13}$C核スピンからなる固体量子シミュレータを用いて、非エルミート型位相の研究の原型モデルとして実装する。 ダイレーション法を用いることで、電子スピンに対する所望の非単位ダイナミクスを実現し、対応する位相不変量を直接得る運動量空間におけるスピンテクスチャをマッピングする。 この結果は、固体スピンや他の量子シミュレーションプラットフォームを持つ非エルミート位相の興味深い性質をさらに活用し、理解するための道を開く。

Non-Hermitian topological phases exhibit a number of exotic features that have no Hermitian counterparts, including the skin effect and breakdown of the conventional bulk-boundary correspondence. Here, we implement the non-Hermitian Su-Schrieffer-Heeger (SSH) Hamiltonian, which is a prototypical model for studying non-Hermitian topological phases, with a solid-state quantum simulator consisting of an electron spin and a $^{13}$C nuclear spin in a nitrogen-vacancy (NV) center in a diamond. By employing a dilation method, we realize the desired non-unitary dynamics for the electron spin and map out its spin texture in the momentum space, from which the corresponding topological invariant can be obtained directly. Our result paves the way for further exploiting and understanding the intriguing properties of non-Hermitian topological phases with solid-state spins or other quantum simulation platforms.
翻訳日:2023-04-20 11:02:38 公開日:2020-12-16
# 人工分子としての固体材料のハイブリッド化欠陥

Hybridized defects in solid-state materials as artificial molecules ( http://arxiv.org/abs/2012.09187v1 )

ライセンス: Link先を確認
Derek S. Wang, Christopher J. Ciccarino, Johannes Flick, and Prineha Narang(参考訳) 2次元の材料は原子スケールに近づく構造的精度で製作することができ、量子的欠陥を設計することが可能になる。 これらの欠陥はしばしば人工原子として記述され、光学的に配置可能なスピン量子ビットが出現する。 しかし、格子の存在下では、そのような人工原子同士の相互作用と結合は著しく過小評価されている。 ここでは、固体における人工分子の形成について述べ、量子光電子物質の制御における新しい自由度を導入する。 特に, モデル系としての単層六方晶窒化ホウ素では, バンドギャップ内欠陥軌道の結合・反結合軌道への配位および距離依存性の解離曲線とハイブリッド化が観察され, エネルギーは10 meVから1 eV程度である。 面外欠陥対CH$_\textrm{B}$-CH$_\textrm{B}$-C$_\textrm{B}$-C$_\textrm{B}$に対して、面外欠陥対CH$_\textrm{B}$のエネルギーを計算し、面内欠陥対が面外欠陥対よりも強く相互作用することを示す。 我々は、C$_\textrm{B}$とV$_\textrm{N}$ of C$_\textrm{B}$V$_\textrm{N}$との距離を変化させ、可視光から近赤外スペクトル帯までの予測ピーク吸収波長の変化を観測することによって、この化学自由度の適用を実証する。 我々は,量子情報科学のためのロバストな量子メモリと量子エミッタへの欠陥特性の制御とチューニングに,この化学的な欠陥錯体の自由度を活用することを想定する。

Two-dimensional materials can be crafted with structural precision approaching the atomic scale, enabling quantum defects-by-design. These defects are frequently described as artificial atoms and are emerging optically-addressable spin qubits. However, interactions and coupling of such artificial atoms with each other, in the presence of the lattice, is remarkably underexplored. Here we present the formation of artificial molecules in solids, introducing a new degree of freedom in control of quantum optoelectronic materials. Specifically, in monolayer hexagonal boron nitride as our model system, we observe configuration- and distance-dependent dissociation curves and hybridization of defect orbitals within the bandgap into bonding and antibonding orbitals, with splitting energies ranging from $\sim$ 10 meV to nearly 1 eV. We calculate the energetics of $cis$ and $trans$ out-of-plane defect pairs CH$_\textrm{B}$-CH$_\textrm{B}$ against an in-plane defect pair C$_\textrm{B}$-C$_\textrm{B}$ and find that in-plane defect pair interacts more strongly than out-of-plane pairs. We demonstrate an application of this chemical degree of freedom by varying the distance between C$_\textrm{B}$ and V$_\textrm{N}$ of C$_\textrm{B}$V$_\textrm{N}$ and observe changes in the predicted peak absorption wavelength from the visible to the near-infrared spectral band. We envision leveraging this chemical degree of freedom of defect complexes to precisely control and tune defect properties towards engineering robust quantum memories and quantum emitters for quantum information science.
翻訳日:2023-04-20 11:02:19 公開日:2020-12-16
# 2量子ビット状態とそれに伴う分離性と絶対分離率の尺度としての量子ステアリング楕円体積

Quantum Steering Ellipsoid Volume as a Measure on the Two-Qubit States and Associated Separability and Absolute Separability Ratios ( http://arxiv.org/abs/2012.09152v1 )

ライセンス: Link先を確認
Paul B. Slater(参考訳) 2量子ビット状態の15次元凸集合上の測度として量子ステアリング楕円体(qses)の体積を用い、分離可能な状態上の測度の積分とすべての(分離可能かつ絡み合った)状態上の積分の比率を0.0288と推定する。 これは、$\frac{8}{33} = \frac{2^3}{3 \cdot 11} \approx 0.242424$ と $\frac{25}{341}=\frac{5^2}{11 \cdot 31} \approx 0.0733138$ のかなり大きな分離可能性比(確率)と対照的である。 QSE設定における比率をより正確に得ることができるか、あるいは正確に計算できるか、あるいはメートル法を構築することができるかという疑問は、測定値を得る体積要素に対処する必要がある。 また,絶対分離性に関する問題についても検討する。 さらに、QSEインスタンスにおけるブロッホベクトルノルム(Bloch vector norm)の関数として、ヒルベルト・シュミットの場合の分離可能性確率の挙動、およびブレス関数の減少について検討する。 純粋な状態境界への接近が増加するようだ。

Employing the volume of quantum steering ellipsoids (QSEs) as a measure on the fifteen-dimensional convex set of two-qubit states, we estimate the ratio of the integral of the measure over the separable states to its integral over all (separable and entangled) states to be 0.0288. This can be contrasted with the considerably larger separability ratios (probabilities) of $\frac{8}{33} = \frac{2^3}{3 \cdot 11} \approx 0.242424$ and $\frac{25}{341}=\frac{5^2}{11 \cdot 31} \approx 0.0733138$ that various forms of evidence point to with the use of the prominent Hilbert-Schmidt and Bures measures, respectively. The questions of whether the ratio in the QSE setting can be more precisely obtained or even exactly computed, as well as whether a metric can be constructed, the volume element of which yields the measure, remain to be addressed. We also investigate related issues pertaining to absolute separability. Further, we examine the behavior of the separability probability--constant in the Hilbert-Schmidt case and decreasing in the Bures--as a function of the Bloch vector norm in the QSE instance. It appears to increase approaching the pure state boundary.
翻訳日:2023-04-20 11:01:24 公開日:2020-12-16
# 強電界における2次元量子閉じ込めスターク効果について

On the two-dimensional quantum confined Stark effect in strong electric fields ( http://arxiv.org/abs/2012.09145v1 )

ライセンス: Link先を確認
Horia Cornean, David Krejcirik, Thomas Garm Pedersen, Nicolas Raymond and Edgardo Stockmeyer(参考訳) ディリクレ境界条件を持つ2次元有界領域上のスターク・ハミルトニアンを考える。 強電場極限では、ある局所凸条件の下では、低次固有値の3項の漸近展開が導かれる。 これは、励起周波数が電場の方向によって決定されるある点における境界曲率の平方根に比例することを示している。

We consider a Stark Hamiltonian on a two-dimensional bounded domain with Dirichlet boundary conditions. In the strong electric field limit we derive, under certain local convexity conditions, a three-term asymptotic expansion of the low-lying eigenvalues. This shows that the excitation frequencies are proportional to the square root of the boundary curvature at a certain point determined by the direction of the electric field.
翻訳日:2023-04-20 11:00:54 公開日:2020-12-16
# 労働力を実現するロボティクス

Robotics Enabling the Workforce ( http://arxiv.org/abs/2012.09309v1 )

ライセンス: Link先を確認
Henrik Christensen, Maria Gini, Odest Chadwicke Jenkins, and Holly Yanco(参考訳) ロボット工学は、我々の労働力を自動化で補完することで、国の熟練した労働力を拡大する可能性を秘めている。 米国の経済力は我々の国民の生産性にかかっている。 自動化の台頭は、我々の市民の仕事を強化し、我々の産業の革新と繁栄を促進する新しい機会を提供する。 もっとも重要なのは、今後のロボット技術が、コラボレーションチームにおける人間と自動化の両方の労働力を最大限に活用するために、我々の労働力をいかに補完するかを理解するための研究が必要だ。 ロボティクスの研究と労働開発への投資はGDPの増加、輸出・輸出比率の増加、熟練労働者の中間層の増加、そして世界的なパンデミックやその他の混乱に耐えられる米国のサプライチェーンに繋がる。 米国をロボット工学のリーダーにするためには、基礎研究、技術開発、K-16教育、生涯学習に投資する必要がある。

Robotics has the potential to magnify the skilled workforce of the nation by complementing our workforce with automation: teams of people and robots will be able to do more than either could alone. The economic engine of the U.S. runs on the productivity of our people. The rise of automation offers new opportunities to enhance the work of our citizens and drive the innovation and prosperity of our industries. Most critically, we need research to understand how future robot technologies can best complement our workforce to get the best of both human and automated labor in a collaborative team. Investments made in robotics research and workforce development will lead to increased GDP, an increased export-import ratio, a growing middle class of skilled workers, and a U.S.-based supply chain that can withstand global pandemics and other disruptions. In order to make the United States a leader in robotics, we need to invest in basic research, technology development, K-16 education, and lifelong learning.
翻訳日:2023-04-20 10:55:32 公開日:2020-12-16
# 基礎物理実験のための核時計

Nuclear clocks for testing fundamental physics ( http://arxiv.org/abs/2012.09304v1 )

ライセンス: Link先を確認
E. Peik, T. Schumm, M. S. Safronova, A. P\'alffy, J. Weitenberg and P. G. Thirolf(参考訳) 1970年代に核物理学のエキゾチックな特徴として初めて研究された$^{229}$Thの低エネルギーで長寿命の異性体は、物理学者の多分野のコミュニティを刺激し続けている。 核内の強い相互作用と電磁相互作用によって決定される核共鳴周波数を用いて、電子シェルの共鳴周波数に基づいて、他のすべての原子時計と根本的に異なる高精度な原子時計を構築することができる。 核時計は物理学の基本原理の高感度な試験、特にアインシュタインの等価原理違反の探索、および標準モデルを超えた新しい粒子と相互作用の機会を開く。 核時計を用いて電磁的および強い結合定数の変動を探索し、暗黒物質探索を行うことが提案されている。 $^{229}$Th 核光学時計は、現在の核遷移周波数と自然線幅の不確実性の間の17桁近くの大きさの巨大なギャップを考えると、依然として大きな課題である。 近年、重要な実験的進歩が達成されており、概ね概観される。 さらに、本質的な$^{229\rm{m}}$Th特性に関する現在の知識を集約し、レーザー分光精度で核遷移周波数を決定し、異なるタイプの核時計を実現し、光原子時計と精密周波数比較で基礎物理学をテストするための研究戦略を概説する。 レーザー冷却された$^{229}$Thイオンは、核-電子相互作用と最小の系統的な周波数シフトの完全な制御が可能な実験であり、Thドープ固体は高粒子数および異なる電子環境における実験を可能にする。

The low-energy, long-lived isomer in $^{229}$Th, first studied in the 1970s as an exotic feature in nuclear physics, continues to inspire a multidisciplinary community of physicists. Using the nuclear resonance frequency, determined by the strong and electromagnetic interactions inside the nucleus, it is possible to build a highly precise nuclear clock that will be fundamentally different from all other atomic clocks based on resonant frequencies of the electron shell. The nuclear clock will open opportunities for highly sensitive tests of fundamental principles of physics, particularly in searches for violations of Einstein's equivalence principle and for new particles and interactions beyond the standard model. It has been proposed to use the nuclear clock to search for variations of the electromagnetic and strong coupling constants and for dark matter searches. The $^{229}$Th nuclear optical clock still represents a major challenge in view of the tremendous gap of nearly 17 orders of magnitude between the present uncertainty in the nuclear transition frequency and the natural linewidth. Significant experimental progress has been achieved in recent years, which will be briefly reviewed. Moreover, a research strategy will be outlined to consolidate our present knowledge about essential $^{229\rm{m}}$Th properties, to determine the nuclear transition frequency with laser spectroscopic precision, realize different types of nuclear clocks and apply them in precision frequency comparisons with optical atomic clocks to test fundamental physics. Two avenues will be discussed: laser-cooled trapped $^{229}$Th ions that allow experiments with complete control on the nucleus-electron interaction and minimal systematic frequency shifts, and Th-doped solids enabling experiments at high particle number and in different electronic environments.
翻訳日:2023-04-20 10:55:17 公開日:2020-12-16
# 身体運動量応答モデルのパラメータの最適化:アルゴリズムによる比較

Optimizing the Parameters of A Physical Exercise Dose-Response Model: An Algorithmic Comparison ( http://arxiv.org/abs/2012.09287v1 )

ライセンス: Link先を確認
Mark Connor and Michael O'Neill(参考訳) 本研究の目的は,運動生理学分野で使用される共通非線形線量応答モデルのパラメータ適合性を考慮した場合,局所的および大域的最適化アルゴリズムのロバスト性と性能を比較することである。 伝統的に、線量応答モデルのパラメータは、局所最適化アルゴリズムと組み合わせて、非線形最小二乗法を用いて適合している。 しかし、これらのアルゴリズムは、グローバル最適解に収束する能力の限界を証明している。 本研究は, 非線形線量応答モデルに適合する代替法として, 進化計算に基づくアルゴリズムを用いることを目的としている。 1000回以上の実験の結果から,進化計算に基づくアルゴリズムは,局所探索アルゴリズムと比較して,より強固なモデル適合性とホールドアウト性能を一貫して達成できることがわかった。 この最初の研究は、大域的進化的計算に基づく最適化アルゴリズムが、非線型線量応答モデルのパラメータを適合させる際に、局所アルゴリズムの高速で堅牢な代替となることを示唆している。

The purpose of this research was to compare the robustness and performance of a local and global optimization algorithm when given the task of fitting the parameters of a common non-linear dose-response model utilized in the field of exercise physiology. Traditionally the parameters of dose-response models have been fit using a non-linear least-squares procedure in combination with local optimization algorithms. However, these algorithms have demonstrated limitations in their ability to converge on a globally optimal solution. This research purposes the use of an evolutionary computation based algorithm as an alternative method to fit a nonlinear dose-response model. The results of our comparison over 1000 experimental runs demonstrate the superior performance of the evolutionary computation based algorithm to consistently achieve a stronger model fit and holdout performance in comparison to the local search algorithm. This initial research would suggest that global evolutionary computation based optimization algorithms may present a fast and robust alternative to local algorithms when fitting the parameters of non-linear dose-response models.
翻訳日:2023-04-20 10:54:20 公開日:2020-12-16
# 駆動量子系の高速かつ微分可能なシミュレーション

Fast and differentiable simulation of driven quantum systems ( http://arxiv.org/abs/2012.09282v1 )

ライセンス: Link先を確認
Ross Shillito, Jonathan A. Gross, Agustin Di Paolo, \'Elie Genois and Alexandre Blais(参考訳) 量子系で論理演算を実行する制御は時間依存ハミルトニアンによって記述され、しばしば高速振動を含む。 数値シミュレーションにおける結果の時間ダイナミクスを正確に把握するためには、非常に小さな積分時間ステップが必要であり、シミュレーション実行時間に大きな影響を及ぼす可能性がある。 本稿では,ダイソン展開に基づく半解析法を導入し,標準数値積分器よりも高速に時間発展駆動型量子システムを実現する。 このソルバーはdysolveと名付けられ、ハミルトニアン系における高振動項の効果を効率的に捉え、シミュレーションの実行時間と時間ステップサイズに対する感度を大幅に削減する。 さらに、この解法は、駆動振幅に関する時間発展作用素の正確な導出を提供する。 この重要な特徴は、強いドライブの限界における最適制御を可能にし、回転波近似に依存する一般的なパルス最適化アプローチを超える。 提案手法の例証として,回路QEDアーキテクチャにおけるトランスモン量子ビットを用いた2量子ゲートの最適化結果を示す。

The controls enacting logical operations on quantum systems are described by time-dependent Hamiltonians that often include rapid oscillations. In order to accurately capture the resulting time dynamics in numerical simulations, a very small integration time step is required, which can severely impact the simulation run-time. Here, we introduce a semi-analytic method based on the Dyson expansion that allows us to time-evolve driven quantum systems much faster than standard numerical integrators. This solver, which we name Dysolve, efficiently captures the effect of the highly oscillatory terms in the system Hamiltonian, significantly reducing the simulation's run time as well as its sensitivity to the time-step size. Furthermore, this solver provides the exact derivative of the time-evolution operator with respect to the drive amplitudes. This key feature allows for optimal control in the limit of strong drives and goes beyond common pulse-optimization approaches that rely on rotating-wave approximations. As an illustration of our method, we show results of the optimization of a two-qubit gate using transmon qubits in the circuit QED architecture.
翻訳日:2023-04-20 10:54:05 公開日:2020-12-16
# LiY$_{1-x}$Ho$_{x}$F$_{4}$に対する低エネルギー電気核ハミルトニアンの精密決定

Precise determination of low energy electronuclear Hamiltonian for LiY$_{1-x}$Ho$_{x}$F$_{4}$ ( http://arxiv.org/abs/2012.09233v1 )

ライセンス: Link先を確認
A. Beckert, R.I. Hermans, M. Grimm, J.R. Freeman, E.H. Linfield, A.G. Davies, M. M\"uller, H. Sigg, S. Gerber, G. Matmon, G. Aeppli(参考訳) 我々は、超微粒子分裂を含む希土類量子磁石liy$_{1-x}$ho$_{x}$f$_{4}$の最低結晶場エネルギーを直接測定するために相補的な光学分光法を用いる。 エネルギー準位は$^6\mathrm{Li}$と$^7\mathrm{Li}$同位体と、双極子と四極子相互作用に由来する非等間隔の超微細遷移によって観測できる。 結晶場パラメータを改良し, 双極子定数${a_j=0.02703\pm0.00003}$$\textrm{cm}^{-1}$および${b=0.004 \pm0.01}$$$\textrm{cm}^{-1}$を抽出する。 このとき、(非線形)超微細補正を含む、$^5I_8$基底状態多様体のすべての結晶場エネルギーレベルと磁気モーメントを決定する。 後者は測定に基づく見積もりと一致する。 非線型超微細補正のスケールは、選択された超微細遷移のユニークなアドレッシングを可能にする不均一な線幅の上限を設定する。 例えば、量子情報応用などです。 さらに、LiY$_{1-x}$Ho$_{x}$F$_{4}$の遠赤外線、低温屈折率を確立する。

We use complementary optical spectroscopy methods to directly measure the lowest crystal-field energies of the rare-earth quantum magnet LiY$_{1-x}$Ho$_{x}$F$_{4}$, including their hyperfine splittings, with more than 10 times higher resolution than previous work. We are able to observe energy level splittings due to the $^6\mathrm{Li}$ and $^7\mathrm{Li}$ isotopes, as well as non-equidistantly spaced hyperfine transitions originating from dipolar and quadrupolar hyperfine interactions. We provide refined crystal field parameters and extract the dipolar and quadrupolar hyperfine constants ${A_J=0.02703\pm0.00003}$ $\textrm{cm}^{-1}$ and ${B= 0.04 \pm0.01}$ $\textrm{cm}^{-1}$, respectively. Thereupon we determine all crystal-field energy levels and magnetic moments of the $^5I_8$ ground state manifold, including the (non-linear) hyperfine corrections. The latter match the measurement-based estimates. The scale of the non-linear hyperfine corrections sets an upper bound for the inhomogeneous line widths that would still allow for unique addressing of a selected hyperfine transition. e.g. for quantum information applications. Additionally, we establish the far-infrared, low-temperature refractive index of LiY$_{1-x}$Ho$_{x}$F$_{4}$.
翻訳日:2023-04-20 10:52:49 公開日:2020-12-16
# 量子コンピュータにおけるスケーラブル制御のための情報制約

Information Constraints for Scalable Control in a Quantum Computer ( http://arxiv.org/abs/2012.14270v1 )

ライセンス: Link先を確認
John M. Martinis(参考訳) 量子システム工学を理解するために働くとき、スケーラブルな量子コンピュータを構築するには多くの制約がある。 ここでは、情報の観点から、制御システムに必要とされる大量の情報が制御システムに多大な制約を与えることを示す、量子制御システムに関する制約について論じる。 量子ビットのサイズは重要なシステムパラメータであると推測される。

When working to understand quantum systems engineering, there are many constraints to building a scalable quantum computer. Here I discuss a constraint on the qubit control system from an information point of view, showing that the large amount of information needed for the control system will put significant constraints on the control system. The size the qubits is conjectured to be an important systems parameter.
翻訳日:2023-04-20 10:43:59 公開日:2020-12-16
# 対話型教科書による量子コンピューティング教育

Teaching quantum computing with an interactive textbook ( http://arxiv.org/abs/2012.09629v1 )

ライセンス: Link先を確認
James R. Wootton, Francis Harkins, Nicholas T. Bronn, Almudena Carrera Vazquez, Anna Phan, Abraham T. Asfaw(参考訳) 量子コンピューティングは、今後数十年間に大きなアドバンテージを提供すると約束する技術だ。 この技術はまだプロトタイプ段階だが、ここ数年、これらのプロトタイプデバイスの多くが一般公開されている。 これは、量子ハードウェアの使用とテストに必要なソフトウェアを、ますます洗練された方法でオープンソースで開発することに伴うものだ。 このようなツールは、量子コンピューティングだけでなく、量子情報科学や量子物理学全体に対しても、新しい教育機会を提供する。 本稿では,この機会を生かした教育資源を事例として,オープンソースのオンライン教科書「Qiskitを用いたLearn Quantum Computation」を提案する。 対象とするトピックの概要と,それぞれのアプローチについての説明が提供されている。

Quantum computing is a technology that promises to offer significant advantages during the coming decades. Though the technology is still in a prototype stage, the last few years have seen many of these prototype devices become accessible to the public. This has been accompanied by the open-source development of the software required to use and test quantum hardware in increasingly sophisticated ways. Such tools provide new education opportunities, not just for quantum computing specifically, but also more broadly for quantum information science and even quantum physics as a whole. In this paper we present a case study of one education resource which aims to take advantage of the opportunities: the open-source online textbook `Learn Quantum Computation using Qiskit'. An overview of the topics covered is given, as well as an explanation of the approach taken for each.
翻訳日:2023-04-20 10:43:04 公開日:2020-12-16
# 量子近似最適化アルゴリズムの強化フレームワークとそのパラメータ設定戦略

Enhanced Framework of Quantum Approximate Optimization Algorithm and Its Parameter Setting Strategy ( http://arxiv.org/abs/2012.09626v1 )

ライセンス: Link先を確認
Mingyou Wu and Zhihao Liu and Hanwu Chen(参考訳) 量子近似最適化アルゴリズム(QAOA)の強化フレームワークを導入し,パラメータ設定戦略を解析した。 強化されたQAOAはQAOAと同じくらい有効であるが、計算能力と柔軟性が向上し、適切なパラメータで最適解に素早く到達できる。 さらに、このフレームワークの分析に基づいて、パラメータを$O(1)$のコストで選択するための戦略が提供される。 ランダムに生成された20キュービットの3-SAT(3-SAT)のスケールでシミュレーションを行い、最適解は反復の確率が$O(\sqrt{N})$よりもはるかに低い値で見つかる。

An enhanced framework of quantum approximate optimization algorithm (QAOA) is introduced and the parameter setting strategies are analyzed. The enhanced QAOA is as effective as the QAOA but exhibits greater computing power and flexibility, and with proper parameters, it can arrive at the optimal solution faster. Moreover, based on the analysis of this framework, strategies are provided to select the parameter at a cost of $O(1)$. Simulations are conducted on randomly generated 3-satisfiability (3-SAT) of scale of 20 qubits and the optimal solution can be found with a high probability in iterations much less than $O(\sqrt{N})$
翻訳日:2023-04-20 10:42:53 公開日:2020-12-16
# 異種情報ネットワークにおける多様性の測定

Measuring Diversity in Heterogeneous Information Networks ( http://arxiv.org/abs/2001.01296v3 )

ライセンス: Link先を確認
Pedro Ramaciotti Morales, Robin Lamarche-Perrin, Raphael Fournier-S'niehotta, Remy Poulain, Lionel Tabourier, and Fabien Tarissan(参考訳) 多様性(diversity)は、生態学、情報理論、経済学など、様々な分野の研究に関連する概念である。 情報検索,ネットワーク分析,ニューラルネットワークのコミュニティにおいて,着実に注目を集めている概念である。 ネットワーク構造データにおける多様性測定の利用はアプリケーション数の増加を計るが、多様性を計測するさまざまな方法について、明確かつ包括的な説明は得られない。 本稿では,多様情報ネットワーク (hins) に対する大規模多様性尺度の適用のための形式的枠組みについて述べる。 これにより、分類や分類のシステムから、ネットワークによってモデル化されるより複雑な関係まで、多様性の尺度の適用が拡大される。 そのために、異なるドメインから複数のプラクティスを効果的に構成するだけでなく、異種情報ネットワークによってモデル化されたシステムに新しいオブザーバブルを探索する。 多様性とネットワークの両面で関係する様々な分野に関する様々なアプリケーションを開発することで、我々のアプローチの意義を説明する。 特に,リコメンデータシステムやソーシャルメディア研究の分野において,これらの新たな観測対象が有用であることを示す。

Diversity is a concept relevant to numerous domains of research varying from ecology, to information theory, and to economics, to cite a few. It is a notion that is steadily gaining attention in the information retrieval, network analysis, and artificial neural networks communities. While the use of diversity measures in network-structured data counts a growing number of applications, no clear and comprehensive description is available for the different ways in which diversities can be measured. In this article, we develop a formal framework for the application of a large family of diversity measures to heterogeneous information networks (HINs), a flexible, widely-used network data formalism. This extends the application of diversity measures, from systems of classifications and apportionments, to more complex relations that can be better modeled by networks. In doing so, we not only provide an effective organization of multiple practices from different domains, but also unearth new observables in systems modeled by heterogeneous information networks. We illustrate the pertinence of our approach by developing different applications related to various domains concerned by both diversity and networks. In particular, we illustrate the usefulness of these new proposed observables in the domains of recommender systems and social media studies, among other fields.
翻訳日:2023-01-14 08:09:34 公開日:2020-12-16
# 能動姿勢推定のための深層強化学習

Deep Reinforcement Learning for Active Human Pose Estimation ( http://arxiv.org/abs/2001.02024v2 )

ライセンス: Link先を確認
Erik G\"artner, Aleksis Pirinen, Cristian Sminchisescu(参考訳) ほとんどの3d人間のポーズ推定手法は、1つまたは複数の視点またはビデオから収集されたシーンの入力が与えられると仮定している。 その結果、いつでも空間的および/または時間的に情報を融合することにより、事前知識と測定の活用を見積もることに集中する。 本稿では,「時間フリーズ」モードで,あるいは時間的に,空間的に移動・探索する自由を持つアクティブオブザーバの問題に対処し,その推定精度を向上させる情報的視点を選択する。 この目的のために,Pose-DRLを導入する。これは完全トレーニング可能な深層強化学習に基づく能動ポーズ推定アーキテクチャで,空間と時間で適切なビューを選択して,基礎となるモノラルポーズ推定器を給餌する。 我々は,単一および複数目標推定器を用いてモデルを評価し,両設定で強い結果を得た。 さらに,ビデオにおける時間と遷移関数の自動停止条件を次の時間処理ステップへ学習する。 Panoptic Multi-view セットアップによる広範な実験と、複数の人物を含む複雑なシーンにおいて、我々のモデルは、強いマルチビューベースラインに比べてはるかに正確なポーズ推定をもたらす視点を選択することを学習している。

Most 3d human pose estimation methods assume that input -- be it images of a scene collected from one or several viewpoints, or from a video -- is given. Consequently, they focus on estimates leveraging prior knowledge and measurement by fusing information spatially and/or temporally, whenever available. In this paper we address the problem of an active observer with freedom to move and explore the scene spatially -- in `time-freeze' mode -- and/or temporally, by selecting informative viewpoints that improve its estimation accuracy. Towards this end, we introduce Pose-DRL, a fully trainable deep reinforcement learning-based active pose estimation architecture which learns to select appropriate views, in space and time, to feed an underlying monocular pose estimator. We evaluate our model using single- and multi-target estimators with strong result in both settings. Our system further learns automatic stopping conditions in time and transition functions to the next temporal processing step in videos. In extensive experiments with the Panoptic multi-view setup, and for complex scenes containing multiple people, we show that our model learns to select viewpoints that yield significantly more accurate pose estimates compared to strong multi-view baselines.
翻訳日:2023-01-13 20:53:26 公開日:2020-12-16
# 適応確率最適化手法のトレンド補正バリアントについて

On the Trend-corrected Variant of Adaptive Stochastic Optimization Methods ( http://arxiv.org/abs/2001.06130v2 )

ライセンス: Link先を確認
Bingxin Zhou, Xuebin Zheng, Junbin Gao(参考訳) 指数的移動平均スキームを用いた適応モーメント推定法のクラスであるadam型オプティマイザは、ディープラーニングの多くの応用でうまく使われている。 このような方法は、計算効率の高い大規模スパースデータセットの能力により魅力的である。 本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。 アルゴリズムにおける追加用語は、複雑なコスト面上の効率的な動きを約束するので、損失はより早く収束する。 我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。

Adam-type optimizers, as a class of adaptive moment estimation methods with the exponential moving average scheme, have been successfully used in many applications of deep learning. Such methods are appealing due to the capability on large-scale sparse datasets with high computational efficiency. In this paper, we present a new framework for Adam-type methods with the trend information when updating the parameters with the adaptive step size and gradients. The additional terms in the algorithm promise an efficient movement on the complex cost surface, and thus the loss would converge more rapidly. We show empirically the importance of adding the trend component, where our framework outperforms the conventional Adam and AMSGrad methods constantly on the classical models with several real-world datasets.
翻訳日:2023-01-10 09:49:18 公開日:2020-12-16
# Bayes-TrEx: 例によるモデル透明性に対するベイズサンプリングアプローチ

Bayes-TrEx: a Bayesian Sampling Approach to Model Transparency by Example ( http://arxiv.org/abs/2002.10248v4 )

ライセンス: Link先を確認
Serena Booth, Yilun Zhou, Ankit Shah, Julie Shah(参考訳) ポストホックな説明法はニューラルネットワークの解釈、理解、デバッグで人気を集めている。 このような手法を用いたほとんどの分析は、テストセットから引き出された入力に応じて決定を説明する。 しかし、テストセットには、高信頼の失敗や曖昧な分類など、いくつかのモデル動作を引き起こす例がほとんどないかもしれない。 これらの課題に対処するため,我々は柔軟なモデル検査フレームワーク bayes-trex を導入する。 データ分布を仮定すると、Bayes-TrExは特定の予測信頼度を持つ分散例を見つける。 ベイズ・TrExのいくつかのユースケースとして、信頼性の高い(ミス)分類、曖昧な例によるクラス境界の可視化、新しいクラスの外挿行動の理解、ニューラルネットワーク過信の暴露などを挙げる。 我々は,clevr,mnist,fashion-mnistでトレーニングされた分類器についてbayes-trexを用いて検討し,このフレームワークがテストセットを検査するよりも柔軟な全体論的モデル解析を可能にすることを示した。 コードはhttps://github.com/serenabooth/Bayes-TrExで入手できる。

Post-hoc explanation methods are gaining popularity for interpreting, understanding, and debugging neural networks. Most analyses using such methods explain decisions in response to inputs drawn from the test set. However, the test set may have few examples that trigger some model behaviors, such as high-confidence failures or ambiguous classifications. To address these challenges, we introduce a flexible model inspection framework: Bayes-TrEx. Given a data distribution, Bayes-TrEx finds in-distribution examples with a specified prediction confidence. We demonstrate several use cases of Bayes-TrEx, including revealing highly confident (mis)classifications, visualizing class boundaries via ambiguous examples, understanding novel-class extrapolation behavior, and exposing neural network overconfidence. We use Bayes-TrEx to study classifiers trained on CLEVR, MNIST, and Fashion-MNIST, and we show that this framework enables more flexible holistic model analysis than just inspecting the test set. Code is available at https://github.com/serenabooth/Bayes-TrEx.
翻訳日:2022-12-30 13:26:52 公開日:2020-12-16
# BERTが見る:視覚的質問生成のためのクロスモーダルトランスファー

What BERT Sees: Cross-Modal Transfer for Visual Question Generation ( http://arxiv.org/abs/2002.10832v3 )

ライセンス: Link先を確認
Thomas Scialom, Patrick Bordes, Paul-Alexis Dray, Jacopo Staiano, Patrick Gallinari(参考訳) 事前訓練された言語モデルは、最近NLPタスクの大幅な進歩に貢献している。 近年,VQA などの分類タスクに主に適用されるテキストおよび画像データの膨大なコーパスに依存する重大事前学習を用いて,BERT のマルチモーダルバージョンが開発されている。 本稿では,補足データを用いた事前学習を回避し,BERTの視覚能力を評価することに関心がある。 我々は,各モータリティの影響(入力は視覚的および/またはテキスト的であるため)を調査できる,接地ダイアログの課題である視覚的質問生成(Visual Question Generation)を学習することを選択する。 さらに、BERTは主にエンコーダとして設計されているため、タスクの生成には適応が必要である。 テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入し,モノモーダル表現とマルチモーダル表現を併用する。 異なる構成で報告された結果は、BERT-genがマルチモーダルデータやテキスト生成に適応する固有の能力を示している。 提案モデルでは,2つの確立されたVQGデータセットの最先端性よりも大幅に改善されている。

Pre-trained language models have recently contributed to significant advances in NLP tasks. Recently, multi-modal versions of BERT have been developed, using heavy pre-training relying on vast corpora of aligned textual and image data, primarily applied to classification tasks such as VQA. In this paper, we are interested in evaluating the visual capabilities of BERT out-of-the-box, by avoiding pre-training made on supplementary data. We choose to study Visual Question Generation, a task of great interest for grounded dialog, that enables to study the impact of each modality (as input can be visual and/or textual). Moreover, the generation aspect of the task requires an adaptation since BERT is primarily designed as an encoder. We introduce BERT-gen, a BERT-based architecture for text generation, able to leverage on either mono- or multi- modal representations. The results reported under different configurations indicate an innate capacity for BERT-gen to adapt to multi-modal data and text generation, even with few data available, avoiding expensive pre-training. The proposed model obtains substantial improvements over the state-of-the-art on two established VQG datasets.
翻訳日:2022-12-28 20:26:23 公開日:2020-12-16
# CAKES: 効率的な3DネットワークのためのチャネルワイドなKErnelシンキング

CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks ( http://arxiv.org/abs/2003.12798v3 )

ライセンス: Link先を確認
Qihang Yu, Yingwei Li, Jieru Mei, Yuyin Zhou, Alan L. Yuille(参考訳) 3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。 しかし、3Dネットワークは容易に過パラメータ化につながり、高価な計算コストを発生させる。 本稿では,チャネルワイドなKErnel Shrinking(CAKES)を提案し,標準的な3D畳み込みを1D,2D畳み込みなどの一連の経済操作に縮小することで,効率的な3D学習を実現する。 以前の方法とは異なり、CAKESはチャネルワイドのカーネル収縮を行い、以下の利点を享受する。 1) 各レイヤに展開する操作を異質にすることで,学習プロセスの恩恵を受けるために多様かつ相補的な情報を抽出することができる。 2)空間時間データと体積データの両方に一般化できる効率的で柔軟な代替設計を可能にする。 さらに,CAKESに基づく新しい検索空間を提案し,置換構成を自動的に決定して3Dネットワークを簡素化する。 CAKESは、類似のモデルサイズを持つ他の手法よりも優れた性能を示し、また、3次元医用画像分割やビデオアクション認識といったタスクにおけるパラメータや計算コストをはるかに少なくして、最先端技術に匹敵する性能を達成する。 コードとモデルはhttps://github.com/yucornetto/cakesで入手できる。

3D Convolution Neural Networks (CNNs) have been widely applied to 3D scene understanding, such as video analysis and volumetric image recognition. However, 3D networks can easily lead to over-parameterization which incurs expensive computation cost. In this paper, we propose Channel-wise Automatic KErnel Shrinking (CAKES), to enable efficient 3D learning by shrinking standard 3D convolutions into a set of economic operations e.g., 1D, 2D convolutions. Unlike previous methods, CAKES performs channel-wise kernel shrinkage, which enjoys the following benefits: 1) enabling operations deployed in every layer to be heterogeneous, so that they can extract diverse and complementary information to benefit the learning process; and 2) allowing for an efficient and flexible replacement design, which can be generalized to both spatial-temporal and volumetric data. Further, we propose a new search space based on CAKES, so that the replacement configuration can be determined automatically for simplifying 3D networks. CAKES shows superior performance to other methods with similar model size, and it also achieves comparable performance to state-of-the-art with much fewer parameters and computational costs on tasks including 3D medical imaging segmentation and video action recognition. Codes and models are available at https://github.com/yucornetto/CAKES
翻訳日:2022-12-18 23:56:29 公開日:2020-12-16
# 適合表現の学習による再利用可能なネットワークコンポーネントを目指して

Towards Reusable Network Components by Learning Compatible Representations ( http://arxiv.org/abs/2004.03898v3 )

ライセンス: Link先を確認
Michael Gygli, Jasper Uijlings, Vittorio Ferrari(参考訳) 本稿では、互換性のある再利用可能なネットワークコンポーネントへの第一歩を提案する。 異なるタスクのネットワークを個別にトレーニングするのではなく、トレーニングプロセスに適応して、タスク間で互換性のあるネットワークコンポーネントを生成します。 特に,ネットワークを特徴抽出器と目標タスクヘッドの2つのコンポーネントに分割し,それらの互換性を実現するための様々なアプローチを提案する。 標準データセットにおける画像分類の課題に対して,これらのアプローチを体系的に分析する。 元のタスクの微調整や補修をせずに直接互換性のあるコンポーネントを作成できることを実証する。 その後,教師なしドメイン適応,異なるアーキテクチャを用いた特徴抽出器間での分類器の転送,転送学習の計算効率の向上という3つのアプリケーションで互換性のあるコンポーネントの使用を実証する。

This paper proposes to make a first step towards compatible and hence reusable network components. Rather than training networks for different tasks independently, we adapt the training process to produce network components that are compatible across tasks. In particular, we split a network into two components, a features extractor and a target task head, and propose various approaches to accomplish compatibility between them. We systematically analyse these approaches on the task of image classification on standard datasets. We demonstrate that we can produce components which are directly compatible without any fine-tuning or compromising accuracy on the original tasks. Afterwards, we demonstrate the use of compatible components on three applications: Unsupervised domain adaptation, transferring classifiers across feature extractors with different architectures, and increasing the computational efficiency of transfer learning.
翻訳日:2022-12-15 08:01:38 公開日:2020-12-16
# モデル生成

Models Genesis ( http://arxiv.org/abs/2004.07882v4 )

ライセンス: Link先を確認
Zongwei Zhou, Vatsal Sodha, Jiaxuan Pang, Michael B. Gotway, Jianming Liang(参考訳) 自然画像から医学画像への学習は、医学画像解析におけるディープラーニングの最も実用的なパラダイムの1つとして確立されている。 しかし、このパラダイムに適合するためには、最も顕著な画像モダリティ(例えば、CTやMRI)における3Dイメージングタスクを2Dで再構成して解決する必要がある。 この制限を克服するため、私たちはGeneric Autodidactic Modelsと呼ばれるモデルセットを構築しました。それは、ex nihilo(手動ラベリングなしで)、self-taught(セルフスーパービジョンで取得)、ジェネリック(アプリケーション固有のターゲットモデルを生成するためのソースモデルとして保存されている)を作成するためです。 我々のモデル生成は、スクラッチと既存のトレーニング済み3Dモデルから、セグメンテーションと分類の両方をカバーする5つのターゲット3Dアプリケーションにおいて、学習を著しく上回ることを示した。 より重要なことは、単に3dでスクラッチからモデルを学ぶだけでは、imagenetから2dでトランスファー学習よりもパフォーマンスが向上するとは限らないが、我々のモデル創成は、imagenetから事前トレーニングされたモデルを微調整することや、2dバージョンのモデル創成を微調整することを含む、あらゆる2d/2.5dアプローチを一貫して上回っており、3d解剖情報の重要性と3d医療画像におけるモデル創成の重要性を確認している。 医用画像の高度で反復的な解剖学は、ディープモデルが自己監督を通じて共通の解剖学的表現を自動的に学習するための強力な、かつ自由な監視信号として機能する。 オープンサイエンスとして、すべてのコードと事前訓練されたModels Genesisはhttps://github.com/MrGiovanni/ModelsGenesisで入手できる。

Transfer learning from natural images to medical images has been established as one of the most practical paradigms in deep learning for medical image analysis. To fit this paradigm, however, 3D imaging tasks in the most prominent imaging modalities (e.g., CT and MRI) have to be reformulated and solved in 2D, losing rich 3D anatomical information, thereby inevitably compromising its performance. To overcome this limitation, we have built a set of models, called Generic Autodidactic Models, nicknamed Models Genesis, because they are created ex nihilo (with no manual labeling), self-taught (learnt by self-supervision), and generic (served as source models for generating application-specific target models). Our extensive experiments demonstrate that our Models Genesis significantly outperform learning from scratch and existing pre-trained 3D models in all five target 3D applications covering both segmentation and classification. More importantly, learning a model from scratch simply in 3D may not necessarily yield performance better than transfer learning from ImageNet in 2D, but our Models Genesis consistently top any 2D/2.5D approaches including fine-tuning the models pre-trained from ImageNet as well as fine-tuning the 2D versions of our Models Genesis, confirming the importance of 3D anatomical information and significance of Models Genesis for 3D medical imaging. This performance is attributed to our unified self-supervised learning framework, built on a simple yet powerful observation: the sophisticated and recurrent anatomy in medical images can serve as strong yet free supervision signals for deep models to learn common anatomical representation automatically via self-supervision. As open science, all codes and pre-trained Models Genesis are available at https://github.com/MrGiovanni/ModelsGenesis.
翻訳日:2022-12-15 03:20:55 公開日:2020-12-16
# 画像品質評価 : 構造とテクスチャの類似性の統合

Image Quality Assessment: Unifying Structure and Texture Similarity ( http://arxiv.org/abs/2004.07728v3 )

ライセンス: Link先を確認
Keyan Ding, Kede Ma, Shiqi Wang, and Eero P. Simoncelli(参考訳) 画質の客観的測定は、一般に「劣化した」画像の画素と原画像の画素を比較して行われる。 人間の観察者に対して、これらの尺度はテクスチャ領域の再サンプリング(例えば、草のパッチを別のパッチに置き換える)に対して過度に敏感である。 本稿では,テクスチャ再サンプリングへの耐性を明示した,最初のフルリファレンス画像品質モデルを開発した。 畳み込みニューラルネットワークを用いて,画像から多スケールの超完全表現へ変換するインジェクティブかつ微分可能な関数を構築する。 この表現における特徴マップの空間平均は,多様なテクスチャパターンを合成するのに十分な統計的制約をセットとして提供できることを実証的に示す。 次に,これらの空間平均の相関関係(テクスチャ類似度)と特徴マップの相関関係(構造類似度)を組み合わせた画質手法について述べる。 提案手法のパラメータは,同じテクスチャ画像から抽出したサブイメージ間の報告された距離を最小化しながら,画像品質の人間の評価に適合するように共同最適化される。 実験の結果,従来の画像品質データベースとテクスチャデータベースの両方で,人間の知覚スコアを最適化した手法が説明できた。 この尺度はまた、テクスチャ分類や検索といった関連するタスクの競合性能も提供する。 最後に, この手法は, 特殊なトレーニングやデータ拡張を使わずに, 幾何変換(例えば, 翻訳や拡張)に比較的敏感であることを示す。 コードはhttps://github.com/dingkeyan93/DISTSで入手できる。

Objective measures of image quality generally operate by comparing pixels of a "degraded" image to those of the original. Relative to human observers, these measures are overly sensitive to resampling of texture regions (e.g., replacing one patch of grass with another). Here, we develop the first full-reference image quality model with explicit tolerance to texture resampling. Using a convolutional neural network, we construct an injective and differentiable function that transforms images to multi-scale overcomplete representations. We demonstrate empirically that the spatial averages of the feature maps in this representation capture texture appearance, in that they provide a set of sufficient statistical constraints to synthesize a wide variety of texture patterns. We then describe an image quality method that combines correlations of these spatial averages ("texture similarity") with correlations of the feature maps ("structure similarity"). The parameters of the proposed measure are jointly optimized to match human ratings of image quality, while minimizing the reported distances between subimages cropped from the same texture images. Experiments show that the optimized method explains human perceptual scores, both on conventional image quality databases, as well as on texture databases. The measure also offers competitive performance on related tasks such as texture classification and retrieval. Finally, we show that our method is relatively insensitive to geometric transformations (e.g., translation and dilation), without use of any specialized training or data augmentation. Code is available at https://github.com/dingkeyan93/DISTS.
翻訳日:2022-12-12 21:56:47 公開日:2020-12-16
# 特集にあたって

Towards Feature Space Adversarial Attack ( http://arxiv.org/abs/2004.12385v2 )

ライセンス: Link先を確認
Qiuling Xu, Guanhong Tao, Siyuan Cheng, Xiangyu Zhang(参考訳) 本稿では,画像分類のためのニューラルネットに対する新たな敵攻撃を提案する。 入力ピクセルを直接摂動する既存の攻撃とは異なり、我々の攻撃は、より具体的には、鮮やかな色やシャープなアウトラインなどの解釈可能なスタイルや、解釈不能な特徴を含む、抽象的な特徴の摂動に焦点を当てている。 最適化手順を通じて不可避なスタイル変更を注入することで、モデル誤分類を誘発する。 我々の攻撃は、最先端の非有界攻撃よりも自然に見える敵のサンプルを生成できることを示す。 この実験は、既存の画素空間の対向攻撃検出と防御技術が、スタイルに関連した特徴空間におけるロバスト性をほとんど保証できないことも裏付けている。

We propose a new adversarial attack to Deep Neural Networks for image classification. Different from most existing attacks that directly perturb input pixels, our attack focuses on perturbing abstract features, more specifically, features that denote styles, including interpretable styles such as vivid colors and sharp outlines, and uninterpretable ones. It induces model misclassfication by injecting imperceptible style changes through an optimization procedure. We show that our attack can generate adversarial samples that are more natural-looking than the state-of-the-art unbounded attacks. The experiment also supports that existing pixel-space adversarial attack detection and defense techniques can hardly ensure robustness in the style related feature space.
翻訳日:2022-12-09 13:17:10 公開日:2020-12-16
# 高速深度適応変圧器

Faster Depth-Adaptive Transformers ( http://arxiv.org/abs/2004.13542v4 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Jie Zhou, Yufeng Chen, Jinan Xu(参考訳) 深さ適応ニューラルネットワークは、入力単語の硬度に応じて深さを動的に調整することができ、効率が向上する。 主な課題は、そのような硬さを計測し、実行するために必要な深さ(すなわち層)を決定する方法である。 従来の作業は一般的に、計算が各レイヤで継続するか停止するかを決定するために停止ユニットを構築する。 深さ選択の具体的な監督がないため、停止単位は過度に最適化され不正確であり、文をモデル化する際の準最適および不安定な性能をもたらす。 本稿では,停止ユニットを取り除き,必要な深さを事前に推定することで,より高速な深度適応モデルを実現する。 具体的には,入力単語の難易度を明示的に測定し,対応する適応深さを推定する2つの手法を提案する。 1)相互情報(MI)に基づく推定と評価 2)再建損失に基づく推定。 様々なサイズとドメインの24のデータセットを用いて,テキスト分類タスクの実験を行う。 その結果,高い精度を維持しつつバニラ変圧器(最大7倍)を高速化できることを確認した。 さらに、他の深度適応アプローチと比較して、効率性と堅牢性は著しく向上する。

Depth-adaptive neural networks can dynamically adjust depths according to the hardness of input words, and thus improve efficiency. The main challenge is how to measure such hardness and decide the required depths (i.e., layers) to conduct. Previous works generally build a halting unit to decide whether the computation should continue or stop at each layer. As there is no specific supervision of depth selection, the halting unit may be under-optimized and inaccurate, which results in suboptimal and unstable performance when modeling sentences. In this paper, we get rid of the halting unit and estimate the required depths in advance, which yields a faster depth-adaptive model. Specifically, two approaches are proposed to explicitly measure the hardness of input words and estimate corresponding adaptive depth, namely 1) mutual information (MI) based estimation and 2) reconstruction loss based estimation. We conduct experiments on the text classification task with 24 datasets in various sizes and domains. Results confirm that our approaches can speed up the vanilla Transformer (up to 7x) while preserving high accuracy. Moreover, efficiency and robustness are significantly improved when compared with other depth-adaptive approaches.
翻訳日:2022-12-09 05:32:15 公開日:2020-12-16
# 合成ポーズ推定器トレーニングにおけるドメインギャップのブリッジングのためのスタイルトランスファーGAN

Style-transfer GANs for bridging the domain gap in synthetic pose estimator training ( http://arxiv.org/abs/2004.13681v2 )

ライセンス: Link先を確認
Pavel Rojtberg, Thomas P\"ollabauer and Arjan Kuijper(参考訳) 既存のCNNアーキテクチャが大規模なトレーニングセットに依存していることを考えると、事実上無限のラベル付きトレーニングデータを生成することができるため、合成データを使用する可能性は一定である。 しかし、現在のcnnアーキテクチャは実データと合成データの間のドメイン間ギャップに敏感であるため、このようなデータの生成は非自明な作業である。 本稿では,ピクセルレベルの画像変換に汎用ganモデルを適用し,ドメインギャップ自体を学習問題として定式化することを提案する。 得られたモデルは、トレーニング中または推論時に、ドメインギャップをブリッジするために使用される。 そこで本研究では, 合成cad形状のみに対して, 単段のyolo6d物体ポーズ推定器を訓練することに焦点を当て, 近似表面情報も得られない。 ペアGANモデルを用いる場合、エッジベースの中間領域を使用し、未知の表面特性を表現するために異なるマッピングを導入する。 ドメインランダム化の度合いが同じであるモデルと比較すると,モデルの性能は大幅に向上するが,追加の労力はほとんど必要としない。

Given the dependency of current CNN architectures on a large training set, the possibility of using synthetic data is alluring as it allows generating a virtually infinite amount of labeled training data. However, producing such data is a non-trivial task as current CNN architectures are sensitive to the domain gap between real and synthetic data. We propose to adopt general-purpose GAN models for pixel-level image translation, allowing to formulate the domain gap itself as a learning problem. The obtained models are then used either during training or inference to bridge the domain gap. Here, we focus on training the single-stage YOLO6D object pose estimator on synthetic CAD geometry only, where not even approximate surface information is available. When employing paired GAN models, we use an edge-based intermediate domain and introduce different mappings to represent the unknown surface properties. Our evaluation shows a considerable improvement in model performance when compared to a model trained with the same degree of domain randomization, while requiring only very little additional effort.
翻訳日:2022-12-08 23:26:37 公開日:2020-12-16
# 関係モダリティをもつランベック計算のカテゴリーベクトル空間意味論

Categorical Vector Space Semantics for Lambek Calculus with a Relevant Modality ( http://arxiv.org/abs/2005.03074v3 )

ライセンス: Link先を確認
Lachlan McPheat, Mehrnoosh Sadrzadeh, Hadi Wazni, Gijs Wijnholds(参考訳) 関連するモダリティを持つランベック計算の分類的構成分布意味論を開発する。 L* - 収縮と置換規則の限定版を持つ。 セマンティクスのカテゴリー的部分(英: categorical part of the semantics)は、微分カテゴリーの構造と非常によく似た、コガブラのモダリティを持つモノイドの双閉圏である。 我々は、この圏を「量子化」関手を通じて有限次元ベクトル空間と線型写像にインスタンス化し、コリゲブラ様相の3つの具体的解釈を扱う。 モデルを適用して、モチベーションのある ! の例に対する分類的および具体的意味解釈を構築する。 L*: 寄生的ギャップを持つ句の派生。 文の曖昧化データセットを、BERT、Word2Vec、FastTextベクターおよびリレーショナルテンソルを用いて、寄生的ギャップフレーズに拡張することにより、具体的解釈の有効性を評価する。

We develop a categorical compositional distributional semantics for Lambek Calculus with a Relevant Modality !L*, which has a limited edition of the contraction and permutation rules. The categorical part of the semantics is a monoidal biclosed category with a coalgebra modality, very similar to the structure of a Differential Category. We instantiate this category to finite dimensional vector spaces and linear maps via "quantisation" functors and work with three concrete interpretations of the coalgebra modality. We apply the model to construct categorical and concrete semantic interpretations for the motivating example of !L*: the derivation of a phrase with a parasitic gap. The effectiveness of the concrete interpretations are evaluated via a disambiguation task, on an extension of a sentence disambiguation dataset to parasitic gap phrases, using BERT, Word2Vec, and FastText vectors and Relational tensors.
翻訳日:2022-12-06 05:59:46 公開日:2020-12-16
# ニューラルネットワークが解釈可能な物理法則を学習する

Parsimonious neural networks learn interpretable physical laws ( http://arxiv.org/abs/2005.11144v3 )

ライセンス: Link先を確認
Saaketh Desai, Alejandro Strachan(参考訳) 機械学習は物理科学において役割を担い、ドメイン知識をモデルに組み込むという大きな進歩を遂げている。 より詳しくは、データから解釈可能な物理法則を発見するために使われる。 我々は,ニューラルネットワークと進化的最適化を組み合わせたパシモニクスニューラルネットワーク(PNN)を提案し,精度とパシモニクスのバランスをとるモデルを求める。 アプローチのパワーと汎用性は、古典力学のモデルを開発し、基本特性から材料の融解温度を予測することによって実証される。 最初の例では、結果として得られるpnnはニュートンの第二法則として容易に解釈でき、時間反転可能性を示し、エネルギーを保存する非自明な時間積分器として表される。 第2のケースでは、PNNは祝福されたリンデマン融解法だけでなく、パーシモニーと精度というパーシモニーの感覚でそれを上回る新しい関係も見出す。

Machine learning is playing an increasing role in the physical sciences and significant progress has been made towards embedding domain knowledge into models. Less explored is its use to discover interpretable physical laws from data. We propose parsimonious neural networks (PNNs) that combine neural networks with evolutionary optimization to find models that balance accuracy with parsimony. The power and versatility of the approach is demonstrated by developing models for classical mechanics and to predict the melting temperature of materials from fundamental properties. In the first example, the resulting PNNs are easily interpretable as Newton's second law, expressed as a non-trivial time integrator that exhibits time-reversibility and conserves energy, where the parsimony is critical to extract underlying symmetries from the data. In the second case, the PNNs not only find the celebrated Lindemann melting law, but also new relationships that outperform it in the pareto sense of parsimony vs. accuracy.
翻訳日:2022-12-05 12:25:40 公開日:2020-12-16
# 適応的操作トレース抽出ネットワークによるフェイク顔検出

Fake face detection via adaptive manipulation traces extraction network ( http://arxiv.org/abs/2005.04945v2 )

ライセンス: Link先を確認
Zhiqing Guo, Gaobo Yang, Jiyou Chen, Xingming Sun(参考訳) face2faceやdeepfakeといった顔画像操作(fim)技術が普及するにつれて、偽の顔画像がインターネットに広まり、公衆の信頼に深刻な課題がもたらされている。 顔画像偽造検出は、特定のfimを公開する上でかなりの進歩を遂げているが、さらなる圧縮、ぼやけ、スケーリングなど複雑なシナリオで顔画像偽造を露呈する堅牢な偽顔検出装置はまだ不足している。 比較的固定された構造のため、畳み込みニューラルネットワーク(CNN)は画像の内容表現を学ぶ傾向がある。 しかし、CNNは画像鑑定タスクの微妙な修正トレースを学習すべきである。 そこで本稿では,画像の内容の抑制と操作トレースの強調を行う前処理として,適応的な操作トレース抽出ネットワーク(AMTEN)を提案する。 AMTENは適応的な畳み込み層を利用して画像内の操作トレースを予測し、後続の層で再利用して、バックプロパゲーションパス中に重みを更新することで操作アーティファクトを最大化する。 AMTENnetという偽顔検出器は、AMTENとCNNを統合することで構築される。 実験の結果,提案したAMTENは望ましい前処理を実現することがわかった。 様々なFIM技術によって生成された偽の顔画像を検出する場合、AMTENnetは平均精度98.52%に達する。 顔画像を未知の処理操作で検出する場合、検出器は平均精度95.17%に達する。

With the proliferation of face image manipulation (FIM) techniques such as Face2Face and Deepfake, more fake face images are spreading over the internet, which brings serious challenges to public confidence. Face image forgery detection has made considerable progresses in exposing specific FIM, but it is still in scarcity of a robust fake face detector to expose face image forgeries under complex scenarios such as with further compression, blurring, scaling, etc. Due to the relatively fixed structure, convolutional neural network (CNN) tends to learn image content representations. However, CNN should learn subtle manipulation traces for image forensics tasks. Thus, we propose an adaptive manipulation traces extraction network (AMTEN), which serves as pre-processing to suppress image content and highlight manipulation traces. AMTEN exploits an adaptive convolution layer to predict manipulation traces in the image, which are reused in subsequent layers to maximize manipulation artifacts by updating weights during the back-propagation pass. A fake face detector, namely AMTENnet, is constructed by integrating AMTEN with CNN. Experimental results prove that the proposed AMTEN achieves desirable pre-processing. When detecting fake face images generated by various FIM techniques, AMTENnet achieves an average accuracy up to 98.52%, which outperforms the state-of-the-art works. When detecting face images with unknown post-processing operations, the detector also achieves an average accuracy of 95.17%.
翻訳日:2022-12-04 20:30:10 公開日:2020-12-16
# 軽量CNNによるAMR品質評価

AMR Quality Rating with a Lightweight CNN ( http://arxiv.org/abs/2005.12187v2 )

ライセンス: Link先を確認
Juri Opitz(参考訳) 抽象的意味表現(AMR)のような構造的意味表現は、様々なNLPタスクにおいて潜在的に有用である。 しかし、自動パースの品質は大きく異なり、有用性を損なうことがある。 これは、コストのかかるゴールドデータがない場合にamr品質を正確に評価できるモデルによって緩和され、組み込みパースの信頼性について下流システムに通知したり、異なる候補パースの中から選択することができる。 本研究では,AMRグラフを画像領域に転送することを提案する。 これにより、評価グラフの品質を課題とする人間の判断を模倣する単純な畳み込みニューラルネットワーク(CNN)を作成できる。 提案手法は,複数の品質次元において,強力なベースラインよりも精度良く品質を評価できることを示す。 また、効率性が証明され、発生したエネルギー消費量を低減できる。

Structured semantic sentence representations such as Abstract Meaning Representations (AMRs) are potentially useful in various NLP tasks. However, the quality of automatic parses can vary greatly and jeopardizes their usefulness. This can be mitigated by models that can accurately rate AMR quality in the absence of costly gold data, allowing us to inform downstream systems about an incorporated parse's trustworthiness or select among different candidate parses. In this work, we propose to transfer the AMR graph to the domain of images. This allows us to create a simple convolutional neural network (CNN) that imitates a human judge tasked with rating graph quality. Our experiments show that the method can rate quality more accurately than strong baselines, in several quality dimensions. Moreover, the method proves to be efficient and reduces the incurred energy consumption.
翻訳日:2022-11-29 05:21:35 公開日:2020-12-16
# フェデレーションメタラーニングのバックドア攻撃

Backdoor Attacks on Federated Meta-Learning ( http://arxiv.org/abs/2006.07026v2 )

ライセンス: Link先を確認
Chien-Lun Chen, Leana Golubchik, Marco Paolieri(参考訳) フェデレーション学習は、複数のユーザがデータのプライバシを保持しながら、共有分類モデルを共同でトレーニングすることを可能にする。 モデル更新が中央サーバによって集約されるこのアプローチは、不正なバックドア攻撃に対して脆弱であることが示されている。 悪意のあるユーザは、特定の入力を所定のクラスから任意に分類するために、共有モデルを変更することができる。 本稿では,異なる出力クラスに適応可能なモデルを学習する,フェデレートされたメタラーニングに対するバックドア攻撃の効果を,ごく少数の例を用いて分析する。 適応能力は、原則として、連合学習フレームワークをバックドア攻撃(新しいトレーニング例が良ければ)に対してより強固なものにすることができるが、それでも1ショット攻撃でさえ、追加のトレーニングの後に非常に成功し、持続することができる。 これらの脆弱性に対処するために,ネットワークの整合性に着想を得た防御機構を提案し,その特徴の類似性から入力のクラスをラベル付き例の支持セットで予測する。 フェデレーションと共有するモデルから決定ロジックを取り除くことにより、バックドア攻撃の成功と持続性が大幅に低下する。

Federated learning allows multiple users to collaboratively train a shared classification model while preserving data privacy. This approach, where model updates are aggregated by a central server, was shown to be vulnerable to poisoning backdoor attacks: a malicious user can alter the shared model to arbitrarily classify specific inputs from a given class. In this paper, we analyze the effects of backdoor attacks on federated meta-learning, where users train a model that can be adapted to different sets of output classes using only a few examples. While the ability to adapt could, in principle, make federated learning frameworks more robust to backdoor attacks (when new training examples are benign), we find that even 1-shot~attacks can be very successful and persist after additional training. To address these vulnerabilities, we propose a defense mechanism inspired by matching networks, where the class of an input is predicted from the similarity of its features with a support set of labeled examples. By removing the decision logic from the model shared with the federation, success and persistence of backdoor attacks are greatly reduced.
翻訳日:2022-11-22 03:34:31 公開日:2020-12-16
# SRP-PHATと3次元畳み込みニューラルネットワークを用いたロバスト音源追跡

Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural Networks ( http://arxiv.org/abs/2006.09006v2 )

ライセンス: Link先を確認
David Diaz-Guerra, Antonio Miguel and Jose R. Beltran(参考訳) 本稿では,よく知られたSRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。 SRP-PHATパワーマップを完全な畳み込み因果構造(英語版)の入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。 従来の手法とは異なり、双方向のリカレント層は使用せず、全ての畳み込み層は時間次元に因果関係にあるため、リアルタイムアプリケーションではシステムは実現可能であり、新しいsrp-phatマップごとに新しいdoa推定を提供する。 そこで本研究では,学習中に無作為な軌跡をシミュレートする新しい手法を提案する。残響時間などの音響条件を変更するための柔軟性の高い無限大データセットに相当する。 残響時間とLOCATAデータセットの実際の記録における音響シミュレーションの両方を用いて,低分解能SRP-PHATマップを用いて,システムの堅牢性と優れた性能を実証する。

In this paper, we present a new single sound source DOA estimation and tracking system based on the well-known SRP-PHAT algorithm and a three-dimensional Convolutional Neural Network. It uses SRP-PHAT power maps as input features of a fully convolutional causal architecture that uses 3D convolutional layers to accurately perform the tracking of a sound source even in highly reverberant scenarios where most of the state of the art techniques fail. Unlike previous methods, since we do not use bidirectional recurrent layers and all our convolutional layers are causal in the time dimension, our system is feasible for real-time applications and it provides a new DOA estimation for each new SRP-PHAT map. To train the model, we introduce a new procedure to simulate random trajectories as they are needed during the training, equivalent to an infinite-size dataset with high flexibility to modify its acoustical conditions such as the reverberation time. We use both acoustical simulations on a large range of reverberation times and the actual recordings of the LOCATA dataset to prove the robustness of our system and its good performance even using low-resolution SRP-PHAT maps.
翻訳日:2022-11-20 21:39:53 公開日:2020-12-16
# AI Feynman 2.0: グラフモジュラリティを利用したパレート最適シンボル回帰

AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity ( http://arxiv.org/abs/2006.10782v2 )

ライセンス: Link先を確認
Silviu-Marian Udrescu, Andrew Tan, Jiahai Feng, Orisvaldo Neto, Tailin Wu, Max Tegmark(参考訳) 本稿では,与えられた複雑性に対して最適な精度を持つという観点から,パレート最適の式にデータを適合させようとする,記号回帰法の改良について述べる。 ノイズや悪いデータに対して桁違いに頑丈であると同時に、従来の方法を打ち破る多くの公式を発見することで、従来の最先端技術を改善している。 ニューラルネットワークの勾配特性から一般化対称性(公式の計算グラフにおけるarbitrary modular)を発見する手法を開発した。 我々は正規化フローを用いて、サンプルしか持たない確率分布にシンボリック回帰法を一般化し、統計的仮説テストを用いてロバストブルート力探索を高速化する。

We present an improved method for symbolic regression that seeks to fit data to formulas that are Pareto-optimal, in the sense of having the best accuracy for a given complexity. It improves on the previous state-of-the-art by typically being orders of magnitude more robust toward noise and bad data, and also by discovering many formulas that stumped previous methods. We develop a method for discovering generalized symmetries (arbitrary modularity in the computational graph of a formula) from gradient properties of a neural network fit. We use normalizing flows to generalize our symbolic regression method to probability distributions from which we only have samples, and employ statistical hypothesis testing to accelerate robust brute-force search.
翻訳日:2022-11-19 09:59:34 公開日:2020-12-16
# 雑音拡散確率モデル

Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2006.11239v2 )

ライセンス: Link先を確認
Jonathan Ho, Ajay Jain, Pieter Abbeel(参考訳) 非平衡熱力学から考察した潜在変数モデルのクラスである拡散確率モデルを用いて高品質な画像合成結果を示す。 提案手法は拡散確率モデルとランジュバン力学との新しい相関関係に基づいて設計した重み付き変分境界を訓練し, 自己回帰復号の一般化として解釈可能な漸進的損失性減算スキームを自然に認めている。 非条件のCIFAR10データセットでは、インセプションスコア9.46と最先端のFIDスコア3.17を得る。 256x256 LSUNでは,ProgressiveGANと同様のサンプル品質が得られる。 私たちの実装はhttps://github.com/hojonathanho/diffusionで利用可能です。

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics, and our models naturally admit a progressive lossy decompression scheme that can be interpreted as a generalization of autoregressive decoding. On the unconditional CIFAR10 dataset, we obtain an Inception score of 9.46 and a state-of-the-art FID score of 3.17. On 256x256 LSUN, we obtain sample quality similar to ProgressiveGAN. Our implementation is available at https://github.com/hojonathanho/diffusion
翻訳日:2022-11-19 04:07:48 公開日:2020-12-16
# FNA++:パラメータ再マッピングとアーキテクチャ検索による高速ネットワーク適応

FNA++: Fast Network Adaptation via Parameter Remapping and Architecture Search ( http://arxiv.org/abs/2006.12986v2 )

ライセンス: Link先を確認
Jiemin Fang, Yuzhu Sun, Qian Zhang, Kangjian Peng, Yuan Li, Wenyu Liu, Xinggang Wang(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成する。 ほとんどの最先端(sota)セマンティックセグメンテーションとオブジェクト検出アプローチは、イメージ分類用に設計されたニューラルネットワークアーキテクチャをバックボーンとして再利用する。 しかし、近年のneural architecture search (nas) research for detection and segmentationで示されているように、検出とセグメンテーションに特化したネットワークアーキテクチャを設計することで、パフォーマンスの向上を実現することができる。 しかし、大きな課題の1つは、イメージネットが検索空間表現(スーパーネットワーク)や検索ネットワークの事前トレーニングを行っていることである。 本稿では,FNA++(Fast Network Adaptation)手法を提案する。FNA++(Fast Network Adaptation)は,シードネットワークのアーキテクチャとパラメータ(例えば,ImageNet事前学習ネットワーク)をパラメータリマッピング技術を用いて,異なる深さ,幅,カーネルサイズを持つネットワークに適応させることで,分割および検出タスクにNASをより効率的に使用できるようにする。 私たちの実験では、mobilenetv2にfna++を適用して意味セグメンテーション、オブジェクト検出、人間のポーズ推定のための新しいネットワークを得る。 また、ResNetsおよびNASネットワーク上でFNA++を実装し、優れた一般化能力を示す。 fna++の総計算コストは、somaのセグメンテーションと検出nasのアプローチよりもはるかに少なく、dpcより1737倍、auto-deeplabより6.8倍、detnasより8.0倍少ない。 有効性を示すために一連のアブレーション研究が行われ、作業メカニズムに関するさらなる知見を得るために詳細な分析が提供される。 コードはhttps://github.com/jaminfong/fnaで入手できる。

Deep neural networks achieve remarkable performance in many computer vision tasks. Most state-of-the-art (SOTA) semantic segmentation and object detection approaches reuse neural network architectures designed for image classification as the backbone, commonly pre-trained on ImageNet. However, performance gains can be achieved by designing network architectures specifically for detection and segmentation, as shown by recent neural architecture search (NAS) research for detection and segmentation. One major challenge though is that ImageNet pre-training of the search space representation (a.k.a. super network) or the searched networks incurs huge computational cost. In this paper, we propose a Fast Network Adaptation (FNA++) method, which can adapt both the architecture and parameters of a seed network (e.g. an ImageNet pre-trained network) to become a network with different depths, widths, or kernel sizes via a parameter remapping technique, making it possible to use NAS for segmentation and detection tasks a lot more efficiently. In our experiments, we apply FNA++ on MobileNetV2 to obtain new networks for semantic segmentation, object detection, and human pose estimation that clearly outperform existing networks designed both manually and by NAS. We also implement FNA++ on ResNets and NAS networks, which demonstrates a great generalization ability. The total computation cost of FNA++ is significantly less than SOTA segmentation and detection NAS approaches: 1737x less than DPC, 6.8x less than Auto-DeepLab, and 8.0x less than DetNAS. A series of ablation studies are performed to demonstrate the effectiveness, and detailed analysis is provided for more insights into the working mechanism. Codes are available at https://github.com/JaminFong/FNA.
翻訳日:2022-11-18 12:23:47 公開日:2020-12-16
# AIとMLのための技術準備レベル

Technology Readiness Levels for AI & ML ( http://arxiv.org/abs/2006.12497v3 )

ライセンス: Link先を確認
Alexander Lavin and Gregory Renard(参考訳) 機械学習システムの開発とデプロイは、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで行われる。 勤勉さの欠如は、技術的負債、スコープのクリープと不一致の目標、モデルの誤用と失敗、そして高価な結果をもたらす可能性がある。 一方、エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従っています。 極端は宇宙船システムであり、ミッションクリティカルな手段と堅牢性が開発プロセスに浸透している。 宇宙船工学と(研究から製品まで)ai/mlの両方の経験から、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを提案する。 私たちのTechnology Readiness Levels for ML(TRL4ML)フレームワークは、MLリサーチとプロダクトのために合理化しながら堅牢なシステムを保証するための原則的なプロセスを定義しています。 さらにTRL4MLは、組織全体の人々がML技術で協力して作業するための共通言語を定義しています。

The development and deployment of machine learning systems can be executed easily with modern tools, but the process is typically rushed and means-to-an-end. The lack of diligence can lead to technical debt, scope creep and misaligned objectives, model misuse and failures, and expensive consequences. Engineering systems, on the other hand, follow well-defined processes and testing standards to streamline development for high-quality, reliable results. The extreme is spacecraft systems, where mission critical measures and robustness are ingrained in the development process. Drawing on experience in both spacecraft engineering and AI/ML (from research through product), we propose a proven systems engineering approach for machine learning development and deployment. Our Technology Readiness Levels for ML (TRL4ML) framework defines a principled process to ensure robust systems while being streamlined for ML research and product, including key distinctions from traditional software engineering. Even more, TRL4ML defines a common language for people across the organization to work collaboratively on ML technologies.
翻訳日:2022-11-18 11:58:08 公開日:2020-12-16
# ターゲット伝播のための理論的枠組み

A Theoretical Framework for Target Propagation ( http://arxiv.org/abs/2006.14331v4 )

ライセンス: Link先を確認
Alexander Meulemans, Francesco S. Carzaniga, Johan A.K. Suykens, Jo\~ao Sacramento, Benjamin F. Grewe(参考訳) 脳にインスパイアされたaiであるdeep learningの成功は、脳がニューロンの複数の層にまたがってどのように学習するかを理解することに興味をひいた。 しかし、生物学的に評価可能な学習アルゴリズムの大部分は、バックプロパゲーション(bp)の性能にはまだ達していない。 ここでは,BPの代替として広く普及しているが完全には理解されていないターゲット伝搬(TP)を,数学的最適化の観点から分析する。 本理論は,TPがガウスニュートン最適化と密接に関係していることを示し,BPとは大きく異なる。 さらに,本解析では,非可逆ニューラルネットワークの現実的なシナリオにおいて,tpの既知の変種である差分目標伝播(dtp)の基本的な限界を明らかにする。 提案手法では,各層への出力からの直接フィードバック接続を可能とし,設計上の柔軟性を両立させながら,フィードバックウェイトトレーニングを改善した新たな再構成損失による,この問題に対する第1の解決策を提供する。 我々の理論は,DTPと比較して,性能および前方重量更新と損失勾配の整合性に有意な改善が認められた実験結果によって裏付けられている。

The success of deep learning, a brain-inspired form of AI, has sparked interest in understanding how the brain could similarly learn across multiple layers of neurons. However, the majority of biologically-plausible learning algorithms have not yet reached the performance of backpropagation (BP), nor are they built on strong theoretical foundations. Here, we analyze target propagation (TP), a popular but not yet fully understood alternative to BP, from the standpoint of mathematical optimization. Our theory shows that TP is closely related to Gauss-Newton optimization and thus substantially differs from BP. Furthermore, our analysis reveals a fundamental limitation of difference target propagation (DTP), a well-known variant of TP, in the realistic scenario of non-invertible neural networks. We provide a first solution to this problem through a novel reconstruction loss that improves feedback weight training, while simultaneously introducing architectural flexibility by allowing for direct feedback connections from the output to each hidden layer. Our theory is corroborated by experimental results that show significant improvements in performance and in the alignment of forward weight updates with loss gradients, compared to DTP.
翻訳日:2022-11-17 03:13:31 公開日:2020-12-16
# 深ベイズ二次政策最適化

Deep Bayesian Quadrature Policy Optimization ( http://arxiv.org/abs/2006.15637v3 )

ライセンス: Link先を確認
Akella Ravi Tej, Kamyar Azizzadenesheli, Mohammad Ghavamzadeh, Anima Anandkumar, Yisong Yue(参考訳) 有限個のサンプルを用いて正確な政策勾配推定を求める問題について検討する。 モンテカルロ法は、勾配推定のばらつきに悩まされているにもかかわらず、政策勾配推定のデフォルト選択であった。 一方で、ベイズ二次法のようなよりサンプル効率の良い代替法は、計算の複雑さが高いため、あまり注目されていない。 本研究は,ベイズ二次の計算効率の高い高次元一般化であるディープベイズ二次政策勾配(DBQPG)を政策勾配推定のために提案する。 政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。 モンテカルロ推定と比較して、DBQPGは (i)有意に低いばらつきを持つより正確な勾配推定。 (II)いくつかの深い政策勾配アルゴリズムに対するサンプル複雑性と平均回帰の一貫性のある改善、および (iii)さらなる性能向上のために組み込むことができる勾配推定の不確実性。

We study the problem of obtaining accurate policy gradient estimates using a finite number of samples. Monte-Carlo methods have been the default choice for policy gradient estimation, despite suffering from high variance in the gradient estimates. On the other hand, more sample efficient alternatives like Bayesian quadrature methods have received little attention due to their high computational complexity. In this work, we propose deep Bayesian quadrature policy gradient (DBQPG), a computationally efficient high-dimensional generalization of Bayesian quadrature, for policy gradient estimation. We show that DBQPG can substitute Monte-Carlo estimation in policy gradient methods, and demonstrate its effectiveness on a set of continuous control benchmarks. In comparison to Monte-Carlo estimation, DBQPG provides (i) more accurate gradient estimates with a significantly lower variance, (ii) a consistent improvement in the sample complexity and average return for several deep policy gradient algorithms, and, (iii) the uncertainty in gradient estimation that can be incorporated to further improve the performance.
翻訳日:2022-11-16 02:04:49 公開日:2020-12-16
# 最適化におけるベンチマーク - ベストプラクティスとオープンイシュー

Benchmarking in Optimization: Best Practice and Open Issues ( http://arxiv.org/abs/2007.03488v2 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein, Carola Doerr, Daan van den Berg, Jakob Bossek, Sowmya Chandrasekaran, Tome Eftimov, Andreas Fischbach, Pascal Kerschke, William La Cava, Manuel Lopez-Ibanez, Katherine M. Malan, Jason H. Moore, Boris Naujoks, Patryk Orzechowski, Vanessa Volz, Markus Wagner, Thomas Weise(参考訳) この調査は、異なる背景を持つ12人以上の研究者と、世界中の異なる研究所のアイデアとレコメンデーションをまとめたものだ。 ベンチマークにおけるベストプラクティスの推進が主な目標です。 明確に定義された目標、明確に特定された問題、適切なアルゴリズム、適切なパフォーマンス測定、思慮深い分析、効果的で効率的な設計、理解可能なプレゼンテーション、再現性を保証すること。 最後の目標は、著者やレビュアーにとって有用なガイドライン(ルール)を提供することです。 最適化のベンチマークは活発で進化している研究分野であるので、この原稿は定期的な更新によって時間とともに共進化することを意図している。

This survey compiles ideas and recommendations from more than a dozen researchers with different backgrounds and from different institutes around the world. Promoting best practice in benchmarking is its main goal. The article discusses eight essential topics in benchmarking: clearly stated goals, well-specified problems, suitable algorithms, adequate performance measures, thoughtful analysis, effective and efficient designs, comprehensible presentations, and guaranteed reproducibility. The final goal is to provide well-accepted guidelines (rules) that might be useful for authors and reviewers. As benchmarking in optimization is an active and evolving field of research this manuscript is meant to co-evolve over time by means of periodic updates.
翻訳日:2022-11-12 19:51:38 公開日:2020-12-16
# asymptotically optimal multi-armed bandit algorithm とハイパーパラメータ最適化

An Asymptotically Optimal Multi-Armed Bandit Algorithm and Hyperparameter Optimization ( http://arxiv.org/abs/2007.05670v2 )

ライセンス: Link先を確認
Yimin Huang, Yujun Li, Hanrong Ye, Zhenguo Li, Zhihua Zhang(参考訳) ハイパーパラメータ,ニューラルアーキテクチャ,あるいはデータ拡張ポリシの評価は,大規模なハイパーパラメータ検索空間を持つ高度なディープラーニングにおいて重要なモデル選択問題となる。 本稿では,超パラメータ探索評価のシナリオにおいて,SS(Sub-Sampling)と呼ばれる効率的で堅牢な帯域幅に基づくアルゴリズムを提案する。 観測のサブサンプルによってハイパーパラメータのポテンシャルを評価し、理論上は累積後悔の基準の下で最適であることが証明される。 さらに、SSとベイジアン最適化を組み合わせて、BOSSと呼ばれる新しいハイパーパラメータ最適化アルゴリズムを開発した。 実験的な研究では,ニューラルネットワーク探索(NAS),データ拡張(DA),オブジェクト検出(OD),強化学習(RL)など,数多くのアプリケーションにおけるBOSSの優れた性能を示す。

The evaluation of hyperparameters, neural architectures, or data augmentation policies becomes a critical model selection problem in advanced deep learning with a large hyperparameter search space. In this paper, we propose an efficient and robust bandit-based algorithm called Sub-Sampling (SS) in the scenario of hyperparameter search evaluation. It evaluates the potential of hyperparameters by the sub-samples of observations and is theoretically proved to be optimal under the criterion of cumulative regret. We further combine SS with Bayesian Optimization and develop a novel hyperparameter optimization algorithm called BOSS. Empirical studies validate our theoretical arguments of SS and demonstrate the superior performance of BOSS on a number of applications, including Neural Architecture Search (NAS), Data Augmentation (DA), Object Detection (OD), and Reinforcement Learning (RL).
翻訳日:2022-11-11 13:15:55 公開日:2020-12-16
# 非線形制御理論による深層残留ニューラルネットワークの普遍近似パワー

Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory ( http://arxiv.org/abs/2007.06007v3 )

ライセンス: Link先を確認
Paulo Tabuada and Bahman Gharesifard(参考訳) 本稿では,幾何非線形制御による深層残留ニューラルネットワークの普遍近似能力について述べる。 残差ネットワークと制御システムとのリンクを確立する最近の研究に触発されて、残差ネットワークが活性化関数、あるいはその導関数の1つに二次微分方程式を満たすことによって普遍近似の力を持つための一般的な十分条件を提供する。 実際に用いられる多くの活性化関数はこの仮定を正確にあるいはほぼ満たしており、この性質は、コンパクトな集合と上限ノルムに関して、$\mathbb{R}^n$ から $\mathbb{R}^n$ までの任意の連続函数において、各層に$n+1$のニューロンを持つ適切な深層ニューラルネットワークに対して、任意に近似するのに十分であることを示す。 さらに、重み付けが2つの値を仮定するだけでよい非常に単純なアーキテクチャについて、この結果を示す。 最初の重要な技術的貢献は、普遍近似問題を残留ネットワークに対応する制御系のアンサンブルの制御可能性に関連付け、古典的なリー代数的手法を利用して制御可能性を特徴づけることである。 2つ目の技術的貢献は、有限アンサンブルの可制御性とコンパクト集合上の一様近似の間の橋渡しとして単調性を特定することである。

In this paper, we explain the universal approximation capabilities of deep residual neural networks through geometric nonlinear control. Inspired by recent work establishing links between residual networks and control systems, we provide a general sufficient condition for a residual network to have the power of universal approximation by asking the activation function, or one of its derivatives, to satisfy a quadratic differential equation. Many activation functions used in practice satisfy this assumption, exactly or approximately, and we show this property to be sufficient for an adequately deep neural network with $n+1$ neurons per layer to approximate arbitrarily well, on a compact set and with respect to the supremum norm, any continuous function from $\mathbb{R}^n$ to $\mathbb{R}^n$. We further show this result to hold for very simple architectures for which the weights only need to assume two values. The first key technical contribution consists of relating the universal approximation problem to controllability of an ensemble of control systems corresponding to a residual network and to leverage classical Lie algebraic techniques to characterize controllability. The second technical contribution is to identify monotonicity as the bridge between controllability of finite ensembles and uniform approximability on compact sets.
翻訳日:2022-11-11 05:47:38 公開日:2020-12-16
# グラフ学習を用いた機器変数検出 : 住宅価格の高次元GISセンサスデータへの適用

Instrument variable detection with graph learning : an application to high dimensional GIS-census data for house pricing ( http://arxiv.org/abs/2007.15769v2 )

ライセンス: Link先を確認
Ning Xu, Timothy C.G. Fisher, Jian Hong(参考訳) 内在性バイアスと機器変数の検証は、統計学や計量学において常に重要なトピックである。 ビッグデータの時代においては、このような問題は一般的に次元の問題と組み合わせられるため、さらに注意が必要である。 本稿では,機械学習とバイオ統計学の2つの有名なツールを融合して,住宅価格とそれに対応する因果構造を,2010年シドニーのデータを用いて推定する。 この推定は、地元の学校データ、GIS情報、国勢調査データ、住宅特性、その他の社会経済記録からなる200ギガバイト超高次元データベースを用いている。 ビッグデータ」を用いて,データ駆動型楽器選択を効率的に行うことができ,無効な楽器を除去できることを示す。 提案手法は, 高次元構造, 複雑な因果構造, 連続多行構造の存在下での変動選択, 安定性, 堅牢性を向上し, スパースかつ直感的な因果構造を復元する。 このアプローチはまた、内在性検出、機器検証、弱い機器の刈り取り、有効な機器の選択において効率性と有効性を明らかにする。 機械学習の観点からは、評価結果はシドニーの住宅市場の事実、古典的経済理論、およびそれ以前の同時方程式モデリングの結果と一致し、裏付けるものである。 さらに、推定結果は2段階最小二乗回帰や異なる計器試験などの古典的計量ツールと一致し、支持されている。 すべてのコードは \url{https://github.com/isaac2math/solar_graph_learning} で見ることができる。

Endogeneity bias and instrument variable validation have always been important topics in statistics and econometrics. In the era of big data, such issues typically combine with dimensionality issues and, hence, require even more attention. In this paper, we merge two well-known tools from machine learning and biostatistics---variable selection algorithms and probablistic graphs---to estimate house prices and the corresponding causal structure using 2010 data on Sydney. The estimation uses a 200-gigabyte ultrahigh dimensional database consisting of local school data, GIS information, census data, house characteristics and other socio-economic records. Using "big data", we show that it is possible to perform a data-driven instrument selection efficiently and purge out the invalid instruments. Our approach improves the sparsity of variable selection, stability and robustness in the presence of high dimensionality, complicated causal structures and the consequent multicollinearity, and recovers a sparse and intuitive causal structure. The approach also reveals an efficiency and effectiveness in endogeneity detection, instrument validation, weak instrument pruning and the selection of valid instruments. From the perspective of machine learning, the estimation results both align with and confirms the facts of Sydney house market, the classical economic theories and the previous findings of simultaneous equations modeling. Moreover, the estimation results are consistent with and supported by classical econometric tools such as two-stage least square regression and different instrument tests. All the code may be found at \url{https://github.com/isaac2math/solar_graph_learning}.
翻訳日:2022-11-05 13:49:17 公開日:2020-12-16
# 複雑な依存構造下における太陽変数選択比較の精度と安定性

Accuracy and stability of solar variable selection comparison under complicated dependence structures ( http://arxiv.org/abs/2007.15614v2 )

ライセンス: Link先を確認
Ning Xu, Timothy C.G. Fisher, Jian Hong(参考訳) 本稿では、複雑な構造を持つ経験的データに基づいて、サブサンプル順序付き最小角度回帰(Solar)の実験的変数選択性能(Solar)に着目し、重度多重線形性とグループ化効果の問題を考察する。 以前の研究では、太陽は最小角回帰と$\mathcal{L}_1$収縮という既知の高次元問題をほとんど緩和している。 また、同じ計算負荷で、太陽収量は2つのラッソ解法(ラッソと座標偏差の最小角度回帰)に対して、スパーシリティ(選択変数の平均数の37-64\%低減)、安定性、変数選択の精度で実質的な改善を行う。 また、太陽は変動選択のロバスト性を、非表示条件の異なる設定や回帰解析で仮定される依存構造の変化に拡張することを示した。 この改良が実証的な研究にも利用可能であることを確認するため、前立腺がんデータとシドニー・ハウスの価格データを選択し、2つのlassoソルバ、elastic netとsolarを比較対象とする。 その結果は (i)ラスソは群れ効果の影響を受け、高い相関関係を持つ変数をランダムに減少させ、信頼できない結果と解釈できない結果をもたらす。 (二) 弾性ネットは、グループ化効果に強いが、データの依存構造が複雑である場合には、変数選択間隔が完全に失われる。 (iii)太陽は複雑な依存構造やグループ化効果に対して優れたロバスト性を示し、安定性とスパース性が向上した変数選択結果を返す。 コードはhttps://github.com/isaac2math/solar_applicationにある。

In this paper we focus on the empirical variable-selection peformance of subsample-ordered least angle regression (Solar) -- a novel ultrahigh dimensional redesign of lasso -- on the empirical data with complicated dependence structures and, hence, severe multicollinearity and grouping effect issues. Previous researches show that Solar largely alleviates several known high-dimensional issues with least-angle regression and $\mathcal{L}_1$ shrinkage. Also, With the same computation load, solar yields substantiali mprovements over two lasso solvers (least-angle regression for lasso and coordinate-descent) in terms of the sparsity (37-64\% reduction in the average number of selected variables), stability and accuracy of variable selection. Simulations also demonstrate that solar enhances the robustness of variable selection to different settings of the irrepresentable condition and to variations in the dependence structures assumed in regression analysis. To confirm that the improvements are also available for empirical researches, we choose the prostate cancer data and the Sydney house price data and apply two lasso solvers, elastic net and Solar on them for comparison. The results shows that (i) lasso is affected by the grouping effect and randomly drop variables with high correlations, resulting unreliable and uninterpretable results; (ii) elastic net is more robust to grouping effect; however, it completely lose variable-selection sparsity when the dependence structure of the data is complicated; (iii) solar demonstrates its superior robustness to complicated dependence structures and grouping effect, returning variable-selection results with better stability and sparsity. The code can be found at https://github.com/isaac2math/solar_application
翻訳日:2022-11-05 13:32:07 公開日:2020-12-16
# エッジコンピューティングにおける適応型ディープニューラルネットワークの事例

A Case For Adaptive Deep Neural Networks in Edge Computing ( http://arxiv.org/abs/2008.01814v2 )

ライセンス: Link先を確認
Francis McNamee and Schahram Dustadar and Peter Kilpatrick and Weisong Shi and Ivor Spence and Blesson Varghese(参考訳) エッジコンピューティングは、プライバシに敏感でパフォーマンスクリティカルなアプリケーションの生データをクラウドデータセンタに転送する前に、データソースに近いコンピューティングインフラストラクチャの追加層を提供する。 Deep Neural Networks(DNN)は、エッジとクラウド間の協調的なコンピューティングの恩恵を受けると報告されているアプリケーションのひとつだ。 DNNは、パフォーマンスとプライバシの目的を満たすために、DNNの特定のレイヤがエッジとクラウドにデプロイされるように分割される。 しかし、その理解は限られている。 (a)すでにデプロイされているDNNの性能に、運用条件(エッジでのCPUとメモリ利用の増加、エッジとクラウド間のデータ転送率の低下)がどう影響するか、そして、 b) 新しいパーティション構成がパフォーマンスを最大化するために必要かどうか。 運用条件の変更に対応するDNNは、"adaptive DNN"と呼ばれる。 本稿では,エッジコンピューティングに適応的なDNNが存在するかどうかを3つの質問から検討する。 (i)DNNは運用条件に敏感か? (ii)DNNは運用条件に対してどの程度敏感か? 三 個別又は運用条件の組み合わせがDNNに等しく影響を及ぼすか。 (iv) DNNパーティショニングはクラウド/エッジのハードウェアアーキテクチャに敏感か? 8つの事前訓練されたDNNモデルのコンテキストで探索を行い、結果が800万近いデータポイントの分析から得られた。 その結果,ネットワーク条件がCPUやメモリ関連動作条件よりもDNNの性能に影響することが明らかになった。 再分割は、いくつかのケースでパフォーマンス向上をもたらすことが知られているが、基盤となるハードウェアアーキテクチャとの相関関係に関して、特定の傾向は言及されなかった。 それでも適応的なDNNの必要性は確認されている。

Edge computing offers an additional layer of compute infrastructure closer to the data source before raw data from privacy-sensitive and performance-critical applications is transferred to a cloud data center. Deep Neural Networks (DNNs) are one class of applications that are reported to benefit from collaboratively computing between the edge and the cloud. A DNN is partitioned such that specific layers of the DNN are deployed onto the edge and the cloud to meet performance and privacy objectives. However, there is limited understanding of: (a) whether and how evolving operational conditions (increased CPU and memory utilization at the edge or reduced data transfer rates between the edge and the cloud) affect the performance of already deployed DNNs, and (b) whether a new partition configuration is required to maximize performance. A DNN that adapts to changing operational conditions is referred to as an 'adaptive DNN'. This paper investigates whether there is a case for adaptive DNNs in edge computing by considering three questions: (i) Are DNNs sensitive to operational conditions? (ii) How sensitive are DNNs to operational conditions? (iii) Do individual or a combination of operational conditions equally affect DNNs? (iv) Is DNN partitioning sensitive to hardware architectures on the cloud/edge? The exploration is carried out in the context of 8 pre-trained DNN models and the results presented are from analyzing nearly 8 million data points. The results highlight that network conditions affects DNN performance more than CPU or memory related operational conditions. Repartitioning is noted to provide a performance gain in a number of cases, but a specific trend was not noted in relation to its correlation to the underlying hardware architecture. Nonetheless, the need for adaptive DNNs is confirmed.
翻訳日:2022-11-03 01:18:14 公開日:2020-12-16
# scission:ディープニューラルネットワークのパフォーマンス駆動およびコンテキスト対応クラウドエッジ分散

Scission: Performance-driven and Context-aware Cloud-Edge Distribution of Deep Neural Networks ( http://arxiv.org/abs/2008.03523v2 )

ライセンス: Link先を確認
Luke Lockhart and Paul Harvey and Pierre Imai and Peter Willis and Blesson Varghese(参考訳) エンドユーザ、エッジリソース、クラウドにまたがるディープニューラルネットワーク(dnn)の分割と配布には、入力データのプライバシの保護と、エッジを越えた入力帯域幅の削減という2つのメリットがある。 しかし、与えられたDNNに対して、パフォーマンスを最大化するDNNを配布するための最適なパーティション構成を特定することは大きな課題である。 これは、パフォーマンスを最大化する潜在的対象のハードウェアリソースと、ターゲットのリソースに分散されるべきDNNの層列との組み合わせを決定する必要があるためであり、また、パーティショニングのためのユーザ定義の目的/制約も考慮する必要がある。 本稿では,DNNの性能を最大化する最適なパーティションを決定するための,特定のターゲットデバイス,エッジ,クラウドリソースに対して,DNNの自動ベンチマークツールであるScisionを提案する。 意思決定のアプローチは、ターゲットリソースのハードウェア能力、その局所性、DNN層の特徴、ネットワーク条件を活かして、コンテキストに適応する。 実験は18のDNNで行われている。 Scisionによる決定は、検索空間に影響を及ぼす複雑さと次元の数から、人間が手動で行うことはできない。 Scissionのベンチマークのオーバーヘッドにより、リアルタイムではなく、定期的に運用上の変更に対応することができる。 scissionはhttps://github.com/qub-blesson/scissionからダウンロードできる。

Partitioning and distributing deep neural networks (DNNs) across end-devices, edge resources and the cloud has a potential twofold advantage: preserving privacy of the input data, and reducing the ingress bandwidth demand beyond the edge. However, for a given DNN, identifying the optimal partition configuration for distributing the DNN that maximizes performance is a significant challenge. This is because the combination of potential target hardware resources that maximizes performance and the sequence of layers of the DNN that should be distributed across the target resources needs to be determined, while accounting for user-defined objectives/constraints for partitioning. This paper presents Scission, a tool for automated benchmarking of DNNs on a given set of target device, edge and cloud resources for determining optimal partitions that maximize DNN performance. The decision-making approach is context-aware by capitalizing on hardware capabilities of the target resources, their locality, the characteristics of DNN layers, and the network condition. Experimental studies are carried out on 18 DNNs. The decisions made by Scission cannot be manually made by a human given the complexity and the number of dimensions affecting the search space. The benchmarking overheads of Scission allow for responding to operational changes periodically rather than in real-time. Scission is available for public download at https://github.com/qub-blesson/Scission.
翻訳日:2022-11-01 12:23:59 公開日:2020-12-16
# 同義語置換に基づくテキスト攻撃に対する高速勾配投影法による逆行訓練

Adversarial Training with Fast Gradient Projection Method against Synonym Substitution based Text Attacks ( http://arxiv.org/abs/2008.03709v4 )

ライセンス: Link先を確認
Xiaosen Wang, Yichen Yang, Yihe Deng, Kun He(参考訳) 画像分類のための深層ニューラルネットワークのロバスト性向上には, アドバーサリートレーニングが最も成功した手法であるが, 既存の同義語置換型アドバーサリーアタックは有効であるが, 実用的なテキストアドバーサリートレーニングに組み込むには効率的ではない。 画像に対して非常に効率的なグラディエントベースの攻撃は、語彙的、文法的、意味的な制約と離散的なテキスト入力空間のために、同義置換に基づくテキスト攻撃のために実装するのが困難である。 そこで本研究では,従来のテキスト攻撃手法よりも約20倍高速で,同様の攻撃性能が得られるFGPM法を提案する。 次に、FGPMを対人訓練に組み込んで、対人訓練(ATFL)により強化されたFGPMを用いた対人訓練(Adversarial Training)と呼ばれるテキスト防衛手法を提案する。 実験により、ATFLはモデルロバスト性を大幅に改善し、敵の例の伝達性を阻害できることが示された。

Adversarial training is the most empirically successful approach in improving the robustness of deep neural networks for image classification.For text classification, however, existing synonym substitution based adversarial attacks are effective but not efficient to be incorporated into practical text adversarial training. Gradient-based attacks, which are very efficient for images, are hard to be implemented for synonym substitution based text attacks due to the lexical, grammatical and semantic constraints and the discrete text input space. Thereby, we propose a fast text adversarial attack method called Fast Gradient Projection Method (FGPM) based on synonym substitution, which is about 20 times faster than existing text attack methods and could achieve similar attack performance. We then incorporate FGPM with adversarial training and propose a text defense method called Adversarial Training with FGPM enhanced by Logit pairing (ATFL). Experiments show that ATFL could significantly improve the model robustness and block the transferability of adversarial examples.
翻訳日:2022-11-01 03:59:10 公開日:2020-12-16
# 自然言語目標を用いた逆強化学習

Inverse Reinforcement Learning with Natural Language Goals ( http://arxiv.org/abs/2008.06924v3 )

ライセンス: Link先を確認
Li Zhou and Kevin Small(参考訳) 人間は一般的に自然言語を使ってタスク要求を互いに伝達する。 理想的には、自然言語はタスク仕様の摩擦を最小限に抑えるために自律機械(例えばロボット)に目標を伝えるのにも使えるべきです。 しかし、自然言語目標の理解とマッピングは、状態とアクションのシーケンスに困難である。 特に、これらのラインに沿った既存の作業は、学習したポリシーを新しい自然言語目標と環境に一般化するのに困難に直面している。 本稿では,言語条件付きポリシーと報酬関数を学習するための,逆逆強化学習アルゴリズムを提案する。 学習方針と報酬関数の一般化を改善するために,変動目標生成器を用いてトラジェクタをリラベルし,トレーニング中の多種多様な目標をサンプリングする。 提案アルゴリズムは,視覚に基づく自然言語命令に追従するデータセット(Room-2-Room)において,複数のベースラインよりも優れており,エージェントの目標を指定するために自然言語命令を使用することが期待できる。

Humans generally use natural language to communicate task requirements to each other. Ideally, natural language should also be usable for communicating goals to autonomous machines (e.g., robots) to minimize friction in task specification. However, understanding and mapping natural language goals to sequences of states and actions is challenging. Specifically, existing work along these lines has encountered difficulty in generalizing learned policies to new natural language goals and environments. In this paper, we propose a novel adversarial inverse reinforcement learning algorithm to learn a language-conditioned policy and reward function. To improve generalization of the learned policy and reward function, we use a variational goal generator to relabel trajectories and sample diverse goals during training. Our algorithm outperforms multiple baselines by a large margin on a vision-based natural language instruction following dataset (Room-2-Room), demonstrating a promising advance in enabling the use of natural language instructions in specifying agent goals.
翻訳日:2022-10-28 08:56:31 公開日:2020-12-16
# 反応選択モデル、次は何になるのか? マルチターン応答選択のための発話操作戦略

Do Response Selection Models Really Know What's Next? Utterance Manipulation Strategies for Multi-turn Response Selection ( http://arxiv.org/abs/2009.04703v2 )

ライセンス: Link先を確認
Taesun Whang, Dongyub Lee, Dongsuk Oh, Chanhee Lee, Kijong Han, Dong-hun Lee, Saebyeok Lee(参考訳) 本稿では,検索に基づくマルチターン対話システムにおいて,ユーザとシステム発話履歴の最適応答を選択するタスクについて検討する。 近年、事前訓練された言語モデル(BERT、RoBERTa、ELECTRAなど)は、様々な自然言語処理タスクにおいて大幅に改善されている。 この類似した応答選択タスクは、タスクをダイアログ応答バイナリ分類タスクとして定式化することで、このような言語モデルを使っても解決できる。 このアプローチを用いた既存の研究は、最先端の成果を得たが、この方法で訓練された言語モデルは、履歴と候補の関連性に基づいて予測を行う傾向にあり、マルチターンダイアログシステムのシーケンシャルな性質を無視している。 このことから, 発話間の時間的依存を学習するには, 応答選択だけでは不十分であることが示唆された。 そこで本稿では,この問題に対処する発話操作戦略(UMS)を提案する。 具体的には、UMSは、ダイアログコヒーレンスを維持するための応答選択モデルを支援するいくつかの戦略(挿入、削除、検索)から構成される。 さらに、UMSはアノテーションを必要とせず、既存のアプローチに簡単に組み込むことができる自己教師型手法である。 複数の言語やモデルにわたる広範囲な評価は、UMSがダイアログの一貫性を教えるのに非常に効果的であることを示している。

In this paper, we study the task of selecting the optimal response given a user and system utterance history in retrieval-based multi-turn dialog systems. Recently, pre-trained language models (e.g., BERT, RoBERTa, and ELECTRA) showed significant improvements in various natural language processing tasks. This and similar response selection tasks can also be solved using such language models by formulating the tasks as dialog--response binary classification tasks. Although existing works using this approach successfully obtained state-of-the-art results, we observe that language models trained in this manner tend to make predictions based on the relatedness of history and candidates, ignoring the sequential nature of multi-turn dialog systems. This suggests that the response selection task alone is insufficient for learning temporal dependencies between utterances. To this end, we propose utterance manipulation strategies (UMS) to address this problem. Specifically, UMS consist of several strategies (i.e., insertion, deletion, and search), which aid the response selection model towards maintaining dialog coherence. Further, UMS are self-supervised methods that do not require additional annotation and thus can be easily incorporated into existing approaches. Extensive evaluation across multiple languages and models shows that UMS are highly effective in teaching dialog consistency, which leads to models pushing the state-of-the-art with significant margins on multiple public benchmark datasets.
翻訳日:2022-10-20 02:44:08 公開日:2020-12-16
# シーンと動きの分離による教師なし映像表現学習の強化

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion ( http://arxiv.org/abs/2009.05757v3 )

ライセンス: Link先を確認
Jinpeng Wang, Yuting Gao, Ke Li, Jianguo Hu, Xinyang Jiang, Xiaowei Guo, Rongrong Ji, Xing Sun(参考訳) 特に画像表現学習とは対照的に、ビデオ表現学習が捉えられることを期待する重要な要因の1つは、オブジェクトの動きです。 しかし,現在主流の映像データセットでは,アクションカテゴリがアクションの発生シーンと高度に関連していることから,シーン情報のみをエンコードするソリューションへとモデルが劣化する傾向がみられた。 例えば、トレーニングされたモデルは、フィールドを見ているだけで、フィールドでチアリーダーとして踊っていることを無視して、ビデオがサッカーをしていると予測できる。 これは、ビデオ表現学習に対する当初の意図に反しており、無視できない異なるデータセットにシーンバイアスをもたらす可能性がある。 この問題に対処するために,2つの簡単な操作でシーンとモーション(dsm)を分離し,動き情報に対するモデルへの注意がより払われるようにすることを提案する。 具体的には,ビデオ毎に肯定的なクリップと否定的なクリップを構築する。 オリジナルのビデオと比較すると、ポジティブ/ネガティブは動きのない/壊れるが、空間的局部外乱と時間的局部外乱によってシーンが壊れる/動かない。 我々の目的は、負のクリップを潜在空間の元のクリップに押しながら、ポジティブに近づくことである。 このようにして、ネットワークの時間的感度をさらに高めながら、シーンの影響が弱まる。 我々は,異なるバックボーンと異なる事前学習データセットを用いた2つのタスクについて実験を行い,同じバックボーンを用いて,UCF101データセットとHMDB51データセットの動作認識タスクに対して,顕著な8.1%と8.8%の改善を行った。

One significant factor we expect the video representation learning to capture, especially in contrast with the image representation learning, is the object motion. However, we found that in the current mainstream video datasets, some action categories are highly related with the scene where the action happens, making the model tend to degrade to a solution where only the scene information is encoded. For example, a trained model may predict a video as playing football simply because it sees the field, neglecting that the subject is dancing as a cheerleader on the field. This is against our original intention towards the video representation learning and may bring scene bias on different dataset that can not be ignored. In order to tackle this problem, we propose to decouple the scene and the motion (DSM) with two simple operations, so that the model attention towards the motion information is better paid. Specifically, we construct a positive clip and a negative clip for each video. Compared to the original video, the positive/negative is motion-untouched/broken but scene-broken/untouched by Spatial Local Disturbance and Temporal Local Disturbance. Our objective is to pull the positive closer while pushing the negative farther to the original clip in the latent space. In this way, the impact of the scene is weakened while the temporal sensitivity of the network is further enhanced. We conduct experiments on two tasks with various backbones and different pre-training datasets, and find that our method surpass the SOTA methods with a remarkable 8.1% and 8.8% improvement towards action recognition task on the UCF101 and HMDB51 datasets respectively using the same backbone.
翻訳日:2022-10-19 08:06:57 公開日:2020-12-16
# 局所化スタイル表現とファクトリゼーションを用いたファインショットフォント生成

Few-shot Font Generation with Localized Style Representations and Factorization ( http://arxiv.org/abs/2009.11042v2 )

ライセンス: Link先を確認
Song Park, Sanghyuk Chun, Junbum Cha, Bado Lee, Hyunjung Shim(参考訳) 手動デザインはデザイナーの専門知識に高価で敏感であるため、自動的少数ショットフォント生成は実用的で広く研究されている問題である。 既存の数発のフォント生成方法は、いくつかの参照グリフからスタイルとコンテンツ要素を切り離すことを目標とし、主に各フォントスタイルの普遍的なスタイル表現に焦点を当てている。 しかし、このようなアプローチは、様々な地方スタイルを表すモデルに制限があり、例えば中国語のような、非常に複雑な構造を持つ様々な構成要素(しばしば「ラディカル」と呼ばれる)からなる最も複雑な文字体系には適さない。 本稿では,ユニバーサルスタイルの代わりに,局所化スタイル,すなわちコンポーネントワイドスタイル表現を学習する新しいフォント生成手法を提案する。 提案するスタイル表現により,テキスト設計における複雑な局所的詳細を合成できる。 しかし、参照グリフのみからコンポーネントのスタイルを学ぶことは、ターゲットスクリプトが中国語で200以上のコンポーネントを持つ場合、わずかなフォント生成シナリオでは実現不可能である。 参照グリフ数を減らすために,低ランク行列因子化に触発されたコンポーネント因子とスタイル因子の積によるコンポーネント毎のスタイルを単純化する。 強い表現とコンパクトな因子化戦略を組み合わせることで,各コンポーネントの位置,骨格,ストロークなど,強い局所性管理を使わずに,他の最先端技術よりも極めて優れた少数ショットフォント生成結果(参照グリフ画像が8つしかない)を示す。 ソースコードはhttps://github.com/clovaai/lffontで入手できる。

Automatic few-shot font generation is a practical and widely studied problem because manual designs are expensive and sensitive to the expertise of designers. Existing few-shot font generation methods aim to learn to disentangle the style and content element from a few reference glyphs, and mainly focus on a universal style representation for each font style. However, such approach limits the model in representing diverse local styles, and thus makes it unsuitable to the most complicated letter system, e.g., Chinese, whose characters consist of a varying number of components (often called "radical") with a highly complex structure. In this paper, we propose a novel font generation method by learning localized styles, namely component-wise style representations, instead of universal styles. The proposed style representations enable us to synthesize complex local details in text designs. However, learning component-wise styles solely from reference glyphs is infeasible in the few-shot font generation scenario, when a target script has a large number of components, e.g., over 200 for Chinese. To reduce the number of reference glyphs, we simplify component-wise styles by a product of component factor and style factor, inspired by low-rank matrix factorization. Thanks to the combination of strong representation and a compact factorization strategy, our method shows remarkably better few-shot font generation results (with only 8 reference glyph images) than other state-of-the-arts, without utilizing strong locality supervision, e.g., location of each component, skeleton, or strokes. The source code is available at https://github.com/clovaai/lffont.
翻訳日:2022-10-15 16:20:15 公開日:2020-12-16
# 多目的遺伝的プログラミングにおける意味論的距離アプローチ

Semantic-based Distance Approaches in Multi-objective Genetic Programming ( http://arxiv.org/abs/2009.12401v4 )

ライセンス: Link先を確認
Edgar Galv\'an and Fergal Stapleton(参考訳) 遺伝的プログラム(GP)の文脈における意味論は、一連の入力を与えられたプログラムの振る舞いとして理解することができ、様々な問題に対するGPの性能向上に成功している。 セマンティクスを単目的GPに組み込んだ様々な方法が存在した。 しかし,多目的GP(MO)のセマンティクスの研究は限定的であり,この問題に対処することを目的としている。 より具体的には、MOGPにおける3種類の意味論の比較を行う。 意味に基づく1つの方法 (i)セマンティック類似性に基づくクロスオーバー(SSC)は単目的GPから借用され,進化探索において常に有用であることが報告されている。 他にも2つの方法を研究しています (ii)追加基準(sdo)としての意味的距離及び (iii)ピボット類似性sdo。 経験的かつ一貫して,MOGPで最適化される追加基準として意味距離を自然に扱うことにより,標準法やSSCと比較して性能が向上することを示す。 両者のセマンティック距離に基づくアプローチは、探索空間の最も広い領域からの参照点であるピボットを用いており、このピボットと意味的に類似しており、異なる個人が多様性を促進するのに有益であることがわかった。 さらに,semanticsが単一目的の最適化に成功しても,mogpではパフォーマンスが向上する必要はないことを示す。

Semantics in the context of Genetic Program (GP) can be understood as the behaviour of a program given a set of inputs and has been well documented in improving performance of GP for a range of diverse problems. There have been a wide variety of different methods which have incorporated semantics into single-objective GP. The study of semantics in Multi-objective (MO) GP, however, has been limited and this paper aims at tackling this issue. More specifically, we conduct a comparison of three different forms of semantics in MOGP. One semantic-based method, (i) Semantic Similarity-based Crossover (SSC), is borrowed from single-objective GP, where the method has consistently being reported beneficial in evolutionary search. We also study two other methods, dubbed (ii) Semantic-based Distance as an additional criteriOn (SDO) and (iii) Pivot Similarity SDO. We empirically and consistently show how by naturally handling semantic distance as an additional criterion to be optimised in MOGP leads to better performance when compared to canonical methods and SSC. Both semantic distance based approaches made use of a pivot, which is a reference point from the sparsest region of the search space and it was found that individuals which were both semantically similar and dissimilar to this pivot were beneficial in promoting diversity. Moreover, we also show how the semantics successfully promoted in single-objective optimisation does not necessary lead to a better performance when adopted in MOGP.
翻訳日:2022-10-14 22:41:17 公開日:2020-12-16
# スタイライゼーションアンペアテキストを用いたスタイライゼーション対話応答生成

Stylized Dialogue Response Generation Using Stylized Unpaired Texts ( http://arxiv.org/abs/2009.12719v2 )

ライセンス: Link先を確認
Yinhe Zheng, Zikai Chen, Rongsheng Zhang, Shilei Huang, Xiaoxi Mao, Minlie Huang(参考訳) インテリジェントで魅力的な対話システムを構築するには、スタイリッシュな応答の生成が不可欠である。 しかし、特に対話モデルの訓練に直接使用できない非ペアテキストにのみターゲットスタイルが埋め込まれている場合、特定のスタイルをコヒーレントな応答でレンダリングすることの難しさから、この課題は十分に検討されていない。 本稿では,文中に埋め込まれた文体の特徴を抽出する文体化対話生成手法を提案する。 具体的には,与えられた文脈に合致し,対象のスタイルに適合した対話応答を生成できる。 本研究では,まず,入力応答に対して可能なポストを予測するために,逆対話モデルを導入し,この逆対話モデルを用いて,これらのスタイライズされた非ペアテキストに基づいて,スタイライズされた擬似対話ペアを生成する。 さらに、これらの擬似ペアを用いて、共用訓練プロセスでスタイリッシュな対話モデルを訓練し、デコーダのスタイリスティックな特徴を強化するためのスタイルルーティング手法を提案する。 2つのデータセットに対する自動的および手動的評価により,本手法は協調型およびスタイル集約型対話応答の生成において,競争ベースラインを上回っていることが示された。

Generating stylized responses is essential to build intelligent and engaging dialogue systems. However, this task is far from well-explored due to the difficulties of rendering a particular style in coherent responses, especially when the target style is embedded only in unpaired texts that cannot be directly used to train the dialogue model. This paper proposes a stylized dialogue generation method that can capture stylistic features embedded in unpaired texts. Specifically, our method can produce dialogue responses that are both coherent to the given context and conform to the target style. In this study, an inverse dialogue model is first introduced to predict possible posts for the input responses, and then this inverse model is used to generate stylized pseudo dialogue pairs based on these stylized unpaired texts. Further, these pseudo pairs are employed to train the stylized dialogue model with a joint training process, and a style routing approach is proposed to intensify stylistic features in the decoder. Automatic and manual evaluations on two datasets demonstrate that our method outperforms competitive baselines in producing coherent and style-intensive dialogue responses.
翻訳日:2022-10-14 03:35:33 公開日:2020-12-16
# 大規模2人競技における量子対数爆発の複雑さとアルゴリズム

Complexity and Algorithms for Exploiting Quantal Opponents in Large Two-Player Games ( http://arxiv.org/abs/2009.14521v2 )

ライセンス: Link先を確認
David Milec, Jakub \v{C}ern\'y, Viliam Lis\'y, Bo An(参考訳) 伝統的なゲーム理論の解法の概念は、完全に合理的なプレイヤーを前提としており、従属的な対戦相手を搾取する能力は限られている。 人間の振舞いをうまく表現する亜合理性の一種は、量子応答である。 量子的相手に対する解を計算するアルゴリズムは存在するが、スケールしないか、完全に合理的なナッシュ戦略よりもさらに悪い戦略を提供する可能性がある。 本稿では,正規および広範囲のゲームにおいて,量子敵に対する効率的かつロバストな戦略を計算するためのスケーラブルなアルゴリズムを解析・提案することを目的とする。 Our contributions are: (1) we define two different solution concepts related to exploiting quantal opponents and analyze their properties; (2) we prove that computing these solutions is computationally hard; (3) therefore, we evaluate several heuristic approximations based on scalable counterfactual regret minimization (CFR); and (4) we identify a CFR variant that exploits the bounded opponents better than the previously used variants while being less exploitable by the worst-case perfectly-rational opponent.

Solution concepts of traditional game theory assume entirely rational players; therefore, their ability to exploit subrational opponents is limited. One type of subrationality that describes human behavior well is the quantal response. While there exist algorithms for computing solutions against quantal opponents, they either do not scale or may provide strategies that are even worse than the entirely-rational Nash strategies. This paper aims to analyze and propose scalable algorithms for computing effective and robust strategies against a quantal opponent in normal-form and extensive-form games. Our contributions are: (1) we define two different solution concepts related to exploiting quantal opponents and analyze their properties; (2) we prove that computing these solutions is computationally hard; (3) therefore, we evaluate several heuristic approximations based on scalable counterfactual regret minimization (CFR); and (4) we identify a CFR variant that exploits the bounded opponents better than the previously used variants while being less exploitable by the worst-case perfectly-rational opponent.
翻訳日:2022-10-12 23:35:03 公開日:2020-12-16
# 機械学習による雲の効率的なエネルギー管理のための熱予測

Thermal Prediction for Efficient Energy Management of Clouds using Machine Learning ( http://arxiv.org/abs/2011.03649v3 )

ライセンス: Link先を確認
Shashikant Ilager, Kotagiri Ramamohanarao, Rajkumar Buyya(参考訳) ハイパースケールのクラウドデータセンターにおける熱管理は重要な問題である。 ホスト温度が上昇するとホットスポットが発生し、冷却コストが大幅に増加し、信頼性に影響を及ぼす。 資源の効率的な管理にはホスト温度の正確な予測が不可欠である。 温度推定は、データセンターの熱的変動による非自明な問題である。 既存の温度推定のソリューションは計算の複雑さと正確な予測の欠如のため非効率である。 しかし、温度予測のためのデータ駆動機械学習手法は有望なアプローチである。 この点について、我々はプライベートクラウドからデータを収集・研究し、熱的変動の存在を示す。 ホスト温度を正確に予測するために,複数の機械学習モデルを調査した。 具体的には,温度予測のための勾配強化機械学習モデルを提案する。 実験の結果,平均rmse値0.05,摂氏2.38度の平均予測誤差が既存の理論モデルよりも6度低い温度を正確に予測できることがわかった。 さらに,ホストのピーク温度を最小化する動的スケジューリングアルゴリズムを提案する。 その結果,本アルゴリズムはピーク温度を摂氏6.5度減らし,ベースラインアルゴリズムに比べて34.5%少ないエネルギーを消費することがわかった。

Thermal management in the hyper-scale cloud data centers is a critical problem. Increased host temperature creates hotspots which significantly increases cooling cost and affects reliability. Accurate prediction of host temperature is crucial for managing the resources effectively. Temperature estimation is a non-trivial problem due to thermal variations in the data center. Existing solutions for temperature estimation are inefficient due to their computational complexity and lack of accurate prediction. However, data-driven machine learning methods for temperature prediction is a promising approach. In this regard, we collect and study data from a private cloud and show the presence of thermal variations. We investigate several machine learning models to accurately predict the host temperature. Specifically, we propose a gradient boosting machine learning model for temperature prediction. The experiment results show that our model accurately predicts the temperature with the average RMSE value of 0.05 or an average prediction error of 2.38 degree Celsius, which is 6 degree Celsius less as compared to an existing theoretical model. In addition, we propose a dynamic scheduling algorithm to minimize the peak temperature of hosts. The results show that our algorithm reduces the peak temperature by 6.5 degree Celsius and consumes 34.5% less energy as compared to the baseline algorithm.
翻訳日:2022-09-28 22:26:53 公開日:2020-12-16
# 説明可能な計画のためのKRアプローチの関係について

On the Relationship Between KR Approaches for Explainable Planning ( http://arxiv.org/abs/2011.09006v3 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, William Yeoh, Tran Cao Son(参考訳) 本稿では,知識表現と推論 (kr) の概念に基づいて,説明可能な計画のためのモデル調整問題を特徴付ける予備論理ベースのフレームワークを拡張する。 また,類似したkr手法,例えば帰納的説明と信念の変化と,それらの説明可能な計画への適用性との関係について,詳細な説明を行う。

In this paper, we build upon notions from knowledge representation and reasoning (KR) to expand a preliminary logic-based framework that characterizes the model reconciliation problem for explainable planning. We also provide a detailed exposition on the relationship between similar KR techniques, such as abductive explanations and belief change, and their applicability to explainable planning.
翻訳日:2022-09-24 16:38:06 公開日:2020-12-16
# 組合せ最適化のためのアナログイジングマシンにおける分散インジェクションロック

Distributed Injection-Locking in Analog Ising Machines to Solve Combinatorial Optimizations ( http://arxiv.org/abs/2011.09067v2 )

ライセンス: Link先を確認
M. Ali Vosoughi(参考訳) 発振器ベースのIsing Machine(OIM)は、組合せ最適化問題を解決するCMOS発振器のネットワークである。 本稿では,oimの位相同期を高速化するために,回路全体の注入同期振動の分布を提案する。 提案手法の意義は130〜nm$ PTMモデルによるEDAツールの広範囲なシミュレーションにより理論的に検証された。 超高調波発振器の入射信号を分配することにより、分散技術による電源の消耗と位相同期誤差が無視できるほど増加し、速度を219.8\%に向上させる。

The oscillator-based Ising machine (OIM) is a network of coupled CMOS oscillators that solves combinatorial optimization problems. In this paper, the distribution of the injection-locking oscillations throughout the circuit is proposed to accelerate the phase-locking of the OIM. The implications of the proposed technique theoretically investigated and verified by extensive simulations in EDA tools with a $130~nm$ PTM model. By distributing the injective signal of the super-harmonic oscillator, the speed is increased by $219.8\%$ with negligible increase in the power dissipation and phase-locking error of the device due to the distributed technique.
翻訳日:2022-09-24 04:12:48 公開日:2020-12-16
# アナログデバイスを用いたディープラーニングモデルのベンチマーク推論性能

Benchmarking Inference Performance of Deep Learning Models on Analog Devices ( http://arxiv.org/abs/2011.11840v2 )

ライセンス: Link先を確認
Omobayode Fagbohungbe, Lijun Qian(参考訳) アナログハードウェア実装のディープラーニングモデルは、エッジコンピューティングデバイスのような計算とエネルギー制約のあるシステムに対して有望である。 しかしながら、デバイスと関連する多くのノイズ源のアナログ特性は、そのようなデバイスにデプロイされた訓練されたディープラーニングモデルにおける重みの値に変化をもたらす。 本研究では,アナログデバイス上に展開された画像分類のための訓練された一般ディープラーニングモデルの推論性能を体系的に評価し,推論中にトレーニングされたモデルの重みに付加的な白色ガウス雑音を加えた。 VGGのような設計上の冗長性が高いより深いモデルやモデルは、一般的なノイズに対してより堅牢である。 しかし、その性能はモデルの設計哲学、モデルの詳細な構造、正確な機械学習タスク、データセットにも影響される。

Analog hardware implemented deep learning models are promising for computation and energy constrained systems such as edge computing devices. However, the analog nature of the device and the associated many noise sources will cause changes to the value of the weights in the trained deep learning models deployed on such devices. In this study, systematic evaluation of the inference performance of trained popular deep learning models for image classification deployed on analog devices has been carried out, where additive white Gaussian noise has been added to the weights of the trained models during inference. It is observed that deeper models and models with more redundancy in design such as VGG are more robust to the noise in general. However, the performance is also affected by the design philosophy of the model, the detailed structure of the model, the exact machine learning task, as well as the datasets.
翻訳日:2022-09-21 12:18:10 公開日:2020-12-16
# 大規模学習率相における深い線形ネットワークの入射バイアス

Implicit bias of deep linear networks in the large learning rate phase ( http://arxiv.org/abs/2011.12547v2 )

ライセンス: Link先を確認
Wei Huang, Weitao Du, Richard Yi Da Xu, and Chunrui Liu(参考訳) 深層学習における正規化効果を説明する理論研究のほとんどは、十分な学習率や勾配流量(無限の学習率)を持つ勾配降下にのみ焦点をあてている。 しかし、このような研究は、ほとんどの実用的な応用において、かなり大きな学習率を無視している。 本研究では,Lewkowyczらによる基礎研究に触発された大規模学習率体系におけるロジスティック損失を用いて,二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。 [26]二乗損失のある回帰設定で。 彼らはカタパルトフェーズと呼ばれる大きな段階の学習率の体制を発見し、そこではトレーニングの初期段階で損失が増加し、最終的には小さな学習率の制度よりも平坦な最小限に収束する。 我々は、データの分離条件に応じて、勾配降下イテレートはカタパルト相においてより平坦な最小値に収束すると主張している。 我々は,ロジスティック損失の非定数ヘッシアンの難しさを克服し,非分離データに対する損失とヘッシアンの挙動をさらに特徴付けることにより,データ縮退を前提として,この主張を厳格に証明する。 最後に,非分離データとカタパルト相の学習速度によって空間内の平坦なミニマが,経験的によりよい一般化をもたらすことを示した。

Most theoretical studies explaining the regularization effect in deep learning have only focused on gradient descent with a sufficient small learning rate or even gradient flow (infinitesimal learning rate). Such researches, however, have neglected a reasonably large learning rate applied in most practical applications. In this work, we characterize the implicit bias effect of deep linear networks for binary classification using the logistic loss in the large learning rate regime, inspired by the seminal work by Lewkowycz et al. [26] in a regression setting with squared loss. They found a learning rate regime with a large stepsize named the catapult phase, where the loss grows at the early stage of training and eventually converges to a minimum that is flatter than those found in the small learning rate regime. We claim that depending on the separation conditions of data, the gradient descent iterates will converge to a flatter minimum in the catapult phase. We rigorously prove this claim under the assumption of degenerate data by overcoming the difficulty of the non-constant Hessian of logistic loss and further characterize the behavior of loss and Hessian for non-separable data. Finally, we demonstrate that flatter minima in the space spanned by non-separable data along with the learning rate in the catapult phase can lead to better generalization empirically.
翻訳日:2022-09-21 02:02:59 公開日:2020-12-16
# 分布外検出のための特徴空間特異性

Feature Space Singularity for Out-of-Distribution Detection ( http://arxiv.org/abs/2011.14654v2 )

ライセンス: Link先を確認
Haiwen Huang, Zhihan Li, Lulu Wang, Sishuo Chen, Bin Dong, Xinyu Zhou(参考訳) OoD(Out-of-Distribution)検出は、安全な人工知能システムを構築する上で重要である。 しかし、現在のOoD検出方法は、実際のデプロイメントのパフォーマンス要件を満たすことはできない。 本稿では,新しい観測に基づく単純かつ効果的なアルゴリズムを提案する。訓練されたニューラルネットワークでは,境界ノルムを持つoodサンプルが特徴空間によく集中する。 We called the center of OoD features the Feature Space Singularity (FSS) and indicate the distance of a sample feature to FSS as FSSD。 次に、OoDサンプルをFSSDのしきい値を取ることで識別することができる。 この現象を解析した結果、アルゴリズムが機能する理由が明らかになった。 提案アルゴリズムは,OoD検出ベンチマークにおける最先端性能を実現する。 さらに、FSSDはテストデータのわずかな破損に対する堅牢性も享受し、アンサンブルによってさらに強化される。 これにより、FSSDは実世界で採用される有望なアルゴリズムとなる。 コードは \url{https://github.com/megvii-research/fsd_ood_detection} でリリースします。

Out-of-Distribution (OoD) detection is important for building safe artificial intelligence systems. However, current OoD detection methods still cannot meet the performance requirements for practical deployment. In this paper, we propose a simple yet effective algorithm based on a novel observation: in a trained neural network, OoD samples with bounded norms well concentrate in the feature space. We call the center of OoD features the Feature Space Singularity (FSS), and denote the distance of a sample feature to FSS as FSSD. Then, OoD samples can be identified by taking a threshold on the FSSD. Our analysis of the phenomenon reveals why our algorithm works. We demonstrate that our algorithm achieves state-of-the-art performance on various OoD detection benchmarks. Besides, FSSD also enjoys robustness to slight corruption in test data and can be further enhanced by ensembling. These make FSSD a promising algorithm to be employed in real world. We release our code at \url{https://github.com/megvii-research/FSSD_OoD_Detection}.
翻訳日:2021-06-06 15:00:31 公開日:2020-12-16
# 乳がんを自動的に検出するワンピクセルアタック

One-Pixel Attack Deceives Automatic Detection of Breast Cancer ( http://arxiv.org/abs/2012.00517v2 )

ライセンス: Link先を確認
Joni Korpihalkola, Tuomo Sipola, Samir Puuska, Tero Kokkonen(参考訳) 本稿では,入力画像中の1つの画素だけを変更することで,スライド画像全体のmitosisを含むかどうかを予測できる最先端の機械学習モデルを示す。 コンピュータビジョンと機械学習は、がんの診断と検出における様々なタスクを自動化するために使用できる。 攻撃者が自動処理を操作できれば、結果は破壊的になり、最悪の場合、誤った診断と治療につながる可能性がある。 この研究では、実際の腫瘍データセットを用いて、1ピクセルの攻撃を現実のシナリオで実証する。 解析の結果,スライド画像全体の小さな1ピクセルの修正が診断に影響を及ぼす可能性が示唆された。 この攻撃はサイバーセキュリティの観点から脅威となる。1ピクセルの方法は、動機づけられた攻撃者が攻撃ベクターとして使用できる。

In this article we demonstrate that a state-of-the-art machine learning model predicting whether a whole slide image contains mitosis can be fooled by changing just a single pixel in the input image. Computer vision and machine learning can be used to automate various tasks in cancer diagnostic and detection. If an attacker can manipulate the automated processing, the results can be devastating and in the worst case lead to wrong diagnostic and treatments. In this research one-pixel attack is demonstrated in a real-life scenario with a real tumor dataset. The results indicate that a minor one-pixel modification of a whole slide image under analysis can affect the diagnosis. The attack poses a threat from the cyber security perspective: the one-pixel method can be used as an attack vector by a motivated attacker.
翻訳日:2021-05-30 19:55:47 公開日:2020-12-16
# (参考訳) アクティブラーニング:問題の設定と最近の展開

Active Learning: Problem Settings and Recent Developments ( http://arxiv.org/abs/2012.04225v2 )

ライセンス: CC BY 4.0
Hideitsu Hino(参考訳) 教師あり学習では、予測モデルのためのラベル付きトレーニングデータを取得するのは非常にコストがかかるが、ラベルなしデータの大量取得は容易であることが多い。 アクティブラーニング(active learning)は、ラベル付けのためのサンプルの適応的な選択を通じて、限られたコストで高精度な予測モデルを得る方法である。 本稿では,アクティブラーニングの基本的課題と最近の研究動向を説明する。 特に,ラベリング用データからサンプルを選択する学習獲得関数の研究,アクティブ学習アルゴリズムに関する理論的研究,逐次データ取得のための停止基準について注目する。 材料開発や計測への応用例を紹介する。

In supervised learning, acquiring labeled training data for a predictive model can be very costly, but acquiring a large amount of unlabeled data is often quite easy. Active learning is a method of obtaining predictive models with high precision at a limited cost through the adaptive selection of samples for labeling. This paper explains the basic problem settings of active learning and recent research trends. In particular, research on learning acquisition functions to select samples from the data for labeling, theoretical work on active learning algorithms, and stopping criteria for sequential data acquisition are highlighted. Application examples for material development and measurement are introduced.
翻訳日:2021-05-17 09:33:29 公開日:2020-12-16
# (参考訳) パスワード生成のための生成深層学習技術

Generative Deep Learning Techniques for Password Generation ( http://arxiv.org/abs/2012.05685v2 )

ライセンス: CC BY 4.0
David Biesner, Kostadin Cvejoski, Bogdan Georgiev, Rafet Sifa, Erik Krupicka(参考訳) 深層学習によるパスワード推測アプローチは、新しい現実的なパスワード候補を生成する能力において重要なブレークスルーによって最近研究されている。 本研究では,注意に基づくディープニューラルネットワーク,自動エンコード機構,生成的敵ネットワークといった,パスワード推測の観点から,幅広い深層学習モデルと確率ベースモデルについて検討する。 最新のサンプリング性能を示す変分オートエンコーダという観点からは,新しい生成的ディープラーニングモデルを提供し,補間やターゲットサンプリングなどの潜在空間的特徴を生み出す。 最後に、よく知られたデータセット(RockYou、LinkedIn、Youku、Zomato、Pwnd)上で、統一制御フレームワークで徹底的な実験分析を行います。 我々の結果は、ディープニューラルネットワークによって駆動される最も有望なスキームを識別するだけでなく、生成の多様性とサンプルの特異性の観点から、それぞれのアプローチの強みも示している。

Password guessing approaches via deep learning have recently been investigated with significant breakthroughs in their ability to generate novel, realistic password candidates. In the present work we study a broad collection of deep learning and probabilistic based models in the light of password guessing: attention-based deep neural networks, autoencoding mechanisms and generative adversarial networks. We provide novel generative deep-learning models in terms of variational autoencoders exhibiting state-of-art sampling performance, yielding additional latent-space features such as interpolations and targeted sampling. Lastly, we perform a thorough empirical analysis in a unified controlled framework over well-known datasets (RockYou, LinkedIn, Youku, Zomato, Pwnd). Our results not only identify the most promising schemes driven by deep neural networks, but also illustrate the strengths of each approach in terms of generation variability and sample uniqueness.
翻訳日:2021-05-15 15:21:45 公開日:2020-12-16
# (参考訳) ベトナムSNSにおける信頼度情報識別のための移動学習の活用(ReINTEL)

Leveraging Transfer Learning for Reliable Intelligence Identification on Vietnamese SNSs (ReINTEL) ( http://arxiv.org/abs/2012.07557v2 )

ライセンス: CC BY 4.0
Trung-Hieu Tran, Long Phan, Truong-Son Nguyen, Tien-Huy Nguyen(参考訳) 本稿ではVLSP 2020評価キャンペーンにおいてベトナムのソーシャルネットワーク上での信頼性情報同定のためのトランスフォーマーに基づくいくつかのアプローチを提案する。 単言語モデルと多言語事前学習モデルの両方を利用する。 さらに,アンサンブル法を用いて,異なるアプローチの堅牢性を向上させる。 我々のチームは、他の参加者と競争するプライベートテストセットでROC-AUCで0.9378のスコアを獲得しました。

This paper proposed several transformer-based approaches for Reliable Intelligence Identification on Vietnamese social network sites at VLSP 2020 evaluation campaign. We exploit both of monolingual and multilingual pre-trained models. Besides, we utilize the ensemble method to improve the robustness of different approaches. Our team achieved a score of 0.9378 at ROC-AUC metric in the private test set which is competitive to other participants.
翻訳日:2021-05-15 14:10:51 公開日:2020-12-16
# (参考訳) ニューロシンボリックAI:第3波

Neurosymbolic AI: The 3rd Wave ( http://arxiv.org/abs/2012.05876v2 )

ライセンス: CC BY 4.0
Artur d'Avila Garcez and Luis C. Lamb(参考訳) 人工知能(AI)と機械学習(ML)の最近の進歩は、研究コミュニティや業界全体に前例のない影響を与えた。 それでも、AIの信頼性、安全性、解釈可能性、説明責任に関する懸念は、影響力のある思想家によって提起された。 多くの人は、知識表現と推論を深層学習と統合し、説明しやすくする必要性を認識している。 ニューラルネットワークにおけるロバストな学習と、ネットワークモデルのシンボリック表現による推論と説明可能性の実現を目的とした研究は、長年にわたって活発に行われてきた。 本稿では、ニューロシンボリックAIの最近の研究成果と、次のAIシステムの波の鍵となる要素を特定することを目的としている。 我々は、ニューラルネットワークに基づく学習を、記号的知識表現と論理的推論で原則的に統合する研究に焦点をあてる。 20年間のニューラルシンボリックコンピューティングの知見は、aiの信頼、安全性、解釈可能性、説明可能性という、ますます目立つ役割に新たな光を当てている。 また、ニューラルシンボリックシステムの観点から、今後10年間のAI研究における有望な方向性と課題を特定します。

Current advances in Artificial Intelligence (AI) and Machine Learning (ML) have achieved unprecedented impact across research communities and industry. Nevertheless, concerns about trust, safety, interpretability and accountability of AI were raised by influential thinkers. Many have identified the need for well-founded knowledge representation and reasoning to be integrated with deep learning and for sound explainability. Neural-symbolic computing has been an active area of research for many years seeking to bring together robust learning in neural networks with reasoning and explainability via symbolic representations for network models. In this paper, we relate recent and early research results in neurosymbolic AI with the objective of identifying the key ingredients of the next wave of AI systems. We focus on research that integrates in a principled way neural network-based learning with symbolic knowledge representation and logical reasoning. The insights provided by 20 years of neural-symbolic computing are shown to shed new light onto the increasingly prominent role of trust, safety, interpretability and accountability of AI. We also identify promising directions and challenges for the next decade of AI research from the perspective of neural-symbolic systems.
翻訳日:2021-05-15 11:06:12 公開日:2020-12-16
# (参考訳) 音声の言語的・ジェスチャー的品質の認識による評価予測の公正性

Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality of Public Speeches ( http://arxiv.org/abs/2012.06157v2 )

ライセンス: CC0 1.0
Rupam Acharyya, Ankani Chattoraj, Shouman Das, Md. Iftekhar Tanveer, Ehsan Hoque(参考訳) 広範に公の場で話すことに対する言語的および非言語的手がかりの役割は、何十年もの間、探究の話題となっている。 我々は、チャネルやコミュニケーションのモードにおける「多様性または不均一性」の要素である、現在の理論間の共通性を特定する(例)。 物語、科学的事実、感情的なつながり、表情などに頼るさま 効果的な情報伝達に欠かせないものです 本研究は,言語領域と非言語領域(文字と顔のジェスチャー)における発話の質を定量化する,新しいヘテロジニティー・メトリック(HEM)を定式化する。 我々はTEDトークを公開スピーチの入力レポジトリとして使用しています。 HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。 HEMは本質的に、"多様性"や"異質性"に基づいた講演の質を表すものだ、と氏は強調する。 さらに、HEMが人種や性別に関する評価の偏りを捉えることに成功し、センシティブな属性(これらに基づく予測が不公平な結果をもたらす可能性があるため)と呼ぶこともわかりました。 我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。 本結果は,ニューラルネットワークの予測精度に大きな影響を及ぼすことなく,予測の公平性を向上することを示す。 我々の研究は、言語ドメインと非言語ドメインの両方の公開スピーチのための新しいメトリクスと、ニューラルネットワークの計算能力とを結びつけて、話者のための公正な予測システムを設計する。

The role of verbal and non-verbal cues towards great public speaking has been a topic of exploration for many decades. We identify a commonality across present theories, the element of "variety or heterogeneity" in channels or modes of communication (e.g. resorting to stories, scientific facts, emotional connections, facial expressions etc.) which is essential for effectively communicating information. We use this observation to formalize a novel HEterogeneity Metric, HEM, that quantifies the quality of a talk both in the verbal and non-verbal domain (transcript and facial gestures). We use TED talks as an input repository of public speeches because it consists of speakers from a diverse community besides having a wide outreach. We show that there is an interesting relationship between HEM and the ratings of TED talks given to speakers by viewers. It emphasizes that HEM inherently and successfully represents the quality of a talk based on "variety or heterogeneity". Further, we also discover that HEM successfully captures the prevalent bias in ratings with respect to race and gender, that we call sensitive attributes (because prediction based on these might result in unfair outcome). We incorporate the HEM metric into the loss function of a neural network with the goal to reduce unfairness in rating predictions with respect to race and gender. Our results show that the modified loss function improves fairness in prediction without considerably affecting prediction accuracy of the neural network. Our work ties together a novel metric for public speeches in both verbal and non-verbal domain with the computational power of a neural network to design a fair prediction system for speakers.
翻訳日:2021-05-14 08:09:18 公開日:2020-12-16
# 近似トレース再構成

Approximate Trace Reconstruction ( http://arxiv.org/abs/2012.06713v2 )

ライセンス: Link先を確認
Sami Davies, Miklos Z. Racz, Cyrus Rashtchian, Benjamin G. Schiffer(参考訳) 通常のトレース再構成問題では、未知の長さの文字列を、独立に何度も削除チャネルを通過した後、正確に再構築し、一連のトレース(すなわち、文字列のランダムな部分列)を生成する。 近似復元の緩和問題を考察する。 ここでの目標は、正確な再構築に必要なトレースよりも少ないトレースを使用して、編集距離で元の文字列に近い文字列を出力することである。 推定値が$n/\mathrm{polylog}(n)$Edit distance内にあり、$\mathrm{polylog}(n)$ traces(あるいは単に1つのトレース)しか使用できないような、あるクラスに属する文字列をおよそ再構成できるアルゴリズムをいくつか提示する。 これらのクラスは、正確な復元のために線形数のトレースを必要とする文字列を含み、典型的なランダム文字列とは全く異なる。 技術的観点から,我々のアルゴリズムは,トレースの高密度領域を整列させ,各領域を近似するために適切な長さのランを用いて,未知文字列の連続的なサブストリングを概ね再構成する。 アルゴリズムを補完するために、近似再構成のための一般的なブラックボックスの下限を示し、最悪の場合、2つの入力文字列を区別するために下限の上に構築する。 特に、これは$n^{1/3 - \delta}$編集距離が$n^{1 + 3\delta/2}/\mathrm{polylog}(n)$ traces for $0< \delta < 1/3$ であることを示している。

In the usual trace reconstruction problem, the goal is to exactly reconstruct an unknown string of length $n$ after it passes through a deletion channel many times independently, producing a set of traces (i.e., random subsequences of the string). We consider the relaxed problem of approximate reconstruction. Here, the goal is to output a string that is close to the original one in edit distance while using much fewer traces than is needed for exact reconstruction. We present several algorithms that can approximately reconstruct strings that belong to certain classes, where the estimate is within $n/\mathrm{polylog}(n)$ edit distance, and where we only use $\mathrm{polylog}(n)$ traces (or sometimes just a single trace). These classes contain strings that require a linear number of traces for exact reconstruction and which are quite different from a typical random string. From a technical point of view, our algorithms approximately reconstruct consecutive substrings of the unknown string by aligning dense regions of traces and using a run of a suitable length to approximate each region. To complement our algorithms, we present a general black-box lower bound for approximate reconstruction, building on a lower bound for distinguishing between two candidate input strings in the worst case. In particular, this shows that approximating to within $n^{1/3 - \delta}$ edit distance requires $n^{1 + 3\delta/2}/\mathrm{polylog}(n)$ traces for $0< \delta < 1/3$ in the worst case.
翻訳日:2021-05-10 05:09:36 公開日:2020-12-16
# (参考訳) 局所的歪み尺度による深層学習の一般化予測

Predicting Generalization in Deep Learning via Local Measures of Distortion ( http://arxiv.org/abs/2012.06969v2 )

ライセンス: CC BY 4.0
Abhejit Rajagopal, Vamshi C. Madala, Shivkumar Chandrasekaran, Peder E. Z. Larson(参考訳) 近似と情報理論で開発された複雑性尺度に訴えることにより,ディープラーニングの一般化を研究する。 これらの概念は、深層学習の高次元的・データ定義的な性質から問題視されているが、PCA、GMM、SVMといった単純なベクトル量子化アプローチは、階層的に深層抽出された特徴を応用した場合に、一般化性能とよく相関する比較的安価な複雑さ対策をもたらすことを示す。 我々は2020年のNeurIPS PGDLチャレンジの結果について論じる。

We study generalization in deep learning by appealing to complexity measures originally developed in approximation and information theory. While these concepts are challenged by the high-dimensional and data-defined nature of deep learning, we show that simple vector quantization approaches such as PCA, GMMs, and SVMs capture their spirit when applied layer-wise to deep extracted features giving rise to relatively inexpensive complexity measures that correlate well with generalization performance. We discuss our results in 2020 NeurIPS PGDL challenge.
翻訳日:2021-05-09 19:36:43 公開日:2020-12-16
# (参考訳) 保守的帯域問題に対する一次元全解法

A One-Size-Fits-All Solution to Conservative Bandit Problems ( http://arxiv.org/abs/2012.07341v3 )

ライセンス: CC BY 4.0
Yihan Du, Siwei Wang, Longbo Huang(参考訳) 本稿では,サンプルパス報酬制約を伴う保守的バンディット問題(cbps)の一家系について検討する。 本稿では, CBP に対する 1-Size-Fits-All ソリューションを提案する。 保守的多腕包帯(CMAB)、保守的線形包帯(CLB)、保守的文脈結合包帯(CCCB)。 期待される報酬に対する高い確率制約を考慮した以前の研究とは異なり、実際に受け取った報酬に対するサンプルパス制約に注目し、より理論的な保証(T$非依存的な追加的後悔)と経験的なパフォーマンスを達成する。 さらに,評価結果を拡張し,期待される報奨と変動性の両方で学習性能を測定する新しい平均分散バンドイット問題(MV-CBP)を検討する。 この拡張問題に対して、o(1/t)$正規化加法後悔(累積形式ではt$非依存)を持つ新しいアルゴリズムを提供し、経験的評価によって検証する。

In this paper, we study a family of conservative bandit problems (CBPs) with sample-path reward constraints, i.e., the learner's reward performance must be at least as well as a given baseline at any time. We propose a One-Size-Fits-All solution to CBPs and present its applications to three encompassed problems, i.e. conservative multi-armed bandits (CMAB), conservative linear bandits (CLB) and conservative contextual combinatorial bandits (CCCB). Different from previous works which consider high probability constraints on the expected reward, we focus on a sample-path constraint on the actually received reward, and achieve better theoretical guarantees ($T$-independent additive regrets instead of $T$-dependent) and empirical performance. Furthermore, we extend the results and consider a novel conservative mean-variance bandit problem (MV-CBP), which measures the learning performance with both the expected reward and variability. For this extended problem, we provide a novel algorithm with $O(1/T)$ normalized additive regrets ($T$-independent in the cumulative form) and validate this result through empirical evaluation.
翻訳日:2021-05-09 05:48:46 公開日:2020-12-16
# (参考訳) Squirrel: スイッチングハイパーパラメータ最適化器

Squirrel: A Switching Hyperparameter Optimizer ( http://arxiv.org/abs/2012.08180v2 )

ライセンス: CC BY 4.0
Noor Awad, Gresa Shala, Difan Deng, Neeratyoy Mallik, Matthias Feurer, Katharina Eggensperger, Andre' Biedenkapp, Diederick Vermetten, Hao Wang, Carola Doerr, Marius Lindauer, Frank Hutter(参考訳) 本稿では,NeurIPS 2020 BBOチャレンジへの応募について述べる。 異なるオプティマイザが異なる問題に対してうまく機能するという事実に動機づけられ、アプローチは異なるオプティマイザを切り替えます。 コンテストのリーダーボードのチーム名は、形容詞と同じ初期文字を持つ動物からなるランダムに生成された「発音のあだ名」であったので、我々はこのアプローチをスイッチングリス、またはここでは短いリスと呼んだ。

In this short note, we describe our submission to the NeurIPS 2020 BBO challenge. Motivated by the fact that different optimizers work well on different problems, our approach switches between different optimizers. Since the team names on the competition's leaderboard were randomly generated "alliteration nicknames", consisting of an adjective and an animal with the same initial letter, we called our approach the Switching Squirrel, or here, short, Squirrel.
翻訳日:2021-05-08 07:58:54 公開日:2020-12-16
# (参考訳) 深部生成モデルにおける大域的要因の教師なし学習

Unsupervised Learning of Global Factors in Deep Generative Models ( http://arxiv.org/abs/2012.08234v2 )

ライセンス: CC BY 4.0
Ignacio Peis, Pablo M. Olmos and Antonio Art\'es-Rodr\'iguez(参考訳) 非i.i.d.に基づく新しい深層生成モデルを提案する。 完全に教師なしの方法で観察間のグローバルな依存関係をキャプチャする変分オートエンコーダ。 近年の深部生成モデルにおける大域的モデリングのための半教師付き代替案とは対照的に、局所的あるいはデータ依存空間における混合モデルと大域ガウス潜在変数を組み合わせることで、3つの特別な洞察を得ることができた。 第一に、帰納的大域空間は、($\beta$-VAEとその一般化のように)エビデンスの下界におけるユーザ定義正規化のない解釈不能な非交叉表現をキャプチャする。 第二に、モデルがドメインアライメントを行い、相関関係を見つけ、異なるデータベース間で補間することを示す。 最後に,共有属性を持つ顔画像やデジット画像の定義配列など,非自明な基盤構造を持つ観測群を区別する大域空間の能力について検討した。

We present a novel deep generative model based on non i.i.d. variational autoencoders that captures global dependencies among observations in a fully unsupervised fashion. In contrast to the recent semi-supervised alternatives for global modeling in deep generative models, our approach combines a mixture model in the local or data-dependent space and a global Gaussian latent variable, which lead us to obtain three particular insights. First, the induced latent global space captures interpretable disentangled representations with no user-defined regularization in the evidence lower bound (as in $\beta$-VAE and its generalizations). Second, we show that the model performs domain alignment to find correlations and interpolate between different databases. Finally, we study the ability of the global space to discriminate between groups of observations with non-trivial underlying structures, such as face images with shared attributes or defined sequences of digits images.
翻訳日:2021-05-08 06:04:28 公開日:2020-12-16
# rgb-dシークエンスにおける3次元マルチオブジェクト追跡のための後方視

Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences ( http://arxiv.org/abs/2012.08197v2 )

ライセンス: Link先を確認
Norman M\"uller, Yu-Shiang Wong, Niloy J. Mitra, Angela Dai and Matthias Nie{\ss}ner(参考訳) RGB-Dビデオシーケンスからの多対象追跡は、時間とともに視点、動き、オクルージョンが変化するため、難しい問題である。 我々は,物体の完全な形状を持つことが追跡に役立つことを観察し,物体の完全な形状を共同で推測し,時間とともに剛的に動く物体を追跡することを提案する。 私たちの重要な洞察は、オブジェクトの完全な幾何学を推測することは、追跡に大いに役立ちます。 物体の見えない領域を幻覚させることにより、同一のインスタンス間で追加の対応を得ることができ、外見の強い変化の下でもロバストな追跡を行うことができる。 RGB-Dフレームのシーケンスから、各フレーム内のオブジェクトを検出し、その完全なオブジェクト形状を予測し、高密度な対応関係を標準空間にマッピングする。 これにより、各フレーム内のオブジェクトに対する6dofポーズとフレーム間の対応を導出し、rgb-dシーケンスにわたって堅牢なオブジェクトトラッキングを提供することができます。 合成データと実世界のrgb-dデータの両方における実験により,動的物体追跡における最先端の性能が得られた。 さらに,対象の完成度が追跡に大いに寄与し,平均motaで6.5\%$の改善が期待できることを示した。

Multi-object tracking from RGB-D video sequences is a challenging problem due to the combination of changing viewpoints, motion, and occlusions over time. We observe that having the complete geometry of objects aids in their tracking, and thus propose to jointly infer the complete geometry of objects as well as track them, for rigidly moving objects over time. Our key insight is that inferring the complete geometry of the objects significantly helps in tracking. By hallucinating unseen regions of objects, we can obtain additional correspondences between the same instance, thus providing robust tracking even under strong change of appearance. From a sequence of RGB-D frames, we detect objects in each frame and learn to predict their complete object geometry as well as a dense correspondence mapping into a canonical space. This allows us to derive 6DoF poses for the objects in each frame, along with their correspondence between frames, providing robust object tracking across the RGB-D sequence. Experiments on both synthetic and real-world RGB-D data demonstrate that we achieve state-of-the-art performance on dynamic object tracking. Furthermore, we show that our object completion significantly helps tracking, providing an improvement of $6.5\%$ in mean MOTA.
翻訳日:2021-05-07 05:23:41 公開日:2020-12-16
# Amazon SageMaker Autopilot: 大規模にホワイトボックスのAutoMLソリューション

Amazon SageMaker Autopilot: a white box AutoML solution at scale ( http://arxiv.org/abs/2012.08483v2 )

ライセンス: Link先を確認
Piali Das, Valerio Perrone, Nikita Ivkin, Tanya Bansal, Zohar Karnin, Huibin Shen, Iaroslav Shcherbatyi, Yotam Elor, Wilton Wu, Aida Zolic, Thibaut Lienart, Alex Tang, Amr Ahmed, Jean Baptiste Faddoul, Rodolphe Jenatton, Fela Winkelmolen, Philip Gautier, Leo Dirac, Andre Perunicic, Miroslav Miladinovic, Giovanni Zappella, C\'edric Archambeau, Matthias Seeger, Bhaskar Dutt, Laurence Rouesnel(参考訳) AutoMLシステムは、フィーチャーの正しい処理方法を選択し、アルゴリズムを選択し、パイプライン全体のハイパーパラメータをチューニングすることで、機械学習問題に対するブラックボックスソリューションを提供する。 これらのシステムは、多くのデータセットでうまく機能するが、それでも、個々のシステムが生成するワンショットソリューションがサブパリティパフォーマンスを提供するような、不要な数のデータセットが存在する。 本稿では,自動MLソリューションを提供するフルマネージドシステムであるAmazon SageMaker Autopilotについて述べる。 表形式でのデータセットとターゲット列の名前が与えられたとき、Autopilotは問題タイプを特定し、データを解析し、特徴前処理やMLアルゴリズムを含むさまざまな完全なMLパイプラインを生成し、候補モデルのリーダーボードを生成するように調整する。 パフォーマンスが不十分なシナリオでは、データサイエンティストは、提案されたMLパイプラインを閲覧し、編集して、完全に手動のソリューションに戻ることなく、専門知識とビジネス知識を注入することができる。 本稿では、autopilotのさまざまなコンポーネントについて説明し、スケーラビリティ、高品質モデル、編集可能なmlパイプライン、オフラインメタラーニングのアーティファクトの消費、およびこれらのトレーニングされたモデルをプロダクション環境で使用できるsagemakerスイート全体と便利な統合を可能にするインフラストラクチャの選択を強調する。

AutoML systems provide a black-box solution to machine learning problems by selecting the right way of processing features, choosing an algorithm and tuning the hyperparameters of the entire pipeline. Although these systems perform well on many datasets, there is still a non-negligible number of datasets for which the one-shot solution produced by each particular system would provide sub-par performance. In this paper, we present Amazon SageMaker Autopilot: a fully managed system providing an automated ML solution that can be modified when needed. Given a tabular dataset and the target column name, Autopilot identifies the problem type, analyzes the data and produces a diverse set of complete ML pipelines including feature preprocessing and ML algorithms, which are tuned to generate a leaderboard of candidate models. In the scenario where the performance is not satisfactory, a data scientist is able to view and edit the proposed ML pipelines in order to infuse their expertise and business knowledge without having to revert to a fully manual solution. This paper describes the different components of Autopilot, emphasizing the infrastructure choices that allow scalability, high quality models, editable ML pipelines, consumption of artifacts of offline meta-learning, and a convenient integration with the entire SageMaker suite allowing these trained models to be used in a production setting.
翻訳日:2021-05-07 05:16:30 公開日:2020-12-16
# 幾何学的3d-2dエッジアライメントに基づくrgb-dカメラによる視覚オドメトリ

Canny-VO: Visual Odometry with RGB-D Cameras based on Geometric 3D-2D Edge Alignment ( http://arxiv.org/abs/2012.08228v2 )

ライセンス: Link先を確認
Yi Zhou, Hongdong Li, Laurent Kneip(参考訳) 本稿では,画像から抽出したカンニーエッジ特徴を効率的に追跡するため,自由形曲線登録の古典的な問題を再検討し,効率的なrgbdビジュアルオドメトリシステムcanny-voに適用する。 エッジ登録でよく用いられる距離変換の代替として、近似近接近傍場と配向近接近傍場という2つの方法が提案されている。 3D2Dエッジアライメントは、効率と精度の両方の観点から、これらの代替の定式化の恩恵を受ける。 これは、データからモデルへの登録、双線形補間、および下位段階の計算といった、より計算に要求されるパラダイムの必要性を取り除く。 出力器やセンサノイズの存在下でシステムの堅牢性を確保するために、登録を最大後続問題として定式化し、その結果の重み付き最小二乗目標を反復的に再重み付き最小二乗法により解決する。 種々のロバスト重み関数を調査し,残差誤差の統計に基づいて最適選択を行う。 さらに、近くの場の適応的なサンプル定義によって効率が向上する。 SLAMベンチマークシーケンスの大規模評価は、最先端の性能と古典的ユークリッド距離場に対する優位性を示す。

The present paper reviews the classical problem of free-form curve registration and applies it to an efficient RGBD visual odometry system called Canny-VO, as it efficiently tracks all Canny edge features extracted from the images. Two replacements for the distance transformation commonly used in edge registration are proposed: Approximate Nearest Neighbour Fields and Oriented Nearest Neighbour Fields. 3D2D edge alignment benefits from these alternative formulations in terms of both efficiency and accuracy. It removes the need for the more computationally demanding paradigms of datato-model registration, bilinear interpolation, and sub-gradient computation. To ensure robustness of the system in the presence of outliers and sensor noise, the registration is formulated as a maximum a posteriori problem, and the resulting weighted least squares objective is solved by the iteratively re-weighted least squares method. A variety of robust weight functions are investigated and the optimal choice is made based on the statistics of the residual errors. Efficiency is furthermore boosted by an adaptively sampled definition of the nearest neighbour fields. Extensive evaluations on public SLAM benchmark sequences demonstrate state-of-the-art performance and an advantage over classical Euclidean distance fields.
翻訳日:2021-05-07 05:11:54 公開日:2020-12-16
# (参考訳) DialogXL:多人数会話感情認識のためのオールインワンXLNet

DialogXL: All-in-One XLNet for Multi-Party Conversation Emotion Recognition ( http://arxiv.org/abs/2012.08695v1 )

ライセンス: CC BY 4.0
Weizhou Shen, Junqing Chen, Xiaojun Quan and Zhixian Xie(参考訳) 本稿では、事前学習された言語モデルを用いた会話(ERC)における感情認識の先駆的取り組みについて述べる。 通常の文書とは異なり、会話の発話は異なる当事者から交互に現れ、通常以前の作品の階層構造として整理される。 このような構造は、XLNetのような事前訓練された言語モデルの適用には適していない。 この問題に対処するために,より長い歴史的コンテキストを記憶するためのメモリ拡張と,複数パーティ構造を扱うための対話型自己アテンションを備えたオールインワンXLNetモデル,すなわちDialogXLを提案する。 具体的には,まず,XLNetの繰り返しメカニズムをセグメントレベルから発話レベルに修正し,会話データをモデル化する。 第2に,xlnetのバニラセルフアテンションに代わるダイアログアウェアな自己アテンションを導入し,有用な話者間および話者間依存性を捉える。 比較のために主要なモデルを提示した4つのERCベンチマークで大規模な実験が行われた。 実験の結果,提案モデルがすべてのデータセットのベースラインを上回ることがわかった。 アブレーション研究やエラー解析など,いくつかの実験も実施され,DialogXLの臨界モジュールの役割が確認された。

This paper presents our pioneering effort for emotion recognition in conversation (ERC) with pre-trained language models. Unlike regular documents, conversational utterances appear alternately from different parties and are usually organized as hierarchical structures in previous work. Such structures are not conducive to the application of pre-trained language models such as XLNet. To address this issue, we propose an all-in-one XLNet model, namely DialogXL, with enhanced memory to store longer historical context and dialog-aware self-attention to deal with the multi-party structures. Specifically, we first modify the recurrence mechanism of XLNet from segment-level to utterance-level in order to better model the conversational data. Second, we introduce dialog-aware self-attention in replacement of the vanilla self-attention in XLNet to capture useful intra- and inter-speaker dependencies. Extensive experiments are conducted on four ERC benchmarks with mainstream models presented for comparison. The experimental results show that the proposed model outperforms the baselines on all the datasets. Several other experiments such as ablation study and error analysis are also conducted and the results confirm the role of the critical modules of DialogXL.
翻訳日:2021-05-07 02:46:41 公開日:2020-12-16
# (参考訳) ノード分類におけるCNNに対するGNNの有効性の指標としてのエッジエントロピー

Edge Entropy as an Indicator of the Effectiveness of GNNs over CNNs for Node Classification ( http://arxiv.org/abs/2012.08698v1 )

ライセンス: CC BY-SA 4.0
Lavender Yao Jiang, John Shi, Mark Cheung, Oren Wright, Jos\'e M.F. Moura(参考訳) グラフニューラルネットワーク(GNN)は、畳み込みニューラルネットワーク(CNN)をグラフベースのデータに拡張する。 問題となるのは、GNNの基盤となるグラフ構造がCNNに対してどの程度の性能向上をもたらすかである(このグラフ構造を無視する)。 この問題に対処するために、エッジエントロピーを導入し、CNNに対するGNNの性能改善の可能性を示す指標として、その性能を評価する。 合成および実データを用いたノード分類の結果, エッジエントロピーの低値は, CNNよりもGNNの方が期待される性能向上を予測し, 逆にエッジエントロピーの高次化は, より小さな改善効果をもたらすことが示された。

Graph neural networks (GNNs) extend convolutional neural networks (CNNs) to graph-based data. A question that arises is how much performance improvement does the underlying graph structure in the GNN provide over the CNN (that ignores this graph structure). To address this question, we introduce edge entropy and evaluate how good an indicator it is for possible performance improvement of GNNs over CNNs. Our results on node classification with synthetic and real datasets show that lower values of edge entropy predict larger expected performance gains of GNNs over CNNs, and, conversely, higher edge entropy leads to expected smaller improvement gains.
翻訳日:2021-05-07 02:32:47 公開日:2020-12-16
# (参考訳) SID-NISM: 自己監督型低光画像強調フレームワーク

SID-NISM: A Self-supervised Low-light Image Enhancement Framework ( http://arxiv.org/abs/2012.08707v1 )

ライセンス: CC BY 4.0
Lijun Zhang, Xiao Liu, Erik Learned-Miller, Hui Guan(参考訳) 低照度で画像を撮影する場合、画像の視認性が低下し、画像の視覚的な美しさが低下するだけでなく、多くのコンピュータビジョンアルゴリズムの性能が著しく低下する。 本稿では,SID-NISM(Self-supervised Image Decomposition Network)と非線形照明飽和マッピング機能(Nyronic Illumination Saturation Mapping Function,NISM)の2つのコンポーネントからなる,自己監督型低照度画像強調フレームワークを提案する。 自己教師付きネットワークとして、SID-Netは与えられた低照度画像を、事前のトレーニングや参照画像なしで直接反射、照明、ノイズに分解することができる。 すると、分解された照明マップはNISMによって強化される。 復元された照明マップを持つことにより、拡張を達成できる。 SID-NISMによって強化された画像はより自然であり、予期せぬ成果物が少ないことが、いくつかの公的な挑戦的な低照度画像データセットの実験で明らかになった。

When capturing images in low-light conditions, the images often suffer from low visibility, which not only degrades the visual aesthetics of images, but also significantly degenerates the performance of many computer vision algorithms. In this paper, we propose a self-supervised low-light image enhancement framework (SID-NISM), which consists of two components, a Self-supervised Image Decomposition Network (SID-Net) and a Nonlinear Illumination Saturation Mapping function (NISM). As a self-supervised network, SID-Net could decompose the given low-light image into its reflectance, illumination and noise directly without any prior training or reference image, which distinguishes it from existing supervised-learning methods greatly. Then, the decomposed illumination map will be enhanced by NISM. Having the restored illumination map, the enhancement can be achieved accordingly. Experiments on several public challenging low-light image datasets reveal that the images enhanced by SID-NISM are more natural and have less unexpected artifacts.
翻訳日:2021-05-07 02:24:12 公開日:2020-12-16
# (参考訳) ディープグラフニューラルネットワークアーキテクチャ設計:グローバルピラミッド風収縮骨格から局所トポロジリンクリライトへ

A Deep Graph Neural Networks Architecture Design: From Global Pyramid-like Shrinkage Skeleton to Local Topology Link Rewiring ( http://arxiv.org/abs/2012.08717v1 )

ライセンス: CC BY 4.0
Gege Zhang(参考訳) 表現性はディープニューラルネットワークの評価において基本的な役割を担い、パフォーマンス改善の限界を理解することと密接に関連している。 本稿では,大域的モデル収縮,重みの進化,リンクの重み回復など,臨界表現性に基づく3つのパイプラインのトレーニングフレームワークを提案する。 具体的には,情報伝達に影響を与える鞍点を克服するピラミッド状骨格を提案する。 そして、ネットワークトポロジにおけるモジュラリティ(クラスタリング)現象の理由を分析し、それを潜在的に誤った重み付きリンクをリ配線する。 ノード分類に関する数値実験を行い,提案したトレーニングフレームワークが,誤重み付きリンクに対する高速収束とロバスト性において,性能を著しく向上させることを確認した。 GNNのアーキテクチャ設計は、動的および位相空間的な側面からGNNの表現性を検証し、より効率的なニューラルネットワークの設計に有用なガイドラインを提供する。

Expressivity plays a fundamental role in evaluating deep neural networks, and it is closely related to understanding the limit of performance improvement. In this paper, we propose a three-pipeline training framework based on critical expressivity, including global model contraction, weight evolution, and link's weight rewiring. Specifically, we propose a pyramidal-like skeleton to overcome the saddle points that affect information transfer. Then we analyze the reason for the modularity (clustering) phenomenon in network topology and use it to rewire potential erroneous weighted links. We conduct numerical experiments on node classification and the results confirm that the proposed training framework leads to a significantly improved performance in terms of fast convergence and robustness to potential erroneous weighted links. The architecture design on GNNs, in turn, verifies the expressivity of GNNs from dynamics and topological space aspects and provides useful guidelines in designing more efficient neural networks.
翻訳日:2021-05-06 12:29:22 公開日:2020-12-16
# (参考訳) piSAAC:異なる機械学習アルゴリズムを用いた酵素モデルの識別のためのSAAC特徴選択法の拡張

piSAAC: Extended notion of SAAC feature selection novel method for discrimination of Enzymes model using different machine learning algorithm ( http://arxiv.org/abs/2101.03126v1 )

ライセンス: CC BY 4.0
Zaheer Ullah Khan, Dechang Pi, Izhar Ahmed Khan, Asif Nawaz, Jamil Ahmad, Mushtaq Hussain(参考訳) 酵素とタンパク質は生きた駆動の生化学であり、活性のある環境に劇的な影響を及ぼす。 したがって、酵素の性質を正確に予測するためのロバストで高精度な自動計算モデルを構築することは極めて有望である。 本研究では, piSAACと命名された新規アミノ酸合成モデルを提案する。 このモデルでは、タンパク質配列は等しくバランスの取れた末端で識別され、配列の固有相関性を完全に評価する。 提案したモデルを評価するためにいくつかの最先端アルゴリズムが用いられている。 10倍のクロスバリデーション評価は、例えば異なる統計測度を用いてモデルの信頼性と堅牢性を明らかにするために用いられる。 精度, 感度, 特異性, F測定値, 面積アンダーROC曲線 実験の結果、piSAAC特徴抽出による確率的ニューラルネットワークアルゴリズムは、98.01%の精度、97.12%の感度、95.87%の特異性、0.9812and AUC 0.95812のf値、データセットS1の精度、97.85%の精度、97.54%の感度、96.24%の特異性、0.9774とAUC 0.9803のデータセットS2のF値が得られた。 これらの優れた実験結果から、提案モデルは、学術研究および薬物設計関連応用分野において非常に有用なツールとなる。

Enzymes and proteins are live driven biochemicals, which has a dramatic impact over the environment, in which it is active. So, therefore, it is highly looked-for to build such a robust and highly accurate automatic and computational model to accurately predict enzymes nature. In this study, a novel split amino acid composition model named piSAAC is proposed. In this model, protein sequence is discretized in equal and balanced terminus to fully evaluate the intrinsic correlation properties of the sequence. Several state-of-the-art algorithms have been employed to evaluate the proposed model. A 10-folds cross-validation evaluation is used for finding out the authenticity and robust-ness of the model using different statistical measures e.g. Accuracy, sensitivity, specificity, F-measure and area un-der ROC curve. The experimental results show that, probabilistic neural network algorithm with piSAAC feature extraction yields an accuracy of 98.01%, sensitivity of 97.12%, specificity of 95.87%, f-measure of 0.9812and AUC 0.95812, over dataset S1, accuracy of 97.85%, sensitivity of 97.54%, specificity of 96.24%, f-measure of 0.9774 and AUC 0.9803 over dataset S2. Evident from these excellent empirical results, the proposed model would be a very useful tool for academic research and drug designing related application areas.
翻訳日:2021-05-06 12:16:25 公開日:2020-12-16
# (参考訳) 画像超解像の学習による品質評価

Learning-Based Quality Assessment for Image Super-Resolution ( http://arxiv.org/abs/2012.08732v1 )

ライセンス: CC BY 4.0
Tiesong Zhao, Yuting Lin, Yiwen Xu, Weiling Chen, Zhou Wang(参考訳) 画像超解像(SR)技術は、画像の空間分解能を高めて視覚品質を向上させる。 品質評価指標は、SRアルゴリズムの比較と最適化において重要な役割を果たすが、現在のメトリクスは、正確で堅牢なSR品質指標を学ぶのに不可欠な大規模な品質データベースが欠如していることから、限られた成功しか達成していない。 本研究では、まず、新しい半自動ラベリングアプローチを用いて、大規模なSR画像データベースを構築する。 SR-IQAデータベースの最大であるSemi-Automatic Ratings (SISAR)による結果のSR画像品質データベースには、100の自然シーンの8,400の画像が含まれている。 特徴抽出に2ストリームのDeep Neural Networks (DNN) を用いて、エンドツーエンドのDeep Image SR Quality (DISQ) モデルを訓練し、続いて品質予測のための機能融合ネットワークを訓練する。 実験結果から,提案手法は最先端のメトリクスよりも優れ,データベース間テストにおいて有望な一般化性能を実現することが示された。 SISARデータベースとdisQモデルは、再現可能な研究を促進するために公開されます。

Image Super-Resolution (SR) techniques improve visual quality by enhancing the spatial resolution of images. Quality evaluation metrics play a critical role in comparing and optimizing SR algorithms, but current metrics achieve only limited success, largely due to the lack of large-scale quality databases, which are essential for learning accurate and robust SR quality metrics. In this work, we first build a large-scale SR image database using a novel semi-automatic labeling approach, which allows us to label a large number of images with manageable human workload. The resulting SR Image quality database with Semi-Automatic Ratings (SISAR), so far the largest of SR-IQA database, contains 8,400 images of 100 natural scenes. We train an end-to-end Deep Image SR Quality (DISQ) model by employing two-stream Deep Neural Networks (DNNs) for feature extraction, followed by a feature fusion network for quality prediction. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics and achieves promising generalization performance in cross-database tests. The SISAR database and DISQ model will be made publicly available to facilitate reproducible research.
翻訳日:2021-05-06 12:07:34 公開日:2020-12-16
# (参考訳) プロジェクト管理における人工知能の最後の状況

The Last State of Artificial Intelligence in Project Management ( http://arxiv.org/abs/2012.12262v1 )

ライセンス: CC BY-SA 4.0
Mohammad Reza Davahli(参考訳) 人工知能(AI)は、教育、医療、金融など、さまざまな分野の発展に利用されてきた。 しかし、プロジェクトマネジメント(PM)分野におけるAIの適用は、等しく進展していない。 本稿では,PMにおけるAIの適用を調査するために使用される論文の体系的レビューについて報告する。 この体系的なレビューは、web of science、science direct、google scholar databaseを用いて関連論文を特定した。 652の論文のうち58が事前定義された基準を満たし、レビューに含まれていた。 追加の論文は、PM知識領域、PMプロセス、AIテクニックの3つに分類された。 その結果, プロジェクトステークホルダ管理, プロジェクト調達管理, プロジェクトコミュニケーション管理といったプロセスグループにおいて, PMにおけるAIの適用は初期段階にあり, 複数のPMプロセスにAIモデルは適用されていないことが明らかとなった。 しかしながら、論文の中で最も一般的なPMプロセスはプロジェクトの取り組み予測とコスト推定であり、最も人気のあるAI技術はベクトルマシン、ニューラルネットワーク、遺伝的アルゴリズムのサポートであった。

Artificial intelligence (AI) has been used to advance different fields, such as education, healthcare, and finance. However, the application of AI in the field of project management (PM) has not progressed equally. This paper reports on a systematic review of the published studies used to investigate the application of AI in PM. This systematic review identified relevant papers using Web of Science, Science Direct, and Google Scholar databases. Of the 652 articles found, 58 met the predefined criteria and were included in the review. Included papers were classified per the following dimensions: PM knowledge areas, PM processes, and AI techniques. The results indicated that the application of AI in PM was in its early stages and AI models have not applied for multiple PM processes especially in processes groups of project stakeholder management, project procurements management, and project communication management. However, the most popular PM processes among included papers were project effort prediction and cost estimation, and the most popular AI techniques were support vector machines, neural networks, and genetic algorithms.
翻訳日:2021-05-06 11:34:28 公開日:2020-12-16
# (参考訳) TikTokコメントデータセットに基づくドメイン固有辞書の構築

Building domain specific lexicon based on TikTok comment dataset ( http://arxiv.org/abs/2012.08773v1 )

ライセンス: CC BY 4.0
Hao Jiaxiang(参考訳) 感情分析タスクでは、文の感情傾向を予測することが重要な分野である。 従来の研究は、例えば、Valence、Arousal、Dominance of sentenceに基づく文の感情傾向の分析など、英語の感情分析に重点を置いていた。 感情的な傾向は 2つの言語で異なります 例えば、中国語と英語の文順は異なる感情を示すことがある。 本稿では,ドメイン固有辞書を構築する手法を試みた。 このように、モデルは感情的な傾向で中国語を分類することができる。 このアプローチでは,[13]に基づいて,中国語TikTokレビューと感情的語彙源(シード語)の単語埋め込みを通じて,超高密度空間埋め込みテーブルを訓練する。 モデルの結果はドメイン固有の語彙であり、単語の感情的な傾向を示す。 トレーニングデータとして中国のTikTokコメントを収集しました。 トレーニング結果とPCA法を比較して,中国語の感情分類におけるモデルの性能を評価することで,そのモデルが中国語でうまく機能したことを示す。 ソースコードがgithubでリリースされた。https://github.com/h2222/douyin_comment_dataset

In the sentiment analysis task, predicting the sentiment tendency of a sentence is an important branch. Previous research focused more on sentiment analysis in English, for example, analyzing the sentiment tendency of sentences based on Valence, Arousal, Dominance of sentences. the emotional tendency is different between the two languages. For example, the sentence order between Chinese and English may present different emotions. This paper tried a method that builds a domain-specific lexicon. In this way, the model can classify Chinese words with emotional tendency. In this approach, based on the [13], an ultra-dense space embedding table is trained through word embedding of Chinese TikTok review and emotional lexicon sources(seed words). The result of the model is a domain-specific lexicon, which presents the emotional tendency of words. I collected Chinese TikTok comments as training data. By comparing The training results with the PCA method to evaluate the performance of the model in Chinese sentiment classification, the results show that the model has done well in Chinese. The source code has released on github:https://github.com/h2222/douyin_comment_dataset
翻訳日:2021-05-06 10:53:50 公開日:2020-12-16
# (参考訳) コンピュータトモグラフィーによる3次元脳波ランドマークの自動識別

Automated 3D cephalometric landmark identification using computerized tomography ( http://arxiv.org/abs/2101.05205v1 )

ライセンス: CC BY 4.0
Hye Sun Yun, Chang Min Hyun, Seong Hyeon Baek, Sang-Hwy Lee, Jin Keun Seo(参考訳) 頭蓋骨の形状を代用する3次元頭蓋骨計測のランドマークの同定は、頭蓋骨計測の基本的なステップである。 3dct画像からの手動ランドマーク作成は、訓練された専門家にとっても面倒な作業なので、自動3dランドマーク検出システムは非常に必要です。 近年, 深層学習(DL)を用いた2次元脳波の自動的ランドマーク化は大きな成功を収めているが, 医療データの利用に関する倫理的制約により, 入力データの高次元性や学習量の制限といった機械学習を妨げる要因から, 80以上のランドマークを用いた3次元ランドマーク化は, まだ満足のいくレベルに達していない。 本稿では,匿名化ランドマークデータセットを利用した3次元ランドマーク作成のための半教師付きdl法を提案する。 提案手法は,まず少数の簡易参照ランドマークを検出し,それを用いて変分オートエンコーダ(vae)で学習した低次元表現を用いてランドマーク全体の大まかな推定を行う。 匿名化されたランドマークデータセットは、VAEのトレーニングに使用される。 最後に, 下顎骨と頭蓋骨に適した分離戦略を用いて, 粗さを推定した小さな境界箱に粗さ検出を適用した。 下顎のランドマークについて, パッチベースの3D CNNを下顎骨(上顎から分離した)の分割像に適用し, ランドマークに関連付けられた下顎骨の3次元形態的特徴を捉えた。 コンディル周辺の6つのランドマークは、互いに密接に関連しているため、1つずつではなく、一度に検出する。 頭蓋のランドマークについては、vaeベースの潜在表現をもっと正確なアノテーションとして使用します。 本実験では,90個のランドマークに対して平均2.91mmの3次元点間誤差を15対のトレーニングデータで達成した。

Identification of 3D cephalometric landmarks that serve as proxy to the shape of human skull is the fundamental step in cephalometric analysis. Since manual landmarking from 3D computed tomography (CT) images is a cumbersome task even for the trained experts, automatic 3D landmark detection system is in a great need. Recently, automatic landmarking of 2D cephalograms using deep learning (DL) has achieved great success, but 3D landmarking for more than 80 landmarks has not yet reached a satisfactory level, because of the factors hindering machine learning such as the high dimensionality of the input data and limited amount of training data due to ethical restrictions on the use of medical data. This paper presents a semi-supervised DL method for 3D landmarking that takes advantage of anonymized landmark dataset with paired CT data being removed. The proposed method first detects a small number of easy-to-find reference landmarks, then uses them to provide a rough estimation of the entire landmarks by utilizing the low dimensional representation learned by variational autoencoder (VAE). Anonymized landmark dataset is used for training the VAE. Finally, coarse-to-fine detection is applied to the small bounding box provided by rough estimation, using separate strategies suitable for mandible and cranium. For mandibular landmarks, patch-based 3D CNN is applied to the segmented image of the mandible (separated from the maxilla), in order to capture 3D morphological features of mandible associated with the landmarks. We detect 6 landmarks around the condyle all at once, instead of one by one, because they are closely related to each other. For cranial landmarks, we again use VAE-based latent representation for more accurate annotation. In our experiment, the proposed method achieved an averaged 3D point-to-point error of 2.91 mm for 90 landmarks only with 15 paired training data.
翻訳日:2021-05-06 10:42:18 公開日:2020-12-16
# (参考訳) 非言語ダイアドコミュニケーションにおける感情の影響の方向分析:顔表情研究

Analysing the Direction of Emotional Influence in Nonverbal Dyadic Communication: A Facial-Expression Study ( http://arxiv.org/abs/2012.08780v1 )

ライセンス: CC BY 4.0
Maha Shadaydeh, Lea Mueller, Dana Schneider, Martin Thuemmel, Thomas Kessler, Joachim Denzler(参考訳) ディヤド対話における感情的影響の方向性を特定することは、心理療法、政治的相互作用の分析、対人対立行動に応用される心理科学への興味を高めている。 表情は自動的であり、過剰な影響を及ぼさないと広く説明されている。 このように、社会的感情認知プロセスに関する意図しない行動の手がかりをよりよく理解するための完璧な尺度である。 そこで本研究では,表情のみに基づくダイアディック対話における感情的影響の方向分析について考察した。 コンピュータビジョンの能力と因果推論理論を用いて,対話における感情的影響,すなわち因果効果関係の方向に関する仮説の定量的検証を行う。 主な2つの問題に対処する。 まず、ダイアド対話において、感情的な影響は過渡的な時間間隔で起こり、時間とともに変化する強さと方向と共に起こる。 そこで本研究では,因果推論を適用すべき過渡区間を特定するために,因果推論に先立って使用する関連する区間選択手法を提案する。 第2に,強烈な顔の感情が見えなくなった場合に生じる,きめ細かい表情を用いることを提案する。 影響の方向を特定するために,グラガー因果関係の概念を,選択された関連区間における表情の時系列に適用する。 実験により得られたデータを用いて実験を行った。 感情的影響の方向に関する仮説を定量的に検証した結果,提案手法が最も有望であることを示すことができた。

Identifying the direction of emotional influence in a dyadic dialogue is of increasing interest in the psychological sciences with applications in psychotherapy, analysis of political interactions, or interpersonal conflict behavior. Facial expressions are widely described as being automatic and thus hard to overtly influence. As such, they are a perfect measure for a better understanding of unintentional behavior cues about social-emotional cognitive processes. With this view, this study is concerned with the analysis of the direction of emotional influence in dyadic dialogue based on facial expressions only. We exploit computer vision capabilities along with causal inference theory for quantitative verification of hypotheses on the direction of emotional influence, i.e., causal effect relationships, in dyadic dialogues. We address two main issues. First, in a dyadic dialogue, emotional influence occurs over transient time intervals and with intensity and direction that are variant over time. To this end, we propose a relevant interval selection approach that we use prior to causal inference to identify those transient intervals where causal inference should be applied. Second, we propose to use fine-grained facial expressions that are present when strong distinct facial emotions are not visible. To specify the direction of influence, we apply the concept of Granger causality to the time series of facial expressions over selected relevant intervals. We tested our approach on newly, experimentally obtained data. Based on the quantitative verification of hypotheses on the direction of emotional influence, we were able to show that the proposed approach is most promising to reveal the causal effect pattern in various instructed interaction conditions.
翻訳日:2021-05-06 10:22:53 公開日:2020-12-16
# (参考訳) 単元変換による$O( \max \{n_1, n_2 \}\log ( \max \{n_1, n_2 \} n_3) )$n_1 \times n_2 \times n_3$ Tensor Completion

On $O( \max \{n_1, n_2 \}\log ( \max \{ n_1, n_2 \} n_3) )$ Sample Entries for $n_1 \times n_2 \times n_3$ Tensor Completion via Unitary Transformation ( http://arxiv.org/abs/2012.08784v1 )

ライセンス: CC BY 4.0
Guang-Jing Song, Michael K. Ng and Xiongjun Zhang(参考訳) テンソル補完の重要な問題の1つは、回復保証に必要な一様ランダムなサンプルエントリの数である。 本論文の主な目的は、$n_1 \times n_2 \times n_3$ third-order tensor completion を研究し、$n_3$ low-rank $n_1$-by-$n_2$ matrix slices の非コヒーレンス条件を、$n_3$-dimension に沿ってユニタリ変換を適用した変換テンソル特異値分解の下で検討することである。 そのような低ランクテンソルは、ランダムに観測された成分の数が次数$O( r\max \{n_1, n_2 \} \log ( \max \{n_1, n_2 \} n_3))$である場合、高い確率で復元可能である。 合成データと画像データセットを用いて, 有効不整合条件下で理論結果が得られることを示すとともに, 提案手法のテンソル完了性能は, サンプルサイズ要件の観点からも既存の手法よりも優れていることを示した。

One of the key problems in tensor completion is the number of uniformly random sample entries required for recovery guarantee. The main aim of this paper is to study $n_1 \times n_2 \times n_3$ third-order tensor completion and investigate into incoherence conditions of $n_3$ low-rank $n_1$-by-$n_2$ matrix slices under the transformed tensor singular value decomposition where the unitary transformation is applied along $n_3$-dimension. We show that such low-rank tensors can be recovered exactly with high probability when the number of randomly observed entries is of order $O( r\max \{n_1, n_2 \} \log ( \max \{ n_1, n_2 \} n_3))$, where $r$ is the sum of the ranks of these $n_3$ matrix slices in the transformed tensor. By utilizing synthetic data and imaging data sets, we demonstrate that the theoretical result can be obtained under valid incoherence conditions, and the tensor completion performance of the proposed method is also better than that of existing methods in terms of sample sizes requirement.
翻訳日:2021-05-06 10:04:46 公開日:2020-12-16
# (参考訳) 生成逆ネットワーク上の潜在空間条件付け

Latent Space Conditioning on Generative Adversarial Networks ( http://arxiv.org/abs/2012.08803v1 )

ライセンス: CC BY 4.0
Ricard Durall, Kalun Ho, Franz-Josef Pfreundt and Janis Keuper(参考訳) 生成的逆ネットワークは、学習された合成画像生成に対する芸術的アプローチの現状である。 初期の成功は、ほとんど教師なしのものだったが、ラベル付きデータに基づくアプローチに取って代わられた。 これらの教師付き手法により、出力画像のよりきめ細かい制御が可能となり、柔軟性と安定性が向上する。 それでも、そのようなモデルの主な欠点は、注釈付きデータが必要であることである。 本研究では,敵対的学習と表現学習という2つの一般的な学習手法の恩恵を受ける新しい枠組みを導入し,教師なし条件付きGANへの一歩を踏み出した。 特に,提案手法は潜在空間の構造(表現学習によって学習される)を利用して生成モデルを条件付けする。 このようにして、条件とラベルの間の従来の依存関係を分解し、後者を潜在空間から来る教師なしの特徴に置き換える。 最後に,この新しい手法は,監視対象の品質を維持しながら,オンデマンドでサンプルを生成できることを実証する。

Generative adversarial networks are the state of the art approach towards learned synthetic image generation. Although early successes were mostly unsupervised, bit by bit, this trend has been superseded by approaches based on labelled data. These supervised methods allow a much finer-grained control of the output image, offering more flexibility and stability. Nevertheless, the main drawback of such models is the necessity of annotated data. In this work, we introduce an novel framework that benefits from two popular learning techniques, adversarial training and representation learning, and takes a step towards unsupervised conditional GANs. In particular, our approach exploits the structure of a latent space (learned by the representation learning) and employs it to condition the generative model. In this way, we break the traditional dependency between condition and label, substituting the latter by unsupervised features coming from the latent space. Finally, we show that this new technique is able to produce samples on demand keeping the quality of its supervised counterpart.
翻訳日:2021-05-06 09:11:54 公開日:2020-12-16
# (参考訳) 繰り返しニューラルネットワークと対向領域適応を用いたsEMGセンサデータからの連続ジェスチャー認識

Continuous Gesture Recognition from sEMG Sensor Data with Recurrent Neural Networks and Adversarial Domain Adaptation ( http://arxiv.org/abs/2012.08816v1 )

ライセンス: CC BY 4.0
Ivan Sosin, Daniel Kudenko, and Aleksei Shpilman(参考訳) 人工肢の運動制御は近年大きな進歩を遂げている。 新たなセンサと制御技術により、手足の機能と有用性が強化され、握りなどの複雑な動きを限られた範囲で行うことが可能になった。 これまで、最も成功した結果は、recurrent neural networks (rnn)を適用することで達成された。 しかし、人工手の分野では、これまでの実験は非移動式手首に限られており、義肢の機能を大幅に低下させる。 本稿では,携帯型手首と非モバイル型手首を用いたジェスチャー認識における経験的結果を初めて提示する。 さらに、腕の筋肉から電磁波を検知するアームバンド(表面筋電図またはsEMG)のデータに基づいて、ジェスチャー認識精度において、単純なリカレントユニット(SRU)によるリカレントニューラルネットワークが通常のRNNより優れていることを示す。 最後に,rnnを用いた連続的なジェスチャ認識にドメイン適応技術を加えることで,被験者間の伝達能力が向上することを示す。

Movement control of artificial limbs has made big advances in recent years. New sensor and control technology enhanced the functionality and usefulness of artificial limbs to the point that complex movements, such as grasping, can be performed to a limited extent. To date, the most successful results were achieved by applying recurrent neural networks (RNNs). However, in the domain of artificial hands, experiments so far were limited to non-mobile wrists, which significantly reduces the functionality of such prostheses. In this paper, for the first time, we present empirical results on gesture recognition with both mobile and non-mobile wrists. Furthermore, we demonstrate that recurrent neural networks with simple recurrent units (SRU) outperform regular RNNs in both cases in terms of gesture recognition accuracy, on data acquired by an arm band sensing electromagnetic signals from arm muscles (via surface electromyography or sEMG). Finally, we show that adding domain adaptation techniques to continuous gesture recognition with RNN improves the transfer ability between subjects, where a limb controller trained on data from one person is used for another person.
翻訳日:2021-05-06 08:59:28 公開日:2020-12-16
# (参考訳) 細胞内微小管ネットワークの顕微鏡画像を用いた細胞分類の深層学習

Deep Learning of Cell Classification using Microscope Images of Intracellular Microtubule Networks ( http://arxiv.org/abs/2012.12125v1 )

ライセンス: CC BY 4.0
Aleksei Shpilman, Dmitry Boikiy, Marina Polyakova, Daniel Kudenko, Anton Burakov and Elena Nadezhdina(参考訳) マイクロタブールネットワーク(MT)は、様々な化学物質の存在を示すことができる細胞の構成要素であり、治療抵抗性などの特性を認識するために用いられる。 したがって,MT画像の分類は細胞診断に極めて重要である。 ヒトの専門家は、細胞の化合物曝露のレベルを認識するのが特に難しいと考えている。 自動化技術による精度の向上は、細胞療法に大きな影響を与える。 本稿では, 深層学習をMT画像分類に適用し, 化学薬品に3度曝露した動物細胞の大規模なMT画像データセット上で評価する。 その結果、学習した深層ネットワークは、人間の専門家よりも、対応する細胞分類タスクにおいて同等以上の性能を発揮することが示された。 具体的には、異なるレベルの化学物質曝露を認識するタスクは、ニューラルネットワークによって人間の専門家よりはるかにうまく処理できることを示す。

Microtubule networks (MTs) are a component of a cell that may indicate the presence of various chemical compounds and can be used to recognize properties such as treatment resistance. Therefore, the classification of MT images is of great relevance for cell diagnostics. Human experts find it particularly difficult to recognize the levels of chemical compound exposure of a cell. Improving the accuracy with automated techniques would have a significant impact on cell therapy. In this paper we present the application of Deep Learning to MT image classification and evaluate it on a large MT image dataset of animal cells with three degrees of exposure to a chemical agent. The results demonstrate that the learned deep network performs on par or better at the corresponding cell classification task than human experts. Specifically, we show that the task of recognizing different levels of chemical agent exposure can be handled significantly better by the neural network than by human experts.
翻訳日:2021-05-06 08:51:11 公開日:2020-12-16
# (参考訳) 人群を通したロボットナビゲーションのための機械学習手法の比較評価

A comparative evaluation of machine learning methods for robot navigation through human crowds ( http://arxiv.org/abs/2012.08822v1 )

ライセンス: CC BY 4.0
Anastasia Gaydashenko, Daniel Kudenko, Aleksei Shpilman(参考訳) 群衆を通したロボットナビゲーションは、高速で効率的な動きをもたらすが、同時に安全性を損なうことは許されないため、AIシステムにとって難しい課題である。 これまでのほとんどのアプローチは、歩行者歩行予測のためのパスフィニングアルゴリズムと機械学習の組み合わせに焦点を当てていた。 近年,研究文献に強化学習技術が提案されている。 本稿では,ニューヨークのグランド・セントラル駅で撮影された監視映像から収集した群集運動データを用いて,パスファインディング・予測・強化学習手法の比較評価を行う。 その結果, パスフィンディングに対する最先端の強化学習手法と, 最先端の行動予測手法との強い優位性を示した。

Robot navigation through crowds poses a difficult challenge to AI systems, since the methods should result in fast and efficient movement but at the same time are not allowed to compromise safety. Most approaches to date were focused on the combination of pathfinding algorithms with machine learning for pedestrian walking prediction. More recently, reinforcement learning techniques have been proposed in the research literature. In this paper, we perform a comparative evaluation of pathfinding/prediction and reinforcement learning approaches on a crowd movement dataset collected from surveillance videos taken at Grand Central Station in New York. The results demonstrate the strong superiority of state-of-the-art reinforcement learning approaches over pathfinding with state-of-the-art behaviour prediction techniques.
翻訳日:2021-05-06 08:42:52 公開日:2020-12-16
# (参考訳) 映像データからの潜在的リワードシェーピングとデモによる実行学習

Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data ( http://arxiv.org/abs/2012.08824v1 )

ライセンス: CC BY 4.0
Aleksandra Malysheva, Daniel Kudenko, Aleksei Shpilman(参考訳) nips 2017の"learning to run"コンペティションで示されているように、ヒューマノイドロボットをスクラッチから効率的に動作させるための学習は難しい問題である。 この競技の目的は、最大速度でシミュレートされたレースコースを走るヒューマノイドボディの2本足のモデルを訓練することであった。 すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。 本稿では,人間の動画(例えば,動画)からのデータについて述べる。 youtubeから引用)は、ヒューマノイド学習エージェントの報酬を形作り、学習をスピードアップさせ、より良い結果を生み出すために使用できる。 具体的には、鍵体部分の位置を一定時間間隔で使用して、ポテンシャルベース報酬形成(PBRS)のポテンシャル関数を定義する。 PBRSは最適なポリシーを変更しないため、このアプローチにより、RLエージェントはビデオで示されている人間の動きの準最適性を克服することができる。 我々は,nipsコンペティションにおけるトップ10アプローチから選択した手法と,ベースラインとして高性能エージェントを作成するためのさらなる最適化を組み合わせる実験を行った。 そして、ビデオベースの報酬形成によってさらにパフォーマンスが向上し、12時間のトレーニングでベースラインの2倍の速度でRLエージェントが実行されることを示す。 さらに,本手法は,動画のランニングエージェントよりも学習ポリシーが優れており,映像の準最適ランニング動作を克服できることを示す。

Learning to produce efficient movement behaviour for humanoid robots from scratch is a hard problem, as has been illustrated by the "Learning to run" competition at NIPS 2017. The goal of this competition was to train a two-legged model of a humanoid body to run in a simulated race course with maximum speed. All submissions took a tabula rasa approach to reinforcement learning (RL) and were able to produce relatively fast, but not optimal running behaviour. In this paper, we demonstrate how data from videos of human running (e.g. taken from YouTube) can be used to shape the reward of the humanoid learning agent to speed up the learning and produce a better result. Specifically, we are using the positions of key body parts at regular time intervals to define a potential function for potential-based reward shaping (PBRS). Since PBRS does not change the optimal policy, this approach allows the RL agent to overcome sub-optimalities in the human movements that are shown in the videos. We present experiments in which we combine selected techniques from the top ten approaches from the NIPS competition with further optimizations to create an high-performing agent as a baseline. We then demonstrate how video-based reward shaping improves the performance further, resulting in an RL agent that runs twice as fast as the baseline in 12 hours of training. We furthermore show that our approach can overcome sub-optimal running behaviour in videos, with the learned policy significantly outperforming that of the running agent from the video.
翻訳日:2021-05-06 08:36:13 公開日:2020-12-16
# (参考訳) 生体エンティティリンクのための軽量ニューラルネットワークモデル

A Lightweight Neural Model for Biomedical Entity Linking ( http://arxiv.org/abs/2012.08844v1 )

ライセンス: CC BY 4.0
Lihu Chen, Ga\"el Varoquaux, Fabian M. Suchanek(参考訳) バイオメディカルエンティティリンク(biomedical entity link)は、病気や薬物などの生体医学的な言及を、与えられた知識ベースにおける標準的な実体にマッピングすることを目的としている。 この文脈における特定の課題は、同じ生物医学的実体が、同義語、形態的変異、異なる語順を持つ名前など、幅広い名前を持つことができることである。 近年,BERTに基づく手法は,単語列の表現をリッチにすることで最先端の手法が進歩している。 しかし、それらはしばしば数億のパラメータを持ち、重い計算リソースを必要とするため、リソース制限のシナリオでアプリケーションを制限する。 本稿では,bertモデルのパラメータのほんの一部しか必要とせず,計算資源もはるかに少ない生体エンティティリンクのための軽量ニューラルネットワークを提案する。 本手法では,アライメント層とアライメント機構を用いて参照とエンティティ名の違いをキャプチャする。 しかし,本モデルは,従来の標準評価ベンチマークと競合することを示した。

Biomedical entity linking aims to map biomedical mentions, such as diseases and drugs, to standard entities in a given knowledge base. The specific challenge in this context is that the same biomedical entity can have a wide range of names, including synonyms, morphological variations, and names with different word orderings. Recently, BERT-based methods have advanced the state-of-the-art by allowing for rich representations of word sequences. However, they often have hundreds of millions of parameters and require heavy computing resources, which limits their applications in resource-limited scenarios. Here, we propose a lightweight neural method for biomedical entity linking, which needs just a fraction of the parameters of a BERT model and much less computing resources. Our method uses a simple alignment layer with attention mechanisms to capture the variations between mention and entity names. Yet, we show that our model is competitive with previous work on standard evaluation benchmarks.
翻訳日:2021-05-06 08:27:07 公開日:2020-12-16
# (参考訳) 最適ニューラルネットワークの蒸留: 拡散空間における高速探索

Distilling Optimal Neural Networks: Rapid Search in Diverse Spaces ( http://arxiv.org/abs/2012.08859v1 )

ライセンス: CC BY 4.0
Bert Moons, Parham Noorzad, Andrii Skliar, Giovanni Mariani, Dushyant Mehta, Chris Lott, Tijmen Blankevoort(参考訳) DONNA(Distilling Optimal Neural Network Architectures)は、複数の異なるハードウェアプラットフォームとユーザシナリオをターゲットにした、高速なニューラルネットワーク検索と検索空間探索のための新しいパイプラインである。 DONNAでは、探索は3つのフェーズで構成される。 まず, ブロックワイド知識蒸留を用いて, 多様な探索空間に対して精度予測器を構築する。 この予測器は、レイヤタイプ、アテンション機構、チャネル幅などの様々なマクロアーキテクチャネットワークパラメータを探索し、ブロックリピート、カーネルサイズ、拡張レートなどのマイクロアーキテクチャパラメータを探索することができる。 第二に、急激な進化的探索フェーズは、予測器とデバイス上の測定値を用いて、あらゆるシナリオの精度とレイテンシの観点から、パレート最適化アーキテクチャの集合を見つける。 第3に、パレート最適モデルは、完全精度で迅速に微調整できる。 このアプローチでは、donnaは芸術の状態を上回っているアーキテクチャを見つける。 ImageNet分類では、DONNAが発見したアーキテクチャはNvidia V100 GPUのEfficientNet-B0やMobileNetV2より20%高速で、Samsung S20スマートフォンのMobileNetV2-1.4xより10%高速で0.5%高速である。 ニューラルネットワーク検索に加えて、DONNAは検索空間探索やハードウェア対応モデル圧縮にも使用されている。

This work presents DONNA (Distilling Optimal Neural Network Architectures), a novel pipeline for rapid neural architecture search and search space exploration, targeting multiple different hardware platforms and user scenarios. In DONNA, a search consists of three phases. First, an accuracy predictor is built for a diverse search space using blockwise knowledge distillation. This predictor enables searching across diverse macro-architectural network parameters such as layer types, attention mechanisms, and channel widths, as well as across micro-architectural parameters such as block repeats, kernel sizes, and expansion rates. Second, a rapid evolutionary search phase finds a Pareto-optimal set of architectures in terms of accuracy and latency for any scenario using the predictor and on-device measurements. Third, Pareto-optimal models can be quickly finetuned to full accuracy. With this approach, DONNA finds architectures that outperform the state of the art. In ImageNet classification, architectures found by DONNA are 20% faster than EfficientNet-B0 and MobileNetV2 on a Nvidia V100 GPU at similar accuracy and 10% faster with 0.5% higher accuracy than MobileNetV2-1.4x on a Samsung S20 smartphone. In addition to neural architecture search, DONNA is used for search-space exploration and hardware-aware model compression.
翻訳日:2021-05-06 08:12:43 公開日:2020-12-16
# (参考訳) 5G V2X通信におけるNLOSミリ波の機械学習アルゴリズム

Machine Learning Algorithm for NLOS Millimeter Wave in 5G V2X Communication ( http://arxiv.org/abs/2012.12123v1 )

ライセンス: CC BY 4.0
Deepika Mohan, G.G.Md.Nawaz Ali, Peter Han Joo Chong(参考訳) 自律・半自律運転のための5G車両間通信(V2X)は無線通信技術を利用しており、ミリ波帯はこの種の車載ネットワークアプリケーションで広く実装されている。 本研究の目的は,mmWave基地局からLOS(Line-of-sight)とNLOS(Non-LOS)の車両にメッセージを送信することである。 機械学習(RML)アルゴリズムを使用したリレーは、そのカバレッジ領域内のブロックを特定するためにmmBSをトレーニングし、LOSノードをリレーとしてNLOSの車両にメッセージをブロードキャストする。 情報伝送は高いスループットで高速化され、再利用される広い帯域幅をカバーしているため、NLOSのほとんどの車両は、mBSのカバー範囲内で機械学習を行うことができる。 NLOSの移動ノードと通信するために,独自のリレー機構と機械学習を組み合わせる方法を提案する。

The 5G vehicle-to-everything (V2X) communication for autonomous and semi-autonomous driving utilizes the wireless technology for communication and the Millimeter Wave bands are widely implemented in this kind of vehicular network application. The main purpose of this paper is to broadcast the messages from the mmWave Base Station to vehicles at LOS (Line-of-sight) and NLOS (Non-LOS). Relay using Machine Learning (RML) algorithm is formulated to train the mmBS for identifying the blockages within its coverage area and broadcast the messages to the vehicles at NLOS using a LOS nodes as a relay. The transmission of information is faster with higher throughput and it covers a wider bandwidth which is reused, therefore when performing machine learning within the coverage area of mmBS most of the vehicles in NLOS can be benefited. A unique method of relay mechanism combined with machine learning is proposed to communicate with mobile nodes at NLOS.
翻訳日:2021-05-06 07:48:11 公開日:2020-12-16
# (参考訳) 商品選択重量と逆順序割当に基づく旅行泥棒問題の解法

Solving the Travelling Thief Problem based on Item Selection Weight and Reverse Order Allocation ( http://arxiv.org/abs/2012.08888v1 )

ライセンス: CC BY 4.0
Lei Yang, Zitong Zhang, Xiaotian Jia, Peipei Kang, Wensheng Zhang, Dongya Wang(参考訳) トラベリング・ティーフ問題(TTP)は、多くの学者を惹きつける組合せ最適化問題である。 TTPは、トラベルセールスマン問題(TSP)と0-1クナップサック問題(KP)の2つのよく知られたNPハード問題を相互接続している。 2つの相互依存サブプロブレムを組み合わせた新しい問題の解法が提案されている。 本稿では,TTPを理論的,実証的に検討する。 提案手法は,提案手法によって算出されたスコア値に基づいて,スコア値に照らして,逆順にアイテムを並べ替える手法を提案する。 実験により,提案手法はベンチマークTTPインスタンスの総合的なセット上で,現在の最先端のヒューリスティックソリューションに適合あるいは打ち勝つ上で極めて効率的であることが示唆された。

The Travelling Thief Problem (TTP) is a challenging combinatorial optimization problem that attracts many scholars. The TTP interconnects two well-known NP-hard problems: the Travelling Salesman Problem (TSP) and the 0-1 Knapsack Problem (KP). Increasingly algorithms have been proposed for solving this novel problem that combines two interdependent sub-problems. In this paper, TTP is investigated theoretically and empirically. An algorithm based on the score value calculated by our proposed formulation in picking items and sorting items in the reverse order in the light of the scoring value is proposed to solve the problem. Different approaches for solving the TTP are compared and analyzed; the experimental investigations suggest that our proposed approach is very efficient in meeting or beating current state-of-the-art heuristic solutions on a comprehensive set of benchmark TTP instances.
翻訳日:2021-05-04 13:29:43 公開日:2020-12-16
# (参考訳) ReINTEL: ソーシャルネットワーク上での応答性情報識別のためのマルチモーダルデータチャレンジ

ReINTEL: A Multimodal Data Challenge for Responsible Information Identification on Social Network Sites ( http://arxiv.org/abs/2012.08895v1 )

ライセンス: CC BY 4.0
Duc-Trong Le, Xuan-Son Vu, Nhu-Dung To, Huu-Quang Nguyen, Thuy-Trinh Nguyen, Linh Le, Anh-Tuan Nguyen, Minh-Duc Hoang, Nghia Le, Huyen Nguyen and Hoang D. Nguyen(参考訳) 本稿では,ベトナム語・音声処理に関する第7回年次ワークショップ(VLSP 2020)で開催されているソーシャルネットワーク上でのReINTEL Shared Task for Responsible Information Identificationについて報告する。 各テキスト、ビジュアルコンテンツ、メタデータを含むニュースが与えられた場合、参加者はニュースが「信頼性」か「信頼できない」かを分類する必要がある。 公平なベンチマークを生成するために,ベトナムのソーシャルネットワークから収集された1万以上のニュースの,人間の注釈付きデータセットを紹介する。 全てのモデルは、分類の典型的な評価指標であるAUC-ROCスコアで評価される。 コンペはcodalabプラットフォームで行われた。 2ヶ月以内に60人以上の参加者を集め、1000人近い応募者を記録した。

This paper reports on the ReINTEL Shared Task for Responsible Information Identification on social network sites, which is hosted at the seventh annual workshop on Vietnamese Language and Speech Processing (VLSP 2020). Given a piece of news with respective textual, visual content and metadata, participants are required to classify whether the news is `reliable' or `unreliable'. In order to generate a fair benchmark, we introduce a novel human-annotated dataset of over 10,000 news collected from a social network in Vietnam. All models will be evaluated in terms of AUC-ROC score, a typical evaluation metric for classification. The competition was run on the Codalab platform. Within two months, the challenge has attracted over 60 participants and recorded nearly 1,000 submission entries.
翻訳日:2021-05-04 13:12:41 公開日:2020-12-16
# (参考訳) 統計的推論のためのパターン分類問題と一般線形モデルとの接続

A connection between the pattern classification problem and the General Linear Model for statistical inference ( http://arxiv.org/abs/2012.08903v1 )

ライセンス: CC BY 4.0
Juan Manuel Gorriz and SIPBA group and John Suckling(参考訳) 本稿では,一般線形モデル(GLM)と古典的統計的推論と機械学習(MLE)に基づく推論との接続について述べる。 第一に、glmパラメータの推定は、インジケータ行列の線形回帰モデル(lrm)、すなわち、観測を後退させる逆問題として表現される。 言い換えれば、どちらのアプローチもそうである。 GLM と LRM は異なる領域、観測領域、ラベル領域に適用され、最小二乗解の正規化値でリンクされる。 この関係から、より洗練された予測アルゴリズムに基づく統計的テスト、すなわち、導出する。 置換解析において、分離のクラスマージンを最大化する(非)線形サポートベクターマシン(svm)。 mleに基づく推論は、残差スコアを採用し、実際の(実)エラーのより良い推定を計算するための上限を含んでいる。 実験により,各モデルから導出したパラメータ推定が等価逆問題において異なる分類性能をもたらすことを示す。 さらに, 実データを用いて, モデルフリー推定器を含む置換試験における予測アルゴリズムは, I型誤差と統計的パワーとの間によいトレードオフを与えることができる。

A connection between the General Linear Model (GLM) in combination with classical statistical inference and the machine learning (MLE)-based inference is described in this paper. Firstly, the estimation of the GLM parameters is expressed as a Linear Regression Model (LRM) of an indicator matrix, that is, in terms of the inverse problem of regressing the observations. In other words, both approaches, i.e. GLM and LRM, apply to different domains, the observation and the label domains, and are linked by a normalization value at the least-squares solution. Subsequently, from this relationship we derive a statistical test based on a more refined predictive algorithm, i.e. the (non)linear Support Vector Machine (SVM) that maximizes the class margin of separation, within a permutation analysis. The MLE-based inference employs a residual score and includes the upper bound to compute a better estimation of the actual (real) error. Experimental results demonstrate how the parameter estimations derived from each model resulted in different classification performances in the equivalent inverse problem. Moreover, using real data the aforementioned predictive algorithms within permutation tests, including such model-free estimators, are able to provide a good trade-off between type I error and statistical power.
翻訳日:2021-05-04 13:11:50 公開日:2020-12-16
# (参考訳) r$^2$-net:文意味マッチングのための関係学習ネットワークの関係性

R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic Matching ( http://arxiv.org/abs/2012.08920v1 )

ライセンス: CC BY 4.0
Kun Zhang, Le Wu, Guangyi Lv, Meng Wang, Enhong Chen, Shulan Ruan(参考訳) 文の意味マッチングは自然言語処理における基本的なタスクの1つであり、エージェントは入力文間の意味関係を決定する必要がある。 近年、深層ニューラルネットワークはこの分野、特にBERTで顕著なパフォーマンスを達成している。 これらのモデルの有効性にもかかわらず、その多くは出力ラベルを意味のない1つのホットベクターとして扱い、それらのラベルが示す意味的情報や関係のガイダンスを過小評価している。 この問題を解決するために,文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。 具体的には、まずBERTを用いて、グローバルな視点から入力文を符号化する。 次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。 本稿では,関係情報の抽出にラベルを十分に活用するために,r2-netを誘導するための関係分類タスクの自己教師付き関係を導入する。 一方、より細かい粒度でクラス内およびクラス間関係を区別するために三重項損失が用いられる。 2文意味マッチングタスクの実証実験により,提案モデルの有効性が示された。 副産物として、我々は他の研究を促進するためのコードをリリースした。

Sentence semantic matching is one of the fundamental tasks in natural language processing, which requires an agent to determine the semantic relation among input sentences. Recently, deep neural networks have achieved impressive performance in this area, especially BERT. Despite the effectiveness of these models, most of them treat output labels as meaningless one-hot vectors, underestimating the semantic information and guidance of relations that these labels reveal, especially for tasks with a small number of labels. To address this problem, we propose a Relation of Relation Learning Network (R2-Net) for sentence semantic matching. Specifically, we first employ BERT to encode the input sentences from a global perspective. Then a CNN-based encoder is designed to capture keywords and phrase information from a local perspective. To fully leverage labels for better relation information extraction, we introduce a self-supervised relation of relation classification task for guiding R2-Net to consider more about labels. Meanwhile, a triplet loss is employed to distinguish the intra-class and inter-class relations in a finer granularity. Empirical experiments on two sentence semantic matching tasks demonstrate the superiority of our proposed model. As a byproduct, we have released the codes to facilitate other researches.
翻訳日:2021-05-04 12:56:59 公開日:2020-12-16
# (参考訳) 物理的不可避関数との秘密鍵合意 - 最適性の概要

Secret Key Agreement with Physical Unclonable Functions: An Optimality Summary ( http://arxiv.org/abs/2012.08924v1 )

ライセンス: CC BY 4.0
Onur G\"unl\"u and Rafael F. Schaefer(参考訳) 我々は、認証、識別、メッセージ暗号化/復号化、安全な計算のために秘密鍵が生成される情報理論的最適性の観点から、デジタルデバイスと生体認証のセキュリティとプライバシーの問題に対処する。 物理的非拘束機能(PUF)はデジタルデバイスにおけるローカルセキュリティのための有望なソリューションであり、このレビューは、最適なPUF構築に興味がある情報理論家、コーディング理論家、信号処理コミュニティメンバーに最も関連性の高い概要を提供する。 本稿では,情報理論解析のための変換符号化などの低複雑さ信号処理手法について論じる。 複数のPUF測定のためのシークレットキー、プライバシ推論、ストレージレートの最適なトレードオフが与えられる。 ベクトル量子化器と誤り訂正符号パラメータを共同で設計する最適符号構成を提案する。 これらの構成には、極符号や畳み込み符号のような近代的および代数的符号が含まれており、どちらも少数のPUF回路に対応する短いブロック長で小さなブロックエラー確率を達成することができる。 PUFの文献において、信号処理、情報理論、コーディング理論、ハードウェア複雑性の観点からのオープンな問題とその組み合わせは、ローカルプライバシとセキュリティの研究のさらなる進歩を促進するためにリストされている。

We address security and privacy problems for digital devices and biometrics from an information-theoretic optimality perspective, where a secret key is generated for authentication, identification, message encryption/decryption, or secure computations. A physical unclonable function (PUF) is a promising solution for local security in digital devices and this review gives the most relevant summary for information theorists, coding theorists, and signal processing community members who are interested in optimal PUF constructions. Low-complexity signal processing methods such as transform coding that are developed to make the information-theoretic analysis tractable are discussed. The optimal trade-offs between the secret-key, privacy-leakage, and storage rates for multiple PUF measurements are given. Proposed optimal code constructions that jointly design the vector quantizer and error-correction code parameters are listed. These constructions include modern and algebraic codes such as polar codes and convolutional codes, both of which can achieve small block-error probabilities at short block lengths, corresponding to a small number of PUF circuits. Open problems in the PUF literature from a signal processing, information theory, coding theory, and hardware complexity perspectives and their combinations are listed to stimulate further advancements in the research on local privacy and security.
翻訳日:2021-05-04 12:40:42 公開日:2020-12-16
# (参考訳) SimuGAN:LIDARカメラの教師なし前方モデリングと最適設計

SimuGAN: Unsupervised forward modeling and optimal design of a LIDAR Camera ( http://arxiv.org/abs/2012.08951v1 )

ライセンス: CC BY 4.0
Nir Diamant and Tal Mund and Ohad Menashe and Aviad Zabatani and Alex M. Bronstein(参考訳) 短距離用省エネルギーlidarカメラは、時間的強度符号化レーザ光パルスを用いて物体の距離を推定し、後方散乱パルスとの最大相関を計算する。 低電力では、バックス散乱パルスはノイズと不安定であり、不正確で信頼性の低い深さ推定に繋がる。 この問題に対処するために、私たちは2つのニューラルネットワークであるGAN(Generative Adversarial Networks)を使用します。 lidarカメラの隠れた特性と動作を学習し、カメラをシミュレートする新しい教師なしのフォワードモデルを作成しました。 次に,モデルの微分可能性を用いてカメラパラメータ空間を探索し,そのパラメータを深さ,精度,安定性の観点から最適化する。 また,この目的を達成するために,後方散乱コード分布の弱点とその円形挙動に指定された新たなカスタム損失関数を提案する。 結果は合成データと実データの両方で示される。

Energy-saving LIDAR camera for short distances estimates an object's distance using temporally intensity-coded laser light pulses and calculates the maximum correlation with the back-scattered pulse. Though on low power, the backs-scattered pulse is noisy and unstable, which leads to inaccurate and unreliable depth estimation. To address this problem, we use GANs (Generative Adversarial Networks), which are two neural networks that can learn complicated class distributions through an adversarial process. We learn the LIDAR camera's hidden properties and behavior, creating a novel, fully unsupervised forward model that simulates the camera. Then, we use the model's differentiability to explore the camera parameter space and optimize those parameters in terms of depth, accuracy, and stability. To achieve this goal, we also propose a new custom loss function designated to the back-scattered code distribution's weaknesses and its circular behavior. The results are demonstrated on both synthetic and real data.
翻訳日:2021-05-04 12:11:52 公開日:2020-12-16
# (参考訳) eコマースにおけるマルチスセナリオレコメンデーションのシナリオ認識と相互ベースアプローチ

Scenario-aware and Mutual-based approach for Multi-scenario Recommendation in E-Commerce ( http://arxiv.org/abs/2012.08952v1 )

ライセンス: CC BY 4.0
Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng and Lanfen Lin(参考訳) リコメンダシステム(RS)は、ユーザの膨大なニーズを満たすために、Eコマースプラットフォームにとって不可欠である。 ユーザの興味を捉えて、異質なeコマースシナリオでユーザに対して正確な推奨を行うには、依然として研究課題である。 プラットフォームから収集されたログデータは、自然に異なるシナリオ(例えば、国、都市、文化)に分割することができる。 シナリオが不均一であることは,両者の相違が大きいためである。 したがって、複数のシナリオ間の複雑な相関(例えば、相違点や類似点)を効果的に捉えるのが難しいため、推奨結果の精度が著しく低下する。 本稿では,eコマースにおけるマルチスセナリオ推薦の問題を対象とし,複数のシナリオ間の差異と類似性を活用した新しいシナリオ認識相互学習(saml)を提案する。 まず,組み込みモジュールとアテンションモジュールを変換して,機能をグローバルおよびシナリオ固有のサブスペースに並列にマップする,シナリオ認識機能表現を導入する。 次に,すべてのシナリオで共有知識をモデル化する補助ネットワークを導入し,マルチブランチネットワークを用いて特定のシナリオ間の差異をモデル化する。 最後に,様々なシナリオ間の類似性を適応的に学習し,マルチブランチネットワークに組み込むために,新たな相互ユニットを用いる。 公立および工業用両方のデータセットに対して広範な実験を行い、SAMLが一貫して、最先端の手法よりも著しく優れていることを示す実証実験を行った。

Recommender systems (RSs) are essential for e-commerce platforms to help meet the enormous needs of users. How to capture user interests and make accurate recommendations for users in heterogeneous e-commerce scenarios is still a continuous research topic. However, most existing studies overlook the intrinsic association of the scenarios: the log data collected from platforms can be naturally divided into different scenarios (e.g., country, city, culture). We observed that the scenarios are heterogeneous because of the huge differences among them. Therefore, a unified model is difficult to effectively capture complex correlations (e.g., differences and similarities) between multiple scenarios thus seriously reducing the accuracy of recommendation results. In this paper, we target the problem of multi-scenario recommendation in e-commerce, and propose a novel recommendation model named Scenario-aware Mutual Learning (SAML) that leverages the differences and similarities between multiple scenarios. We first introduce scenario-aware feature representation, which transforms the embedding and attention modules to map the features into both global and scenario-specific subspace in parallel. Then we introduce an auxiliary network to model the shared knowledge across all scenarios, and use a multi-branch network to model differences among specific scenarios. Finally, we employ a novel mutual unit to adaptively learn the similarity between various scenarios and incorporate it into multi-branch network. We conduct extensive experiments on both public and industrial datasets, empirical results show that SAML consistently and significantly outperforms state-of-the-art methods.
翻訳日:2021-05-04 12:00:50 公開日:2020-12-16
# (参考訳) 履歴依存マニピュレーションのための視覚的接地指導

Visually Grounding Instruction for History-Dependent Manipulation ( http://arxiv.org/abs/2012.08977v1 )

ライセンス: CC BY 4.0
Hyemin Ahn, Obin Kwon, Kyoungdo Kim, Dongheui Lee, Songhwai Oh(参考訳) 本稿では,ロボットのタスク履歴を参照する能力の重要性を強調する。 操作履歴を参照することの利点は、(1)詳細を省略する命令、または共参照式を使用する指示を解釈し、(2)以前の操作で無視されたオブジェクトの視覚情報を推測する2つの折り返しに分類することができる。 本稿では,タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。 また、ディープニューラルネットワークに基づく関連するデータセットと方法論を提案し、CycleGANに基づく合成スタイルに変換された画像に基づいて、合成データセットでトレーニングされたネットワークを現実世界に適用可能であることを示す。

This paper emphasizes the importance of robot's ability to refer its task history, when it executes a series of pick-and-place manipulations by following text instructions given one by one. The advantage of referring the manipulation history can be categorized into two folds: (1) the instructions omitting details or using co-referential expressions can be interpreted, and (2) the visual information of objects occluded by previous manipulations can be inferred. For this challenge, we introduce the task of history-dependent manipulation which is to visually ground a series of text instructions for proper manipulations depending on the task history. We also suggest a relevant dataset and a methodology based on the deep neural network, and show that our network trained with a synthetic dataset can be applied to the real world based on images transferred into synthetic-style based on the CycleGAN.
翻訳日:2021-05-04 11:46:28 公開日:2020-12-16
# (参考訳) AutoDis: CTR予測に数値的特徴を埋め込むための自動離散化

AutoDis: Automatic Discretization for Embedding Numerical Features in CTR Prediction ( http://arxiv.org/abs/2012.08986v1 )

ライセンス: CC BY 4.0
Huifeng Guo, Bo Chen, Ruiming Tang, Zhenguo Li, Xiuqiang He(参考訳) 高度な機能相互作用の学習は、推奨システムにおけるクリックスルーレート(CTR)予測に不可欠である。 様々な深いCTRモデルは、埋め込みとフィーチャーインタラクションのパラダイムに従います。 データと機能インタラクションモジュールのボトルネックとして機能する組み込みモジュールが見過ごされている一方で、機能インタラクションモジュールにおけるネットワークアーキテクチャの設計に重点が置かれている。 数値特徴埋め込みの一般的な方法は正規化と離散化である。 前者はフィールド内特徴に対する単一の埋め込みを共有し、後者は様々な離散化アプローチを通じて特徴を分類形式に変換する。 しかし、第1のアプローチサーファーは低容量であり、第2のアプローチサーファーはCTRモデルの究極のゴールで離散化ルールを最適化できないため、性能も制限する。 本稿では,数値的な特徴を表現するためのギャップを埋めるために,数値場の特徴を自動的に識別し,CTRモデルでエンドツーエンドに最適化するフレームワークであるAutoDisを提案する。 具体的には,フィールド内特徴間の関係をモデル化するメタエンベディングのセットを紹介し,数値特徴とメタエンベディングの相関を捉えるための自動微分可能離散化と集約手法を提案する。 SOTA法に対するAutoDisの有効性を検証するために,2つのパブリックデータセットと1つの産業データセットに関する総合的な実験を行った。

Learning sophisticated feature interactions is crucial for Click-Through Rate (CTR) prediction in recommender systems. Various deep CTR models follow an Embedding & Feature Interaction paradigm. The majority focus on designing network architectures in Feature Interaction module to better model feature interactions while the Embedding module, serving as a bottleneck between data and Feature Interaction module, has been overlooked. The common methods for numerical feature embedding are Normalization and Discretization. The former shares a single embedding for intra-field features and the latter transforms the features into categorical form through various discretization approaches. However, the first approach surfers from low capacity and the second one limits performance as well because the discretization rule cannot be optimized with the ultimate goal of CTR model. To fill the gap of representing numerical features, in this paper, we propose AutoDis, a framework that discretizes features in numerical fields automatically and is optimized with CTR models in an end-to-end manner. Specifically, we introduce a set of meta-embeddings for each numerical field to model the relationship among the intra-field features and propose an automatic differentiable discretization and aggregation approach to capture the correlations between the numerical features and meta-embeddings. Comprehensive experiments on two public and one industrial datasets are conducted to validate the effectiveness of AutoDis over the SOTA methods.
翻訳日:2021-05-04 11:32:21 公開日:2020-12-16
# (参考訳) LiveMap: 自動車エッジコンピューティングにおけるリアルタイム動的マップ

LiveMap: Real-Time Dynamic Map in Automotive Edge Computing ( http://arxiv.org/abs/2012.10252v1 )

ライセンス: CC BY 4.0
Qiang Liu, Tao Han, Jiang (Linda) Xie, BaekGyu Kim(参考訳) 自律運転は、視覚的閉塞や極端な天候といった様々な環境の不確実性の下で障害を受ける可能性のある環境を知覚するために、様々な視線センサーを必要とする。 運転安全性を向上させるため,自動車エッジコンピューティングネットワークにおいて,接続された車両間で知覚情報を無線で共有することを検討する。 しかし、動的ネットワーク条件と様々な計算ワークロードの下で、大量の知覚データをリアルタイムで共有することは困難である。 本稿では,道路上の物体を検出し,一致し,追跡するリアルタイム動的マップであるLiveMapを提案する。 オブジェクト検出,投影,特徴抽出,オブジェクトマッチングにより個々の車両データを効率的に処理し,複数車両からのオブジェクトとオブジェクトの組み合わせを効果的に統合するLiveMapのデータプレーンを開発した。 我々は,車載計算の適応的オフロードを可能にするLiveMapの制御プレーンを設計し,深部強化学習(DRL)技術に基づく車両のオフロード遅延を低減するインテリジェントな車両スケジューリングおよびオフロードアルゴリズムを開発した。 小型テストベッド上でLiveMapを実装し,大規模ネットワークシミュレータを開発した。 実験とシミュレーションの両方でLiveMapの性能を評価し,結果からベースラインソリューションよりも34.1%平均遅延を低減した。

Autonomous driving needs various line-of-sight sensors to perceive surroundings that could be impaired under diverse environment uncertainties such as visual occlusion and extreme weather. To improve driving safety, we explore to wirelessly share perception information among connected vehicles within automotive edge computing networks. Sharing massive perception data in real time, however, is challenging under dynamic networking conditions and varying computation workloads. In this paper, we propose LiveMap, a real-time dynamic map, that detects, matches, and tracks objects on the road with crowdsourcing data from connected vehicles in sub-second. We develop the data plane of LiveMap that efficiently processes individual vehicle data with object detection, projection, feature extraction, object matching, and effectively integrates objects from multiple vehicles with object combination. We design the control plane of LiveMap that allows adaptive offloading of vehicle computations, and develop an intelligent vehicle scheduling and offloading algorithm to reduce the offloading latency of vehicles based on deep reinforcement learning (DRL) techniques. We implement LiveMap on a small-scale testbed and develop a large-scale network simulator. We evaluate the performance of LiveMap with both experiments and simulations, and the results show LiveMap reduces 34.1% average latency than the baseline solution.
翻訳日:2021-05-04 11:17:16 公開日:2020-12-16
# (参考訳) 識別器から抽出したメタ知識を用いてニューロシンボリックアルゴリズムのインテント認識を改善する

Using Meta-Knowledge Mined from Identifiers to Improve Intent Recognition in Neuro-Symbolic Algorithms ( http://arxiv.org/abs/2012.09005v1 )

ライセンス: CC BY 4.0
Claudio Pinhanez, Paulo Cavalin, Victor Ribeiro, Heloisa Candello, Julio Nogima, Ana Appel, Mauro Pichiliani, Maira Gatti de Bayser, Melina Guerra, Henrique Ferreira, Gabriel Malfatti(参考訳) 本稿では,会話システムにおける意図認識を改善するために,意図識別子に埋め込まれたメタ知識の利用を検討する。 何千もの現実世界のチャットボットの分析や、プロのチャットボットキュレーターとのインタビューで証明されたように、開発者やドメインの専門家は、プロトタコノミを用いてチャットボットを識別することで、チャットボットの意図を整理する傾向にある。 神経シンボリックアルゴリズムを用いて, インテント表現を拡張するために, インテント認識の精度を向上させることができることを示す。 数百のプロのチャットボットからのインテントやサンプルの発話を含むデータセットでは、メタ知識を持たない同じアルゴリズムのベースラインと比較して、これらのアルゴリズムを適用すると、チャットボットのほぼ3分の1で、同じエラー率(eer)が10%以上向上しました。 メタ知識は、スコープ外発話の検出にさらに関連があることが判明し、チャットボットの約半数において、偽受け入れ率(FAR)を20%以上減少させた。 これらのシンボリックメタ知識構造は神経シンボリックアルゴリズムによって効果的に採掘・利用され、明らかに問題解決の高レベルな構造を学習プロセスに組み込むことによって実現されることが実証された。 これらの結果に基づき,神経シンボリックアルゴリズムにおける知識獲得の課題に対する答えとして,マイニングされたメタ知識の利用について検討する。

In this paper we explore the use of meta-knowledge embedded in intent identifiers to improve intent recognition in conversational systems. As evidenced by the analysis of thousands of real-world chatbots and in interviews with professional chatbot curators, developers and domain experts tend to organize the set of chatbot intents by identifying them using proto-taxonomies, i.e., meta-knowledge connecting high-level, symbolic concepts shared across different intents. By using neuro-symbolic algorithms able to incorporate such proto-taxonomies to expand intent representation, we show that such mined meta-knowledge can improve accuracy in intent recognition. In a dataset with intents and example utterances from hundreds of professional chatbots, we saw improvements of more than 10% in the equal error rate (EER) in almost a third of the chatbots when we apply those algorithms in comparison to a baseline of the same algorithms without the meta-knowledge. The meta-knowledge proved to be even more relevant in detecting out-of-scope utterances, decreasing the false acceptance rate (FAR) in more than 20\% in about half of the chatbots. The experiments demonstrate that such symbolic meta-knowledge structures can be effectively mined and used by neuro-symbolic algorithms, apparently by incorporating into the learning process higher-level structures of the problem being solved. Based on these results, we also discuss how the use of mined meta-knowledge can be an answer for the challenge of knowledge acquisition in neuro-symbolic algorithms.
翻訳日:2021-05-03 13:18:42 公開日:2020-12-16
# (参考訳) Diffeomorphism-Aware K-Meansによる解釈可能な画像クラスタリング

Interpretable Image Clustering via Diffeomorphism-Aware K-Means ( http://arxiv.org/abs/2012.09743v1 )

ライセンス: CC BY 4.0
Romain Cosentino, Randall Balestriero, Yanis Bahroun, Anirvan Sengupta, Richard Baraniuk, Behnaam Aazhang(参考訳) 画像多様体の非線形構造を考慮した解釈可能なクラスタリングアルゴリズムを設計する。 画像空間に適用した$k$-meansの解釈可能性を利用し,クラスタリング性能の問題に対処した。 具体的には,変形の一般的なクラスである微分同相写像(diffeomorphisms)を包含する画像とセントロイドの類似性の尺度を開発し,それらのクラスタリングを不変にする。 本研究は, 薄板スプライン補間法を応用し, 画像多様体を最もよく特徴づける微分同相写像を効率的に学習する。 大規模な数値シミュレーションにより,本手法は各種データセットの最先端手法と競合することが示された。

We design an interpretable clustering algorithm aware of the nonlinear structure of image manifolds. Our approach leverages the interpretability of $K$-means applied in the image space while addressing its clustering performance issues. Specifically, we develop a measure of similarity between images and centroids that encompasses a general class of deformations: diffeomorphisms, rendering the clustering invariant to them. Our work leverages the Thin-Plate Spline interpolation technique to efficiently learn diffeomorphisms best characterizing the image manifolds. Extensive numerical simulations show that our approach competes with state-of-the-art methods on various datasets.
翻訳日:2021-05-03 10:35:02 公開日:2020-12-16
# (参考訳) Segment CMR ソフトウェアを用いたディープラーニングによる心筋梗塞定量化の検討

Evaluation of deep learning-based myocardial infarction quantification using Segment CMR software ( http://arxiv.org/abs/2012.09070v1 )

ライセンス: CC BY 4.0
Olivier Rukundo(参考訳) 本稿では,Segment Cardiovascular magnetic resonance(CMR)ソフトウェアにおける深部学習を用いて,心筋梗塞(MI)の大きさの定量化の自動化に関する予備的作業を評価する。 ここでは, 予測最大化, 重み付け強度, セグメントcmrソフトウェアに組み込まれた事前情報 (ewa) アルゴリズムを用いて, mi サイズの自動定量化を行う前に, 深層学習を用いて心筋境界のセグメント化を自動化する。 MIの大きさを実験的に評価したところ, ネットワークを用いた結果の50%以上(平均梗塞傷量), 75%以上(平均梗塞量), 65%(平均微小血管閉塞率)は, 専門的記述に基づく結果とほぼ一致していた。 また、心筋輪郭と梗塞輪郭の可視化を含む実験では、選択されたスタックの全画像において、ネットワークと専門家による結果が、梗塞および梗塞輪郭の個数で関連付けられる。

In this paper, the author evaluates the preliminary work related to automating the quantification of the size of the myocardial infarction (MI) using deep learning in Segment cardiovascular magnetic resonance (CMR) software. Here, deep learning is used to automate the segmentation of myocardial boundaries before triggering the automatic quantification of the size of the MI using the expectation-maximization, weighted intensity, a priori information (EWA) algorithm incorporated in the Segment CMR software. Experimental evaluation of the size of the MI shows that more than 50 % (average infarct scar volume), 75% (average infarct scar percentage), and 65 % (average microvascular obstruction percentage) of the network-based results are approximately very close to the expert delineation-based results. Also, in an experiment involving the visualization of myocardial and infarct contours, in all images of the selected stack, the network and expert-based results tie in terms of the number of infarcted and contoured images.
翻訳日:2021-05-03 10:10:58 公開日:2020-12-16
# (参考訳) あなたがツイートしているもの:過去のツイートでユーザーをプロファイリングしてヘイトスピーチの検出を改善する

You Are What You Tweet: Profiling Users by Past Tweets to Improve Hate Speech Detection ( http://arxiv.org/abs/2012.09090v1 )

ライセンス: CC BY 4.0
Prateek Chaudhry and Matthew Lease(参考訳) ヘイトスピーチ検出の研究は、追加の文脈を使わずに、純粋にコンテンツベースの手法に重点を置いている。 我々はこの課題の定式化を簡潔に批判する。 次に,新しい発話がヘイトスピーチであるか否かを予測するために,過去の発話によるユーザを情報として調査する。 これを評価するために、Twitterのヘイトスピーチデータセットを3つ追加のタイムラインデータで拡張し、この追加コンテキストを強力なベースラインモデルに組み込む。 有望な結果はさらなる調査のメリットを示唆するが、分析はアノテーションのスキームやプロセスの違いやtwitter apiの制限、データ共有ポリシーによって複雑である。

Hate speech detection research has predominantly focused on purely content-based methods, without exploiting any additional context. We briefly critique pros and cons of this task formulation. We then investigate profiling users by their past utterances as an informative prior to better predict whether new utterances constitute hate speech. To evaluate this, we augment three Twitter hate speech datasets with additional timeline data, then embed this additional context into a strong baseline model. Promising results suggest merit for further investigation, though analysis is complicated by differences in annotation schemes and processes, as well as Twitter API limitations and data sharing policies.
翻訳日:2021-05-03 10:06:06 公開日:2020-12-16
# (参考訳) メトリクス学習によるディープラーニングの一般化予測 -- PGDL共有タスク

Predicting Generalization in Deep Learning via Metric Learning -- PGDL Shared task ( http://arxiv.org/abs/2012.09117v1 )

ライセンス: CC BY 4.0
Sebastian Me\v{z}nar and Bla\v{z} \v{S}krlj(参考訳) コンテスト "predicting generalization in deep learning (pgdl)" は、ディープラーニングモデルの一般化に関する厳密な研究のためのプラットフォームの提供と、これらのモデルの理解と説明の進展に関する洞察の提供を目的としている。 本報告では,コンペティションにおいて8位を獲得したユーザ \emph{smeznar} が提示した解を提案する。 提案手法では、単純なメトリクスを作成し、提供されたデータセット上での自動テストと最適な組み合わせを見つけ、入力ニューラルネットワークアーキテクチャの様々な特性の組み合わせが、それらの一般化の予測にどのように役立つかを検討する。

The competition "Predicting Generalization in Deep Learning (PGDL)" aims to provide a platform for rigorous study of generalization of deep learning models and offer insight into the progress of understanding and explaining these models. This report presents the solution that was submitted by the user \emph{smeznar} which achieved the eight place in the competition. In the proposed approach, we create simple metrics and find their best combination with automatic testing on the provided dataset, exploring how combinations of various properties of the input neural network architectures can be used for the prediction of their generalization.
翻訳日:2021-05-03 09:58:20 公開日:2020-12-16
# (参考訳) ソーシャルメディア上での自殺イデオロギー検出を改善するための個人知識グラフの構築と利用

Building and Using Personal Knowledge Graph to Improve Suicidal Ideation Detection on Social Media ( http://arxiv.org/abs/2012.09123v1 )

ライセンス: CC BY 4.0
Lei Cao, Huijun Zhang, and Ling Feng(参考訳) 多くの人々が自殺的な考えに苦しんでいます。 個人が自殺的な考えに苦しむ理由には、多くの原因がある。 自己表現、感情の解放、そして個人的な相互作用のための最も人気のあるプラットフォームとして、個人はソーシャルメディアに自殺的思考の多くの症状を示す可能性がある。 それでも、データと知識の両面からの課題は障害として残り、ソーシャルメディアベースの検出性能を制限している。 データの暗黙性と疎遠さは、自分の投稿に基づいて個人の内部の真意を発見するのを難しくする。 心理学的な研究に着想を得て,ソーシャルメディア上で自殺のイデオレーションを検出するために,深層ニューラルネットワークを用いた自殺指向の知識グラフを構築し,統合する。 さらに,個人の自殺イデオロギーに対する重要なリスク要因を明確化するために,二層注意機構を設計・構築する。 マイクロブログとredditのパフォーマンススタディによると、1)パーソナルナレッジグラフの構築により、ソーシャルメディアベースの自殺防止イデオレーション検出は93%以上の精度を達成でき、2)個人的要因、ポスト、パーソナリティ、経験の6つのカテゴリがトップ3の指標となっている。 これらのカテゴリでは、投稿されたテキスト、ストレスレベル、ストレス持続時間、投稿された画像、反響的な思考が自殺的思考の検出に寄与する。

A large number of individuals are suffering from suicidal ideation in the world. There are a number of causes behind why an individual might suffer from suicidal ideation. As the most popular platform for self-expression, emotion release, and personal interaction, individuals may exhibit a number of symptoms of suicidal ideation on social media. Nevertheless, challenges from both data and knowledge aspects remain as obstacles, constraining the social media-based detection performance. Data implicitness and sparsity make it difficult to discover the inner true intentions of individuals based on their posts. Inspired by psychological studies, we build and unify a high-level suicide-oriented knowledge graph with deep neural networks for suicidal ideation detection on social media. We further design a two-layered attention mechanism to explicitly reason and establish key risk factors to individual's suicidal ideation. The performance study on microblog and Reddit shows that: 1) with the constructed personal knowledge graph, the social media-based suicidal ideation detection can achieve over 93% accuracy; and 2) among the six categories of personal factors, post, personality, and experience are the top-3 key indicators. Under these categories, posted text, stress level, stress duration, posted image, and ruminant thinking contribute to one's suicidal ideation detection.
翻訳日:2021-05-03 09:54:07 公開日:2020-12-16
# (参考訳) autocaption: ニューラルネットワーク検索による画像キャプション

AutoCaption: Image Captioning with Neural Architecture Search ( http://arxiv.org/abs/2012.09742v1 )

ライセンス: CC BY 4.0
Xinxin Zhu and Weining Wang and Longteng Guo and Jing Liu(参考訳) 画像キャプションは複雑な視覚情報を抽象自然言語に変換し、コンピュータが世界を理解するのに役立ちます。 しかし、実際の環境の複雑さのため、キーオブジェクトを識別し、それらの接続を実現し、さらに自然言語を生成する必要がある。 プロセス全体は、視覚的理解モジュールと言語生成モジュールを含んでおり、他のタスクよりもディープニューラルネットワークの設計に多くの課題をもたらす。 neural architecture search (nas) は様々な画像認識タスクにおいて重要な役割を担っている。 さらに、RNNは画像キャプションタスクにおいて重要な役割を果たす。 画像キャプションのデコーダモジュールを設計するためにAutoCaptionメソッドを導入し、NASを使用してAutoRNNと呼ばれるデコーダモジュールを自動設計する。 本稿では,共有パラメータに基づく強化学習手法を用いてAutoRNNの自動設計を行う。 AutoCaptionの検索スペースには、レイヤとレイヤ内の操作の両方の接続が含まれており、AutoRNNがより多くのアーキテクチャを表現することができる。 特に、RNNは我々の検索空間のサブセットに相当する。 MSCOCOデータセットの実験から、私たちのAutoCaptionモデルは従来の手書き設計手法よりも優れたパフォーマンスを実現できます。 我々のAutoCaptionは、COCOカルパチーテスト分割で135.8%の最高のCIDEr性能を得る。 さらにアンサンブル技術を使用すると、CIDErは139.5%まで上昇する。

Image captioning transforms complex visual information into abstract natural language for representation, which can help computers understanding the world quickly. However, due to the complexity of the real environment, it needs to identify key objects and realize their connections, and further generate natural language. The whole process involves a visual understanding module and a language generation module, which brings more challenges to the design of deep neural networks than other tasks. Neural Architecture Search (NAS) has shown its important role in a variety of image recognition tasks. Besides, RNN plays an essential role in the image captioning task. We introduce a AutoCaption method to better design the decoder module of the image captioning where we use the NAS to design the decoder module called AutoRNN automatically. We use the reinforcement learning method based on shared parameters for automatic design the AutoRNN efficiently. The search space of the AutoCaption includes connections between the layers and the operations in layers both, and it can make AutoRNN express more architectures. In particular, RNN is equivalent to a subset of our search space. Experiments on the MSCOCO datasets show that our AutoCaption model can achieve better performance than traditional hand-design methods. Our AutoCaption obtains the best published CIDEr performance of 135.8% on COCO Karpathy test split. When further using ensemble technology, CIDEr is boosted up to 139.5%.
翻訳日:2021-05-03 09:22:29 公開日:2020-12-16
# (参考訳) 無線バーチャルリアリティ(VR)ネットワークのための学習ベース予測とアップリンク再送信

Learning-based Prediction and Uplink Retransmission for Wireless Virtual Reality (VR) Network ( http://arxiv.org/abs/2012.12725v1 )

ライセンス: CC BY 4.0
Xiaonan Liu and Xinyu Li and Yansha Deng(参考訳) ワイヤレスバーチャルリアリティ(VR)ユーザーはいつでもどこでも没入感のある体験を楽しめる。 しかし、vrインタラクションのレイテンシーが制限された状態で高品質な球形vrビデオを提供することは困難である。 事前にVRユーザの視点を予測することができれば、必要な視点のみをレンダリングして配信する必要があるため、VRインタラクションのレイテンシが減少する可能性がある。 そこで本稿では,オフラインおよびオンライン学習アルゴリズムを用いて,実際のvrデータセットを用いてvrユーザの視点を予測する。 オフライン学習アルゴリズムでは,トレーニングされた学習モデルを用いて,VRユーザの視点を連続的に予測する。 オンライン学習アルゴリズムでは、アップリンク送信によって提供されるVRユーザの実際の視点に基づいて、予測された視点と比較し、オンライン学習アルゴリズムのパラメータを更新して予測精度をさらに向上させる。 アップリンク伝送の信頼性を保証するため,提案するオンライン学習アルゴリズムにproactive retransmission schemeを統合する。 シミュレーションの結果,proactive retransmission schemeを用いたアップリンク無線vrネットワークのオンライン学習アルゴリズムは,約5%の予測誤差しか示さないことがわかった。

Wireless Virtual Reality (VR) users are able to enjoy immersive experience from anywhere at anytime. However, providing full spherical VR video with high quality under limited VR interaction latency is challenging. If the viewpoint of the VR user can be predicted in advance, only the required viewpoint is needed to be rendered and delivered, which can reduce the VR interaction latency. Therefore, in this paper, we use offline and online learning algorithms to predict viewpoint of the VR user using real VR dataset. For the offline learning algorithm, the trained learning model is directly used to predict the viewpoint of VR users in continuous time slots. While for the online learning algorithm, based on the VR user's actual viewpoint delivered through uplink transmission, we compare it with the predicted viewpoint and update the parameters of the online learning algorithm to further improve the prediction accuracy. To guarantee the reliability of the uplink transmission, we integrate the Proactive retransmission scheme into our proposed online learning algorithm. Simulation results show that our proposed online learning algorithm for uplink wireless VR network with the proactive retransmission scheme only exhibits about 5% prediction error.
翻訳日:2021-05-03 09:07:20 公開日:2020-12-16
# (参考訳) モデルベース強化学習のための高精度長期ダイナミクスの学習

Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning ( http://arxiv.org/abs/2012.09156v1 )

ライセンス: CC BY 4.0
Nathan O. Lambert, Albert Wilcox, Howard Zhang, Kristofer S. J. Pister, Roberto Calandra(参考訳) ロボットシステムのダイナミクスを正確に予測することは、モデルに基づく制御と強化学習に不可欠である。 ダイナミクスを推定する最も一般的な方法は、一段階の予測モデルに当てはめ、それを用いて長い地平線上の予測状態分布を再帰的に伝播させることである。 残念ながら、このアプローチは小さな予測誤差を複雑にすることで、長期的な予測が不正確なことが知られている。 本稿では,より長い地平線で安定に予測するために,状態行動データの教師付き学習を行うための新しいパラメータ化を提案する。 この軌道ベースモデルでは、初期状態、将来の時間指標、およびパラメータを入力として制御し、将来の状態を予測する。 シミュレーションおよび実験によるロボット作業の結果、軌道に基づくモデルにより、より正確な長期予測、サンプル効率の向上、タスク報酬予測能力が得られることが示された。

Accurately predicting the dynamics of robotic systems is crucial for model-based control and reinforcement learning. The most common way to estimate dynamics is by fitting a one-step ahead prediction model and using it to recursively propagate the predicted state distribution over long horizons. Unfortunately, this approach is known to compound even small prediction errors, making long-term predictions inaccurate. In this paper, we propose a new parametrization to supervised learning on state-action data to stably predict at longer horizons -- that we call a trajectory-based model. This trajectory-based model takes an initial state, a future time index, and control parameters as inputs, and predicts the state at the future time. Our results in simulated and experimental robotic tasks show that our trajectory-based models yield significantly more accurate long term predictions, improved sample efficiency, and ability to predict task reward.
翻訳日:2021-05-03 08:49:10 公開日:2020-12-16
# (参考訳) 反復線形最適化によるクラスタリング

Clustering with Iterated Linear Optimization ( http://arxiv.org/abs/2012.09202v1 )

ライセンス: CC BY 4.0
Pedro Felzenszwalb, Caroline Klivans, Alice Paul(参考訳) 我々は、Max k-Cut問題の半定値プログラミング(SDP)緩和を用いたクラスタリングの新しい手法を提案する。 このアプローチは、反復線形最適化を用いてSDPの解を丸める新しい手法に基づいている。 我々は、Max k-Cut SDP緩和の頂点がデータの分割に対応していることを示す。 また、頂点は反復線形最適化の魅力的な固定点であることを示す。 直近の頂点問題の繰り返し緩和として線形最適化を用いて固定点反復の過程を解釈する。 実験の結果, Max k-Cut SDP の緩和に固定点反復を用いると, ランダム化ラウンドリングに比べて有意に良好な結果が得られた。

We introduce a novel method for clustering using a semidefinite programming (SDP) relaxation of the Max k-Cut problem. The approach is based on a new methodology for rounding the solution of an SDP using iterated linear optimization. We show the vertices of the Max k-Cut SDP relaxation correspond to partitions of the data into at most k sets. We also show the vertices are attractive fixed points of iterated linear optimization. We interpret the process of fixed point iteration with linear optimization as repeated relaxations of the closest vertex problem. Our experiments show that using fixed point iteration for rounding the Max k-Cut SDP relaxation leads to significantly better results when compared to randomized rounding.
翻訳日:2021-05-03 08:29:51 公開日:2020-12-16
# (参考訳) MELINDA: 生体実験法分類のためのマルチモーダルデータセット

MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification ( http://arxiv.org/abs/2012.09216v1 )

ライセンス: CC BY 4.0
Te-Lin Wu, Shikhar Singh, Sayan Paul, Gully Burns, Nanyun Peng(参考訳) 我々はMELINDA(Multimodal biomEdicaL experImeNt methoD clAssification)を導入した。 データセットを完全自動化された遠隔監視方法で収集し、既存のキュレートされたデータベースからラベルを取得し、データベース内の各レコードに関連付けられた論文から実際の内容を抽出する。 我々は、字幕テキストまたは画像のみを入力とするユニモーダルモデルやマルチモーダルモデルを含む、最先端のnlpおよびコンピュータビジョンモデルをベンチマークする。 広範な実験と分析により、マルチモーダルモデルはユニモーダルモデルよりも優れていても、特に言語で視覚的概念を接地する教師の少ない方法や、リソースの少ないドメインへの転送性の向上において、改善が必要であることが示された。 我々は,マルチモーダル学習の今後の研究を促進するために,データセットとベンチマークを公開し,特に科学的分野の応用を目標とする改善を動機づける。

We introduce a new dataset, MELINDA, for Multimodal biomEdicaL experImeNt methoD clAssification. The dataset is collected in a fully automated distant supervision manner, where the labels are obtained from an existing curated database, and the actual contents are extracted from papers associated with each of the records in the database. We benchmark various state-of-the-art NLP and computer vision models, including unimodal models which only take either caption texts or images as inputs, and multimodal models. Extensive experiments and analysis show that multimodal models, despite outperforming unimodal ones, still need improvements especially on a less-supervised way of grounding visual concepts with languages, and better transferability to low resource domains. We release our dataset and the benchmarks to facilitate future research in multimodal learning, especially to motivate targeted improvements for applications in scientific domains.
翻訳日:2021-05-03 08:18:41 公開日:2020-12-16
# (参考訳) learning-num: 未知のユーティリティ関数と待ち行列遅延によるネットワークユーティリティ最大化

Learning-NUM: Network Utility Maximization with Unknown Utility Functions and Queueing Delay ( http://arxiv.org/abs/2012.09222v1 )

ライセンス: CC BY 4.0
Xinzhe Fu, Eytan Modiano(参考訳) ネットワーク利用度最大化(NUM)は、ネットワークリソースの制約を受けるユーザの全ユーティリティを最大化するために、トラフィックレートをネットワークユーザに割り当てる問題を研究する。 本稿では,NUMフレームワークであるLearning-NUMを提案する。これは,ユーザのユーティリティ関数が未知のアプリオリであり,対応するトラフィックが目的地に配信された後にのみ,トラフィックレートのユーティリティ関数値が観測可能であるため,ユーティリティフィードバックが‘textit{queueing delay} を体験できることを意味する。 目的は、ユーティリティ関数を徐々に学習し、有限時間地平線上で得られた全ユーティリティを最大化するために、レート割り当てとネットワークスケジューリング/ルーティング決定を行うポリシーを設計することである。 未知の効用関数や確率的制約に加えて、我々の問題の中心的な課題は観測の待ち行列遅延であり、これは無制限でありポリシーの決定に依存する可能性がある。 まず,最善の動的ポリシによって得られる期待総ユーティリティは,静的最適化問題に対する解によって上限されることを示す。 フィードバック遅延がなければ,勾配推定と最大重み付けスケジューリングのアイデアに基づくアルゴリズムを設計する。 フィードバック遅延に対処するため、並列インスタンスパラダイムにアルゴリズムを組み込み、$\tilde{O}(T^{3/4})$-regret、すなわち、最高の動的ポリシーによって得られる期待ユーティリティとポリシーとの差を$\tilde{O}(T^{3/4})$とする。 最後に,learning-numフレームワークの実用性を示すために,データベースクエリ,ジョブスケジューリング,ビデオストリーミングという3つのアプリケーションシナリオに適用した。 さらに,本政策の実証的性能を評価するために,ジョブスケジューリングアプリケーション上でシミュレーションを行う。

Network Utility Maximization (NUM) studies the problems of allocating traffic rates to network users in order to maximize the users' total utility subject to network resource constraints. In this paper, we propose a new NUM framework, Learning-NUM, where the users' utility functions are unknown apriori and the utility function values of the traffic rates can be observed only after the corresponding traffic is delivered to the destination, which means that the utility feedback experiences \textit{queueing delay}. The goal is to design a policy that gradually learns the utility functions and makes rate allocation and network scheduling/routing decisions so as to maximize the total utility obtained over a finite time horizon $T$. In addition to unknown utility functions and stochastic constraints, a central challenge of our problem lies in the queueing delay of the observations, which may be unbounded and depends on the decisions of the policy. We first show that the expected total utility obtained by the best dynamic policy is upper bounded by the solution to a static optimization problem. Without the presence of feedback delay, we design an algorithm based on the ideas of gradient estimation and Max-Weight scheduling. To handle the feedback delay, we embed the algorithm in a parallel-instance paradigm to form a policy that achieves $\tilde{O}(T^{3/4})$-regret, i.e., the difference between the expected utility obtained by the best dynamic policy and our policy is in $\tilde{O}(T^{3/4})$. Finally, to demonstrate the practical applicability of the Learning-NUM framework, we apply it to three application scenarios including database query, job scheduling and video streaming. We further conduct simulations on the job scheduling application to evaluate the empirical performance of our policy.
翻訳日:2021-05-03 07:49:54 公開日:2020-12-16
# (参考訳) ベクトルガウス混合モデルに対する最適輸送

Optimal transport for vector Gaussian mixture models ( http://arxiv.org/abs/2012.09226v1 )

ライセンス: CC BY 4.0
Jiening Zhu, Kaiming Xu, Allen Tannenbaum(参考訳) ベクトルガウス混合モデルはベクトル値分布の重要な特殊部分集合を形成する。 与えられた空間に分布する別の表現を変更または遷移できる任意の物理的実体は、このカテゴリに該当する。 主な例はカラー画像である。 本稿では,ガウス混合モデルをベクトル化し,そのようなモデルに対する最適物質輸送関連問題を考察する。 最適物質輸送にベクトルガウス混合を用いる利点は、計算効率と構造を保存する能力である。

Vector Gaussian mixture models form an important special subset of vector-valued distributions. Any physical entity that can mutate or transit among alternative manifestations distributed in a given space falls into this category. A key example is color imagery. In this note, we vectorize the Gaussian mixture model and study different optimal mass transport related problems for such models. The benefits of using vector Gaussian mixture for optimal mass transport include computational efficiency and the ability to preserve structure.
翻訳日:2021-05-03 07:19:00 公開日:2020-12-16
# (参考訳) S3CNet:LiDARポイントクラウドのためのスパースセマンティックシーンコンプリートネットワーク

S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point Clouds ( http://arxiv.org/abs/2012.09242v1 )

ライセンス: CC BY 4.0
Ran Cheng, Christopher Agia, Yuan Ren, Xinhai Li, Liu Bingbing(参考訳) 自動運転車や類似のロボットシステムが堅牢な3Dビジョンに依存しているため、深い畳み込みニューラルネットワークによるLiDARスキャンの処理は、アカデミックや産業でもトレンドになっている。 密集した3d構造と関連する意味ラベルを「スパース」表現から推論する、難易度の高いセマンティックシーン補完タスクの以前の試みは、密集点雲や密集深度マップがrgb画像からのセマンティックセグメンテーションマップと融合する場合に、ある程度屋内の小さなシーンでうまくいった。 しかし, 動的かつ指数関数的にスパルサー条件を特徴とする大規模屋外シーンに適用すると, これらのシステムの性能は大幅に低下する。 同様に、sparseボリューム全体の処理はメモリの制限や回避策によって実現不可能となり、全体的なボリュームを複数の等しいセグメントに分割し、個別に推測せざるを得なくなり、リアルタイムパフォーマンスが不可能になるため、計算効率が低下する。 本研究では,大規模環境の疎結合性を仮定した手法を定式化し,単一のlidar点クラウドから意味的に完結したシーンを予測する疎畳み型ニューラルネットワークs3cnetを提案する。 提案手法は,SemanticKITTIベンチマークを用いて,3次元課題における全ての課題に優れることを示す。 さらに,3次元ネットワークを補完する多視点融合戦略を備えたS3CNetの2次元変種を提案する。 2Dセマンティックシーン完了タスクの実験を行い、2つのオープンソースデータセット上での鳥の目視分割に適応したいくつかの主要なLiDARセグメンテーションモデルと比較した。

With the increasing reliance of self-driving and similar robotic systems on robust 3D vision, the processing of LiDAR scans with deep convolutional neural networks has become a trend in academia and industry alike. Prior attempts on the challenging Semantic Scene Completion task - which entails the inference of dense 3D structure and associated semantic labels from "sparse" representations - have been, to a degree, successful in small indoor scenes when provided with dense point clouds or dense depth maps often fused with semantic segmentation maps from RGB images. However, the performance of these systems drop drastically when applied to large outdoor scenes characterized by dynamic and exponentially sparser conditions. Likewise, processing of the entire sparse volume becomes infeasible due to memory limitations and workarounds introduce computational inefficiency as practitioners are forced to divide the overall volume into multiple equal segments and infer on each individually, rendering real-time performance impossible. In this work, we formulate a method that subsumes the sparsity of large-scale environments and present S3CNet, a sparse convolution based neural network that predicts the semantically completed scene from a single, unified LiDAR point cloud. We show that our proposed method outperforms all counterparts on the 3D task, achieving state-of-the art results on the SemanticKITTI benchmark. Furthermore, we propose a 2D variant of S3CNet with a multi-view fusion strategy to complement our 3D network, providing robustness to occlusions and extreme sparsity in distant regions. We conduct experiments for the 2D semantic scene completion task and compare the results of our sparse 2D network against several leading LiDAR segmentation models adapted for bird's eye view segmentation on two open-source datasets.
翻訳日:2021-05-03 07:01:30 公開日:2020-12-16
# (参考訳) ISD:反復的類似度蒸留による自己指導型学習

ISD: Self-Supervised Learning by Iterative Similarity Distillation ( http://arxiv.org/abs/2012.09259v1 )

ライセンス: CC BY 4.0
Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Vipin Pillai, Paolo Favaro, and Hamed Pirsiavash(参考訳) 近年、コントラスト学習は、画像(正のペア)を他のランダムな画像(負のペア)よりも2つ増やすという、自己教師付き学習において大きな成果を上げている。 すべてのランダムな画像が等しくないと主張する。 そこで我々は,正対と負対の2値差ではなく,負像にソフトな類似性を用いる自己教師付き学習アルゴリズムを導入する。 質問画像とランダムな画像との類似性を捉え、その知識を学生に伝達することにより、ゆっくりと進化する教師モデルを学生モデルに反復蒸留する。 提案手法は最近のコントラスト学習法に比べて制約が少ないため,より優れた特徴を学習することができる。 具体的には、ランダムに選択された負集合は、クエリ画像と意味的に類似する多くのサンプルを含む可能性があるため、既存のコントラスト学習法よりも不均衡でラベルなしのデータを扱うべきである。 この場合,本手法は非常に類似度が高いが,標準コントラスト法では負のペアとラベル付けする。 転送学習におけるBYOLやMoCoといった最先端モデルと比較すると,より優れた結果が得られる。 また,ラベルのないデータがバランスの取れない環境では,本手法が優れていることを示す。 私たちのコードは、https://github.com/UMBCvision/ISD.comで利用可能です。

Recently, contrastive learning has achieved great results in self-supervised learning, where the main idea is to push two augmentations of an image (positive pairs) closer compared to other random images (negative pairs). We argue that not all random images are equal. Hence, we introduce a self supervised learning algorithm where we use a soft similarity for the negative images rather than a binary distinction between positive and negative pairs. We iteratively distill a slowly evolving teacher model to the student model by capturing the similarity of a query image to some random images and transferring that knowledge to the student. We argue that our method is less constrained compared to recent contrastive learning methods, so it can learn better features. Specifically, our method should handle unbalanced and unlabeled data better than existing contrastive learning methods, because the randomly chosen negative set might include many samples that are semantically similar to the query image. In this case, our method labels them as highly similar while standard contrastive methods label them as negative pairs. Our method achieves better results compared to state-of-the-art models like BYOL and MoCo on transfer learning settings. We also show that our method performs better in the settings where the unlabeled data is unbalanced. Our code is available here: https://github.com/UMBCvision/ISD.
翻訳日:2021-05-03 06:23:08 公開日:2020-12-16
# (参考訳) マルチオーガンセグメンテーションのための空間文脈認識自己照準モデル

Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation ( http://arxiv.org/abs/2012.09279v1 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Kun Han, Shanlin Sun, Narisu Bai, Xuming Chen, Huang Qian, Yong Liu, Xiaohui Xie(参考訳) 医用画像解析における深層学習の最も成功した応用の1つである。 深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。 最先端のcnnセグメンテーションモデルでは、入力画像に2dまたは3dの畳み込みを適用でき、2d畳み込みは高速であり、メモリ集約性が低いが、ボリューム画像から3dコンテキスト情報を抽出するには不十分である。 3D CNNモデルをCTまたはMRI画像のコモディティGPUに適合させるためには、通常、入力イメージをダウンサンプルするか、収穫した局所領域を入力として使用する必要がある。 本研究では,高分解能2次元畳み込みによってセグメンテーションを実現するが,低分解能3次元モデルから抽出した空間的文脈情報に導かれる3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。 2dセグメンテーションのガイドに使用する3d機能を制御するためのセルフアテンション機構を実装した。 我々のモデルはメモリ使用量に重点を置いているが、3Dコンテキスト情報を考慮に入れている。 複数の臓器セグメンテーションデータセットを用いた実験により,2dモデルと3dモデルの両方を利用することで,既存の2dモデルと3dモデルとを,臓器セグメンテーション精度で一貫して上回っており,しかも全ボリューム画像データを入力として直接取得できることを示した。

Multi-organ segmentation is one of most successful applications of deep learning in medical image analysis. Deep convolutional neural nets (CNNs) have shown great promise in achieving clinically applicable image segmentation performance on CT or MRI images. State-of-the-art CNN segmentation models apply either 2D or 3D convolutions on input images, with pros and cons associated with each method: 2D convolution is fast, less memory-intensive but inadequate for extracting 3D contextual information from volumetric images, while the opposite is true for 3D convolution. To fit a 3D CNN model on CT or MRI images on commodity GPUs, one usually has to either downsample input images or use cropped local regions as inputs, which limits the utility of 3D models for multi-organ segmentation. In this work, we propose a new framework for combining 3D and 2D models, in which the segmentation is realized through high-resolution 2D convolutions, but guided by spatial contextual information extracted from a low-resolution 3D model. We implement a self-attention mechanism to control which 3D features should be used to guide 2D segmentation. Our model is light on memory usage but fully equipped to take 3D contextual information into account. Experiments on multiple organ segmentation datasets demonstrate that by taking advantage of both 2D and 3D models, our method is consistently outperforms existing 2D and 3D models in organ segmentation accuracy, while being able to directly take raw whole-volume image data as inputs.
翻訳日:2021-05-03 05:39:36 公開日:2020-12-16
# (参考訳) 深層学習ATRにおけるデータ拡張のためのスパース信号モデル

Sparse Signal Models for Data Augmentation in Deep Learning ATR ( http://arxiv.org/abs/2012.09284v1 )

ライセンス: CC BY 4.0
Tushar Agarwal, Nithin Sugavanam and Emre Ertin(参考訳) 自動ターゲット認識(ATR)アルゴリズムは、与えられた合成開口レーダ(SAR)画像を、各クラスで利用可能なトレーニングイメージのセットを使用して、既知のターゲットクラスの1つに分類する。 近年,十分なトレーニングデータが利用可能で,クラスやポーズ上で一様にサンプリングされた場合,最先端の分類精度を実現する学習手法が提案されている。 本稿では,限られた訓練画像を用いたATRの課題について考察する。 本稿では,畳み込みニューラルネットワーク(CNN)のようなデータ集約学習アルゴリズムの一般化能力を向上させるために,ドメイン知識を取り入れたデータ拡張手法を提案する。 提案手法は,広角合成開口レーダ(sar)画像の共通観測特性を活かした,永続性スパースモデリング手法を採用している。 具体的には,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を利用して,過パラメータモデルフィッティングの不適切な問題を解く。 この推定モデルを用いて、与えられたデータでは使用できないポーズとサブピクセルの翻訳で新しい画像を合成し、cnnのトレーニングデータを強化する。 実験結果から, トレーニングデータ飢餓領域において, 提案手法は, ATRアルゴリズムの一般化性能において有意な向上をもたらすことが示された。

Automatic Target Recognition (ATR) algorithms classify a given Synthetic Aperture Radar (SAR) image into one of the known target classes using a set of training images available for each class. Recently, learning methods have shown to achieve state-of-the-art classification accuracy if abundant training data is available, sampled uniformly over the classes, and their poses. In this paper, we consider the task of ATR with a limited set of training images. We propose a data augmentation approach to incorporate domain knowledge and improve the generalization power of a data-intensive learning algorithm, such as a Convolutional neural network (CNN). The proposed data augmentation method employs a limited persistence sparse modeling approach, capitalizing on commonly observed characteristics of wide-angle synthetic aperture radar (SAR) imagery. Specifically, we exploit the sparsity of the scattering centers in the spatial domain and the smoothly-varying structure of the scattering coefficients in the azimuthal domain to solve the ill-posed problem of over-parametrized model fitting. Using this estimated model, we synthesize new images at poses and sub-pixel translations not available in the given data to augment CNN's training data. The experimental results show that for the training data starved region, the proposed method provides a significant gain in the resulting ATR algorithm's generalization performance.
翻訳日:2021-05-03 05:20:32 公開日:2020-12-16
# (参考訳) Latent-CF: 逆の相互説明のためのシンプルなベースライン

Latent-CF: A Simple Baseline for Reverse Counterfactual Explanations ( http://arxiv.org/abs/2012.09301v1 )

ライセンス: CC BY 4.0
Rachana Balasubramanian, Samuel Sharpe, Brian Barr, Jason Wittenbach, and C. Bayan Bruss(参考訳) 公正貸付法と一般データ保護規則(GDPR)の環境においては、モデルの予測を説明する能力が最も重要である。 高品質な説明は公平さを評価する最初のステップです。 カウンターファクトは説明可能性にとって貴重なツールです。 予測から決定される個人に対して、実行可能な、理解可能な説明を提供する。 それらを製造するためのベースラインを見つけることが重要です。 自動エンコーダの潜伏空間における探索に勾配勾配を用いた反事実生成法を提案し, 特徴空間における反事実探索手法に対して, 本手法をベンチマークする。 さらに,対策品の品質を具体的に評価する指標を実装した。 潜在空間の反事実生成は,基本的な特徴勾配降下手法の速度と,より複雑な特徴空間指向手法によって生じる反事実のばらつきと信頼性のバランスをとることを示す。

In the environment of fair lending laws and the General Data Protection Regulation (GDPR), the ability to explain a model's prediction is of paramount importance. High quality explanations are the first step in assessing fairness. Counterfactuals are valuable tools for explainability. They provide actionable, comprehensible explanations for the individual who is subject to decisions made from the prediction. It is important to find a baseline for producing them. We propose a simple method for generating counterfactuals by using gradient descent to search in the latent space of an autoencoder and benchmark our method against approaches that search for counterfactuals in feature space. Additionally, we implement metrics to concretely evaluate the quality of the counterfactuals. We show that latent space counterfactual generation strikes a balance between the speed of basic feature gradient descent methods and the sparseness and authenticity of counterfactuals generated by more complex feature space oriented techniques.
翻訳日:2021-05-03 04:57:47 公開日:2020-12-16
# (参考訳) 人工知能・量子・高性能コンピューティングのための基盤

Infrastructure for Artificial Intelligence, Quantum and High Performance Computing ( http://arxiv.org/abs/2012.09303v1 )

ライセンス: CC BY 4.0
William Gropp, Sujata Banerjee, and Ian Foster(参考訳) ハイパフォーマンスコンピューティング(HPC)、人工知能(AI)/マシンラーニング(ML)、量子コンピューティング(QC)およびコミュニケーションは、イノベーションと社会への影響の巨大な機会を提供する。 これらの分野の研究者は、コンピューティングインフラストラクチャへのアクセスに依存しているが、これらのリソースは不足しており、研究コミュニティのサポートでサイロ化されており、収束的かつ学際的な研究を追求することがより困難である。 このような研究は、段階ごとに異なるリソースを必要とする複雑なワークフローに依存している。 本稿では,コンピュータ科学研究を支援するために,コンピューティングインフラストラクチャに対するより包括的なアプローチと,商用クラウドから量子コンピューティングまで,新たなコンピューティングアプローチからの相補的能力の両方を認識するアプローチが必要であることを論じる。

High Performance Computing (HPC), Artificial Intelligence (AI)/Machine Learning (ML), and Quantum Computing (QC) and communications offer immense opportunities for innovation and impact on society. Researchers in these areas depend on access to computing infrastructure, but these resources are in short supply and are typically siloed in support of their research communities, making it more difficult to pursue convergent and interdisciplinary research. Such research increasingly depends on complex workflows that require different resources for each stage. This paper argues that a more-holistic approach to computing infrastructure, one that recognizes both the convergence of some capabilities and the complementary capabilities from new computing approaches, be it commercial cloud to Quantum Computing, is needed to support computer science research.
翻訳日:2021-05-03 04:48:53 公開日:2020-12-16
# (参考訳) ディープフェイク検出のためのパッチワイズ一貫性の認識

Learning to Recognize Patch-Wise Consistency for Deepfake Detection ( http://arxiv.org/abs/2012.09311v1 )

ライセンス: CC BY 4.0
Tianchen Zhao, Xiang Xu, Mingze Xu, Hui Ding, Yuanjun Xiong, Wei Xia(参考訳) 本稿では,顔の操作によって生成されたディープフェイクを,その基本的な特徴の1つに基づいて検出する。画像は複数のソースからのパッチでブレンドされ,特徴と永続性を持つ。 特に,本課題に対する新しい表現学習手法であるpatch-wise consistency learning (pcl)を提案する。 イメージソースの特徴の一貫性を計測することで、複数の偽造方法に対して、優れた解釈性と堅牢性を持つ表現が可能になる。 我々は,PCLのトレーニングデータを生成し,その堅牢性を高めるために,不整合画像生成装置(I2G)を開発した。 一般的な7つのDeepfake検出データセットに対するアプローチを評価する。 本モデルは優れた検出精度を達成し,未発見生成法によく一般化する。 平均して,本モデルでは,AUCを2%,クロスデータセット評価を8%上回る結果を得た。

We propose to detect Deepfake generated by face manipulation based on one of their fundamental features: images are blended by patches from multiple sources, carrying distinct and persistent source features. In particular, we propose a novel representation learning approach for this task, called patch-wise consistency learning (PCL). It learns by measuring the consistency of image source features, resulting to representation with good interpretability and robustness to multiple forgery methods. We develop an inconsistency image generator (I2G) to generate training data for PCL and boost its robustness. We evaluate our approach on seven popular Deepfake detection datasets. Our model achieves superior detection accuracy and generalizes well to unseen generation methods. On average, our model outperforms the state-of-the-art in terms of AUC by 2% and 8% in the in- and cross-dataset evaluation, respectively.
翻訳日:2021-05-03 04:45:11 公開日:2020-12-16
# (参考訳) StarcNet:スタークラスタ識別のための機械学習

StarcNet: Machine Learning for Star Cluster Identification ( http://arxiv.org/abs/2012.09327v1 )

ライセンス: CC BY 4.0
Gustavo Perez, Matteo Messa, Daniela Calzetti, Subhransu Maji, Dooseok Jung, Angela Adamo, Mattia Siressi(参考訳) 我々は,LEGUS(Legacy ExtraGalactic Ultraviolet Survey)の一環としてハッブル宇宙望遠鏡で得られた観測から,近隣銀河のマルチカラー画像中の星団を識別する機械学習(ML)パイプラインを提案する。 starcnet (star cluster classification network) は多スケール畳み込みニューラルネットワーク (cnn) であり、ヒトのエキスパート性能にほぼ匹敵する星団分類のために68.6% (4クラス)/86.0% (2クラス:クラスタ/非クラスタ)の精度を達成する。 我々は、トレーニングセットに含まれない銀河に事前訓練されたcnnモデルを適用することで、starcnetの性能をテストする。 ヒトおよびml分類標本では,starcnetの光度,色,物理特性の分布が類似しているため,starcnetが生成するカタログとヒトラベルによる多色光度関数と質量分布プロットを比較して,推定されたクラスター特性に対するstarcnetの予測の影響を検証した。 MLアプローチには2つの利点がある:(1) 分類の再現可能性: MLアルゴリズムのバイアスは固定され、その後の分析のために測定できる。 人間の分類器と同等の精度を達成することで、starcnetは、現在利用可能なより多くの候補サンプルに分類を拡張できるため、クラスタ研究の統計が大幅に増加する。

We present a machine learning (ML) pipeline to identify star clusters in the multi{color images of nearby galaxies, from observations obtained with the Hubble Space Telescope as part of the Treasury Project LEGUS (Legacy ExtraGalactic Ultraviolet Survey). StarcNet (STAR Cluster classification NETwork) is a multi-scale convolutional neural network (CNN) which achieves an accuracy of 68.6% (4 classes)/86.0% (2 classes: cluster/non-cluster) for star cluster classification in the images of the LEGUS galaxies, nearly matching human expert performance. We test the performance of StarcNet by applying pre-trained CNN model to galaxies not included in the training set, finding accuracies similar to the reference one. We test the effect of StarcNet predictions on the inferred cluster properties by comparing multi-color luminosity functions and mass-age plots from catalogs produced by StarcNet and by human-labeling; distributions in luminosity, color, and physical characteristics of star clusters are similar for the human and ML classified samples. There are two advantages to the ML approach: (1) reproducibility of the classifications: the ML algorithm's biases are fixed and can be measured for subsequent analysis; and (2) speed of classification: the algorithm requires minutes for tasks that humans require weeks to months to perform. By achieving comparable accuracy to human classifiers, StarcNet will enable extending classifications to a larger number of candidate samples than currently available, thus increasing significantly the statistics for cluster studies.
翻訳日:2021-05-03 04:27:07 公開日:2020-12-16
# (参考訳) 深層学習生成モデルを用いた新しい2次元材料の発見

Computational discovery of new 2D materials using deep learning generative models ( http://arxiv.org/abs/2012.09314v1 )

ライセンス: CC BY 4.0
Yuqi Song, Edirisuriya M. Dilanga Siriwardane, Yong Zhao, Jianjun Hu(参考訳) 2次元(2D)材料は、半導体や光電気など多くの用途で期待できる機能材料として出現している。 既存の素材データベースでは数千の2D素材がスクリーニングされているが、新しい2D素材の発見はいまだに難しい。 本稿では,ランダムフォレストに基づく2次元材料分類器と組み合わせた合成生成のための深層学習生成モデルを提案する。 さらに,新たに予測した仮定式の一部集合の結晶構造を予測するために,テンプレートに基づく要素置換構造予測手法を開発し,dft計算による構造安定性の検証を可能にした。 これまでに267,489個の新しい2次元材料組成を発見し,DFT生成エネルギー計算により12個の層状材料を確認した。 この結果から, 生成機械学習モデルは, 新しい2次元材料発見のための膨大な化学設計空間を探索する有効な方法であることがわかった。

Two dimensional (2D) materials have emerged as promising functional materials with many applications such as semiconductors and photovoltaics because of their unique optoelectronic properties. While several thousand 2D materials have been screened in existing materials databases, discovering new 2D materials remains to be challenging. Herein we propose a deep learning generative model for composition generation combined with random forest based 2D materials classifier to discover new hypothetical 2D materials. Furthermore, a template based element substitution structure prediction approach is developed to predict the crystal structures of a subset of the newly predicted hypothetical formulas, which allows us to confirm their structure stability using DFT calculations. So far, we have discovered 267,489 new potential 2D materials compositions and confirmed twelve 2D/layered materials by DFT formation energy calculation. Our results show that generative machine learning models provide an effective way to explore the vast chemical design space for new 2D materials discovery.
翻訳日:2021-05-03 03:46:39 公開日:2020-12-16
# 逆行訓練を伴わない多型絡み合い乱れ

Multi-type Disentanglement without Adversarial Training ( http://arxiv.org/abs/2012.08883v1 )

ライセンス: Link先を確認
Lei Sha, Thomas Lukasiewicz(参考訳) 潜在空間を分離することで自然言語のスタイルを制御することは、解釈可能な機械学習への重要なステップである。 潜在空間が乱れた後、文の他の特徴に影響を与えずにスタイル表現をチューニングすることで文のスタイルを変換できる。 従来の研究は通常、逆行ベクトルが互いに影響しないことを保証するために逆行訓練を使用する。 しかし、敵対的な方法の訓練は困難である。 特に、複数の特徴(例えば、この論文ではスタイルタイプと呼ぶ)がある場合、各特徴は、その特徴に対応する非絡み合ったスタイルベクトルを抽出する別個の識別器を必要とする。 本稿では,それぞれのスタイル値(例えば,肯定的な感情,過去の時制など)を一意に表現する分散制御手法を提案する。 この手法は,多型対角法における対角法トレーニングを避けるための理論的基礎となる。 また,スタイル・コンテントの絡み合いや複数のスタイルタイプ間の絡み合いを実現するために,複数の損失関数を提案する。 さらに、2つの異なるスタイル型が常にデータセット内で一緒に発生する特定のスタイル値を持っている場合、スタイル値の転送時に互いに影響する。 我々は,この現象をトレーニングバイアスと呼び,複数のタイプを分離しながらトレーニングバイアスを緩和するロス関数を提案する。 2つのデータセット(yelp service reviewsとamazon product reviews)で実験を行い、スタイル区別効果と教師なしのスタイル転送性能について、センチメントとテンスという2つのスタイルタイプで評価した。 実験の結果,本モデルの有効性が示された。

Controlling the style of natural language by disentangling the latent space is an important step towards interpretable machine learning. After the latent space is disentangled, the style of a sentence can be transformed by tuning the style representation without affecting other features of the sentence. Previous works usually use adversarial training to guarantee that disentangled vectors do not affect each other. However, adversarial methods are difficult to train. Especially when there are multiple features (e.g., sentiment, or tense, which we call style types in this paper), each feature requires a separate discriminator for extracting a disentangled style vector corresponding to that feature. In this paper, we propose a unified distribution-controlling method, which provides each specific style value (the value of style types, e.g., positive sentiment, or past tense) with a unique representation. This method contributes a solid theoretical basis to avoid adversarial training in multi-type disentanglement. We also propose multiple loss functions to achieve a style-content disentanglement as well as a disentanglement among multiple style types. In addition, we observe that if two different style types always have some specific style values that occur together in the dataset, they will affect each other when transferring the style values. We call this phenomenon training bias, and we propose a loss function to alleviate such training bias while disentangling multiple types. We conduct experiments on two datasets (Yelp service reviews and Amazon product reviews) to evaluate the style-disentangling effect and the unsupervised style transfer performance on two style types: sentiment and tense. The experimental results show the effectiveness of our model.
翻訳日:2021-05-03 03:13:59 公開日:2020-12-16
# LIREx: 関連説明による言語推論の強化

LIREx: Augmenting Language Inference with Relevant Explanation ( http://arxiv.org/abs/2012.09157v1 )

ライセンス: Link先を確認
Xinyan Zhao, V.G.Vinod Vydiswaran(参考訳) 自然言語説明 (NLE) は、アノテータがデータインスタンスにラベルを割り当てるときに有理性(最も重要なテキストトークン)を識別し、その有理性に基づいて自然言語でラベルの説明を書く、特別な形式のデータアノテーションである。 NLEは人間の推論をより良く捉えることが示されているが、自然言語推論(NLI)には有益ではない。 本稿では,現在NLEが言語推論タスクのための説明生成器の訓練に使われている2つの主要な欠陥を分析する。 ラベルの人的説明に固有の変動性を考慮していないこと,そして現在の説明生成モデルが突発的な説明を生成することを確認した。 これらの制約を克服するために、論理型説明生成器とインスタンスセレクタの両方を組み込んだ新しいフレームワーク LIREx を提案し、NLI モデルの拡張に有効な NLE のみを選択する。 標準化されたSNLIデータセットで評価すると、LIRExは91.87%の精度、ベースラインよりも0.32の改善、データセット上で最も報告されたパフォーマンスと一致した。 また、ドメイン外のMultiNLIデータセットに転送した場合、以前の研究よりも大幅にパフォーマンスが向上する。 定性的分析により、LIRExはフレキシブルで忠実で関連するNLEを生成し、モデルが素早い説明のためにより堅牢であることが示される。 コードはhttps://github.com/zhaoxy92/lirexで入手できる。

Natural language explanations (NLEs) are a special form of data annotation in which annotators identify rationales (most significant text tokens) when assigning labels to data instances, and write out explanations for the labels in natural language based on the rationales. NLEs have been shown to capture human reasoning better, but not as beneficial for natural language inference (NLI). In this paper, we analyze two primary flaws in the way NLEs are currently used to train explanation generators for language inference tasks. We find that the explanation generators do not take into account the variability inherent in human explanation of labels, and that the current explanation generation models generate spurious explanations. To overcome these limitations, we propose a novel framework, LIREx, that incorporates both a rationale-enabled explanation generator and an instance selector to select only relevant, plausible NLEs to augment NLI models. When evaluated on the standardized SNLI data set, LIREx achieved an accuracy of 91.87%, an improvement of 0.32 over the baseline and matching the best-reported performance on the data set. It also achieves significantly better performance than previous studies when transferred to the out-of-domain MultiNLI data set. Qualitative analysis shows that LIREx generates flexible, faithful, and relevant NLEs that allow the model to be more robust to spurious explanations. The code is available at https://github.com/zhaoxy92/LIREx.
翻訳日:2021-05-03 03:11:43 公開日:2020-12-16
# 相互平均学習による教師なしイメージセグメンテーション

Unsupervised Image Segmentation using Mutual Mean-Teaching ( http://arxiv.org/abs/2012.08922v1 )

ライセンス: Link先を確認
Zhichao Wu and Lei Guo and Hao Zhang and Dan Xu(参考訳) 教師なし画像セグメンテーション(unsupervised image segmentation)は、同様の機能を持つピクセルを、アノテーションなしで同じクラスタに割り当てることを目的としている。 事前の知識が欠如しているため、既存のモデルの多くは適切な結果を得るために数回訓練する必要がある。 そこで本稿では,Mutual Mean-Teaching (MMT) フレームワークに基づく教師なし画像分割モデルを提案する。 また、2つのモデルからのピクセルのラベルが一致しないため、ハンガリーのアルゴリズムに基づくラベルアライメントアルゴリズムがクラスタラベルと一致するように提案されている。 実験結果から,提案モデルでは様々な画像の分割が可能であり,既存の手法よりも優れた性能が得られることが示された。

Unsupervised image segmentation aims at assigning the pixels with similar feature into a same cluster without annotation, which is an important task in computer vision. Due to lack of prior knowledge, most of existing model usually need to be trained several times to obtain suitable results. To address this problem, we propose an unsupervised image segmentation model based on the Mutual Mean-Teaching (MMT) framework to produce more stable results. In addition, since the labels of pixels from two model are not matched, a label alignment algorithm based on the Hungarian algorithm is proposed to match the cluster labels. Experimental results demonstrate that the proposed model is able to segment various types of images and achieves better performance than the existing methods.
翻訳日:2021-05-03 03:11:15 公開日:2020-12-16
# 低リソース言語のための多言語ニューラルマシン翻訳の改善:フランス語、英語、ベトナム語

Improving Multilingual Neural Machine Translation For Low-Resource Languages: French-, English- Vietnamese ( http://arxiv.org/abs/2012.08743v1 )

ライセンス: Link先を確認
Thi-Vinh Ngo, Phuong-Thai Nguyen, Thanh-Le Ha, Khac-Quy Dinh, Le-Minh Nguyen(参考訳) 以前の研究では、低リソースの言語ペアが、多くの言語ペアのジョイントトレーニングに依存する多言語機械翻訳(MT)システムの恩恵を受けることが示されている。 本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。 第1の戦略は、ソース言語間の共有空間におけるトークンの動的学習単語類似性であり、第1の戦略は、トレーニング中に埋め込みを更新することで稀な単語の翻訳能力を増強しようとするものである。 さらに,多言語MTシステムにおける単言語データを利用して,データの分散性問題に対処しながら,合成並列コーパスの量を増やす。 両言語対のバイリンガルベースラインシステムに対して,+1.62および+2.54のBLEU点が大幅に改善され,研究コミュニティ向けのデータセットがリリースされた。

Prior works have demonstrated that a low-resource language pair can benefit from multilingual machine translation (MT) systems, which rely on many language pairs' joint training. This paper proposes two simple strategies to address the rare word issue in multilingual MT systems for two low-resource language pairs: French-Vietnamese and English-Vietnamese. The first strategy is about dynamical learning word similarity of tokens in the shared space among source languages while another one attempts to augment the translation ability of rare words through updating their embeddings during the training. Besides, we leverage monolingual data for multilingual MT systems to increase the amount of synthetic parallel corpora while dealing with the data sparsity problem. We have shown significant improvements of up to +1.62 and +2.54 BLEU points over the bilingual baseline systems for both language pairs and released our datasets for the research community.
翻訳日:2021-05-03 03:11:01 公開日:2020-12-16
# 確率的ソフト論理規則化と大域的推論を用いた臨床時間関係抽出

Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference ( http://arxiv.org/abs/2012.08790v1 )

ライセンス: Link先を確認
Yichao Zhou, Yu Yan, Rujun Han, J. Harry Caufield, Kai-Wei Chang, Yizhou Sun, Peipei Ping, and Wei Wang(参考訳) 臨床イベント間の時間的関係を正確に抽出する医療コミュニティは着実に必要とされている。 特に、時間情報は、ケースレポート検索や医療質問応答など、さまざまなダウンストリームアプリケーションを促進することができる。 既存のメソッドは、高価な機能エンジニアリングを必要とするか、イベント間のグローバルなリレーショナル依存関係をモデル化できないかのいずれかです。 本稿では,確率的ソフト論理規則化とグローバル推論(CTRL-PG)による,文書レベルでの問題に取り組むための新手法を提案する。 2つのベンチマークデータセットであるI2B2-2012とTB-Denseの大規模な実験により、CTRL-PGは時間的関係抽出の基準法よりも著しく優れていることが示された。

There has been a steady need in the medical community to precisely extract the temporal relations between clinical events. In particular, temporal information can facilitate a variety of downstream applications such as case report retrieval and medical question answering. Existing methods either require expensive feature engineering or are incapable of modeling the global relational dependencies among the events. In this paper, we propose a novel method, Clinical Temporal ReLation Exaction with Probabilistic Soft Logic Regularization and Global Inference (CTRL-PG) to tackle the problem at the document level. Extensive experiments on two benchmark datasets, I2B2-2012 and TB-Dense, demonstrate that CTRL-PG significantly outperforms baseline methods for temporal relation extraction.
翻訳日:2021-05-03 03:10:46 公開日:2020-12-16
# 2次勾配に基づくニューラルネットワークの大規模バッチサイズトレーニングに関する研究

Study on the Large Batch Size Training of Neural Networks Based on the Second Order Gradient ( http://arxiv.org/abs/2012.08795v1 )

ライセンス: Link先を確認
Fengli Gao and Huicai Zhong(参考訳) ディープニューラルネットワーク(DNN)における大規模なバッチサイズトレーニングは、よく知られた「一般化ギャップ」を持ち、一般化性能の低下を著しく引き起こす。 しかし、バッチサイズの違いがNNの構造に与える影響は、まだ不明である。 本稿では,nnの勾配,パラメータ更新ステップ長,損失更新ステップ長といった基本構造特性の異なるバッチサイズにおける進化について,理論と実験を組み合わせて検討する。 小型サンプルの廃棄とバッチサイズのスケジューリングを含む2つの設計手法により,汎用性を向上させるための新たなガイダンスを提供する。 NNの層間における大規模バッチサイズトレーニングに影響を及ぼす敏感な要因である曲率変動に適合させるために,曲率に基づく学習率(CBLR)アルゴリズムを提案する。 CBLRの近似として、中央曲率LR(MCLR)アルゴリズムは、Layer-wise Adaptive Rate Scaling (LARS)アルゴリズムに匹敵する性能を得る。 我々の理論結果とアルゴリズムは既存の研究に幾何学に基づく説明を提供する。 さらに,レイヤワイズLRアルゴリズム,例えばLARSがCBLRの特別な例であることを示す。 最後に,大規模バッチサイズトレーニングの理論的幾何学的図式を導出し,ネットワークパラメータが関連するミニマについて中心となる傾向を示す。

Large batch size training in deep neural networks (DNNs) possesses a well-known 'generalization gap' that remarkably induces generalization performance degradation. However, it remains unclear how varying batch size affects the structure of a NN. Here, we combine theory with experiments to explore the evolution of the basic structural properties, including gradient, parameter update step length, and loss update step length of NNs under varying batch sizes. We provide new guidance to improve generalization, which is further verified by two designed methods involving discarding small-loss samples and scheduling batch size. A curvature-based learning rate (CBLR) algorithm is proposed to better fit the curvature variation, a sensitive factor affecting large batch size training, across layers in a NN. As an approximation of CBLR, the median-curvature LR (MCLR) algorithm is found to gain comparable performance to Layer-wise Adaptive Rate Scaling (LARS) algorithm. Our theoretical results and algorithm offer geometry-based explanations to the existing studies. Furthermore, we demonstrate that the layer wise LR algorithms, for example LARS, can be regarded as special instances of CBLR. Finally, we deduce a theoretical geometric picture of large batch size training, and show that all the network parameters tend to center on their related minima.
翻訳日:2021-05-03 03:10:34 公開日:2020-12-16
# リレーショナルブーイングバンド

Relational Boosted Bandits ( http://arxiv.org/abs/2012.09220v1 )

ライセンス: Link先を確認
Ashutosh Kakadiya and Sriraam Natarajan and Balaraman Ravindran(参考訳) コンテキストバンディットアルゴリズムは,近年,実世界のユーザインタラクション問題において必須となっている。 しかし、これらのアルゴリズムは属性の値表現としてコンテキストに依存しており、ソーシャルネットワークのような現実世界のドメインは本質的に関係性がない。 本稿では,(関係)ブースト木に基づく関係領域の文脈的バンドイットアルゴリズムであるrelational boosted bandits(rb2)を提案する。 RB2により、関係表現のより記述的な性質から解釈可能で説明可能なモデルを学ぶことができる。 リンク予測や関係分類,レコメンデーションといったタスクにおけるRB2の有効性と解釈性を実証的に示す。

Contextual bandits algorithms have become essential in real-world user interaction problems in recent years. However, these algorithms rely on context as attribute value representation, which makes them unfeasible for real-world domains like social networks are inherently relational. We propose Relational Boosted Bandits(RB2), acontextual bandits algorithm for relational domains based on (relational) boosted trees. RB2 enables us to learn interpretable and explainable models due to the more descriptive nature of the relational representation. We empirically demonstrate the effectiveness and interpretability of RB2 on tasks such as link prediction, relational classification, and recommendations.
翻訳日:2021-05-03 03:10:00 公開日:2020-12-16
# series saliency:temporal interpretation for multivariate time series forecasting (特集 時系列予測)

Series Saliency: Temporal Interpretation for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2012.09324v1 )

ライセンス: Link先を確認
Qingyi Pan, Wenbo Hu, Jun Zhu(参考訳) 時系列予測は重要だが、難しい課題である。 近年,予測結果に優れた深層学習手法が開発されているが,時系列モデルの解釈性の向上が不可欠である。 一般的なニューラルネットワークや注意に基づく手法を含む以前の解釈法は、重要な時間次元を無視しながら特徴次元の解釈を主に考慮している。 本稿では,多変量時系列予測における時間的解釈のための時系列サリエンシ・フレームワークについて述べる。 時系列のスライディングウィンドウから「時系列画像」を抽出することにより、最小の破壊領域原理に従って、サリエンシーマップのセグメンテーションを適用する。 series saliency frameworkは、明確に定義されたディープラーニングモデルに採用することができ、より正確な予測を得るためにデータ拡張として機能する。 いくつかの実データセットに対する実験結果から,本フレームワークは時系列予測タスクの時間的解釈を生成し,正確な時系列予測を生成する。

Time series forecasting is an important yet challenging task. Though deep learning methods have recently been developed to give superior forecasting results, it is crucial to improve the interpretability of time series models. Previous interpretation methods, including the methods for general neural networks and attention-based methods, mainly consider the interpretation in the feature dimension while ignoring the crucial temporal dimension. In this paper, we present the series saliency framework for temporal interpretation for multivariate time series forecasting, which considers the forecasting interpretation in both feature and temporal dimensions. By extracting the "series images" from the sliding windows of the time series, we apply the saliency map segmentation following the smallest destroying region principle. The series saliency framework can be employed to any well-defined deep learning models and works as a data augmentation to get more accurate forecasts. Experimental results on several real datasets demonstrate that our framework generates temporal interpretations for the time series forecasting task while produces accurate time series forecast.
翻訳日:2021-05-03 03:09:52 公開日:2020-12-16
# モデル圧縮における過度パラメータ化の確率的メリット:ダブルディフレッシュからプルーニングニューラルネット

Provable Benefits of Overparameterization in Model Compression: From Double Descent to Pruning Neural Networks ( http://arxiv.org/abs/2012.08749v1 )

ライセンス: Link先を確認
Xiangyu Chang, Yingcong Li, Samet Oymak, Christos Thrampoulidis(参考訳) ディープネットワークは通常、トレーニングデータセットのサイズよりも多くのパラメータでトレーニングされる。 最近の実証的証拠は、過剰パラメータ化のプラクティスは、大きなモデルをトレーニングするだけでなく、軽量モデルを構築するのに役立つことを示しています。 具体的には、過剰パラメータ化はモデルプルーニング/スパース化の利点を示唆する。 本稿では, 過パラメータ化状態におけるモデルプルーニングの高次元漸近特性を理論的に特徴付けることにより, これらの経験的発見に光を当てる。 この理論は、「最初は小さなモデルを訓練するか、最初は大きなモデルを訓練し、次にプルーンを訓練するか」という質問に対処した。 もっとも情報性の高い特徴の位置が分かっていても、大きなモデルに適合して、既知の情報のある特徴で単にトレーニングするよりは、プルーニングする方がよいと、我々は分析的に判断する。 これはスパースモデルのトレーニングにおいて、新たな二重降下をもたらす: 元のモデルを成長させる一方で、ターゲットの間隔を保ちながら、オーバーパラメータ化しきい値を超えてテスト精度を向上させる。 分析により,特徴相関に関連付けることで,リトレーニングの利点がさらに明らかとなった。 上記の現象は、線形およびランダム特徴モデルにすでに存在することが分かる。 本手法は,高次元解析のツールセットを進化させ,超パラメータ最小二乗の漸近分布を正確に特徴付ける。 より単純なモデルを分析することによって得られる直感は、ニューラルネットワーク上で数値的に検証される。

Deep networks are typically trained with many more parameters than the size of the training dataset. Recent empirical evidence indicates that the practice of overparameterization not only benefits training large models, but also assists - perhaps counterintuitively - building lightweight models. Specifically, it suggests that overparameterization benefits model pruning / sparsification. This paper sheds light on these empirical findings by theoretically characterizing the high-dimensional asymptotics of model pruning in the overparameterized regime. The theory presented addresses the following core question: "should one train a small model from the beginning, or first train a large model and then prune?". We analytically identify regimes in which, even if the location of the most informative features is known, we are better off fitting a large model and then pruning rather than simply training with the known informative features. This leads to a new double descent in the training of sparse models: growing the original model, while preserving the target sparsity, improves the test accuracy as one moves beyond the overparameterization threshold. Our analysis further reveals the benefit of retraining by relating it to feature correlations. We find that the above phenomena are already present in linear and random-features models. Our technical approach advances the toolset of high-dimensional analysis and precisely characterizes the asymptotic distribution of over-parameterized least-squares. The intuition gained by analytically studying simpler models is numerically verified on neural networks.
翻訳日:2021-05-03 03:09:36 公開日:2020-12-16
# MINIROCKET: 時系列分類のための非常に高速な(ほぼ)決定論的変換

MINIROCKET: A Very Fast (Almost) Deterministic Transform for Time Series Classification ( http://arxiv.org/abs/2012.08791v1 )

ライセンス: Link先を確認
Angus Dempster, Daniel F. Schmidt, Geoffrey I. Webb(参考訳) 最近まで、時系列分類の最も正確な方法は計算の複雑さによって制限されていた。 ROCKETは、ランダムな畳み込みカーネルを用いて入力時系列を変換し、変換された特徴を用いて線形分類器を訓練することにより、既存の手法の計算コストのごく一部で最先端の精度を達成する。 ROCKETを新しい手法であるMINIROCKETに再構成し、より大きなデータセットで最大75倍高速にし、ほぼ決定論的に(そしてオプションで、追加の計算コストで、完全に決定論的に)、本質的に同じ精度を維持しながら、ほぼ決定的になる。 この方法を用いることで、UCRアーカイブから最先端の精度まで、10分以内で109のデータセットの分類器をトレーニングし、テストすることができる。 MINIROCKETは、ROCKETを含む他のどの精度の方法よりもはるかに高速で、ほぼ同様の計算コストの方法よりもはるかに正確である。 したがって、MINIROCKET は ROCKET のデフォルト変種として考慮され、使用されるべきである。

Until recently, the most accurate methods for time series classification were limited by high computational complexity. ROCKET achieves state-of-the-art accuracy with a fraction of the computational expense of most existing methods by transforming input time series using random convolutional kernels, and using the transformed features to train a linear classifier. We reformulate ROCKET into a new method, MINIROCKET, making it up to 75 times faster on larger datasets, and making it almost deterministic (and optionally, with additional computational expense, fully deterministic), while maintaining essentially the same accuracy. Using this method, it is possible to train and test a classifier on all of 109 datasets from the UCR archive to state-of-the-art accuracy in less than 10 minutes. MINIROCKET is significantly faster than any other method of comparable accuracy (including ROCKET), and significantly more accurate than any other method of even roughly-similar computational expense. As such, we suggest that MINIROCKET should now be considered and used as the default variant of ROCKET.
翻訳日:2021-05-03 03:09:12 公開日:2020-12-16
# 深層ニューラルネットワークのランキング一般化におけるノイズレジリエンスの利用

Using noise resilience for ranking generalization of deep neural networks ( http://arxiv.org/abs/2012.08854v1 )

ライセンス: Link先を確認
Depen Morwani, Rahul Vashisht, Harish G. Ramaswamy(参考訳) 近年の論文では、十分な過パラメータのニューラルネットワークがランダムラベルにも完全に適合できることが示されている。 したがって、実世界のデータ上でのネットワークの一般化性能の背景となる理由を理解することが重要である。 本研究では,トレーニングデータとそのパラメータからネットワークの一般化誤差を予測するためのいくつかの手法を提案する。 この手法の1つを用いて,NeurIPS 2020における深層学習(PGDL)競争の予測一般化において,ネットワークの耐雑音性に基づいて第5位を確保した。

Recent papers have shown that sufficiently overparameterized neural networks can perfectly fit even random labels. Thus, it is crucial to understand the underlying reason behind the generalization performance of a network on real-world data. In this work, we propose several measures to predict the generalization error of a network given the training data and its parameters. Using one of these measures, based on noise resilience of the network, we secured 5th position in the predicting generalization in deep learning (PGDL) competition at NeurIPS 2020.
翻訳日:2021-05-03 03:08:51 公開日:2020-12-16
# 故障発生予測のための時間的テンソル分解

Time-Aware Tensor Decomposition for Missing Entry Prediction ( http://arxiv.org/abs/2012.08855v1 )

ライセンス: Link先を確認
Dawon Ahn, Jun-Gi Jang, U Kang(参考訳) 不足エントリを持つ時間進化テンソルを考えると、不足エントリを正確に予測するために効果的に分解できるだろうか? テンソル因子化は様々な多次元実世界のデータ解析に広く利用されている。 しかし,既存のテンソル因子化モデルではテンソル因子化の時間的特性は無視されている。 さらに、タイムスライスのスパース性のため、精度の低下には対処しない。 テンソル分解における時間的特性の活用と時間スライスの空間性を考える上での本質的な問題は未解決のままである。 本稿では,実世界のテンソルに対する新しいテンソル分解法である tatd (time-aware tensor decomposition) を提案する。 TATDは、実世界の時間的テンソルの時間的依存性と時間的変化を利用するように設計されている。 時間依存をモデル化するための新しいスムーズな正規化法を提案する。 さらに,時間的変化を考慮したTATDの性能向上を図る。 時相テンソル因子化に適した交互最適化スキームをスムーズな正規化で設計する。 大規模な実験により、TATDは時間テンソルを分解するための最先端の精度を提供することが示された。

Given a time-evolving tensor with missing entries, how can we effectively factorize it for precisely predicting the missing entries? Tensor factorization has been extensively utilized for analyzing various multi-dimensional real-world data. However, existing models for tensor factorization have disregarded the temporal property for tensor factorization while most real-world data are closely related to time. Moreover, they do not address accuracy degradation due to the sparsity of time slices. The essential problems of how to exploit the temporal property for tensor decomposition and consider the sparsity of time slices remain unresolved. In this paper, we propose TATD (Time-Aware Tensor Decomposition), a novel tensor decomposition method for real-world temporal tensors. TATD is designed to exploit temporal dependency and time-varying sparsity of real-world temporal tensors. We propose a new smoothing regularization with Gaussian kernel for modeling time dependency. Moreover, we improve the performance of TATD by considering time-varying sparsity. We design an alternating optimization scheme suitable for temporal tensor factorization with our smoothing regularization. Extensive experiments show that TATD provides the state-of-the-art accuracy for decomposing temporal tensors.
翻訳日:2021-05-03 03:08:41 公開日:2020-12-16
# クラスタリングアンサンブル - 低ランクテンソル近似

Clustering Ensemble Meets Low-rank Tensor Approximation ( http://arxiv.org/abs/2012.08916v1 )

ライセンス: Link先を確認
Yuheng Jia, Hui Liu, Junhui Hou, Qingfu Zhang(参考訳) 本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。 既存のクラスタリングアンサンブル法は一般に、異なる基底クラスタリングからの連結行列の重み付き線形結合としてサンプル間の対の類似性を示す共結合行列を構築し、結果として得られる共結合行列を、例えばスペクトルクラスタリングのようなオフ・ザ・セットクラスタリングアルゴリズムの入力として採用する。 しかし、共連想行列は、粗い塩基クラスタリングによって支配され、結果として性能は低下する。 本稿では,グローバルな視点から問題を解くために,新しい低ランクテンソル近似法を提案する。 具体的には、2つのサンプルが同一のクラスタに異なるベースクラスタでクラスタ化されているかどうかを調べることで、サンプル間の限定的かつ信頼性の高い関係を含むコヒーレントリンク行列を導出する。 次にコヒーレントリンク行列と共結合行列を積み重ねて3次元テンソルを形成する。低ランク性はコヒーレントリンク行列の情報を共結合行列に伝達するためにさらに研究され、洗練された共結合行列を生成する。 提案手法を凸制約最適化問題として定式化し,効率よく解く。 7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。 我々の知る限りでは、これはクラスタリングアンサンブルにおける低ランクテンソルの可能性を探究する最初の試みであり、これは従来のアプローチと根本的に異なる。

This paper explores the problem of clustering ensemble, which aims to combine multiple base clusterings to produce better performance than that of the individual one. The existing clustering ensemble methods generally construct a co-association matrix, which indicates the pairwise similarity between samples, as the weighted linear combination of the connective matrices from different base clusterings, and the resulting co-association matrix is then adopted as the input of an off-the-shelf clustering algorithm, e.g., spectral clustering. However, the co-association matrix may be dominated by poor base clusterings, resulting in inferior performance. In this paper, we propose a novel low-rank tensor approximation-based method to solve the problem from a global perspective. Specifically, by inspecting whether two samples are clustered to an identical cluster under different base clusterings, we derive a coherent-link matrix, which contains limited but highly reliable relationships between samples. We then stack the coherent-link matrix and the co-association matrix to form a three-dimensional tensor, the low-rankness property of which is further explored to propagate the information of the coherent-link matrix to the co-association matrix, producing a refined co-association matrix. We formulate the proposed method as a convex constrained optimization problem and solve it efficiently. Experimental results over 7 benchmark data sets show that the proposed model achieves a breakthrough in clustering performance, compared with 12 state-of-the-art methods. To the best of our knowledge, this is the first work to explore the potential of low-rank tensor on clustering ensemble, which is fundamentally different from previous approaches.
翻訳日:2021-05-03 03:08:27 公開日:2020-12-16
# 対実データ拡張によるサンプル効率の良い強化学習

Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation ( http://arxiv.org/abs/2012.09092v1 )

ライセンス: Link先を確認
Chaochao Lu, Biwei Huang, Ke Wang, Jos\'e Miguel Hern\'andez-Lobato, Kun Zhang, Bernhard Sch\"olkopf(参考訳) 強化学習(rl)アルゴリズムは通常、かなりの量のインタラクションデータを必要とし、固定された環境での特定のタスクに対してのみうまく機能する。 しかしながら、医療などのいくつかのシナリオでは、通常、各患者に利用可能な記録はほとんどなく、患者は同じ治療に対する異なる反応を示すことがあるため、最適なポリシーを学ぶために現在のRLアルゴリズムの適用を妨げる。 本研究では, 構造因果モデル(SCM)を用いて, 対象間の共通性と相違を利用して推定される状態ダイナミクスをモデル化するデータ効率の高いRLアルゴリズムを提案する。 学習されたscmは、もし別の治療が受けられたら何が起こったのかを、事実上の推論を可能にします。 実際の(おそらくリスクの高い)探索を避け、限られた経験がバイアスのあるポリシーにつながる問題を軽減します。 本稿では,人口レベルと個人レベルの両方を学習するための対実的RLアルゴリズムを提案する。 本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。 合成および実世界のデータに対する実験結果から,提案手法の有効性が示された。

Reinforcement learning (RL) algorithms usually require a substantial amount of interaction data and perform well only for specific tasks in a fixed environment. In some scenarios such as healthcare, however, usually only few records are available for each patient, and patients may show different responses to the same treatment, impeding the application of current RL algorithms to learn optimal policies. To address the issues of mechanism heterogeneity and related data scarcity, we propose a data-efficient RL algorithm that exploits structural causal models (SCMs) to model the state dynamics, which are estimated by leveraging both commonalities and differences across subjects. The learned SCM enables us to counterfactually reason what would have happened had another treatment been taken. It helps avoid real (possibly risky) exploration and mitigates the issue that limited experiences lead to biased policies. We propose counterfactual RL algorithms to learn both population-level and individual-level policies. We show that counterfactual outcomes are identifiable under mild conditions and that Q- learning on the counterfactual-based augmented data set converges to the optimal value function. Experimental results on synthetic and real-world data demonstrate the efficacy of the proposed approach.
翻訳日:2021-05-03 03:07:58 公開日:2020-12-16
# カルマンフィルタを用いた前方衝突警報システムの逐次攻撃

Sequential Attacks on Kalman Filter-based Forward Collision Warning Systems ( http://arxiv.org/abs/2012.08704v1 )

ライセンス: Link先を確認
Yuzhe Ma, Jon Sharp, Ruizhe Wang, Earlence Fernandes, Xiaojin Zhu(参考訳) カルマンフィルタ(KF)は、逐次学習や変数推定を行うために様々な領域で広く使われている。 自動運転車の文脈では、KFは前方衝突警報(FCW)など多くの先進運転支援システム(ADAS)のコアコンポーネントを構成する。 状態(距離、速度など)を追跡する。 センサーの計測に基づく 関連する交通物体についてです KFのトラッキング出力は、しばしば下流ロジックに入力され、警告を生成する。 本稿では,前方衝突警告のより複雑な機械・人間ハイブリッドシステムの一部として,kfに対する敵意攻撃について検討する。 我々の攻撃目標は、KFに誤った状態推定を出力させ、誤った警告や遅延を発生させることで、人間のブレーキ決定に悪影響を及ぼすことです。 我々は,kfに供給される量量を順次操作し,最適操作を計算するための新しいモデル予測制御(mpc)手法を提案する。 シミュレーション運転環境で行った実験により、攻撃者は所望の目標時間に先立って測定を予定する操作により、FCW警告信号を変更できることが判明した。 これらの結果は、我々の攻撃が人間のドライバーをひそかに誤解させ、車両の衝突を引き起こすことを実証している。

Kalman Filter (KF) is widely used in various domains to perform sequential learning or variable estimation. In the context of autonomous vehicles, KF constitutes the core component of many Advanced Driver Assistance Systems (ADAS), such as Forward Collision Warning (FCW). It tracks the states (distance, velocity etc.) of relevant traffic objects based on sensor measurements. The tracking output of KF is often fed into downstream logic to produce alerts, which will then be used by human drivers to make driving decisions in near-collision scenarios. In this paper, we study adversarial attacks on KF as part of the more complex machine-human hybrid system of Forward Collision Warning. Our attack goal is to negatively affect human braking decisions by causing KF to output incorrect state estimations that lead to false or delayed alerts. We accomplish this by sequentially manipulating measure ments fed into the KF, and propose a novel Model Predictive Control (MPC) approach to compute the optimal manipulation. Via experiments conducted in a simulated driving environment, we show that the attacker is able to successfully change FCW alert signals through planned manipulation over measurements prior to the desired target time. These results demonstrate that our attack can stealthily mislead a distracted human driver and cause vehicle collisions.
翻訳日:2021-05-03 03:06:36 公開日:2020-12-16
# 公正攻撃によるアルゴリズムバイアスの悪化

Exacerbating Algorithmic Bias through Fairness Attacks ( http://arxiv.org/abs/2012.08723v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Muhammad Naveed, Fred Morstatter, Aram Galstyan(参考訳) 近年、アルゴリズム的公平性が注目され、さまざまな機械学習アルゴリズムの公平性を特徴付ける多くの定量的指標が提案されている。 この関心にもかかわらず、意図的敵意攻撃に対する公平度対策の堅牢性は適切に対処されていない。 実際、ほとんどの敵対的機械学習は、システムの公正性に関係なく、システムの正確性に対する悪意のある攻撃の影響に焦点を当てている。 本稿では,敵が意図的にシステムの公正性を狙う新たな種類のデータ中毒攻撃を提案する。 具体的には、フェアネス対策を狙う2つの攻撃群を提案する。 アンカー攻撃では、特定のターゲットポイントに毒点を配置することで決定境界を歪め、結果にバイアスを与える。 公平性に対する影響攻撃においては,敏感な属性と決定結果の共分散を最大化し,モデルの公平性に影響を与えることを目的とする。 提案攻撃の有効性を示す広範な実験を行った。

Algorithmic fairness has attracted significant attention in recent years, with many quantitative measures suggested for characterizing the fairness of different machine learning algorithms. Despite this interest, the robustness of those fairness measures with respect to an intentional adversarial attack has not been properly addressed. Indeed, most adversarial machine learning has focused on the impact of malicious attacks on the accuracy of the system, without any regard to the system's fairness. We propose new types of data poisoning attacks where an adversary intentionally targets the fairness of a system. Specifically, we propose two families of attacks that target fairness measures. In the anchoring attack, we skew the decision boundary by placing poisoned points near specific target points to bias the outcome. In the influence attack on fairness, we aim to maximize the covariance between the sensitive attributes and the decision outcome and affect the fairness of the model. We conduct extensive experiments that indicate the effectiveness of our proposed attacks.
翻訳日:2021-05-03 03:06:15 公開日:2020-12-16
# より業界に優しい:高効率設計による連合学習

More Industry-friendly: Federated Learning with High Efficient Design ( http://arxiv.org/abs/2012.08809v1 )

ライセンス: Link先を確認
Dingwei Li, Qinglong Chang, Lixue Pang, Yanfang Zhang, Xudong Sun, Jikun Ding, Liang Zhang(参考訳) Googleがフェデレートドラーニング(FL)のパラダイムを捨てて以来、多くの成果が達成されているが、研究者がその効率を最適化する余地は依然としてたくさんある。 本稿では,非iidデータセットに対するパーソナライズ最適化を目的としたダブルヘッド設計と通信節約のための段階的モデル共有設計を備えた高効率fl手法を提案する。 実験結果から,本手法は他の最先端技術手法 (sotas) よりも精度が安定し,様々なデータ分散間での通信効率が向上し,業界フレンドリーであることが判明した。

Although many achievements have been made since Google threw out the paradigm of federated learning (FL), there still exists much room for researchers to optimize its efficiency. In this paper, we propose a high efficient FL method equipped with the double head design aiming for personalization optimization over non-IID dataset, and the gradual model sharing design for communication saving. Experimental results show that, our method has more stable accuracy performance and better communication efficient across various data distributions than other state of art methods (SOTAs), makes it more industry-friendly.
翻訳日:2021-05-03 03:06:02 公開日:2020-12-16
# 非定常環境におけるベイズ決定モデルに基づくL'evy walk

L\'evy walks derived from a Bayesian decision-making model in non-stationary environments ( http://arxiv.org/abs/2012.08858v1 )

ライセンス: Link先を確認
Shuji Shinohara, Nobuhito Manome, Yoshihiro Nakajima, Yukio Pegio Gunji, Toru Moriyama, Hiroshi Okamoto, Shunji Mitsuyoshi, Ung-il Chung(参考訳) l\'evy walkは様々な生物の回遊行動パターンに見られ、この現象の理由はよく議論されている。 学習が非定常環境における意思決定時の信頼度レベルの変化を引き起こし、l\'evy-walkのようなパターンをもたらすことをシミュレーションを用いて実証する。 信頼を伴う推論アルゴリズムはベイズ推論である。 本稿では,ベイズ推論における学習と忘れの影響を紹介するアルゴリズムを提案し,提案アルゴリズムを組み込んだ2つの意思決定エージェントが,相手の観測データから互いの内部モデルを推定する模倣ゲームを提案する。 学習なしでは、エージェントの信頼度レベルは、相手に関する情報が不足しているため低く、ブラウンの歩行は、幅広い記憶喪失率で発生した。 逆に、学習が導入されたとき、高い信頼度は高い忘れ込み率でも時折発生し、ブラウンの歩行は、高信頼状態と低信頼状態が混在するL''evyの歩行となった。

L\'evy walks are found in the migratory behaviour patterns of various organisms, and the reason for this phenomenon has been much discussed. We use simulations to demonstrate that learning causes the changes in confidence level during decision-making in non-stationary environments, and results in L\'evy-walk-like patterns. One inference algorithm involving confidence is Bayesian inference. We propose an algorithm that introduces the effects of learning and forgetting into Bayesian inference, and simulate an imitation game in which two decision-making agents incorporating the algorithm estimate each other's internal models from their opponent's observational data. For forgetting without learning, agent confidence levels remained low due to a lack of information on the counterpart and Brownian walks occurred for a wide range of forgetting rates. Conversely, when learning was introduced, high confidence levels occasionally occurred even at high forgetting rates, and Brownian walks universally became L\'evy walks through a mixture of high- and low-confidence states.
翻訳日:2021-05-03 03:05:50 公開日:2020-12-16
# 知識グラフマイニングと説明可能なAIを用いたADR機構の検討

Investigating ADR mechanisms with knowledge graph mining and explainable AI ( http://arxiv.org/abs/2012.09077v1 )

ライセンス: Link先を確認
Emmanuel Bresso, Pierre Monnin, C\'edric Bousquet, Fran\c{c}ois-Elie Calvier, Ndeye-Coumba Ndiaye, Nadine Petitpain, Malika Sma\"il-Tabbone, Adrien Coulet(参考訳) 逆薬物反応(ADRs)は、ランダム化臨床試験や市販後の薬剤移動において特徴付けられるが、ほとんどの場合、その分子機構は分かっていない。 臨床試験とは別に、薬物成分に関する多くの知識要素がオープンアクセスナレッジグラフで利用可能である。 さらに、薬物をいくつかのADRに対して因果的または非因果的とみなす薬物分類が確立されている。 特定の種類のadrに対して薬剤因果を区別するかどうかを自動的に再現できる生体分子の特徴を同定するための知識グラフをマイニングする。 説明可能なaiの観点からは、分類自体を説明する人間の可読性モデルを提供するが、adrの背後にある分子メカニズムの説明要素を提供するため、決定木や分類規則のような単純な分類手法を探求する。 まとめると、我々は特徴の知識グラフを抽出し、ADRに関連付けられていない薬物を識別するための分類器を訓練し、専門家の分類を再現し、専門家によって解釈できる特徴(遺伝子オントロジー用語、薬物標的、経路名など)を分離し、手動で説明できるかどうかを評価する。 抽出された特徴は、DILIおよびSCARの薬剤因果関係の良好な忠実度分類で再現される。 専門家は、最も差別的な特徴の73%と38%は、それぞれDILIとSCARの解説であり、90%と77%で部分的に合意している(2/3)。 知識グラフは、シンプルで説明可能なモデルで、ADRに原因があるかどうかを区別するための多様な機能を提供します。 分類を説明することに加えて、ほとんどの識別的特徴はadr機構をさらに調査する良い候補であると考えられる。

Adverse Drug Reactions (ADRs) are characterized within randomized clinical trials and postmarketing pharmacovigilance, but their molecular mechanism remains unknown in most cases. Aside from clinical trials, many elements of knowledge about drug ingredients are available in open-access knowledge graphs. In addition, drug classifications that label drugs as either causative or not for several ADRs, have been established. We propose to mine knowledge graphs for identifying biomolecular features that may enable reproducing automatically expert classifications that distinguish drug causative or not for a given type of ADR. In an explainable AI perspective, we explore simple classification techniques such as Decision Trees and Classification Rules because they provide human-readable models, which explain the classification itself, but may also provide elements of explanation for molecular mechanisms behind ADRs. In summary, we mine a knowledge graph for features; we train classifiers at distinguishing, drugs associated or not with ADRs; we isolate features that are both efficient in reproducing expert classifications and interpretable by experts (i.e., Gene Ontology terms, drug targets, or pathway names); and we manually evaluate how they may be explanatory. Extracted features reproduce with a good fidelity classifications of drugs causative or not for DILI and SCAR. Experts fully agreed that 73% and 38% of the most discriminative features are possibly explanatory for DILI and SCAR, respectively; and partially agreed (2/3) for 90% and 77% of them. Knowledge graphs provide diverse features to enable simple and explainable models to distinguish between drugs that are causative or not for ADRs. In addition to explaining classifications, most discriminative features appear to be good candidates for investigating ADR mechanisms further.
翻訳日:2021-05-03 03:05:11 公開日:2020-12-16
# carla real traffic scenarios -- new training ground and benchmark for autonomous driving

CARLA Real Traffic Scenarios -- novel training ground and benchmark for autonomous driving ( http://arxiv.org/abs/2012.11329v1 )

ライセンス: Link先を確認
B{\l}a\.zej Osi\'nski, Piotr Mi{\l}o\'s, Adam Jakubowski, Pawe{\l} Zi\k{e}cina, Micha{\l} Martyniak, Christopher Galias, Antonia Breuer, Silviu Homoceanu, Henryk Michalewski(参考訳) 本研究は,実世界のトラヒックに基づくcarlaシミュレータにおいて,インタラクティブなトラヒックシナリオを導入する。 我々は数秒間続く戦術的タスクに集中しており、これは現在の制御方法では特に困難である。 carla real traffic scenarios (crts)は、自動運転システムの訓練とテストの場となることを目的としている。 この目的のために、パーミッシブライセンスの下でコードをオープンソース化し、ベースラインポリシーのセットを提示します。 CRTSは交通シナリオの現実性とシミュレーションの柔軟性を組み合わせる。 我々は強化学習アルゴリズムを用いてエージェントを訓練する。 競技警察の獲得方法を示し,観察型や報奨制度が訓練過程やエージェントの行動に与える影響を実験的に評価する。

This work introduces interactive traffic scenarios in the CARLA simulator, which are based on real-world traffic. We concentrate on tactical tasks lasting several seconds, which are especially challenging for current control methods. The CARLA Real Traffic Scenarios (CRTS) is intended to be a training and testing ground for autonomous driving systems. To this end, we open-source the code under a permissive license and present a set of baseline policies. CRTS combines the realism of traffic scenarios and the flexibility of simulation. We use it to train agents using a reinforcement learning algorithm. We show how to obtain competitive polices and evaluate experimentally how observation types and reward schemes affect the training process and the resulting agent's behavior.
翻訳日:2021-05-03 03:04:03 公開日:2020-12-16
# 変分量子アルゴリズム

Variational Quantum Algorithms ( http://arxiv.org/abs/2012.09265v1 )

ライセンス: Link先を確認
M. Cerezo, Andrew Arrasmith, Ryan Babbush, Simon C. Benjamin, Suguru Endo, Keisuke Fujii, Jarrod R. McClean, Kosuke Mitarai, Xiao Yuan, Lukasz Cincio, Patrick J. Coles(参考訳) 大規模量子系をシミュレートしたり、大規模線形代数問題を解くような応用は、計算コストが極端に高いため、古典コンピュータにとって非常に困難である。 量子コンピュータはこれらのアプリケーションをアンロックすることを約束するが、フォールトトレラントな量子コンピュータは数年は利用できないだろう。 現在利用可能な量子デバイスには、量子ビット数の制限や回路深さを制限するノイズプロセスなど、深刻な制約がある。 パラメトリズド量子回路の訓練に古典的最適化器を用いる変分量子アルゴリズム(vqas)は、これらの制約に対処するための主要な戦略として登場した。 VQAは現在、研究者が量子コンピュータのために想定した全てのアプリケーションに対して提案されており、量子優位を得るための最良の希望のようだ。 それでも、VQAの訓練性、正確性、効率性などの課題は残っている。 本稿では,VQAの分野の概要を紹介する。 さらに,これらの課題を克服する戦略や,量子的優位性を得る手段として利用するためのエキサイティングな展望についても論じる。

Applications such as simulating large quantum systems or solving large-scale linear algebra problems are immensely challenging for classical computers due their extremely high computational cost. Quantum computers promise to unlock these applications, although fault-tolerant quantum computers will likely not be available for several years. Currently available quantum devices have serious constraints, including limited qubit numbers and noise processes that limit circuit depth. Variational Quantum Algorithms (VQAs), which employ a classical optimizer to train a parametrized quantum circuit, have emerged as a leading strategy to address these constraints. VQAs have now been proposed for essentially all applications that researchers have envisioned for quantum computers, and they appear to the best hope for obtaining quantum advantage. Nevertheless, challenges remain including the trainability, accuracy, and efficiency of VQAs. In this review article we present an overview of the field of VQAs. Furthermore, we discuss strategies to overcome their challenges as well as the exciting prospects for using them as a means to obtain quantum advantage.
翻訳日:2021-05-03 03:03:49 公開日:2020-12-16
# 容器追跡のための学習アルゴリズム : レビュー

Learning-Based Algorithms for Vessel Tracking: A Review ( http://arxiv.org/abs/2012.08929v1 )

ライセンス: Link先を確認
Dengqiang Jia, Xiahai Zhuang(参考訳) 血管疾患の診断と治療において,効率的な血管追跡アルゴリズムの開発が重要である。 血管追跡は、キー(シード)ポイントの検出、中心線抽出、血管分割などの認識問題を解決することを目的としている。 血管の複雑な形態と血管造影の像特性に起因する血管追跡の問題を克服するために,広範な画像処理技術が開発されている。 本稿では,機械学習に基づく船舶追跡手法に関する文献レビューを行う。 まず、従来の機械学習ベースのアルゴリズムをレビューし、次にディープラーニングベースのフレームワークに関する一般的な調査を行う。 レビューした手法に基づいて,評価問題を提起する。 本論文は, 残りの治験と今後の研究に関する議論で締めくくられる。

Developing efficient vessel-tracking algorithms is crucial for imaging-based diagnosis and treatment of vascular diseases. Vessel tracking aims to solve recognition problems such as key (seed) point detection, centerline extraction, and vascular segmentation. Extensive image-processing techniques have been developed to overcome the problems of vessel tracking that are mainly attributed to the complex morphologies of vessels and image characteristics of angiography. This paper presents a literature review on vessel-tracking methods, focusing on machine-learning-based methods. First, the conventional machine-learning-based algorithms are reviewed, and then, a general survey of deep-learning-based frameworks is provided. On the basis of the reviewed methods, the evaluation issues are introduced. The paper is concluded with discussions about the remaining exigencies and future research.
翻訳日:2021-05-03 03:03:33 公開日:2020-12-16
# 網膜画像からの血管分割のための重み付き損失関数と群正規化による伝達学習

Transfer Learning Through Weighted Loss Function and Group Normalization for Vessel Segmentation from Retinal Images ( http://arxiv.org/abs/2012.09250v1 )

ライセンス: Link先を確認
Abdullah Sarhan, Jon Rokne, Reda Alhajj, and Andrew Crichton(参考訳) 血管の血管構造は緑内障や糖尿病網膜症などの網膜疾患の診断に重要である。 これらの血管の正確なセグメンテーションは、光学ディスクや光学カップのような網膜の物体の検出に役立ち、これらの領域に損傷があるかどうかを決定する。 また,血管構造は緑内障の診断に有用である。 デジタルイメージングとコンピュータビジョン技術の急速な発展は、網膜血管を分割するアプローチを開発する可能性を高めた。 本稿では,深層学習と伝達学習を併用した網膜血管の分節化手法を提案する。 我々は、U-Net構造をエンコーダとしてカスタマイズしたInceptionV3を使い、複数のスキップ接続を使ってデコーダを作った。 さらに,網膜画像におけるクラス不均衡の問題に対処するために重み付き損失関数を用いた。 さらに,この分野に新たなデータセットを寄贈した。 私たちは6つの公開データセットと新しく作成されたデータセットでこのアプローチをテストしました。 平均精度は95.60%、サイス係数は80.98%であった。 総合的な実験から得られた結果は、異なるソースから得られた網膜画像における血管の分画に対する我々のアプローチの堅牢性を示している。 提案手法は,他の手法よりもセグメンテーション精度が高い。

The vascular structure of blood vessels is important in diagnosing retinal conditions such as glaucoma and diabetic retinopathy. Accurate segmentation of these vessels can help in detecting retinal objects such as the optic disc and optic cup and hence determine if there are damages to these areas. Moreover, the structure of the vessels can help in diagnosing glaucoma. The rapid development of digital imaging and computer-vision techniques has increased the potential for developing approaches for segmenting retinal vessels. In this paper, we propose an approach for segmenting retinal vessels that uses deep learning along with transfer learning. We adapted the U-Net structure to use a customized InceptionV3 as the encoder and used multiple skip connections to form the decoder. Moreover, we used a weighted loss function to handle the issue of class imbalance in retinal images. Furthermore, we contributed a new dataset to this field. We tested our approach on six publicly available datasets and a newly created dataset. We achieved an average accuracy of 95.60% and a Dice coefficient of 80.98%. The results obtained from comprehensive experiments demonstrate the robustness of our approach to the segmentation of blood vessels in retinal images obtained from different sources. Our approach results in greater segmentation accuracy than other approaches.
翻訳日:2021-05-03 03:02:32 公開日:2020-12-16
# Mis-Predictionsとの衝突に注目した言語事前学習を支援する

Focusing More on Conflicts with Mis-Predictions Helps Language Pre-Training ( http://arxiv.org/abs/2012.08789v1 )

ライセンス: Link先を確認
Chen Xing, Wencong Xiao, Yong Li, Wei Lin(参考訳) 本研究では,事前学習における誤り予測の助けを借りて,言語事前学習手法の有効性を向上させることを提案する。 誤った予測と相反する意味論を持つ入力文中の単語を無視することは、事前学習時に誤予測を引き起こす原因になりがちである。 したがって、事前学習中の誤予測はモデルの悪焦点の検出器として機能すると仮定する。 入力文中の他の単語に重点を置きながら、誤った予測との衝突にもっと焦点を合わせるようにモデルをトレーニングすれば、誤った予測をより容易に修正でき、モデル全体をより良く訓練することができます。 この目的に向けて、ミス予測(McMisP)の文脈に焦点を合わせることを提案する。 McMisPでは、単語間の共起情報を記録し、矛盾する単語と誤予測を教師なしで検出する。 すると、McMisPはそのような情報を使って注意モジュールを誘導する。 特に、トランスフォーマーのいくつかの注意モジュールは、誤った予測とほとんど共起していない入力文の単語に焦点を合わせるように最適化されている。 結果から,McMisPはBERTとELECTRAを著しく高速化し,下流タスクにおける性能向上を図っている。

In this work, we propose to improve the effectiveness of language pre-training methods with the help of mis-predictions during pre-training. Neglecting words in the input sentence that have conflicting semantics with mis-predictions is likely to be the reason of generating mis-predictions at pre-training. Therefore, we hypothesis that mis-predictions during pre-training can act as detectors of the ill focuses of the model. If we train the model to focus more on the conflicts with the mis-predictions while focus less on the rest words in the input sentence, the mis-predictions can be more easily corrected and the entire model could be better trained. Towards this end, we introduce Focusing Less on Context of Mis-predictions(McMisP). In McMisP, we record the co-occurrence information between words to detect the conflicting words with mis-predictions in an unsupervised way. Then McMisP uses such information to guide the attention modules when a mis-prediction occurs. Specifically, several attention modules in the Transformer are optimized to focus more on words in the input sentence that have co-occurred rarely with the mis-predictions and vice versa. Results show that McMisP significantly expedites BERT and ELECTRA and improves their performances on downstream tasks.
翻訳日:2021-05-03 03:01:26 公開日:2020-12-16
# Show or Tell? 説明は説明よりも共有知覚の変化にロバストである

Show or Tell? Demonstration is More Robust to Changes in Shared Perception than Explanation ( http://arxiv.org/abs/2012.09035v1 )

ライセンス: Link先を確認
Theodore R. Sumers, Mark K. Ho, Thomas L. Griffiths(参考訳) 成功する教育には、教師と学習者の間の複雑な相互作用が伴う。 教師は、学習者が知覚し、信じるものに基づいて情報を選択し、伝達しなければならない。 教育学の研究は、教師と学習者が認識を共有する状況に焦点を当てていることが多い。 それにもかかわらず、教師と学習者は常に環境の同じ側面を経験したり経験したりするとは限らない。 本稿では,誤認識がコミュニケーションに与える影響について考察する。 異なる形態のコミュニケーションの有効性は、教師と学習者の間で共有される知覚状態に依存すると仮定する。 我々は,教師と学習者が知覚的に一致していない場合に,具体的媒体(デモ)が抽象的媒体(言語)よりも堅牢であるかどうかをテストするための協調学習ゲームを開発する。 その結果,(1)言語に基づく授業は知覚的不適応の影響を受けやすいが,(2)実演に基づく教育はニュアンス情報を伝達する可能性が低いことがわかった。 人間の教育と機械学習について考察する。

Successful teaching entails a complex interaction between a teacher and a learner. The teacher must select and convey information based on what they think the learner perceives and believes. Teaching always involves misaligned beliefs, but studies of pedagogy often focus on situations where teachers and learners share perceptions. Nonetheless, a teacher and learner may not always experience or attend to the same aspects of the environment. Here, we study how misaligned perceptions influence communication. We hypothesize that the efficacy of different forms of communication depends on the shared perceptual state between teacher and learner. We develop a cooperative teaching game to test whether concrete mediums (demonstrations, or "showing") are more robust than abstract ones (language, or "telling") when the teacher and learner are not perceptually aligned. We find evidence that (1) language-based teaching is more affected by perceptual misalignment, but (2) demonstration-based teaching is less likely to convey nuanced information. We discuss implications for human pedagogy and machine learning.
翻訳日:2021-05-03 03:00:58 公開日:2020-12-16
# 帰納的関係推論のためのコミュニケーションメッセージパッシング

Communicative Message Passing for Inductive Relation Reasoning ( http://arxiv.org/abs/2012.08911v1 )

ライセンス: Link先を確認
Sijie Mai, Shuangjia Zheng, Yuedong Yang, Haifeng Hu(参考訳) 知識グラフの関連性予測は、エンティティ間の欠落関係を予測することを目的としている。 帰納的関係予測の重要性にもかかわらず、以前の作品のほとんどはトランスダクティブな設定に限られており、以前は目に見えない実体を処理できない。 最近提案された部分グラフに基づく関係推論モデルは、候補トリプレットをインダクティブに囲む部分グラフ構造からリンクを予測する代替手段を提供した。 しかし,これらの手法は,抽出した部分グラフの有向性を無視し,部分グラフモデリングにおける関係情報の役割を弱めることが多い。 その結果、非対称/反対称三重項を効果的に扱うことができず、標的三重項への埋め込みが不十分である。 この目的のために、局所的な有向部分グラフ構造に起因し、エンティティに依存しない意味関係を処理するために活発な帰納的バイアスを持つ、 \textbf{C}\textbf{o}mmunicative \textbf{M}essage \textbf{P}assing Neural Network for \textbf{I}nductive re\textbf{L}ation r\textbf{E}asoning, \textbf{CoMPILE} を導入する。 既存のモデルとは対照的に、CoMPILEは通信カーネルを介してエッジとタイトル間のメッセージインタラクションを強化し、関係情報の十分なフローを可能にする。 さらに,非対称/反対称関係を自然に処理できることを示すため,有向包含部分グラフを抽出し,モデルパラメータ数を爆発的に増加させる必要がなくなる。 広範囲な実験により、変種インダクティブ設定で一般的に使用されるベンチマークデータセットの最先端メソッドと比較して、実質的なパフォーマンス向上を示す。

Relation prediction for knowledge graphs aims at predicting missing relationships between entities. Despite the importance of inductive relation prediction, most previous works are limited to a transductive setting and cannot process previously unseen entities. The recent proposed subgraph-based relation reasoning models provided alternatives to predict links from the subgraph structure surrounding a candidate triplet inductively. However, we observe that these methods often neglect the directed nature of the extracted subgraph and weaken the role of relation information in the subgraph modeling. As a result, they fail to effectively handle the asymmetric/anti-symmetric triplets and produce insufficient embeddings for the target triplets. To this end, we introduce a \textbf{C}\textbf{o}mmunicative \textbf{M}essage \textbf{P}assing neural network for \textbf{I}nductive re\textbf{L}ation r\textbf{E}asoning, \textbf{CoMPILE}, that reasons over local directed subgraph structures and has a vigorous inductive bias to process entity-independent semantic relations. In contrast to existing models, CoMPILE strengthens the message interactions between edges and entitles through a communicative kernel and enables a sufficient flow of relation information. Moreover, we demonstrate that CoMPILE can naturally handle asymmetric/anti-symmetric relations without the need for explosively increasing the number of model parameters by extracting the directed enclosing subgraphs. Extensive experiments show substantial performance gains in comparison to state-of-the-art methods on commonly used benchmark datasets with variant inductive settings.
翻訳日:2021-05-03 03:00:34 公開日:2020-12-16
# 生産・生産における知識グラフ : 体系的文献レビュー

Knowledge Graphs in Manufacturing and Production: A Systematic Literature Review ( http://arxiv.org/abs/2012.09049v1 )

ライセンス: Link先を確認
Georg Buchgeher, David Gabauer, Jorge Martinez-Gil, Lisa Ehrlinger(参考訳) 製造および生産における知識グラフは、生産ラインをより高い品質の出力でより効率的かつ柔軟にすることを目的としている。 これにより、知識グラフは企業が産業の4.0の目標に達するのを魅力的にしている。 しかし、この分野における既存の研究は非常に予備的であり、製造・生産分野における知識グラフの適用方法を分析するためのさらなる研究が必要である。 そこで我々は,この分野の最先端を特徴づける試みとして,退出研究を同定し,さらなる研究のためのギャップと機会を識別し,体系的な文献レビューを行った。 そこで本研究では,文献の重要事実,研究型ファセット,知識グラフの特徴,応用シナリオの4つの基準に従って分類・分析された既存文献の主研究の発見に焦点をあてた。 さらに,方法論,実証的証拠,関連性の観点からより深い知見を得るために,本研究の評価も行われている。 その結果、知識融合が現在、知識グラフの主要なユースケースであるという事実、経験的研究と産業的応用が依然として欠落していること、グラフ埋め込みが十分に活用されていないこと、技術的文献が急速に成長しているにもかかわらずピークには程遠いと思われることなど、ドメインの全体像を提供することができる。

Knowledge graphs in manufacturing and production aim to make production lines more efficient and flexible with higher quality output. This makes knowledge graphs attractive for companies to reach Industry 4.0 goals. However, existing research in the field is quite preliminary, and more research effort on analyzing how knowledge graphs can be applied in the field of manufacturing and production is needed. Therefore, we have conducted a systematic literature review as an attempt to characterize the state-of-the-art in this field, i.e., by identifying exiting research and by identifying gaps and opportunities for further research. To do that, we have focused on finding the primary studies in the existing literature, which were classified and analyzed according to four criteria: bibliometric key facts, research type facets, knowledge graph characteristics, and application scenarios. Besides, an evaluation of the primary studies has also been carried out to gain deeper insights in terms of methodology, empirical evidence, and relevance. As a result, we can offer a complete picture of the domain, which includes such interesting aspects as the fact that knowledge fusion is currently the main use case for knowledge graphs, that empirical research and industrial application are still missing to a large extent, that graph embeddings are not fully exploited, and that technical literature is fast-growing but seems to be still far from its peak.
翻訳日:2021-05-03 02:59:54 公開日:2020-12-16
# 特徴分離とアライメントによるドメイン適応オブジェクト検出

Domain Adaptive Object Detection via Feature Separation and Alignment ( http://arxiv.org/abs/2012.08689v1 )

ライセンス: Link先を確認
Chengyang Liang, Zixiang Zhao, Junmin Liu, Jiangshe Zhang(参考訳) 近年,対向型ドメイン適応オブジェクト検出法(DAOD)が急速に開発されている。 しかし、緊急に解決しなければならない問題が2つある。 まず、各ドメインのプライベート情報を無視しながら、ソースとターゲットドメインの全ての機能を整列させることで、多くのメソッドが分散シフトを減らす。 第二に、DAODは画像内の既存の領域に特徴アライメントを考慮すべきである。 しかし、領域の提案とバックグラウンドノイズの冗長性は、ドメインの転送可能性を減らす可能性がある。 そこで,grey-scale feature separation (gsfs) モジュール,local-global feature alignment (lgfa) モジュール,および region-instance-level alignment (rila) モジュールからなる特徴分離アライメントネットワーク (fsanet) を構築した。 GSFSモジュールは、二重ストリームフレームワークによる検出で役に立たない、散在/共有された情報を分解し、本質的なオブジェクト機能に集中し、最初の問題を解決する。 そして、LGFAとRILAモジュールはマルチレベル機能の分散シフトを低減する。 特に、スケールスペースフィルタリングはアライン化すべき領域の適応的探索の実装に活用され、各領域のインスタンスレベルの特徴を洗練し、第2号で述べた冗長性とノイズを低減する。 複数のベンチマークデータセットに対する様々な実験により、FSANetはターゲット領域の検出においてより良いパフォーマンスを達成し、最先端の手法を超えることが証明された。

Recently, adversarial-based domain adaptive object detection (DAOD) methods have been developed rapidly. However, there are two issues that need to be resolved urgently. Firstly, numerous methods reduce the distributional shifts only by aligning all the feature between the source and target domain, while ignoring the private information of each domain. Secondly, DAOD should consider the feature alignment on object existing regions in images. But redundancy of the region proposals and background noise could reduce the domain transferability. Therefore, we establish a Feature Separation and Alignment Network (FSANet) which consists of a gray-scale feature separation (GSFS) module, a local-global feature alignment (LGFA) module and a region-instance-level alignment (RILA) module. The GSFS module decomposes the distractive/shared information which is useless/useful for detection by a dual-stream framework, to focus on intrinsic feature of objects and resolve the first issue. Then, LGFA and RILA modules reduce the distributional shifts of the multi-level features. Notably, scale-space filtering is exploited to implement adaptive searching for regions to be aligned, and instance-level features in each region are refined to reduce redundancy and noise mentioned in the second issue. Various experiments on multiple benchmark datasets prove that our FSANet achieves better performance on the target domain detection and surpasses the state-of-the-art methods.
翻訳日:2021-05-03 02:59:30 公開日:2020-12-16
# セルフディープマッチングによる2段階コピーモーブ偽造検出と提案スーパーグルー

Two-Stage Copy-Move Forgery Detection with Self Deep Matching and Proposal SuperGlue ( http://arxiv.org/abs/2012.08697v1 )

ライセンス: Link先を確認
Yaqi Liu and Chao Xia and Xiaobin Zhu and Shengwei Xu(参考訳) コピーモーブ偽造検出は、同一画像中のペースト領域とソース領域を検出して改ざん画像を特定する。 本稿では,コピーモーブ偽造検出のための新しい二段階フレームワークを提案する。 第1ステージはバックボーンのセルフディープマッチングネットワークで、第2ステージはプロポーザル・スーパーグルーと名付けられている。 第1段階では、アトラス畳み込みとスキップマッチングが組み込まれ、空間情報を豊かにし、階層的特徴を活用する。 空間的注意は自己相関に基づいて構築され、外観に類似した領域を見つける能力を強化する。 第2段階では、偽アラーム領域を除去し、不完全領域を修復する提案が提案されている。 特に提案選択戦略は,提案生成とバックボーンスコアマップに基づいて,高度に疑わしい領域を囲むように設計されている。 次に、深層学習に基づくキーポイント抽出とマッチング、すなわちSuperPointとSuperGlueによって、候補提案の間でペアワイズマッチングを行う。 統合スコアマップ生成および改良手法は、両方のステージの結果を統合し、最適化された結果を得るように設計されている。 この二段階フレームワークは,疑わしい提案を得ることにより,エンドツーエンドのディープマッチングとキーポイントマッチングを統一し,コピーモブ偽造検出におけるディープラーニング研究のための新たなゲートを開く。 公開データセットの実験では、2段階フレームワークの有効性が示されています。

Copy-move forgery detection identifies a tampered image by detecting pasted and source regions in the same image. In this paper, we propose a novel two-stage framework specially for copy-move forgery detection. The first stage is a backbone self deep matching network, and the second stage is named as Proposal SuperGlue. In the first stage, atrous convolution and skip matching are incorporated to enrich spatial information and leverage hierarchical features. Spatial attention is built on self-correlation to reinforce the ability to find appearance similar regions. In the second stage, Proposal SuperGlue is proposed to remove false-alarmed regions and remedy incomplete regions. Specifically, a proposal selection strategy is designed to enclose highly suspected regions based on proposal generation and backbone score maps. Then, pairwise matching is conducted among candidate proposals by deep learning based keypoint extraction and matching, i.e., SuperPoint and SuperGlue. Integrated score map generation and refinement methods are designed to integrate results of both stages and obtain optimized results. Our two-stage framework unifies end-to-end deep matching and keypoint matching by obtaining highly suspected proposals, and opens a new gate for deep learning research in copy-move forgery detection. Experiments on publicly available datasets demonstrate the effectiveness of our two-stage framework.
翻訳日:2021-05-03 02:59:06 公開日:2020-12-16
# ランダムサンプル画像からの視覚情報推定の難しさ

Difficulty in estimating visual information from randomly sampled images ( http://arxiv.org/abs/2012.08751v1 )

ライセンス: Link先を確認
Masaki Kitayama, Hitoshi Kiya(参考訳) 本稿では,次元的に縮小した画像からオリジナル画像の視覚情報を推定することの難易度の観点から次元性低減法を評価する。 近年、ランダム変数の数を減少させるだけでなく、プライバシー保護機械学習のための視覚情報を保護するプロセスとして、次元減少が注目されている。 このような理由から,視覚情報推定の難しさについて論じる。 特に,プライバシ保全機械学習のために提案されたランダムサンプリング法を,典型的な次元性低減法と比較した。 画像分類実験において, ランダムサンプリング法は, 空間情報の不変性を維持しつつ, 高い難易度を有するだけでなく, 他の次元削減法と同等であることを示す。

In this paper, we evaluate dimensionality reduction methods in terms of difficulty in estimating visual information on original images from dimensionally reduced ones. Recently, dimensionality reduction has been receiving attention as the process of not only reducing the number of random variables, but also protecting visual information for privacy-preserving machine learning. For such a reason, difficulty in estimating visual information is discussed. In particular, the random sampling method that was proposed for privacy-preserving machine learning, is compared with typical dimensionality reduction methods. In an image classification experiment, the random sampling method is demonstrated not only to have high difficulty, but also to be comparable to other dimensionality reduction methods, while maintaining the property of spatial information invariant.
翻訳日:2021-05-03 02:57:49 公開日:2020-12-16
# CTスライスにおけるユニバーサル病変検出のための事前トレーニングによる3次元コンテキストモデリングの再検討

Revisiting 3D Context Modeling with Supervised Pre-training for Universal Lesion Detection in CT Slices ( http://arxiv.org/abs/2012.08770v1 )

ライセンス: Link先を確認
Shu Zhang, Jincheng Xu, Yu-Chun Chen, Jiechao Ma, Zihao Li, Yizhou Wang and Yizhou Yu(参考訳) CTスライスからのユニバーサル病変検出は,包括的疾患検診において重要である。 各病変は複数の隣接スライスに配置できるため、3次元コンテキストモデリングは自動病変検出アルゴリズムを開発する上で非常に重要である。 本研究では,深部分離可能な畳み込みフィルタとグループ変換モジュール(GTM)を利用して,CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2次元特徴を効率よく抽出する改良された擬似3D特徴ピラミッドネットワーク(MP3D FPN)を提案する。 より高速な収束を実現するため,自然画像領域における大規模2次元物体検出データセットのみを用いて,新しい3Dネットワーク事前学習手法を導出する。 本研究では,新たに開発したmp3d fpnがdeeplesionデータセット(fps@0.5の感度の絶対値が3.48%)で最先端検出性能を達成し,最大6.06% (map@0.5) の精度で3次元コンテキストモデリングに2次元畳み込みを適用した。 さらに,提案する3次元事前学習重みは,他の3次元医用画像解析タスクの性能向上に有用である可能性が示唆された。

Universal lesion detection from computed tomography (CT) slices is important for comprehensive disease screening. Since each lesion can locate in multiple adjacent slices, 3D context modeling is of great significance for developing automated lesion detection algorithms. In this work, we propose a Modified Pseudo-3D Feature Pyramid Network (MP3D FPN) that leverages depthwise separable convolutional filters and a group transform module (GTM) to efficiently extract 3D context enhanced 2D features for universal lesion detection in CT slices. To facilitate faster convergence, a novel 3D network pre-training method is derived using solely large-scale 2D object detection dataset in the natural image domain. We demonstrate that with the novel pre-training method, the proposed MP3D FPN achieves state-of-the-art detection performance on the DeepLesion dataset (3.48% absolute improvement in the sensitivity of FPs@0.5), significantly surpassing the baseline method by up to 6.06% (in MAP@0.5) which adopts 2D convolution for 3D context modeling. Moreover, the proposed 3D pre-trained weights can potentially be used to boost the performance of other 3D medical image analysis tasks.
翻訳日:2021-05-03 02:57:36 公開日:2020-12-16
# C2F-FWN:空間的一貫した運動伝達のための粗対有限フローワーピングネットワーク

C2F-FWN: Coarse-to-Fine Flow Warping Network for Spatial-Temporal Consistent Motion Transfer ( http://arxiv.org/abs/2012.08976v1 )

ライセンス: Link先を確認
Dongxu Wei, Xiaowei Xu, Haibin Shen, Kejie Huang(参考訳) HVMT(Human Video Motion Transfer)は、ある人が他人の行動を模倣したビデオを合成することを目的としている。 既存のGANベースのHVMT法は大きな成功を収めているが、合成画像と模範画像の間の空間的整合性の欠如による外観の保存に失敗するか、ビデオフレーム間の時間的整合性の欠如による不整合性ビデオ結果を生成する。 本稿では,空間的時間的一貫したHVMTのためのC2F-FWN(Carse-to-Fine Flow Warping Network)を提案する。 特に、C2F-FWNは粗大なフローワーピングとLayout-Constrained Deformable Convolution (LC-DConv)を使用して空間的一貫性を改善し、時間的一貫性を高めるためにFlow Temporal Consistency (FTC) Lossを使用している。 さらに、複数ソースの外観入力を備えたc2f-fwnは、高い柔軟性と効率性で外観属性編集をサポートできる。 公開データセットに加えて、評価のためにSoloDanceという大規模なHVMTデータセットも収集しました。 当社のsolodanceデータセットとiperデータセットで行った広範な実験により,我々は空間的および時間的一貫性の観点から,最先端のhvmt法よりも優れた手法を示した。 ソースコードとsolodanceデータセットはhttps://github.com/wswdx/c2f-fwnで入手できる。

Human video motion transfer (HVMT) aims to synthesize videos that one person imitates other persons' actions. Although existing GAN-based HVMT methods have achieved great success, they either fail to preserve appearance details due to the loss of spatial consistency between synthesized and exemplary images, or generate incoherent video results due to the lack of temporal consistency among video frames. In this paper, we propose Coarse-to-Fine Flow Warping Network (C2F-FWN) for spatial-temporal consistent HVMT. Particularly, C2F-FWN utilizes coarse-to-fine flow warping and Layout-Constrained Deformable Convolution (LC-DConv) to improve spatial consistency, and employs Flow Temporal Consistency (FTC) Loss to enhance temporal consistency. In addition, provided with multi-source appearance inputs, C2F-FWN can support appearance attribute editing with great flexibility and efficiency. Besides public datasets, we also collected a large-scale HVMT dataset named SoloDance for evaluation. Extensive experiments conducted on our SoloDance dataset and the iPER dataset show that our approach outperforms state-of-art HVMT methods in terms of both spatial and temporal consistency. Source code and the SoloDance dataset are available at https://github.com/wswdx/C2F-FWN.
翻訳日:2021-05-03 02:57:12 公開日:2020-12-16
# ベクトル流とグレースケールによる描画過程によるスケッチ生成

Sketch Generation with Drawing Process Guided by Vector Flow and Grayscale ( http://arxiv.org/abs/2012.09004v1 )

ライセンス: Link先を確認
Zhengyan Tong, Xuanhong Chen, Bingbing Ni, Xiaohang Wang(参考訳) 高品質な鉛筆スケッチを生成するだけでなく,描画プロセスも提供できる新しい画像-ペンシル変換法を提案する。 既存の鉛筆スケッチアルゴリズムは、ストロークの直接の模倣ではなく、テクスチャレンダリングに基づいており、描画プロセスは表示できないが最終的な結果に過ぎない。 この課題に対処するため,まず鉛筆ストローク模倣機構を確立する。 次に、ストローク描画を導く3つのブランチからなるフレームワークを開発し、第1のブランチがストロークの方向を案内し、第2のブランチがストロークのシェードを決定し、第3のブランチがさらに詳細を強化する。 このフレームワークのガイダンスでは、毎回1ストロークを描くことで、鉛筆のスケッチを作成できる。 我々の方法は完全に解釈できる。 既存の鉛筆描画アルゴリズムと比較すると,本手法はテクスチャ品質,スタイル,ユーザ評価の点で他よりも優れている。

We propose a novel image-to-pencil translation method that could not only generate high-quality pencil sketches but also offer the drawing process. Existing pencil sketch algorithms are based on texture rendering rather than the direct imitation of strokes, making them unable to show the drawing process but only a final result. To address this challenge, we first establish a pencil stroke imitation mechanism. Next, we develop a framework with three branches to guide stroke drawing: the first branch guides the direction of the strokes, the second branch determines the shade of the strokes, and the third branch enhances the details further. Under this framework's guidance, we can produce a pencil sketch by drawing one stroke every time. Our method is fully interpretable. Comparison with existing pencil drawing algorithms shows that our method is superior to others in terms of texture quality, style, and user evaluation.
翻訳日:2021-05-03 02:56:44 公開日:2020-12-16
# I3DOL: カタストロフィック・フォーミングを伴わないインクリメンタル3Dオブジェクト学習

I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting ( http://arxiv.org/abs/2012.09014v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma and Lichen Wang(参考訳) 3Dオブジェクト分類は、学術研究や産業応用において注目されている。 しかし、既存のほとんどのメソッドは、一般的な現実のシナリオに直面しているときに、過去の3Dオブジェクトクラスのトレーニングデータにアクセスする必要がある。 さらに、3次元点雲データの不規則かつ冗長な幾何学構造のため、過去の学習クラス(すなわち破滅的な忘れ方)では高度なアプローチの性能が劇的に低下する。 これらの課題に対処するため,我々は新しいインクリメンタル3Dオブジェクト学習モデル(I3DOL)を提案し,これが3Dオブジェクトの新しいクラスを継続的に学習する最初の試みである。 具体的には,3次元物体に対する不規則点雲表現をよりよく特徴付けることのできる,局所的な識別的局所幾何学構造を構築するために,適応幾何学式セントロイドモジュールを設計する。 その後,冗長な幾何学的情報によってもたらされる破滅的な忘れを防止すべく,局所幾何学的構造の寄与を定量化し,授業インクリメンタル学習に高い寄与を持つユニークな3次元幾何学的特徴を探索するための幾何学的認識注意機構が開発された。 一方, 評価段階における新たなクラスに対するバイアス予測を補正することにより, 過去と新クラスの3Dオブジェクト間の不均衡データによる壊滅的忘れを緩和するスコアフェアネス補償戦略を提案する。 3次元代表データセットの実験は、i3dolフレームワークの優位性を検証する。

3D object classification has attracted appealing attentions in academic researches and industrial applications. However, most existing methods need to access the training data of past 3D object classes when facing the common real-world scenario: new classes of 3D objects arrive in a sequence. Moreover, the performance of advanced approaches degrades dramatically for past learned classes (i.e., catastrophic forgetting), due to the irregular and redundant geometric structures of 3D point cloud data. To address these challenges, we propose a new Incremental 3D Object Learning (i.e., I3DOL) model, which is the first exploration to learn new classes of 3D object continually. Specifically, an adaptive-geometric centroid module is designed to construct discriminative local geometric structures, which can better characterize the irregular point cloud representation for 3D object. Afterwards, to prevent the catastrophic forgetting brought by redundant geometric information, a geometric-aware attention mechanism is developed to quantify the contributions of local geometric structures, and explore unique 3D geometric characteristics with high contributions for classes incremental learning. Meanwhile, a score fairness compensation strategy is proposed to further alleviate the catastrophic forgetting caused by unbalanced data between past and new classes of 3D object, by compensating biased prediction for new classes in the validation phase. Experiments on 3D representative datasets validate the superiority of our I3DOL framework.
翻訳日:2021-05-03 02:56:27 公開日:2020-12-16
# 複合タスク:タスクの空間構成による画像理解

CompositeTasking: Understanding Images by Spatial Composition of Tasks ( http://arxiv.org/abs/2012.09030v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Thomas Probst, Guolei Sun, Luc Van Gool(参考訳) 本稿では,画像理解の様々な側面において,複合タスクの概念を,複数の空間分布タスクの融合として定義する。 空間的に分散されたタスクを学習することは、タスク間でスパースラベルのみを頻繁に利用できることと、コンパクトなマルチタスクネットワークへの欲求によって動機づけられる。 複合タスクを容易にするために,複数の空間的に異なるタスクを同時に実行する単一エンコーダデコーダネットワークである新しいタスクコンディショニングモデルを導入する。 提案するネットワークは、画像のペアと画素毎の濃密なタスクのセットを入力として、どのタスクをどこに適用するかの決定を含む各ピクセルのタスク関連予測を行う。 後者については、いくつかの複合タスクルールに従って実行する必要があるタスクの構成を学習する。 マルチタスクのためのコンパクトなネットワークを提供するだけでなく、タスク編集も可能です。 提案手法の強みは,タスクごとのスパース・インシデントのみを必要とすることで示される。 得られた結果は,高密度監視とマルチヘッドマルチタスク設計を用いたベースラインと同等である。 ソースコードはwww.github.com/nikola3794/composite-taskingで公開されている。

We define the concept of CompositeTasking as the fusion of multiple, spatially distributed tasks, for various aspects of image understanding. Learning to perform spatially distributed tasks is motivated by the frequent availability of only sparse labels across tasks, and the desire for a compact multi-tasking network. To facilitate CompositeTasking, we introduce a novel task conditioning model -- a single encoder-decoder network that performs multiple, spatially varying tasks at once. The proposed network takes a pair of an image and a set of pixel-wise dense tasks as inputs, and makes the task related predictions for each pixel, which includes the decision of applying which task where. As to the latter, we learn the composition of tasks that needs to be performed according to some CompositeTasking rules. It not only offers us a compact network for multi-tasking, but also allows for task-editing. The strength of the proposed method is demonstrated by only having to supply sparse supervision per task. The obtained results are on par with our baselines that use dense supervision and a multi-headed multi-tasking design. The source code will be made publicly available at www.github.com/nikola3794/composite-tasking .
翻訳日:2021-05-03 02:56:02 公開日:2020-12-16
# 新しい視覚領域における新しい意味概念認識に向けて

Towards Recognizing New Semantic Concepts in New Visual Domains ( http://arxiv.org/abs/2012.09058v1 )

ライセンス: Link先を確認
Massimiliano Mancini(参考訳) ディープラーニングモデルは、トレーニングのために大規模な注釈付きデータセットに大きく依存している。 残念ながら、データセットは現実世界の無限の変動を捉えられないため、ニューラルネットワークは本質的に、トレーニングセットに含まれる制限された視覚的および意味的な情報によって制限される。 この論文では、未確認の視覚領域で動作し、新しい意味概念を認識できる深層アーキテクチャを設計することが重要であると論じる。 論文の第1部では、ラベル付きソースドメインからラベル付きデータがないドメイン(ターゲット)に知識を転送することで、深層モデルを新たなビジュアルドメインに一般化するための、異なるソリューションについて記述する。 我々は、ソースとターゲットが複数の潜在ドメインの混合である場合のドメイン適応から、ドメインの一般化、連続的なドメイン適応、そして、ターゲットドメインに関する情報がメタデータの形でのみ利用できる予測的ドメイン適応まで、バッチ正規化(bn)の変種がどのように異なるシナリオに適用できるかを示す。 論文の第2部では、事前学習された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。 タスク固有のバイナリマスク,オープンワールド認識,エンドツーエンドのトレーニングとクラスタ化,セマンティックセグメンテーションにおけるインクリメンタルなクラス学習といった,逐次的マルチタスク学習のシナリオを取り上げ,背景クラスのセマンティックシフトの問題を強調し,対処する。 最後に、複数のドメインとセマンティックカテゴリのイメージ(属性を含む)が与えられた場合、目に見えないドメインの概念のイメージを認識するモデルをどのように構築するかという課題に取り組みます。 また、この問題を解決するための第一歩として、入力と特徴のドメインとセマンティックな混合に基づくアプローチを提案する。

Deep learning models heavily rely on large scale annotated datasets for training. Unfortunately, datasets cannot capture the infinite variability of the real world, thus neural networks are inherently limited by the restricted visual and semantic information contained in their training set. In this thesis, we argue that it is crucial to design deep architectures that can operate in previously unseen visual domains and recognize novel semantic concepts. In the first part of the thesis, we describe different solutions to enable deep models to generalize to new visual domains, by transferring knowledge from a labeled source domain(s) to a domain (target) where no labeled data are available. We will show how variants of batch-normalization (BN) can be applied to different scenarios, from domain adaptation when source and target are mixtures of multiple latent domains, to domain generalization, continuous domain adaptation, and predictive domain adaptation, where information about the target domain is available only in the form of metadata. In the second part of the thesis, we show how to extend the knowledge of a pretrained deep model to new semantic concepts, without access to the original training set. We address the scenarios of sequential multi-task learning, using transformed task-specific binary masks, open-world recognition, with end-to-end training and enforced clustering, and incremental class learning in semantic segmentation, where we highlight and address the problem of the semantic shift of the background class. In the final part, we tackle a more challenging problem: given images of multiple domains and semantic categories (with their attributes), how to build a model that recognizes images of unseen concepts in unseen domains? We also propose an approach based on domain and semantic mixing of inputs and features, which is a first, promising step towards solving this problem.
翻訳日:2021-05-03 02:55:43 公開日:2020-12-16
# 点変圧器

Point Transformer ( http://arxiv.org/abs/2012.09164v1 )

ライセンス: Link先を確認
Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun(参考訳) 自己追跡ネットワークは自然言語処理に革命をもたらし、画像分類やオブジェクト検出などの画像解析タスクにおいて印象的な進歩を遂げている。 この成功に触発されて、3Dポイントクラウド処理への自己注意ネットワークの適用について検討する。 我々はポイントクラウドのための自己注意層を設計し、これらを用いてセマンティックシーンセグメンテーション、オブジェクト部分セグメンテーション、オブジェクト分類などのタスクのための自己注意ネットワークを構築する。 ポイントトランスフォーマーの設計は、ドメインやタスク間の事前作業を改善する。 例えば、大規模セマンティックシーンセグメンテーションのための挑戦的なS3DISデータセットでは、ポイントトランスフォーマーがエリア5で70.4%のmIoUに達し、最強の先行モデルよりも3.3絶対パーセンテージで、初めて70% mIoU閾値を超えた。

Self-attention networks have revolutionized natural language processing and are making impressive strides in image analysis tasks such as image classification and object detection. Inspired by this success, we investigate the application of self-attention networks to 3D point cloud processing. We design self-attention layers for point clouds and use these to construct self-attention networks for tasks such as semantic scene segmentation, object part segmentation, and object classification. Our Point Transformer design improves upon prior work across domains and tasks. For example, on the challenging S3DIS dataset for large-scale semantic scene segmentation, the Point Transformer attains an mIoU of 70.4% on Area 5, outperforming the strongest prior model by 3.3 absolute percentage points and crossing the 70% mIoU threshold for the first time.
翻訳日:2021-05-03 02:54:56 公開日:2020-12-16
# コントラスト的シーンコンテキストを用いたデータ効率のよい3次元シーン理解の探索

Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts ( http://arxiv.org/abs/2012.09165v1 )

ライセンス: Link先を確認
Ji Hou, Benjamin Graham, Matthias Nie{\ss}ner, Saining Xie(参考訳) 3Dシーン理解の急速な進歩は、データに対する需要の高まりとともにいるが、3Dシーンの収集や注釈付け(例)は行われている。 点雲)は難しいことで悪名高い。 例えばシーン数(例:シーン数)。 屋内の部屋)は、アクセスやスキャンが可能で、十分なデータさえあれば、3dラベル(例えば、3dラベル)を取得することができる。 仮面) 集中労働を必要とする。 本稿では,3Dポイントクラウドのためのデータ効率学習について検討する。 この方向への第一歩として,シーン内の点レベル対応と空間コンテキストの両方を利用する3次元事前学習手法であるContrastive Scene Contextsを提案する。 本手法は,トレーニングデータやラベルが不足しているベンチマークの組において,最先端の結果を得る。 注目すべきことに、scannetでは、0.1%のポイントラベルを使用しても、完全なアノテーションを使用するベースラインのパフォーマンスの89%(インスタンスセグメンテーション)と96%(セマンティックセグメンテーション)を達成しています。

The rapid progress in 3D scene understanding has come with growing demand for data; however, collecting and annotating 3D scenes (e.g. point clouds) are notoriously hard. For example, the number of scenes (e.g. indoor rooms) that can be accessed and scanned might be limited; even given sufficient data, acquiring 3D labels (e.g. instance masks) requires intensive human labor. In this paper, we explore data-efficient learning for 3D point cloud. As a first step towards this direction, we propose Contrastive Scene Contexts, a 3D pre-training method that makes use of both point-level correspondences and spatial contexts in a scene. Our method achieves state-of-the-art results on a suite of benchmarks where training data or labels are scarce. Our study reveals that exhaustive labelling of 3D point clouds might be unnecessary; and remarkably, on ScanNet, even using 0.1% of point labels, we still achieve 89% (instance segmentation) and 96% (semantic segmentation) of the baseline performance that uses full annotations.
翻訳日:2021-05-03 02:54:39 公開日:2020-12-16
# AIST:犯罪予測のための解釈可能な注意に基づくディープラーニングモデル

AIST: An Interpretable Attention-based Deep Learning Model for Crime Prediction ( http://arxiv.org/abs/2012.08713v1 )

ライセンス: Link先を確認
Yeasir Rayhan, Tanzima Hashem(参考訳) 精度と解釈可能性は犯罪予測モデルに不可欠な2つの性質である。 犯罪が人命、経済、安全に悪影響を及ぼす可能性があるため、犯罪の発生をできるだけ正確に予測できるモデルが必要である。 一方、解釈可能なモデルでは、モデルの予測の背後にある理由を明らかにし、その透明性を確保し、それに応じて防犯手順を計画することができる。 モデルを開発する上で重要な課題は、モデルの基本構造を解釈可能に保ちながら、特定の犯罪カテゴリの非線形空間依存性と時間的パターンを捉えることである。 本稿では,犯罪予測のための注意型解釈可能時空間ネットワークであるAISTを開発する。 AISTは過去の犯罪発生、外的特徴(交通の流れや関心点(POI)情報)、犯罪の繰り返し傾向に基づく犯罪カテゴリーの動的時空間相関をモデル化する。 広範な実験により,実データを用いた精度と解釈性の両方において,モデルの優越性が示された。

Accuracy and interpretability are two essential properties for a crime prediction model. Because of the adverse effects that the crimes can have on human life, economy and safety, we need a model that can predict future occurrence of crime as accurately as possible so that early steps can be taken to avoid the crime. On the other hand, an interpretable model reveals the reason behind a model's prediction, ensures its transparency and allows us to plan the crime prevention steps accordingly. The key challenge in developing the model is to capture the non-linear spatial dependency and temporal patterns of a specific crime category while keeping the underlying structure of the model interpretable. In this paper, we develop AIST, an Attention-based Interpretable Spatio Temporal Network for crime prediction. AIST models the dynamic spatio-temporal correlations for a crime category based on past crime occurrences, external features (e.g., traffic flow and point of interest (POI) information) and recurring trends of crime. Extensive experiments show the superiority of our model in terms of both accuracy and interpretability using real datasets.
翻訳日:2021-05-03 02:54:21 公開日:2020-12-16
# 匿名空間隣接情報を用いた配車システムにおける時空間深層学習による需要予測と需給ギャップ

Using Spatio-temporal Deep Learning for Forecasting Demand and Supply-demand Gap in Ride-hailing System with Anonymized Spatial Adjacency Information ( http://arxiv.org/abs/2012.08868v1 )

ライセンス: Link先を確認
M. H. Rahman and S. M. Rifaat(参考訳) 乗客待ち時間と運転者の検索摩擦を軽減するため、配車会社は時空間需要と供給需要ギャップを正確に予測する必要がある。 しかし、配車システムの需要と需給ギャップに関する時空間的依存関係のため、需要と需給ギャップの正確な予測が難しい。 さらに、機密性やプライバシーの問題から、時空間依存の検出を妨げるゾーンの空間的隣接情報を除去することで、配車データを研究者に公開することもある。 そこで本論文では,一次元畳み込みニューラルネットワーク(CNN)とゾーン独立型リカレントニューラルネットワーク(IndRNN)を含む時空間ディープラーニングアーキテクチャを特徴重層に統合した,匿名化された空間隣接情報を用いた配車システムの需要と需給ギャップを予測するための新しい時空間ディープラーニングアーキテクチャを提案する。 開発したアーキテクチャは、didi chuxingの実際のデータセットでテストされ、提案するアーキテクチャに基づくモデルは、従来の時系列モデル(例えばarima)や機械学習モデル(例えば、勾配ブースティングマシン、分散ランダムフォレスト、一般化線形モデル、ニューラルネットワーク)よりも優れています。 さらに、特徴重要層は、予測に使用される入力特徴の寄与を明らかにすることにより、モデルの解釈を提供する。

To reduce passenger waiting time and driver search friction, ride-hailing companies need to accurately forecast spatio-temporal demand and supply-demand gap. However, due to spatio-temporal dependencies pertaining to demand and supply-demand gap in a ride-hailing system, making accurate forecasts for both demand and supply-demand gap is a difficult task. Furthermore, due to confidentiality and privacy issues, ride-hailing data are sometimes released to the researchers by removing spatial adjacency information of the zones, which hinders the detection of spatio-temporal dependencies. To that end, a novel spatio-temporal deep learning architecture is proposed in this paper for forecasting demand and supply-demand gap in a ride-hailing system with anonymized spatial adjacency information, which integrates feature importance layer with a spatio-temporal deep learning architecture containing one-dimensional convolutional neural network (CNN) and zone-distributed independently recurrent neural network (IndRNN). The developed architecture is tested with real-world datasets of Didi Chuxing, which shows that our models based on the proposed architecture can outperform conventional time-series models (e.g., ARIMA) and machine learning models (e.g., gradient boosting machine, distributed random forest, generalized linear model, artificial neural network). Additionally, the feature importance layer provides an interpretation of the model by revealing the contribution of the input features utilized in prediction.
翻訳日:2021-05-03 02:54:06 公開日:2020-12-16
# 局所モデルを用いた予測k平均

Predictive K-means with local models ( http://arxiv.org/abs/2012.09630v1 )

ライセンス: Link先を確認
Vincent Lemaire, Oumaima Alaoui Ismaili, Antoine Cornu\'ejols, Dominique Gay(参考訳) 教師付き分類は予測に有効であるが、解釈可能性や説明可能性(XAI)に弱い場合もある。 一方、クラスタリングは意味のあるカテゴリやプロファイルを分離する傾向がありますが、ラベルの予測に有用である保証はありません。 予測的クラスタリングは2つの世界の最高のものを得ようとしている。 ラベル付きデータから始めて、クラスラベルに関して可能な限り純粋なクラスタを探す。 1つのテクニックはクラスタリングアルゴリズムを微調整することで、同じラベルを共有するデータポイントが集約される傾向がある。 k-meansのような距離ベースのアルゴリズムでは、アルゴリズムが使用する距離を変更して、データポイントのラベルに関する情報を取り込むことが解決策となる。 本稿では,クラス密度に導かれる表現の変化に頼り,新たな表現空間でクラスタリングを行う別の手法を提案する。 本稿では,この手法を用いた2つの新しいアルゴリズムを提案し,クラスタの解釈可能性を提供しながら,純粋教師付き分類器による予測性能に競争力があることを示す。

Supervised classification can be effective for prediction but sometimes weak on interpretability or explainability (XAI). Clustering, on the other hand, tends to isolate categories or profiles that can be meaningful but there is no guarantee that they are useful for labels prediction. Predictive clustering seeks to obtain the best of the two worlds. Starting from labeled data, it looks for clusters that are as pure as possible with regards to the class labels. One technique consists in tweaking a clustering algorithm so that data points sharing the same label tend to aggregate together. With distance-based algorithms, such as k-means, a solution is to modify the distance used by the algorithm so that it incorporates information about the labels of the data points. In this paper, we propose another method which relies on a change of representation guided by class densities and then carries out clustering in this new representation space. We present two new algorithms using this technique and show on a variety of data sets that they are competitive for prediction performance with pure supervised classifiers while offering interpretability of the clusters discovered.
翻訳日:2021-05-03 02:53:15 公開日:2020-12-16
# クロスロードでアクティブラーニングを学ぶか? 評価と議論

Learning active learning at the crossroads? evaluation and discussion ( http://arxiv.org/abs/2012.09631v1 )

ライセンス: Link先を確認
Louis Desreumaux and Vincent Lemaire(参考訳) アクティブラーニングは、人間の専門家がラベル付けするのに役立つサンプルを予測することによって、アノテーションのコストを削減することを目的としている。 この分野はかなり古いが、実世界の環境でアクティブラーニングを使うためのいくつかの重要な課題はまだ解決されていない。 特に、ほとんどの選択戦略は手作業で設計されており、すべてのアプリケーションで他の全てを一貫して上回る最高のアクティブな学習戦略は存在しないことが明らかになっている。 これは「積極的に学習する方法を学ぶ」メタ学習アルゴリズムの研究を動機付けている。 本稿では,このようなアプローチをランダムフォレストとマージンサンプリング戦略の関連性と比較し,最近の比較研究で非常に競争力のあるヒューリスティックであると報告した。 そこで本研究では,最近のメタラーニングアルゴリズムとマージンサンプリングを用いて学習した戦略を比較した20のデータセットを用いたベンチマーク結果を示す。 また、学習とオープンな将来の展望を示す。

Active learning aims to reduce annotation cost by predicting which samples are useful for a human expert to label. Although this field is quite old, several important challenges to using active learning in real-world settings still remain unsolved. In particular, most selection strategies are hand-designed, and it has become clear that there is no best active learning strategy that consistently outperforms all others in all applications. This has motivated research into meta-learning algorithms for "learning how to actively learn". In this paper, we compare this kind of approach with the association of a Random Forest with the margin sampling strategy, reported in recent comparative studies as a very competitive heuristic. To this end, we present the results of a benchmark performed on 20 datasets that compares a strategy learned using a recent meta-learning algorithm with margin sampling. We also present some lessons learned and open future perspectives.
翻訳日:2021-05-03 02:52:58 公開日:2020-12-16
# 線形複雑性を伴う自己注意修正Linformerの再検討

Revisiting Linformer with a modified self-attention with linear complexity ( http://arxiv.org/abs/2101.10277v1 )

ライセンス: Link先を確認
Madhusudan Verma(参考訳) GoogleのBERTやOpenAIのGPT-3といったTransformerモデルは、多くの自然言語処理タスクで成功しているが、これらのモデルのトレーニングとデプロイはコストがかかり、非効率である。 デプロイとは別に、これらのモデルは推論中にユーザーフレンドリを制限するためにより時間がかかる。 主なボトルネックは、シーケンス長に関して二次時間と空間を使用する自己着脱である。 FacebookのAI研究チームのLinformer氏は、自己認識機構の二次的時間的複雑さを低減するために、低ランク行列で自己認識機構を近似できることを示し、この発見を活用して、線形時間と空間の複雑さを備えた新たな自己認識方法を提案した。 リンフォーマーでは、時間複雑性はハイパーパラメータとして機能し、モデルの性能に影響を与えるプロジェクションマッピング次元に依存し、このハイパーパラメータのチューニングには時間がかかる。 本稿では,時間と空間における線形複雑性を持つ自己着脱の代替手法を提案し,射影写像次元とは独立な方法を提案する。 この方法は長いシーケンスで機能するので、音声だけでなく画像にも使用できる。

Although Transformer models such as Google's BERT and OpenAI's GPT-3 are successful in many natural language processing tasks, training and deploying these models are costly and inefficient.Even if pre-trained models are used, deploying these models still remained a challenge due to their large size. Apart from deployment, these models take higher time during inference restricting user-friendliness. The main bottleneck is self-attention which uses quadratic time and space with respect to the sequence length. In order to reduce the quadratic time complexity of the self-attention mechanism, Linformer by Facebook's AI research team was introduced where they showed that the self-attention mechanism can be approximated by a low-rank matrix and exploiting this finding, a new method for self-attention with linear time and space complexity was proposed by them. In the Linformer, the time complexity depends on the projection mapping dimension which acts as a hyperparameter and affects the performance of the model, tuning this hyperparameter can be time-consuming. In this paper, I proposed an alternative method for self-attention with linear complexity in time and space and is independent of the projection mapping dimension. Since this method works for long sequences this can be used for images as well as audios.
翻訳日:2021-05-03 02:52:08 公開日:2020-12-16
# データジャーナリズムのための構造化・半構造化・非構造化データのグラフ統合

Graph integration of structured, semistructured and unstructured data for data journalism ( http://arxiv.org/abs/2012.08830v1 )

ライセンス: Link先を確認
Angelos-Christos Anadiotis, Oana Balalau, Catarina Conceicao, Helena Galhardas, Mhd Yamen Haddad, Ioana Manolescu, Tayeb Merabti, Jingmao You(参考訳) デジタルデータは現代のジャーナリズムの金鉱である。 しかし、ジャーナリストに興味のあるデータセットは、高度に構造化された(リレーショナルデータベース)、半構造化された(json、xml、html)、グラフ(例えばrdf)、テキストなど、非常に異質である。 ジャーナリスト(ほとんどの非政府組織や小さな行政機関のような先進的なIT専門知識を欠いている他のクラスのユーザー)は、特別な抽出-変換-負荷ワークフローの定義とデプロイができない場合でも、このような異質なコーパスを理解する必要がある。 このようなグラフを有用にするために直面した課題は、それらの統合をスケール可能にすることであり、これらの問題に対して提案した解決策である。 提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。

Digital data is a gold mine for modern journalism. However, datasets which interest journalists are extremely heterogeneous, ranging from highly structured (relational databases), semi-structured (JSON, XML, HTML), graphs (e.g., RDF), and text. Journalists (and other classes of users lacking advanced IT expertise, such as most non-governmental-organizations, or small public administrations) need to be able to make sense of such heterogeneous corpora, even if they lack the ability to define and deploy custom extract-transform-load workflows, especially for dynamically varying sets of data sources. We describe a complete approach for integrating dynamic sets of heterogeneous datasets along the lines described above: the challenges we faced to make such graphs useful, allow their integration to scale, and the solutions we proposed for these problems. Our approach is implemented within the ConnectionLens system; we validate it through a set of experiments.
翻訳日:2021-05-03 02:51:47 公開日:2020-12-16
# 骨格に基づく行動認識のための時間グラフモデリング

Temporal Graph Modeling for Skeleton-based Action Recognition ( http://arxiv.org/abs/2012.08804v1 )

ライセンス: Link先を確認
Jianan Li, Xuemei Xie, Zhifu Zhao, Yuhan Cao, Qingzhe Pan and Guangming Shi(参考訳) 骨格データをグラフとしてモデル化するグラフ畳み込みネットワーク(GCN)は、骨格に基づく行動認識において顕著な性能を得た。 特に、骨格配列の時間的ダイナミクスは認識タスクにおいて重要な情報を伝達する。 時間的動的モデリングにおいて、GCNに基づく手法は、隣接する時間ステップ間の時間的関係を抽出するために、多層1次元局所畳み込みのみを積み重ねる。 局所的な畳み込みの繰り返しにより,非隣接時間距離の重要時間情報は情報希釈のために無視される可能性がある。 したがって、これらの方法はまだ骨格配列の時間的ダイナミクスを十分に探求する方法が不明である。 本稿では,この制限に対処するための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。 TE-GCNは、複雑な時間的ダイナミクスを捉えるために時間的関係グラフを構成する。 具体的には、構築された時間関係グラフは、隣接時間ステップと非隣接時間ステップの両方の時間関係をモデル化するために、意味的に関連する時間的特徴間の関係を明示的に構築する。 一方、十分な時間的ダイナミクスを探求するために、時間的関係の多種間を調査するために、マルチヘッド機構が設計されている。 NTU-60 RGB+DとNTU-120 RGB+Dの2つの大規模データセットで大規模な実験が行われた。 実験結果から,動作認識のための時間的モデリングに寄与することで,提案モデルが最先端の性能を達成することを示す。

Graph Convolutional Networks (GCNs), which model skeleton data as graphs, have obtained remarkable performance for skeleton-based action recognition. Particularly, the temporal dynamic of skeleton sequence conveys significant information in the recognition task. For temporal dynamic modeling, GCN-based methods only stack multi-layer 1D local convolutions to extract temporal relations between adjacent time steps. With the repeat of a lot of local convolutions, the key temporal information with non-adjacent temporal distance may be ignored due to the information dilution. Therefore, these methods still remain unclear how to fully explore temporal dynamic of skeleton sequence. In this paper, we propose a Temporal Enhanced Graph Convolutional Network (TE-GCN) to tackle this limitation. The proposed TE-GCN constructs temporal relation graph to capture complex temporal dynamic. Specifically, the constructed temporal relation graph explicitly builds connections between semantically related temporal features to model temporal relations between both adjacent and non-adjacent time steps. Meanwhile, to further explore the sufficient temporal dynamic, multi-head mechanism is designed to investigate multi-kinds of temporal relations. Extensive experiments are performed on two widely used large-scale datasets, NTU-60 RGB+D and NTU-120 RGB+D. And experimental results show that the proposed model achieves the state-of-the-art performance by making contribution to temporal modeling for action recognition.
翻訳日:2021-05-03 02:51:02 公開日:2020-12-16
# キャリブレーションカメラを用いた2次元距離データの自己監視人検出

Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera ( http://arxiv.org/abs/2012.08890v1 )

ライセンス: Link先を確認
Dan Jia and Mats Steinweg and Alexander Hermans and Bastian Leibe(参考訳) ディープラーニングは、2dレンジデータにおける最先端の人物検出器の重要な構築ブロックである。 しかし、これらのディープネットワークのトレーニングとテストのために利用可能なデータセットはわずかであり、新しい環境や異なるLiDARモデルにデプロイする際のパフォーマンスを制限する可能性がある。 画像ベース検出器(例)からのバウンディングボックスを利用する手法を提案する。 キャリブレーションカメラ上のより高速なR-CNNは、2D LiDARベースの人検知器のためのトレーニングラベル(擬似ラベルと呼ばれる)を自動的に生成する。 DROW3とDR-SPAAMの2つの検出器モデルを用いたJackRabbotデータセットの実験を通して、擬似ラベルで訓練された、または微調整された自己教師型検出器が、異なるデータセットから手動アノテーションを用いて訓練された優れた検出器であることを示す。 堅牢なトレーニング技術と組み合わせて、自己監視型検出器は手動のアノテーションを使って訓練されたものに近いパフォーマンスを達成する。 本手法は,追加のラベル付けを行わずに展開中の人体検知器を改良する有効な方法であり,関連するロボットアプリケーションをサポートするためにソースコードをリリースする。

Deep learning is the essential building block of state-of-the-art person detectors in 2D range data. However, only a few annotated datasets are available for training and testing these deep networks, potentially limiting their performance when deployed in new environments or with different LiDAR models. We propose a method, which uses bounding boxes from an image-based detector (e.g. Faster R-CNN) on a calibrated camera to automatically generate training labels (called pseudo-labels) for 2D LiDAR-based person detectors. Through experiments on the JackRabbot dataset with two detector models, DROW3 and DR-SPAAM, we show that self-supervised detectors, trained or fine-tuned with pseudo-labels, outperform detectors trained using manual annotations from a different dataset. Combined with robust training techniques, the self-supervised detectors reach a performance close to the ones trained using manual annotations. Our method is an effective way to improve person detectors during deployment without any additional labeling effort, and we release our source code to support relevant robotic applications.
翻訳日:2021-05-03 02:50:39 公開日:2020-12-16
# PGMAN: パンシャーピングのための教師なし生成マルチアドバイザリアルネットワーク

PGMAN: An Unsupervised Generative Multi-adversarial Network for Pan-sharpening ( http://arxiv.org/abs/2012.09054v1 )

ライセンス: Link先を確認
Huanyu Zhou and Qingjie Liu and Yunhong Wang(参考訳) パンシャーペンは、低分解能(LR)マルチスペクトル(MS)画像と高分解能(HR)パンクロマティック(PAN)画像を衛星が取得してHRMS画像を生成することを目的としている。 近年,多くの深層学習手法が開発されている。 しかしながら、学習の基準としてHRMSイメージが意図されていないため、既存の手法のほとんど全てがMSとPANのイメージをダウンサンプルし、元のMSイメージをターゲットとして、トレーニングのための教師付き設定を形成する。 これらの手法はダウンスケール画像ではうまく機能するが、フル解像度画像では不十分である。 この問題を克服するため,我々は,事前処理することなく全解像度画像から直接学習可能な教師なしフレームワークを設計した。 このモデルは、新しい生成型マルチアドバーサルネットワークに基づいて構築されている。 本研究では,2ストリーム生成器を用いてPAN画像とMS画像からモダリティ固有の特徴を抽出し,融合時に入力のスペクトル情報と空間情報を保存する2重識別器を開発した。 さらに、教師なし設定下でのトレーニングを容易にするために、新たな損失関数を導入する。 GaoFen-2 および QuickBird 画像における他の最先端手法との比較実験により,提案手法がフル解像度画像上でより優れた融合結果を得ることができることを示した。

Pan-sharpening aims at fusing a low-resolution (LR) multi-spectral (MS) image and a high-resolution (HR) panchromatic (PAN) image acquired by a satellite to generate an HR MS image. Many deep learning based methods have been developed in the past few years. However, since there are no intended HR MS images as references for learning, almost all of the existing methods down-sample the MS and PAN images and regard the original MS images as targets to form a supervised setting for training. These methods may perform well on the down-scaled images, however, they generalize poorly to the full-resolution images. To conquer this problem, we design an unsupervised framework that is able to learn directly from the full-resolution images without any preprocessing. The model is built based on a novel generative multi-adversarial network. We use a two-stream generator to extract the modality-specific features from the PAN and MS images, respectively, and develop a dual-discriminator to preserve the spectral and spatial information of the inputs when performing fusion. Furthermore, a novel loss function is introduced to facilitate training under the unsupervised setting. Experiments and comparisons with other state-of-the-art methods on GaoFen-2 and QuickBird images demonstrate that the proposed method can obtain much better fusion results on the full-resolution images.
翻訳日:2021-05-03 02:50:19 公開日:2020-12-16
# 画像強調のための投影分布損失

Projected Distribution Loss for Image Enhancement ( http://arxiv.org/abs/2012.09289v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Hossein Talebi, Peyman Milanfar(参考訳) 物体認識cnnから得られた特徴は画像間の知覚的類似性を測定するために広く用いられている。 このような差別化可能なメトリクスは、イメージ拡張モデルをトレーニングするために知覚学習損失として使用できる。 しかし,入力特徴と対象特徴との間の距離関数の選択は,訓練されたモデルの性能に連続的に影響する可能性がある。 抽出された特徴間の差異の基準を用いると詳細の幻覚は限定されるが、特徴の分布間の距離を測定するとテクスチャが増え、さらに非現実的な詳細やアーティファクトも生まれる。 本稿では,cnnアクティベーション間の1d-wasserstein距離の集約が,既存の手法よりも信頼性が高く,拡張モデルの知覚性能を大幅に向上できることを示す。 より具体的には、デノイング、超解像、デモサイシング、デブロアリング、JPEGアーティファクト除去などの画像アプリケーションにおいて、提案した学習損失は、参照に基づく知覚的損失に対する現在の最先端よりも優れていることを示す。 つまり、提案された学習損失を異なるイメージングフレームワークにプラグインし、知覚的に現実的な結果を生成することができる。

Features obtained from object recognition CNNs have been widely used for measuring perceptual similarities between images. Such differentiable metrics can be used as perceptual learning losses to train image enhancement models. However, the choice of the distance function between input and target features may have a consequential impact on the performance of the trained model. While using the norm of the difference between extracted features leads to limited hallucination of details, measuring the distance between distributions of features may generate more textures; yet also more unrealistic details and artifacts. In this paper, we demonstrate that aggregating 1D-Wasserstein distances between CNN activations is more reliable than the existing approaches, and it can significantly improve the perceptual performance of enhancement models. More explicitly, we show that in imaging applications such as denoising, super-resolution, demosaicing, deblurring and JPEG artifact removal, the proposed learning loss outperforms the current state-of-the-art on reference-based perceptual losses. This means that the proposed learning loss can be plugged into different imaging frameworks and produce perceptually realistic results.
翻訳日:2021-05-03 02:49:57 公開日:2020-12-16
# ポリブラル:多項式リブラリングによるゆるやかなぼやけの除去

Polyblur: Removing mild blur by polynomial reblurring ( http://arxiv.org/abs/2012.09322v1 )

ライセンス: Link先を確認
Mauricio Delbracio, Ignacio Garcia-Dorado, Sungjoon Choi, Damien Kelly, Peyman Milanfar(参考訳) 自然画像の鮮やかなぼやけを取り除くために,高効率なブラインド復元法を提案する。 主流とは対照的に、映像品質が損なわれ、焦点のずれやレンズのぼやき、あるいはカメラの動きによって一般的に発生するぼやけの除去に焦点を合わせます。 提案アルゴリズムはまず画像のぼかしを推定し,次に推定したぼかしの複数の応用を原理的に組み合わせて補正する。 ぼやけを推定するために,シャープな自然画像における勾配分布に関する経験的観測に基づく,単純かつロバストなアルゴリズムを導入する。 実験により, 軽度のぼやけた状況下では, 提案手法は従来のブラインド・ブラインド・デブロアリング法より優れ, わずかな時間で実行可能であることがわかった。 本手法は,市販の高精細度超解像法を適用する前に,ぼかしを盲目的に補正するために使用することができる。 提案手法は,携帯電話の12MP画像からわずか1秒で軽度のぼかしを推定し,除去する。

We present a highly efficient blind restoration method to remove mild blur in natural images. Contrary to the mainstream, we focus on removing slight blur that is often present, damaging image quality and commonly generated by small out-of-focus, lens blur, or slight camera motion. The proposed algorithm first estimates image blur and then compensates for it by combining multiple applications of the estimated blur in a principled way. To estimate blur we introduce a simple yet robust algorithm based on empirical observations about the distribution of the gradient in sharp natural images. Our experiments show that, in the context of mild blur, the proposed method outperforms traditional and modern blind deblurring methods and runs in a fraction of the time. Our method can be used to blindly correct blur before applying off-the-shelf deep super-resolution methods leading to superior results than other highly complex and computationally demanding techniques. The proposed method estimates and removes mild blur from a 12MP image on a modern mobile phone in a fraction of a second.
翻訳日:2021-05-03 02:49:39 公開日:2020-12-16
# 4次元心筋速度マッピング心筋mrのための自動マルチチャネルセグメンテーション

Automated Multi-Channel Segmentation for the 4D Myocardial Velocity Mapping Cardiac MR ( http://arxiv.org/abs/2012.12188v1 )

ライセンス: Link先を確認
Yinzhe Wu, Suzan Hatipoglu, Diego Alonso-\'Alvarez, Peter Gatehouse, David Firmin, Jennifer Keegan, Guang Yang(参考訳) 4次元(4D)左室速度マッピング(MVM)は、心臓磁気共鳴(CMR)技術であり、3方向の心臓運動の評価を可能にする。 心筋の正確かつ再現性のあるデライン化は, 収縮期および拡張期心筋速度の正確な解析に不可欠である。 従来のCMRデータに加えて、4D MVMは速度マップを生成するために使用される3つの速度符号化位相データセットも取得する。 これらは心筋の脱線を促進および改善するために用いられる。 医用画像処理における深層学習の成功を踏まえ,注目モジュールとのクロスチャネル融合と形状情報に基づく後処理により,これらのCMRマルチチャネルデータ(マグニチュードとフェーズ)に基づく標準U-Netベースの手法を改良し,心内膜および心内膜輪郭の正確なデライン化を実現する,新しい自動化フレームワークを提案する。 この結果を評価するために, 広く用いられている dice スコアと, 心筋縦断ピーク速度の定量化を行った。 提案するネットワークは,シングルチャネルデータで訓練された標準U-Netネットワークと比較して,性能が向上した。 その結果,本手法は4次元mvm cmrデータのマルチチャネル画像解析のための設計と応用のための説得力のある証拠を提供する。

Four-dimensional (4D) left ventricular myocardial velocity mapping (MVM) is a cardiac magnetic resonance (CMR) technique that allows assessment of cardiac motion in three orthogonal directions. Accurate and reproducible delineation of the myocardium is crucial for accurate analysis of peak systolic and diastolic myocardial velocities. In addition to the conventionally available magnitude CMR data, 4D MVM also acquires three velocity-encoded phase datasets which are used to generate velocity maps. These can be used to facilitate and improve myocardial delineation. Based on the success of deep learning in medical image processing, we propose a novel automated framework that improves the standard U-Net based methods on these CMR multi-channel data (magnitude and phase) by cross-channel fusion with attention module and shape information based post-processing to achieve accurate delineation of both epicardium and endocardium contours. To evaluate the results, we employ the widely used Dice scores and the quantification of myocardial longitudinal peak velocities. Our proposed network trained with multi-channel data shows enhanced performance compared to standard U-Net based networks trained with single-channel data. Based on the results, our method provides compelling evidence for the design and application for the multi-channel image analysis of the 4D MVM CMR data.
翻訳日:2021-05-03 02:49:18 公開日:2020-12-16
# リカレントグラフニューラルネットワークを用いた動的グラフの解釈可能なクラスタリング

Interpretable Clustering on Dynamic Graphs with Recurrent Graph Neural Networks ( http://arxiv.org/abs/2012.08740v1 )

ライセンス: Link先を確認
Yuhang Yao, Carlee Joe-Wong(参考訳) ノードとノードのクラスタメンバシップ間の接続が時間とともに変化する可能性がある動的グラフにおけるノードのクラスタリングの問題を,例えばコミュニティマイグレーションによって検討する。 まず、これらの変化を捉える動的確率的ブロックモデルと、それらの間の重み付き接続に基づいてノードをクラスタリングする単純な減衰に基づくクラスタリングアルゴリズムを提案する。 この崩壊率は、クラスタリングに歴史的接続情報を含めることの重要性を表すものとして解釈できる。 しかし、最適崩壊速度はターンオーバー率の異なるクラスターで異なる可能性がある。 本稿では,各クラスタの最適減衰率を特徴付け,真のクラスタのほぼ完全回復を実現するクラスタリング手法を提案する。 次に,シミュレーショングラフデータに対する減衰率を最適化したクラスタリングアルゴリズムの有効性を示す。 逐次学習のための一般的なアルゴリズムであるリカレントニューラルネットワーク(RNN)は、同様の減衰に基づく手法を用いて、半教師付きグラフクラスタリングのための2つの新しいRNN-GCNアーキテクチャを提案する。 提案したアーキテクチャは,最先端のグラフクラスタリングアルゴリズムと比較して,実データでよく動作することを示す。

We study the problem of clustering nodes in a dynamic graph, where the connections between nodes and nodes' cluster memberships may change over time, e.g., due to community migration. We first propose a dynamic stochastic block model that captures these changes, and a simple decay-based clustering algorithm that clusters nodes based on weighted connections between them, where the weight decreases at a fixed rate over time. This decay rate can then be interpreted as signifying the importance of including historical connection information in the clustering. However, the optimal decay rate may differ for clusters with different rates of turnover. We characterize the optimal decay rate for each cluster and propose a clustering method that achieves almost exact recovery of the true clusters. We then demonstrate the efficacy of our clustering algorithm with optimized decay rates on simulated graph data. Recurrent neural networks (RNNs), a popular algorithm for sequence learning, use a similar decay-based method, and we use this insight to propose two new RNN-GCN (graph convolutional network) architectures for semi-supervised graph clustering. We finally demonstrate that the proposed architectures perform well on real data compared to state-of-the-art graph clustering algorithms.
翻訳日:2021-05-03 02:48:18 公開日:2020-12-16
# PHP脆弱性検出のためのハイブリッドグラフニューラルネットワークアプローチ

A Hybrid Graph Neural Network Approach for Detecting PHP Vulnerabilities ( http://arxiv.org/abs/2012.08835v1 )

ライセンス: Link先を確認
Rishi Rabheru, Hazim Hanif, Sergio Maffeis(参考訳) 本稿では,phpソースコードの脆弱性を検出するディープラーニングアプローチであるdeeptectiveを提案する。 提案手法は,sqli,xss,osciの脆弱性を構文情報と意味情報の両方を利用して検出するために,ゲートリカレント単位とグラフ畳み込みネットワークを組み合わせた新しいハイブリッド手法を実装している。 我々は、DeepTectiveを評価し、確立された合成データセットとGitHubから収集された新しい実世界のデータセットのアートの状態と比較する。 実験の結果、DeepTectiveは合成データセットのほぼ完全な分類を達成し、F1スコアは現実的なデータセットの88.12%であり、関連するアプローチよりも優れていた。 確立したWordPressプラグインに4つの新たな脆弱性を発見し,DeepTectiveを実証した。

This paper presents DeepTective, a deep learning approach to detect vulnerabilities in PHP source code. Our approach implements a novel hybrid technique that combines Gated Recurrent Units and Graph Convolutional Networks to detect SQLi, XSS and OSCI vulnerabilities leveraging both syntactic and semantic information. We evaluate DeepTective and compare it to the state of the art on an established synthetic dataset and on a novel real-world dataset collected from GitHub. Experimental results show that DeepTective achieves near perfect classification on the synthetic dataset, and an F1 score of 88.12% on the realistic dataset, outperforming related approaches. We validate DeepTective in the wild by discovering 4 novel vulnerabilities in established WordPress plugins.
翻訳日:2021-05-03 02:47:58 公開日:2020-12-16
# セッションベースレコメンデーションのためのバッチ制約分布強化学習

Batch-Constrained Distributional Reinforcement Learning for Session-based Recommendation ( http://arxiv.org/abs/2012.08984v1 )

ライセンス: Link先を確認
Diksha Garg, Priyanka Gupta, Pankaj Malhotra, Lovekesh Vig, Gautam Shroff(参考訳) セッションベースのレコメンデーションのための既存の深層強化学習(rl)アプローチのほとんどは、実際のユーザとの高価なオンラインインタラクションに依存するか、あるいは潜在的にバイアスのあるルールベースまたはデータ駆動の学習モデルに依存している。 この作業では、代わりに、純粋なバッチまたはオフライン設定、すなわち、レコメンデーションポリシーの学習にフォーカスします。 学習ポリシは、オフラインの履歴インタラクションログや、未知で最適でない動作ポリシから生成されたバッチデータのみから、現実世界やユーザビヘイビアモデルからのデータにアクセスせずに取得する。 BCD4Rec: Batch-Constrained Distributional RL for Session-based Recommendationsを提案する。 BCD4Recは、オフラインログから学習するためのバッチ(オフライン)RLと分散RLの最近の進歩の上に構築されている。 我々は,BCD4Recが,Click Through Rates や Buy Rates といった標準的なパフォーマンス指標を用いて,バッチ設定における強力なRLおよび非RLベースラインと同様に,行動ポリシーを大幅に改善することを示した。 bcd4recの他の有用な特性としては: i. 大きなアクションスペース(アイテム数順)にもかかわらず、正しい潜在カテゴリからの項目を推奨する。 クリックまたは購入アイテムの人気バイアスを克服する 通常はオフラインログに存在する

Most of the existing deep reinforcement learning (RL) approaches for session-based recommendations either rely on costly online interactions with real users, or rely on potentially biased rule-based or data-driven user-behavior models for learning. In this work, we instead focus on learning recommendation policies in the pure batch or offline setting, i.e. learning policies solely from offline historical interaction logs or batch data generated from an unknown and sub-optimal behavior policy, without further access to data from the real-world or user-behavior models. We propose BCD4Rec: Batch-Constrained Distributional RL for Session-based Recommendations. BCD4Rec builds upon the recent advances in batch (offline) RL and distributional RL to learn from offline logs while dealing with the intrinsically stochastic nature of rewards from the users due to varied latent interest preferences (environments). We demonstrate that BCD4Rec significantly improves upon the behavior policy as well as strong RL and non-RL baselines in the batch setting in terms of standard performance metrics like Click Through Rates or Buy Rates. Other useful properties of BCD4Rec include: i. recommending items from the correct latent categories indicating better value estimates despite large action space (of the order of number of items), and ii. overcoming popularity bias in clicked or bought items typically present in the offline logs.
翻訳日:2021-05-03 02:47:46 公開日:2020-12-16
# 生成と検証:ニューラルネットワーク知覚システムの意味のある形式解析

Generate and Verify: Semantically Meaningful Formal Analysis of Neural Network Perception Systems ( http://arxiv.org/abs/2012.09313v1 )

ライセンス: Link先を確認
Chris R. Serrano and Pape M. Sylla and Michael A. Warren(参考訳) テストは、ニューラルネットワーク知覚システムの精度を評価する主要な方法である。 ニューラルネットワーク知覚モデルの形式的検証に関する以前の研究は、個々の画像入力に対する分類の局所的逆ロバスト性の概念に限定されてきた。 本研究では,意味的に有意味な潜在空間を持つ生成型ニューラルネットワークに対して回帰を行うニューラルネットワーク知覚モデルに対する大域的正しさの概念を提案する。 すなわち、生成モデルが潜在空間の間隔で生成する無限の画像に対して、ニューラルネットワークの検証を用いて、モデルが基底真理の何らかの誤差境界内で常に推定値を生成することを証明する。 知覚モデルが失敗すると、対応する画像の人間による検査なしにプログラム的に使用できる興味のあるシステムの具体的状態に関する情報を運ぶ意味的に有意義な反例を得る。 我々のアプローチであるGenerate and Verifyは、ニューラルネットワーク認識システムの障害事例に関する洞察を集めるための新しい技術を提供し、安全クリティカルなアプリケーションにおける正しい振る舞いの有意義な保証を提供する。

Testing remains the primary method to evaluate the accuracy of neural network perception systems. Prior work on the formal verification of neural network perception models has been limited to notions of local adversarial robustness for classification with respect to individual image inputs. In this work, we propose a notion of global correctness for neural network perception models performing regression with respect to a generative neural network with a semantically meaningful latent space. That is, against an infinite set of images produced by a generative model over an interval of its latent space, we employ neural network verification to prove that the model will always produce estimates within some error bound of the ground truth. Where the perception model fails, we obtain semantically meaningful counter-examples which carry information on concrete states of the system of interest that can be used programmatically without human inspection of corresponding generated images. Our approach, Generate and Verify, provides a new technique to gather insight into the failure cases of neural network perception systems and provide meaningful guarantees of correct behavior in safety critical applications.
翻訳日:2021-05-03 02:46:51 公開日:2020-12-16
# 特定薬剤を用いたICD10自動予測のための協調学習者

Collaborative residual learners for automatic icd10 prediction using prescribed medications ( http://arxiv.org/abs/2012.11327v1 )

ライセンス: Link先を確認
Yassien Shaalan, Alexander Dokumentov, Piyapong Khumrin, Krit Khwanngern, Anawat Wisetborisu, Thanakom Hatsadeang, Nattapat Karaket, Witthawin Achariyaviriya, Sansanee Auephanwiriyakul, Nipon Theera-Umpon, Terence Siganakis(参考訳) 臨床コーディングは、治療のエピソードからicd10のような標準的なコード形式への診断データの変換を含む管理プロセスである。 請求書やエチオロジー研究など多くの重要な応用がある。 データスパーシティ、デジタルヘルスシステムの低相互運用性、実際の診断の複雑さ、icd10コード空間の巨大化などにより、臨床コーディングの自動化は非常に困難である。 関連する作業は、多くのデータソースへの依存、非効率なモデリング、より汎用性の低いソリューションによって、適用性が低下する。 本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。 Maharaj Nakorn Chiang Mai病院の2つの臨床データセット(外来患者と入院患者)において,実ケースミックスの分布について広範な実験を行った。 f1-score の 0.71 と 0.57 のマルチラベル分類精度,f1-score の 0.57 と 0.38 それぞれ 0.73 と 0.44 の精度が得られた。

Clinical coding is an administrative process that involves the translation of diagnostic data from episodes of care into a standard code format such as ICD10. It has many critical applications such as billing and aetiology research. The automation of clinical coding is very challenging due to data sparsity, low interoperability of digital health systems, complexity of real-life diagnosis coupled with the huge size of ICD10 code space. Related work suffer from low applicability due to reliance on many data sources, inefficient modelling and less generalizable solutions. We propose a novel collaborative residual learning based model to automatically predict ICD10 codes employing only prescriptions data. Extensive experiments were performed on two real-world clinical datasets (outpatient & inpatient) from Maharaj Nakorn Chiang Mai Hospital with real case-mix distributions. We obtain multi-label classification accuracy of 0.71 and 0.57 of average precision, 0.57 and 0.38 of F1-score and 0.73 and 0.44 of accuracy in predicting principal diagnosis for inpatient and outpatient datasets respectively.
翻訳日:2021-05-03 02:46:37 公開日:2020-12-16
# ICd10符号化予測のためのアンサンブルモデル

Ensemble model for pre-discharge icd10 coding prediction ( http://arxiv.org/abs/2012.11333v1 )

ライセンス: Link先を確認
Yassien Shaalan, Alexander Dokumentov, Piyapong Khumrin, Krit Khwanngern, Anawat Wisetborisu, Thanakom Hatsadeang, Nattapat Karaket, Witthawin Achariyaviriya, Sansanee Auephanwiriyakul, Nipon Theera-Umpon, Terence Siganakis(参考訳) 医学的診断から臨床的コーディングへの変換は、請求書作成、エチオロジー分析、監査に幅広い応用がある。 現在、コーディングは手作業ですが、このようなタスクの自動化は直接ではありません。 課題には、散らかって騒がしい臨床記録、ケースの複雑さ、巨大なICD10コード空間などがある。 以前の研究は主に予測のための放電音に頼っており、非常に限られたデータスケールに適用された。 正確なコード予測のために複数の臨床データソースを組み込んだアンサンブルモデルを提案する。 さらに,予測結果に対する信頼度を提供する評価機構を提案する。 Maharaj Nakorn Chiang Mai病院の患者と外来の2つの臨床データセットに、未修正の症例混合分布を用いた大規模な実験を行った。 その結果,F1スコアの平均精度は0.73,0.58,F1スコアは0.56,0.35の多ラベル分類精度が0.71,0.4の精度で得られた。

The translation of medical diagnosis to clinical coding has wide range of applications in billing, aetiology analysis, and auditing. Currently, coding is a manual effort while the automation of such task is not straight forward. Among the challenges are the messy and noisy clinical records, case complexities, along with the huge ICD10 code space. Previous work mainly relied on discharge notes for prediction and was applied to a very limited data scale. We propose an ensemble model incorporating multiple clinical data sources for accurate code predictions. We further propose an assessment mechanism to provide confidence rates in predicted outcomes. Extensive experiments were performed on two new real-world clinical datasets (inpatient & outpatient) with unaltered case-mix distributions from Maharaj Nakorn Chiang Mai Hospital. We obtain multi-label classification accuracies of 0.73 and 0.58 for average precision, 0.56 and 0.35 for F1-scores and 0.71 and 0.4 accuracy in predicting principal diagnosis for inpatient and outpatient datasets respectively.
翻訳日:2021-05-03 02:46:18 公開日:2020-12-16
# 対外取引

Adversarial trading ( http://arxiv.org/abs/2101.03128v1 )

ライセンス: Link先を確認
Alexandre Miot(参考訳) 逆行的なサンプルは、ここ数年機械学習コミュニティから多くの注目を集めてきた。 悪いサンプルは、ミスリーディングを目的としたサンプルポイントの不可避な修正から生じる人工データポイントである。 驚くべきことに、金融調査では、具体的な取引の観点からこの話題に関してはほとんど行われていない。 本研究は,これらのサンプルを取引環境に実装し,特定の市場参加者に悪影響を及ぼすことを示す。 これは取引や規制の観点から、金融市場に大きな影響を与える可能性がある。

Adversarial samples have drawn a lot of attention from the Machine Learning community in the past few years. An adverse sample is an artificial data point coming from an imperceptible modification of a sample point aiming at misleading. Surprisingly, in financial research, little has been done in relation to this topic from a concrete trading point of view. We show that those adversarial samples can be implemented in a trading environment and have a negative impact on certain market participants. This could have far reaching implications for financial markets either from a trading or a regulatory point of view.
翻訳日:2021-05-03 02:45:46 公開日:2020-12-16
# 発達障害児向け移動療法ゲームにおけるフレームを用いた感情検出分類器の訓練

Training an Emotion Detection Classifier using Frames from a Mobile Therapeutic Game for Children with Developmental Disorders ( http://arxiv.org/abs/2012.08678v1 )

ライセンス: Link先を確認
Peter Washington, Haik Kalantarian, Jack Kent, Arman Husic, Aaron Kline, Emilie Leblanc, Cathy Hou, Cezmi Mutlu, Kaitlyn Dunlap, Yordan Penev, Maya Varma, Nate Stockham, Brianna Chrisman, Kelley Paskov, Min Woo Sun, Jae-Yoon Jung, Catalin Voss, Nick Haber, Dennis P. Wall(参考訳) 自動感情分類は、自閉症などの発達的行動条件を持つ子供を含む感情認識に苦しむ人々を助ける可能性がある。 しかし、ほとんどのコンピュータビジョンの感情モデルは大人の感情に基づいて訓練され、それゆえ子供の顔に過小評価される。 本研究では,自動児童感情検出の性能を,翻訳デジタル医療に必要なレベルに近づけるために,収集と子どものラベル付けがデータに与える影響をゲーミフィケーションする戦略を考案した。 われわれは、発達・行動条件を持つ子供向けに主に設計された治療用スマートフォンゲームGuessWhatを利用して、ゲームによって引き起こされる様々な感情を表現する子供たちのビデオデータのセキュアな収集をゲーミフィケーションした。 人間のラベル付けを楽しませるセキュアなWebインターフェースを通じて、私たちは2,155の動画、39,968の感情フレーム、106,001のラベルを集めました。 この拡張された小児感情中心データベース(既存の公開小児感情中心データベースの30倍)を用いて、我々は小児の幸福、悲しみ、驚き、恐怖、怒り、嫌悪感、中性表現の小児感情分類畳み込みニューラルネットワーク(CNN)分類器を訓練した。 この分類器はカフェ全体で66.9%のバランス付き精度と67.4%のf1-scoreと79.1%のバランス付き精度と78.0%のf1-scoreを達成した。 この性能は、以前のすべての分類器よりも少なくとも10%高く、"anger" と "disgust" を1つのクラスに組み合わせた場合でも、56.%のバランスの取れた精度に達している。 本研究は, 小児科治療用に設計されたモバイルゲームが, 高量のドメイン関連データセットを生成し, 美術分類器の状態を訓練し, 精度の高い健康活動に高い関係のあるタスクを遂行できることを検証する。

Automated emotion classification could aid those who struggle to recognize emotion, including children with developmental behavioral conditions such as autism. However, most computer vision emotion models are trained on adult affect and therefore underperform on child faces. In this study, we designed a strategy to gamify the collection and the labeling of child affect data in an effort to boost the performance of automatic child emotion detection to a level closer to what will be needed for translational digital healthcare. We leveraged our therapeutic smartphone game, GuessWhat, which was designed in large part for children with developmental and behavioral conditions, to gamify the secure collection of video data of children expressing a variety of emotions prompted by the game. Through a secure web interface gamifying the human labeling effort, we gathered and labeled 2,155 videos, 39,968 emotion frames, and 106,001 labels on all images. With this drastically expanded pediatric emotion centric database (>30x larger than existing public pediatric affect datasets), we trained a pediatric emotion classification convolutional neural network (CNN) classifier of happy, sad, surprised, fearful, angry, disgust, and neutral expressions in children. The classifier achieved 66.9% balanced accuracy and 67.4% F1-score on the entirety of CAFE as well as 79.1% balanced accuracy and 78.0% F1-score on CAFE Subset A, a subset containing at least 60% human agreement on emotions labels. This performance is at least 10% higher than all previously published classifiers, the best of which reached 56.% balanced accuracy even when combining "anger" and "disgust" into a single class. This work validates that mobile games designed for pediatric therapies can generate high volumes of domain-relevant datasets to train state of the art classifiers to perform tasks highly relevant to precision health efforts.
翻訳日:2021-05-03 02:45:41 公開日:2020-12-16
# 周波数情報変換による1d 1h-nmrスペクトルの複雑さの低減

Reduction in the complexity of 1D 1H-NMR spectra by the use of Frequency to Information Transformation ( http://arxiv.org/abs/2012.09267v1 )

ライセンス: Link先を確認
Homayoun Valafar, Faramarz Valafar(参考訳) 1H-NMRスペクトルの分析は、しばしばこれらのスペクトルの収集中に起こる大きな変動によって妨げられる。 大きな溶媒と標準ピーク、ベースラインドリフトと負のピーク(不適切なフェージングによる)は、これらのバリエーションの1つである。 さらに、不正なシミングなどの機器依存的な変化も記録されたスペクトルに埋め込まれている。 これらの信号の変更の予測不能な性質は、これらのスペクトルの自動化およびインストゥルメンタルなコンピュータ解析を信頼できないものにした。 本稿では、周波数情報変換(FIT)と呼ばれる信号(周波数領域1H-NMRスペクトル)の情報内容を抽出し、従来使用されていた手法(SPUTNIK)と比較する。 fitは、フーリエ変換信号を情報スペクトル(is)に変換することによって、信号の残りを破棄しながら、信号に存在するパターンマッチングタスクに関連する情報を適切に抽出することができる。 本手法は,クラス内相関係数を増加させながらクラス間相関係数を減少させる能力を示す。 言い換えれば、同じ分子の異なるスペクトルは互いに似ているが、異なる分子のスペクトルは互いにより異なるように見える。 この機能により、コンピュータアルゴリズムを用いたスペクトルシグネチャに基づく分子の自動識別と解析が容易になる。

Analysis of 1H-NMR spectra is often hindered by large variations that occur during the collection of these spectra. Large solvent and standard peaks, base line drift and negative peaks (due to improper phasing) are among some of these variations. Furthermore, some instrument dependent alterations, such as incorrect shimming, are also embedded in the recorded spectrum. The unpredictable nature of these alterations of the signal has rendered the automated and instrument independent computer analysis of these spectra unreliable. In this paper, a novel method of extracting the information content of a signal (in this paper, frequency domain 1H-NMR spectrum), called the frequency-information transformation (FIT), is presented and compared to a previously used method (SPUTNIK). FIT can successfully extract the relevant information to a pattern matching task present in a signal, while discarding the remainder of a signal by transforming a Fourier transformed signal into an information spectrum (IS). This technique exhibits the ability of decreasing the inter-class correlation coefficients while increasing the intra-class correlation coefficients. Different spectra of the same molecule, in other words, will resemble more to each other while the spectra of different molecules will look more different from each other. This feature allows easier automated identification and analysis of molecules based on their spectral signatures using computer algorithms.
翻訳日:2021-05-03 02:45:04 公開日:2020-12-16
# 決定木によるテストと再構築

Testing and reconstruction via decision trees ( http://arxiv.org/abs/2012.08735v1 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Li-Yang Tan(参考訳) 決定木に対する部分線形および局所計算アルゴリズムを,テストと再構成に焦点をあてて検討した。 最初の結果は、$\mathrm{poly}(\log s, 1/\varepsilon)\cdot n\log n$ timeで実行されるテスターで、$\mathrm{poly}(\log s,1/\varepsilon)\cdot \log n$クエリを未知の関数に$f$、$\circ$ accepts if $f$ is $\varepsilon$-close to a size-$s$ decision tree; $\circ$ rejects if $f$ is $\omega(\varepsilon)$-far from decision tree of size $s^{\tilde{o}((\log s)^2/\varepsilon^2)} とします。 既存のテスターは、$s$決定木と$\varepsilon$-farと$\mathrm{poly}(s^s,1/\varepsilon)\cdot n$ time with $\tilde{o}(s/\varepsilon)$ queryとを区別する。 したがって、比較不能な問題を解決するが、時間とクエリの複雑さの2倍の指数関数的改善をそれぞれ達成する。 このアルゴリズムは,小さな決定木に近い関数$f$に対するクエリアクセスを与えられた場合,f$に近い小さな決定木に対する高速なクエリアクセスを提供する。 既知の関係によって、我々の結果は、フーリエ度、ランダム化および量子クエリの複雑度、証明書の複雑さ、感度など、他の多くのブール関数特性の再構成アルゴリズムをもたらす。 これによって、これらのプロパティの新しいテスタが生まれます。 最後に、未知関数が$\varepsilon$-close-toか$\omega(\varepsilon)$-far-from size-$s$ decision treeであるかどうかをテストするための難しい結果を与える。 この課題に対する効率的なアルゴリズムは、学習理論の中心的なオープン問題である決定木を適切に学習するための効率的なアルゴリズムをもたらす。 任意のクラスに対する適切な学習アルゴリズムである$\mathcal{H}$ yield property testers for $\mathcal{H}$が知られている。

We study sublinear and local computation algorithms for decision trees, focusing on testing and reconstruction. Our first result is a tester that runs in $\mathrm{poly}(\log s, 1/\varepsilon)\cdot n\log n$ time, makes $\mathrm{poly}(\log s,1/\varepsilon)\cdot \log n$ queries to an unknown function $f$, and: $\circ$ Accepts if $f$ is $\varepsilon$-close to a size-$s$ decision tree; $\circ$ Rejects if $f$ is $\Omega(\varepsilon)$-far from decision trees of size $s^{\tilde{O}((\log s)^2/\varepsilon^2)}$. Existing testers distinguish size-$s$ decision trees from those that are $\varepsilon$-far from from size-$s$ decision trees in $\mathrm{poly}(s^s,1/\varepsilon)\cdot n$ time with $\tilde{O}(s/\varepsilon)$ queries. We therefore solve an incomparable problem, but achieve doubly-exponential-in-$s$ and exponential-in-$s$ improvements in time and query complexities respectively. We obtain our tester by designing a reconstruction algorithm for decision trees: given query access to a function $f$ that is close to a small decision tree, this algorithm provides fast query access to a small decision tree that is close to $f$. By known relationships, our results yield reconstruction algorithms for numerous other boolean function properties -- Fourier degree, randomized and quantum query complexities, certificate complexity, sensitivity, etc. -- which in turn yield new testers for these properties. Finally, we give a hardness result for testing whether an unknown function is $\varepsilon$-close-to or $\Omega(\varepsilon)$-far-from size-$s$ decision trees. We show that an efficient algorithm for this task would yield an efficient algorithm for properly learning decision trees, a central open problem of learning theory. It has long been known that proper learning algorithms for any class $\mathcal{H}$ yield property testers for $\mathcal{H}$; this provides an example of a converse.
翻訳日:2021-05-03 02:43:11 公開日:2020-12-16
# 確率的保証付きニューラルネットワークの検証について

On The Verification of Neural ODEs with Stochastic Guarantees ( http://arxiv.org/abs/2012.08863v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Ramin Hasani, Mathias Lechner, Jacek Cyranka, Scott A. Smolka, Radu Grosu(参考訳) 時間連続ニューラルネットワークの新たなクラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。 この目的のために、Stochastic Lagrangian Reachability (SLR)は、タイトなReachtubeを構築するための抽象的手法であり、Reachtube境界に対する信頼区間の形で確率的保証を提供する。 SLRは本質的に悪名高いラップング効果(過近似誤差の累積)を回避し、決定論的リーチビリティー法によって行われるように、安全領域を何度も前進させる代わりに、局所的な最適化手順を実行する。 高速局所最適化を実現するために,バックプロパゲーションを必要とせずに勾配を計算するための新しいフォワードモード随伴感度法を提案する。 最後に,SLRに対する漸近的および非漸近的収束率を確立する。

We show that Neural ODEs, an emerging class of time-continuous neural networks, can be verified by solving a set of global-optimization problems. For this purpose, we introduce Stochastic Lagrangian Reachability (SLR), an abstraction-based technique for constructing a tight Reachtube (an over-approximation of the set of reachable states over a given time-horizon), and provide stochastic guarantees in the form of confidence intervals for the Reachtube bounds. SLR inherently avoids the infamous wrapping effect (accumulation of over-approximation errors) by performing local optimization steps to expand safe regions instead of repeatedly forward-propagating them as is done by deterministic reachability methods. To enable fast local optimizations, we introduce a novel forward-mode adjoint sensitivity method to compute gradients without the need for backpropagation. Finally, we establish asymptotic and non-asymptotic convergence rates for SLR.
翻訳日:2021-05-03 02:42:06 公開日:2020-12-16
# セキュリティ運用センターにおける機械学習ツールの利用性評価

An Assessment of the Usability of Machine Learning Based Tools for the Security Operations Center ( http://arxiv.org/abs/2012.09013v1 )

ライセンス: Link先を確認
Sean Oesch, Robert Bridges, Jared Smith, Justin Beaver, John Goodall, Kelly Huffer, Craig Miles, Dan Scofield(参考訳) 大規模なリサーチとアドバイザリ企業であるGartnerは、2024年までにセキュリティオペレーションセンター(SOC)の80%が、機械学習(ML)ベースのソリューションを使用して運用を強化することを予測している。 このような普及を踏まえて、研究コミュニティはユーザビリティの懸念を特定し、対処することが不可欠である。 本研究は,mlベースのツールを用いた最初の実地ユーザビリティアセスメントの結果を示す。 米国海軍の支援を得て、最先端のネットワークとユーザーエミュレーション機能を備えた大型の空飛ぶサイバーテストベッドであるnational cyber rangeを活用し、アメリカ海軍のsocアナリスト6名による2つのツールの使用状況を調査した。 本分析では,ユーザインタフェース設計の確立されたユーザビリティヒューリスティックの複数の違反を含む,ユーザビリティに関する重大な問題をいくつか明らかにした。 また、アナリストはこれらのツールがスコアを生成する方法の明確なメンタルモデルに欠けており、ツール自体の誤信や誤用を引き起こしていることも分かりました。 意外なことに、アナリストの教育水準や経験年数と、どちらのツールとのパフォーマンスとの間には相関が見られず、背景知識や人格といった他の要因がMLベースのツールの使用において重要な役割を果たすことが示唆された。 この結果から,MLベースのセキュリティツールベンダは,経験と経験の浅いアナリストとの共同作業に新たな重点を置き,現実のセキュリティ運用環境において,彼らのシステムが有用かつ有用であることを確認する必要がある。

Gartner, a large research and advisory company, anticipates that by 2024 80% of security operation centers (SOCs) will use machine learning (ML) based solutions to enhance their operations. In light of such widespread adoption, it is vital for the research community to identify and address usability concerns. This work presents the results of the first in situ usability assessment of ML-based tools. With the support of the US Navy, we leveraged the national cyber range, a large, air-gapped cyber testbed equipped with state-of-the-art network and user emulation capabilities, to study six US Naval SOC analysts' usage of two tools. Our analysis identified several serious usability issues, including multiple violations of established usability heuristics form user interface design. We also discovered that analysts lacked a clear mental model of how these tools generate scores, resulting in mistrust and/or misuse of the tools themselves. Surprisingly, we found no correlation between analysts' level of education or years of experience and their performance with either tool, suggesting that other factors such as prior background knowledge or personality play a significant role in ML-based tool usage. Our findings demonstrate that ML-based security tool vendors must put a renewed focus on working with analysts, both experienced and inexperienced, to ensure that their systems are usable and useful in real-world security operations settings.
翻訳日:2021-05-03 02:41:50 公開日:2020-12-16
# FedADC: ドリフトコントロールによるフェデレーション学習の促進

FedADC: Accelerated Federated Learning with Drift Control ( http://arxiv.org/abs/2012.09102v1 )

ライセンス: Link先を確認
Emre Ozfatura and Kerem Ozfatura and Deniz Gunduz(参考訳) フェデレートラーニング(FL)は、プライバシーに関するエッジデバイス間の協調学習のためのデファクトフレームワークとなっている。 fl戦略の核心は、確率勾配降下(sgd)を分散的に使用することである。 FLの大規模実装は、SGD用に設計された加速技術の分散環境への導入や、局所データセットの非均一分布によるドリフト問題の緩和など、新たな課題をもたらす。 この2つの問題は文献で個別に研究されているが,本稿では,flフレームワークに大きな変更を加えることなく,単一の戦略を用いて,あるいは追加の計算処理と通信負荷を導入することで,どちらの問題にも対処できることを示す。 この目的を達成するために,ドリフト制御付き高速化FLアルゴリズムであるFedADCを提案する。 FedADCの利点を実証的に説明します。

Federated learning (FL) has become de facto framework for collaborative learning among edge devices with privacy concern. The core of the FL strategy is the use of stochastic gradient descent (SGD) in a distributed manner. Large scale implementation of FL brings new challenges, such as the incorporation of acceleration techniques designed for SGD into the distributed setting, and mitigation of the drift problem due to non-homogeneous distribution of local datasets. These two problems have been separately studied in the literature; whereas, in this paper, we show that it is possible to address both problems using a single strategy without any major alteration to the FL framework, or introducing additional computation and communication load. To achieve this goal, we propose FedADC, which is an accelerated FL algorithm with drift control. We empirically illustrate the advantages of FedADC.
翻訳日:2021-05-03 02:41:26 公開日:2020-12-16
# 複数の異なるプライベートクエリを答える際のユニオンバウンド回避について

On Avoiding the Union Bound When Answering Multiple Differentially Private Queries ( http://arxiv.org/abs/2012.09116v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) 本研究では,各問合せが1つの感度を持つ,$(\epsilon, \delta)$差分プライバシで$k$クエリに応答する問題を考察する。 このタスクのアルゴリズムは、$o(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$の期待値$\ell_\infty$エラーバウンドを達成し、タイトであることが知られている(steinke and ullman, 2016)。 dagan and kur (2020) による最近の研究でも、まったく異なるアプローチで同様の結果が得られている。 私たちの仕事と彼らの仕事との違いの1つは、我々の保証が $\delta < 2^{-\Omega(k/(\log k)^8)}$ であっても成り立つことである。 一方、Dagan と Kur のアルゴリズムは、$\ell_{\infty}$ の誤差境界が $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$ が期待されるだけでなく、常に(確率 1 で)成り立つが、その誤差に対して高い確率(あるいは予想される)保証しか得られないという驚くべき優位性を持っている。

In this work, we study the problem of answering $k$ queries with $(\epsilon, \delta)$-differential privacy, where each query has sensitivity one. We give an algorithm for this task that achieves an expected $\ell_\infty$ error bound of $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$, which is known to be tight (Steinke and Ullman, 2016). A very recent work by Dagan and Kur (2020) provides a similar result, albeit via a completely different approach. One difference between our work and theirs is that our guarantee holds even when $\delta < 2^{-\Omega(k/(\log k)^8)}$ whereas theirs does not apply in this case. On the other hand, the algorithm of Dagan and Kur has a remarkable advantage that the $\ell_{\infty}$ error bound of $O(\frac{1}{\epsilon}\sqrt{k \log \frac{1}{\delta}})$ holds not only in expectation but always (i.e., with probability one) while we can only get a high probability (or expected) guarantee on the error.
翻訳日:2021-05-03 02:41:11 公開日:2020-12-16
# 正則埋め込みの微分による交流最適潮流の解法

Learning to Solve AC Optimal Power Flow by Differentiating through Holomorphic Embeddings ( http://arxiv.org/abs/2012.09622v1 )

ライセンス: Link先を確認
Henning Lange, Bingqing Chen, Mario Berges, Soummya Kar(参考訳) 交流最適潮流(AC-OPF)は電力系統の運用における基本的な問題の一つである。 AC-OPFは伝統的に、最適生成セットポイントを求める制約付き最適化問題として、非線型平等制約の集合(電力フロー方程式)を満たす。 再生可能発電の普及に伴い、グリッドオペレーターはより短い間隔でより大きな問題を解決する必要がある。 これにより、高速推論時間を持ち、大規模ネットワークに拡張可能なニューラルネットワークでopfソリューションを学ぶことに対する研究の関心が高まる。 AC-OPF問題の解決における主な困難は、この等式制約を扱うことにある。 パワーフロー方程式を満たす電圧の割り当てがあるが、物理的には実現できない。 この性質は、これらの非物理的根が誘引子として振る舞うことができるため、射影勾配の脆さに依存する任意の方法を示す。 本稿では,電力フロー方程式を正則関数に組み込む電力フローソルバの演算を微分することにより,この問題を回避する効率的な戦略を示す。 得られた学習ベースのアプローチは,200バスシステム上で実験的に検証され,訓練後,学習エージェントが確実に高速に最適化されたパワーフローソリューションを生成できることが示されている。 具体的には,従来の解法に比べて12倍の速度向上と40%の堅牢性向上を報告した。 我々の知る限り、このアプローチは完全な非線形AC-OPF方程式をうまく尊重する最初の学習ベースのアプローチを構成する。

Alternating current optimal power flow (AC-OPF) is one of the fundamental problems in power systems operation. AC-OPF is traditionally cast as a constrained optimization problem that seeks optimal generation set points whilst fulfilling a set of non-linear equality constraints -- the power flow equations. With increasing penetration of renewable generation, grid operators need to solve larger problems at shorter intervals. This motivates the research interest in learning OPF solutions with neural networks, which have fast inference time and is potentially scalable to large networks. The main difficulty in solving the AC-OPF problem lies in dealing with this equality constraint that has spurious roots, i.e. there are assignments of voltages that fulfill the power flow equations that however are not physically realizable. This property renders any method relying on projected-gradients brittle because these non-physical roots can act as attractors. In this paper, we show efficient strategies that circumvent this problem by differentiating through the operations of a power flow solver that embeds the power flow equations into a holomorphic function. The resulting learning-based approach is validated experimentally on a 200-bus system and we show that, after training, the learned agent produces optimized power flow solutions reliably and fast. Specifically, we report a 12x increase in speed and a 40% increase in robustness compared to a traditional solver. To the best of our knowledge, this approach constitutes the first learning-based approach that successfully respects the full non-linear AC-OPF equations.
翻訳日:2021-05-03 02:40:40 公開日:2020-12-16
# 単調超モジュラー関数の比最適化に関する一考察

A Note on Optimizing the Ratio of Monotone Supermodular Functions ( http://arxiv.org/abs/2012.09725v1 )

ライセンス: Link先を確認
Wenxin Li(参考訳) 2つの超モジュラー関数の比率を最小化(または最大化)する問題に対して,2つの超モジュラー関数が単調な非退化あるいは非開化である場合,多項式数による有界近似比は得られないことを示す。

We show that for the problem of minimizing (or maximizing) the ratio of two supermodular functions, no bounded approximation ratio can be achieved via polynomial number of queries, if the two supermodular functions are both monotone non-decreasing or non-increasing.
翻訳日:2021-05-03 02:40:07 公開日:2020-12-16
# IoT環境におけるボットネット攻撃の検出: 最適化された機械学習アプローチ

Detecting Botnet Attacks in IoT Environments: An Optimized Machine Learning Approach ( http://arxiv.org/abs/2012.11325v1 )

ライセンス: Link先を確認
MohammadNoor Injadat and Abdallah Moubayed and Abdallah Shami(参考訳) インターネットへの依存の高まりとそれに伴う接続需要の増加により、IoT(Internet-of-Things)デバイスは大幅に成長した。 最近のレポートによると、IoTデバイスの継続的デプロイは、ネットワーク攻撃の増加につながった。最近の報告によると、IoTマルウェア攻撃は2017年の1030万から2018年の3270万へと215.7%増加した。 これはIoTデバイスとネットワークの脆弱性と感受性の増加を示している。 そのため,このような環境下では,適切な効果的な攻撃検出・緩和技術が必要である。 マシンラーニング(ML)は、IoTデバイスやネットワークで生成された大量のデータによって、潜在的なソリューションのひとつとして浮上している。 したがって、IoT環境の侵入検知に採用される可能性がある。 そこで本研究では,ベイズ最適化ガウシアンプロセス(BO-GP)アルゴリズムと決定木分類(DT)モデルを組み合わせたMLベースのフレームワークを提案し,IoTデバイスに対する攻撃を効果的かつ効率的に検出する。 提案フレームワークの性能はBot-IoT-2018データセットを用いて評価する。 実験の結果,提案フレームワークは高い検出精度,精度,リコール,Fスコアを有し,IoT環境におけるボットネット攻撃の検出の有効性と堅牢性を強調した。

The increased reliance on the Internet and the corresponding surge in connectivity demand has led to a significant growth in Internet-of-Things (IoT) devices. The continued deployment of IoT devices has in turn led to an increase in network attacks due to the larger number of potential attack surfaces as illustrated by the recent reports that IoT malware attacks increased by 215.7% from 10.3 million in 2017 to 32.7 million in 2018. This illustrates the increased vulnerability and susceptibility of IoT devices and networks. Therefore, there is a need for proper effective and efficient attack detection and mitigation techniques in such environments. Machine learning (ML) has emerged as one potential solution due to the abundance of data generated and available for IoT devices and networks. Hence, they have significant potential to be adopted for intrusion detection for IoT environments. To that end, this paper proposes an optimized ML-based framework consisting of a combination of Bayesian optimization Gaussian Process (BO-GP) algorithm and decision tree (DT) classification model to detect attacks on IoT devices in an effective and efficient manner. The performance of the proposed framework is evaluated using the Bot-IoT-2018 dataset. Experimental results show that the proposed optimized framework has a high detection accuracy, precision, recall, and F-score, highlighting its effectiveness and robustness for the detection of botnet attacks in IoT environments.
翻訳日:2021-05-03 02:39:59 公開日:2020-12-16
# DNSクエリに基づくボットネット検出のための最適化ランダムフォレストモデル

Optimized Random Forest Model for Botnet Detection Based on DNS Queries ( http://arxiv.org/abs/2012.11326v1 )

ライセンス: Link先を確認
Abdallah Moubayed and MohammadNoor Injadat and Abdallah Shami(参考訳) ドメイン名システム(dns)プロトコルは、ウェブサイト名と対応するipアドレスの間で翻訳されるため、今日のインターネットにおいて重要な役割を果たす。 しかし、データの整合性とオリジン認証のプロセスが不足しているため、DNSプロトコルにはいくつかのセキュリティ脆弱性がある。 これはボットネットネットワーク攻撃など、様々なサイバー攻撃につながることが多い。 DNSベースのボットネット攻撃を検出するための有望なソリューションのひとつは、機械学習(ML)ベースのソリューションを採用することだ。 そこで,本稿では,対応するDNSクエリに基づいてボットネットを検出するためのMLベースのフレームワークを提案する。 具体的には、情報ゲインを特徴選択方法として、遺伝的アルゴリズム(GA)をハイパーパラメータ最適化モデルとして使用し、ランダムフォレスト(RF)分類器のパラメータをチューニングする。 提案フレームワークは最先端のTI-2016 DNSデータセットを用いて評価される。 実験の結果,提案した最適化フレームワークにより,機能セットのサイズが最大60%削減された。 さらに、デフォルトの分類器と比較して高い検出精度、精度、リコール、Fスコアを達成した。 これは、ボットネット攻撃検出における提案フレームワークの有効性と堅牢性を強調している。

The Domain Name System (DNS) protocol plays a major role in today's Internet as it translates between website names and corresponding IP addresses. However, due to the lack of processes for data integrity and origin authentication, the DNS protocol has several security vulnerabilities. This often leads to a variety of cyber-attacks, including botnet network attacks. One promising solution to detect DNS-based botnet attacks is adopting machine learning (ML) based solutions. To that end, this paper proposes a novel optimized ML-based framework to detect botnets based on their corresponding DNS queries. More specifically, the framework consists of using information gain as a feature selection method and genetic algorithm (GA) as a hyper-parameter optimization model to tune the parameters of a random forest (RF) classifier. The proposed framework is evaluated using a state-of-the-art TI-2016 DNS dataset. Experimental results show that the proposed optimized framework reduced the feature set size by up to 60%. Moreover, it achieved a high detection accuracy, precision, recall, and F-score compared to the default classifier. This highlights the effectiveness and robustness of the proposed framework in detecting botnet attacks.
翻訳日:2021-05-03 02:39:41 公開日:2020-12-16
# 構造ダイナミクス解析のための時間連続エネルギー保存ニューラルネットワーク

Time-Continuous Energy-Conservation Neural Network for Structural Dynamics Analysis ( http://arxiv.org/abs/2012.14334v1 )

ライセンス: Link先を確認
Yuan Feng, Hexiang Wang, Han Yang, Fangbo Wang(参考訳) 高速で正確な構造力学解析は構造設計と損傷評価に重要である。 近年,機械学習技術を活用した構造力学解析が注目されている。 基本ニューラルネットワークは構造動力学解析の代替手法を提供するが、ニューラルネットワーク内の物理法則の欠如はモデルの正確性と忠実性を制限する。 本稿では、物理法則を尊重するエネルギー保存型ニューラルネットワークの新たなファミリーについて紹介する。 ニューラルネットワークは、基本的な単一自由度システムから複雑な多自由度システムまで探索される。 減衰力と外部力も段階的に考慮される。 アルゴリズムの並列化を改善するために、構造状態の離散列を指定するのではなく、新しいエネルギー保存ニューラルネットワークで構造状態の微分をパラメータ化する。 提案モデルでは, システムエネルギーをニューラルネットワークの最後の層として利用し, 基礎となる自動微分グラフを活用し, システムエネルギーを自然に組み込むことで, 最終的に地震時の応答計算の精度と長期安定性を向上させる。 計算精度と速度のトレードオフについて議論する。 ケーススタディとして,現実的な地震記録を用いて3層建物地震シミュレーションを行う。

Fast and accurate structural dynamics analysis is important for structural design and damage assessment. Structural dynamics analysis leveraging machine learning techniques has become a popular research focus in recent years. Although the basic neural network provides an alternative approach for structural dynamics analysis, the lack of physics law inside the neural network limits the model accuracy and fidelity. In this paper, a new family of the energy-conservation neural network is introduced, which respects the physical laws. The neural network is explored from a fundamental single-degree-of-freedom system to a complicated multiple-degrees-of-freedom system. The damping force and external forces are also considered step by step. To improve the parallelization of the algorithm, the derivatives of the structural states are parameterized with the novel energy-conservation neural network instead of specifying the discrete sequence of structural states. The proposed model uses the system energy as the last layer of the neural network and leverages the underlying automatic differentiation graph to incorporate the system energy naturally, which ultimately improves the accuracy and long-term stability of structures dynamics response calculation under an earthquake impact. The trade-off between computation accuracy and speed is discussed. As a case study, a 3-story building earthquake simulation is conducted with realistic earthquake records.
翻訳日:2021-05-03 02:39:24 公開日:2020-12-16
# プログラム可能な量子アニール-ノイズギブズサンプリング

Programmable Quantum Annealers as Noisy Gibbs Samplers ( http://arxiv.org/abs/2012.08827v1 )

ライセンス: Link先を確認
Marc Vuffray, Carleton Coffrin, Yaroslav A. Kharkov, Andrey Y. Lokhov(参考訳) 高次元確率分布から独立したサンプルを描くことは、ディープラーニングのような強力な機械学習フレームワークを含む現代のアルゴリズムの主要な計算ボトルネックである。 サンプリングを効率的に実現できるより大きな分布の族を発見するための探究は、確立された計算方法を超えて、量子計算の原理を利用する新しい物理デバイスへと変化した。 量子アニーリングは、ギブス分布におけるエネルギー景観の複雑さと密接に関連している有望な計算パラダイムを具現化し、系の状態の確率とこれらの状態のエネルギーを関連付ける。 本稿では,超伝導フラックス量子ビットのプログラム可能な格子を用いて実装した量子アニーラの物理的実現のサンプリング特性について検討する。 これらの量子マシンが生成するデータの包括的統計分析により、量子アニールは低温ノイズギブス分布から独立した構成を生成するサンプルとして振る舞う。 出力分布の構造は、個々の量子ビットの有効温度や局所量子ビット雑音の大きさなどの量子デバイス固有の物理特性をプローブし、結果として非線形応答関数とハードウェア実装に欠落するスプリアス相互作用をもたらすことを示す。 我々は,次世代の量子アニールや他のアナログコンピューティング機器のキャラクタリゼーションにおいて,我々の方法論が広く利用されることを期待する。

Drawing independent samples from high-dimensional probability distributions represents the major computational bottleneck for modern algorithms, including powerful machine learning frameworks such as deep learning. The quest for discovering larger families of distributions for which sampling can be efficiently realized has inspired an exploration beyond established computing methods and turning to novel physical devices that leverage the principles of quantum computation. Quantum annealing embodies a promising computational paradigm that is intimately related to the complexity of energy landscapes in Gibbs distributions, which relate the probabilities of system states to the energies of these states. Here, we study the sampling properties of physical realizations of quantum annealers which are implemented through programmable lattices of superconducting flux qubits. Comprehensive statistical analysis of the data produced by these quantum machines shows that quantum annealers behave as samplers that generate independent configurations from low-temperature noisy Gibbs distributions. We show that the structure of the output distribution probes the intrinsic physical properties of the quantum device such as effective temperature of individual qubits and magnitude of local qubit noise, which result in a non-linear response function and spurious interactions that are absent in the hardware implementation. We anticipate that our methodology will find widespread use in characterization of future generations of quantum annealers and other emerging analog computing devices.
翻訳日:2021-05-03 02:39:08 公開日:2020-12-16