このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200730となっている論文です。

PDF登録状況(公開日: 20200730)

TitleAuthorsAbstract論文公表日・翻訳日
# 自由chsh-3の不等式違反に基づく量子乱数生成

Quantum Random Number Generator based on Violations of the Free CHSH-3 Inequality ( http://arxiv.org/abs/2003.00124v3 )

ライセンス: Link先を確認
Don Jean Baptiste Anoman, Fran\c{c}ois Arnault, and Simone Naldi(参考訳) 本稿では,自由クレーター-ホルン-シモニー-ホルト不等式,すなわちCHSH-3の量子違反の存在に基づいて乱数を生成するプロトコルについて述べる。 提案手法は, 半定値のプログラム緩和を用いてそのような違反を計算する。 標準設定では、CHSH-3の不等式は2つの分離クォートリットと互換性のある測定、すなわち互いに通勤し、既知の量子境界が1+\sqrt{11/3} \approx 2.9149$となる。 我々のフレームワークでは、$d$-dimensional quantum systems (qudits) は、$d$は前もって固定されておらず、測定演算子はおそらく互換性がない。 この制約の喪失は、CHSH-3の不等式の最大期待値が高い値となる。 このような上界をCHSH-3の違反に基づき、我々は1つの部分を持つタイプ・アンド・尺度の乱数生成器を開発する。 我々のプロトコルは最大エントロピーを生成し、そのセキュリティは自己テストの議論を通じて、量子系に対する自由CHSH-3の最大違反の達成性に基づいている。

We describe a protocol for generating random numbers based on the existence of quantum violations of a free Clauser-Horne-Shimony-Holt inequality, namely CHSH-3. Our method uses semidefinite programming relaxations to compute such violations. In a standard setting the CHSH-3 inequality involves two separated qutrits and compatible measurement, that is, commuting with each other, yielding the known quantum bound of $1+\sqrt{11/3} \approx 2.9149$. In our framework, $d$-dimensional quantum systems (qudits) where $d$ is not fixed a priori, and measurement operators possibly not compatible, are allowed. This loss of constraints yields a higher value for the maximum expectation of the CHSH-3 inequality. Based on such upper bound on the violation of CHSH-3, we develop a random number generator of type prepare-and-measure, but with one part. Our protocol generates a maximal entropy and its security is based, through self testing arguments, on the attainability of the maximal violation of the free CHSH-3 for quantum systems.
翻訳日:2023-06-01 07:32:20 公開日:2020-07-30
# 分子ナノマグネットのダイマーによるクロック遷移二ビットゲートの構成

Constructing Clock-Transition-Based Two-Qubit Gates from Dimers of Molecular Nanomagnets ( http://arxiv.org/abs/2004.03635v2 )

ライセンス: Link先を確認
Charles A. Collett, Paolo Santini, Stefano Carretta and Jonathan R. Friedman(参考訳) 良い量子ビットはゲート操作を行うのに十分なコヒーレンス時間を持つ必要がある。 回避レベル交差は、外部磁場の変動への遷移の過敏性によってコヒーレンスが強化されるクロック遷移を可能にする。 この無感性のため、クロック遷移挙動を維持しながらクビットを効果的に結合する方法は明確ではない。 ここでは、2つの結合した分子ナノマグネットのヘテロ二量体を用いて、0磁場でのクロック遷移を行い、1ビットと2ビットのゲートを実装するために必要な全てのゲート操作をパルス高周波放射により実装する手法を提案する。 ダイマー内のナノマグネット間の現実的な結合強度が与えられると、良好なゲートフィデリティ($99.4\%)が得られることを示す。 ゲートの実装におけるエラーの主な原因を特定し、これらを緩和する方法を議論し、量子コンピューティングプロトコルを実装する上で有効なプラットフォームとなるために必要なコヒーレンス時間の範囲について検討する。

A good qubit must have a coherence time long enough for gate operations to be performed. Avoided level crossings allow for clock transitions in which coherence is enhanced by the insensitivity of the transition to fluctuations in external fields. Because of this insensitivity, it is not obvious how to effectively couple qubits together while retaining clock-transition behavior. Here we present a scheme for using a heterodimer of two coupled molecular nanomagnets, each with a clock transition at zero magnetic field, in which all of the gate operations needed to implement one- and two-qubit gates can be implemented with pulsed radio-frequency radiation. We show that given realistic coupling strengths between the nanomagnets in the dimer, good gate fidelities ($\sim$99.4\%) can be achieved. We identify the primary sources of error in implementing gates and discuss how these may be mitigated, and investigate the range of coherence times necessary for such a system to be a viable platform for implementing quantum computing protocols.
翻訳日:2023-05-26 04:00:46 公開日:2020-07-30
# モード分解キラル磁気効果と回転フェルミオン

Mode Decomposed Chiral Magnetic Effect and Rotating Fermions ( http://arxiv.org/abs/2004.05852v2 )

ライセンス: Link先を確認
Kenji Fukushima, Takuya Shimazaki, Lingxiao Wang(参考訳) 本稿では,角分解モードの観点からキラル磁気及び関連効果を特徴付ける新しい視点を提案する。 ベクトル電流とキラル度密度は、すべてのモードと任意の質量の驚くほど単純な関係を通して接続され、キラル化学ポテンシャルから解放されるようなモード分解キラル磁気効果を定義する。 モード分解型定式化は回転するフェルミオンの性質を調べるのにも有用である。 実演のために、回転と磁場の組み合わせから生じる非零密度の直感的な説明と、有限密度でのカイラル渦効果へのアプローチを与える。

We present a novel perspective to characterize the chiral magnetic and related effects in terms of angular decomposed modes. We find that the vector current and the chirality density are connected through a surprisingly simple relation for all the modes and any mass, which defines the mode decomposed chiral magnetic effect in such a way free from the chiral chemical potential. The mode decomposed formulation is useful also to investigate properties of rotating fermions. For demonstration we give an intuitive account for a nonzero density emerging from a combination of rotation and magnetic field as well as an approach to the chiral vortical effect at finite density.
翻訳日:2023-05-24 11:29:24 公開日:2020-07-30
# n結合離散時間結晶の位相図と最適制御

Phase diagram and optimal control for n-tupling discrete time crystal ( http://arxiv.org/abs/2004.14982v2 )

ライセンス: Link先を確認
Arkadiusz Kuro\'s, Rick Mukherjee, Weronika Golletz, Frederic Sauvage, Krzysztof Giergiel, Florian Mintert and Krzysztof Sacha(参考訳) 系の時間変換対称性を自発的に破ることの顕著な結果は、時間結晶の出現である。 周期駆動系では、駆動周期のn倍の周期性を有する離散時間結晶(DTC)を実現することができる。 しかし, 周期性および周期性に富む離散時間結晶について実験を行った。 新たな物理学は、時間領域で多体物理学をシミュレートすることで生じ得るが、これはn-tupling dtcの真の実現を必要とする。 振動ミラー上で共鳴的に跳ね上がる超低温ボソニック原子の系は、大きな周期dtcを実現するモデルの一つである。 DTCの準備は、ミラー周波数とともに超低温のボゾン原子の初期分布を生成する制御を要求する。 本研究では、これらのDTCが原子の初期分布に対する摂動に対して堅牢であることを示す。 ベイズ法は初期状態の準備における制御の強化や,そのモデルに対する位相図の効率的な計算にどのように利用できるかを示す。 さらに, 量子多体揺らぎを解析し, DTCの安定性について検討し, 加熱の兆候を示さないことを示す。

A remarkable consequence of spontaneously breaking the time translational symmetry in a system, is the emergence of time crystals. In periodically driven systems, discrete time crystals (DTC) can be realized which have a periodicity that is n times the driving period. However, all of the experimental observations have been performed for period-doubling and period-tripling discrete time crystals. Novel physics can arise by simulating many-body physics in the time domain, which would require a genuine realisation of the n-tupling DTC. A system of ultra-cold bosonic atoms bouncing resonantly on an oscillating mirror is one of the models that can realise large period DTC. The preparation of DTC demands control in creating the initial distribution of the ultra-cold bosonic atoms along with the mirror frequency. In this work, we demonstrate that such DTC is robust against perturbations to the initial distribution of atoms. We show how Bayesian methods can be used to enhance control in the preparation of the initial state as well as to efficiently calculate the phase diagram for such a model. Moreover, we examine the stability of DTCs by analyzing quantum many-body fluctuations and show that they do not reveal signatures of heating.
翻訳日:2023-05-21 17:03:50 公開日:2020-07-30
# 量子ターゲット検出における多変量判別

Multivariate Discrimination in Quantum Target Detection ( http://arxiv.org/abs/2005.00612v2 )

ライセンス: Link先を確認
Peter Svihra and Yingwen Zhang and Paul Hockett and Steven Ferrante and Benjamin Sussman and Duncan England and Andrei Nomerotski(参考訳) 本稿では,多次元量子ターゲット検出における信号と背景の識別性を改善するための簡易多変量法について述べる。 この手法は、自発的パラメトリックダウン変換源からの光子対の時間差と和エネルギーの2つの独立変数を最適な判別値に結合する。 判別性能は, 実験データおよびモンテカルロモデルにおいて, 従来の手法と比較して明らかに改善した。 新しい検出器が利用可能になると、この種の多変量解析は多次元量子光学においてますます重要になると予想する。

We describe a simple multivariate technique of likelihood ratios for improved discrimination of signal and background in multi-dimensional quantum target detection. The technique combines two independent variables, time difference and summed energy, of a photon pair from the spontaneous parametric down-conversion source into an optimal discriminant. The discriminant performance was studied in experimental data and in Monte-Carlo modelling with clear improvement shown compared to previous techniques. As novel detectors become available, we expect this type of multivariate analysis to become increasingly important in multi-dimensional quantum optics.
翻訳日:2023-05-21 14:51:07 公開日:2020-07-30
# 非ヘルミットスピン軌道結合ボソニック接合における安定トンネル制御

Controlling stable tunneling in a non-Hermitian spin-orbit coupled bosonic junction ( http://arxiv.org/abs/2005.04627v2 )

ライセンス: Link先を確認
Yunrong Luo, Xuemei Wang, Yuxin Luo, Zheng Zhou, Zhao-Yun Zeng, and Xiaobing Luo(参考訳) 本稿では,非エルミートスピン軌道結合ボソニックダブルウェル系における安定スピントンネル制御のための周期駆動場の適用法について検討する。 高周波近似により、解析的フロケ解とその関連する準エネルギーを求め、散逸的スピン軌道結合ボソニック系の一般フロケ解を構築する。 フロッケ準エネルギースペクトルの詳細な解析に基づいて, スピン依存トンネルの安定性に対するシステムパラメータと周期駆動場の影響を, 2つの井戸間の平衡および非平衡ゲインロスについて解析・数値的に検討した。 利得と損失のバランスの下では,利得損失強度の増加に伴い安定なスピンフリッピングトンネルが優先的に抑制されることがわかった。 ゼーマン場強度と周期駆動周波数 $\omega/\omega$ の比が偶数であるとき、安定なパラメータ領域が \emph{continuous} が存在する可能性がある。 Omega/\omega$ が奇数であれば、しかしながら、安定パラメータ領域は \emph{discrete} のみである。 不均衡利得と損失の下では、$\omega/\omega$ が偶数か奇数かにかかわらず、安定スピントンネルの存在に対するパラメトリック平衡条件が得られる。 この結果は、非エルミートスピン軌道結合系における安定スピン輸送を制御する実験に有用である。

In this paper, we study how to apply a periodic driving field to control stable spin tunneling in a non-Hermitian spin-orbit coupled bosonic double-well system. By means of a high-frequency approximation, we obtain the analytical Floquet solutions and their associated quasienergies and thus construct the general non-Floquet solutions of the dissipative spin-orbit coupled bosonic system. Based on detailed analysis of the Floquet quasienergy spectrum, the profound effect of system parameters and the periodic driving field on the stability of spin-dependent tunneling is investigated analytically and numerically for both balanced and unbalanced gain-loss between two wells. Under balanced gain and loss, we find that the stable spin-flipping tunneling is preferentially suppressed with the increase of gain-loss strength. When the ratio of Zeeman field strength to periodic driving frequency $\Omega/\omega$ is even, there is a possibility that \emph{continuous} stable parameter regions will exist. When $\Omega/\omega$ is odd, nevertheless, only \emph{discrete} stable parameter regions are found. Under unbalanced gain and loss, whether $\Omega/\omega$ is even or odd, we can get parametric equilibrium conditions for the existence of stable spin tunneling. The results could be useful for the experiments of controlling stable spin transportation in a non-Hermitian spin-orbit coupled system.
翻訳日:2023-05-20 16:15:14 公開日:2020-07-30
# 非局所化-局所化相転移における境界条件に対する固有状態のロバスト性と独立性

Robustness and Independence of the Eigenstates with respect to the Boundary Conditions across a Delocalization-Localization Phase Transition ( http://arxiv.org/abs/2005.09350v2 )

ライセンス: Link先を確認
Zi-Yong Ge, Heng Fan(参考訳) ローカライゼーション-非局在化相転移における多体固有状態に注目した。 固有状態のロバスト性を特徴付けるために、異なる境界条件に関して、固有状態が $\mathcal{o}$ を重なり合うことを導入する。 エルゴード相では、固有状態の平均が$\bar{\mathcal{O}}$と重なるのは、その固有状態の脆弱性を示す系サイズの増加による指数関数的崩壊であり、これはカオス系の固有状態変換バタフライ効果と見なすことができる。 局所化系では、$\bar{\mathcal{o}}$ は固有状態の強い強固さと固有状態熱化仮説の破れを示すほぼ大きさ非依存である。 さらに,多体局在系における境界条件の変化に対する固有状態の応答はアンダーソン局在系における単一粒子波動関数と同一視されている。 これは多体局所化系の固有状態が多体波動関数として互いに独立であることを示している。 これは多体局所化相における運動の多くの準局所積分の存在と一致していることを示す。 本研究は,固有状態の観点から,局所化および非局在化システムを研究するための新しい手法を提供する。

We focus on the many-body eigenstates across a localization-delocalization phase transition. To characterize the robustness of the eigenstates, we introduce the eigenstate overlaps $\mathcal{O}$ with respect to the different boundary conditions. In the ergodic phase, the average of eigenstate overlaps $\bar{\mathcal{O}}$ is exponential decay with the increase of the system size indicating the fragility of its eigenstates, and this can be considered as an eigenstate-version butterfly effect of the chaotic systems. For localized systems, $\bar{\mathcal{O}}$ is almost size-independent showing the strong robustness of the eigenstates and the broken of eigenstate thermalization hypothesis. In addition, we find that the response of eigenstates to the change of boundary conditions in many-body localized systems is identified with the single-particle wave functions in Anderson localized systems. This indicates that the eigenstates of the many-body localized systems, as the many-body wave functions, may be independent of each other. We demonstrate that this is consistent with the existence of a large number of quasilocal integrals of motion in the many-body localized phase. Our results provide a new method to study localized and delocalized systems from the perspective of eigenstates.
翻訳日:2023-05-19 08:13:14 公開日:2020-07-30
# 量子鍵配電網の効率的なルーティング

Efficient Routing for Quantum Key Distribution Networks ( http://arxiv.org/abs/2005.12404v2 )

ライセンス: Link先を確認
Omar Amer, Walter O. Krawec, Bing Wang(参考訳) 量子鍵分布の実用化が進むにつれて、大規模ネットワークや大距離での効果的利用の課題がますます重要になっている。 そこで本研究では,量子リピータと信頼ノードの両方からなるネットワーク上で動作する際に,e91エンタングルメントに基づくqkdプロトコルの性能をモデル化する。 本稿では,このネットワークのためのルーティングプロトコルを提案し,その性能を異なる利用シナリオで比較する。 本研究では,デバイスの性能(リピータの計測装置の品質など)に応じて,信頼されたノード数とリピータ数の最適配置について検討する。 その過程で、セキュアな通信速度を改善するために、今後の量子ネットワークを改善するための重要な物理的側面を決定する興味深い教訓を発見する。

As quantum key distribution becomes increasingly practical, questions of how to effectively employ it in large-scale networks and over large distances becomes increasingly important. To that end, in this work, we model the performance of the E91 entanglement based QKD protocol when operating in a network consisting of both quantum repeaters and trusted nodes. We propose a number of routing protocols for this network and compare their performance under different usage scenarios. Through our modeling, we investigate optimal placement and number of trusted nodes versus repeaters depending on device performance (e.g., quality of the repeater's measurement devices). Along the way we discover interesting lessons determining what are the important physical aspects to improve for upcoming quantum networks in order to improve secure communication rates.
翻訳日:2023-05-18 11:59:56 公開日:2020-07-30
# 偶然を超えて--Ou-Mandelインターフェロメトリーにおける全データの利用

Beyond coincidence: using all the data in Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2005.14696v2 )

ライセンス: Link先を確認
Hannah Scott, Dominic Branford, Niclas Westerberg, Jonathan Leach, Erik M. Gauger(参考訳) ホン・ウー・マンデル効果は、ビームスプリッターで干渉する2つの光子の束縛速度を測定することによって、光子対の識別性を決定するメカニズムを提供する。 特に興味深いのは、時間の遅れを調べるために使用できる時間の識別性である。 しかし、光子検出器自体がタイミング情報を与えるが、分解能は干渉計の手法に劣る可能性がある - 典型的な分析は、検出器内の時間情報を無視して二分事象への干渉を減少させる。 数分解能と時間分解能を持つ検出器をモデル化することにより、一致率や時間データだけで得るよりも高い精度を示す。 さらに、追加情報は、キャリブレーションパラメータと並行して時間遅延の同時推定を可能にし、キャリブレーションフリープロトコルの可能性を開き、量子クレーア・ラオ境界の精度に近づくことができる。

The Hong-Ou-Mandel effect provides a mechanism to determine the distinguishability of a photon pair by measuring the bunching rates of two photons interfering at a beam splitter. Of particular interest is the distinguishability in time, which can be used to probe a time delay. Photon detectors themselves give some timing information, however--while that resolution may dwarf that of an interferometric technique--typical analyses reduce the interference to a binary event, neglecting temporal information in the detector. By modelling detectors with number and temporal resolution we demonstrate a greater precision than coincidence rates or temporal data alone afford. Moreover, the additional information can allow simultaneous estimation of a time delay alongside calibration parameters, opening up the possibility of calibration-free protocols and approaching the precision of the quantum Cram\'er-Rao bound.
翻訳日:2023-05-18 00:42:37 公開日:2020-07-30
# 単一量子ドットとL4/3フォトニック結晶ナノキャビティの強い結合

Strong coupling between a single quantum dot and an L4/3 photonic crystal nanocavity ( http://arxiv.org/abs/2006.06170v2 )

ライセンス: Link先を確認
Kazuhiro Kuruma, Yasutomo Ota, Masahiro Kakuda, Satoshi Iwamoto, Yasuhiko Arakawa(参考訳) 単一量子ドットとGaAs系L4/3型フォトニック結晶ナノキャビティとの強い結合を示す。 L4/3空洞は、高い理論Q因子(~8{\times}10^6)、小さなモード体積(~0.32 (\lambda/n)^3)、宿主誘電体内に最大電界が配置された電界分布をサポートし、量子ドットとの強い結合を促進する。 光ルミネッセンス測定によりL4/3空洞を作製し,高いQ因子を8万以上観察した。 一つの量子ドットと33,000のq係数を持つl4/3キャビティとの強い結合をスペクトルの明確な反交差を観測することで確認した。

We demonstrate strong coupling between a single quantum dot and a GaAs-based L4/3-type photonic crystal nanocavity. The L4/3 cavity supports a high theoretical Q factor (~8{\times}10^6), a small mode volume (~0.32 (\lambda/n)^3), and an electric field distribution with the maximum electric field lying within the host dielectric material, which facilitates strong coupling with a quantum dot. We fabricated L4/3 cavities and observed a high Q factor over 80,000 using photoluminescence measurement. We confirmed strong coupling between a single quantum dot and an L4/3 cavity with a Q factor of 33,000 by observing a clear anti-crossing in the spectra.
翻訳日:2023-05-16 00:48:34 公開日:2020-07-30
# オンチップ集積リング共振器と結合した量子ドットからのパーセル増強と識別不能単一光子生成

Purcell enhanced and indistinguishable single-photon generation from quantum dots coupled to on-chip integrated ring resonators ( http://arxiv.org/abs/2007.12920v2 )

ライセンス: Link先を確認
{\L}ukasz Dusanowski, Dominik K\"ock, Eunso Shin, Soon-Hong Kwon, Christian Schneider, Sven H\"ofling(参考訳) 集積フォトニック回路は、高度な量子光学応用のための多機能ツールボックスを提供する。 そこで本研究では,高調波オンチップ集積共振器に結合した量子ドットに基づくパーセル強化単一光子源としてシステムの本質成分を示す。 そこで我々は,分散ブラッグリフレクタリッジ導波路に基づくGaAsモノリシックリングキャビティを開発した。 共鳴励起条件下では、パーセル効果を用いた2倍の自発発光率の増大を観測し、ラビ振動によるqd-2レベル系の完全なコヒーレント光制御を得る。 さらに,多光子放出確率を1%以下に抑えたオンデマンド単光子生成と,可視性95%までの2光子干渉を実証した。 この統合単一光子源は容易にスケールアップでき、スケーラブルなオンチップ線形光学量子シミュレーション、量子計算、量子ネットワークのための現実的な経路を約束できる。

Integrated photonic circuits provide a versatile toolbox of functionalities for advanced quantum optics applications. Here, we demonstrate an essential component of such a system in the form of a Purcell enhanced single-photon source based on a quantum dot coupled to a robust on-chip integrated resonator. For that, we develop GaAs monolithic ring cavities based on distributed Bragg reflector ridge waveguides. Under resonant excitation conditions, we observe an over twofold spontaneous emission rate enhancement using Purcell effect and gain a full coherent optical control of a QD-two-level system via Rabi oscillations. Furthermore, we demonstrate an on-demand single-photon generation with strongly suppressed multi-photon emission probability as low as 1% and two-photon interference with visibility up to 95%. This integrated single-photon source can be readily scaled up, promising a realistic pathway for scalable on-chip linear optical quantum simulation, quantum computation and quantum networks.
翻訳日:2023-05-08 06:30:08 公開日:2020-07-30
# 改良された変形指数型ポテンシャルのファインバーグ・ホロデキ完全運動量状態

Feinberg-Horodecki exact momentum states of improved deformed exponential-type potential ( http://arxiv.org/abs/2007.14789v2 )

ライセンス: Link先を確認
Mahmoud Farout, Ahmed Bassalat, Sameer M. Ikhdair(参考訳) 空間型シュロディンガー方程式に対する量子化された運動量固有値 Pn と運動量固有状態 Feinberg-Horodecki 方程式を得る。 また, 改良された指数型ポテンシャルの変動を, 数量子化状態の運動量固有値を用いて, スクリーニングパラメータに対してプロットする。

We obtain the quantized momentum eigenvalues, Pn, and the momentum eigenstates for the space-like Schrodinger equation, the Feinberg-Horodecki equation, with the improved deformed exponential-type potential which is constructed by temporal counterpart of the spatial form of these potentials. We also plot the variations of the improved deformed exponential-type potential with its momentum eigenvalues for few quantized states against the screening parameter.
翻訳日:2023-05-08 02:18:51 公開日:2020-07-30
# 日本におけるCOVID-19死亡率と死亡率と地域人口密度・温度・絶対湿度との関係

Correlation between COVID-19 morbidity and mortality rates in Japan and local population density, temperature and absolute humidity ( http://arxiv.org/abs/2007.14065v2 )

ライセンス: Link先を確認
Sachiko Kodera, Essam A. Rashed, Akimasa Hirata(参考訳) 本研究は,全国各都道府県における新型コロナウイルス(covid-19)パンデミックの病状と死亡率を分析した。 1日当たりの死亡確認数と1日当たり死亡数を4,10以上とする制約の下,14都道府県を対象とし,死亡率と死亡率に影響を与える因子について検討した。 特に院内感染と老人ホーム患者を除く死者数について検討した。 死亡率と人口密度(r2=0.394)との間に軽度相関が認められた。 また、人口当たりの高齢者の割合も無視できないことが判明した。 気象パラメータのうち, 持続期間の平均最高気温と絶対湿度は, 院内感染例を除き, 死亡率, 死亡率と緩やかに相関することが判明した。 低い死亡率と死亡率は、高温と絶対湿度で観測される。 これらの因子を考慮した多変量解析の結果, 拡散, 崩壊, 複合ステージの判定係数はそれぞれ0.708, 0.785, 0.615であった。 これらの発見は、新型コロナウイルスの2回目の感染拡大を含む将来のパンデミックにおける介入計画に有用かもしれない。

This study analyzed the morbidity and mortality rates of the COVID-19 pandemic in different prefectures of Japan. Under the constraint that daily maximum confirmed deaths and daily maximum cases should exceed 4 and 10, respectively, 14 prefectures were included, and cofactors affecting the morbidity and mortality rates were evaluated. In particular, the number of confirmed deaths was assessed excluding the cases of nosocomial infections and nursing home patients. A mild correlation was observed between morbidity rate and population density (R2=0.394). In addition, the percentage of the elderly per population was also found to be non-negligible. Among weather parameters, the maximum temperature and absolute humidity averaged over the duration were found to be in modest correlation with the morbidity and mortality rates, excluding the cases of nosocomial infections. The lower morbidity and mortality are observed for higher temperature and absolute humidity. Multivariate analysis considering these factors showed that determination coefficients for the spread, decay, and combined stages were 0.708, 0.785, and 0.615, respectively. These findings could be useful for intervention planning during future pandemics, including a potential second COVID-19 outbreak.
翻訳日:2023-05-07 23:27:17 公開日:2020-07-30
# インドネシアにおける太陽エネルギープラントの最適配置に関するGIS-AHP多変量解析

GIS-AHP Multi-Decision-Criteria-Analysis for the Optimal Location of Solar Energy Plants at Indonesia ( http://arxiv.org/abs/2007.15351v1 )

ライセンス: Link先を確認
H. S. Ruiz, A. Sunarso, K. Ibrahim-bathis, S. A. Murti, and I. Budiarto(参考訳) 文化的・生物多様性保全地域の持続的発展と保護を考慮できる太陽光発電プラントの立地適合性評価ツールを提案する。 本稿では, インドネシアにおけるエネルギー利害関係者のニーズに合わせたGISプラットフォーム内のSSI衛星検索データとローカル情報ソースの多値判定基準分析(MDCA)のための, 新たな分析階層プロセス(AHP)に基づくアプローチを提案する。 これは、赤道の$\pm 4^{\circ}$内の表面太陽放射(SSI)の高分解能イメージングを要求するランドマークにおいて、考慮すべき文化的、自然的、生態学的保護領域の広範な多様化により、重大な課題を課している。 これらの課題を克服するために、GIS空間重み付きオーバーレイ分析により、気候、地形、電力網、道路インフラなどの基準層をオーバーレイし、既存の環境に近づいた3つの近似手法におけるソーラープラントの設置の技術的・経済的実現可能性に基づく。 (i)電力網、 (ii)道路インフラ、及び (三)地域集落 ここでは、ボルネオ島の西カリマンタン州(WKP)を中心に、主にマレーシアとブルネイの沿岸における相互接続とエネルギー共有の可能性、ボルネオの生物多様性の保護を推進している国家的・国際的重要性について論じる。 自然保護区域を除外した後に発見された33.05\%$エクスプロイト可能な領域のうち、最も適した条件が報告されているwkpの0.03\%$ (46.60~km^{2}$) と0.07\%$ (108.58~{km}^{2}$) である。 これは...

A reliable tool for site-suitability assessment of solar power plants capable to account for the sustainable development and protection of cultural and biodiversity conservation areas is proposed. We present a novel Analytic Hierarchy Process (AHP) based approach for the Multi-Decision Criteria Analysis (MDCA) of SSI satellite retrieved data and local information sources, it within a GIS platform tailored to fit the needs of energy stakeholders at Indonesia, simultaneously ensuring the conservation of legally protected areas. This imposes significant challenges due to the wide diversification of cultural, natural, and ecological protected areas that need to be considered, in landmarks that demand for high resolution imaging of surface solar irradiance (SSI) within $\pm 4^{\circ}$ of the equator. To overcome these challenges, a GIS spatial weighted overlay analysis for criteria layers such as climatology, topography, electrical grid, and road infrastructure has been performed, it based on the technical and economic feasibility for solar plants deployment within three approximation schemes focused on their proximity to the existing (i) power network, (ii) road infrastructure, and (iii) community settlements. Here, we focused on the West Kalimantan Province of Borneo Island (WKP), it mainly due to its possibility of onshore inter-connectivity and energy share with Malaysia and Brunei, and the high national and international importance that brings forward the protection of the biodiversity of Borneo. It has been found that the optimal location of PV plants can be reduced to just $0.03\%$ ($46.60~km^{2}$) and $0.07\%$ ($108.58~{km}^{2}$) of WKP, in what we report as the best-suitable conditions out of the $33.05\%$ exploitable area found after the exclusion of conservation areas. This corresponds to ...
翻訳日:2023-05-07 18:39:05 公開日:2020-07-30
# マグノンキャビティハイブリッドシステムによるマイクロ波から光波へのコヒーレント多モード変換

Coherent multi-mode conversion from microwave to optical wave via a magnon-cavity hybrid system ( http://arxiv.org/abs/2007.15299v1 )

ライセンス: Link先を確認
Yong Sup Ihn, Su-Yong Lee, Dongkyu Kim, Sin Hyuk Yim, and Zaeill Kim(参考訳) マイクロ波から光波へのコヒーレントな変換は、量子通信、計算、そして研究室からのセンシングを網羅する長距離量子ネットワークへの新たな研究の道を開く。 特にマルチモード対応システムは実用上必須である。 本稿では,3次元矩形キャビティ内のマイクロ波キャビティモードに強く結合した単結晶イットリウム鉄ガーネット(yig,y3fe5o12)の集団スピン励起により,マイクロ波から光波へのコヒーレント多モード変換を実験的に実証する。 キッテルから多静電モードへマグノンキャビティハイブリッドシステムの集団スピン励起モードを拡大し,YIG球の大きさが共振条件下でのマイクロ波-光学多モード変換効率において重要な役割を担っていることを検証した。 また,多静磁場モードと空洞モードとの結合強度は,空洞内のYIGの位置によって制御されることがわかった。 マイクロ波と光子のコヒーレント変換に使用できるマグノンハイブリッドシステムの設計に有用であることが期待されている。

Coherent conversion from microwave to optical wave opens new research avenues towards long distant quantum network covering quantum communication, computing, and sensing out of the laboratory. Especially multi-mode enabled system is essential for practical applications. Here we experimentally demonstrate coherent multi-mode conversion from the microwave to optical wave via collective spin excitation in a single crystal yttrium iron garnet (YIG, Y3Fe5O12) which is strongly coupled to a microwave cavity mode in a three-dimensional rectangular cavity. Expanding collective spin excitation mode of our magnon-cavity hybrid system from Kittel to multi magnetostatic modes, we verify that the size of YIG sphere predominantly plays a crucial role for the microwave-to-optical multi-mode conversion efficiency at resonant conditions. We also find that the coupling strength between multi magnetostatic modes and a cavity mode is manipulated by the position of a YIG inside the cavity. It is expected to be valuable for designing a magnon hybrid system that can be used for coherent conversion between microwave and optical photons.
翻訳日:2023-05-07 18:38:24 公開日:2020-07-30
# 量子計算の高速弱シミュレーション(動画あり)

Just Like the Real Thing: Fast Weak Simulation of Quantum Computation ( http://arxiv.org/abs/2007.15285v1 )

ライセンス: Link先を確認
Stefan Hillmich, Igor L. Markov, and Robert Wille(参考訳) 量子コンピュータは従来のコンピュータでは難解な問題を解くのにかなりのスピードアップを約束するが、近年の進歩にもかかわらず、スケーリングと可用性には限界がある。 そのため、量子ソフトウェアとハードウェア開発は、従来のコンピュータ上で動作するシミュレーションに大きく依存している。 このようなアプローチの多くは、量子状態の振幅を明示的に計算する、強いシミュレーションを行う。 しかし、それらの振幅によって定義される確率分布からランダムなサンプルを生成するため、そのような情報は物理量子コンピュータから直接観測することはできない。 本研究では,誤りのない量子コンピュータと統計的に区別できない出力を生成することを目的とした弱いシミュレーションに注目する。 決定図を用いた量子状態表現に基づく弱いシミュレーションのためのアルゴリズムを開発した。 我々は、状態ベクトル配列とプレフィックス和のバイナリ検索を用いてサンプリングを行う。 実証的検証により、これは初めて、物理的な量子コンピュータをかなりの規模で模倣できることが示されている。

Quantum computers promise significant speedups in solving problems intractable for conventional computers but, despite recent progress, remain limited in scaling and availability. Therefore, quantum software and hardware development heavily rely on simulation that runs on conventional computers. Most such approaches perform strong simulation in that they explicitly compute amplitudes of quantum states. However, such information is not directly observable from a physical quantum computer because quantum measurements produce random samples from probability distributions defined by those amplitudes. In this work, we focus on weak simulation that aims to produce outputs which are statistically indistinguishable from those of error-free quantum computers. We develop algorithms for weak simulation based on quantum state representation in terms of decision diagrams. We compare them to using state-vector arrays and binary search on prefix sums to perform sampling. Empirical validation shows, for the first time, that this enables mimicking of physical quantum computers of significant scale.
翻訳日:2023-05-07 18:38:02 公開日:2020-07-30
# ナノダイアモンド量子センサの固体レーザー冷却

Solid-state laser refrigeration of nanodiamond quantum sensors ( http://arxiv.org/abs/2007.15247v1 )

ライセンス: Link先を確認
Anupum Pant, R. Greg Felsted, Alexander B. Bard, Xiaojing Xia, Siamak Dadras, Kamran Shayan, Danika R. Luntz-Martin, Donald Mannikko, Ilia M. Pavlovetc, Stefan Stoll, Masaru Kuno, A. Nick Vamivakas, Peter J. Pauzauskie(参考訳) ダイヤモンド中の負電荷の窒素空隙(nv$^-$)中心は、ナノスケール温度測定、磁気測定、単一光子生成、量子コンピューティング、通信など、様々な応用のための驚くべき光学量子センサーである。 しかし、NV$^-$中心を用いたこれらの技術の性能は、劣化した光熱加熱によるNV$^-$中心発光の熱的散乱によって制限されている。 ここでは, 窒素空孔ドープナノダイアモンド(NV$^-$:ND)量子センサの大気中および大気中における高速(ms)光温度制御を実現するために, 固体レーザーの冷却が有効であることを示す。 ナノダイヤモンドは、ファンデルワールス結合によるフッ化イットリウム添加イットリウム(Yb:LiYF$_4$)およびフッ化イットリウム(Yb:NaYF$_4$)を含むセラミック微結晶に付着する。 フッ化物結晶は、1020nmのレーザービームで励起された上向きの赤外光子の効率的な放出によって冷却された。 セラミックスのマイクロ結晶への熱伝達により, 隣接するNV$^-$:NDを大気圧で10K, 27K, それぞれ$\sim$10$^{-3}$Torrで冷却した。 nv$^-$:ndsの温度は、debye-waller factor (dwf) 温度測定と光学的に検出された磁気共鳴 (odmr) の両方を用いて測定され、レーザー冷却されたセラミックス微結晶の温度と一致した。 nv$^{-}$ zero-phonon-line (zpl) の熱誘起スペクトル移動の安定化は、1020nmレーザー照射量を調整することによって達成される。 光学的に冷却されたマイクロ結晶を用いたnv$^-$:ndsの実証冷却は、幅広いナノスケールの量子材料の迅速なフィードバック制御冷却の新たな可能性を開く。

The negatively-charged nitrogen vacancy (NV$^-$) centre in diamond is a remarkable optical quantum sensor for a range of applications including, nanoscale thermometry, magnetometry, single photon generation, quantum computing, and communication. However, to date the performance of these techniques using NV$^-$ centres has been limited by the thermally-induced spectral wandering of NV$^-$ centre photoluminescence due to detrimental photothermal heating. Here we demonstrate that solid-state laser refrigeration can be used to enable rapid (ms) optical temperature control of nitrogen vacancy doped nanodiamond (NV$^-$:ND) quantum sensors in both atmospheric and \textit{in vacuo} conditions. Nanodiamonds are attached to ceramic microcrystals including 10\% ytterbium doped yttrium lithium fluoride (Yb:LiYF$_4$) and sodium yttrium fluoride (Yb:NaYF$_4$) by van der Waals bonding. The fluoride crystals were cooled through the efficient emission of upconverted infrared photons excited by a focused 1020 nm laser beam. Heat transfer to the ceramic microcrystals cooled the adjacent NV$^-$:NDs by 10 and 27 K at atmospheric pressure and $\sim$10$^{-3}$ Torr, respectively. The temperature of the NV$^-$:NDs was measured using both Debye-Waller factor (DWF) thermometry and optically detected magnetic resonance (ODMR), which agree with the temperature of the laser cooled ceramic microcrystal. Stabilization of thermally-induced spectral wandering of the NV$^{-}$ zero-phonon-line (ZPL) is achieved by modulating the 1020 nm laser irradiance. The demonstrated cooling of NV$^-$:NDs using an optically cooled microcrystal opens up new possibilities for rapid feedback-controlled cooling of a wide range of nanoscale quantum materials.
翻訳日:2023-05-07 18:36:59 公開日:2020-07-30
# 2色高調波発生における個別ピークの抑制

Suppression of individual peaks in two-colour high harmonic generation ( http://arxiv.org/abs/2007.15450v1 )

ライセンス: Link先を確認
Sambit Mitra, Shubhadeep Biswas, Johannes Sch\"otz, Emilio Pisanty, Benjamin F\"org, Gautam Aditya Kavuri, Christian Burger, William Okell, Maximilian H\"ogner, Ioachim Pupeza, Vladimir Pervak, Maciej Lewenstein, Pawel Wnuk and Matthias F Kling(参考訳) 本研究は、ネオン中の2色多サイクルレーザーパルスにより発生する高調波スペクトルの特定の偶数次と奇数次の両方に同時に影響を及ぼす個々の高調波の抑制について検討する。 得られたスペクトルは、対称性の破れ(\omega$-$2\omega$)と対称性の保存(\omega$-$3\omega$)の構成における電場形状の関数として体系的に研究される。 ピーク抑制は、マクロ的な強磁場近似計算によって再現され、対称性破壊場(\omega$-$2\omega$)に特有のものである。 さらに、半古典的な計算は観測をさらに相関させ、その後の非対称な半サイクル間の非自明なスペクトル干渉が抑制の原因となるメカニズムを明らかにする。

This work investigates the suppression of individual harmonics, simultaneously affecting specific even and odd orders in the high-harmonic spectra generated by strongly tailored, two-colour, multi-cycle laser pulses in neon. The resulting spectra are systematically studied as a function of the electric-field shape in a symmetry-broken ($\omega$-$2\omega$) and symmetry-preserved ($\omega$-$3\omega$) configuration. The peak suppression is reproduced by macroscopic strong-field approximation calculations and is found to be unique to symmetry-broken fields ($\omega$-$2\omega$). Additionally, semi-classical calculations further corroborate the observation and reveal their underlying mechanism, where a nontrivial spectral interference between subsequent asymmetric half-cycles is found to be responsible for the suppression.
翻訳日:2023-05-07 18:30:26 公開日:2020-07-30
# 5GHz繰り返し偏光を用いた量子鍵分布の性能と安全性

Performance and security of 5 GHz repetition rate polarization-based Quantum Key Distribution ( http://arxiv.org/abs/2007.15447v1 )

ライセンス: Link先を確認
Fadri Gr\"unenfelder (1), Alberto Boaron (1), Davide Rusca (1), Anthony Martin (1 and 2) and Hugo Zbinden (1) ((1) Group of Applied Physics University of Geneva, (2) Universit\'e Cote d'Azur CNRS Institut de Physique de Nice)(参考訳) 我々は,5GHzのクロック偏光を用いたBB84プロトコルのソースを提示し,特徴付ける。 秘密鍵は 54.5 kbps の速度で 151.5 km の標準通信ファイバーに分配される。 おそらく、実験のクロック周波数が増加すると、次のパルス間の相関が生じる。 これらの相関の影響について考察し,関連するパラメータを推定するための測定方法を提案する。

We present and characterize a source for a 5 GHz clocked polarization-based simplified BB84 protocol. Secret keys are distributed over 151.5 km of standard telecom fiber at a rate of 54.5 kbps. Potentially, an increased clock frequency of the experiment introduces correlations between succeeding pulses. We discuss the impact of these correlations and propose measurements to estimate the relevant parameters.
翻訳日:2023-05-07 18:30:10 公開日:2020-07-30
# 双対性からの真のエネルギーを持つ複素BPSソリトン

Complex BPS solitons with real energies from duality ( http://arxiv.org/abs/2007.15425v1 )

ライセンス: Link先を確認
Andreas Fring and Takanobu Taira(参考訳) bogomolny-prasad-sommerfield (bps) ソルトン解を自己双対性によって導く一般的なアプローチに従い、3種類の非エルミート場理論を考察した。 bps超指数キンクおよびアンチキンク解を持つ対数ポテンシャルの複素バージョンと、キンクとアルクタン型の複素バージョンのアンチキンク解とを結合したシン・ゴルドンモデルのシステムの2種類の異なる複素一般化を考える。 この方法で得られるすべてのソリトン解が非エルミート理論において複雑であるという事実にもかかわらず、それらが真のエネルギーを持つことを示す。 複素拡張正弦-ゴードンモデルに対して、エネルギーは、ダイソン写像を用いて擬エルミート的アプローチから得られる非エルミート的およびエルミート的理論の同値な対のエネルギーであることを示す。 我々は、エネルギーの現実は複素BPS解の位相的性質に起因すると論じる。 これらの性質は一般に、自己双対と反自己双対理論に関連する反線型CPT対称性の修正版から生じる。

Following a generic approach that leads to Bogomolny-Prasad-Sommerfield (BPS) soliton solutions by imposing self-duality, we investigate three different types of non-Hermitian field theories. We consider a complex version of a logarithmic potential that possess BPS super-exponential kink and antikink solutions and two different types of complex generalisations of systems of coupled sine-Gordon models with kink and antikink solution of complex versions of arctan type. Despite the fact that all soliton solutions obtainedin this manner are complex in the non-Hermitian theories we show that they possess real energies. For the complex extended sine-Gordon model we establish explicitly that the energies are the same as those in an equivalent pair of a non-Hermitian and Hermitian theory obtained from a pseudo-Hermitian approach by means of a Dyson map. We argue that the reality of the energy is due to the topological properties of the complex BPS solutions. These properties result in general from modified versions of antilinear CPT symmetries that relate self-dual and an anti-self-dual theories.
翻訳日:2023-05-07 18:30:05 公開日:2020-07-30
# 量子ジャンプの微妙な音

The subtle sound of quantum jumps ( http://arxiv.org/abs/2007.15420v1 )

ライセンス: Link先を確認
Antoine Tilloy(参考訳) 波動関数の崩壊の音が聞こえて、もしそうなら、どんな音になるだろうか? 量子力学(崩壊モデル)の再構成や修正があり、このアルテタイパルなランダム性シグネチャが存在し、原理的に観察できる。 しかし、おそらく意外なことに、結果の音は、他のクリックと区別がつかないほど不愉快なものだ。 波動関数がジャンプする2つの全く異なるモデルのクラス間の世界の正しい記述を見つけるという問題は、経験的に決定不可能である。 この一見自明な観察の裏には、量子力学の剛性、内在的なランダム性に対する予測不可能性、そしてより一般的には現実の知識に対する物理的な制限に対する批判の難しさに関する深い教訓がある。

Could we hear the pop of a wave-function collapse, and if so, what would it sound like? There exist reconstructions or modifications of quantum mechanics (collapse models) where this archetypal signature of randomness exists and can in principle be witnessed. But, perhaps surprisingly, the resulting sound is disappointingly banal, indistinguishable from any other click. The problem of finding the right description of the world between two completely different classes of models -- where wave functions jump and where they do not -- is empirically undecidable. Behind this seemingly trivial observation lie deep lessons about the rigidity of quantum mechanics, the difficulty to blame unpredictability on intrinsic randomness, and more generally the physical limitations to our knowledge of reality.
翻訳日:2023-05-07 18:29:47 公開日:2020-07-30
# IIT Kanpur Consulting Group: マシンラーニングとマネージメントコンサルティングをソーシャルグッドに活用

IIT Kanpur Consulting Group: Using Machine Learning and Management Consulting for Social Good ( http://arxiv.org/abs/2007.15628v1 )

ライセンス: Link先を確認
Tushar Goswamy, Vatsalya Tandon, Naishadh Parmar, Raunak Shah, Ayush Gupta(参考訳) IIT Kanpur Consulting Groupは、インドにおける先駆的な研究グループの1つで、社会的善のための機械学習と戦略コンサルティングの応用に焦点を当てている。 同社は2018年から、インドの社会組織、非営利団体、政府機関が、医療、環境、農業の分野を特に重視しながら、データからより良い洞察を活用できるように取り組んできた。 インドでは、ポリオの再発、新型コロナウイルス、大気汚染、農作物の被害など、深刻な社会問題に取り組んでいる。 本稿は、新型コロナウイルスの感染拡大に伴う社会問題に機械学習を用いて対処するというグループの計画と、同団体が設立以来取り組んできた焦点領域と関連プロジェクトについてまとめたものである。

The IIT Kanpur Consulting Group is one of the pioneering research groups in India which focuses on the applications of Machine Learning and Strategy Consulting for social good. The group has been working since 2018 to help social organizations, nonprofits, and government entities in India leverage better insights from their data, with a special emphasis on the healthcare, environmental, and agriculture sectors. The group has worked on critical social problems which India is facing including Polio recurrence, COVID-19, air pollution and agricultural crop damage. This position paper summarises the focus areas and relevant projects which the group has worked on since its establishment, and also highlights the group's plans for using machine learning to address social problems during the COVID-19 crisis.
翻訳日:2023-05-07 18:23:42 公開日:2020-07-30
# マイクロモビリティライダ共有システムのための新たなクラウドソーシングビジネスモデルの開発:方法論と予備的結果

Developing a Novel Crowdsourcing Business Model for Micro-Mobility Ride-Sharing Systems: Methodology and Preliminary Results ( http://arxiv.org/abs/2007.15585v1 )

ライセンス: Link先を確認
Mohammed Elhenawy, MD Mostafizur Rahman Komol, Huthaifa I. Ashqar, Mohammed Hamad Almannaa, Mahmoud Masoud, Hesham A. Rakha, and Andry Rakotonirainy(参考訳) マイクロモビリティ・ライドシェアリング(micro-mobility ride-sharing)は、最小限の環境影響で交通システムへのアクセスを提供する新興技術である。 マイクロモビリティのライドシェアリングがユーザーニーズの満足度を高めるためには、重要な研究が必要である。 本研究では,電動スクーターや電動自転車などの軽量車両をクラウドソーシングするマイクロモビリティ・ライドシェアリングシステムのための新しいビジネスモデルを提案する。 この新モデルは、サプライヤ、顧客、および提供されたリソースの受信、レンタル、予約、需要マッチングを担当するマネジメントパーティーの3つのエンティティで構成されています。 提案するモデルは、サプライヤーが自分のプライベートなeスクーター/eバイクの位置と、レンタル可能な期間を定義し、特定の需要に合わせて、サプライヤーにeスクーター/eバイクをレンタルし、レンタル期間の終わりに同じ(近く)場所に返却する機会を提供する可能性を秘めている。 eスクーター/eバイクは、レンタル期間の開始時に、eスクーター/eバイクの初期位置に非常に近い目的地としての最後の需要と、一連のレンタル需要と一致させる必要がある。 提案されたモデルの潜在的な利点の1つは、充電とメンテナンスの努力を多くのサプライヤーに移すことである。

Micro-mobility ride-sharing is an emerging technology that provides access to the transit system with minimum environmental impacts. Significant research is required to ensure that micro-mobility ride-sharing provides a better fulfilment of user needs. In this study, we propose a novel business model for the micro-mobility ride-sharing system where light vehicles such as electric scooters and electric bikes are crowdsourced. This new model consists of three entities, the suppliers, the customers, and a management party, which is responsible for receiving, renting, booking, and demand matching with offered resources. The proposed model has the potential to allow the suppliers to define the location of their private e-scooter/e-bike and the period of time they are available for rent, match it with a particular demand, and then offer suppliers the opportunity to get their e-scooters/e-bikes rented and returned at the end of the renting period to the same (nearby) location. The management party will need to match the e-scooter/e-bike to a series of renting demands with the last demand as a destination very close to the initial location of the e-scooter/e-bike at the start of the renting period. One potential advantage of the proposed model is that it shifts the charging and maintenance efforts to a crowd of suppliers.
翻訳日:2023-05-07 18:22:15 公開日:2020-07-30
# 在宅勤務がコラボレーションにどのように影響するか:COVID-19の自然実験における情報労働者の大規模調査

How Work From Home Affects Collaboration: A Large-Scale Study of Information Workers in a Natural Experiment During COVID-19 ( http://arxiv.org/abs/2007.15584v1 )

ライセンス: Link先を確認
Longqi Yang, Sonia Jaffe, David Holtz, Siddharth Suri, Shilpi Sinha, Jeffrey Weston, Connor Joyce, Neha Shah, Kevin Sherman, CJ Lee, Brent Hecht, Jaime Teevan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ストレスレベルの向上、ワークロードの増加、新たなワークストリーム、ロックダウン時のケア責任の向上など、情報労働者に幅広い影響を及ぼしてきた。 新型コロナウイルス(covid-19)はまた、情報労働者の圧倒的多数が在宅勤務(wfh)に急速に移行した。 WFHが他のすべての要因、特にCOVID-19の他の影響から情報労働者の協力活動に与える影響を分離できるのか? これは、将来的にWFHがパンデミック以前のものよりも一般的になる可能性が高いため、重要である。 社会科学においてよく用いられる因果識別戦略である差分差分法(DiD)を用いて,未観測の因果関係を制御し,WFHの因果効果を推定する。 我々の分析は、COVID-19以前のWFHとそうでない人の違いを測定することに依存しています。 予備的な結果から,4月の作業時間は2月(前WFH)よりも4月(後WFH)の方が多いことが示唆されるが,これは主に,パンデミック時のロックダウンなどWFH以外の要因によるものである。 WFHに特化している変更は、コラボレーションの時間を減らすこと、フォーカス時間を増やすこと、という反対方向にある。 この逆転は因果推論を使うことの重要性を示している。 さらに,wfhに先立って,個別の遠隔コラボレーション経験によってwfhの効果が緩和されることが判明した。 一方、WFHによってコラボレーションの媒体もシフトし、インスタントメッセージがより多く使用され、スケジュールされたミーティングがより少なくなった。 WFHの将来が集中作業、共同作業、創造的作業に与える影響について、設計上の意味について論じる。

The COVID-19 pandemic has had a wide-ranging impact on information workers such as higher stress levels, increased workloads, new workstreams, and more caregiving responsibilities during lockdown. COVID-19 also caused the overwhelming majority of information workers to rapidly shift to working from home (WFH). The central question this work addresses is: can we isolate the effects of WFH on information workers' collaboration activities from all other factors, especially the other effects of COVID-19? This is important because in the future, WFH will likely to be more common than it was prior to the pandemic. We use difference-in-differences (DiD), a causal identification strategy commonly used in the social sciences, to control for unobserved confounding factors and estimate the causal effect of WFH. Our analysis relies on measuring the difference in changes between those who WFH prior to COVID-19 and those who did not. Our preliminary results suggest that on average, people spent more time on collaboration in April (Post WFH mandate) than in February (Pre WFH mandate), but this is primarily due to factors other than WFH, such as lockdowns during the pandemic. The change attributable to WFH specifically is in the opposite direction: less time on collaboration and more focus time. This reversal shows the importance of using causal inference: a simple analysis would have resulted in the wrong conclusion. We further find that the effect of WFH is moderated by individual remote collaboration experience prior to WFH. Meanwhile, the medium for collaboration has also shifted due to WFH: instant messages were used more, whereas scheduled meetings were used less. We discuss design implications -- how future WFH may affect focused work, collaborative work, and creative work.
翻訳日:2023-05-07 18:21:50 公開日:2020-07-30
# 量子化応答関数の実験的推定

Experimental quantum-enhanced response function estimation ( http://arxiv.org/abs/2007.15564v1 )

ライセンス: Link先を確認
Ilaria Gianani, Francesco Albarelli, Valeria Cimini, Marco Barbieri(参考訳) システムの特徴付けは、しばしば応用分野に対する応答関数の学習を要求する。 このような知識は、任意の値でアクセス予測を行うための時間的フィデューシャル応答と補間の実験的評価に根ざしている。 量子メロジカル資源はこれらの核点の評価の強化をもたらすことが知られているが、関数推定の改善の意義は近年研究され、まだ実証されていない。 ここでは,フォトニックアキテクチュアに基づく関数推定の実験的実現について述べる。 電圧に対する液結晶の位相応答は、量子的および古典的な位相推定によって再構成され、前者の優位性の証拠となり、時相統計誤差と補間誤差の間の相互作用を強調している。 本結果は,連続信号に含まれる豊富な情報にアクセスするために,量子資源をどのように活用するかを示す。

Characterizing a system often demands learning its response function to an applied field. Such knowledge is rooted on the experimental evaluation of punctual fiducial response and interpolation to access prediction at arbitrary values. Quantum metrological resources are known to provide enhancement in assessing these fiducial points, but the implications for improved function estimation have only recently been explored, and have not been yet demonstrated. Here we show an experimental realization of function estimation based on a photonic achitecture. The phase response of a liquid-crystal to a voltage has been reconstructed by means of quantum and classical phase estimation, providing evidence of the superiority of the former and highlighting the interplay between punctual statistical error and interpolation error. Our results show how quantum resources should successfully be employed to access the rich information contained in continuous signals.
翻訳日:2023-05-07 18:21:19 公開日:2020-07-30
# 多ビット系における動的修正ゲートの幾何学的形式化

Geometrical Formalism for Dynamically Corrected Gates in Multiqubit Systems ( http://arxiv.org/abs/2008.01168v1 )

ライセンス: Link先を確認
Donovan Buterakos, Sankar Das Sarma, Edwin Barnes(参考訳) ノイズに強いマルチキュービットシステムにおいてゲートを実行する能力は、量子情報技術の進歩にとって非常に重要である。 しかし、特にマルチキュービット系において、時間依存シュロディンガー方程式の難易度により、ゲートの実行中にノイズをキャンセルする制御パルスを見つけることは困難である。 ここでは,ゲート中の累積誤差を多次元ユークリッド空間の曲線として幾何学的に表現する形式的手法を用いることで,この問題を回避できることを示す。 雑音誤差の先行順へのキャンセルは、シュロディンガー方程式を解くことなく満足できる条件である曲線の閉包に対応する。 この幾何学的形式主義の一般的性質を開発し、任意の次元のハミルトニアンの曲率に対する制御場を写像する再帰関係を導出する。 幾何学的手法を用いて、超伝導トランスモン量子ビットと半導体スピン量子ビットの両方に関係のある2量子ビットハミルトニアンのクラスに対して動的に補正ゲートを設計する例を示す。 量子コンピューティングゲート演算におけるパルス誘起誤差抑圧の一般的な手法として,この幾何学的形式性を提案する。

The ability to perform gates in multiqubit systems that are robust to noise is of crucial importance for the advancement of quantum information technologies. However, finding control pulses that cancel noise while performing a gate is made difficult by the intractability of the time-dependent Schrodinger equation, especially in multiqubit systems. Here, we show that this issue can be sidestepped by using a formalism in which the cumulative error during a gate is represented geometrically as a curve in a multi-dimensional Euclidean space. Cancellation of noise errors to leading order corresponds to closure of the curve, a condition that can be satisfied without solving the Schrodinger equation. We develop and uncover general properties of this geometric formalism, and derive a recursion relation that maps control fields to curvatures for Hamiltonians of arbitrary dimension. We demonstrate examples by using the geometric method to design dynamically corrected gates for a class of two-qubit Hamiltonians that is relevant for both superconducting transmon qubits and semiconductor spin qubits. We propose this geometric formalism as a general technique for pulse-induced error suppression in quantum computing gate operations.
翻訳日:2023-05-07 18:13:37 公開日:2020-07-30
# デコヒーレンスフリーラジオ周波数服装部分空間

Decoherence-free radiofrequency dressed subspaces ( http://arxiv.org/abs/2007.15730v1 )

ライセンス: Link先を確認
G.A. Sinuco-Leon and H. Mas and S. Pandey and G. Vasilakis and B.M. Garraway and W. von Klitzing(参考訳) 87Rbの超微細Zeemanサブレベルのスペクトル信号とコヒーレンス特性について検討した。 実験では, 静磁場とRF磁場の組み合わせを用いて, 環境磁場ノイズに対する原子スピン状態の応答を変化させる。 電磁界ノイズによるデコヒーレンスが強く抑制される「魔法」ドレッシング条件の存在を解析および実験的に示す。 そこで本研究では,低周波雑音に対する原子基底状態のグローバル感度を低減し,原子アルカリ種の2次元超微細多様体間の多重遷移を同時に保護するバイクロマティックドレッシング構成を提案する。 本手法は、任意の(低い)直流磁場における任意の超微細サブレベル間の保護された遷移を生成する。

We study the spectral signatures and coherence properties of radiofrequency dressed hyperfine Zeeman sub-levels of 87Rb. Experimentally, we engineer combinations of static and RF magnetic fields to modify the response of the atomic spin states to environmental magnetic field noise. We demonstrate analytically and experimentally the existence of 'magic' dressing conditions where decoherence due to electromagnetic field noise is strongly suppressed. Building upon this result, we propose a bi-chromatic dressing configuration that reduces the global sensitivity of the atomic ground states to low-frequency noise, and enables the simultaneous protection of multiple transitions between the two ground hyperfine manifolds of atomic alkali species. Our methods produce protected transitions between any pair of hyperfine sub-levels at arbitrary (low) DC-magnetic fields.
翻訳日:2023-05-07 18:12:32 公開日:2020-07-30
# 損失メディアに対するlangevinノイズアプローチとロスレス限界

The Langevin Noise Approach for Lossy Media and the Lossless Limit ( http://arxiv.org/abs/2007.15692v1 )

ライセンス: Link先を確認
George W. Hanson, Frieder Lindel, Stefan Yoshi Buhmann(参考訳) 三次元非均質環境におけるマクロ電磁場の量子化のためのランゲヴィンノイズアプローチは、通常のモード量子化と比較される。 提案手法の適用性に関する最近の研究を議論し, 閉系の場合, 損失が除去された場合, 従来のキャビティモード拡張法に還元されることを示すいくつかの例を示した。

The Langevin noise approach for quantization of macroscopic electromagnetics for three-dimensional, inhomogeneous environments is compared with normal mode quantization. Recent works on the applicability of the method are discussed, and several examples are provided showing that for closed systems the Langevin noise approach reduces to the usual cavity mode expansion method when loss is eliminated.
翻訳日:2023-05-07 18:11:12 公開日:2020-07-30
# 量子コンピューティングのための最適レイアウト合成

Optimal Layout Synthesis for Quantum Computing ( http://arxiv.org/abs/2007.15671v1 )

ライセンス: Link先を確認
Bochen Tan and Jason Cong(参考訳) 近年、量子コンピューティングの急速な発展が見られた。 世界中の研究者たちは、従来のアルゴリズムでは不可能なスピードアップを約束する、大きくて大きな量子アルゴリズムを実行したいと考えている。 しかし、利用可能な量子コンピュータはまだ不安定でエラーを起こしやすい。 したがって、これらのハードウェア制限を満たすために量子プログラムを変換するレイアウト合成は、量子コンピューティングの実現における重要なステップである。 本稿では,2つのシンセサイザーについて述べる。1つは最適,もう1つは近似だがほぼ最適である。 この問題に対するいくつかの最適アプローチが公表されているが、最適合成器はより大きな解空間を探索し、より強い意味で最適である。 さらに、いくつかの主要な最適アプローチと比較して、時間と空間の複雑さを指数関数的に減少させる。 この成功の鍵は、数学的計画問題としてのレイアウト合成問題のより効率的な時空ベースの変数エンコーディングである。 定式化を少し変えることで、より効率的で、より優れたヒューリスティックなアプローチを、追加のゲートコストで最大100%、そしてベンチマークプログラムとアーキテクチャの包括的なセットで最大10倍の忠実度で上回る近似合成器にたどり着きます。 近距離量子コンピュータの有望な応用と考えられるQAOAと呼ばれる特定の量子プログラムの族について、計算量を考慮して近似合成器を調整し、前回のQAOA研究で使用したツールと比較して、最大75%の深さの低減と最大65%の追加コストの削減を実現した。

Recent years have witnessed the fast development of quantum computing. Researchers around the world are eager to run larger and larger quantum algorithms that promise speedups impossible to any classical algorithm. However, the available quantum computers are still volatile and error-prone. Thus, layout synthesis, which transforms quantum programs to meet these hardware limitations, is a crucial step in the realization of quantum computing. In this paper, we present two synthesizers, one optimal and one approximate but nearly optimal. Although a few optimal approaches to this problem have been published, our optimal synthesizer explores a larger solution space, thus is optimal in a stronger sense. In addition, it reduces time and space complexity exponentially compared to some leading optimal approaches. The key to this success is a more efficient spacetime-based variable encoding of the layout synthesis problem as a mathematical programming problem. By slightly changing our formulation, we arrive at an approximate synthesizer that is even more efficient and outperforms some leading heuristic approaches, in terms of additional gate cost, by up to 100%, and also fidelity by up to 10x on a comprehensive set of benchmark programs and architectures. For a specific family of quantum programs named QAOA, which is deemed to be a promising application for near-term quantum computers, we further adjust the approximate synthesizer by taking commutation into consideration, achieving up to 75% reduction in depth and up to 65% reduction in additional cost compared to the tool used in a leading QAOA study.
翻訳日:2023-05-07 18:11:05 公開日:2020-07-30
# ラジカル対機構における量子センシングとスピン状態ダイナミクスの制御

Quantum sensing and control of spin state dynamics in the radical pair mechanism ( http://arxiv.org/abs/2001.01517v2 )

ライセンス: Link先を確認
Amit Finkler and Durga Dasari(参考訳) ラジカル対とそれらの動力学は、多くの化学系や生物系で広く使われている。 特に、ラジカル対のメカニズムは、核スピン環境と比較的強い超微粒子相互作用によって生じると提案されている。 この機構の存在ははっきりしないが、ナノスケールの詳細は実験的に示されていない。 ここでは,弱い磁場の存在下での個々のラジカル対のスピンダイナミクス(非マルコフ型)検出における量子センサの役割を解析する。 進化の様々な段階において、ラジカル対機構の力学を分離するために量子制御法がどのように用いられるかを示す。 磁気受容と他の生化学的プロセスの物理的メカニズムの理解に, 微視的細部で広範囲に影響を及ぼすこれらの知見を考察する。

Radical pairs and the dynamics they undergo are prevalent in many chemical and biological systems. Specifically, it has been proposed that the radical pair mechanism results from a relatively strong hyperfine interaction with its intrinsic nuclear spin environment. While the existence of this mechanism is undisputed, the nanoscale details remain to be experimentally shown. We analyze here the role of a quantum sensor in detecting the spin dynamics (non-Markovian) of individual radical pairs in the presence of a weak magnetic field. We show how quantum control methods can be used to set apart the dynamics of radical pair mechanism at various stages of the evolution. We envisage these findings having far-reaching implications to the understanding of the physical mechanism in magnetoreception and other bio-chemical processes with a microscopic detail.
翻訳日:2023-01-14 03:11:13 公開日:2020-07-30
# Vamsa: データサイエンススクリプトにおける自動前兆追跡

Vamsa: Automated Provenance Tracking in Data Science Scripts ( http://arxiv.org/abs/2001.01861v2 )

ライセンス: Link先を確認
Mohammad Hossein Namaki, Avrilia Floratou, Fotis Psallidas, Subru Krishnan, Ashvin Agrawal, Yinghui Wu, Yiwen Zhu and Markus Weimer(参考訳) 最近、機械学習(ml)モデルの公平性、バイアス、説明可能性について、さまざまなmlアプリケーションの自己明確性や規制要件のために、多くの研究が進行中である。 これらのアプローチのすべてには、MLモデルとトレーニングに使用されるデータとの関係について、堅牢な理解が必要です。 本研究では,MLモデルの特徴やラベルを導出するためにデータセット内のどの列が使用されているかを自動的に追跡する,という基本的な考え方を紹介する。 データ科学者が使用する最も一般的な言語であるPythonのコンテキストにおいて、そのような情報をキャプチャする際の課題について論じる。 次に、ユーザのコードを変更することなくPythonスクリプトから証明を抽出するモジュールシステムであるVamsaを紹介します。 実データサイエンスのスクリプト26Kを用いて、Vamsaの有効性をカバレッジと性能の観点から検証する。 また,手動ラベル付きデータの小さなサブセットに対して,Vamsaの精度を評価する。 解析の結果,vamsaの精度とリコールは90.4%から99.1%まで変化し,平均サイズスクリプトのレイテンシはミリ秒単位であることが判明した。 実運用環境にMLモデルをデプロイした経験から、Vamsaがデータ破損問題に影響を及ぼすモデルを自動的に識別するのに役立つ例を示します。

There has recently been a lot of ongoing research in the areas of fairness, bias and explainability of machine learning (ML) models due to the self-evident or regulatory requirements of various ML applications. We make the following observation: All of these approaches require a robust understanding of the relationship between ML models and the data used to train them. In this work, we introduce the ML provenance tracking problem: the fundamental idea is to automatically track which columns in a dataset have been used to derive the features/labels of an ML model. We discuss the challenges in capturing such information in the context of Python, the most common language used by data scientists. We then present Vamsa, a modular system that extracts provenance from Python scripts without requiring any changes to the users' code. Using 26K real data science scripts, we verify the effectiveness of Vamsa in terms of coverage, and performance. We also evaluate Vamsa's accuracy on a smaller subset of manually labeled data. Our analysis shows that Vamsa's precision and recall range from 90.4% to 99.1% and its latency is in the order of milliseconds for average size scripts. Drawing from our experience in deploying ML models in production, we also present an example in which Vamsa helps automatically identify models that are affected by data corruption issues.
翻訳日:2023-01-13 20:25:02 公開日:2020-07-30
# エンドツーエンド自己学習による半教師付きASR

Semi-supervised ASR by End-to-end Self-training ( http://arxiv.org/abs/2001.09128v2 )

ライセンス: Link先を確認
Yang Chen, Weiran Wang, Chao Wang(参考訳) ディープラーニングに基づくエンドツーエンド自動音声認識(ASR)システムでは、パイプラインのモデリングが大幅に単純化されているが、データ空間の問題に悩まされている。 本研究では,半教師付きASRのためのエンドツーエンドシステムを用いた自己学習手法を提案する。 教師付きデータに基づいて訓練されたコネクショニスト時間分類(CTC)システムから、教師なし発話のミニバッチ上に擬似ラベルを反復的に生成し、擬似ラベルを用いて教師付きデータを即時モデル更新する。 提案手法は, エンドツーエンドのASRシステムの単純さを保ち, 適切に定義された学習目標に対して交互に最適化を行うことができる。 また,データ拡張の効果,擬似ラベル生成のためのデコードビームサイズ,擬似ラベルの鮮度について,実験的検討を行った。 wsjコーパスで一般的に使用される半教師付きasr設定では、データ拡張を伴う注意深く訓練されたベースシステムよりも14.4%改善し、ベースシステムとoracleシステム間のパフォーマンスギャップを50%削減した。

While deep learning based end-to-end automatic speech recognition (ASR) systems have greatly simplified modeling pipelines, they suffer from the data sparsity issue. In this work, we propose a self-training method with an end-to-end system for semi-supervised ASR. Starting from a Connectionist Temporal Classification (CTC) system trained on the supervised data, we iteratively generate pseudo-labels on a mini-batch of unsupervised utterances with the current model, and use the pseudo-labels to augment the supervised data for immediate model update. Our method retains the simplicity of end-to-end ASR systems, and can be seen as performing alternating optimization over a well-defined learning objective. We also perform empirical investigations of our method, regarding the effect of data augmentation, decoding beamsize for pseudo-label generation, and freshness of pseudo-labels. On a commonly used semi-supervised ASR setting with the WSJ corpus, our method gives 14.4% relative WER improvement over a carefully-trained base system with data augmentation, reducing the performance gap between the base system and the oracle system by 50%.
翻訳日:2023-01-07 04:58:02 公開日:2020-07-30
# ブランドインテリジェンス分析

Brand Intelligence Analytics ( http://arxiv.org/abs/2001.11479v2 )

ライセンス: Link先を確認
A. Fronzetti Colladon and F. Grippa(参考訳) ビッグデータのパワーを活用することは、ブランドマネージャが消費者の認識のパターンやトレンドを明らかにし、ブランドと望ましいトピックの肯定的あるいは否定的な関連をモニターする機会となる。 この章では、ブランドの重要性を評価し、(大きな)テキストデータの分析を通じてブランド分析を提供するSBSブランドインテリジェンスアプリ(SBS BI)の機能について説明する。 SBS BIの機能についてより詳しく説明するため、2020年の米民主党大統領予備選に焦点をあてたケーススタディを提案する。 event registryデータベースから5万のオンライン記事をダウンロードしました。 これらのオンラインニュース記事は、共起語ネットワークに変換され、ソーシャルネットワーク分析とテキストマイニングの手法とツールを組み合わせて分析された。

Leveraging the power of big data represents an opportunity for brand managers to reveal patterns and trends in consumer perceptions, while monitoring positive or negative associations of the brand with desired topics. This chapter describes the functionalities of the SBS Brand Intelligence App (SBS BI), which has been designed to assess brand importance and provides brand analytics through the analysis of (big) textual data. To better describe the SBS BI's functionalities, we present a case study focused on the 2020 US Democratic Presidential Primaries. We downloaded 50,000 online articles from the Event Registry database, which contains both mainstream and blog news collected from around the world. These online news articles were transformed into networks of co-occurring words and analyzed by combining methods and tools from social network analysis and text mining.
翻訳日:2023-01-05 12:28:45 公開日:2020-07-30
# 畳み込みニューラルネットワークを用いた相互作用銀河対の相対傾きと視角の決定

Determination of the relative inclination and the viewing angle of an interacting pair of galaxies using convolutional neural networks ( http://arxiv.org/abs/2002.01238v2 )

ライセンス: Link先を確認
Prem Prakash, Arunima Banerjee, Pavan Kumar Perepu(参考訳) 観測された構造と運動学によって制約された銀河対の相互作用のための力学モデルの構築は、銀河面間の相対傾き(i$)の値の正しい選択と、視角(\theta$)、視角と軌道運動の平面との通常の角度に依存する。 我々は、GALMERデータベースからN-body $+$ Smoothed Particle Hydrodynamics (SPH) シミュレーションデータを用いて、相互作用する銀河対の相対的傾き(i$)と視角(\theta$)を決定するために、ディープ畳み込みニューラルネットワーク(DCNN)モデルを構築した。 i$値のみに基づいて銀河対を分類するために、まず1つのDCNNモデルを構築します。 (a)2級($i$ = 0 $^{\circ}$, 45$^{\circ}$)および (b)3つのクラス (i = 0^{\circ}, 45^{\circ} \text{, } 90^{\circ}$) を分類し、それぞれ99%と98%の$f_1$スコアを得る。 さらに、$i$と$\theta$値の両方に基づいて、9級分類((i,\theta) \sim (0^{\circ},15^{\circ}) ,(0^{\circ},45^{\circ}), (0^{\circ},90^{\circ}), (45^{\circ},15^{\circ}), (45^{\circ},45^{\circ}), (45^{\circ}, 90^{\circ}), (90^{\circ}, 15^{\circ}), (90^{\circ}, 45^{\circ}), (90^{\circ}, 90^{\circ}), (90^{\circ}, 90^{\circ}) のDCNNモデルを開発し、$F_1$のスコアは97$$$$であった。 最後に、Sloan Digital Sky Survey (SDSS) DR15の相互作用銀河対の実データに基づいて、2クラスモデルを検証し、F_1$スコア78%を得た。 我々のdcnnモデルはさらに拡張され、相互作用する銀河対の動力学のモデル化に必要な追加パラメータを決定することができる。

Constructing dynamical models for interacting pair of galaxies as constrained by their observed structure and kinematics crucially depends on the correct choice of the values of the relative inclination ($i$) between their galactic planes as well as the viewing angle ($\theta$), the angle between the line of sight and the normal to the plane of their orbital motion. We construct Deep Convolutional Neural Network (DCNN) models to determine the relative inclination ($i$) and the viewing angle ($\theta$) of interacting galaxy pairs, using N-body $+$ Smoothed Particle Hydrodynamics (SPH) simulation data from the GALMER database for training the same. In order to classify galaxy pairs based on their $i$ values only, we first construct DCNN models for a (a) 2-class ( $i$ = 0 $^{\circ}$, 45$^{\circ}$ ) and (b) 3-class ($i = 0^{\circ}, 45^{\circ} \text{ and } 90^{\circ}$) classification, obtaining $F_1$ scores of 99% and 98% respectively. Further, for a classification based on both $i$ and $\theta$ values, we develop a DCNN model for a 9-class classification ($(i,\theta) \sim (0^{\circ},15^{\circ}) ,(0^{\circ},45^{\circ}), (0^{\circ},90^{\circ}), (45^{\circ},15^{\circ}), (45^{\circ}, 45^{\circ}), (45^{\circ}, 90^{\circ}), (90^{\circ}, 15^{\circ}), (90^{\circ}, 45^{\circ}), (90^{\circ},90^{\circ})$), and the $F_1$ score was 97$\%$. Finally, we tested our 2-class model on real data of interacting galaxy pairs from the Sloan Digital Sky Survey (SDSS) DR15, and achieve an $F_1$ score of 78%. Our DCNN models could be further extended to determine additional parameters needed to model dynamics of interacting galaxy pairs, which is currently accomplished by trial and error method.
翻訳日:2023-01-04 03:00:56 公開日:2020-07-30
# ニューラルネットワークの波動関数と符号問題

Neural network wave functions and the sign problem ( http://arxiv.org/abs/2002.04613v3 )

ライセンス: Link先を確認
Attila Szab\'o, Claudio Castelnovo(参考訳) 神経量子状態 (NQS) は多体量子物理学の研究において有望なアプローチである。 しかし、格子モデルに適用する場合、それらは大きな課題に直面する: 畳み込みネットワークは、非自明な符号構造を持つ基底状態に収束するのに苦労する。 このような状態のロバストな表現が可能で,従来型とフラストレーション型の両方の反強磁性体に対して最先端の変動エネルギーを実現する,シンプルで明示的で解釈可能なフェーズアンサッツによるニューラルネットワークアーキテクチャを提案することで,この問題に取り組む。 後者の場合、このアプローチはマーシャル符号規則を示す低エネルギー状態を明らかにし、したがって期待された基底状態と矛盾する。 このような状態は、これらの系の真の基底状態にアクセスするためのNQSベースの変分モンテカルロの障害の可能性が高い。 我々は,この観察の意義を議論し,この問題を克服するための潜在的戦略を提案する。

Neural quantum states (NQS) are a promising approach to study many-body quantum physics. However, they face a major challenge when applied to lattice models: Convolutional networks struggle to converge to ground states with a nontrivial sign structure. We tackle this problem by proposing a neural network architecture with a simple, explicit, and interpretable phase ansatz, which can robustly represent such states and achieve state-of-the-art variational energies for both conventional and frustrated antiferromagnets. In the latter case, our approach uncovers low-energy states that exhibit the Marshall sign rule and are therefore inconsistent with the expected ground state. Such states are the likely cause of the obstruction for NQS-based variational Monte Carlo to access the true ground states of these systems. We discuss the implications of this observation and suggest potential strategies to overcome the problem.
翻訳日:2023-01-02 02:55:12 公開日:2020-07-30
# 数例を用いたインクリメンタルラーニングの認知モデル

Cognitively-Inspired Model for Incremental Learning Using a Few Examples ( http://arxiv.org/abs/2002.12411v3 )

ライセンス: Link先を確認
Ali Ayub and Alan Wagner(参考訳) 増分学習は、異なるクラスに分離されたデータのストリームから連続的に学習する分類器の開発を試みる。 ディープラーニングのアプローチは、授業を漸進的に学習するときの破滅的な忘れに苦しむ一方で、ほとんどのインクリメンタルな学習アプローチは、クラスごとに大量のトレーニングデータを必要とする。 本稿では,Few-Shot Incremental Learning (FSIL) と呼ばれるいくつかの学習例を用いて,段階的学習の問題を検討する。 そこで本研究では,海馬と新皮質の概念学習モデルから着想を得た新しいアプローチを提案する。 我々は,Caltech-101,CUBS-200-2011,CIFAR-100の3つのクラス増分学習ベンチマークに対するアプローチを評価する。

Incremental learning attempts to develop a classifier which learns continuously from a stream of data segregated into different classes. Deep learning approaches suffer from catastrophic forgetting when learning classes incrementally, while most incremental learning approaches require a large amount of training data per class. We examine the problem of incremental learning using only a few training examples, referred to as Few-Shot Incremental Learning (FSIL). To solve this problem, we propose a novel approach inspired by the concept learning model of the hippocampus and the neocortex that represents each image class as centroids and does not suffer from catastrophic forgetting. We evaluate our approach on three class-incremental learning benchmarks: Caltech-101, CUBS-200-2011 and CIFAR-100 for incremental and few-shot incremental learning and show that our approach achieves state-of-the-art results in terms of classification accuracy over all learned classes.
翻訳日:2022-12-28 07:10:35 公開日:2020-07-30
# 複数アクセスによるUAVの予測展開のための機械学習

Machine Learning for Predictive Deployment of UAVs with Multiple Access ( http://arxiv.org/abs/2003.02631v2 )

ライセンス: Link先を確認
Linyan Lu and Zhaohui Yang and Mingzhe Chen and Zelin Zang and Mohammad Shikh-Bahaei(参考訳) 本稿では,無人航空機(UAV)の機械学習に基づく展開フレームワークについて検討する。 検討されたモデルでは、UAVは地上のBSから大量のトラフィックを降ろすために飛行基地局(BS)として展開される。 経時的トラヒック分布のため、将来のセルトラフィックを予測するためにlong short-term memory (lstm) ベースの予測アルゴリズムが導入された。 ユーザサービス分布を予測するために,ガウス混合モデル(GMM)に基づく共同K平均および期待最大化(EM)アルゴリズムであるKEGアルゴリズムを提案し,各UAVのサービス領域を決定する。 予測トラフィックに基づいて、最適uav位置を導出し、全送信電力を最小化するために3つのマルチアクセス技術を比較する。 シミュレーションの結果,提案手法はトラヒック予測のない従来手法と比較して最大24倍の消費電力を削減できることがわかった。 また、レート分割多重アクセス(rsma)は周波数領域多重アクセス(fdma)と時間領域多重アクセス(tdma)と比較して所要の送信電力が低い。

In this paper, a machine learning based deployment framework of unmanned aerial vehicles (UAVs) is studied. In the considered model, UAVs are deployed as flying base stations (BS) to offload heavy traffic from ground BSs. Due to time-varying traffic distribution, a long short-term memory (LSTM) based prediction algorithm is introduced to predict the future cellular traffic. To predict the user service distribution, a KEG algorithm, which is a joint K-means and expectation maximization (EM) algorithm based on Gaussian mixture model (GMM), is proposed for determining the service area of each UAV. Based on the predicted traffic, the optimal UAV positions are derived and three multi-access techniques are compared so as to minimize the total transmit power. Simulation results show that the proposed method can reduce up to 24\% of the total power consumption compared to the conventional method without traffic prediction. Besides, rate splitting multiple access (RSMA) has the lower required transmit power compared to frequency domain multiple access (FDMA) and time domain multiple access (TDMA).
翻訳日:2022-12-27 04:47:24 公開日:2020-07-30
# 進化的メタラーニングによる急速適応型レッグロボット

Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning ( http://arxiv.org/abs/2003.01239v3 )

ライセンス: Link先を確認
Xingyou Song, Yuxiang Yang, Krzysztof Choromanski, Ken Caluwaerts, Wenbo Gao, Chelsea Finn, Jie Tan(参考訳) ロボットが複雑で急速に変化する世界で自律的に動くためには、適応可能なポリシーを学ぶことが不可欠だ。 本研究では,ロボットが動的変化に迅速に適応できるメタ学習手法を提案する。 二階勾配推定に依存する勾配に基づくメタラーニングアルゴリズムとは対照的に,より雑音耐性の高いバッチヒルクライミング適応演算子を導入し,進化戦略に基づくメタラーニングと組み合わせる。 本手法は,ロボット工学に共通する高騒音環境における動的変化への適応性を大幅に向上させる。 我々は,歩行を学習する四足歩行ロボットのアプローチを,ダイナミクスの変化に照らし合わせて検証する。 本手法は,先行する勾配に基づくアプローチを著しく上回っており,実際の3分未満のデータに基づいて,その方針を変化に適応させることができる。

Learning adaptable policies is crucial for robots to operate autonomously in our complex and quickly changing world. In this work, we present a new meta-learning method that allows robots to quickly adapt to changes in dynamics. In contrast to gradient-based meta-learning algorithms that rely on second-order gradient estimation, we introduce a more noise-tolerant Batch Hill-Climbing adaptation operator and combine it with meta-learning based on evolutionary strategies. Our method significantly improves adaptation to changes in dynamics in high noise settings, which are common in robotics applications. We validate our approach on a quadruped robot that learns to walk while subject to changes in dynamics. We observe that our method significantly outperforms prior gradient-based approaches, enabling the robot to adapt its policy to changes based on less than 3 minutes of real data.
翻訳日:2022-12-27 04:13:38 公開日:2020-07-30
# DADA: 微分可能な自動データ拡張

DADA: Differentiable Automatic Data Augmentation ( http://arxiv.org/abs/2003.03780v3 )

ライセンス: Link先を確認
Yonggang Li and Guosheng Hu and Yongtao Wang and Timothy Hospedales and Neil M. Robertson and Yongxin Yang(参考訳) データ拡張(DA)技術は、データの多様性の向上を目的としており、より一般化したディープネットワークを訓練する。 先駆的なAutoAugmentは、強化学習による最適なDAポリシーの検索を自動化した。 しかしAutoAugmentは計算コストが非常に高く、適用範囲が限られている。 Population Based Augmentation (PBA)やFast AutoAugmentといったフォローアップ作業は効率を向上するが、その最適化速度はボトルネックのままである。 本稿では,コストを大幅に削減する微分可能自動データ拡張(DADA)を提案する。 DADAは離散DAポリシーの選択をGumbel-Softmaxを介して微分可能な最適化問題に緩和する。 さらに、非バイアス勾配推定器RELAXを導入し、効率よく正確なDAポリシーを学習するための効率的なワンパス最適化戦略を実現する。 CIFAR-10, CIFAR-100, SVHN, ImageNetのデータセットについて広範な実験を行った。 さらに,下流検出問題に対する事前学習におけるAuto DAの有効性を示す。 その結果,DADAは最先端技術よりも1桁以上高速であり,精度は極めて高いことがわかった。 コードはhttps://github.com/vdigpku/dadaで入手できる。

Data augmentation (DA) techniques aim to increase data variability, and thus train deep networks with better generalisation. The pioneering AutoAugment automated the search for optimal DA policies with reinforcement learning. However, AutoAugment is extremely computationally expensive, limiting its wide applicability. Followup works such as Population Based Augmentation (PBA) and Fast AutoAugment improved efficiency, but their optimization speed remains a bottleneck. In this paper, we propose Differentiable Automatic Data Augmentation (DADA) which dramatically reduces the cost. DADA relaxes the discrete DA policy selection to a differentiable optimization problem via Gumbel-Softmax. In addition, we introduce an unbiased gradient estimator, RELAX, leading to an efficient and effective one-pass optimization strategy to learn an efficient and accurate DA policy. We conduct extensive experiments on CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. Furthermore, we demonstrate the value of Auto DA in pre-training for downstream detection problems. Results show our DADA is at least one order of magnitude faster than the state-of-the-art while achieving very comparable accuracy. The code is available at https://github.com/VDIGPKU/DADA.
翻訳日:2022-12-25 14:07:44 公開日:2020-07-30
# ラグランジアンニューラルネットワーク

Lagrangian Neural Networks ( http://arxiv.org/abs/2003.04630v2 )

ライセンス: Link先を確認
Miles Cranmer, Sam Greydanus, Stephan Hoyer, Peter Battaglia, David Spergel, Shirley Ho(参考訳) 世界の正確なモデルは、その基礎となる対称性の概念に基づいている。 物理学では、これらの対称性はエネルギーや運動量などの保存則に対応する。 しかし、ニューラルネットワークモデルは物理科学での利用が増えているが、これらの対称性を学ぶのに苦労している。 本稿では,ニューラルネットワークを用いて任意のラグランジアンをパラメータ化可能なラグランジアンニューラルネットワーク(lnns)を提案する。 ハミルトニアンを学ぶモデルとは対照的に、lnnは正準座標を必要としないため、正準モーメントが未知あるいは計算が難しい状況でよく機能する。 従来の手法とは異なり,本手法は学習エネルギーの関数形式を制限せず,様々なタスクに対するエネルギー保存モデルを生成する。 我々は2重振り子と相対論的粒子にアプローチを試行し、ベースラインアプローチが散逸を生じ、ハミルトンアプローチが失敗する正準座標を伴わない相対性理論をモデル化するエネルギー保存を実証した。 最後に、ラグランジアングラフネットワークを用いて、このモデルをグラフや連続系に適用する方法を示し、1次元波動方程式を用いて実演する。

Accurate models of the world are built upon notions of its underlying symmetries. In physics, these symmetries correspond to conservation laws, such as for energy and momentum. Yet even though neural network models see increasing use in the physical sciences, they struggle to learn these symmetries. In this paper, we propose Lagrangian Neural Networks (LNNs), which can parameterize arbitrary Lagrangians using neural networks. In contrast to models that learn Hamiltonians, LNNs do not require canonical coordinates, and thus perform well in situations where canonical momenta are unknown or difficult to compute. Unlike previous approaches, our method does not restrict the functional form of learned energies and will produce energy-conserving models for a variety of tasks. We test our approach on a double pendulum and a relativistic particle, demonstrating energy conservation where a baseline approach incurs dissipation and modeling relativity without canonical coordinates where a Hamiltonian approach fails. Finally, we show how this model can be applied to graphs and continuous systems using a Lagrangian Graph Network, and demonstrate it on the 1D wave equation.
翻訳日:2022-12-24 21:02:59 公開日:2020-07-30
# 技術図面の深部ベクトル化

Deep Vectorization of Technical Drawings ( http://arxiv.org/abs/2003.05471v3 )

ライセンス: Link先を確認
Vage Egiazarian, Oleg Voynov, Alexey Artemov, Denis Volkhonskiy, Aleksandr Safin, Maria Taktasheva, Denis Zorin, Evgeny Burnaev(参考訳) 本稿では,床図,建築図面,2次元CAD画像などの技術線図のベクトル化手法を提案する。 本手法は,(1)画像の背景や不完全さを解消し,欠落部分を埋め込むディープラーニングベースのクリーニングステージ,(2)ベクトルプリミティブを推定するトランスベースネットワーク,(3)最終的なプリミティブ構成を得るための最適化手順を含む。 ネットワークを合成データ、ベクトル線描画のレンダリング、手動で線描画のベクトル化スキャンに基づいて訓練する。 本手法は,代表的技術図面の収集において,既存の技術よりも定量的かつ定性的に優れている。

We present a new method for vectorization of technical line drawings, such as floor plans, architectural drawings, and 2D CAD images. Our method includes (1) a deep learning-based cleaning stage to eliminate the background and imperfections in the image and fill in missing parts, (2) a transformer-based network to estimate vector primitives, and (3) optimization procedure to obtain the final primitive configurations. We train the networks on synthetic data, renderings of vector line drawings, and manually vectorized scans of line drawings. Our method quantitatively and qualitatively outperforms a number of existing techniques on a collection of representative technical drawings.
翻訳日:2022-12-24 15:36:01 公開日:2020-07-30
# SASL: ニューラルネットワークアクセラレーションのためのサリエンシ適応スパシティ学習

SASL: Saliency-Adaptive Sparsity Learning for Neural Network Acceleration ( http://arxiv.org/abs/2003.05891v3 )

ライセンス: Link先を確認
Jun Shi, Jianfeng Xu, Kazuyuki Tasaka, Zhibo Chen(参考訳) CNNの推論速度の高速化は、現実世界のアプリケーションへの展開に不可欠である。 刈り取られたアプローチの中で、疎結合学習フレームワークを実装するものは、エンドツーエンドのデータ駆動方式でモデルを学習し、熟成するときに有効であることが示されている。 しかし、これらの研究は全てのフィルタに無差別に同じ間隔正則化を課し、最適構造スパースネットワークをもたらすことはほとんどない。 本稿では、さらなる最適化のためのSASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。 予測性能の重要性と計算資源の消費という2つの側面から評価し,各フィルタの新規かつ効果的な推定法,すなわち塩分を考案した。 スパシティ学習中、正規化強度は正則性に応じて調整されるので、最適化されたフォーマットでは、より計算量の多いフィルタをゼロにしながら予測性能を向上することができる。 給与の計算はトレーニングプロセスに最小限のオーバーヘッドをもたらすので、saslは非常に効率的です。 プレーニング段階では,提案したデータ依存基準を最適化するために,高い有効性と効率性を示すハードサンプルマイニング戦略を利用する。 広範な実験により,本手法の優れた性能が示された。 特に、ilsvrc-2012データセットでは、このアプローチはresnet-50の49.7%のフラップを削減でき、非常に無視できる 0.39% top-1 と 0.05% top-5 の精度低下をもたらす。

Accelerating the inference speed of CNNs is critical to their deployment in real-world applications. Among all the pruning approaches, those implementing a sparsity learning framework have shown to be effective as they learn and prune the models in an end-to-end data-driven manner. However, these works impose the same sparsity regularization on all filters indiscriminately, which can hardly result in an optimal structure-sparse network. In this paper, we propose a Saliency-Adaptive Sparsity Learning (SASL) approach for further optimization. A novel and effective estimation of each filter, i.e., saliency, is designed, which is measured from two aspects: the importance for the prediction performance and the consumed computational resources. During sparsity learning, the regularization strength is adjusted according to the saliency, so our optimized format can better preserve the prediction performance while zeroing out more computation-heavy filters. The calculation for saliency introduces minimum overhead to the training process, which means our SASL is very efficient. During the pruning phase, in order to optimize the proposed data-dependent criterion, a hard sample mining strategy is utilized, which shows higher effectiveness and efficiency. Extensive experiments demonstrate the superior performance of our method. Notably, on ILSVRC-2012 dataset, our approach can reduce 49.7% FLOPs of ResNet-50 with very negligible 0.39% top-1 and 0.05% top-5 accuracy degradation.
翻訳日:2022-12-24 14:04:57 公開日:2020-07-30
# 分光・高分解能テクスチャイメージングを用いたロボットのマルチモーダル材料分類

Multimodal Material Classification for Robots using Spectroscopy and High Resolution Texture Imaging ( http://arxiv.org/abs/2004.01160v2 )

ライセンス: Link先を確認
Zackory Erickson, Eliot Xing, Bharat Srirangam, Sonia Chernova, and Charles C. Kemp(参考訳) 物質認識は、現実世界の物体と適切に対話し、操作する方法をロボットに知らせるのに役立つ。 本稿では,近赤外分光法と近距離高分解能テクスチャイメージングを利用したマルチモーダルセンシング技術を提案する。 144個の家庭用物体と相互作用する移動マニピュレータから収集した高解像度テクスチャ画像とスペクトル測定のデータセットを作成した。 次に,スペクトル計測とテクスチャ画像のコンパクトなマルチモーダル表現を学習するニューラルネットワークアーキテクチャを提案する。 素材分類を新しい物体に一般化する場合,このマルチモーダル表現により,ロボットは先行技術に比べて高い性能を持つ素材を認識できることを示す。 最後に,この高分解能局所センシングをロボットの頭部搭載カメラの画像と組み合わせることで,テーブル上の物体のシーン上で正確な物質分類を実現する方法を提案する。

Material recognition can help inform robots about how to properly interact with and manipulate real-world objects. In this paper, we present a multimodal sensing technique, leveraging near-infrared spectroscopy and close-range high resolution texture imaging, that enables robots to estimate the materials of household objects. We release a dataset of high resolution texture images and spectral measurements collected from a mobile manipulator that interacted with 144 household objects. We then present a neural network architecture that learns a compact multimodal representation of spectral measurements and texture images. When generalizing material classification to new objects, we show that this multimodal representation enables a robot to recognize materials with greater performance as compared to prior state-of-the-art approaches. Finally, we present how a robot can combine this high resolution local sensing with images from the robot's head-mounted camera to achieve accurate material classification over a scene of objects on a table.
翻訳日:2022-12-17 13:24:03 公開日:2020-07-30
# 検索型チャットボットにおけるマルチターン応答選択のための話者認識bert

Speaker-Aware BERT for Multi-Turn Response Selection in Retrieval-Based Chatbots ( http://arxiv.org/abs/2004.03588v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Tianda Li, Quan Liu, Zhen-Hua Ling, Zhiming Su, Si Wei, Xiaodan Zhu(参考訳) 本稿では,検索型チャットボットのマルチターン応答選択に事前学習した言語モデルを用いる問題について検討する。 話者認識BERT (SA-BERT) と呼ばれる新しいモデルを提案し,マルチターン対話の重要かつ本質的な特性である話者変化情報をモデルに認識させる。 さらに, 会話の絡み合いに取り組むために, 話者認識の絡み合い方略を提案する。 この戦略は、話者の情報に基づいてフィルタされた文脈として、少数の重要な発話を選択する。 最後に、ドメイン適応を行い、事前学習された言語モデルにドメイン内知識を組み込む。 5つの公開データセットの実験結果から,提案したモデルがすべての指標の現在のモデルよりも大きなマージンで優れており,マルチターン応答選択のための新しい最先端性能を実現していることが示された。

In this paper, we study the problem of employing pre-trained language models for multi-turn response selection in retrieval-based chatbots. A new model, named Speaker-Aware BERT (SA-BERT), is proposed in order to make the model aware of the speaker change information, which is an important and intrinsic property of multi-turn dialogues. Furthermore, a speaker-aware disentanglement strategy is proposed to tackle the entangled dialogues. This strategy selects a small number of most important utterances as the filtered context according to the speakers' information in them. Finally, domain adaptation is performed to incorporate the in-domain knowledge into pre-trained language models. Experiments on five public datasets show that our proposed model outperforms the present models on all metrics by large margins and achieves new state-of-the-art performances for multi-turn response selection.
翻訳日:2022-12-15 23:56:46 公開日:2020-07-30
# 余分なデータを必要としない:テキスト音声によるエンドツーエンド音声認識の改善

You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation ( http://arxiv.org/abs/2005.07157v2 )

ライセンス: Link先を確認
Aleksandr Laptev, Roman Korostik, Aleksey Svischev, Andrei Andrusenko, Ivan Medennikov, Sergey Rybin(参考訳) データ拡張は、特に低リソースタスクを扱う場合、従来のハイブリッドアプローチに近いエンドツーエンドの自動音声認識(ASR)を実現する最も効果的な方法の1つである。 近年の音声合成 (text-to-Speech, TTS) の進歩を利用して, ASR トレーニングデータベース上に TTS システムを構築し, 合成音声を用いてデータを拡張し, 音声認識モデルを訓練する。 トレーニングデータ量が比較的低い場合、このアプローチはエンドツーエンドモデルがハイブリッドシステムの品質に達することを可能にします。 低から中への人工的な資源設定について,提案手法と半教師付き学習手法を比較した。 また、Griffin-Limアルゴリズムと修正LPCNetを比較し、vocoderの使用が最終的なASR性能に与える影響についても検討した。 外部言語モデルを適用すると、LibriSpeechテストクリーンの半教師付きセットアップよりも優れ、比較可能な教師付きセットアップよりもわずか33%劣る。 テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。

Data augmentation is one of the most effective ways to make end-to-end automatic speech recognition (ASR) perform close to the conventional hybrid approach, especially when dealing with low-resource tasks. Using recent advances in speech synthesis (text-to-speech, or TTS), we build our TTS system on an ASR training database and then extend the data with synthesized speech to train a recognition model. We argue that, when the training data amount is relatively low, this approach can allow an end-to-end model to reach hybrid systems' quality. For an artificial low-to-medium-resource setup, we compare the proposed augmentation with the semi-supervised learning technique. We also investigate the influence of vocoder usage on final ASR performance by comparing Griffin-Lim algorithm with our modified LPCNet. When applied with an external language model, our approach outperforms a semi-supervised setup for LibriSpeech test-clean and only 33% worse than a comparable supervised setup. Our system establishes a competitive result for end-to-end ASR trained on LibriSpeech train-clean-100 set with WER 4.3% for test-clean and 13.5% for test-other.
翻訳日:2022-12-03 04:38:11 公開日:2020-07-30
# ViTAA: 自然言語による人物検索における視覚的テキスト属性のアライメント

ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language ( http://arxiv.org/abs/2005.07327v2 )

ライセンス: Link先を確認
Zhe Wang, Zhiyuan Fang, Jun Wang, Yezhou Yang(参考訳) 自然言語による人物検索は、与えられたテキスト記述にマッチする大規模画像プール内の特定の人物を検索することを目的としている。 現在の手法のほとんどは,タスクを全体的視覚的特徴マッチングとテキスト的特徴マッチングとして扱うが,属性指向の観点から,特定の属性句を対応する視覚領域に接地することができる。 我々は、参照されたアイデンティティを複数の属性の視覚的手がかりによって正確にバンドルできる堅牢な特徴学習によって、成功とパフォーマンス向上を達成する。 具体的には、視覚-文属性アライメントモデル(vitaaと呼ばれる)は、軽量補助属性セグメンテーション計算ブランチを使用して、人の特徴空間を属性に対応するサブスペースに分解することを学びます。 そして、新しい対照的な学習損失を用いて、これらの視覚的特徴を文から解析されたテキスト属性と整合させる。 その上で,自然言語による人物探索のタスクと属性・フレーズによるクエリの広範囲な実験を行い,システムによる最先端のパフォーマンスの検証を行った。 コードは公開時に公開される。

Person search by natural language aims at retrieving a specific person in a large-scale image pool that matches the given textual descriptions. While most of the current methods treat the task as a holistic visual and textual feature matching one, we approach it from an attribute-aligning perspective that allows grounding specific attribute phrases to the corresponding visual regions. We achieve success as well as the performance boosting by a robust feature learning that the referred identity can be accurately bundled by multiple attribute visual cues. To be concrete, our Visual-Textual Attribute Alignment model (dubbed as ViTAA) learns to disentangle the feature space of a person into subspaces corresponding to attributes using a light auxiliary attribute segmentation computing branch. It then aligns these visual features with the textual attributes parsed from the sentences by using a novel contrastive learning loss. Upon that, we validate our ViTAA framework through extensive experiments on tasks of person search by natural language and by attribute-phrase queries, on which our system achieves state-of-the-art performances. Code will be publicly available upon publication.
翻訳日:2022-12-02 23:20:30 公開日:2020-07-30
# Charneyのはしごを登る:機械学習と計算気候科学のポストDennard時代

Climbing down Charney's ladder: Machine Learning and the post-Dennard era of computational climate science ( http://arxiv.org/abs/2005.11862v2 )

ライセンス: Link先を確認
V. Balaji(参考訳) 1950年代のデジタルコンピューティングの出現は、気象と気候の科学に革命をもたらした。 気象学(meteorology)は、時間と空間のパターンの補間に基づくもので、数値気象予測の10年間で計算手法に応用された。 同様の手法は計算気候科学にももたらされ、気象現象よりもはるかに長い間隔で同じ数値方程式の振る舞いを研究し、外部境界条件を変化させた。 その後の数十年間、計算能力の指数関数的な成長によって、今日では、モデルが解像度と複雑さで成長し、大域的な影響を伴う多くの小さな現象を熟達し、地球系においてさらに複雑なフィードバックを得られるようになった。 コンピューティングの現在の流行は、70年後、デナードスケーリング(Dennard Scaling)と呼ばれる、より小さな計算ユニットの背後にある物理学と、より高速な算術の終わりを告げた。 これは、1950年代にジョン・フォン・ノイマンが提唱したように、気象と気候のシミュレーションに対する我々のアプローチに根本的な変化をもたらしている。 1つのアプローチは、パターン認識と外挿の初期の時代、今回は計算力によって助けられるだろう。 別のアプローチは、数学的方程式で表現され続ける洞察につながる可能性がある。 いずれのアプローチでも、あるいはそれらの合成でも、もはや過去数十年の定常的な行進ではないことは明らかであり、より精巧なモデルに詳細を加え続けている。 この展望では、物理的な知識、計算、そしてデータの新たな活用によって、今後数十年でどのように展開されるかを示す。

The advent of digital computing in the 1950s sparked a revolution in the science of weather and climate. Meteorology, long based on extrapolating patterns in space and time, gave way to computational methods in a decade of advances in numerical weather forecasting. Those same methods also gave rise to computational climate science, studying the behaviour of those same numerical equations over intervals much longer than weather events, and changes in external boundary conditions. Several subsequent decades of exponential growth in computational power have brought us to the present day, where models ever grow in resolution and complexity, capable of mastery of many small-scale phenomena with global repercussions, and ever more intricate feedbacks in the Earth system. The current juncture in computing, seven decades later, heralds an end to what is called Dennard scaling, the physics behind ever smaller computational units and ever faster arithmetic. This is prompting a fundamental change in our approach to the simulation of weather and climate, potentially as revolutionary as that wrought by John von Neumann in the 1950s. One approach could return us to an earlier era of pattern recognition and extrapolation, this time aided by computational power. Another approach could lead us to insights that continue to be expressed in mathematical equations. In either approach, or any synthesis of those, it is clearly no longer the steady march of the last few decades, continuing to add detail to ever more elaborate models. In this prospectus, we attempt to show the outlines of how this may unfold in the coming decades, a new harnessing of physical knowledge, computation, and data.
翻訳日:2022-11-29 14:08:17 公開日:2020-07-30
# 大規模音声認識におけるポピュラーエンド・ツー・エンドモデルの比較

On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition ( http://arxiv.org/abs/2005.14327v2 )

ライセンス: Link先を確認
Jinyu Li, Yu Wu, Yashesh Gaur, Chengyi Wang, Rui Zhao, Shujie Liu(参考訳) 近年,自動音声認識のためのハイブリッドモデルからエンド・ツー・エンド(e2e)モデルへの移行が進んでいる。 現在、recurrent neural network transducer (rnn-t)、rnn attention-based encoder-decoder (aed)、transformer-aedの3つの有望な方法がある。 本研究では,RNN-T,RNN-AED,Transformer-AEDを非ストリーミングモードおよびストリーミングモードで比較した。 私たちは、これらのモデルをトレーニングするために、Microsoftの匿名化トレーニングデータ6万時間を使用します。 E2Eモデルはデータ空腹が多いため、その有効性を大量のトレーニングデータと比較した方がよい。 私たちの知る限りでは、そのような総合的な研究はまだ行われていない。 非ストリーミングモードではAEDモデルの方がRNN-Tより強いが,エンコーダを適切に初期化できれば,ストリーミングモードではRNN-Tが非常に競合的であることを示す。 3つのE2Eモデルの中で、Transformer-AEDはストリーミングモードと非ストリーミングモードの両方で最高の精度を達成した。 ストリーミングRNN-Tモデルとトランスフォーマー-AEDモデルの両方が、高度に最適化されたハイブリッドモデルよりも精度が高いことを示す。

Recently, there has been a strong push to transition from hybrid models to end-to-end (E2E) models for automatic speech recognition. Currently, there are three promising E2E methods: recurrent neural network transducer (RNN-T), RNN attention-based encoder-decoder (AED), and Transformer-AED. In this study, we conduct an empirical comparison of RNN-T, RNN-AED, and Transformer-AED models, in both non-streaming and streaming modes. We use 65 thousand hours of Microsoft anonymized training data to train these models. As E2E models are more data hungry, it is better to compare their effectiveness with large amount of training data. To the best of our knowledge, no such comprehensive study has been conducted yet. We show that although AED models are stronger than RNN-T in the non-streaming mode, RNN-T is very competitive in streaming mode if its encoder can be properly initialized. Among all three E2E models, transformer-AED achieved the best accuracy in both streaming and non-streaming mode. We show that both streaming RNN-T and transformer-AED models can obtain better accuracy than a highly-optimized hybrid model.
翻訳日:2022-11-27 05:37:34 公開日:2020-07-30
# 長距離映像理解のための時間集約表現

Temporal Aggregate Representations for Long-Range Video Understanding ( http://arxiv.org/abs/2006.00830v2 )

ライセンス: Link先を確認
Fadime Sener and Dipika Singhania and Angela Yao(参考訳) 将来の予測、特に長距離ビデオでは、現在と過去の観測から推論する必要がある。 本研究では, 時間的範囲, スケーリング, セマンティック抽象化のレベルに関する問題を, 柔軟な多粒質時間的集約フレームワークを用いて解決する。 マックスプールや注意といった単純な手法で,次の行動と密集した予測の両方において,芸術の状態を実現できることを示す。 モデルの予測能力を実証するため、Breakfast、50Salads、EPIC-Kitchensデータセットで実験を行い、最先端の結果を得る。 最小限の変更で、ビデオセグメンテーションやアクション認識にも拡張できます。

Future prediction, especially in long-range videos, requires reasoning from current and past observations. In this work, we address questions of temporal extent, scaling, and level of semantic abstraction with a flexible multi-granular temporal aggregation framework. We show that it is possible to achieve state of the art in both next action and dense anticipation with simple techniques such as max-pooling and attention. To demonstrate the anticipation capabilities of our model, we conduct experiments on Breakfast, 50Salads, and EPIC-Kitchens datasets, where we achieve state-of-the-art results. With minimal modifications, our model can also be extended for video segmentation and action recognition.
翻訳日:2022-11-26 07:15:01 公開日:2020-07-30
# Delta Descriptors:ロバストなビジュアルローカライゼーションのための変更ベースの場所表現

Delta Descriptors: Change-Based Place Representation for Robust Visual Localization ( http://arxiv.org/abs/2006.05700v2 )

ライセンス: Link先を確認
Sourav Garg, Ben Harwood, Gaurangi Anand and Michael Milford(参考訳) 視覚的な場所認識は、昼夜の周期から季節的な変化、気象条件に至るまで、場所の外観変化を引き起こす要因があまりにも多いため、難しい。 近年、この課題に対処するために、深層画像記述子、ドメイン翻訳、シーケンシャルフィルタリングなど、汎用性や速度感度といった欠点を含む幅広いアプローチが開発されている。 本稿では,デルタディスクリプタ(Delta Descriptor)と呼ばれる,学習したグローバルディスクリプタの変化を時間とともに追跡する新しいディスクリプタを提案する。 デルタディスクリプタは、ルートに沿って観測される場所間の時間的差異を考慮して、元のディスクリプタマッチング空間で生じるオフセットを教師なしの方法で緩和する。 他のすべてのアプローチと同様に、Delta Descriptorはフレームからフレームベースへの欠点があり、シーケンシャルなフィルタリング手法と組み合わせることで克服できる。 2つのベンチマークデータセットを使用して、デルタディスクリプタのパフォーマンスを独立して実証し、シーケンスベースのマッチングと組み合わせた新たなパフォーマンスを示す。 また,デルタディスクリプタの4つの異なるデリプタタイプと,デルタディスクリプタの他の2つの有益特性,すなわち,カメラ動作の変動に対する固有ロバスト性の向上と,次元縮小による性能劣化率の低下を実証した。 ソースコードはhttps://github.com/oravus/deltadescriptorsで入手できる。

Visual place recognition is challenging because there are so many factors that can cause the appearance of a place to change, from day-night cycles to seasonal change to atmospheric conditions. In recent years a large range of approaches have been developed to address this challenge including deep-learnt image descriptors, domain translation, and sequential filtering, all with shortcomings including generality and velocity-sensitivity. In this paper we propose a novel descriptor derived from tracking changes in any learned global descriptor over time, dubbed Delta Descriptors. Delta Descriptors mitigate the offsets induced in the original descriptor matching space in an unsupervised manner by considering temporal differences across places observed along a route. Like all other approaches, Delta Descriptors have a shortcoming - volatility on a frame to frame basis - which can be overcome by combining them with sequential filtering methods. Using two benchmark datasets, we first demonstrate the high performance of Delta Descriptors in isolation, before showing new state-of-the-art performance when combined with sequence-based matching. We also present results demonstrating the approach working with four different underlying descriptor types, and two other beneficial properties of Delta Descriptors in comparison to existing techniques: their increased inherent robustness to variations in camera motion and a reduced rate of performance degradation as dimensional reduction is applied. Source code is made available at https://github.com/oravus/DeltaDescriptors.
翻訳日:2022-11-23 05:25:18 公開日:2020-07-30
# 非凸領域における定常ステップサイズSGDの解析:漸近正規性とバイアス

An Analysis of Constant Step Size SGD in the Non-convex Regime: Asymptotic Normality and Bias ( http://arxiv.org/abs/2006.07904v2 )

ライセンス: Link先を確認
Lu Yu, Krishnakumar Balasubramanian, Stanislav Volgushev, and Murat A. Erdogdu(参考訳) 臨界点が好ましい統計特性を持つ構造化非凸学習問題は、統計的機械学習において頻繁に発生する。 アルゴリズム収束と統計的推定率はそのような問題に対してよく理解されている。 しかしながら、基礎となるトレーニングアルゴリズムに関連する不確かさの定量化は、非凸設定では十分に研究されていない。 この欠点に対処するため,本研究では,定ステップサイズ確率勾配降下法 (sgd) アルゴリズムの漸近正規性(漸近正規性)を定式化する。 具体的には、SGD と Markov Chains [DDB19] の関係に基づき、SGD の反復平均が、非凸かつ非滑らかな目的関数が解離性を満たす限り、その特異な不変分布の期待値の周りに漸近的に分布していることを示す。 また, この期待値と対象関数の臨界点とのバイアスを, 様々な局所正規性条件下で特徴付ける。 これら2つの結果は、sgdアルゴリズムを用いて訓練された非凸問題に対する信頼区間を構築するために利用できる。

Structured non-convex learning problems, for which critical points have favorable statistical properties, arise frequently in statistical machine learning. Algorithmic convergence and statistical estimation rates are well-understood for such problems. However, quantifying the uncertainty associated with the underlying training algorithm is not well-studied in the non-convex setting. In order to address this shortcoming, in this work, we establish an asymptotic normality result for the constant step size stochastic gradient descent (SGD) algorithm--a widely used algorithm in practice. Specifically, based on the relationship between SGD and Markov Chains [DDB19], we show that the average of SGD iterates is asymptotically normally distributed around the expected value of their unique invariant distribution, as long as the non-convex and non-smooth objective function satisfies a dissipativity property. We also characterize the bias between this expected value and the critical points of the objective function under various local regularity conditions. Together, the above two results could be leveraged to construct confidence intervals for non-convex problems that are trained using the SGD algorithm.
翻訳日:2022-11-21 12:56:30 公開日:2020-07-30
# 畳み込みニューラルネットワークのトレーニング層を再利用してハイパーパラメータチューニング時間を短縮する

Reusing Trained Layers of Convolutional Neural Networks to Shorten Hyperparameters Tuning Time ( http://arxiv.org/abs/2006.09083v2 )

ライセンス: Link先を確認
Roberto L. Castro, Diego Andrade, Basilio Fraguela(参考訳) ハイパーパラメータチューニングは、特にこのプロセスの一部としてニューラルネットワークのアーキテクチャが決定される場合、時間を要するアプローチである。 例えば、畳み込みニューラルネットワーク(cnns)では、隠れ(畳み込み)層の数と特性の選択を決定することができる。 これは、検索プロセスがこれら全ての候補ネットワークアーキテクチャのトレーニングを含むことを意味する。 本稿では,隠れた(畳み込み)層の重みを異なるトレーニング間で再利用し,このプロセスを短縮する提案について述べる。 理論的には、与えられた問題を解決するために一連の畳み込み層が訓練された場合、このトレーニングで計算された重み付けは、ネットワークアーキテクチャに新しい畳み込み層を追加する際に有用である。 このアイデアはcifar-10データセットを使ってテストされ、最大3つの畳み込み層と最大3つの完全接続層を持つさまざまなcnnsアーキテクチャをテストする。 実験は、畳み込み層を再利用しない場合のトレーニング時間と検証損失を比較した。 彼らはこの戦略がトレーニング時間を短縮し、その結果のニューラルネットワークの精度も向上することを確認した。 この発見により、この戦略を既存のAutoMLメソッドに統合し、検索時間を短縮することが可能になる。

Hyperparameters tuning is a time-consuming approach, particularly when the architecture of the neural network is decided as part of this process. For instance, in convolutional neural networks (CNNs), the selection of the number and the characteristics of the hidden (convolutional) layers may be decided. This implies that the search process involves the training of all these candidate network architectures. This paper describes a proposal to reuse the weights of hidden (convolutional) layers among different trainings to shorten this process. The rationale is that if a set of convolutional layers have been trained to solve a given problem, the weights calculated in this training may be useful when a new convolutional layer is added to the network architecture. This idea has been tested using the CIFAR-10 dataset, testing different CNNs architectures with up to 3 convolutional layers and up to 3 fully connected layers. The experiments compare the training time and the validation loss when reusing and not reusing convolutional layers. They confirm that this strategy reduces the training time while it even increases the accuracy of the resulting neural network. This finding opens up the future possibility of integrating this strategy in existing AutoML methods with the purpose of reducing the total search time.
翻訳日:2022-11-20 20:02:20 公開日:2020-07-30
# ランダムチェックインによるプライバシー増幅

Privacy Amplification via Random Check-Ins ( http://arxiv.org/abs/2007.06605v2 )

ライセンス: Link先を確認
Borja Balle, Peter Kairouz, H. Brendan McMahan, Om Thakkar, Abhradeep Thakurta(参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD) は、多くのアプリケーションにおいて、機密データを学習するための基本的な構成要素となっている。 サブサンプリングによるプライバシの増幅とシャッフルによるプライバシの増幅という2つの標準的なアプローチは、na\"{\i}veスキームよりもDP-SGDのノイズの低減を可能にする。 どちらのアプローチでも重要な前提は、データセット内の要素を一様にサンプリングしたり、分散処理や分散処理によって禁止される可能性のある一様に置換したりできるということである。 本稿では,DP-SGDのような反復的な手法を,多くのデバイス(クライアント)に分散したフェデレートラーニング(FL)の設定に適用することに焦点を当てる。 当社の主なコントリビューションは,各クライアントがローカルかつ独立に行うランダムな参加決定にのみ依存する,分散プロトコルのemph{random check-in}です。 プライバシー/精度のトレードオフは、サブサンプリング/シャッフルによるプライバシーの増幅に似ている。 しかし,本手法ではサーバ間通信や人口規模に関する知識は必要としない。 私たちの知る限り、これは分散学習フレームワークに適した初めてのプライバシー強化であり、FLを超えて幅広い適用性を持つ可能性がある。 その過程で、シャッフルすることでプライバシーの増幅を拡張し、$(\epsilon,\delta)$-DPローカルランダム化器を導入し、保証を指数関数的に改善します。 現実的な状況下では、この改善により、桁違いに少ないユーザーからのデータを使って、同様のプライバシーとユーティリティが利用できるようになる。

Differentially Private Stochastic Gradient Descent (DP-SGD) forms a fundamental building block in many applications for learning over sensitive data. Two standard approaches, privacy amplification by subsampling, and privacy amplification by shuffling, permit adding lower noise in DP-SGD than via na\"{\i}ve schemes. A key assumption in both these approaches is that the elements in the data set can be uniformly sampled, or be uniformly permuted -- constraints that may become prohibitive when the data is processed in a decentralized or distributed fashion. In this paper, we focus on conducting iterative methods like DP-SGD in the setting of federated learning (FL) wherein the data is distributed among many devices (clients). Our main contribution is the \emph{random check-in} distributed protocol, which crucially relies only on randomized participation decisions made locally and independently by each client. It has privacy/accuracy trade-offs similar to privacy amplification by subsampling/shuffling. However, our method does not require server-initiated communication, or even knowledge of the population size. To our knowledge, this is the first privacy amplification tailored for a distributed learning framework, and it may have broader applicability beyond FL. Along the way, we extend privacy amplification by shuffling to incorporate $(\epsilon,\delta)$-DP local randomizers, and exponentially improve its guarantees. In practical regimes, this improvement allows for similar privacy and utility using data from an order of magnitude fewer users.
翻訳日:2022-11-10 23:41:22 公開日:2020-07-30
# データから高速な表検索への学習:方法論と実践的ガイドライン

Learning from Data to Speed-up Sorted Table Search Procedures: Methodology and Practical Guidelines ( http://arxiv.org/abs/2007.10237v3 )

ライセンス: Link先を確認
Domenico Amato, Giosu\'e Lo Bosco, Raffaele Giancarlo(参考訳) ソートされたテーブル検索プロシージャは、クエリ処理ツールとして必須であり、現在、検索エンジン(google chrome)や広告入札システム(appnexus)など、webアプリケーションを含む広く利用されている。 スピードアップは、宇宙でのコストが極めて少ないが、それでも非常に大きな成果だ。 本稿では,データレイアウトの異なるソートテーブル探索手順の既知の効率的な実装と,そこで開発された学習対象の体系的比較を通じて,機械学習技術がどのような速度向上に寄与するかについて検討する。 我々は、CPUおよびGPUコンピューティングの両方を考慮して、後者が前者に対して利益を上げることができるシナリオを特徴づける。 我々のアプローチは、B木、ハッシュテーブル、ブルームフィルタといった基本データ構造の性能を改善するための最近の提案である学習データ構造の研究にも貢献する。 実際、我々は、ここで提案する学習済みのテーブル探索手順を自然に補完し、既知のソートされたテーブル探索手順のほとんどを単純な線形回帰に近似する「学習段階」を持つことを特徴付ける学習ディコトミックソートテーブル探索手順のアルゴリズムパラダイムを定式化する。

Sorted Table Search Procedures are the quintessential query-answering tool, with widespread usage that now includes also Web Applications, e.g, Search Engines (Google Chrome) and ad Bidding Systems (AppNexus). Speeding them up, at very little cost in space, is still a quite significant achievement. Here we study to what extend Machine Learning Techniques can contribute to obtain such a speed-up via a systematic experimental comparison of known efficient implementations of Sorted Table Search procedures, with different Data Layouts, and their Learned counterparts developed here. We characterize the scenarios in which those latter can be profitably used with respect to the former, accounting for both CPU and GPU computing. Our approach contributes also to the study of Learned Data Structures, a recent proposal to improve the time/space performance of fundamental Data Structures, e.g., B-trees, Hash Tables, Bloom Filters. Indeed, we also formalize an Algorithmic Paradigm of Learned Dichotomic Sorted Table Search procedures that naturally complements the Learned one proposed here and that characterizes most of the known Sorted Table Search Procedures as having a "learning phase" that approximates Simple Linear Regression.
翻訳日:2022-11-08 13:12:44 公開日:2020-07-30
# MI^2GAN:相互情報制約を用いた医用画像領域適応のための生成アドバイザラルネットワーク

MI^2GAN: Generative Adversarial Network for Medical Image Domain Adaptation using Mutual Information Constraint ( http://arxiv.org/abs/2007.11180v2 )

ライセンス: Link先を確認
Xinpeng Xie, Jiawei Chen, Yuexiang Li, Linlin Shen, Kai Ma and Yefeng Zheng(参考訳) 深層学習モデルの一般化性能を低下させるため,マルチセンターからの医療画像のドメインシフトは,コミュニティにとって依然としてオープンな問題である。 実現可能な画像を合成するgan(generative adversarial network)は、この問題に対処する潜在的な解決策の1つである。 しかし、既存のGANベースのアプローチは、イメージ・ツー・イメージ(I2I)翻訳における画像オブジェクトの保存に失敗する傾向にあり、ドメイン適応タスクの実用性が低下する。 本稿では,ドメイン間I2I翻訳において画像コンテンツを維持する新しいGAN(MI$^2$GAN)を提案する。 特に、ソースと翻訳画像の両方のドメイン情報からコンテンツ特徴を分離し、画像オブジェクトを保存するために、異種コンテンツ特徴間の相互情報を最大化する。 提案したMI$2$GANは,大腸内視鏡画像を用いたポリプセグメンテーションと,眼底画像における光ディスクとカップのセグメンテーションの2つの課題について評価した。 実験の結果,提案するmi$^2$ganは,エレガントな翻訳画像を生成するだけでなく,広く使用されている深層学習ネットワーク(例えばu-net)の一般化性能を大幅に向上できることがわかった。

Domain shift between medical images from multicentres is still an open question for the community, which degrades the generalization performance of deep learning models. Generative adversarial network (GAN), which synthesize plausible images, is one of the potential solutions to address the problem. However, the existing GAN-based approaches are prone to fail at preserving image-objects in image-to-image (I2I) translation, which reduces their practicality on domain adaptation tasks. In this paper, we propose a novel GAN (namely MI$^2$GAN) to maintain image-contents during cross-domain I2I translation. Particularly, we disentangle the content features from domain information for both the source and translated images, and then maximize the mutual information between the disentangled content features to preserve the image-objects. The proposed MI$^2$GAN is evaluated on two tasks---polyp segmentation using colonoscopic images and the segmentation of optic disc and cup in fundus images. The experimental results demonstrate that the proposed MI$^2$GAN can not only generate elegant translated images, but also significantly improve the generalization performance of widely used deep learning networks (e.g., U-Net).
翻訳日:2022-11-07 23:13:18 公開日:2020-07-30
# 統計的形状モデルとCNNの組み合わせによる前立腺分割のための弱教師付き登録ベースフレームワーク

A weakly supervised registration-based framework for prostate segmentation via the combination of statistical shape model and CNN ( http://arxiv.org/abs/2007.11726v2 )

ライセンス: Link先を確認
Chunxia Qin, Xiaojun Chen, Jocelyne Troccaz(参考訳) 標的の正確な決定は、前立腺生検、病変検出、標的治療などの前立腺介入において必須の手順である。 しかし前立腺の脱線は組織の曖昧さや部分解剖学的境界の欠如により困難である場合もある。 そこで我々は,畳み込みニューラルネットワーク (CNN) と統計的形状モデル (SSM) を組み合わせた,精密前立腺分割のための弱制御型登録ベースフレームワークを提案する。 前立腺領域を得るためには,まずinception-based neural network(ssm-net)を用いて,前立腺境界生成のためのモデル変換,形状制御パラメータ,微調整ベクトルの予測を行った。 推定境界により,正規化距離マップが算出された。 そして、残差U-net(ResU-Net)を用いて、入力画像から確率ラベルマップを予測する。 最後に, 距離マップと確率マップの平均を前立腺セグメンテーションとして検討した。 その後、2つのパブリックデータセット PROMISE12 と NCI-ISBI 2013 がモデル計算とネットワークトレーニングとテストに使用された。 検証の結果,9500ノードのssmを用いたセグメンテーションフレームワークが,0.904サイクリング,平均表面距離1.88mmで最高の性能を達成した。 さらに,モデルの弾力性向上と細調整項目がネットワークセグメンテーション能力に及ぼす影響を検証した。 その結果,両因子ともdelineation精度が向上し,diceはそれぞれ10%,7%増加した。 結論として, 2つの弱教師付きニューラルネットワークの組み合わせにより, このセグメンテーション手法は, 前立腺セグメンテーションに対して効果的かつ頑健なアプローチとなるかもしれない。

Precise determination of target is an essential procedure in prostate interventions, such as the prostate biopsy, lesion detection and targeted therapy. However, the prostate delineation may be tough in some cases due to tissue ambiguity or lack of partial anatomical boundary. To address this problem, we proposed a weakly supervised registration-based framework for the precise prostate segmentation, by combining convolutional neural network (CNN) with statistical shape model (SSM). To obtain the prostate region, an inception-based neural network (SSM-Net) was firstly exploited to predict the model transform, shape control parameters and a fine-tuning vector, for the generation of prostate boundary. According to the inferred boundary, a normalized distance map was calculated. Then, a residual U-net (ResU-Net) was employed to predict a probability label map from the input images. Finally, the average of the distance map and the probability map was regarded as the prostate segmentation. After that, two public dataset PROMISE12 and NCI- ISBI 2013 were utilized for the model computation and for the network training and testing. The validation results demonstrate that the segmentation framework using a SSM with 9500 nodes achieved the best performance, with a dice of 0.904 and an average surface distance of 1.88 mm. In addition, we verified the impact of model elasticity augmentation and fine-tuning item on the network segmentation capability. As a result, both factors have improved the delineation accuracy, with dice increased by 10% and 7% respectively. In conclusion, via the combination of two weakly supervised neural networks, our segmentation method might be an effective and robust approach for prostate segmentation.
翻訳日:2022-11-07 12:56:06 公開日:2020-07-30
# 人物画像生成のための純粋に教師なし外見と形状の絡み合い

Towards Purely Unsupervised Disentanglement of Appearance and Shape for Person Images Generation ( http://arxiv.org/abs/2007.13098v2 )

ライセンス: Link先を確認
Hongtao Yang, Tong Zhang, Wenbing Huang, Xuming He, Fatih Porikli(参考訳) 人間の画像から外見と形状の絡み合いを探索する研究には、かなりの関心が寄せられている。 既存の取り組みの多くは、アノテーション付きトレーニングイメージを使用するか、人間の骨格、身体の分節、布のパッチなどの外部の手がかりでトレーニングプロセスを調整することによって、この目標を追求している。 本稿では、アノテーションや外部タスク固有のヒントを必要としない、教師なしの方法でこの問題に対処することを目的とする。 この目的のために、エンコーダ・デコーダのようなネットワークを定式化し、入力画像から形状特徴と外観特徴の両方を同時に抽出し、特徴反転損失、色整合損失、再構成損失の3つの損失でパラメータを訓練する。 特徴対向損失は、抽出された形状と外観特徴との間の相互情報をほとんど何ら示さず、色相整合損失は、異なる形状に条件付けられた人物の外観のばらつきを促進する。 より重要なことに、教師なし学習(教師なし学習は異なるタスクで多くの解釈を持っている)は、教師なし学習をタスク固有の人間のアノテーションやペア、あるいは弱い監督のあらゆる形態なしで学習するものとして参照する。)フレームワークでは、学習された形状の特徴を入力自身に適用し、クリーンな外観特徴を得るためのマスクとして利用する。 固定入力された人間の骨格を使わずに、ネットワークはより少ない監督を必要とすることなく、条件付き人間の姿勢を保存できる。 deepfashion と market1501 の実験結果は,提案手法がクリーンな異方性を実現し,最先端の弱教師付きあるいは教師付き手法で同等の品質の新しい画像を合成できることを示した。

There have been a fairly of research interests in exploring the disentanglement of appearance and shape from human images. Most existing endeavours pursuit this goal by either using training images with annotations or regulating the training process with external clues such as human skeleton, body segmentation or cloth patches etc. In this paper, we aim to address this challenge in a more unsupervised manner---we do not require any annotation nor any external task-specific clues. To this end, we formulate an encoder-decoder-like network to extract both the shape and appearance features from input images at the same time, and train the parameters by three losses: feature adversarial loss, color consistency loss and reconstruction loss. The feature adversarial loss mainly impose little to none mutual information between the extracted shape and appearance features, while the color consistency loss is to encourage the invariance of person appearance conditioned on different shapes. More importantly, our unsupervised (Unsupervised learning has many interpretations in different tasks. To be clear, in this paper, we refer unsupervised learning as learning without task-specific human annotations, pairs or any form of weak supervision.) framework utilizes learned shape features as masks which are applied to the input itself in order to obtain clean appearance features. Without using fixed input human skeleton, our network better preserves the conditional human posture while requiring less supervision. Experimental results on DeepFashion and Market1501 demonstrate that the proposed method achieves clean disentanglement and is able to synthesis novel images of comparable quality with state-of-the-art weakly-supervised or even supervised methods.
翻訳日:2022-11-06 20:04:00 公開日:2020-07-30
# funcGNN: プログラム類似性に対するグラフニューラルネットワークアプローチ

funcGNN: A Graph Neural Network Approach to Program Similarity ( http://arxiv.org/abs/2007.13239v3 )

ライセンス: Link先を確認
Aravind Nair, Avijit Roy, Karl Meinke(参考訳) プログラムの類似性は基本的な概念であり、ソフトウェア盗作、クローン同定、コードリファクタリング、コード検索などのソフトウェアエンジニアリングタスクのソリューションの中心である。 プログラム間の正確な類似度推定には、その構造、意味、流れの詳細な理解が必要である。 制御フローグラフ(英: control flow graph、cfg)は、論理制御フローとその意味をキャプチャするプログラムのグラフィカル表現である。 一般的なアプローチは、グラフ編集距離(GED)などのグラフ類似度尺度を用いてCFGを分析してプログラム類似度を推定することである。 しかし、グラフ編集距離はnp問題であり計算コストが高く、複雑なソフトウェアプログラムにグラフ類似性技術を適用することは現実的ではない。 本研究は、関連する制御フローグラフを分析し、プログラムの類似性を推定するためのグラフニューラルネットワークの有効性を検討することを目的とする。 我々は,ラベル付きcfgペアで学習したグラフニューラルネットワークであるfuncgnnを紹介し,有効な埋め込みベクトルを用いてプログラムペア間のgedを予測する。 我々の知る限り、ハイレベル言語プログラム間の類似性を推定するためにラベル付きCFGにグラフニューラルネットワークが適用されたのはこれが初めてである。 結果: funcgnn がプログラム間の ged を推定することの有効性を実証し,実験解析により,エラー率 (0.00194) の低減,高速化 (従来の ged 近似法よりも23倍高速) ,スケーラビリティの向上を実証した。 funcGNNは、プログラム構造を推論し、目に見えないプログラムに一般化する誘導学習能力を持っている。 本手法によって提案されるプログラムのグラフ埋め込みは,複数の関連するソフトウェア工学問題(コードプラジャイズムやクローン識別など)に適用でき,複数の研究の方向性が開ける。

Program similarity is a fundamental concept, central to the solution of software engineering tasks such as software plagiarism, clone identification, code refactoring and code search. Accurate similarity estimation between programs requires an in-depth understanding of their structure, semantics and flow. A control flow graph (CFG), is a graphical representation of a program which captures its logical control flow and hence its semantics. A common approach is to estimate program similarity by analysing CFGs using graph similarity measures, e.g. graph edit distance (GED). However, graph edit distance is an NP-hard problem and computationally expensive, making the application of graph similarity techniques to complex software programs impractical. This study intends to examine the effectiveness of graph neural networks to estimate program similarity, by analysing the associated control flow graphs. We introduce funcGNN, which is a graph neural network trained on labeled CFG pairs to predict the GED between unseen program pairs by utilizing an effective embedding vector. To our knowledge, this is the first time graph neural networks have been applied on labeled CFGs for estimating the similarity between high-level language programs. Results: We demonstrate the effectiveness of funcGNN to estimate the GED between programs and our experimental analysis demonstrates how it achieves a lower error rate (0.00194), with faster (23 times faster than the quickest traditional GED approximation method) and better scalability compared with the state of the art methods. funcGNN posses the inductive learning ability to infer program structure and generalise to unseen programs. The graph embedding of a program proposed by our methodology could be applied to several related software engineering problems (such as code plagiarism and clone identification) thus opening multiple research directions.
翻訳日:2022-11-06 19:54:56 公開日:2020-07-30
# 複合物体検出器の分割計算 : 課題と予備結果

Split Computing for Complex Object Detectors: Challenges and Preliminary Results ( http://arxiv.org/abs/2007.13312v2 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Marco Levorato(参考訳) DNNモデルのモバイルコンピューティングとエッジコンピューティングのトレンドに続き、中間的な選択肢である分割コンピューティングが研究コミュニティから注目を集めている。 これまでの研究では、モバイルコンピューティングとエッジコンピューティングは総推論時間において最良の選択肢であることが多いが、分割コンピューティング手法が推論時間を短縮できるシナリオがある。 しかしながら、提案された分割コンピューティングアプローチはすべて、画像分類タスクに重点を置いており、ほとんどは実用的なシナリオからは程遠い小さなデータセットで評価されている。 本稿では,大規模データセットCOCO 2017で訓練された強力なR-CNNオブジェクト検出器のための分割計算手法開発における課題について論じる。 対象物検出器を層毎のテンソルサイズとモデルサイズで広範囲に解析し,ナイーブ分割計算手法は推論時間を削減しないことを示した。 我々の知る限りでは、このような物体検出器に小さなボトルネックを注入し、分割コンピューティングアプローチの可能性を明らかにする最初の研究である。 ソースコードとトレーニングされたモデルの重み付けはhttps://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectorsで確認できる。

Following the trends of mobile and edge computing for DNN models, an intermediate option, split computing, has been attracting attentions from the research community. Previous studies empirically showed that while mobile and edge computing often would be the best options in terms of total inference time, there are some scenarios where split computing methods can achieve shorter inference time. All the proposed split computing approaches, however, focus on image classification tasks, and most are assessed with small datasets that are far from the practical scenarios. In this paper, we discuss the challenges in developing split computing methods for powerful R-CNN object detectors trained on a large dataset, COCO 2017. We extensively analyze the object detectors in terms of layer-wise tensor size and model size, and show that naive split computing methods would not reduce inference time. To the best of our knowledge, this is the first study to inject small bottlenecks to such object detectors and unveil the potential of a split computing approach. The source code and trained models' weights used in this study are available at https://github.com/yoshitomo-matsubara/hnd-ghnd-object-detectors .
翻訳日:2022-11-06 09:04:40 公開日:2020-07-30
# アイデンティティ機能によるブラックボックス顔のリカバリ

Black-Box Face Recovery from Identity Features ( http://arxiv.org/abs/2007.13635v3 )

ライセンス: Link先を確認
Anton Razzhigaev, Klim Kireev, Edgar Kaziakhmedov, Nurislam Tursynbek, and Aleksandr Petiushko(参考訳) 本研究では,顔深部認識システムの出力特徴ベクトルのみを考慮し,ランダムなガウスブロブを反復的にサンプリングしてブラックボックスの顔復元を行うアルゴリズムを提案する。 我々は最先端顔認識システム(arcface)を攻撃してアルゴリズムをテストする。 異なるアーキテクチャ(FaceNet)を持つ別のネットワークは、攻撃されたモデルにアクセスすることなく、対象人物を再構成された画像と同一視できることを示す独立した批評家として使用される。 さらに,このアルゴリズムでは,最先端ソリューションに比べてクエリ数が有意に少ない。

In this work, we present a novel algorithm based on an it-erative sampling of random Gaussian blobs for black-box face recovery, given only an output feature vector of deep face recognition systems. We attack the state-of-the-art face recognition system (ArcFace) to test our algorithm. Another network with different architecture (FaceNet) is used as an independent critic showing that the target person can be identified with the reconstructed image even with no access to the attacked model. Furthermore, our algorithm requires a significantly less number of queries compared to the state-of-the-art solution.
翻訳日:2022-11-06 08:45:45 公開日:2020-07-30
# PyKEEN 1.0:知識グラフ埋め込みのトレーニングと評価のためのPythonライブラリ

PyKEEN 1.0: A Python Library for Training and Evaluating Knowledge Graph Embeddings ( http://arxiv.org/abs/2007.14175v2 )

ライセンス: Link先を確認
Mehdi Ali, Max Berrendorf, Charles Tapley Hoyt, Laurent Vermue, Sahand Sharifzadeh, Volker Tresp, and Jens Lehmann(参考訳) 近年,知識グラフ埋め込み (KGE) が注目され,いくつかのソフトウェアライブラリがKGEのトレーニングと評価のために開発されている。 それぞれが特定のニーズに対処する一方で、コミュニティの努力により、最初のKGEライブラリの1つであるPyKEENを再設計し、再実装しました。 PyKEEN 1.0では、幅広い相互作用モデル、トレーニングアプローチ、損失関数に基づいて知識グラフ埋め込みモデル(KGEM)を作成でき、逆関係の明示的なモデリングを可能にする。 さらに、提供されるハードウェアを最適に活用するために、自動メモリ最適化が実現され、オプトゥーナ拡張ハイパーパラメータ最適化(HPO)機能の統合によって提供される。

Recently, knowledge graph embeddings (KGEs) received significant attention, and several software libraries have been developed for training and evaluating KGEs. While each of them addresses specific needs, we re-designed and re-implemented PyKEEN, one of the first KGE libraries, in a community effort. PyKEEN 1.0 enables users to compose knowledge graph embedding models (KGEMs) based on a wide range of interaction models, training approaches, loss functions, and permits the explicit modeling of inverse relations. Besides, an automatic memory optimization has been realized in order to exploit the provided hardware optimally, and through the integration of Optuna extensive hyper-parameter optimization (HPO) functionalities are provided.
翻訳日:2022-11-06 01:26:17 公開日:2020-07-30
# 主観性と意味:コンピュータビジョンのためのデータアノテーションにおけるパワーダイナミクス

Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision ( http://arxiv.org/abs/2007.14886v2 )

ライセンス: Link先を確認
Milagros Miceli and Martin Schuessler and Tianling Yang(参考訳) データの解釈は機械学習の基本である。 本稿では,産業における画像データアノテーションの実践について検討する。 私たちはデータアノテーションをセンスメイキングのプラクティスとして定義し、アノテーションはラベルを使ってデータに意味を割り当てる。 従来の人間中心の調査は、主にバイアスラベルの主要な原因としてアノテーターの主観性に焦点を当てていた。 構成主義的接地理論に導かれ、我々は2つのアノテーション会社で数週間のフィールドワークを行った。 データの解釈を形作る構造, 電力関係, 自然化配置を解析した。 その結果,アノテータの作業は,ステーション上の他のアクターの関心,価値観,優先順位に深く影響されていることがわかった。 任意分類は、データに対してアノテータ、およびそれらを通して垂直に課される。 主に自然化されている。 データに意味を割り当てることは、しばしば技術的な問題として提示される。 本稿は,実のところ,個人や社会に重きを置く力の行使であることを示している。

The interpretation of data is fundamental to machine learning. This paper investigates practices of image data annotation as performed in industrial contexts. We define data annotation as a sense-making practice, where annotators assign meaning to data through the use of labels. Previous human-centered investigations have largely focused on annotators subjectivity as a major cause for biased labels. We propose a wider view on this issue: guided by constructivist grounded theory, we conducted several weeks of fieldwork at two annotation companies. We analyzed which structures, power relations, and naturalized impositions shape the interpretation of data. Our results show that the work of annotators is profoundly informed by the interests, values, and priorities of other actors above their station. Arbitrary classifications are vertically imposed on annotators, and through them, on data. This imposition is largely naturalized. Assigning meaning to data is often presented as a technical matter. This paper shows it is, in fact, an exercise of power with multiple implications for individuals and society.
翻訳日:2022-11-05 20:09:08 公開日:2020-07-30
# 量対品質:深層強化学習におけるハイパーパラメータ最適化について

Quantity vs. Quality: On Hyperparameter Optimization for Deep Reinforcement Learning ( http://arxiv.org/abs/2007.14604v2 )

ライセンス: Link先を確認
Lars Hertel, Pierre Baldi, Daniel L. Gillen(参考訳) 強化学習アルゴリズムは、異なるランダムシードによるトレーニング実行間のパフォーマンスの強いばらつきを示すことができる。 本稿では,無作為種子間でよく機能するハイパーパラメータ設定を見つけることを目的として,ハイパーパラメータ最適化にどのように影響するかを検討する。 特に,不正なパフォーマーのプルーニングを通じて,大量のハイパーパラメータの設定を探索する方がよいのか,あるいは繰り返しを使用して収集した結果の品質を追求する方がよいのかをベンチマークする。 このため、逐次Halving, Random Search, Bayesian Optimizationアルゴリズムについて検討する。 本稿では,PPO2 アルゴリズムを Cartpole バランスタスクと Inverted Pendulum Swing-up タスクにチューニングする。 プルーニングは最適化に悪影響を及ぼす可能性があり、反復サンプリングはランダムな種子をまたいでより良く機能するハイパーパラメータの設定を見つけるのに役立たないことを示した。 その結果,強化学習タスクにおけるハイパーパラメータ最適化には,ノイズロバスト獲得関数を用いたベイズ最適化が最適であることがわかった。

Reinforcement learning algorithms can show strong variation in performance between training runs with different random seeds. In this paper we explore how this affects hyperparameter optimization when the goal is to find hyperparameter settings that perform well across random seeds. In particular, we benchmark whether it is better to explore a large quantity of hyperparameter settings via pruning of bad performers, or if it is better to aim for quality of collected results by using repetitions. For this we consider the Successive Halving, Random Search, and Bayesian Optimization algorithms, the latter two with and without repetitions. We apply these to tuning the PPO2 algorithm on the Cartpole balancing task and the Inverted Pendulum Swing-up task. We demonstrate that pruning may negatively affect the optimization and that repeated sampling does not help in finding hyperparameter settings that perform better across random seeds. From our experiments we conclude that Bayesian optimization with a noise robust acquisition function is the best choice for hyperparameter optimization in reinforcement learning tasks.
翻訳日:2022-11-05 19:26:07 公開日:2020-07-30
# SMAP: セキュアな多人数可視化のための共同次元化手法

SMAP: A Joint Dimensionality Reduction Scheme for Secure Multi-Party Visualization ( http://arxiv.org/abs/2007.15591v1 )

ライセンス: Link先を確認
Jiazhi Xia, Tianxiang Chen, Lei Zhang, Wei Chen, Yang Chen, Xiaolong Zhang, Cong Xie, Tobias Schreck(参考訳) 今日では、データがますます複雑で分散化するにつれて、データ分析では、複数の関連するデータセットが、異なるサーバに格納され、おそらく異なる利害関係者によって所有される。 グローバルなコンテキストの下でデータの全体像を提供する新たなニーズがある一方で、次元の削減のような従来のビジュアル分析手法は、複数のサードパーティのデータセットが単一のサイトに融合してポイントレベルの関係を構築する場合に、データのプライバシを公開する可能性がある。 本稿では,従来のt-SNE法を単一サイトモードからセキュアな分散インフラに再構成する。 本稿では,データ漏洩のリスクを最小化できるt-sne計算のためのセキュアなマルチパーティ方式を提案する。 集約視覚化は、ポイントレベルの関係の開示を隠すために、任意に使用できる。 我々は,セキュアなジョイント埋め込みの組織化,計算,探索を支援するために,SMAPという手法に基づくプロトタイプシステムを構築した。 本手法の有効性を3つのケーススタディで実証し,その1つは実世界のアプリケーションにおけるシステム配置に基づくものである。

Nowadays, as data becomes increasingly complex and distributed, data analyses often involve several related datasets that are stored on different servers and probably owned by different stakeholders. While there is an emerging need to provide these stakeholders with a full picture of their data under a global context, conventional visual analytical methods, such as dimensionality reduction, could expose data privacy when multi-party datasets are fused into a single site to build point-level relationships. In this paper, we reformulate the conventional t-SNE method from the single-site mode into a secure distributed infrastructure. We present a secure multi-party scheme for joint t-SNE computation, which can minimize the risk of data leakage. Aggregated visualization can be optionally employed to hide disclosure of point-level relationships. We build a prototype system based on our method, SMAP, to support the organization, computation, and exploration of secure joint embedding. We demonstrate the effectiveness of our approach with three case studies, one of which is based on the deployment of our system in real-world applications.
翻訳日:2022-11-05 15:09:20 公開日:2020-07-30
# PR-NN:符号化部分応答チャネルのRNNに基づく検出

PR-NN: RNN-based Detection for Coded Partial-Response Channels ( http://arxiv.org/abs/2007.15695v1 )

ライセンス: Link先を確認
Simeng Zheng, Yi Liu and Paul H. Siegel(参考訳) 本稿では,リカレントニューラルネットワーク(RNN)を用いたシンボル間干渉(ISI)による磁気記録チャネルの検出について検討する。 提案手法は,部分応答等化チャネルを部分応答ニューラルネットワーク(pr-nn)として記録することを目的としている。 我々は、双方向ゲート再帰ユニット(bi-GRU)を訓練し、ノイズチャネル出力シーケンスからISIチャネル入力を復元し、連続的なストリーミングデータに適用した場合のネットワーク性能を評価する。 評価過程におけるPR-NNの計算複雑性は、ビタビ検出器と同等である。 実験を行った記録システムは、E2PR4部分応答チャネルターゲットを持つレート2/3 (1,7) ラン長制限符号を使用する。 理想的なpr信号を用いた実験の結果,添加白色ガウス雑音 (awgn) におけるpr-nn検出の性能はビタビ検出に近いことがわかった。 さらに、PR-NN検出器は、ビタビ検出より優れ、異なるチャネル密度の付加色雑音(ACN)におけるノイズ予測最大公約(NPML)検出の性能を達成する。 AWGNとACNの両方で訓練されたPR-NN検出器は、別個の訓練で観察された性能を維持している。 同様に、2つの異なるチャネル密度に対応するACNで訓練すると、PR-NNは両方の密度でその性能を維持する。 実験により、このロバスト性は幅広い信号-雑音比(SNRs)で一致していることを確認した。 最後に、MMSE等化ローレンツ信号を用いたより現実的な磁気記録チャネルに適用した場合、PR-NNは堅牢な性能を示す。

In this paper, we investigate the use of recurrent neural network (RNN)-based detection of magnetic recording channels with inter-symbol interference (ISI). We refer to the proposed detection method, which is intended for recording channels with partial-response equalization, as Partial-Response Neural Network (PR-NN). We train bi-directional gated recurrent units (bi-GRUs) to recover the ISI channel inputs from noisy channel output sequences and evaluate the network performance when applied to continuous, streaming data. The computational complexity of PR-NN during the evaluation process is comparable to that of a Viterbi detector. The recording system on which the experiments were conducted uses a rate-2/3, (1,7) runlength-limited (RLL) code with an E2PR4 partial-response channel target. Experimental results with ideal PR signals show that the performance of PR-NN detection approaches that of Viterbi detection in additive white gaussian noise (AWGN). Moreover, the PR-NN detector outperforms Viterbi detection and achieves the performance of Noise-Predictive Maximum Likelihood (NPML) detection in additive colored noise (ACN) at different channel densities. A PR-NN detector trained with both AWGN and ACN maintains the performance observed under separate training. Similarly, when trained with ACN corresponding to two different channel densities, PR-NN maintains its performance at both densities. Experiments confirm that this robustness is consistent over a wide range of signal-to-noise ratios (SNRs). Finally, PR-NN displays robust performance when applied to a more realistic magnetic recording channel with MMSE-equalized Lorentzian signals.
翻訳日:2022-11-05 15:08:46 公開日:2020-07-30
# 音声を用いた仮想アシスタントのスキルに対する不信感の検出

Detecting Distrust Towards the Skills of a Virtual Assistant Using Speech ( http://arxiv.org/abs/2007.15711v1 )

ライセンス: Link先を確認
Leonardo Pepino, Pablo Riera, Lara Gauder, Agust\'in Gravano, Luciana Ferrer(参考訳) 研究によれば、信頼は人間とコンピュータの相互作用において必要不可欠な側面であり、その人がシステムを使用する意思の程度を直接決定する。 ユーザが特定のシステムに持っている信頼度の自動予測は、例えば、より徹底的にその動作を説明するなど、システムが関連する行動をとることによって潜在的な不信を正そうと試みることができる。 本研究では,ユーザが音声に基づいて仮想アシスタント(VA)に持つ信頼度を自動的に検出する可能性について検討する。 この目的のために収集されたデータセットは、被験者が仮想アシスタントの助けを借りて、さまざまな事実的質問に答えるよう求められた、人間とコンピュータの音声対話を含んでいる。 被験者の発話は、使用したVAの種類を検知するために使用することができ、これは、ユーザのVA能力に対する信頼のプロキシとして、ランダムなベースラインである50\%と比較して、最大76\%の精度で利用できる。 これらの結果は、幼児と非母語話者に向けられた音声を検出するのに有用な特徴を用いて得られた。

Research has shown that trust is an essential aspect of human-computer interaction directly determining the degree to which the person is willing to use the system. An automatic prediction of the level of trust that a user has on a certain system could be used to attempt to correct potential distrust by having the system take relevant actions like, for example, explaining its actions more thoroughly. In this work, we explore the feasibility of automatically detecting the level of trust that a user has on a virtual assistant (VA) based on their speech. We use a dataset collected for this purpose, containing human-computer speech interactions where subjects were asked to answer various factual questions with the help of a virtual assistant, which they were led to believe was either very reliable or unreliable. We find that the subject's speech can be used to detect which type of VA they were using, which could be considered a proxy for the user's trust toward the VA's abilities, with an accuracy up to 76\%, compared to a random baseline of 50\%. These results are obtained using features that have been previously found useful for detecting speech directed to infants and non-native speakers.
翻訳日:2022-11-05 15:07:40 公開日:2020-07-30
# 二足歩行における深度制御の安定性の理解

Understanding the Stability of Deep Control Policies for Biped Locomotion ( http://arxiv.org/abs/2007.15242v1 )

ライセンス: Link先を確認
Hwangpil Park, Ri Yu, Yoonsang Lee, Kyungho Lee and Jehee Lee(参考訳) 安定性とロバスト性の実現は、2足歩行制御の主要な目標である。 近年、二足歩行制御政策を構築するための一般的な方法論として、深層強化学習(DRL)が注目されており、従来の最先端技術よりも大幅に改善されている。 深い制御ポリシーは、以前のコントローラ設計アプローチよりも利点があるが、多くの疑問は未解決のままである。 深層制御政策は人間の歩行と同じくらい堅牢か? シミュレーション歩行は人間の歩行と同様の戦略を用いてバランスを保つか? 特定の歩行パターンは、人間やシミュレートされた歩行にも同様に影響を及ぼすか? 歩行の安定性を改善するために、ディープポリシーは何を学ぶのか? 本研究の目的は, 深層政策のプッシュ・リカバリ安定性を人体や過去のフィードバックコントローラと比較して評価することで, これらの疑問に答えることである。 また,DRLアルゴリズムの変種の有効性を評価する実験を行った。

Achieving stability and robustness is the primary goal of biped locomotion control. Recently, deep reinforce learning (DRL) has attracted great attention as a general methodology for constructing biped control policies and demonstrated significant improvements over the previous state-of-the-art. Although deep control policies have advantages over previous controller design approaches, many questions remain unanswered. Are deep control policies as robust as human walking? Does simulated walking use similar strategies as human walking to maintain balance? Does a particular gait pattern similarly affect human and simulated walking? What do deep policies learn to achieve improved gait stability? The goal of this study is to answer these questions by evaluating the push-recovery stability of deep policies compared to human subjects and a previous feedback controller. We also conducted experiments to evaluate the effectiveness of variants of DRL algorithms.
翻訳日:2022-11-05 15:02:18 公開日:2020-07-30
# ニューラルネットワークにおける敵攻撃に対するデータ拡張に基づく防御手法

A Data Augmentation-based Defense Method Against Adversarial Attacks in Neural Networks ( http://arxiv.org/abs/2007.15290v1 )

ライセンス: Link先を確認
Yi Zeng, Han Qiu, Gerard Memmi, Meikang Qiu(参考訳) コンピュータビジョン(cv)のディープニューラルネットワーク(dnn)は、悪意のある例(aes)、すなわち間違った分類結果を引き起こすために悪質に追加される不可避な摂動に対して脆弱であることがよく知られている。 このような変動性は、リアルタイム装備DNNをコアコンポーネントとするシステムにとって潜在的なリスクである。 AEによってDNNモデルが取り組まれることを防ぐ方法について、多くの研究がなされている。 しかし、新しい敵の攻撃による効果を効果的に減らすことはできず、同時に実生活の制約とも相容れない。 本稿では,実生活の制約と互換性のあるホワイトボックス攻撃を効果的に無効化できる軽量防衛手法の開発に着目する。 基本アフィン変換から、3つの変換をランダム化係数と統合し、保護されたサンプルへの変化量に応じて微調整する。 過去2年間のトップレベルのAIカンファレンスで発表された4つの最先端の防衛手法と比較して、我々の方法は優れた堅牢性と効率を示す。 我々のモデルは、50ラウンドのBPDAによる高度な適応攻撃に耐えることができ、攻撃成功率をほぼゼロに抑えながら、目標モデルが約80%の精度を維持するのに役立ちます。

Deep Neural Networks (DNNs) in Computer Vision (CV) are well-known to be vulnerable to Adversarial Examples (AEs), namely imperceptible perturbations added maliciously to cause wrong classification results. Such variability has been a potential risk for systems in real-life equipped DNNs as core components. Numerous efforts have been put into research on how to protect DNN models from being tackled by AEs. However, no previous work can efficiently reduce the effects caused by novel adversarial attacks and be compatible with real-life constraints at the same time. In this paper, we focus on developing a lightweight defense method that can efficiently invalidate full whitebox adversarial attacks with the compatibility of real-life constraints. From basic affine transformations, we integrate three transformations with randomized coefficients that fine-tuned respecting the amount of change to the defended sample. Comparing to 4 state-of-art defense methods published in top-tier AI conferences in the past two years, our method demonstrates outstanding robustness and efficiency. It is worth highlighting that, our model can withstand advanced adaptive attack, namely BPDA with 50 rounds, and still helps the target model maintain an accuracy around 80 %, meanwhile constraining the attack success rate to almost zero.
翻訳日:2022-11-05 15:02:06 公開日:2020-07-30
# 効率的なテンソル分解

Efficient Tensor Decomposition ( http://arxiv.org/abs/2007.15589v1 )

ライセンス: Link先を確認
Aravindan Vijayaraghavan(参考訳) この章はテンソルを構成ランク1のテンソルの和に分解する問題を研究している。 テンソル分解は学習アルゴリズムやデータ解析を設計するのに非常に有用であるが、最悪の場合NPハードである。 軽度な仮定の下で証明可能な保証付き効率的なアルゴリズムを設計し、スムーズな分析のような最悪のフレームワークを使用する方法を探ります。

This chapter studies the problem of decomposing a tensor into a sum of constituent rank one tensors. While tensor decompositions are very useful in designing learning algorithms and data analysis, they are NP-hard in the worst-case. We will see how to design efficient algorithms with provable guarantees under mild assumptions, and using beyond worst-case frameworks like smoothed analysis.
翻訳日:2022-11-05 15:01:44 公開日:2020-07-30
# Laser2Vec:ロボット知覚データの類似性に基づく検索

Laser2Vec: Similarity-based Retrieval for Robotic Perception Data ( http://arxiv.org/abs/2007.15746v1 )

ライセンス: Link先を確認
Samer B. Nashed(参考訳) モバイルロボットの能力向上と展開時間の増大に伴い、データ量の増大を分析するツールが必要である。 ロボットシステムにおけるシステム障害の発見を目指す実践者にとって、現在の最先端のロギング、再生、探索システムは不十分である。 本稿では,ロボット知覚データの類似性に基づくクエリのためのアルゴリズムスイートを提案し,多くのデプロイメントから2次元LiDARデータを安価に保存し,完全あるいは部分的スキャンのためのトップクェリを効率的に評価するシステムを実装した。 我々は,畳み込み型変分オートエンコーダを用いてレーザースキャンの圧縮表現を生成し,クエリ時に距離関数近似のための軽量密集ネットワークを実行するデータベースに格納する。 クエリ評価器は埋め込み空間の局所連続性を利用して、期待してデータベースの完全な線形スキャンを支配できる評価順序を生成する。 システムの正確性、堅牢性、スケーラビリティ、効率性は、実際のデータを破損して生成された数十のデプロイメントと合成データから収集された実世界のデータでテストされます。 我々は,ロボットが同じ場所,あるいは同様の屋内構造や物体に遭遇した複数のエピソードの類似したスキャンを精度よく,効率的に同定する。

As mobile robot capabilities improve and deployment times increase, tools to analyze the growing volume of data are becoming necessary. Current state-of-the-art logging, playback, and exploration systems are insufficient for practitioners seeking to discover systemic points of failure in robotic systems. This paper presents a suite of algorithms for similarity-based queries of robotic perception data and implements a system for storing 2D LiDAR data from many deployments cheaply and evaluating top-k queries for complete or partial scans efficiently. We generate compressed representations of laser scans via a convolutional variational autoencoder and store them in a database, where a light-weight dense network for distance function approximation is run at query time. Our query evaluator leverages the local continuity of the embedding space to generate evaluation orders that, in expectation, dominate full linear scans of the database. The accuracy, robustness, scalability, and efficiency of our system is tested on real-world data gathered from dozens of deployments and synthetic data generated by corrupting real data. We find our system accurately and efficiently identifies similar scans across a number of episodes where the robot encountered the same location, or similar indoor structures or objects.
翻訳日:2022-11-05 15:01:38 公開日:2020-07-30
# 3次元超音波による多面定位のための協調エージェントの探索

Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound ( http://arxiv.org/abs/2007.15273v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Rui Li, Jikuan Qian, Xiaoqiong Huang, Wenlong Shi, Haoran Dou, Chaoyu Chen, Yuanji Zhang, Huanjia Luo, Alejandro Frangi, Yi Xiong, Dong Ni(参考訳) 3d超音波(us)は、診断情報、可搬性、低コストで広く使われている。 米国におけるSP(Automated Standard plane)のローカライゼーションは,効率の向上とユーザ依存の低減だけでなく,米国における3D解釈の促進にも寄与する。 本研究では,複数の子宮SPを同時に3D USにローカライズするMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。 私たちの貢献は2倍です。 まず、MARLに1ショットのニューラルアーキテクチャ探索(NAS)モジュールを装備し、各平面に対して最適なエージェントを得る。 具体的には,gda( differentiable architecture sampler)を用いたグラデーションベース探索を用いて,学習プロセスの高速化と安定化を行う。 第2に,エージェントのコミュニケーションを強化する新しい協調戦略を提案する。 我々の戦略は、SP間の空間関係を効果的に学習するために、リカレントニューラルネットワーク(RNN)を用いる。 大規模データセット上で広く検証されたこの手法は,7.05度/2.21mm,8.62度/2.36mm,5.93度/0.89mmの精度を実現している。 提案したMARLフレームワークは,平面定位精度を大幅に向上し,計算コストとモデルサイズを低減できる。

3D ultrasound (US) is widely used due to its rich diagnostic information, portability and low cost. Automated standard plane (SP) localization in US volume not only improves efficiency and reduces user-dependence, but also boosts 3D US interpretation. In this study, we propose a novel Multi-Agent Reinforcement Learning (MARL) framework to localize multiple uterine SPs in 3D US simultaneously. Our contribution is two-fold. First, we equip the MARL with a one-shot neural architecture search (NAS) module to obtain the optimal agent for each plane. Specifically, Gradient-based search using Differentiable Architecture Sampler (GDAS) is employed to accelerate and stabilize the training process. Second, we propose a novel collaborative strategy to strengthen agents' communication. Our strategy uses recurrent neural network (RNN) to learn the spatial relationship among SPs effectively. Extensively validated on a large dataset, our approach achieves the accuracy of 7.05 degree/2.21mm, 8.62 degree/2.36mm and 5.93 degree/0.89mm for the mid-sagittal, transverse and coronal plane localization, respectively. The proposed MARL framework can significantly increase the plane localization accuracy and reduce the computational cost and model size.
翻訳日:2022-11-05 15:00:33 公開日:2020-07-30
# En-Gedi のスクロールに応用したフラッテニングの定量的歪み解析

Quantitative Distortion Analysis of Flattening Applied to the Scroll from En-Gedi ( http://arxiv.org/abs/2007.15551v1 )

ライセンス: Link先を確認
Clifford Seth Parker, William Brent Seales, Pnina Shor(参考訳) 非侵襲的なボリュームイメージングは、物理的に開けられない損傷および劣化した原稿の封筒内から、インクベースの筆跡の内部構造と詳細な証拠を捉えることができる。 最近en-gediスクロールで実証されたように、私たちの"virtual unwrapping"ソフトウェアパイプラインは、損傷したアーティファクトから実質的なインクベースのテキストを、深刻な批判的なテキスト分析に十分高い品質で回復することができる。 しかし、得られた画像の品質は研究者の主観評価によって定義され、出力品質を最大化するためにパイプラインの各段階で特定のアルゴリズムとパラメータを選択する必要がある。

Non-invasive volumetric imaging can now capture the internal structure and detailed evidence of ink-based writing from within the confines of damaged and deteriorated manuscripts that cannot be physically opened. As demonstrated recently on the En-Gedi scroll, our "virtual unwrapping" software pipeline enables the recovery of substantial ink-based text from damaged artifacts at a quality high enough for serious critical textual analysis. However, the quality of the resulting images is defined by the subjective evaluation of scholars, and a choice of specific algorithms and parameters must be available at each stage in the pipeline in order to maximize the output quality.
翻訳日:2022-11-05 15:00:11 公開日:2020-07-30
# VocGAN:階層型逆数ネットワークを持つ高忠実リアルタイムヴォコーダ

VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network ( http://arxiv.org/abs/2007.15256v1 )

ライセンス: Link先を確認
Jinhyeok Yang, Junmo Lee, Youngik Kim, Hoonyoung Cho, Injung Kim(参考訳) 本稿では、vocganと呼ばれる新しい高忠実度リアルタイムニューラルネットワークボコーダを提案する。 最近開発されたGANベースのボコーダMelGANは、音声波形をリアルタイムで生成する。 しかし、しばしば、入力されたメル分光図の音響特性と一致しない品質が不十分な波形を生成する。 VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。 VocGANは、複数レベルの音響特性をバランスよく学習するために、マルチスケールの波形生成器と階層的な判別器を適用している。 また、ジョイント条件と非条件の目的も適用し、高分解能画像合成に成功している。 実験では、vocganはgtx 1080ti gpuで416.7倍、cpuで3.24倍の速度で音声波形を合成する。 MelGANと比較すると、平均評価スコア(MOS)を含む複数の評価指標において、オーバーヘッドが最小限に抑えられた品質も大幅に向上している。 さらに、最近開発された別の高忠実なボコーダであるParallel WaveGANと比較して、VocGANはCPUの6.98倍高速で、より高いMOSを示す。

We present a novel high-fidelity real-time neural vocoder called VocGAN. A recently developed GAN-based vocoder, MelGAN, produces speech waveforms in real-time. However, it often produces a waveform that is insufficient in quality or inconsistent with acoustic characteristics of the input mel spectrogram. VocGAN is nearly as fast as MelGAN, but it significantly improves the quality and consistency of the output waveform. VocGAN applies a multi-scale waveform generator and a hierarchically-nested discriminator to learn multiple levels of acoustic properties in a balanced way. It also applies the joint conditional and unconditional objective, which has shown successful results in high-resolution image synthesis. In experiments, VocGAN synthesizes speech waveforms 416.7x faster on a GTX 1080Ti GPU and 3.24x faster on a CPU than real-time. Compared with MelGAN, it also exhibits significantly improved quality in multiple evaluation metrics including mean opinion score (MOS) with minimal additional overhead. Additionally, compared with Parallel WaveGAN, another recently developed high-fidelity vocoder, VocGAN is 6.98x faster on a CPU and exhibits higher MOS.
翻訳日:2022-11-05 15:00:02 公開日:2020-07-30
# 深部話者埋め込みのための特徴抽出器の比較評価

A Comparative Re-Assessment of Feature Extractors for Deep Speaker Embeddings ( http://arxiv.org/abs/2007.15283v1 )

ライセンス: Link先を確認
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 現代の自動話者検証は、メル周波数ケプストラム係数(MFCC)の特徴に基づいて訓練されたディープニューラルネットワーク(DNN)に大きく依存している。 位相,韻律,長期の時間的操作に基づく代替的特徴抽出法は存在するが,DNNに基づく手法では広く研究されていない。 我々は,VoxCelebおよびSITWデータセット上に14個の特徴抽出器を広範囲に再評価することにより,このギャップを埋めることを目指している。 以上の結果から,スペクトルセンタロイド,グループ遅延関数,統合雑音抑圧などの手法が組み合わさった特徴は,mfccsの話者埋め込み抽出に有望な代替手段を提供することがわかった。 実験結果は16.3\%(VoxCeleb)と25.1\%(SITW)の相対的な誤差率(EER)の低下を示す。

Modern automatic speaker verification relies largely on deep neural networks (DNNs) trained on mel-frequency cepstral coefficient (MFCC) features. While there are alternative feature extraction methods based on phase, prosody and long-term temporal operations, they have not been extensively studied with DNN-based methods. We aim to fill this gap by providing extensive re-assessment of 14 feature extractors on VoxCeleb and SITW datasets. Our findings reveal that features equipped with techniques such as spectral centroids, group delay function, and integrated noise suppression provide promising alternatives to MFCCs for deep speaker embeddings extraction. Experimental results demonstrate up to 16.3\% (VoxCeleb) and 25.1\% (SITW) relative decrease in equal error rate (EER) to the baseline.
翻訳日:2022-11-05 14:59:43 公開日:2020-07-30
# 平均二乗誤差とvar-norm推定器を損失関数とするリモートセンシング画像の超深分解能

Very Deep Super-Resolution of Remotely Sensed Images with Mean Square Error and Var-norm Estimators as Loss Functions ( http://arxiv.org/abs/2007.15417v1 )

ライセンス: Link先を確認
Antigoni Panagiotopoulou, Lazaros Grammatikopoulos, Eleni Charou, Emmanuel Bratsolis, Nicholas Madamopoulos and John Petrogonas(参考訳) 本研究では,超深分解能(vdsr)法を用いて,スケール係数4のリモートセンシング(rs)画像の空間分解能を向上させる。 VDSRネットはセンチネル2の画像とドローンの航空写真で再訓練され、それぞれRS-VDSRとAero-VDSRとなる。 畳み込みニューラルネットワークの回帰層において,再学習および予測中に新たな損失関数var-norm推定器が提案されている。 数値および光学的比較により、提案したネットRS-VDSRとAero-VDSRは、RS画像の予測時にVDSRより優れる。 RS-VDSRは、センチネル2の画像のPSNRでVDSRを3.16dBまで上回っている。

In this work, very deep super-resolution (VDSR) method is presented for improving the spatial resolution of remotely sensed (RS) images for scale factor 4. The VDSR net is re-trained with Sentinel-2 images and with drone aero orthophoto images, thus becomes RS-VDSR and Aero-VDSR, respectively. A novel loss function, the Var-norm estimator, is proposed in the regression layer of the convolutional neural network during re-training and prediction. According to numerical and optical comparisons, the proposed nets RS-VDSR and Aero-VDSR can outperform VDSR during prediction with RS images. RS-VDSR outperforms VDSR up to 3.16 dB in terms of PSNR in Sentinel-2 images.
翻訳日:2022-11-05 14:53:45 公開日:2020-07-30
# 50万胸部X線画像における気胸の検索

Searching for Pneumothorax in Half a Million Chest X-Ray Images ( http://arxiv.org/abs/2007.15429v1 )

ライセンス: Link先を確認
Antonio Sze-To, Hamid Tizhoosh(参考訳) 気胸(Pneumothorax)は、胸部X線で経験豊富な放射線医によって検出される致命的な疾患である。 このような専門家の不足により、ディープニューラルネットワークに基づく自動検出システムが開発されている。 しかし、そのような制度を実際に適用することは依然として課題である。 これらのシステムは、主に出力として単一の確率を計算するが、診断には不十分かもしれない。 それとは対照的に、画像検索のようなコンテンツベースの医療画像検索(CBIR)システムでは、以前の(既に診断済み)症例と比較することで、臨床医の診断を補助することができる。 しかし、そのような試みには研究の欠如がある。 本研究では胸部x線画像の気胸分類における画像検索法について検討した。 胸部X線画像はすべて、既存のディープラーニングモデルから得られた、訓練済みの深い特徴でタグ付けされた。 検索胸部X線画像が与えられた後、検索したトップK画像の多数投票を分類器として使用し、過去の事例のアーカイブに類似した事例が確率出力の他に提供される。 実験では,最近公開された3つの大規模データセットから551,383個の胸部x線画像を得た。 また, 10倍のクロスバリデーションを用いて, 同じ特徴を訓練した従来の分類器と比較して, 深層事前学習した特徴のイメージ検索が有望な結果を得た。 胸部X線画像50万枚において,気胸のCBIRに深く事前訓練された特徴が有効であることを示す最初の研究である。

Pneumothorax, a collapsed or dropped lung, is a fatal condition typically detected on a chest X-ray by an experienced radiologist. Due to shortage of such experts, automated detection systems based on deep neural networks have been developed. Nevertheless, applying such systems in practice remains a challenge. These systems, mostly compute a single probability as output, may not be enough for diagnosis. On the contrary, content-based medical image retrieval (CBIR) systems, such as image search, can assist clinicians for diagnostic purposes by enabling them to compare the case they are examining with previous (already diagnosed) cases. However, there is a lack of study on such attempt. In this study, we explored the use of image search to classify pneumothorax among chest X-ray images. All chest X-ray images were first tagged with deep pretrained features, which were obtained from existing deep learning models. Given a query chest X-ray image, the majority voting of the top K retrieved images was then used as a classifier, in which similar cases in the archive of past cases are provided besides the probability output. In our experiments, 551,383 chest X-ray images were obtained from three large recently released public datasets. Using 10-fold cross-validation, it is shown that image search on deep pretrained features achieved promising results compared to those obtained by traditional classifiers trained on the same features. To the best of knowledge, it is the first study to demonstrate that deep pretrained features can be used for CBIR of pneumothorax in half a million chest X-ray images.
翻訳日:2022-11-05 14:53:32 公開日:2020-07-30
# ゴッチャ」から「ゴッチャ」へ:プログレッシブな関連フィードバックを伴う対話型顔画像検索

From A Glance to "Gotcha": Interactive Facial Image Retrieval with Progressive Relevance Feedback ( http://arxiv.org/abs/2007.15683v1 )

ライセンス: Link先を確認
Xinru Yang, Haozhi Qi, Mingyang Li, Alexander Hauptmann(参考訳) 顔画像検索は、未訓練の目撃者が大量の画像から容疑者を特定しようとする法医学的な調査において重要な役割を果たす。 しかし、人間の顔の表情を口頭・直接的に説明するのが困難であるため、自然に既知の画像を参照し、顔の特定の領域を比較して表現する傾向があり、同時に、そのたびに完全な比較を行うことも困難である。 そこで本研究では,証人が徐々に提供し,複数ラウンドの履歴情報の活用を可能にするとともに,心的イメージの検索にインタラクティブで反復的なアプローチを施したエンド・ツー・エンド・エンドの枠組みを提案する。 追加のアノテーションは不要で、私たちのモデルは少しのレスポンスのコストで適用できます。 我々は, <texttt{CelebA} を実験し, パーセンタイルのランク付けによる性能評価を行い, 最高の設定で 99\% を達成する。 この話題は、私たちの知識の最良の部分についてはほとんど探求されていないので、我々の研究がさらなる研究の足掛かりとなることを願っています。

Facial image retrieval plays a significant role in forensic investigations where an untrained witness tries to identify a suspect from a massive pool of images. However, due to the difficulties in describing human facial appearances verbally and directly, people naturally tend to depict by referring to well-known existing images and comparing specific areas of faces with them and it is also challenging to provide complete comparison at each time. Therefore, we propose an end-to-end framework to retrieve facial images with relevance feedback progressively provided by the witness, enabling an exploitation of history information during multiple rounds and an interactive and iterative approach to retrieving the mental image. With no need of any extra annotations, our model can be applied at the cost of a little response effort. We experiment on \texttt{CelebA} and evaluate the performance by ranking percentile and achieve 99\% under the best setting. Since this topic remains little explored to the best of our knowledge, we hope our work can serve as a stepping stone for further research.
翻訳日:2022-11-05 14:52:17 公開日:2020-07-30
# 複数の軌道から相互作用する粒子の確率系における相互作用核の学習

Learning interaction kernels in stochastic systems of interacting particles from multiple trajectories ( http://arxiv.org/abs/2007.15174v1 )

ライセンス: Link先を確認
Fei Lu, Mauro Maggioni, Sui Tang(参考訳) 相互作用する粒子やエージェントの確率的系は、対距離のみに依存する相互作用カーネルによって決定される。 この相互作用核を、複数の独立した軌道に沿って、連続時間または離散時間における粒子の位置の観測から推測する問題を考察する。 本稿では、データに適応する適切な仮説空間に制約された正則化極大推定器に基づいて、この逆問題に対する非パラメトリック推論手法を提案する。 我々は,この問題に対する条件数制御と推定器の整合性を証明することを可能にし,実のところ1$D非パラメトリック回帰のmin-maxレートとほぼ最適の学習速度で収束することを示した。 特に、この速度は、通常非常に高い状態空間の次元とは独立である。 また,離散時間観測における離散化誤差を解析し,観測時間差の点において1/2$であることを示した。 この用語は、大きければサンプリング誤差と近似誤差を支配し、推定器の収束を防ぐ。 最後に,データから推定器を構築するための効率的な並列アルゴリズムを示し,確率的意見ダイナミクスやlennard-jonesモデルを含むプロトタイプシステムにおける数値実験によるアルゴリズムの有効性を示す。

We consider stochastic systems of interacting particles or agents, with dynamics determined by an interaction kernel which only depends on pairwise distances. We study the problem of inferring this interaction kernel from observations of the positions of the particles, in either continuous or discrete time, along multiple independent trajectories. We introduce a nonparametric inference approach to this inverse problem, based on a regularized maximum likelihood estimator constrained to suitable hypothesis spaces adaptive to data. We show that a coercivity condition enables us to control the condition number of this problem and prove the consistency of our estimator, and that in fact it converges at a near-optimal learning rate, equal to the min-max rate of $1$-dimensional non-parametric regression. In particular, this rate is independent of the dimension of the state space, which is typically very high. We also analyze the discretization errors in the case of discrete-time observations, showing that it is of order $1/2$ in terms of the time gaps between observations. This term, when large, dominates the sampling error and the approximation error, preventing convergence of the estimator. Finally, we exhibit an efficient parallel algorithm to construct the estimator from data, and we demonstrate the effectiveness of our algorithm with numerical tests on prototype systems including stochastic opinion dynamics and a Lennard-Jones model.
翻訳日:2022-11-05 14:51:33 公開日:2020-07-30
# 機械学習における識別の視覚的分析

Visual Analysis of Discrimination in Machine Learning ( http://arxiv.org/abs/2007.15182v1 )

ライセンス: Link先を確認
Qianwen Wang, Zhenhua Xu, Zhutian Chen, Yong Wang, Shixia Liu, and Huamin Qu(参考訳) 犯罪予測や大学入学など、重要なアプリケーションにおける自動意思決定の利用の増加は、機械学習における公正性に関する疑問を提起している。 異なる治療法が合理的か差別的であるかをどう判断するか。 本稿では,視覚分析の観点から機械学習の識別を調査し,より包括的な解析を支援するインタラクティブ可視化ツールdiscrilensを提案する。 アルゴリズムの識別に関する詳細な情報を明らかにするため、識別は因果モデルと分類規則のマイニングに基づいて、潜在的に識別可能な項目の集合を識別する。 拡張eulerダイアグラムと行列ベースの可視化を組み合わせることで,識別項目セットの探索と解釈を容易にする新しい可視化手法を開発した。 ユーザ調査の結果,視覚的に符号化された情報を迅速かつ正確に解釈できることがわかった。 ユースケースは、DiscriLensがアルゴリズムの識別の理解と削減に有益なガイダンスを提供することを示している。

The growing use of automated decision-making in critical applications, such as crime prediction and college admission, has raised questions about fairness in machine learning. How can we decide whether different treatments are reasonable or discriminatory? In this paper, we investigate discrimination in machine learning from a visual analytics perspective and propose an interactive visualization tool, DiscriLens, to support a more comprehensive analysis. To reveal detailed information on algorithmic discrimination, DiscriLens identifies a collection of potentially discriminatory itemsets based on causal modeling and classification rules mining. By combining an extended Euler diagram with a matrix-based visualization, we develop a novel set visualization to facilitate the exploration and interpretation of discriminatory itemsets. A user study shows that users can interpret the visually encoded information in DiscriLens quickly and accurately. Use cases demonstrate that DiscriLens provides informative guidance in understanding and reducing algorithmic discrimination.
翻訳日:2022-11-05 14:50:43 公開日:2020-07-30
# ラーフスリーパーと基本アウトリーチサービスを結ぶための勧告とリスク分類システム

A Recommendation and Risk Classification System for Connecting Rough Sleepers to Essential Outreach Services ( http://arxiv.org/abs/2007.15326v1 )

ライセンス: Link先を確認
Harrison Wilde, Lucia Lushi Chen, Austin Nguyen, Zoe Kimpel, Joshua Sidgwick, Adolfo De Unanue, Davide Veronese, Bilal Mateen, Rayid Ghani, Sebastian Vollmer(参考訳) 睡眠不足は、現代の社会で最も不利な人々によって直面する慢性的な問題である。 本稿では,英国に本拠を置く慈善団体「ホームレス・リンク」と共同で,路上で寝ている人たちと外出サービス提供者とをつなぐことを目的とした,一般市民からの着信通知の質を評価するためのデータ駆動型手法の開発について述べる。 アラートは、粗い睡眠器との接続に成功し、キャパシティの制限に対処し、素早く、効果的に、公平に全てのアラートを処理するのに役立つと予測される可能性に基づいて優先順位付けされる。 最初の評価では、ラベル付きデータに基づいて少なくとも15倍の頻度で粗い睡眠者が発見される確率を増大させ、未知の結果が考慮された場合の全体的な増加を示唆し、実際のモデルを評価するために長期間に渡り実施される試験のメリットを示唆している。 この文脈におけるデータの繊細な性質と影響を受ける人々の脆弱性により、倫理、透明性、説明可能性について慎重に検討し、議論とモデリングを行う。

Rough sleeping is a chronic problem faced by some of the most disadvantaged people in modern society. This paper describes work carried out in partnership with Homeless Link, a UK-based charity, in developing a data-driven approach to assess the quality of incoming alerts from members of the public aimed at connecting people sleeping rough on the streets with outreach service providers. Alerts are prioritised based on the predicted likelihood of successfully connecting with the rough sleeper, helping to address capacity limitations and to quickly, effectively, and equitably process all of the alerts that they receive. Initial evaluation concludes that our approach increases the rate at which rough sleepers are found following a referral by at least 15\% based on labelled data, implying a greater overall increase when the alerts with unknown outcomes are considered, and suggesting the benefit in a trial taking place over a longer period to assess the models in practice. The discussion and modelling process is done with careful considerations of ethics, transparency and explainability due to the sensitive nature of the data in this context and the vulnerability of the people that are affected.
翻訳日:2022-11-05 14:44:24 公開日:2020-07-30
# カスタマイズ機能を有する高性能ハイブリッドモデルを上回るrnn-tモデルの開発

Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization Capability ( http://arxiv.org/abs/2007.15188v1 )

ライセンス: Link先を確認
Jinyu Li, Rui Zhao, Zhong Meng, Yanqing Liu, Wenning Wei, Sarangarajan Parthasarathy, Vadim Mazalov, Zhenghao Wang, Lei He, Sheng Zhao, and Yifan Gong(参考訳) リカレントニューラルネットワークトランスデューサ(recurrent neural network transducer, rnn-t)は、自動音声認識のためのハイブリッドモデルに代わる、非常に有望なエンドツーエンド(e2e)モデルである。 本稿では、トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの開発、より優れた初期化戦略、将来の展望による高度なエンコーダモデリングについて述べる。 マイクロソフトの匿名化トレーニングデータ6万6千時間でトレーニングすると、開発済みのrnn-tモデルは、認識精度とレイテンシの両面で非常によく訓練されたハイブリッドモデルを超えます。 さらに,実践シナリオにE2Eモデルをデプロイする上で重要な,RNN-Tモデルを新しいドメインにカスタマイズする方法についても検討する。 新しいドメインにおけるテキストのみデータを利用する方法をいくつか比較した結果,rnn-tの予測と,ドメイン特化テキストから生成したテキスト対音声を用いた共同ネットワークの更新が最も効果的であることが判明した。

Because of its streaming nature, recurrent neural network transducer (RNN-T) is a very promising end-to-end (E2E) model that may replace the popular hybrid model for automatic speech recognition. In this paper, we describe our recent development of RNN-T models with reduced GPU memory consumption during training, better initialization strategy, and advanced encoder modeling with future lookahead. When trained with Microsoft's 65 thousand hours of anonymized training data, the developed RNN-T model surpasses a very well trained hybrid model with both better recognition accuracy and lower latency. We further study how to customize RNN-T models to a new domain, which is important for deploying E2E models to practical scenarios. By comparing several methods leveraging text-only data in the new domain, we found that updating RNN-T's prediction and joint networks using text-to-speech generated from domain-specific text is the most effective.
翻訳日:2022-11-05 14:43:48 公開日:2020-07-30
# マルチ露光画像融合アルゴリズムのベンチマークと比較

Benchmarking and Comparing Multi-exposure Image Fusion Algorithms ( http://arxiv.org/abs/2007.15156v1 )

ライセンス: Link先を確認
Xingchen Zhang(参考訳) マルチ露光画像融合(MEF)はコンピュータビジョンにおいて重要な分野であり,近年は注目されている。 従来のアルゴリズムとは別に、深層学習技術もマルチ露光画像融合に適用されている。 しかし、MEFアルゴリズムの開発に多くの努力がなされているが、ベンチマークの欠如により、MEFアルゴリズムの公平かつ包括的な性能比較が困難になり、この分野の開発を著しく妨げている。 本稿では,100個の画像ペア,16個のアルゴリズムのコードライブラリ,20個の評価指標,1600個の融合画像,ソフトウェアツールキットからなるマルチエクスポージャ画像融合(mefb)のためのベンチマークを提案することで,このギャップを埋める。 我々の知る限りでは、これはマルチ露光画像融合分野における最初のベンチマークである。 総合的な性能評価と有効なアルゴリズムの同定にMEFBを用いて大規模な実験を行った。 我々は、MEFBが、研究者が性能を比較し、MEFアルゴリズムを調べるための効果的なプラットフォームになることを期待している。

Multi-exposure image fusion (MEF) is an important area in computer vision and has attracted increasing interests in recent years. Apart from conventional algorithms, deep learning techniques have also been applied to multi-exposure image fusion. However, although much efforts have been made on developing MEF algorithms, the lack of benchmark makes it difficult to perform fair and comprehensive performance comparison among MEF algorithms, thus significantly hindering the development of this field. In this paper, we fill this gap by proposing a benchmark for multi-exposure image fusion (MEFB) which consists of a test set of 100 image pairs, a code library of 16 algorithms, 20 evaluation metrics, 1600 fused images and a software toolkit. To the best of our knowledge, this is the first benchmark in the field of multi-exposure image fusion. Extensive experiments have been conducted using MEFB for comprehensive performance evaluation and for identifying effective algorithms. We expect that MEFB will serve as an effective platform for researchers to compare performances and investigate MEF algorithms.
翻訳日:2022-11-05 14:42:41 公開日:2020-07-30
# 顔のランドマークアノテーションの背景にある騒音の祝福と呪い

The Blessing and the Curse of the Noise behind Facial Landmark Annotations ( http://arxiv.org/abs/2007.15269v1 )

ライセンス: Link先を確認
Xiaoyu Xiang, Yang Cheng, Shaoyuan Xu, Qian Lin, Jan Allebach(参考訳) 2d顔ランドマーク検出のための進化するアルゴリズムは、顔を認識し、表情を分析するなどを可能にする。 しかし、既存の手法はビデオに適用しても不安定な顔のランドマークの問題に遭遇する。 これまでの研究では、顔のランドマークの不安定さは、公開データセット間のラベル品質の不整合に起因するため、アノテーションノイズの影響をより深く理解したいと考えています。 本稿では,次のような貢献をする。 1) 検出された顔ランドマークの安定性を定量的に測定する2つの指標を提案する。 2)既存の公開データセットのアノテーションノイズをモデル化する。 3) 顔アライメントニューラルネットワークのトレーニングにおける様々なノイズの影響を調査し,対応する解を提案する。 その結果,検出された顔ランドマークの精度と安定性が向上した。

The evolving algorithms for 2D facial landmark detection empower people to recognize faces, analyze facial expressions, etc. However, existing methods still encounter problems of unstable facial landmarks when applied to videos. Because previous research shows that the instability of facial landmarks is caused by the inconsistency of labeling quality among the public datasets, we want to have a better understanding of the influence of annotation noise in them. In this paper, we make the following contributions: 1) we propose two metrics that quantitatively measure the stability of detected facial landmarks, 2) we model the annotation noise in an existing public dataset, 3) we investigate the influence of different types of noise in training face alignment neural networks, and propose corresponding solutions. Our results demonstrate improvements in both accuracy and stability of detected facial landmarks.
翻訳日:2022-11-05 14:42:09 公開日:2020-07-30
# 映像中の偽顔検出のための動的テクスチャ解析

Dynamic texture analysis for detecting fake faces in video sequences ( http://arxiv.org/abs/2007.15271v1 )

ライセンス: Link先を確認
Mattia Bonomi and Cecilia Pasquini and Giulia Boato(参考訳) 人間のキャラクターを含む操作されたマルチメディアコンテンツの作成は、過去数年で前例のないリアリズムに達し、画像やビデオに合成生成された顔を公開する自動化技術を求めている。 本研究は,映像信号の時空間的テクスチャダイナミクスの解析を行い,実数列と偽数列を特徴付けることを目的とする。 本稿では,複数時間セグメントの連成解析に基づく二項決定法を提案し,従来の手法とは対照的に空間次元と時間次元の両方のテクスチャダイナミクスを利用する。 これは、3次元直交平面上の局所微分パターン(LDP-TOP)を用いることで達成される。 操作されたビデオの最先端のデータセットに関する実験的解析は、実際のシーケンスと偽のシーケンスを分離するディスクリプタの識別能力を示し、また、使用される生成方法を特定する。 線形サポートベクトルマシン(SVM)は、複雑さが低いにもかかわらず、以前に提案された偽コンテンツ検出のためのディープモデルと同等の性能を持つ。

The creation of manipulated multimedia content involving human characters has reached in the last years unprecedented realism, calling for automated techniques to expose synthetically generated faces in images and videos. This work explores the analysis of spatio-temporal texture dynamics of the video signal, with the goal of characterizing and distinguishing real and fake sequences. We propose to build a binary decision on the joint analysis of multiple temporal segments and, in contrast to previous approaches, to exploit the textural dynamics of both the spatial and temporal dimensions. This is achieved through the use of Local Derivative Patterns on Three Orthogonal Planes (LDP-TOP), a compact feature representation known to be an important asset for the detection of face spoofing attacks. Experimental analyses on state-of-the-art datasets of manipulated videos show the discriminative power of such descriptors in separating real and fake sequences, and also identifying the creation method used. Linear Support Vector Machines (SVMs) are used which, despite the lower complexity, yield comparable performance to previously proposed deep models for fake content detection.
翻訳日:2022-11-05 14:41:57 公開日:2020-07-30
# ターゲット領域実画像のない深層交通信号の検出と認識

Deep Traffic Sign Detection and Recognition Without Target Domain Real Images ( http://arxiv.org/abs/2008.00962v1 )

ライセンス: Link先を確認
Lucas Tabelini, Rodrigo Berriel, Thiago M. Paix\~ao, Alberto F. De Souza, Claudine Badue, Nicu Sebe and Thiago Oliveira-Santos(参考訳) ディープラーニングは、自動運転に関連するいくつかの問題にうまく適用され、適切なトレーニングのために実際のターゲットドメインイメージの大規模なデータベースに依存することが多い。 このような実世界のデータの取得は、自動運転の文脈では必ずしも可能ではなく、時にはアノテーションが実現不可能である。 さらに、多くのタスクにおいて、多くの学習ベースの手法が対処に苦労する固有のデータ不均衡が存在する。 特に、交通標識検出は、これら3つの問題がすべて見られるという困難な問題である。 これらの課題に対処するために,我々はデータベース生成手法を提案する。 (i)任意の自然画像、すなわち、対象領域からの実際の画像を必要としない。 (ii) 交通標識のテンプレート。 この方法は、実際のデータでトレーニングを克服することではなく、実際のデータが利用できない場合に互換性のある代替手段となることを目的としている。 このデータベースは、複数の国の交通標識の深部検知器の訓練に有効であることが示されている。 大規模なデータセットでは、完全に合成されたデータセットによるトレーニングは、実際のデータセットとトレーニングのパフォーマンスにほぼ一致する。 実際の画像の少ないデータセットでのトレーニングと比較すると、合成画像によるトレーニングは12.25%の精度で向上した。 提案手法は,対象領域のデータが利用可能である場合,検出器の性能も向上する。

Deep learning has been successfully applied to several problems related to autonomous driving, often relying on large databases of real target-domain images for proper training. The acquisition of such real-world data is not always possible in the self-driving context, and sometimes their annotation is not feasible. Moreover, in many tasks, there is an intrinsic data imbalance that most learning-based methods struggle to cope with. Particularly, traffic sign detection is a challenging problem in which these three issues are seen altogether. To address these challenges, we propose a novel database generation method that requires only (i) arbitrary natural images, i.e., requires no real image from the target-domain, and (ii) templates of the traffic signs. The method does not aim at overcoming the training with real data, but to be a compatible alternative when the real data is not available. The effortlessly generated database is shown to be effective for the training of a deep detector on traffic signs from multiple countries. On large data sets, training with a fully synthetic data set almost matches the performance of training with a real one. When compared to training with a smaller data set of real images, training with synthetic images increased the accuracy by 12.25%. The proposed method also improves the performance of the detector when target-domain data are available.
翻訳日:2022-11-05 14:35:11 公開日:2020-07-30
# 次世代無線ネットワークのためのSwarm Intelligence:最近の進歩と応用

Swarm Intelligence for Next-Generation Wireless Networks: Recent Advances and Applications ( http://arxiv.org/abs/2007.15221v1 )

ライセンス: Link先を確認
Quoc-Viet Pham, Dinh C. Nguyen, Seyedali Mirjalili, Dinh Thai Hoang, Diep N. Nguyen, Pubudu N. Pathirana, Won-Joo Hwang(参考訳) スマートデバイスの普及と新興アプリケーションにより、多くの次世代技術がワイヤレスネットワーク開発のために支払われてきた。 商業用5Gは、一部の国で広く展開されているが、6Gシステムのためのアカデミアや工業コミュニティからの最初の取り組みがある。 このようなネットワークでは、技術、アーキテクチャ、モバイルデータなどの異質性とともに、非常に多くのデバイスやアプリケーションが登場し、そのようなネットワークを最適化することが非常に重要である。 凸最適化とゲーム理論に加えて、最近Swarm Intelligence(SI)が無線ネットワークの有望な最適化ツールとして登場した。 人工知能の新しい区分として、SIは生物種の社会の集団的行動に着想を得ている。 siでは、限られた能力を持つ単純なエージェントは、高次元で困難な問題に対するインテリジェントな戦略を実現するため、最近、次世代無線ネットワーク(ngn)で多くのアプリケーションを見つけました。 しかし、研究者はSI技術の可能性を完全に認識していないかもしれない。 この作業では、この2つのドメイン、NGNとSIの統合に重点を置いています。 まず,基本的な概念からよく知られたオプティマイザまで,SI技術の概要を紹介する。 第2に、スペクトル管理とリソース割り当て、無線キャッシュとエッジコンピューティング、ネットワークセキュリティ、その他様々な問題を含む、NGNの新たな課題を解決するためのSIの適用についてレビューする。 最後に,文献のオープンな課題と課題を強調するとともに,今後の研究に向けた興味深い方向性を紹介する。

Due to the proliferation of smart devices and emerging applications, many next-generation technologies have been paid for the development of wireless networks. Even though commercial 5G has just been widely deployed in some countries, there have been initial efforts from academia and industrial communities for 6G systems. In such a network, a very large number of devices and applications are emerged, along with heterogeneity of technologies, architectures, mobile data, etc., and optimizing such a network is of utmost importance. Besides convex optimization and game theory, swarm intelligence (SI) has recently appeared as a promising optimization tool for wireless networks. As a new subdivision of artificial intelligence, SI is inspired by the collective behaviors of societies of biological species. In SI, simple agents with limited capabilities would achieve intelligent strategies for high-dimensional and challenging problems, so it has recently found many applications in next-generation wireless networks (NGN). However, researchers may not be completely aware of the full potential of SI techniques. In this work, our primary focus will be the integration of these two domains: NGN and SI. Firstly, we provide an overview of SI techniques from fundamental concepts to well-known optimizers. Secondly, we review the applications of SI to settle emerging issues in NGN, including spectrum management and resource allocation, wireless caching and edge computing, network security, and several other miscellaneous issues. Finally, we highlight open challenges and issues in the literature, and introduce some interesting directions for future research.
翻訳日:2022-11-05 14:34:32 公開日:2020-07-30
# 解釈可能なコンテキスト対応型チーム対応アイテムレコメンデーション:マルチプレイヤーオンラインバトルアリーナゲームへの応用

Interpretable Contextual Team-aware Item Recommendation: Application in Multiplayer Online Battle Arena Games ( http://arxiv.org/abs/2007.15236v1 )

ライセンス: Link先を確認
Andr\'es Villa, Vladimir Araujo, Francisca Cattan, Denis Parra(参考訳) ビデオゲーム業界は、ゲーム販売に集中してユーザーの関心を高めるためにレコメンデーションシステムを採用した。 ビデオゲームの他のエキサイティングな応用としては、プレイヤーがプレイ体験を最大化する決定を下すのを助けるものがあり、これはDotAやLoLのようなマルチプレイヤーオンラインバトルアリーナ(MOBA)のようなリアルタイム戦略ビデオゲームで望ましい機能である。 これらのタスクの中で、ゲームのコンテキストの性質と、それが各チーム形成への依存を明らかにする方法の両方を考えると、アイテムの推奨は難しい。 このトピックに関する既存の作業は、利用可能なコンテキストマッチングデータをすべて活用せず、潜在的に価値のある情報を除外する。 この問題に対処するために、私たちは、Transformerのニューラルアーキテクチャから派生したコンテキストレコメンデータモデルであるTTIRを開発し、マッチを記述するチームのコンテキストとロールに基づいて、各チームメンバーにアイテムセットを提案する。 TTIRはいくつかのアプローチより優れており、注意重みの可視化を通じて解釈可能なレコメンデーションを提供する。 本稿では,この項目推薦タスクにおいて,トランスフォーマーアーキテクチャとコンテキスト情報の両方が最適結果を得るために重要であることを示す。 さらに,ユーザ調査の結果から,注意重み付けがレコメンデーションや今後の作業のアイデアに有用であることが示唆された。 コードとデータセットは以下の通りである。

The video game industry has adopted recommendation systems to boost users interest with a focus on game sales. Other exciting applications within video games are those that help the player make decisions that would maximize their playing experience, which is a desirable feature in real-time strategy video games such as Multiplayer Online Battle Arena (MOBA) like as DotA and LoL. Among these tasks, the recommendation of items is challenging, given both the contextual nature of the game and how it exposes the dependence on the formation of each team. Existing works on this topic do not take advantage of all the available contextual match data and dismiss potentially valuable information. To address this problem we develop TTIR, a contextual recommender model derived from the Transformer neural architecture that suggests a set of items to every team member, based on the contexts of teams and roles that describe the match. TTIR outperforms several approaches and provides interpretable recommendations through visualization of attention weights. Our evaluation indicates that both the Transformer architecture and the contextual information are essential to get the best results for this item recommendation task. Furthermore, a preliminary user survey indicates the usefulness of attention weights for explaining recommendations as well as ideas for future work. The code and dataset are available at: https://github.com/ojedaf/IC-TIR-Lol.
翻訳日:2022-11-05 14:34:12 公開日:2020-07-30
# 適用時間付きストリームのバウンドメモリ基準

Bounded-Memory Criteria for Streams with Application Time ( http://arxiv.org/abs/2007.16040v1 )

ライセンス: Link先を確認
Simon Schiff and \"Ozg\"ur \"Ozcep(参考訳) 境界メモリ計算能力は、ストリーム上の実行可能な計算を扱うAIやデータベースの領域の焦点であり、低レベルのストリーム上の算術的な計算や、リレーショナルデータストリーム上の宣言的に指定されたクエリに応答する実行可能なクエリ、さらにはストリーム上の高レベルのクエリに応答する実行可能なクエリなど、オントロジーベースのデータアクセス(OBDA)のパラダイムのようなオントロジーにおける制約セットである。 古典的なobdaでは、高レベルのクエリはデータソースレベルでクエリに変換することで答えられる。 変換には書き直しステップが必要で、オントロジーからの知識がクエリに組み込まれ、マッピングのセットに関して展開するステップが続く。 OBDAの設定を考えると、クエリが効率的に答えられるかどうかを判断するのは非常に困難です。 特に、データストリームの無限に増大するプレフィックスである定数空間 w.r.t において、クエリが境界メモリで応答できるかどうかを決定するのは難しい。 本研究は,アプリケーション時間付きストリーム上でのSPJクエリのメモリ境界計算可能性の基準を示す。 spjクエリが一定の空間で答えられるかどうかは、オントロジーやマッピングのセットが入力の一部ではないため、高レベルのクエリよりも容易である。 従来のOBDAの変換プロセスを使うことで、これらの基準はストリーム上の高レベルのクエリに応答する効率を決定するのに役立つ。

Bounded-memory computability continues to be in the focus of those areas of AI and databases that deal with feasible computations over streams---be it feasible arithmetical calculations on low-level streams or feasible query answering for declaratively specified queries on relational data streams or even feasible query answering for high-level queries on streams w.r.t. a set of constraints in an ontology such as in the paradigm of Ontology-Based Data Access (OBDA). In classical OBDA, a high-level query is answered by transforming it into a query on data source level. The transformation requires a rewriting step, where knowledge from an ontology is incorporated into the query, followed by an unfolding step with respect to a set of mappings. Given an OBDA setting it is very difficult to decide, whether and how a query can be answered efficiently. In particular it is difficult to decide whether a query can be answered in bounded memory, i.e., in constant space w.r.t. an infinitely growing prefix of a data stream. This work presents criteria for bounded-memory computability of select-project-join (SPJ) queries over streams with application time. Deciding whether an SPJ query can be answered in constant space is easier than for high-level queries, as neither an ontology nor a set of mappings are part of the input. Using the transformation process of classical OBDA, these criteria then can help deciding the efficiency of answering high-level queries on streams.
翻訳日:2022-11-05 14:33:31 公開日:2020-07-30
# モデルos din\^amicos aplicados \`a a aprendizagem de valores em intelig\^encia artificial

Modelos din\^amicos aplicados \`a aprendizagem de valores em intelig\^encia artificial ( http://arxiv.org/abs/2008.02783v1 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea and Nythamar De Oliveira(参考訳) 人工知能(AI)開発の専門家は、インテリジェントシステムとエージェントの開発の進歩が、我々の社会における重要な領域を形作ると予測している。 しかし、そのような進歩が慎重かつ批判的に、反省的に行われなければ、人類にとって否定的な結果をもたらす可能性がある。 このため、この地域の何人かの研究者は、人類と環境の保全のためのaiの堅牢で有益で安全な概念を開発した。 現在、ai研究の分野におけるオープンな問題のいくつかは、インテリジェントエージェントやシステムの不必要な振る舞いを避けることの難しさと、その上で我々が本当に望むシステム、特に長期間にわたって複数のドメインでインテリジェントエージェントが作用する可能性を求める場合に生じる。 直交論で論じられているように、aiがその知性のために単に人間の道徳的価値を発達させることは期待できないという事実を考えると、人工知能エージェントが人間の価値観に合致する価値を持っていることは最も重要である。 おそらくこの難しさは、表現的認知手法を用いて、目的、価値、目的を表現している問題に対処する方法に由来する。 この問題の解決策は、ドレイファスが提唱したダイナミックなアプローチであり、その現象論的哲学は、いくつかの側面における世界における人間の経験は、特に学習価値の問題に関して、象徴的あるいはコネクショナリズム的な認知方法によってうまく表現されていないことを示している。 この問題に対する可能なアプローチは、SED(situated embodied dynamics)のような理論モデルを使用して、AIにおける価値学習問題に対処することだ。

Experts in Artificial Intelligence (AI) development predict that advances in the development of intelligent systems and agents will reshape vital areas in our society. Nevertheless, if such an advance is not made prudently and critically, reflexively, it can result in negative outcomes for humanity. For this reason, several researchers in the area have developed a robust, beneficial, and safe concept of AI for the preservation of humanity and the environment. Currently, several of the open problems in the field of AI research arise from the difficulty of avoiding unwanted behaviors of intelligent agents and systems, and at the same time specifying what we really want such systems to do, especially when we look for the possibility of intelligent agents acting in several domains over the long term. It is of utmost importance that artificial intelligent agents have their values aligned with human values, given the fact that we cannot expect an AI to develop human moral values simply because of its intelligence, as discussed in the Orthogonality Thesis. Perhaps this difficulty comes from the way we are addressing the problem of expressing objectives, values, and ends, using representational cognitive methods. A solution to this problem would be the dynamic approach proposed by Dreyfus, whose phenomenological philosophy shows that the human experience of being-in-the-world in several aspects is not well represented by the symbolic or connectionist cognitive method, especially in regards to the question of learning values. A possible approach to this problem would be to use theoretical models such as SED (situated embodied dynamics) to address the values learning problem in AI.
翻訳日:2022-11-05 14:33:03 公開日:2020-07-30
# 点群セマンティックセグメンテーションのためのカスケード非局所ニューラルネットワーク

Cascaded Non-local Neural Network for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2007.15488v1 )

ライセンス: Link先を確認
Mingmei Cheng, Le Hui, Jin Xie, Jian Yang and Hui Kong(参考訳) 本稿では,ポイントクラウドセグメンテーションのためのカスケード非局所ニューラルネットワークを提案する。 提案されたネットワークは、正確なセグメンテーションのためにポイントクラウドの長距離依存性を構築することを目的としている。 具体的には,近辺レベル,スーパーポイントレベル,グローバルレベルの非ローカルブロックで構成される新しい非ローカルモジュールを開発する。 まず,近傍ブロックにおいて,隣接点に対して異なる重みを割り当てることで,点雲の遠心点の局所的特徴を抽出する。 抽出されたセントロイド点の局所的な特徴は、スーパーポイントレベルブロックを非局所演算でエンコードするために使用される。 最後に、グローバルレベルブロックは、エンコーダ-デコーダフレームワークにおけるセマンティクスセグメンテーションのためのスーパーポイントの非ローカルな特徴を集約する。 カスケード構造により、同じラベルの異なる近傍の幾何学的構造情報を伝播させることができる。 さらに、カスケード構造は、点雲上の元の非局所演算の計算コストを大幅に削減することができる。 室内および屋外の異なるデータセットを用いた実験により,本手法は最先端の性能を達成し,時間消費とメモリ占有を効果的に削減できることが示された。

In this paper, we propose a cascaded non-local neural network for point cloud segmentation. The proposed network aims to build the long-range dependencies of point clouds for the accurate segmentation. Specifically, we develop a novel cascaded non-local module, which consists of the neighborhood-level, superpoint-level and global-level non-local blocks. First, in the neighborhood-level block, we extract the local features of the centroid points of point clouds by assigning different weights to the neighboring points. The extracted local features of the centroid points are then used to encode the superpoint-level block with the non-local operation. Finally, the global-level block aggregates the non-local features of the superpoints for semantic segmentation in an encoder-decoder framework. Benefiting from the cascaded structure, geometric structure information of different neighborhoods with the same label can be propagated. In addition, the cascaded structure can largely reduce the computational cost of the original non-local operation on point clouds. Experiments on different indoor and outdoor datasets show that our method achieves state-of-the-art performance and effectively reduces the time consumption and memory occupation.
翻訳日:2022-11-05 14:26:18 公開日:2020-07-30
# SimPose: シミュレーションデータからDensePoseとSurface Normalsを効果的に学習する

SimPose: Effectively Learning DensePose and Surface Normals of People from Simulated Data ( http://arxiv.org/abs/2007.15506v1 )

ライセンス: Link先を確認
Tyler Zhu, Per Karlsson, Christoph Bregler(参考訳) 汎用的ドメイン適応手法の普及に伴い,画素毎2.5dの難易度と3次元回帰表現の学習において,単純かつ効果的な手法を提示する。 2.5次元密度場推定タスクと3次元面正規推定タスクの強いsim-to-realドメイン一般化を得た。 マルチパーソンのDensePose MSCOCOベンチマークでは、密にラベル付けされた実画像に基づいてトレーニングされた最先端の手法よりも優れている。 これは、実画像上の人間多様体の固有uv座標を得るのに時間がかかり、ノイズのラベル付けに時間がかかるため重要な結果である。 さらに,本モデルでは実際の3次元表面正規ラベルを欠いたMSCOCOデータセット上での3次元表面正規予測について述べる。 このアプローチの鍵となるのは、"Inter-domain Covariate Shift"を、ドメインサンプル、ディープバッチ正規化残留ネットワーク、修正マルチタスク学習目標から慎重に選択されたトレーニングバッチで緩和することです。 提案手法は既存の領域適応手法を補完するものであり,他の高密度画素間ポーズ推定問題に適用できる。

With a proliferation of generic domain-adaptation approaches, we report a simple yet effective technique for learning difficult per-pixel 2.5D and 3D regression representations of articulated people. We obtained strong sim-to-real domain generalization for the 2.5D DensePose estimation task and the 3D human surface normal estimation task. On the multi-person DensePose MSCOCO benchmark, our approach outperforms the state-of-the-art methods which are trained on real images that are densely labelled. This is an important result since obtaining human manifold's intrinsic uv coordinates on real images is time consuming and prone to labeling noise. Additionally, we present our model's 3D surface normal predictions on the MSCOCO dataset that lacks any real 3D surface normal labels. The key to our approach is to mitigate the "Inter-domain Covariate Shift" with a carefully selected training batch from a mixture of domain samples, a deep batch-normalized residual network, and a modified multi-task learning objective. Our approach is complementary to existing domain-adaptation techniques and can be applied to other dense per-pixel pose estimation problems.
翻訳日:2022-11-05 14:26:01 公開日:2020-07-30
# コンテンツベース画像検索のための新しい局所ラドンディスクリプタ

A new Local Radon Descriptor for Content-Based Image Search ( http://arxiv.org/abs/2007.15523v1 )

ライセンス: Link先を確認
Morteza Babaie, Hany Kashani, Meghana D. Kumar, Hamid.R. Tizhoosh(参考訳) CBIR(Content-based Image Search)は、コンピュータビジョン研究、特に医療専門家システムにおいて欠かせない部分である。 CBIRシステムでは、最小数のパラメータを持つ識別画像記述子を持つことが望ましい。 本稿では,局所ラドン射影のヒストグラムに基づく新しい簡易ディスクリプタを提案する。 また,ラドン射影の遅い過程を克服するために,非常に高速な畳み込みに基づく局所ラドン推定器を提案する。 病理像(kimiapath24)と肺ctパッチを用いて実験を行い,提案する医用画像処理法について検討した。 LBPやHoGなどの他のヒストグラムベースのディスクリプタや,事前学習したCNNと比較して,優れた結果を得た。

Content-based image retrieval (CBIR) is an essential part of computer vision research, especially in medical expert systems. Having a discriminative image descriptor with the least number of parameters for tuning is desirable in CBIR systems. In this paper, we introduce a new simple descriptor based on the histogram of local Radon projections. We also propose a very fast convolution-based local Radon estimator to overcome the slow process of Radon projections. We performed our experiments using pathology images (KimiaPath24) and lung CT patches and test our proposed solution for medical image processing. We achieved superior results compared with other histogram-based descriptors such as LBP and HoG as well as some pre-trained CNNs.
翻訳日:2022-11-05 14:25:39 公開日:2020-07-30
# シーン変化検出のためのエピポーラ誘導深部物体マッチング

Epipolar-Guided Deep Object Matching for Scene Change Detection ( http://arxiv.org/abs/2007.15540v1 )

ライセンス: Link先を確認
Kento Doi, Ryuhei Hamaguchi, Shun Iwase, Rio Yokota, Yutaka Matsuo, Ken Sakurada(参考訳) 本稿では,オブジェクト指向変化検出ネットワーク(OBJ-CDNet)について述べる。 ドライブレコーダーのような移動カメラは、カメラの軌跡やシャッタータイミングの違いにより、毎回異なる視点から画像をキャプチャする。 しかし,従来の画素単位の変更検出手法は,画像対を入力として仮定するため,視点差に弱い。 この課題に対処するために,画像ペア間のオブジェクト対応を確立するディープグラフマッチングネットワークを導入する。 導入により、正確な画像アライメントなしに、オブジェクトワイズシーンの変化を検出することができる。 より正確なオブジェクトマッチングのために、OBJCDNetで使用されるディープグラフマッチング層にエピポーラ制約を組み込んだエピポーラ誘導ディープグラフマッチングネットワーク(EGMNet)を提案する。 ネットワークの視点の違いに対するロバスト性を評価するために,画像ペアからシーン変化検出のための合成データと実データを作成した。 実験の結果,ネットワークの有効性が検証された。

This paper describes a viewpoint-robust object-based change detection network (OBJ-CDNet). Mobile cameras such as drive recorders capture images from different viewpoints each time due to differences in camera trajectory and shutter timing. However, previous methods for pixel-wise change detection are vulnerable to the viewpoint differences because they assume aligned image pairs as inputs. To cope with the difficulty, we introduce a deep graph matching network that establishes object correspondence between an image pair. The introduction enables us to detect object-wise scene changes without precise image alignment. For more accurate object matching, we propose an epipolar-guided deep graph matching network (EGMNet), which incorporates the epipolar constraint into the deep graph matching layer used in OBJCDNet. To evaluate our network's robustness against viewpoint differences, we created synthetic and real datasets for scene change detection from an image pair. The experimental results verified the effectiveness of our network.
翻訳日:2022-11-05 14:25:27 公開日:2020-07-30
# ドメイン適応型人物再同定のための教師なしディスタングルGAN

Unsupervised Disentanglement GAN for Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2007.15560v1 )

ライセンス: Link先を確認
Yacine Khraimeche, Guillaume-Alexandre Bilodeau, David Steele, and Harshad Mahadik(参考訳) 最近のperson re-identification(reid)メソッドは教師付き設定で高い精度を達成しているが、ラベルなしドメインへの一般化はまだ未解決の問題である。 本稿では,監視対象reidのドメイン適応問題に対処するために,unsupervised disentanglement generative adversarial network (ud-gan)を提案する。 本フレームワークは,ソースラベル付きドメインにおける識別的特徴抽出のためのreidネットワークをidアノテーションを用いて共同で訓練し,領域上の不連続な潜在表現を学習することにより,ラベル付き対象ドメインにreidモデルを適応させる。 ターゲットドメインのアイデンティティ非関連機能は、潜在機能から抽出される。 その結果、ReID機能は、教師なしドメイン内の人のアイデンティティをよりよく含んでいる。 我々はmarket1501, dukemtmc, msmt17データセットで実験を行った。 その結果、ReIDにおける教師なし領域適応問題は非常に困難であることが判明した。 それでも,本手法はドメイン転送の半分の改善を示し,その1つに対して最先端の性能を実現する。

While recent person re-identification (ReID) methods achieve high accuracy in a supervised setting, their generalization to an unlabelled domain is still an open problem. In this paper, we introduce a novel unsupervised disentanglement generative adversarial network (UD-GAN) to address the domain adaptation issue of supervised person ReID. Our framework jointly trains a ReID network for discriminative features extraction in a source labelled domain using identity annotation, and adapts the ReID model to an unlabelled target domain by learning disentangled latent representations on the domain. Identity-unrelated features in the target domain are distilled from the latent features. As a result, the ReID features better encompass the identity of a person in the unsupervised domain. We conducted experiments on the Market1501, DukeMTMC and MSMT17 datasets. Results show that the unsupervised domain adaptation problem in ReID is very challenging. Nevertheless, our method shows improvement in half of the domain transfers and achieve state-of-the-art performance for one of them.
翻訳日:2022-11-05 14:25:13 公開日:2020-07-30
# ヒートマップに基づくVanishing Pointがレーン検出を強化

Heatmap-based Vanishing Point boosts Lane Detection ( http://arxiv.org/abs/2007.15602v1 )

ライセンス: Link先を確認
Yin-Bo Liu, Ming Zeng, Qing-Hao Meng(参考訳) 視覚に基づく車線検出(LD)は自動運転技術の重要な部分であり、また難しい問題でもある。 シーン構成の重要な制約の一つとして、消滅点(VP)が車線検出に有用な手がかりとなる可能性がある。 本稿では,高精度レーン検出のためのマルチタスク融合ネットワークアーキテクチャを提案する。 まず、erfnetは道路画像の階層的特徴を抽出するバックボーンとして使用された。 その後、画像分割により車線が検出された。 最後に, レーン検出の出力と背骨から抽出した階層的特徴を組み合わせることで, レーンVPを熱マップ回帰を用いて予測した。 提案する核融合戦略は、公開culaneデータセットを用いてテストされた。 実験結果から,本手法の車線検出精度は最先端(SOTA)法よりも優れていたことが示唆された。

Vision-based lane detection (LD) is a key part of autonomous driving technology, and it is also a challenging problem. As one of the important constraints of scene composition, vanishing point (VP) may provide a useful clue for lane detection. In this paper, we proposed a new multi-task fusion network architecture for high-precision lane detection. Firstly, the ERFNet was used as the backbone to extract the hierarchical features of the road image. Then, the lanes were detected using image segmentation. Finally, combining the output of lane detection and the hierarchical features extracted by the backbone, the lane VP was predicted using heatmap regression. The proposed fusion strategy was tested using the public CULane dataset. The experimental results suggest that the lane detection accuracy of our method outperforms those of state-of-the-art (SOTA) methods.
翻訳日:2022-11-05 14:24:42 公開日:2020-07-30
# LevelSet R-CNN: インスタンスセグメンテーションのための深部変分法

LevelSet R-CNN: A Deep Variational Method for Instance Segmentation ( http://arxiv.org/abs/2007.15629v1 )

ライセンス: Link先を確認
Namdar Homayounfar, Yuwen Xiong, Justin Liang, Wei-Chiu Ma, Raquel Urtasun(参考訳) 精密なインスタンスセグメンテーションマスクの取得は、ロボット操作や自動運転など、現代の多くの応用において非常に重要である。 現在、多くの最先端技術モデルはMask R-CNNフレームワークに基づいており、これは非常に強力であるが、低解像度でマスクを出力し、不正確な境界をもたらす可能性がある。 一方,従来の分節法では,エネルギー汎関数を最適化することにより,大域的・局所的なデータや幾何的制約をマスクに課している。 数学的にはエレガントだが、良い初期化への直接的な依存、ロバストでない画像の手がかり、ハイパーパラメータの手動設定は、現代の用途には適さない。 本稿では,両世界の最善を両立させるレベルセットr-cnnを提案する。 我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。

Obtaining precise instance segmentation masks is of high importance in many modern applications such as robotic manipulation and autonomous driving. Currently, many state of the art models are based on the Mask R-CNN framework which, while very powerful, outputs masks at low resolutions which could result in imprecise boundaries. On the other hand, classic variational methods for segmentation impose desirable global and local data and geometry constraints on the masks by optimizing an energy functional. While mathematically elegant, their direct dependence on good initialization, non-robust image cues and manual setting of hyperparameters renders them unsuitable for modern applications. We propose LevelSet R-CNN, which combines the best of both worlds by obtaining powerful feature representations that are combined in an end-to-end manner with a variational segmentation framework. We demonstrate the effectiveness of our approach on COCO and Cityscapes datasets.
翻訳日:2022-11-05 14:23:58 公開日:2020-07-30
# 光学関数をサンプリングする群衆

Crowdsampling the Plenoptic Function ( http://arxiv.org/abs/2007.15194v1 )

ライセンス: Link先を確認
Zhengqi Li, Wenqi Xian, Abe Davis, Noah Snavely(参考訳) 多くの人気のある観光名所は、多くのオンライン・パブリック写真に収められている。 これらの写真は、特定のシーンの照度関数のスパースで非構造的なサンプリングを表している。 本稿では,このようなデータからの時間変動照明下での新しい視点合成手法を提案する。 本手法は,最近のマルチプレーン画像(mpi)フォーマットを基盤とし,一定の視聴条件下で局所光野を表現する。 本研究では,plenoptic関数のスパーシティ構造に関する観測結果に動機づけられた新しいdeepmpi表現を導入し,空間と照明変化の両方において連続なフォトリアリスティックなビューをリアルタイムに合成する。 本手法は従来のMPI法と同等のパララックスとビュー依存効果を合成し, 反射率の変化と光の時間変化を同時に補間する。 これらの効果のモデルを、時間的登録のない非構造化写真のコレクションから教師なしの方法で学習する方法を示し、近年のニューラルレンダリングよりも大幅に改善されていることを示す。 詳細は crowdsampling.io を参照。

Many popular tourist landmarks are captured in a multitude of online, public photos. These photos represent a sparse and unstructured sampling of the plenoptic function for a particular scene. In this paper,we present a new approach to novel view synthesis under time-varying illumination from such data. Our approach builds on the recent multi-plane image (MPI) format for representing local light fields under fixed viewing conditions. We introduce a new DeepMPI representation, motivated by observations on the sparsity structure of the plenoptic function, that allows for real-time synthesis of photorealistic views that are continuous in both space and across changes in lighting. Our method can synthesize the same compelling parallax and view-dependent effects as previous MPI methods, while simultaneously interpolating along changes in reflectance and illumination with time. We show how to learn a model of these effects in an unsupervised way from an unstructured collection of photos without temporal registration, demonstrating significant improvements over recent work in neural rendering. More information can be found crowdsampling.io.
翻訳日:2022-11-05 14:17:23 公開日:2020-07-30
# ビデオにおける効率的なポーズ推定のためのキーフレーム提案ネットワーク

Key Frame Proposal Network for Efficient Pose Estimation in Videos ( http://arxiv.org/abs/2007.15217v1 )

ライセンス: Link先を確認
Yuexi Zhang, Yin Wang, Octavia Camps, Mario Sznaier(参考訳) ビデオにおける人間のポーズ推定は、各フレームを独立して推定するか、フレーム全体でのポーズを追跡することによって、ローカル情報に依存する。 本稿では,ローカルアプローチとグローバルコンテキストを組み合わせた新しい手法を提案する。 重み付き,教師なし,キーフレーム提案ネットワーク (k-fpn) を導入し,情報フレームと学習辞書を選択し,これらのフレームからポーズシーケンス全体を復元する。 k-fpnはポーズ推定を高速化し、オクルージョン、動きのぼやけ、照明の変化を伴うバッドフレームに堅牢性を提供し、学習辞書はグローバルなダイナミックコンテキストを提供する。 penn アクションとサブ jhmdb データセットの実験により、提案手法は、かなりのスピードアップで最先端の精度を達成できることが示されている。

Human pose estimation in video relies on local information by either estimating each frame independently or tracking poses across frames. In this paper, we propose a novel method combining local approaches with global context. We introduce a light weighted, unsupervised, key frame proposal network (K-FPN) to select informative frames and a learned dictionary to recover the entire pose sequence from these frames. The K-FPN speeds up the pose estimation and provides robustness to bad frames with occlusion, motion blur, and illumination changes, while the learned dictionary provides global dynamic context. Experiments on Penn Action and sub-JHMDB datasets show that the proposed method achieves state-of-the-art accuracy, with substantial speed-up.
翻訳日:2022-11-05 14:17:08 公開日:2020-07-30
# action2motion: 3次元動作の条件付き生成

Action2Motion: Conditioned Generation of 3D Human Motions ( http://arxiv.org/abs/2007.15240v1 )

ライセンス: Link先を確認
Chuan Guo, Xinxin Zuo, Sen Wang, Shihao Zou, Qingyao Sun, Annan Deng, Minglun Gong and Li Cheng(参考訳) 行動認識は比較的確立されたタスクであり、人間の動作の入力シーケンスが与えられた場合、そのカテゴリーを予測することが目的である。 一方,本論文では,アクション認識の逆問題と考えられる比較的新しい問題について考察する。 重要なことに、生成した動きの集合は行動条件の運動空間全体を探索できるようにその多様性を維持することが期待されている。 これらの目的により,人間の運動学の物理法則に従い,Lie Algebratheoryを応用して自然運動を表現するとともに,運動空間の分散サンプリングを促進する時変自動エンコーダ(VAE)を提案する。 新しい3DモーションデータセットであるHumanAct12も構築されている。 3つの異なる人間の運動データセット(うちを含む)に対する実証実験により、我々のアプローチの有効性が実証された。

Action recognition is a relatively established task, where givenan input sequence of human motion, the goal is to predict its ac-tion category. This paper, on the other hand, considers a relativelynew problem, which could be thought of as an inverse of actionrecognition: given a prescribed action type, we aim to generateplausible human motion sequences in 3D. Importantly, the set ofgenerated motions are expected to maintain itsdiversityto be ableto explore the entire action-conditioned motion space; meanwhile,each sampled sequence faithfully resembles anaturalhuman bodyarticulation dynamics. Motivated by these objectives, we followthe physics law of human kinematics by adopting the Lie Algebratheory to represent thenaturalhuman motions; we also propose atemporal Variational Auto-Encoder (VAE) that encourages adiversesampling of the motion space. A new 3D human motion dataset, HumanAct12, is also constructed. Empirical experiments overthree distinct human motion datasets (including ours) demonstratethe effectiveness of our approach.
翻訳日:2022-11-05 14:16:54 公開日:2020-07-30
# MIL-CAMを用いた微視的超微視的画像分割

Weakly Supervised Minirhizotron Image Segmentation with MIL-CAM ( http://arxiv.org/abs/2007.15243v1 )

ライセンス: Link先を確認
Guohao Yu, Alina Zare, Weihuang Xu, Roser Matamala, Joel Reyes-Cabrera, Felix B. Fritschi, Thomas E. Juenger(参考訳) 画像レベルラベルが弱い画素レベルのミニリゾトロン画像セグメンテーションのためのマルチインスタンス学習クラスアクティベーションマップ(MIL-CAM)を提案する。 ミニリゾトロンは植物の根をその場で撮影するために用いられる。 ミニリゾトロン像は、直径が小さい数個の細長い根を持つ土壌で構成されていることが多い。 根は既存の意味的イメージ分割法において識別が難しいことが証明されている。 MIL-CAM法は,弱ラベルからの学習に加えて,土壌と根の重不均衡による性能向上のための解析において,根対土壌画素の再重み付けを行う。 提案手法は,ミニリゾトロン画像におけるルートオブジェクトのローカライゼーションにおいて,他の注目マップや複数のインスタンス学習手法よりも優れている。

We present a multiple instance learning class activation map (MIL-CAM) approach for pixel-level minirhizotron image segmentation given weak image-level labels. Minirhizotrons are used to image plant roots in situ. Minirhizotron imagery is often composed of soil containing a few long and thin root objects of small diameter. The roots prove to be challenging for existing semantic image segmentation methods to discriminate. In addition to learning from weak labels, our proposed MIL-CAM approach re-weights the root versus soil pixels during analysis for improved performance due to the heavy imbalance between soil and root pixels. The proposed approach outperforms other attention map and multiple instance learning methods for localization of root objects in minirhizotron imagery.
翻訳日:2022-11-05 14:16:37 公開日:2020-07-30
# 後方および前方伝播を介する弱教師細胞追跡

Weakly-Supervised Cell Tracking via Backward-and-Forward Propagation ( http://arxiv.org/abs/2007.15258v1 )

ライセンス: Link先を確認
Kazuya Nishimura, Junya Hayashida, Chenyang Wang, Dai Fei Elmer Ker, Ryoma Bise(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)を結合情報なしに「細胞検出」(すなわち細胞位置の座標)の注釈のみを用いて学習し,核染色により容易に細胞位置を得ることができる弱教師付き細胞追跡法を提案する。 まず,弱いラベルを用いて連続フレーム内の細胞を検出する共検出cnnを訓練する。 我々の重要な前提は、検出に加えて、共検出CNNが暗黙的に関連を学習することである。 そこで本研究では,共検出cnnの出力における細胞位置の対応を分析する後向き伝播法を提案する。 実験により, 共検出cnnの解析により細胞を関連付けることができた。 本手法は弱い監督しか用いていないが,本手法の性能は最先端の監督手法とほぼ同程度であった。 コードはhttps://github.com/naivete5656/WSCTBFPで公開されている。

We propose a weakly-supervised cell tracking method that can train a convolutional neural network (CNN) by using only the annotation of "cell detection" (i.e., the coordinates of cell positions) without association information, in which cell positions can be easily obtained by nuclear staining. First, we train co-detection CNN that detects cells in successive frames by using weak-labels. Our key assumption is that co-detection CNN implicitly learns association in addition to detection. To obtain the association, we propose a backward-and-forward propagation method that analyzes the correspondence of cell positions in the outputs of co-detection CNN. Experiments demonstrated that the proposed method can associate cells by analyzing co-detection CNN. Even though the method uses only weak supervision, the performance of our method was almost the same as the state-of-the-art supervised method. Code is publicly available in https://github.com/naivete5656/WSCTBFP
翻訳日:2022-11-05 14:16:24 公開日:2020-07-30
# NormalGAN:1枚のRGB-D画像から詳細な3D人間を学習する

NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image ( http://arxiv.org/abs/2007.15340v1 )

ライセンス: Link先を確認
Lizhen Wang, Xiaochen Zhao, Tao Yu, Songtao Wang, Yebin Liu(参考訳) RGB-D画像から完全かつ詳細な3次元人体を再構成する高速対角学習法であるNurmalGANを提案する。 単一のフロントビューのRGB-D画像が与えられた場合、NormalGANはフロントビューのRGB-D補正とバックビューのRGBD推論という2つのステップを実行する。 最終モデルは、単純にフロントビューとバックビューのRGB-D情報を組み合わせることで生成される。 しかし、高品質な幾何学的詳細と可視的なテクスチャを備えたRGB-D画像の背景推定は簡単ではない。 通常の地図は、通常、RGBや深度画像よりも多くの3D表面の詳細情報をエンコードします。 したがって、通常の写像から幾何学的詳細を学ぶことは、他の表現よりも優れている。 正規GANでは, 正面視深度推定性能の向上だけでなく, 後方視深度像を驚くほどの幾何学的詳細で推測するために, 正規マップで条件付き対向学習フレームワークを導入する。 さらに,テクスチャリカバリのために,改良された正規地図に基づくフロントビューRGB画像からシェーディング情報を除去し,バックビューカラー推論の品質をさらに向上させる。 テストデータセットと実際のキャプチャデータの両方に関する結果と実験は、我々のアプローチの優れた性能を示している。 消費者向けのRGB-Dセンサーがあれば、NormalGANは20fpsで完全な3D人間の再構築結果を生成することができ、テレプレゼンス、AR/VR、ゲームシナリオで便利なインタラクティブな体験を可能にする。

We propose NormalGAN, a fast adversarial learning-based method to reconstruct the complete and detailed 3D human from a single RGB-D image. Given a single front-view RGB-D image, NormalGAN performs two steps: front-view RGB-D rectification and back-view RGBD inference. The final model was then generated by simply combining the front-view and back-view RGB-D information. However, inferring backview RGB-D image with high-quality geometric details and plausible texture is not trivial. Our key observation is: Normal maps generally encode much more information of 3D surface details than RGB and depth images. Therefore, learning geometric details from normal maps is superior than other representations. In NormalGAN, an adversarial learning framework conditioned by normal maps is introduced, which is used to not only improve the front-view depth denoising performance, but also infer the back-view depth image with surprisingly geometric details. Moreover, for texture recovery, we remove shading information from the front-view RGB image based on the refined normal map, which further improves the quality of the back-view color inference. Results and experiments on both testing data set and real captured data demonstrate the superior performance of our approach. Given a consumer RGB-D sensor, NormalGAN can generate the complete and detailed 3D human reconstruction results in 20 fps, which further enables convenient interactive experiences in telepresence, AR/VR and gaming scenarios.
翻訳日:2022-11-05 14:15:59 公開日:2020-07-30
# Label or Message: テキストとオブジェクトの共起に関する大規模調査

Label or Message: A Large-Scale Experimental Survey of Texts and Objects Co-Occurrence ( http://arxiv.org/abs/2007.15381v1 )

ライセンス: Link先を確認
Koki Takeshita, Juntaro Shioyama and Seiichi Uchida(参考訳) 私たちの日常生活はテキスト情報に囲まれている。 近年,シーンテキスト検出器や認識器の大幅な改良により,テキスト情報の自動収集が可能となった。 本研究の目的は,視覚オブジェクト(本や車など)とシーンテキストとの共起を,画像データセットと最先端のシーンテキスト検出および認識装置を用いて大規模に調査することである。 特に、オブジェクトを詳細に記述するためのオブジェクトにアタッチされた「ラベル」テキストの機能に焦点を当てる。 オブジェクトとシーンテキストの共起を分析することで、ラベルテキストに関する統計を観察し、シーンテキストがオブジェクトを認識するのにどのように役立つかを理解することができ、その逆も可能である。

Our daily life is surrounded by textual information. Nowadays, the automatic collection of textual information becomes possible owing to the drastic improvement of scene text detectors and recognizer. The purpose of this paper is to conduct a large-scale survey of co-occurrence between visual objects (such as book and car) and scene texts with a large image dataset and a state-of-the-art scene text detector and recognizer. Especially, we focus on the function of "label" texts, which are attached to objects for detailing the objects. By analyzing co-occurrence between objects and scene texts, it is possible to observe the statistics about the label texts and understand how the scene texts will be useful for recognizing the objects and vice versa.
翻訳日:2022-11-05 14:15:32 公開日:2020-07-30
# いくつかのサンプルから学ぶ:調査

Learning from Few Samples: A Survey ( http://arxiv.org/abs/2007.15484v1 )

ライセンス: Link先を確認
Nihar Bendre, Hugo Terashima Mar\'in, and Peyman Najafirad(参考訳) ディープニューラルネットワークは、画像認識や画像分類など、いくつかのケースで人間より優れています。 しかし、様々な新しいカテゴリーが出現し、限られたサンプルからネットワークの学習能力を継続的に拡張する能力は依然として課題である。 メタラーニングや少数ショット学習といったテクニックは、事前の知識に基づいて新しいカテゴリやタスクを学習したり、一般化したりできる、有望な結果を示した。 本稿では,その手法と評価指標に基づいて,コンピュータビジョン領域における既存の数発メタラーニング手法について検討する。 我々は、これらの技術のための分類法を提供し、それらをデータ拡張、埋め込み、最適化、セマンティクスに基づく学習に分類する。 次に,各カテゴリで行った精巧な作業について述べ,少数のサンプルから学ぶことの難しさを解決するためのアプローチについて論じる。 最後に、一般的なベンチマークデータセットであるomniglotとminiimagenetにおけるこれらのテクニックの比較と、これらのテクニックのパフォーマンス向上の今後の方向性に関する議論と、人間を上回る最終目標に向けての議論を提供します。

Deep neural networks have been able to outperform humans in some cases like image recognition and image classification. However, with the emergence of various novel categories, the ability to continuously widen the learning capability of such networks from limited samples, still remains a challenge. Techniques like Meta-Learning and/or few-shot learning showed promising results, where they can learn or generalize to a novel category/task based on prior knowledge. In this paper, we perform a study of the existing few-shot meta-learning techniques in the computer vision domain based on their method and evaluation metrics. We provide a taxonomy for the techniques and categorize them as data-augmentation, embedding, optimization and semantics based learning for few-shot, one-shot and zero-shot settings. We then describe the seminal work done in each category and discuss their approach towards solving the predicament of learning from few samples. Lastly we provide a comparison of these techniques on the commonly used benchmark datasets: Omniglot, and MiniImagenet, along with a discussion towards the future direction of improving the performance of these techniques towards the final goal of outperforming humans.
翻訳日:2022-11-05 14:14:58 公開日:2020-07-30
# Anti)Symmetric関数の表現について

On Representing (Anti)Symmetric Functions ( http://arxiv.org/abs/2007.15298v1 )

ライセンス: Link先を確認
Marcus Hutter(参考訳) 置換不変、-同変、-共変関数、反対称関数は量子物理学、コンピュータビジョン、その他の分野において重要である。 アプリケーションは、しばしば以下のプロパティのほとんどまたは全てを必要とする。 a) そのような関数の大きなクラスは、例えばすべての連続函数を近似することができる。 b) (反)対称関数のみを表現することができる。 (c)近似を計算するための高速アルゴリズム (d)表現自体が連続または微分可能である。 (e) アーキテクチャは、データから関数を学習するのに適しています。 (Anti)対称ニューラルネットワークが最近開発され、大きな成功を収めている。 いくつかの理論的近似結果が証明されているが、特に1次元以上の粒子や、この研究が焦点を絞った反対称の場合において、多くの疑問は依然として開である。 より具体的には、対称の場合の自然な多項式近似と反対称の場合の1つの一般化されたスレーター行列式に基づく近似を導出する。 以前の超指数的かつ不連続な近似とは異なり、これらは将来の厳密な境界に対するより有望な基礎である。 我々は、対称MLPとフェルミネットの普遍性を意味する同変多層パーセプトロンの完全かつ明示的な普遍性証明を提供する。

Permutation-invariant, -equivariant, and -covariant functions and anti-symmetric functions are important in quantum physics, computer vision, and other disciplines. Applications often require most or all of the following properties: (a) a large class of such functions can be approximated, e.g. all continuous function, (b) only the (anti)symmetric functions can be represented, (c) a fast algorithm for computing the approximation, (d) the representation itself is continuous or differentiable, (e) the architecture is suitable for learning the function from data. (Anti)symmetric neural networks have recently been developed and applied with great success. A few theoretical approximation results have been proven, but many questions are still open, especially for particles in more than one dimension and the anti-symmetric case, which this work focusses on. More concretely, we derive natural polynomial approximations in the symmetric case, and approximations based on a single generalized Slater determinant in the anti-symmetric case. Unlike some previous super-exponential and discontinuous approximations, these seem a more promising basis for future tighter bounds. We provide a complete and explicit universality proof of the Equivariant MultiLayer Perceptron, which implies universality of symmetric MLPs and the FermiNet.
翻訳日:2022-11-05 14:08:21 公開日:2020-07-30
# キシログルカンオリゴ糖の1H-NMRスペクトルの同定:非パラメトリック密度推定を用いたニューラルネットワークとベイズ分類の比較研究

Identification of 1H-NMR Spectra of Xyloglucan Oligosaccharides: A Comparative Study of Artificial Neural Networks and Bayesian Classification Using Nonparametric Density Estimation ( http://arxiv.org/abs/2008.01004v1 )

ライセンス: Link先を確認
Faramarz Valafar, Homayoun Valafar, William S. York(参考訳) プロトン核磁気共鳴(1h-nmr)は化学構造解析に広く用いられている。 しかし、1h-nmrスペクトルは、コンピュータ支援によるスペクトルの自動同定を困難かつ時には不可能にする自然な収差に苦しむ。 以前の取り組みは、これらのスペクトルの機器依存または条件付き識別の実装に成功した。 本稿では,xyloglucan oligosaccharidesとして知られる複合炭水化物群について,第1回インスツルメンテッドコンピュータ支援自動同定システムについて報告する。 開発システムは、CCRC-Netと呼ばれる識別パッケージの一部としてWorld Wide Web (http://www.ccrc.uga.edu) にも実装されており、500MHzのNMR機器で記録された適切な信号と雑音の比で、これらの構造の1H-NMRスペクトルを認識することを目的としている。 このシステムは、Artificial Neural Networks(ANN)技術を使用し、1H-NMR分光における計測器と環境依存の変動に敏感である。 本稿では, annエンジンと多次元ベイズ分類器の比較結果についても述べる。

Proton nuclear magnetic resonance (1H-NMR) is a widely used tool for chemical structural analysis. However, 1H-NMR spectra suffer from natural aberrations that render computer-assisted automated identification of these spectra difficult, and at times impossible. Previous efforts have successfully implemented instrument dependent or conditional identification of these spectra. In this paper, we report the first instrument independent computer-assisted automated identification system for a group of complex carbohydrates known as the xyloglucan oligosaccharides. The developed system is also implemented on the world wide web (http://www.ccrc.uga.edu) as part of an identification package called the CCRC-Net and is intended to recognize any submitted 1H-NMR spectrum of these structures with reasonable signal-to-noise ratio, recorded on any 500 MHz NMR instrument. The system uses Artificial Neural Networks (ANNs) technology and is insensitive to the instrument and environment-dependent variations in 1H-NMR spectroscopy. In this paper, comparative results of the ANN engine versus a multidimensional Bayes' classifier is also presented.
翻訳日:2022-11-05 14:08:06 公開日:2020-07-30
# 満足度問題に対する確率選択に基づく重み付けの改善

Improving probability selecting based weights for Satisfiability Problem ( http://arxiv.org/abs/2007.15185v1 )

ライセンス: Link先を確認
Huimin Fu, Yang Xu, Jun Liu, Guanfeng Wu, Sutcliffe Geoff(参考訳) ブール満足度問題(SAT)は、人工知能コミュニティと、その解決が複雑な問題に与える影響において重要である。 近年,一様ランダム k-SAT に対する確率的局所探索 (SLS) アルゴリズム,複数の最先端 SLS アルゴリズム, Score2SAT, YalSAT, ProbSAT, CScoreSAT および1つの最先端ハイブリッドアルゴリズム, SparrowToRiss に対して,それぞれ大きなブレークスルーがなされている。 しかし、一様ランダム k-SAT と HRS の両方を効果的に解くアルゴリズムは存在しない。 本稿では,一様ランダム k-SAT と HRS に対して,SelectNTS という新しいSLSアルゴリズムを提案する。 SelectNTSはSAT問題に対する確率選択に基づく局所探索アルゴリズムの改良である。 SelectNTSのコアは、新しい節と変数選択ヒューリスティックに依存している。 新しい節選択ヒューリスティックは、新しい節重み付けスキームとバイアス付きランダムウォークを使用する。 新しい変数選択ヒューリスティックは、新しい変数重み付けスキームに基づいたcc戦略の変動を伴う確率選択戦略を用いる。 2017年と2018年のSATコンペティションでよく知られたランダムベンチマークのインスタンスとランダムに発生する問題に対する大規模な実験結果から、我々のアルゴリズムは最先端のランダムSATアルゴリズムよりも優れており、SelectNTSはランダムk-SATとHRSの両方を効果的に解くことができることを示した。

The Boolean Satisfiability problem (SAT) is important on artificial intelligence community and the impact of its solving on complex problems. Recently, great breakthroughs have been made respectively on stochastic local search (SLS) algorithms for uniform random k-SAT resulting in several state-of-the-art SLS algorithms Score2SAT, YalSAT, ProbSAT, CScoreSAT and on a hybrid algorithm for hard random SAT (HRS) resulting in one state-of-the-art hybrid algorithm SparrowToRiss. However, there is no an algorithm which can effectively solve both uniform random k-SAT and HRS. In this paper, we present a new SLS algorithm named SelectNTS for uniform random k-SAT and HRS. SelectNTS is an improved probability selecting based local search algorithm for SAT problem. The core of SelectNTS relies on new clause and variable selection heuristics. The new clause selection heuristic uses a new clause weighting scheme and a biased random walk. The new variable selection heuristic uses a probability selecting strategy with the variation of CC strategy based on a new variable weighting scheme. Extensive experimental results on the well-known random benchmarks instances from the SAT Competitions in 2017 and 2018, and on randomly generated problems, show that our algorithm outperforms state-of-the-art random SAT algorithms, and our SelectNTS can effectively solve both uniform random k-SAT and HRS.
翻訳日:2022-11-05 14:07:47 公開日:2020-07-30
# 心の理論を用いたマルチエージェント協調の改善

Improving Multi-Agent Cooperation using Theory of Mind ( http://arxiv.org/abs/2007.15703v1 )

ライセンス: Link先を確認
Terence X. Lim, Sidney Tio, Desmond C. Ong(参考訳) 人工知能の最近の進歩は、Go、Starcraft、Dota2といったゲームで人間の世界チャンピオンに勝つエージェントを生み出している。 しかし、これらのモデルのほとんどは人間のようには機能しないようで、人々は自分の行動から他人の意図を推測し、これらの推論を分類や戦略に利用する。 そこで,ベイズ的思考理論(ToM)を用いて,他者の意図を明示的に表現することで,協調ゲームの性能が向上するかを検討した。 協調的なゴールを達成するために,プレイヤーが柔軟に協力しなければならない協調ゲームにおいて,人間とトムの有無を最適な計画エージェントと比較した。 ToMエージェントを持つチームは、非ToM、ToM、人間プレイヤーなど、あらゆる種類のパートナーとのコラボレーションにおいて、非ToMエージェントよりも大幅に優れており、ToMのメリットはToMエージェントの数を増やしている。 これらの発見はより優れた協力的エージェントの設計に意味を持つ。

Recent advances in Artificial Intelligence have produced agents that can beat human world champions at games like Go, Starcraft, and Dota2. However, most of these models do not seem to play in a human-like manner: People infer others' intentions from their behaviour, and use these inferences in scheming and strategizing. Here, using a Bayesian Theory of Mind (ToM) approach, we investigated how much an explicit representation of others' intentions improves performance in a cooperative game. We compared the performance of humans playing with optimal-planning agents with and without ToM, in a cooperative game where players have to flexibly cooperate to achieve joint goals. We find that teams with ToM agents significantly outperform non-ToM agents when collaborating with all types of partners: non-ToM, ToM, as well as human players, and that the benefit of ToM increases the more ToM agents there are. These findings have implications for designing better cooperative agents.
翻訳日:2022-11-05 14:06:58 公開日:2020-07-30
# 奥行き分離可能な畳み込みを用いたカプセルネットワークの改良

An Improvement for Capsule Networks using Depthwise Separable Convolution ( http://arxiv.org/abs/2007.15167v1 )

ライセンス: Link先を確認
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) Capsule Networksは、画像の背景がそのパフォーマンスに挑戦できるという意味で、コンピュータビジョンにおいて重要な問題に直面している。 本稿では,標準畳み込みをDepthwise Separable Convolutionに置き換えることで,カプセルネットワークのアーキテクチャを改善することを提案する。 この新しい設計はモデル全体のパラメータを大幅に削減し、安定性を高め、競合精度も向上する。 さらに、提案された64\times64$のモデルが32\times32$と64\times64$の標準モデルを上回る。 さらに,インセプションV3やMobileNet V1といった最先端のトランスファー学習ネットワークを用いて,これらのモデルをディープラーニングアーキテクチャを用いて実証的に評価する。 その結果,Capsule NetworksはDeep Learningモデルと同等に動作することがわかった。 私たちの知る限りでは、これはDepthwise Separable ConvolutionをCapsule Networksに統合する最初の作業であると考えています。

Capsule Networks face a critical problem in computer vision in the sense that the image background can challenge its performance, although they learn very well on training data. In this work, we propose to improve Capsule Networks' architecture by replacing the Standard Convolution with a Depthwise Separable Convolution. This new design significantly reduces the model's total parameters while increases stability and offers competitive accuracy. In addition, the proposed model on $64\times64$ pixel images outperforms standard models on $32\times32$ and $64\times64$ pixel images. Moreover, we empirically evaluate these models with Deep Learning architectures using state-of-the-art Transfer Learning networks such as Inception V3 and MobileNet V1. The results show that Capsule Networks perform equivalently against Deep Learning models. To the best of our knowledge, we believe that this is the first work on the integration of Depthwise Separable Convolution into Capsule Networks.
翻訳日:2022-11-05 14:06:19 公開日:2020-07-30
# 炭酸塩マイクロct画像の岩石分類のための深層学習

Deep learning for lithological classification of carbonate rock micro-CT images ( http://arxiv.org/abs/2007.15693v1 )

ライセンス: Link先を確認
Carlos E. M. dos Anjos, Manuel R. V. Avila, Adna G. P. Vasconcelos, Aurea M.P. Neta, Lizianne C. Medeiros, Alexandre G. Evsukoff and Rodrigo Surmas(参考訳) 開発が進行中であることに加えて、塩分前の炭酸塩貯水池の特性は、主に地質学的特異性のために依然として課題である。 これらの課題は、画像分類タスクに人工知能アルゴリズムのような確立した技術の使用を促進する。 そこで本研究では,ブラジルの先塩性炭酸塩岩のマイクロトモグラフィ画像におけるパターン同定のための深層学習手法の応用について述べることを目的としている。 4つの畳み込みニューラルネットワークモデルが提案された。 最初のモデルは、3つの畳み込み層と、完全な連結層を含み、以下の提案のベースモデルとして使用される。 次の2つのモデルでは、最大プール層を空間的なピラミッドプール層と大域的な平均プール層に置き換える。 最後のモデルは、空間的なピラミッドプールと、最後のプール層の代わりにグローバルな平均プールの組み合わせを使用する。 すべてのモデルは、可能な限り原画像と再サイズ画像を用いて比較される。 データセットは3つの異なるクラスの6,000の画像で構成されている。 モデル性能は各画像によって個別に評価され、各サンプルに対して最も頻繁に予測されるクラスによって評価された。 精度によると、リサイズ画像で訓練されたモデル2は、最初の評価アプローチでは平均75.54%、2番目の評価では平均81.33%に達した。 深層学習アルゴリズムを用いたマイクロトモグラフィ画像の分類を非破壊的に行うことにより,ブラジルのプレ塩炭酸塩試料の分類を自動化・促進するワークフローを開発した。

In addition to the ongoing development, pre-salt carbonate reservoir characterization remains a challenge, primarily due to inherent geological particularities. These challenges stimulate the use of well-established technologies, such as artificial intelligence algorithms, for image classification tasks. Therefore, this work intends to present an application of deep learning techniques to identify patterns in Brazilian pre-salt carbonate rock microtomographic images, thus making possible lithological classification. Four convolutional neural network models were proposed. The first model includes three convolutional layers followed by fully connected layers and is used as a base model for the following proposals. In the next two models, we replace the max pooling layer with a spatial pyramid pooling and a global average pooling layer. The last model uses a combination of spatial pyramid pooling followed by global average pooling in place of the last pooling layer. All models are compared using original images, when possible, as well as resized images. The dataset consists of 6,000 images from three different classes. The model performances were evaluated by each image individually, as well as by the most frequently predicted class for each sample. According to accuracy, Model 2 trained on resized images achieved the best results, reaching an average of 75.54% for the first evaluation approach and an average of 81.33% for the second. We developed a workflow to automate and accelerate the lithology classification of Brazilian pre-salt carbonate samples by categorizing microtomographic images using deep learning algorithms in a non-destructive way.
翻訳日:2022-11-05 14:00:26 公開日:2020-07-30
# 辞書学習を用いた海洋環境における未知の浮体物体検出

Unidentified Floating Object detection in maritime environment using dictionary learning ( http://arxiv.org/abs/2007.15757v1 )

ライセンス: Link先を確認
Darshan Venkatrayappa, Agn\`es Desolneux, Jean-Michel Hubert, Josselin Manceau(参考訳) 海洋ドメインは、観測されたシーンの複雑さのため、オブジェクト検出の最も難しいシナリオの1つである。 本稿では,海上環境における未知の浮動物体を検出するための新しい手法を提案する。 提案手法は,浮動物体の視覚的外観,形状,位置を事前に知ることなく検出することができる。 映像ストリームからの入力画像は、K-SVDアルゴリズムから学習した視覚辞書を用いて復調する。 復号化画像は自己相似コンテンツからなる。 その後、原画像と無声(自己類似)画像との差である残像を抽出する。 これにより、残像はノイズと健全な構造(オブジェクト)を含む。 これらの塩分構造は、対トロリオモデルを用いて抽出することができる。 様々な海上シナリオを示すビデオでテストすることで、アルゴリズムの能力を実証する。

Maritime domain is one of the most challenging scenarios for object detection due to the complexity of the observed scene. In this article, we present a new approach to detect unidentified floating objects in the maritime environment. The proposed approach is capable of detecting floating objects without any prior knowledge of their visual appearance, shape or location. The input image from the video stream is denoised using a visual dictionary learned from a K-SVD algorithm. The denoised image is made of self-similar content. Later, we extract the residual image, which is the difference between the original image and the denoised (self-similar) image. Thus, the residual image contains noise and salient structures (objects). These salient structures can be extracted using an a contrario model. We demonstrate the capabilities of our algorithm by testing it on videos exhibiting varying maritime scenarios.
翻訳日:2022-11-05 14:00:03 公開日:2020-07-30
# FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN) based Ball-Bearing Failure Detection Method

FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN) based Ball-Bearing Failure Detection Method ( http://arxiv.org/abs/2008.00930v1 )

ライセンス: Link先を確認
Jairo Viola, YangQuan Chen and Jing Wang(参考訳) 故障検出は、予期せぬ故障イベントによるシステム性能の向上とコスト削減のために業界で採用されている。 したがって、自動故障検出システムの設計には、システムの優れたデータセットが望ましい。 しかし、産業プロセスデータセットは不均衡であり、これらのイベントのユニークさと、望ましくない振る舞いに関する情報を得るためにシステムを実行するための高コストのため、障害行動に関する情報はほとんど含まない。 そのため,自動故障検出手法の正確なトレーニングと検証は困難である。 本稿では, 深層学習技術を用いた回転軸用ボールベアリング接合部の故障検出のためのFaultFace法を提案する。 断層面法では,振動信号の2次元表現を時間周波数変換法で求めた。 得られた顔画像から、名目と故障行動の新たな顔画像を作成し、バランスのとれたデータセットを得るために、深い畳み込み型生成逆ネットワークを用いる。 このバランスされたデータセットを用いて、畳み込みニューラルネットワークを故障検出のために訓練する。 FaultFaceの方法論は他のディープラーニング手法と比較し、不均衡なデータセットによる障害検出のパフォーマンスを評価する。 その結果,フォールトフェイス手法は不均衡データセットの障害検出に優れた性能を示すことがわかった。

Failure detection is employed in the industry to improve system performance and reduce costs due to unexpected malfunction events. So, a good dataset of the system is desirable for designing an automated failure detection system. However, industrial process datasets are unbalanced and contain little information about failure behavior due to the uniqueness of these events and the high cost for running the system just to get information about the undesired behaviors. For this reason, performing correct training and validation of automated failure detection methods is challenging. This paper proposes a methodology called FaultFace for failure detection on Ball-Bearing joints for rotational shafts using deep learning techniques to create balanced datasets. The FaultFace methodology uses 2D representations of vibration signals denominated faceportraits obtained by time-frequency transformation techniques. From the obtained faceportraits, a Deep Convolutional Generative Adversarial Network is employed to produce new faceportraits of the nominal and failure behaviors to get a balanced dataset. A Convolutional Neural Network is trained for fault detection employing the balanced dataset. The FaultFace methodology is compared with other deep learning techniques to evaluate its performance in for fault detection with unbalanced datasets. Obtained results show that FaultFace methodology has a good performance for failure detection for unbalanced datasets.
翻訳日:2022-11-05 13:59:52 公開日:2020-07-30
# G-CREWE: ネットワークアライメントのための埋め込みによるグラフ補完

G-CREWE: Graph CompREssion With Embedding for Network Alignment ( http://arxiv.org/abs/2007.16208v1 )

ライセンス: Link先を確認
Kyle K. Qin, Flora D. Salim, Yongli Ren, Wei Shao, Mark Heimann, Danai Koutra(参考訳) ネットワークアライメントは、ますます大きなグラフを処理する必要がある複数のアプリケーションに役立ちます。 既存の研究は、これを最適化問題としてアプローチするか、ノード表現に基づいて類似性を計算する。 しかし、比較的大きなネットワーク間で各ノードを整列させるプロセスは、時間とリソースを消費する。 本稿では,ネットワークアライメント問題を解決するためのG-CREWE(Graph Compression with Embedding)というフレームワークを提案する。 g-creweはノード埋め込みを使って、元のネットワークが与えた細かい解像度と圧縮されたバージョンが与えた粗い解像度の2つのレベルの解像度でネットワークをアライメントし、効率的かつ効果的なネットワークアライメントを実現する。 このフレームワークはまずノードの特徴を抽出し、グラフ畳み込みネットワーク(gcn)を介してノード埋め込みを学ぶ。 ノード埋め込みは、グラフ圧縮のプロセスをガイドし、最後にアライメント性能を改善するのに役立つ。 また、G-CREWEの一部として、MERGE(Minimum dEgRee neiGhbors comprEssion)と呼ばれる新しい圧縮機構を提案し、そのトポロジ構造における一貫性を維持しながら入力ネットワークのサイズを小さくする。 すべての実ネットワークで実験した結果,本手法は,高い精度を維持しつつ,最も競争力のある既存手法の2倍以上の速度であることがわかった。

Network alignment is useful for multiple applications that require increasingly large graphs to be processed. Existing research approaches this as an optimization problem or computes the similarity based on node representations. However, the process of aligning every pair of nodes between relatively large networks is time-consuming and resource-intensive. In this paper, we propose a framework, called G-CREWE (Graph CompREssion With Embedding) to solve the network alignment problem. G-CREWE uses node embeddings to align the networks on two levels of resolution, a fine resolution given by the original network and a coarse resolution given by a compressed version, to achieve an efficient and effective network alignment. The framework first extracts node features and learns the node embedding via a Graph Convolutional Network (GCN). Then, node embedding helps to guide the process of graph compression and finally improve the alignment performance. As part of G-CREWE, we also propose a new compression mechanism called MERGE (Minimum dEgRee neiGhbors comprEssion) to reduce the size of the input networks while preserving the consistency in their topological structure. Experiments on all real networks show that our method is more than twice as fast as the most competitive existing methods while maintaining high accuracy.
翻訳日:2022-11-05 13:58:17 公開日:2020-07-30
# MPIプログラム実行時間予測への新しいアプローチ

New approach to MPI program execution time prediction ( http://arxiv.org/abs/2007.15338v1 )

ライセンス: Link先を確認
A. Chupakhin, A. Kolosov, R. Smeliansky, V. Antonenko, G. Ishelev(参考訳) ある種のコンピュータインストールにおけるmpiプログラムの実行時間予測の問題点を考察する。 この問題は、スーパーコンピュータやサーバのクラスタ(ミニデータセンターなど)など、コンピュータインストールの異種ネットワーク上で、クラウドコンピューティング環境における仮想インフラストラクチャのオーケストレーションとプロビジョニングによって生じる。 クラウドコンピューティング環境の有効性の鍵となる基準の1つは、環境内のプログラムに滞在する時間である。 この時間は、キュー内の待ち時間と、仮想インフラストラクチャの計算リソースを動的にマッピングした選択された物理コンピュータインストールの実行時間とからなる。 この問題のコンポーネントの1つは、特定のコンピュータインストールセット上でのMPIプログラムの実行時間の推定である。 これは、プログラム実行の順序と場所の適切な選択を決定するために必要である。 本稿では,プログラム実行時間予測問題に対する2つの新しいアプローチを提案する。 1つ目は、ピアソン相関係数に基づくコンピュータインストールグループに基づくものである。 2つ目は、コンピュータのインストールとmpiプログラムのベクトル表現、いわゆる埋め込みに基づいている。 この埋め込み技術は、for goods(amazon)、for articles(arxiv.org)、for videos(youtube、netflix)などのレコメンデーションシステムで積極的に使われている。 この記事では、組み込み技術が、特定のコンピュータインストールセット上でMPIプログラムの実行時間を予測するのにどのように役立つかを示す。

The problem of MPI programs execution time prediction on a certain set of computer installations is considered. This problem emerges with orchestration and provisioning a virtual infrastructure in a cloud computing environment over a heterogeneous network of computer installations: supercomputers or clusters of servers (e.g. mini data centers). One of the key criteria for the effectiveness of the cloud computing environment is the time staying by the program inside the environment. This time consists of the waiting time in the queue and the execution time on the selected physical computer installation, to which the computational resource of the virtual infrastructure is dynamically mapped. One of the components of this problem is the estimation of the MPI programs execution time on a certain set of computer installations. This is necessary to determine a proper choice of order and place for program execution. The article proposes two new approaches to the program execution time prediction problem. The first one is based on computer installations grouping based on the Pearson correlation coefficient. The second one is based on vector representations of computer installations and MPI programs, so-called embeddings. The embedding technique is actively used in recommendation systems, such as for goods (Amazon), for articles (Arxiv.org), for videos (YouTube, Netflix). The article shows how the embeddings technique helps to predict the execution time of a MPI program on a certain set of computer installations.
翻訳日:2022-11-05 13:57:54 公開日:2020-07-30
# 雑音を伴わない半空間の対向的ロバストな固有学習の複雑さ

The Complexity of Adversarially Robust Proper Learning of Halfspaces with Agnostic Noise ( http://arxiv.org/abs/2007.15220v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Pasin Manurangsi(参考訳) 分布非依存的pacモデルにおける半空間の可逆的ロバストな固有学習の計算複雑性を,$l_p$摂動に着目して検討した。 この問題に対して,計算効率のよい学習アルゴリズムとほぼ一致する計算硬度結果を与える。 我々の発見の興味深い意味は、$L_{\infty}$摂動の場合が、$2 \leq p < \infty$よりも明らかに計算が難しいことである。

We study the computational complexity of adversarially robust proper learning of halfspaces in the distribution-independent agnostic PAC model, with a focus on $L_p$ perturbations. We give a computationally efficient learning algorithm and a nearly matching computational hardness result for this problem. An interesting implication of our findings is that the $L_{\infty}$ perturbations case is provably computationally harder than the case $2 \leq p < \infty$.
翻訳日:2022-11-05 13:51:21 公開日:2020-07-30
# ユーザを意識したコンテキスト対応レコメンダシステムの開発

Evolving Context-Aware Recommender Systems With Users in Mind ( http://arxiv.org/abs/2007.15409v1 )

ライセンス: Link先を確認
Amit Livne, Eliad Shem Tov, Adir Solomon, Achiya Elyasaf, Bracha Shapira, and Lior Rokach(参考訳) コンテキスト認識レコメンダシステム(cars)は、ユーザコンテキストのセンシングと分析を適用し、パーソナライズされたサービスを提供する。 コンテキスト情報は、推奨の精度を向上させるためにセンサーから駆動することができる。 しかし,ユーザのバッテリの排出やプライバシの問題など,特定のコンテキスト情報が異なる問題を引き起こす可能性があるため,正確なレコメンデーションの生成は,ユーザの観点から有用なシステムを構成するには不十分である。 高次元の文脈情報を加えることで、モデルの次元とスパース性が増す可能性がある。 従来の研究では、ドメイン知識を用いて最適な文脈情報を選択することにより、文脈情報の量を減らすことを提案する。 別の解決策は、それをより密度の高い潜在空間に圧縮することで、推奨項目をユーザに説明できなくなり、ユーザの信頼を損なう。 本稿では,文脈情報の低次元部分集合を選択し,それらをCARSに明示的に組み込む手法を提案する。 具体的には,遺伝的アルゴリズム(ga)に基づく新しい特徴選択アルゴリズムを提案する。soma次元推論カーアルゴリズムを上回り,レコメンデーションの精度と説明性を向上し,プライバシやバッテリ消費などのユーザ側面の制御を可能にする。 さらに,複数の深層コンテキスト認識モデルを学び,スタック技術を適用することで,進化過程に沿って生成される最上位部分集合を活用し,明示的な空間に留まりながら精度を向上させる。 スマートフォンから駆動される2つの高次元コンテキスト認識データセットに対するアプローチを評価した。 実験により,提案手法がSOTA CARSモデルより優れ,透明性とユーザ説明性が向上したことを確認した。

A context-aware recommender system (CARS) applies sensing and analysis of user context to provide personalized services. The contextual information can be driven from sensors in order to improve the accuracy of the recommendations. Yet, generating accurate recommendations is not enough to constitute a useful system from the users' perspective, since certain contextual information may cause different issues, such as draining the user's battery, privacy issues, and more. Adding high-dimensional contextual information may increase both the dimensionality and sparsity of the model. Previous studies suggest reducing the amount of contextual information by selecting the most suitable contextual information using a domain knowledge. Another solution is compressing it into a denser latent space, thus disrupting the ability to explain the recommendation item to the user, and damaging users' trust. In this paper we present an approach for selecting low-dimensional subsets of the contextual information and incorporating them explicitly within CARS. Specifically, we present a novel feature-selection algorithm, based on genetic algorithms (GA), that outperforms SOTA dimensional-reduction CARS algorithms, improves the accuracy and the explainability of the recommendations, and allows for controlling user aspects, such as privacy and battery consumption. Furthermore, we exploit the top subsets that are generated along the evolutionary process, by learning multiple deep context-aware models and applying a stacking technique on them, thus improving the accuracy while remaining at the explicit space. We evaluated our approach on two high-dimensional context-aware datasets driven from smartphones. An empirical analysis of our results validates that our proposed approach outperforms SOTA CARS models while improving transparency and explainability to the user.
翻訳日:2022-11-05 13:50:59 公開日:2020-07-30
# 有限サンプル収束保証による運動量q学習

Momentum Q-learning with Finite-Sample Convergence Guarantee ( http://arxiv.org/abs/2007.15418v1 )

ライセンス: Link先を確認
Bowen Weng, Huaqing Xiong, Lin Zhao, Yingbin Liang, Wei Zhang(参考訳) 既存の研究によると、従来の最適化における運動量の概念は、q学習アルゴリズムの性能を改善するのに使うことができる。 しかし、運動量に基づくq学習アルゴリズムの有限サンプル解析は、関数近似を伴わない表ケースでのみ利用可能である。 本稿では,有限サンプル保証を持つ運動量ベースのq学習アルゴリズムのクラスを解析する。 具体的には、NesterovとPolyakのモーメントスキームを統合したMomentumQアルゴリズムを提案し、既存のモーメントベースのQ-ラーニングアルゴリズムを一般化する。 無限の状態-作用空間の場合、線形関数近似とマルコフサンプリングによる MomentumQ の収束保証を確立する。 特に、バニラQ学習よりも確実に速い有限サンプル収束率を特徴付ける。 これは運動量に基づくQ-ラーニングアルゴリズムの関数近似を用いた最初の有限サンプル解析である。 同期サンプリング下での表式の場合、ステップサイズの特別な族を選択する場合、speedyq \citep{azar2011speedy} よりもわずかに良い有限サンプル収束率が得られる。 最後に,提案するmomentumqが他のmomentumベースのq-learningアルゴリズムよりも優れていることを示す。

Existing studies indicate that momentum ideas in conventional optimization can be used to improve the performance of Q-learning algorithms. However, the finite-sample analysis for momentum-based Q-learning algorithms is only available for the tabular case without function approximations. This paper analyzes a class of momentum-based Q-learning algorithms with finite-sample guarantee. Specifically, we propose the MomentumQ algorithm, which integrates the Nesterov's and Polyak's momentum schemes, and generalizes the existing momentum-based Q-learning algorithms. For the infinite state-action space case, we establish the convergence guarantee for MomentumQ with linear function approximations and Markovian sampling. In particular, we characterize the finite-sample convergence rate which is provably faster than the vanilla Q-learning. This is the first finite-sample analysis for momentum-based Q-learning algorithms with function approximations. For the tabular case under synchronous sampling, we also obtain a finite-sample convergence rate that is slightly better than the SpeedyQ \citep{azar2011speedy} when choosing a special family of step sizes. Finally, we demonstrate through various experiments that the proposed MomentumQ outperforms other momentum-based Q-learning algorithms.
翻訳日:2022-11-05 13:50:32 公開日:2020-07-30
# 多層ReLUネットワークに関連するバナッハ空間について:関数表現、近似理論、勾配降下ダイナミクス

On the Banach spaces associated with multi-layer ReLU networks: Function representation, approximation theory and gradient descent dynamics ( http://arxiv.org/abs/2007.15623v1 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) 有限深さ$L$および無限幅のReLUニューラルネットワークに対するバナッハ空間を開発する。 空間はすべての有限連結$L$-層ネットワークと、それらの$L^2$-制限対象を自然経路ノルム上の有界下に含まれる。 このノルムの下では、$L$層ネットワークの空間内の単位球はラデマッハの複雑さが低く、したがってより好ましい一般化特性を持つ。 これらの空間の関数は次元独立な収束率を持つ多層ニューラルネットワークによって近似することができる。 この研究の鍵は、多層ニューラルネットワークによって動機付けられたある種の期待で関数を表現する新しい方法である。 この表現により、機械学習のための新しいクラスの連続モデルを定義することができる。 この方法で定義された勾配流は、関連する多層ニューラルネットワークの勾配勾配勾配ダイナミクスの自然な連続アナログであることを示す。 この連続勾配流力学の下では,経路ノルムは多項式的に増加する。

We develop Banach spaces for ReLU neural networks of finite depth $L$ and infinite width. The spaces contain all finite fully connected $L$-layer networks and their $L^2$-limiting objects under bounds on the natural path-norm. Under this norm, the unit ball in the space for $L$-layer networks has low Rademacher complexity and thus favorable generalization properties. Functions in these spaces can be approximated by multi-layer neural networks with dimension-independent convergence rates. The key to this work is a new way of representing functions in some form of expectations, motivated by multi-layer neural networks. This representation allows us to define a new class of continuous models for machine learning. We show that the gradient flow defined this way is the natural continuous analog of the gradient descent dynamics for the associated multi-layer neural networks. We show that the path-norm increases at most polynomially under this continuous gradient flow dynamics.
翻訳日:2022-11-05 13:49:29 公開日:2020-07-30
# 低温電子トモグラフィーにおける in situ macromolecule 構造分類のための領域適応

Few shot domain adaptation for in situ macromolecule structural classification in cryo-electron tomograms ( http://arxiv.org/abs/2007.15422v1 )

ライセンス: Link先を確認
Liangyong Yu, Ran Li, Xiangrui Zeng, Hongyi Wang, Jie Jin, Ge Yang, Rui Jiang, Min Xu(参考訳) モチベーション:Cryo-Electron Tomography (cryo-ET)は、マクロ分子の構造と空間的構造を可視化し、サブ分子分解において、単一細胞内の他の細胞内成分と相互作用する。 このような情報は細胞過程の正確な理解に不可欠である。 しかし,Cryo-ETにおけるマクロ分子構造の系統的認識と回復には,画像の限界とデータ量から,サブトモグラム分類が大きな課題となっている。 近年,ディープラーニングは大規模サブトモグラム分類のスループットと精度を大幅に向上させた。 しかし,ラベリングに多大な費用がかかるため,教師訓練に十分な品質アノテートされたサブトモグラムデータを得ることは困難である。 この問題に取り組むためには、すでに注釈付きデータセットを使用してトレーニングプロセスを支援することが有益である。 しかし、ソースドメインとターゲットドメインの間の画像強度分布のばらつきのため、ソースドメインのサブトモグラムでトレーニングされたモデルは、ターゲットドメインのサブトモグラムクラスを予測するのに役に立たないかもしれない。 結果:本論文では,深層学習に基づくクロスドメインサブトモグラム分類にいくつかのショットドメイン適応手法を適用する。 我々の方法の本質的な考え方は2つの部分から構成される。 1)豊富な未ラベル対象ドメインデータの分布を十分に活用し、 2) ソースドメインデータセット全体とほとんどラベル付けされていないターゲットドメインデータの相関を利用する。 シミュレーションおよび実データを用いた実験により,本手法はベースライン法と比較してクロスドメインサブトモグラム分類において有意な改善が得られた。

Motivation: Cryo-Electron Tomography (cryo-ET) visualizes structure and spatial organization of macromolecules and their interactions with other subcellular components inside single cells in the close-to-native state at sub-molecular resolution. Such information is critical for the accurate understanding of cellular processes. However, subtomogram classification remains one of the major challenges for the systematic recognition and recovery of the macromolecule structures in cryo-ET because of imaging limits and data quantity. Recently, deep learning has significantly improved the throughput and accuracy of large-scale subtomogram classification. However often it is difficult to get enough high-quality annotated subtomogram data for supervised training due to the enormous expense of labeling. To tackle this problem, it is beneficial to utilize another already annotated dataset to assist the training process. However, due to the discrepancy of image intensity distribution between source domain and target domain, the model trained on subtomograms in source domainmay perform poorly in predicting subtomogram classes in the target domain. Results: In this paper, we adapt a few shot domain adaptation method for deep learning based cross-domain subtomogram classification. The essential idea of our method consists of two parts: 1) take full advantage of the distribution of plentiful unlabeled target domain data, and 2) exploit the correlation between the whole source domain dataset and few labeled target domain data. Experiments conducted on simulated and real datasets show that our method achieves significant improvement on cross domain subtomogram classification compared with baseline methods.
翻訳日:2022-11-05 13:48:51 公開日:2020-07-30
# 深い生成モデルを書き直す

Rewriting a Deep Generative Model ( http://arxiv.org/abs/2007.15646v1 )

ライセンス: Link先を確認
David Bau, Steven Liu, Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba(参考訳) GANのような深層生成モデルは、対象の分布に関する豊富な意味的および物理的ルールのセットをモデル化することを学ぶが、これまで、そのようなルールがどのようにネットワーク内にエンコードされているか、どのようにルールを変更するのかは明らかになっていない。 本稿では、深層生成モデルによって符号化される特定のルールの操作という新しい問題設定を提案する。 この問題に対処するために,線形連想メモリとしてディープネットワークの層を操作することにより,所望のルールが変更される定式化を提案する。 我々は,連想メモリの1つのエントリを変更するアルゴリズムを導出し,いくつかの興味深い構造規則を最先端生成モデルの層内に配置し,修正できることを実証する。 生成モデルのルールを対話的に変更して望ましい効果を達成するためのユーザインタフェースを提案し,いくつかの概念実証アプリケーションを示す。 最後に,複数のデータセット上の結果から,標準的な微調整手法や編集転送アルゴリズムに対する手法の利点を示す。

A deep generative model such as a GAN learns to model a rich set of semantic and physical rules about the target distribution, but up to now, it has been obscure how such rules are encoded in the network, or how a rule could be changed. In this paper, we introduce a new problem setting: manipulation of specific rules encoded by a deep generative model. To address the problem, we propose a formulation in which the desired rule is changed by manipulating a layer of a deep network as a linear associative memory. We derive an algorithm for modifying one entry of the associative memory, and we demonstrate that several interesting structural rules can be located and modified within the layers of state-of-the-art generative models. We present a user interface to enable users to interactively change the rules of a generative model to achieve desired effects, and we show several proof-of-concept applications. Finally, results on multiple datasets demonstrate the advantage of our method against standard fine-tuning methods and edit transfer algorithms.
翻訳日:2022-11-05 13:48:24 公開日:2020-07-30
# 疑わしい行動を検出する:ニューラルネットワークによる視覚的類似性に対処する方法

Detecting Suspicious Behavior: How to Deal with Visual Similarity through Neural Networks ( http://arxiv.org/abs/2007.15235v1 )

ライセンス: Link先を確認
Guillermo A. Mart\'inez-Mascorro, Jos\'e C. Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) 明らかな行動は、セキュリティ、資産、生命、あるいは自由を脅かす可能性がある。 この振舞いには特定のパターンがなく、それを検出して定義するタスクが複雑になる。 人間の観察者でさえ、監視ビデオで不審な行動を見つけることは複雑である。 異常で不審な行動関連問題に取り組むためのいくつかの提案が文献で利用可能である。 しかし、視覚的類似度が高い異なるクラスのために、しばしば高い偽陽性率に悩まされる。 犯罪前行動方法は、犯罪発生前に疑わしい行動に焦点を当てるために犯罪委員会に関連する情報を削除する。 異なる種類の犯罪から得られたサンプルは、通常の行動サンプルと高い視覚的類似性を有する。 この問題に対処するため,我々は3次元畳み込みニューラルネットワークを実装し,異なるアプローチで学習した。 また,計算資源を最適化するためにフィルタ数パラメータの異なる値をテストした。 最後に,異なるトレーニングアプローチによる評価の比較により,監視ビデオにおける疑わしい行動検出を改善する最善の選択肢が示された。

Suspicious behavior is likely to threaten security, assets, life, or freedom. This behavior has no particular pattern, which complicates the tasks to detect it and define it. Even for human observers, it is complex to spot suspicious behavior in surveillance videos. Some proposals to tackle abnormal and suspicious behavior-related problems are available in the literature. However, they usually suffer from high false-positive rates due to different classes with high visual similarity. The Pre-Crime Behavior method removes information related to a crime commission to focus on suspicious behavior before the crime happens. The resulting samples from different types of crime have a high-visual similarity with normal-behavior samples. To address this problem, we implemented 3D Convolutional Neural Networks and trained them under different approaches. Also, we tested different values in the number-of-filter parameter to optimize computational resources. Finally, the comparison between the performance using different training approaches shows the best option to improve the suspicious behavior detection on surveillance videos.
翻訳日:2022-11-05 13:42:08 公開日:2020-07-30
# ネットワークプラニングによる階層的行動分類

Hierarchical Action Classification with Network Pruning ( http://arxiv.org/abs/2007.15244v1 )

ライセンス: Link先を確認
Mahdi Davoodikakhki, KangKang Yin(参考訳) 人間の行動分類の研究はここ数年で大きな進歩を遂げてきた。 ほとんどのディープラーニングメソッドは、ネットワークコンポーネントの追加によるパフォーマンス向上に重点を置いています。 しかし,階層分類,ネットワークプルーニング,スケルトンベース前処理などの補助機構をより有効に活用し,モデルのロバスト性と性能を向上させることを提案する。 NTU RGB+D 60, NTU RGB+D 120, Northwestern-UCLA Multiview Action 3D, UTD Multimodal Human Action Dataset の4つのテストデータセットで本手法の有効性を検証する。 実験の結果,本手法は4つのデータセットに匹敵する,あるいは優れた性能を達成できることがわかった。 特に,本手法では,NTU 120の新たなベースラインを設定している。 また,本手法を広範囲な比較とアブレーション研究により分析した。

Research on human action classification has made significant progresses in the past few years. Most deep learning methods focus on improving performance by adding more network components. We propose, however, to better utilize auxiliary mechanisms, including hierarchical classification, network pruning, and skeleton-based preprocessing, to boost the model robustness and performance. We test the effectiveness of our method on four commonly used testing datasets: NTU RGB+D 60, NTU RGB+D 120, Northwestern-UCLA Multiview Action 3D, and UTD Multimodal Human Action Dataset. Our experiments show that our method can achieve either comparable or better performance on all four datasets. In particular, our method sets up a new baseline for NTU 120, the largest dataset among the four. We also analyze our method with extensive comparisons and ablation studies.
翻訳日:2022-11-05 13:41:55 公開日:2020-07-30
# パラメータ境界によるメタラーニングによる開発ロボティクスのベイズ最適化

Bayesian Optimization for Developmental Robotics with Meta-Learning by Parameters Bounds Reduction ( http://arxiv.org/abs/2007.15375v1 )

ライセンス: Link先を確認
Maxime Petit, Emmanuel Dellandrea and Liming Chen(参考訳) ロボット工学において、メソッドやソフトウェアは通常、特定のタスク、例えば異なるオブジェクトの均質なヒープからの産業用ビンピッキングのためにハイパーパラメータの最適化を必要とする。 本稿では,長期記憶と推論モジュール(ベイジアン最適化,視覚的類似性,パラメータ境界化)に基づく開発フレームワークを提案する。 新しい最適化は、ロボットの学習として見なされ、過去の経験(エピソディクスと手続き記憶に格納されている)を利用して、ロボットが新しいものと同様のタスクで実現した最善の最適化から計算されたパラメータ境界(例えば、セマンティックメモリに格納されたオブジェクトの視覚的類似性に基づいて、類似したオブジェクトの均質なヒープからのビンピッキング)を用いて、探索空間を縮小することができる。 例えば、産業用ロボットアームのビンピッキングタスクにおいて、9つのプロ用ソフトウェア(カミド)に対する9つの連続ハイパーパラメータの制約付き最適化に直面する。 我々は8つの異なるオブジェクトに対してビンピッキングタスクを作成するためにシミュレータを使用し(シミュレーションでは7つ、実際のセットアップでは1つ、他の類似したオブジェクトから来た経験を伴わないメタラーニング)、非常に小さな最適化予算にもかかわらず、商品の成果を達成することができ、メタラーニングが使われるとき(全体の84.3%対78.9%、各最適化では30回の小さな予算で、p-value=0.036)、より良いパフォーマンスを得ることができた。

In robotics, methods and softwares usually require optimizations of hyperparameters in order to be efficient for specific tasks, for instance industrial bin-picking from homogeneous heaps of different objects. We present a developmental framework based on long-term memory and reasoning modules (Bayesian Optimisation, visual similarity and parameters bounds reduction) allowing a robot to use meta-learning mechanism increasing the efficiency of such continuous and constrained parameters optimizations. The new optimization, viewed as a learning for the robot, can take advantage of past experiences (stored in the episodic and procedural memories) to shrink the search space by using reduced parameters bounds computed from the best optimizations realized by the robot with similar tasks of the new one (e.g. bin-picking from an homogenous heap of a similar object, based on visual similarity of objects stored in the semantic memory). As example, we have confronted the system to the constrained optimizations of 9 continuous hyperparameters for a professional software (Kamido) in industrial robotic arm bin-picking tasks, a step that is needed each time to handle correctly new object. We used a simulator to create bin-picking tasks for 8 different objects (7 in simulation and one with real setup, without and with meta-learning with experiences coming from other similar objects) achieving goods results despite a very small optimization budget, with a better performance reached when meta-learning is used (84.3% vs 78.9% of success overall, with a small budget of 30 iterations for each optimization) for every object tested (p-value=0.036).
翻訳日:2022-11-05 13:41:11 公開日:2020-07-30
# MAPPER:混合動的環境における進化的強化学習によるマルチエージェントパス計画

MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments ( http://arxiv.org/abs/2007.15724v1 )

ライセンス: Link先を確認
Zuxin Liu, Baiming Chen, Hongyi Zhou, Guru Koushik, Martial Hebert, Ding Zhao(参考訳) 動的環境におけるマルチエージェントナビゲーションは、大規模なロボット群を現実世界のアプリケーションに展開する際の大きな産業的価値である。 本稿では,進化的強化学習(MAPPER)法を用いた分散部分観測可能なマルチエージェントパス計画を提案し,混合動的環境における効率的なローカルプランニングポリシーを学習する。 強化学習に基づく手法は,通常,目標条件のスパース報酬を伴う長時間ホリゾンタスクの性能低下に苦しむため,グローバルプランナーの指導のもと,長距離ナビゲーションタスクを多数の簡単なサブタスクに分解し,大規模環境におけるエージェントのパフォーマンスを向上させる。 さらに、既存のマルチエージェント計画手法では、周囲の環境の完全な情報や近くの動的エージェントの均一性を前提としている。 提案手法は,画像に基づく表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。 マルチエージェントトレーニングの安定性と性能を確保するため,大規模かつ複雑な環境に容易に拡張可能な進化的トレーニング手法を提案する。 実験の結果,MAPPERは従来の反応プランナーLRA*や最先端の学習手法と比較して,多数の非協調的動的障害に曝露した場合,高い成功率と安定した性能が得られることがわかった。

Multi-agent navigation in dynamic environments is of great industrial value when deploying a large scale fleet of robot to real-world applications. This paper proposes a decentralized partially observable multi-agent path planning with evolutionary reinforcement learning (MAPPER) method to learn an effective local planning policy in mixed dynamic environments. Reinforcement learning-based methods usually suffer performance degradation on long-horizon tasks with goal-conditioned sparse rewards, so we decompose the long-range navigation task into many easier sub-tasks under the guidance of a global planner, which increases agents' performance in large environments. Moreover, most existing multi-agent planning approaches assume either perfect information of the surrounding environment or homogeneity of nearby dynamic agents, which may not hold in practice. Our approach models dynamic obstacles' behavior with an image-based representation and trains a policy in mixed dynamic environments without homogeneity assumption. To ensure multi-agent training stability and performance, we propose an evolutionary training approach that can be easily scaled to large and complex environments. Experiments show that MAPPER is able to achieve higher success rates and more stable performance when exposed to a large number of non-cooperative dynamic obstacles compared with traditional reaction-based planner LRA* and the state-of-the-art learning-based method.
翻訳日:2022-11-05 13:40:22 公開日:2020-07-30
# Moody Learners -- 強化学習エージェントの競争行動を説明する

Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents ( http://arxiv.org/abs/2007.16045v1 )

ライセンス: Link先を確認
Pablo Barros, Ana Tanevska, Francisco Cruz, Alessandra Sciutti(参考訳) 競合する相互作用に関与する人工エージェントの意思決定プロセスの設計は難しい作業である。 競争的なシナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響を受ける。 エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。 この問題に対して \emph{Moody framework} を提案する。 我々は,競争型マルチプレイヤーシェフのハットカードゲームを用いて,一連の実験を行い,このモデルがエージェントがゲーム内の競争ダイナミクスの全体的表現をどのように得るかについて議論した。

Designing the decision-making processes of artificial agents that are involved in competitive interactions is a challenging task. In a competitive scenario, the agent does not only have a dynamic environment but also is directly affected by the opponents' actions. Observing the Q-values of the agent is usually a way of explaining its behavior, however, do not show the temporal-relation between the selected actions. We address this problem by proposing the \emph{Moody framework}. We evaluate our model by performing a series of experiments using the competitive multiplayer Chef's Hat card game and discuss how our model allows the agents' to obtain a holistic representation of the competitive dynamics within the game.
翻訳日:2022-11-05 13:39:56 公開日:2020-07-30
# 大規模異常検出:深分布時系列モデルの場合

Anomaly Detection at Scale: The Case for Deep Distributional Time Series Models ( http://arxiv.org/abs/2007.15541v1 )

ライセンス: Link先を確認
Fadhel Ayed, Lorenzo Stella, Tim Januschowski, Jan Gasthaus(参考訳) 本稿では,(マイクロ)サービスとクラウドリソースの健全性を監視するための主要なアプリケーションとして,時系列データの異常を検出する新しい手法を提案する。 提案手法では,実値や実値のベクトルからなる時系列をモデル化するのではなく,実値(あるいはベクトル)上の確率分布の時系列をモデル化する。 この確率分布の時系列拡張により、サービスへの要求によってデータが生成される一般的なシナリオに適用することができ、それによって一定時間周波数で集約される。 本手法は,ストリーミング異常検出と,数百万の時系列における異常監視のためのスケールに適応する。 合成および公開実世界のデータに対して,本手法の優れた精度を示す。 Yahoo Webscopeデータセットでは、4つのデータセットのうち3つにおいて、最先端の技術を上回り、人気のあるオープンソースの異常検出ツールを17%も上回ります。

This paper introduces a new methodology for detecting anomalies in time series data, with a primary application to monitoring the health of (micro-) services and cloud resources. The main novelty in our approach is that instead of modeling time series consisting of real values or vectors of real values, we model time series of probability distributions over real values (or vectors). This extension to time series of probability distributions allows the technique to be applied to the common scenario where the data is generated by requests coming in to a service, which is then aggregated at a fixed temporal frequency. Our method is amenable to streaming anomaly detection and scales to monitoring for anomalies on millions of time series. We show the superior accuracy of our method on synthetic and public real-world data. On the Yahoo Webscope data set, we outperform the state of the art in 3 out of 4 data sets and we show that we outperform popular open-source anomaly detection tools by up to 17% average improvement for a real-world data set.
翻訳日:2022-11-05 13:33:29 公開日:2020-07-30
# 二段階連続学習

Bilevel Continual Learning ( http://arxiv.org/abs/2007.15553v1 )

ライセンス: Link先を確認
Quang Pham, Doyen Sahoo, Chenghao Liu, Steven C.H Hoi(参考訳) 継続的学習は、オンライン学習の方法でタスクとデータのストリームから継続的に学習することを目的としている。 既存の継続学習手法の一般的な制限の一つは、連続学習の性質から、検証なしで利用可能なトレーニングデータに直接モデルを訓練することが多く、テスト時に一般化が不十分であることである。 本稿では,2段階最適化を目標とする「双レベル連続学習(Bilevel Continual Learning, BCL)」と,2段階記憶と一般化メモリを一体化して,将来の課題への効果的な知識伝達を実現し,旧タスクにおける破滅的な忘れを同時に緩和する「二段階記憶管理」戦略を新たに提案する。 連続学習ベンチマークに関する広範な実験により,提案手法の有効性が実証された。 実装はhttps://github.com/phquang/bilevel-continual-learningで利用可能です。

Continual learning aims to learn continuously from a stream of tasks and data in an online-learning fashion, being capable of exploiting what was learned previously to improve current and future tasks while still being able to perform well on the previous tasks. One common limitation of many existing continual learning methods is that they often train a model directly on all available training data without validation due to the nature of continual learning, thus suffering poor generalization at test time. In this work, we present a novel framework of continual learning named "Bilevel Continual Learning" (BCL) by unifying a {\it bilevel optimization} objective and a {\it dual memory management} strategy comprising both episodic memory and generalization memory to achieve effective knowledge transfer to future tasks and alleviate catastrophic forgetting on old tasks simultaneously. Our extensive experiments on continual learning benchmarks demonstrate the efficacy of the proposed BCL compared to many state-of-the-art methods. Our implementation is available at https://github.com/phquang/bilevel-continual-learning.
翻訳日:2022-11-05 13:33:13 公開日:2020-07-30
# $\mathcal{H}$-divergenceを超えて: Jensen-Shannonの発散によるドメイン適応理論

Beyond $\mathcal{H}$-Divergence: Domain Adaptation Theory With Jensen-Shannon Divergence ( http://arxiv.org/abs/2007.15567v1 )

ライセンス: Link先を確認
Changjian Shui, Qi Chen, Jun Wen, Fan Zhou, Christian Gagn\'e, Boyu Wang(参考訳) 広範に学習された経験的ドメイン逆行訓練と,$\mathcal{H}$-divergence に基づく理論上の相似性を明らかにする。 具体的には、$\mathcal{H}$-divergence は、ドメイン対逆トレーニングの最適化目的である Jensen-Shannon divergence と等価ではない。 この目的を達成するために,jensen-shannon 同時発散に基づく上・下目標リスク境界を直接証明し,新たな理論的枠組みを確立する。 さらに,境界と条件シフトの両方向上界を導出する。 このフレームワークは、異なる移動学習問題に対して固有の柔軟性を示し、$\mathcal{H}$-divergence-based theory が適用できない様々なシナリオで使用できる。 アルゴリズムの観点から,本理論はセマンティック条件マッチング,特徴境界マッチング,ラベル境界シフト補正の原則を統一した一般的なガイドラインを可能にする。 各原則にアルゴリズムを採用し、実際のデータセット上でフレームワークの利点を実証的に検証します。

We reveal the incoherence between the widely-adopted empirical domain adversarial training and its generally-assumed theoretical counterpart based on $\mathcal{H}$-divergence. Concretely, we find that $\mathcal{H}$-divergence is not equivalent to Jensen-Shannon divergence, the optimization objective in domain adversarial training. To this end, we establish a new theoretical framework by directly proving the upper and lower target risk bounds based on joint distributional Jensen-Shannon divergence. We further derive bi-directional upper bounds for marginal and conditional shifts. Our framework exhibits inherent flexibilities for different transfer learning problems, which is usable for various scenarios where $\mathcal{H}$-divergence-based theory fails to adapt. From an algorithmic perspective, our theory enables a generic guideline unifying principles of semantic conditional matching, feature marginal matching, and label marginal shift correction. We employ algorithms for each principle and empirically validate the benefits of our framework on real datasets.
翻訳日:2022-11-05 13:32:55 公開日:2020-07-30
# クロスバリデーション誤差に対するラデマッハ上界とlassoへの応用

Rademacher upper bounds for cross-validation errors with an application to the lasso ( http://arxiv.org/abs/2007.15598v1 )

ライセンス: Link先を確認
Ning Xu, Timothy C.G. Fisher, Jian Hong(参考訳) K$-fold cross-validation(K$-CV)エラーに対する一般的な上限を確立し、多くのK$-CVベースの推定器や学習アルゴリズムに適用できる。 モデルのラデマッハ複雑性とエラープロセスのorlicz-$\psi_{\nu}$ノルムに基づいて、cv誤差上限はライトテールとヘビーテールの誤差分布の両方に適用される。 また,独立ブロッキング技術を用いて,CVエラー上限を$\beta$-mixingデータに拡張する。 CVエラー上限をK$-CVアルゴリズムで計算するためのPythonパッケージ(\texttt{CVbound}, \url{https://github.com/isaac2math})を提供する。 シミュレーションでは,lassoを例として,異なるパラメータ設定とランダム種において上界が密接かつ安定であることを実証する。 ラッソのCV誤差を正確に制限するだけでなく、新しい上界の最小化器を可変選択の基準として使うことができる。 CV-エラー最小化器と比較して、上界の最小値に応じてラッソのペナルティパラメータをチューニングすると、関連する変数をすべて保持するよりスパースでより安定したモデルが得られる。

We establish a general upper bound for $K$-fold cross-validation ($K$-CV) errors that can be adapted to many $K$-CV-based estimators and learning algorithms. Based on Rademacher complexity of the model and the Orlicz-$\Psi_{\nu}$ norm of the error process, the CV error upper bound applies to both light-tail and heavy-tail error distributions. We also extend the CV error upper bound to $\beta$-mixing data using the technique of independent blocking. We provide a Python package (\texttt{CVbound}, \url{https://github.com/isaac2math}) for computing the CV error upper bound in $K$-CV-based algorithms. Using the lasso as an example, we demonstrate in simulations that the upper bounds are tight and stable across different parameter settings and random seeds. As well as accurately bounding the CV errors for the lasso, the minimizer of the new upper bounds can be used as a criterion for variable selection. Compared with the CV-error minimizer, simulations show that tuning the lasso penalty parameter according to the minimizer of the upper bound yields a more sparse and more stable model that retains all of the relevant variables.
翻訳日:2022-11-05 13:32:34 公開日:2020-07-30
# 構造化正規化を用いた階層時系列の予測と人工ニューラルネットワークへの応用

Prediction of hierarchical time series using structured regularization and its application to artificial neural networks ( http://arxiv.org/abs/2007.15159v1 )

ライセンス: Link先を確認
Tomokaze Shiratori and Ken Kobayashi and Yuichi Takano(参考訳) 本稿では,各上位時系列を適切な下位時系列を和らげて計算する階層時系列の予測について論じる。 このような階層的時系列の予測はコヒーレントでなければならないので、上位級時系列の予測は対応する下位級時系列の予測の総和と等しい。 従来のコヒーレント予測の方法は、最初の計算ベース(一貫性のない)予測と、その固有の階層構造に基づいたそれらの予測の調整の2つのフェーズで構成される。 時系列予測を改善するため,両位相を同時に完備する構造化正則化手法を提案する。 提案手法はボトムレベル時系列の予測モデルに基づいて構成された正規化項を用いて予測モデルに上位レベル予測を組み込む。 また,時系列予測のためのニューラルネットワークへの応用に特化したバックプロパゲーションアルゴリズムを開発した。 合成および実世界のデータセットを用いた実験結果は,予測精度と計算効率の観点から,本手法の優位性を示す。

This paper discusses the prediction of hierarchical time series, where each upper-level time series is calculated by summing appropriate lower-level time series. Forecasts for such hierarchical time series should be coherent, meaning that the forecast for an upper-level time series equals the sum of forecasts for corresponding lower-level time series. Previous methods for making coherent forecasts consist of two phases: first computing base (incoherent) forecasts and then reconciling those forecasts based on their inherent hierarchical structure. With the aim of improving time series predictions, we propose a structured regularization method for completing both phases simultaneously. The proposed method is based on a prediction model for bottom-level time series and uses a structured regularization term to incorporate upper-level forecasts into the prediction model. We also develop a backpropagation algorithm specialized for application of our method to artificial neural networks for time series prediction. Experimental results using synthetic and real-world datasets demonstrate the superiority of our method in terms of prediction accuracy and computational efficiency.
翻訳日:2022-11-05 13:24:24 公開日:2020-07-30
# 構造化連続スパルシフィケーションによる高効率深層ネットワークの構築

Growing Efficient Deep Networks by Structured Continuous Sparsification ( http://arxiv.org/abs/2007.15353v1 )

ライセンス: Link先を確認
Xin Yuan, Pedro Savarese, Michael Maire(参考訳) 我々は、精度とスパーシティの目標を原則的に組み合わせて、アーキテクチャを動的に調整しながら、ディープネットワークをトレーニングする手法を開発した。 従来のプルーニング手法とは異なり、離散的ネットワーク構造の最適化を段階的に連続的に緩和し、スパースサブネットワークをサンプリングし、効率的なディープネットワークを成長およびプルーニング方法で訓練する。 CIFAR-10, ImageNet, PASCAL VOC, Penn Treebank, 画像分類とセマンティックセグメンテーションの畳み込みモデル, および言語モデリングの繰り返しモデルを用いた大規模な実験により, 我々のトレーニングスキームは, 競合するプルーニング法よりも小さく精度の高い効率的なネットワークが得られることを示した。

We develop an approach to training deep networks while dynamically adjusting their architecture, driven by a principled combination of accuracy and sparsity objectives. Unlike conventional pruning approaches, our method adopts a gradual continuous relaxation of discrete network structure optimization and then samples sparse subnetworks, enabling efficient deep networks to be trained in a growing and pruning manner. Extensive experiments across CIFAR-10, ImageNet, PASCAL VOC, and Penn Treebank, with convolutional models for image classification and semantic segmentation, and recurrent models for language modeling, show that our training scheme yields efficient networks that are smaller and more accurate than those produced by competing pruning methods.
翻訳日:2022-11-05 13:23:06 公開日:2020-07-30
# ディープラーニングの損失に関するトップk分類精度のトレードオフ

Trade-offs in Top-k Classification Accuracies on Losses for Deep Learning ( http://arxiv.org/abs/2007.15359v1 )

ライセンス: Link先を確認
Azusa Sawada, Eiji Kaneko, Kazutoshi Sagi(参考訳) 本稿では,トップk分類精度におけるトレードオフが深い傾きの損失と新しいトップk損失の提案に与える影響を実験的に分析する。 一般的なクロスエントロピー(CE)は、無限のトレーニングデータやモデル複雑さなしでトップk予測を最適化することが保証されていない。 CEはトップ1予測を最適化するためにトップ1精度を犠牲にしていつトップ1精度を向上させるかを明らかにする。 我々の新しい損失は、基本的にceを1つのクラスとして時間的トップkクラスをグループ化することで修正する。 堅牢な決定境界を得るためには、通常のCEから損失への適応的な遷移を導入し、トップk遷移損失と呼ぶ。 実験の結果,CEは必ずしもトップk予測を学習する最善の選択肢ではないことがわかった。 まず, 合成データセットにおけるtop-1とtop-k(=2)のトレードオフについて検討し, 最適top-1予測を表すモデルに対する複雑なデータ分布が存在する場合のtop-k予測の最適化においてceの失敗を見出す。 第2に、ディープラーニングにおけるtop-5予測をターゲットとしたcifar-100データセットのtop-kアキュラリティを比較する。 CEはトップ1の精度で最善を尽くすが、トップ5の精度では、CEよりも損失が良い。 また,10より大きいkではceよりも高いtop-k accuraciesが得られている。 その結果、損失でトレーニングされたResNet18モデルは、k=25の候補で99%の精度に達し、CEの候補数よりも8。

This paper presents an experimental analysis about trade-offs in top-k classification accuracies on losses for deep leaning and proposal of a novel top-k loss. Commonly-used cross entropy (CE) is not guaranteed to optimize top-k prediction without infinite training data and model complexities. The objective is to clarify when CE sacrifices top-k accuracies to optimize top-1 prediction, and to design loss that improve top-k accuracy under such conditions. Our novel loss is basically CE modified by grouping temporal top-k classes as a single class. To obtain a robust decision boundary, we introduce an adaptive transition from normal CE to our loss, and thus call it top-k transition loss. It is demonstrated that CE is not always the best choice to learn top-k prediction in our experiments. First, we explore trade-offs between top-1 and top-k (=2) accuracies on synthetic datasets, and find a failure of CE in optimizing top-k prediction when we have complex data distribution for a given model to represent optimal top-1 prediction. Second, we compare top-k accuracies on CIFAR-100 dataset targeting top-5 prediction in deep learning. While CE performs the best in top-1 accuracy, in top-5 accuracy our loss performs better than CE except using one experimental setup. Moreover, our loss has been found to provide better top-k accuracies compared to CE at k larger than 10. As a result, a ResNet18 model trained with our loss reaches 99 % accuracy with k=25 candidates, which is a smaller candidate number than that of CE by 8.
翻訳日:2022-11-05 13:22:50 公開日:2020-07-30
# 出力感度によるディープニューラルネットワークの一般化比較

Generalization Comparison of Deep Neural Networks via Output Sensitivity ( http://arxiv.org/abs/2007.15378v1 )

ライセンス: Link先を確認
Mahsa Forouzesh, Farnood Salehi and Patrick Thiran(参考訳) 最近の研究は、最先端のディープラーニングモデルで使用される技術の性能改善にいくつかの洞察をもたらしたが、それらの一般化特性を理解するためにはさらなる作業が必要である。 我々は損失関数を入力に対する出力の感度にリンクすることでこの問題に光を当てた。 損失関数のバイアス分散分解における出力感度と分散の関係は,ラベル付きデータを必要とせず,ネットワークの一般化性能を比較するための指標として感度を用いることが示唆される。 その結果,(1)広帯域ではなくディープネットワークを用いた場合,(2)完全連結層を付加せずにベースライン分類器に畳み込み層を追加する場合,(3)バッチ正規化,ドロップアウト,最大プールの適用,(4)パラメータ初期化手法の適用など,モデルの一般化性能を向上させる一般的な手法を適用することにより感度が低下することが判明した。

Although recent works have brought some insights into the performance improvement of techniques used in state-of-the-art deep-learning models, more work is needed to understand their generalization properties. We shed light on this matter by linking the loss function to the output's sensitivity to its input. We find a rather strong empirical relation between the output sensitivity and the variance in the bias-variance decomposition of the loss function, which hints on using sensitivity as a metric for comparing the generalization performance of networks, without requiring labeled data. We find that sensitivity is decreased by applying popular methods which improve the generalization performance of the model, such as (1) using a deep network rather than a wide one, (2) adding convolutional layers to baseline classifiers instead of adding fully-connected layers, (3) using batch normalization, dropout and max-pooling, and (4) applying parameter initialization techniques.
翻訳日:2022-11-05 13:22:20 公開日:2020-07-30
# ニューラルODEソリューションはいつより優れたODEになるか?

When are Neural ODE Solutions Proper ODEs? ( http://arxiv.org/abs/2007.15386v1 )

ライセンス: Link先を確認
Katharina Ott, Prateek Katiyar, Philipp Hennig, Michael Tiemann(参考訳) 最近提案されたNeural Ordinary Differential Equation(ODE)フレームワークの重要な魅力は、離散的残留ニューラルネットワークの連続的な拡張を提供することである。 しかし、ここで示すように、訓練されたNeural ODEモデルは、実際にトレーニング中に使用される特定の数値法に依存している。 訓練されたモデルがODEから生成されたフローであるはずなら、性能を損なうことなく、同じまたはより小さい数値誤差で別の数値解法を選択することができる。 過大な離散化を伴う解法をトレーニングが頼りにすると、等値あるいは小値の数値誤差を持つ解法を用いてテストすると、精度は急落する。 このような場合、ベクトル場と数値法の組み合わせはODEから生成されたフローと解釈することはできず、これは明らかにNeural ODEの概念の致命的な崩壊をもたらす。 しかしながら、トレーニングが有効な ODE ベクトル場が得られるような重要なステップサイズが存在することを観察する。 本稿では,学習中のodeソルバの動作を監視し,そのステップサイズを適応させ,計算コストを不要に増加させることなく有効なodeを保証する手法を提案する。 この適応アルゴリズムを2つの共通ベンチマークデータセットと合成データセットで検証する。 さらに、基礎となるODEが直接分類タスクを生成する新しい合成データセットを導入する。

A key appeal of the recently proposed Neural Ordinary Differential Equation(ODE) framework is that it seems to provide a continuous-time extension of discrete residual neural networks. As we show herein, though, trained Neural ODE models actually depend on the specific numerical method used during training. If the trained model is supposed to be a flow generated from an ODE, it should be possible to choose another numerical solver with equal or smaller numerical error without loss of performance. We observe that if training relies on a solver with overly coarse discretization, then testing with another solver of equal or smaller numerical error results in a sharp drop in accuracy. In such cases, the combination of vector field and numerical method cannot be interpreted as a flow generated from an ODE, which arguably poses a fatal breakdown of the Neural ODE concept. We observe, however, that there exists a critical step size beyond which the training yields a valid ODE vector field. We propose a method that monitors the behavior of the ODE solver during training to adapt its step size, aiming to ensure a valid ODE without unnecessarily increasing computational cost. We verify this adaption algorithm on two common bench mark datasets as well as a synthetic dataset. Furthermore, we introduce a novel synthetic dataset in which the underlying ODE directly generates a classification task.
翻訳日:2022-11-05 13:22:02 公開日:2020-07-30
# 大規模降雨マップの支持ベクトルマシン分類による地域降雨予測

Regional Rainfall Prediction Using Support Vector Machine Classification of Large-Scale Precipitation Maps ( http://arxiv.org/abs/2007.15404v1 )

ライセンス: Link先を確認
Eslam A.Hussein, Mehrdad Ghaziasgar, Christopher Thron(参考訳) 降雨予測は、多かれ少なかれ雨が生み出す潜在的な社会的・経済的影響を予測するのに役立つ。 本研究は,1~30日前の降雨予測に対するクラスベースアプローチについて検討する。 この研究では、アメリカ大陸の毎日の降雨マップに基づいて地域的な予測を行い、降雨量は光か無か、中等か、大雨の3段階に定量化された。 地図エリアをカバーする5\times5$グリッドの3つの正方形に対応する3つのリージョンが選択された。 これら3つの地域での降雨予測は, 前日降雨マップ画像の連続配列に適用したサポートベクターマシン(SVM)に基づいて, 最大30日前の降雨予測を行った。 その結果, 格子内角方形の予測は, 単純な未学習分類器による予測よりも精度が低いことがわかった。 しかし、中心領域のSVM予測は、訓練されていない分類器と同様に、他の2つの領域よりも優れていた。 大規模降水マップに適用されたSVMが地域降雨予測に有用な情報が得られるという証拠はいくつかあるが、落とし穴を避けるには注意が必要であると結論付けている。

Rainfall prediction helps planners anticipate potential social and economic impacts produced by too much or too little rain. This research investigates a class-based approach to rainfall prediction from 1-30 days in advance. The study made regional predictions based on sequences of daily rainfall maps of the continental US, with rainfall quantized at 3 levels: light or no rain; moderate; and heavy rain. Three regions were selected, corresponding to three squares from a $5\times5$ grid covering the map area. Rainfall predictions up to 30 days ahead for these three regions were based on a support vector machine (SVM) applied to consecutive sequences of prior daily rainfall map images. The results show that predictions for corner squares in the grid were less accurate than predictions obtained by a simple untrained classifier. However, SVM predictions for a central region outperformed the other two regions, as well as the untrained classifier. We conclude that there is some evidence that SVMs applied to large-scale precipitation maps can under some conditions give useful information for predicting regional rainfall, but care must be taken to avoid pitfall
翻訳日:2022-11-05 13:21:26 公開日:2020-07-30
# DeepPeep: コンパクトDNNのアーキテクチャを解読する設計ラミフィケーションの爆発

DeepPeep: Exploiting Design Ramifications to Decipher the Architecture of Compact DNNs ( http://arxiv.org/abs/2007.15248v1 )

ライセンス: Link先を確認
Nandan Kumar Jha, Sparsh Mittal, Binod Kumar, and Govardhan Mattela(参考訳) ディープニューラルネットワーク(DNN)の顕著な予測性能は、前例のないスケールとスコープのサービスドメインに採用されている。 しかし、DNNの普及と商業化が進み、知的財産権(IP)保護の重要性が強調されている。 クラウドベースのサービスにおいて、信頼できないアクセラレータ上でDNN計算をアウトソーシングする傾向が高まっているため、IP保護を保証する技術開発が求められている。 DNNの設計手法とハイパーパラメータは重要な情報であり、それらを漏洩させることで組織に大きな経済的損失をもたらす可能性がある。 さらに、DNNアーキテクチャの知識は、敵が入力を摂動し、予測を変更する敵攻撃の成功確率を高めることができる。 本研究では,設計手法の特徴を生かした2段階攻撃手法"DeepPeep"を考案し,コンパクトDNNにおけるビルディングブロックのアーキテクチャをリバースエンジニアリングする。 P100 と P4000 GPU における "DeepPeep" の有効性を示す。 さらに,DeepPeep攻撃によるIP盗難防止のためのインテリジェントな設計操作戦略を提案し,"Secure MobileNet-V1"を提案する。 興味深いことに、vanilla mobilenet-v1と比較して、secure mobilenet-v1は推論レイテンシの大幅な削減(約60%)と、非常に低いメモリと計算オーバーヘッドを備えた予測パフォーマンスの改善(約2%)を提供する。

The remarkable predictive performance of deep neural networks (DNNs) has led to their adoption in service domains of unprecedented scale and scope. However, the widespread adoption and growing commercialization of DNNs have underscored the importance of intellectual property (IP) protection. Devising techniques to ensure IP protection has become necessary due to the increasing trend of outsourcing the DNN computations on the untrusted accelerators in cloud-based services. The design methodologies and hyper-parameters of DNNs are crucial information, and leaking them may cause massive economic loss to the organization. Furthermore, the knowledge of DNN's architecture can increase the success probability of an adversarial attack where an adversary perturbs the inputs and alter the prediction. In this work, we devise a two-stage attack methodology "DeepPeep" which exploits the distinctive characteristics of design methodologies to reverse-engineer the architecture of building blocks in compact DNNs. We show the efficacy of "DeepPeep" on P100 and P4000 GPUs. Additionally, we propose intelligent design maneuvering strategies for thwarting IP theft through the DeepPeep attack and proposed "Secure MobileNet-V1". Interestingly, compared to vanilla MobileNet-V1, secure MobileNet-V1 provides a significant reduction in inference latency ($\approx$60%) and improvement in predictive performance ($\approx$2%) with very-low memory and computation overheads.
翻訳日:2022-11-05 13:14:35 公開日:2020-07-30
# 差分進化に基づくブラックボックス逆サンプル生成

Black-box Adversarial Sample Generation Based on Differential Evolution ( http://arxiv.org/abs/2007.15310v1 )

ライセンス: Link先を確認
Junyu Lin, Lei Xu, Yingqi Liu, Xiangyu Zhang(参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出、音声処理、機械翻訳など、さまざまな日常的なタスクで使用されている。 しかし、DNNが堅牢性の問題に悩まされることは知られており、DNNの誤動作につながる敵のサンプルと呼ばれる混乱した入力が知られている。 本稿では,DNNモデルのロバスト性をテストするため,Black-box Momentum Iterative Fast Gradient Sign Method (BMI-FGSM) と呼ばれるブラックボックス手法を提案する。 この手法はターゲットDNNの構造や重量に関する知識を一切必要としない。 グラデーションなどのモデル内部情報へのアクセスを必要とする既存のホワイトボックス試験手法と比較して、微分進化を通じて勾配を近似し、近似勾配を用いて対向サンプルを構築する。 実験結果から,本手法は誤分類の引き金となる敵のサンプル生成に100%成功し,特定のターゲット出力ラベルに誤分類を誘発するサンプル生成に95%以上成功した。 また、摂動距離が向上し、転送性も向上する。 最先端のブラックボックス技術と比較すると,より効率的である。 さらに、商用のAliyun API上でテストを行い、限られたクエリでその誤動作をトリガーし、実世界のブラックボックス攻撃の可能性を示す。

Deep Neural Networks (DNNs) are being used in various daily tasks such as object detection, speech processing, and machine translation. However, it is known that DNNs suffer from robustness problems -- perturbed inputs called adversarial samples leading to misbehaviors of DNNs. In this paper, we propose a black-box technique called Black-box Momentum Iterative Fast Gradient Sign Method (BMI-FGSM) to test the robustness of DNN models. The technique does not require any knowledge of the structure or weights of the target DNN. Compared to existing white-box testing techniques that require accessing model internal information such as gradients, our technique approximates gradients through Differential Evolution and uses approximated gradients to construct adversarial samples. Experimental results show that our technique can achieve 100% success in generating adversarial samples to trigger misclassification, and over 95% success in generating samples to trigger misclassification to a specific target output label. It also demonstrates better perturbation distance and better transferability. Compared to the state-of-the-art black-box technique, our technique is more efficient. Furthermore, we conduct testing on the commercial Aliyun API and successfully trigger its misbehavior within a limited number of queries, demonstrating the feasibility of real-world black-box attack.
翻訳日:2022-11-05 13:13:53 公開日:2020-07-30
# 並列・自己組織化・合意型ニューラルネットワーク

Parallel, Self Organizing, Consensus Neural Networks ( http://arxiv.org/abs/2008.02067v1 )

ライセンス: Link先を確認
Homayoun Valafar, Faramarz Valafar, Okan Ersoy(参考訳) 新しいニューラルネットワークアーキテクチャ(pscnn)が開発され、ネットワークの性能と速度が向上した。 アーキテクチャは、自己組織化のような以前のモデルの利点をすべて備えており、入力並列性やコンセンサスに基づく意思決定といった他の優れた特性を持っている。 このネットワークの特性から、通常のシーケンシャルマシンと同様にパラレルプロセッサ(Ncube Machine)の実装に関して研究された。 アーキテクチャはパフォーマンスを最大化するために独自のモジュールを自己組織化する。 完全に並列であるため、リコールと学習の手順はいずれも非常に高速である。 ネットワークの性能は、言語知覚、リモートセンシング、二分論理(排他的論理)の問題におけるバックプロパゲーションネットワークと比較された。 PSCNNは全症例において優れた成績を示した。

A new neural network architecture (PSCNN) is developed to improve performance and speed of such networks. The architecture has all the advantages of the previous models such as self-organization and possesses some other superior characteristics such as input parallelism and decision making based on consensus. Due to the properties of this network, it was studied with respect to implementation on a Parallel Processor (Ncube Machine) as well as a regular sequential machine. The architecture self organizes its own modules in a way to maximize performance. Since it is completely parallel, both recall and learning procedures are very fast. The performance of the network was compared to the Backpropagation networks in problems of language perception, remote sensing and binary logic (Exclusive-Or). PSCNN showed superior performance in all cases studied.
翻訳日:2022-11-05 13:13:31 公開日:2020-07-30