このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210526となっている論文です。

PDF登録状況(公開日: 20210526)

TitleAuthorsAbstract論文公表日・翻訳日
# メモリによる量子進化が時間的局所的にどのように生成されるか

How quantum evolution with memory is generated in a time-local way ( http://arxiv.org/abs/2002.07232v2 )

ライセンス: Link先を確認
Konstantin Nestmann, Valentin Bruch, Maarten Rolf Wegewijs(参考訳) 開量子系の力学に広く用いられるが、異なる2つのアプローチは、それぞれ中島-ズワンツィヒ方程式と時間畳み込みのない量子マスター方程式である。 どちらも強いメモリ効果を持つ同一の量子進化を記述するが、第一は時間非ローカルメモリカーネル $\mathcal{k}$ を使い、第二は時間-ローカルジェネレータ $\mathcal{g}$ を使って同じことを達成する。 ここでは、これらの2つは単純な固定点関係によって接続されていることを示す: $\mathcal{G} = \hat{\mathcal{K}}[\mathcal{G}]$。 これにより、時間進化の2つの全く異なる計算方法の間の非自明な関係を抽出し、それらの強みを組み合わせることができる。 まず,多種多様な進化に対して非摂動的かつ完全に正のマルコフ近似を可能にする定常発生器について論じる。 このジェネレータは、メモリカーネルの低周波限界と同等ではなく、非ゼロ特性周波数で「サンプリング」できることが示される。 これは既存のマルコフ近似戦略における周波数依存性と半群分解の微妙な役割を明らかにする。 第二に、固定点方程式は時間非局所量子マスター方程式の時間領域勾配/モヤル展開を合計し、メモリ効果の生成に対する非摂動的洞察を与える。 最後に、固定点関係は、与えられたメモリカーネルから定常および過渡発生器の両方の直接反復的な数値計算を可能にすることを示す。 非半群近似は各反復ステップにおいて初期的かつ漸近的に正確であることを制約する。

Two widely used but distinct approaches to the dynamics of open quantum systems are the Nakajima-Zwanzig and time-convolutionless quantum master equation, respectively. Although both describe identical quantum evolutions with strong memory effects, the first uses a time-nonlocal memory kernel $\mathcal{K}$, whereas the second achieves the same using a time-local generator $\mathcal{G}$. Here we show that the two are connected by a simple yet general fixed-point relation: $\mathcal{G} = \hat{\mathcal{K}}[\mathcal{G}]$. This allows one to extract nontrivial relations between the two completely different ways of computing the time-evolution and combine their strengths. We first discuss the stationary generator, which enables a Markov approximation that is both nonperturbative and completely positive for a large class of evolutions. We show that this generator is not equal to the low-frequency limit of the memory kernel, but additionally "samples" it at nonzero characteristic frequencies. This clarifies the subtle roles of frequency dependence and semigroup factorization in existing Markov approximation strategies. Second, we prove that the fixed-point equation sums up the time-domain gradient / Moyal expansion for the time-nonlocal quantum master equation, providing nonperturbative insight into the generation of memory effects. Finally, we show that the fixed-point relation enables a direct iterative numerical computation of both the stationary and the transient generator from a given memory kernel. For the transient generator this produces non-semigroup approximations which are constrained to be both initially and asymptotically accurate at each iteration step.
翻訳日:2023-06-03 09:17:14 公開日:2021-05-26
# 絡み合いと非局所性の相互作用の理解--絡み合い理論の新分野の動機付けと展開

Understanding the interplay of entanglement and nonlocality: motivating and developing a new branch of entanglement theory ( http://arxiv.org/abs/2004.09194v2 )

ライセンス: Link先を確認
David Schmid, Thomas C. Fraser, Ravi Kunjwal, Ana Belen Sainz, Elie Wolfe, Robert W. Spekkens(参考訳) 資源を定量化するための標準的なアプローチは、資源のどの操作が自由に利用できるかを決定し、自由操作の下での変換可能性の関係によって引き起こされる資源上の部分順序を推定することである。 興味のある資源が量子状態(すなわち絡み合い)に具現化された相関の非古典性であれば、自由操作の適切な選択は局所的操作と古典的通信(locc)である、という仮定が一般的である。 ここでは自由操作の異なる選択、すなわち局所操作と共有ランダム性(losr)の研究を提唱し、ベル実験における状態の絡み合いと相関関係の非局所性の間の相互作用を理解する上での有用性を実証する。 具体的には ロスのパラダイムが (i)非局所性の異常を解決し、部分的絡み合い状態は最大絡み合い状態よりも非局所性を示す。 (ii) 従来の概念の病理学的特徴を欠いた真の多元的絡み合いと非局所性の新たな概念を包含する。 (iii)事前結果を一般化し単純化する絡み合った状態の自己テストについて、資源理論的な説明が可能となる。 その過程で、losr下での純粋なエンタングル状態間の変換性に必要な十分条件に関する基礎的な結果が導出され、二成分純粋な状態の触媒化の不可能性など、それらの結果のいくつかを強調する。 資源理論の観点からも、ベルの不等式に違反しない混合絡み状態が存在することは驚きでも問題でもない。 本研究は,新しい絡み合い理論の分野としてのLOSR絡み合いの研究を動機づけるものである。

A standard approach to quantifying resources is to determine which operations on the resources are freely available, and to deduce the partial order over resources that is induced by the relation of convertibility under the free operations. If the resource of interest is the nonclassicality of the correlations embodied in a quantum state, i.e., entanglement, then the common assumption is that the appropriate choice of free operations is Local Operations and Classical Communication (LOCC). We here advocate for the study of a different choice of free operations, namely, Local Operations and Shared Randomness (LOSR), and demonstrate its utility in understanding the interplay between the entanglement of states and the nonlocality of the correlations in Bell experiments. Specifically, we show that the LOSR paradigm (i) provides a resolution of the anomalies of nonlocality, wherein partially entangled states exhibit more nonlocality than maximally entangled states, (ii) entails new notions of genuine multipartite entanglement and nonlocality that are free of the pathological features of the conventional notions, and (iii) makes possible a resource-theoretic account of the self-testing of entangled states which generalizes and simplifies prior results. Along the way, we derive some fundamental results concerning the necessary and sufficient conditions for convertibility between pure entangled states under LOSR and highlight some of their consequences, such as the impossibility of catalysis for bipartite pure states. The resource-theoretic perspective also clarifies why it is neither surprising nor problematic that there are mixed entangled states which do not violate any Bell inequality. Our results motivate the study of LOSR-entanglement as a new branch of entanglement theory.
翻訳日:2023-05-22 22:55:29 公開日:2021-05-26
# TFDエントロピー演算子からの絡み合いエントロピー

Entanglement Entropy from TFD Entropy Operator ( http://arxiv.org/abs/2007.05365v2 )

ライセンス: Link先を確認
M. Dias, Daniel L. Nedel and C. R. Senise Jr(参考訳) 本研究では, 絡み合いエントロピーを計算する正準法を提案する。 トーラスで定義される2次元共形理論に対して、モジュライ空間の選択により、TFDの典型的なエントロピー作用素は、セグメントで定義される自由度とその補集合のエントロピーを与えることができる。 この方法では、R'enyiエントロピーから解析的連続性を作る必要はなく、フォン・ノイマンエントロピーはエントロピー作用素の期待値から直接計算される。 また,絡み合いエントロピーの進化モデルを提案し,時間とともに線形に成長することを示す。

In this work, a canonical method to compute entanglement entropy is proposed. We show that for two-dimensional conformal theories defined in a torus, a choice of moduli space allows the typical entropy operator of the TFD to provide the entanglement entropy of the degrees of freedom defined in a segment and their complement. In this procedure, it is not necessary to make an analytic continuation from the R\'enyi entropy and the von Neumann entanglement entropy is calculated directly from the expected value of an entanglement entropy operator. We also propose a model for the evolution of the entanglement entropy and show that it grows linearly with time.
翻訳日:2023-05-10 21:08:01 公開日:2021-05-26
# 状態・測定誤差による直接状態測定

Direct state measurements under state-preparation-and-measurement errors ( http://arxiv.org/abs/2007.05294v2 )

ライセンス: Link先を確認
Kieu Quang Tuan, Hung Q. Nguyen, Le Bin Ho(参考訳) 直接状態測定(DSM)は、量子状態の波動関数を直接取得できるトモグラフィー法である。 しかし、DSMに関する現在の研究の欠点は、ノイズの多い量子システムへのアクセスを提供していないことである。 そこで本研究では,spm(state-preparation-and-measurement)誤差のdsm測定精度について検討し,そのギャップを埋めようとする。 我々は、様々な構成の量子制御測定フレームワークを操作し、それらの効率を比較する。 このようなSPAM誤差の下では、測定すべき状態は真の状態からわずかに逸脱し、ポストセレクションプロセスにおける測定誤差はトモグラフィでは精度が低下する。 我々の研究は、SPAMエラートモグラフィーの信頼性の高いツールを提供し、現在の量子技術に対する緊急需要の理解と解決に寄与する可能性がある。

Direct state measurement (DSM) is a tomography method that allows for retrieving quantum states' wave functions directly. However, a shortcoming of current studies on the DSM is that it does not provide access to noisy quantum systems. Here, we attempt to fill the gap by investigating the DSM measurement precision that undergoes the state-preparation-and-measurement (SPAM) errors. We manipulate a quantum controlled measurement framework with various configurations and compare the efficiency between them. Under such SPAM errors, the state to be measured lightly deviates from the true state, and the measurement error in the postselection process results in less accurate in the tomography. Our study could provide a reliable tool for SPAM errors tomography and contribute to understanding and resolving an urgent demand for current quantum technologies.
翻訳日:2023-05-10 17:24:15 公開日:2021-05-26
# 量子回路を用いた量子シン・ゴルドン模型

The quantum sine-Gordon model with quantum circuits ( http://arxiv.org/abs/2007.06874v2 )

ライセンス: Link先を確認
Ananda Roy, Dirk Schuricht, Johannes Hauschild, Frank Pollmann, and Hubert Saleur(参考訳) アナログ量子シミュレーションは、複雑な量子システムの研究において欠かせない技術である可能性がある。 本研究では,ジョセフソン接合から構築した1次元,忠実,アナログ,量子電子回路シミュレータを,積分可能な量子場理論のパラダイムモデルである1+1の時空次元の量子シン・ゴルドン(qsg)モデルに対して数値的に検討する。 密度行列再正規化群法を用いて格子モデルを解析し,既存のbethe ansatz計算を用いた数値計算結果のベンチマークを行った。 さらに,頂点演算子の2点相関関数に対する解析的フォームファクター計算を行い,数値計算と密接に一致する。 最後に,qSGモデルの絡み合いスペクトルを計算する。 我々は,量子XYZ連鎖に基づく積分格子規則化法を用いて得られた格子規則化法と比較し,量子回路モデルがXYZ連鎖と比較してスケールの補正に弱いことを示す。 qsgモデルを実現するために必要なパラメータが、現代の超伝導回路技術でアクセス可能であることを数値的に証明し、強相互作用量子場理論をシミュレートする後者のプラットフォームの実現可能性に対するさらなる信頼性を提供する。

Analog quantum simulation has the potential to be an indispensable technique in the investigation of complex quantum systems. In this work, we numerically investigate a one-dimensional, faithful, analog, quantum electronic circuit simulator built out of Josephson junctions for one of the paradigmatic models of an integrable quantum field theory: the quantum sine-Gordon (qSG) model in 1+1 space-time dimensions. We analyze the lattice model using the density matrix renormalization group technique and benchmark our numerical results with existing Bethe ansatz computations. Furthermore, we perform analytical form-factor calculations for the two-point correlation function of vertex operators, which closely agree with our numerical computations. Finally, we compute the entanglement spectrum of the qSG model. We compare our results with those obtained using the integrable lattice-regularization based on the quantum XYZ chain and show that the quantum circuit model is less susceptible to corrections to scaling compared to the XYZ chain. We provide numerical evidence that the parameters required to realize the qSG model are accessible with modern-day superconducting circuit technology, thus providing additional credence towards the viability of the latter platform for simulating strongly interacting quantum field theories.
翻訳日:2023-05-10 02:18:25 公開日:2021-05-26
# 非平衡量子多体系におけるエネルギーゆらぎへの容易アクセス

Easy access to energy fluctuations in non-equilibrium quantum many-body systems ( http://arxiv.org/abs/2010.03752v3 )

ライセンス: Link先を確認
Marcela Herrera, John P. S. Peterson, Roberto M. Serra, and Irene D'Amico(参考訳) 特に、多体量子系を平衡から外すプロトコルの終端における単純な測定により、遷移確率の関連する双確率行列を得るためのエネルギーゆらぎの研究方法を提案するための理論的および実験的試みを組み合わせる。 このスキームは、実験データの適切な分析を保証するために数値最適化と統合され、物理的確率に繋がる。 核磁気共鳴系における2つの相互作用スピン1/2系を用いて実験的に評価する。 局所的な測度のみを用いて、多体系における詳細な揺らぎ定理の実験的検証を可能にする遷移確率の回復方法を示す。

We combine theoretical and experimental efforts to propose a method for studying energy fluctuations, in particular, to obtain the related bi-stochastic matrix of transition probabilities by means of simple measurements at the end of a protocol that drives a many-body quantum system out-of-equilibrium. This scheme is integrated with numerical optimizations in order to ensure a proper analysis of the experimental data, leading to physical probabilities. The method is experimentally evaluated employing a two interacting spin-1/2 system in a nuclear magnetic resonance setup. We show how to recover the transition probabilities using only local measures which enables an experimental verification of the detailed fluctuation theorem in a many-body system driven out-of-equilibrium.
翻訳日:2023-04-29 15:49:31 公開日:2021-05-26
# 測定不適合性のデバイス非依存定量化

Device-independent quantification of measurement incompatibility ( http://arxiv.org/abs/2010.08456v2 )

ライセンス: Link先を確認
Shin-Liang Chen, Nikolai Miklin, Costantino Budroni, Yueh-Nan Chen(参考訳) 不整合な測定、すなわち同時に実施できない測定は、非局所相関を観測するために必要である。 例えば、ベルの不等式に一定の違反を達成するために測定がいかに非互換であるかを問うのは自然である。 本研究では,ベル非局所性と測定不整合の定量化との直接的関係について述べる。 これは、非互換および真多成分非互換測定のための定量化子を含む。 本手法は,システム次元(準デバイス非依存アプローチ)と射影計測の制約を含め,非可算量化器の境界を改良し,準備・測定シナリオを含むように,直接一般化する。

Incompatible measurements, i.e., measurements that cannot be simultaneously performed, are necessary to observe nonlocal correlations. It is natural to ask, e.g., how incompatible the measurements have to be to achieve a certain violation of a Bell inequality. In this work, we provide the direct link between Bell nonlocality and the quantification of measurement incompatibility. This includes quantifiers for both incompatible and genuine-multipartite incompatible measurements. Our method straightforwardly generalizes to include constraints on the system's dimension (semi-device-independent approach) and on projective measurements, providing improved bounds on incompatibility quantifiers, and to include the prepare-and-measure scenario.
翻訳日:2023-04-28 22:02:05 公開日:2021-05-26
# 有界帯域を持つ時間最適量子変換

Time-optimal quantum transformations with bounded bandwidth ( http://arxiv.org/abs/2011.11963v3 )

ライセンス: Link先を確認
Dan Allan, Niklas H\"ornedal, and Ole Andersson(参考訳) 本稿では、量子系を観測可能が最低平均値を仮定する状態に変換するのに要する時間について、量子速度制限(quantum speed limit)とも呼ばれるシャープな下界を導出する。 当初、この系は観測可能量に対して不整合状態にあり、帯域幅が一様有界なハミルトニアンを持つフォン・ノイマン方程式に従って状態が進化すると仮定する。 変換時間は観測可能なスペクトルと初期状態の固有値スペクトルと関連する固有空間の相対的な星座に複雑に依存する。 したがって、量子速度制限を見つける問題は、異なる戦略を必要とする異なるケースに分けられる。 我々は,多くのケースにおいて量子速度制限を導出し,複雑なケースを管理可能なものに分解する手法を同時に開発する。 導出は組合せ幾何学的手法と微分幾何学的技法の両方を含む。 マルチパートシステムについても検討し、部品間の相関が変換時間を短縮できることを示す。 最後のセクションでは、量子バッテリーからエネルギーを抽出できるパワーの上限を得るのに量子速度の限界を用いる。

In this paper, we derive sharp lower bounds, also known as quantum speed limits, for the time it takes to transform a quantum system into a state such that an observable assumes its lowest average value. We assume that the system is initially in an incoherent state relative to the observable and that the state evolves according to a von Neumann equation with a Hamiltonian whose bandwidth is uniformly bounded. The transformation time depends intricately on the observable's and the initial state's eigenvalue spectrum and the relative constellation of the associated eigenspaces. The problem of finding quantum speed limits consequently divides into different cases requiring different strategies. We derive quantum speed limits in a large number of cases, and we simultaneously develop a method to break down complex cases into manageable ones. The derivations involve both combinatorial and differential geometric techniques. We also study multipartite systems and show that allowing correlations between the parts can speed up the transformation time. In a final section, we use the quantum speed limits to obtain upper bounds on the power with which energy can be extracted from quantum batteries.
翻訳日:2023-04-23 06:38:04 公開日:2021-05-26
# スペクトル多モード集積su(1,1)干渉計

Spectrally multimode integrated SU(1,1) interferometer ( http://arxiv.org/abs/2012.03751v2 )

ライセンス: Link先を確認
Alessandro Ferreri, Matteo Santandrea, Michael Stefszky, Kai H. Luo, Harald Herrmann, Christine Silberhorn and Polina R. Sharapova(参考訳) 非線形su(1,1)干渉計は、古典境界以下の位相感度を持つスペクトル工学と精密測定のための有益で有望なツールである。 このような干渉計は、バルクおよびファイバベースの構成でうまく実現されている。 しかし、急速に発展する統合技術は高い効率性を提供し、フットプリントを小さくし、量子化オンチップ干渉法への道を開く。 本研究では,様々な統合プラットフォームに適用可能なマルチモードsu(1,1)干渉計の統合アーキテクチャを理論的に実現した。 この干渉計は、2つの光子源間の偏光変換器を含み、連続波(cw)ポンプを利用する。 チタニルリン酸カリウム (KTP) を基材として, この構成は古典限界以下の出力領域と超感度領域においてほぼ完全な破壊的干渉をもたらすことを示した。 さらに、位相感度と限界特性における単一モードと高多重モードSU(1,1)干渉計の基本的な相違について論じる。 最後に, 様々な検出手法を用いて, 出力放射をフィルタし, 異なるシード状態を用いて位相感度を向上させる方法について検討した。

Nonlinear SU(1,1) interferometers are fruitful and promising tools for spectral engineering and precise measurements with phase sensitivity below the classical bound. Such interferometers have been successfully realized in bulk and fiber-based configurations. However, rapidly developing integrated technologies provide higher efficiencies, smaller footprints, and pave the way to quantum-enhanced on-chip interferometry. In this work, we theoretically realised an integrated architecture of the multimode SU(1,1) interferometer which can be applied to various integrated platforms. The presented interferometer includes a polarization converter between two photon sources and utilizes a continuous-wave (CW) pump. Based on the potassium titanyl phosphate (KTP) platform, we show that this configuration results in almost perfect destructive interference at the output and supersensitivity regions below the classical limit. In addition, we discuss the fundamental difference between single-mode and highly multimode SU(1,1) interferometers in the properties of phase sensitivity and its limits. Finally, we explore how to improve the phase sensitivity by filtering the output radiation and using different seeding states in different modes with various detection strategies.
翻訳日:2023-04-21 21:04:49 公開日:2021-05-26
# 機械学習による量子ドットの2x2配列の自動仮想電圧抽出

Automatic virtual voltage extraction of a 2x2 array of quantum dots with machine learning ( http://arxiv.org/abs/2012.03685v2 )

ライセンス: Link先を確認
Giovanni A. Oakes, Jingyu Duan, John J. L. Morton, Alpha Lee, Charles G. Smith and M. Fernando Gonzalez Zalba(参考訳) 量子ドット内のスピン量子ビットは、表面コードを実装する必要のある近接結合で密度の高い2次元配列を作製する可能性から、フォールトトレラント量子コンピューティングにとって魅力的なプラットフォームである。 しかし、表面ゲート電極が近接しているため、クロスカップリングキャパシタンスが大きくなり、それぞれの量子ドットを独立に制御することが困難になる。 量子ドットの数を増やすことでキャリブレーションプロセスの複雑さが増すため、ヒューリスティックに行うことは現実的ではない。 工業グレードのシリコン量子ドットバイリニアアレイの最近の実証から着想を得て、2x2配列の量子ドットにおけるクロスキャパシタンスの効果を2xN配列に直接拡張できる理論的枠組みを開発した。 この方法は、複数の2次元電荷安定図における異なる電荷遷移のゲート電圧空間の勾配を抽出し、システムの仮想電圧を決定する。 プロセスを自動化するために,安定図のハフ変換から勾配を抽出するために回帰モデルのアンサンブルを訓練し,2x2量子ドットアレイのシミュレーションおよび実験データを用いてアルゴリズムを検証する。 本手法は, クロスキャパシタンスの効果を緩和するための完全自動化ツールであり, 大規模2線形アレイにおけるqds間のクロスキャパシタンス変動の研究に使用できる。

Spin qubits in quantum dots are a compelling platform for fault-tolerant quantum computing due to the potential to fabricate dense two-dimensional arrays with nearest neighbour couplings, a requirement to implement the surface code. However, due to the proximity of the surface gate electrodes, cross-coupling capacitances can be substantial, making it difficult to control each quantum dot independently. Increasing the number of quantum dots increases the complexity of the calibration process, which becomes impractical to do heuristically. Inspired by recent demonstrations of industrial-grade silicon quantum dot bilinear arrays, we develop a theoretical framework to mitigate the effect of cross-capacitances in 2x2 arrays of quantum dots, that can be directly extended to 2xN arrays. The method is based on extracting the gradients in gate voltage space of different charge transitions in multiple two-dimensional charge stability diagrams to determine the system's virtual voltages. To automate the process, we train an ensemble of regression models to extract the gradients from a Hough transformation of a stability diagram and validate the algorithm on simulated and experimental data of a 2x2 quantum dot array. Our method provides a completely automated tool to mitigate the effect of cross capacitances, which could be used to study cross capacitance variability across QDs in large bilinear arrays
翻訳日:2023-04-21 21:03:47 公開日:2021-05-26
# 魅力的な相互作用を持つ不規則Bose-Hubbardモデルの位相

The phases of the disordered Bose-Hubbard model with attractive interactions ( http://arxiv.org/abs/2101.06032v3 )

ライセンス: Link先を確認
Olli Mansikkam\"aki, Sami Laine, and Matti Silveri(参考訳) 1次元不規則ボース・ハバード模型の量子基底相を、超伝導量子ビットや低温原子の連鎖によって実現される魅力的な相互作用で研究する。摂動理論と正確な対角化を用いて位相図をマッピングする。反発ボース・ハバードモデルと比較すると、量子基底状態の挙動は劇的に異なる。 オンサイトエネルギーの強い障害では、全てのボゾンは反発モデルのボースガラスの挙動とは対照的に、1つの部位の近傍に局在する。 弱い障害では、ホッピングによって基底状態は超流動状態またはw状態となり、これは全てのボソンが1つの場所を占有する状態の多点および多粒子の絡み合った重ね合わせである。 ボソン数の増加に伴い, 障害に対するW相の堅牢性は低下することが示された。

We study the quantum ground state phases of the one-dimensional disordered Bose--Hubbard model with attractive interactions, realized by a chain of superconducting transmon qubits or cold atoms. We map the phase diagram using perturbation theory and exact diagonalization. Compared to the repulsive Bose--Hubbard model, the quantum ground state behavior is dramatically different. At strong disorder of the on-site energies, all the bosons localize into the vicinity of a single site, contrary to the Bose glass behavior of the repulsive model. At weak disorder, depending on hopping, the ground state is either superfluid or a W state, which is a multi-site and multi-particle entangled superposition of states where all the bosons occupy a single site. We show that the robustness of the W phase against disorder diminishes as the total number of bosons increases.
翻訳日:2023-04-15 03:03:21 公開日:2021-05-26
# web ベースプラットフォームにおける学習管理システムのキャンバス採用評価と受容

Canvas Adoption Assessment and Acceptance of the Learning Management System on a Web-Based Platform ( http://arxiv.org/abs/2101.12344v2 )

ライセンス: Link先を確認
Julius G. Garcia, Mark Gil T. Gangan, Marita N. Tolentino, Marc Ligas, Shirley D. Moraga and Amelia A. Pasilan(参考訳) 非プロプライエタリでプロプライエタリな学習管理システムの獲得は、ユーザにリッチな学習体験を提供し、教育提供者の間で関心を高めた。 本研究では,canvasを新しい学習管理システムとして採用し,東大eラーニングプログラムにおけるwebベースのプラットフォームとしての可能性を評価することを目的とした。 本研究は,Canvasを用いた学生の習熟度も評価した。 雪球採取により,東大学生214名を対象に調査を行った。 モデルの妥当性を検討するために探索的因子分析を行った。 確認ファクトリ分析は,探索因子分析の結果を検証し,構成物の相関を解析するために用いられた。 構造方程式モデルを用いて構成物間の関係を解析し, 適合指標を用いて評価した。 技術受容モデルを用いて, 使いやすさ, 有用性, 態度を認識できる構成物について検討した。 本研究は, Web プラットフォームにおけるCanvas の利用に対する学生の有用性と態度が,Canvas の利用意図に直接的かつ有意な影響を及ぼすことを明らかにした。 学生は,使いやすさが有用性に有意な影響を与えているが,キャンバス使用に対する態度に有意な影響は認められていない。 学生の技術成熟度と学習管理システムの事前経験は、類似技術の適応に対する彼らの信念に影響を与えた。 キャンバスの潜在的な利点と学生の採用に影響する要因を探求することは、教育指令を満たすための質の高い教育へのアクセスを増幅する。 さらに、教育機関は、教育・学習プロセスに関する技術移転を探求すべきである。

The acquisition of non-proprietary and proprietary learning management system has provided a richer learning experience to users and raised interest among education providers. This study aims to assess student adoption of Canvas as a new learning management system and its potential as a web-based platform in the e-learning programme of the University of the East. This study also assessed student readiness in using Canvas. A survey was administered to 214 students of the University of the East through snowball sampling. An Exploratory Factor Analysis was conducted to examine the validity of the model. A Confirmatory Factory Analysis was used to validate the Exploratory Factor Analysis results and analyse the correlation of the constructs. A Structural Equation Modelling was conducted to analyse the relationships between the constructs, which were evaluated using fit indices. Adopted from the Technology Acceptance Model, the constructs perceived ease of use, perceived usefulness, and attitude were studied. The study reveals that students perceived usefulness and attitude towards using Canvas in a web-based platform have direct and significant effects on their intention to use Canvas. The students perceived ease of use has a significant effect on their perceived usefulness but has no significant effects on their attitude towards the use of Canvas. The students technological maturity and prior experience in using a learning management system influenced their beliefs on the adaptation of similar technology. Exploring the potential benefits of Canvas and factors affecting the students adoption amplifies access to quality education to fulfil educational directives. Furthermore, educational institutions should explore technological migration related to teaching and learning processes.
翻訳日:2023-04-13 09:05:20 公開日:2021-05-26
# グラフェンに基づく電気双極子分子からなる長期及び潜在的にスケーラブルな量子ビット

The long-coherent-time and potentially scalable qubits composed of electric dipolar molecules based on graphene ( http://arxiv.org/abs/2103.07263v2 )

ライセンス: Link先を確認
Yong-Yi Huang(参考訳) 電気双極子分子からなる新しい種類の量子ビットを提案する。 外部均一電場中の電気双極子分子は単純な調和振動を受け、その2つの最低エネルギーレベルに属する量子状態は量子ビットの状態 |0>,|1> として作用する。 量子ビットの励起状態は非常に長い平均寿命を持ち、中性原子と同じように電気双極子分子の量子ビットを操作することで量子計算を行うことができる。 量子ビットが量子計算に使用されるとき、双極子モーメントの向きは外部の電場に沿って調和的に振動し、方向を変えることはない:電場に沿って、あるいは電場に対して、量子ビットはグラフェン系で大規模に製造できる。

We propose a new kind of qubits composed of electric dipolar molecules. The electric dipolar molecules in an external uniform electric field will take simple harmonic oscillations, whose quantum states belonging to the two lowest energy levels act as the states |0>,|1> of a qubit. The qubits' excited states have a very long mean life time more than 70ms.We can perform quantum computations by manipulating the qubits of electric dipolar molecules just like those of neutral atoms. When the qubits are used for quantum computations, the dipolar moments' orientations will harmonically oscillate along an external electric field and they will not change the directions: along or against the electric field, so the qubits can be large-scalely manufactured in graphene system.
翻訳日:2023-04-08 10:45:30 公開日:2021-05-26
# 自由電子上の光子の量子統計のインプリント

Imprinting the quantum statistics of photons on free electrons ( http://arxiv.org/abs/2105.03105v3 )

ライセンス: Link先を確認
Raphael Dahan, Alexey Gorlach, Urs Haeusler, Aviv Karnieli, Ori Eyal, Peyman Yousefi, Mordechai Segev, Ady Arie, Gadi Eisenstein, Peter Hommelhoff, and Ido Kaminer(参考訳) 自由電子と光の基本的な相互作用は、古典物理学と量子物理学の両方の基礎であり、自由電子加速、放射源、電子顕微鏡で応用されている。 しかし、今日まで、自由電子相互作用を含む全ての実験は、その量子の性質を無視して、光を古典波として記述することで完全に説明されている。 ここでは、自由電子-光相互作用における光子の量子統計効果を観測する。 我々は、ポアソニアンから超ポアソニアンへの連続的な相互作用と、ボーアの対応原理(量子ウォークから自由電子エネルギーラダー上の古典的なランダムウォークへの遷移)の驚くべき表現を明らかにした。 電子ウォーカーは非破壊的な量子検出のプローブとして働き、光子相関の ${g^{(2)} (0)}$ と高次の ${g^{(n)} (0)}$ を測定する。 従来の量子光学検出器とは異なり、電子は光子との絡み合った結合状態に進化することで、量子弱測定と射影測定の両方を行うことができる。 本研究は, 自由電子系非破壊量子トモグラフィーによる光の量子トモグラフィーを示唆し, アト秒時空間分解能顕微鏡とサブA空間分解能顕微鏡を組み合わせるための重要なステップとなる。

The fundamental interaction between free electrons and light stands at the base of both classical and quantum physics, with applications in free-electron acceleration, radiation sources, and electron microscopy. Yet, to this day, all experiments involving free-electron light interactions are fully explained by describing the light as a classical wave, disregarding its quantum nature. Here, we observe quantum statistics effects of photons on free-electron-light interactions. We demonstrate interactions passing continuously from Poissonian to super-Poissonian and up to thermal statistics, unveiling a surprising manifestation of Bohr's Correspondence Principle: the transition from quantum walk to classical random walk on the free-electron energy ladder. The electron walker serves as the probe in non-destructive quantum detection, measuring the photon-correlation ${g^{(2)} (0)}$ and higher-orders ${g^{(n)} (0)}$. Unlike conventional quantum-optical detectors, the electron can perform both quantum weak measurements and projective measurements by evolving into an entangled joint-state with the photons. Our findings suggest free-electron-based non-destructive quantum tomography of light, and constitute an important step towards combined attosecond-temporal and sub-A-spatial resolution microscopy.
翻訳日:2023-04-01 05:43:11 公開日:2021-05-26
# 情報完全POVMを用いたシャドウトモグラフィ

Informationally complete POVM-based shadow tomography ( http://arxiv.org/abs/2105.05992v2 )

ライセンス: Link先を確認
Atithi Acharya, Siddhartha Saha, and Anirvan M. Sengupta(参考訳) 最近導入されたシャドウトモグラフィープロトコルは、未知の量子状態の多くのターゲット関数を予測するために量子状態の古典的なシャドウを使用する。 フル量子状態トモグラフィーとは異なり、シャドウトモグラフィーは高次混合状態に対する密度行列の正確な回復を主張していない。 しかし、そのようなプロトコルは、適度な数の量子測定に基づいて、高い信頼性で複数の正確な予測を行う。 Huang、Kueng、Preskill arXiv:2002.08953によって提案された、特定のランダムなユニタリ変換を実行するための追加の回路を必要とする。 本稿では,これらの変換は避けるが,任意の情報完全POVMを用いて量子状態に対するkビット相関関数を確実に計算可能であることを示す。 また、このアプリケーションでは、huangなどの平均手順の中央値を必要としないことも示しています。 最後に,相関関数の計算と低次密度行列の再構成の忠実性との対比について述べる。

Recently introduced shadow tomography protocols use classical shadows of quantum states to predict many target functions of an unknown quantum state. Unlike full quantum state tomography, shadow tomography does not insist on accurate recovery of the density matrix for high rank mixed states. Yet, such a protocol makes multiple accurate predictions with high confidence, based on a moderate number of quantum measurements. One particular influential algorithm, proposed by Huang, Kueng, and Preskill arXiv:2002.08953, requires additional circuits for performing certain random unitary transformations. In this paper, we avoid these transformations but employ an arbitrary informationally complete POVM and show that such a procedure can compute k-bit correlation functions for quantum states reliably. We also show that, for this application, we do not need the median of means procedure of Huang et al. Finally, we discuss the contrast between the computation of correlation functions and fidelity of reconstruction of low rank density matrices.
翻訳日:2023-03-31 08:36:00 公開日:2021-05-26
# $\cal PT$-symmetric 理論における $\eta$-inner 積の違いの定量化

To quantify the difference of $\eta$-inner products in $\cal PT$-symmetric theory ( http://arxiv.org/abs/2105.09278v2 )

ライセンス: Link先を確認
Minyi Huang, Guijun Zhang(参考訳) 本稿では、典型的な連続2次元の $\cal PT$-symmetric Hamiltonian を検討し、$\eta$-inner 積の違いを定量的に示す2つの異なるアプローチを提案する。 ハミルトニアンの連続性にもかかわらず、$\eta$-inner積はある意味で連続ではない。 破壊された$\eta$-inner積と破壊されていない$\cal PT$-symmetricの差は低い有界であることが示されている。 さらに、そのような性質は不確実性関係につながる可能性がある。

In this paper, we consider a typical continuous two dimensional $\cal PT$-symmetric Hamiltonian and propose two different approaches to quantitatively show the difference between the $\eta$-inner products. Despite the continuity of Hamiltonian, the $\eta$-inner product is not continuous in some sense. It is shown that the difference between the $\eta$-inner products of broken and unbroken $\cal PT$-symmetry is lower bounded. Moreover, such a property can lead to an uncertainty relation.
翻訳日:2023-03-30 11:42:30 公開日:2021-05-26
# 長距離関連騒音の圧縮センシング計測

Compressed Sensing Measurement of Long-Range Correlated Noise ( http://arxiv.org/abs/2105.12589v1 )

ライセンス: Link先を確認
Alireza Seif, Mohammad Hafezi and Yi-Kai Liu(参考訳) 長距離相関誤差は、NISQ(ノイズの多い中間スケール量子)デバイスの性能とフォールトトレラント量子計算に大きく影響する。 これらの誤差のキャリブレーションと誤り訂正によってこれらの装置の性能を向上させること、結果の正しい解釈を保証することが重要である。 s<<n(n-1)/2, nが合計量子ビット数である場合, s対の量子ビットは誤りと相関している場合が多い) のみを仮定して, 2量子ビット相関強調誤りを検出する圧縮センシング法を提案する。 特に,システム内の任意の2量子ビット間の長距離相関を検出できる(すなわち,相関は幾何学的に局所的であるように制限されない)。 提案手法は,m = O(s log n)測定設定に限り,凸最適化に基づく効率的な古典的後処理を必要とする。 さらに、m = O(s log^4(n)) の場合、この手法はノイズに強く、サンプル複雑性 O(max(n,s)^2 log^4(n)) を持ち、サンプル複雑性 O(n^3) を持つ従来の方法と比較できる。 したがって, s < o(n^(3/2) / log^2(n)) の場合, 相関が十分にスパースする場合に有利である。 提案手法は,小システムサイズでの数値シミュレーションでも良好に動作し,SPAM(State-preparation-and-measurement)誤差に耐性がある。 本手法の主な要素は,グリーンベルガー・ホルン・ザイリンガー状態(GHZ状態)を量子ビットのランダムな部分集合上に生成し,その崩壊率を高精度に測定する,新しいタイプの圧縮センシング測定である。

Long-range correlated errors can severely impact the performance of NISQ (noisy intermediate-scale quantum) devices, and fault-tolerant quantum computation. Characterizing these errors is important for improving the performance of these devices, via calibration and error correction, and to ensure correct interpretation of the results. We propose a compressed sensing method for detecting two-qubit correlated dephasing errors, assuming only that the correlations are sparse (i.e., at most s pairs of qubits have correlated errors, where s << n(n-1)/2, and n is the total number of qubits). In particular, our method can detect long-range correlations between any two qubits in the system (i.e., the correlations are not restricted to be geometrically local). Our method is highly scalable: it requires as few as m = O(s log n) measurement settings, and efficient classical postprocessing based on convex optimization. In addition, when m = O(s log^4(n)), our method is highly robust to noise, and has sample complexity O(max(n,s)^2 log^4(n)), which can be compared to conventional methods that have sample complexity O(n^3). Thus, our method is advantageous when the correlations are sufficiently sparse, that is, when s < O(n^(3/2) / log^2(n)). Our method also performs well in numerical simulations on small system sizes, and has some resistance to state-preparation-and-measurement (SPAM) errors. The key ingredient in our method is a new type of compressed sensing measurement, which works by preparing entangled Greenberger-Horne-Zeilinger states (GHZ states) on random subsets of qubits, and measuring their decay rates with high precision.
翻訳日:2023-03-29 20:32:55 公開日:2021-05-26
# ゲーマー プライベートネットワークのパフォーマンス予測。 機械学習とニューラルネットを用いた生データからデータウェアハウスへ

Gamers Private Network Performance Forecasting. From Raw Data to the Data Warehouse with Machine Learning and Neural Nets ( http://arxiv.org/abs/2107.00998v1 )

ライセンス: Link先を確認
Albert Wong, Chun Yin Chiu, Ga\'etan Hains, Jack Humphrey, Hans Fuhrmann, Youry Khmelevsky, Chris Mazur(参考訳) Gamers Private Network (GPN) は、標準的なインターネット接続よりも信頼性が高くレイテンシの低いオンラインビデオゲームの接続を保証するクライアント/サーバ技術である。 GPNテクノロジーのユーザは、世界中でホストされ、プレイされるオンラインゲームの安定的で高品質なゲーム体験から恩恵を受ける。 WTFastが収集した大量の生のネットワークデータを変換した後、クリーン化されたデータを専用データウェアハウスに構造化し、機械学習とニューラルネット技術とビジネスインテリジェンスツールを使用して広範な分析を完了した。 これらの分析は,ネットワークの変化を予測し,定量化する能力を示し,オンラインゲームセッションに接続したユーザに対してGPNを使用することによるメリットを示す。

Gamers Private Network (GPN) is a client/server technology that guarantees a connection for online video games that is more reliable and lower latency than a standard internet connection. Users of the GPN technology benefit from a stable and high-quality gaming experience for online games, which are hosted and played across the world. After transforming a massive volume of raw networking data collected by WTFast, we have structured the cleaned data into a special-purpose data warehouse and completed the extensive analysis using machine learning and neural nets technologies, and business intelligence tools. These analyses demonstrate the ability to predict and quantify changes in the network and demonstrate the benefits gained from the use of a GPN for users when connected to an online game session.
翻訳日:2023-03-29 20:21:20 公開日:2021-05-26
# 光学動的暗黒モードによる可逆光-マイクロ波量子変換

Reversible optical-microwave quantum conversion assisted by optomechanical dynamically-dark modes ( http://arxiv.org/abs/2105.12310v1 )

ライセンス: Link先を確認
Ling-Ying Zhu, Yong Dong, Ji Zhang, Cui-Lu Zhai, and Le-Man Kuang(参考訳) 電子オプトメカニカル(EOM)モデルを用いて,マイクロ波と光子間の可逆量子変換を実現する動的ダークモード(DDM)方式を提案する。 EOMモデルの動的進化中に2つのDDMが出現することが示されている。 ddmはマイクロ波と光学場の2種類の可逆的かつ高効率な量子変換、条件付き量子変換(cqc)とエンタングルメント支援量子変換(eaqc)を誘導できることが実証された。 CQCはマイクロ波および光学場の1つの初期状態平均値が消滅した状態で発生し、考慮中の系の結合比にのみ依存する。 EAQCはマイクロ波と光電界との間の初期状態の絡み合いの存在下で発生する。 EAQCは初期状態の絡み合いと結合比を工学的に操作できることがわかった。 初期状態パラメータの位相を制御することにより、絡み合った(あるいは抑制された)量子変換を実現することが可能である。 我々の研究は、DDMによるマイクロ波と光子間の可逆かつ高効率な量子変換を生成する力を強調している。

We propose a dynamically-dark-mode (DDM) scheme to realize the reversible quantum conversion between microwave and optical photons in an electro-optomechanical (EOM) model. It is shown that two DDMs appear at certain times during the dynamical evolution of the EOM model. It is demonstrated that the DDMs can induce two kinds of reversible and highly efficient quantum conversion between the microwave and optical fields, the conditional quantum conversion (CQC) and the entanglement-assisted quantum conversion (EAQC). The CQC happens at the condition of vanishing of the initial-state mean value of one of the microwave and optical fields, and only depends on the coupling ratio of the system under consideration. The EAQC occurs in the presence of the initial-state entanglement between the microwave and optical fields. It is found that the EAQC can be manipulated by engineering the initial-state entanglement and the coupling ratio. It is indicated that it is possible to realize the entanglement-enhanced (or suppressed) quantum conversion through controlling the phase of the initial-state parameter. Our work highlights the power of generating reversible and highly efficient quantum conversion between microwave and optical photons by the DDMs.
翻訳日:2023-03-29 12:05:43 公開日:2021-05-26
# 教師付き学習による頻繁性パラメータ推定

Frequentist Parameter Estimation with Supervised Learning ( http://arxiv.org/abs/2105.12302v1 )

ライセンス: Link先を確認
Samuel P. Nolan and Luca Pezz\`e and Augusto Smerzi(参考訳) 最近、機械学習技術を用いた量子センサーのキャリブレーションに多くの関心が寄せられている。 本研究では,未知パラメータの機械学習点推定における回帰の活用について検討する。 解析は必要以上に頻繁であり、統計を構築するために繰り返しエスティメートに依存するが、この機械学習された推定器はベイズ最大 a-posterori 推定器(いくつかの正規性条件に従属する)に収束する。 トレーニングの回数が大きい場合、これはよく知られた最大形推定器(MLE)と同一であり、この事実を用いて、Cram{\'e}r-Rao感度境界が平均二乗誤差コスト関数に適用され、したがって最適なモデルとトレーニングパラメータを選択するために使用できると論じる。 機械学習推定器は、トレーニンググリッドの解像度に課せられる限界まで、MLEの望ましい漸近特性を継承することを示す。 さらに,学習過程における量子ノイズの役割について検討し,このノイズが格子点数に根本的な制限を与えることを示した。 この原稿は、機械学習が量子センサーの校正を支援する方法であり、これにより、次世代の超精密センサーの設計と運用において、最大様相推論がより顕著な役割を果たす。

Recently there has been a great deal of interest surrounding the calibration of quantum sensors using machine learning techniques. In this work, we explore the use of regression to infer a machine-learned point estimate of an unknown parameter. Although the analysis is neccessarily frequentist - relying on repeated esitmates to build up statistics - we clarify that this machine-learned estimator converges to the Bayesian maximum a-posterori estimator (subject to some regularity conditions). When the number of training measurements are large, this is identical to the well-known maximum-likelihood estimator (MLE), and using this fact, we argue that the Cram{\'e}r-Rao sensitivity bound applies to the mean-square error cost function and can therefore be used to select optimal model and training parameters. We show that the machine-learned estimator inherits the desirable asymptotic properties of the MLE, up to a limit imposed by the resolution of the training grid. Furthermore, we investigate the role of quantum noise the training process, and show that this noise imposes a fundamental limit on number of grid points. This manuscript paves the way for machine-learning to assist the calibration of quantum sensors, thereby allowing maximum-likelihood inference to play a more prominent role in the design and operation of the next generation of ultra-precise sensors.
翻訳日:2023-03-29 12:05:23 公開日:2021-05-26
# 多成分非局所性によるスピン-1鎖の量子臨界検出

Detection of quantum criticality in spin-1 chain through multipartite non-locality ( http://arxiv.org/abs/2105.12391v1 )

ライセンス: Link先を確認
Dongkeun Lee and Wonmin Son(参考訳) オンサイト異方性を持つスピン-1 xxz鎖の多体基底状態において、非局所性、局所的リアリズムの破れが発見される。 より高次スピン系の非局所性を同定するために、高次相関の組合せによって最も一般的な条件下で対称交絡状態を特徴付ける多部ベル型不等式を一般化したものを用いる。 与えられた偏りのない測定値に対して、大きな交換状態と強いオンサイト異方性において、量子臨界度(一階のタイプ)の近傍で多部的なベル型不等式を鋭く違反する。 これは、システムがGHZライクな状態を介して毎週絡み合った状態間の量子相転移を受けると、局所現実像の不可能性が現れることを示している。 本研究は,局所現実性モデルと高スピン系における多体量子相の関係について,観測可能量を特定して,局所性のない量子状態を検出するための最初の拡張可能図を提供する。

We find non-localities, violation of local realism, in the many-body ground states of spin-1 XXZ chain with on-site anisotropy. In order to identify the non-localities in higher spin systems, we exploit the generalized version of multipartite Bell-type inequalities which characterize symmetric entangled states under the most general settings via combination of high-order correlations. For a given set of unbiased measurements, we obtain a sharp violation of the multipartite Bell-type inequality at the vicinity of the quantum criticality, a type of the first-order, in the regime of large exchanges and strong on-site anisotropies. It signifies that impossibility of local realistic picture is manifested when a system is subjected to quantum phase transition between weekly entangled states via GHZ-like state. Our results provide the first extendible picture on the relationship between the impossibility of local realistic model and many-body quantum phases in higher-spin system as the observable identifies measurable quantities to detect the non-locality on a particular many-body quantum state.
翻訳日:2023-03-29 12:01:13 公開日:2021-05-26
# エントロピーと複雑さがミーム進化の風景を明かす

Entropy and complexity unveil the landscape of memes evolution ( http://arxiv.org/abs/2105.12376v1 )

ライセンス: Link先を確認
Carlo Michele Valensise, Alessandra Serra, Alessandro Galeazzi, Gabriele Etta, Matteo Cinelli, Walter Quattrociocchi(参考訳) インターネット上では、情報は迅速かつ広範囲に流通し、コンテンツの形式はユーザの認知能力に適合する。 ミームはinternet system of significationの新たな側面であり、その視覚的スキームは異質な文脈に適応することで進化する。 根本的な疑問は、それらの組織原則が文化的かつ時間的に超越した特性を示すかどうかである。 本研究では,統計の複雑さとエントロピーの観点から,2011年から2020年までの10年間で,redditから200万のビジュアルミームの進化を考察した。 我々は,ミームが新たなインターネットメタ言語の一部であるという仮説を支持する。一方,2倍の時間で指数関数的な成長を観察し,他方では,ミームの内容の複雑さが増大し,社会的傾向や態度の表現を可能にし,適応する。

On the Internet, information circulates fast and widely, and the form of content adapts to comply with users' cognitive abilities. Memes are an emerging aspect of the internet system of signification, and their visual schemes evolve by adapting to a heterogeneous context. A fundamental question is whether they present culturally and temporally transcendent characteristics in their organizing principles. In this work, we study the evolution of 2 million visual memes from Reddit over ten years, from 2011 to 2020, in terms of their statistical complexity and entropy. We find support for the hypothesis that memes are part of an emerging form of internet metalanguage: on one side, we observe an exponential growth with a doubling time of approximately 6 months; on the other side, the complexity of memes contents increases, allowing and adapting to represent social trends and attitudes.
翻訳日:2023-03-29 12:00:54 公開日:2021-05-26
# 非バイナリ量子誤差補正のためのlee重み

Lee Weight for Nonbinary Quantum Error Correction ( http://arxiv.org/abs/2105.12354v1 )

ライセンス: Link先を確認
Ryutaroh Matsumoto(参考訳) 本稿では,量子誤りに対する量子リー重み,ギルバート・バルシャモフ型有界値,提案した重みに対する符号構成を提案する。

We propose the quantum Lee weight for quantum errors, provide a Gilbert-Varshamov type bound, and a code construction for the proposed weight.
翻訳日:2023-03-29 12:00:39 公開日:2021-05-26
# 窒素空洞中心スピンを持つ超ラジアントメーザー

A Superradiant Maser with Nitrogen-Vacancy Center Spins ( http://arxiv.org/abs/2105.12350v1 )

ライセンス: Link先を確認
Qilong Wu, Yuan Zhang, Xigui Yang, Shi-Lei Su, Chongxin Shan, Klaus M{\o}lmer(参考訳) 最近の実験では、マイクロ波共振器におけるラビ振動、超放射パルス、負電荷の窒素空孔(\mathrm{NV}^{-}$)中心スピンからの励起放出が示されている。 これらの現象は、光周波数系における超放射ラシングの観測に必要不可欠な、集合的および強い結合を観察する。 本稿では,超ラジアントメーザーを実現するために,集合的な$\mathrm{NV}^{-}$ スピンアンサンブルとマイクロ波場の両方に存在するコヒーレンスを用いることの可能性を検討する。 我々の計算では、ミリヘルツ以下の線幅を持つ超ラジアントメーザーは、低温度で10^{14}$のスピンを中程度のキロヘルツ非コヒーレントポンプで得ることができる。 非均質な拡大の存在下では,超放射能のメーシングが有効であることを示し,その現象の物理パラメータ依存性に関する数値的および解析的研究を行った。

Recent experiments have demonstrated Rabi-oscillations, superradiant pulses and stimulated emission from negatively-charged nitrogen-vacancy ($\mathrm{NV}^{-}$) center spins in microwave resonators. These phenomena witness the kind of collective and strong coupling which has been prerequisite for observation of superradiant lasing in the optical frequency regime. In this article, we investigate the possibility to employ coherence, present in both the collective $\mathrm{NV}^{-}$ spin ensemble and the microwave field, to achieve a superradiant maser. Our calculations show that a superradiant maser with a linewidth below millihertz can be achieved with moderate kilohertz incoherent pumping of over $10^{14}$ spins kept at low temperature. We show that the superradiant masing prevails in the presence of inhomogeneous broadening, and we present numerical and analytical studies of the dependence of the phenomenon on the various physical parameters.
翻訳日:2023-03-29 12:00:36 公開日:2021-05-26
# 中間統計表現による多体システム解群法

A group method solving many-body systems in intermediate statistical representation ( http://arxiv.org/abs/2105.12343v1 )

ライセンス: Link先を確認
Yao Shen, Chi-Chun Zhou, Wu-sheng Dai and Mi Xie(参考訳) 相互作用する多体システムの正確な解は重要であり、解決が難しい。 本稿では,置換群とユニタリ群の関係を用いて,相互作用する多体問題を解くグループ法を提案する。 まず群定理を証明し、次に定理を用いて、ユニタリ群のカシミール作用素による相互作用する多体系のハミルトニアンを表現する。 カシミール作用素の固有値はエネルギーの正確な値を与え、したがってそれらの問題を正確に解くことができる。 この方法は相互作用する多体系を中間統計表現に写像する。 置換群の共役類作用素と中間統計表現におけるユニタリ群のカシミール作用素との関係をゲンティル表現(gentile representation)という。 boseとfermiのケースは、gentile表現の2つの制限である。 また、Gentile表現における対称群とユニタリ群の表現空間について議論し、この方法を示すハイゼンベルクモデルの例を示す。 この手法は相互作用する多体問題を解くのに有効である。

The exact solution of the interacting many-body system is important and is difficult to solve. In this paper, we introduce a group method to solve the interacting many-body problem using the relation between the permutation group and the unitary group. We prove a group theorem first, then using the theorem, we represent the Hamiltonian of the interacting many-body system by the Casimir operators of unitary group. The eigenvalues of Casimir operators could give the exact values of energy and thus solve those problems exactly. This method maps the interacting many-body system onto an intermediate statistical representation. We give the relation between the conjugacy-class operator of permutation group and the Casimir operator of unitary group in the intermediate statistical representation, called the Gentile representation. Bose and Fermi cases are two limitations of the Gentile representation. We also discuss the representation space of symmetric and unitary group in the Gentile representation and give an example of the Heisenberg model to demonstrate this method. It is shown that this method is effective to solve interacting many-body problems.
翻訳日:2023-03-29 12:00:09 公開日:2021-05-26
# 真のネットワーク量子非局所性と自己テスト

Genuine network quantum nonlocality and self-testing ( http://arxiv.org/abs/2105.12341v1 )

ライセンス: Link先を確認
Ivan \v{S}upi\'c, Jean-Daniel Bancal, Yu Cai, Nicolas Brunner(参考訳) ネットワーク構造は原則として、ネットワークに適しており、標準量子ベル非局所性に遡ることができない新しい形の量子非局所相関の可能性を提供する。 ここでは、真のネットワーク量子非局所性の概念を定義する。 我々のアプローチは運用であり、標準的な量子非局所性はネットワーク内の相関を生成するためのリソースであると考えている。 本稿では,いわゆる絡み合い交換の双局所性ネットワークを考慮した,真のネットワーク非局所性相関の例を示す。 特に,ネットワーク構造に依存する量子自己テストの例を示す。相関は非双局所的であるが,ベル局所性(bell locality)の通常の定義に従って局所的である。

The network structure offers in principle the possibility for novel forms of quantum nonlocal correlations, that are proper to networks and cannot be traced back to standard quantum Bell nonlocality. Here we define a notion of genuine network quantum nonlocality. Our approach is operational and views standard quantum nonlocality as a resource for producing correlations in networks. We show several examples of correlations that are genuine network nonlocal, considering the so-called bilocality network of entanglement swapping. In particular, we present an example of quantum self-testing which relies on the network structure; the considered correlations are non-bilocal, but are local according to the usual definition of Bell locality.
翻訳日:2023-03-29 11:59:53 公開日:2021-05-26
# 多成分量子システム:マルコフ行列とジニ指数に基づくアプローチ

Multipartite quantum systems: an approach based on Markov matrices and the Gini index ( http://arxiv.org/abs/2105.12335v1 )

ライセンス: Link先を確認
A. Vourdas(参考訳) 列マルコフ行列の繰り返しを伴う置換に関する行列による拡張が紹介され、置換行列(繰り返しを伴わない)の2つの確率行列のバーホフ・ヴォン・ノイマン展開が一般化される。 マルコフ行列によって記述されたランダムセーフを開放する整数列の項における形式論の解釈について述べる。 この文脈で確率と相関を記述する様々な量について論じる。 ジーニ指数は様々な確率ベクトルの空間性(確実性)を定量化するために用いられる。 形式論は有限次元ヒルベルト空間を持つ多元量子系の文脈で使われ、反復を伴う量子置換あるいは量子セーフと見なすことができる。 列マルコフ行列のスカラー積、様々なジニ指数などは、多成分量子系の統計を記述する新しい確率的量である。 局所および大域フーリエ変換は局所双対および大域的双対統計量を定義するために用いられる。 後者は、システムの様々な構成要素を(一般に)絡み合わせる非対角的要素に依存する。 これらのアイデアを示す例も紹介されている。

An expansion of row Markov matrices in terms of matrices related to permutations with repetitions, is introduced.It generalises the Birkhoff-von Neumann expansion of doubly stochastic matrices in terms of permutation matrices (without repetitions).An interpretation of the formalism in terms of sequences of integers that open random safes described by the Markov matrices, is presented. Various quantities that describe probabilities and correlations in this context, are discussed. The Gini index is used to quantify the sparsity (certainty) of various probability vectors. The formalism is used in the context of multipartite quantum systems with finite dimensional Hilbert space, which can be viewed as quantum permutations with repetitions or as quantum safes. The scalar product of row Markov matrices, the various Gini indices, etc, are novel probabilistic quantities that describe the statistics of multipartite quantum systems. Local and global Fourier transforms are used to define locally dual and also globally dual statistical quantities. The latter depend on off-diagonal elements that entangle (in general) the various components of the system. Examples which demonstrate these ideas are also presented.
翻訳日:2023-03-29 11:59:42 公開日:2021-05-26
# 六方晶窒化ホウ素のモノリシックブルゼー空洞へのスピン欠陥のカップリング

Coupling spin defects in hexagonal boron nitride to monolithic bullseye cavities ( http://arxiv.org/abs/2105.12317v1 )

ライセンス: Link先を確認
Johannes E. Fr\"och, Lesley Spencer, Mehran Kianinia, Daniel Totonjian, Minh Nguyen, Vladimir Dyakonov, Milos Toth, Sejeong Kim, Igor Aharonovich(参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、量子フォトニクスの応用においてますます重要な構成要素になりつつある。 本稿では,最近発見されたhBNのスピン欠陥と,ブルジーキャビティの結合性について述べる。 以上の結果から, すべてのモノリシックhBN空洞系は, 結合したホウ素空洞スピン欠陥の放出において, 等級の増大を示すことがわかった。 さらに, 比較有限差分時間領域モデリングにより, この時点で実験的に実証されていない発光双極子配向に光を照射した。 さらに、結合されたスピンシステムは、光学的に検出された磁気共鳴リードアウトのコントラストが強化され、信号対雑音比が向上する。 したがって,シミュレーションによって支持される実験結果は,スケーラブルなスピンフォトンインタフェースのためのhbnスピン欠陥とフォトニック共振器の統合に向けた第一歩となる。

Color centers in hexagonal boron nitride (hBN) are becoming an increasingly important building block for quantum photonic applications. Herein, we demonstrate the efficient coupling of recently discovered spin defects in hBN to purposely designed bullseye cavities. We show that the all monolithic hBN cavity system exhibits an order of magnitude enhancement in the emission of the coupled boron vacancy spin defects. In addition, by comparative finite difference time domain modelling, we shed light on the emission dipole orientation, which has not been experimentally demonstrated at this point. Beyond that, the coupled spin system exhibits an enhanced contrast in optically detected magnetic resonance readout and improved signal to noise ratio. Thus, our experimental results supported by simulations, constitute a first step towards integration of hBN spin defects with photonic resonators for a scalable spin photon interface.
翻訳日:2023-03-29 11:59:24 公開日:2021-05-26
# 量子電池における不定因果秩序

Indefinite Causal Order in Quantum Batteries ( http://arxiv.org/abs/2105.12466v1 )

ライセンス: Link先を確認
Yuanbo Chen and Yoshihiko Hasegawa(参考訳) 量子電池で実行する操作は、異なるプロセス間での明確な因果順序の存在をもはや強制しないシナリオに拡張されます。 標準的な理論とは対照的に、いわゆる不定因果順序は、それなしでは不可能なタスクを達成する能力を持つ。 具体的には、この新しいタイプのリソースが量子電池に最初にどのように作用するかを示し、2つの静的ユニタリチャージャーをコヒーレントに重ね合わせて、たとえバッテリーの局所的なハミルトニアンが存在する場合でも、空のバッテリーを完全に充電する。 そして、非単体充電プロトコルを実証し、不定因数整列型充電器は、任意の条件下で古典的よりも高エネルギーの帯電電池を生成する。 また、我々の直観に反し、大まかに言えば、比較的強力でない充電器が、より高いエネルギーで充電されたバッテリーを保証していることを示唆している。 最後に、測定に基づく保護スキームによって課されるコストを削減するために、不定因果順序は、この目標を達成する可能性を示す。

Operations performing on quantum batteries are extended to scenarios where we no longer force the existence of definite causal order of occurrence between distinct processes. In contrast to standard theories, the so called indefinite causal order is found to have the capability of accomplishing tasks that are not possible without it. Specifically, we show how this novel class of resource comes into play in quantum batteries by first, combining two static unitary chargers into a coherently superposed one to fully charge an empty battery even if in the presence of battery's local Hamiltonian. Then we demonstrate for a non-unitary charging protocol, the indefinite causal order version charger yields a charged battery with higher energy over its classical counterpart under any conditions. We also have a finding that runs counter to our intuition which, roughly speaking, has the implication that a relatively less powerful charger guarantees a charged battery with higher energy. Finally, to reduce the cost imposed by a measurement-based protection scheme, indefinite causal order shows its potential to fulfill this goal.
翻訳日:2023-03-29 11:52:21 公開日:2021-05-26
# 時周領域におけるユニバーサル圧縮トモグラフィ

Universal compressive tomography in the time-frequency domain ( http://arxiv.org/abs/2105.12462v1 )

ライセンス: Link先を確認
J. Gil-Lopez, Y. S. Teo, S. De, B. Brecht, H. Jeong, C. Silberhorn and L. L. Sanchez-Soto(参考訳) 極端に少ない測定設定で任意の低ランクのスペクトル-時空間光信号を再構成でき、初期未知の信号について \emph{ad hoc} を仮定することなく、圧縮量子状態トモグラフィーを実現する。 これは、任意のユーザ指定光学モードへのプロジェクションを柔軟に実装する装置である量子パルスゲートを用いて実行される。 本稿では, 時間パルスモードと周波数ビンの両方について, ランダム圧縮法の汎用性を示す決定的な実験結果を示し, それらのプラットフォームに普遍的な光再構成フレームワークを導入する。

We implement a compressive quantum state tomography capable of reconstructing any arbitrary low-rank spectral-temporal optical signal with extremely few measurement settings and without any \emph{ad hoc} assumptions about the initially unknown signal. This is carried out with a quantum pulse gate, a device that flexibly implements projections onto arbitrary user-specified optical modes. We present conclusive experimental results for both temporal pulsed modes and frequency bins, which showcase the versatility of our randomized compressive method and thereby introduce a universal optical reconstruction framework to these platforms.
翻訳日:2023-03-29 11:52:01 公開日:2021-05-26
# モンゴルにおけるパンデミック期のオンラインコースの評価ケーススタディ

The Evaluation Case Study of Online Course During Pandemic Period in Mongolia ( http://arxiv.org/abs/2105.12429v1 )

ライセンス: Link先を確認
Uranchimeg Tudevdagva, Bazarragchaa Sodnom, Selenge Erdenechimeg(参考訳) 本稿では,パンデミック期におけるオンラインコースの自己評価試験とケーススタディについて述べる。 Covid-19のため、世界中が異なる期間にロックダウンしなくてはならない。 国の教育部門を含むあらゆる種類のビジネスで多くのことを行う必要があります。 教育開発を維持するためには、従来の対面指導からオンライン授業に切り替える必要があった。 政府は短期間で決定を下し、教育機関はオンライン教育のための教材を準備する時間がなかった。 モンゴル薬科大学の全てのコースはオンライン授業に移行した。 オンライン教育の際、教授や教師の前で課題が持ち上がった。 われわれの大学は、オンライン教育とeラーニングのための特定の学習管理システムを持っていなかった。 そのため、教授はZoomやMicrosoftチームなど、さまざまなプラットフォームをオンライン教育に使用した。 さらに、様々なソーシャルネットワークプラットフォームが、学生と教授のコミュニケーションに積極的な役割を果たした。 教授や学生にとって状況はとても難しい。 オンライン授業の質を計測し,オンライン授業の肯定的かつ弱い点を明らかにするためには,eラーニングの評価が必要である。 本研究の目的は,構造指向評価モデルに基づくeラーニングの評価プロセスを共有することである。

This paper describes a test and case study of self-evaluation of online courses during the pandemic time. Due to the Covid-19, the whole world needs to sit on lockdown in different periods. Many things need to be done in all kinds of business including the education sector of countries. To sustain the education development teaching methods had to switch from traditional face-to-face teaching to online courses. The government made decisions in a short time and educational institutions had no time to prepare the materials for the online teaching. All courses of the Mongolian University of Pharmaceutical Sciences switched to online lessons. Challenges were raised before professors and tutors during online teaching. Our university did not have a specific learning management system for online teaching and e-learning. Therefore professors used different platforms for their online teaching such as Zoom, Microsoft teams for instance. Moreover, different social networking platforms played an active role in communication between students and professors. The situation is very difficult for professors and students. To measure the quality of online courses and to figure out the positive and weak points of online teaching we need an evaluation of e-learning. The focus of this paper is to share the evaluation process of e-learning based on a structure-oriented evaluation model.
翻訳日:2023-03-29 11:51:20 公開日:2021-05-26
# マルチレートマルチプロトコル量子鍵分散送信装置のリアルタイム動作

Real-time operation of a multi-rate, multi-protocol quantum key distribution transmitter ( http://arxiv.org/abs/2105.12425v1 )

ライセンス: Link先を確認
Innocenzo De Marco, Robert I. Woodward, George L. Roberts, Taofiq K. Para\"iso, Thomas Roger, Mirko Sanzaro, Marco Lucamarini, Zhiliang Yuan, and Andrew J. Shields(参考訳) 量子鍵分布(QKD)は攻撃者に対する通信を確保する最良の候補であり、将来は古典的な暗号化を破るために量子強化された計算能力を利用する可能性がある。 そのため、QKDシステムの大規模展開の必要性から、新たな課題が生まれています。 現実的なシナリオでは、異なるベンダーからデバイスを送受信することは、ハードウェアをマッチさせることなく相互に通信できるべきである。 したがって、QKDの実践的な展開には、異なるプロトコルやクロックレートに適応できるハードウェアが必要である。 本稿では、対応可能なQKD受信機にリンクされたマルチレートマルチプロトコルQKD送信機を提示することにより、この問題に対処する。 送信機の柔軟性は、光注入ロックによって達成され、本質的に異なるクロックレートで2つの受信機と接続することができる。 さらに,送信機のマルチプロトコル動作を実演し,異なる復号回路を用いた受信側と通信する。

Quantum key distribution (QKD) is the best candidate for securing communications against attackers, who may in the future exploit quantum-enhanced computational powers to break classical encryption. As such, new challenges are arising from our need for large-scale deployment of QKD systems. In a realistic scenario, transmitting and receiving devices from different vendors should be able to communicate with each other without the need for matching hardware. Therefore, practical deployment of QKD would require hardware capable of adapting to different protocols and clock rates. Here, we address this challenge by presenting a multi-rate, multi-protocol QKD transmitter linked to a correspondingly adaptable QKD receiver. The flexibility of the transmitter, achieved by optical injection locking, allows us to connect it with two receivers with inherently different clock rates. Furthermore, we demonstrate the multi-protocol operation of our transmitter, communicating with receiving parties employing different decoding circuits.
翻訳日:2023-03-29 11:51:05 公開日:2021-05-26
# 単一量子ドットにおける非線形ダウン変換

Nonlinear down-conversion in a single quantum dot ( http://arxiv.org/abs/2105.12393v1 )

ライセンス: Link先を確認
B. Jonas, D. Heinze, E. Sch\"oll, P. Kallert, T. Langer, S. Krehs, A. Widhalm, K. D. J\"ons, D. Reuter, S. Schumacher and A. Zrenner(参考訳) フォトニック・量子技術$^1$は、量子通信、センシング、量子シミュレーション、計算などの応用で、商用化が近づいている。 重要な構成要素の1つはナノスケールの積分可能な量子光源で、ユースケースの特定のニーズに合致する。 固体量子エミッター$^2$と高い性能$^3$を実現するいくつかの異なるアプローチが研究されている。 しかし、放射された単一光子の特性は常に個々の量子光源によって定義され、多くの量子エミッタチューニング技術にもかかわらず、スケーラビリティは依然として大きな課題である。 本稿では、単一光子放射の特性を調整・制御するためのエミッタ非依存法を示す。 量子3レベル系の励起状態からレーザー制御によるダウンコンバージョン過程を実証する。 可変制御レーザー場はバイエクシトン状態から始まり、刺激されたプロセスにおける仮想状態を定義する。 そこから基底状態への自発的な放出は、光制御された単一光子放出に繋がる。 この概念に基づき、単一光子放射のエネルギーチューニングを制御レーザー場を用いて実証する。 関連する量子状態の性質はさらに、理論$^{9,10}$で予測されるように、分極と帯域の将来の制御のユニークな基礎を提供する。 我々の実証は、量子光学原理に基づくフォトニック量子系からの光子放射を調整するための重要なステップである。

Photonic quantum technologies$^1$, with applications in quantum communication, sensing as well as quantum simulation and computing, are on the verge of becoming commercially available. One crucial building block are tailored nanoscale integratable quantum light sources, matching the specific needs of use-cases. Several different approaches to realize solid-state quantum emitters$^2$ with high performance$^3$ have been pursued. However, the properties of the emitted single photons are always defined by the individual quantum light source and despite numerous quantum emitter tuning techniques$^{4-7}$, scalability is still a major challenge. Here we show an emitter-independent method to tailor and control the properties of the single photon emission. We demonstrate a laser-controlled down-conversion process from an excited state of a quantum three-level system$^8$. Starting from a biexciton state, a tunable control laser field defines a virtual state in a stimulated process. From there, spontaneous emission to the ground state leads to optically controlled single photon emission. Based on this concept, we demonstrate energy tuning of the single photon emission with a control laser field. The nature of the involved quantum states furthermore provides a unique basis for the future control of polarization and bandwidth, as predicted by theory$^{9,10}$. Our demonstration marks an important step towards tailored single photon emission from a photonic quantum system based on quantum optical principles.
翻訳日:2023-03-29 11:50:31 公開日:2021-05-26
# モバイルデバイスのデータセキュリティ: 最先端技術, オープン問題, 提案された解決策

Data Security on Mobile Devices: Current State of the Art, Open Problems, and Proposed Solutions ( http://arxiv.org/abs/2105.12613v1 )

ライセンス: Link先を確認
Maximilian Zinkus, Tushar M. Jois, Matthew Green (Johns Hopkins University)(参考訳) 本研究では,(1)モバイルデバイスにおける具体的なセキュリティ対策がユーザデータへの不正アクセスを有意義に防いでいるか,という疑問に答えるために,明確な証拠,分析,そして(必要な場合)憶測を提示する。 (2) 現代のモバイル機器は、どのようにして不正にアクセスされているか? (3) 不正アクセスを防止するため、現代のモバイルデバイスをどのように改善するか。 モバイル分野の2つの主要プラットフォーム、iosとandroidを調査し、それぞれについて、既存および歴史的なセキュリティ機能、既知のセキュリティバイパス技術に関するエビデンスベースの議論、修復のための具体的な推奨事項を徹底的に調査します。 次に、公開記録、ドキュメント、記事、ブログ投稿を集約して分析し、ハッカーや法執行機関による不正なセキュリティ機能のバイパスを分類し議論します。 モバイルデバイスと関連するクラウドサービスの両方から法執行機関によってアクセスされる可能性のあるデータの詳細な分析を行う。 事実収集と分析により、これらのデバイスのデータセキュリティを改善するための多くの推奨事項が作成できます。 提案する緩和策は、強力な暗号化によって機密データのカバレッジを増大させるものとして概ね要約できるが、この目標などに対する様々な課題とアプローチを詳述する。 この研究がモバイルデバイスの開発とセキュリティとプライバシの研究を刺激し、情報のユニークな参照を提供し、プライバシに対する信頼性の高い暗号化の重要性に関する証拠ベースの議論として機能することを期待しています。

In this work we present definitive evidence, analysis, and (where needed) speculation to answer the questions, (1) Which concrete security measures in mobile devices meaningfully prevent unauthorized access to user data? (2) In what ways are modern mobile devices accessed by unauthorized parties? (3) How can we improve modern mobile devices to prevent unauthorized access? We examine the two major platforms in the mobile space, iOS and Android, and for each we provide a thorough investigation of existing and historical security features, evidence-based discussion of known security bypass techniques, and concrete recommendations for remediation. We then aggregate and analyze public records, documentation, articles, and blog postings to categorize and discuss unauthorized bypass of security features by hackers and law enforcement alike. We provide in-depth analysis of the data potentially accessed via law enforcement methodologies from both mobile devices and associated cloud services. Our fact-gathering and analysis allow us to make a number of recommendations for improving data security on these devices. The mitigations we propose can be largely summarized as increasing coverage of sensitive data via strong encryption, but we detail various challenges and approaches towards this goal and others. It is our hope that this work stimulates mobile device development and research towards security and privacy, provides a unique reference of information, and acts as an evidence-based argument for the importance of reliable encryption to privacy, which we believe is both a human right and integral to a functioning democracy.
翻訳日:2023-03-29 11:43:24 公開日:2021-05-26
# 展望 --完全無条件セキュリティの熱力学について

Perspective -- On the thermodynamics of perfect unconditional security ( http://arxiv.org/abs/2105.12592v1 )

ライセンス: Link先を確認
Christiana Chamon and Laszlo Kish(参考訳) セキュアな鍵分配(交換)スキームは、コンピュータパワーの任意の技術的改善や新しいアルゴリズムの開発に反し、無条件で安全である。 量子鍵分布 (Quantum Key Distribution, QKD) は量子物理学的特徴を利用する量子暗号の基盤であり、Kirchhoff-Law-Johnson-Noise (KLJN) システムは古典的な統計物理学に基づくものである。 本稿では,KLJNシステムの熱力学的状況について述べる。 全てのオリジナルの研究において、提案されたKLJNスキームは、完全なセキュリティを達成するために通信者の装置間の熱平衡を必要とした。 しかしながら、vadai, et al, in (nature) science reports 5 (2015) 13653 では、当事者間で非ゼロの熱雑音エネルギーの流れがあるが、このシステムは既知の攻撃タイプすべてに抵抗しているように見える。 システムに対する新たな攻撃タイプを導入する。 この新しい攻撃は、ライン電流と電圧の一致イベントを利用する。 理想化条件下であっても,盗聴者に対する情報漏えいはゼロではないことを示す。 熱平衡が回復すると、システムは再び完全に安全になる。 結論として、完全な非条件セキュリティは熱平衡を必要とする。

A secure key distribution (exchange) scheme is unconditionally secure if it is unbreakable against arbitrary technological improvements of computing power and/or any development of new algorithms. There are only two families of experimentally realized and tested unconditionally secure key distribution technologies: Quantum Key Distribution (QKD), the base of quantum cryptography, which utilizes quantum physical photonic features; and the Kirchhoff-Law-Johnson-Noise (KLJN) system that is based on classical statistical physics (fluctuation-dissipation theorem). The focus topic of this paper is the thermodynamical situation of the KLJN system. In all the original works, the proposed KLJN schemes required thermal equilibrium between the devices of the communicating parties to achieve perfect security. However, Vadai, et al, in (Nature) Science Reports 5 (2015) 13653 shows a modified scheme, where there is a non-zero thermal noise energy flow between the parties, yet the system seems to resist all the known attack types. We introduce a new attack type against their system. The new attack utilizes coincidence events between the line current and voltages. We show that there is non-zero information leak toward the Eavesdropper, even under idealized conditions. As soon as the thermal equilibrium is restored, the system becomes perfectly secure again. In conclusion, perfect unconditional security requires thermal equilibrium.
翻訳日:2023-03-29 11:42:59 公開日:2021-05-26
# 動的グラフ色問題に対するランダム化探索ヒューリスティックの時間複雑度解析

Time Complexity Analysis of Randomized Search Heuristics for the Dynamic Graph Coloring Problem ( http://arxiv.org/abs/2105.12525v1 )

ライセンス: Link先を確認
Jakob Bossek, Frank Neumann, Pan Peng, Dirk Sudholt(参考訳) 動的問題に対するランダム化探索ヒューリスティックの理論的理解に寄与する。 グラフ上の古典的な頂点彩色問題を検討し、エッジを現在のグラフに追加する動的設定について検討する。 次に、ランダム化探索ヒューリスティックの期待時間を分析し、高品質な解を再計算する。 1+1)~Evolutionary Algorithm と RLS は,色数に制限のある環境で動作し,コンフリクトの数を最小限に抑えている。 反復局所探索アルゴリズムは、無境界色パレットを使用し、最小色を目的とし、その結果、最小色を目的とする。 再最適化がスクラッチから最適化するよりも難しい、すなわちランダムな初期化から始まる二部グラフのクラスを同定する。 一つのエッジを追加することさえも、ハード対称性の問題につながる。 しかし、あるアルゴリズムでは難しいグラフクラスは、他のアルゴリズムでは簡単であることが判明した。 ほとんどの場合、我々の限界は、再最適化はゼロから最適化するよりも速いことを示している。 さらに,変化が発生したグラフの一部に変異演算子を合わせることで,期待した再最適化時間を著しく短縮できることを示した。 ほとんどの設定において、このような調整されたアルゴリズムの期待再最適化時間は、追加されたエッジの数で線形である。 しかし、調整アルゴリズムは、元のアルゴリズムが非効率な設定において指数時間を防ぐことはできない。

We contribute to the theoretical understanding of randomized search heuristics for dynamic problems. We consider the classical vertex coloring problem on graphs and investigate the dynamic setting where edges are added to the current graph. We then analyze the expected time for randomized search heuristics to recompute high quality solutions. The (1+1)~Evolutionary Algorithm and RLS operate in a setting where the number of colors is bounded and we are minimizing the number of conflicts. Iterated local search algorithms use an unbounded color palette and aim to use the smallest colors and, consequently, the smallest number of colors. We identify classes of bipartite graphs where reoptimization is as hard as or even harder than optimization from scratch, i.e., starting with a random initialization. Even adding a single edge can lead to hard symmetry problems. However, graph classes that are hard for one algorithm turn out to be easy for others. In most cases our bounds show that reoptimization is faster than optimizing from scratch. We further show that tailoring mutation operators to parts of the graph where changes have occurred can significantly reduce the expected reoptimization time. In most settings the expected reoptimization time for such tailored algorithms is linear in the number of added edges. However, tailored algorithms cannot prevent exponential times in settings where the original algorithm is inefficient.
翻訳日:2023-03-29 11:42:08 公開日:2021-05-26
# ブロックチェーンによるキャンパスにおける学生のエンゲージメント向上

Blockchain-Based Approach to Foster Student Engagement on Campus ( http://arxiv.org/abs/2105.12504v1 )

ライセンス: Link先を確認
Ritu Gala, Eshita Shukla, Nidhee Kamble, Revathi Vijayaraghavan, Dhiren Patel(参考訳) キャンパスのアメニティにおける責任や研究への参加といったオンキャンプ活動は、学生にも大学にも利益をもたらし、学生はある程度の自己完結を図っている。 しかし、この学生参加は意識の欠如とモチベーションの欠如に悩まされている。 イノベーションと学生参加への大きな影響は、これらの活動のインセンティブによって与えられる。 本稿では,客観的アルゴリズムを用いて算定した経験的利益や金銭的賞を学生にインセンティブを与えるブロックチェーン型経済システムを提案する。 インセンティブ化アルゴリズムは、研究作業、大学における責任の位置づけ、クラウドファンディングの3つの有望なユースケースのために設計されている。 このシステムの実証実装は、インド・ムンバイのVJTI Mumbaiにすでに確立されているProof of AuthorityブロックチェーンであるVJTI Chainを利用している。 これは、学生がポジティブなフィードバックを補強することによってより多くの報酬を得るよう促す、大学内の循環経済を生み出します。

On-campus activities like positions of responsibility in campus amenities and participation in research, benefit the students as well as the university, while also making students financially self-sufficient to a certain extent. However, this student participation is stymied by lack of awareness and motivation. Significant impetus to innovation and student participation can be provided by incentivization of these activities. In this paper, we propose a system to create a blockchain-based economy, to incentivize students with empirical benefits or monetary awards calculated using objective algorithms. The incentivization algorithms have been designed for three promising use cases: research work, positions of responsibility in universities, and crowdfunding. The demonstrated implementation of this system utilises VJTI Chain, an already established Proof of Authority blockchain in VJTI Mumbai, India. This creates a circular economy within the university which encourages students to earn more rewards by reinforcing positive feedback.
翻訳日:2023-03-29 11:41:01 公開日:2021-05-26
# フラクタル上のスピン1/2ハイゼンベルク反強磁性体のギャップレススピン液体と非局所コーナー励起

Gapless Spin Liquid and Non-local Corner Excitation in the Spin-1/2 Heisenberg Antiferromagnet on Fractal ( http://arxiv.org/abs/2105.12487v1 )

ライセンス: Link先を確認
Haiyuan Zou, Wei Wang(参考訳) フラクタル系の数学的美しさと最近の実験的実現により、スピン-$1/2$反強磁性ハイゼンベルク模型をSierpi\nskiガスケット上で研究した。 フラクタル多孔質の特徴は、エキゾチックな量子状態を示す新しい種類のフラストレーションを生み出す。 先進テンソルネットワーク技術を用いて,分数空間次元における量子ギャップのないスピン-液体基底状態を特定する。 このフラクタルスピン系はまた非自明な非局所的性質を示す。 極端に短距離の相関は、非常に縮退したスピンフォーム因子を引き起こすが、このフラクタル系における絡み合いは、整数次元のものとは大きく異なるスケーリング挙動を示唆する。 また, 動的構造因子について検討し, 基底状態の絡み目から生じる安定なコーナー励起によるギャップレス励起を明らかにした。 我々の結果は、このフラクタルスピン系の複数の必須特性を曖昧に指摘し、スピン液体とフラストレーション磁気を探索する新しい経路を開く。

Motivated by the mathematical beauty and the recent experimental realizations of fractal systems, we study the spin-$1/2$ antiferromagnetic Heisenberg model on a Sierpi\'nski gasket. The fractal porous feature generates new kinds of frustration to exhibit exotic quantum states. Using advanced tensor network techniques, we identify a quantum gapless-spin-liquid ground state in fractional spatial dimension. This fractal spin system also demonstrates nontrivial non-local properties. While the extremely short-range correlation causes a highly degenerate spin form factor, the entanglement in this fractal system suggests scaling behaviors significantly different from those in integer dimensions. We also study the dynamic structure factor and clearly identify the gapless excitation with a stable corner excitation emerged from the ground-state entanglement. Our results unambiguously point out multiple essential properties of this fractal spin system, and open a new route to explore spin liquid and frustrated magnetism.
翻訳日:2023-03-29 11:40:46 公開日:2021-05-26
# 超ラジアントストロンチウム時計遷移の能動周波数測定

Active Frequency Measurement on Superradiant Strontium Clock Transitions ( http://arxiv.org/abs/2105.12673v1 )

ライセンス: Link先を確認
Yuan Zhang, Chongxin Shan, Klaus M{\o}lmer(参考訳) 我々は,光共振器内の光学格子に閉じ込められたストロンチウム-87原子(M. Norcia, et al., Phys. X 8, 21036 (2018)))を用いて,パルス超放射能放射の能動周波数測定を記述する確率平均場理論を開発した。 本理論は,複数の遷移周波数を持つ原子アンサンブルの興味深いダイナミクスを明らかにし,超ラジアントビート信号,雑音パワースペクトル,周波数不確かさを再現する。 さらに、原子の数を減らし、超放射光パルスを延長し、実験的な義務サイクルを短縮することにより、現在の周波数標準(M. Schioppo, et al., Nat. Photonics, 11, 48 (2017))に匹敵する超放射光遷移を用いた能動周波数測定を行う短期周波数不確実性9\times10^{-16} \sqrt{\tau/s}$を予測する。 我々の理論はキャビティ量子力学と量子計測理論を組み合わせており、条件量子力学を探求し、定常超放射光や超放射ラマンラシングのような他のプロセスの周波数測定を記述するために容易に応用できる。

We develop a stochastic mean-field theory to describe active frequency measurements of pulsed superradiant emission, studied in recent experiments with strontium-87 atoms trapped in an optical lattice inside an optical cavity [M. Norcia, et al., Phys. Rev. X 8, 21036 (2018)]. Our theory reveals the intriguing dynamics of atomic ensembles with multiple transition frequencies, and it reproduces the superradiant beats signal, noisy power spectra, and frequency uncertainty in remarkable agreement with the experiments. Moreover, by reducing the number of atoms, elongating the superradiant pulses and shortening the experimental duty cycle, we predict a short-term frequency uncertainty $9\times10^{-16} \sqrt{\tau/s}$, which makes active frequency measurements with superradiant transitions comparable with the record performance of current frequency standards [M. Schioppo, et al., Nat. Photonics, 11, 48 (2017)]. Our theory combines cavity-quantum electrodynamics and quantum measurement theory, and it can be readily applied to explore conditional quantum dynamics and describe frequency measurements for other processes such as steady-state superradiance and superradiant Raman lasing.
翻訳日:2023-03-29 11:33:20 公開日:2021-05-26
# 多フェルミオンアインシュタイン-ディラックソリトン励起状態における非線形効果

Nonlinear effects in the excited states of many-fermion Einstein-Dirac solitons ( http://arxiv.org/abs/2105.12672v1 )

ライセンス: Link先を確認
Peter E. D. Leith, Chris A. Hooley, Keith Horne, David G. Dritschel(参考訳) 我々は、フィンスター、スモラー、ヤウによって導入されたアインシュタイン・ディラック形式主義(Phys. Rev. D 59, 104020 (1999)))を用いて、高角度フェルミオンの充填殻からなる重力局在系に対する励起状態解の解析を行う。 粒子数が比較的低い(N_f\ge 6$)場合でも、系の非線形性が増大すると、2つのフェルミオンの場合から挙動が著しくずれることが示される。 励起状態解は、その中心赤方偏移の値によってもはや一意に特定できず、この多重性は質量半径関係の特徴的なスパイラル形式に歪みをもたらす。 この効果と相対論的体制における解の内部構造との関係について論じる。

We present an analysis of excited-state solutions for a gravitationally localized system consisting of a filled shell of high-angular-momentum fermions, using the Einstein-Dirac formalism introduced by Finster, Smoller, and Yau [Phys. Rev. D 59, 104020 (1999)]. We show that, even when the particle number is relatively low ($N_f\ge 6$), the increased nonlinearity in the system causes a significant deviation in behavior from the two-fermion case. Excited-state solutions can no longer be uniquely identified by the value of their central redshift, with this multiplicity producing distortions in the characteristic spiraling forms of the mass-radius relations. We discuss the connection between this effect and the internal structure of solutions in the relativistic regime.
翻訳日:2023-03-29 11:32:51 公開日:2021-05-26
# 神経進化情報の活用について--より効率的な未来に向けての過去の分析

On the Exploitation of Neuroevolutionary Information: Analyzing the Past for a More Efficient Future ( http://arxiv.org/abs/2105.12836v1 )

ライセンス: Link先を確認
Unai Garciarena, Nuno Louren\c{c}o, Penousal Machado, Roberto Santana, Alexander Mendiburu(参考訳) 進化的手法によるニューラルネットワーク構造の自動探索である神経進化アルゴリズムは、計算コストのかかる手順である。 それにもかかわらず、アーキテクチャによって提供される優れた性能のため、これらの手法は広く適用されている。 神経進化過程の最終結果は探索中に見つかった最良の構造であり、残りの手順は文献で一般的に省略されている。 しかし,これらの探索では,抽出可能な貴重な知識からなる残余情報も大量に生成される。 本稿では、神経進化的実行からこの情報を抽出し、将来のニューラルアーキテクチャ探索に肯定的な影響を与えるメタモデルを構築するためのアプローチを提案する。 More specifically, by inspecting the best structures found during neuroevolutionary searches of generative adversarial networks with varying characteristics (e.g., based on dense or convolutional layers), we propose a Bayesian network-based model which can be used to either find strong neural structures right away, conveniently initialize different structural searches for different problems, or help future optimization of structures of any type to keep finding increasingly better structures where uninformed methods get stuck into local optima.

Neuroevolutionary algorithms, automatic searches of neural network structures by means of evolutionary techniques, are computationally costly procedures. In spite of this, due to the great performance provided by the architectures which are found, these methods are widely applied. The final outcome of neuroevolutionary processes is the best structure found during the search, and the rest of the procedure is commonly omitted in the literature. However, a good amount of residual information consisting of valuable knowledge that can be extracted is also produced during these searches. In this paper, we propose an approach that extracts this information from neuroevolutionary runs, and use it to build a metamodel that could positively impact future neural architecture searches. More specifically, by inspecting the best structures found during neuroevolutionary searches of generative adversarial networks with varying characteristics (e.g., based on dense or convolutional layers), we propose a Bayesian network-based model which can be used to either find strong neural structures right away, conveniently initialize different structural searches for different problems, or help future optimization of structures of any type to keep finding increasingly better structures where uninformed methods get stuck into local optima.
翻訳日:2023-03-29 09:17:39 公開日:2021-05-26
# 誤りのある学習からの効率的な量子公開鍵暗号

Efficient Quantum Public-Key Encryption From Learning With Errors ( http://arxiv.org/abs/2105.12790v1 )

ライセンス: Link先を確認
Javad Doliskani(参考訳) 提案手法は, 誤差学習問題(lwe)に対して, 量子多項式時間で解く場合と等価な外挿二面体コセット問題(edcp)に基づく量子公開鍵暗号方式である。 限られた公開鍵数(主にセキュリティパラメータで線形)に対して、提案手法は情報理論的に安全である。 公開鍵の多項式数に対して、スキームを破ることはLWE問題を解くのと同じくらい難しい。 我々のスキームにおける公開鍵は、サイズ$\tilde{o}(n)$ qubitsの量子状態である。 鍵生成と復号アルゴリズムは$\tilde{O}(n)$ qubit演算を必要とするが、暗号アルゴリズムは$O(1)$ qubit演算を必要とする。

Our main result is a quantum public-key encryption scheme based on the Extrapolated Dihedral Coset problem (EDCP) which is equivalent, under quantum polynomial-time reductions, to the Learning With Errors (LWE) problem. For limited number of public keys (roughly linear in the security parameter), the proposed scheme is information-theoretically secure. For polynomial number of public keys, breaking the scheme is as hard as solving the LWE problem. The public keys in our scheme are quantum states of size $\tilde{O}(n)$ qubits. The key generation and decryption algorithms require $\tilde{O}(n)$ qubit operations while the encryption algorithm takes $O(1)$ qubit operations.
翻訳日:2023-03-29 09:17:24 公開日:2021-05-26
# 各種最適化アルゴリズムが原子力発電所蒸気タービンのエクセルギー効率と破壊に及ぼす影響

The influence of various optimization algorithms on nuclear power plant steam turbine exergy efficiency and destruction ( http://arxiv.org/abs/2107.03897v1 )

ライセンス: Link先を確認
Vedran Mrzljak, Nikola An{\dj}eli\'c, Ivan Lorencin and Sandi Baressi \v{S}egota(参考訳) 本稿では,4つの異なる運転形態におけるタービン,タービンシリンダ,シリンダ部品全体のエクセルギー解析を行う。 解析タービンは原子力プラントで動作し、最適化アルゴリズムSA(Simplex Algorithm)、GA(Genetic Algorithm)、IGSA(Improved Genetic-Simplex Algorithm)の4つの運用系統のうち3つは最適化アルゴリズムを用いて得られる。 IGSAはタービン全体の機械パワーを1022.48 MWに、続いてGA(1020.06 MW)とSA(1017.16 MW)に、原型ではタービン全体の機械パワーを996.29 MWに向上させた。 加えて、IGSAは、最初の運用体制と比較して、ほとんどすべてのシリンダーとシリンダー部品の機械的パワーを最も高めている。 観測された全ての最適化アルゴリズムは、元の運用体制と比較してタービン全体のエクセルギー破壊を増加させる。 タービン全体の最高エクセルギー効率は85.92%とIGSAで、続いてGA(85.89%)とSA(85.82%)が続く。 湿式蒸気を用いた解析タービンは, 環境温度変化の影響を受けにくい。 解析されたタービンのエクセルギー解析パラメータにおいて, IGSAが優位な性能を示した場合, 状況によってはGAがオーバーパワーとなる。 そのため、蒸気タービン性能の最適化にはIGSAとGAが推奨される。

This paper presents an exergy analysis of the whole turbine, turbine cylinders and cylinder parts in four different operating regimes. Analyzed turbine operates in nuclear power plant while three of four operating regimes are obtained by using optimization algorithms - SA (Simplex Algorithm), GA (Genetic Algorithm) and IGSA (Improved Genetic-Simplex Algorithm). IGSA operating regime gives the highest developed mechanical power of the whole turbine equal to 1022.48 MW, followed by GA (1020.06 MW) and SA (1017.16 MW), while in Original operating regime whole turbine develop mechanical power equal to 996.29 MW. In addition, IGSA causes the highest increase in developed mechanical power of almost all cylinders and cylinder parts in comparison to the Original operating regime. All observed optimization algorithms increases the exergy destruction of the whole turbine in comparison to Original operating regime - the lowest increase causes IGSA, followed by GA and finally SA. The highest exergy efficiency of the whole turbine, equal to 85.92% is obtained by IGSA, followed by GA (85.89%) and SA (85.82%), while the lowest exergy efficiency is obtained in Original operating regime (85.70%). Analyzed turbine, which operates by using wet steam is low influenced by the ambient temperature change. IGSA, which shows dominant performance in exergy analysis parameters of the analyzed turbine, in certain situations is overpowered by GA. Therefore, in optimization of steam turbine performance, IGSA and GA can be recommended.
翻訳日:2023-03-29 09:10:11 公開日:2021-05-26
# 欧州委員会によるAI規制の評価

An Assessment of the AI Regulation Proposed by the European Commission ( http://arxiv.org/abs/2105.15133v1 )

ライセンス: Link先を確認
Patrick Glauner(参考訳) 2021年4月、欧州委員会はAIに関する規制案を発表した。 欧州連合(EU)内でAIの統一的な法的枠組みを構築することを目指している。 この章では、提案を分析し、評価する。 既存の規制により、実際に提案された規制は不要であることを示す。 また、この提案は明らかに過剰規制のリスクをもたらすと主張している。 その結果、医療などの安全クリティカルなアプリケーション分野におけるAIアプリケーションの使用や開発が、EUではほぼ不可能になる。 これはまた、中国やアメリカの企業をテクノロジーのリーダーシップで強化する可能性も高い。 我々の評価は2021年5月にドイツ連邦議会とフランス国民議会の欧州連合事務委員会合同会に提示した口頭証拠に基づいている。

In April 2021, the European Commission published a proposed regulation on AI. It intends to create a uniform legal framework for AI within the European Union (EU). In this chapter, we analyze and assess the proposal. We show that the proposed regulation is actually not needed due to existing regulations. We also argue that the proposal clearly poses the risk of overregulation. As a consequence, this would make the use or development of AI applications in safety-critical application areas, such as in healthcare, almost impossible in the EU. This would also likely further strengthen Chinese and US corporations in their technology leadership. Our assessment is based on the oral evidence we gave in May 2021 to the joint session of the European Union affairs committees of the German federal parliament and the French National Assembly.
翻訳日:2023-03-29 09:09:16 公開日:2021-05-26
# ワイヤ超格子におけるファノ共鳴における室温超伝導ドーム

Room temperature superconductivity dome at a Fano resonance in superlattices of wires ( http://arxiv.org/abs/2105.13123v1 )

ライセンス: Link先を確認
M.V. Mazziotti, T. Jarlborg, A. Bianconi, A. Valletta(参考訳) Tc=15°Cの室温超伝導は、炭素を添加したH3S合金である三元水和物CSHxで発見された。 H3Sのナノスケール構造は、超伝導ドームの上部で最大Tcが発生する室温超伝導体のための量子ワイヤの超格子の1993年の特許請求を特に実現したものである。 ここでは, ホールドープペロブスカイト, 有機物, a15金属間化合物, 加圧水素化物などの量子ワイヤの超格子からなる原子限界におけるナノスケールヘテロ構造を示す物質の電子構造に注目した。 本稿では, 圧力がトポロジカルリフシッツ転移付近の化学圧力をチューニングするH3Sに焦点をあてた超伝導ギャップにおいて, ファノ・フェシュバッハ共鳴(形状共鳴とも呼ばれる)で調整された異種材料の室温多ギャップ超伝導の理論を考察する。 ここでは、Tc対圧力の超伝導ドームは、電子-フォノン結合と接触交換相互作用の両方によって駆動される。 室温までのTc増幅は, 反断熱系における超伝導ギャップと断熱系における他のギャップとの間のファノ・フェシュバッハ共鳴によって引き起こされることを示す。 このような場合、接触交換相互作用によるTc増幅は、従来のマルチバンドBCSとクーパーペアのみを含む異方性ミグダル・エリシュベルグ理論の欠如項である。

Recently room temperature superconductivity with Tc=15 degrees Celsius has been discovered in a pressurized complex ternary hydride, CSHx, which is a carbon doped H3S alloy. The nanoscale structure of H3S is a particular realization of the 1993 patent claim of superlattice of quantum wires for room temperature superconductors where the maximum Tc occurs at the top of a superconducting dome. Here we focus on the electronic structure of materials showing nanoscale heterostructures at atomic limit made of a superlattice of quantum wires like hole doped cuprate perovskites, organics, A15 intermetallics and pressurized hydrides. We provide a perspective of the theory of room temperature multigap superconductivity in heterogeneous materials tuned at a Fano Feshbach resonance (called also shape resonance) in the superconducting gaps focusing on H3S where the maximum Tc occurs where the pressure tunes the chemical pressure near a topological Lifshitz transition. Here the superconductivity dome of Tc versus pressure is driven by both electron-phonon coupling and contact exchange interaction. We show that the Tc amplification up to room temperature is driven by the Fano Feshbach resonance between a superconducting gap in the anti-adiabatic regime and other gaps in the adiabatic regime. In these cases the Tc amplification via contact exchange interaction is the missing term in conventional multiband BCS and anisotropic Migdal-Eliashberg theories including only Cooper pairing
翻訳日:2023-03-29 09:06:42 公開日:2021-05-26
# 超伝導量子ビットにおける高次トポロジカル相と関連トポロジカル相転移のシミュレーション

Simulation of Higher-Order Topological Phases and Related Topological Phase Transitions in a Superconducting Qubit ( http://arxiv.org/abs/2001.03933v2 )

ライセンス: Link先を確認
Jingjing Niu, Tongxing Yan, Yuxuan Zhou, Ziyu Tao, Xiaole Li, Weiyang Liu, Libo Zhang, Song Liu, Zhongbo Yan, Yuanzhen Chen, Dapeng Yu(参考訳) 高次のトポロジカル位相は、新しいバルクおよび境界物理学、およびトポロジカル位相遷移の新しいクラスをもたらす。 ギャップのない境界モードの存在を検出することで、多くのプラットフォームで高次位相相の実現が確認されているが、実験におけるバルクを通る高次トポロジーと関連する位相相転移の直接決定はいまだに不足している。 このギャップを埋めるために, 超伝導量子ビット内の二次元2次位相相のシミュレーションを行う。 量子シミュレータの柔軟性と制御性の高さから,実空間におけるギャップのない境界モードの検出に基づく従来の実験とは対照的に,バルクの運動量空間における擬似スピンテクスチャを初めて測定し,高次トポロジーの実現を観察した。 また,パラメータを用いた擬似スピンテクスチャの進化の測定により,第2次位相相から自明相への新しい位相相転移や,ゼロチャーン数でない第1次位相相についてもさらに観察する。 我々の研究は、高次トポロジカル位相とトポロジカル位相遷移の研究に新たな光を当てている。

Higher-order topological phases give rise to new bulk and boundary physics, as well as new classes of topological phase transitions. While the realization of higher-order topological phases has been confirmed in many platforms by detecting the existence of gapless boundary modes, a direct determination of the higher-order topology and related topological phase transitions through the bulk in experiments has still been lacking. To bridge the gap, in this work we carry out the simulation of a two-dimensional second-order topological phase in a superconducting qubit. Owing to the great flexibility and controllability of the quantum simulator, we observe the realization of higher-order topology directly through the measurement of the pseudo-spin texture in momentum space of the bulk for the first time, in sharp contrast to previous experiments based on the detection of gapless boundary modes in real space. Also through the measurement of the evolution of pseudo-spin texture with parameters, we further observe novel topological phase transitions from the second-order topological phase to the trivial phase, as well as to the first-order topological phase with nonzero Chern number. Our work sheds new light on the study of higher-order topological phases and topological phase transitions.
翻訳日:2023-01-12 05:06:47 公開日:2021-05-26
# 変分推論におけるベイズ優先とペナルティの等価性

An Equivalence between Bayesian Priors and Penalties in Variational Inference ( http://arxiv.org/abs/2002.00178v2 )

ライセンス: Link先を確認
Pierre Wolinski, Guillaume Charpiat, Yann Ollivier(参考訳) 機械学習では、パラメータのいくつかの値をペナライズするアドホック正規化項によって変調される確率モデルのパラメータを最適化することが一般的である。 正規化項は、変分推論 (vi) において自然に現れる: 最適化の損失は、近似後段とベイズ前段の間のクルバック・リーバー分岐項を含む。 この方法で生じる正規化子を完全に特徴付けし、対応する事前値を体系的に計算する方法を提供する。 この視点はまた、ニューラルネットワークにおける正規化係数の有用な値を予測する。 この枠組みを L2, L1, group-Lasso などの正規化器に適用する。

In machine learning, it is common to optimize the parameters of a probabilistic model, modulated by an ad hoc regularization term that penalizes some values of the parameters. Regularization terms appear naturally in Variational Inference (VI), a tractable way to approximate Bayesian posteriors: the loss to optimize contains a Kullback--Leibler divergence term between the approximate posterior and a Bayesian prior. We fully characterize which regularizers can arise this way, and provide a systematic way to compute the corresponding prior. This viewpoint also provides a prediction for useful values of the regularization factor in neural networks. We apply this framework to regularizers such as L2, L1 or group-Lasso.
翻訳日:2023-01-05 00:47:47 公開日:2021-05-26
# 過パラメータ非線形システムとニューラルネットワークにおけるロスランドスケープと最適化

Loss landscapes and optimization in over-parameterized non-linear systems and neural networks ( http://arxiv.org/abs/2003.00307v2 )

ライセンス: Link先を確認
Chaoyue Liu, Libin Zhu, Mikhail Belkin(参考訳) ディープラーニングの成功は、大規模ニューラルネットワークに適用される勾配に基づく最適化手法の顕著な有効性に起因している。 本研究の目的は、過度パラメータ化されたディープラーニングモデルと非線形方程式のシステムにおいて、損失ランドスケープと効率的な最適化のための現代的なビューと一般的な数学的フレームワークを提案することである。 このようなシステムに対応する最適化問題は、一般的には局所的にも凸ではない。 代わりに、パラメータ空間のほとんどの(すべてではないが)ポリアック-ロジャシェヴィチ条件の変種であるpl$^*$を満たし、解の存在と(統計的)勾配降下(sgd/gd)による効率的な最適化の両方を保証する。 これらの系のpl$^*$条件は、pl$^*$ベースの非線形理論が超パラメータ線型方程式の古典解析とどのように平行するかを示す非線形系に関連する接核の条件数と密接に関係している。 広帯域ニューラルネットワークはpl$^*$条件を満たしており、これは(s)gd収束を大域的最小値に説明している。 最後に、「ほぼ」過パラメータ化系に適用可能なPL$^*$条件の緩和を提案する。

The success of deep learning is due, to a large extent, to the remarkable effectiveness of gradient-based optimization methods applied to large neural networks. The purpose of this work is to propose a modern view and a general mathematical framework for loss landscapes and efficient optimization in over-parameterized machine learning models and systems of non-linear equations, a setting that includes over-parameterized deep neural networks. Our starting observation is that optimization problems corresponding to such systems are generally not convex, even locally. We argue that instead they satisfy PL$^*$, a variant of the Polyak-Lojasiewicz condition on most (but not all) of the parameter space, which guarantees both the existence of solutions and efficient optimization by (stochastic) gradient descent (SGD/GD). The PL$^*$ condition of these systems is closely related to the condition number of the tangent kernel associated to a non-linear system showing how a PL$^*$-based non-linear theory parallels classical analyses of over-parameterized linear equations. We show that wide neural networks satisfy the PL$^*$ condition, which explains the (S)GD convergence to a global minimum. Finally we propose a relaxation of the PL$^*$ condition applicable to "almost" over-parameterized systems.
翻訳日:2022-12-27 20:35:09 公開日:2021-05-26
# 球状主曲線

Spherical Principal Curves ( http://arxiv.org/abs/2003.02578v3 )

ライセンス: Link先を確認
Jang-Hyun Kim, Jongmin Lee, Hee-Seok Oh(参考訳) 本稿では,球面で観測されたデータの次元減少に対する新しいアプローチを提案する。 近年,非ユークリッドデータの解析のためにいくつかの次元低減技術が開発されている。 先駆的な研究として、Hauberg (2016) はリーマン多様体上の主曲線の実装を試みた。 しかし、このアプローチは近似を用いてリーマン多様体のデータを扱い、歪んだ結果を引き起こす。 本研究では,データの連続曲線への投影によって球面上の主曲線を構成する新しい手法を提案する。 我々のアプローチは、ユークリッド空間データに対する主曲線を提案したHastie and Stuetzle (1989) と同じ直線にある。 さらに,球面上の自己整合性を満たす主曲線の定常性について検討する。 地震データとシミュレーション例を用いた実データ解析の結果,提案手法の有望な経験的特性が示された。

This paper presents a new approach for dimension reduction of data observed in a sphere. Several dimension reduction techniques have recently developed for the analysis of non-Euclidean data. As a pioneer work, Hauberg (2016) attempted to implement principal curves on Riemannian manifolds. However, this approach uses approximations to deal with data on Riemannian manifolds, which causes distorted results. In this study, we propose a new approach to construct principal curves on a sphere by a projection of the data onto a continuous curve. Our approach lies in the same line of Hastie and Stuetzle (1989) that proposed principal curves for Euclidean space data. We further investigate the stationarity of the proposed principal curves that satisfy the self-consistency on a sphere. Results from real data analysis with earthquake data and simulation examples demonstrate the promising empirical properties of the proposed approach.
翻訳日:2022-12-26 07:28:32 公開日:2021-05-26
# 自動運転車にコマンドを与える:ビジュアルグラウンドのためのマルチモーダル推論

Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual Grounding ( http://arxiv.org/abs/2003.08717v3 )

ライセンス: Link先を確認
Thierry Deruyttere, Guillem Collell, Marie-Francine Moens(参考訳) 本稿では,ビジュアルグラウンド(VG)タスクのための空間記憶モジュールと空間推論器を提案する。 このタスクの目標は、与えられたテキストクエリに基づいて画像中の特定のオブジェクトを見つけることである。 本研究は,地域提案ネットワーク(RPN)の領域を多段階推論モデルに統合することに焦点を当て,MSRR(Multimodal Spatial Region Reasoner)と名付けた。 提案モデルでは,RPNのオブジェクト領域を2次元空間メモリの初期化として使用し,クエリに応じて各領域をスコアリングする多段階推論プロセスを実装した。 我々は,この新モデルを挑戦的データセット上で評価し,我々の実験により,画像のオブジェクト領域とクエリの単語を共同で原因付けるモデルが,現在の最先端モデルと比較して精度を大幅に向上することを示した。

We propose a new spatial memory module and a spatial reasoner for the Visual Grounding (VG) task. The goal of this task is to find a certain object in an image based on a given textual query. Our work focuses on integrating the regions of a Region Proposal Network (RPN) into a new multi-step reasoning model which we have named a Multimodal Spatial Region Reasoner (MSRR). The introduced model uses the object regions from an RPN as initialization of a 2D spatial memory and then implements a multi-step reasoning process scoring each region according to the query, hence why we call it a multimodal reasoner. We evaluate this new model on challenging datasets and our experiments show that our model that jointly reasons over the object regions of the image and words of the query largely improves accuracy compared to current state-of-the-art models.
翻訳日:2022-12-22 03:31:37 公開日:2021-05-26
# MRIからのモデル疾患進展に対する経時的プール法と一貫性規則化

Longitudinal Pooling & Consistency Regularization to Model Disease Progression from MRIs ( http://arxiv.org/abs/2003.13958v2 )

ライセンス: Link先を確認
Jiahong Ouyang, Qingyu Zhao, Edith V Sullivan, Adolf Pfefferbaum, Susan F. Tapert, Ehsan Adeli, Kilian M Pohl(参考訳) 多くの神経疾患は、徐々に脳の構造と機能の悪化によって特徴づけられる。 大規模なMRIデータセットでは、診断の予測に機械学習とディープラーニングを適用することで、そのような劣化が明らかにされている。 一般的なアプローチは、畳み込みニューラルネットワーク(CNN)を使用して、縦方向MRIの各訪問から情報的特徴を抽出し、それらの特徴を使用して、リカレントニューラルネットワーク(RNN)を介して各訪問を分類することである。 このようなモデルでは疾患の進行性が無視され、臨床上は見当たらない分類になる可能性がある。 この問題を回避するため, 特徴抽出と新しい長手プール層を結合して, 来訪者間の特徴抽出を行い, 病状進行に伴う分類の整合性を確保することを提案する。 アルツハイマー病神経画像イニシアチブ (ADNI, N=404), 正常コントロール274例, アルコール使用障害329例, 若年者におけるアルコール・神経発達に関する全国コンソーシアム (NCANDA) の255名の若年者を対象とした。 3つの実験すべてにおいて,この手法は,他の広く用いられている縦断分類法よりも優れているため,脳への条件の影響をより正確に追跡する上で,ユニークな貢献をしている。 コードはhttps://github.com/ouyangjiahong/longitudinal-poolingで入手できる。

Many neurological diseases are characterized by gradual deterioration of brain structure and function. Large longitudinal MRI datasets have revealed such deterioration, in part, by applying machine and deep learning to predict diagnosis. A popular approach is to apply Convolutional Neural Networks (CNN) to extract informative features from each visit of the longitudinal MRI and then use those features to classify each visit via Recurrent Neural Networks (RNNs). Such modeling neglects the progressive nature of the disease, which may result in clinically implausible classifications across visits. To avoid this issue, we propose to combine features across visits by coupling feature extraction with a novel longitudinal pooling layer and enforce consistency of the classification across visits in line with disease progression. We evaluate the proposed method on the longitudinal structural MRIs from three neuroimaging datasets: Alzheimer's Disease Neuroimaging Initiative (ADNI, N=404), a dataset composed of 274 normal controls and 329 patients with Alcohol Use Disorder (AUD), and 255 youths from the National Consortium on Alcohol and NeuroDevelopment in Adolescence (NCANDA). In all three experiments our method is superior to other widely used approaches for longitudinal classification thus making a unique contribution towards more accurate tracking of the impact of conditions on the brain. The code is available at https://github.com/ouyangjiahong/longitudinal-pooling.
翻訳日:2022-12-18 01:42:16 公開日:2021-05-26
# plucker座標による低ランク行列完備理論

Low-rank matrix completion theory via Plucker coordinates ( http://arxiv.org/abs/2004.12430v5 )

ライセンス: Link先を確認
Manolis C. Tsakiris(参考訳) 低ランク行列完備化の人気にもかかわらず、その理論の大部分はランダムな観察パターンの仮定の下で発展してきたが、非ランダムパターンの実際的なケースについてはほとんど知られていない。 具体的には、基本的かつ大半オープンな問題は、一意あるいは有限個の完備化を可能にするパターンを記述することである。 この論文は、どの階級にもそのようなパターンの2つのファミリーを提供する。 これを達成するための鍵は、Plucker座標の観点で低ランク行列補完の新たな定式化であり、後者はコンピュータビジョンにおける伝統的なツールである。 この接続は、不完全データに対する幅広い行列および部分空間学習問題に対して潜在的に重要である。

Despite the popularity of low-rank matrix completion, the majority of its theory has been developed under the assumption of random observation patterns, whereas very little is known about the practically relevant case of non-random patterns. Specifically, a fundamental yet largely open question is to describe patterns that allow for unique or finitely many completions. This paper provides two such families of patterns for any rank. A key to achieving this is a novel formulation of low-rank matrix completion in terms of Plucker coordinates, the latter a traditional tool in computer vision. This connection is of potential significance to a wide family of matrix and subspace learning problems with incomplete data.
翻訳日:2022-12-09 13:18:52 公開日:2021-05-26
# 機械読解モデルのベンチマークロバスト性

Benchmarking Robustness of Machine Reading Comprehension Models ( http://arxiv.org/abs/2004.14004v2 )

ライセンス: Link先を確認
Chenglei Si, Ziqing Yang, Yiming Cui, Wentao Ma, Ting Liu, Shijin Wang(参考訳) Machine Reading Comprehension (MRC)は、モデルの自然言語理解能力を評価するための重要なテストベッドである。 この分野は急速に進歩し、新しいモデルは様々なベンチマークで印象的なパフォーマンスを達成した。 しかし、既存のベンチマークでは、テスト時の摂動や敵攻撃下での堅牢性を考慮せずにドメイン内テストセットのモデルを評価するのみである。 この重要なギャップを埋めるために、我々は、新しいトラクタ抽出と生成攻撃を含む4つの異なる種類の敵攻撃の下で、MRCモデルの堅牢性を評価するための新しいモデル非依存ベンチマークであるAdvRACE(Adversarial RACE)を構築した。 最新技術(SOTA)モデルはこれらの攻撃に対して脆弱であることを示す。 我々は、より堅牢なMCCモデルを構築する余地があり、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。 データとコードはhttps://github.com/NoviScl/AdvRACE で公開しています。

Machine Reading Comprehension (MRC) is an important testbed for evaluating models' natural language understanding (NLU) ability. There has been rapid progress in this area, with new models achieving impressive performance on various benchmarks. However, existing benchmarks only evaluate models on in-domain test sets without considering their robustness under test-time perturbations or adversarial attacks. To fill this important gap, we construct AdvRACE (Adversarial RACE), a new model-agnostic benchmark for evaluating the robustness of MRC models under four different types of adversarial attacks, including our novel distractor extraction and generation attacks. We show that state-of-the-art (SOTA) models are vulnerable to all of these attacks. We conclude that there is substantial room for building more robust MRC models and our benchmark can help motivate and measure progress in this area. We release our data and code at https://github.com/NoviScl/AdvRACE .
翻訳日:2022-12-08 13:33:16 公開日:2021-05-26
# CARRADAデータセット:レンジアングル・ドップラーアノテーション付きカメラと自動車レーダ

CARRADA Dataset: Camera and Automotive Radar with Range-Angle-Doppler Annotations ( http://arxiv.org/abs/2005.01456v6 )

ライセンス: Link先を確認
A. Ouaknine, A. Newson, J. Rebut, F. Tupin and P. P\'erez(参考訳) 自律運転(AD)システムには高品質な認識が不可欠である。 このようなシステムに必要な精度と堅牢性を達成するためには、いくつかの種類のセンサーを組み合わせる必要がある。 現在、ほとんどのカメラとレーザースキャナー(lidar)は、車両の周りの世界の表現を構築するために配備されている。 レーダセンサーは自動車業界で長年使われてきたが、その魅力的な特性(特に障害物の相対速度を計測し、悪天候でも作動する能力)にもかかわらず、広告には使われていない。 この状況は、生とアノテートの両方の実際のレーダー信号を持つ自動車データセットが比較的不足しているためである。 本研究では,カメラとレーダの同期記録とレンジアングル・ドップラーアノテーションのデータセットであるCARRADAを紹介する。 また、データセットのアノテートに使用されたセミオートマチックなアノテーションアプローチと、いくつかのメトリクスで評価したレーダーセマンティックセグメンテーションベースラインを提案する。 コードとデータセットはオンラインで利用可能です。

High quality perception is essential for autonomous driving (AD) systems. To reach the accuracy and robustness that are required by such systems, several types of sensors must be combined. Currently, mostly cameras and laser scanners (lidar) are deployed to build a representation of the world around the vehicle. While radar sensors have been used for a long time in the automotive industry, they are still under-used for AD despite their appealing characteristics (notably, their ability to measure the relative speed of obstacles and to operate even in adverse weather conditions). To a large extent, this situation is due to the relative lack of automotive datasets with real radar signals that are both raw and annotated. In this work, we introduce CARRADA, a dataset of synchronized camera and radar recordings with range-angle-Doppler annotations. We also present a semi-automatic annotation approach, which was used to annotate the dataset, and a radar semantic segmentation baseline, which we evaluate on several metrics. Both our code and dataset are available online.
翻訳日:2022-12-07 01:15:34 公開日:2021-05-26
# KGTK: 大規模知識グラフ操作と解析のためのツールキット

KGTK: A Toolkit for Large Knowledge Graph Manipulation and Analysis ( http://arxiv.org/abs/2006.00088v3 )

ライセンス: Link先を確認
Filip Ilievski and Daniel Garijo and Hans Chalupsky and Naren Teja Divvala and Yixiang Yao and Craig Rogers and Rongpeng Li and Jun Liu and Amandeep Singh and Daniel Schwabe and Pedro Szekely(参考訳) 知識グラフ(KG)は、現代のAIアプリケーションに知識を表現、共有、付加する技術として好まれている。 KGは主流技術になっているが、RDF/SPARQL中心の大規模運用ツールセットは異種であり、統合が困難であり、データサイエンスアプリケーションで一般的に必要とされる操作のサブセットのみをカバーする。 本稿では,kgsの表現,生成,変換,拡張,解析を行うデータサイエンス中心のツールキットであるkgtkについて述べる。 kgtkはテーブル内のグラフを表し、データサイエンスアプリケーション用に開発された一般的なライブラリを活用することで、アプリケーション用のナレッジグラフパイプラインを簡単に構築できる。 我々はKGTKを使ってWikidataやDBpedia、ConceptNetといった大規模なKGを統合・操作する現実世界のシナリオでフレームワークを説明する。

Knowledge graphs (KGs) have become the preferred technology for representing, sharing and adding knowledge to modern AI applications. While KGs have become a mainstream technology, the RDF/SPARQL-centric toolset for operating with them at scale is heterogeneous, difficult to integrate and only covers a subset of the operations that are commonly needed in data science applications. In this paper we present KGTK, a data science-centric toolkit designed to represent, create, transform, enhance and analyze KGs. KGTK represents graphs in tables and leverages popular libraries developed for data science applications, enabling a wide audience of developers to easily construct knowledge graph pipelines for their applications. We illustrate the framework with real-world scenarios where we have used KGTK to integrate and manipulate large KGs, such as Wikidata, DBpedia and ConceptNet.
翻訳日:2022-11-26 23:40:00 公開日:2021-05-26
# codinet: 動的ルーティングのための一貫性と多様性を備えた経路分布モデリング

CoDiNet: Path Distribution Modeling with Consistency and Diversity for Dynamic Routing ( http://arxiv.org/abs/2005.14439v3 )

ライセンス: Link先を確認
Huanyu Wang, Zequn Qin, Songyuan Li, and Xi Li(参考訳) ネットワーク内の最適なルーティング経路を見つけることを目的とした動的ルーティングネットワークは、精度と効率の面でニューラルネットワークを大幅に改善した。 本稿では,サンプル空間からルーティング空間へのマッピングとしてルーティング法を定式化した,新しい光の下での動的ルーティングネットワークについて述べる。 空間マッピングの観点からは、動的ルーティングの一般的な方法は、ルーティング空間における推論パスをどのように分散するかを考慮しなかった。 そこで本研究では,ルーティング経路の分布を一貫性と多様性の特性で規則化することにより,サンプル空間とルーティング空間の関係をモデル化する手法であるCoDiNetを提案する。 具体的には、類似のセマンティクスを持つサンプルをルーティング空間内の同じ領域にマッピングし、類似したセマンティクスを持つサンプルを異なる領域にマッピングする。 さらに、精度と効率のバランスをとることができるカスタマイズ可能な動的ルーティングモジュールを設計した。 ResNetモデルにデプロイすると,提案手法は高い性能を実現し,広く使用されている4つのデータセットの平均計算コストを効果的に削減する。

Dynamic routing networks, aimed at finding the best routing paths in the networks, have achieved significant improvements to neural networks in terms of accuracy and efficiency. In this paper, we see dynamic routing networks in a fresh light, formulating a routing method as a mapping from a sample space to a routing space. From the perspective of space mapping, prevalent methods of dynamic routing didn't consider how inference paths would be distributed in the routing space. Thus, we propose a novel method, termed CoDiNet, to model the relationship between a sample space and a routing space by regularizing the distribution of routing paths with the properties of consistency and diversity. Specifically, samples with similar semantics should be mapped into the same area in routing space, while those with dissimilar semantics should be mapped into different areas. Moreover, we design a customizable dynamic routing module, which can strike a balance between accuracy and efficiency. When deployed upon ResNet models, our method achieves higher performance and effectively reduces average computational cost on four widely used datasets.
翻訳日:2022-11-26 23:30:59 公開日:2021-05-26
# 好奇心は猫と漸近的に最適な薬を殺傷または無力化した

Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal Agent ( http://arxiv.org/abs/2006.03357v2 )

ライセンス: Link先を確認
Michael K. Cohen and Elliot Catt and Marcus Hutter(参考訳) 強化学習者は、高い報酬につながる行動を選ぶことを学ぶエージェントです。 理想的には、強化学習者の政策の価値は最適性に近づき、最適情報政策は報酬を最大化するものである。 残念なことに、もしエージェントが任意の(統計的に計算可能な)環境において「漸近的に最適」であると保証され、真の環境に関する仮定に従うと、このエージェントは確率1で「破壊」されるか「機能不全」となる。 強化学習における多くの仕事は、この問題を避けるためにエルゴディシティの仮定を用いる。 仮定を単純化した理論的な研究を行うことで、仮定がなくても実用的な解決策を提供することができるが、強化学習における人間性仮定は、危険な環境下でのエージェントの安全かつ効果的な探索戦略の策定に全力を注いでいる可能性がある。 問題を想定する代わりに、エージェントであるmenteeに、メンターのパフォーマンスに近づくという控えめな保証を与え、無謀な探索ではなく安全な探索を行います。 批判的に、メンティーの探索確率は探索から得られる期待情報に依存する。 弱いメンターを持つ単純な非エルゴード環境では、メンティーは既存の漸近的に最適なエージェントとそのメンターよりも優れています。

Reinforcement learners are agents that learn to pick actions that lead to high reward. Ideally, the value of a reinforcement learner's policy approaches optimality--where the optimal informed policy is the one which maximizes reward. Unfortunately, we show that if an agent is guaranteed to be "asymptotically optimal" in any (stochastically computable) environment, then subject to an assumption about the true environment, this agent will be either "destroyed" or "incapacitated" with probability 1. Much work in reinforcement learning uses an ergodicity assumption to avoid this problem. Often, doing theoretical research under simplifying assumptions prepares us to provide practical solutions even in the absence of those assumptions, but the ergodicity assumption in reinforcement learning may have led us entirely astray in preparing safe and effective exploration strategies for agents in dangerous environments. Rather than assuming away the problem, we present an agent, Mentee, with the modest guarantee of approaching the performance of a mentor, doing safe exploration instead of reckless exploration. Critically, Mentee's exploration probability depends on the expected information gain from exploring. In a simple non-ergodic environment with a weak mentor, we find Mentee outperforms existing asymptotically optimal agents and its mentor.
翻訳日:2022-11-25 02:50:41 公開日:2021-05-26
# 双方向学習ビデオ圧縮におけるエンドツーエンド速度歪み最適化

End-to-End Rate-Distortion Optimization for Bi-Directional Learned Video Compression ( http://arxiv.org/abs/2008.05028v2 )

ライセンス: Link先を確認
M. Akin Yilmaz and A. Murat Tekalp(参考訳) 従来のビデオ圧縮手法では、線形変換とブロック運動モデルを用い、動作推定、モードおよび量子化パラメータの選択、エントロピー符号化の各ステップは、エンドツーエンド最適化問題の組合せの性質により個別に最適化される。 学習ビデオ圧縮は、すべての非線形モジュール、量子化パラメータ、エントロピーモデルを同時にエンドツーエンドのレートゆがめ最適化したトレーニングを可能にする。 学習ビデオ圧縮における従来の研究は,一対の連続フレームに対するコスト平均のエンドツーエンド最適化に基づくシーケンシャルビデオコーデックのトレーニングを検討したが,従来のビデオ圧縮では階層的な双方向符号化の方が逐次圧縮に優れていたことがよく知られている。 本稿では,画像の固定サイズグループ(GOP)に対するコスト関数の蓄積により,階層的かつ双方向な動き補償学習コーデックのエンドツーエンド最適化を初めて提案する。 実験結果から,提案した学習双方向GOPコーダの速度歪み性能は,最先端のエンドツーエンド最適化学習逐次圧縮よりも期待通りに優れていた。

Conventional video compression methods employ a linear transform and block motion model, and the steps of motion estimation, mode and quantization parameter selection, and entropy coding are optimized individually due to combinatorial nature of the end-to-end optimization problem. Learned video compression allows end-to-end rate-distortion optimized training of all nonlinear modules, quantization parameter and entropy model simultaneously. While previous work on learned video compression considered training a sequential video codec based on end-to-end optimization of cost averaged over pairs of successive frames, it is well-known in conventional video compression that hierarchical, bi-directional coding outperforms sequential compression. In this paper, we propose for the first time end-to-end optimization of a hierarchical, bi-directional motion compensated learned codec by accumulating cost function over fixed-size groups of pictures (GOP). Experimental results show that the rate-distortion performance of our proposed learned bi-directional {\it GOP coder} outperforms the state-of-the-art end-to-end optimized learned sequential compression as expected.
翻訳日:2022-10-31 12:31:32 公開日:2021-05-26
# 自律走行のための単眼インスタンスモーションセグメンテーション:KITTIインスタンスMotSegデータセットとマルチタスクベースライン

Monocular Instance Motion Segmentation for Autonomous Driving: KITTI InstanceMotSeg Dataset and Multi-task Baseline ( http://arxiv.org/abs/2008.07008v4 )

ライセンス: Link先を確認
Eslam Mohamed, Mahmoud Ewaisha, Mennatullah Siam, Hazem Rashed, Senthil Yogamani, Waleed Hamdy, Muhammad Helmi and Ahmad El-Sallab(参考訳) 移動対象のセグメンテーションは、自律走行車にとって重要なタスクであり、その動きの手がかりに基づいて、クラスに依存しない方法でオブジェクトをセグメンテーションすることができる。 トレーニング中の見えない物体(ムースや建設トラックなど)を、その動きに基づいて検出し、外観から独立させることができる。 ピクセル単位の運動分割は自動運転の文献で研究されているが、インスタンスレベルでの対応はまれであり、移動物体の連結セグメントを分離して軌道計画を改善するのに役立つ。 主要な課題は、大規模なパブリックデータセットの欠如であるので、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。 インスタンスレベルのアノテーションの提供に加えて、クラスに依存しないモーションセグメンテーションを研究する上で重要な4つのクラスを追加しました。 データセットのベースラインとして機能するモーションベースクラス非依存のインスタンスセグメンテーションモデルを実装します。 また、エンコーダを共有するセマンティックなインスタンスセグメンテーションを提供する効率的なマルチタスクモデルにも拡張する。 モデルは、冗長な安全性のために2つの独立したオブジェクト検出経路を提供するクラス非依存とセマンティックヘッド内の別々のプロトタイプ係数を学習する。 リアルタイム性能を得るため,MobileNetV2 を用いて,Titan Xp GPU 上で 39 fps の高効率エンコーダを試作し,ベースラインに対して 10% mAP の改善を実現した。 本モデルでは, 従来の動作分割法を3.3%改善する。 データセットと質的な結果のビデオは、https://sites.google.com/view/instancemotseg/で共有されています。

Moving object segmentation is a crucial task for autonomous vehicles as it can be used to segment objects in a class agnostic manner based on their motion cues. It enables the detection of unseen objects during training (e.g., moose or a construction truck) based on their motion and independent of their appearance. Although pixel-wise motion segmentation has been studied in autonomous driving literature, it has been rarely addressed at the instance level, which would help separate connected segments of moving objects leading to better trajectory planning. As the main issue is the lack of large public datasets, we create a new InstanceMotSeg dataset comprising of 12.9K samples improving upon our KITTIMoSeg dataset. In addition to providing instance level annotations, we have added 4 additional classes which is crucial for studying class agnostic motion segmentation. We adapt YOLACT and implement a motion-based class agnostic instance segmentation model which would act as a baseline for the dataset. We also extend it to an efficient multi-task model which additionally provides semantic instance segmentation sharing the encoder. The model then learns separate prototype coefficients within the class agnostic and semantic heads providing two independent paths of object detection for redundant safety. To obtain real-time performance, we study different efficient encoders and obtain 39 fps on a Titan Xp GPU using MobileNetV2 with an improvement of 10% mAP relative to the baseline. Our model improves the previous state of the art motion segmentation method by 3.3%. The dataset and qualitative results video are shared in our website at https://sites.google.com/view/instancemotseg/.
翻訳日:2022-10-28 12:08:54 公開日:2021-05-26
# 教師なし領域適応による非参照画面画像品質評価

No-reference Screen Content Image Quality Assessment with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2008.08561v4 )

ライセンス: Link先を確認
Baoliang Chen, Haoliang Li, Hongfei Fan and Shiqi Wang(参考訳) 本稿では,光学カメラが取得していない画像(スクリーンコンテンツ画像,SCIなど)に対して,人間の視覚系が自然環境の知覚を通じて適応し進化してきたという広く受け入れられている見解に根ざして,自然景観画像の品質を伝達する能力を求める。 そこで本研究では,SCIの参照品質評価手法として,自然画像(NI)のリッチな主観評価を利用する非教師なし領域適応法を開発した。 一般に、品質予測モデルをnisから、劇的に異なる統計特性を持つ新しいタイプのコンテンツ(すなわちsas)に直接転送することは、非自明なタスクである。 対関係の伝達可能性に着想を得て,提案する品質尺度は,伝達可能性と識別性を同時に向上する哲学に基づいて動作する。 特に,3種類の損失を導入し,段階的にランク付けする特徴空間を補完的かつ明示的に調整する。 特徴判別能力の強化については,分類器の修正と予測能力の向上のために,ソースドメイン (ni) だけでなくターゲットドメイン (sci) についてもセンターベースロスを提案する。 特徴差最小化のために、NIとSCIの抽出したランキング特徴に最大平均誤差(MMD)を課す。 さらに, 特徴の多様性をさらに高めるため, 異なる特徴次元間の相関ペナリゼーションを導入し, 低いランクと高い多様性を持つ特徴に繋がる。 実験により, 重み付き畳み込みニューラルネットワークを用いて, 異なるソースターゲット設定で高い性能が得られることを示した。 提案手法は,難易度や主観評価のコストを伴わずに,未認識のアプリケーション固有のコンテンツに対する学習品質評価手法にも光を当てている。

In this paper, we quest the capability of transferring the quality of natural scene images to the images that are not acquired by optical cameras (e.g., screen content images, SCIs), rooted in the widely accepted view that the human visual system has adapted and evolved through the perception of natural environment. Here, we develop the first unsupervised domain adaptation based no reference quality assessment method for SCIs, leveraging rich subjective ratings of the natural images (NIs). In general, it is a non-trivial task to directly transfer the quality prediction model from NIs to a new type of content (i.e., SCIs) that holds dramatically different statistical characteristics. Inspired by the transferability of pair-wise relationship, the proposed quality measure operates based on the philosophy of improving the transferability and discriminability simultaneously. In particular, we introduce three types of losses which complementarily and explicitly regularize the feature space of ranking in a progressive manner. Regarding feature discriminatory capability enhancement, we propose a center based loss to rectify the classifier and improve its prediction capability not only for source domain (NI) but also the target domain (SCI). For feature discrepancy minimization, the maximum mean discrepancy (MMD) is imposed on the extracted ranking features of NIs and SCIs. Furthermore, to further enhance the feature diversity, we introduce the correlation penalization between different feature dimensions, leading to the features with lower rank and higher diversity. Experiments show that our method can achieve higher performance on different source-target settings based on a light-weight convolution neural network. The proposed method also sheds light on learning quality assessment measures for unseen application-specific content without the cumbersome and costing subjective evaluations.
翻訳日:2022-10-27 12:08:09 公開日:2021-05-26
# 線形最適輸送埋め込み:ある剛性変換と摂動に対する証明可能なwaserstein分類

Linear Optimal Transport Embedding: Provable Wasserstein classification for certain rigid transformations and perturbations ( http://arxiv.org/abs/2008.09165v3 )

ライセンス: Link先を確認
Caroline Moosm\"uller and Alexander Cloninger(参考訳) 分布の区別は多くの科学分野において重要な問題である。 これは、分布の空間を$L^2$-空間に埋め込む線形最適輸送(LOT)の導入の動機となった。 この変換は、各分布の固定参照分布への最適移動を計算することで定義され、計算速度や分類境界の決定に関して多くの利点がある。 本稿では,LOTが分布の族を線形に分離可能な空間に埋め込むいくつかの設定を特徴付ける。 これは任意の次元において真であり、固定分布のシフトとスケーリングの摂動によって生成される分布の族に対しては、任意の次元における2つの分布間のLOTの$L^2$距離がそれらの分布間のワッサーシュタイン-2距離とほぼ等角であることを示す。 これは、$N$の最適輸送写像のみを計算し、$N$の分布間の対距離を$N^2$と定義しなければならないため、大きな計算上の利点である。 我々は,多くの分布分類問題に対する多くの利点を示す。

Discriminating between distributions is an important problem in a number of scientific fields. This motivated the introduction of Linear Optimal Transportation (LOT), which embeds the space of distributions into an $L^2$-space. The transform is defined by computing the optimal transport of each distribution to a fixed reference distribution, and has a number of benefits when it comes to speed of computation and to determining classification boundaries. In this paper, we characterize a number of settings in which LOT embeds families of distributions into a space in which they are linearly separable. This is true in arbitrary dimension, and for families of distributions generated through perturbations of shifts and scalings of a fixed distribution.We also prove conditions under which the $L^2$ distance of the LOT embedding between two distributions in arbitrary dimension is nearly isometric to Wasserstein-2 distance between those distributions. This is of significant computational benefit, as one must only compute $N$ optimal transport maps to define the $N^2$ pairwise distances between $N$ distributions. We demonstrate the benefits of LOT on a number of distribution classification problems.
翻訳日:2022-10-27 03:13:30 公開日:2021-05-26
# Pollux: グッドプット最適化ディープラーニングのための共適応クラスタスケジューリング

Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning ( http://arxiv.org/abs/2008.12260v2 )

ライセンス: Link先を確認
Aurick Qiao, Sang Keun Choe, Suhas Jayaram Subramanya, Willie Neiswanger, Qirong Ho, Hao Zhang, Gregory R. Ganger, Eric P. Xing(参考訳) Polluxは、ディープラーニング(DL)クラスタのスケジューリング性能を改善し、ジョブごとのレベルとクラスタ全体のレベルの両方で、依存する要因を適応的に最適化する。 既存のスケジューラの多くは、ユーザが各ジョブのリソース数を指定することを期待しています。 最近のスケジューラは、ユーザのためにジョブリソースを選択するが、提供されたリソースをより活用するためにdlトレーニングをどのように再最適化できるかを意識せずに、そうする。 Polluxは両方の側面を同時に検討する。 トレーニング中の各ジョブの状態を監視することで、poluxは、リソースの追加や削除によって、彼らのグッドプット(システムスループットと統計効率を組み合わせた新しいメトリック)がどのように変化するかをモデル化する。 これらの情報を活用することで、Poluxはリソースを動的に(再)割り当て、クラスタ全体の品質を改善すると同時に、公平さを尊重し、各DLジョブを継続的に最適化し、リソースをよりよく活用する。 実際のDLジョブとトレース駆動シミュレーションを用いた実験では、ジョブ毎に理想的なリソースとトレーニング設定が提供される場合であっても、Polluxは最先端のDLスケジューラと比較して平均ジョブ完了時間を37-50%削減する。 Polluxは、有用なジョブ進捗のより意味のある尺度に基づいて、リソースを競うDLジョブ間の公正性を促進し、クラウド環境におけるDLコストを削減する新たな機会を明らかにする。 Polluxはhttps://github.com/petuum/adaptdl.comのオープンソースプロジェクトの一部として実装され公開されている。

Pollux improves scheduling performance in deep learning (DL) clusters by adaptively co-optimizing inter-dependent factors both at the per-job level and at the cluster-wide level. Most existing schedulers expect users to specify the number of resources for each job, often leading to inefficient resource use. Some recent schedulers choose job resources for users, but do so without awareness of how DL training can be re-optimized to better utilize the provided resources. Pollux simultaneously considers both aspects. By monitoring the status of each job during training, Pollux models how their goodput (a novel metric we introduce that combines system throughput with statistical efficiency) would change by adding or removing resources. Leveraging these information, Pollux dynamically (re-)assigns resources to improve cluster-wide goodput, while respecting fairness and continually optimizing each DL job to better utilize those resources. In experiments with real DL jobs and with trace-driven simulations, Pollux reduces average job completion times by 37-50% relative to state-of-the-art DL schedulers, even when they are provided with ideal resource and training configurations for every job. Pollux promotes fairness among DL jobs competing for resources based on a more meaningful measure of useful job progress, and reveals a new opportunity for reducing DL cost in cloud environments. Pollux is implemented and publicly available as part of an open-source project at https://github.com/petuum/adaptdl.
翻訳日:2022-10-24 08:37:08 公開日:2021-05-26
# 進化への注意:深層グラフ進化学習による時系列予測

Pay Attention to Evolution: Time Series Forecasting with Deep Graph-Evolution Learning ( http://arxiv.org/abs/2008.12833v4 )

ライセンス: Link先を確認
Gabriel Spadon, Shenda Hong, Bruno Brandoli, Stan Matwin, Jose F. Rodrigues-Jr, and Jimeng Sun(参考訳) 時系列予測は人工知能における最も活発な研究トピックの1つである。 実世界の時系列のアプリケーションは、複数の変数間の動的依存関係のモデリングと、モデル固有のハイパーパラメータの調整という、信頼できる予測を達成するための2つの要因を考慮すべきである。 この文献では、統計的およびアンサンブル学習アプローチが、深層学習法よりも予測性能を体系的に低下させることがまだ明らかなギャップである。 彼らは一般に、複数の時系列で表される多変量データと絡み合うデータシーケンスのアスペクトを無視している。 逆に本研究では,グラフ進化のパワーと異なるデータ分布の深部反復学習を組み合わせた時系列予測のための新しいニューラルネットワークアーキテクチャを提案し,その手法をRecurrent Graph Evolution Neural Network (ReGENN)と名付けた。 この考え方は、時間的データが内部変数と時間的関係(すなわち、それ自体からの観測)だけでなく、外部変数と時間的関係(すなわち、他者からの観測)にも依存していると仮定することで、共起時系列間の多重変数関係を推論することである。 ReGENNと数十のアンサンブル法と古典統計法を比較した大規模な実験が行われ、競合するアルゴリズムよりも64.87%の音質改善が見られた。 さらに、ReGENNから生じる中間重みの解析を行い、複数の多変量データの同期性に注意を払って、時間内関係を同時に見ることにより、時系列予測が大幅に改善されることを示す。

Time-series forecasting is one of the most active research topics in artificial intelligence. Applications in real-world time series should consider two factors for achieving reliable predictions: modeling dynamic dependencies among multiple variables and adjusting the model's intrinsic hyperparameters. A still open gap in that literature is that statistical and ensemble learning approaches systematically present lower predictive performance than deep learning methods. They generally disregard the data sequence aspect entangled with multivariate data represented in more than one time series. Conversely, this work presents a novel neural network architecture for time-series forecasting that combines the power of graph evolution with deep recurrent learning on distinct data distributions; we named our method Recurrent Graph Evolution Neural Network (ReGENN). The idea is to infer multiple multivariate relationships between co-occurring time-series by assuming that the temporal data depends not only on inner variables and intra-temporal relationships (i.e., observations from itself) but also on outer variables and inter-temporal relationships (i.e., observations from other-selves). An extensive set of experiments was conducted comparing ReGENN with dozens of ensemble methods and classical statistical ones, showing sound improvement of up to 64.87% over the competing algorithms. Furthermore, we present an analysis of the intermediate weights arising from ReGENN, showing that by looking at inter and intra-temporal relationships simultaneously, time-series forecasting is majorly improved if paying attention to how multiple multivariate data synchronously evolve.
翻訳日:2022-10-24 01:22:43 公開日:2021-05-26
# 量子仮説法による量子分類の最適確率ロバスト性

Optimal Provable Robustness of Quantum Classification via Quantum Hypothesis Testing ( http://arxiv.org/abs/2009.10064v2 )

ライセンス: Link先を確認
Maurice Weber, Nana Liu, Bo Li, Ce Zhang, Zhikuan Zhao(参考訳) 量子機械学習モデルには、従来のモデルに比べてスピードアップと予測精度が向上する可能性がある。 しかし、これらの量子アルゴリズムは、古典的アルゴリズムと同様に、特に分類問題において、入力摂動にも弱いことが示されている。 これらは、ノイズの多い実装または最悪のタイプのノイズとして、敵攻撃から生じる可能性がある。 防御機構を発達させ, アルゴリズムの信頼性をよりよく理解するためには, 自然騒音源や逆操作の存在下でのロバスト性を理解することが重要である。 量子分類アルゴリズムに関わる測定が自然確率的であるという観察から、バイナリ量子仮説テストと証明可能な堅牢な量子分類の基本的な関係を発見し、定式化する。 このリンクは、ノイズ源が自然か逆かに関わらず、分類器が許容できる雑音量に制約を課す強固な堅牢性条件をもたらす。 この結果に基づいて,ロバスト性を最適に証明する実用的なプロトコルを開発した。 最後に、これは最悪のノイズタイプに対するロバスト性条件であるので、ノイズ源が分かっているシナリオに自然に拡張できる。 このようにして、逆の最悪のノイズシナリオを超えて量子分類プロトコルの信頼性を研究するためのフレームワークも提供する。

Quantum machine learning models have the potential to offer speedups and better predictive accuracy compared to their classical counterparts. However, these quantum algorithms, like their classical counterparts, have been shown to also be vulnerable to input perturbations, in particular for classification problems. These can arise either from noisy implementations or, as a worst-case type of noise, adversarial attacks. In order to develop defence mechanisms and to better understand the reliability of these algorithms, it is crucial to understand their robustness properties in presence of natural noise sources or adversarial manipulation. From the observation that measurements involved in quantum classification algorithms are naturally probabilistic, we uncover and formalize a fundamental link between binary quantum hypothesis testing and provably robust quantum classification. This link leads to a tight robustness condition which puts constraints on the amount of noise a classifier can tolerate, independent of whether the noise source is natural or adversarial. Based on this result, we develop practical protocols to optimally certify robustness. Finally, since this is a robustness condition against worst-case types of noise, our result naturally extends to scenarios where the noise source is known. Thus, we also provide a framework to study the reliability of quantum classification protocols beyond the adversarial, worst-case noise scenarios.
翻訳日:2022-10-16 04:42:48 公開日:2021-05-26
# 逆ロバストニューラルネットワークの重み共分散アライメント

Weight-Covariance Alignment for Adversarially Robust Neural Networks ( http://arxiv.org/abs/2010.08852v3 )

ライセンス: Link先を確認
Panagiotis Eustratiadis, Henry Gouk, Da Li, Timothy Hospedales(参考訳) 隠れた層に雑音を注入する確率ニューラルネットワーク(SNN)は、最近、敵の攻撃に対して強い堅牢性を達成することが示されている。 しかし、既存のsnsは通常ヒューリスティックに動機づけられ、しばしば計算コストがかかる敵対的なトレーニングに依存している。 本稿では,敵対的訓練を頼らずに最先端の性能を実現する新しいSNNを提案する。 具体的には、既存のSNNが学習または手動等方性雑音を注入するのに対し、SNNは異方性雑音分布を学習し、対向的ロバスト性に対する学習理論境界を最適化する。 提案手法を多数のベンチマークで評価し,異なるアーキテクチャに適用可能であること,ホワイトボックスおよびブラックボックス攻撃に対して堅牢性を提供しつつ,既存の代替手法に比べてシンプルかつ高速にトレーニングできることを実証した。

Stochastic Neural Networks (SNNs) that inject noise into their hidden layers have recently been shown to achieve strong robustness against adversarial attacks. However, existing SNNs are usually heuristically motivated, and often rely on adversarial training, which is computationally costly. We propose a new SNN that achieves state-of-the-art performance without relying on adversarial training, and enjoys solid theoretical justification. Specifically, while existing SNNs inject learned or hand-tuned isotropic noise, our SNN learns an anisotropic noise distribution to optimize a learning-theoretic bound on adversarial robustness. We evaluate our method on a number of popular benchmarks, show that it can be applied to different architectures, and that it provides robustness to a variety of white-box and black-box attacks, while being simple and fast to train compared to existing alternatives.
翻訳日:2022-10-06 11:48:32 公開日:2021-05-26
# BEAR:サブリニアメモリにおける超高次元特徴選択のためのスケッチBFGSアルゴリズム

BEAR: Sketching BFGS Algorithm for Ultra-High Dimensional Feature Selection in Sublinear Memory ( http://arxiv.org/abs/2010.13829v2 )

ライセンス: Link先を確認
Amirali Aghazadeh, Vipul Gupta, Alex DeWeese, O. Ozan Koyluoglu and Kannan Ramchandran(参考訳) データの次元が大きすぎて、(ローカルな)コンピューティングマシンの動作メモリを超えるような、機械学習のアプリケーションにおける特徴選択について検討する。 残念なことに、現在の大規模スケッチアルゴリズムは、非可逆的な衝突とスケッチ領域における確率勾配ノイズの蓄積により、メモリ精度のトレードオフが低い。 そこで本研究では,ストリーミング文献のサブリニアメモリデータ構造であるcount sketchにおいて,ブロイデン・フレッチャー・ゴールドファーム・シャノン(bfgs)アルゴリズムに2次勾配を格納することにより,余分な衝突を回避する2次超高次元特徴選択アルゴリズム bearを開発した。 実世界のデータセットの実験により、BEARは1次スケッチアルゴリズムと同一の分類精度を達成するために最大で3桁のメモリスペースを必要とすることが示された。 理論的解析は、スケッチされたアルゴリズムの t 反復におけるレート O(1/t) の BEAR の収束を証明している。 提案アルゴリズムは,超高次元データセットで学習したモデルのメモリ制限スケッチにおける2次最適化の未探索の利点を明らかにする。

We consider feature selection for applications in machine learning where the dimensionality of the data is so large that it exceeds the working memory of the (local) computing machine. Unfortunately, current large-scale sketching algorithms show poor memory-accuracy trade-off due to the irreversible collision and accumulation of the stochastic gradient noise in the sketched domain. Here, we develop a second-order ultra-high dimensional feature selection algorithm, called BEAR, which avoids the extra collisions by storing the second-order gradients in the celebrated Broyden-Fletcher-Goldfarb-Shannon (BFGS) algorithm in Count Sketch, a sublinear memory data structure from the streaming literature. Experiments on real-world data sets demonstrate that BEAR requires up to three orders of magnitude less memory space to achieve the same classification accuracy compared to the first-order sketching algorithms. Theoretical analysis proves convergence of BEAR with rate O(1/t) in t iterations of the sketched algorithm. Our algorithm reveals an unexplored advantage of second-order optimization for memory-constrained sketching of models trained on ultra-high dimensional data sets.
翻訳日:2022-10-02 19:41:05 公開日:2021-05-26
# 新型コロナのフェイクニュースデータセット、情報デミックと戦う

Fighting an Infodemic: COVID-19 Fake News Dataset ( http://arxiv.org/abs/2011.03327v4 )

ライセンス: Link先を確認
Parth Patwa, Shivam Sharma, Srinivas Pykl, Vineeth Guptha, Gitanjali Kumari, Md Shad Akhtar, Asif Ekbal, Amitava Das, Tanmoy Chakraborty(参考訳) 新型コロナウイルス(COVID-19)のパンデミックとともに、我々は「不死身」と戦っている。 偽ニュースや噂はソーシャルメディアで広まっている。 噂を信じることは重大な害をもたらす可能性がある。 これはパンデミックの時にさらに悪化している。 これに対処するために、私たちは10,700のソーシャルメディア投稿と、covid-19のリアルおよびフェイクニュースの記事を手作業でアノテートしたデータセットをキュレートし、公開します。 アノテーション付きデータセットを、決定木、ロジスティック回帰、グラディエントブースト、サポートベクトルマシン(SVM)の4つの機械学習ベースラインでベンチマークする。 SVMで93.46%のF1スコアを得る。 データとコードは、https://github.com/parthpatwa/covid19-fake-news-dectectionで入手できる。

Along with COVID-19 pandemic we are also fighting an `infodemic'. Fake news and rumors are rampant on social media. Believing in rumors can cause significant harm. This is further exacerbated at the time of a pandemic. To tackle this, we curate and release a manually annotated dataset of 10,700 social media posts and articles of real and fake news on COVID-19. We benchmark the annotated dataset with four machine learning baselines - Decision Tree, Logistic Regression, Gradient Boost, and Support Vector Machine (SVM). We obtain the best performance of 93.46% F1-score with SVM. The data and code is available at: https://github.com/parthpatwa/covid19-fake-news-dectection
翻訳日:2022-09-29 05:16:56 公開日:2021-05-26
# repaint:深層強化学習における知識伝達

REPAINT: Knowledge Transfer in Deep Reinforcement Learning ( http://arxiv.org/abs/2011.11827v3 )

ライセンス: Link先を確認
Yunzhe Tao, Sahika Genc, Jonathan Chung, Tao Sun, Sunil Mallya(参考訳) 複雑なタスクに対する学習プロセスの高速化は、特にソースとターゲットタスクの類似性が低い場合において、強化学習において最も難しい問題の一つである。 本研究では,深層強化学習における知識伝達のためのREPAINTアルゴリズムを提案する。 repaintは、事前教育された教師政策の表現をオンポリシー学習中に転送するだけでなく、アドバンテージベースの経験選択アプローチを用いて、オフポリシー学習において教師政策に従って収集された有用なサンプルを転送する。 いくつかのベンチマークタスクの実験結果から、REPAINTはタスク類似性の一般的な場合のトレーニング時間を大幅に短縮することが示された。 特に、ソースタスクがサブタスクと異なる場合、ターゲットタスクであるREPAINTは、トレーニング時間短縮とリターンスコアの漸近パフォーマンスの両方において、他のベースラインを上回っます。

Accelerating learning processes for complex tasks by leveraging previously learned tasks has been one of the most challenging problems in reinforcement learning, especially when the similarity between source and target tasks is low. This work proposes REPresentation And INstance Transfer (REPAINT) algorithm for knowledge transfer in deep reinforcement learning. REPAINT not only transfers the representation of a pre-trained teacher policy in the on-policy learning, but also uses an advantage-based experience selection approach to transfer useful samples collected following the teacher policy in the off-policy learning. Our experimental results on several benchmark tasks show that REPAINT significantly reduces the total training time in generic cases of task similarity. In particular, when the source tasks are dissimilar to, or sub-tasks of, the target tasks, REPAINT outperforms other baselines in both training-time reduction and asymptotic performance of return scores.
翻訳日:2022-09-21 12:44:27 公開日:2021-05-26
# Polka Lines: アクティブステレオのための構造化照明と再構成を学ぶ

Polka Lines: Learning Structured Illumination and Reconstruction for Active Stereo ( http://arxiv.org/abs/2011.13117v2 )

ライセンス: Link先を確認
Seung-Hwan Baek, Felix Heide(参考訳) 構造された光キャプチャーから奥行きを回復するアクティブステレオカメラは、アプリケーション領域全体にわたる3Dシーンの再構築と理解作業の基盤となるセンサモダリティとなっている。 既存のアクティブステレオカメラはオブジェクト表面上に擬似ランダムドットパターンを投影し、オブジェクトのテクスチャとは独立して不一致を抽出する。 このような手作りのパターンは、シーン統計、環境照明条件、再現方法から分離して設計されている。 本研究では, 回折光学素子とニューラルネットワークによってパラメータ化される構造的照明と再構成を, エンドツーエンドで共同で学習する最初の手法を提案する。 そこで本研究では, 波動と幾何光学の両方に依存するアクティブステレオのための新しい微分可能画像生成モデルと, 新たな三眼再構成ネットワークを提案する。 Polka Lines”を再現ネットワークと組み合わせた共同最適化パターンは,撮像条件をまたいだ最先端のアクティブステレオ深度推定を実現する。 提案手法をシミュレーションおよびハードウェアプロトタイプで検証し,提案手法が既存のアクティブステレオシステムよりも優れていることを示す。

Active stereo cameras that recover depth from structured light captures have become a cornerstone sensor modality for 3D scene reconstruction and understanding tasks across application domains. Existing active stereo cameras project a pseudo-random dot pattern on object surfaces to extract disparity independently of object texture. Such hand-crafted patterns are designed in isolation from the scene statistics, ambient illumination conditions, and the reconstruction method. In this work, we propose the first method to jointly learn structured illumination and reconstruction, parameterized by a diffractive optical element and a neural network, in an end-to-end fashion. To this end, we introduce a novel differentiable image formation model for active stereo, relying on both wave and geometric optics, and a novel trinocular reconstruction network. The jointly optimized pattern, which we dub "Polka Lines," together with the reconstruction network, achieve state-of-the-art active-stereo depth estimates across imaging conditions. We validate the proposed method in simulation and on a hardware prototype, and show that our method outperforms existing active stereo systems.
翻訳日:2022-09-20 08:56:17 公開日:2021-05-26
# 画素プロセッサアレイを用いたセンサ内cnn推定による直接サーボ制御

Direct Servo Control from In-Sensor CNN Inference with A Pixel Processor Array ( http://arxiv.org/abs/2106.07561v1 )

ライセンス: Link先を確認
Yanan Liu, Jianing Chen, Laurie Bose, Piotr Dudek, Walterio Mayol-Cuevas(参考訳) 本研究は,SCAMP-5 Pixel Processor Array (PPA) を用いた高速CNN推論による直接視覚感覚運動制御を示す。 我々はppasが知覚と行動のギャップを効果的に橋渡しできることを示す。 2値畳み込みニューラルネットワーク (CNN) は古典的な岩盤, 紙, はさみの分類問題に8000 FPS以上で使用される。 制御命令は、他の中間ハードウェアを使わずに、CNNの分類結果に従ってPPAからサーボモータに直接送られる。

This work demonstrates direct visual sensory-motor control using high-speed CNN inference via a SCAMP-5 Pixel Processor Array (PPA). We demonstrate how PPAs are able to efficiently bridge the gap between perception and action. A binary Convolutional Neural Network (CNN) is used for a classic rock, paper, scissors classification problem at over 8000 FPS. Control instructions are directly sent to a servo motor from the PPA according to the CNN's classification result without any other intermediate hardware.
翻訳日:2021-06-20 16:03:15 公開日:2021-05-26
# リツイート予測におけるツイートテキストとユーザ特徴の影響分析によるCOVID-19パンデミック時の情報拡散メカニズムの理解

Understanding Information Spreading Mechanisms During COVID-19 Pandemic by Analyzing the Impact of Tweet Text and User Features for Retweet Prediction ( http://arxiv.org/abs/2106.07344v1 )

ライセンス: Link先を確認
Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed(参考訳) 新型コロナウイルス(covid-19)は世界経済やほぼすべての人々の日常生活に影響を与えている。 これはTwitter、Facebookなどのソーシャルメディアプラットフォームでホットな話題となっている。 これらのソーシャルメディアプラットフォームにより、ユーザーは情報を共有できる他のユーザーと情報を共有できるため、情報を広めることができる。 Twitterのretweet機能により、ユーザーは元のコンテンツを変更せずに既存のコンテンツを他のユーザーと共有できる。 ソーシャルメディアプラットフォームの分析は、予防措置を講じるパンデミック中の緊急事態を検出するのに役立つ。 このような分析の1つは、covid-19関連ツイートのリツイート数を予測することだ。 最近、CIKMは、数値機能のみの使用に焦点を当てたCOVID-19ツイートのリツイート予測チャレンジを組織した。 しかし、我々の仮説では、ツイートテキストは正確なリツイート予測において重要な役割を果たす可能性がある。 本稿では,covid-19関連リツイート予測のための数値とテキストの機能を組み合わせる。 そこで本研究では,CNNとRNNをベースとした2つのモデルを提案し,これらのモデルの性能評価を行う。 評価の結果,ツイートテキストと数値的特徴を組み合わせると,リツイート予測の性能が大幅に向上することがわかった。

COVID-19 has affected the world economy and the daily life routine of almost everyone. It has been a hot topic on social media platforms such as Twitter, Facebook, etc. These social media platforms enable users to share information with other users who can reshare this information, thus causing this information to spread. Twitter's retweet functionality allows users to share the existing content with other users without altering the original content. Analysis of social media platforms can help in detecting emergencies during pandemics that lead to taking preventive measures. One such type of analysis is predicting the number of retweets for a given COVID-19 related tweet. Recently, CIKM organized a retweet prediction challenge for COVID-19 tweets focusing on using numeric features only. However, our hypothesis is, tweet text may play a vital role in an accurate retweet prediction. In this paper, we combine numeric and text features for COVID-19 related retweet predictions. For this purpose, we propose two CNN and RNN based models and evaluate the performance of these models on a publicly available TweetsCOV19 dataset using seven different evaluation metrics. Our evaluation results show that combining tweet text with numeric features improves the performance of retweet prediction significantly.
翻訳日:2021-06-20 16:02:54 公開日:2021-05-26
# (参考訳) 量子物理学にインスパイアされた分類データの説明可能な確率的分類器

An Explainable Probabilistic Classifier for Categorical Data Inspired to Quantum Physics ( http://arxiv.org/abs/2105.13988v1 )

ライセンス: CC BY 4.0
Emanuele Guidotti, Alfio Ferrara(参考訳) 本稿では,量子物理学における状態の重ね合わせの概念に触発された分類データの教師付き分類アルゴリズムであるスパーステンソル分類器(stc)を提案する。 特徴の重ね合わせとしての観察について,機械学習における波動粒子双対性の概念を紹介し,古典確率と量子確率を統一する一般化フレームワークを提案する。 STCは、他のほとんどの機械学習手法では利用できない幅広い望ましい特性を持っているが、同時に理解や使用が極めて容易であることを示す。 構造化データとテキスト分類におけるSTCの実証的評価は,本手法が標準分類器と深層学習の両方と比較して最先端の性能を実現していることを示す。 さらに、stcは、シングルインスタンスと各ターゲットラベルの両方に対して、その予測のネイティブな説明を提供する。

This paper presents Sparse Tensor Classifier (STC), a supervised classification algorithm for categorical data inspired by the notion of superposition of states in quantum physics. By regarding an observation as a superposition of features, we introduce the concept of wave-particle duality in machine learning and propose a generalized framework that unifies the classical and the quantum probability. We show that STC possesses a wide range of desirable properties not available in most other machine learning methods but it is at the same time exceptionally easy to comprehend and use. Empirical evaluation of STC on structured data and text classification demonstrates that our methodology achieves state-of-the-art performances compared to both standard classifiers and deep learning, at the additional benefit of requiring minimal data pre-processing and hyper-parameter tuning. Moreover, STC provides a native explanation of its predictions both for single instances and for each target label globally.
翻訳日:2021-06-01 03:43:22 公開日:2021-05-26
# (参考訳) 一般化誤差関数に基づくスパース回復

Sparse recovery based on the generalized error function ( http://arxiv.org/abs/2105.13189v1 )

ライセンス: CC BY 4.0
Zhiyong Zhou(参考訳) 本稿では,一般化された誤差関数に基づく新しいスパース回復法を提案する。 理論解析と実用的なアルゴリズムの両方を提示する。 現状のスパース回収法に対する提案手法の利点を示すために, 数値解析実験を行った。 磁気共鳴画像再構成(MRI)の実用化についても検討した。

In this paper, we propose a novel sparse recovery method based on the generalized error function. Both the theoretical analysis and the practical algorithms are presented. Numerical experiments are conducted to demonstrate the advantageous performance of the proposed approach over the state-of-the-art sparse recovery methods. Its practical application in magnetic resonance imaging (MRI) reconstruction is studied as well.
翻訳日:2021-05-29 15:54:21 公開日:2021-05-26
# (参考訳) コンピュータビジョンと競合する価値: 自動化されたAltテキストで人々を記述

Computer Vision and Conflicting Values: Describing People with Automated Alt Text ( http://arxiv.org/abs/2105.12754v1 )

ライセンス: CC BY 4.0
Margot Hanley, Solon Barocas, Karen Levy, Shiri Azenkot, Helen Nissenbaum(参考訳) 研究者は最近、画像中の人の説明を自動的に生成するコンピュータビジョンの使用によって引き起こされる様々な議論の的となっている問題に注意を向けている。 これらの懸念にもかかわらず、視覚障害者や視力低下者の情報への公平なアクセスを確保するために、自動画像記述が重要なツールとなっている。 本稿では,視覚障害者のための画像のテキスト記述を基本ケーススタディとして,コンピュータビジョンを用いてアルトテキストを制作している企業が直面している倫理的ジレンマについて検討する。 まず、人種、性別、年齢などのアイデンティティカテゴリに関してfacebookが採用したポリシーと、これらの用語をaltテキストで提示するかどうかに関する同社の決定を分析する。 次に、博物館のコミュニティで実践されている代替と手動のアプローチについて記述し、博物館がどのように文化的なアーティファクトのテキスト記述に含めるべきかを決定するかに焦点を当てる。 我々はこれらの政策を比較し、対照的な点を用いて、これらの政策選択の背後にある特定の理解を特徴付ける分析フレームワークを開発する。 我々は、これらの懸念のいくつかを横取りしているように見える2つの戦略を考察し、コンピュータービジョンによるアルトテキストの自動化による規範的ジレンマを避けるための簡単な方法がないと結論づける。

Scholars have recently drawn attention to a range of controversial issues posed by the use of computer vision for automatically generating descriptions of people in images. Despite these concerns, automated image description has become an important tool to ensure equitable access to information for blind and low vision people. In this paper, we investigate the ethical dilemmas faced by companies that have adopted the use of computer vision for producing alt text: textual descriptions of images for blind and low vision people, We use Facebook's automatic alt text tool as our primary case study. First, we analyze the policies that Facebook has adopted with respect to identity categories, such as race, gender, age, etc., and the company's decisions about whether to present these terms in alt text. We then describe an alternative -- and manual -- approach practiced in the museum community, focusing on how museums determine what to include in alt text descriptions of cultural artifacts. We compare these policies, using notable points of contrast to develop an analytic framework that characterizes the particular apprehensions behind these policy choices. We conclude by considering two strategies that seem to sidestep some of these concerns, finding that there are no easy ways to avoid the normative dilemmas posed by the use of computer vision to automate alt text.
翻訳日:2021-05-29 15:28:35 公開日:2021-05-26
# (参考訳) Networked Federated Multi-Task Learning

Networked Federated Multi-Task Learning ( http://arxiv.org/abs/2105.12769v1 )

ライセンス: CC BY 4.0
Yasmin SarcheshmehPour, Yu Tian, Linli Zhang, Alexander Jung(参考訳) 多くの重要なアプリケーションドメインは、異種ローカルデータセットの分散コレクションを生成する。 これらのローカルデータセットは、しばしば、ローカルデータセット間の類似性のドメイン固有の概念から生じる内在的なネットワーク構造を介して関連づけられる。 類似性の異なる概念は時空間的近接、統計的依存関係、機能的関係によって引き起こされる。 このネットワーク構造を用いて、類似のローカルデータセットをほぼ均質なトレーニングセットに適応的にプールし、カスタマイズされたモデルを学ぶ。 我々の概念的貢献は、一般化全変動(gtv)を正規化として、ネットワーク型連合学習を定式化することである。 この定式化は非常に柔軟で、ラッソやディープニューラルネットワークを含むほぼすべてのパラメトリックモデルと組み合わせることができる。 我々は、フェデレートされたマルチタスク学習に対するよく知られたアプローチを統一し、大幅に拡張する。 私たちのアルゴリズムの主な貢献は、ワイヤレスネットワーク上のエッジコンピューティングのような分散コンピューティング環境に適した、新しい連合学習アルゴリズムです。 このアルゴリズムは、処理時間や無線チャネル帯域幅などの限られた計算資源から生じるモデル誤特定や数値誤差に対して頑健である。 我々の主な技術的貢献として、我々のアルゴリズムがほぼ最適な局所モデルを学ぶように、局所モデルとそれらのネットワーク構造について正確な条件を提供する。 本研究では,ローカルモデルの(情報-)幾何とネットワークの(クラスタ-)幾何との間の興味深い相互作用を明らかにする。

Many important application domains generate distributed collections of heterogeneous local datasets. These local datasets are often related via an intrinsic network structure that arises from domain-specific notions of similarity between local datasets. Different notions of similarity are induced by spatiotemporal proximity, statistical dependencies, or functional relations. We use this network structure to adaptively pool similar local datasets into nearly homogenous training sets for learning tailored models. Our main conceptual contribution is to formulate networked federated learning using the concept of generalized total variation (GTV) minimization as a regularizer. This formulation is highly flexible and can be combined with almost any parametric model including Lasso or deep neural networks. We unify and considerably extend some well-known approaches to federated multi-task learning. Our main algorithmic contribution is a novel federated learning algorithm that is well suited for distributed computing environments such as edge computing over wireless networks. This algorithm is robust against model misspecification and numerical errors arising from limited computational resources including processing time or wireless channel bandwidth. As our main technical contribution, we offer precise conditions on the local models as well on their network structure such that our algorithm learns nearly optimal local models. Our analysis reveals an interesting interplay between the (information-) geometry of local models and the (cluster-) geometry of their network.
翻訳日:2021-05-29 14:50:46 公開日:2021-05-26
# (参考訳) 統計的深さと機械学習:関数型データ分析におけるカーネル平均埋め込みと深さ

Statistical Depth Meets Machine Learning: Kernel Mean Embeddings and Depth in Functional Data Analysis ( http://arxiv.org/abs/2105.12778v1 )

ライセンス: CC BY 4.0
George Wynne and Stanislav Nagy(参考訳) 統計的深さは、ある点が基準確率測度と比較されるかを示す行為である。 深さは多変量空間や関数空間に住むデータにランキングや順序を導入することを可能にする。 広く応用され、多くの実験的な成功をおさめながら、機能深度を解析する理論的な進歩はほとんど行われていない。 本稿では、関数データに対する一般的な$h$-deepthと関連する統計深度を、統計機械学習で広く使われているカーネル平均埋め込みとみなす方法について述べる。 この接続は、関数深度の統計的性質に関するオープンな質問に対する回答を促進するとともに、関数データの深さと経験的特性関数に基づく手順のリンクを提供する。

Statistical depth is the act of gauging how representative a point is compared to a reference probability measure. The depth allows introducing rankings and orderings to data living in multivariate, or function spaces. Though widely applied and with much experimental success, little theoretical progress has been made in analysing functional depths. This article highlights how the common $h$-depth and related statistical depths for functional data can be viewed as a kernel mean embedding, a technique used widely in statistical machine learning. This connection facilitates answers to open questions regarding statistical properties of functional depths, as well as it provides a link between the depth and empirical characteristic function based procedures for functional data.
翻訳日:2021-05-29 14:22:06 公開日:2021-05-26
# (参考訳) ATRIA: In-DRAM CNN処理のためのビット並列確率的算術に基づく加速器

ATRIA: A Bit-Parallel Stochastic Arithmetic Based Accelerator for In-DRAM CNN Processing ( http://arxiv.org/abs/2105.12781v1 )

ライセンス: CC0 1.0
Supreeth Mysore Shivanandamurthy, Ishan. G. Thakkar, Sayed Ahmad Salehi(参考訳) 機械学習と人工知能(AI)に関する現実の応用において、畳み込みニューラルネットワーク(CNN)が急速に普及し、CNN推論とトレーニングのためのハードウェアアクセラレータ設計が最近提案されている。 本稿では、エネルギー効率とCNNの高速推論のための新しいビット-pArallel sTochastic aRithmeticベースのIn-DRAM加速器ATRIAを提案する。 ATRIAはDRAMセルアレイに軽量な修正を加え、DRAM内での乗算(MAC)演算のビット並列確率演算に基づく加速度を実装する。 ATRIAは、CNN推論処理のレイテンシ、スループット、効率を大幅に改善し、わずか5連続のメモリ操作サイクルで16のMAC操作を実行する。 我々は、ATRIA上の4つのベンチマークCNNの推論タスクをマッピングし、その性能を以前の5つの最先端のDRAM CNNアクセラレータと比較した。 分析の結果,ATRIAのCNN推論精度は3.5%低下し,フレーム/秒(FPS)の最大3.2倍,効率(FPS/W/mm2)の最大10倍の改善が得られた。

With the rapidly growing use of Convolutional Neural Networks (CNNs) in real-world applications related to machine learning and Artificial Intelligence (AI), several hardware accelerator designs for CNN inference and training have been proposed recently. In this paper, we present ATRIA, a novel bit-pArallel sTochastic aRithmetic based In-DRAM Accelerator for energy-efficient and high-speed inference of CNNs. ATRIA employs light-weight modifications in DRAM cell arrays to implement bit-parallel stochastic arithmetic based acceleration of multiply-accumulate (MAC) operations inside DRAM. ATRIA significantly improves the latency, throughput, and efficiency of processing CNN inferences by performing 16 MAC operations in only five consecutive memory operation cycles. We mapped the inference tasks of four benchmark CNNs on ATRIA to compare its performance with five state-of-the-art in-DRAM CNN accelerators from prior work. The results of our analysis show that ATRIA exhibits only 3.5% drop in CNN inference accuracy and still achieves improvements of up to 3.2x in frames-per-second (FPS) and up to 10x in efficiency (FPS/W/mm2), compared to the best-performing in-DRAM accelerator from prior work.
翻訳日:2021-05-29 13:43:31 公開日:2021-05-26
# (参考訳) TexRel:関係性に関する創発的コミュニケーションのためのデータセットのグリーンファミリー

TexRel: a Green Family of Datasets for Emergent Communications on Relations ( http://arxiv.org/abs/2105.12804v1 )

ライセンス: CC BY 4.0
Hugh Perkins(参考訳) 本稿では,創発的コミュニケーション,特に関係研究の場として,新しいデータセットTexRelを提案する。 他の関係データセットと比較すると、texrelは緊急通信の文脈で過剰に適合しないように十分な大きさながら、迅速なトレーニングと実験を提供する。 シンボリックインプットと比べ、TexRelはより現実的な代替手段を提供するが、効率的で学習が速い。 我々はTexRelと関連する関係データセットShapeworldを比較した。 我々は,送信側アーキテクチャ,受信側アーキテクチャ,エンドツーエンドアーキテクチャに対して,TexRelのベースライン性能結果を提供する。 形状,色,関係の文脈におけるマルチタスク学習が,精度,位相的類似性,クラスタリング精度に及ぼす影響を検討した。 潜在意味空間の拡大が構成性の指標を改善するかどうかを検討する。 我々は、texrel を用いた実験の結果の再現に関するケーススタディを最近の論文で実施し、記号入力を用いたが、texrel からの独自の非記号的インプットを用いている。

We propose a new dataset TexRel as a playground for the study of emergent communications, in particular for relations. By comparison with other relations datasets, TexRel provides rapid training and experimentation, whilst being sufficiently large to avoid overfitting in the context of emergent communications. By comparison with using symbolic inputs, TexRel provides a more realistic alternative whilst remaining efficient and fast to learn. We compare the performance of TexRel with a related relations dataset Shapeworld. We provide baseline performance results on TexRel for sender architectures, receiver architectures and end-to-end architectures. We examine the effect of multitask learning in the context of shapes, colors and relations on accuracy, topological similarity and clustering precision. We investigate whether increasing the size of the latent meaning space improves metrics of compositionality. We carry out a case-study on using TexRel to reproduce the results of an experiment in a recent paper that used symbolic inputs, but using our own non-symbolic inputs, from TexRel, instead.
翻訳日:2021-05-29 13:19:19 公開日:2021-05-26
# (参考訳) isoperimetry によるロバストネスの普遍的法則

A Universal Law of Robustness via Isoperimetry ( http://arxiv.org/abs/2105.12806v1 )

ライセンス: CC BY 4.0
S\'ebastien Bubeck, Mark Sellke(参考訳) 古典的には、パラメータの数が満たすべき方程式の数よりも大きい限り、パラメータ化されたモデルクラスとのデータの補間が可能である。 ディープラーニングにおけるファズリング現象は、モデルが古典理論が示唆するよりも多くのパラメータで訓練されていることである。 我々はこの現象の理論的説明を提案する。 広範にわたるデータ分散とモデルクラスでは、データをスムーズに補間したい場合、過剰パラメータ化が必要であることを証明します。 つまり、スムーズな補間には単なる補間よりも$d$のパラメータが必要であり、$d$は周囲のデータ次元である。 多項式サイズの重みを持つ滑らかなパラメトリケート関数クラスと、同値性を検証する共変量分布の普遍的なロバスト性法則を証明する。 2層ニューラルネットワークとガウス共変量の場合、この法則はbubeck、li、nagarajによって先行研究で予想された。

Classically, data interpolation with a parametrized model class is possible as long as the number of parameters is larger than the number of equations to be satisfied. A puzzling phenomenon in deep learning is that models are trained with many more parameters than what this classical theory would suggest. We propose a theoretical explanation for this phenomenon. We prove that for a broad class of data distributions and model classes, overparametrization is necessary if one wants to interpolate the data smoothly. Namely we show that smooth interpolation requires $d$ times more parameters than mere interpolation, where $d$ is the ambient data dimension. We prove this universal law of robustness for any smoothly parametrized function class with polynomial size weights, and any covariate distribution verifying isoperimetry. In the case of two-layers neural networks and Gaussian covariates, this law was conjectured in prior work by Bubeck, Li and Nagaraj.
翻訳日:2021-05-29 12:53:17 公開日:2021-05-26
# (参考訳) ViPTT-Net:胸部CTによる結核型分類のための時空間モデルの作成

ViPTT-Net: Video pretraining of spatio-temporal model for tuberculosis type classification from chest CT scans ( http://arxiv.org/abs/2105.12810v1 )

ライセンス: CC BY 4.0
Hasib Zunair, Aimon Rahman, and Nabeel Mohammed(参考訳) 事前トレーニングは、限られたデータから学習し、一般化を改善するためのディープラーニングワークフローへの関心を喚起した。 これは2次元画像分類タスクに共通しているが、胸部CT解釈のような3次元医療画像タスクへの応用は限られている。 胸部CT画像から結核型分類を意図した,現実的なビデオの事前学習が,スクラッチからモデルをトレーニングするよりも,パフォーマンスを向上させることができるかどうかを検討する。 空間的特徴と時間的特徴の両方を組み込んだハイブリッド畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)モデルを構築し、CTスキャンの各軸スライスから特徴を抽出し、これらの特徴のシーケンスをCTスキャンの分類のためにRNNに入力する。 我々のモデルは ViPTT-Net と呼ばれ、人間の活動のラベル付き1300本以上のビデオクリップで訓練され、その後、結核型のラベル付き胸部CTスキャンで微調整された。 ビデオ上での事前学習により表現性が向上し,カッパスコア0.17から0.35までのモデル検証性能が大幅に向上することが判明した。 ImageCLEF 2021 tuberculosis - Kappaスコア0.20のTBT分類タスクにおいて,画像情報のみを用いた最終テストにおいて,臨床メタデータを使用しない2位に到達した。 すべてのコードとモデルは利用可能である。

Pretraining has sparked groundswell of interest in deep learning workflows to learn from limited data and improve generalization. While this is common for 2D image classification tasks, its application to 3D medical imaging tasks like chest CT interpretation is limited. We explore the idea of whether pretraining a model on realistic videos could improve performance rather than training the model from scratch, intended for tuberculosis type classification from chest CT scans. To incorporate both spatial and temporal features, we develop a hybrid convolutional neural network (CNN) and recurrent neural network (RNN) model, where the features are extracted from each axial slice of the CT scan by a CNN, these sequence of image features are input to a RNN for classification of the CT scan. Our model termed as ViPTT-Net, was trained on over 1300 video clips with labels of human activities, and then fine-tuned on chest CT scans with labels of tuberculosis type. We find that pretraining the model on videos lead to better representations and significantly improved model validation performance from a kappa score of 0.17 to 0.35, especially for under-represented class samples. Our best method achieved 2nd place in the ImageCLEF 2021 Tuberculosis - TBT classification task with a kappa score of 0.20 on the final test set with only image information (without using clinical meta-data). All codes and models are made available.
翻訳日:2021-05-29 12:32:10 公開日:2021-05-26
# (参考訳) 予測保守における異常検出:時間的非教師付き異常検出アルゴリズムの新しい評価フレームワーク

Anomaly Detection in Predictive Maintenance: A New Evaluation Framework for Temporal Unsupervised Anomaly Detection Algorithms ( http://arxiv.org/abs/2105.12818v1 )

ライセンス: CC0 1.0
Jacinto Carrasco, Irina Markova, David L\'opez, Ignacio Aguilera, Diego Garc\'ia, Marta Garc\'ia-Barzana, Manuel Arias-Rodil, Juli\'an Luengo, Francisco Herrera(参考訳) 異常検出の研究は、異常なインスタンスを表すものの統一的な定義を欠いている。 異常の性質自体の相違は、アルゴリズムの設計と実験の複数のパラダイムにつながる。 予測メンテナンスは特別なケースであり、異常は回避しなければならない障害を表す。 外れ値や新規性検出や時系列分類などの時系列研究は、これまで見られず正確に注釈付けされていない単一の点ではないため、この分野における異常の概念には適用されない。 さらに、注釈付き異常データがないため、多くのベンチマークは教師付きシナリオから適応される。 これらの問題に対処するために、正および負のインスタンスの概念を区間に一般化し、教師なし異常検出アルゴリズムを評価する。 また、時系列シナリオのROC曲線計算の一般化であるPreceding Window ROCの提案により、評価のための不均衡スキームも維持する。 また,この機構を確立された時系列異常検出ベンチマークから提案した一般化に適応させて早期発見に報いる。 したがって、提案は異なるシナリオに対する柔軟な評価フレームワークである。 本定義の有用性を示すために,企業ArcelorMittalが提供する実世界の時系列問題とビッグデータアルゴリズムのケーススタディを含め,提案手法と評価手法を比較した。

The research in anomaly detection lacks a unified definition of what represents an anomalous instance. Discrepancies in the nature itself of an anomaly lead to multiple paradigms of algorithms design and experimentation. Predictive maintenance is a special case, where the anomaly represents a failure that must be prevented. Related time-series research as outlier and novelty detection or time-series classification does not apply to the concept of an anomaly in this field, because they are not single points which have not been seen previously and may not be precisely annotated. Moreover, due to the lack of annotated anomalous data, many benchmarks are adapted from supervised scenarios. To address these issues, we generalise the concept of positive and negative instances to intervals to be able to evaluate unsupervised anomaly detection algorithms. We also preserve the imbalance scheme for evaluation through the proposal of the Preceding Window ROC, a generalisation for the calculation of ROC curves for time-series scenarios. We also adapt the mechanism from a established time-series anomaly detection benchmark to the proposed generalisations to reward early detection. Therefore, the proposal represents a flexible evaluation framework for the different scenarios. To show the usefulness of this definition, we include a case study of Big Data algorithms with a real-world time-series problem provided by the company ArcelorMittal, and compare the proposal with an evaluation method.
翻訳日:2021-05-29 12:18:52 公開日:2021-05-26
# (参考訳) 共通画像CNNを用いた映像中の物体検出の課題

Issues in Object Detection in Videos using Common Single-Image CNNs ( http://arxiv.org/abs/2105.12822v1 )

ライセンス: CC BY 4.0
Spencer Ploeger and Lucas Dasovic(参考訳) コンピュータビジョンの増大する分野はオブジェクト検出である。 物体検出は、産業プロセス、医療画像分析、自動運転車などの多くの用途で使われている。 ビデオ中の物体を検出する能力は重要だ。 オブジェクト検出システムは、大規模な画像データセットで訓練される。 自動運転車のようなアプリケーションにとって、オブジェクト検出システムはビデオ内の複数のフレームを通してオブジェクトを識別できることが重要である。 これらのシステムをビデオに適用するには多くの問題がある。 明るさの影や変化は、システムが誤ってオブジェクトフレームを識別し、意図しないシステム応答を引き起こす可能性がある。 オブジェクト検出に多くのニューラルネットワークが使われており、もしフレーム間でオブジェクトを接続する方法があったら、これらの問題は排除できるだろう。 これらのニューラルネットワークがビデオ内のオブジェクトの識別を良くするためには、再トレーニングが必要だ。 データセットは、連続するビデオフレームを表すイメージと、一致する地上構造層で作成されなければならない。 これらのデータセットを生成できる手法を提案する。 接地層は動く物体のみを含む。 この層を生成するために、flownet2-pytorchは、新しいマグニチュード法を用いたフローマスクの作成に使用された。 また、Mask R-CNNやRefinenetのようなネットワークを使ってセグメンテーションマスクを生成する。 これらのセグメンテーションマスクは、フレーム内で検出されたすべてのオブジェクトを含む。 このセグメンテーションマスクをフローマスク接地層と比較することにより、損失関数を生成する。 この損失関数は、ビデオ上で一貫した予測を行うためにニューラルネットワークをトレーニングするために使用できる。 システムは複数のビデオサンプルでテストされ、各フレームに損失が発生し、将来の作業でオブジェクト検出ニューラルネットワークのトレーニングに使用されるマグニチュード法の能力が証明された。

A growing branch of computer vision is object detection. Object detection is used in many applications such as industrial process, medical imaging analysis, and autonomous vehicles. The ability to detect objects in videos is crucial. Object detection systems are trained on large image datasets. For applications such as autonomous vehicles, it is crucial that the object detection system can identify objects through multiple frames in video. There are many problems with applying these systems to video. Shadows or changes in brightness that can cause the system to incorrectly identify objects frame to frame and cause an unintended system response. There are many neural networks that have been used for object detection and if there was a way of connecting objects between frames then these problems could be eliminated. For these neural networks to get better at identifying objects in video, they need to be re-trained. A dataset must be created with images that represent consecutive video frames and have matching ground-truth layers. A method is proposed that can generate these datasets. The ground-truth layer contains only moving objects. To generate this layer, FlowNet2-Pytorch was used to create the flow mask using the novel Magnitude Method. As well, a segmentation mask will be generated using networks such as Mask R-CNN or Refinenet. These segmentation masks will contain all objects detected in a frame. By comparing this segmentation mask to the flow mask ground-truth layer, a loss function is generated. This loss function can be used to train a neural network to be better at making consistent predictions on video. The system was tested on multiple video samples and a loss was generated for each frame, proving the Magnitude Method's ability to be used to train object detection neural networks in future work.
翻訳日:2021-05-29 11:52:54 公開日:2021-05-26
# (参考訳) DNNV: ディープニューラルネットワーク検証のためのフレームワーク

DNNV: A Framework for Deep Neural Network Verification ( http://arxiv.org/abs/2105.12841v1 )

ライセンス: CC BY 4.0
David Shriver, Sebastian Elbaum, Matthew B. Dwyer(参考訳) 多くの高度なディープニューラルネットワーク(DNN)検証アルゴリズムにもかかわらず、DNN検証開発者、ユーザ、研究者はまだいくつかの課題に直面している。 まず、検証者は、新しいDNN操作とプロパティタイプをサポートするために、急速に変化するDNNフィールドと競合する必要がある。 第2に、検証者ユーザは、問題を特定するために検証者入力形式を選択する負担がある。 多くの入力フォーマットのため、この決定はユーザーが実行できる検証を著しく制限することができる。 最後に、研究者は、異なる検証器を実行するために必要な入力形式が多数存在するため、検証器の評価と比較を行うためのベンチマークの再使用の困難に直面している。 既存のベンチマークは、ベンチマークが導入されたもの以外の検証者がサポートするフォーマットではめったにない。 本稿では,DNN検証研究者,開発者,ユーザに対する負担を軽減するフレームワークであるDNNVを紹介する。 DNNVは入力と出力のフォーマットを標準化し、DNNプロパティを指定するためのシンプルだが表現力のあるDSLを含み、DNN検証のアプリケーション、開発、比較を容易にする強力な単純化と縮小操作を提供する。 DNNVが既存のベンチマークに対する検証サポートを30%から74%に向上することを示す。

Despite the large number of sophisticated deep neural network (DNN) verification algorithms, DNN verifier developers, users, and researchers still face several challenges. First, verifier developers must contend with the rapidly changing DNN field to support new DNN operations and property types. Second, verifier users have the burden of selecting a verifier input format to specify their problem. Due to the many input formats, this decision can greatly restrict the verifiers that a user may run. Finally, researchers face difficulties in re-using benchmarks to evaluate and compare verifiers, due to the large number of input formats required to run different verifiers. Existing benchmarks are rarely in formats supported by verifiers other than the one for which the benchmark was introduced. In this work we present DNNV, a framework for reducing the burden on DNN verifier researchers, developers, and users. DNNV standardizes input and output formats, includes a simple yet expressive DSL for specifying DNN properties, and provides powerful simplification and reduction operations to facilitate the application, development, and comparison of DNN verifiers. We show how DNNV increases the support of verifiers for existing benchmarks from 30% to 74%.
翻訳日:2021-05-29 11:42:18 公開日:2021-05-26
# (参考訳) マルチソース弱教師付き名前付きエンティティ認識のための隠れマルコフモデルの作成

BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition ( http://arxiv.org/abs/2105.12848v1 )

ライセンス: CC BY 4.0
Yinghao Li, Pranav Shetty, Lucas Liu, Chao Zhang, Le Song(参考訳) 複数の弱監督源からノイズの多いラベルを用いて、名前付きエンティティ認識(NER)モデルを学習する問題について検討する。 人間よりも安価だが、弱い情報源は通常不完全、不正確、または矛盾した予測をもたらす。 このような課題に対処するために,条件付き隠れマルコフモデル(CHMM)を提案する。 それは、教師なし学習を通じて弱いソースからラベルを集約する隠れマルコフモデルの能力を継承する。 しかし、CHMMは、入力トークンのBERT埋め込みからトークン単位の遷移と放出確率を予測することにより、隠れマルコフモデルの柔軟性とコンテキスト表現能力を高める。 さらに,CHMMの予測を交互学習アプローチ(CHMM-AlT)で洗練する。 BERTベースのNERモデルをCHMMによって推論されたラベルで微調整し、このBERT-NERの出力はCHMMを訓練するための追加の弱いソースと見なされる。 種々の領域から得られた4つのデータセットの評価から,本手法は弱視下ベースラインよりも広いマージンで優れていることが示された。

We study the problem of learning a named entity recognition (NER) model using noisy la-bels from multiple weak supervision sources. Though cheaper than human annotators, weak sources usually yield incomplete, inaccurate, or contradictory predictions. To address such challenges, we propose a conditional hidden Markov model (CHMM). It inherits the hidden Markov model's ability to aggregating the labels from weak sources through unsupervised learning. However, CHMM enhances the hidden Markov model's flexibility and context representation capability by predicting token-wise transition and emission probabilities from the BERT embeddings of the input tokens. In addition, we refine CHMM's prediction with an alternate-training approach (CHMM-AlT). It fine-tunes a BERT-based NER model with the labels inferred by CHMM, and this BERT-NER's output is regarded as an additional weak source to train the CHMM in return. Evaluation on four datasets from various domains shows that our method is superior to the weakly super-vised baselines by a wide margin.
翻訳日:2021-05-29 11:04:42 公開日:2021-05-26
# (参考訳) CARLS:クロスプラットフォーム非同期表現学習システム

CARLS: Cross-platform Asynchronous Representation Learning System ( http://arxiv.org/abs/2105.12849v1 )

ライセンス: CC BY-SA 4.0
Chun-Ta Lu, Yun Zeng, Da-Cheng Juan, Yicheng Fan, Zhe Li, Jan Dlabal, Yi-Ting Chen, Arjun Gopalan, Allan Heydon, Chun-Sung Ferng, Reah Miyara, Ariel Fuxman, Futang Peng, Zhen Li, Tom Duerig, Andrew Tomkins(参考訳) 本研究では,モデルトレーナー,ナレッジメーカ,ナレッジバンクなど複数のコンポーネントをハードウェアプラットフォーム全体で非同期に連携させることにより,既存のディープラーニングフレームワークのキャパシティを向上するための新しいフレームワークであるCARLSを提案する。 提案したCARLSは、グラフニューラルネットワークのノード埋め込みやモデル予測からの信頼できる疑似ラベルなど、トレーニング中に推測または発見された追加知識からモデルトレーニングが恩恵を受ける学習パラダイムに特に適している。 また、CARLSによって効率的にスケールアップできる例として、半教師付き学習、カリキュラム学習、マルチモーダル学習の3つの学習パラダイムについて説明する。 https://github.com/tensorflow/neural-structured-learning/tree/master/research/carls

In this work, we propose CARLS, a novel framework for augmenting the capacity of existing deep learning frameworks by enabling multiple components -- model trainers, knowledge makers and knowledge banks -- to concertedly work together in an asynchronous fashion across hardware platforms. The proposed CARLS is particularly suitable for learning paradigms where model training benefits from additional knowledge inferred or discovered during training, such as node embeddings for graph neural networks or reliable pseudo labels from model predictions. We also describe three learning paradigms -- semi-supervised learning, curriculum learning and multimodal learning -- as examples that can be scaled up efficiently by CARLS. One version of CARLS has been open-sourced and available for download at: https://github.com/tensorflow/neural-structured-learning/tree/master/research/carls
翻訳日:2021-05-29 10:35:47 公開日:2021-05-26
# DSLR: 逆学習オートエンコーダを用いた動的-静的LiDARスキャン再構成

DSLR: Dynamic to Static LiDAR Scan Reconstruction Using Adversarially Trained Autoencoder ( http://arxiv.org/abs/2105.12774v1 )

ライセンス: Link先を確認
Prashant Kumar, Sabyasachi Sahoo, Vanshil Shah, Vineetha Kondameedi, Abhinav Jain, Akshaj Verma, Chiranjib Bhattacharyya, Vinay Viswanathan(参考訳) ダイナミック・トゥ・スタティック・トランスレーション (dynamic to static translation, dst) と呼ばれる動的物体を含むシーンのライダースキャンによる静的環境の正確な再構築は、自律ナビゲーションにおける重要な研究分野である。 この問題は近年、視的SLAMのために検討されているが、私たちの知る限り、DSTをLiDARスキャンに対処する作業は行われていない。 この問題は、自動運転車にLiDARが広く採用されていることによる重要な問題である。 そこで本研究では,LiDARスキャンに適用した場合に,視覚領域向けに開発された技術の現状について述べる。 我々は,動的スキャンと静的スキャンのマッピングを,対向的に訓練されたオートエンコーダを用いて学習する,深層生成モデルDSLRを開発した。 我々のモデルは、明示的なセグメンテーションラベルを使わずに静的スキャンを生成するLiDAR上のDSTの最初の解を得る。 DSLRは、ペア化された動的静的スキャンがないので、常に実世界のデータに適用できない。 本研究では,Unsupervised Domain Adaptationを用いて,実世界のデータ転送のためのDSLR-UDAを提案する。 さらに、セグメント化情報が利用可能であれば、DSLRをDSLR-Segに拡張して、再構築品質をさらに向上する。 DSLRは、シミュレートされた実世界のデータセットにアートパフォーマンスの状態を与え、少なくとも4倍の改善を示す。 既存のベースラインとは異なり、DSLRは、動的環境におけるSLAMのような自律ナビゲーションに関連するタスクの許容範囲内で、その復元品質を持つ実用的なモデルであることを示す。

Accurate reconstruction of static environments from LiDAR scans of scenes containing dynamic objects, which we refer to as Dynamic to Static Translation (DST), is an important area of research in Autonomous Navigation. This problem has been recently explored for visual SLAM, but to the best of our knowledge no work has been attempted to address DST for LiDAR scans. The problem is of critical importance due to wide-spread adoption of LiDAR in Autonomous Vehicles. We show that state-of the art methods developed for the visual domain when adapted for LiDAR scans perform poorly. We develop DSLR, a deep generative model which learns a mapping between dynamic scan to its static counterpart through an adversarially trained autoencoder. Our model yields the first solution for DST on LiDAR that generates static scans without using explicit segmentation labels. DSLR cannot always be applied to real world data due to lack of paired dynamic-static scans. Using Unsupervised Domain Adaptation, we propose DSLR-UDA for transfer to real world data and experimentally show that this performs well in real world settings. Additionally, if segmentation information is available, we extend DSLR to DSLR-Seg to further improve the reconstruction quality. DSLR gives the state of the art performance on simulated and real-world datasets and also shows at least 4x improvement. We show that DSLR, unlike the existing baselines, is a practically viable model with its reconstruction quality within the tolerable limits for tasks pertaining to autonomous navigation like SLAM in dynamic environments.
翻訳日:2021-05-28 16:43:52 公開日:2021-05-26
# データ中毒による部分依存の騙し

Fooling Partial Dependence via Data Poisoning ( http://arxiv.org/abs/2105.12837v1 )

ライセンス: Link先を確認
Hubert Baniecki, Wojciech Kretowicz, Przemyslaw Biecek(参考訳) 複雑な予測モデルを理解するために多くの手法が開発され、ホック後のモデル説明可能性に高い期待が寄せられている。 このような説明は堅牢でも信頼に値するものでもないことが分かり、騙される可能性がある。 本稿では,表型データに基づいてトレーニングされた予測モデルを説明する最も一般的な手法として,部分依存(プロット,プロファイル,PDP)攻撃手法を提案する。 特に,ブラックボックスモデルをサポートする上で,監査性が必須の特質となった金融・医療アプリケーションにおいて,PDを逆向きに操作できることを示す。 この愚かさは、データを汚染して曲げ、遺伝的アルゴリズムと勾配アルゴリズムを用いて、所望の方向に説明をシフトすることで行われる。 私たちの知る限りでは、これは変数依存の説明に対して攻撃を行う最初の仕事です。 遺伝的アルゴリズムを用いた新しいアプローチは、モデル非依存と説明非依存の両方の方法を一般化するので、非常に転送性が高い。

Many methods have been developed to understand complex predictive models and high expectations are placed on post-hoc model explainability. It turns out that such explanations are not robust nor trustworthy, and they can be fooled. This paper presents techniques for attacking Partial Dependence (plots, profiles, PDP), which are among the most popular methods of explaining any predictive model trained on tabular data. We showcase that PD can be manipulated in an adversarial manner, which is alarming, especially in financial or medical applications where auditability became a must-have trait supporting black-box models. The fooling is performed via poisoning the data to bend and shift explanations in the desired direction using genetic and gradient algorithms. To the best of our knowledge, this is the first work performing attacks on variable dependence explanations. The novel approach of using a genetic algorithm for doing so is highly transferable as it generalizes both ways: in a model-agnostic and an explanation-agnostic manner.
翻訳日:2021-05-28 16:36:21 公開日:2021-05-26
# 密度推定と近似のための拡張KRnet

Augmented KRnet for density estimation and approximation ( http://arxiv.org/abs/2105.12866v1 )

ライセンス: Link先を確認
Xiaoliang Wan and Kejun Tang(参考訳) 本研究では,離散モデルと連続モデルの両方を含む拡張KRnetを提案する。 フローベース生成モデリングの難しさの1つはトランスポートマップの可逆性を維持することである。 この正確な可逆性は、2つの分離された次元群間で情報を交換するために特定のパターンを用いて実NVPで達成されている。 KRnetは、Knothe-Rosenblatt再構成をトランスポートマップの構造に組み込むことで、データ次元間の情報交換を強化するために開発された。 正確な可逆性の維持のため、全てのデータ次元の完全な非線形更新はkrnetの3つのイテレーションを必要とする。 この問題を緩和するため、データ次元間の通信のチャネルとして機能する拡張次元を追加します。 拡張krnetでは、完全に非線形な更新が2回のイテレーションで達成される。 また、拡張KRnetは、正確な可逆性を保ち、離散化ODEに対して随伴法を定式化して正確な勾配が得られるように、ニューラルオーダの離散化として再構成可能であることを示す。 モデルの有効性を示す数値実験が実施されている。

In this work, we have proposed augmented KRnets including both discrete and continuous models. One difficulty in flow-based generative modeling is to maintain the invertibility of the transport map, which is often a trade-off between effectiveness and robustness. The exact invertibility has been achieved in the real NVP using a specific pattern to exchange information between two separated groups of dimensions. KRnet has been developed to enhance the information exchange among data dimensions by incorporating the Knothe-Rosenblatt rearrangement into the structure of the transport map. Due to the maintenance of exact invertibility, a full nonlinear update of all data dimensions needs three iterations in KRnet. To alleviate this issue, we will add augmented dimensions that act as a channel for communications among the data dimensions. In the augmented KRnet, a fully nonlinear update is achieved in two iterations. We also show that the augmented KRnet can be reformulated as the discretization of a neural ODE, where the exact invertibility is kept such that the adjoint method can be formulated with respect to the discretized ODE to obtain the exact gradient. Numerical experiments have been implemented to demonstrate the effectiveness of our models.
翻訳日:2021-05-28 16:35:54 公開日:2021-05-26
# CogView: トランスフォーマーによるテキスト-画像生成のマスタリング

CogView: Mastering Text-to-Image Generation via Transformers ( http://arxiv.org/abs/2105.13290v1 )

ライセンス: Link先を確認
Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang(参考訳) 一般領域におけるテキスト・ツー・イメージ生成は、生成モデルと相互理解の両方を必要とする、長い間オープンな問題であった。 本稿では,VQ-VAEトークンを用いた4ビリオンパラメトリックトランスであるCogViewを提案する。 また、下流の様々なタスクの微調整戦略を実証する。 スタイル学習、超解像度、テキストイメージのランキングとファッションデザイン、事前学習を安定させる方法など。 NaN損失を排除。 CogView(ゼロショット)は、ぼやけたMS COCO上で新しい最先端のFIDを実現し、以前のGANベースモデルと最近の類似のDALL-Eより優れている。

Text-to-Image generation in the general domain has long been an open problem, which requires both generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView (zero-shot) achieves a new state-of-the-art FID on blurred MS COCO, outperforms previous GAN-based models and a recent similar work DALL-E.
翻訳日:2021-05-28 16:33:43 公開日:2021-05-26
# XOmiVAE:高次元オミクスデータを用いた癌分類のための解釈可能なディープラーニングモデル

XOmiVAE: an interpretable deep learning model for cancer classification using high-dimensional omics data ( http://arxiv.org/abs/2105.12807v1 )

ライセンス: Link先を確認
Eloise Withnell, Xiaoyu Zhang, Kai Sun, Yike Guo(参考訳) ディープラーニングベースのアプローチは、オミクスデータをモデル化することを約束している。 しかし、現在の統計的および伝統的な機械学習アプローチに比べて制限の1つは、説明可能性の欠如であり、信頼性を低下させるだけでなく、"ブラックボックス"モデルから新しい知識を得る可能性を制限する。 本稿では,高次元オミクスデータを用いた癌分類のための新しい解釈可能な深層学習モデルであるxomivaeについて述べる。 XOmiVAEは、特定の予測のための各遺伝子および潜伏次元の寄与値と、遺伝子と潜伏次元の相関を得ることができる。 また、XOmiVAEは、教師なし分類と教師なしクラスタリングの結果の両方をディープラーニングネットワークから説明できることを明らかにした。 我々の知る限り、XOmiVAEは、変分オートエンコーダによって生成された新しいクラスタを説明するための、最初に活性化されたディープラーニング解釈手法の1つである。 XOmiVAEが生み出した結果は,生物医学的知識と下流タスクの性能の両方で検証された。 XOmiVAEは、ディープラーニングに基づくがん分類とクラスタリングを、生物学的アノテーションや文献を含む現在のドメイン知識と整合させ、深層学習モデルから新たなバイオメディカル知識発見の可能性を示している。 トップXOmiVAEが選択した遺伝子と次元は、がん分類の性能に大きな影響を及ぼした。 さらに,腫瘍分類のための深層学習モデルを解釈する際に重要なステップを提供する。 例えば、生物学的に意味のある背景サンプルを選択することの重要性と、潜在次元を説明するための接続重みに基づく方法の限界を示す。

Deep learning based approaches have proven promising to model omics data. However, one of the current limitations compared to statistical and traditional machine learning approaches is the lack of explainability, which not only reduces the reliability, but limits the potential for acquiring novel knowledge from unpicking the "black-box" models. Here we present XOmiVAE, a novel interpretable deep learning model for cancer classification using high-dimensional omics data. XOmiVAE is able to obtain contribution values of each gene and latent dimension for a specific prediction, and the correlation between genes and the latent dimensions. It is also revealed that XOmiVAE can explain both the supervised classification and the unsupervised clustering results from the deep learning network. To the best of our knowledge, XOmiVAE is one of the first activated-based deep learning interpretation method to explain novel clusters generated by variational autoencoders. The results generated by XOmiVAE were validated by both the biomedical knowledge and the performance of downstream tasks. XOmiVAE explanations of deep learning based cancer classification and clustering aligned with current domain knowledge including biological annotation and literature, which shows great potential for novel biomedical knowledge discovery from deep learning models. The top XOmiVAE selected genes and dimensions shown significant influence to the performance of cancer classification. Additionally, we offer important steps to consider when interpreting deep learning models for tumour classification. For instance, we demonstrate the importance of choosing background samples that makes biological sense and the limitations of connection weight based methods to explain latent dimensions.
翻訳日:2021-05-28 16:32:54 公開日:2021-05-26
# MTH-IDS:自動車用多階層ハイブリッド侵入検知システム

MTH-IDS: A Multi-Tiered Hybrid Intrusion Detection System for Internet of Vehicles ( http://arxiv.org/abs/2105.13289v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Moubayed, Abdallah Shami(参考訳) 現在、コネクテッドカーや自動運転車を含む現代の車両は、様々な機能を実装するために車内ネットワークを介して接続された多くの電子制御ユニットを含んでいる。 現代の車両は他の車両、インフラ、スマートデバイスとの通信を可能にするため、自動車からあらゆる技術を通して外部ネットワークに接続されている。 しかし、現代の車両の機能性と接続性の向上は、車内ネットワークと外部ネットワークの両方をターゲットにしたサイバー攻撃に対する脆弱性を増大させる。 車両網を確保するため、多くの研究者は悪意のあるサイバー攻撃を検出する機械学習手法を利用する侵入検知システム(idss)の開発に注力している。 本稿では,車内ネットワークと外部ネットワークの脆弱性について論じ,シグネチャベースIDSと異常ベースIDSを組み合わせた多層ハイブリッドIDSを提案し,車両ネットワークに対する既知の攻撃と未知の攻撃の両方を検出する。 実験の結果,車載ネットワークデータを表すCAN-Intrusion-datasetでは99.99%,外部車載ネットワークデータを示すCICIDS2017データセットでは99.88%の精度で,様々な種類の既知の攻撃を検出できることがわかった。 ゼロデイアタック検出では、上記の2つのデータセットでそれぞれ0.963と0.800のF1スコアを達成する。 車両レベルマシンにおける各データパケットの平均処理時間は0.6ms以下であり、リアルタイム車両システムにおける提案システムの実現可能性を示している。 これにより提案したIDSの有効性と効率性が強調される。

Modern vehicles, including connected vehicles and autonomous vehicles, nowadays involve many electronic control units connected through intra-vehicle networks to implement various functionalities and perform actions. Modern vehicles are also connected to external networks through vehicle-to-everything technologies, enabling their communications with other vehicles, infrastructures, and smart devices. However, the improving functionality and connectivity of modern vehicles also increase their vulnerabilities to cyber-attacks targeting both intra-vehicle and external networks due to the large attack surfaces. To secure vehicular networks, many researchers have focused on developing intrusion detection systems (IDSs) that capitalize on machine learning methods to detect malicious cyber-attacks. In this paper, the vulnerabilities of intra-vehicle and external networks are discussed, and a multi-tiered hybrid IDS that incorporates a signature-based IDS and an anomaly-based IDS is proposed to detect both known and unknown attacks on vehicular networks. Experimental results illustrate that the proposed system can detect various types of known attacks with 99.99% accuracy on the CAN-intrusion-dataset representing the intra-vehicle network data and 99.88% accuracy on the CICIDS2017 dataset illustrating the external vehicular network data. For the zero-day attack detection, the proposed system achieves high F1-scores of 0.963 and 0.800 on the above two datasets, respectively. The average processing time of each data packet on a vehicle-level machine is less than 0.6 ms, which shows the feasibility of implementing the proposed system in real-time vehicle systems. This emphasizes the effectiveness and efficiency of the proposed IDS.
翻訳日:2021-05-28 16:32:12 公開日:2021-05-26
# ルーデム記述に基づく一般ゲームヒューリスティック予測

General Game Heuristic Prediction Based on Ludeme Descriptions ( http://arxiv.org/abs/2105.12846v1 )

ライセンス: Link先を確認
Matthew Stephenson, Dennis J. N. J. Soemers, Eric Piette, Cameron Browne(参考訳) 本稿では,ludii汎用ゲームシステムにおけるゲーム用汎用ゲームヒューリスティックの性能について検討する。 これらの結果に基づいて,各ゲーム記述ファイルに基づいて,これらのヒューリスティックスの性能を予測するために,回帰学習モデルを訓練する。 ludiiで利用可能なゲームと、それらを定義する異なるludemの凝縮した分析も提供します。

This paper investigates the performance of different general-game-playing heuristics for games in the Ludii general game system. Based on these results, we train several regression learning models to predict the performance of these heuristics based on each game's description file. We also provide a condensed analysis of the games available in Ludii, and the different ludemes that define them.
翻訳日:2021-05-28 16:25:34 公開日:2021-05-26
# 魚眼カメラを用いたワイヤレス充電アライメントのオンライン学習システム

An Online Learning System for Wireless Charging Alignment using Surround-view Fisheye Cameras ( http://arxiv.org/abs/2105.12763v1 )

ライセンス: Link先を確認
Ashok Dahal, Varun Ravi Kumar, Senthil Yogamani and Ciaran Eising(参考訳) 電気自動車はますます一般的になり、誘導充電パッドは電気自動車を充電するための便利で効率的な手段と考えられている。 しかし、ドライバは通常、効率的な誘導充電に必要な精度で車両を調整できないため、2つの充電プレートの自動アライメントが望ましい。 車両車両の電化と並行して、サラウンドビューカメラシステムを利用した自動駐車システムが人気が高まっている。 本研究では,車体を誘導充電パッドで検出し,位置決めし,自動調整するサラウンドビューカメラアーキテクチャに基づくシステムを提案する。 チャージパッドのビジュアルデザインは標準化されておらず、事前には知られていない。 したがって、オフライントレーニングに依存するシステムは、いくつかの状況で失敗する。 そこで本研究では,車両とチャージパッドを手動で連携させ,セマンティクスセグメンテーションや奥行きからの弱い監督と組み合わせることで,ビデオ内のチャージパッドを自動注釈する分類器を学習し,さらなるトレーニングを行うオンライン学習手法を提案する。 このように、これまで見えない充電パッドに直面した場合、ドライバーは1回だけ手動で車両を調整する必要がある。 充電パッドは地面に平らであるため、距離から検出するのは容易ではない。 そこで我々は,より広い範囲からのアライメントを可能にするために,Visual SLAMパイプラインを用いて充電パッドに対するランドマークを学習する。 ビデオhttps://youtu.be/_clcmkw4uyoに示されているように、自動走行車の作業システムを示す。 さらなる研究を奨励するために、本研究で使用されるchargepadデータセットを共有します。

Electric Vehicles are increasingly common, with inductive chargepads being considered a convenient and efficient means of charging electric vehicles. However, drivers are typically poor at aligning the vehicle to the necessary accuracy for efficient inductive charging, making the automated alignment of the two charging plates desirable. In parallel to the electrification of the vehicular fleet, automated parking systems that make use of surround-view camera systems are becoming increasingly popular. In this work, we propose a system based on the surround-view camera architecture to detect, localize and automatically align the vehicle with the inductive chargepad. The visual design of the chargepads is not standardized and not necessarily known beforehand. Therefore a system that relies on offline training will fail in some situations. Thus we propose an online learning method that leverages the driver's actions when manually aligning the vehicle with the chargepad and combine it with weak supervision from semantic segmentation and depth to learn a classifier to auto-annotate the chargepad in the video for further training. In this way, when faced with a previously unseen chargepad, the driver needs only manually align the vehicle a single time. As the chargepad is flat on the ground, it is not easy to detect it from a distance. Thus, we propose using a Visual SLAM pipeline to learn landmarks relative to the chargepad to enable alignment from a greater range. We demonstrate the working system on an automated vehicle as illustrated in the video https://youtu.be/_cLCmkW4UYo. To encourage further research, we will share a chargepad dataset used in this work.
翻訳日:2021-05-28 16:24:32 公開日:2021-05-26
# cofga:航空画像からの物体の細粒度分類のためのデータセット

cofga: A Dataset for Fine Grained Classification of Objects from Aerial Imagery ( http://arxiv.org/abs/2105.12786v1 )

ライセンス: Link先を確認
Eran Dahan, Tzvi Diskin, Amit Amram, Amit Moryossef, Omer Koren(参考訳) 頭上画像における物体の検出と分類は、コンピュータビジョンにおいて重要な2つの問題である。 この領域の様々な研究領域の中で、高解像度衛星や空中撮像装置の最近の進歩により、様々な実世界の応用において、物体のきめ細かい分類が広く行われている。 クラス間の小さなバリエーションと粒度の細かい性質によって引き起こされる大きなクラス内変異は、特に低リソースの場合において難しい課題となる。 本稿では,細粒度分類研究の進展に向けて,新しいオープンデータセットcofgaを提案する。 2,104枚の画像は、515cmの地上サンプリング距離で空中撮像システムから収集され、ほとんどの公共のオーバーヘッド画像データセットよりも高い空間分解能を提供する。 データセット中の14256個の注釈付きオブジェクトは、2つのクラス、15のサブクラス、14のユニークな特徴、8の知覚された色に分類され、37の異なるラベルが付けられ、他のどの画像データセットよりもきめ細かい分類に適している。 我々はCOFGAを他のオーバーヘッド画像データセットと比較し、このタスクのために実施したオープンデータサイエンスコンペティションで行われた、いくつかの際立った微粒分類アプローチについて述べる。

Detection and classification of objects in overhead images are two important and challenging problems in computer vision. Among various research areas in this domain, the task of fine-grained classification of objects in overhead images has become ubiquitous in diverse real-world applications, due to recent advances in high-resolution satellite and airborne imaging systems. The small inter-class variations and the large intra class variations caused by the fine grained nature make it a challenging task, especially in low-resource cases. In this paper, we introduce COFGA a new open dataset for the advancement of fine-grained classification research. The 2,104 images in the dataset are collected from an airborne imaging system at 5 15 cm ground sampling distance, providing higher spatial resolution than most public overhead imagery datasets. The 14,256 annotated objects in the dataset were classified into 2 classes, 15 subclasses, 14 unique features, and 8 perceived colors a total of 37 distinct labels making it suitable to the task of fine-grained classification more than any other publicly available overhead imagery dataset. We compare COFGA to other overhead imagery datasets and then describe some distinguished fine-grain classification approaches that were explored during an open data-science competition we have conducted for this task.
翻訳日:2021-05-28 16:23:53 公開日:2021-05-26
# RSCA:リアルタイムセグメンテーションに基づくコンテキスト認識テキスト検出

RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection ( http://arxiv.org/abs/2105.12789v1 )

ライセンス: Link先を確認
Jiachen Li, Yuan Lin, Rongrong Liu, Chiu Man Ho and Humphrey Shi(参考訳) 近年,曲面テキストインスタンス上で正確なピクセルレベルの予測を行い,アンカーの処理に時間を要することなくリアルタイムの推論を容易にするため,任意の形状のテキスト検出にシーンテキスト検出法が広く採用されている。 しかし、現在のセグメンテーションベースのモデルは、曲面テキストの形状を学べず、しばしばより正確な検出のために複雑なラベル割り当てや繰り返し機能集約を必要とする。 本稿では,局所的な空間的変換をモデル化し,ラベルの割り当てを個別に単純化した,局所的コンテキスト・アウェア・アップサンプリングと動的テキスト・スピネル・ラベリングという2つの手法を用いて,シーンテキスト検出のための強固なベースラインを設定する,任意の形状のシーンテキスト検出のためのリアルタイムセグメンテーションに基づくコンテキスト・アウェアモデルを提案する。 これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。 提案手法の有効性を検証するため,複数のベンチマーク実験を行った。 RSCA-640は、CTW1500データセット上の48.3 FPSで83.9%のF測定値に達した。

Segmentation-based scene text detection methods have been widely adopted for arbitrary-shaped text detection recently, since they make accurate pixel-level predictions on curved text instances and can facilitate real-time inference without time-consuming processing on anchors. However, current segmentation-based models are unable to learn the shapes of curved texts and often require complex label assignments or repeated feature aggregations for more accurate detection. In this paper, we propose RSCA: a Real-time Segmentation-based Context-Aware model for arbitrary-shaped scene text detection, which sets a strong baseline for scene text detection with two simple yet effective strategies: Local Context-Aware Upsampling and Dynamic Text-Spine Labeling, which model local spatial transformation and simplify label assignments separately. Based on these strategies, RSCA achieves state-of-the-art performance in both speed and accuracy, without complex label assignments or repeated feature aggregations. We conduct extensive experiments on multiple benchmarks to validate the effectiveness of our method. RSCA-640 reaches 83.9% F-measure at 48.3 FPS on CTW1500 dataset.
翻訳日:2021-05-28 16:23:16 公開日:2021-05-26
# ソーシャルメディア投稿におけるマルチモーダルセマンティック不整合検出

Multi-Modal Semantic Inconsistency Detection in Social Media News Posts ( http://arxiv.org/abs/2105.12855v1 )

ライセンス: Link先を確認
Scott McCrae, Kehan Wang, Avideh Zakhor(参考訳) コンピュータ生成コンテンツやディープフェイクが着実に改善されるにつれて、マルチメディアの法医学へのセマンティックアプローチがより重要になる。 本稿では,ソーシャルメディアのニュース投稿におけるビデオの出現とテキストキャプションのセマンティックな矛盾を識別する新しい分類アーキテクチャを提案する。 本研究では,キャプションのテキスト解析,音声自動転写,セマンティックビデオ解析,オブジェクト検出,名前付きエンティティ一貫性,顔認証に基づくアンサンブル手法を用いて,ソーシャルメディア投稿中の動画とキャプションのミスマッチを識別するマルチモーダル融合フレームワークを開発した。 このアプローチをトレーニングし、テストするために、分析のために、4000の現実世界のFacebookニュース投稿からなるビデオベースのデータセットをキュレートする。 マルチモーダルアプローチは、キャプションと外観のランダムなミスマッチに対して60.5%の精度を達成し、ユニモーダルモデルの精度は50%以下である。 さらにアブレーション研究は、意味的不整合を正しく識別するために、モダリティ間の融合の必要性を確認する。

As computer-generated content and deepfakes make steady improvements, semantic approaches to multimedia forensics will become more important. In this paper, we introduce a novel classification architecture for identifying semantic inconsistencies between video appearance and text caption in social media news posts. We develop a multi-modal fusion framework to identify mismatches between videos and captions in social media posts by leveraging an ensemble method based on textual analysis of the caption, automatic audio transcription, semantic video analysis, object detection, named entity consistency, and facial verification. To train and test our approach, we curate a new video-based dataset of 4,000 real-world Facebook news posts for analysis. Our multi-modal approach achieves 60.5% classification accuracy on random mismatches between caption and appearance, compared to accuracy below 50% for uni-modal models. Further ablation studies confirm the necessity of fusion across modalities for correctly identifying semantic inconsistencies.
翻訳日:2021-05-28 16:22:44 公開日:2021-05-26
# 科学的画像偽造検知器のベンチマーク

Benchmarking Scientific Image Forgery Detectors ( http://arxiv.org/abs/2105.12872v1 )

ライセンス: Link先を確認
Jo\~ao P. Cardenuto, Anderson Rocha(参考訳) 科学的画像整合性領域は、困難な研究ボトルネックを示し、法医学的手法の設計と評価に利用可能なデータセットが欠如している。 そのデータ感度は法的なハードルを生み出し、あらゆる種類のアクセス可能な法医学ベンチマークを構築するために、実際の改ざんされたケースに頼ることを防ぎます。 このボトルネックを緩和するため,研究の完全性コミュニティが報告した最も一般的な画像偽造操作を再現する拡張可能なオープンソースライブラリを提案する。 このライブラリと現実的な科学的画像を用いて、豊富な地上構造を持つ巨大な科学的偽画像ベンチマーク(39,423画像)を作成する。 さらに,画像重複による抽出論文の多さを考慮し,提案したデータセットにおける最先端の複写移動検出手法を,ソースとコピー領域との整合性を主張する新たな指標を用いて評価する。 データセットとソースコードは、論文の受理時に自由に利用できる。

The scientific image integrity area presents a challenging research bottleneck, the lack of available datasets to design and evaluate forensic techniques. Its data sensitivity creates a legal hurdle that prevents one to rely on real tampered cases to build any sort of accessible forensic benchmark. To mitigate this bottleneck, we present an extendable open-source library that reproduces the most common image forgery operations reported by the research integrity community: duplication, retouching, and cleaning. Using this library and realistic scientific images, we create a large scientific forgery image benchmark (39,423 images) with an enriched ground-truth. In addition, concerned about the high number of retracted papers due to image duplication, this work evaluates the state-of-the-art copy-move detection methods in the proposed dataset, using a new metric that asserts consistent match detection between the source and the copied region. The dataset and source-code will be freely available upon acceptance of the paper.
翻訳日:2021-05-28 16:22:15 公開日:2021-05-26
# クラウドソーシングにおける不正資格労働の定量化と回避

Quantifying and Avoiding Unfair Qualification Labour in Crowdsourcing ( http://arxiv.org/abs/2105.12762v1 )

ライセンス: Link先を確認
Jonathan K. Kummerfeld(参考訳) 大規模な労働は、少なくとも連邦政府の最低賃金に相当する賃金を群衆労働者に支払うことに賛成している。 一方、高品質なアノテーションの収集に関する調査は、作業者が以前一定のタスクを完了したことを要求した資格の使用を示唆している。 まともな給与を払えば、労働者がすでに多くの仕事をこなす必要がある場合、労働者は、公正な賃金を得る前に、相当な低賃金の仕事を完成させる必要がある。 労働者の議論の分析と研究者の指導を通じて、労働者は、より良い有給タスクに必要な資格を得るために、有給タスクに約2.25ヶ月を費やすと見積もっている。 本研究では,2つのNLPタスクにおける資格と作業品質の相関性について検討する。 高品質なデータを収集しながら作業者の負担を軽減することが可能である。

Extensive work has argued in favour of paying crowd workers a wage that is at least equivalent to the U.S. federal minimum wage. Meanwhile, research on collecting high quality annotations suggests using a qualification that requires workers to have previously completed a certain number of tasks. If most requesters who pay fairly require workers to have completed a large number of tasks already then workers need to complete a substantial amount of poorly paid work before they can earn a fair wage. Through analysis of worker discussions and guidance for researchers, we estimate that workers spend approximately 2.25 months of full time effort on poorly paid tasks in order to get the qualifications needed for better paid tasks. We discuss alternatives to this qualification and conduct a study of the correlation between qualifications and work quality on two NLP tasks. We find that it is possible to reduce the burden on workers while still collecting high quality data.
翻訳日:2021-05-28 16:17:44 公開日:2021-05-26
# Convex Combination Belief Propagation Algorithms

Convex Combination Belief Propagation Algorithms ( http://arxiv.org/abs/2105.12815v1 )

ライセンス: Link先を確認
Anna Grim and Pedro Felzenszwalb(参考訳) グラフィカルモデルを用いた推論のための新しいメッセージパッシングアルゴリズムを提案する。 標準 min-sum および sum-product belief propagation アルゴリズムは、グラフが木構造であるときに収束することが保証されるが、収束せず、グラフが周期を含むとき初期化に敏感である。 本稿では,グラフのトポロジによらず,一意解に収束することが保証される標準信念伝搬アルゴリズムの変更について述べる。

We introduce new message passing algorithms for inference with graphical models. The standard min-sum and sum-product belief propagation algorithms are guaranteed to converge when the graph is tree-structured, but may not converge and can be sensitive to the initialization when the graph contains cycles. This paper describes modifications to the standard belief propagation algorithms that are guaranteed to converge to a unique solution regardless of the topology of the graph.
翻訳日:2021-05-28 16:13:24 公開日:2021-05-26
# trade the event: ニュースベースのイベント駆動トレーディングのための企業イベント検出

Trade the Event: Corporate Events Detection for News-Based Event-Driven Trading ( http://arxiv.org/abs/2105.12825v1 )

ライセンス: Link先を確認
Zhihan Zhou, Liqian Ma, Han Liu(参考訳) 本稿では、ニュース記事から企業イベントを検知して株価変動を予測するイベント駆動取引戦略を提案する。 テキストの特徴(例:back-of-words)や感情を利用して直接株価を予測する既存のモデルとは異なり、企業イベントを株価運動の原動力とみなし、企業イベントの発生時に起こりうる一時的な株価過誤から利益を得る。 提案する戦略の中核は、双方向イベント検出モデルである。 低レベルイベント検出器は各トークンからイベントの存在を識別し、高レベルイベント検出器は記事全体の表現と低レベル検出結果を統合して、記事レベルのイベントを検出する。 また,企業イベント検出およびニュースに基づく株価予測ベンチマークのための,詳細な注釈付きデータセットedtを開発した。 EDTには9721のニュース記事、トークンレベルのイベントラベル、303893のニュース記事、ミニレベルタイムスタンプ、総合的な株価ラベルが含まれている。 EDTの実験では、提案された戦略が勝利率のベースライン、市場の過剰なリターン、各取引における平均リターンを上回ります。

In this paper, we introduce an event-driven trading strategy that predicts stock movements by detecting corporate events from news articles. Unlike existing models that utilize textual features (e.g., bag-of-words) and sentiments to directly make stock predictions, we consider corporate events as the driving force behind stock movements and aim to profit from the temporary stock mispricing that may occur when corporate events take place. The core of the proposed strategy is a bi-level event detection model. The low-level event detector identifies events' existences from each token, while the high-level event detector incorporates the entire article's representation and the low-level detected results to discover events at the article-level. We also develop an elaborately-annotated dataset EDT for corporate event detection and news-based stock prediction benchmark. EDT includes 9721 news articles with token-level event labels as well as 303893 news articles with minute-level timestamps and comprehensive stock price labels. Experiments on EDT indicate that the proposed strategy outperforms all the baselines in winning rate, excess returns over the market, and the average return on each transaction.
翻訳日:2021-05-28 16:10:36 公開日:2021-05-26
# DFPN: 変形可能なフレーム予測ネットワーク

DFPN: Deformable Frame Prediction Network ( http://arxiv.org/abs/2105.12794v1 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, A. Murat Tekalp(参考訳) 学習フレーム予測は、コンピュータビジョンとビデオ圧縮に現在関心がある問題である。 フレーム予測を学習するためにいくつかの深層ネットワークアーキテクチャが提案されているが、私たちの知る限りでは、フレーム予測に変形可能な畳み込みを用いることに基づく作業はない。 本研究では,タスク指向の暗黙動作モデリングと次のフレーム予測のための変形可能なフレーム予測ネットワーク(DFPN)を提案する。 実験の結果, dfpnモデルにより, 次のフレーム予測において, 技術結果が得られた。 私たちのモデルと結果はhttps://github.com/makinyilmaz/dfpn.comで閲覧できます。

Learned frame prediction is a current problem of interest in computer vision and video compression. Although several deep network architectures have been proposed for learned frame prediction, to the best of our knowledge, there is no work based on using deformable convolutions for frame prediction. To this effect, we propose a deformable frame prediction network (DFPN) for task oriented implicit motion modeling and next frame prediction. Experimental results demonstrate that the proposed DFPN model achieves state of the art results in next frame prediction. Our models and results are available at https://github.com/makinyilmaz/DFPN.
翻訳日:2021-05-28 16:09:05 公開日:2021-05-26
# HDXplore:脳にインスパイアされた超次元コンピューティングのブラックボックス自動テスト

HDXplore: Automated Blackbox Testing of Brain-Inspired Hyperdimensional Computing ( http://arxiv.org/abs/2105.12770v1 )

ライセンス: Link先を確認
Rahul Thapa, Dongning Ma, Xun Jiao(参考訳) 人間の脳の働きに触発されて、新しい超次元コンピューティング(HDC)がますます注目を集めている。 HDCは、実際の数値ではなく、神経活動の深い抽象的なパターンで計算する脳の動作メカニズムに基づく、新たなコンピューティングスキームである。 DNNのような従来のMLアルゴリズムと比較して、HDCはよりメモリ中心であり、比較的小さなモデルサイズ、少ない計算コスト、ワンショット学習などの利点を与え、低コストのコンピューティングプラットフォームにおいて有望な候補となる。 しかし、HDCモデルの堅牢性は体系的に研究されていない。 本稿では,blackbox differential testingベースのフレームワークであるhdxploreの開発により,hdcモデルの予期せぬ動作や不正確な動作を体系的に明らかにする。 我々は,複数のHDCモデルを相互参照オラクルと同じような機能で利用し,手動による入力のチェックやラベル付けを避ける。 また,HDXploreで異なる摂動機構を提案する。 HDXploreは、HDCモデルの何千もの誤ったコーナーケースの振る舞いを自動的に見つける。 本稿では,HDXploreが生成したコーナーケースを用いてHDCモデルを再学習し,最大9%の精度でモデルの精度を向上させることを提案する。

Inspired by the way human brain works, the emerging hyperdimensional computing (HDC) is getting more and more attention. HDC is an emerging computing scheme based on the working mechanism of brain that computes with deep and abstract patterns of neural activity instead of actual numbers. Compared with traditional ML algorithms such as DNN, HDC is more memory-centric, granting it advantages such as relatively smaller model size, less computation cost, and one-shot learning, making it a promising candidate in low-cost computing platforms. However, the robustness of HDC models have not been systematically studied. In this paper, we systematically expose the unexpected or incorrect behaviors of HDC models by developing HDXplore, a blackbox differential testing-based framework. We leverage multiple HDC models with similar functionality as cross-referencing oracles to avoid manual checking or labeling the original input. We also propose different perturbation mechanisms in HDXplore. HDXplore automatically finds thousands of incorrect corner case behaviors of the HDC model. We propose two retraining mechanisms and using the corner cases generated by HDXplore to retrain the HDC model, we can improve the model accuracy by up to 9%.
翻訳日:2021-05-28 16:06:19 公開日:2021-05-26
# 自己監視バグ検出と修復

Self-Supervised Bug Detection and Repair ( http://arxiv.org/abs/2105.12787v1 )

ライセンス: Link先を確認
Miltiadis Allamanis, Henry Jackson-Flux, Marc Brockschmidt(参考訳) 機械学習に基づくプログラム分析は、ソフトウェア開発を支援するための形式的および確率論的推論を統合するという約束を最近示した。 しかし,大規模なコーパスが存在しないため,これらの分析の訓練は困難である。 そこで本研究では,バグ検出と修復の自己教師型学習手法であるBugLabを紹介する。 buglabは,(1)コードのバグの検出と修復を学ぶ検出器モデル,(2)検出者がトレーニングデータとして使用するバギーコードを作成することを学ぶセレクタモデル,の2つのモデルを共同でトレーニングする。 buglabのpython実装は、2374の実際のバグのテストデータセットでベースラインメソッドを最大30%改善し、19の未知のバグをオープンソースソフトウェアで発見する。

Machine learning-based program analyses have recently shown the promise of integrating formal and probabilistic reasoning towards aiding software development. However, in the absence of large annotated corpora, training these analyses is challenging. Towards addressing this, we present BugLab, an approach for self-supervised learning of bug detection and repair. BugLab co-trains two models: (1) a detector model that learns to detect and repair bugs in code, (2) a selector model that learns to create buggy code for the detector to use as training data. A Python implementation of BugLab improves by up to 30% upon baseline methods on a test dataset of 2374 real-life bugs and finds 19 previously unknown bugs in open-source software.
翻訳日:2021-05-28 16:05:46 公開日:2021-05-26
# スマートフォンを見込み客に推薦するハイブリッドレコメンダシステム

A Hybrid Recommender System for Recommending Smartphones to Prospective Customers ( http://arxiv.org/abs/2105.12876v1 )

ライセンス: Link先を確認
Pratik K. Biswas, Songlin Liu(参考訳) レコメンダシステムは、高度な情報フィルタリング戦略を用いて検索時間を短縮し、特定のユーザに最も関連する項目を提案する機械学習システムのサブクラスである。 ハイブリッドレコメンデータシステムは、補完的な利点の恩恵を受けるために、さまざまな方法で複数のレコメンデーション戦略を組み合わせる。 いくつかのハイブリッドレコメンデータシステムは、より堅牢なビルドシステムに対する協調フィルタリングとコンテンツベースのアプローチを組み合わせています。 本稿では,代替最小二乗法(als)に基づくコラボレーティブフィルタリングとディープラーニングを組み合わせることにより,コラボレーティブなフィルタリング手法,特にコールドスタート問題に関する制限を克服したハイブリッドレコメンダシステムを提案する。 本質的に、我々はALS(協調フィルタリング)の出力を用いて、ビッグデータ処理フレームワークにおける特徴、文脈、構造、シーケンシャルな情報を組み合わせたディープニューラルネットワーク(DNN)のレコメンデーションに影響を与える。 我々は,提案するハイブリッドアーキテクチャの有効性を検証する実験を,スマートフォンを顧客に推奨し,その性能を他のオープンソースレコメンデータと比較した。 その結果,提案システムは既存のハイブリッドレコメンダシステムよりも優れていることがわかった。

Recommender Systems are a subclass of machine learning systems that employ sophisticated information filtering strategies to reduce the search time and suggest the most relevant items to any particular user. Hybrid recommender systems combine multiple recommendation strategies in different ways to benefit from their complementary advantages. Some hybrid recommender systems have combined collaborative filtering and content-based approaches to build systems that are more robust. In this paper, we propose a hybrid recommender system, which combines Alternative Least Squares (ALS) based collaborative filtering with deep learning to enhance recommendation performance as well as overcome the limitations associated with the collaborative filtering approach, especially concerning its cold start problem. In essence, we use the outputs from ALS (collaborative filtering) to influence the recommendations from a Deep Neural Network (DNN), which combines characteristic, contextual, structural and sequential information, in a big data processing framework. We have conducted several experiments in testing the efficacy of the proposed hybrid architecture in recommending smartphones to prospective customers and compared its performance with other open-source recommenders. The results have shown that the proposed system has outperformed several existing hybrid recommender systems.
翻訳日:2021-05-28 16:05:26 公開日:2021-05-26
# シーケンス並列性:4D並列性を実現する

Sequence Parallelism: Making 4D Parallelism Possible ( http://arxiv.org/abs/2105.13120v1 )

ライセンス: Link先を確認
Shenggui Li, Fuzhao Xue, Yongbin Li, Yang You(参考訳) トランスフォーマでは、セルフアテンションが強力なコンテキスト認識表現を学ぶためのキーモジュールである。 しかし、自己注意はシーケンス長に関して二次記憶要求に悩まされ、GPU上でより長いシーケンスを処理することが制限される。 本稿では,入力シーケンス長制限を破ってgpu上で長いシーケンスでトレーニングするメモリ効率のよい並列処理手法であるsequence parallelismを提案する。 既存の並列処理と比較して、我々のアプローチはシーケンス全体を保持するために単一のデバイスを必要としない。 具体的には、入力シーケンスを複数のチャンクに分割し、各チャンクを対応するデバイス(すなわち、)に供給する。 GPU)。 注意出力を計算するため、GPU間の注意埋め込みを通信する。 リングオールリデューサにインスパイアされたリング型通信と自己注意計算を統合し,リング自己注意(RSA)を提案する。 私たちの実装は完全にPyTorchをベースにしています。 追加のコンパイラやライブラリの変更がなければ、このアプローチはデータ並列処理やパイプライン並列処理と互換性があります。 実験の結果,バッチサイズやシーケンス長のスケーリングでは,シーケンス並列性が良好に動作することがわかった。 テンソル並列処理と比較して、64 nvidia p100 gpuまでスケールアップすると、それぞれ13.7\times$と$3.0\times$のバッチサイズとシーケンス長がそれぞれ達成された。 今後,データ,パイプライン,テンソル並列処理とシーケンシャル並列処理を統合して,4次元並列処理による大規模モデルをさらにトレーニングする予定です。

Within Transformer, self-attention is the key module to learn powerful context-aware representations. However, self-attention suffers from quadratic memory requirements with respect to the sequence length, which limits us to process longer sequence on GPU. In this work, we propose sequence parallelism, a memory efficient parallelism method to help us break input sequence length limitation and train with longer sequence on GPUs. Compared with existing parallelism, our approach no longer requires a single device to hold the whole sequence. Specifically, we split the input sequence into multiple chunks and feed each chunk into its corresponding device (i.e. GPU). To compute the attention output, we communicate attention embeddings among GPUs. Inspired by ring all-reduce, we integrated ring-style communication with self-attention calculation and proposed Ring Self-Attention (RSA). Our implementation is fully based on PyTorch. Without extra compiler or library changes, our approach is compatible with data parallelism and pipeline parallelism. Experiments show that sequence parallelism performs well when scaling with batch size and sequence length. Compared with tensor parallelism, our approach achieved $13.7\times$ and $3.0\times$ maximum batch size and sequence length respectively when scaling up to 64 NVIDIA P100 GPUs. We plan to integrate our sequence parallelism with data, pipeline and tensor parallelism to further train large-scale models with 4D parallelism in our future work.
翻訳日:2021-05-28 16:04:22 公開日:2021-05-26
# 圧縮センシングに基づく再構成と推論のための深層学習技術 -ユビキタスシステムの視点から

Deep Learning Techniques for Compressive Sensing-Based Reconstruction and Inference -- A Ubiquitous Systems Perspective ( http://arxiv.org/abs/2105.13191v1 )

ライセンス: Link先を確認
Alina L. Machidon and Veljko Pejovic(参考訳) 圧縮センシング(CS)は、サンプリング率を減らす数学的にエレガントなツールであり、より広い範囲のデバイスにコンテキスト認識をもたらす可能性がある。 それにもかかわらず、サンプリングと再構成アルゴリズムの実践的な問題は、特に異種ユビキタスデバイスにおいて、現実世界領域におけるCSのさらなる増殖を妨げる。 深層学習(DL)は、サンプリング行列を適応し、信号を再構成し、圧縮されたサンプルを学習するためのCSを自然に補完する。 CS-DL統合は近年、かなりの研究関心を集めているが、まだ徹底的な調査は行われておらず、Ubicompドメインの現実の実装にCS-DLを導入するための実践的な問題にも光を当てていない。 本稿では,CS-DLを効率的にするための主要なアイデアを抽出し,CS-DL研究空間における主要なトレンドを特定し,Ubicompドメイン内でのCS-DLの今後の進化に関するガイドラインを導出する。

Compressive sensing (CS) is a mathematically elegant tool for reducing the sampling rate, potentially bringing context-awareness to a wider range of devices. Nevertheless, practical issues with the sampling and reconstruction algorithms prevent further proliferation of CS in real world domains, especially among heterogeneous ubiquitous devices. Deep learning (DL) naturally complements CS for adapting the sampling matrix, reconstructing the signal, and learning form the compressed samples. While the CS-DL integration has received substantial research interest recently, it has not yet been thoroughly surveyed, nor has the light been shed on practical issues towards bringing the CS-DL to real world implementations in the ubicomp domain. In this paper we identify main possible ways in which CS and DL can interplay, extract key ideas for making CS-DL efficient, identify major trends in CS-DL research space, and derive guidelines for future evolution of CS-DL within the ubicomp domain.
翻訳日:2021-05-28 16:03:06 公開日:2021-05-26
# PyTouch: タッチ処理のための機械学習ライブラリ

PyTouch: A Machine Learning Library for Touch Processing ( http://arxiv.org/abs/2105.12791v1 )

ライセンス: Link先を確認
Mike Lambeta, Huazhe Xu, Jingwei Xu, Po-Wei Chou, Shaoxiong Wang, Trevor Darrell, Roberto Calandra(参考訳) リッチな触覚センサが利用可能になるにつれて、制御や意思決定に使用できる高レベルの信号に生のタッチ計測を効率よく効果的に処理できるオープンソースと統合ソフトウェアが等しく必要となる。 本稿では,タッチセンシング信号の処理に特化した最初の機械学習ライブラリであるpytouchを提案する。 PyTouchはモジュラーで使いやすいように設計されており、アプリケーションや研究が構築可能な、スケーラブルで実証されたパフォーマンス検証済みのモジュールを構築するためのライブラリを提供することで、触覚センサコミュニティを統合することを目的として、最先端のタッチ処理機能をサービスとして提供する。 タッチ検出やスリップ,オブジェクトポーズ推定など,タッチ処理タスクにおける触覚センサによる実世界データに対するpytouchの評価を行う。 pytouchはhttps://github.com/facebookresearch/pytouchでオープンソースである。

With the increased availability of rich tactile sensors, there is an equally proportional need for open-source and integrated software capable of efficiently and effectively processing raw touch measurements into high-level signals that can be used for control and decision-making. In this paper, we present PyTouch -- the first machine learning library dedicated to the processing of touch sensing signals. PyTouch, is designed to be modular, easy-to-use and provides state-of-the-art touch processing capabilities as a service with the goal of unifying the tactile sensing community by providing a library for building scalable, proven, and performance-validated modules over which applications and research can be built upon. We evaluate PyTouch on real-world data from several tactile sensors on touch processing tasks such as touch detection, slip and object pose estimations. PyTouch is open-sourced at https://github.com/facebookresearch/pytouch .
翻訳日:2021-05-28 16:01:30 公開日:2021-05-26
# 視覚応用のためのフルスタックアクセラレーション探索手法

A Full-stack Accelerator Search Technique for Vision Applications ( http://arxiv.org/abs/2105.12842v1 )

ライセンス: Link先を確認
Dan Zhang, Safeen Huda, Ebrahim Songhori, Quoc Le, Anna Goldie, Azalia Mirhoseini(参考訳) 急速に変化するMLモデルランドスケープは、特定のデータセンタースケールのワークロードに最適化されたハードウェアアクセラレータを構築するユニークな機会を提供する。 ハードウェアデータパス,ソフトウェアスケジューリング,オペレーションフュージョンやテンソルパディングといったコンパイラパスなど,ハードウェアソフトウェアスタック内の重要な設計決定をカバーする幅広い最適化環境を定義する,ハードウェアアクセラレーション検索フレームワークであるfast(full-stack accelerator search technique)を提案する。 高速は任意の数と種類のディープラーニングワークロードに使用できるが、本論文では、単一または小さなビジョンモデルに対する最適化にフォーカスし、汎用mlアクセラレータに比べて大幅に高速かつ電力効率の高い設計を実現する。 efficientnet、resnet50v2、ocr推論性能でtpu-v3と比較すると、単一ワークロードに最適化された高速設計により、最善のケースで6倍、平均で4倍のperf/tdp(ピークパワー)を改善することができる。 限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。 さらに,TPU-v3のスケジュール改善による1.8倍高速化の可能性を示す。

The rapidly-changing ML model landscape presents a unique opportunity for building hardware accelerators optimized for specific datacenter-scale workloads. We propose Full-stack Accelerator Search Technique (FAST), a hardware accelerator search framework that defines a broad optimization environment covering key design decisions within the hardware-software stack, including hardware datapath, software scheduling, and compiler passes such as operation fusion and tensor padding. Although FAST can be used on any number and type of deep learning workload, in this paper we focus on optimizing for a single or small set of vision models, resulting in significantly faster and more power-efficient designs relative to a general purpose ML accelerator. When evaluated on EfficientNet, ResNet50v2, and OCR inference performance relative to a TPU-v3, designs generated by FAST optimized for single workloads can improve Perf/TDP (peak power) by over 6x in the best case and 4x on average. On a limited workload subset, FAST improves Perf/TDP 2.85x on average, with a reduction to 2.35x for a single design optimized over the set of workloads. In addition, we demonstrate a potential 1.8x speedup opportunity for TPU-v3 with improved scheduling.
翻訳日:2021-05-28 16:01:06 公開日:2021-05-26
# BioNavi-NP:天然物の生合成ナビゲータ

BioNavi-NP: Biosynthesis Navigator for Natural Products ( http://arxiv.org/abs/2105.13121v1 )

ライセンス: Link先を確認
Shuangjia Zheng, Tao Zeng, Chengtao Li, Binghong Chen, Connor W. Coley, Yuedong Yang, Ruibo Wu(参考訳) 合成マスターであるnatureは、300,000以上の天然物(nps)を生産し、npsの膨大な化学空間のためfdaが提供する薬物の主要な構成要素である。 現在までに、約33,000の既知の酵素触媒反応に関与する検証済みnps化合物は3万以下であり、カスケード結合酵素触媒による生合成経路も少ない。 したがって, コンピュータ支援による生合成予測が重要である。 そこで我々は,新しい(AND-OR木)計画アルゴリズム,拡張分子トランスフォーマーニューラルネットワーク,一般的な有機変換と生合成ステップを組み合わせたトレーニングセットを通じて,NPやNP様化合物の生合成経路を予測する,ナビゲートでユーザフレンドリなツールキットであるBioNavi-NPを開発した。 広範な評価により,bionavi-npは90%の試験化合物の生合成経路を同定し, 73%の検証済みビルディングブロックを回収し, 従来の規則に基づくアプローチを著しく上回っていることが明らかとなった。 さらに、BioNavi-NPは、生物学的に可塑性経路の列挙能力に優れていた。 この意味で、BioNavi-NPは、天然物の複雑な生合成経路を再設計する最先端のツールキットであり、総合成や半合成、経路の解明、再構築への応用がある。

Nature, a synthetic master, creates more than 300,000 natural products (NPs) which are the major constituents of FDA-proved drugs owing to the vast chemical space of NPs. To date, there are fewer than 30,000 validated NPs compounds involved in about 33,000 known enzyme catalytic reactions, and even fewer biosynthetic pathways are known with complete cascade-connected enzyme catalysis. Therefore, it is valuable to make computer-aided bio-retrosynthesis predictions. Here, we develop BioNavi-NP, a navigable and user-friendly toolkit, which is capable of predicting the biosynthetic pathways for NPs and NP-like compounds through a novel (AND-OR Tree)-based planning algorithm, an enhanced molecular Transformer neural network, and a training set that combines general organic transformations and biosynthetic steps. Extensive evaluations reveal that BioNavi-NP generalizes well to identifying the reported biosynthetic pathways for 90% of test compounds and recovering the verified building blocks for 73%, significantly outperforming conventional rule-based approaches. Moreover, BioNavi-NP also shows an outstanding capacity of biologically plausible pathways enumeration. In this sense, BioNavi-NP is a leading-edge toolkit to redesign complex biosynthetic pathways of natural products with applications to total or semi-synthesis and pathway elucidation or reconstruction.
翻訳日:2021-05-28 15:59:19 公開日:2021-05-26
# 学習画像圧縮のための自己組織化変分オートエンコーダ(Self-VAE)

Self-Organized Variational Autoencoders (Self-VAE) for Learned Image Compression ( http://arxiv.org/abs/2105.12107v2 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, Onur Kele\c{s}, Hilal G\"uven, A. Murat Tekalp, Junaid Malik, Serkan K{\i}ranyaz(参考訳) エンドツーエンドに最適化された画像圧縮では、一般化された分割正規化(GDN)を備えた畳み込み変分オートエンコーダを用いて画像を潜時空間に変換するのが一般的である。 近年,一組の代替品から最良の非線形性を学ぶオペレーショナルニューラルネットワーク (ONNs) や,テイラー級数を介して任意の非線形性を近似する自己組織化変種Self-ONNsが,畳み込み層と固定された非線形活性化の限界に対処するために提案されている。 本稿では,変分オートエンコーダの畳み込み層とgdn層を自己組織型操作層に置き換え,より強固な非線形性を利用した新しい自己組織型変分オートエンコーダ(self-vae)アーキテクチャを提案する。 実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。

In end-to-end optimized learned image compression, it is standard practice to use a convolutional variational autoencoder with generalized divisive normalization (GDN) to transform images into a latent space. Recently, Operational Neural Networks (ONNs) that learn the best non-linearity from a set of alternatives, and their self-organized variants, Self-ONNs, that approximate any non-linearity via Taylor series have been proposed to address the limitations of convolutional layers and a fixed nonlinear activation. In this paper, we propose to replace the convolutional and GDN layers in the variational autoencoder with self-organized operational layers, and propose a novel self-organized variational autoencoder (Self-VAE) architecture that benefits from stronger non-linearity. The experimental results demonstrate that the proposed Self-VAE yields improvements in both rate-distortion performance and perceptual image quality.
翻訳日:2021-05-28 11:32:45 公開日:2021-05-26
# (参考訳) 記号式検証のための欠陥データセット

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v2 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-28 08:48:40 公開日:2021-05-26
# (参考訳) IGO-QNN: Inductive Grover Oracularizationのための量子ニューラルネットワークアーキテクチャ

IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization ( http://arxiv.org/abs/2105.11603v2 )

ライセンス: CC BY 4.0
Areeq I. Hasan(参考訳) 本稿では,Groverのアルゴリズムを機械学習フレームワークに統合する新たなパラダイムとして,インダクティブGrover Oracular quantum Neural Network (IGO-QNN)を提案する。 このモデルは、パラメータ化された量子ニューロンの隠れた層をエンタングルシナプスを介して密結合し、データベースヒットのトレーニング例からトレーニング可能な動的グローバー探索オラクルを符号化する変分量子回路を定義する。 これにより、Groverの非構造化探索アルゴリズムの幅広い問題適用範囲を拡大し、解検証器の分析記述に欠ける問題の大部分を含むようにし、不構造化探索における2次的なスピードアップを可能にした。 グローバーのoracularizationのこの一般化は、深層強化学習、コンピュータビジョン、より一般的には、既存のモデルの上部にある特徴ベクトル分類器として特に有効であるかもしれない。

We propose a novel paradigm of integration of Grover's algorithm in a machine learning framework: the inductive Grover oracular quantum neural network (IGO-QNN). The model defines a variational quantum circuit with hidden layers of parameterized quantum neurons densely connected via entangle synapses to encode a dynamic Grover's search oracle that can be trained from a set of database-hit training examples. This widens the range of problem applications of Grover's unstructured search algorithm to include the vast majority of problems lacking analytic descriptions of solution verifiers, allowing for quadratic speed-up in unstructured search for the set of search problems with relationships between input and output spaces that are tractably underivable deductively. This generalization of Grover's oracularization may prove particularly effective in deep reinforcement learning, computer vision, and, more generally, as a feature vector classifier at the top of an existing model.
翻訳日:2021-05-28 08:38:37 公開日:2021-05-26
# (参考訳) SG-PALM:高速物理的解釈可能なテンソルグラフモデル

SG-PALM: a Fast Physically Interpretable Tensor Graphical Model ( http://arxiv.org/abs/2105.12271v1 )

ライセンス: CC BY 4.0
Yu Wang and Alfred Hero(参考訳) 本研究では,高次元テンソル変量データの条件依存構造を学習するための新しいグラフィカルモデル推論手法SG-PALMを提案する。 他の多くのテンソルグラフィカルモデルとは異なり、提案モデルは解釈可能で高次元にスケーラブルである。 物理的解釈性は、SG-PALMがベースとするシルヴェスター生成(Sylvester Generative, SG)モデルから従う:モデルはポアソン型の偏微分方程式の解である任意の観測過程に対して正確である。 スケーラビリティは、SG-PALMがトレーニング中に使用する高速な近位交互線形化最小化(PALM)手順から導かれる。 SG-PALM はその目的関数の大域的最適値に線形収束する(すなわち幾何収束率)。 我々は,SG-PALMのスケーラビリティと精度を,多モードイメージングデータによる太陽フレアの時空間予測問題として示す。

We propose a new graphical model inference procedure, called SG-PALM, for learning conditional dependency structure of high-dimensional tensor-variate data. Unlike most other tensor graphical models the proposed model is interpretable and computationally scalable to high dimension. Physical interpretability follows from the Sylvester generative (SG) model on which SG-PALM is based: the model is exact for any observation process that is a solution of a partial differential equation of Poisson type. Scalability follows from the fast proximal alternating linearized minimization (PALM) procedure that SG-PALM uses during training. We establish that SG-PALM converges linearly (i.e., geometric convergence rate) to a global optimum of its objective function. We demonstrate the scalability and accuracy of SG-PALM for an important but challenging climate prediction problem: spatio-temporal forecasting of solar flares from multimodal imaging data.
翻訳日:2021-05-28 03:59:21 公開日:2021-05-26
# (参考訳) FINNger -- 子供のための数学学習を容易にする人工知能の適用

FINNger -- Applying artificial intelligence to ease math learning for children ( http://arxiv.org/abs/2105.12281v1 )

ライセンス: CC0 1.0
Rafael Baldasso Audibert and Vinicius Marinho Maschio(参考訳) 子どもたちは、タブレットやスマートフォンなどのモダンな電子機器を使うことができる。 こうしたデバイスが世界中で普及し、世界第三の国にも広がり、アクセスが容易になったことで、この状況は驚くほど加速した。 また、幼児は就学前のある科目を学ぶのが難しいことが知られている。 我々は社会として、アルファベット化に重点を置いているが、結局、子供は別の重要な分野である数学に違いを持つことになる。 この研究により、我々は、子どもたちがそのような技術アプリケーションを使うときに、多くの楽しむことができるという事実を、新しい畳み込みニューラルネットワークを用いて、低年齢の子どもの知識と概念を理解する能力を向上させることで、楽しい活動と楽しい活動のギャップを縮めようとする、直感的なアプリケーションの基礎を作ることができる。

Kids have an amazing capacity to use modern electronic devices such as tablets, smartphones, etc. This has been incredibly boosted by the ease of access of these devices given the expansion of such devices through the world, reaching even third world countries. Also, it is well known that children tend to have difficulty learning some subjects at pre-school. We as a society focus extensively on alphabetization, but in the end, children end up having differences in another essential area: Mathematics. With this work, we create the basis for an intuitive application that could join the fact that children have a lot of ease when using such technological applications, trying to shrink the gap between a fun and enjoyable activity with something that will improve the children knowledge and ability to understand concepts when in a low age, by using a novel convolutional neural network to achieve so, named FINNger.
翻訳日:2021-05-28 03:11:25 公開日:2021-05-26
# (参考訳) クエリプランエンコーダを用いたデータベースワークロードのキャラクタリゼーション

Database Workload Characterization with Query Plan Encoders ( http://arxiv.org/abs/2105.12287v1 )

ライセンス: CC BY 4.0
Debjyoti Paul, Jie Cao, Feifei Li, Vivek Srikumar(参考訳) スマートデータベースは人工知能(AI)技術を採用して、.emインスタンスの最適性を実現している。 理由は、すべてのデータベースが異なるワークロードで動作し、最適なパフォーマンスを達成するために特定のリソースと設定を要求するからです。 これにより、システム内で実行されるワークロードとその機能を包括的に理解する必要性が高まります。 この作業負荷特性問題に対処するため,クエリ計画から本質的な特徴と相関関係を学習するクエリプランエンコーダを提案する。 事前学習したエンコーダはクエリの「em構造」と「em計算性能」を独立にキャプチャします。 事前訓練されたエンコーダは、転送学習プロセスを高速化するワークロードに適応可能であることを示す。 複数の下流タスクを持つ構造エンコーダと性能エンコーダの独立評価を行った。 クエリプランエンコーダの全体的な評価のために,2つのダウンストリームタスク (i) クエリレイテンシ予測と (ii) クエリ分類を設計した。 これらのタスクは特徴に基づくワークロードの特徴付けの重要性を示している。 また,表現学習とドメイン適応性の有効性を検証するため,個々のエンコーダについて広範な実験を行った。

Smart databases are adopting artificial intelligence (AI) technologies to achieve {\em instance optimality}, and in the future, databases will come with prepackaged AI models within their core components. The reason is that every database runs on different workloads, demands specific resources, and settings to achieve optimal performance. It prompts the necessity to understand workloads running in the system along with their features comprehensively, which we dub as workload characterization. To address this workload characterization problem, we propose our query plan encoders that learn essential features and their correlations from query plans. Our pretrained encoders capture the {\em structural} and the {\em computational performance} of queries independently. We show that our pretrained encoders are adaptable to workloads that expedite the transfer learning process. We performed independent assessments of structural encoder and performance encoders with multiple downstream tasks. For the overall evaluation of our query plan encoders, we architect two downstream tasks (i) query latency prediction and (ii) query classification. These tasks show the importance of feature-based workload characterization. We also performed extensive experiments on individual encoders to verify the effectiveness of representation learning and domain adaptability.
翻訳日:2021-05-28 03:00:11 公開日:2021-05-26
# (参考訳) 重み補正によるブロック密度重み付きネットワーク

Block Dense Weighted Networks with Augmented Degree Correction ( http://arxiv.org/abs/2105.12290v1 )

ライセンス: CC BY 4.0
Benjamin Leinwand, Vladas Pipiras(参考訳) 重み付けされた接続を持つ密集したネットワークは、たいていのノードが互いに接続しているにもかかわらず、各ノードのコミュニティメンバーシップによって異なるエッジ重みのパターンが出現する、構造のようなコミュニティを示すことが多い。 本研究では,異なるコミュニティ間で異なる接続パターンを持つ重み付きネットワークの生成と推定を行う新しいフレームワークを提案する。 提案したモデルでは,個々のノード特性を各ノードを接続するエッジにマッピングする関数のクラスに依存しており,エッジ数に対して少数のパラメータを必要としながら,柔軟性を実現する。 推定手法を活用することにより,複数のデータセットを収集できない状況において有用な,同一の頂点上で新たなネットワークを生成するブートストラップ手法も開発する。 これらの手法の性能は理論、シミュレーション、実データで分析される。

Dense networks with weighted connections often exhibit a community like structure, where although most nodes are connected to each other, different patterns of edge weights may emerge depending on each node's community membership. We propose a new framework for generating and estimating dense weighted networks with potentially different connectivity patterns across different communities. The proposed model relies on a particular class of functions which map individual node characteristics to the edges connecting those nodes, allowing for flexibility while requiring a small number of parameters relative to the number of edges. By leveraging the estimation techniques, we also develop a bootstrap methodology for generating new networks on the same set of vertices, which may be useful in circumstances where multiple data sets cannot be collected. Performance of these methods are analyzed in theory, simulations, and real data.
翻訳日:2021-05-28 02:30:22 公開日:2021-05-26
# (参考訳) ロバストなバイリンガル語彙誘導のための単語埋め込み変換

Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon Induction ( http://arxiv.org/abs/2105.12297v1 )

ライセンス: CC BY 4.0
Hailong Cao and Tiejun Zhao(参考訳) 非教師的バイリンガル語彙誘導(UBLI)において,単言語コーパスで独立に訓練されたソースとターゲット単語の埋め込みを調整することにより,大きな進歩を遂げた。 ほとんどのUBLIモデルの一般的な仮定は、2つの言語の埋め込み空間が概同型であるということである。 したがって、その性能は同型度、特に語源的および類型的遠隔言語によって制限される。 この問題に対処するため,同型性を高める変換に基づく手法を提案する。 2つの言語の埋め込みは、回転とスケーリングによって互いに一致させる。 この方法はいかなる種類の監督も必要とせず、任意の言語対に適用できる。 バイリンガル語彙誘導のベンチマークデータセットでは、最先端の手法と比較して競争力や優れた性能が得られ、特に遠い言語では強い結果が得られている。

Great progress has been made in unsupervised bilingual lexicon induction (UBLI) by aligning the source and target word embeddings independently trained on monolingual corpora. The common assumption of most UBLI models is that the embedding spaces of two languages are approximately isomorphic. Therefore the performance is bound by the degree of isomorphism, especially on etymologically and typologically distant languages. To address this problem, we propose a transformation-based method to increase the isomorphism. Embeddings of two languages are made to match with each other by rotating and scaling. The method does not require any form of supervision and can be applied to any language pair. On a benchmark data set of bilingual lexicon induction, our approach can achieve competitive or superior performance compared to state-of-the-art methods, with particularly strong results being found on distant languages.
翻訳日:2021-05-28 02:28:05 公開日:2021-05-26
# (参考訳) SGPT:Aspect-based Sentiment Analysisのための意味グラフに基づく事前学習

SGPT: Semantic Graphs based Pre-training for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2105.12305v1 )

ライセンス: CC BY 4.0
Yong Qian, Zhongqing Wang, Rong Xiao, Chen Chen and Haihong Tang(参考訳) 過去の研究では、感情分析のための事前学習言語モデルの有効性が示されている。 However, most of these studies ignore the importance of sentimental information for pre-trained models.Therefore, we fully investigate the sentimental information for pre-trained models and enhance pre-trained language models with semantic graphs for sentiment analysis.In particular, we introduce Semantic Graphs based Pre-training(SGPT) using semantic graphs to obtain synonym knowledge for aspect-sentiment pairs and similar aspect/sentiment terms.We then optimize the pre-trained language model with the semantic graphs.Empirical studies on several downstream tasks show that proposed model outperforms strong pre-trained baselines. また,事前学習モデルに対して提案する意味グラフの有効性を示す。

Previous studies show effective of pre-trained language models for sentiment analysis. However, most of these studies ignore the importance of sentimental information for pre-trained models.Therefore, we fully investigate the sentimental information for pre-trained models and enhance pre-trained language models with semantic graphs for sentiment analysis.In particular, we introduce Semantic Graphs based Pre-training(SGPT) using semantic graphs to obtain synonym knowledge for aspect-sentiment pairs and similar aspect/sentiment terms.We then optimize the pre-trained language model with the semantic graphs.Empirical studies on several downstream tasks show that proposed model outperforms strong pre-trained baselines. The results also show the effectiveness of proposed semantic graphs for pre-trained model.
翻訳日:2021-05-28 02:18:17 公開日:2021-05-26
# (参考訳) 読み、聞き、そして見る:中国のスペルチェックに役立つマルチモーダル情報を活用する

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking ( http://arxiv.org/abs/2105.12306v1 )

ライセンス: CC BY 4.0
Heng-Da Xu, Zhongli Li, Qingyu Zhou, Chao Li, Zizhen Wang, Yunbo Cao, Heyan Huang and Xian-Ling Mao(参考訳) Chinese Spell Checking (CSC) は、中国語におけるユーザ生成テキストの誤字を検出し、訂正することを目的としている。 中国語の綴りの誤りのほとんどは、意味的に、音韻的に、またはグラフィカルに類似した文字で誤用される。 以前の試みはこの現象に気づき、この課題に類似性を利用することを試みた。 しかし、これらの手法はヒューリスティックまたは手作りの混乱セットを用いて正しいキャラクタを予測する。 本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。 ReaLiSeモデルは,(1)入力文字のセマンティック,音声,グラフィック情報をキャプチャし,(2)これらのモーダルの情報を選択的に混合して正しい出力を予測することによって,CSCタスクに取り組む。 SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。

Chinese Spell Checking (CSC) aims to detect and correct erroneous characters for user-generated text in the Chinese language. Most of the Chinese spelling errors are misused semantically, phonetically or graphically similar characters. Previous attempts noticed this phenomenon and try to use the similarity for this task. However, these methods use either heuristics or handcrafted confusion sets to predict the correct character. In this paper, we propose a Chinese spell checker called ReaLiSe, by directly leveraging the multimodal information of the Chinese characters. The ReaLiSe model tackles the CSC task by (1) capturing the semantic, phonetic and graphic information of the input characters, and (2) selectively mixing the information in these modalities to predict the correct output. Experiments on the SIGHAN benchmarks show that the proposed model outperforms strong baselines by a large margin.
翻訳日:2021-05-28 02:03:57 公開日:2021-05-26
# (参考訳) 前景セグメンテーションニューラルネットワークモデルの性能解析

Performance Analysis of a Foreground Segmentation Neural Network Model ( http://arxiv.org/abs/2105.12311v1 )

ライセンス: CC BY-SA 4.0
Joel Tom\'as Morais, Ant\'onio Ramires Fernandes, Andr\'e Leite Ferreira, Bruno Faria(参考訳) 近年はセグメンテーションへの関心が高まっており、不正検出、公衆衛生における異常検出、侵入検知など幅広い用途で利用されている。 我々は,FgSegNet_v2のアブレーション研究を行い,その3段階を解析した: (i) Encoder, (ii) Feature Pooling Module, (iii) Decoder。 本研究の結果は, 上記の方法の変動が, 技術結果の状態を超越したものである。 CDNet2014、SBI2015、CityScapesの3つのデータセットがテストに使用されている。 cdnet2014では、主に低フレームのサブセットで、最先端に比べて全体的な改善がありました。 state of the art(sbi2015とcityscapes datasets)に比較して、照明条件の違いなど、非常に異なる条件下で結果を生成するため、このアプローチは有望である。

In recent years the interest in segmentation has been growing, being used in a wide range of applications such as fraud detection, anomaly detection in public health and intrusion detection. We present an ablation study of FgSegNet_v2, analysing its three stages: (i) Encoder, (ii) Feature Pooling Module and (iii) Decoder. The result of this study is a proposal of a variation of the aforementioned method that surpasses state of the art results. Three datasets are used for testing: CDNet2014, SBI2015 and CityScapes. In CDNet2014 we got an overall improvement compared to the state of the art, mainly in the LowFrameRate subset. The presented approach is promising as it produces comparable results with the state of the art (SBI2015 and Cityscapes datasets) in very different conditions, such as different lighting conditions.
翻訳日:2021-05-28 01:31:06 公開日:2021-05-26
# (参考訳) 雑音音声データセットを用いた音声強調訓練システム

Training Speech Enhancement Systems with Noisy Speech Datasets ( http://arxiv.org/abs/2105.12315v1 )

ライセンス: CC BY-SA 4.0
Koichi Saito, Stefan Uhlich, Giorgio Fabbro, Yuki Mitsufuji(参考訳) 近年,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)システムの利用が盛んに行われている。 訓練中、これらのシステムはクリーンな音声データを必要とする - 理想的には、様々な音響条件、多くの異なる話者特性と与えられたサンプリングレート(例えば、フルバンドSEの48kHz)に対して。 しかし、このようなクリーンな音声データを得るのは簡単ではない。 同時に、音響/スピーカ/サンプリングレート特性を所望とする自動音声認識(asr)のための材料も多数公開されており、ノイズロバストなasrシステムを実現するため、背景雑音も含む。 したがって、そのようなデータをseシステムのトレーニングに使うのは簡単ではない。 本稿では,雑音の多い音声データに基づくSEシステムの訓練に2つの改良点を提案する。 まず、雑音の多い音声のターゲットに対して頑健な損失関数のいくつかの修正を提案する。 特に、時間周波数ビンを平均化する前のサンプル軸上で中央値を計算することで、そのようなデータを使用することができる。 さらに,混合不変学習(MixIT)のための雑音増強手法を提案する。 実験ではMozilla Common Voiceデータセットを使用し、ロバストな損失関数を使用することで、従来の方法でトレーニングされたシステムと比較して、PSSQを最大0.19改善することを示した。 同様に、MixITでは、提案したノイズ拡張を使用すると、PSSQで最大0.27の改善が見られる。

Recently, deep neural network (DNN)-based speech enhancement (SE) systems have been used with great success. During training, such systems require clean speech data - ideally, in large quantity with a variety of acoustic conditions, many different speaker characteristics and for a given sampling rate (e.g., 48kHz for fullband SE). However, obtaining such clean speech data is not straightforward - especially, if only considering publicly available datasets. At the same time, a lot of material for automatic speech recognition (ASR) with the desired acoustic/speaker/sampling rate characteristics is publicly available except being clean, i.e., it also contains background noise as this is even often desired in order to have ASR systems that are noise-robust. Hence, using such data to train SE systems is not straightforward. In this paper, we propose two improvements to train SE systems on noisy speech data. First, we propose several modifications of the loss functions, which make them robust against noisy speech targets. In particular, computing the median over the sample axis before averaging over time-frequency bins allows to use such data. Furthermore, we propose a noise augmentation scheme for mixture-invariant training (MixIT), which allows using it also in such scenarios. For our experiments, we use the Mozilla Common Voice dataset and we show that using our robust loss function improves PESQ by up to 0.19 compared to a system trained in the traditional way. Similarly, for MixIT we can see an improvement of up to 0.27 in PESQ when using our proposed noise augmentation.
翻訳日:2021-05-28 01:14:37 公開日:2021-05-26
# (参考訳) SimNet: 現実の観察からリアクティブな自動運転シミュレーションを学ぶ

SimNet: Learning Reactive Self-driving Simulations from Real-world Observations ( http://arxiv.org/abs/2105.12332v1 )

ライセンス: CC BY 4.0
Luca Bergamini, Yawei Ye, Oliver Scheel, Long Chen, Chih Hu, Luca Del Pero, Blazej Osinski, Hugo Grimmett, Peter Ondruska(参考訳) 本稿では,運転体験を現実的にシミュレートできる簡易なエンドツーエンドトレーニング可能な機械学習システムを提案する。 これは、コストと時間を要する道路テストに頼ることなく、自動運転システムのパフォーマンスの検証に使用できる。 特に,シミュレーション問題をマルコフ過程としてモデル化し,ディープニューラルネットワークを用いて状態分布と遷移関数の両方をモデル化する。 これらは、植物またはキネマティックモデルという形で手作りをする必要なく、既存の生の観測から直接訓練することができる。 必要なのは、歴史的なトラフィックエピソードのデータセットだけです。 我々の定式化によってシステムは、自動運転車の振る舞いに現実的に反応するシーンを決して見えないようにすることができる。 我々は,1000時間の走行ログを直接トレーニングし,シミュレーションの2つの重要な特性として現実性と反応性の両方を測定する。 同時に,人間の運転ログからトレーニングした最先端ML計画システムの性能評価にも本手法を適用した。 この計画システムは,非反応性シミュレーションではテストが困難であった先行報告の因果的混乱問題に起因する。 私たちの知る限りでは、これは極めて現実的なデータ駆動シミュレーションと、自動運転車のクローズドループ評価を直接統合した最初の作品です。 シミュレーション開発をさらに促進するために、データ、コード、事前訓練されたモデルを公開します。

In this work, we present a simple end-to-end trainable machine learning system capable of realistically simulating driving experiences. This can be used for the verification of self-driving system performance without relying on expensive and time-consuming road testing. In particular, we frame the simulation problem as a Markov Process, leveraging deep neural networks to model both state distribution and transition function. These are trainable directly from the existing raw observations without the need for any handcrafting in the form of plant or kinematic models. All that is needed is a dataset of historical traffic episodes. Our formulation allows the system to construct never seen scenes that unfold realistically reacting to the self-driving car's behaviour. We train our system directly from 1,000 hours of driving logs and measure both realism, reactivity of the simulation as the two key properties of the simulation. At the same time, we apply the method to evaluate the performance of a recently proposed state-of-the-art ML planning system trained from human driving logs. We discover this planning system is prone to previously unreported causal confusion issues that are difficult to test by non-reactive simulation. To the best of our knowledge, this is the first work that directly merges highly realistic data-driven simulations with a closed-loop evaluation for self-driving vehicles. We make the data, code, and pre-trained models publicly available to further stimulate simulation development.
翻訳日:2021-05-28 00:58:37 公開日:2021-05-26
# (参考訳) avモーションプランナーの訓練にはどんなデータが必要ですか?

What data do we need for training an AV motion planner? ( http://arxiv.org/abs/2105.12337v1 )

ライセンス: CC BY 4.0
Long Chen, Lukas Platinsky, Stefanie Speichert, Blazej Osinski, Oliver Scheel, Yawei Ye, Hugo Grimmett, Luca del Pero, Peter Ondruska(参考訳) 本研究では,擬似学習に基づくAVプランナの訓練に必要なセンサデータについて検討した。 マシンを学習したプランナーはトレーニングデータに非常に飢えており、通常は自律運転に使用される同じセンサーを備えた車両を使用して収集される。 これは費用がかかり、スケールできない。 より安価なセンサーを代わりに使用すれば、データの可用性が向上し、データボリュームの要求が大きく、可用性が低い分野において重要なものになる。 最大1000時間分の実証実験を行い、10倍の低品質データでのトレーニングが1倍のavグレードのデータをプランナーのパフォーマンスで上回っていることを確認した。 重要な意味は、より安価なセンサーが実際に使用できるということだ。 これはデータアクセスを改善し、模倣ベースのモーションプランニングの分野を民主化するのに役立つ。 これと並行して,知覚範囲,視野,精度,データボリュームの関数としてプランナー性能の感度解析を行い,低品質データが依然として優れた計画結果を提供する理由について述べる。

We investigate what grade of sensor data is required for training an imitation-learning-based AV planner on human expert demonstration. Machine-learned planners are very hungry for training data, which is usually collected using vehicles equipped with the same sensors used for autonomous operation. This is costly and non-scalable. If cheaper sensors could be used for collection instead, data availability would go up, which is crucial in a field where data volume requirements are large and availability is small. We present experiments using up to 1000 hours worth of expert demonstration and find that training with 10x lower-quality data outperforms 1x AV-grade data in terms of planner performance. The important implication of this is that cheaper sensors can indeed be used. This serves to improve data access and democratize the field of imitation-based motion planning. Alongside this, we perform a sensitivity analysis of planner performance as a function of perception range, field-of-view, accuracy, and data volume, and the reason why lower-quality data still provide good planning results.
翻訳日:2021-05-28 00:40:05 公開日:2021-05-26
# (参考訳) SAAを圧倒するデータ駆動アプローチ

A data-driven approach to beating SAA out-of-sample ( http://arxiv.org/abs/2105.12342v1 )

ライセンス: CC BY 4.0
Jun-ya Gotoh, Michael Jong Kim, Andrew E.B. Lim(参考訳) 分散ロバスト最適化 (DRO) 問題の解法は、サンプル平均近似 (SAA) よりも期待外報酬が高くなることがあるが、保証はない。 本稿では,分布的楽観的最適化(doo)モデルのクラスを紹介し,最悪ケース(dro)モデルだけでなく,最良ケース(doo)モデルも考慮すれば,常にsaaを"ビート"することが可能であることを示す。 楽観的なソリューションは、最悪のケースやsaaオプティマイザよりもモデルエラーに敏感であり、従って堅牢性が低い。

While solutions of Distributionally Robust Optimization (DRO) problems can sometimes have a higher out-of-sample expected reward than the Sample Average Approximation (SAA), there is no guarantee. In this paper, we introduce the class of Distributionally Optimistic Optimization (DOO) models, and show that it is always possible to "beat" SAA out-of-sample if we consider not just worst-case (DRO) models but also best-case (DOO) ones. We also show, however, that this comes at a cost: Optimistic solutions are more sensitive to model error than either worst-case or SAA optimizers, and hence are less robust.
翻訳日:2021-05-28 00:21:13 公開日:2021-05-26
# (参考訳) 効率的なランキングのためのサブモジュラーカーネル

Submodular Kernels for Efficient Rankings ( http://arxiv.org/abs/2105.12356v1 )

ライセンス: CC BY-SA 4.0
Michelangelo Conserva, Marc Peter Deisenroth, K S Sesh Kumar(参考訳) ランク付けされたデータに対する多くのアルゴリズムは、ランク付けによって引き起こされる複雑な幾何学的構造によって、オブジェクトの数が増えるにつれて計算的に難解になる。 その他の課題として、部分的なランク付けがある。 選好が知られているランキングは、すべてのオブジェクトのサブセットのみである。 これらの理由から、最先端のメソッドは、レコメンデーションシステムのような現実世界のアプリケーションにはスケールできない。 ランク付けのためのサブモジュールカーネルを導出するために、ランク付けされたデータの幾何学的構造とオブジェクトに関する追加情報を活用することで、この問題に対処する。 サブモジュラーカーネルは、サブモジュラー最適化の効率とカーネルベースの方法の理論的な性質を組み合わせる。 本研究では, サブモジュールカーネルは, 最先端カーネルと比較して計算コストを大幅に削減し, 実験性能を良好に保ちながら, 大規模データセットに十分対応できることを実証する。

Many algorithms for ranked data become computationally intractable as the number of objects grows due to complex geometric structure induced by rankings. An additional challenge is posed by partial rankings, i.e. rankings in which the preference is only known for a subset of all objects. For these reasons, state-of-the-art methods cannot scale to real-world applications, such as recommender systems. We address this challenge by exploiting geometric structure of ranked data and additional available information about the objects to derive a submodular kernel for ranking. The submodular kernel combines the efficiency of submodular optimization with the theoretical properties of kernel-based methods. We demonstrate that the submodular kernel drastically reduces the computational cost compared to state-of-the-art kernels and scales well to large datasets while attaining good empirical performance.
翻訳日:2021-05-28 00:01:37 公開日:2021-05-26
# (参考訳) イベントカメラのキャリブレーション方法

How to Calibrate Your Event Camera ( http://arxiv.org/abs/2105.12362v1 )

ライセンス: CC BY 4.0
Manasi Muglikar and Mathias Gehrig and Daniel Gehrig and Davide Scaramuzza(参考訳) 画像再構成を用いた汎用イベントカメラキャリブレーションフレームワークを提案する。 ledパターンや外部画面を点滅させる代わりに、ニューラルネットワークベースの画像再構成が、イベントカメラの本質的および極端なキャリブレーションのタスクに適していることを示す。 提案手法の利点は,能動照明に依存しない標準キャリブレーションパターンを使用することである。 さらに,本手法により,フレームベースセンサとイベントベースセンサの外部キャリブレーションを複雑化することなく行うことが可能となる。 シミュレーションと実世界の実験の両方で、画像再構成による校正は共通の歪みモデルと幅広い歪みパラメータの下で正確であることが示されている。

We propose a generic event camera calibration framework using image reconstruction. Instead of relying on blinking LED patterns or external screens, we show that neural-network-based image reconstruction is well suited for the task of intrinsic and extrinsic calibration of event cameras. The advantage of our proposed approach is that we can use standard calibration patterns that do not rely on active illumination. Furthermore, our approach enables the possibility to perform extrinsic calibration between frame-based and event-based sensors without additional complexity. Both simulation and real-world experiments indicate that calibration through image reconstruction is accurate under common distortion models and a wide variety of distortion parameters
翻訳日:2021-05-27 23:37:50 公開日:2021-05-26
# (参考訳) つぶやきにおける基本的・抑うつ的感情識別:マルチラベル分類実験

Basic and Depression Specific Emotion Identification in Tweets: Multi-label Classification Experiments ( http://arxiv.org/abs/2105.12364v1 )

ライセンス: CC BY 4.0
Nawshad Farruque, Chenyang Huang, Osmar Zaiane, Randy Goebel(参考訳) 本稿では,工芸品の多ラベル分類の助けを借りて,基本的および抑うつ的マルチ感情マイニングに関する実証分析を行った。 4つの感情の心理学的モデルから共通の感情からなるハイブリッド感情モデルから基本的な感情を選択する。 さらに,抑うつ分析における感情モデルの重要性から,感情モデルに新たな感情カテゴリーを加える。 これらの追加感情のほとんどは、これまでの感情マイニング研究では使われていない。 実験により,コストセンシティブなRandSVMアルゴリズムとディープラーニングモデルの両方が,マクロF測度とマイクロF測度の両方で頑健であることが示された。 これは、これらのアルゴリズムがマルチラベル学習において広く知られているデータ不均衡問題に対処する上で優れていることを示唆している。 さらに、深層学習の応用が最善を尽くし、拡張された感情カテゴリの深い意味的特徴のモデリングに最先端を与えました。

In this paper, we present empirical analysis on basic and depression specific multi-emotion mining in Tweets with the help of state of the art multi-label classifiers. We choose our basic emotions from a hybrid emotion model consisting of the common emotions from four highly regarded psychological models of emotions. Moreover, we augment that emotion model with new emotion categories because of their importance in the analysis of depression. Most of those additional emotions have not been used in previous emotion mining research. Our experimental analyses show that a cost sensitive RankSVM algorithm and a Deep Learning model are both robust, measured by both Macro F-measures and Micro F-measures. This suggests that these algorithms are superior in addressing the widely known data imbalance problem in multi-label learning. Moreover, our application of Deep Learning performs the best, giving it an edge in modeling deep semantic features of our extended emotional categories.
翻訳日:2021-05-27 23:22:26 公開日:2021-05-26
# (参考訳) スポンサー検索における空間的キーワード検索

Quotient Space-Based Keyword Retrieval in Sponsored Search ( http://arxiv.org/abs/2105.12371v1 )

ライセンス: CC BY 4.0
Yijiang Lian, Shuang Li, Chaobing Feng, YanFeng Zhu(参考訳) 主要な検索エンジンが一致した商品のマッチング要求を同義語レベルに緩和したため、同義語キーワード検索はスポンサー検索にとって重要な問題となっている。 クエリとキーワードの同義関係は極めて少ないため、従来の情報検索フレームワークはこのシナリオでは非効率である。 本稿では,この問題に対処するために,新しい商空間ベース検索フレームワークを提案する。 キーワード間の同義性を数学的同値関係として考えると、同義語を1つの代表に圧縮することができ、対応する商空間はキーワードリポジトリのサイズを大幅に削減できる。 そして、クエリとキーワード代表との間で埋め込みベースの検索が直接実行される。 余剰空間に基づく検索のセマンティックギャップを軽減するために、キーワードキーワードとクエリキーワードの同義関係の両方を検出するために単一のセマンティックサイメモデルを用いる。 実験の結果,提案手法により,メモリコストやリコール効率の面で,同義語検索性能を大幅に向上させることができることがわかった。 この方法はBaiduのオンライン検索システムでうまく実装されており、収益を大幅に改善している。

Synonymous keyword retrieval has become an important problem for sponsored search ever since major search engines relax the exact match product's matching requirement to a synonymous level. Since the synonymous relations between queries and keywords are quite scarce, the traditional information retrieval framework is inefficient in this scenario. In this paper, we propose a novel quotient space-based retrieval framework to address this problem. Considering the synonymy among keywords as a mathematical equivalence relation, we can compress the synonymous keywords into one representative, and the corresponding quotient space would greatly reduce the size of the keyword repository. Then an embedding-based retrieval is directly conducted between queries and the keyword representatives. To mitigate the semantic gap of the quotient space-based retrieval, a single semantic siamese model is utilized to detect both the keyword--keyword and query-keyword synonymous relations. The experiments show that with our quotient space-based retrieval method, the synonymous keyword retrieving performance can be greatly improved in terms of memory cost and recall efficiency. This method has been successfully implemented in Baidu's online sponsored search system and has yielded a significant improvement in revenue.
翻訳日:2021-05-27 23:08:00 公開日:2021-05-26
# (参考訳) 実世界の自律システムのための継続的学習:アルゴリズム、挑戦、フレームワーク

Continual Learning for Real-World Autonomous Systems: Algorithms, Challenges and Frameworks ( http://arxiv.org/abs/2105.12374v1 )

ライセンス: CC BY 4.0
Khadija Shaheen, Muhammad Abdullah Hanif, Osman Hasan, Muhammad Shafique(参考訳) 凍結された事前学習されたモデルは、非定常データ分布を効果的に処理できないため、連続学習は現実世界のすべてのアプリケーションにとって不可欠である。 本研究の目的は,計算モデルの連続学習を可能にする最先端手法を検討することである。 我々は主に、かなり大きな(あるいは無限の)シーケンシャルデータからオンライン形式で連続学習を行う学習アルゴリズムに焦点を合わせ、計算量とメモリリソースを著しく少なくする。 我々は、自律現実システムにおける連続学習に関連する重要な課題を批判的に分析し、計算、メモリ、ネットワーク/モデル複雑さの観点から現在の手法を比較した。 また,3つの主要な自律システム(自動運転車,無人航空機,ロボット)における連続学習アルゴリズムの実装について簡単に説明する。 本稿では,これらの自律システムの学習方法とその強みと限界について概説する。

Continual learning is essential for all real-world applications, as frozen pre-trained models cannot effectively deal with non-stationary data distributions. The purpose of this study is to review the state-of-the-art methods that allow continuous learning of computational models over time. We primarily focus on the learning algorithms that perform continuous learning in an online fashion from considerably large (or infinite) sequential data and require substantially low computational and memory resources. We critically analyze the key challenges associated with continual learning for autonomous real-world systems and compare current methods in terms of computations, memory, and network/model complexity. We also briefly describe the implementations of continuous learning algorithms under three main autonomous systems, i.e., self-driving vehicles, unmanned aerial vehicles, and robotics. The learning methods of these autonomous systems and their strengths and limitations are extensively explored in this article.
翻訳日:2021-05-27 22:56:56 公開日:2021-05-26
# (参考訳) SentEmojiBot: 絵文字による会話生成の共感

SentEmojiBot: Empathising Conversations Generation with Emojis ( http://arxiv.org/abs/2105.12399v1 )

ライセンス: CC BY 4.0
Akhilesh Ravi, Amit Yadav, Jainish Chauhan, Jatin Dholakia, Naman Jain and Mayank Singh(参考訳) 対話エージェントの利用が増えれば、人間のように共感して反応するインプリッド感情を理解し、認識することが極めて望ましい。 従来の技術を用いたチャットボットは、テキストのコンテキストと意味に基づいて感情を分析し、顔を通じて表現される感情の理解を欠いている。 表情を表す絵文字は、感情を表現する有望な方法です。 しかし、どのAIシステムも、共感的な会話生成に絵文字を使用していない。 我々は、semojiデータセットに基づくsemojibotを提案し、絵文字とテキストの組み合わせによる共感的な会話を生成する。 評価指標は、BERTベースのモデルがバニラトランスモデルより優れていることを示している。 ユーザ研究によれば、このモデルによって生成された対話は理解可能であり、絵文字を追加することで会話の共感特性が9.8%向上した。

The increasing use of dialogue agents makes it extremely desirable for them to understand and acknowledge the implied emotions to respond like humans with empathy. Chatbots using traditional techniques analyze emotions based on the context and meaning of the text and lack the understanding of emotions expressed through face. Emojis representing facial expressions present a promising way to express emotions. However, none of the AI systems utilizes emojis for empathetic conversation generation. We propose, SentEmojiBot, based on the SentEmoji dataset, to generate empathetic conversations with a combination of emojis and text. Evaluation metrics show that the BERT-based model outperforms the vanilla transformer model. A user study indicates that the dialogues generated by our model were understandable and adding emojis improved empathetic traits in conversations by 9.8%
翻訳日:2021-05-27 22:11:03 公開日:2021-05-26
# (参考訳) 外観と形状を異にする非教師的部分分割

Unsupervised Part Segmentation through Disentangling Appearance and Shape ( http://arxiv.org/abs/2105.12405v1 )

ライセンス: CC BY 4.0
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu(参考訳) 対象部品の非監視的発見とセグメント化の問題について検討し, 中間的局所表現として本質的な対象構造を見つけ, より説明可能な認識結果を提供する。 最近の教師なしメソッドでは、取得にコストがかかるが、オブジェクトセグメンテーションマスクやサリエンシーマップなどの追加情報に依存する、注釈付きデータへの依存が大幅に緩和されている。 このような依存を取り除き、さらに部品のセグメンテーション性能を向上させるため、追加の被写体マスク情報を用いずに、被写体部品の外観と形状表現と復元損失を区別して新しいアプローチを開発する。 劣化した解を避けるため、ボトルネックブロックは外観表現を絞って拡大するように設計され、幾何学と外観のより効果的な絡み合いを生じさせる。 自己教師付き部分分類損失と改良された幾何集中制約を組み合わせることで、より一貫性のある部分と意味的意味をセグメント化することができる。 顔, 鳥, PASCAL VOCなどの多種多様な物体に対する総合的な実験により, 提案手法の有効性が示された。

We study the problem of unsupervised discovery and segmentation of object parts, which, as an intermediate local representation, are capable of finding intrinsic object structure and providing more explainable recognition results. Recent unsupervised methods have greatly relaxed the dependency on annotated data which are costly to obtain, but still rely on additional information such as object segmentation mask or saliency map. To remove such a dependency and further improve the part segmentation performance, we develop a novel approach by disentangling the appearance and shape representations of object parts followed with reconstruction losses without using additional object mask information. To avoid degenerated solutions, a bottleneck block is designed to squeeze and expand the appearance representation, leading to a more effective disentanglement between geometry and appearance. Combined with a self-supervised part classification loss and an improved geometry concentration constraint, we can segment more consistent parts with semantic meanings. Comprehensive experiments on a wide variety of objects such as face, bird, and PASCAL VOC objects demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-27 22:00:41 公開日:2021-05-26
# (参考訳) 多時間画像超解像における置換不変性と不確かさ

Permutation invariance and uncertainty in multitemporal image super-resolution ( http://arxiv.org/abs/2105.12409v1 )

ライセンス: CC BY 4.0
Diego Valsesia, Enrico Magli(参考訳) 近年の進歩は、低解像度画像の多時間収集から始まり、深層ニューラルネットワークがリモートセンシング画像の超解像に極めて効果的であることを示している。 しかし、既存のモデルは時間的置換の問題を無視しており、入力画像の時間的順序付けはスーパーレゾリューションタスクに関連する情報を持ち合わせておらず、訓練で利用可能な(しばしば不足している)基礎的真理データと非効率に陥る。 したがって、モデルは時間的順序に依存する特徴抽出器を学ぶべきではない。 本稿では,時間的置換に完全不変なモデルの構築が性能とデータ効率を著しく改善することを示す。 さらに,超解像の不確かさを定量化して,最終ユーザが製品の局所的な品質を知らせる方法について検討する。 本研究では,不確実性が時系列の時間的変動とどのように相関するかを示す。 proba-vチャレンジデータセットにおける実験は、自己センシングを必要とせず、技術の状況よりも大幅に改善され、データ効率が向上し、トレーニングデータのわずか25%でチャレンジ勝者のパフォーマンスに到達した。

Recent advances have shown how deep neural networks can be extremely effective at super-resolving remote sensing imagery, starting from a multitemporal collection of low-resolution images. However, existing models have neglected the issue of temporal permutation, whereby the temporal ordering of the input images does not carry any relevant information for the super-resolution task and causes such models to be inefficient with the, often scarce, ground truth data that available for training. Thus, models ought not to learn feature extractors that rely on temporal ordering. In this paper, we show how building a model that is fully invariant to temporal permutation significantly improves performance and data efficiency. Moreover, we study how to quantify the uncertainty of the super-resolved image so that the final user is informed on the local quality of the product. We show how uncertainty correlates with temporal variation in the series, and how quantifying it further improves model performance. Experiments on the Proba-V challenge dataset show significant improvements over the state of the art without the need for self-ensembling, as well as improved data efficiency, reaching the performance of the challenge winner with just 25% of the training data.
翻訳日:2021-05-27 21:58:32 公開日:2021-05-26
# (参考訳) 過去と未来を関連づけたヒューマンアクションの予測とjaccardの類似性対策

Anticipating human actions by correlating past with the future with Jaccard similarity measures ( http://arxiv.org/abs/2105.12414v1 )

ライセンス: CC BY 4.0
Basura Fernando, Samitha Herath(参考訳) 本稿では,jaccard vector similarity, jaccard cross-correlation, jaccard frobenius inner product on covariancesという3つの新しい類似性尺度を用いて,過去の特徴と今後の特徴を関連付けることで,早期行動認識と予測のための枠組みを提案する。 UCF101およびJHMDBデータセットにおけるこれらの新しい損失の組合せと我々のフレームワークを用いて、観察率20の91.7%と83.5%の精度で早期行動認識の最先端結果を得る。 同様に、epic-kitchen55 と breakfast datasets for action anticipation はそれぞれ 20.35 と 41.8 top-1 の精度を得た。

We propose a framework for early action recognition and anticipation by correlating past features with the future using three novel similarity measures called Jaccard vector similarity, Jaccard cross-correlation and Jaccard Frobenius inner product over covariances. Using these combinations of novel losses and using our framework, we obtain state-of-the-art results for early action recognition in UCF101 and JHMDB datasets by obtaining 91.7 % and 83.5 % accuracy respectively for an observation percentage of 20. Similarly, we obtain state-of-the-art results for Epic-Kitchen55 and Breakfast datasets for action anticipation by obtaining 20.35 and 41.8 top-1 accuracy respectively.
翻訳日:2021-05-27 21:32:59 公開日:2021-05-26
# (参考訳) 逆行性ロバスト性に対する深発性プロトタイプ

Deep Repulsive Prototypes for Adversarial Robustness ( http://arxiv.org/abs/2105.12427v1 )

ライセンス: CC BY 4.0
Alex Serban, Erik Poll and Joost Visser(参考訳) 敵対的な例に対する多くの防御策が提案されているが、堅牢な機械学習モデルを見つけることは依然として未解決の問題である。 現在最も説得力のある防御は敵の訓練であり、敵の例で設定された訓練データを補完する。 しかし、対人訓練はトレーニング時間に大きく影響を与え、代表的な対人サンプルの発見に依存する。 本稿では,大クラス分離を施した出力空間上でのモデルを学習し,逆訓練を行わずに頑健性を得る。 出力空間を大分離したクラスプロトタイプに分割する手法を導入し,それを保存するためのモデルを訓練する。 実験の結果、これらのプロトタイプで訓練されたモデルは、私たちがdeep repulsive prototypeと呼んでいるが、敵のトレーニングと競合する堅牢性を獲得し、また天然サンプルの精度も向上していることがわかった。 さらに、モデルは大きな摂動サイズに対してより弾力性がある。 例えば,cifar-10では50%以上のロバスト性,自然試料では92%,cifar-100では20%以上のロバスト性が得られた。 どちらのデータセットに対しても、モデルは敵に訓練されたモデルよりも大きな摂動に対して堅牢性を維持した。

While many defences against adversarial examples have been proposed, finding robust machine learning models is still an open problem. The most compelling defence to date is adversarial training and consists of complementing the training data set with adversarial examples. Yet adversarial training severely impacts training time and depends on finding representative adversarial samples. In this paper we propose to train models on output spaces with large class separation in order to gain robustness without adversarial training. We introduce a method to partition the output space into class prototypes with large separation and train models to preserve it. Experimental results shows that models trained with these prototypes -- which we call deep repulsive prototypes -- gain robustness competitive with adversarial training, while also preserving more accuracy on natural samples. Moreover, the models are more resilient to large perturbation sizes. For example, we obtained over 50% robustness for CIFAR-10, with 92% accuracy on natural samples and over 20% robustness for CIFAR-100, with 71% accuracy on natural samples without adversarial training. For both data sets, the models preserved robustness against large perturbations better than adversarially trained models.
翻訳日:2021-05-27 21:12:59 公開日:2021-05-26
# (参考訳) 大規模言語から絶滅危惧言語へのニューラル・モルフォロジー・データセットと多言語モデル

Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered ( http://arxiv.org/abs/2105.12428v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen, Niko Partanen, Jack Rueter, Khalid Alnajjar(参考訳) 形態素豊かな言語の形態素解析,生成,補間のためのニューラルモデルを訓練する。 本稿では,22言語を対象に,FSTからかなりの量のトレーニングデータを自動抽出する手法を提案する。 ニューラルネットワークモデルはFSTと同じタグセットに従っており、FSTと一緒にフォールバックシステムとして使用できる。 ソースコード、モデル、データセットがZenodoでリリースされた。

We train neural models for morphological analysis, generation and lemmatization for morphologically rich languages. We present a method for automatically extracting substantially large amount of training data from FSTs for 22 languages, out of which 17 are endangered. The neural models follow the same tagset as the FSTs in order to make it possible to use them as fallback systems together with the FSTs. The source code, models and datasets have been released on Zenodo.
翻訳日:2021-05-27 20:50:48 公開日:2021-05-26
# (参考訳) Web検索活動を用いたインフルエンザ流行のニューラルネットワーク予測の不確かさの推定

Estimating the Uncertainty of Neural Network Forecasts for Influenza Prevalence Using Web Search Activity ( http://arxiv.org/abs/2105.12433v1 )

ライセンス: CC BY 4.0
Michael Morris, Peter Hayes, Ingemar J. Cox, Vasileios Lampos(参考訳) インフルエンザはパンデミックになりうる感染性疾患であり、その感染率を予測することは効果的な対応を計画するための重要な仕事である。 研究によると、Web検索活動はインフルエンザモデルを改善するために利用できる。 ニューラルネットワーク(NN)は最先端の予測精度を提供するが、その推定に不確実性は一般的に含まない。 本稿では,ベイズニューラルネットワーク(BNN)を用いて,従来のNNと比較して予測精度を著しく損なうことなく,予測とそれに対応する不確実性を両立させることができることを示す。 提案手法は,データとモデルの不確実性,計測ノイズとモデル仕様の2つの原因を考察する。 実験は14年間のイングランドのデータを用いて行われ、このデータセットの過去4回のインフルエンザシーズンにおけるモデルの精度を評価する。 従来の指標と競合するベースラインや不確実性推定を組み込んだエラー関数を含む,異なるモデルの性能を評価する。 実験分析の結果,両源を同時に考えることは,どちらを別々に考えるよりも優れていることがわかった。 また,不確実性源の双方をモデル化した繰り返し層を有するBNNは,地平線を7日以上予測する上で,これらの指標に対して優れた精度が得られることを示す。

Influenza is an infectious disease with the potential to become a pandemic, and hence, forecasting its prevalence is an important undertaking for planning an effective response. Research has found that web search activity can be used to improve influenza models. Neural networks (NN) can provide state-of-the-art forecasting accuracy but do not commonly incorporate uncertainty in their estimates, something essential for using them effectively during decision making. In this paper, we demonstrate how Bayesian Neural Networks (BNNs) can be used to both provide a forecast and a corresponding uncertainty without significant loss in forecasting accuracy compared to traditional NNs. Our method accounts for two sources of uncertainty: data and model uncertainty, arising due to measurement noise and model specification, respectively. Experiments are conducted using 14 years of data for England, assessing the model's accuracy over the last 4 flu seasons in this dataset. We evaluate the performance of different models including competitive baselines with conventional metrics as well as error functions that incorporate uncertainty estimates. Our empirical analysis indicates that considering both sources of uncertainty simultaneously is superior to considering either one separately. We also show that a BNN with recurrent layers that models both sources of uncertainty yields superior accuracy for these metrics for forecasting horizons greater than 7 days.
翻訳日:2021-05-27 19:40:00 公開日:2021-05-26
# (参考訳) IMUを利用したペン手書き認識システムの実現に向けて

Towards an IMU-based Pen Online Handwriting Recognizer ( http://arxiv.org/abs/2105.12434v1 )

ライセンス: CC BY 4.0
Mohamad Wehbi, Tim Hamann, Jens Barth, Peter Kaempf, Dario Zanca, and Bjoern Eskofier(参考訳) ほとんどのオンライン手書き認識システムは、位置データを抽出するために特定の筆記面を使用する必要がある。 本稿では,紙に書き込まれたテキストをデジタル化する慣性測定単位(imus)に基づく,単語認識のためのオンライン手書き認識システムを提案する。 これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。 本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを併用し,逐次セグメンテーションを必要とせずに生センサデータを単語に解釈できるコネクショニスト時分割損失を用いて訓練する。 我々は,複数のセンサエンハンスペンを用いて収集した単語のデータセットを用いて,辞書や言語モデルを用いずに,文字誤り率17.97%と17.08%をそれぞれ有意なテストセットで評価した。

Most online handwriting recognition systems require the use of specific writing surfaces to extract positional data. In this paper we present a online handwriting recognition system for word recognition which is based on inertial measurement units (IMUs) for digitizing text written on paper. This is obtained by means of a sensor-equipped pen that provides acceleration, angular velocity, and magnetic forces streamed via Bluetooth. Our model combines convolutional and bidirectional LSTM networks, and is trained with the Connectionist Temporal Classification loss that allows the interpretation of raw sensor data into words without the need of sequence segmentation. We use a dataset of words collected using multiple sensor-enhanced pens and evaluate our model on distinct test sets of seen and unseen words achieving a character error rate of 17.97% and 17.08%, respectively, without the use of a dictionary or language model
翻訳日:2021-05-27 19:08:11 公開日:2021-05-26
# (参考訳) システムレベルでの自動NLG測定値の統計的利点

The statistical advantage of automatic NLG metrics at the system level ( http://arxiv.org/abs/2105.12437v1 )

ライセンス: CC BY 4.0
Johnny Tian-Zheng Wei and Robin Jia(参考訳) 生成システムの期待出力品質の推定は、nlgの中核である。 本稿では,システムレベルの品質を推定する上で,自動メトリクスは人間に劣るという考えを定式化する。 統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。 これらの推定器の誤差をペアワイズ予測(どの生成系が良いのか?)で比較する。 ブートストラップを使う。 この誤差を測定することは複雑で、予測はノイズに対して評価され、人間は真実ではなくラベルを予測し、計量予測は計算されたテストセットに基づいて変動する。 バイアス分散雑音分解を適用することで、この誤差をノイズフリーで無限のテストセット設定に調整する。 分析では、測定値の調整された誤差を人間と導出された完全なセグメントレベルの注釈器と比較し、両者は、収集された判断数に依存する偏りのない推定値である。 MTでは,人的判断数が少ない場合と,比較したシステム間の品質差が小さい場合とで,測定値が統計的優位性により人間より優れる2つの設定を同定する。 我々の分析を再現するデータとコードは、https://github.com/johntzwei/metric-statistical-Advantage で入手できる。

Estimating the expected output quality of generation systems is central to NLG. This paper qualifies the notion that automatic metrics are not as good as humans in estimating system-level quality. Statistically, humans are unbiased, high variance estimators, while metrics are biased, low variance estimators. We compare these estimators by their error in pairwise prediction (which generation system is better?) using the bootstrap. Measuring this error is complicated: predictions are evaluated against noisy, human predicted labels instead of the ground truth, and metric predictions fluctuate based on the test sets they were calculated on. By applying a bias-variance-noise decomposition, we adjust this error to a noise-free, infinite test set setting. Our analysis compares the adjusted error of metrics to humans and a derived, perfect segment-level annotator, both of which are unbiased estimators dependent on the number of judgments collected. In MT, we identify two settings where metrics outperform humans due to a statistical advantage in variance: when the number of human judgments used is small, and when the quality difference between compared systems is small. The data and code to reproduce our analyses are available at https://github.com/johntzwei/metric-statistical-advantage .
翻訳日:2021-05-27 18:50:27 公開日:2021-05-26
# (参考訳) ギブンデータ」パラダイムは両方の文化を損なう

The "given data" paradigm undermines both cultures ( http://arxiv.org/abs/2105.12478v1 )

ライセンス: CC BY 4.0
Tyler McCormick(参考訳) breiman氏はシンプルなビジュアルを中心に,"統計モデリング:2つの文化"を組織している。 極右のデータは、矢印付きの「黒い箱」に強制され、出力に変換された第2の矢印によって左にカタパルトされる。 ブレイマンは、統計学における2つの文化の区別をカプセル化したこの視覚の2つの解釈を仮定する。 分割は「ブラックボックス」で何が起こるかだ、と彼は主張する。 このコメントでは、統計学のより広い視点で議論し、そのために、統計的革新と実践のための実りある領域として「前」と「後」の質問を高めます。

Breiman organizes "Statistical modeling: The two cultures" around a simple visual. Data, to the far right, are compelled into a "black box" with an arrow and then catapulted left by a second arrow, having been transformed into an output. Breiman then posits two interpretations of this visual as encapsulating a distinction between two cultures in statistics. The divide, he argues is about what happens in the "black box." In this comment, I argue for a broader perspective on statistics and, in doing so, elevate questions from "before" and "after" the box as fruitful areas for statistical innovation and practice.
翻訳日:2021-05-27 18:23:47 公開日:2021-05-26
# (参考訳) 合成コンテンツ識別のための活性化空間におけるパターン検出

Pattern Detection in the Activation Space for Identifying Synthesized Content ( http://arxiv.org/abs/2105.12479v1 )

ライセンス: CC BY 4.0
Celia Cintas, Skyler Speakman, Girmaw Abebe Tadesse, Victor Akinwande, Edward McFowland III, Komminist Weldemariam(参考訳) GAN(Generative Adversarial Networks)は、最近、低次元ランダムノイズからのフォトリアリスティック画像合成において、前例のない成功を収めている。 高品質なコンテンツを大規模に合成する能力は、生成されたサンプルが深刻な社会的、政治的、健康、ビジネス上の危険をもたらす誤報につながる可能性があるため、潜在的なリスクをもたらす。 トレーニング済みニューラルネットワークの内部層における異常なノードアクティベーションのサブセットを検出することにより、生成されたコンテンツを特定するためのSubsetGANを提案する。 これらのノードは群として、実際のデータから生成される活性化の期待分布から逸脱する非パラメトリック測度を最大化する。 これにより,その分布を事前に知ることなく合成画像の識別が可能となる。 SubsetGANは、ノードのサブセットを効率よくスコアし、最大スコアに寄与する事前訓練された分類器内のノードのグループを返す。 分類器は、複数のソースのサンプルや異なるGANの識別器ネットワークで訓練された一般的な偽分類器である。 提案手法は, 既存の検出手法に比べて, 既存のGAN(PGGAN, StarGAN, CycleGAN) や, 生成されたコンテントの比率よりも高い検出能力を示す。

Generative Adversarial Networks (GANs) have recently achieved unprecedented success in photo-realistic image synthesis from low-dimensional random noise. The ability to synthesize high-quality content at a large scale brings potential risks as the generated samples may lead to misinformation that can create severe social, political, health, and business hazards. We propose SubsetGAN to identify generated content by detecting a subset of anomalous node-activations in the inner layers of pre-trained neural networks. These nodes, as a group, maximize a non-parametric measure of divergence away from the expected distribution of activations created from real data. This enable us to identify synthesised images without prior knowledge of their distribution. SubsetGAN efficiently scores subsets of nodes and returns the group of nodes within the pre-trained classifier that contributed to the maximum score. The classifier can be a general fake classifier trained over samples from multiple sources or the discriminator network from different GANs. Our approach shows consistently higher detection power than existing detection methods across several state-of-the-art GANs (PGGAN, StarGAN, and CycleGAN) and over different proportions of generated content.
翻訳日:2021-05-27 18:20:34 公開日:2021-05-26
# (参考訳) 線形関数近似を用いたオフポリシー自然アクターの有限サンプル解析

Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation ( http://arxiv.org/abs/2105.12540v1 )

ライセンス: CC BY 4.0
Zaiwei Chen, Sajad Khodadadian, Siva Theja Maguluri(参考訳) 本稿では,線形関数近似を用いた非政治的自然なアクター批判アルゴリズムの新たな変種を開発し,これらのアルゴリズムの既知収束バウンダリを全て上回る,$\mathcal{O}(\epsilon^{-3})$のサンプル複雑性を確立する。 関数近似に基づく政策評価における致命的な三分の一の相違を克服するために,n$-step td-learningアルゴリズムを適切に選択したn$を有する批判者を開発した。 我々は,この批判者に対して,独立興味を持つ定数および減少ステップサイズの下で有限個の収束境界を提示する。 さらに、関数近似の下で自然ポリシー勾配の変種を開発し、$T$反復後の$\mathcal{O}(1/T)$の収束率を改善した。 アクターと批評家の有限サンプルエラー境界を組み合わせると、$\mathcal{o}(\epsilon^{-3})$ のサンプル複雑性が得られる。 サンプルの複雑さの境界は、行動ポリシーがすべての状態とアクションを十分に探求しているという仮定に基づいており、これは関連する文献と比べてはるかに軽い仮定である。

In this paper, we develop a novel variant of off-policy natural actor-critic algorithm with linear function approximation and we establish a sample complexity of $\mathcal{O}(\epsilon^{-3})$, outperforming all the previously known convergence bounds of such algorithms. In order to overcome the divergence due to deadly triad in off-policy policy evaluation under function approximation, we develop a critic that employs $n$-step TD-learning algorithm with a properly chosen $n$. We present finite-sample convergence bounds on this critic under both constant and diminishing step sizes, which are of independent interest. Furthermore, we develop a variant of natural policy gradient under function approximation, with an improved convergence rate of $\mathcal{O}(1/T)$ after $T$ iterations. Combining the finite sample error bounds of actor and the critic, we obtain the $\mathcal{O}(\epsilon^{-3})$ sample complexity. We derive our sample complexity bounds solely based on the assumption that the behavior policy sufficiently explores all the states and actions, which is a much lighter assumption compared to the related literature.
翻訳日:2021-05-27 17:57:45 公開日:2021-05-26
# (参考訳) 量子特徴写像の自動設計

Automatic design of quantum feature maps ( http://arxiv.org/abs/2105.12626v1 )

ライセンス: CC BY 4.0
Sergio Altares-L\'opez, Angela Ribeiro, Juan Jos\'e Garc\'ia-Ripoll(参考訳) 本稿では,量子サポートベクトルマシン(qsvm)を用いた分類のための最適アドホックans\"atzeの自動生成手法を提案する。 この方法はNSGA-II多目的遺伝的アルゴリズムに基づいており、精度を最大化し、アンザッツサイズを最小化することができる。 本手法の有効性を,非線形データセットを用いた実例で実証し,結果の回路とその出力を解釈する。 また,本手法の妥当性を向上する他の応用分野や,量子機械学習の利点を理解するための古典的分類器との比較についても述べる。

We propose a new technique for the automatic generation of optimal ad-hoc ans\"atze for classification by using quantum support vector machine (QSVM). This efficient method is based on NSGA-II multiobjective genetic algorithms which allow both maximize the accuracy and minimize the ansatz size. It is demonstrated the validity of the technique by a practical example with a non-linear dataset, interpreting the resulting circuit and its outputs. We also show other application fields of the technique that reinforce the validity of the method, and a comparison with classical classifiers in order to understand the advantages of using quantum machine learning.
翻訳日:2021-05-27 17:01:14 公開日:2021-05-26
# (参考訳) ディープネットワークのない衛星画像のエッジ検出

Edge Detection for Satellite Images without Deep Networks ( http://arxiv.org/abs/2105.12633v1 )

ライセンス: CC BY 4.0
Joshua Abraham, Calden Wloka(参考訳) 衛星画像は農業、ナビゲーション、都市計画など多くの応用分野で広く利用されている。 多くの場合、衛星画像は大量の画像と高いピクセル数の両方を含むため、衛星データセットは計算コストがかかる。 衛星画像解析への最近のアプローチは、深層学習法に重点を置いている。 非常に強力だが、ディープラーニングには、特殊なコンピューティングハードウェアの要件や、トレーニングデータへの高い依存など、いくつかの欠点がある。 大きな衛星データセットを扱う場合、計算資源とトレーニングデータアノテーションの両方のコストは禁じられるかもしれない。

Satellite imagery is widely used in many application sectors, including agriculture, navigation, and urban planning. Frequently, satellite imagery involves both large numbers of images as well as high pixel counts, making satellite datasets computationally expensive to analyze. Recent approaches to satellite image analysis have largely emphasized deep learning methods. Though extremely powerful, deep learning has some drawbacks, including the requirement of specialized computing hardware and a high reliance on training data. When dealing with large satellite datasets, the cost of both computational resources and training data annotation may be prohibitive.
翻訳日:2021-05-27 16:42:28 公開日:2021-05-26
# (参考訳) インスタンス対応潜時空間探索による不整形顔属性編集

Disentangled Face Attribute Editing via Instance-Aware Latent Space Search ( http://arxiv.org/abs/2105.12660v1 )

ライセンス: CC BY 4.0
Yuxuan Han, Jiaolong Yang, and Ying Fu(参考訳) 近年の研究では、GAN(Generative Adversarial Networks)の潜在空間に、多様な顔属性編集アプリケーションを可能にする、豊富な意味方向が存在することが示されている。 しかし、既存のメソッドは属性のばらつきのばらつきに苦しむ可能性があり、望ましいメソッドを変更する際に他の属性が望ましくない変更となる。 既存の手法で使われている意味方向は属性レベルであり、特にGANのトレーニングセットにおける属性分布バイアスの存在下では、複雑な属性相関をモデル化することは困難である。 本稿では,インスタンス認識型潜在空間探索による属性編集のための意味的方向探索を行う新しいフレームワーク (ials) を提案する。 インスタンス情報は、入力画像上で評価された属性分類器の集合からの監督を利用して注入される。 さらに,属性変換と不等角化の有効性を定量化するための不等角変換(dt)メトリックを提案し,それに基づく属性レベルとインスタンス固有の方向の最適な制御因子を求める。 GAN生成画像と実世界の画像の両方に対する実験結果から,本手法は近年提案されている最先端手法よりも高い性能を示した。 コードはhttps://github.com/yxuhan/ialsで入手できる。

Recent works have shown that a rich set of semantic directions exist in the latent space of Generative Adversarial Networks (GANs), which enables various facial attribute editing applications. However, existing methods may suffer poor attribute variation disentanglement, leading to unwanted change of other attributes when altering the desired one. The semantic directions used by existing methods are at attribute level, which are difficult to model complex attribute correlations, especially in the presence of attribute distribution bias in GAN's training set. In this paper, we propose a novel framework (IALS) that performs Instance-Aware Latent-Space Search to find semantic directions for disentangled attribute editing. The instance information is injected by leveraging the supervision from a set of attribute classifiers evaluated on the input images. We further propose a Disentanglement-Transformation (DT) metric to quantify the attribute transformation and disentanglement efficacy and find the optimal control factor between attribute-level and instance-specific directions based on it. Experimental results on both GAN-generated and real-world images collectively show that our method outperforms state-of-the-art methods proposed recently by a wide margin. Code is available at https://github.com/yxuhan/IALS.
翻訳日:2021-05-27 16:28:23 公開日:2021-05-26
# (参考訳) 映像中の生体ロコモーションの検出 : 計算的アプローチ

Detecting Biological Locomotion in Video: A Computational Approach ( http://arxiv.org/abs/2105.12661v1 )

ライセンス: CC BY 4.0
Soo Min Kang and Richard P. Wildes(参考訳) 動物は、食物を探し、適切な生息地を見つけ、獲物を探し、捕食者から逃れたり、交尾相手を探すなど、様々な理由で共生する。 生物多様性の大規模さは、大きなロコモトリーデザインとモード多様性に寄与している。 様々な生き物は、足、翼、ひれ、その他の手段を使って世界を移動する。 本報告では,一般生物種の移動を生物移動と呼ぶ。 未処理映像におけるバイオロコモーションを検出するための計算手法を提案する。 顕著なことに、生体の身体部位が環境をナビゲートする動きは、運動中の非生物対象に欠落する傾向の特徴的なシグネチャであるオーバーレイド非対称振動パターンと全体的な位置進行の組み合わせによってモデル化することができる。 対象の共通運動(外節運動)と部分の局所運動(内節運動)の違いとともに、非対称振動を伴う位置進行のこの重要な特徴を利用して、生体運動を検出する。 追跡対象におけるこれらの形質の存在を計測し、移動中の生物学的実体に対応するかどうかを判定するアルゴリズムを開発した。 学習と組み合わせた汎用的特徴に基づく別のアルゴリズムは、関連する調査領域の構成要素から組み立てられ、比較の基礎として提示される。 自然環境下での生体および非生物学的対象の幅広い移動を包含する新しいバイオロコモーションデータセットを提供する。 また、現存する迷彩動物データセットに対するバイオロコモーションアノテーションを提供する。 提案アルゴリズムは,非対称振動と外在的/内在的運動の相違による位置変化の異なる特徴に基づいて,バイオロコモーションを確実に検出できるという仮説を裏付ける。

Animals locomote for various reasons: to search for food, find suitable habitat, pursue prey, escape from predators, or seek a mate. The grand scale of biodiversity contributes to the great locomotory design and mode diversity. Various creatures make use of legs, wings, fins and other means to move through the world. In this report, we refer to the locomotion of general biological species as biolocomotion. We present a computational approach to detect biolocomotion in unprocessed video. Significantly, the motion exhibited by the body parts of a biological entity to navigate through an environment can be modeled by a combination of an overall positional advance with an overlaid asymmetric oscillatory pattern, a distinctive signature that tends to be absent in non-biological objects in locomotion. We exploit this key trait of positional advance with asymmetric oscillation along with differences in an object's common motion (extrinsic motion) and localized motion of its parts (intrinsic motion) to detect biolocomotion. An algorithm is developed to measure the presence of these traits in tracked objects to determine if they correspond to a biological entity in locomotion. An alternative algorithm, based on generic features combined with learning is assembled out of components from allied areas of investigation, also is presented as a basis of comparison. A novel biolocomotion dataset encompassing a wide range of moving biological and non-biological objects in natural settings is provided. Also, biolocomotion annotations to an extant camouflage animals dataset are provided. Quantitative results indicate that the proposed algorithm considerably outperforms the alternative approach, supporting the hypothesis that biolocomotion can be detected reliably based on its distinct signature of positional advance with asymmetric oscillation and extrinsic/intrinsic motion dissimilarity.
翻訳日:2021-05-27 16:07:46 公開日:2021-05-26
# (参考訳) 音声対話解析のための韻律セグメンテーション

Prosodic segmentation for parsing spoken dialogue ( http://arxiv.org/abs/2105.12667v1 )

ライセンス: CC BY 4.0
Elizabeth Nielsen, Mark Steedman, Sharon Goldwater(参考訳) 音声対話のパーシングは、不一致や、文のような単位間の目印のない境界など、独特な困難を引き起こす。 以前の研究によると、prosodyは不均一なスピーチを解析するのに役立ちます(tran et al.)。 しかし、パーサーへの入力は、既存の音声アプリケーションでは正しくない文のような単位(SUs)に分割されていると仮定している。 入力として全対話を受信するパーサー(ターンベースモデル)に対して,ゴールド標準のSU(SUベースモデル)の代わりに韻律がどのように影響するかを検討する。 イングリッシュスイッチボードコーパスの実験では、書き起こしのみを使用する場合、ターンベースのモデルではsusのセグメント化に問題があり、suベースのモデルよりもパース性能が低下することが判明した。 しかし、prosodyは金の標準suバウンダリを効果的に置き換えることができる: prosodyでは、ターンベースのモデルはsuベースのモデル(それぞれ90.79対90.65 f1スコア)と同様に機能するが、1つではなく2つのタスク(suセグメンテーションとパース)を実行する(ペアリングのみ)。 分析によると、このコーパスにとってピッチと強度の特徴が最も重要であるのは、モデルがSU境界と音声の拡散を正しく区別できるようにするためである。

Parsing spoken dialogue poses unique difficulties, including disfluencies and unmarked boundaries between sentence-like units. Previous work has shown that prosody can help with parsing disfluent speech (Tran et al. 2018), but has assumed that the input to the parser is already segmented into sentence-like units (SUs), which isn't true in existing speech applications. We investigate how prosody affects a parser that receives an entire dialogue turn as input (a turn-based model), instead of gold standard pre-segmented SUs (an SU-based model). In experiments on the English Switchboard corpus, we find that when using transcripts alone, the turn-based model has trouble segmenting SUs, leading to worse parse performance than the SU-based model. However, prosody can effectively replace gold standard SU boundaries: with prosody, the turn-based model performs as well as the SU-based model (90.79 vs. 90.65 F1 score, respectively), despite performing two tasks (SU segmentation and parsing) rather than one (parsing alone). Analysis shows that pitch and intensity features are the most important for this corpus, since they allow the model to correctly distinguish an SU boundary from a speech disfluency -- a distinction that the model otherwise struggles to make.
翻訳日:2021-05-27 16:06:01 公開日:2021-05-26
# (参考訳) アノテーションのないゼロショット医療エンティティ検索:知識グラフセマンティックスから学ぶ

Zero-shot Medical Entity Retrieval without Annotation: Learning From Rich Knowledge Graph Semantics ( http://arxiv.org/abs/2105.12682v1 )

ライセンス: CC BY 4.0
Luyang Kong, Christopher Winestock, Parminder Bhatia(参考訳) 医療機関の検索は、様々な医療システムにおける情報の理解と伝達に不可欠な要素である。 現在のアプローチは特定の医療領域でうまく機能する傾向にあるが、目に見えないサブ分野にはあまり一般化しない。 これは、新しい医療状況や薬物治療が頻発するにつれて、公衆衛生の危機下で懸念が高まります。 ゼロショット検索は医療コーパスの曖昧さと変動性が高いため困難であり、言及と概念の正確な類似性尺度を構築するのが困難である。 しかし、医療知識グラフ(KG)には、多数の同義語を含む豊富な意味論と、そのキュレートされたグラフィカル構造が含まれている。 この貴重な情報を活用するために,効率的なゼロショットエンティティ検索モデルを学習するための一連の学習タスクを提案する。 人間のアノテーションを必要とせずに、知識グラフに富んだアーキテクチャは、BM25やクリニカルBERTなどの一般的なゼロショットベンチマークを、UMLS、SNOMED、ICD-10など、複数の主要な医療オントロジーで7%から30%上回っている。

Medical entity retrieval is an integral component for understanding and communicating information across various health systems. Current approaches tend to work well on specific medical domains but generalize poorly to unseen sub-specialties. This is of increasing concern under a public health crisis as new medical conditions and drug treatments come to light frequently. Zero-shot retrieval is challenging due to the high degree of ambiguity and variability in medical corpora, making it difficult to build an accurate similarity measure between mentions and concepts. Medical knowledge graphs (KG), however, contain rich semantics including large numbers of synonyms as well as its curated graphical structures. To take advantage of this valuable information, we propose a suite of learning tasks designed for training efficient zero-shot entity retrieval models. Without requiring any human annotation, our knowledge graph enriched architecture significantly outperforms common zero-shot benchmarks including BM25 and Clinical BERT with 7% to 30% higher recall across multiple major medical ontologies, such as UMLS, SNOMED, and ICD-10.
翻訳日:2021-05-27 15:40:17 公開日:2021-05-26
# (参考訳) クラスタリングのための距離メトリック学習における二重情報探索

Exploring dual information in distance metric learning for clustering ( http://arxiv.org/abs/2105.12703v1 )

ライセンス: CC BY 4.0
Rodrigo Randel and Daniel Aloise and Alain Hertz(参考訳) 距離メトリック学習アルゴリズムは、データポイント間の類似性と距離を適切に測定することを目的としている。 クラスタリングの文脈では、メトリックラーニングは一般的に専門家が提供したサイド情報の補助として適用され、最も一般的には「不可能リンク」と「必然的リンク制約」という形で表現される。 この設定では、距離メトリック学習アルゴリズムは、必然的なリンク制約に関連するデータポイントのペアを移動させ、一方、不可能リンク制約に関わるポイントのペアは互いに離れる。 これらのアルゴリズムが効果的であるためには、専門家の知識、信念、期待に合致した距離メトリックを使うことが重要であり、サイド情報に固執する変換はデータセットの幾何学的性質を保存すべきである。 また、専門家が提供した制約をフィルタリングして、最も有用なものだけを保持し、クラスタリングプロセスに害を与えるものだけを拒絶することも興味深い。 これらの問題に対処するため,我々は,半教師付きクラスタリング問題のペアワイズ制約に関連する2つの情報を活用することを提案する。 実験によれば、距離メトリック学習アルゴリズムは、この2つの情報を統合することで恩恵を受ける。

Distance metric learning algorithms aim to appropriately measure similarities and distances between data points. In the context of clustering, metric learning is typically applied with the assist of side-information provided by experts, most commonly expressed in the form of cannot-link and must-link constraints. In this setting, distance metric learning algorithms move closer pairs of data points involved in must-link constraints, while pairs of points involved in cannot-link constraints are moved away from each other. For these algorithms to be effective, it is important to use a distance metric that matches the expert knowledge, beliefs, and expectations, and the transformations made to stick to the side-information should preserve geometrical properties of the dataset. Also, it is interesting to filter the constraints provided by the experts to keep only the most useful and reject those that can harm the clustering process. To address these issues, we propose to exploit the dual information associated with the pairwise constraints of the semi-supervised clustering problem. Experiments clearly show that distance metric learning algorithms benefit from integrating this dual information.
翻訳日:2021-05-27 15:31:31 公開日:2021-05-26
# (参考訳) enhance to read better: 手書き文書画像エンハンスメントのための生成型adversarial networkの改良

Enhance to Read Better: An Improved Generative Adversarial Network for Handwritten Document Image Enhancement ( http://arxiv.org/abs/2105.12710v1 )

ライセンス: CC BY 4.0
Sana Khamekhem Jemni and Mohamed Ali Souibgui and Yousri Kessentini and Alicia Forn\'es(参考訳) 手書きの文書画像は、紙の老化、日々のシナリオ(しわ、ほこりなど)といったさまざまな理由により、劣化の影響を強く受けます。 ), 走査不良などがあった。 これらのアーティファクトは、現在の手書き文字認識(HTR)アルゴリズムに対して多くの可読性問題を引き起こし、その効率を著しく劣化させる。 本稿では,劣化文書をクリーンで読みやすい形式に復元するgans(generative adversarial network)に基づくエンド・ツー・エンドのアーキテクチャを提案する。 劣化した文書の視覚的品質を向上しようとする最もよく知られた文書ビナライゼーション手法とは異なり、提案アーキテクチャでは、生成した文書画像をより読みやすくする手書き文字認識器を統合する。 私たちの知る限りでは、これは手書き文書をバイナライズしながらテキスト情報を使用する最初の作業である。 劣化したアラビア語とラテン語の手書き文書を広範囲に実験した結果、ganアーキテクチャに認識器を統合するの有用性が示され、劣化した文書画像の視覚的品質と可読性が向上した。 さらに,本課題では,合成劣化したラテン手書き画像を用いて事前学習したモデルを微調整し,h-dibco 2018チャレンジの最先端技術を上回る結果を得た。

Handwritten document images can be highly affected by degradation for different reasons: Paper ageing, daily-life scenarios (wrinkles, dust, etc.), bad scanning process and so on. These artifacts raise many readability issues for current Handwritten Text Recognition (HTR) algorithms and severely devalue their efficiency. In this paper, we propose an end to end architecture based on Generative Adversarial Networks (GANs) to recover the degraded documents into a clean and readable form. Unlike the most well-known document binarization methods, which try to improve the visual quality of the degraded document, the proposed architecture integrates a handwritten text recognizer that promotes the generated document image to be more readable. To the best of our knowledge, this is the first work to use the text information while binarizing handwritten documents. Extensive experiments conducted on degraded Arabic and Latin handwritten documents demonstrate the usefulness of integrating the recognizer within the GAN architecture, which improves both the visual quality and the readability of the degraded document images. Moreover, we outperform the state of the art in H-DIBCO 2018 challenge, after fine tuning our pre-trained model with synthetically degraded Latin handwritten images, on this task.
翻訳日:2021-05-27 14:58:58 公開日:2021-05-26
# (参考訳) Sli2Vol: 自己監督学習による単一スライスからの3Dボリュームアノテーション

Sli2Vol: Annotate a 3D Volume from a Single Slice with Self-Supervised Learning ( http://arxiv.org/abs/2105.12722v1 )

ライセンス: CC BY 4.0
Pak-Hei Yeung, Ana I.L. Namburete, Weidi Xie(参考訳) この研究の目的は、任意の興味のある構造(soi)を1つのスライス(すなわち)にアノテートするだけで3dボリュームに分割することである。 半自動3Dセグメンテーション) 本研究では,2次元スライス分割を連続スライス間の親和性行列で単純に伝播させることにより,高精度なスライス分割を実現することができることを示す。 具体的には,提案フレームワークであるsli2volと,教師なし/自己教師なしの2つのスライス登録アプローチを比較し,8つの公開データセット(ctとmriスキャンの両方)で9つの異なるsoiにまたがる。 パラメータチューニングがなければ、同じモデルはDiceスコア(0-100スケール)で、トレーニング中に目に見えないものを含め、ほとんどのベンチマークで80以上のパフォーマンスを達成する。 本研究は,提案手法が,異なるマシンと異なる sois を用いたデータ間で一般化可能であることを示す。 ソースコードはhttps://github.com/pakheiyeung/Sli2Vol.comで公開されている。

The objective of this work is to segment any arbitrary structures of interest (SOI) in 3D volumes by only annotating a single slice, (i.e. semi-automatic 3D segmentation). We show that high accuracy can be achieved by simply propagating the 2D slice segmentation with an affinity matrix between consecutive slices, which can be learnt in a self-supervised manner, namely slice reconstruction. Specifically, we compare the proposed framework, termed as Sli2Vol, with supervised approaches and two other unsupervised/ self-supervised slice registration approaches, on 8 public datasets (both CT and MRI scans), spanning 9 different SOIs. Without any parameter-tuning, the same model achieves superior performance with Dice scores (0-100 scale) of over 80 for most of the benchmarks, including the ones that are unseen during training. Our results show generalizability of the proposed approach across data from different machines and with different SOIs: a major use case of semi-automatic segmentation methods where fully supervised approaches would normally struggle. The source code will be made publicly available at https://github.com/pakheiyeung/Sli2Vol.
翻訳日:2021-05-27 14:57:39 公開日:2021-05-26
# (参考訳) ブラーの精度、不確実性、ロバスト性を改善するための空間平滑化

Blurs Make Results Clearer: Spatial Smoothings to Improve Accuracy, Uncertainty, and Robustness ( http://arxiv.org/abs/2105.12639v1 )

ライセンス: CC BY 4.0
Namuk Park, Songkuk Kim(参考訳) ベイズニューラルネットワーク(BNN)は不確実性推定とロバストネスの分野で成功している。 ベイジアンNNは信頼性の高い結果を生成するために大量の予測を必要とするため、計算コストが大幅に増加する。 この問題を軽減するために,CNNの隣接する特徴写像点をアンサンブルする空間平滑化法を提案する。 モデルにいくつかのぼやけ層を追加することによって、空間平滑化は、アンサンブルサイズ全体のbnnの精度、不確実性推定、ロバスト性を向上させることを実証的に示す。 特に,空間平滑化を取り入れたBNNは,少数のアンサンブルだけで高い予測性能を実現する。 さらに、この手法は標準決定論的ニューラルネットワークにも適用でき、性能を向上させることができる。 多くの証拠は、この改善が損失景観の平ら化と平ら化に起因することを示唆している。 さらに, 空間平滑化の特別な場合として, 先行作品, グローバル平均プーリング, プリアクティベーション, および relu6 について, 基本的な説明を与える。 これらは精度を向上させるだけでなく、空間平滑化と同じ方法でロスランドスケープを滑らかにすることで不確実性推定とロバスト性を向上させる。 コードはhttps://github.com/xxxnell/spatial-smoothing.comで入手できる。

Bayesian neural networks (BNNs) have shown success in the areas of uncertainty estimation and robustness. However, a crucial challenge prohibits their use in practice: Bayesian NNs require a large number of predictions to produce reliable results, leading to a significant increase in computational cost. To alleviate this issue, we propose spatial smoothing, a method that ensembles neighboring feature map points of CNNs. By simply adding a few blur layers to the models, we empirically show that the spatial smoothing improves accuracy, uncertainty estimation, and robustness of BNNs across a whole range of ensemble sizes. In particular, BNNs incorporating the spatial smoothing achieve high predictive performance merely with a handful of ensembles. Moreover, this method also can be applied to canonical deterministic neural networks to improve the performances. A number of evidences suggest that the improvements can be attributed to the smoothing and flattening of the loss landscape. In addition, we provide a fundamental explanation for prior works - namely, global average pooling, pre-activation, and ReLU6 - by addressing to them as special cases of the spatial smoothing. These not only enhance accuracy, but also improve uncertainty estimation and robustness by making the loss landscape smoother in the same manner as the spatial smoothing. The code is available at https://github.com/xxxnell/spatial-smoothing.
翻訳日:2021-05-27 14:18:32 公開日:2021-05-26
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v2 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-27 13:47:14 公開日:2021-05-26
# airnet: 空気上でのニューラルネットワークの伝送

AirNet: Neural Network Transmission over the Air ( http://arxiv.org/abs/2105.11166v2 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 多くの新興エッジアプリケーションの最先端性能はディープニューラルネットワーク(DNN)によって達成されている。 多くの場合、これらのDNNは位置と時間に敏感であり、特定のDNNのパラメータは、時間に敏感な推論タスクを実行するために、エッジサーバからエッジデバイスに迅速かつ効率的に配信されなければならない。 本稿では,DNNの効率的な無線配信を可能にする新しいトレーニングおよびアナログ伝送手法であるAirNetを紹介する。 まず,dnnをノイズインジェクションで訓練し,無線チャネルノイズに対応する。 また,伝送に必要なチャネル帯域幅を削減し,さらに大きなモデルから知識蒸留を行い,チャネルの摂動にも拘わらず良好な性能を実現するため,プルーニングを用いる。 本研究では,同じ帯域幅と電力制約下でのディジタル代替品と比較して,AirNetはテスト精度が有意に高いことを示す。 また、チャネル品質による優雅な劣化を示し、正確なチャネル推定の要求を低減させる。

State-of-the-art performance for many emerging edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location and time sensitive, and the parameters of a specific DNN must be delivered from an edge server to the edge device rapidly and efficiently to carry out time-sensitive inference tasks. We introduce AirNet, a novel training and analog transmission method that allows efficient wireless delivery of DNNs. We first train the DNN with noise injection to counter the wireless channel noise. We also employ pruning to reduce the channel bandwidth necessary for transmission, and perform knowledge distillation from a larger model to achieve satisfactory performance, despite the channel perturbations. We show that AirNet achieves significantly higher test accuracy compared to digital alternatives under the same bandwidth and power constraints. It also exhibits graceful degradation with channel quality, which reduces the requirement for accurate channel estimation.
翻訳日:2021-05-27 13:46:31 公開日:2021-05-26
# コミュニケーション効率からの語彙学習バイアスの出現と転落

The advent and fall of a vocabulary learning bias from communicative efficiency ( http://arxiv.org/abs/2105.11519v2 )

ライセンス: Link先を確認
David Carrera-Casado and Ramon Ferrer-i-Cancho(参考訳) 十分に幼い子どもが新しい単語に遭遇すると、語彙に語が存在しない意味にアタッチする傾向があることはよく知られている。 これまでの研究では,戦略は情報理論の観点から最適であることが示されている。 しかし、情報理論モデルは、高齢者や多言語話者における語彙学習バイアスの弱さを説明せず、zipfの意味周波数法則、すなわち単語の意味の数と頻度の間の非線形関係を再現するものではない。 ここでは、その法則を再現するためにチャネルされるモデルの一般化を考える。 新たなモデルの解析により,高齢者や多言語系におけるバイアスの弱化や消失に伴い,バイアスが一貫して消失する相空間の領域が明らかになった。 ディープラーニング時代において、このモデルは将来の実験研究のための透明な低次元ツールであり、Zipfのランク周波数法則の起源に光を当てるために設計された理論フレームワークの予測力を示す。

It is well-known that, when sufficiently young children encounter a new word, they tend to attach it to a meaning that does not have a word yet in their lexicon. In previous research, the strategy was shown to be optimal from an information theoretic standpoint. However, the information theoretic model employed neither explains the weakening of that vocabulary learning bias in older children or polylinguals nor reproduces Zipf's meaning-frequency law, namely the non-linear relationship between the number of meanings of a word and its frequency. Here we consider a generalization of the model that is channeled to reproduce that law. The analysis of the new model reveals regions of the phase space where the bias disappears consistently with the weakening or loss of the bias in older children or polylinguals. In the deep learning era, the model is a transparent low-dimensional tool for future experimental research and illustrates the predictive power of a theoretical framework originally designed to shed light on the origins of Zipf's rank-frequency law.
翻訳日:2021-05-27 13:45:30 公開日:2021-05-26
# predict then interpolate: 安定な分類器を学習する単純なアルゴリズム

Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers ( http://arxiv.org/abs/2105.12628v1 )

ライセンス: Link先を確認
Yujia Bao, Shiyu Chang, Regina Barzilay(参考訳) 環境にまたがって安定な相関関係を学習するための単純なアルゴリズムであるpredictor then interpolate (pi)を提案する。 このアルゴリズムは、ある環境で訓練された分類器を使って別の環境の例を予測した場合、どの相関が不安定であるかという誤りが情報となるという直感から導かれる。 本研究では、正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができることを示す。 オラクル補間係数はアクセスできないので、そのような補間全体にわたって最悪のケースリスクを最小限に抑えるために、群的ロバストな最適化を用いる。 本手法はテキスト分類と画像分類の両方で評価する。 実験の結果,本アルゴリズムはロバストな分類器(合成環境では23.85%,自然環境では12.41%)を学習できることがわかった。 私たちのコードとデータはhttps://github.com/yujiabao/predict-then-interpolateで入手できます。

We propose Predict then Interpolate (PI), a simple algorithm for learning correlations that are stable across environments. The algorithm follows from the intuition that when using a classifier trained on one environment to make predictions on examples from another environment, its mistakes are informative as to which correlations are unstable. In this work, we prove that by interpolating the distributions of the correct predictions and the wrong predictions, we can uncover an oracle distribution where the unstable correlation vanishes. Since the oracle interpolation coefficients are not accessible, we use group distributionally robust optimization to minimize the worst-case risk across all such interpolations. We evaluate our method on both text classification and image classification. Empirical results demonstrate that our algorithm is able to learn robust classifiers (outperforms IRM by 23.85% on synthetic environments and 12.41% on natural environments). Our code and data are available at https://github.com/YujiaBao/Predict-then-Interpolate.
翻訳日:2021-05-27 13:45:04 公開日:2021-05-26
# 深層学習を用いた強化サンプル学習戦略を用いた浸潤性胆管癌の予測

Predicting invasive ductal carcinoma using a Reinforcement Sample Learning Strategy using Deep Learning ( http://arxiv.org/abs/2105.12564v1 )

ライセンス: Link先を確認
Rushabh Patel(参考訳) 浸潤性胆管癌は、致死率が高く死亡率の高い、おそらく致命的な疾患である。 悪性腫瘍は、女性のがんによる2番目に多い死因である。 マンモグラフィーは大量検出および浸潤性管癌の診断に極めて有用な資源である。 我々は,マンモグラムに畳み込みニューラルネットワーク(CNN)を用いた浸潤性管癌の診断支援手法を提案している。 マンモグラムの画像の明瞭度や構造が異なるため、微小石灰化や腫瘤などの大きながんの特徴を観察することは困難であり、これらの特徴を解釈し診断することがしばしば困難である。 本研究の目的は,浸潤性胆管癌コンピュータ支援診断(cad)システムにおける特徴抽出と分類を完全自動化する新しい方法を確立することである。 本稿では,乳房マンモグラム画像における畳み込みニューラルネットワークを用いて,特徴抽出とトレーニング速度を向上させる腫瘍分類アルゴリズムを提案する。 アルゴリズムには2つの貢献がある。

Invasive ductal carcinoma is a prevalent, potentially deadly disease associated with a high rate of morbidity and mortality. Its malignancy is the second leading cause of death from cancer in women. The mammogram is an extremely useful resource for mass detection and invasive ductal carcinoma diagnosis. We are proposing a method for Invasive ductal carcinoma that will use convolutional neural networks (CNN) on mammograms to assist radiologists in diagnosing the disease. Due to the varying image clarity and structure of certain mammograms, it is difficult to observe major cancer characteristics such as microcalcification and mass, and it is often difficult to interpret and diagnose these attributes. The aim of this study is to establish a novel method for fully automated feature extraction and classification in invasive ductal carcinoma computer-aided diagnosis (CAD) systems. This article presents a tumor classification algorithm that makes novel use of convolutional neural networks on breast mammogram images to increase feature extraction and training speed. The algorithm makes two contributions.
翻訳日:2021-05-27 13:44:39 公開日:2021-05-26
# 都市交通シナリオにおける歩行者軌道予測のための社会的相互作用重み付き時空間畳み込みニューラルネットワーク

Social-IWSTCNN: A Social Interaction-Weighted Spatio-Temporal Convolutional Neural Network for Pedestrian Trajectory Prediction in Urban Traffic Scenarios ( http://arxiv.org/abs/2105.12436v1 )

ライセンス: Link先を確認
Chi Zhang (1), Christian Berger (1), Marco Dozza (2) ((1) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden, (2) Department of Maritime Sciences and Mechanics, Chalmers University of Technology, Gothenburg, Sweden)(参考訳) 都市シナリオにおける歩行者軌道予測は自動運転に不可欠である。 歩行者の行動は、自身の歴史経路と他者との相互作用の両方に影響されているため、この課題は困難である。 前回の研究では、これらの相互作用をプール機構や手作りの注意重みでモデル化した。 本稿では,空間的特徴と時間的特徴を含む社会的相互作用重み付き時空間畳み込みニューラルネットワーク(Social-IWSTCNN)を提案する。 歩行者の空間的および社会的相互作用の特徴を学習するための新しいデザイン,すなわち社会的相互作用抽出器を提案する。 以前のほとんどの研究は、ETHとUCYデータセットを使用しており、5つのシーンを含むが、訓練と評価のために都市交通シナリオを広範囲にカバーしていない。 本稿では,最近リリースされた大規模Waymo Open Datasetを都市交通シナリオに利用し,都市訓練シーン374面と76面の都市試験シーンを用いて,提案アルゴリズムの性能を最新技術(SOTA)モデルと比較して解析する。 その結果,このアルゴリズムは平均変位誤差(ADE)と最終変位誤差(FDE)の両方において,社会LSTM,社会GAN,社会STGCNNなどのSOTAアルゴリズムよりも優れていた。 さらに、私たちのSocial-IWSTCNNはデータ前処理速度の54.8倍、テスト全体の4.7倍高速である。

Pedestrian trajectory prediction in urban scenarios is essential for automated driving. This task is challenging because the behavior of pedestrians is influenced by both their own history paths and the interactions with others. Previous research modeled these interactions with pooling mechanisms or aggregating with hand-crafted attention weights. In this paper, we present the Social Interaction-Weighted Spatio-Temporal Convolutional Neural Network (Social-IWSTCNN), which includes both the spatial and the temporal features. We propose a novel design, namely the Social Interaction Extractor, to learn the spatial and social interaction features of pedestrians. Most previous works used ETH and UCY datasets which include five scenes but do not cover urban traffic scenarios extensively for training and evaluation. In this paper, we use the recently released large-scale Waymo Open Dataset in urban traffic scenarios, which includes 374 urban training scenes and 76 urban testing scenes to analyze the performance of our proposed algorithm in comparison to the state-of-the-art (SOTA) models. The results show that our algorithm outperforms SOTA algorithms such as Social-LSTM, Social-GAN, and Social-STGCNN on both Average Displacement Error (ADE) and Final Displacement Error (FDE). Furthermore, our Social-IWSTCNN is 54.8 times faster in data pre-processing speed, and 4.7 times faster in total test speed than the current best SOTA algorithm Social-STGCNN.
翻訳日:2021-05-27 13:44:15 公開日:2021-05-26
# 最新サリエンシーモデリングのための領域内外の校正予測

Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling ( http://arxiv.org/abs/2105.12441v1 )

ライセンス: Link先を確認
Akis Linardos, Matthias K\"ummerer, Ori Press, Matthias Bethge(参考訳) 2014年以降、トランスファーラーニングは空間塩分濃度予測の改善の鍵となっているが、過去3~5年間の進歩は停滞している。 我々は,deepgaze ii から採用した同じ readout architecture と learning protocol を使用して,さまざまなimagenet バックボーンをテストする大規模転送学習研究を行っている。 DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。 しかし、より優れたImageNetモデルをバックボーンとして(例えばEfficientNetB5)テストし続けるにつれて、サリエンシ予測のさらなる改善は見られません。 バックボーンを解析することで、他のデータセットへの一般化は大幅に異なり、モデルはその固定予測において常に過信されていることが分かる。 複数のバックボーンを原則的に組み合わせることで、未発見のデータセットに対する十分な信頼性のキャリブレーションが可能になることを示す。 これにより、DeepGaze IIよりも15%改善され、MIT1003では93%に向上し、すべての利用可能なメトリクス(AUC:88.3%、sAUC:79.4%、CC:82.4%)でMIT/Tuebingen Saliency Benchmarkの新たな技術状況が記録された。

Since 2014 transfer learning has become the key driver for the improvement of spatial saliency prediction; however, with stagnant progress in the last 3-5 years. We conduct a large-scale transfer learning study which tests different ImageNet backbones, always using the same read out architecture and learning protocol adopted from DeepGaze II. By replacing the VGG19 backbone of DeepGaze II with ResNet50 features we improve the performance on saliency prediction from 78% to 85%. However, as we continue to test better ImageNet models as backbones (such as EfficientNetB5) we observe no additional improvement on saliency prediction. By analyzing the backbones further, we find that generalization to other datasets differs substantially, with models being consistently overconfident in their fixation predictions. We show that by combining multiple backbones in a principled manner a good confidence calibration on unseen datasets can be achieved. This yields a significant leap in benchmark performance in and out-of-domain with a 15 percent point improvement over DeepGaze II to 93% on MIT1003, marking a new state of the art on the MIT/Tuebingen Saliency Benchmark in all available metrics (AUC: 88.3%, sAUC: 79.4%, CC: 82.4%).
翻訳日:2021-05-27 13:43:38 公開日:2021-05-26
# 学習したモデルでアニマトロニックな顔を動かす「Smile Like You」

Smile Like You Mean It: Driving Animatronic Robotic Face with Learned Models ( http://arxiv.org/abs/2105.12724v1 )

ライセンス: Link先を確認
Boyuan Chen, Yuhang Hu, Lianfeng Li, Sara Cummings, Hod Lipson(参考訳) 人間のようなソーシャルロボットを作るには、インテリジェントで汎用的な表情を作り出す能力が不可欠だ。 現在、この分野の進歩は、それぞれの表情を人間がプログラムする必要があるという事実によって妨げられている。 ロボットの動作を、人間と対話する際に生じるさまざまな状況にリアルタイムで適応させるためには、ロボットは人間のラベルを必要とせずに自らを訓練し、迅速な行動決定を行い、獲得した知識を多様な新しい文脈に一般化する必要がある。 我々は,ソフトスキンを用いた身体的アニマトロニックなロボット顔の設計と,表情模倣のための視覚に基づく自己教師付き学習フレームワークの開発により,この課題に対処した。 我々のアルゴリズムは,ロボットの運動モデル,カメラキャリブレーション,あるいは事前定義された表現セットに関する知識を必要としない。 学習プロセスを生成モデルと逆モデルに分解することにより、我々のフレームワークは単一の運動バブリングデータセットを用いて訓練することができる。 包括的評価から,本手法は多種多様な被験者の顔のまねを正確かつ多様に行うことができることが示された。 プロジェクトのwebサイトはhttp://www.cs.columbia.edu/~bchen/aiface/にある。

Ability to generate intelligent and generalizable facial expressions is essential for building human-like social robots. At present, progress in this field is hindered by the fact that each facial expression needs to be programmed by humans. In order to adapt robot behavior in real time to different situations that arise when interacting with human subjects, robots need to be able to train themselves without requiring human labels, as well as make fast action decisions and generalize the acquired knowledge to diverse and new contexts. We addressed this challenge by designing a physical animatronic robotic face with soft skin and by developing a vision-based self-supervised learning framework for facial mimicry. Our algorithm does not require any knowledge of the robot's kinematic model, camera calibration or predefined expression set. By decomposing the learning process into a generative model and an inverse model, our framework can be trained using a single motor babbling dataset. Comprehensive evaluations show that our method enables accurate and diverse face mimicry across diverse human subjects. The project website is at http://www.cs.columbia.edu/~bchen/aiface/
翻訳日:2021-05-27 13:43:00 公開日:2021-05-26
# LMMSのリロード:トランスフォーマーベースの曖昧さ回避のためのセンス埋め込み

LMMS Reloaded: Transformer-based Sense Embeddings for Disambiguation and Beyond ( http://arxiv.org/abs/2105.12449v1 )

ライセンス: Link先を確認
Daniel Loureiro, Al\'ipio M\'ario Jorge, Jose Camacho-Collados(参考訳) ニューラルアプローチに基づく分布意味論は自然言語処理の基礎であり、人間の意味表現にも驚くべきつながりがある。 最近のトランスフォーマーベースの言語モデルは、単に自己スーパービジョンの産物として、感覚固有の情報を確実に伝達する文脈表現を生成できることが証明されている。 先行研究により、これらの文脈表現は、大義の在庫を感覚埋め込みとして正確に表現するために使用することができ、word sense disambiguation (wsd)タスクに対する距離ベースのソリューションが、タスクのために特別に訓練されたモデルよりも優れていることが示されている。 それでも、これらのニューラル言語モデル(nlms)を使用して、各nlmの意味表現能力をよりうまく活用できる感覚埋め込みを生成する方法については、多くの理解が残っている。 本研究では,14種類のnlm変異の探索分析により,nlmの全層からの情報を活用するための,より原則的な手法を提案する。 また、タスク固有のモデルとは対照的に、これらの感覚埋め込みの汎用性を強調し、WSD以外のいくつかの感覚関連タスクに適用し、従来の作業よりも提案したアプローチによる性能向上を実証した。 最後に、層およびモデルの性能変化に関する予期せぬ発見と、下流タスクへの潜在的な応用について論じる。

Distributional semantics based on neural approaches is a cornerstone of Natural Language Processing, with surprising connections to human meaning representation as well. Recent Transformer-based Language Models have proven capable of producing contextual word representations that reliably convey sense-specific information, simply as a product of self-supervision. Prior work has shown that these contextual representations can be used to accurately represent large sense inventories as sense embeddings, to the extent that a distance-based solution to Word Sense Disambiguation (WSD) tasks outperforms models trained specifically for the task. Still, there remains much to understand on how to use these Neural Language Models (NLMs) to produce sense embeddings that can better harness each NLM's meaning representation abilities. In this work we introduce a more principled approach to leverage information from all layers of NLMs, informed by a probing analysis on 14 NLM variants. We also emphasize the versatility of these sense embeddings in contrast to task-specific models, applying them on several sense-related tasks, besides WSD, while demonstrating improved performance using our proposed approach over prior work focused on sense embeddings. Finally, we discuss unexpected findings regarding layer and model performance variations, and potential applications for downstream tasks.
翻訳日:2021-05-27 13:42:31 公開日:2021-05-26
# 辞書によるセメム知識ベースの自動構築

Automatic Construction of Sememe Knowledge Bases via Dictionaries ( http://arxiv.org/abs/2105.12585v1 )

ライセンス: Link先を確認
Fanchao Qi, Yangyi Chen, Fengyu Wang, Zhiyuan Liu, Xiao Chen, Maosong Sun(参考訳) セメムは言語学における最小意味単位として定義される。 セメム知識ベース(SKB)は、セメムを付加した単語で構成され、セメムを自然言語処理に適用することができる。 これまでのところ、多くの研究が様々なタスクにおけるskbのユニークな利点と効果を示してきた。 しかし、ほとんどの言語にはskbがなく、skbの手動構成は時間消費と労働集約である。 そこで本研究では,既存の辞書を用いた簡易かつ完全自動的なskb構築手法を提案する。 本手法を用いて英語skbとフランス語skbを構築し,本質的および極端的観点から総合的な評価を行う。 実験の結果、自動構築されたイングランドのskbは、手作業で構築するのに数十年かかる最も広く使われているskbであるhownetよりも優れていることが判明した。 また、英語とフランス語のSKBは、複数の下流タスクにおいて明らかにパフォーマンスの向上をもたらす。 この論文のコードとデータ(著作権付き辞書を除く)はhttps://github.com/thunlp/DictSKBで取得できる。

A sememe is defined as the minimum semantic unit in linguistics. Sememe knowledge bases (SKBs), which comprise words annotated with sememes, enable sememes to be applied to natural language processing. So far a large body of research has showcased the unique advantages and effectiveness of SKBs in various tasks. However, most languages have no SKBs, and manual construction of SKBs is time-consuming and labor-intensive. To tackle this challenge, we propose a simple and fully automatic method of building an SKB via an existing dictionary. We use this method to build an English SKB and a French SKB, and conduct comprehensive evaluations from both intrinsic and extrinsic perspectives. Experimental results demonstrate that the automatically built English SKB is even superior to HowNet, the most widely used SKB that takes decades to build manually. And both the English and French SKBs can bring obvious performance enhancement in multiple downstream tasks. All the code and data of this paper (except the copyrighted dictionaries) can be obtained at https://github.com/thunlp/DictSKB.
翻訳日:2021-05-27 13:41:56 公開日:2021-05-26
# 符号バック翻訳による単言語データによる手話翻訳の改善

Improving Sign Language Translation with Monolingual Data by Sign Back-Translation ( http://arxiv.org/abs/2105.12397v1 )

ライセンス: Link先を確認
Hao Zhou, Wengang Zhou, Weizhen Qi, Junfu Pu, Houqiang Li(参考訳) 既存の手話翻訳 (slt) の先駆的研究にもかかわらず、並列的な手話データの量が限られているなど、非自明な障害がある。 この並列データボトルネックに対処するために,大規模な音声言語テキストをSLT訓練に組み込んだ手話バック翻訳(SignBT)手法を提案する。 テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをグロスシーケンスに逆変換する。 そして、推定された光沢対符号バンクから断片を特徴レベルでスプライシングして対符号シーケンスを生成する。 最後に、合成並列データはエンコーダデコーダSLTフレームワークのエンドツーエンドトレーニングの強力なサプリメントとして機能する。 SLT 研究を促進するため,大規模連続 SLT データセットである CSL-Daily をさらに貢献する。 言語翻訳と用語レベルのアノテーションの両方を提供する。 このトピックは、人々の日常生活(旅行、ショッピング、医療など)に関するもので、最も可能性の高いアプリケーションシナリオである。 CSL-Dailyにおいて,SLT法の大規模実験結果と解析を行った。 提案手法により,従来のslt法に比べて大幅な改善が得られた。

Despite existing pioneering works on sign language translation (SLT), there is a non-trivial obstacle, i.e., the limited quantity of parallel sign-text data. To tackle this parallel data bottleneck, we propose a sign back-translation (SignBT) approach, which incorporates massive spoken language texts into SLT training. With a text-to-gloss translation model, we first back-translate the monolingual text to its gloss sequence. Then, the paired sign sequence is generated by splicing pieces from an estimated gloss-to-sign bank at the feature level. Finally, the synthetic parallel data serves as a strong supplement for the end-to-end training of the encoder-decoder SLT framework. To promote the SLT research, we further contribute CSL-Daily, a large-scale continuous SLT dataset. It provides both spoken language translations and gloss-level annotations. The topic revolves around people's daily lives (e.g., travel, shopping, medical care), the most likely SLT application scenario. Extensive experimental results and analysis of SLT methods are reported on CSL-Daily. With the proposed sign back-translation method, we obtain a substantial improvement over previous state-of-the-art SLT methods.
翻訳日:2021-05-27 13:41:29 公開日:2021-05-26
# マルチソース機能による教師なしビデオ要約

Unsupervised Video Summarization via Multi-source Features ( http://arxiv.org/abs/2105.12532v1 )

ライセンス: Link先を確認
Hussain Kanafani, Junaid Ahmed Ghauri, Sherzod Hakimov, Ralph Ewerth(参考訳) ビデオ要約は、オリジナルビデオの本質を伝えるコンパクトだが代表的なビジュアル要約を作成することを目的としている。 教師なしアプローチの利点は、要約能力を学び、より広い範囲のドメインに一般化するために人間のアノテーションを必要としないことである。 これまでの作業は、ImageNetデータに基づいて事前トレーニングされたモデルに基づいていた、同じタイプのディープ機能に依存していた。 そこで本研究では,複数の特徴源とチャンクとストライド融合を組み込むことにより,視覚コンテンツのさらなる情報を提供する。 また,TVSumとSumMeの2つのベンチマークを総合評価するために,本手法を4つの最先端手法と比較した。 これらの2つのアプローチは、報告された結果を再現するために私たち自身によって実装されました。 評価の結果から,両データセットについて最新の結果を得るとともに,評価手法における先行研究の問題点を浮き彫りにした。 最後に,2つのベンチマークデータセットのビデオに対してエラー解析を行い,誤分類の原因を要約し,同定する。

Video summarization aims at generating a compact yet representative visual summary that conveys the essence of the original video. The advantage of unsupervised approaches is that they do not require human annotations to learn the summarization capability and generalize to a wider range of domains. Previous work relies on the same type of deep features, typically based on a model pre-trained on ImageNet data. Therefore, we propose the incorporation of multiple feature sources with chunk and stride fusion to provide more information about the visual content. For a comprehensive evaluation on the two benchmarks TVSum and SumMe, we compare our method with four state-of-the-art approaches. Two of these approaches were implemented by ourselves to reproduce the reported results. Our evaluation shows that we obtain state-of-the-art results on both datasets, while also highlighting the shortcomings of previous work with regard to the evaluation methodology. Finally, we perform error analysis on videos for the two benchmark datasets to summarize and spot the factors that lead to misclassifications.
翻訳日:2021-05-27 13:41:00 公開日:2021-05-26
# 対照的なフーリエ特徴を持つ模倣のための確率的表現学習

Provable Representation Learning for Imitation with Contrastive Fourier Features ( http://arxiv.org/abs/2105.12272v1 )

ライセンス: Link先を確認
Ofir Nachum, Mengjiao Yang(参考訳) 模擬学習では,対象実証の集合に対して,最大習熟訓練を通じて未知の目標ポリシーに適合する行動ポリシーを学習することが一般的である。 本研究では,ダウンストリーム模倣学習のサンプル効率を確実に向上する低次元状態表現を学習するために,ターゲット分布からかなり離れたオフライン体験を用いて検討する。 この設定における中心的な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないため、ターゲットポリシーが異なる振る舞いをするエイリアス状態に対する表現学習目的の可能性を秘めている。 この課題を克服するために、ターゲットポリシーと最大様態で訓練された低次元ポリシーとの間の性能差の上限を与える表現学習目標を導出し、ターゲットポリシー自体が低次元構造を示すかどうかに関わらず、この境界は厳密である。 本手法の実用性に目を向けると, 遷移ダイナミクスを暗黙のエネルギーベースモデルや, 特殊な場合においては, ランダムなフーリエ特徴によって表現される暗黙の線形モデルで近似した, コントラスト学習として実装できることを示す。 テーブル状環境と高次元アタリゲームの両方の実験は,提案した目的の実用的メリットを定量的に証明する。

In imitation learning, it is common to learn a behavior policy to match an unknown target policy via max-likelihood training on a collected set of target demonstrations. In this work, we consider using offline experience datasets - potentially far from the target distribution - to learn low-dimensional state representations that provably accelerate the sample-efficiency of downstream imitation learning. A central challenge in this setting is that the unknown target policy itself may not exhibit low-dimensional behavior, and so there is a potential for the representation learning objective to alias states in which the target policy acts differently. Circumventing this challenge, we derive a representation learning objective which provides an upper bound on the performance difference between the target policy and a lowdimensional policy trained with max-likelihood, and this bound is tight regardless of whether the target policy itself exhibits low-dimensional structure. Moving to the practicality of our method, we show that our objective can be implemented as contrastive learning, in which the transition dynamics are approximated by either an implicit energy-based model or, in some special cases, an implicit linear model with representations given by random Fourier features. Experiments on both tabular environments and high-dimensional Atari games provide quantitative evidence for the practical benefits of our proposed objective.
翻訳日:2021-05-27 13:40:08 公開日:2021-05-26
# オーバーラップスコアを使って崩壊ベンチマークを改善する

Using the Overlapping Score to Improve Corruption Benchmarks ( http://arxiv.org/abs/2105.12357v1 )

ライセンス: Link先を確認
Alfred Laugros and Alice Caplier and Matthieu Ospici(参考訳) ニューラルネットワークは通常、ブラーやノイズ、低照度条件など、現実世界のアプリケーションで発生するさまざまな汚職に敏感である。 これらの一般的な腐敗に対するニューラルネットワークのロバスト性を評価するために、ベンチマークに集まったモデリングされた腐敗のグループを使うのが一般的です。 残念ながら、ベンチマークが独立した汚職の多様さを表すかどうかを決定する客観的な基準は存在しない。 本稿では,汚職ベンチマークの欠陥を明らかにするために使用できる,汚職重なりスコアと呼ばれる指標を提案する。 これらの腐敗とニューラルネットワークのロバスト性が相関すると、2つの腐敗が重なる。 汚職間の重複を考慮して、既存のベンチマークを改善したり、より良いベンチマークを構築するのに役立ちます。

Neural Networks are sensitive to various corruptions that usually occur in real-world applications such as blurs, noises, low-lighting conditions, etc. To estimate the robustness of neural networks to these common corruptions, we generally use a group of modeled corruptions gathered into a benchmark. Unfortunately, no objective criterion exists to determine whether a benchmark is representative of a large diversity of independent corruptions. In this paper, we propose a metric called corruption overlapping score, which can be used to reveal flaws in corruption benchmarks. Two corruptions overlap when the robustnesses of neural networks to these corruptions are correlated. We argue that taking into account overlappings between corruptions can help to improve existing benchmarks or build better ones.
翻訳日:2021-05-27 13:39:11 公開日:2021-05-26
# 要塞化地域を検知する学習

Learning to Detect Fortified Areas ( http://arxiv.org/abs/2105.12385v1 )

ライセンス: Link先を確認
Allan Gr{\o}nlund and Jonas Tranberg(参考訳) LiDARデータから作られた格子地形モデルのような高解像度のデータモデルは、現代の地理情報システムアプリケーションにとって必須条件である。 非常に正確なデジタル地形モデルの基礎を提供するのに加えて、LiDARデータは、水、建物、植生などの関連する要素を含むと考えられる表面のどの部分を構成するかの分類にも広く用いられている。 本稿では, 道路, 歩道, 駐車スペース, 舗装された車道, テラスなどによって, 与えられた面のどの領域が要塞化されているかを分類する問題を考える。 lidarデータと直交写真を組み合わせることで、現代の機械学習アルゴリズムの勾配が木や畳み込みニューラルネットワークが、現実世界の大規模データで強固な領域をいかにうまく検出できるかを示す。 今回検討したLiDARデータの特徴,特にリターンの信号強度を測定する強度特性は,測定を行った実際のLiDARセンサに大きく依存している。 これは、特にパターンマッチングアルゴリズムの一般化能力において非常に問題であり、これは、テストデータのデータ特徴が、モデルがトレーニングしたデータと大きく異なる可能性があることを意味する。 本稿では,すべてのセンサシステムから新たな共通表現へとデータ変換を行うニューラルネットワーク組込みアーキテクチャを設計し,学習データとテストデータが同じセンサから生み出すかどうかを判定するアルゴリズム的解法を提案する。 最終的なアルゴリズムの精度は96%以上、AUCのスコアは0.99以上である。

High resolution data models like grid terrain models made from LiDAR data are a prerequisite for modern day Geographic Information Systems applications. Besides providing the foundation for the very accurate digital terrain models, LiDAR data is also extensively used to classify which parts of the considered surface comprise relevant elements like water, buildings and vegetation. In this paper we consider the problem of classifying which areas of a given surface are fortified by for instance, roads, sidewalks, parking spaces, paved driveways and terraces. We consider using LiDAR data and orthophotos, combined and alone, to show how well the modern machine learning algorithms Gradient Boosted Trees and Convolutional Neural Networks are able to detect fortified areas on large real world data. The LiDAR data features, in particular the intensity feature that measures the signal strength of the return, that we consider in this project are heavily dependent on the actual LiDAR sensor that made the measurement. This is highly problematic, in particular for the generalisation capability of pattern matching algorithms, as this means that data features for test data may be very different from the data the model is trained on. We propose an algorithmic solution to this problem by designing a neural net embedding architecture that transforms data from all the different sensor systems into a new common representation that works as well as if the training data and test data originated from the same sensor. The final algorithm result has an accuracy above 96 percent, and an AUC score above 0.99.
翻訳日:2021-05-27 13:38:54 公開日:2021-05-26
# dynamic probabilistic pruning: 異なる粒度でハードウェア制約されたpruningの汎用フレームワーク

Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities ( http://arxiv.org/abs/2105.12686v1 )

ライセンス: Link先を確認
Lizeth Gonzalez-Carabarin, Iris A.M. Huijben, Bastiaan S. Veeling, Alexandre Schmid, Ruud J.G. van Sloun(参考訳) 非構造化ニューラルネットワークプルーニングアルゴリズムは、印象的な圧縮速度を達成した。 しかし、結果として生じる(通常不規則な)スパース行列は効率的なハードウェア実装を阻害し、さらなるメモリ使用量と複雑な制御ロジックをもたらし、非構造化プラニングの利点を減少させる。 これにより、フィルタ全体やレイヤーを汚染する構造的な粗粒のプルーニングソリューションが促進され、柔軟性を犠牲にして効率的な実装が可能になる。 本稿では, 異なる粒度(重み, カーネル, フィルタ, フィーチャーマップ)でのプルーニングを容易にするとともに, 効率的なメモリ構成を維持しつつ, フレキシブルな新しいプルーニング機構を提案する。 出力ニューロンごとに正確にk-out-n重みをプルーニングするか、すべての特徴写像に対して正確にn-out-nカーネルをプルーニングする)。 このアルゴリズムを動的確率プランニング(DPP)と呼ぶ。 DPP は Gumbel-softmax 緩和を利用して k-out-of-n サンプリングを微分可能とし、エンドツーエンドの最適化を容易にする。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。 関連して、DPPの非マグニチュードに基づく性質は、ネットワークをさらに圧縮するために、プルーニングと重み量子化の合同最適化を可能にする。 最後に,層内のプルーニングマスクの信頼性とプルーニング多様性を示す新たな情報理論的指標を提案する。

Unstructured neural network pruning algorithms have achieved impressive compression rates. However, the resulting - typically irregular - sparse matrices hamper efficient hardware implementations, leading to additional memory usage and complex control logic that diminishes the benefits of unstructured pruning. This has spurred structured coarse-grained pruning solutions that prune entire filters or even layers, enabling efficient implementation at the expense of reduced flexibility. Here we propose a flexible new pruning mechanism that facilitates pruning at different granularities (weights, kernels, filters/feature maps), while retaining efficient memory organization (e.g. pruning exactly k-out-of-n weights for every output neuron, or pruning exactly k-out-of-n kernels for every feature map). We refer to this algorithm as Dynamic Probabilistic Pruning (DPP). DPP leverages the Gumbel-softmax relaxation for differentiable k-out-of-n sampling, facilitating end-to-end optimization. We show that DPP achieves competitive compression rates and classification accuracy when pruning common deep learning models trained on different benchmark datasets for image classification. Relevantly, the non-magnitude-based nature of DPP allows for joint optimization of pruning and weight quantization in order to even further compress the network, which we show as well. Finally, we propose novel information theoretic metrics that show the confidence and pruning diversity of pruning masks within a layer.
翻訳日:2021-05-27 13:38:16 公開日:2021-05-26
# 人間の動きから二足歩行を学習する

Learning Bipedal Robot Locomotion from Human Movement ( http://arxiv.org/abs/2105.12277v1 )

ライセンス: Link先を確認
Michael Taylor, Sergey Bashkirov, Javier Fernandez Rico, Ike Toriyama, Naoyuki Miyada, Hideki Yanagisawa, Kensaku Ishizuka(参考訳) 人間的な例から人型ロボットを教えることは、その運動に人間のような性質を与える機会を与える。 本研究では,実世界2足歩行ロボットに人間のモーションキャプチャデータから直接動作を指示する強化学習に基づく手法を提案する。 シミュレーション環境でのトレーニングから,実世界のトレーニングイテレーションやオフラインステップを必要とせずに,物理的ロボット上での実行へとシームレスに移行する。 ロボットとモーションキャプチャーアクタのジョイント構成の相違を克服するため,本手法では運動再ターゲティングを訓練プロセスに組み込む。 ドメインランダム化技術は、シミュレーションシステムと物理システムの違いを補うために用いられる。 本研究では, 動的歩行サイクルから複雑なバランスや振れまで, 内部で開発したヒューマノイドロボットの動作を実演する。 コントローラは、モーションキャプチャーデータによって付与されたスタイルを保存し、ロボットに安全な操作をもたらす優れた障害モードを示す。 この研究は研究目的のみに行われた。

Teaching an anthropomorphic robot from human example offers the opportunity to impart humanlike qualities on its movement. In this work we present a reinforcement learning based method for teaching a real world bipedal robot to perform movements directly from human motion capture data. Our method seamlessly transitions from training in a simulation environment to executing on a physical robot without requiring any real world training iterations or offline steps. To overcome the disparity in joint configurations between the robot and the motion capture actor, our method incorporates motion re-targeting into the training process. Domain randomization techniques are used to compensate for the differences between the simulated and physical systems. We demonstrate our method on an internally developed humanoid robot with movements ranging from a dynamic walk cycle to complex balancing and waving. Our controller preserves the style imparted by the motion capture data and exhibits graceful failure modes resulting in safe operation for the robot. This work was performed for research purposes only.
翻訳日:2021-05-27 13:37:39 公開日:2021-05-26
# フェデレートトランスファー学習と説明可能なAIを用いたECGモニタリングヘルスケアシステムの設計

Designing ECG Monitoring Healthcare System with Federated Transfer Learning and Explainable AI ( http://arxiv.org/abs/2105.12497v1 )

ライセンス: Link先を確認
Ali Raza, Kim Phuc Tran, Ludovic Koehl and Shujun Li(参考訳) 深層学習は心電図(ecg)データを用いて異なる不整脈を分類する上で重要な役割を果たす。 それでも、ディープラーニングモデルのトレーニングは通常、大量のデータを必要とするため、プライバシの懸念を引き起こす可能性がある。 残念ながら、大量の医療データを単一のサイロから容易に収集することはできない。 さらに、ディープラーニングモデルはブラックボックスのようなもので、予測結果の説明性はなく、臨床医療でしばしば必要とされる。 これにより、現実世界の健康システムにおけるディープラーニングの適用が制限される。 本稿では,ECGベースの医療アプリケーションのための統合環境において,新しい説明可能な人工知能(XAI)ベースのディープラーニングフレームワークを設計する。 フェデレーション設定は、データ可用性やプライバシの懸念といった問題を解決するために使用される。 さらに,提案フレームワークでは,畳み込みニューラルネットワーク(cnn)に基づいて,オートエンコーダと分類器を用いて不整脈を効果的に分類する。 さらに,提案する分類器の上位にxaiベースのモジュールを提案し,分類結果を説明し,臨床実践者が迅速かつ信頼性の高い意思決定を行うのを支援する。 提案フレームワークはmit-bih不整脈データベースを用いてトレーニングおよびテストを行った。 この分類器は, ノイズデータとクリーンデータを用いた不整脈検出では, 94%, 98%の精度で5倍のクロスバリデーションが得られた。

Deep learning play a vital role in classifying different arrhythmias using the electrocardiography (ECG) data. Nevertheless, training deep learning models normally requires a large amount of data and it can lead to privacy concerns. Unfortunately, a large amount of healthcare data cannot be easily collected from a single silo. Additionally, deep learning models are like black-box, with no explainability of the predicted results, which is often required in clinical healthcare. This limits the application of deep learning in real-world health systems. In this paper, we design a new explainable artificial intelligence (XAI) based deep learning framework in a federated setting for ECG-based healthcare applications. The federated setting is used to solve issues such as data availability and privacy concerns. Furthermore, the proposed framework setting effectively classifies arrhythmia's using an autoencoder and a classifier, both based on a convolutional neural network (CNN). Additionally, we propose an XAI-based module on top of the proposed classifier to explain the classification results, which help clinical practitioners make quick and reliable decisions. The proposed framework was trained and tested using the MIT-BIH Arrhythmia database. The classifier achieved accuracy up to 94% and 98% for arrhythmia detection using noisy and clean data, respectively, with five-fold cross-validation.
翻訳日:2021-05-27 13:37:15 公開日:2021-05-26
# 深層学習によるコミュニティ検出に関する包括的調査

A Comprehensive Survey on Community Detection with Deep Learning ( http://arxiv.org/abs/2105.12584v1 )

ライセンス: Link先を確認
Xing Su, Shan Xue, Fanzhen Liu, Jia Wu, Jian Yang, Chuan Zhou, Wenbin Hu, Cecile Paris, Surya Nepal, Di Jin, Quan Z. Sheng, Philip S. Yu(参考訳) コミュニティは、ネットワーク内の他のコミュニティと異なるメンバーの特徴とつながりを明らかにします。 ネットワーク分析において,コミュニティの検出は非常に重要である。 古典的なスペクトルクラスタリングと統計的推測手法にもかかわらず,近年,コミュニティ検出のための深層学習技術が発展し,高次元ネットワークデータの処理に長けている。 したがって、深層学習によるコミュニティ検出の最近の進歩の総合的な概要は、学者と実践者の両方にとってタイムリーである。 本調査は,ディープニューラルネットワークを用いたディープラーニングモデル,ディープ非負行列分解,ディープスパースフィルタリングなど,最先端手法のさまざまなカテゴリをカバーする新たな分類法を考案し,提案する。 主なカテゴリ、すなわちディープニューラルネットワークは、さらに畳み込みネットワーク、グラフアテンションネットワーク、生成的逆ネットワーク、オートエンコーダに分けられる。 この調査では、人気のあるベンチマークデータセット、モデル評価メトリクス、実験設定に対処するオープンソース実装も要約している。 次に、様々な領域におけるコミュニティ検出の実践的応用と実装シナリオについて論じる。 最後に,この急速に成長するディープラーニング分野における課題を提案することによって,今後の方向性を概説する。

A community reveals the features and connections of its members that are different from those in other communities in a network. Detecting communities is of great significance in network analysis. Despite the classical spectral clustering and statistical inference methods, we notice a significant development of deep learning techniques for community detection in recent years with their advantages in handling high dimensional network data. Hence, a comprehensive overview of community detection's latest progress through deep learning is timely to both academics and practitioners. This survey devises and proposes a new taxonomy covering different categories of the state-of-the-art methods, including deep learning-based models upon deep neural networks, deep nonnegative matrix factorization and deep sparse filtering. The main category, i.e., deep neural networks, is further divided into convolutional networks, graph attention networks, generative adversarial networks and autoencoders. The survey also summarizes the popular benchmark data sets, model evaluation metrics, and open-source implementations to address experimentation settings. We then discuss the practical applications of community detection in various domains and point to implementation scenarios. Finally, we outline future directions by suggesting challenging topics in this fast-growing deep learning field.
翻訳日:2021-05-27 13:36:41 公開日:2021-05-26
# 複数の$l_p$-threatモデルに対する1の価格での逆ロバスト性と他の脅威モデルへの高速微調整方法

Adversarial robustness against multiple $l_p$-threat models at the price of one and how to quickly fine-tune robust models to another threat model ( http://arxiv.org/abs/2105.12508v1 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) 対向的堅牢性を実現するために, 対向的トレーニング (AT) を単一$l_p$-threatモデルで行うことが広く議論されている。 しかし、安全クリティカルなシステムでは、全ての$l_p$-threatモデルを同時に実行する必要がある。 本稿では,$l_p$-threatモデルの結合に対する対角的ロバスト性を実現するための,シンプルで効率的なトレーニング手法を開発する。 我々の新しい$l_1+l_\infty$-ATスキームは、異なる$l_p$-ボールの幾何学的考察と、1つの$l_p$-threatモデルに対する通常の逆トレーニングのコストに基づいている。 さらに、我々の$l_1+l_\infty$-ATスキームを用いることで、$l_p$-robustモデル($p \in \{1,2,\infty\}$)をわずか3つのエポックで微調整し、複数のノルム対向ロバスト性を達成することを示す。 このようにして、複数のノルムのロバスト性に関する以前の報告をcifar-10で$6\%以上増加させ、私たちの知るところでは、複数の標準ロバスト性を持つ最初のimagenetモデルについて報告します。 さらに,異なる脅威モデル間の対向ロバスト性の一般的な移動について検討し,CIFAR-10における以前のSOTA $l_1$-robustnessを約10\%向上させる。

Adversarial training (AT) in order to achieve adversarial robustness wrt single $l_p$-threat models has been discussed extensively. However, for safety-critical systems adversarial robustness should be achieved wrt all $l_p$-threat models simultaneously. In this paper we develop a simple and efficient training scheme to achieve adversarial robustness against the union of $l_p$-threat models. Our novel $l_1+l_\infty$-AT scheme is based on geometric considerations of the different $l_p$-balls and costs as much as normal adversarial training against a single $l_p$-threat model. Moreover, we show that using our $l_1+l_\infty$-AT scheme one can fine-tune with just 3 epochs any $l_p$-robust model (for $p \in \{1,2,\infty\}$) and achieve multiple norm adversarial robustness. In this way we boost the previous state-of-the-art reported for multiple-norm robustness by more than $6\%$ on CIFAR-10 and report up to our knowledge the first ImageNet models with multiple norm robustness. Moreover, we study the general transfer of adversarial robustness between different threat models and in this way boost the previous SOTA $l_1$-robustness on CIFAR-10 by almost $10\%$.
翻訳日:2021-05-27 13:34:56 公開日:2021-05-26
# 映像処理における機械学習の透明化に向けて

Towards Transparent Application of Machine Learning in Video Processing ( http://arxiv.org/abs/2105.12700v1 )

ライセンス: Link先を確認
Luka Murn, Marc Gorriz Blanch, Maria Santamaria, Fiona Rivera, Marta Mrak(参考訳) より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。 人工知能(AI)の先進的な形態と見なされるこの新技術は、これまで予期せぬ能力をもたらす。 しかし、それらは典型的には、資源不足のブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。 したがって、それらの応用は予測不可能であり、大規模な用途(例えば、)では一般的に信頼できない。 ライブ放送)。 この研究の目的は、ビデオ処理アプリケーションにおける学習モデルを理解し、最適化することで、それらを組み込んだシステムがより信頼できる方法で使用できるようにすることである。 この文脈では、ビデオ制作および配信アプリケーションのための機械学習の実装における透明性の向上を目的とした学習モデルの簡易化のための原則を導入する。 これらの原理はビデオ圧縮の例で示されており、関連するディープラーニングモデルを単純化することで、ビットレートの節約と複雑さの低減がいかに達成できるかを示している。

Machine learning techniques for more efficient video compression and video enhancement have been developed thanks to breakthroughs in deep learning. The new techniques, considered as an advanced form of Artificial Intelligence (AI), bring previously unforeseen capabilities. However, they typically come in the form of resource-hungry black-boxes (overly complex with little transparency regarding the inner workings). Their application can therefore be unpredictable and generally unreliable for large-scale use (e.g. in live broadcast). The aim of this work is to understand and optimise learned models in video processing applications so systems that incorporate them can be used in a more trustworthy manner. In this context, the presented work introduces principles for simplification of learned models targeting improved transparency in implementing machine learning for video production and distribution applications. These principles are demonstrated on video compression examples, showing how bitrate savings and reduced complexity can be achieved by simplifying relevant deep learning models.
翻訳日:2021-05-27 13:34:12 公開日:2021-05-26
# Masked Noun-Phrase 予測による教師なし代名詞分解

Unsupervised Pronoun Resolution via Masked Noun-Phrase Prediction ( http://arxiv.org/abs/2105.12392v1 )

ライセンス: Link先を確認
Ming Shen, Pratyay Banerjee, Chitta Baral(参考訳) 本研究では,完全教師なし環境で代名詞解決に取り組むための事前学習戦略であるMasked Noun-Phrase Prediction (MNPP)を提案する。 まず,様々な代名詞解決データセットの事前学習モデルを評価する。 提案手法は,全データセットにおける従来の教師なし手法を大きなマージンで上回っている。 次に、WinoGrande-SとXSでトレーニング済みのモデルを微調整する。 提案手法は,WinoGrandeの残りの3つのオフィシャルスプリットを微調整した後,高いAUCスコアを達成し,RoBERTa-largeベースラインを大きなマージンで上回った。

In this work, we propose Masked Noun-Phrase Prediction (MNPP), a pre-training strategy to tackle pronoun resolution in a fully unsupervised setting. Firstly, We evaluate our pre-trained model on various pronoun resolution datasets without any finetuning. Our method outperforms all previous unsupervised methods on all datasets by large margins. Secondly, we proceed to a few-shot setting where we finetune our pre-trained model on WinoGrande-S and XS. Our method outperforms RoBERTa-large baseline with large margins, meanwhile, achieving a higher AUC score after further finetuning on the remaining three official splits of WinoGrande.
翻訳日:2021-05-27 13:32:54 公開日:2021-05-26
# トークン化と下流モデルの統合最適化

Joint Optimization of Tokenization and Downstream Model ( http://arxiv.org/abs/2105.12410v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka, Sho Takase, Kei Uchiumi, Atsushi Keyaki and Naoaki Okazaki(参考訳) 従来のトークン化器は下流のタスクやモデルから分離されているため、タスクやモデルに応じて適切なトークン化を出力することはできない。 本稿では,トークン化器とモデルの共同最適化により,与えられた下流モデルに適切なトークン化を求める手法を提案する。 提案手法は, 下流モデルで計算した損失値を用いてトークン化者を訓練する以外に制限がなく, 提案手法を任意のNLPタスクに適用することができる。 さらに,提案手法を用いて,すでに訓練済みのモデルのトークン化を後処理として検討することができる。 したがって,提案手法は様々な状況に適用できる。 提案手法が3言語でテキスト分類の性能向上に寄与するか,8言語で機械翻訳を行った。 実験の結果,提案手法はトークン化の適否を判定することで性能を向上できることがわかった。

Since traditional tokenizers are isolated from a downstream task and model, they cannot output an appropriate tokenization depending on the task and model, although recent studies imply that the appropriate tokenization improves the performance. In this paper, we propose a novel method to find an appropriate tokenization to a given downstream model by jointly optimizing a tokenizer and the model. The proposed method has no restriction except for using loss values computed by the downstream model to train the tokenizer, and thus, we can apply the proposed method to any NLP task. Moreover, the proposed method can be used to explore the appropriate tokenization for an already trained model as post-processing. Therefore, the proposed method is applicable to various situations. We evaluated whether our method contributes to improving performance on text classification in three languages and machine translation in eight language pairs. Experimental results show that our proposed method improves the performance by determining appropriate tokenizations.
翻訳日:2021-05-27 13:32:37 公開日:2021-05-26
# バイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習

Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2105.12523v1 )

ライセンス: Link先を確認
Yangyifan Xu, Yijin Liu, Fandong Meng, Jiajun Zhang, Jinan Xu, Jie Zhou(参考訳) 近年,トークンレベルの適応トレーニングは,異なるトークンに異なるトレーニング重みを割り当てることで,クロスエントロピー損失関数を調整し,トークンの不均衡問題を軽減し,機械翻訳における有望な改善を実現している。 しかし、従来の手法では、ソース言語を考慮せずにターゲット言語の静的単語頻度情報のみを使用しており、機械翻訳のようなバイリンガルタスクには不十分である。 本稿では,両言語主義の観点から目標トークンの学習困難度を測定し,トークンレベルの適応訓練を改善するために適応重みを割り当てる,新しいバイリンガル相互情報(BMI)に基づく適応目標を提案する。 この方法はbmiの高いトークンに対してより大きなトレーニング重みを割り当て、簡単なトークンは粗い粒度で更新され、難しいトークンは細かい粒度で更新される。 WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。 さらなる分析により,本手法は語彙多様性を向上できることが確認された。

Recently, token-level adaptive training has achieved promising improvement in machine translation, where the cross-entropy loss function is adjusted by assigning different training weights to different tokens, in order to alleviate the token imbalance problem. However, previous approaches only use static word frequency information in the target language without considering the source language, which is insufficient for bilingual tasks like machine translation. In this paper, we propose a novel bilingual mutual information (BMI) based adaptive objective, which measures the learning difficulty for each target token from the perspective of bilingualism, and assigns an adaptive weight accordingly to improve token-level adaptive training. This method assigns larger training weights to tokens with higher BMI, so that easy tokens are updated with coarse granularity while difficult tokens are updated with fine granularity. Experimental results on WMT14 English-to-German and WMT19 Chinese-to-English demonstrate the superiority of our approach compared with the Transformer baseline and previous token-level adaptive training approaches. Further analyses confirm that our method can improve the lexical diversity.
翻訳日:2021-05-27 13:32:15 公開日:2021-05-26
# テキストにおける騙し検出と個人主義・集団主義の文化的次元との関係

Deception detection in text and its relation to the cultural dimension of individualism/collectivism ( http://arxiv.org/abs/2105.12530v1 )

ライセンス: Link先を確認
Katerina Papantoniou, Panagiotis Papadakos, Theodore Patkos, Giorgos Flouris, Ion Androutsopoulos, Dimitris Plexousakis(参考訳) 誤認検出は、直接的物理的およびコンピュータによる通信の両方において多くの応用のタスクである。 私たちの焦点は、文化をまたがるテキストの自動誤認検出です。 我々は文化を個人主義/集団主義の次元のプリズムを通して捉え、国を代理として使うことで文化を近似する。 社会心理学の分野から最近導かれた結論を出発点として,文化をまたがるデセプションの特定の言語的特徴の用法の違いが確認でき,個人主義・集団主義の分断に関して規範に帰着できるかどうかを考察する。 また,異文化間テキストの誤読検出タスクのための普遍的特徴集合が存在するかどうかについても検討する。 我々は,様々な特徴集合とアプローチの予測能力を評価する。 我々は、音韻、形態、構文に基づく幅広いn-gram特徴、単語・音素数、代名詞使用、トークン埋め込みなど他の言語的手がかりを実験することにより、文化・言語認識分類器を作成する。 我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)の11のデータセットを用いて実験を行い、ロジスティック回帰と細調整されたBERTモデルという2つの分類手法を適用した。 その結果,タスクはかなり複雑で,要求も高いことがわかった。 いくつかの言語は文化的な起源を持ち、多様なドメインや同じ言語のデータセット設定の文脈で一致している。 これは代名詞の用法や知覚言語における感情表現においてより顕著である。 本研究の結果,文化と言語をまたいだ誤認の自動検出は,統一的な方法では処理できず,文化の違いや関心領域に関する知識も加えるべきであることが示された。

Deception detection is a task with many applications both in direct physical and in computer-mediated communication. Our focus is on automatic deception detection in text across cultures. We view culture through the prism of the individualism/collectivism dimension and we approximate culture by using country as a proxy. Having as a starting point recent conclusions drawn from the social psychology discipline, we explore if differences in the usage of specific linguistic features of deception across cultures can be confirmed and attributed to norms in respect to the individualism/collectivism divide. We also investigate if a universal feature set for cross-cultural text deception detection tasks exists. We evaluate the predictive power of different feature sets and approaches. We create culture/language-aware classifiers by experimenting with a wide range of n-gram features based on phonology, morphology and syntax, other linguistic cues like word and phoneme counts, pronouns use, etc., and token embeddings. We conducted our experiments over 11 datasets from 5 languages i.e., English, Dutch, Russian, Spanish and Romanian, from six countries (US, Belgium, India, Russia, Mexico and Romania), and we applied two classification methods i.e, logistic regression and fine-tuned BERT models. The results showed that our task is fairly complex and demanding. There are indications that some linguistic cues of deception have cultural origins, and are consistent in the context of diverse domains and dataset settings for the same language. This is more evident for the usage of pronouns and the expression of sentiment in deceptive language. The results of this work show that the automatic deception detection across cultures and languages cannot be handled in a unified manner, and that such approaches should be augmented with knowledge about cultural differences and the domains of interest.
翻訳日:2021-05-27 13:31:46 公開日:2021-05-26
# アノテータとしての言語モデル:対話要約のためのダイアログプの検討

Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization ( http://arxiv.org/abs/2105.12544v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Libo Qin, Bing Qin, Ting Liu(参考訳) 現在の対話要約システムは通常、より強力な対話モデリング機能を得るために、テキストを多くの一般的な意味的特徴(キーワードやトピックなど)でエンコードする。 しかし、これらの機能は、ダイアログに依存しない、あるいは人間のアノテーションに依存するオープンドメインツールキットによって得られる。 本稿では,対話応答生成のための事前学習モデルであるDialoGPTを,対話背景知識を符号化した教師なし対話アノテータとして開発する方法を示す。 ダイアロGPTを用いて、2つの対話要約データセット(SAMSumとAMI)に3種類の特徴をラベル付けし、事前学習モデルと非訓練モデルを用いて要約する。 実験の結果,提案手法は両データセットにおいて著しく改善し,samsumデータセット上で新たな最先端性能を実現することができた。

Current dialogue summarization systems usually encode the text with a number of general semantic features (e.g., keywords and topics) to gain more powerful dialogue modeling capabilities. However, these features are obtained via open-domain toolkits that are dialog-agnostic or heavily relied on human annotations. In this paper, we show how DialoGPT, a pre-trained model for conversational response generation, can be developed as an unsupervised dialogue annotator, which takes advantage of dialogue background knowledge encoded in DialoGPT. We apply DialoGPT to label three types of features on two dialogue summarization datasets, SAMSum and AMI, and employ pre-trained and non pre-trained models as our summarizes. Experimental results show that our proposed method can obtain remarkable improvements on both datasets and achieves new state-of-the-art performance on the SAMSum dataset.
翻訳日:2021-05-27 13:30:58 公開日:2021-05-26
# NNCFR:ニューラルネットワークによる反ファクトレグレストの最小化

NNCFR: Minimize Counterfactual Regret with Neural Networks ( http://arxiv.org/abs/2105.12328v1 )

ライセンス: Link先を確認
Huale Li, Xuan Wang, Zengyue Guo, Jiajia Zhang, Shuhan Qi(参考訳) ファクトファクトレグレスト最小化(CFR)は、不完全な情報を持つ2つのプレイヤーゼロサムゲームにおいて、近似ナッシュ平衡を求める一般的な方法である。 CFRはゲームツリー全体を反復的に切り刻むことでゲームを解決し、より大きなゲームのスケーラビリティを制限する。 従来,大規模ゲームにcfrを適用する場合,大規模ゲームはまず小規模ゲームに抽象化される。 第2に、CFRは抽象ゲームを解くために使用される。 そして最後に、ソリューション戦略はオリジナルの大規模ゲームにマッピングされます。 しかし、このプロセスにはかなりの専門知識が必要であり、抽象化の正確さは専門知識と密接に関連している。 さらに、抽象化は特定の情報を失い、最終的にはソリューション戦略の精度に影響を与える。 この問題に向けて、最近の方法である‘textit{Deep CFR’は、完全なゲームにおいて深層ニューラルネットワークを直接CFRに適用することにより、抽象化と専門知識の必要性を軽減する。 本稿では、値ネットワークとしてデュエルネットウォクを構築することにより、より高速な収束性を持つ、より改良された \textit{Deep CFR} である \textit{Neural Network Counterfactual Regret Minimization (NNCFR)} を紹介する。 さらに、評価モジュールは、値ネットワークとモンテカルロを組み合わせることで設計され、値ネットワークの近似誤差を低減する。 さらに、新しい損失関数は、提案された \textit{nncfr} のポリシーネットワークを訓練する手順で設計されており、ポリシーネットワークをより安定させるのに役立つ。 実験により, \textit{NNCFR} は \textit{Deep CFR} よりも高速に収束し,より安定に動作し, テストゲームにおける操作性やヘッド・ツー・ヘッドのパフォーマンスに対して, \textit{Deep CFR} よりも優れていた。

Counterfactual Regret Minimization (CFR)} is the popular method for finding approximate Nash equilibrium in two-player zero-sum games with imperfect information. CFR solves games by travsersing the full game tree iteratively, which limits its scalability in larger games. When applying CFR to solve large-scale games in previously, large-scale games are abstracted into small-scale games firstly. Secondly, CFR is used to solve the abstract game. And finally, the solution strategy is mapped back to the original large-scale game. However, this process requires considerable expert knowledge, and the accuracy of abstraction is closely related to expert knowledge. In addition, the abstraction also loses certain information, which will eventually affect the accuracy of the solution strategy. Towards this problem, a recent method, \textit{Deep CFR} alleviates the need for abstraction and expert knowledge by applying deep neural networks directly to CFR in full games. In this paper, we introduces \textit{Neural Network Counterfactual Regret Minimization (NNCFR)}, an improved variant of \textit{Deep CFR} that has a faster convergence by constructing a dueling netwok as the value network. Moreover, an evaluation module is designed by combining the value network and Monte Carlo, which reduces the approximation error of the value network. In addition, a new loss function is designed in the procedure of training policy network in the proposed \textit{NNCFR}, which can be good to make the policy network more stable. The extensive experimental tests are conducted to show that the \textit{NNCFR} converges faster and performs more stable than \textit{Deep CFR}, and outperforms \textit{Deep CFR} with respect to exploitability and head-to-head performance on test games.
翻訳日:2021-05-27 13:30:36 公開日:2021-05-26
# 組合せテストのための不完全なMaxSATアプローチ

Incomplete MaxSAT Approaches for Combinatorial Testing ( http://arxiv.org/abs/2105.12552v1 )

ライセンス: Link先を確認
Carlos Ans\'otegui, Felip Many\`a, Jesus Ojeda, Josep M. Salvia, Eduard Torres(参考訳) 本稿では,最小長の制約を持つ混合被覆配列を構築するための満足度(sat)に基づく手法を提案する。 この問題はシステム障害検出のための組合せテストの中心にある。 特に,最大満足度 (MaxSAT) 技術を適用し, 最適解と準最適解をそれぞれ計算するために, 完全解と不完全解の異なるクラスに対する効率的な符号化を記述する方法を示す。 同様に、MaxSAT技術を通して、制約を組み込むために拡張するタプル数問題(タプル数問題)を解く方法を示す。 この問題に対して、我々は新しいMaxSATベースの不完全アルゴリズムを提供する。 制約ベンチマーク付き混合被覆アレイについて行った広範囲な実験評価と最新ツールとの比較により,提案手法の良好な性能が確認された。

We present a Satisfiability (SAT)-based approach for building Mixed Covering Arrays with Constraints of minimum length, referred to as the Covering Array Number problem. This problem is central in Combinatorial Testing for the detection of system failures. In particular, we show how to apply Maximum Satisfiability (MaxSAT) technology by describing efficient encodings for different classes of complete and incomplete MaxSAT solvers to compute optimal and suboptimal solutions, respectively. Similarly, we show how to solve through MaxSAT technology a closely related problem, the Tuple Number problem, which we extend to incorporate constraints. For this problem, we additionally provide a new MaxSAT-based incomplete algorithm. The extensive experimental evaluation we carry out on the available Mixed Covering Arrays with Constraints benchmarks and the comparison with state-of-the-art tools confirm the good performance of our approaches.
翻訳日:2021-05-27 13:29:46 公開日:2021-05-26
# PSGAN++:ロバストな詳細な保存メイクアップ転送と削除

PSGAN++: Robust Detail-Preserving Makeup Transfer and Removal ( http://arxiv.org/abs/2105.12324v1 )

ライセンス: Link先を確認
Si Liu, Wentao Jiang, Chen Gao, Ran He, Jiashi Feng, Bo Li, Shuicheng Yan(参考訳) 本稿では,参照画像からソース画像へメークアップを転送し,メークアップ画像からメークアップを除去することを目的としたメークアップ転送と削除を同時に行う。 既存の手法は制約のあるシナリオでは大きな進歩を遂げているが、ポーズや表情の違いが大きい画像間でメイクアップを転送したり、頬のブラッシュや鼻のハイライトのようなメイクアップの詳細を扱うことは依然として非常に困難である。 また、入力面の特定の部分の転写や転写の際のメークアップの程度を制御できない。 そこで本研究では,psgan++ を提案する。psgan++ は精細なメイクアップ転送と効果的なメイクアップ除去の両方を行うことができる。 PSGAN++はメイクアップ・ディスティル・ネットワーク(Makeup Distill Network)を使用してメイクアップ情報を抽出し、空間認識メイク行列に埋め込む。 また、基準画像からソース画像のメイクアップがどう変化するかを特定するための注意メイクアップモーフィングモジュールと、選択されたメイクアップディテール領域内でモデルを監督するメイクアップディテールロスとを考案する。 一方,PSGAN++では,メイクアップ画像からのアイデンティティ情報をアイデンティティ行列に埋め込むために,ID Distill Networkを適用している。 最後に、得られたメークアップ/アイデンティティ行列をスタイル転送ネットワークに供給し、特徴マップを編集してメークアップ転送または削除を行う。 提案するPSGAN++の有効性を評価するため,多様なポーズや表現を持つ画像を含むWildデータセットと,高解像度な画像を含むMakeup Transfer High-Resolutionデータセットを収集した。 実験により、psgan++はポーズや表現の差異が大きい場合にも、細かいメイクアップディテールで最先端の結果が得られるだけでなく、部分的あるいは程度制御可能なメイクアップ転送も可能であることが示されている。

In this paper, we address the makeup transfer and removal tasks simultaneously, which aim to transfer the makeup from a reference image to a source image and remove the makeup from the with-makeup image respectively. Existing methods have achieved much advancement in constrained scenarios, but it is still very challenging for them to transfer makeup between images with large pose and expression differences, or handle makeup details like blush on cheeks or highlight on the nose. In addition, they are hardly able to control the degree of makeup during transferring or to transfer a specified part in the input face. In this work, we propose the PSGAN++, which is capable of performing both detail-preserving makeup transfer and effective makeup removal. For makeup transfer, PSGAN++ uses a Makeup Distill Network to extract makeup information, which is embedded into spatial-aware makeup matrices. We also devise an Attentive Makeup Morphing module that specifies how the makeup in the source image is morphed from the reference image, and a makeup detail loss to supervise the model within the selected makeup detail area. On the other hand, for makeup removal, PSGAN++ applies an Identity Distill Network to embed the identity information from with-makeup images into identity matrices. Finally, the obtained makeup/identity matrices are fed to a Style Transfer Network that is able to edit the feature maps to achieve makeup transfer or removal. To evaluate the effectiveness of our PSGAN++, we collect a Makeup Transfer In the Wild dataset that contains images with diverse poses and expressions and a Makeup Transfer High-Resolution dataset that contains high-resolution images. Experiments demonstrate that PSGAN++ not only achieves state-of-the-art results with fine makeup details even in cases of large pose/expression differences but also can perform partial or degree-controllable makeup transfer.
翻訳日:2021-05-27 13:29:25 公開日:2021-05-26
# 複数のドメインエキスパートによる協調学習 - 個人再識別のためのマルチソースドメイン一般化

Multiple Domain Experts Collaborative Learning: Multi-Source Domain Generalization For Person Re-Identification ( http://arxiv.org/abs/2105.12355v1 )

ライセンス: Link先を確認
Shijie Yu, Feng Zhu, Dapeng Chen, Rui Zhao, Haobin Chen, Shixiang Tang, Jinguo Zhu, Yu Qiao(参考訳) 近年では、人物再同定(ReID)が著しく進歩している。 しかし、現在のReIDアプローチでは、テスト対象ドメインが、ドメインシフト問題として知られるトレーニングドメインとは異なる特性を示す場合、パフォーマンスが著しく低下する。 ReIDをより実用的で汎用的にするために、ドメイン一般化(DG)問題として人物を再同定し、MD-ExCo(Multiple Domain Experts Collaborative Learning)という新しいトレーニングフレームワークを提案する。 具体的には、MD-ExCoは普遍的な専門家といくつかのドメインエキスパートで構成されている。 各ドメインエキスパートは特定のドメインから学ぶことに集中し、定期的に他のドメインエキスパートとコミュニケーションを取り、メタ学習のやり方で学習戦略を規制し、過度な適合を避ける。 さらに、ユニバーサルエキスパートはドメインの専門家から知識を集め、フィードバックとしてそれらに監督を提供する。 DG-ReIDベンチマークの大規模な実験により、我々のMD-ExCoは最先端の手法よりも高い性能を示し、ReIDモデルの一般化能力を向上させる能力を示している。

Recent years have witnessed significant progress in person re-identification (ReID). However, current ReID approaches suffer from considerable performance degradation when the test target domains exhibit different characteristics from the training ones, known as the domain shift problem. To make ReID more practical and generalizable, we formulate person re-identification as a Domain Generalization (DG) problem and propose a novel training framework, named Multiple Domain Experts Collaborative Learning (MD-ExCo). Specifically, the MD-ExCo consists of a universal expert and several domain experts. Each domain expert focuses on learning from a specific domain, and periodically communicates with other domain experts to regulate its learning strategy in the meta-learning manner to avoid overfitting. Besides, the universal expert gathers knowledge from the domain experts, and also provides supervision to them as feedback. Extensive experiments on DG-ReID benchmarks show that our MD-ExCo outperforms the state-of-the-art methods by a large margin, showing its ability to improve the generalization capability of the ReID models.
翻訳日:2021-05-27 13:28:30 公開日:2021-05-26
# KLIEPに基づく都市交通シーンにおける連続合成と実画像適応の密度比推定

KLIEP-based Density Ratio Estimation for Semantically Consistent Synthetic to Real Images Adaptation in Urban Traffic Scenes ( http://arxiv.org/abs/2105.12549v1 )

ライセンス: Link先を確認
Artem Savkin and Federico Tombari(参考訳) 合成データは、多くのディープラーニングベースのコンピュータビジョンタスクに応用されている。 合成データのみを訓練したアルゴリズムの限られた性能は、生成的逆数フレームワークに基づくような領域適応手法によってアプローチされてきた。 本稿では,対人訓練だけで翻訳画像に意味的不整合を導入する方法を示す。 この問題に対処するために,KLIEPに基づく密度比推定手法を用いた密度予測手法を提案する。 最後に、上記の戦略は、自律運転の文脈において、基礎となる手法の翻訳画像の品質とセマンティックセグメンテーションタスクのユーザビリティを向上させることを示す。

Synthetic data has been applied in many deep learning based computer vision tasks. Limited performance of algorithms trained solely on synthetic data has been approached with domain adaptation techniques such as the ones based on generative adversarial framework. We demonstrate how adversarial training alone can introduce semantic inconsistencies in translated images. To tackle this issue we propose density prematching strategy using KLIEP-based density ratio estimation procedure. Finally, we show that aforementioned strategy improves quality of translated images of underlying method and their usability for the semantic segmentation task in the context of autonomous driving.
翻訳日:2021-05-27 13:28:00 公開日:2021-05-26
# カモフラージュ物体検出のためのコンテキスト対応クロスレベル融合ネットワーク

Context-aware Cross-level Fusion Network for Camouflaged Object Detection ( http://arxiv.org/abs/2105.12555v1 )

ライセンス: Link先を確認
Yujia Sun, Geng Chen, Tao Zhou, Yi Zhang, Nian Liu(参考訳) カモフラージュされた物体検出(COD)は、物体とその周囲の境界のコントラストが低いため難しい課題である。 さらに、カモフラージュされた物体の外観は、例えば、物体の大きさや形状などによって大きく異なり、正確なCODの難しさが増す。 本稿では,cod課題に対処するために,コンテキスト認識型クロスレベル融合ネットワーク(c2f-net)を提案する。 具体的には,アテンション誘導型クロスレベル核融合モジュール (ACFM) を提案する。 融合した機能は提案されたDual-branch Global Context Module (DGCM)に送られ、リッチなグローバルなコンテキスト情報を利用するためのマルチスケールな特徴表現が得られる。 C2F-Netでは、この2つのモジュールはカスケード方式で高レベルな機能で実行される。 C2F-Netは有効なCODモデルであり、最先端のモデルよりも優れています。 私たちのコードは、https://github.com/thograce/C2FNetで公開されています。

Camouflaged object detection (COD) is a challenging task due to the low boundary contrast between the object and its surroundings. In addition, the appearance of camouflaged objects varies significantly, e.g., object size and shape, aggravating the difficulties of accurate COD. In this paper, we propose a novel Context-aware Cross-level Fusion Network (C2F-Net) to address the challenging COD task. Specifically, we propose an Attention-induced Cross-level Fusion Module (ACFM) to integrate the multi-level features with informative attention coefficients. The fused features are then fed to the proposed Dual-branch Global Context Module (DGCM), which yields multi-scale feature representations for exploiting rich global context information. In C2F-Net, the two modules are conducted on high-level features using a cascaded manner. Extensive experiments on three widely used benchmark datasets demonstrate that our C2F-Net is an effective COD model and outperforms state-of-the-art models remarkably. Our code is publicly available at: https://github.com/thograce/C2FNet.
翻訳日:2021-05-27 13:27:44 公開日:2021-05-26
# 機械の映像符号化に関する最近の標準開発動向

Recent Standard Development Activities on Video Coding for Machines ( http://arxiv.org/abs/2105.12653v1 )

ライセンス: Link先を確認
Wen Gao, Shan Liu, Xiaozhong Xu, Manouchehr Rafie, Yuan Zhang, Igor Curcio(参考訳) 近年、ビデオデータはインターネットトラフィックを支配し、主要なデータフォーマットの1つとなっている。 新興の5Gとモノのインターネット(IoT)技術により、エッジデバイスによって生成されるビデオが増え、ネットワークを介して送信され、マシンによって消費される。 機械が消費するビデオの量は、人間が消費するビデオの量を超える。 マシンビジョンタスクには、オブジェクトの検出、セグメンテーション、トラッキング、その他のマシンベースのアプリケーションが含まれる。 一方,映像データの量が多いため,伝送前に映像を圧縮することが不可欠である。 このように、機械の効率的なビデオ符号化(VCM)は、学術や産業において重要なトピックとなっている。 2019年7月、国際標準化機構(MPEG)は、VCMというアドホックグループを設立し、標準化作業の潜在的な要件について研究した。 本稿では,MPEG VCMグループにおける最近の開発活動について述べる。 具体的には、まずユースケース、要件、処理パイプライン、潜在的なVCM標準の計画、続いて、マシンビジョンタスク、データセット、評価メトリクス、アンカー生成を含む評価フレームワークについて、MPEG VCMグループの概要を紹介する。 本稿では,MPEG VCMグループによって発行されたCall for Evidenceに対する最近の対応について述べる。

In recent years, video data has dominated internet traffic and becomes one of the major data formats. With the emerging 5G and internet of things (IoT) technologies, more and more videos are generated by edge devices, sent across networks, and consumed by machines. The volume of video consumed by machine is exceeding the volume of video consumed by humans. Machine vision tasks include object detection, segmentation, tracking, and other machine-based applications, which are quite different from those for human consumption. On the other hand, due to large volumes of video data, it is essential to compress video before transmission. Thus, efficient video coding for machines (VCM) has become an important topic in academia and industry. In July 2019, the international standardization organization, i.e., MPEG, created an Ad-Hoc group named VCM to study the requirements for potential standardization work. In this paper, we will address the recent development activities in the MPEG VCM group. Specifically, we will first provide an overview of the MPEG VCM group including use cases, requirements, processing pipelines, plan for potential VCM standards, followed by the evaluation framework including machine-vision tasks, dataset, evaluation metrics, and anchor generation. We then introduce technology solutions proposed so far and discuss the recent responses to the Call for Evidence issued by MPEG VCM group.
翻訳日:2021-05-27 13:27:15 公開日:2021-05-26
# 低解像度情報も重要である:人物再同定のためのマルチレゾリューション表現の学習

Low Resolution Information Also Matters: Learning Multi-Resolution Representations for Person Re-Identification ( http://arxiv.org/abs/2105.12684v1 )

ライセンス: Link先を確認
Guoqing Zhang, Yuhao Chen, Weisi Lin, Arun Chandran, Xuan Jing(参考訳) ビデオ監視と鑑識分野における一般的なタスクとして、人物再識別(re-id)は、オーバーラップされたカメラから撮影された人物画像とマッチングすることを目的としている。 制約のないシナリオでは、人物画像はしばしば分解ミスマッチ問題、すなわち \emph{Cross-Resolution Person Re-ID} に悩まされる。 この問題を解決するため、既存のほとんどの手法では、高分解能画像(LR)を高分解能画像(HR)に復元する。 しかし、HR特徴抽出のみに集中し、元のLR画像から有効な情報を無視する。 本研究では,特徴抽出における解像度の影響を考察し,emph{\textbf{m}ulti- resolution \textbf{r}epresentations \textbf{j}oint \textbf{l}earning} (\textbf{mrjl}) と呼ばれる新しい人物識別法を開発した。 本手法は,レゾリューション・コンストラクション・ネットワーク(RRN)とデュアル・フィーチャー・フュージョン・ネットワーク(DFFN)から構成される。 RRNは、HRバージョンとLRバージョンをエンコーダと2つのデコーダで構築するために入力画像を使用し、DFFNはデュアルブランチ構造を採用し、マルチ解像度画像から人物表現を生成する。 5つのベンチマークに関する総合的な実験は、提案したMRJLが最先端の手法よりも優れていることを検証している。

As a prevailing task in video surveillance and forensics field, person re-identification (re-ID) aims to match person images captured from non-overlapped cameras. In unconstrained scenarios, person images often suffer from the resolution mismatch problem, i.e., \emph{Cross-Resolution Person Re-ID}. To overcome this problem, most existing methods restore low resolution (LR) images to high resolution (HR) by super-resolution (SR). However, they only focus on the HR feature extraction and ignore the valid information from original LR images. In this work, we explore the influence of resolutions on feature extraction and develop a novel method for cross-resolution person re-ID called \emph{\textbf{M}ulti-Resolution \textbf{R}epresentations \textbf{J}oint \textbf{L}earning} (\textbf{MRJL}). Our method consists of a Resolution Reconstruction Network (RRN) and a Dual Feature Fusion Network (DFFN). The RRN uses an input image to construct a HR version and a LR version with an encoder and two decoders, while the DFFN adopts a dual-branch structure to generate person representations from multi-resolution images. Comprehensive experiments on five benchmarks verify the superiority of the proposed MRJL over the relevent state-of-the-art methods.
翻訳日:2021-05-27 13:26:42 公開日:2021-05-26
# 物体検出と物体位置推定のための深層学習:サーベイ

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey ( http://arxiv.org/abs/2105.12694v1 )

ライセンス: Link先を確認
Feifei Shao, Long Chen, Jian Shao, Wei Ji, Shaoning Xiao, Lu Ye, Yueting Zhuang, Jun Xiao(参考訳) 弱教師付きオブジェクト検出(wsod)とローカライズ(wsol)、すなわちイメージレベルラベルを用いた画像内のバウンディングボックスによる複数インスタンスと単一インスタンスの検出は、cvコミュニティにおける長年の課題である。 オブジェクト検出におけるディープニューラルネットワークの成功により、WSODとWSOLはどちらも前例のない注目を集めている。 深層学習時代には,WSOD法やWSOL法など数多くの技術が提案されている。 そこで本稿では,wso は wsod のサブタスクであると考え,最近の wsod の成果を総合的に調査する。 具体的には、まず、背景、課題、基本的なフレームワークを含むWSODの定式化と設定を説明します。 一方,検出性能を向上させるための高度な技術や訓練手法を総括し,分析した。 次に、WSODの広く使われているデータセットと評価指標を紹介する。 最後に、WSODの今後の方向性について論じる。 これらの要約は、将来のWSODとWSOLの研究に役立つと考えています。

Weakly-Supervised Object Detection (WSOD) and Localization (WSOL), i.e., detecting multiple and single instances with bounding boxes in an image using image-level labels, are long-standing and challenging tasks in the CV community. With the success of deep neural networks in object detection, both WSOD and WSOL have received unprecedented attention. Hundreds of WSOD and WSOL methods and numerous techniques have been proposed in the deep learning era. To this end, in this paper, we consider WSOL is a sub-task of WSOD and provide a comprehensive survey of the recent achievements of WSOD. Specifically, we firstly describe the formulation and setting of the WSOD, including the background, challenges, basic framework. Meanwhile, we summarize and analyze all advanced techniques and training tricks for improving detection performance. Then, we introduce the widely-used datasets and evaluation metrics of WSOD. Lastly, we discuss the future directions of WSOD. We believe that these summaries can help pave a way for future research on WSOD and WSOL.
翻訳日:2021-05-27 13:25:58 公開日:2021-05-26
# 自律運転のための空間的・文脈的深層ネットワークベースマルチモーダル歩行者検出

Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For Autonomous Driving ( http://arxiv.org/abs/2105.12713v1 )

ライセンス: Link先を確認
Kinjal Dasgupta, Arindam Das, Sudip Das, Ujjwal Bhattacharya and Senthil Yogamani(参考訳) 歩行者検出は自律運転システムの最も重要なモジュールである。 この用途にはカメラが一般的に用いられるが、低照度夜間の運転では品質が著しく劣化する。 一方、熱カメラ画像の品質は、同様の条件下では影響を受けない。 本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。 その新しい空間的深層ネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。 異なる2つの変形可能なResNeXt-50エンコーダで構成され、2つのモードから特徴抽出を行う。 これら2つのエンコードされた機能の融合は、グラフ注意ネットワークと機能融合ユニットの複数のグループで構成されるマルチモーダル機能埋め込みモジュール(MuFEm)内で行われる。 MuFEmの最後の特徴融合ユニットの出力は、空間的精錬のために2つのCRFに渡される。 4つの異なる方向を横断する4つのrnnの助けを借りて、チャネルごとに注意を払い、文脈情報を抽出することにより、さらなる機能強化を実現する。 最後に、これらの特徴マップを1段デコーダで使用して、各歩行者のバウンディングボックスとスコアマップを生成する。 我々は,kaist,cvc-14,utokyoの3つのマルチモーダル歩行者検出ベンチマークデータセットについて,提案フレームワークの広範な実験を行った。 それぞれの結果により,それぞれの最先端性能が向上した。 この作業の概要と質的な結果を示す短いビデオはhttps://youtu.be/FDJdSifuuCsで見ることができる。

Pedestrian Detection is the most critical module of an Autonomous Driving system. Although a camera is commonly used for this purpose, its quality degrades severely in low-light night time driving scenarios. On the other hand, the quality of a thermal camera image remains unaffected in similar conditions. This paper proposes an end-to-end multimodal fusion model for pedestrian detection using RGB and thermal images. Its novel spatio-contextual deep network architecture is capable of exploiting the multimodal input efficiently. It consists of two distinct deformable ResNeXt-50 encoders for feature extraction from the two modalities. Fusion of these two encoded features takes place inside a multimodal feature embedding module (MuFEm) consisting of several groups of a pair of Graph Attention Network and a feature fusion unit. The output of the last feature fusion unit of MuFEm is subsequently passed to two CRFs for their spatial refinement. Further enhancement of the features is achieved by applying channel-wise attention and extraction of contextual information with the help of four RNNs traversing in four different directions. Finally, these feature maps are used by a single-stage decoder to generate the bounding box of each pedestrian and the score map. We have performed extensive experiments of the proposed framework on three publicly available multimodal pedestrian detection benchmark datasets, namely KAIST, CVC-14, and UTokyo. The results on each of them improved the respective state-of-the-art performance. A short video giving an overview of this work along with its qualitative results can be seen at https://youtu.be/FDJdSifuuCs.
翻訳日:2021-05-27 13:25:33 公開日:2021-05-26
# ネスト変換器の集約

Aggregating Nested Transformers ( http://arxiv.org/abs/2105.12723v1 )

ライセンス: Link先を確認
Zizhao Zhang, Han Zhang, Long Zhao, Ting Chen, Tomas Pfister(参考訳) 階層構造は近年のビジョントランスフォーマーで人気があるが、機能するためには高度な設計と大規模なデータセットが必要である。 本研究では,重複しない画像ブロックに基本局所トランスフォーマーをネストし,それらを階層的に集約する手法を検討する。 ブロック集約関数は,クロスブロック非局所情報通信を実現する上で重要な役割を担っている。 この観察結果から,元のビジョン変換器に小さなコード変更を加えた簡易アーキテクチャを設計し,既存手法と比較して性能が向上した。 実験の結果,提案手法はより高速に収束し,優れた一般化を実現するためにトレーニングデータを必要とすることがわかった。 例えば、100/300エポックでImageNetでトレーニングされた68Mパラメータを持つNesTは、22.3\%/83.8\%の精度を224\times 224$の画像サイズで評価し、最大57%\%のパラメータ削減で以前の手法より優れている。 CIFAR10上で6MパラメータをスクラッチからトレーニングしたNesTは、単一のGPUを使用して9,6\%の精度を達成する。 画像分類以外にも、重要なアイデアを画像生成に拡張し、NesTが以前のトランスフォーマーベースのジェネレータよりも8$\times$高速な強力なデコーダに導くことを示す。 さらに,学習したモデルを視覚的に解釈する新しい手法を提案する。

Although hierarchical structures are popular in recent vision transformers, they require sophisticated designs and massive datasets to work well. In this work, we explore the idea of nesting basic local transformers on non-overlapping image blocks and aggregating them in a hierarchical manner. We find that the block aggregation function plays a critical role in enabling cross-block non-local information communication. This observation leads us to design a simplified architecture with minor code changes upon the original vision transformer and obtains improved performance compared to existing methods. Our empirical results show that the proposed method NesT converges faster and requires much less training data to achieve good generalization. For example, a NesT with 68M parameters trained on ImageNet for 100/300 epochs achieves $82.3\%/83.8\%$ accuracy evaluated on $224\times 224$ image size, outperforming previous methods with up to $57\%$ parameter reduction. Training a NesT with 6M parameters from scratch on CIFAR10 achieves $96\%$ accuracy using a single GPU, setting a new state of the art for vision transformers. Beyond image classification, we extend the key idea to image generation and show NesT leads to a strong decoder that is 8$\times$ faster than previous transformer based generators. Furthermore, we also propose a novel method for visually interpreting the learned model.
翻訳日:2021-05-27 13:25:01 公開日:2021-05-26
# hidden killer: 構文トリガーによる見えないテキストのバックドア攻撃

Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger ( http://arxiv.org/abs/2105.12400v1 )

ライセンス: Link先を確認
Fanchao Qi, Mukai Li, Yangyi Chen, Zhengyan Zhang, Zhiyuan Liu, Yasheng Wang, Maosong Sun(参考訳) バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威の一種だ。 トレーニングでバックドアを注入された後、被害者モデルは、事前に設計されたトリガーが埋め込まれた入力に対して、逆特定された出力を生成するが、推論中に通常の入力に対して適切に振る舞う。 創発的攻撃の一種として、自然言語処理(NLP)におけるバックドア攻撃は不十分である。 我々の知る限り、ほとんどの既存のテキストバックドア攻撃手法は、通常のサンプルに追加の内容をトリガーとして挿入しているため、トリガー埋め込みされたサンプルが検出され、バックドア攻撃はそれほどの手間をかけずにブロックされる。 本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。 本手法はインサート・ベースの手法と同等の攻撃性能(ほぼ100%成功率)を達成できるが,より視認性が高く,防御に対する強い抵抗力を有することを示すため,広範な実験を行った。 また,本研究の結果から,テキストバックドア攻撃の悪影響が明らかとなった。 この論文のコードとデータは、https://github.com/thunlp/HiddenKiller.comで入手できる。

Backdoor attacks are a kind of insidious security threat against machine learning models. After being injected with a backdoor in training, the victim model will produce adversary-specified outputs on the inputs embedded with predesigned triggers but behave properly on normal inputs during inference. As a sort of emergent attack, backdoor attacks in natural language processing (NLP) are investigated insufficiently. As far as we know, almost all existing textual backdoor attack methods insert additional contents into normal samples as triggers, which causes the trigger-embedded samples to be detected and the backdoor attacks to be blocked without much effort. In this paper, we propose to use syntactic structure as the trigger in textual backdoor attacks. We conduct extensive experiments to demonstrate that the syntactic trigger-based attack method can achieve comparable attack performance (almost 100\% success rate) to the insertion-based methods but possesses much higher invisibility and stronger resistance to defenses. These results also reveal the significant insidiousness and harmfulness of textual backdoor attacks. All the code and data of this paper can be obtained at https://github.com/thunlp/HiddenKiller.
翻訳日:2021-05-27 13:24:22 公開日:2021-05-26
# GeomCA:データ表現の幾何学的評価

GeomCA: Geometric Evaluation of Data Representations ( http://arxiv.org/abs/2105.12486v1 )

ライセンス: Link先を確認
Petra Poklukar, Anastasia Varava, Danica Kragic(参考訳) 下流のタスクに頼らずに学習した表現の品質を評価することは、表現学習における課題の1つだ。 本研究では,幾何学的および位相的性質に基づいて表現空間を評価する幾何成分解析(geomca)アルゴリズムを提案する。 geomcaは、生成したモデルとは独立に、任意の次元の表現に適用することができる。 コントラスト学習モデルや生成モデル,教師付き学習モデルなど,さまざまなシナリオから得られた表現を分析して,その適用性を示す。

Evaluating the quality of learned representations without relying on a downstream task remains one of the challenges in representation learning. In this work, we present Geometric Component Analysis (GeomCA) algorithm that evaluates representation spaces based on their geometric and topological properties. GeomCA can be applied to representations of any dimension, independently of the model that generated them. We demonstrate its applicability by analyzing representations obtained from a variety of scenarios, such as contrastive learning models, generative models and supervised learning models.
翻訳日:2021-05-27 13:23:54 公開日:2021-05-26
# 連続凸近似に基づく制約強化学習のためのオフポリティ最適化

Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning ( http://arxiv.org/abs/2105.12545v1 )

ライセンス: Link先を確認
Chang Tian, An Liu, Guang Huang and Wu Luo(参考訳) 平均コストの文脈でマルコフ決定過程 (CMDP) として定式化される一般制約強化学習問題を解決するために, 連続凸近似に基づくオフポリチ最適化 (SCAOPO) アルゴリズムを提案する。 SCAOPOは、凸代用関数を持つ元の問題における目的関数と制約関数を置き換えることで得られる凸目標/実現可能性最適化問題の列を解くことに基づいている。 各イテレーションにおいて、凸代理問題はラグランジュ双対法で効率的に解けるが、そのポリシーは高次元関数でパラメータ化される。 さらに、SCAOPOは以前の更新から古い体験を再利用できるので、オンラインで環境を学ぶ必要がある現実のエンジニアリングシステムにデプロイする際の実装コストを大幅に削減できます。 時変状態分布と非政治学習によって生じる確率バイアスにもかかわらず、実現可能な初期点を持つSCAOPOは、元の問題のカルシュ=クーン=タッカー点(KKT)にほぼ確実に収束することができる。

We propose a successive convex approximation based off-policy optimization (SCAOPO) algorithm to solve the general constrained reinforcement learning problem, which is formulated as a constrained Markov decision process (CMDP) in the context of average cost. The SCAOPO is based on solving a sequence of convex objective/feasibility optimization problems obtained by replacing the objective and constraint functions in the original problems with convex surrogate functions. At each iteration, the convex surrogate problem can be efficiently solved by Lagrange dual method even the policy is parameterized by a high-dimensional function. Moreover, the SCAOPO enables to reuse old experiences from previous updates, thereby significantly reducing the implementation cost when deployed in the real-world engineering systems that need to online learn the environment. In spite of the time-varying state distribution and the stochastic bias incurred by the off-policy learning, the SCAOPO with a feasible initial point can still provably converge to a Karush-Kuhn-Tucker (KKT) point of the original problem almost surely.
翻訳日:2021-05-27 13:23:40 公開日:2021-05-26
# ニューラルラジオシティ

Neural Radiosity ( http://arxiv.org/abs/2105.12319v1 )

ライセンス: Link先を確認
Saeed Hadadan, Shuhong Chen, Matthias Zwicker(参考訳) 従来の放射能法と同様に, 残差のノルムを最小化し, レンダリング方程式を解くアルゴリズムであるneural radiosityを導入する。 放射能の手法で用いられる伝統的な基底関数、例えば分割多項式やメッシュレス基底関数は、典型的には拡散面からの等方散乱を表現することに限られる。 代わりに,ニューラルネットワークを用いて4次元放射率分布全体の表現を行い,残差のノルムを最小化するネットワークパラメータを直接最適化することを提案する。 提案手法は,従来のラジオシティ技術と同様のレンダリング画像からレンダリング方程式を分離し,シーンの任意のビューを効率的に合成する。 さらに,従来の手法と比較して解法の収束性を向上させる幾何学習機能を用いたネットワークアーキテクチャを提案する。 提案手法は, 実装が容易なアルゴリズムを導出し, 非拡散面を有する様々なシーンでその効果を実証する。

We introduce Neural Radiosity, an algorithm to solve the rendering equation by minimizing the norm of its residual similar as in traditional radiosity techniques. Traditional basis functions used in radiosity techniques, such as piecewise polynomials or meshless basis functions are typically limited to representing isotropic scattering from diffuse surfaces. Instead, we propose to leverage neural networks to represent the full four-dimensional radiance distribution, directly optimizing network parameters to minimize the norm of the residual. Our approach decouples solving the rendering equation from rendering (perspective) images similar as in traditional radiosity techniques, and allows us to efficiently synthesize arbitrary views of a scene. In addition, we propose a network architecture using geometric learnable features that improves convergence of our solver compared to previous techniques. Our approach leads to an algorithm that is simple to implement, and we demonstrate its effectiveness on a variety of scenes with non-diffuse surfaces.
翻訳日:2021-05-27 13:23:13 公開日:2021-05-26
# 階層型サービスのための畳み込みニューラルネットワークの確率論的選択暗号化

Probabilistic Selective Encryption of Convolutional Neural Networks for Hierarchical Services ( http://arxiv.org/abs/2105.12344v1 )

ライセンス: Link先を確認
Jinyu Tian, Jiantao Zhou, and Jia Duan(参考訳) モデル保護は、商用サービスに畳み込みニューラルネットワーク(CNN)をデプロイする際に必要不可欠である。 本研究では,CNNモデルを不正アクセスから保護するための選択的暗号化(SE)アルゴリズムを提案する。 提案手法はまず,PSS (Probabilistic Selection Strategy) を用いて重要なモデルパラメータを選択する。 次に、分散保存ランダムマスク(dprm)と呼ばれる設計された暗号化手法で最も重要なパラメータを暗号化し、モデルパラメータのごく一部だけを暗号化することで性能低下を最大化する。 我々はまた、重要なモデルパラメータの様々な量を復号化できるアクセス許可のセットを設計する。 したがって、モデルパフォーマンスの異なるレベルをユーザに自然に提供することができる。 提案手法は, 畳み込み層の8%のパラメータを暗号化するだけで, 分類モデルVGG19を効果的に保護できることを示す。 また,提案モデルであるdncnnで提案するモデル保護スキームを実装し,階層的デノージングサービスを示す。

Model protection is vital when deploying Convolutional Neural Networks (CNNs) for commercial services, due to the massive costs of training them. In this work, we propose a selective encryption (SE) algorithm to protect CNN models from unauthorized access, with a unique feature of providing hierarchical services to users. Our algorithm firstly selects important model parameters via the proposed Probabilistic Selection Strategy (PSS). It then encrypts the most important parameters with the designed encryption method called Distribution Preserving Random Mask (DPRM), so as to maximize the performance degradation by encrypting only a very small portion of model parameters. We also design a set of access permissions, using which different amounts of the most important model parameters can be decrypted. Hence, different levels of model performance can be naturally provided for users. Experimental results demonstrate that the proposed scheme could effectively protect the classification model VGG19 by merely encrypting 8% parameters of convolutional layers. We also implement the proposed model protection scheme in the denoising model DnCNN, showcasing the hierarchical denoising services
翻訳日:2021-05-27 13:22:51 公開日:2021-05-26
# 最新の運転支援システムの構成と応用:レビュー

Composition and Application of Current Advanced Driving Assistance System: A Review ( http://arxiv.org/abs/2105.12348v1 )

ライセンス: Link先を確認
Xinran Li, Kuo-Yi Lin, Min Meng, Xiuxian Li, Li Li, Yiguang Hong(参考訳) 運転安全に対する意識の高まりと高度な技術の発展により、advanced driving assistance system (adas) はより精度と低価格の車両に装備されるようになった。 この分野での最近の進歩は、adasの従来の知識、最先端の研究、そして現実世界における新しい応用をまとめたレビューを求めている。 この種のレビューの助けを借りて、この分野の新参者は基本的な知識を手軽に得ることができ、他の研究者は将来の開発の可能性にインスパイアされる可能性がある。 本稿では,そのハードウェアサポートと計算アルゴリズムを分析し,adasについて概説する。 様々な種類の知覚センサが、内部の特徴分類、設置位置、ADAS機能のサポート、およびprosとconsから導入されている。 異なるセンサの比較は、それぞれのadas機能に固有の特徴と特定の用途から結論づけられ、図示される。 従来の手法と斬新なアイデアの両方から,ADAS関数の現在のアルゴリズムを収集し,本論文で簡潔に紹介する。 また、異なる機関によるADASの定義に関する議論を本論文で概説し、特に中国におけるADASに関する今後のアプローチを紹介する。

Due to the growing awareness of driving safety and the development of sophisticated technologies, advanced driving assistance system (ADAS) has been equipped in more and more vehicles with higher accuracy and lower price. The latest progress in this field has called for a review to sum up the conventional knowledge of ADAS, the state-of-the-art researches, and novel applications in real-world. With the help of this kind of review, newcomers in this field can get basic knowledge easier and other researchers may be inspired with potential future development possibility. This paper makes a general introduction about ADAS by analyzing its hardware support and computation algorithms. Different types of perception sensors are introduced from their interior feature classifications, installation positions, supporting ADAS functions, and pros and cons. The comparisons between different sensors are concluded and illustrated from their inherent characters and specific usages serving for each ADAS function. The current algorithms for ADAS functions are also collected and briefly presented in this paper from both traditional methods and novel ideas. Additionally, discussions about the definition of ADAS from different institutes are reviewed in this paper, and future approaches about ADAS in China are introduced in particular.
翻訳日:2021-05-27 13:22:24 公開日:2021-05-26
# 彼らはどうするの? 自己避難アーチタイプをモデル化する

What will they do? Modelling self-evacuation archetypes ( http://arxiv.org/abs/2105.12366v1 )

ライセンス: Link先を確認
Dhirendra Singh and Ken Strahan and Jim McLennan and Joel Robertson and Bhagya Wickramasinghe(参考訳) オーストラリア・ビクトリア州のブラック・サタデー・ブッシュ火災から10年が経ち、市民避難のコンピューターシミュレーションが緊急サービスで使われ始めている。 火災の進行モデリングはビクトリア州中のあらゆるレベルの政府の戦略的および運用的設定に組み込まれているが、そのような火災に対するコミュニティの反応のモデリングは本格的に評価され始めたばかりである。 コミュニティの反応モデルがブッシュファイアの計画と準備に不可欠なものになるためには、対処すべき重要な問題は次のとおりである。 一般的にこの理解は、コミュニティやサービス内のローカルな経験や専門知識から生まれたものだが、よりインフォームドなデータ駆動アプローチに移行する傾向がある。 本稿では,この領域の救急部門における最新の作業について報告する。 特に,Strahanらの応用について論じる。 ビクトリア州における地域避難のエージェントベースモデルへの自己救済アーチタイプ この作業は、いくつかの緊急管理ステークホルダー間のコラボレーションをモデル化する統合的なブッシュファイア避難モデルの一部である。

A decade on from the devastating Black Saturday bushfires in Victoria, Australia, we are at a point where computer simulations of community evacuations are starting to be used within the emergency services. While fire progression modelling is embedded in strategic and operational settings at all levels of government across Victoria, modelling of community response to such fires is only just starting to be evaluated in earnest. For community response models to become integral to bushfire planning and preparedness, the key question to be addressed is: when faced with a bushfire, what will a community really do? Typically this understanding has come from local experience and expertise within the community and services, however the trend is to move towards more informed data driven approaches. In this paper we report on the latest work within the emergency sector in this space. Particularly, we discuss the application of Strahan et al.'s self-evacuation archetypes to an agent-based model of community evacuation in regional Victoria. This work is part of the consolidated bushfire evacuation modelling collaboration between several emergency management stakeholders.
翻訳日:2021-05-27 13:21:55 公開日:2021-05-26
# ライドシェアリングの説明: ユーザ満足度向上のための説明の選択

Explaining Ridesharing: Selection of Explanations for Increasing User Satisfaction ( http://arxiv.org/abs/2105.12500v1 )

ライセンス: Link先を確認
David Zar, Noam Hazon, Amos Azaria(参考訳) 交通サービスは現代のスマートシティの発展において重要な役割を担っている。 特に、同様の経路で乗客をまとめるオンデマンド配車サービスは、既にいくつかの大都市圏で運行されている。 これらのサービスは、交通費、道路渋滞、co2排出量を減らすことで、社会的および環境面で大きな利益を享受できる。 残念なことに、こうしたライドシェアリングサービスを使う人はあまりいない。 サービスからのユーザの満足度を高めることで、より多くの人が利用できるようになると信じており、その結果として、待ち時間、コスト、旅行時間、サービス可用性といったサービスの質が向上するでしょう。 利用者満足度を高める一つの方法は、自家用タクシーや公共交通などの代替交通手段を比較する適切な説明を提供することである。 例えば、プライベートタクシーの乗車に50%以上の費用がかかると言われた場合、乗客はシェアライドに満足するかもしれない。 そのため、ユーザの満足度を高めるための説明を提供するエージェントを開発することが問題となる。 我々は,この環境をシグナリングゲームとしてモデル化し,完全なベイズ均衡に従う有理エージェントが,乗客の代替案に関するすべての情報を明らかにする必要があることを示す。 さらに,その代替案と共有ライドを与えることで,ユーザの満足度を高める可能性のある説明を選択する,機械学習ベースのエージェントを開発した。 人間からのフィードバックを使って、機械学習ベースのエージェントは、ユーザー満足度の観点から、合理的エージェントと説明をランダムに選択するエージェントよりも優れています。

Transportation services play a crucial part in the development of modern smart cities. In particular, on-demand ridesharing services, which group together passengers with similar itineraries, are already operating in several metropolitan areas. These services can be of significant social and environmental benefit, by reducing travel costs, road congestion and CO2 emissions. Unfortunately, despite their advantages, not many people opt to use these ridesharing services. We believe that increasing the user satisfaction from the service will cause more people to utilize it, which, in turn, will improve the quality of the service, such as the waiting time, cost, travel time, and service availability. One possible way for increasing user satisfaction is by providing appropriate explanations comparing the alternative modes of transportation, such as a private taxi ride and public transportation. For example, a passenger may be more satisfied from a shared-ride if she is told that a private taxi ride would have cost her 50% more. Therefore, the problem is to develop an agent that provides explanations that will increase the user satisfaction. We model our environment as a signaling game and show that a rational agent, which follows the perfect Bayesian equilibrium, must reveal all of the information regarding the possible alternatives to the passenger. In addition, we develop a machine learning based agent that, when given a shared-ride along with its possible alternatives, selects the explanations that are most likely to increase user satisfaction. Using feedback from humans we show that our machine learning based agent outperforms the rational agent and an agent that randomly chooses explanations, in terms of user satisfaction.
翻訳日:2021-05-27 13:21:26 公開日:2021-05-26
# 新規選択モナドを用いたシーケンシャルゲームにおける最適戦略の探索

Finding optimal strategies in sequential games with the novel selection monad ( http://arxiv.org/abs/2105.12514v1 )

ライセンス: Link先を確認
Johannes Hartmann(参考訳) 最近発見されたモナド Tx = Selection (x -> r) -> r は、シーケンシャルゲームにおいて最適な戦略を導くエレガントな方法を提供する。 この論文の中で,選択モナドを用いて最適なゲームと逐次ゲームのためのaiを計算する有用な機能セットを提供するライブラリを開発した。 これらのai実装をサポートするための選択モナド機能を検討するために、haskellを使った3つのケーススタディが開発された。 これらのケーススタディは、ゲームAIをエレガントに実装する方法を示している。 さらに、これらのケーススタディのパフォーマンス分析を行い、パフォーマンスを向上させる主要なポイントを特定した。

The recently discovered monad, Tx = Selection (x -> r) -> r, provides an elegant way to finnd optimal strategies in sequential games. During this thesis, a library was developed which provides a set of useful functions using the selection monad to compute optimal games and AIs for sequential games. In order to explore the selection monads ability to support these AI implementations, three example case studies were developed using Haskell: The two-player game Connect Four, a Sudoku solver and a simplified version of Chess. These case studies show how to elegantly implement a game AI. Furthermore, a performance analysis of these case studies was done, identifying the major points where performance can be increased.
翻訳日:2021-05-27 13:20:49 公開日:2021-05-26
# Swarmを作るリーダーの回転するリーダーたち:医療バーチャル・コミュニティにおける成長のソーシャルネットワーク決定要因

It is rotating leaders who build the swarm: social network determinants of growth for healthcare virtual communities of practice ( http://arxiv.org/abs/2105.12659v1 )

ライセンス: Link先を確認
G. Antonacci, A. Fronzetti Colladon, A. Stefanini, P. Gloor(参考訳) 目的:本稿の目的は,ソーシャルネットワークと意味分析の指標を用いて実施した7年間の縦断調査を通じて,医療仮想実践コミュニティ(vcops)の成長に影響を及ぼす要因を明らかにすることである。 ソーシャルインタラクションの3つの側面(コネクティビティ、対話性、言語使用)に沿ってオンラインコミュニケーションを研究することで、VCoPマネージャにコミュニティの成功を改善するための貴重な洞察を提供することを目指している。 設計・方法論・アプローチ: 7年間にわたるコミュニケーション(2008年4月から2015年4月)と、同じWebプラットフォームに共存する16の異なる医療VCoPの14,000人のメンバが分析された。 多段階回帰モデルを用いて、時間とともにコミュニティの成長の主要な要因を明らかにした。 独立変数は、ソーシャルネットワークと意味分析尺度から派生した。 結果: 構造的および内容的変数がコミュニティの成長を予測できることが判明した。 徐々に、その構造がより中央集権化され、リーダーはよりダイナミックになり(それらはより回転する)、投稿で使われる言語はより複雑になる。 研究上の制限/影響: 利用可能なデータセットには1つのWebプラットフォームと限られた数のコントロール変数が含まれていた。 本研究の成果をまとめるためには,実験を他のヘルスケアvcopsで再現する必要がある。 originality/value: この研究は、コミュニティメンバー間のインタラクションパターン、これらのインタラクションのダイナミックな進化、言語の使用を考慮して、プロフェッショナルコミュニティの成長の確立と育成に有用な推奨を提供する。 新たな分析ツールと革新的なインタラクションメトリクスの使用が,リーダシップの回転など,コミュニティの成長に大きな影響を与える可能性がある。

Purpose: The purpose of this paper is to identify the factors influencing the growth of healthcare virtual communities of practice (VCoPs) through a seven-year longitudinal study conducted using metrics from social-network and semantic analysis. By studying online communication along the three dimensions of social interactions (connectivity, interactivity and language use), the authors aim to provide VCoP managers with valuable insights to improve the success of their communities. Design/methodology/approach: Communications over a period of seven years (April 2008 to April 2015) and between 14,000 members of 16 different healthcare VCoPs coexisting on the same web platform were analysed. Multilevel regression models were used to reveal the main determinants of community growth over time. Independent variables were derived from social network and semantic analysis measures. Findings: Results show that structural and content-based variables predict the growth of the community. Progressively, more people will join a community if its structure is more centralised, leaders are more dynamic (they rotate more) and the language used in the posts is less complex. Research limitations/implications: The available data set included one Web platform and a limited number of control variables. To consolidate the findings of the present study, the experiment should be replicated on other healthcare VCoPs. Originality/value: The study provides useful recommendations for setting up and nurturing the growth of professional communities, considering, at the same time, the interaction patterns among the community members, the dynamic evolution of these interactions and the use of language. New analytical tools are presented, together with the use of innovative interaction metrics, that can significantly influence community growth, such as rotating leadership.
翻訳日:2021-05-27 13:19:45 公開日:2021-05-26
# ドイツ語音声認識における音韻変換のためのマルチタスク学習

Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech Recognition ( http://arxiv.org/abs/2105.12708v1 )

ライセンス: Link先を確認
Julia Pritzen, Michael Gref, Christoph Schmidt, Dietlind Z\"uhlke(参考訳) 英語のような借用語は、ドイツ語の音声認識における課題である。 ドイツ語の単語に比べて不規則な発音のため、自動生成された発音辞書は、しばしばアングリシズムの誤り音素配列を含む。 本稿では,グラニュムから音素への変換のためのマルチタスクシーケンスからシーケンスへのアプローチを提案し,アングリシズムの音声化を改善する。 英語とドイツ語の単語を区別する分類器を用いて,音素から音素へのグラフモデルを拡張した。 このアプローチでは、分類結果に応じて異なる発音を生成することを学習する。 既存のドイツ語音声認識モデルに付加された補足的英語発音辞書の作成に本モデルを用いた。 専用のアングリシズム評価セットを用いて,ベースラインモデルと比較してアングリシズムの認識を改善し,単語誤り率を1%,アングリシズムエラー率を3%削減した。 マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。

Loanwords, such as Anglicisms, are a challenge in German speech recognition. Due to their irregular pronunciation compared to native German words, automatically generated pronunciation dictionaries often include faulty phoneme sequences for Anglicisms. In this work, we propose a multitask sequence-to-sequence approach for grapheme-to-phoneme conversion to improve the phonetization of Anglicisms. We extended a grapheme-to-phoneme model with a classifier to distinguish Anglicisms from native German words. With this approach, the model learns to generate pronunciations differently depending on the classification result. We used our model to create supplementary Anglicism pronunciation dictionaries that are added to an existing German speech recognition model. Tested on a dedicated Anglicism evaluation set, we improved the recognition of Anglicisms compared to a baseline model, reducing the word error rate by 1 % and the Anglicism error rate by 3 %. We show that multitask learning can help solving the challenge of loanwords in German speech recognition.
翻訳日:2021-05-27 13:19:02 公開日:2021-05-26
# cbanet:単一ネットワークを用いた複雑化とビットレート適応型深部画像圧縮

CBANet: Towards Complexity and Bitrate Adaptive Deep Image Compression using a Single Network ( http://arxiv.org/abs/2105.12386v1 )

ライセンス: Link先を確認
Jinyang Guo, Dong Xu, Guo Lu(参考訳) 本稿では,異なる計算量制約下で可変ビットレート符号化をサポートするために,単一のネットワークを学習することを目的とした,cbanetと呼ばれる新しい深層画像圧縮フレームワークを提案する。 既存の最先端学習ベースの画像圧縮フレームワークとは対照的に,計算複雑性に関する制約を導入することなく,レートゆがみトレードオフのみを考慮し,動的計算複雑性制約下でのレートと歪みのトレードオフを検討する。 具体的には,1つのデコーダで画像のデコードを行うために,各ブランチがデコーダの計算予算のごく一部だけを取る,新しいマルチブランチ複雑性適応モジュールを提案する。 異なる枝数を用いて、視覚的品質の異なる再構成画像を容易に生成することができる。 さらに,1つのデコーダを用いて可変ビットレート復号化を実現するため,送信対象ビットレートにおいて,ベースビットレートから期待表現へ表現を投影するビットレート適応モジュールを提案する。 そして、送信された表現を対象ビットレートに投影し、デコード処理のベースビットレートに戻す。 提案したビット適応モジュールは,デプロイメントプラットフォームのストレージ要件を大幅に削減することができる。 その結果、CBANetは1つの1つのコーデックで、様々な計算複雑性制約の下で複数のビットレートデコーディングをサポートできます。 2つのベンチマークデータセットに関する総合的な実験は、深部画像圧縮におけるCBANetの有効性を示す。

In this paper, we propose a new deep image compression framework called Complexity and Bitrate Adaptive Network (CBANet), which aims to learn one single network to support variable bitrate coding under different computational complexity constraints. In contrast to the existing state-of-the-art learning based image compression frameworks that only consider the rate-distortion trade-off without introducing any constraint related to the computational complexity, our CBANet considers the trade-off between the rate and distortion under dynamic computational complexity constraints. Specifically, to decode the images with one single decoder under various computational complexity constraints, we propose a new multi-branch complexity adaptive module, in which each branch only takes a small portion of the computational budget of the decoder. The reconstructed images with different visual qualities can be readily generated by using different numbers of branches. Furthermore, to achieve variable bitrate decoding with one single decoder, we propose a bitrate adaptive module to project the representation from a base bitrate to the expected representation at a target bitrate for transmission. Then it will project the transmitted representation at the target bitrate back to that at the base bitrate for the decoding process. The proposed bit adaptive module can significantly reduce the storage requirement for deployment platforms. As a result, our CBANet enables one single codec to support multiple bitrate decoding under various computational complexity constraints. Comprehensive experiments on two benchmark datasets demonstrate the effectiveness of our CBANet for deep image compression.
翻訳日:2021-05-27 13:17:53 公開日:2021-05-26
# 胸部疾患分類における肺と心臓領域の重み付け特徴

Weighing Features of Lung and Heart Regions for Thoracic Disease Classification ( http://arxiv.org/abs/2105.12430v1 )

ライセンス: Link先を確認
Jiansheng Fang, Yanwu Xu, Yitian Zhao, Yuguang Yan, Junling Liu and Jiang Liu(参考訳) 胸部X線は胸部疾患のスクリーニングにおいて最も一般的で安価な放射線検査である。 胸部x線スクリーニング領域の知識によれば、病理情報は通常は肺と心臓の領域に置かれる。 しかし、実際に領域レベルのアノテーションを取得するのはコストがかかるため、モデルトレーニングは主に画像レベルのクラスラベルに依存しており、コンピュータ支援胸部X線スクリーニングでは極めて困難である。 この問題を解決するために, 胸部疾患分類に不可欠な病理情報を含む地域を特定する手法が近年提案されている。 そこで本研究では,肺および心臓領域からの識別情報を探索する新しい深層学習フレームワークを提案する。 我々は,グローバル画像からグローバルアテンションマップを学ぶために,マルチスケールアテンションモジュールを備えた特徴抽出器を設計する。 疾患特異的な手がかりを効果的に活用するために,よく訓練されたピクセルワイドセグメンテーションモデルを用いて病理情報を含む肺と心臓の領域を特定し,バイナライズマスクを生成する。 学習したグローバルアテンションマップとバイナライズマスクに要素的論理的および演算子を導入することにより,各画素が肺および心臓領域に対して1ドル,他領域に対して0ドルとなる局所アテンションマップを得る。 アテンションマップにおける非肺および心臓領域の特徴をゼロにすることで、肺および心臓領域における疾患特異的な手がかりを効果的に活用することができる。 グローバルとローカルの特徴を融合させる既存の手法と比較して,肺や心臓に特有の視覚手がかりを弱めるのを避けるため,特徴重み付けを採用する。 胸部X-ray14データセットのベンチマーク分割により,本手法が最先端の手法と比較して優れた性能を発揮することを示す。

Chest X-rays are the most commonly available and affordable radiological examination for screening thoracic diseases. According to the domain knowledge of screening chest X-rays, the pathological information usually lay on the lung and heart regions. However, it is costly to acquire region-level annotation in practice, and model training mainly relies on image-level class labels in a weakly supervised manner, which is highly challenging for computer-aided chest X-ray screening. To address this issue, some methods have been proposed recently to identify local regions containing pathological information, which is vital for thoracic disease classification. Inspired by this, we propose a novel deep learning framework to explore discriminative information from lung and heart regions. We design a feature extractor equipped with a multi-scale attention module to learn global attention maps from global images. To exploit disease-specific cues effectively, we locate lung and heart regions containing pathological information by a well-trained pixel-wise segmentation model to generate binarization masks. By introducing element-wise logical AND operator on the learned global attention maps and the binarization masks, we obtain local attention maps in which pixels are $1$ for lung and heart region and $0$ for other regions. By zeroing features of non-lung and heart regions in attention maps, we can effectively exploit their disease-specific cues in lung and heart regions. Compared to existing methods fusing global and local features, we adopt feature weighting to avoid weakening visual cues unique to lung and heart regions. Evaluated by the benchmark split on the publicly available chest X-ray14 dataset, the comprehensive experiments show that our method achieves superior performance compared to the state-of-the-art methods.
翻訳日:2021-05-27 13:17:15 公開日:2021-05-26
# 自律型ドローンナビゲーションのための複数ステレオビジョンカメラ設計の利点について

On the Advantages of Multiple Stereo Vision Camera Designs for Autonomous Drone Navigation ( http://arxiv.org/abs/2105.12691v1 )

ライセンス: Link先を確認
Rui Pimentel de Figueiredo, Jakob Grimm Hansen, Jonas Le Fevre, Martim Brand\~ao, Erdal Kayacan(参考訳) 本研究では,自律ナビゲーションのための最先端計画およびマッピングアルゴリズムと組み合わせたマルチカメラUAVの性能設計と評価について紹介する。 このシステムは、再構成可能なマルチステレオカメラシステムによって提供される3Dおよび意味情報を備えたNext-Best-View (NBV)計画のための最先端の水平探査技術を活用する。 我々は、自律ドローンによる検査タスクにアプローチを採用し、自律的な探索とマッピングのシナリオでそれらを評価します。 本稿では,マルチステレオカメラ飛行システムの利点と限界,およびカメラ数とマッピング性能のトレードオフについて論じる。

In this work we showcase the design and assessment of the performance of a multi-camera UAV, when coupled with state-of-the-art planning and mapping algorithms for autonomous navigation. The system leverages state-of-the-art receding horizon exploration techniques for Next-Best-View (NBV) planning with 3D and semantic information, provided by a reconfigurable multi stereo camera system. We employ our approaches in an autonomous drone-based inspection task and evaluate them in an autonomous exploration and mapping scenario. We discuss the advantages and limitations of using multi stereo camera flying systems, and the trade-off between number of cameras and mapping performance.
翻訳日:2021-05-27 13:16:28 公開日:2021-05-26
# 期待値を用いた高次元回帰のためのアルゴリズムに基づく多重検出影響尺度

An algorithm-based multiple detection influence measure for high dimensional regression using expectile ( http://arxiv.org/abs/2105.12286v1 )

ライセンス: Link先を確認
Amadou Barry, Nikhil Bhagwat, Bratislav Misic, Jean-Baptiste Poline and Celia M. T. Greenwood(参考訳) 影響観測の同定は、偏りのある推定器から引き出された誤った結論を防止できるデータ分析の重要な部分である。 しかし、高次元データでは、この識別は困難である。 古典的および最近開発された手法は、同じデータセットに複数の影響のある観測がある場合、しばしば性能が良くない。 特に、現在の方法では、同様の特性を持ついくつかの影響観測を隠蔽している場合や、よく観測された観測によって広がる空間の境界付近にある影響観測が湿地を覆っている場合に失敗することがある。 そこで本研究では,現在の限界に対処する影響のある観測を識別するための,アルゴリズムに基づく多段階多重検出手法を提案する。 データ中の望ましくない変動を識別し、キャプチャする3段階のアルゴリズム、$\asymmip,$は、非対称相関にインスパイアされた2つの補完的な統計に基づいており、期待値に基づいている。 シミュレーションは競合する手法よりも高い検出力を示す。 結果として生じる漸近分布の使用は、ブートストラップのような計算的に要求される手順を必要とせずに、影響のある観測を検知する。 自閉症脳画像データ交換ニューロイメージングデータセットへの本手法の適用により、皮質厚みに基づくよりバランスよく正確な脳成熟度予測が可能となった。 github for a free r package that implements our algorithm: \texttt{asymmip} (\url{github.com/ambarry/hidetify})を参照。

The identification of influential observations is an important part of data analysis that can prevent erroneous conclusions drawn from biased estimators. However, in high dimensional data, this identification is challenging. Classical and recently-developed methods often perform poorly when there are multiple influential observations in the same dataset. In particular, current methods can fail when there is masking several influential observations with similar characteristics, or swamping when the influential observations are near the boundary of the space spanned by well-behaved observations. Therefore, we propose an algorithm-based, multi-step, multiple detection procedure to identify influential observations that addresses current limitations. Our three-step algorithm to identify and capture undesirable variability in the data, $\asymMIP,$ is based on two complementary statistics, inspired by asymmetric correlations, and built on expectiles. Simulations demonstrate higher detection power than competing methods. Use of the resulting asymptotic distribution leads to detection of influential observations without the need for computationally demanding procedures such as the bootstrap. The application of our method to the Autism Brain Imaging Data Exchange neuroimaging dataset resulted in a more balanced and accurate prediction of brain maturity based on cortical thickness. See our GitHub for a free R package that implements our algorithm: \texttt{asymMIP} (\url{github.com/AmBarry/hidetify}).
翻訳日:2021-05-27 13:16:07 公開日:2021-05-26
# 演算子オートエンコーダ:符号化された分子グラフによる物理操作の学習

Operator Autoencoders: Learning Physical Operations on Encoded Molecular Graphs ( http://arxiv.org/abs/2105.12295v1 )

ライセンス: Link先を確認
Willis Hoke, Daniel Shea, and Stephen Casey(参考訳) 分子動力学シミュレーションは複雑な非線形力学を持つデータを生成する。 そのような動的システムの時間ステップの挙動を線形作用素で表すことができれば、将来の状態は高価なシミュレーションなしで直接推測できる。 オートエンコーダと物理時間ステップ演算子を組み合わせることで、分子グラフの関連する構造的特徴と、トレーニングプロセス中にシステムの基礎となる物理学の両方を分離することができる。 本研究では,分子動力学シミュレーションから時系列容積データのグラフ構造表現を構築するパイプラインを開発する。 次に、オートエンコーダをトレーニングし、オートエンコーダで訓練された線形作用素の適用により、将来のタイムステップを予測する潜在空間への非線形写像を求める。 オートエンコーダ出力の寸法を増加させることにより、物理時間ステップ演算子の精度を向上させる。

Molecular dynamics simulations produce data with complex nonlinear dynamics. If the timestep behavior of such a dynamic system can be represented by a linear operator, future states can be inferred directly without expensive simulations. The use of an autoencoder in combination with a physical timestep operator allows both the relevant structural characteristics of the molecular graphs and the underlying physics of the system to be isolated during the training process. In this work, we develop a pipeline for establishing graph-structured representations of time-series volumetric data from molecular dynamics simulations. We then train an autoencoder to find nonlinear mappings to a latent space where future timesteps can be predicted through application of a linear operator trained in tandem with the autoencoder. Increasing the dimensionality of the autoencoder output is shown to improve the accuracy of the physical timestep operator.
翻訳日:2021-05-27 13:14:26 公開日:2021-05-26
# TreeBERT: プログラミング言語のためのツリーベース事前訓練モデル

TreeBERT: A Tree-Based Pre-Trained Model for Programming Language ( http://arxiv.org/abs/2105.12485v1 )

ライセンス: Link先を確認
Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu(参考訳) ソースコードは定義された構文規則に基づいて抽象構文木(AST)に解析できる。 しかし,事前学習では,木構造を学習プロセスに組み込む研究はほとんど行われていない。 本稿では,プログラム言語指向生成タスクを改善するツリーベース事前学習モデルであるTreeBERTを提案する。 ツリー構造を利用するために、TreeBERTはコードに対応するASTを合成パスのセットとして表現し、ノード位置の埋め込みを導入する。 このモデルは,木面言語モデリング (TMLM) とノード順序予測 (NOP) をハイブリッド目的として訓練する。 TMLMは、ツリーの特性に応じて設計された新しいマスキング戦略を使用して、モデルがASTを理解し、ASTの欠落したセマンティクスを推測するのに役立つ。 NOPでは、TreeBERTはAST内のノードの順序制約を学習することで、構文構造を抽出する。 複数のプログラミング言語をカバーするデータセット上でTreeBERTを事前訓練した。 コード要約とコードドキュメンテーションタスクでは、TreeBERTは他のトレーニング済みモデルやこれらのタスク用に設計された最先端モデルよりも優れています。 さらに、TreeBERTは、事前訓練された未学習のプログラミング言語に移行すると、うまく機能する。

Source code can be parsed into the abstract syntax tree (AST) based on defined syntax rules. However, in pre-training, little work has considered the incorporation of tree structure into the learning process. In this paper, we present TreeBERT, a tree-based pre-trained model for improving programming language-oriented generation tasks. To utilize tree structure, TreeBERT represents the AST corresponding to the code as a set of composition paths and introduces node position embedding. The model is trained by tree masked language modeling (TMLM) and node order prediction (NOP) with a hybrid objective. TMLM uses a novel masking strategy designed according to the tree's characteristics to help the model understand the AST and infer the missing semantics of the AST. With NOP, TreeBERT extracts the syntactical structure by learning the order constraints of nodes in AST. We pre-trained TreeBERT on datasets covering multiple programming languages. On code summarization and code documentation tasks, TreeBERT outperforms other pre-trained models and state-of-the-art models designed for these tasks. Furthermore, TreeBERT performs well when transferred to the pre-trained unseen programming language.
翻訳日:2021-05-27 13:14:05 公開日:2021-05-26
# リンク予測における語彙外実体

Out-of-Vocabulary Entities in Link Prediction ( http://arxiv.org/abs/2105.12524v1 )

ライセンス: Link先を確認
Caglar Demir and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフの埋め込み技術は、ベクトル表現に基づく機械学習アプローチの多元性に相応しい知識グラフを作るための鍵となる。 リンク予測はしばしば、これらの埋め込みの品質を評価するプロキシとして使用される。 リンク予測のためのベンチマークの作成が時間を要する作業であることを考えると、この問題に関するほとんどの研究はほんの数ベンチマークしか使っていない。 ベンチマークはアルゴリズムの公正な比較に不可欠であるため、それらの品質を保証することは、リンク予測とipsoファクト埋め込み知識グラフのためのより良いソリューションを開発するための確固たる基盤となる。 ベンチマークの最初の研究は、開発からいくつかのベンチマークデータセットのテストフラグメントにリークする情報に関する制限を指摘した。 我々は、リンク予測アプローチの評価によく使われる3つのベンチマークのうち、テストおよび検証セットの語彙外エンティティのより一般的な制限を発見した。 このようなエンティティを検出・削除するアプローチの実装と、データセット wn18rr, fb15k-237, yago3-10 の修正版を提供する。 WN18RR, FB15K-237, YAGO3-10の補正版について行った実験から, 最先端手法の計測性能は, p値<1%, <1.4%, <1%で有意に変化したことが示唆された。 総じて、wn18rrのすべての指標において、最先端のアプローチは平均で3.29 \pm 0.24\%$である。 これは、以前の作品で達成された結論のいくつかを再考する必要があることを意味する。 実験と修正データセットをhttps://github.com/dice-group/OOV-In-Link-Predictionで公開しています。

Knowledge graph embedding techniques are key to making knowledge graphs amenable to the plethora of machine learning approaches based on vector representations. Link prediction is often used as a proxy to evaluate the quality of these embeddings. Given that the creation of benchmarks for link prediction is a time-consuming endeavor, most work on the subject matter uses only a few benchmarks. As benchmarks are crucial for the fair comparison of algorithms, ensuring their quality is tantamount to providing a solid ground for developing better solutions to link prediction and ipso facto embedding knowledge graphs. First studies of benchmarks pointed to limitations pertaining to information leaking from the development to the test fragments of some benchmark datasets. We spotted a further common limitation of three of the benchmarks commonly used for evaluating link prediction approaches: out-of-vocabulary entities in the test and validation sets. We provide an implementation of an approach for spotting and removing such entities and provide corrected versions of the datasets WN18RR, FB15K-237, and YAGO3-10. Our experiments on the corrected versions of WN18RR, FB15K-237, and YAGO3-10 suggest that the measured performance of state-of-the-art approaches is altered significantly with p-values <1%, <1.4%, and <1%, respectively. Overall, state-of-the-art approaches gain on average absolute $3.29 \pm 0.24\%$ in all metrics on WN18RR. This means that some of the conclusions achieved in previous works might need to be revisited. We provide an open-source implementation of our experiments and corrected datasets at at https://github.com/dice-group/OOV-In-Link-Prediction.
翻訳日:2021-05-27 13:13:38 公開日:2021-05-26
# ローカル、グローバル、スケールに依存したノードの役割

Local, global and scale-dependent node roles ( http://arxiv.org/abs/2105.12598v1 )

ライセンス: Link先を確認
Michael Scholkemper and Michael T. Schaub(参考訳) 本論文は,ソーシャル・ネットワーク分析において最初に出現した構造同値や自己同型同値といったノード同値の概念を再検討し,社会システムにおけるアクタの役割を特徴付けるものであるが,それ以来,グラフベースの学習タスクには独立した関心が寄せられている。 伝統的に、そのような正確なノード等価性は、ノードの1つのホップ近傍または大域グラフ構造によって定義される。 ここでは、ノードロールを割り当てるときに、ノードのegoネットワークがどの距離で考慮されるべきかを記述するスケールパラメータで、正確なノードロールを形式化します。 本研究では, 深さ3 または 4 のロールが, ノード分類タスクを高精度に実行するのに十分な情報を持っていることを示す数値実験を行う。 これらの知見は, 比較的小さな近傍サイズに対して, ノード特徴を(非)監督的に非線形に集約することにより, 埋め込みの観点から近似ノードの役割を計算するグラフ学習手法の成功を裏付けるものである。 実際、我々の考えに基づいて、最近のグラフニューラルネットワークアーキテクチャと同等の結果を達成する浅い分類器を構築することができる。

This paper re-examines the concept of node equivalences like structural equivalence or automorphic equivalence, which have originally emerged in social network analysis to characterize the role an actor plays within a social system, but have since then been of independent interest for graph-based learning tasks. Traditionally, such exact node equivalences have been defined either in terms of the one hop neighborhood of a node, or in terms of the global graph structure. Here we formalize exact node roles with a scale-parameter, describing up to what distance the ego network of a node should be considered when assigning node roles - motivated by the idea that there can be local roles of a node that should not be determined by nodes arbitrarily far away in the network. We present numerical experiments that show how already "shallow" roles of depth 3 or 4 carry sufficient information to perform node classification tasks with high accuracy. These findings corroborate the success of recent graph-learning approaches that compute approximate node roles in terms of embeddings, by nonlinearly aggregating node features in an (un)supervised manner over relatively small neighborhood sizes. Indeed, based on our ideas we can construct a shallow classifier achieving on par results with recent graph neural network architectures.
翻訳日:2021-05-27 13:12:57 公開日:2021-05-26
# 修飾分子表現を用いた深層学習モデルによる有機分子の水溶性予測

Predicting Aqueous Solubility of Organic Molecules Using Deep Learning Models with Varied Molecular Representations ( http://arxiv.org/abs/2105.12638v1 )

ライセンス: Link先を確認
Gihan Panapitiya, Michael Girard, Aaron Hollas, Vijay Murugesan, Wei Wang, Emily Saldanha(参考訳) 分子の水溶性を決定することは、多くの医薬品、環境、エネルギー貯蔵用途において重要なステップである。 数十年にわたる努力にもかかわらず、これらのアプリケーションの多くに十分な精度を持つ溶解度予測モデルの開発には依然として課題がある。 本研究の目的は,幅広い有機分子の溶解度を予測できる汎用モデルを開発することである。 Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. 分子ディスクリプタを用いたモデルでは,GNNモデルでも優れた性能が得られた。 モデル性能に影響を与える分子特性を理解し,どの分子構造に関する情報が最も価値があるかを理解するために特徴解析を行い,モデル性能に対するデータ可用性の影響を理解するために,転送学習とデータサイズ研究を行う。

Determining the aqueous solubility of molecules is a vital step in many pharmaceutical, environmental, and energy storage applications. Despite efforts made over decades, there are still challenges associated with developing a solubility prediction model with satisfactory accuracy for many of these applications. The goal of this study is to develop a general model capable of predicting the solubility of a broad range of organic molecules. Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. We find that models using molecular descriptors achieve the best performance, with GNN models also achieving good performance. We perform extensive error analysis to understand the molecular properties that influence model performance, perform feature analysis to understand which information about molecular structure is most valuable for prediction, and perform a transfer learning and data size study to understand the impact of data availability on model performance.
翻訳日:2021-05-27 13:12:23 公開日:2021-05-26
# 構造因果モデルの興味深いパラメータ

Intriguing Parameters of Structural Causal Models ( http://arxiv.org/abs/2105.12697v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami and Kristian Kersting(参考訳) 近年,特に深層ニューラルネットワークにおいて,敵対的攻撃に注目が集まっている。 ここでは、それらは自然界においてより一般的であり、例えば任意の微分可能な摂動オプティマイザのようなより大きなモデルのクラスに容易に影響を及ぼすことができると論じる。 さらに,このような攻撃はドメイン内の隠れた共同創設者によって決定され,その攻撃と因果関係の間に新たなつながりが生まれることを示した。 この因果的視点の確立は、構造的因果モデルのデータ生成プロセスがその後の最適化に与える影響によって特徴付けられる。 本稿では,エネルギー系の線形割当,最短経路,実世界問題という3つの組合せ最適化問題に対するパラメータの存在を明らかにする。 また, 本実験では, 微分可能な摂動オプティマイザに対するこれらの攻撃による不安な結果も明らかにし, 結果の致命的な重要性を浮き彫りにする。

In recent years there has been a lot of focus on adversarial attacks, especially on deep neural networks. Here, we argue that they are more general in nature and can easily affect a larger class of models, e.g., any differentiable perturbed optimizers. We further show that such attacks can be determined by the hidden confounders in a domain, thus drawing a novel connection between such attacks and causality. Establishing this causal perspective is characterized by the influence of the structural causal model's data generating process on the subsequent optimization thereby exhibiting intriguing parameters of the former. We reveal the existence of such parameters for three combinatorial optimization problems, namely linear assignment, shortest path and a real world problem of energy systems. Our empirical examination also unveils worrisome consequences of these attacks on differentiable perturbed optimizers thereby highlighting the criticality of our findings.
翻訳日:2021-05-27 13:11:54 公開日:2021-05-26
# マルコフジャンプ系に対する同値な二次制御

Certainty Equivalent Quadratic Control for Markov Jump Systems ( http://arxiv.org/abs/2105.12358v1 )

ライセンス: Link先を確認
Zhe Du, Yahya Sattar, Davoud Ataee Tarzanagh, Laura Balzano, Samet Oymak and Necmiye Ozay(参考訳) 現実世界の制御アプリケーションは、しばしば突然の変化や変動を伴う複雑なダイナミクスを伴う。 markov jump linear systems (mjs)は、そのようなダイナミクスをモデリングするためのリッチなフレームワークを提供する。 広範な歴史にもかかわらず、MJS制御のパラメータ感度に関する理論的理解は幾らか欠如している。 そこで本研究では,2次コスト関数を持つMJSのモデルベース最適制御のロバスト性について検討する。 系行列とマルコフ遷移行列における不確実性がそれぞれ$\epsilon$ と $\eta$ で区切られていると仮定すると、(i)結合リッカティ方程式に対する解と(ii)最適コストに対して、それぞれ$\mathcal{o}(\epsilon + \eta)$ と$\mathcal{o}((\epsilon + \eta)^2) で崩壊する明示的な摂動境界を与えることによって、ロバストネスの結果が確立される。

Real-world control applications often involve complex dynamics subject to abrupt changes or variations. Markov jump linear systems (MJS) provide a rich framework for modeling such dynamics. Despite an extensive history, theoretical understanding of parameter sensitivities of MJS control is somewhat lacking. Motivated by this, we investigate robustness aspects of certainty equivalent model-based optimal control for MJS with quadratic cost function. Given the uncertainty in the system matrices and in the Markov transition matrix is bounded by $\epsilon$ and $\eta$ respectively, robustness results are established for (i) the solution to coupled Riccati equations and (ii) the optimal cost, by providing explicit perturbation bounds which decay as $\mathcal{O}(\epsilon + \eta)$ and $\mathcal{O}((\epsilon + \eta)^2)$ respectively.
翻訳日:2021-05-27 13:10:25 公開日:2021-05-26
# 深層畳み込みニューラルネットワークを用いた音声分類とタグ付けのための受容場正規化手法

Receptive Field Regularization Techniques for Audio Classification and Tagging with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2105.12395v1 )

ライセンス: Link先を確認
Khaled Koutini, Hamid Eghbal-zadeh, Gerhard Widmer(参考訳) 本稿では,様々な音声タスクにおいて,よく知られた畳み込みニューラルネットワーク(CNN)アーキテクチャの性能について検討する。 CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。 不十分なrfは、cnnのトレーニングデータに適合する能力を制限する。 対照的に、過剰なrfを持つcnnはトレーニングデータに過度に適合し、見えないテストデータに一般化できない傾向がある。 最先端のCNNアーキテクチャでは、コンピュータビジョンやその他のドメインがレイヤーの数でより深くなり、RFサイズが大きくなるため、複数のオーディオ分類やタグ付けタスクのパフォーマンスが低下する。 我々は、よく知られたCNNアーキテクチャとそのビルディングブロックが受容領域に与える影響について研究する。 本研究では,cnnのrf制御を体系的に行う手法を提案し,様々な音声分類やタギングタスク,データセット上での結果アーキテクチャを体系的にテストする。 実験により,提案手法を用いてCNNのRFを正則化することにより,大規模データセット上でのモデルの一般化,より優れた複雑なアーキテクチャ,事前学習モデルを大幅に改善できることが示された。 提案したCNNは,複数の課題(DCASE,MediaEval)において,音響シーンの分類から音楽の感情検出,主題認識,楽器認識に至るまで,複数のタスクにおいて最先端の成果を達成している。

In this paper, we study the performance of variants of well-known Convolutional Neural Network (CNN) architectures on different audio tasks. We show that tuning the Receptive Field (RF) of CNNs is crucial to their generalization. An insufficient RF limits the CNN's ability to fit the training data. In contrast, CNNs with an excessive RF tend to over-fit the training data and fail to generalize to unseen testing data. As state-of-the-art CNN architectures-in computer vision and other domains-tend to go deeper in terms of number of layers, their RF size increases and therefore they degrade in performance in several audio classification and tagging tasks. We study well-known CNN architectures and how their building blocks affect their receptive field. We propose several systematic approaches to control the RF of CNNs and systematically test the resulting architectures on different audio classification and tagging tasks and datasets. The experiments show that regularizing the RF of CNNs using our proposed approaches can drastically improve the generalization of models, out-performing complex architectures and pre-trained models on larger datasets. The proposed CNNs achieve state-of-the-art results in multiple tasks, from acoustic scene classification to emotion and theme detection in music to instrument recognition, as demonstrated by top ranks in several pertinent challenges (DCASE, MediaEval).
翻訳日:2021-05-27 13:09:55 公開日:2021-05-26
# 限られた知識を持つグラフ埋め込みモデルにおける逆攻撃フレームワーク

Adversarial Attack Framework on Graph Embedding Models with Limited Knowledge ( http://arxiv.org/abs/2105.12419v1 )

ライセンス: Link先を確認
Heng Chang, Yu Rong, Tingyang Xu, Wenbing Huang, Honglei Zhang, Peng Cui, Xin Wang, Wenwu Zhu, Junzhou Huang(参考訳) 学術分野と産業分野の両方におけるグラフ埋め込みモデルの成功により、グラフ埋め込みの頑健性は必然的にグラフ学習において重要な問題となる。 既存の作業は、通常、ホワイトボックス方式で攻撃を行う: 敵の損失を構築するには、予測やラベルにアクセスする必要がある。 しかし、予測/ラベルが使えないため、実際のグラフ学習システムではホワイトボックス攻撃は現実的ではない。 この論文は、現在のフレームワークをより汎用的で柔軟な意味で推進し、ブラックボックス駆動の様々なグラフ埋め込みモデルに対処する必要がある。 グラフ信号処理とグラフ埋め込みモデルの間の理論的関係を考察し,グラフ埋め込みモデルをグラフフィルタを用いた一般グラフ信号処理として定式化する。 そこで我々は、汎用的な敵攻撃機GF-Attackを設計する。 ラベルやモデル予測にアクセスせずに、GF-Attackはブラックボックス方式でグラフフィルタに直接攻撃を実行することができる。 さらに,GF-Attackがグラフ埋め込みモデルの層数を知ることなく効果的に攻撃できることを示す。 GF-Attackの一般化を検証するため、4つのグラフ埋め込みモデル上で攻撃者を構成する。 複数のベンチマークデータセットに対するGF-Attackの有効性を検証する。

With the success of the graph embedding model in both academic and industry areas, the robustness of graph embedding against adversarial attack inevitably becomes a crucial problem in graph learning. Existing works usually perform the attack in a white-box fashion: they need to access the predictions/labels to construct their adversarial loss. However, the inaccessibility of predictions/labels makes the white-box attack impractical to a real graph learning system. This paper promotes current frameworks in a more general and flexible sense -- we demand to attack various kinds of graph embedding models with black-box driven. We investigate the theoretical connections between graph signal processing and graph embedding models and formulate the graph embedding model as a general graph signal process with a corresponding graph filter. Therefore, we design a generalized adversarial attacker: GF-Attack. Without accessing any labels and model predictions, GF-Attack can perform the attack directly on the graph filter in a black-box fashion. We further prove that GF-Attack can perform an effective attack without knowing the number of layers of graph embedding models. To validate the generalization of GF-Attack, we construct the attacker on four popular graph embedding models. Extensive experiments validate the effectiveness of GF-Attack on several benchmark datasets.
翻訳日:2021-05-27 13:09:21 公開日:2021-05-26
# 大規模レコメンデーションモデル推論を満足する低精度ハードウェアアーキテクチャ

Low-Precision Hardware Architectures Meet Recommendation Model Inference at Scale ( http://arxiv.org/abs/2105.12676v1 )

ライセンス: Link先を確認
Zhaoxia (Summer) Deng, Jongsoo Park, Ping Tak Peter Tang, Haixin Liu, Jie (Amy) Yang, Hector Yuen, Jianyu Huang, Daya Khudia, Xiaohan Wei, Ellie Wen, Dhruv Choudhary, Raghuraman Krishnamoorthi, Carole-Jean Wu, Satish Nadathur, Changkyu Kim, Maxim Naumov, Sam Naghshineh, Mikhail Smelyanskiy(参考訳) 機械学習(ML)の急激な成功と、MLモデルの複雑さの未完成な成長は、モデル推論を高速化するために、CPUとアクセラレータアーキテクチャの両方において、ML固有の多くの設計を動機づけた。 これらのアーキテクチャは多様であるが、高度に最適化された低精度算術は多くが共有するコンポーネントである。 印象的な計算スループットは、しばしばこれらのアーキテクチャによってベンチマークMLモデルで示される。 それでも、facebookのパーソナライズサービスにとって重要なレコメンデーションシステムのようなプロダクションモデルが要求され複雑である。これらのシステムは、推論毎に数十億のパラメータを持つ計算にもかかわらず、高い予測精度を維持しながら、低レイテンシで毎月数十億のユーザを応答的に提供しなければならない。 これらの低精度アーキテクチャは、当社の製品レコメンデーションシステムとうまく機能するのか? そうです。 しかし、大きな努力がなければ。 本稿では,低精度ハードウェアへの参照レコメンデーションモデルの適用,低精度コンピューティングカーネルの最適化,およびトピックトレンドやユーザの関心が必然的に進化する期間を通じて,モデルの精度を維持するためのツールチェーンの設計と開発について紹介する。 これらの低精度技術の実践は、従来の汎用CPUにデプロイされない最大5倍の複雑さのモデルをデプロイしながら、データセンタの容量の削減に役立ちました。 これらの教訓は、ハードウェアアーキテクチャとソフトウェアエンジニアリングのより良い共同設計を促進し、業界におけるMLの最先端を後押しするものだと考えています。

Tremendous success of machine learning (ML) and the unabated growth in ML model complexity motivated many ML-specific designs in both CPU and accelerator architectures to speed up the model inference. While these architectures are diverse, highly optimized low-precision arithmetic is a component shared by most. Impressive compute throughputs are indeed often exhibited by these architectures on benchmark ML models. Nevertheless, production models such as recommendation systems important to Facebook's personalization services are demanding and complex: These systems must serve billions of users per month responsively with low latency while maintaining high prediction accuracy, notwithstanding computations with many tens of billions parameters per inference. Do these low-precision architectures work well with our production recommendation systems? They do. But not without significant effort. We share in this paper our search strategies to adapt reference recommendation models to low-precision hardware, our optimization of low-precision compute kernels, and the design and development of tool chain so as to maintain our models' accuracy throughout their lifespan during which topic trends and users' interests inevitably evolve. Practicing these low-precision technologies helped us save datacenter capacities while deploying models with up to 5X complexity that would otherwise not be deployed on traditional general-purpose CPUs. We believe these lessons from the trenches promote better co-design between hardware architecture and software engineering and advance the state of the art of ML in industry.
翻訳日:2021-05-27 13:08:51 公開日:2021-05-26