このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201223となっている論文です。

PDF登録状況(公開日: 20201223)

TitleAuthorsAbstract論文公表日・翻訳日
# 物理的文脈の量子不整合

Quantum Incompatibility of a Physical Context ( http://arxiv.org/abs/2004.01008v2 )

ライセンス: Link先を確認
E. Martins, M. F. Savi, R. M. Angelo(参考訳) 量子物理学において、量子不和性の概念は一般に、交換関係や基底の不偏性のような形式主義の代数的側面に関係している。 近年、この概念は量子状態の識別と量子プログラマビリティを含むタスクのリソースとして認識されている。 ここでは、非可換可観測性(通信タスクに関連するシナリオ)の連続的な測定に基づいて、システムから抽出できる情報量と量子不整合をリンクする。 このアプローチは、量子状態と可観測性の両方を含む物理的コンテキストにエンコードされたリソースとして、非互換性を特徴付けることに繋がる。 さらに、文脈不整合性の尺度から、計算が容易で、幾何学的解釈を許容し、関係する可観測物の固有基底が相互に偏りがない場合に限り最大となる測度不整合量化器を導出する。

Pivotal within quantum physics, the concept of quantum incompatibility is generally related to algebraic aspects of the formalism, such as commutation relations and unbiasedness of bases. Recently, the concept was identified as a resource in tasks involving quantum state discrimination and quantum programmability. Here we link quantum incompatibility with the amount of information that can be extracted from a system upon successive measurements of noncommuting observables, a scenario related to communication tasks. This approach leads us to characterize incompatibility as a resource encoded in a physical context, which involves both the quantum state and observables. Moreover, starting with a measure of context incompatibility we derive a measurement-incompatibility quantifier that is easily computable, admits a geometrical interpretation, and is maximum only if the eigenbases of the involved observables are mutually unbiased.
翻訳日:2023-05-27 03:26:47 公開日:2020-12-23
# 高次元画素エンタングルメント:効率的な生成と認証

High-Dimensional Pixel Entanglement: Efficient Generation and Certification ( http://arxiv.org/abs/2004.04994v4 )

ライセンス: Link先を確認
Natalia Herrera Valencia, Vatshal Srivastav, Matej Pivoluska, Marcus Huber, Nicolai Friis, Will McCutcheon, Mehul Malik(参考訳) 光子は、そのスペクトル、空間、偏光度で大量の情報を運ぶことができる。 最先端の古典的通信システムは、波長と空間モード分割多重化による情報転送能力の最大化を常とするが、マルチモードの絡み合いに基づく量子システムは、通常、低い状態品質、長い測定時間、限られた符号化能力に悩まされる。 同時に、絡み合った認証手法は、しばしばセキュリティを侵害する仮定に依存する。 ここでは、状態やチャネルを仮定することなく、記録品質、測定速度、エンタングルメント次元を有する横位置運動量自由度におけるフォトニックな高次元エンタングルメントの証明を示す。 調整されたマクロピクセルベース、精密な空間モード測定、修正されたエンタングルメント証人を用いて、19次元の状態空間で94.4%の状態忠実度、55個の局所次元でのエンタングルメント、最大4ビットのエンタングルメント・オブ・フォームを示す。 さらに,従来の最先端の実証よりも2桁以上の精度向上が見られた。 その結果、単一光子の情報伝達能力を飽和させるノイズロバスト量子ネットワークへの道が開けた。

Photons offer the potential to carry large amounts of information in their spectral, spatial, and polarisation degrees of freedom. While state-of-the-art classical communication systems routinely aim to maximize this information-carrying capacity via wavelength and spatial-mode division multiplexing, quantum systems based on multi-mode entanglement usually suffer from low state quality, long measurement times, and limited encoding capacity. At the same time, entanglement certification methods often rely on assumptions that compromise security. Here we show the certification of photonic high-dimensional entanglement in the transverse position-momentum degree-of-freedom with a record quality, measurement speed, and entanglement dimensionality, without making any assumptions about the state or channels. Using a tailored macro-pixel basis, precise spatial-mode measurements, and a modified entanglement witness, we demonstrate state fidelities of up to 94.4% in a 19-dimensional state-space, entanglement in up to 55 local dimensions, and an entanglement-of-formation of up to 4 ebits. Furthermore, our measurement times show an improvement of more than two orders of magnitude over previous state-of-the-art demonstrations. Our results pave the way for noise-robust quantum networks that saturate the information-carrying capacity of single photons.
翻訳日:2023-05-25 06:25:55 公開日:2020-12-23
# バンドリミテッドエンタングルメント収穫

Bandlimited Entanglement Harvesting ( http://arxiv.org/abs/2005.05330v2 )

ライセンス: Link先を確認
Laura J. Henderson and Nicolas C. Menicucci(参考訳) 下には、距離が確実に解決できないような基本的な最小長スケールがあると考える理由はたくさんある。 有限長スケールの量子場を構成する一つの方法は、時空が数学的に連続かつ離散的であるような帯域制限量子場理論を使用することである。 これはフィールドの修正であり、フィールドのレベルで多くの結果をもたらすことが示されている。 提案手法では,1対の粒子検出器 (2レベル量子ビット) を,帯域制限された無質量スカラー磁場の真空と結合した場の局所プローブとして,スイッチング関数を介して時間に依存する方法で用いる。 数学的には、バンドリミットは検出器の空間プロファイルを準局所性のみに変化させることが示される。 我々はガウス関数とディラックデルタ関数の2種類のスイッチング関数について検討する。 ガウススイッチングでは、バンドリミットは2つのレベル間のエネルギーギャップがバンドリミットよりも大きい場合、検出器の非励起を指数関数的に抑制する。 検出器が基底状態であれば、パラメータ空間の特定の領域において、バンドリミットがなければ、フィールドからより多くの絡み合いを抽出することができる。 検出器がディラックデルタスイッチングと結合すると、粒子検出器は、時空の小さいが有限な領域に結合する場合、バンドリミットに最も敏感であることが示される。 バンドリミットの効果は局所プローブを用いて検出できることがわかった。 この研究は、量子場の基本的なバンドリミットの観測可能な結果を示すため重要である。

There are many reasons to believe that there is a fundamental minimum length scale below which distances cannot be reliably resolved. One method of constructing a quantum field with a finite minimum length scale is to use bandlimited quantum field theory, where the spacetime is mathematically both continuous and discrete. This is a modification to the field, which has been shown to have many consequences at the level of the field. We consider an operational approach and use a pair of particle detectors (two-level qubits) as a local probe of the field, which are coupled to the vacuum of the bandlimited massless scalar field in a time dependent way through a switching function. We show that, mathematically, the bandlimit modifies the spatial profile of the detectors so that they are only quasi-local. We explore two different types of switching functions, Gaussian and Dirac delta. We find that with Gaussian switching, the bandlimit exponentially suppresses the de-excitation of the detectors when the energy gap between the two levels is larger than the bandlimit. If the detectors are prepared in ground state, in certain regions of the parameter space they are able to extract more entanglement from the field than if there was no bandlimit. When the detectors couple with Dirac-delta switching, we show that a particle detector is most sensitive to the bandlimit when it couples to a small but finite region of spacetime. We find that the effects of a bandlimit are detectable using local probes. This work is important because it illustrates the possible observable consequences of a fundamental bandlimit in a quantum field.
翻訳日:2023-05-20 14:04:10 公開日:2020-12-23
# ベイズクラム・ラオ境界の物理学的インスパイアされた形式

Physics-inspired forms of the Bayesian Cram\'er-Rao bound ( http://arxiv.org/abs/2007.04849v4 )

ライセンス: Link先を確認
Mankei Tsang(参考訳) 微分幾何学を用いて、リパラメトリゼーションの下で不変であるベイズ的クラム・ラーオ境界の形式を導出する。 不変量の定式化は、境界のgil-levit族の間で最適で自然に不変な束縛を見つける。 事前の確率密度が波動関数の平方数であると仮定することで、波動関数とその勾配に関して二次である函数の項における境界も表現する。 ミニマックス推定の限界を締め付ける前に好ましくない値を見つける問題は、特別な場合において、フィッシャー情報がポテンシャルの役割を担っているシュリンガー方程式の基底状態を見つけることと等価であることを示す。 この理論を説明するために、2つの量子推定問題、すなわち、オプティメカル波形推定とサブディフレクション・インコヒーレント光学画像について論じる。

Using differential geometry, I derive a form of the Bayesian Cram\'er-Rao bound that remains invariant under reparametrization. With the invariant formulation at hand, I find the optimal and naturally invariant bound among the Gill-Levit family of bounds. By assuming that the prior probability density is the square of a wavefunction, I also express the bounds in terms of functionals that are quadratic with respect to the wavefunction and its gradient. The problem of finding an unfavorable prior to tighten the bound for minimax estimation is shown, in a special case, to be equivalent to finding the ground state of a Schr\"odinger equation, with the Fisher information playing the role of the potential. To illustrate the theory, two quantum estimation problems, namely, optomechanical waveform estimation and subdiffraction incoherent optical imaging, are discussed.
翻訳日:2023-05-10 21:14:54 公開日:2020-12-23
# 3d$チャーン・サイモンズ理論における位相R'enyiエントロピーの半古典的極限

Semiclassical limit of topological R\'enyi entropy in $3d$ Chern-Simons theory ( http://arxiv.org/abs/2007.07033v2 )

ライセンス: Link先を確認
Siddharth Dwivedi, Vivek Kumar Singh, Abhishek Roy(参考訳) 本研究では,3次元su(2)$_k$チャーン・シモンズ理論のセットアップにおいて,トーラスリンクの補数$s^3 \backslash t_{p,q}$に関連する状態の多元境界絡み合い構造について検討する。 この研究の焦点は、半古典的極限である$k \to \infty$ において、エントロピーを含むr\'enyiエントロピーの漸近的挙動である。 本稿では,いくつかのトーラスリンクの詳細な解析を行い,エントロピーが半古典的極限の有限値に収束することを示す。 さらに、$T_{p,pn}$ のトーラスリンクの R'enyi エントロピーの大きい $k$ 制限値が 2 つの部分の和であることを提案する。 (i)$n$から独立した普遍的な部分、及び (ii)リンク番号$n$に明示的に依存する非ユニバーサルまたはリンク部分。 解析手法を用いて、普遍部分はリーマンゼータ函数で構成され、二次元トポロジカルヤン・ミルズ理論の分配関数の項で書くことができることを示す。 より正確には、これは SU(2) ゲージ群を持つ位相的 2d$ Yang-Mills 理論で準備された特定の状態の R'enyi エントロピーと等しい。 さらに、あるリーマン面上の平坦な接続のモジュライ空間の体積の観点から、絡み合いエントロピーの大きい$k$の極限とトーラスリンクの最小 R'enyi エントロピーに現れる普遍部分は解釈できる。 また、$T_{p,pn}$ の R'enyi エントロピーを$k \to \infty$ と $n \to \infty$ の二重スケーリング極限で解析し、エントロピーが二重極限にも収束することを提案する。

We study the multi-boundary entanglement structure of the state associated with the torus link complement $S^3 \backslash T_{p,q}$ in the set-up of three-dimensional SU(2)$_k$ Chern-Simons theory. The focal point of this work is the asymptotic behavior of the R\'enyi entropies, including the entanglement entropy, in the semiclassical limit of $k \to \infty$. We present a detailed analysis for several torus links and observe that the entropies converge to a finite value in the semiclassical limit. We further propose that the large $k$ limiting value of the R\'enyi entropy of torus links of type $T_{p,pn}$ is the sum of two parts: (i) the universal part which is independent of $n$, and (ii) the non-universal or the linking part which explicitly depends on the linking number $n$. Using the analytic techniques, we show that the universal part comprises of Riemann zeta functions and can be written in terms of the partition functions of two-dimensional topological Yang-Mills theory. More precisely, it is equal to the R\'enyi entropy of certain states prepared in topological $2d$ Yang-Mills theory with SU(2) gauge group. Further, the universal parts appearing in the large $k$ limits of the entanglement entropy and the minimum R\'enyi entropy for torus links $T_{p,pn}$ can be interpreted in terms of the volume of the moduli space of flat connections on certain Riemann surfaces. We also analyze the R\'enyi entropies of $T_{p,pn}$ link in the double scaling limit of $k \to \infty$ and $n \to \infty$ and propose that the entropies converge in the double limit as well.
翻訳日:2023-05-10 02:09:28 公開日:2020-12-23
# 原子鎖における集合崩壊の多体シグネチャ

Many-body Signatures of Collective Decay in Atomic Chains ( http://arxiv.org/abs/2008.08139v2 )

ライセンス: Link先を確認
Stuart J. Masson, Igor Ferrier-Barbut, Luis A. Orozco, Antoine Browaeys, Ana Asenjo-Garcia(参考訳) 完全に反転した原子は、全く同じ位置に配置され、脱励起と同期し、光はバーストの中で放出される("dicke's superradiance")。 メソスコピック連鎖の相関崩壊における有限原子間分離の役割を考察し,集合ジャンプ作用素の観点からの理解を提供する。 ハミルトン双極子-双極子相互作用にもかかわらず、超ラジカルバーストは小さな距離で生き残ることを示す。 しかし、より大きな分離のために、異なるジャンプオペレーター間の競争は強調され、超レイディアンスを抑える。 集合効果は、波長の次数の格子定数を持つ配列において依然として重要であり、非指数的に時間的に減衰する光子放出率に繋がる。 我々は2光子相関関数を計算し、放射が原子間距離の小さな変化に敏感であるとともに、相関と指向性を示す。 これらの特徴は、現在の実験的な設定で測定することができ、現実的な欠陥に対して堅牢である。

Fully inverted atoms placed at exactly the same location synchronize as they deexcite, and light is emitted in a burst (known as "Dicke's superradiance"). We investigate the role of finite interatomic separation on correlated decay in mesoscopic chains, and provide an understanding in terms of collective jump operators. We show that the superradiant burst survives at small distances, despite Hamiltonian dipole-dipole interactions. However, for larger separations, competition between different jump operators leads to dephasing, suppressing superradiance. Collective effects are still significant for arrays with lattice constants of the order of a wavelength, and lead to a photon emission rate that decays nonexponentially in time. We calculate the two-photon correlation function and demonstrate that emission is correlated and directional, as well as sensitive to small changes in the interatomic distance. These features can be measured in current experimental setups, and are robust to realistic imperfections.
翻訳日:2023-05-05 22:36:16 公開日:2020-12-23
# 高温原子ビーム駆動の硬質mHz-Linewidth超放射光レーザー

Rugged mHz-Linewidth Superradiant Laser Driven by a Hot Atomic Beam ( http://arxiv.org/abs/2009.05717v3 )

ライセンス: Link先を確認
Haonan Liu, Simon B. J\"ager, Xianquan Yu, Steven Touzard, Athreya Shankar, Murray J. Holland, Travis L. Nicholson(参考訳) 光学キャビティを横断する熱原子ビームに基づく新しいタイプの超放射光レーザーを提案する。 理論上最小の線幅と最大出力は最高の超コヒーレントクロックレーザーと競合していることを示す。 また、このシステムは、これまで超放射光レーザーに利用されてきた連続波モードで自然に動作する。 既存の超コヒーレントレーザーとは異なり、われわれの設計はシンプルで頑丈だ。 これにより、最も広くアクセス可能なウルトラコヒーレントレーザーの候補となり、挑戦的な環境におけるウルトラコヒーレントレーザーの応用を初めて実現した。

We propose a new type of superradiant laser based on a hot atomic beam traversing an optical cavity. We show that the theoretical minimum linewidth and maximum power are competitive with the best ultracoherent clock lasers. Also, our system operates naturally in continuous wave mode, which has been elusive for superradiant lasers so far. Unlike existing ultracoherent lasers, our design is simple and rugged. This makes it a candidate for the first widely accessible ultracoherent laser, as well as the first to realize sought-after applications of ultracoherent lasers in challenging environments.
翻訳日:2023-05-02 10:50:07 公開日:2020-12-23
# 選択的ハイパーファインチューニングによる動的核偏極の最大化

Maximising Dynamic Nuclear Polarisation via Selective Hyperfine Tuning ( http://arxiv.org/abs/2012.12508v1 )

ライセンス: Link先を確認
L. T. Hall, D. A. Broadway, A. Stacey, D. A. Simpson, J-P. Tetienne, and L. C. L. Hollenberg(参考訳) 動的核偏極 (DNP) は、高偏極電子のアンサンブルから標的核分析へスピン偏極を移すことによって核磁気共鳴測定における信号を増加させる技術である。 しかしこれらの技術は、強い磁場を用いて電子スピンの偏極を最大化し、電子核スピンカップリングと移動の経路を制限する必要がある。 本研究は、電子スピン$S\geq1$の系が固有零フィールド分割を持つ場合、実験片交差緩和に基づくより強い超微粒子相互作用の別クラスが、中等場の運転中に、DNP効率と収率を改善するために用いられることを示す。 我々は既存の手法を解析的に検討し、この手法が既存の手法よりも桁違いに原子核アンサンブルへの偏極移動率を高めることを決定する。 この結果は、電子スピン偏光源としてダイヤモンドの窒素空孔(nv)欠陥の光学偏光性$s=1$電子スピン系を用いて室温で実験的に実証された。 最後に、NMRおよびMRI応用のために、ダイヤモンド外部の分子スピンの巨視的量分極に対するこれらのNVベースのアプローチの有用性を評価する。

Dynamic nuclear polarisation (DNP) refers to a class of techniques used to increase the signal in nuclear magnetic resonance measurements by transferring spin polarisation from ensembles of highly polarised electrons to target nuclear analytes. These techniques, however, require the application of strong magnetic fields to maximise electron spin polarisation, limiting pathways for electron-nuclear (hyperfine) spin coupling and transfer. In this work we show that, for systems of electronic spin $S\geq1$ possessing an intrinsic zero-field splitting, a separate class of stronger hyperfine interactions based on lab-frame cross relaxation may be utilised to improve DNP efficiency and yield, whilst operating at moderate fields. We analytically review existing methods, and determine that this approach increases the rate of polarisation transfer to the nuclear ensemble by up to an order of magnitude over existing techniques. This result is demonstrated experimentally at room temperature using the optically polarisable $S=1$ electron spin system of the nitrogen vacancy (NV) defect in diamond as the source of electron spin polarisation. Finally we assess the utility of these NV-based approaches for the polarisation of macroscopic quantities of molecular spins external to the diamond for NMR and MRI applications.
翻訳日:2023-04-19 19:57:10 公開日:2020-12-23
# 標準SMF-28ファイバを用いた通信Cバンド光子ペア生成

Telecom C-Band Photon-Pair Generation using Standard SMF-28 Fiber ( http://arxiv.org/abs/2012.12464v1 )

ライセンス: Link先を確認
Kyungdeuk Park, Dongjin Lee, Robert W. Boyd, Heedeuk Shin(参考訳) 光子ペア生成は、特定のポンプ波長によるエネルギー保存と位相整合条件と非線形光学媒体の分散の両方を満たす必要があるが、所望の特定の波長を持つ光子ペアを見つけることは困難である。 本稿では, ポンプ波長が媒体のゼロGVD波長よりもはるかに大きい場合でも効率的に機能する光子対を生成する方法を提案する。 本研究では,1310nm零gvd波長の短繊維smf-28とcバンドポンプ(1552.52nm)を用いてcバンド光子対を生成する。 測定された対生成率と一致事故率は、長い分散シフト繊維のものと同等である。 偏光絡み合った状態を用意し、ベルの不等式測定によりS値2.659+-0.094を得る。 その結果, 短いsfwm媒体を用いることで, ポンプ波長のほとんどすべての材料の分散特性によらず, 適切な光対発生率が得られることがわかった。

Photon-pair generation must satisfy both the energy conservation and phase-matching conditions with a specific pump wavelength and dispersion of nonlinear optical medium, but finding a photon-pair, which has a desired specific wavelength, generation medium is challenging. Here, we present a method to create photon pairs that functions efficiently even the pump wavelength is much larger than the zero GVD wavelength of medium. In this study, we employ short SMF-28 fibers having ~1310 nm zero GVD wavelength and C-band pump (1552.52 nm) to generate C-band photon pairs. The measured pair generation rate and coincidence-to-accidental ratios are comparable to those from a long dispersion-shifted fiber. Polarization-entangled states are prepared, and an S value of 2.659 +- 0.094 is achieved from Bell inequality measurements. Our results indicate that the use of a short SFWM medium yields adequate photon-pair generation rates regardless of its dispersion properties in almost any material at any pump wavelength.
翻訳日:2023-04-19 19:56:27 公開日:2020-12-23
# 低温原子における軌道角運動量量子ビットの効率的な量子記憶に向けて

Towards efficient quantum memory of orbital angular momentum qubits in cold atoms ( http://arxiv.org/abs/2012.12451v1 )

ライセンス: Link先を確認
Chengyuan Wang, Ya Yu, Yun Chen, Jinwen Wang, Xin Yang, Shuwei Qiu, Dong Wei, Mingtao Cao, Hong Gao, and Fuli Li(参考訳) 量子化された軌道角運動量(oam)を持つ光の空間モードは、高次元量子状態へのアクセスを提供する優れた候補の一つであり、本質的に高次元量子ネットワークの構築に有望である。 本稿では, 低温原子アンサンブル中のOAM状態に符号化された光量子ビットの保存と検索を報告し, 平均条件忠実度を98%以上達成し, 回収効率を約65%とした。 フォトニックOAM量子ビットは単一光子レベルで弱いコヒーレントな状態で符号化され、記憶は伸長した冷ルビジウム原子アンサンブルにおける電磁誘導透過に基づいている。 我々の研究は、高次元および大規模量子ネットワークに必要な効率的なノードを構成する。

The spatial modes of light, carrying a quantized amount of orbital angular momentum (OAM), is one of the excellent candidates that provides access to high-dimensional quantum states, which essentially makes it promising towards building high-dimensional quantum networks. In this paper, we report the storage and retrieval of photonic qubits encoded with OAM state in the cold atomic ensemble, achieving an average conditional fidelity above 98% and retrieval efficiency around 65%. The photonic OAM qubits are encoded with weak coherent states at the single-photon level and the memory is based on electromagnetically induced transparency in an elongated cold rubidium atomic ensemble. Our work constitutes an efficient node that is needed towards high dimensional and large scale quantum networks.
翻訳日:2023-04-19 19:56:12 公開日:2020-12-23
# 量子計算におけるセンサ支援故障緩和

Sensor-assisted fault mitigation in quantum computation ( http://arxiv.org/abs/2012.12423v1 )

ライセンス: Link先を確認
John L. Orrell and Ben Loer(参考訳) 物理量子ビット近傍のセンサを用いて,量子計算における故障軽減を支援する手法を提案する。 具体的には,超伝導量子ビットを担持するシリコン基板上に配向する遷移端センサを用いて,電離放射線からのエネルギー注入を監視することを検討した。 これら2つの物理的デバイスの概念を一般化し、量子計算における障害緩和を支援する共配置センサの潜在的な利点を探求する。 最も単純なスキームでは、コロケーションセンサーは環境障害の影響を受けやすい計算の拒絶を効果的に支援する。 潜在的な計算上の利点を調査するには、量子誤差補正の標準定式化への拡張が必要である。 標準の3ビットビットビットフリップ量子誤り訂正符号の特定の場合において、キュービット当たりの総誤差確率が20%である場合、繰り返し計算の約90%が修正可能であることを示す。 しかし、センサ検出可能な誤差が全体のエラー確率の45%を占める場合、独立量子ビットと一意に関連付けられたコロケーションセンサーの使用は、繰り返し計算の試みの7%を拒否するコストで、正しい最終状態計算の比率を96%に引き上げる。

We propose a method to assist fault mitigation in quantum computation through the use of sensors co-located near physical qubits. Specifically, we consider using transition edge sensors co-located on silicon substrates hosting superconducting qubits to monitor for energy injection from ionizing radiation, which has been demonstrated to increase decoherence in transmon qubits. We generalize from these two physical device concepts and explore the potential advantages of co-located sensors to assist fault mitigation in quantum computation. In the simplest scheme, co-located sensors beneficially assist rejection of calculations potentially affected by environmental disturbances. Investigating the potential computational advantage further required development of an extension to the standard formulation of quantum error correction. In a specific case of the standard three-qubit, bit-flip quantum error correction code, we show that given a 20% overall error probability per qubit, approximately 90% of repeated calculation attempts are correctable. However, when sensor-detectable errors account for 45% of overall error probability, the use of co-located sensors uniquely associated with independent qubits boosts the fraction of correct final-state calculations to 96%, at the cost of rejecting 7% of repeated calculation attempts.
翻訳日:2023-04-19 19:55:48 公開日:2020-12-23
# 微視的衝突モデルにおける系間結合が熱輸送に及ぼす影響

Effect of inter-system coupling on heat transport in a microscopic collision model ( http://arxiv.org/abs/2012.12364v1 )

ライセンス: Link先を確認
Feng Tian, Jian Zou, Lei Li, Hai Li and Bin Shao(参考訳) 本稿では, 2つのサブシステムからなる2成分系を, それぞれの熱環境に結合するシステムについて検討する。 衝突モデルに基づいて、近似(システム-環境結合をモデル化する際、システム間相互作用は無視される)が有効かどうかを主に検討する。 また,従来のエネルギー保存系-環境相互作用と非エネルギー保存系-環境相互作用の両方について,熱輸送の課題を総合的に解決する。 前者の相互作用では、システム間相互作用の強度が増大するにつれて、最初は予想通りこの近似が悪化するが、さらに強いシステム間結合であっても、反故意に良くなる。 後者の非対称性との相互作用では、この近似は徐々に悪化する。 この場合, 完全な温度補正が可能であり, 従来の相互作用に対する明らかな補正効果が見つからない。 最後に, この近似が有効であるかどうかは, サブシステム間の量子相関, すなわち, 量子相関が弱ければ弱いほど, 近似が正当化され, 逆に逆の量子相関と密接に関連していることを示す。

In this paper we consider a bipartite system composed of two subsystems each coupled to its own thermal environment. Based on a collision model, we mainly study whether the approximation (i.e., the inter-system interaction is ignored when modeling the system-environment coupling) is valid or not. We also address the problem of heat transport unitedly for both conventional energy-preserving system-environment interactions and non-energy preserving system-environment interactions. For the former interaction, as the inter-system interaction strength increases, at first this approximation gets worse as expected, but then counterintuitively gets better even for a stronger inter-system coupling. For the latter interaction with asymmetry, this approximation gets progressively worse. In this case we realize a perfect thermal rectification, and we can not find apparent rectification effect for the former interaction. Finally and more importantly, our results show that whether this approximation is valid or not is closely related to the quantum correlations between the subsystems, i.e., the weaker the quantum correlations, the more justified the approximation and vice versa.
翻訳日:2023-04-19 19:55:25 公開日:2020-12-23
# 基底状態エネルギーを超えた翻訳不変問題の複雑性

The Complexity of Translationally Invariant Problems beyond Ground State Energies ( http://arxiv.org/abs/2012.12717v1 )

ライセンス: Link先を確認
James D. Watson, Johannes Bausch, Sevag Gharibian(参考訳) 地平線エネルギー(局所ハミルトン問題)の近似、地平線上の局所測定(APX-SIM)のシミュレーション、低エネルギー空間がエネルギー障壁(GSCON)を持つかどうかの決定という3つの基本的な質問は、$\mathsf{QMA}$-hard, $\mathsf{P}^{\mathsf{QMA}[log]}$-hardと$\mathsf{QCMA}$-hardである。 しかし、局所ハミルトン問題に対する硬さは、翻訳的不変なシステムでも成り立つことが知られているが、APX-SIM と GSCON がそのような「単純な」システムでは困難であるかどうかはまだ分かっていない。 本稿では、APX-SIM と GSCON の翻訳不変バージョンが、それぞれ$\mathsf{P}^{\mathsf{QMA}_{\mathsf{EXP}}}$-および$\mathsf{QCMA}_{\mathsf{EXP}}$-complete であることを示す。 これらの結果のそれぞれは、硬度結果を生成するための「リフトング定理」をそれぞれ与えることで達成される。 例えば、APX-SIM に対して、$H$ で生成されるハミルトニアンの族上の APX-SIM の硬さに対して、$H$ の構造的および幾何学的性質(例えば、変換不変性、幾何学的、局所性など)を保ちながら、抽象的な局所回路-ハミルトン写像を "リフト" する枠組みを与える。 apx-simでは、qma oracleに対する多項式的に多くの並列クエリに対する答えを1つのキュービットに「圧縮」します。 GSCON に対して、高度に非局所的なユニタリに対して頑健な構成を与える。

It is known that three fundamental questions regarding local Hamiltonians -- approximating the ground state energy (the Local Hamiltonian problem), simulating local measurements on the ground space (APX-SIM), and deciding if the low energy space has an energy barrier (GSCON) -- are $\mathsf{QMA}$-hard, $\mathsf{P}^{\mathsf{QMA}[log]}$-hard and $\mathsf{QCMA}$-hard, respectively, meaning they are likely intractable even on a quantum computer. Yet while hardness for the Local Hamiltonian problem is known to hold even for translationally-invariant systems, it is not yet known whether APX-SIM and GSCON remain hard in such "simple" systems. In this work, we show that the translationally invariant versions of both APX-SIM and GSCON remain intractable, namely are $\mathsf{P}^{\mathsf{QMA}_{\mathsf{EXP}}}$- and $\mathsf{QCMA}_{\mathsf{EXP}}$-complete, respectively. Each of these results is attained by giving a respective generic "lifting theorem" for producing hardness results. For APX-SIM, for example, we give a framework for "lifting" any abstract local circuit-to-Hamiltonian mapping $H$ (satisfying mild assumptions) to hardness of APX-SIM on the family of Hamiltonians produced by $H$, while preserving the structural and geometric properties of $H$ (e.g. translation invariance, geometry, locality, etc). Each result also leverages counterintuitive properties of our constructions: for APX-SIM, we "compress" the answers to polynomially many parallel queries to a QMA oracle into a single qubit. For GSCON, we give a hardness construction robust against highly non-local unitaries, i.e. even if the adversary acts on all but one qudit in the system in each step.
翻訳日:2023-04-19 19:49:51 公開日:2020-12-23
# 各最小不確かさ状態における誤差最小値を用いた線形位置測定

Linear position measurements with minimum error-disturbance in each minimum uncertainty state ( http://arxiv.org/abs/2012.12707v1 )

ライセンス: Link先を確認
Kazuya Okamura(参考訳) 量子論において、測定過程は重要な物理過程であり、関心のシステムと測定装置の間の相互作用の量子記述である。 誤差と乱れを利用して測定性能を定量的にチェックし、測定プロセスを用いて定義する。 不確実性関係は、それらに制約を与え、積極的に研究する関係の一般的な用語である。 しかし、位置測定の真の誤差分散は未だ分かっていない。 ここでは,各最小不確かさ状態における誤差を最小とした線形位置測定を具体的に構築する。 位置測定のために,Branciard-Ozawa EDRと呼ばれる誤差分散関係(EDR)に着目した。 量子ルート平均二乗(q-rms)誤差とq-rms障害に基づいている。 線形位置測定が最小不確かさ状態においてその下限を達成するために必要な十分条件を与える定理を示し、その状態における下限を達成するために、明確に解ける線形位置測定を与える。 そして、その測定結果の後に確率分布と状態を与える。 将来、より広い種類の状態において最小限の誤差分散で測定を構築することが期待され、不確実性関係を含む量子限界の新たな理解につながる。

In quantum theory, measuring process is an important physical process; it is a quantum description of the interaction between the system of interest and the measuring device. Error and disturbance are used to quantitatively check the performance of the measurement, and are defined by using measuring process. Uncertainty relations are a general term for relations that provide constraints on them, and actively studied. However, the true error-disturbance bound for position measurements is not known yet. Here we concretely construct linear position measurements with minimum error-disturbance in each minimum uncertainty state. We focus on an error-disturbance relation (EDR), called the Branciard-Ozawa EDR, for position measurements. It is based on a quantum root-mean-square (q-rms) error and a q-rms disturbance. We show the theorem that gives a necessary and sufficient condition for a linear position measurement to achieve its lower bound in a minimum uncertainty state, and explicitly give exactly solvable linear position measurements achieving its lower bound in the state. We then give probability distributions and states after the measurement when using them. It is expected to construct measurements with minimum error-disturbance in a broader class of states in the future, which will lead to a new understanding of quantum limits, including uncertainty relations.
翻訳日:2023-04-19 19:49:03 公開日:2020-12-23
# 量子ループプログラムのためのソフトウェアパイプライン

Software Pipelining for Quantum Loop Programs ( http://arxiv.org/abs/2012.12700v1 )

ライセンス: Link先を確認
Jingzhe Guo, Mingsheng Ying(参考訳) 本稿では,並列性を利用した量子フォーループプログラムのソフトウェアパイプライン化手法を提案する。 我々は、配列エイリアス、命令依存性、リソース競合など、プログラム最適化に有用な概念を再定義し、今回は量子プログラムの最適化に役立てる。 再定義された概念を用いて、量子ループプログラムにおける命令レベル並列性を利用したソフトウェアパイプライン化アルゴリズムを提案する。 最適化手法は、QAOAのような一般的なアプリケーションを含むいくつかのテストケースで評価され、いくつかのベースライン結果と比較される。 評価の結果,フルループアンロールにより得られる最適なプログラム深さに近いループプログラム全体の深さを削減し,より小さなコードを生成することで,ループ内最適化のチャンスのみを利用するループオプティマイザよりも優れることがわかった。 これは、我々が知る限りそのようなループ制御フローを持つ量子プログラムの最適化に向けた最初のステップである。

We propose a method for performing software pipelining on quantum for-loop programs, exploiting parallelism in and across iterations. We redefine concepts that are useful in program optimization, including array aliasing, instruction dependency and resource conflict, this time in optimization of quantum programs. Using the redefined concepts, we present a software pipelining algorithm exploiting instruction-level parallelism in quantum loop programs. The optimization method is then evaluated on some test cases, including popular applications like QAOA, and compared with several baseline results. The evaluation results show that our approach outperforms loop optimizers exploiting only in-loop optimization chances by reducing total depth of the loop program to close to the optimal program depth obtained by full loop unrolling, while generating much smaller code in size. This is the first step towards optimization of a quantum program with such loop control flow as far as we know.
翻訳日:2023-04-19 19:48:44 公開日:2020-12-23
# 雑音印加された原子状態のスピンノイズ分光

Spin noise spectroscopy of a noise-squeezed atomic state ( http://arxiv.org/abs/2012.12617v1 )

ライセンス: Link先を確認
V. Guarrera, R. Gartman, G. Bevilacqua, W. Chalupczak(参考訳) スピンノイズ分光法は、熱平衡や線形応答を超えて様々なスピン系のダイナミクスを研究する強力な技術として登場している。 本稿では,ベルブルーム型磁気センサにおける室温中性原子のスピン揺らぎについて検討する。 間接ポンプとパラメトリック励起によって駆動されるこのシステムは、ノイズキューズを生成することが知られている。 我々の測定は、磁気共鳴における原子信号四重項の雑音分布の強い非対称性を明らかにするだけでなく、その生成と進化のメカニズムに関する洞察を与える。 特に、スペクトルの構造が同定され、ノイズプロセスの主依存性と特性の時間スケールを調べることができる。 得られた結果は、パラメトリックなノイズスクイーズと適合する。 特に、ノイズスペクトルは、マクロ原子のコヒーレンスが失われてもスピンダイナミクスに関する情報を提供し、測定の感度を効果的に向上させる。 本研究は、広範囲のスピンベース磁気センサにおけるノイズスクイーズ研究のための汎用手法としてスピンノイズ分光を促進する。

Spin noise spectroscopy is emerging as a powerful technique for studying the dynamics of various spin systems also beyond their thermal equilibrium and linear response. Here, we study spin fluctuations of room-temperature neutral atoms in a Bell-Bloom type magnetometer. Driven by indirect pumping and undergoing a parametric excitation, this system is known to produce noise-squeezing. Our measurements not only reveal a strong asymmetry in the noise distribution of the atomic signal quadratures at the magnetic resonance, but also provide insight into the mechanism behind its generation and evolution. In particular, a structure in the spectrum is identified which allows to investigate the main dependencies and the characteristic timescales of the noise process. The results obtained are compatible with parametrically induced noise squeezing. Notably, the noise spectrum provides information on the spin dynamics even in regimes where the macroscopic atomic coherence is lost, effectively enhancing the sensitivity of the measurements. Our work promotes spin noise spectroscopy as a versatile technique for the study of noise squeezing in a wide range of spin based magnetic sensors.
翻訳日:2023-04-19 19:47:38 公開日:2020-12-23
# ライドバーグ封鎖に基づく2量子ゲートにおけるグラウンド・ライドバーグコヒーレンスの影響

Influence of ground-Rydberg coherence in two-qubit gate based on Rydberg blockade ( http://arxiv.org/abs/2012.12589v1 )

ライセンス: Link先を確認
Yangyang Liu, Yuan Sun, Zhuo Fu, Peng Xu, Xin Wang, Xiaodong He, Jin Wang, Mingsheng Zhan(参考訳) 中性原子の量子ビットに対して、2量子ゲートは典型的には、通常の量子ビットレジスタ状態の他に、リドベルクレベルの特別な状態が示唆される、リドベルク封鎖効果によって実現される。 ここでは、制御量子ビット原子のグラウンド・ライドバーグコヒーレンスが2量子ビット制御Z(C_Z$)ゲートの過程にどのように影響するかを実験的および理論的に明らかにするために、例えば、よく用いられるグラウンド・ライドバーグ$\pi$-gap-$\pi$パルス列が、Physで最初に提案された。 Rev. Lett. bf{85}, 2208 (2000)。 制御量子ビット原子のデコヒーレンスを$\pi$-gap-$\pi$パルスの後に測定し、基底-リドバーグ遷移のラムゼー縞から抽出された典型的なデコヒーレンス時間$\tau_{gr}$と直接比較する。 特に、そのようなパルス系列の制御量子ビット原子は、本質的にグラウンド・リドバーグ・ラムゼー干渉に類似した過程を経験することが観察される。 さらに、制御キュービットのデコヒーレンス過程を$c_z$ゲート$\pi$-gap-$\pi$パルスシーケンスと$\tau_{gr}$にリンクする単純な理論モデルを構築し、デコヒーレンス効果の典型的起源を分析する。 最後に,Lydbergコヒーレンス特性の制約によるゲート忠実度損失のC_Z$について検討し,新しいゲートプロトコルによる忠実度向上を期待する。

For neutral atom qubits, the two-qubit gate is typically realized via the Rydberg blockade effect, which hints about the special status of the Rydberg level besides the regular qubit register states. Here, we carry out experimental and theoretical studies to reveal how the ground-Rydberg coherence of the control qubit atom affects the process of two-qubit Controlled-Z ($C_Z$) gate, such as the commonly used ground-Rydberg $\pi$-gap-$\pi$ pulse sequence originally proposed in Phys. Rev. Lett. \textbf{85}, 2208 (2000). We measure the decoherence of the control qubit atom after the $\pi$-gap-$\pi$ pulses and make a direct comparison with the typical decoherence time $\tau_{gr}$ extracted from Ramsey fringes of the ground-Rydberg transition. In particular, we observe that the control qubit atom subject to such pulse sequences experiences a process which is essentially similar to the ground-Rydberg Ramsey interference. Furthermore, we build a straightforward theoretical model to link the decoherence process of control qubit subject to $C_Z$ gate $\pi$-gap-$\pi$ pulse sequence and the $\tau_{gr}$, and also analyze the typical origins of decoherence effects. Finally, we discuss the $C_Z$ gate fidelity loss due to the limits imposed by the ground-Rydberg coherence properties and prospective for improving fidelity with new gate protocols.
翻訳日:2023-04-19 19:47:21 公開日:2020-12-23
# 偏光干渉プリズム:ベクトル場の生成、位相電荷の測定、スピン軌道制御非制御ゲートの実装のための多用途ツール

Polarization interferometric prism: a versatile tool for generation of vector fields, measurement of topological charges and implementation of a spin-orbit Controlled-Not gate ( http://arxiv.org/abs/2012.12584v1 )

ライセンス: Link先を確認
Zhi-Cheng Ren, Zi-Mo Cheng, Xi-Lin Wang, Jianping Ding, and Hui-Tian Wang(参考訳) 光渦とベクトル場は2つの重要な構造的光学場である。 その幅広い応用と多くの科学分野におけるユニークな特徴から、そのような分野の生成、操作、測定は大きな関心を集め、非常に重要な話題となっている。 しかし、ベクトル場を生成するほとんどの方法は、柔軟性、効率性、安定性、単純さのトレードオフがある。 一方、位相電荷、特に高次光渦を測定するための簡単で直接的な方法は依然として課題である。 ここでは、光渦を高効率でベクトル場に変換することができ、高次でも任意の光渦の位相電荷(絶対値と符号)を正確に測定できる単素子干渉計として、prism: polarization interferometric prism(pip)を設計し、製造する。 実験により,大域的な忠実度を持つベクトル場を0.963から0.993の範囲で生成し,出力強度パターン上の環上に均一に分布する花弁の個数を数えて光渦のトポロジカル電荷を測定する。 単一光子のスピン軌道状態の生成、操作、検出のための汎用的なツールとして、PIPは量子情報処理のための単一光子状態でも機能する。 実験では、PIPは生成した28量子ビット状態のスピン軌道制御ノットゲートとして利用され、0.966から0.995までの状態忠実度を達成し、単一光子に対するPIPの実現可能性を示す。

Optical vortex and vector field are two important types of structured optical fields. Due to their wide applications and unique features in many scientific realms, the generation, manipulation and measurement of such fields have attracted significant interest and become very important topics. However, most ways to generate vector fields have a trade-off among flexibility, efficiency, stability, and simplicity. Meanwhile, an easy and direct way to measure the topological charges, especially for high order optical vortex, is still a challenge. Here we design and manufacture a prism: polarization interferometric prism (PIP) as a single-element interferometer, which can conveniently convert an optical vortex to vector fields with high efficiency and be utilized to precisely measure the topological charge (both absolute value and sign) of an arbitrary optical vortex, even with a high order. Experimentally we generate a variety of vector fields with global fidelity ranging from 0.963 to 0.993 and measure the topological charge of an optical vortex by counting the number of petals uniformly distributed over a ring on the output intensity patterns. As a versatile tool to generate, manipulate and detect the spin-orbital state of single photons, PIP can also work in single-photon regime for quantum information processing. In experiment, the PIP is utilized as a spin-orbit Controlled-Not gate on the generated 28 two-qubit states, achieving the state fidelities ranging from 0.966 to 0.995 and demonstrating the feasibility of the PIP for single photons.
翻訳日:2023-04-19 19:46:40 公開日:2020-12-23
# トンネル顕微鏡による分子の電子振動の追跡

Tracking the electronic oscillation in molecule with tunneling microscopy ( http://arxiv.org/abs/2012.12523v1 )

ライセンス: Link先を確認
Rulin Wang, Fuzhen Bi, Wencai Lu, Xiao Zheng, and ChiYung Yam(参考訳) フェムト秒時間スケールでの電子ダイナミクスの可視化と制御は次世代電子機器の設計において重要な役割を果たす。 シミュレーションを用いて、2つの同一フェムト秒レーザーパルス間の遅延時間の調整によりナフタレン分子内部の電子振動を追跡できることを示す。 振動の周波数と減衰時間は走査型トンネル顕微鏡の接合を介してトンネル電荷によって検出される。 トンネル電荷は、数サイクルの長い光パルスに対するキャリアエンベロープ位相(CEP)に敏感である。 このCEPに対する感受性はパルスの時間長の増加とともに消失する。 シミュレーションの結果,分子内部の電子動力学をフェムト秒レーザーパルスで可視化し,制御することが可能であることが示唆された。

Visualizing and controlling electron dynamics over femtosecond timescale play a key role in the design of next-generation electronic devices. Using simulations, we demonstrate the electronic oscillation inside the naphthalene molecule can be tracked by means of the tuning of delay time between two identical femtosecond laser pulses. Both the frequency and decay time of the oscillation are detected by the tunneling charge through the junction of scanning tunneling microscopy. And the tunneling charge is sensitive to the carrier-envelope phase (CEP) for few-cycle long optical pulses. While this sensitivity to CEP will disappear with the increase of time-length of pulses. Our simulation results show that it is possible to visualize and control the electron dynamics inside the molecule by one or two femtosecond laser pulses.
翻訳日:2023-04-19 19:46:12 公開日:2020-12-23
# 単一量子ビット計測による量子ハミルトニアンの学習

Learning Quantum Hamiltonians from Single-qubit Measurements ( http://arxiv.org/abs/2012.12520v1 )

ライセンス: Link先を確認
Liangyu Che, Chao Wei, Yulei Huang, Dafa Zhao, Shunzhong Xue, Xinfang Nie, Jun Li, Dawei Lu, and Tao Xin(参考訳) ハミルトニアンに基づく量子力学から観測可能なものを測定することは自然であり、ハミルトニアンが測定データから推定される逆過程もまた重要なトピックである。 本研究では,単一量子ビット計測の時間的記録からターゲットハミルトニアンのパラメータを学習するための再帰的ニューラルネットワークを提案する。 この方法は基底状態の仮定を必要とせず、単一量子オブザーバブルのみを測る。 時間非依存と時間依存の両方に応用でき、ハミルトンパラメータの大きさと符号を同時に捉えることができる。 量子イジングハミルトニアンを最寄り-neighbor相互作用の例として、磁場や結合値を含む高い精度でハミルトニアンパラメータを学習するために、リカレントニューラルネットワークを訓練した。 また, 本手法は, 測定ノイズやデコヒーレンス効果に対するロバスト性も良好であることを示す。 したがって、量子デバイスのパラメータを推定し、ハミルトニアンに基づく量子力学の特徴付けに広く応用されている。

It is natural to measure the observables from the Hamiltonian-based quantum dynamics, and its inverse process that Hamiltonians are estimated from the measured data also is a vital topic. In this work, we propose a recurrent neural network to learn the parameters of the target Hamiltonians from the temporal records of single-qubit measurements. The method does not require the assumption of ground states and only measures single-qubit observables. It is applicable on both time-independent and time-dependent Hamiltonians and can simultaneously capture the magnitude and sign of Hamiltonian parameters. Taking quantum Ising Hamiltonians with the nearest-neighbor interactions as examples, we trained our recurrent neural networks to learn the Hamiltonian parameters with high accuracy, including the magnetic fields and coupling values. The numerical study also shows that our method has good robustness against the measurement noise and decoherence effect. Therefore, it has widespread applications in estimating the parameters of quantum devices and characterizing the Hamiltonian-based quantum dynamics.
翻訳日:2023-04-19 19:45:52 公開日:2020-12-23
# フォトニックワイル点近傍の光間相互作用

Light-matter interactions near photonic Weyl points ( http://arxiv.org/abs/2012.12885v1 )

ライセンス: Link先を確認
I\~naki Garc\'ia-Elcano, Jorge Bravo-Abad, Alejandro Gonz\'alez-Tudela(参考訳) ワイル光子は、線形分散を持つ2つの3次元フォトニックバンドが1つの運動量点で縮退したときに現れる。 これらの点は、ベリー曲率のロバストなトポロジカルモノポールであることや、関連する状態の消滅密度など、顕著な性質を持つ。 本研究では、このようなワイル光子による量子光学効果の系統的理論的研究について報告する。 まず,ワイル点に対するデチューニング関数として,ワイルフォトニック浴に結合した単一量子エミッタのダイナミクスを解析し,摂動と厳密な処理の両方を用いて相関放出パターンの研究を行った。 我々の計算では、エミッタがワイル周波数から切り離されたとき、非対称な動的挙動を示し、また様々な方向的集合的崩壊に翻訳される高度に分岐した放出の異なるレジームを示す。 また,浴槽ハミルトニアンにおけるスタッガー質量とホッピング項の取り込みは観察された現象学を豊かにし,相互作用のチューナビリティを増大させることがわかった。 最後に、2つのエミッタの場合のダイナミクスのコヒーレント成分と散逸成分の競合を分析し、効果的な相互作用スピンモデル記述が有効である条件を導出する。

Weyl photons appear when two three-dimensional photonic bands with linear dispersion are degenerate at a single momentum point, labeled as Weyl point. These points have remarkable properties such as being robust topological monopoles of Berry curvature as well as an associated vanishing density of states. In this work, we report on a systematic theoretical study of the quantum optical consequences of such Weyl photons. First, we analyze the dynamics of a single quantum emitter coupled to a Weyl photonic bath as a function of its detuning with respect to the Weyl point and study the corrresponding emission patterns, using both perturbative and exact treatments. Our calculations show an asymmetric dynamical behavior when the emitter is detuned away from the Weyl frequency, as well as different regimes of highly collimated emission, which ultimately translate in a variety of directional collective decays. Besides, we find that the incorporation of staggered mass and hopping terms in the bath Hamiltonian both enriches the observed phenomenology and increases the tunability of the interaction. Finally, we analyze the competition between the coherent and dissipative components of the dynamics for the case of two emitters and derive the conditions under which an effective interacting spin model description is valid.
翻訳日:2023-04-19 19:38:12 公開日:2020-12-23
# デコヒーレンス防止のためのデコヒーレンスフリー機構

Decoherence-free mechanism to protect long-range entanglement against decoherence ( http://arxiv.org/abs/2012.12882v1 )

ライセンス: Link先を確認
Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Aditi Sen De(参考訳) 可変距離相互作用を持つ量子スピンモデルは、短距離モデルが持たない特定の量子特性を示すことができる。 異なるサイト間の相互作用強度が指数関数的にも多項式的にも変化する量子xyzモデルを考えることで,システム・バス相互作用の欠如と存在の両方において,ダイナミクスにおける長距離絡み合いの発生を報告する。 具体的には、閉じたダイナミクスの間、クエンチ後の状態が低ゆらぎを持つ高い時間平均エンタングルメントを生成するように、システムがその進化を開始するべきパラメータレジームを決定する。 指数関数とパワーローの崩壊では、磁場が弱く、z方向の相互作用が非破壊的であるときに発生する。 システムの一部が繰り返し浴槽と相互作用する場合や、z方向のノイズを強調する高調波発振器の集合体に接続されている場合、環境に付着していない部分の長距離の絡み合いが、絡み合いの凍結として知られる進化の初めの時間とともに一定であり、長距離の絡み合いを保護する方法が示されている。 任意の長さにおける凍結絡み合いの含有量と凍結までの時間は、すべての相互作用の相補的関係に従うために凍結終端と呼ばれる。 しかし, 一定範囲の絡み合いに対して, 最大凍結端に至る相互作用長の臨界値が存在することがわかった。

Quantum spin models with variable-range interactions can exhibit certain quantum characteristics that a short-ranged model cannot possess. By considering the quantum XYZ model whose interaction strength between different sites varies either exponentially or polynomially, we report the creation of long-range entanglement in dynamics both in the absence and presence of system-bath interactions. Specifically, during closed dynamics, we determine a parameter regime from which the system should start its evolution so that the resulting state after quench can produce a high time-averaged entanglement having low fluctuations. Both in the exponential and power-law decays, it occurs when the magnetic field is weak and the interactions in the z-direction are nonvanishing. When part of the system interacts with the bath repeatedly or is attached to a collection of harmonic oscillators along with dephasing noise in the z-direction, we observe that long-range entanglement of the subparts which are not attached with the environment remains constant with time in the beginning of the evolution, known as freezing of entanglement, thereby demonstrating a method to protect long-range entanglement. We find that the frozen entanglement content in any length and the time up to which freezing occurs called the freezing terminal to follow a complementary relation for all ranges of interactions. However, we find that for a fixed range of entanglement, there exists a critical value of interaction length which leads to the maximum freezing terminal.
翻訳日:2023-04-19 19:37:48 公開日:2020-12-23
# 3次元長距離ランダムホッピングモデルの実験的実現

Experimental realization of a 3D long-range random hopping model ( http://arxiv.org/abs/2012.12739v1 )

ライセンス: Link先を確認
Carsten Lippe, Tanita Klas, Jana Bender, Patrick Mischke, Thomas Niederpr\"um and Herwig Ott(参考訳) ランダム性と障害は量子系の輸送過程に強く影響を与え、アンダーソン局在[1-3]、多体局在[4]、ガラス動力学[5]のような現象を引き起こす。 これらの特徴は、障害の強さや種類に依存する。 重要なクラスはホッピングモデルであり、粒子や励起がランダムに結合した系を移動する。 これには、スピングラス[5]、結合光導波路[6]、またはnvセンターアレイ[7]が含まれる。 また、光収穫錯体[8]のような分子・生物系の励起輸送を理解する鍵でもある。 これらのシステムの多くでは、マイクロカップリング機構は双極子-双極子相互作用によって提供される。 したがって、rydbergシステム [9] はランダムホッピングモデルを研究する自然な候補である。 本研究ではランダム双極子-双極子カップリングを持つ3次元多体リドバーグ系を実験的に研究する。 我々は多体系のスペクトルを測定し、有効スピンモデルとの良好な一致を求める。 また、局在-非局在化遷移の分光学的シグネチャも発見する。 本研究はランダムホッピングモデルにおける輸送過程と局在現象を詳細に研究する方法である。 強い相関の包含は実験的に単純であり、強い相互作用系においてランダムホッピングと局在の相互作用を研究することができる。

Randomness and disorder have strong impact on transport processes in quantum systems and give rise to phenomena such as Anderson localization [1-3], many-body localization [4] or glassy dynamics [5]. Their characteristics thereby depend on the strength and type of disorder. An important class are hopping models, where particles or excitations move through a system which has randomized couplings. This includes, e.g., spin glasses [5], coupled optical waveguides [6], or NV center arrays [7]. They are also key to understand excitation transport in molecular and biological systems, such as light harvesting complexes [8]. In many of those systems, the microscopic coupling mechanism is provided by the dipole-dipole interaction. Rydberg systems [9] are therefore a natural candidate to study random hopping models. Here, we experimentally study a three-dimensional many-body Rydberg system with random dipole-dipole couplings. We measure the spectrum of the many-body system and find good agreement with an effective spin model. We also find spectroscopic signatures of a localization-delocalization transition. Our results pave the way to study transport processes and localization phenomena in random hopping models in detail. The inclusion of strong correlations is experimentally straightforward and will allow to study the interplay between random hopping and localization in strongly interacting systems.
翻訳日:2023-04-19 19:35:53 公開日:2020-12-23
# 崩壊キメラグラフにおける完全グラフの埋め込み

Embedding of Complete Graphs in Broken Chimera Graphs ( http://arxiv.org/abs/2012.12720v1 )

ライセンス: Link先を確認
Elisabeth Lobe, Lukas Sch\"urmann, Tobias Stollenwerk(参考訳) D-Wave量子アニールを用いた実世界の組合せ最適化問題を解決するためには、問題をD-Waveハードウェアグラフ、すなわちChimeraやPegasusに埋め込む必要がある。 ほとんどの難しい現実世界の問題は強い接続性を示している。 完全グラフの最悪の場合、理想キメラグラフへの埋め込みの効率的な解が存在する。 しかし、実際のマシンは常にキュービットが壊れているため、壊れたハードウェアグラフに埋め込みを見つける必要がある。 本稿では,破断したキメラグラフに完全グラフを埋め込む問題に対する新しいアプローチを提案する。 この問題は最適化問題、より正確には追加の線形制約を伴うマッチング問題として定式化することができる。 一般にNPハードであるが、キメラグラフの到達不能頂点の個数では固定パラメータを抽出できる。 故障したハードウェアグラフのさまざまなインスタンスに対して、実際のハードウェアとランダムに生成されたハードウェアの両方に関して、正確なアプローチを検証した。 固定ランタイムでは、従来のヒューリスティックなアプローチに比べて大きな完全なグラフを埋め込むことができました。 拡張として、我々はさらに大きなインスタンスを解くことができる高速ヒューリスティックアルゴリズムを開発した。 私たちはヒューリスティックで正確なアプローチのパフォーマンスを比較した。

In order to solve real world combinatorial optimization problems with a D-Wave quantum annealer it is necessary to embed the problem at hand into the D-Wave hardware graph, namely Chimera or Pegasus. Most hard real world problems exhibit a strong connectivity. For the worst case scenario of a complete graph, there exists an efficient solution for the embedding into the ideal Chimera graph. However, since real machines almost always have broken qubits it is necessary to find an embedding into the broken hardware graph. We present a new approach to the problem of embedding complete graphs into broken Chimera graphs. This problem can be formulated as an optimization problem, more precisely as a matching problem with additional linear constraints. Although being NP-hard in general it is fixed parameter tractable in the number of inaccessible vertices in the Chimera graph. We tested our exact approach on various instances of broken hardware graphs, both related to real hardware as well as randomly generated. For fixed runtime, we were able to embed larger complete graphs compared to previous, heuristic approaches. As an extension, we developed a fast heuristic algorithm which enables us to solve even larger instances. We compared the performance of our heuristic and exact approaches.
翻訳日:2023-04-19 19:35:33 公開日:2020-12-23
# Klein-Gordon方程式の一般比較定理の洗練

Refining the general comparison theorem for Klein-Gordon equation ( http://arxiv.org/abs/2012.13008v1 )

ライセンス: Link先を確認
Richard L. Hall, Hassan Harb(参考訳) ここで、Klein--Gordon方程式を結合パラメータ $v > 0 の固有方程式として再キャストすることにより、基本的なKlein--Gordon比較定理は$f_1\leq f_2\implies G_1(E)\leq G_2(E)$と書けるが、$f_1$と$f_2$は、2つの中心ポテンシャルの単調な非減少形である$V_1(r) = v_1\,f_1(r)$と$V_2(r) = v_2\,f_2(r)$である。 一方、$v_1 = G_1(E)$と$v_2 = G_2(E)$はエネルギー$E\in(-m,\,m)$の関数である対応する結合パラメータである。 例えば、$d=1$ 次元において、$\int_0^x\big[f_2(t) - f_1(t)\big]\varphi_i(t)dt\geq 0$ とすると、結合は$v_1 \leq v_2$ であり、$i = 1\, {\rm or}\,$および$\{\varphi_1, \varphi_2\}$ は結合の$\{v_1,\,v_2\}$ に対応する基底状態である。 $. この結果は、spherally symmetric radial potentials in $ d > 1 $ dimensions にまで拡張される。

By recasting the Klein--Gordon equation as an eigen-equation in the coupling parameter $v > 0,$ the basic Klein--Gordon comparison theorem may be written $f_1\leq f_2\implies G_1(E)\leq G_2(E)$, where $f_1$ and $f_2$, are the monotone non-decreasing shapes of two central potentials $V_1(r) = v_1\,f_1(r)$ and $V_2(r) = v_2\, f_2(r)$ on $[0,\infty)$. Meanwhile $v_1 = G_1(E)$ and $v_2 = G_2(E)$ are the corresponding coupling parameters that are functions of the energy $E\in(-m,\,m)$. We weaken the sufficient condition for the ground-state spectral ordering by proving (for example in $d=1$ dimension) that if $\int_0^x\big[f_2(t) - f_1(t)\big]\varphi_i(t)dt\geq 0$, the couplings remain ordered $v_1 \leq v_2$ where $i = 1\, {\rm or}\, 2, $ and $\{\varphi_1, \varphi_2\}$ are the ground-states corresponding respectively to the couplings $\{v_1,\, v_2\}$ for a given $E \in (-m,\, m).$. This result is extended to spherically symmetric radial potentials in $ d > 1 $ dimensions.
翻訳日:2023-04-19 19:28:01 公開日:2020-12-23
# 1次元エノンの線形光学ダイナミクス

Linear-optical dynamics of one-dimensional anyons ( http://arxiv.org/abs/2012.12967v1 )

ライセンス: Link先を確認
Allan D. C. Tosta, Ernesto F. Galv\~ao, Daniel J. Brod(参考訳) 1次元格子上で定義されるボソニックおよびフェルミイオンのエノンのダイナミクスを、ハミルトニアンの生成および消滅作用素(一般に線形光学と呼ばれる)の効果の下で研究する。 これらのアノニックモデルは、異なる格子点間の非自明な交換位相を導入することによって、標準ボソニックあるいはフェルミイオン交換関係の変形から得られる。 我々は、アノニオン交換相が通常のボソニックおよびフェルミイオンの束縛挙動に及ぼす影響について検討した。 これらの粒子によって示される固有のアハラノフ・ボーム効果を利用して、2量子ビットのゲートを決定論的に絡み込み、量子計算の普遍性を証明する方法を示す。 ボソニック・アノンのコヒーレント状態を定義し、2モード線形光学デバイス上での挙動の研究を行う。 特に、交換係数の特定の値に対して、連続変数を用いた量子情報処理において重要な資源である猫状態を生成することができることを証明している。

We study the dynamics of bosonic and fermionic anyons defined on a one-dimensional lattice, under the effect of Hamiltonians quadratic in creation and annihilation operators, commonly referred to as linear optics. These anyonic models are obtained from deformations of the standard bosonic or fermionic commutation relations via the introduction of a non-trivial exchange phase between different lattice sites. We study the effects of the anyonic exchange phase on the usual bosonic and fermionic bunching behaviors. We show how to exploit the inherent Aharonov-Bohm effect exhibited by these particles to build a deterministic, entangling two-qubit gate and prove quantum computational universality in these systems. We define coherent states for bosonic anyons and study their behavior under two-mode linear-optical devices. In particular we prove that, for a specific value of the exchange factor, an anyonic mirror can generate cat states, an important resource in quantum information processing with continuous variables.
翻訳日:2023-04-19 19:27:14 公開日:2020-12-23
# 運動キラルrydberg原子の量子センシングプロトコル

Quantum sensing protocol for motionally chiral Rydberg atoms ( http://arxiv.org/abs/2012.12959v1 )

ライセンス: Link先を確認
Stefan Yoshi Buhmann, Steffen Giesen, Mira Diekmann, Robert Berger, Stefan Aull, Markus Debatin, Peter Zahariev, Kilian Singer(参考訳) 円偏光rydberg原子の運動誘起キラリティーを示すために量子センシングプロトコルが提案されている。 この目的のために、リドベルク原子の雲は双色光電場に着飾られている。 これにより、ランジー干渉計とスピンエコーパルスシーケンスを併用してアキラル相互作用を再焦点化するための長寿命基底状態を利用することができる。 ドレッシングレーザの最適パラメータを同定する。 ライドベルク原子の円偏極双極子遷移と原子中心運動を組み合わせると、系はキラルになる。 カイラルミラーによって誘導される判別的カイラルエネルギーシフトは、マクロ的な量子電磁力学のアプローチを用いて推定される。

A quantum sensing protocol is proposed for demonstrating the motion-induced chirality of circularly polarised Rydberg atoms. To this end, a cloud of Rydberg atoms is dressed by a bichromatic light field. This allows to exploit the long-lived ground states for implementing a Ramsey interferometer in conjunction with a spin echo pulse sequence for refocussing achiral interactions. Optimal parameters for the dressing lasers are identified. Combining a circularly polarised dipole transition in the Rydberg atom with atomic centre-of-mass motion, the system becomes chiral. The resulting discriminatory chiral energy shifts induced by a chiral mirror are estimated using a macroscopic quantum electrodynamics approach.
翻訳日:2023-04-19 19:26:59 公開日:2020-12-23
# ディジタル近接追跡アプリケーションのための共通性能と有効性用語を目指して

Towards a common performance and effectiveness terminology for digital proximity tracing applications ( http://arxiv.org/abs/2012.12927v1 )

ライセンス: Link先を確認
Justus Benzler, Dan Bogdanov, G\"oran Kirchner, Wouter Lueks, Raquel Lucas, Rui Oliveira, Bart Preneel, Marcel Salathe, Carmela Troncoso, Viktor von Wyl(参考訳) Sars-CoV-2パンデミック対策のためのデジタル近接追跡(DPT)は、感染した人へのリスク暴露をアプリユーザーに通知する主な目的との複雑な介入である。 政策立案者やDPTオペレーターは、彼らのシステムが速度や歩留まり(性能)の観点から期待どおりに機能するか、また、DPTがパンデミックの緩和(特に手動接触追跡など、確立された緩和策と比較して)に効果的な貢献をしているかどうかを知る必要がある。 したがって、パフォーマンスと効果は混乱するべきではない。 概念的な違いだけでなく、さまざまなデータ要件もある。 本稿では, DPT評価のための用語・分類システムの開発を試み, 性能と有効性の違いについて述べる。 我々は、DPTアプリへの追加データ計測の統合が、その主要な通知の役割を果たすために必要なものを超えて、計画およびデプロイされたDPTアプリの性能と有効性を理解する上で重要な側面について論じる。 したがって、用語と分類行列は、どの測定を優先順位付けすべきかについて、DPTシステムオペレータにいくつかのガイダンスを与えることができる。 DPTの開発者やオペレータは、疫病モニタリングのための対策を統合するための意識的な判断を下すこともあるが、本来のDPT設計の一部ではないDPTに二次的な目的を導入することに留意する必要がある。 最終的に、パンデミック監視のためのさらなる情報をDPTに統合するには、データの粒度とリンクのトレードオフと、他方のプライバシのトレードオフが伴う。 意思決定者は、dptの通知および監視システムを計画し開発する場合や、既存の連絡先追跡システムに対するdptの付加価値を評価する場合、トレードオフを認識して考慮すべきである。

Digital proximity tracing (DPT) for Sars-CoV-2 pandemic mitigation is a complex intervention with the primary goal to notify app users about possible risk exposures to infected persons. Policymakers and DPT operators need to know whether their system works as expected in terms of speed or yield (performance) and whether DPT is making an effective contribution to pandemic mitigation (also in comparison to and beyond established mitigation measures, particularly manual contact tracing). Thereby, performance and effectiveness are not to be confused. Not only are there conceptual differences but also diverse data requirements. This article describes differences between performance and effectiveness measures and attempts to develop a terminology and classification system for DPT evaluation. We discuss key aspects for critical assessments of whether the integration of additional data measurements into DPT apps - beyond what is required to fulfill its primary notification role - may facilitate an understanding of performance and effectiveness of planned and deployed DPT apps. Therefore, the terminology and a classification matrix may offer some guidance to DPT system operators regarding which measurements to prioritize. DPT developers and operators may also make conscious decisions to integrate measures for epidemic monitoring but should be aware that this introduces a secondary purpose to DPT that is not part of the original DPT design. Ultimately, the integration of further information for epidemic monitoring into DPT involves a trade-off between data granularity and linkage on the one hand, and privacy on the other. Decision-makers should be aware of the trade-off and take it into account when planning and developing DPT notification and monitoring systems or intending to assess the added value of DPT relative to existing contact tracing systems.
翻訳日:2023-04-19 19:26:49 公開日:2020-12-23
# マージンランキング下の領域を用いた誤記データの同定

Identifying Mislabeled Data using the Area Under the Margin Ranking ( http://arxiv.org/abs/2001.10528v4 )

ライセンス: Link先を確認
Geoff Pleiss, Tianyi Zhang, Ethan R. Elenberg, Kilian Q. Weinberger(参考訳) 一般的なトレーニングセットにあるすべてのデータが一般化に役立つわけではない。 本稿では,そのようなサンプルを識別し,ニューラルネットワークのトレーニングにおけるその影響を緩和する新しい手法を提案する。 私たちのアルゴリズムの核心はAUM(Area Under the Margin)統計であり、クリーンなサンプルと誤ラベルされたサンプルのトレーニングダイナミクスの違いを利用しています。 単純なプロシージャ - 意図的にラベル付けされたしきい値サンプルが混在している余分なクラスを追加する - は、ラベル付けされたデータを分離するAUM上限を学ぶ。 このアプローチは、合成および実世界のデータセットの事前処理を一貫して改善する。 WebVision50分類タスクでは、トレーニングデータの17%が削除され、テストエラーが1.6%(絶対)改善された。 cifar100ではデータの13%を削除するとエラーが1.2%減少する。

Not all data in a typical training set help with generalization; some samples can be overly ambiguous or outrightly mislabeled. This paper introduces a new method to identify such samples and mitigate their impact when training neural networks. At the heart of our algorithm is the Area Under the Margin (AUM) statistic, which exploits differences in the training dynamics of clean and mislabeled samples. A simple procedure - adding an extra class populated with purposefully mislabeled threshold samples - learns a AUM upper bound that isolates mislabeled data. This approach consistently improves upon prior work on synthetic and real-world datasets. On the WebVision50 classification task our method removes 17% of training data, yielding a 1.6% (absolute) improvement in test error. On CIFAR100 removing 13% of the data leads to a 1.2% drop in error.
翻訳日:2023-01-06 02:06:42 公開日:2020-12-23
# 隠れ変数を持つデータから微分方程式を明らかにする

Uncovering differential equations from data with hidden variables ( http://arxiv.org/abs/2002.02250v2 )

ライセンス: Link先を確認
Agust\'in Somacal, Yamila Barrera, Leonardo Boechi, Matthieu Jonckheere, Vincent Lefieux, Dominique Picard and Ezequiel Smucler(参考訳) sindyは,線形回帰最適化問題[brunton et al., 2016]を解くことで,データから微分方程式のシステムを学ぶ手法である。 本稿では,変数のいくつかが観測されない場合に微分方程式の系を学習するSINDy法の拡張を提案する。 我々の拡張は、対象変数の高次時間微分を、対象変数の低次時間微分を含む関数の辞書に回帰することに基づいている。 本手法は,合成データおよびr\'eseau de transport d'\'electricit\'e (rte) による温度時系列の実データを用いて,学習力学系の予測精度を測定した。 提案手法は高品質な短期予測を提供し,潜在変数を持つ微分方程式を学習する手法よりも桁違いに高速である。

SINDy is a method for learning system of differential equations from data by solving a sparse linear regression optimization problem [Brunton et al., 2016]. In this article, we propose an extension of the SINDy method that learns systems of differential equations in cases where some of the variables are not observed. Our extension is based on regressing a higher order time derivative of a target variable onto a dictionary of functions that includes lower order time derivatives of the target variable. We evaluate our method by measuring the prediction accuracy of the learned dynamical systems on synthetic data and on a real data-set of temperature time series provided by the R\'eseau de Transport d'\'Electricit\'e (RTE). Our method provides high quality short-term forecasts and it is orders of magnitude faster than competing methods for learning differential equations with latent variables.
翻訳日:2023-01-03 10:12:09 公開日:2020-12-23
# 変圧器のロバスト性検証

Robustness Verification for Transformers ( http://arxiv.org/abs/2002.06622v2 )

ライセンス: Link先を確認
Zhouxing Shi, Huan Zhang, Kai-Wei Chang, Minlie Huang, Cho-Jui Hsieh(参考訳) ニューラルネットワークの予測動作を正式に証明することを目的としたロバスト性検証は,モデルの動作を理解し,安全性を保証する上で重要なツールとなっている。 しかし、従来の手法は通常、比較的単純なアーキテクチャでニューラルネットワークのみを扱うことができる。 本稿では,トランスフォーマーのロバスト性検証問題について考察する。 トランスフォーマは複雑な自己着脱層を持ち、非線型性やクロスポジション依存性など検証の多くの課題を提起している。 これらの課題を解決し、トランスフォーマのロバスト性検証アルゴリズムを開発した。 本手法で計算したロバスト性境界は, ナイーブ間隔境界伝播法よりもかなり厳密である。 これらの境界は、感情分析における異なる単語の重要性を一貫して反映するため、トランスフォーマーの解釈にも光を当てた。

Robustness verification that aims to formally certify the prediction behavior of neural networks has become an important tool for understanding model behavior and obtaining safety guarantees. However, previous methods can usually only handle neural networks with relatively simple architectures. In this paper, we consider the robustness verification problem for Transformers. Transformers have complex self-attention layers that pose many challenges for verification, including cross-nonlinearity and cross-position dependency, which have not been discussed in previous works. We resolve these challenges and develop the first robustness verification algorithm for Transformers. The certified robustness bounds computed by our method are significantly tighter than those by naive Interval Bound Propagation. These bounds also shed light on interpreting Transformers as they consistently reflect the importance of different words in sentiment analysis.
翻訳日:2022-12-31 17:39:12 公開日:2020-12-23
# Few-Shot CNNセグメンテーションのためのテクスチャバイアスについて

On the Texture Bias for Few-Shot CNN Segmentation ( http://arxiv.org/abs/2003.04052v3 )

ライセンス: Link先を確認
Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するための形状によって駆動されるという最初の信念にもかかわらず、最近の証拠は、CNNのテクスチャバイアスが大きなラベル付きトレーニングデータセットで学習する際のより高いパフォーマンスモデルを提供することを示している。 これは、人間の視覚野における知覚バイアスとは対照的であり、形状成分に対してより強い嗜好を持つ。 認識上の違いは、CNNが大規模なラベル付きデータセットが利用可能である場合に、人間レベルのパフォーマンスを達成する理由を説明することができる。 少数ショット学習の文脈におけるテクスチャバイアスを取り除くために,gaussian (dog) の差分セットを統合し,特徴空間における高周波局所成分を減衰させる新しいアーキテクチャを提案する。 これにより、空間領域におけるガウス分布の異なる標準偏差値で高周波成分が減少する修正された特徴写像が生成される。 これにより、複数の特徴写像を1つの画像に分割し、双方向の畳み込み長短メモリを用いてマルチスケール空間表現を効率よくマージする。 私たちは、Pascal i5、COCO-20i、FSS-1000の3つの有名なショットセグメンテーションベンチマークで広範な実験を行い、同じ条件下での2つのデータセットにおける最先端のアプローチよりも優れていることを示す。 コードはhttps://github.com/rezazad68/fewshot-segmentationで入手できる。

Despite the initial belief that Convolutional Neural Networks (CNNs) are driven by shapes to perform visual recognition tasks, recent evidence suggests that texture bias in CNNs provides higher performing models when learning on large labeled training datasets. This contrasts with the perceptual bias in the human visual cortex, which has a stronger preference towards shape components. Perceptual differences may explain why CNNs achieve human-level performance when large labeled datasets are available, but their performance significantly degrades in lowlabeled data scenarios, such as few-shot semantic segmentation. To remove the texture bias in the context of few-shot learning, we propose a novel architecture that integrates a set of Difference of Gaussians (DoG) to attenuate high-frequency local components in the feature space. This produces a set of modified feature maps, whose high-frequency components are diminished at different standard deviation values of the Gaussian distribution in the spatial domain. As this results in multiple feature maps for a single image, we employ a bi-directional convolutional long-short-term-memory to efficiently merge the multi scale-space representations. We perform extensive experiments on three well-known few-shot segmentation benchmarks -- Pascal i5, COCO-20i and FSS-1000 -- and demonstrate that our method outperforms state-of-the-art approaches in two datasets under the same conditions. The code is available at: https://github.com/rezazad68/fewshot-segmentation
翻訳日:2022-12-25 09:00:13 公開日:2020-12-23
# 生体ネットワーク上の未観測ノード特徴の予測のためのグラフ特徴自動エンコーダ

A Graph Feature Auto-Encoder for the Prediction of Unobserved Node Features on Biological Networks ( http://arxiv.org/abs/2005.03961v2 )

ライセンス: Link先を確認
Ramin Hasibi, Tom Michoel(参考訳) モチベーション(Motivation): 分子相互作用ネットワークは複雑な生物学的過程をグラフとして要約する。 同時に、オミクス技術は遺伝子、タンパク質、代謝物の個体または実験条件における変動や活動を測定する。 生物学的ネットワークとオミクスデータの相補的な視点を統合することはバイオインフォマティクスにおいて重要な課題であるが、既存の手法ではネットワークを離散構造として扱うが、これは本質的に連続ノードの特徴や活動測定と統合することが難しい。 グラフニューラルネットワークはグラフノードを低次元ベクトル空間表現にマッピングし、局所グラフ構造とノード特徴間の類似性の両方を保存するように訓練することができる。 結果: グラフニューラルネットワークを用いて, E. Coli とマウスにおける転写, タンパク質, 遺伝子相互作用ネットワークの表現について検討した。 このような表現は遺伝子発現データの変動の多さを説明でき、遺伝子発現データをノードの特徴として用いると埋め込みからグラフの再構築が改善されることがわかった。 さらに,特徴復元タスクを訓練した新しいエンド・ツー・エンドグラフ機能オートエンコーダを提案し,ノード特徴の予測を学ぶ前に,グラフ再構築タスクで訓練されたオートエンコーダよりも非オブザーブノード特徴の予測に優れることを示した。 単一セルRNAシークデータの欠落データをインプットする問題に適用すると, グラフ表現学習を用いた生物学的ネットワークとオミクスデータの統合の利点を示す, タンパク質相互作用情報を使用しない最先端のインプット法よりも優れたオートエンコーダが得られた。

Motivation: Molecular interaction networks summarize complex biological processes as graphs, whose structure is informative of biological function at multiple scales. Simultaneously, omics technologies measure the variation or activity of genes, proteins, or metabolites across individuals or experimental conditions. Integrating the complementary viewpoints of biological networks and omics data is an important task in bioinformatics, but existing methods treat networks as discrete structures, which are intrinsically difficult to integrate with continuous node features or activity measures. Graph neural networks map graph nodes into a low-dimensional vector space representation, and can be trained to preserve both the local graph structure and the similarity between node features. Results: We studied the representation of transcriptional, protein-protein and genetic interaction networks in E. Coli and mouse using graph neural networks. We found that such representations explain a large proportion of variation in gene expression data, and that using gene expression data as node features improves the reconstruction of the graph from the embedding. We further proposed a new end-to-end graph feature auto-encoder which is trained on the feature reconstruction task, and showed that it performs better at predicting unobserved node features than auto-encoders that are trained on the graph reconstruction task before learning to predict node features. When applied to the problem of imputing missing data in single-cell RNAseq data, our graph feature auto-encoder outperformed a state-of-the-art imputation method that does not use protein interaction information, showing the benefit of integrating biological networks and omics data using graph representation learning.
翻訳日:2022-12-05 12:18:05 公開日:2020-12-23
# 動的グラフ学習による生成3次元部品の組み立て

Generative 3D Part Assembly via Dynamic Graph Learning ( http://arxiv.org/abs/2006.07793v3 )

ライセンス: Link先を確認
Jialei Huang, Guanqi Zhan, Qingnan Fan, Kaichun Mo, Lin Shao, Baoquan Chen, Leonidas Guibas, Hao Dong(参考訳) 自律的な部品組み立ては、3Dコンピュータビジョンとロボット工学において難しいが重要な課題である。 IKEA家具の購入と異なり、単一の形状を組み立てることができる3Dパーツのセットが与えられた場合、インテリジェントエージェントは3Dパーツの幾何学を知覚し、入力部品のポーズ推定を提案し、最後にロボット計画と動作制御ルーチンを呼び出す必要がある。 本稿では,入力部形状に対する幾何学的および関係的推論を含む視覚面からのポーズ推定サブプロブレムに着目した。 基本的に、生成3D部アセンブリのタスクは、最終出力として単一の3D形状を組み立てる各入力部に対して、剛性回転及び変換を含む6-DoF部ポーズを予測することである。 そこで本研究では,反復型グラフニューラルネットワークをバックボーンとして利用するアセンブリ指向動的グラフ学習フレームワークを提案する。 一対の部品関係推論モジュールと部分集合モジュールを利用して、部分特徴と部分グラフにおけるそれらの関係を動的に調整する。 提案手法の有効性を実証し,3つの強力なベースライン法との比較を行った。

Autonomous part assembly is a challenging yet crucial task in 3D computer vision and robotics. Analogous to buying an IKEA furniture, given a set of 3D parts that can assemble a single shape, an intelligent agent needs to perceive the 3D part geometry, reason to propose pose estimations for the input parts, and finally call robotic planning and control routines for actuation. In this paper, we focus on the pose estimation subproblem from the vision side involving geometric and relational reasoning over the input part geometry. Essentially, the task of generative 3D part assembly is to predict a 6-DoF part pose, including a rigid rotation and translation, for each input part that assembles a single 3D shape as the final output. To tackle this problem, we propose an assembly-oriented dynamic graph learning framework that leverages an iterative graph neural network as a backbone. It explicitly conducts sequential part assembly refinements in a coarse-to-fine manner, exploits a pair of part relation reasoning module and part aggregation module for dynamically adjusting both part features and their relations in the part graph. We conduct extensive experiments and quantitative comparisons to three strong baseline methods, demonstrating the effectiveness of the proposed approach.
翻訳日:2022-11-21 13:05:33 公開日:2020-12-23
# ニューラルネットワークを用いた離散図形モデルの学習

Learning of Discrete Graphical Models with Neural Networks ( http://arxiv.org/abs/2006.11937v2 )

ライセンス: Link先を確認
Abhijith J., Andrey Y. Lokhov, Sidhant Misra, and Marc Vuffray(参考訳) グラフィカルモデルは、基礎となる条件依存構造を持つ合同確率分布を表現するために科学において広く使われている。 GRISE(Generalized Regularized Interaction Screening Estimator)と呼ばれる凸最適化法を用いて,その共分散分布から得られる離散的グラフィカルモデルを学習する逆問題について,ほぼ最適なサンプル複雑性で解くことができる。 しかし、真のグラフィカルモデルのエネルギー関数が高次項を持つとき、GRISEの計算コストは禁じられる。 グラフモデル学習のためのニューラルネットベースのアルゴリズムNeurISEを導入し、GRISEのこの制限に対処する。 相互作用スクリーニング対象関数の関数近似器としてニューラルネットを用いる。 この目的の最適化は、グラフィカルモデルの条件に対するニューラルネット表現を生成する。 ニューレーズアルゴリズムは、真のモデルのエネルギー関数が高次で高次な対称性を持つ場合、グリースより優れた選択肢であると見なされる。 これらのケースでは、NeurISEは真のモデルに関する事前情報を得ることなく、条件の正しい同義表現を見つけることができる。 NeurISEは、トレーニング手順にいくつかの簡単な変更を加えることで、真のモデルの基盤構造を学ぶためにも使用できる。 さらに,本モデルの全エネルギー関数のニューラルネット表現を学習するために使用できるニューロピーズの変種も提示する。

Graphical models are widely used in science to represent joint probability distributions with an underlying conditional dependence structure. The inverse problem of learning a discrete graphical model given i.i.d samples from its joint distribution can be solved with near-optimal sample complexity using a convex optimization method known as Generalized Regularized Interaction Screening Estimator (GRISE). But the computational cost of GRISE becomes prohibitive when the energy function of the true graphical model has higher-order terms. We introduce NeurISE, a neural net based algorithm for graphical model learning, to tackle this limitation of GRISE. We use neural nets as function approximators in an Interaction Screening objective function. The optimization of this objective then produces a neural-net representation for the conditionals of the graphical model. NeurISE algorithm is seen to be a better alternative to GRISE when the energy function of the true model has a high order with a high degree of symmetry. In these cases NeurISE is able to find the correct parsimonious representation for the conditionals without being fed any prior information about the true model. NeurISE can also be used to learn the underlying structure of the true model with some simple modifications to its training procedure. In addition, we also show a variant of NeurISE that can be used to learn a neural net representation for the full energy function of the true model.
翻訳日:2022-11-18 12:06:54 公開日:2020-12-23
# 局所的誤りを伴う深層学習における多様体の滑らかさと敵対的脆弱性の関係

Relationship between manifold smoothness and adversarial vulnerability in deep learning with local errors ( http://arxiv.org/abs/2007.02047v2 )

ライセンス: Link先を確認
Zijian Jiang, Jianwen Zhou, and Haiping Huang(参考訳) ニューラルネットワークは印象的なパフォーマンスを達成し、特定のタスクで人間よりも優れています。 それにもかかわらず、生物学的脳とは異なり、ニューラルネットワークは様々な種類の敵の攻撃下で、感覚入力の小さな摂動に苦しむ。 したがって、敵の脆弱性の起源を研究する必要がある。 ここでは,隠蔽表現の幾何学(多様体パースペクティブ)と深層ネットワークの一般化能力の基本的な関係を確立する。 この目的のために,局所誤差で学習した深層ニューラルネットワークを選択し,多様体次元,多様体滑らか性,一般化能力を通じて学習したネットワークの創発的特性を分析する。 敵対的事例の効果を探るため,独立系ガウス雑音攻撃とFGSM攻撃について検討する。 本研究は,隠れ表現の固有スペクトルの比較的高速なパワーロー崩壊を必要とすることを明らかにする。 ガウス攻撃では、一般化精度とパワーロー指数の関係は単調であり、FGSM攻撃では非単調な振る舞いが観察される。 我々の実証研究は、敵の攻撃下での敵の脆弱性に関する最終的な機械的な解釈への道筋を提供する。

Artificial neural networks can achieve impressive performances, and even outperform humans in some specific tasks. Nevertheless, unlike biological brains, the artificial neural networks suffer from tiny perturbations in sensory input, under various kinds of adversarial attacks. It is therefore necessary to study the origin of the adversarial vulnerability. Here, we establish a fundamental relationship between geometry of hidden representations (manifold perspective) and the generalization capability of the deep networks. For this purpose, we choose a deep neural network trained by local errors, and then analyze emergent properties of trained networks through the manifold dimensionality, manifold smoothness, and the generalization capability. To explore effects of adversarial examples, we consider independent Gaussian noise attacks and fast-gradient-sign-method (FGSM) attacks. Our study reveals that a high generalization accuracy requires a relatively fast power-law decay of the eigen-spectrum of hidden representations. Under Gaussian attacks, the relationship between generalization accuracy and power-law exponent is monotonic, while a non-monotonic behavior is observed for FGSM attacks. Our empirical study provides a route towards a final mechanistic interpretation of adversarial vulnerability under adversarial attacks.
翻訳日:2022-11-13 13:02:58 公開日:2020-12-23
# TextVQAのための空間的マルチモーダル変換器

Spatially Aware Multimodal Transformers for TextVQA ( http://arxiv.org/abs/2007.12146v2 )

ライセンス: Link先を確認
Yash Kant, Dhruv Batra, Peter Anderson, Alex Schwing, Devi Parikh, Jiasen Lu, Harsh Agrawal(参考訳) テキスト・キューは食料品の購入や公共交通機関の利用といった日常的な作業に不可欠である。 この支援技術を開発するために,textvqaタスク,すなわち,画像中のテキストを推論して質問に回答する。 既存のアプローチは空間関係の利用に限られており、シーンの空間構造を暗黙的に学習するために完全に接続されたトランスフォーマーのようなアーキテクチャに依存している。 対照的に,空間グラフで定義された隣接エンティティのみを視認する,空間的に認識可能な新しい自己照準層を提案する。 さらに、私たちのマルチヘッド自己注意層の各ヘッドは、関係の異なるサブセットに焦点を当てています。 提案手法の利点は,(1)視覚的特徴に注意を分散させるのではなく,各頭部が局所的な文脈を考慮し,(2)冗長な特徴の学習を避けることにある。 このモデルにより,textvqaにおける最先端手法の絶対精度が,ベースラインの改善よりも2.2%向上し,ocrトークンを用いて正解できる空間的推論を伴う4.62%向上した。 ST-VQAと同様、絶対精度は4.2%向上する。 さらに,空間的意識が視覚的接地を改善することを示す。

Textual cues are essential for everyday tasks like buying groceries and using public transport. To develop this assistive technology, we study the TextVQA task, i.e., reasoning about text in images to answer a question. Existing approaches are limited in their use of spatial relations and rely on fully-connected transformer-like architectures to implicitly learn the spatial structure of a scene. In contrast, we propose a novel spatially aware self-attention layer such that each visual entity only looks at neighboring entities defined by a spatial graph. Further, each head in our multi-head self-attention layer focuses on a different subset of relations. Our approach has two advantages: (1) each head considers local context instead of dispersing the attention amongst all visual entities; (2) we avoid learning redundant features. We show that our model improves the absolute accuracy of current state-of-the-art methods on TextVQA by 2.2% overall over an improved baseline, and 4.62% on questions that involve spatial reasoning and can be answered correctly using OCR tokens. Similarly on ST-VQA, we improve the absolute accuracy by 4.2%. We further show that spatially aware self-attention improves visual grounding.
翻訳日:2022-11-07 12:47:39 公開日:2020-12-23
# 組合せ最適化のための強化学習に関する調査

A Survey on Reinforcement Learning for Combinatorial Optimization ( http://arxiv.org/abs/2008.12248v2 )

ライセンス: Link先を確認
Yunhao Yang, Andrew Whinston(参考訳) 本稿では,組合せ最適化における強化学習の詳細なレビューを行い,1960年代からの組合せ最適化の歴史を紹介し,近年の強化学習アルゴリズムと比較する。 我々はトラベルセールスパーソン問題(tsp)として知られる有名な組合せ問題を明確に見る。 TSPにおける現代の強化学習アルゴリズムのアプローチと1970年に発表されたアプローチを比較した。 そして,これらのアルゴリズムの類似性と,機械学習技術と計算能力の進化による強化学習のアプローチがどう変化するかについて議論する。 また、深層強化学習(Deep Reinforcement Learning)と呼ばれるTSPのディープラーニングアプローチについても言及する。 我々は、ディープラーニングは従来の強化学習アルゴリズムと統合し、TSPの結果を最適化できる汎用的なアプローチであると主張している。

This paper gives a detailed review of reinforcement learning in combinatorial optimization, introduces the history of combinatorial optimization starting in the 1960s, and compares it with the reinforcement learning algorithms in recent years. We explicitly look at a famous combinatorial problem known as the Traveling Salesperson Problem (TSP). We compare the approach of the modern reinforcement learning algorithms on TSP with an approach published in 1970. Then, we discuss the similarities between these algorithms and how the approach of reinforcement learning changes due to the evolution of machine learning techniques and computing power. We also mention the deep learning approach on the TSP, which is named Deep Reinforcement Learning. We argue that deep learning is a generic approach that can be integrated with traditional reinforcement learning algorithms and optimize the outcomes of the TSP.
翻訳日:2022-10-28 03:06:07 公開日:2020-12-23
# XNAP:LSTMベースの次のアクティビティ予測をLRPで説明可能にする

XNAP: Making LSTM-based Next Activity Predictions Explainable by Using LRP ( http://arxiv.org/abs/2008.07993v3 )

ライセンス: Link先を確認
Sven Weinzierl and Sandra Zilker and Jens Brunk and Kate Revoredo and Martin Matzner and J\"org Becker(参考訳) 予測ビジネスプロセス監視(Predictive Business Process Monitoring、PBPM)は、トレース実行時の次のアクティビティなどの振る舞いを予測するために設計されたテクニックのクラスである。 pbpm技術は、プロセスアナリストに予測を提供し、意思決定を支援することによって、プロセスパフォーマンスを改善することを目的としています。 しかし, PBPM技術は, これらの手法を実際に確立するためには, 限られた予測品質が不可欠であると考えられた。 ディープニューラルネットワーク(DNN)を使用することで、次のアクティビティ予測のようなタスクにおいて、‘予測品質’が向上する可能性がある。 DNNは有望な予測品質を達成するが、学習表現の階層的なアプローチのため、理解力に欠ける。 それでもプロセスアナリストは、プロセスのパフォーマンスを確保するための意思決定に影響を与える可能性のある介入メカニズムを特定するための予測の原因を理解する必要がある。 本稿では,次の活動予測のためのDNNベースのPBPM技術であるXNAPを提案する。 XNAPは、説明可能な人工知能の分野からのレイヤーワイド関連伝搬法を統合し、アクティビティの関連値を提供することで、長期記憶DNNの予測を可能にする。 2つの実生活イベントログを通じて、我々のアプローチの利点を示す。

Predictive business process monitoring (PBPM) is a class of techniques designed to predict behaviour, such as next activities, in running traces. PBPM techniques aim to improve process performance by providing predictions to process analysts, supporting them in their decision making. However, the PBPM techniques` limited predictive quality was considered as the essential obstacle for establishing such techniques in practice. With the use of deep neural networks (DNNs), the techniques` predictive quality could be improved for tasks like the next activity prediction. While DNNs achieve a promising predictive quality, they still lack comprehensibility due to their hierarchical approach of learning representations. Nevertheless, process analysts need to comprehend the cause of a prediction to identify intervention mechanisms that might affect the decision making to secure process performance. In this paper, we propose XNAP, the first explainable, DNN-based PBPM technique for the next activity prediction. XNAP integrates a layer-wise relevance propagation method from the field of explainable artificial intelligence to make predictions of a long short-term memory DNN explainable by providing relevance values for activities. We show the benefit of our approach through two real-life event logs.
翻訳日:2022-10-27 21:57:45 公開日:2020-12-23
# 不均衡分類のための非現実的マイノリティオーバーサンプリング

Counterfactual-based minority oversampling for imbalanced classification ( http://arxiv.org/abs/2008.09488v2 )

ライセンス: Link先を確認
Hao Luo and Li Liu(参考訳) 不均衡分類のオーバーサンプリングの重要な課題は、新しいマイノリティ・サンプルの生成が多数派クラスの使用をしばしば無視し、その結果、ほとんどのマイノリティ・サンプリングがマイノリティ・スペース全体に広がることである。 この観点から, 対実理論に基づく新しいオーバーサンプリングフレームワークを提案する。 本フレームワークは,多数派集団の豊富な固有情報を活用し,多数派集団を明示的に摂動させ,少数派の領域で新たなサンプルを生成することで,対物目的を導入する。 新しいマイノリティ標本が最小の逆転を満足していることが解析的に示され、そのほとんどは決定境界付近にある。 ベンチマークデータセットに対する実証的な評価は、我々のアプローチが最先端の手法を大きく上回っていることを示唆している。

A key challenge of oversampling in imbalanced classification is that the generation of new minority samples often neglects the usage of majority classes, resulting in most new minority sampling spreading the whole minority space. In view of this, we present a new oversampling framework based on the counterfactual theory. Our framework introduces a counterfactual objective by leveraging the rich inherent information of majority classes and explicitly perturbing majority samples to generate new samples in the territory of minority space. It can be analytically shown that the new minority samples satisfy the minimum inversion, and therefore most of them locate near the decision boundary. Empirical evaluations on benchmark datasets suggest that our approach significantly outperforms the state-of-the-art methods.
翻訳日:2022-10-26 21:11:14 公開日:2020-12-23
# Q-Networksをイベント駆動スパイクニューラルネットワークに変換するための戦略とベンチマーク

Strategy and Benchmark for Converting Deep Q-Networks to Event-Driven Spiking Neural Networks ( http://arxiv.org/abs/2009.14456v2 )

ライセンス: Link先を確認
Weihao Tan, Devdhar Patel, Robert Kozma(参考訳) スパイキングニューラルネットワーク(SNN)は、専用のニューロモルフィックハードウェア上でのディープニューラルネットワーク(DNN)のエネルギー効率の高い実装に大きな可能性を秘めている。 近年の研究では、CIFAR-10やImageNetデータを含む画像分類タスクにおいて、DNNと比較してSNNの競合性能が示された。 本研究は,画像分類と比較して複雑さが増すATARIゲームにおいて,深い強化学習と組み合わせてSNNを使うことに焦点を当てる。 本稿では、DNNをSNNに変換し、DQN(Deep Q-Networks)に変換する理論についてレビューする。 変換過程における誤差を低減するため, 燃焼速度のロバスト表現を提案する。 さらに,DQN と SNN による決定をそれぞれ比較し,変換過程を評価するための新しい指標を提案する。 また,シミュレーション時間とパラメータ正規化が変換SNNの性能に与える影響を解析した。 我々は,アタリのトップパフォーマンスゲーム17で得点を達成した。 我々の知る限りでは、SNNを使った複数のAtariゲームで最先端のパフォーマンスを達成するのはこれが初めてです。 我々の研究は、DQNをSNNに変換するためのベンチマークとして機能し、SNNによる強化学習タスクのさらなる研究の道を開く。

Spiking neural networks (SNNs) have great potential for energy-efficient implementation of Deep Neural Networks (DNNs) on dedicated neuromorphic hardware. Recent studies demonstrated competitive performance of SNNs compared with DNNs on image classification tasks, including CIFAR-10 and ImageNet data. The present work focuses on using SNNs in combination with deep reinforcement learning in ATARI games, which involves additional complexity as compared to image classification. We review the theory of converting DNNs to SNNs and extending the conversion to Deep Q-Networks (DQNs). We propose a robust representation of the firing rate to reduce the error during the conversion process. In addition, we introduce a new metric to evaluate the conversion process by comparing the decisions made by the DQN and SNN, respectively. We also analyze how the simulation time and parameter normalization influence the performance of converted SNNs. We achieve competitive scores on 17 top-performing Atari games. To the best of our knowledge, our work is the first to achieve state-of-the-art performance on multiple Atari games with SNNs. Our work serves as a benchmark for the conversion of DQNs to SNNs and paves the way for further research on solving reinforcement learning tasks with SNNs.
翻訳日:2022-10-12 22:25:23 公開日:2020-12-23
# 重力波データ解析におけるディープラーニング技術の改良

Improved deep learning techniques in gravitational-wave data analysis ( http://arxiv.org/abs/2011.04418v2 )

ライセンス: Link先を確認
Heming Xia, Lijing Shao, Junjie Zhao, Zhoujian Cao(参考訳) 近年、畳み込みニューラルネットワーク(CNN)や他のディープラーニングモデルが重力波(GW)データ処理の領域に徐々に導入されている。 従来のマッチングフィルタ技術と比較して、CNNはGW信号検出タスクの効率において大きな利点がある。 さらに、マッチングフィルタ技術は、既存の理論波形のテンプレートバンクに基づいており、理論的な期待以上のgw信号を見つけるのが困難である。 本稿では,二元ブラックホールのgw検出の課題に基づいて,バッチ正規化やドロップアウトといった深層学習の最適化手法をcnnモデルに導入する。 モデル性能に関する詳細な研究が行われている。 本研究では,GW信号検出タスクにおいて,CNNモデルにおけるバッチ正規化とドロップアウト手法を用いることを推奨する。 さらに,GW信号のパラメータ範囲の異なるCNNモデルの一般化能力について検討する。 我々は,CNNモデルがGW波形のパラメータ範囲の変化に対して頑健であることを指摘する。 これは、マッチングフィルタリング技術よりもディープラーニングモデルの大きな利点である。

In recent years, convolutional neural network (CNN) and other deep learning models have been gradually introduced into the area of gravitational-wave (GW) data processing. Compared with the traditional matched-filtering techniques, CNN has significant advantages in efficiency in GW signal detection tasks. In addition, matched-filtering techniques are based on the template bank of the existing theoretical waveform, which makes it difficult to find GW signals beyond theoretical expectation. In this paper, based on the task of GW detection of binary black holes, we introduce the optimization techniques of deep learning, such as batch normalization and dropout, to CNN models. Detailed studies of model performance are carried out. Through this study, we recommend to use batch normalization and dropout techniques in CNN models in GW signal detection tasks. Furthermore, we investigate the generalization ability of CNN models on different parameter ranges of GW signals. We point out that CNN models are robust to the variation of the parameter range of the GW waveform. This is a major advantage of deep learning models over matched-filtering techniques.
翻訳日:2022-09-28 00:42:44 公開日:2020-12-23
# 一貫した視覚的質問応答のための語彙摂動から学ぶ

Learning from Lexical Perturbations for Consistent Visual Question Answering ( http://arxiv.org/abs/2011.13406v2 )

ライセンス: Link先を確認
Spencer Whitehead, Hui Wu, Yi Ren Fung, Heng Ji, Rogerio Feris, Kate Saenko(参考訳) 既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。 本稿では,モジュール型ネットワークに基づく新しい手法を提案する。この手法は,言語摂動による2つの質問を生成し,その間の視覚的推論過程をトレーニング中に整合性に調整する。 本稿では,VQAモデルの学習・正規化ツールとして,制御言語摂動の価値を実証し,一貫性と一般化能力を著しく向上することを示す。 また、VQA質問の制御可能な言語的バリエーションを生成するために、新しい低コストベンチマークと拡張パイプラインであるVQA Perturbed Pairings (VQA P2)を提案する。 本ベンチマークは,大規模な言語資源から独自に抽出し,データ品質を維持しつつ,人間のアノテーションを回避し,生成的手法と比較した。 我々は,VQA P2を用いて既存のVQAモデルをベンチマークし,各種類の言語変化についてロバスト性解析を行う。

Existing Visual Question Answering (VQA) models are often fragile and sensitive to input variations. In this paper, we propose a novel approach to address this issue based on modular networks, which creates two questions related by linguistic perturbations and regularizes the visual reasoning process between them to be consistent during training. We show that our framework markedly improves consistency and generalization ability, demonstrating the value of controlled linguistic perturbations as a useful and currently underutilized training and regularization tool for VQA models. We also present VQA Perturbed Pairings (VQA P2), a new, low-cost benchmark and augmentation pipeline to create controllable linguistic variations of VQA questions. Our benchmark uniquely draws from large-scale linguistic resources, avoiding human annotation effort while maintaining data quality compared to generative approaches. We benchmark existing VQA models using VQA P2 and provide robustness analysis on each type of linguistic variation.
翻訳日:2022-09-20 09:14:11 公開日:2020-12-23
# ディープラーニングに基づくDenoisingアルゴリズムによるリアルタイムモンテカルロ線量計算に向けたDeep Dose Plugin

Deep Dose Plugin Towards Real-time Monte Carlo Dose Calculation Through a Deep Learning based Denoising Algorithm ( http://arxiv.org/abs/2011.14959v2 )

ライセンス: Link先を確認
Ti Bai, Biling Wang, Dan Nguyen, Steve Jiang(参考訳) モンテカルロ (MC) シミュレーションは放射線治療用線量計算の金標準法であると考えられている。 しかし、高精度を実現するには多くのシミュレーション履歴が必要であり、これは時間を要する。 コンピュータグラフィックス処理ユニット(GPU)の使用はMCシミュレーションを大幅に加速し、典型的な放射線治療計画のために数分以内に線量計算を可能にした。 しかし、いくつかの臨床応用では、MC線量計算のリアルタイム効率が要求される。 この問題に対処するため,我々は,リアルタイムMC線量計算を実現するために,現在のGPUベースのMC線量エンジンに接続可能なリアルタイム深層学習ベースの線量デノイザを開発した。 この目的を達成するために,(1)voxelアンシャッフルとvoxelシャッフル演算子を適用し,情報損失のない入出力サイズを低減し,2)3次元体積畳み込みを2次元軸畳み込みと1次元スライス畳み込みに分離した。 さらに、弱教師付き学習フレームワークを用いてネットワークをトレーニングし、必要なトレーニングデータセットのサイズを大幅に削減し、訓練されたモデルの異なる放射線ビームへの高速な微調整を可能とした。 実験の結果,提案したデノイザは39msで動作可能であり,ベースラインモデルよりも約11.6倍高速であることがわかった。 結果として、MC線量計算パイプライン全体が0.15秒以内で完了し、GPU MC線量計算とディープラーニングに基づく denoising の両方が含まれ、オンライン適応放射線治療のような放射線治療応用に必要なリアルタイム効率を達成することができる。

Monte Carlo (MC) simulation is considered the gold standard method for radiotherapy dose calculation. However, achieving high precision requires a large number of simulation histories, which is time consuming. The use of computer graphics processing units (GPUs) has greatly accelerated MC simulation and allows dose calculation within a few minutes for a typical radiotherapy treatment plan. However, some clinical applications demand real time efficiency for MC dose calculation. To tackle this problem, we have developed a real time, deep learning based dose denoiser that can be plugged into a current GPU based MC dose engine to enable real time MC dose calculation. We used two different acceleration strategies to achieve this goal: 1) we applied voxel unshuffle and voxel shuffle operators to decrease the input and output sizes without any information loss, and 2) we decoupled the 3D volumetric convolution into a 2D axial convolution and a 1D slice convolution. In addition, we used a weakly supervised learning framework to train the network, which greatly reduces the size of the required training dataset and thus enables fast fine tuning based adaptation of the trained model to different radiation beams. Experimental results show that the proposed denoiser can run in as little as 39 ms, which is around 11.6 times faster than the baseline model. As a result, the whole MC dose calculation pipeline can be finished within 0.15 seconds, including both GPU MC dose calculation and deep learning based denoising, achieving the real time efficiency needed for some radiotherapy applications, such as online adaptive radiotherapy.
翻訳日:2021-06-06 14:42:48 公開日:2020-12-23
# CPF:ハンドオブジェクトインタラクションをモデル化するための接触電位場学習

CPF: Learning a Contact Potential Field to Model the Hand-object Interaction ( http://arxiv.org/abs/2012.00924v2 )

ライセンス: Link先を確認
Lixin Yang, Xinyu Zhan, Kailin Li, Wenqiang Xu, Jiefeng Li, Cewu Lu(参考訳) 深層学習の手法により,相互作用中の手オブジェクトのポーズ(HO)の推定が顕著な成長をもたらした。 手と物体の接触を適切にモデル化することが、もっともらしい把握を構築する鍵である。 しかし、従来の研究は通常、hoポーズを共同推定することに焦点をあてるが、把持時に保持される物理的接触を完全には探索しない。 本稿では,各接触をバネ質量系としてモデル化した明示的な接触場である接触電位場(CPF)を提案する。 すると、これらの系に対する弾性エネルギーを最小化することで、自然な把握を洗練できる。 CPFを回復するために,MIHOという学習適合型ハイブリッドフレームワークを提案する。 2つの公開ベンチマークによる大規模な実験により,提案手法はいくつかの再現指標において最先端を達成でき,地上構造が厳密な相互接続や解離性を示す場合でも,より物理的に妥当なHOポーズを生成できることが示された。 私たちのコードはhttps://github.com/lixiny/cpfで利用可能です。

Estimating hand-object (HO) pose during interaction has been brought remarkable growth in virtue of deep learning methods. Modeling the contact between the hand and object properly is the key to construct a plausible grasp. Yet, previous works usually focus on jointly estimating HO pose but not fully explore the physical contact preserved in grasping. In this paper, we present an explicit contact representation, Contact Potential Field (CPF) that models each hand-object contact as a spring-mass system. Then we can refine a natural grasp by minimizing the elastic energy w.r.t those systems. To recover CPF, we also propose a learning-fitting hybrid framework named MIHO. Extensive experiments on two public benchmarks have shown that our method can achieve state-of-the-art in several reconstruction metrics, and allow us to produce more physically plausible HO pose even when the ground-truth exhibits severe interpenetration or disjointedness. Our code is available at https://github.com/lixiny/CPF.
翻訳日:2021-05-25 04:02:43 公開日:2020-12-23
# 新型コロナウイルス(COVID-19)のTwitter談話における誤情報とエンゲージメントの予測

Predicting Misinformation and Engagement in COVID-19 Twitter Discourse in the First Months of the Outbreak ( http://arxiv.org/abs/2012.02164v2 )

ライセンス: Link先を確認
Mirela Silva, Fabr\'icio Ceschin, Prakash Shrestha, Christopher Brant, Juliana Fernandes, Catia S. Silva, Andr\'e Gr\'egio, Daniela Oliveira, and Luiz Giovanini(参考訳) 偽情報には、より大きな疑わしい議題と社会のカオス的なフラクチャーへの故意な虚偽の拡散が伴う。 一般大衆は、これらの悪質な目的に対するソーシャルメディアの誤用に気付いており、世界的な公衆衛生危機でさえ誤情報の影響を受けていない(悪意のない偽装コンテンツが拡散している)。 本稿では,新型コロナウイルス関連ツイート505万件について,ボット行動とエンゲージメントの機能として誤情報を理解するために検討した。 相関に基づく特徴選択法を用いて、170以上の特徴のうち、最も関連性の高い特徴サブセット11を選定し、事実と誤報を区別し、高機能な誤報ツイートを予測する。 10個の人気クラス分類器を用いて, 平均Fスコアを72 %以上達成し, 選択した特徴の関連性を高めた。 その結果, (i) 実際のユーザが事実と誤情報の両方をツイートするのに対して, (ii) 偽情報のツイートは事実よりもエンゲージメントが低いこと, (iii) ツイートのテキスト内容が事実と誤情報とを区別する上で最も重要なこと, (iv) ユーザアカウントのメタデータと人間のような活動が, 事実と誤情報ツイートのハイエンゲージメントを予測する上で最も重要なこと, (v) 感情的特徴は関連性がないことがわかった。

Disinformation entails the purposeful dissemination of falsehoods towards a greater dubious agenda and the chaotic fracturing of a society. The general public has grown aware of the misuse of social media towards these nefarious ends, where even global public health crises have not been immune to misinformation (deceptive content spread without intended malice). In this paper, we examine nearly 505K COVID-19-related tweets from the initial months of the pandemic to understand misinformation as a function of bot-behavior and engagement. Using a correlation-based feature selection method, we selected the 11 most relevant feature subsets among over 170 features to distinguish misinformation from facts, and to predict highly engaging misinformation tweets about COVID-19. We achieved an average F-score of at least 72\% with ten popular multi-class classifiers, reinforcing the relevance of the selected features. We found that (i) real users tweet both facts and misinformation, while bots tweet proportionally more misinformation; (ii) misinformation tweets were less engaging than facts; (iii) the textual content of a tweet was the most important to distinguish fact from misinformation while (iv) user account metadata and human-like activity were most important to predict high engagement in factual and misinformation tweets; and (v) sentiment features were not relevant.
翻訳日:2021-05-23 14:36:11 公開日:2020-12-23
# (参考訳) Wassersteinに基づく非定常性を用いたオンライン確率最適化

Online Stochastic Optimization with Wasserstein Based Non-stationarity ( http://arxiv.org/abs/2012.06961v2 )

ライセンス: CC BY 4.0
Jiashuo Jiang, Xiaocheng Li, Jiawei Zhang(参考訳) 有限期間の地平線上で複数の予算制約を持つ一般的なオンライン確率最適化問題を考える。 各期間において、報酬関数と複数のコスト関数が明らかにされ、意思決定者は、報酬を収集して予算を消費するために、凸及びコンパクトなアクションセットからのアクションを指定する必要がある。 各コスト関数は1つの予算の消費に対応する。 それぞれの期間において、報酬とコスト関数は未知の分布から引き出される。 意思決定者の目標は、予算制約の対象となる累積報酬を最大化することである。 この定式化は、オンラインリニアプログラミングやネットワーク収益管理など、幅広いアプリケーションを取り込んでいる。 本稿では,次の2つの設定について考察する。 (i) 真の分布が未知であるが,事前推定(おそらく不正確な)が利用可能であるデータ駆動設定 (ii) 真の分布が完全に未知であるような非形式的設定 (uninformative setting) である。 本研究では,事前推定の不正確な設定(i)とシステムの非定常性(ii)を定量化する統一wasserstein- distance based measureを提案する。 提案手法は,両設定においてサブ線形後悔の達成に必要かつ十分な条件を導出することを示す。 i) 設定のために,本アルゴリズムは主対双対的な視点を採り,基礎となる分布の事前情報を双対空間におけるオンライン勾配降下手順に統合するアルゴリズムを提案する。 このアルゴリズムは自然に非形式的設定 (ii) にも拡張される。 どちらの設定でも、対応するアルゴリズムが最適な順序を後悔することを示す。 数値実験では,提案アルゴリズムが再解法と自然に統合され,経験的性能がさらに向上することを示した。

We consider a general online stochastic optimization problem with multiple budget constraints over a horizon of finite time periods. In each time period, a reward function and multiple cost functions are revealed, and the decision maker needs to specify an action from a convex and compact action set to collect the reward and consume the budget. Each cost function corresponds to the consumption of one budget. In each period, the reward and cost functions are drawn from an unknown distribution, which is non-stationary across time. The objective of the decision maker is to maximize the cumulative reward subject to the budget constraints. This formulation captures a wide range of applications including online linear programming and network revenue management, among others. In this paper, we consider two settings: (i) a data-driven setting where the true distribution is unknown but a prior estimate (possibly inaccurate) is available; (ii) an uninformative setting where the true distribution is completely unknown. We propose a unified Wasserstein-distance based measure to quantify the inaccuracy of the prior estimate in setting (i) and the non-stationarity of the system in setting (ii). We show that the proposed measure leads to a necessary and sufficient condition for the attainability of a sublinear regret in both settings. For setting (i), we propose a new algorithm, which takes a primal-dual perspective and integrates the prior information of the underlying distributions into an online gradient descent procedure in the dual space. The algorithm also naturally extends to the uninformative setting (ii). Under both settings, we show the corresponding algorithm achieves a regret of optimal order. In numerical experiments, we demonstrate how the proposed algorithms can be naturally integrated with the re-solving technique to further boost the empirical performance.
翻訳日:2021-05-09 19:43:54 公開日:2020-12-23
# (参考訳) FaceDet3D:3次元幾何学的詳細予測による顔表現

FaceDet3D: Facial Expressions with 3D Geometric Detail Prediction ( http://arxiv.org/abs/2012.07999v3 )

ライセンス: CC BY 4.0
ShahRukh Athar, Albert Pumarola, Francesc Moreno-Noguer, Dimitris Samaras(参考訳) 顔表現は3次元顔形状に関する様々な高度な詳細を誘導する。 例えば、笑うと頬のしわや染みが生じるが、怒っていると額のしわが生じることが多い。 人間の顔の変形可能なモデル(3dmm)は、pcaベースの表現でそのような詳細を捉えられず、表現の編集に使用するとそのような詳細を生成することができない。 そこで本研究では,1つの画像から,任意の対象表現と一致する幾何学的顔詳細を生成する,初歩的な手法であるfaceedet3dを紹介する。 顔の詳細は頂点変位マップとして表現され、その後Neural Rendererによって、任意の所望の表現とビューにおいて、任意の単一の画像の新規画像を写真リアルに描画するために使用される。 プロジェクトのWebサイトは以下の通り。

Facial Expressions induce a variety of high-level details on the 3D face geometry. For example, a smile causes the wrinkling of cheeks or the formation of dimples, while being angry often causes wrinkling of the forehead. Morphable Models (3DMMs) of the human face fail to capture such fine details in their PCA-based representations and consequently cannot generate such details when used to edit expressions. In this work, we introduce FaceDet3D, a first-of-its-kind method that generates - from a single image - geometric facial details that are consistent with any desired target expression. The facial details are represented as a vertex displacement map and used then by a Neural Renderer to photo-realistically render novel images of any single image in any desired expression and view. The project website is: http://shahrukhathar.github.io/2020/12/14/FaceDet3D.html
翻訳日:2021-05-08 15:46:52 公開日:2020-12-23
# (参考訳) 一般政策、直列化、及び計画幅

General Policies, Serializations, and Planning Width ( http://arxiv.org/abs/2012.08033v2 )

ライセンス: CC BY 4.0
Blai Bonet and Hector Geffner(参考訳) 多くのベンチマーク計画領域では、問題幅が指数関数的に動く単純な多項式探索手順(iw)で原子目標に達することが観察されている。 そのような問題には、実際に有界幅がある: 問題変数の数で成長せず、しばしば2より大きい幅である。 しかし、幅の概念はBFWSのような最先端の計画アルゴリズムの一部となっているが、なぜ多くのベンチマークドメインが幅境界を持つのかについては、まだよく説明されていない。 本研究では,計画問題の複数事例を一度に解決しようとする一般計画の考え方に,境界幅と直列幅を関連付けることで,この問題に対処する。 有界幅は、ドメインエンコーディングにおいて明示的あるいは暗黙的に表現される特徴の観点から、最適の一般ポリシーを許容する計画領域の特性であることを示す。 結果は、一般的なポリシーが最適である必要がないような境界付き直列化幅を持つはるかに大きな領域に拡張される。 この研究はまた、手作業でドメイン制御の知識をエンコードしたり、トレースから学習したりできるポリシースケッチの形でドメインシリアライズを指定するための、新しいシンプルで意味のある、表現力のある言語へと導かれる。 スケッチの使用と理論的結果の意味は、すべて多くの例を通して説明されている。

It has been observed that in many of the benchmark planning domains, atomic goals can be reached with a simple polynomial exploration procedure, called IW, that runs in time exponential in the problem width. Such problems have indeed a bounded width: a width that does not grow with the number of problem variables and is often no greater than two. Yet, while the notion of width has become part of the state-of-the-art planning algorithms like BFWS, there is still no good explanation for why so many benchmark domains have bounded width. In this work, we address this question by relating bounded width and serialized width to ideas of generalized planning, where general policies aim to solve multiple instances of a planning problem all at once. We show that bounded width is a property of planning domains that admit optimal general policies in terms of features that are explicitly or implicitly represented in the domain encoding. The results are extended to much larger class of domains with bounded serialized width where the general policies do not have to be optimal. The study leads also to a new simple, meaningful, and expressive language for specifying domain serializations in the form of policy sketches which can be used for encoding domain control knowledge by hand or for learning it from traces. The use of sketches and the meaning of the theoretical results are all illustrated through a number of examples.
翻訳日:2021-05-08 13:16:35 公開日:2020-12-23
# 部分点雲上の3次元物体分類 : 実用的展望

3D Object Classification on Partial Point Clouds: A Practical Perspective ( http://arxiv.org/abs/2012.10042v2 )

ライセンス: Link先を確認
Zelin Xu, Ke Chen, Tong Zhang, C. L. Philip Chen, Kui Jia(参考訳) 点雲(英: point cloud)は、物体の表面全体を覆う3dオブジェクト分類で採用されている一般的な形状表現である。 しかし、現実のシナリオで収集された点雲は、任意のSO(3)視点で観察される可視的な対象部分からスキャンされるため、実際にはそのような仮定は無効である。 そこで本研究では,任意のポーズの下でオブジェクトインスタンスの部分点雲を分類する実用的な設定を提案する。 完全な対象点雲の分類と比較すると、対象クラス間の局所形状の幾何学的類似性と、観測ビューによって制限される測地線のクラス内異同性の観点から、この問題はより困難なものとなっている。 対象物表面における部分点雲の位置を特定することは、上記の課題を軽減し、6次元オブジェクトのポーズ推定の補助的タスクによって解決できると考える。 そこで本論文では, 可視点雲の正準姿勢への剛性変換のためのアライメントモジュール予測オブジェクトと, PointNet++ や DGCNN などの典型的な点分類器からなるアライメント分類方式のアルゴリズムを提案する。 単一ビューの部分的な設定に適応したModelNet40およびScanNetデータセットの実験結果から、提案手法は、全点クラウドの代表的なクラウド分類器から拡張された3つの代替スキームより優れていることを示した。

A point cloud is a popular shape representation adopted in 3D object classification, which covers the whole surface of an object and is usually well aligned. However, such an assumption can be invalid in practice, as point clouds collected in real-world scenarios are typically scanned from visible object parts observed under arbitrary SO(3) viewpoint, which are thus incomplete due to self and inter-object occlusion. In light of this, this paper introduces a practical setting to classify partial point clouds of object instances under any poses. Compared to the classification of complete object point clouds, such a problem is made more challenging in view of geometric similarities of local shape across object classes and intra-class dissimilarities of geometries restricted by their observation view. We consider that specifying the location of partial point clouds on their object surface is essential to alleviate suffering from the aforementioned challenges, which can be solved via an auxiliary task of 6D object pose estimation. To this end, a novel algorithm in an alignment-classification manner is proposed in this paper, which consists of an alignment module predicting object pose for the rigid transformation of visible point clouds to their canonical pose and a typical point classifier such as PointNet++ and DGCNN. Experiment results on the popular ModelNet40 and ScanNet datasets, which are adapted to a single-view partial setting, demonstrate the proposed method can outperform three alternative schemes extended from representative point cloud classifiers for complete point clouds.
翻訳日:2021-05-01 18:13:58 公開日:2020-12-23
# エンド・ツー・エンド話者ダイアリゼーション

End-to-End Speaker Diarization as Post-Processing ( http://arxiv.org/abs/2012.10055v2 )

ライセンス: Link先を確認
Shota Horiguchi, Paola Garcia, Yusuke Fujita, Shinji Watanabe, Kenji Nagamatsu(参考訳) 本稿では,従来のクラスタリングによるダイアリゼーションの後処理として,エンドツーエンドダイアリゼーションモデルの利用について検討する。 クラスタリングに基づくダイアリゼーション手法では、フレームを話者数のクラスタに分割する。 一方,いくつかのエンドツーエンドダイアリゼーション手法では,問題を多ラベル分類として扱うことで重なり合う音声を処理できる。 柔軟な話者数を扱う方法もあるが、話者数が大きい場合にはうまく機能しない。 そこで本研究では,クラスタリング法により得られた結果の処理後処理として,両話者間のダイアリゼーション手法を提案する。 結果から2つの話者を反復的に選択し、2つの話者の結果を更新し、重なり合う領域を改善する。 実験結果から,提案アルゴリズムはCALLHOME,AMI,DIHARD IIデータセット間の最先端手法の性能を一貫して向上することが示された。

This paper investigates the utilization of an end-to-end diarization model as post-processing of conventional clustering-based diarization. Clustering-based diarization methods partition frames into clusters of the number of speakers; thus, they typically cannot handle overlapping speech because each frame is assigned to one speaker. On the other hand, some end-to-end diarization methods can handle overlapping speech by treating the problem as multi-label classification. Although some methods can treat a flexible number of speakers, they do not perform well when the number of speakers is large. To compensate for each other's weakness, we propose to use a two-speaker end-to-end diarization method as post-processing of the results obtained by a clustering-based method. We iteratively select two speakers from the results and update the results of the two speakers to improve the overlapped region. Experimental results show that the proposed algorithm consistently improved the performance of the state-of-the-art methods across CALLHOME, AMI, and DIHARD II datasets.
翻訳日:2021-05-01 18:05:22 公開日:2020-12-23
# 深部ReLUネットワークのためのニューラルタンジェントカーネルの最小固有値のタイト境界

Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for Deep ReLU Networks ( http://arxiv.org/abs/2012.11654v2 )

ライセンス: Link先を確認
Quynh Nguyen, Marco Mondelli, Guido Montufar(参考訳) 最近の研究は、ニューラルネットワークの神経接核(neural tangent kernel, ntk)による理論的性質を分析した。 特に、NTKの最小固有値は、記憶能力、勾配降下アルゴリズムの収束、深層ネットの一般化に関係している。 しかし、既存の結果は2層設定のバウンダリを提供するか、NTKのスペクトルが多層ネットワークの0から離れていると仮定する。 本稿では,深部ReLUネットワークにおけるNTK行列の最小固有値に対して,無限幅および有限幅の制限の場合の厳密な境界を与える。 有限幅設定では、我々が考えるネットワークアーキテクチャは、非常に一般的なものである:我々は、およそn$ニューロンのオーダーを持つ広い層の存在、データサンプルの数がn$であること、そして残りの幅のスケーリングは任意である(対数因子によって)。 結果を得るためには,特徴行列の最小特異値に対する下限と,入出力特徴写像のリプシッツ定数に対する上限を与える。

A recent line of work has analyzed the theoretical properties of deep neural networks via the Neural Tangent Kernel (NTK). In particular, the smallest eigenvalue of the NTK has been related to memorization capacity, convergence of gradient descent algorithms and generalization of deep nets. However, existing results either provide bounds in the two-layer setting or assume that the spectrum of the NTK is bounded away from 0 for multi-layer networks. In this paper, we provide tight bounds on the smallest eigenvalue of NTK matrices for deep ReLU networks, both in the limiting case of infinite widths and for finite widths. In the finite-width setting, the network architectures we consider are quite general: we require the existence of a wide layer with roughly order of $N$ neurons, $N$ being the number of data samples; and the scaling of the remaining widths is arbitrary (up to logarithmic factors). To obtain our results, we analyze various quantities of independent interest: we give lower bounds on the smallest singular value of feature matrices, and upper bounds on the Lipschitz constant of input-output feature maps.
翻訳日:2021-04-27 06:44:35 公開日:2020-12-23
# RealFormer: Transformerは残留注意を好む

RealFormer: Transformer Likes Residual Attention ( http://arxiv.org/abs/2012.11747v2 )

ライセンス: Link先を確認
Ruining He and Anirudh Ravula and Bhargav Kanagal and Joshua Ainslie(参考訳) Transformerは現代のNLPモデルのバックボーンである。 本稿では,Masked Language Modeling, GLUE, SQuADなどのタスクにおいて, カノニカルトランスフォーマを大幅に上回るシンプルなResidual Attention Layer TransformerアーキテクチャであるRealFormerを提案する。 定性的には、realformerは実装が容易で、最小限のハイパーパラメータチューニングを必要とする。 また、トレーニングを安定させ、スパーザーの注意を引くモデルに繋がる。 コードは、紙が受け入れられるとオープンソースになる。

Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum of tasks including Masked Language Modeling, GLUE, and SQuAD. Qualitatively, RealFormer is easy to implement and requires minimal hyper-parameter tuning. It also stabilizes training and leads to models with sparser attentions. Code will be open-sourced upon paper acceptance.
翻訳日:2021-04-27 06:25:15 公開日:2020-12-23
# Facebookの広告エンゲージメント、2016年のロシアのアクティブ対策キャンペーンに

Facebook Ad Engagement in the Russian Active Measures Campaign of 2016 ( http://arxiv.org/abs/2012.11690v2 )

ライセンス: Link先を確認
Mirela Silva, Luiz Giovanini, Juliana Fernandes, Daniela Oliveira, Catia S. Silva(参考訳) 本稿は、ロシアのインターネット調査機関(IRA)が2015年6月から2017年8月までに作成した3,517件のFacebook広告を、2016年アメリカ合衆国大統領選挙をターゲットとしたアクティブな対策偽情報キャンペーンで調査する。 広告のエンゲージメント(広告クリック数による測定)と、広告のメタデータ、社会言語構造、感情に関する41の機能の関係を明らかにすることを目的とした。 i)相関分析によるエンゲージメントと機能の関係を理解すること、(ii)機能選択によってエンゲージメントを予測するために最も関連する機能サブセットを見つけること、(iii)トピックモデリングによってデータセットを最も特徴付けるセマンティックトピックを見つけること、の3つです。 広告費、テキストサイズ、広告ライフタイム、感情が、広告へのユーザのエンゲージメントを予測するトップ機能であることがわかった。 さらに、ポジティブ感情広告はネガティブ広告よりも魅力的であり、社会言語学的特徴(例えば宗教関連語の使用)は、エンゲージメント広告の構成において非常に重要であると認識された。 線形SVMとロジスティック回帰分類器はFスコアの最高値(両方のモデルで93.6%)を達成し、最適な特徴サブセットはそれぞれ12と6の機能を含んでいると判定した。 最後に、IRAが特定の広告トピック(LGBTの権利、アフリカ系アメリカ人の賠償など)を対象とする関連する研究の発見を裏付ける。

This paper examines 3,517 Facebook ads created by Russia's Internet Research Agency (IRA) between June 2015 and August 2017 in its active measures disinformation campaign targeting the 2016 U.S. general election. We aimed to unearth the relationship between ad engagement (as measured by ad clicks) and 41 features related to ads' metadata, sociolinguistic structures, and sentiment. Our analysis was three-fold: (i) understand the relationship between engagement and features via correlation analysis; (ii) find the most relevant feature subsets to predict engagement via feature selection; and (iii) find the semantic topics that best characterize the dataset via topic modeling. We found that ad expenditure, text size, ad lifetime, and sentiment were the top features predicting users' engagement to the ads. Additionally, positive sentiment ads were more engaging than negative ads, and sociolinguistic features (e.g., use of religion-relevant words) were identified as highly important in the makeup of an engaging ad. Linear SVM and Logistic Regression classifiers achieved the highest mean F-scores (93.6% for both models), determining that the optimal feature subset contains 12 and 6 features, respectively. Finally, we corroborate the findings of related works that the IRA specifically targeted Americans on divisive ad topics (e.g., LGBT rights, African American reparations).
翻訳日:2021-04-27 06:16:08 公開日:2020-12-23
# AdapMT ICON 2020における英語・ヒンディー語機械翻訳タスクのためのNMTモデルのドメイン適応

Domain Adaptation of NMT models for English-Hindi Machine Translation Task at AdapMT ICON 2020 ( http://arxiv.org/abs/2012.12112v2 )

ライセンス: Link先を確認
Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi(参考訳) ニューラルマシン翻訳(NMT)モデルの最近の進歩は、低資源のインドの言語に対する機械翻訳における技術結果の状態を実証している。 本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。 この共有タスクは、ai(artificial intelligence)や化学といった特定のドメインにおけるインド言語のための、小さなドメイン内並列コーパスを用いた翻訳システムの構築を目的としている。 BLEUスコアに基づく英ヒンディー語機械翻訳タスクにおける2つのNMTモデル,LSTM,Transformerアーキテクチャの有効性を評価した。 主にドメイン外のデータを用いてこれらのモデルをトレーニングし、ドメイン内のデータセットの特徴に基づいてシンプルなドメイン適応技術を用いています。 微調整と混合ドメインデータアプローチはドメイン適応に使用される。 我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。

Recent advancements in Neural Machine Translation (NMT) models have proved to produce a state of the art results on machine translation for low resource Indian languages. This paper describes the neural machine translation systems for the English-Hindi language presented in AdapMT Shared Task ICON 2020. The shared task aims to build a translation system for Indian languages in specific domains like Artificial Intelligence (AI) and Chemistry using a small in-domain parallel corpus. We evaluated the effectiveness of two popular NMT models i.e, LSTM, and Transformer architectures for the English-Hindi machine translation task based on BLEU scores. We train these models primarily using the out of domain data and employ simple domain adaptation techniques based on the characteristics of the in-domain dataset. The fine-tuning and mixed-domain data approaches are used for domain adaptation. Our team was ranked first in the chemistry and general domain En-Hi translation task and second in the AI domain En-Hi translation task.
翻訳日:2021-04-26 07:45:21 公開日:2020-12-23
# (参考訳) 制御可能な人物画像生成のための対応学習

Correspondence Learning for Controllable Person Image Generation ( http://arxiv.org/abs/2012.12440v1 )

ライセンス: CC BY 4.0
Shilong Shen(参考訳) 本稿では、対象人物像のテクスチャを維持しつつ、対象人物像のポーズを対象ポーズに変換し、対象人物像のテクスチャを所望の衣服テクスチャに変化させる、対象人物像合成の制御可能な生成モデルである、図1に示すように、対象人物像合成の制御可能な生成モデルを提案する。 対象のポーズとソース画像との密接な対応を明確にすることで、ポーズ・トランファーがもたらすミスアライメントに効果的に対処し、高品質な画像を生成することができる。 具体的には、まずターゲットポーズの案内の下でターゲットセマンティックマップを生成し、生成プロセス中により正確なポーズ表現と構造的制約を提供する。 次に、分解された属性エンコーダを用いてコンポーネントの特徴を抽出し、より正確な密接な対応を確立するだけでなく、衣服誘導者生成を実現する。 その後、ターゲットポーズとshardedドメイン内のソースイメージとの密接な対応を確立する。 ソース画像特徴を濃密な対応に従って反動させ、変形を柔軟に考慮する。 最後に、ネットワークは、歪んだソース画像機能とターゲットポーズに基づいて画像をレンダリングする。 提案手法は,ポーズ誘導者生成における最先端手法よりも優れ,衣服誘導者生成における有効性を示す。

We present a generative model for controllable person image synthesis,as shown in Figure , which can be applied to pose-guided person image synthesis, $i.e.$, converting the pose of a source person image to the target pose while preserving the texture of that source person image, and clothing-guided person image synthesis, $i.e.$, changing the clothing texture of a source person image to the desired clothing texture. By explicitly establishing the dense correspondence between the target pose and the source image, we can effectively address the misalignment introduced by pose tranfer and generate high-quality images. Specifically, we first generate the target semantic map under the guidence of the target pose, which can provide more accurate pose representation and structural constraints during the generation process. Then, decomposed attribute encoder is used to extract the component features, which not only helps to establish a more accurate dense correspondence, but also realizes the clothing-guided person generation. After that, we will establish a dense correspondence between the target pose and the source image within the sharded domain. The source image feature is warped according to the dense correspondence to flexibly account for deformations. Finally, the network renders image based on the warped source image feature and the target pose. Experimental results show that our method is superior to state-of-the-art methods in pose-guided person generation and its effectiveness in clothing-guided person generation.
翻訳日:2021-04-26 05:59:20 公開日:2020-12-23
# (参考訳) 実画像の注目度向上に向けて : サブバンド・ピラミッド・アテンション

Towards Boosting the Channel Attention in Real Image Denoising : Sub-band Pyramid Attention ( http://arxiv.org/abs/2012.12481v1 )

ライセンス: CC BY 4.0
Huayu Li, Haiyu Wu, Xiwen Chen, Hanning Zhang, and Abolfazl Razi(参考訳) ニューラルネットワーク(ANN)の畳み込みレイヤは、機能選択の柔軟性のないチャネル機能を等しく扱う。 未知のノイズ分布を持つ実世界のアプリケーション、特に学習可能なパターンを持つ構造化ノイズでは、画像のデノイジングにannを使用すると、有益な機能をモデリングすることで、パフォーマンスが大幅に向上する可能性がある。 実画像のノイズ除去タスクにおけるチャネルアテンションメソッドは、機能チャネル間の依存性を利用するため、周波数成分フィルタリングのメカニズムとなる。 既存のチャンネルアテンションモジュールは通常、チャネル間の相関を学ぶためにデリプタとしてグローバル静的を使用する。 本手法は、周波数レベルでチャネルを再スケーリングするための代表係数の学習において非効率であると考える。 本稿では,ウェーブレットサブバンドピラミッドに基づく新しいサブバンドピラミッド注意(SPA)を提案し,抽出した特徴の周波数成分をよりきめ細かな方法で再検討する。 実画像復調用に設計されたネットワーク上にSPAブロックを配置する。 実験の結果,提案手法は,ベンチマークナイーブチャネルアテンションブロックよりも著しい改善が得られた。 さらに, ピラミッドレベルがSPAブロックの性能にどのように影響するかを示し, SPAブロックに対して良好な一般化能力を示す。

Convolutional layers in Artificial Neural Networks (ANN) treat the channel features equally without feature selection flexibility. While using ANNs for image denoising in real-world applications with unknown noise distributions, particularly structured noise with learnable patterns, modeling informative features can substantially boost the performance. Channel attention methods in real image denoising tasks exploit dependencies between the feature channels, hence being a frequency component filtering mechanism. Existing channel attention modules typically use global statics as descriptors to learn the inter-channel correlations. This method deems inefficient at learning representative coefficients for re-scaling the channels in frequency level. This paper proposes a novel Sub-band Pyramid Attention (SPA) based on wavelet sub-band pyramid to recalibrate the frequency components of the extracted features in a more fine-grained fashion. We equip the SPA blocks on a network designed for real image denoising. Experimental results show that the proposed method achieves a remarkable improvement than the benchmark naive channel attention block. Furthermore, our results show how the pyramid level affects the performance of the SPA blocks and exhibits favorable generalization capability for the SPA blocks.
翻訳日:2021-04-26 05:34:52 公開日:2020-12-23
# (参考訳) 低域テンソルを用いた加速度MRIの能動サンプリング

Active Sampling for Accelerated MRI with Low-Rank Tensors ( http://arxiv.org/abs/2012.12496v1 )

ライセンス: CC BY 4.0
Zichang He, Bo Zhao, Zheng Zhang(参考訳) 磁気共鳴イメージング(MRI)は医学や生物学に革命をもたらす強力な画像モダリティである。 高次元MRIの撮像速度はしばしば制限され、実用性は制限される。 近年,スパースサンプリングによる高速MRイメージングを実現するために,低ランクテンソルモデルが利用されている。 既存の手法の多くは事前定義されたサンプリング設計を用いており、アクティブセンシングはローランクテンソルイメージングには適用されていない。 本稿では,高速MRイメージングのための能動的低ランクテンソルモデルを提案し,低ランクテンソル構造を利用したクエリ・バイ・コミッテモデルに基づくアクティブサンプリング手法を提案する。 3次元MRIデータセットの数値実験により,提案手法の有効性が示された。

Magnetic resonance imaging (MRI) is a powerful imaging modality that revolutionizes medicine and biology. The imaging speed of high-dimensional MRI is often limited, which constrains its practical utility. Recently, low-rank tensor models have been exploited to enable fast MR imaging with sparse sampling. Most existing methods use some pre-defined sampling design, and active sensing has not been explored for low-rank tensor imaging. In this paper, we introduce an active low-rank tensor model for fast MR imaging.We propose an active sampling method based on a Query-by-Committee model, making use of the benefits of low-rank tensor structure. Numerical experiments on a 3-D MRI data set demonstrate the effectiveness of the proposed method.
翻訳日:2021-04-26 05:25:04 公開日:2020-12-23
# (参考訳) Googleスケールディスクデータベースのための学習指標

Learned Indexes for a Google-scale Disk-based Database ( http://arxiv.org/abs/2012.12501v1 )

ライセンス: CC0 1.0
Hussam Abu-Libdeh, Deniz Alt{\i}nb\"uken, Alex Beutel, Ed H. Chi, Lyric Doshi, Tim Kraska, Xiaozhou (Steve) Li, Andy Ly, Christopher Olston(参考訳) 学習されたインデックス構造には大きな興奮があるが、B-Treesに関する数十年の研究を先導する新しい手法の実用性について理解可能な懐疑論がある。 本稿では,分散ディスクベースのデータベースシステムであるgoogleのbigtableに学習インデックスをどのように統合できるかを示すことにより,その不確実性を取り除くことに取り組んでいる。 学習したインデックスをBigtableに統合するために行ったいくつかの設計決定について詳述する。 その結果,学習インデックスの統合により,bigtableの読み取りレイテンシとスループットが大幅に向上することがわかった。

There is great excitement about learned index structures, but understandable skepticism about the practicality of a new method uprooting decades of research on B-Trees. In this paper, we work to remove some of that uncertainty by demonstrating how a learned index can be integrated in a distributed, disk-based database system: Google's Bigtable. We detail several design decisions we made to integrate learned indexes in Bigtable. Our results show that integrating learned index significantly improves the end-to-end read latency and throughput for Bigtable.
翻訳日:2021-04-26 04:52:20 公開日:2020-12-23
# (参考訳) 不整合データに対するAHP法とファジィAHP法の比較検討

A Comparative Study of AHP and Fuzzy AHP Method for Inconsistent Data ( http://arxiv.org/abs/2101.01067v1 )

ライセンス: CC BY 4.0
Md. Ashek-Al-Aziz, Sagar Mahmud, Md. Azizul Islam, Jubayer Al Mahmud, Khan Md. Hasib(参考訳) 決定分析の様々なケースでは、分析階層プロセス(ahp)とファジィベースahpまたはファジィahpという2つの一般的な方法を用いる。 どちらの手法も確率的データを扱うことができ、MCDM(Multi Criteria Decision Making)プロセスによって決定結果を決定することができる。 2つのメソッドの値は明らかに同じではないが、同じデータセットがそれらに供給される。 本研究では,2つの方法の類似点と類似点の観察を試みた。 出力のほぼ同じ傾向や変動は、整合性のない同じ入力データのセットに対して両方の手法で観測されている。 どちらの方法も50%の場合、アップとダウンの変動は同じである。

In various cases of decision analysis we use two popular methods: Analytical Hierarchical Process (AHP) and Fuzzy based AHP or Fuzzy AHP. Both the methods deal with stochastic data and can determine decision result through Multi Criteria Decision Making (MCDM) process. Obviously resulting values of the two methods are not same though same set of data is fed into them. In this research work, we have tried to observe similarities and dissimilarities between two methods outputs. Almost same trend or fluctuations in outputs have been seen for both methods for same set of input data which are not consistent. Both method outputs ups and down fluctuations are same for fifty percent cases.
翻訳日:2021-04-26 04:25:08 公開日:2020-12-23
# (参考訳) 転校学習に基づく糖尿病網膜症評価システム

Diabetic Retinopathy Grading System Based on Transfer Learning ( http://arxiv.org/abs/2012.12515v1 )

ライセンス: CC BY 4.0
Eman AbdelMaksoud, Sherif Barakat, and Mohammed Elmogy(参考訳) 糖尿病網膜症(dr)を正しく検出・診断するために、研究者は多くの努力を払っている。 この病気は、連続的にスクリーニングされなければ突然盲目を引き起こす可能性があるため、非常に危険である。 そのため,様々なdrグレードを診断するためにcadシステム(computer assisted diagnostic)が開発されている。 近年,DR病の病的異常の診断において,深層学習(DL)法に基づくCADシステムが多く採用されている。 本稿では,多ラベル分類に依存したフルベースDLCADシステムを提案する。 提案するDL CADシステムでは,DR病の早期および高度な診断のために,カスタマイズされた効率的なネットモデルを提案する。 学習の転送は、小さなデータセットのトレーニングに非常に役立ちます。 IDRiDデータセットを利用した。 マルチラベルのデータセットである。 実験の結果,提案したDL CAD システムは堅牢で信頼性が高く,DR の検出・評価に有望な結果を無視できることがわかった。 提案システムは精度(ACC)が86%、Dice類似度係数(DSC)が78.45である。

Much effort is being made by the researchers in order to detect and diagnose diabetic retinopathy (DR) accurately automatically. The disease is very dangerous as it can cause blindness suddenly if it is not continuously screened. Therefore, many computers aided diagnosis (CAD) systems have been developed to diagnose the various DR grades. Recently, many CAD systems based on deep learning (DL) methods have been adopted to get deep learning merits in diagnosing the pathological abnormalities of DR disease. In this paper, we present a full based-DL CAD system depending on multi-label classification. In the proposed DL CAD system, we present a customized efficientNet model in order to diagnose the early and advanced grades of the DR disease. Learning transfer is very useful in training small datasets. We utilized IDRiD dataset. It is a multi-label dataset. The experiments manifest that the proposed DL CAD system is robust, reliable, and deigns promising results in detecting and grading DR. The proposed system achieved accuracy (ACC) equals 86%, and the Dice similarity coefficient (DSC) equals 78.45.
翻訳日:2021-04-26 03:54:02 公開日:2020-12-23
# (参考訳) 畳み込みニューラルネットワーク内の表現の解析

Analyzing Representations inside Convolutional Neural Networks ( http://arxiv.org/abs/2012.12516v1 )

ライセンス: CC BY 4.0
Uday Singh Saini, Evangelos E. Papalexakis(参考訳) ニューラルネットワークが学んだ概念をどのように発見し、簡潔に要約するか? このようなタスクは、fMRI/x線に基づく診断など、分類を含む推論領域におけるネットワークの適用において非常に重要である。 本研究では,ネットワークが学習する概念を,一連の入力例のクラスタ化方法,それらが活性化する例に基づくニューロンのクラスタ化,およびすべて同じ潜在空間内での入力機能に基づいて分類するフレームワークを提案する。 このフレームワークは教師なしで、入力機能のためのラベルなしで動作可能であり、入力例ごとにネットワークの内部アクティベーションにアクセスする必要があるため、広く適用することができる。 提案手法を広範囲に評価し,cifar-100データセット上でresnet-18が学習した,人間理解可能なコヒーレントな概念を提示する。

How can we discover and succinctly summarize the concepts that a neural network has learned? Such a task is of great importance in applications of networks in areas of inference that involve classification, like medical diagnosis based on fMRI/x-ray etc. In this work, we propose a framework to categorize the concepts a network learns based on the way it clusters a set of input examples, clusters neurons based on the examples they activate for, and input features all in the same latent space. This framework is unsupervised and can work without any labels for input features, it only needs access to internal activations of the network for each input example, thereby making it widely applicable. We extensively evaluate the proposed method and demonstrate that it produces human-understandable and coherent concepts that a ResNet-18 has learned on the CIFAR-100 dataset.
翻訳日:2021-04-26 03:45:11 公開日:2020-12-23
# (参考訳) Dual Distance Center Lossに基づく車両再識別

Vehicle Re-identification Based on Dual Distance Center Loss ( http://arxiv.org/abs/2012.12519v1 )

ライセンス: CC BY 4.0
Zhijun Hu, Yong Xu, Jie Wen, Lilei Sun, Raja S P(参考訳) 近年、深層学習は車両再識別の分野で広く利用されている。 深層モデルのトレーニングでは、ソフトマックス損失は通常、監視ツールとして使用される。 しかし、softmaxの損失はクローズドセットタスクではうまく機能するが、オープンセットタスクではうまく動作しない。 本稿では,中心損失の5つの欠点を要約し,これらすべてをdual distance center loss (ddcl) を提案することで解決した。 特に,中心損失とソフトマックス損失を組み合わせてモデルのトレーニングを監督しなければならないという欠点を解消し,中心損失を調査するための新たな視点を提供する。 さらに,提案したDDCLと特徴空間のソフトマックス損失との矛盾を検証し,ソフトマックス損失を除去した後に特徴空間のソフトマックス損失によって中心損失が制限されなくなることを示した。 具体的には、ユークリッド距離に基づいてピアソン距離を同じ中心に加え、同クラスのすべての特徴を特徴空間内の超球面と超キューブの交叉に限定する。 提案するピアソン距離は,中心損失のクラス内コンパクト性を強化し,中心損失の一般化能力を高める。 さらに、すべての中心対間のユークリッド距離閾値を設計することで、中心損失のクラス間分離性を高めるだけでなく、中心損失(DDCL)をソフトマックス損失と組み合わせることなくうまく機能させることができる。 DDCLをVeRi-776データセットとVabyIDデータセットという車両再識別分野に適用する。 そして、その優れた一般化能力を検証するために、msmt17データセットとmarket1501データセットという人物再識別の分野で一般的に使用される2つのデータセットで検証する。

Recently, deep learning has been widely used in the field of vehicle re-identification. When training a deep model, softmax loss is usually used as a supervision tool. However, the softmax loss performs well for closed-set tasks, but not very well for open-set tasks. In this paper, we sum up five shortcomings of center loss and solved all of them by proposing a dual distance center loss (DDCL). Especially we solve the shortcoming that center loss must combine with the softmax loss to supervise training the model, which provides us with a new perspective to examine the center loss. In addition, we verify the inconsistency between the proposed DDCL and softmax loss in the feature space, which makes the center loss no longer be limited by the softmax loss in the feature space after removing the softmax loss. To be specifically, we add the Pearson distance on the basis of the Euclidean distance to the same center, which makes all features of the same class be confined to the intersection of a hypersphere and a hypercube in the feature space. The proposed Pearson distance strengthens the intra-class compactness of the center loss and enhances the generalization ability of center loss. Moreover, by designing a Euclidean distance threshold between all center pairs, which not only strengthens the inter-class separability of center loss, but also makes the center loss (or DDCL) works well without the combination of softmax loss. We apply DDCL in the field of vehicle re-identification named VeRi-776 dataset and VehicleID dataset. And in order to verify its good generalization ability, we also verify it in two datasets commonly used in the field of person re-identification named MSMT17 dataset and Market1501 dataset.
翻訳日:2021-04-26 03:33:34 公開日:2020-12-23
# (参考訳) 視覚補間とフレーム選択誘導を用いた効率的なビデオアノテーション

Efficient video annotation with visual interpolation and frame selection guidance ( http://arxiv.org/abs/2012.12554v1 )

ライセンス: CC BY 4.0
A. Kuznetsova, A. Talati, Y. Luo, K. Simmons and V. Ferrari(参考訳) 我々は、バウンディングボックス付きジェネリックビデオアノテーションのための統合フレームワークを導入する。 ビデオアノテーションは退屈で時間を要するプロセスであるため、長年にわたる問題です。 ビデオアノテーションの2つの重要な課題は,(1)全フレームのサブセットに人間の注釈器によって提供される境界ボックスの自動補間と補間,(2)手動で注釈を行うためのフレームの自動選択である。 第一に,補間能力と補間能力の両方を有するモデルを提案し,第二に,前述したアノテーションに基づいて,次にアノテートするフレームの提案を逐次生成する誘導機構を提案する。 シミュレーションにおいて,いくつかの難解なデータセットに対するアプローチを広範囲に評価し,線形補間よりも60%,市販トラッカーより35%,手動境界ボックス数を削減できることを実証した。 さらに,バウンディングボックス[25]を用いたビデオアノテーションの最先端手法に対して,10%のアノテーション時間の改善を示す。 最後に,人間のアノテーション実験を行い,その結果の広範囲な分析を行い,従来の線形補間に比べて実際のアノテーション処理時間を50%削減できることを示した。

We introduce a unified framework for generic video annotation with bounding boxes. Video annotation is a longstanding problem, as it is a tedious and time-consuming process. We tackle two important challenges of video annotation: (1) automatic temporal interpolation and extrapolation of bounding boxes provided by a human annotator on a subset of all frames, and (2) automatic selection of frames to annotate manually. Our contribution is two-fold: first, we propose a model that has both interpolating and extrapolating capabilities; second, we propose a guiding mechanism that sequentially generates suggestions for what frame to annotate next, based on the annotations made previously. We extensively evaluate our approach on several challenging datasets in simulation and demonstrate a reduction in terms of the number of manual bounding boxes drawn by 60% over linear interpolation and by 35% over an off-the-shelf tracker. Moreover, we also show 10% annotation time improvement over a state-of-the-art method for video annotation with bounding boxes [25]. Finally, we run human annotation experiments and provide extensive analysis of the results, showing that our approach reduces actual measured annotation time by 50% compared to commonly used linear interpolation.
翻訳日:2021-04-26 02:30:49 公開日:2020-12-23
# (参考訳) 分散適応制御:ロボットリサイクルプラント管理のための理想的な認知アーキテクチャ候補

Distributed Adaptive Control: An ideal Cognitive Architecture candidate for managing a robotic recycling plant ( http://arxiv.org/abs/2012.12586v1 )

ライセンス: CC BY 4.0
Oscar Guerrero-Rosado and Paul Verschure(参考訳) 過去10年間、社会は様々な技術分野において顕著な成長を遂げてきた。 しかし、第四次産業革命はまだ受け入れられていない。 業界 4.0 は、オープン環境がサイバー物理システム(CPS)に表す不確実性に対処するための新しいアーキテクチャモデルの必要性を含むいくつかの課題を課している。 廃棄物電気電子機器(WEEE)リサイクルプラントは、そのようなオープンな環境の1つである。 ここでは、CPSは変化する環境の中で調和して働き、類似した、あまり類似しないCPSと相互作用し、人間の労働者と適応的に協力する必要があります。 本稿では,リサイクルプラント管理に適した認知アーキテクチャとして,分散適応制御(DAC)理論を支持する。 具体的には、欧州プロジェクトHRリサイクルの要求を満たすため、DACの再帰的な実施(単一エージェントと大規模レベルの両方)が提案されている。 さらに,再帰型DACの将来の実装に関する現実的なベンチマークを行うことを目的として,マイクロリサイクルプラントプロトタイプについて紹介する。

In the past decade, society has experienced notable growth in a variety of technological areas. However, the Fourth Industrial Revolution has not been embraced yet. Industry 4.0 imposes several challenges which include the necessity of new architectural models to tackle the uncertainty that open environments represent to cyber-physical systems (CPS). Waste Electrical and Electronic Equipment (WEEE) recycling plants stand for one of such open environments. Here, CPSs must work harmoniously in a changing environment, interacting with similar and not so similar CPSs, and adaptively collaborating with human workers. In this paper, we support the Distributed Adaptive Control (DAC) theory as a suitable Cognitive Architecture for managing a recycling plant. Specifically, a recursive implementation of DAC (between both single-agent and large-scale levels) is proposed to meet the expected demands of the European Project HR-Recycler. Additionally, with the aim of having a realistic benchmark for future implementations of the recursive DAC, a micro-recycling plant prototype is presented.
翻訳日:2021-04-26 02:01:27 公開日:2020-12-23
# (参考訳) 医療におけるプライバシー保護型分散ディープラーニング手法の比較

Comparison of Privacy-Preserving Distributed Deep Learning Methods in Healthcare ( http://arxiv.org/abs/2012.12591v1 )

ライセンス: CC BY 4.0
Manish Gawali, Arvind C S, Shriya Suryavanshi, Harshit Madaan, Ashrika Gaikwad, Bhanu Prakash KN, Viraj Kulkarni, Aniruddha Pant(参考訳) 本稿では,プライバシ保護型分散学習技術であるフェデレーション学習,分割学習,SplitFedを比較した。 これらの手法を用いて胸部x線から結核を検出できる2値分類モデルを開発し,分類性能,通信コスト,計算コスト,訓練時間の観点から比較した。 本研究では,splitfedv3と呼ばれる分散学習アーキテクチャを提案する。 また,スプリット学習のための新たなトレーニング手法である代替ミニバッチトレーニングを提案する。

In this paper, we compare three privacy-preserving distributed learning techniques: federated learning, split learning, and SplitFed. We use these techniques to develop binary classification models for detecting tuberculosis from chest X-rays and compare them in terms of classification performance, communication and computational costs, and training time. We propose a novel distributed learning architecture called SplitFedv3, which performs better than split learning and SplitFedv2 in our experiments. We also propose alternate mini-batch training, a new training technique for split learning, that performs better than alternate client training, where clients take turns to train a model.
翻訳日:2021-04-26 01:51:06 公開日:2020-12-23
# (参考訳) 畳み込みニューラルネットワークに基づくFPGA深層学習加速の概観

Overview of FPGA deep learning acceleration based on convolutional neural network ( http://arxiv.org/abs/2012.12634v1 )

ライセンス: CC BY 4.0
Simin Liu(参考訳) 近年、ディープラーニングはますます成熟し、ディープラーニングの一般的なアルゴリズムとして、畳み込みニューラルネットワークは様々な視覚的タスクで広く使われている。 これまでは、ディープラーニングアルゴリズムに基づく研究は主にGPUやCPUなどのハードウェアに依存していた。 しかし、FPGAやフィールドプログラマブルな論理ゲートアレイの発展に伴い、様々なニューラルネットワーク深層学習アルゴリズムを組み合わせたハードウェアプラットフォームとして実装され、主に畳み込みの理論とアルゴリズムを紹介するレビュー記事である。 畳み込みニューラルネットワークに基づく既存のFPGA技術の応用シナリオを要約し、主に加速器の応用を紹介する。 同時に、いくつかのアクセラレータのロジックリソースの過小利用やメモリ帯域の過小利用を要約し、最高のパフォーマンスを得ることができないようにしている。

In recent years, deep learning has become more and more mature, and as a commonly used algorithm in deep learning, convolutional neural networks have been widely used in various visual tasks. In the past, research based on deep learning algorithms mainly relied on hardware such as GPUs and CPUs. However, with the increasing development of FPGAs, both field programmable logic gate arrays, it has become the main implementation hardware platform that combines various neural network deep learning algorithms This article is a review article, which mainly introduces the related theories and algorithms of convolution. It summarizes the application scenarios of several existing FPGA technologies based on convolutional neural networks, and mainly introduces the application of accelerators. At the same time, it summarizes some accelerators' under-utilization of logic resources or under-utilization of memory bandwidth, so that they can't get the best performance.
翻訳日:2021-04-26 00:17:45 公開日:2020-12-23
# (参考訳) ベイジアンニューラルネットワークに対する勾配自由逆攻撃

Gradient-Free Adversarial Attacks for Bayesian Neural Networks ( http://arxiv.org/abs/2012.12640v1 )

ライセンス: CC BY 4.0
Matthew Yuan, Matthew Wicker, Luca Laurenti(参考訳) 敵対的な例の存在は、機械学習モデルの堅牢性を理解することの重要性を強調している。 ベイズニューラルネットワーク(BNN)は、校正された不確実性のため、好適な対向性を持つことを示した。 しかし、近似ベイズ推定法を用いる場合、BNNの対角的堅牢性はまだよく理解されていない。 本研究では,BNNの逆例を見つけるために,勾配のない最適化手法を用いる。 特に,遺伝的アルゴリズム,代理モデル,およびゼロ次最適化手法を考察し,BNNの逆例を見つける目的に適応させる。 MNIST と Fashion MNIST データセットの実証評価では,ベイズ推定法により,勾配のないアルゴリズムを用いることで,最先端の勾配に基づく手法と比較して,逆例の発見率を大幅に向上させることができることを示した。

The existence of adversarial examples underscores the importance of understanding the robustness of machine learning models. Bayesian neural networks (BNNs), due to their calibrated uncertainty, have been shown to posses favorable adversarial robustness properties. However, when approximate Bayesian inference methods are employed, the adversarial robustness of BNNs is still not well understood. In this work, we employ gradient-free optimization methods in order to find adversarial examples for BNNs. In particular, we consider genetic algorithms, surrogate models, as well as zeroth order optimization methods and adapt them to the goal of finding adversarial examples for BNNs. In an empirical evaluation on the MNIST and Fashion MNIST datasets, we show that for various approximate Bayesian inference methods the usage of gradient-free algorithms can greatly improve the rate of finding adversarial examples compared to state-of-the-art gradient-based methods.
翻訳日:2021-04-26 00:11:14 公開日:2020-12-23
# (参考訳) 肺癌放射線検査におけるテクスチャーによる形態変化の予後

Prognostic Power of Texture Based Morphological Operations in a Radiomics Study for Lung Cancer ( http://arxiv.org/abs/2012.12652v1 )

ライセンス: CC BY 4.0
Paul Desbordes and Diksha and Benoit Macq(参考訳) 患者の予後を予測するための放射線学的特徴の重要性が確立されている。 予後に関する初期の研究は、より効率的な治療のパーソナライゼーションをもたらす可能性がある。 このため, 数学的形態学に基づく新たな放射能特性が提案されている。 彼らの研究は非小細胞肺癌(NSCLC)患者のオープンデータベース上で行われた。 腫瘍の特徴をCT画像から抽出し,PCAおよびKaplan-Meierサバイバル分析を用いて解析し,最も関連性の高いものを選択する。 研究対象の1,589例のうち32例は患者生存予測に関連があり,27例の古典的放射能特徴と5例のMM特徴(粒度と形態的共分散特徴を含む)がある。 これらの特徴は予後予測モデルに寄与し、最終的には臨床意思決定と患者の治療方針に寄与する。

The importance of radiomics features for predicting patient outcome is now well-established. Early study of prognostic features can lead to a more efficient treatment personalisation. For this reason new radiomics features obtained through mathematical morphology-based operations are proposed. Their study is conducted on an open database of patients suffering from Nonsmall Cells Lung Carcinoma (NSCLC). The tumor features are extracted from the CT images and analyzed via PCA and a Kaplan-Meier survival analysis in order to select the most relevant ones. Among the 1,589 studied features, 32 are found relevant to predict patient survival: 27 classical radiomics features and five MM features (including both granularity and morphological covariance features). These features will contribute towards the prognostic models, and eventually to clinical decision making and the course of treatment for patients.
翻訳日:2021-04-26 00:02:03 公開日:2020-12-23
# (参考訳) 要素の知性が低くなればなるほど、全体として知性が高まる。 それとも、そうじゃないの?

The Less Intelligent the Elements, the More Intelligent the Whole. Or, Possibly Not? ( http://arxiv.org/abs/2012.12689v1 )

ライセンス: CC BY 4.0
Guido Fioretti, Andrea Policarpi(参考訳) 私たちは、脳内のニューロンと社会内の人々の類似性を利用して、集団知恵を創出するために個人の知性が必要かどうか、そして最も重要なことは、個々の知性がより大きな集団知恵を導出するかどうかを自問します。 本稿では,コネクショナリズム,エージェントベースモデリング,グループ心理学,経済学,物理学から得られた知見と知見を,システムのリアプノフ関数の構造変化の観点から考察する。 最後に、これらの知見をロトカ・ボルテラモデルにおける捕食者や捕食者の知性の種類や程度に応用し、特定の個々の理解が2つの種を共存させる理由を説明する。

We dare to make use of a possible analogy between neurons in a brain and people in society, asking ourselves whether individual intelligence is necessary in order to collective wisdom to emerge and, most importantly, what sort of individual intelligence is conducive of greater collective wisdom. We review insights and findings from connectionism, agent-based modeling, group psychology, economics and physics, casting them in terms of changing structure of the system's Lyapunov function. Finally, we apply these insights to the sort and degrees of intelligence of preys and predators in the Lotka-Volterra model, explaining why certain individual understandings lead to co-existence of the two species whereas other usages of their individual intelligence cause global extinction.
翻訳日:2021-04-25 23:52:23 公開日:2020-12-23
# (参考訳) 部分観測可能なモンテカルロ計画における予測外決定の同定-ルールに基づくアプローチ

Identification of Unexpected Decisions in Partially Observable Monte-Carlo Planning: a Rule-Based Approach ( http://arxiv.org/abs/2012.12732v1 )

ライセンス: CC BY 4.0
Giulio Mazzi, Alberto Castellini, Alessandro Farinelli(参考訳) 部分的に観測可能なモンテカルロ計画 (POMCP) は、大規模な部分観測可能なマルコフ決定プロセスのための近似ポリシーを生成することができる強力なオンラインアルゴリズムである。 この手法のオンライン性は、完全なポリシー表現を避けてスケーラビリティをサポートする。 しかし、明示的な表現の欠如は解釈可能性を妨げる。 本研究では,pomcpポリシーを,そのトレース,すなわちアルゴリズムが生成する信念・行動・観察三重項列を検査することにより解析する,満足性モジュラー理論(smt)に基づく手法を提案する。 提案手法は,政策行動の局所的特性を探索し,予期せぬ決定を識別する。 We propose an iterative process of trace analysis consisting of three main steps, i) the definition of a question by means of a parametric logical formula describing (probabilistic) relationships between beliefs and actions, ii) the generation of an answer by computing the parameters of the logical formula that maximize the number of satisfied clauses (solving a MAX-SMT problem), iii) the analysis of the generated logical formula and the related decision boundaries for identifying unexpected decisions made by POMCP with respect to the original question. 我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価する。 結果は、この手法がドメイン上の人間の知識を活用でき、予期せぬ決定を識別するための最先端の異常検出方法よりも優れていることを示している。 テストでは,最大47.5%のエリアアンダーカーブの改善が達成された。

Partially Observable Monte-Carlo Planning (POMCP) is a powerful online algorithm able to generate approximate policies for large Partially Observable Markov Decision Processes. The online nature of this method supports scalability by avoiding complete policy representation. The lack of an explicit representation however hinders interpretability. In this work, we propose a methodology based on Satisfiability Modulo Theory (SMT) for analyzing POMCP policies by inspecting their traces, namely sequences of belief-action-observation triplets generated by the algorithm. The proposed method explores local properties of policy behavior to identify unexpected decisions. We propose an iterative process of trace analysis consisting of three main steps, i) the definition of a question by means of a parametric logical formula describing (probabilistic) relationships between beliefs and actions, ii) the generation of an answer by computing the parameters of the logical formula that maximize the number of satisfied clauses (solving a MAX-SMT problem), iii) the analysis of the generated logical formula and the related decision boundaries for identifying unexpected decisions made by POMCP with respect to the original question. We evaluate our approach on Tiger, a standard benchmark for POMDPs, and a real-world problem related to mobile robot navigation. Results show that the approach can exploit human knowledge on the domain, outperforming state-of-the-art anomaly detection methods in identifying unexpected decisions. An improvement of the Area Under Curve up to 47\% has been achieved in our tests.
翻訳日:2021-04-25 23:34:25 公開日:2020-12-23
# (参考訳) EmotionGIF-IITP-AINLPML: Ansemble-based Automated Deep Neural System for predicting category(ies) of a GIF response

EmotionGIF-IITP-AINLPML: Ensemble-based Automated Deep Neural System for predicting category(ies) of a GIF response ( http://arxiv.org/abs/2012.12756v1 )

ライセンス: CC BY 4.0
Soumitra Ghosh, Arkaprava Roy, Asif Ekbal and Pushpak Bhattacharyya(参考訳) 本稿では,我々のIITP-AINLPMLチームが提出したシステムについて述べる。このシステムは,与えられたツイートに対するGIF応答のカテゴリ(e)を予測するためのSocialNLP 2020,EmotionGIF 2020の共有タスクである。 本研究は,タスクの1段階目において,ツイート(テキスト)と応答(テキストがどこにあるか)とGIF応答のカテゴリ(e)の両方に基づいて学習した,注目に基づく双方向GRUネットワークを提案する。 第2ラウンドでは、タスクのためのディープニューラルネットワークベースの分類器を構築し、多数決に基づくアンサンブル手法を用いて最終予測を報告する。 提案したモデルでは,各ラウンド1とラウンド2でそれぞれ52.92%,53.80%の平均リコール(MR)スコアが得られた。

In this paper, we describe the systems submitted by our IITP-AINLPML team in the shared task of SocialNLP 2020, EmotionGIF 2020, on predicting the category(ies) of a GIF response for a given unlabelled tweet. For the round 1 phase of the task, we propose an attention-based Bi-directional GRU network trained on both the tweet (text) and their replies (text wherever available) and the given category(ies) for its GIF response. In the round 2 phase, we build several deep neural-based classifiers for the task and report the final predictions through a majority voting based ensemble technique. Our proposed models attain the best Mean Recall (MR) scores of 52.92% and 53.80% in round 1 and round 2, respectively.
翻訳日:2021-04-25 23:17:15 公開日:2020-12-23
# (参考訳) 行列最適化に基づく外れ値付きユークリッド埋め込み

Matrix optimization based Euclidean embedding with outliers ( http://arxiv.org/abs/2012.12772v1 )

ライセンス: CC BY 4.0
Qian Zhang, Xinyuan Zhao, Chao Ding(参考訳) 異常誤差を含むノイズ観測からのユークリッド埋め込みは、統計と機械学習において重要かつ困難な問題である。 既存の多くの手法は検出能力の欠如のために異常値に悩まされた。 本稿では,信頼度の高い組込みを生成できる行列最適化に基づく組込みモデルを提案する。 提案手法により得られた推定器は非漸近的リスク境界を満たすことを示し、サンプルサイズの順序が対数係数までほぼ自由度である場合、モデルが高い確率で高精度な推定器を提供することを示す。 さらに,いくつかの穏やかな条件下では,提案手法は,事前情報を高い確率で特定できることを示す。 最後に, 行列最適化に基づくモデルを用いて, 高品質な構成を導出し, 大規模ネットワークにおいても外れ値の同定に成功した。

Euclidean embedding from noisy observations containing outlier errors is an important and challenging problem in statistics and machine learning. Many existing methods would struggle with outliers due to a lack of detection ability. In this paper, we propose a matrix optimization based embedding model that can produce reliable embeddings and identify the outliers jointly. We show that the estimators obtained by the proposed method satisfy a non-asymptotic risk bound, implying that the model provides a high accuracy estimator with high probability when the order of the sample size is roughly the degree of freedom up to a logarithmic factor. Moreover, we show that under some mild conditions, the proposed model also can identify the outliers without any prior information with high probability. Finally, numerical experiments demonstrate that the matrix optimization-based model can produce configurations of high quality and successfully identify outliers even for large networks.
翻訳日:2021-04-25 23:10:23 公開日:2020-12-23
# (参考訳) 資源制約装置の適応的精度訓練

Adaptive Precision Training for Resource Constrained Devices ( http://arxiv.org/abs/2012.12775v1 )

ライセンス: CC BY 4.0
Tian Huang, Tao Luo and Joey Tianyi Zhou(参考訳) Edge AIのトレンドは、その場で学ぶことだ。 エッジデバイス上でのディープニューラルネットワーク(DNN)のトレーニングは、エネルギーとメモリの両方に制約があるため、難しい。 低い精度のトレーニングは、単一のトレーニングイテレーションのエネルギーコストを削減するのに役立つが、低精度のトレーニングは収束率を低下させるため、トレーニングプロセス全体のエネルギー節約に必ずしも寄与しない。 ひとつの証拠は、精度の低いトレーニングでは、トレーニング中にfp32コピーを保持し、エッジデバイスにメモリ要件を課すことである。 本研究は適応的精密訓練を提案する。 トレーニング全体のエネルギーコストとメモリ使用量の両方を同時に節約することができる。 トレーニングにおけるメモリ使用量を削減するため,前向きパスと後向きパスの両方で同じ精度のモデルを用いる。 トレーニングの進捗を評価することで、APTはレイヤーワイズ精度を動的に割り当て、モデルがより早くより長い時間学習できるようにします。 APTは、トレーニングエネルギーコスト、メモリ使用量、精度のトレードオフをユーザが行うためのアプリケーション固有のハイパーパラメータを提供する。 実験の結果、aptはトレーニングエネルギーとメモリ使用量を50%以上節約でき、精度の低下は少ない。 トレーニングエネルギーとメモリ使用量の20%削減は、精度損失の1%を犠牲にする見返りに達成できる。

Learn in-situ is a growing trend for Edge AI. Training deep neural network (DNN) on edge devices is challenging because both energy and memory are constrained. Low precision training helps to reduce the energy cost of a single training iteration, but that does not necessarily translate to energy savings for the whole training process, because low precision could slows down the convergence rate. One evidence is that most works for low precision training keep an fp32 copy of the model during training, which in turn imposes memory requirements on edge devices. In this work we propose Adaptive Precision Training. It is able to save both total training energy cost and memory usage at the same time. We use model of the same precision for both forward and backward pass in order to reduce memory usage for training. Through evaluating the progress of training, APT allocates layer-wise precision dynamically so that the model learns quicker for longer time. APT provides an application specific hyper-parameter for users to play trade-off between training energy cost, memory usage and accuracy. Experiment shows that APT achieves more than 50% saving on training energy and memory usage with limited accuracy loss. 20% more savings of training energy and memory usage can be achieved in return for a 1% sacrifice in accuracy loss.
翻訳日:2021-04-25 21:31:03 公開日:2020-12-23
# (参考訳) EQ-Net: ログライクな比率推定と量子化のための統合ディープラーニングフレームワーク

EQ-Net: A Unified Deep Learning Framework for Log-Likelihood Ratio Estimation and Quantization ( http://arxiv.org/abs/2012.12843v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Ahmed H. Tewfik, and Sriram Vishwanath(参考訳) 本研究では,ログ類似度(LLR)推定のタスクと,データ駆動方式による量子化を両立する最初の包括的フレームワークであるEQ-Netを紹介する。 複雑度スペクトルの終端における2つの実用的推定アルゴリズムに関する理論的知見を用いて、我々のアプローチを動機付け、アルゴリズムの複雑さと情報ボトルネック法との関係を明らかにする。 これにより、LLR圧縮をプレテキストタスクとして用いる2段階のアルゴリズムを提案し、ディープニューラルネットワークによる低レイテンシで高性能な実装に焦点を当てる。 我々は,従来の手法と比較して,我々の単一アーキテクチャが両タスクの最先端化を実現しており,汎用およびグラフィカル処理ユニット(GPU)で測定すると,最大20 %の量子化効率と推定遅延を最大60 %まで低減できることを示す。 特に,Multiple-Input multiple-output (MIMO) 構成では,GPUの推論遅延を2倍以上削減する。 最後に,提案手法は分布変化に対して頑健であり,5Gチャネルモデルおよびチャネル推定誤差で評価した場合,その性能のかなりの部分を保持することを示す。

In this work, we introduce EQ-Net: the first holistic framework that solves both the tasks of log-likelihood ratio (LLR) estimation and quantization using a data-driven method. We motivate our approach with theoretical insights on two practical estimation algorithms at the ends of the complexity spectrum and reveal a connection between the complexity of an algorithm and the information bottleneck method: simpler algorithms admit smaller bottlenecks when representing their solution. This motivates us to propose a two-stage algorithm that uses LLR compression as a pretext task for estimation and is focused on low-latency, high-performance implementations via deep neural networks. We carry out extensive experimental evaluation and demonstrate that our single architecture achieves state-of-the-art results on both tasks when compared to previous methods, with gains in quantization efficiency as high as $20\%$ and reduced estimation latency by up to $60\%$ when measured on general purpose and graphical processing units (GPU). In particular, our approach reduces the GPU inference latency by more than two times in several multiple-input multiple-output (MIMO) configurations. Finally, we demonstrate that our scheme is robust to distributional shifts and retains a significant part of its performance when evaluated on 5G channel models, as well as channel estimation errors.
翻訳日:2021-04-25 21:02:33 公開日:2020-12-23
# (参考訳) ANR:仮想アバターのためのArticulated Neural Rendering

ANR: Articulated Neural Rendering for Virtual Avatars ( http://arxiv.org/abs/2012.12890v1 )

ライセンス: CC BY 4.0
Amit Raj, Julian Tanke, James Hays, Minh Vo, Carsten Stoll, Christoph Lassner(参考訳) deferred neural rendering(dnr)における従来のレンダリングとニューラルネットワークの組み合わせは、計算の複雑さと結果の画像のリアリズムの間の説得力のあるバランスをもたらす。 オブジェクトの描画にスキン付きメッシュを使用することは、DNRフレームワークの自然な拡張であり、多数のアプリケーションに開放される。 しかしながら、このケースでは、ニューラルネットワークシェーディングステップは、メッシュ内でキャプチャされない可能性のある変形と、DNRパイプラインを混乱させる可能性のあるアライメントの不正確さとダイナミクスを考慮しなければならない。 我々はDNRに基づく新しいフレームワークであるArticulated Neural Rendering (ANR)について述べる。 我々は,DNR だけでなく,アバター生成とアニメーションに特化した手法で ANR の優位性を示す。 2つのユーザスタディにおいて,アバターモデルに対する明確な好みを観察し,定量的評価指標における最先端のパフォーマンスを示す。 知覚上は、より優れた時間安定性、詳細度、信頼性を観察する。

The combination of traditional rendering with neural networks in Deferred Neural Rendering (DNR) provides a compelling balance between computational complexity and realism of the resulting images. Using skinned meshes for rendering articulating objects is a natural extension for the DNR framework and would open it up to a plethora of applications. However, in this case the neural shading step must account for deformations that are possibly not captured in the mesh, as well as alignment inaccuracies and dynamics -- which can confound the DNR pipeline. We present Articulated Neural Rendering (ANR), a novel framework based on DNR which explicitly addresses its limitations for virtual human avatars. We show the superiority of ANR not only with respect to DNR but also with methods specialized for avatar creation and animation. In two user studies, we observe a clear preference for our avatar model and we demonstrate state-of-the-art performance on quantitative evaluation metrics. Perceptually, we observe better temporal stability, level of detail and plausibility.
翻訳日:2021-04-25 20:46:08 公開日:2020-12-23
# (参考訳) Awareness Logic: Heifetz-Meier-Schipper モデルのクリプキに基づくレンタル

Awareness Logic: A Kripke-based Rendition of the Heifetz-Meier-Schipper Model ( http://arxiv.org/abs/2012.12982v1 )

ライセンス: CC BY 4.0
Gaia Belardinelli, Rasmus K. Rendsvig(参考訳) Heifetz, Meier and Schipper (HMS) は認識の格子モデルを示す。 構文のないHMSモデルは、格子を誘導する形式言語に依存する単純な選択肢を排除し、1つの絡み合った構造体で不確実性と無知を表現し、どちらの特性も評価することが困難である。 ここでは、不確かさと不明瞭さを分離する原子サブセット包摂によって誘導されるクリプキモデルの格子に基づくモデルを提案する。 式満足度を保つ変換を定義することで等価となるモデルを示し、我々の結果とhmsの結果を通じて完全性を得る。

Heifetz, Meier and Schipper (HMS) present a lattice model of awareness. The HMS model is syntax-free, which precludes the simple option to rely on formal language to induce lattices, and represents uncertainty and unawareness with one entangled construct, making it difficult to assess the properties of either. Here, we present a model based on a lattice of Kripke models, induced by atom subset inclusion, in which uncertainty and unawareness are separate. We show the models to be equivalent by defining transformations between them which preserve formula satisfaction, and obtain completeness through our and HMS' results.
翻訳日:2021-04-25 20:31:14 公開日:2020-12-23
# (参考訳) SyNet:UAV画像におけるオブジェクト検出のためのアンサンブルネットワーク

SyNet: An Ensemble Network for Object Detection in UAV Images ( http://arxiv.org/abs/2012.12991v1 )

ライセンス: CC BY 4.0
Berat Mert Albaba, Sedat Ozer(参考訳) カメラ搭載ドローンの最近の進歩と普及により、航空画像に対する視覚に基づく物体検出アルゴリズムの需要が高まった。 物体検出プロセスは、本質的には汎用的なコンピュータビジョン問題としての課題であるが、uav(またはドローン)での物体検出アルゴリズムの使用は、比較的新しい領域であるため、航空画像中の物体を検出するためのより困難な問題として残されている。 i)大きな物体のばらつきを含む大規模なドローンデータセットの欠如、(ii)地上画像と比較してドローン画像の大きな向きとスケールのばらつき、(iii)地上画像と空中画像のテクスチャと形状の特徴の違いなど、いくつかの理由がある。 ディープラーニングに基づく物体検出アルゴリズムは、(a)単段検出器と(b)多段検出器の2つの主要なカテゴリに分類される。 シングルステージソリューションとマルチステージソリューションはどちらも、それぞれに長所と短所がある。 しかし、これらの解の良辺を結合する手法は、それぞれの解よりも強い解を個々に得ることができる。 本稿では,多段方式と単段方式を組み合わせたアンサンブルネットワークであるsynetを提案する。 ビルディングブロックとして、事前訓練された特徴抽出器を備えたCenterNetとCascade R-CNNをアンサンブル戦略と共に利用する。 提案手法によって得られた2つの異なるデータセット、すなわち、mAP_{IoU = 0.75}$がMS-COCO $val2017$データセットで得られ、mAP_{IoU = 0.75}$がVisDrone $test-set$で得られる。

Recent advances in camera equipped drone applications and their widespread use increased the demand on vision based object detection algorithms for aerial images. Object detection process is inherently a challenging task as a generic computer vision problem, however, since the use of object detection algorithms on UAVs (or on drones) is relatively a new area, it remains as a more challenging problem to detect objects in aerial images. There are several reasons for that including: (i) the lack of large drone datasets including large object variance, (ii) the large orientation and scale variance in drone images when compared to the ground images, and (iii) the difference in texture and shape features between the ground and the aerial images. Deep learning based object detection algorithms can be classified under two main categories: (a) single-stage detectors and (b) multi-stage detectors. Both single-stage and multi-stage solutions have their advantages and disadvantages over each other. However, a technique to combine the good sides of each of those solutions could yield even a stronger solution than each of those solutions individually. In this paper, we propose an ensemble network, SyNet, that combines a multi-stage method with a single-stage one with the motivation of decreasing the high false negative rate of multi-stage detectors and increasing the quality of the single-stage detector proposals. As building blocks, CenterNet and Cascade R-CNN with pretrained feature extractors are utilized along with an ensembling strategy. We report the state of the art results obtained by our proposed solution on two different datasets: namely MS-COCO and visDrone with \%52.1 $mAP_{IoU = 0.75}$ is obtained on MS-COCO $val2017$ dataset and \%26.2 $mAP_{IoU = 0.75}$ is obtained on VisDrone $test-set$.
翻訳日:2021-04-25 20:05:52 公開日:2020-12-23
# (参考訳) 低リソースasrのための音声合成

Speech Synthesis as Augmentation for Low-Resource ASR ( http://arxiv.org/abs/2012.13004v1 )

ライセンス: CC BY-SA 4.0
Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang and Prasanna Muthukumar(参考訳) 音声合成は低リソース音声認識の鍵を握るかもしれない。 データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。 しかし、それらはシンプルで、素直で、現実世界の状態を反映することはめったにない。 一方、音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。 本稿では,合成音声をデータ拡張の一形態として利用し,音声認識のためのリソースを削減できる可能性を検討する。 我々は,統計的パラメトリック,ニューラル,逆相の3種類のシンセサイザーを実験した。 我々の発見は興味深いものであり、将来の新たな研究の方向性を示している。

Speech synthesis might hold the key to low-resource speech recognition. Data augmentation techniques have become an essential part of modern speech recognition training. Yet, they are simple, naive, and rarely reflect real-world conditions. Meanwhile, speech synthesis techniques have been rapidly getting closer to the goal of achieving human-like speech. In this paper, we investigate the possibility of using synthesized speech as a form of data augmentation to lower the resources necessary to build a speech recognizer. We experiment with three different kinds of synthesizers: statistical parametric, neural, and adversarial. Our findings are interesting and point to new research directions for the future.
翻訳日:2021-04-25 19:32:12 公開日:2020-12-23
# (参考訳) シャドウ除去のための物理に基づくシャドウ画像分解

Physics-based Shadow Image Decomposition for Shadow Removal ( http://arxiv.org/abs/2012.13018v1 )

ライセンス: CC BY 4.0
Hieu Le and Dimitris Samaras(参考訳) 陰影除去のための新しい深層学習法を提案する。 影形成の物理モデルに着想を得て,影像を影のない画像,影パラメータ,マット層の組み合わせとして表現できる画像の影効果を線形照明変換によりモデル化する。 我々はSP-NetとM-Netという2つの深いネットワークを用いてそれぞれ影パラメータと影行列を予測する。 このシステムにより、画像から影効果を除去できる。 次に、インペイントネットワークであるI-Netを使って結果をさらに洗練します。 私たちは、最も難しいシャドウ除去データセット(ISTD)でフレームワークをトレーニングし、テストします。 本手法は,影領域の根平均二乗誤差(RMSE)を20 %改善する。 さらに,この分解により,パッチベースの弱教師付きシャドウ除去法を定式化できる。 このモデルは、(取得しづらい)シャドウフリーの画像なしでトレーニングでき、完全にペアのシャドウとシャドウフリーの画像で訓練された最先端の手法と比較して、競合するシャドウ除去結果が得られる。 最後に、シャドウ除去手法を評価するためのビデオシャドウ除去データセットであるSBU-Timelapseを紹介する。

We propose a novel deep learning method for shadow removal. Inspired by physical models of shadow formation, we use a linear illumination transformation to model the shadow effects in the image that allows the shadow image to be expressed as a combination of the shadow-free image, the shadow parameters, and a matte layer. We use two deep networks, namely SP-Net and M-Net, to predict the shadow parameters and the shadow matte respectively. This system allows us to remove the shadow effects from images. We then employ an inpainting network, I-Net, to further refine the results. We train and test our framework on the most challenging shadow removal dataset (ISTD). Our method improves the state-of-the-art in terms of root mean square error (RMSE) for the shadow area by 20\%. Furthermore, this decomposition allows us to formulate a patch-based weakly-supervised shadow removal method. This model can be trained without any shadow-free images (that are cumbersome to acquire) and achieves competitive shadow removal results compared to state-of-the-art methods that are trained with fully paired shadow and shadow-free images. Last, we introduce SBU-Timelapse, a video shadow removal dataset for evaluating shadow removal methods.
翻訳日:2021-04-25 19:25:11 公開日:2020-12-23
# マルチモーダルディープラーニングアプローチによるミームにおけるヘイトスピーチの検出:ヘイトフルミームチャレンジへの受賞ソリューション

Detecting Hate Speech in Memes Using Multimodal Deep Learning Approaches: Prize-winning solution to Hateful Memes Challenge ( http://arxiv.org/abs/2012.12975v1 )

ライセンス: Link先を確認
Riza Velioglu, Jewgeni Rose(参考訳) インターネット上のミームは、しばしば無害で、時々面白くなります。 しかし、ある種類の画像、テキスト、あるいは両方の組み合わせを使用することで、一見無害なミームは、憎悪的なミームであるマルチモーダルタイプのヘイトスピーチとなる。 ヘイトフルミームチャレンジ(Hateful Memes Challenge)は、マルチモーダルミームにおけるヘイトスピーチの検出に焦点を当てた、第一種コンペティションであり、マルチモーダルコンテンツの1万以上の新しいサンプルを含む新しいデータセットを提案する。 私たちは、画像やキャプションをマルチモーダルにトレーニングしたVisualBERT(ビジョンと言語のBERT)を使用し、Ensemble Learningを適用します。 提案手法は,チャレンジテストセットの精度0.765の0.811 AUROCを達成し,Hateful Memes Challengeの参加者3,173名中3位に位置づけた。

Memes on the Internet are often harmless and sometimes amusing. However, by using certain types of images, text, or combinations of both, the seemingly harmless meme becomes a multimodal type of hate speech -- a hateful meme. The Hateful Memes Challenge is a first-of-its-kind competition which focuses on detecting hate speech in multimodal memes and it proposes a new data set containing 10,000+ new examples of multimodal content. We utilize VisualBERT -- which meant to be the BERT of vision and language -- that was trained multimodally on images and captions and apply Ensemble Learning. Our approach achieves 0.811 AUROC with an accuracy of 0.765 on the challenge test set and placed third out of 3,173 participants in the Hateful Memes Challenge.
翻訳日:2021-04-25 18:24:20 公開日:2020-12-23
# ノイズラベルは良い表現を誘導できる

Noisy Labels Can Induce Good Representations ( http://arxiv.org/abs/2012.12896v1 )

ライセンス: Link先を確認
Jingling Li, Mozhi Zhang, Keyulu Xu, John P. Dickerson, Jimmy Ba(参考訳) ディープラーニングの現在の成功は、大規模なラベル付きデータセットに依存する。 実際には、高品質なアノテーションは収集にコストがかかるが、うるさいアノテーションはより安価である。 ニューラルネットワークはランダムラベルを簡単に記憶することができるが、ノイズラベルから一般化することもできる。 このパズルを説明するために,アーキテクチャが雑音ラベルによる学習に与える影響について検討する。 アーキテクチャがタスクに適合すると、モデルが一般化が不十分な場合でも、ノイズラベルを用いたトレーニングが有用な隠れ表現を誘導する。 この発見は、ノイズの多いラベルで訓練されたモデルを改善するための単純な方法をもたらす: 最終的な密度の高い層を線形モデルに置き換え、その重みは小さなクリーンなデータから学習する。 我々は,3つのアーキテクチャ(畳み込みニューラルネットワーク,グラフニューラルネットワーク,マルチレイヤパーセプトロン)と2つのドメイン(グラフアルゴリズムタスクと画像分類)にまたがる結果を実証的に検証した。 さらに,提案手法と既存のラベル学習手法を組み合わせることで,画像分類ベンチマークの最先端結果を得る。

The current success of deep learning depends on large-scale labeled datasets. In practice, high-quality annotations are expensive to collect, but noisy annotations are more affordable. Previous works report mixed empirical results when training with noisy labels: neural networks can easily memorize random labels, but they can also generalize from noisy labels. To explain this puzzle, we study how architecture affects learning with noisy labels. We observe that if an architecture "suits" the task, training with noisy labels can induce useful hidden representations, even when the model generalizes poorly; i.e., the last few layers of the model are more negatively affected by noisy labels. This finding leads to a simple method to improve models trained on noisy labels: replacing the final dense layers with a linear model, whose weights are learned from a small set of clean data. We empirically validate our findings across three architectures (Convolutional Neural Networks, Graph Neural Networks, and Multi-Layer Perceptrons) and two domains (graph algorithmic tasks and image classification). Furthermore, we achieve state-of-the-art results on image classification benchmarks by combining our method with existing approaches on noisy label training.
翻訳日:2021-04-25 18:24:02 公開日:2020-12-23
# 同時翻訳のための未来誘導インクリメンタルトランス

Future-Guided Incremental Transformer for Simultaneous Translation ( http://arxiv.org/abs/2012.12465v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng, Liangyou Li(参考訳) 同時翻訳(st)は、原文を読みながら翻訳を同期的に開始し、多くのオンラインシナリオで使用される。 以前のwait-kポリシーは簡潔で、STで良い結果を得た。 しかし、wait-kポリシーは、隠れた状態の再計算によるトレーニング速度の低下と、トレーニングを導くための将来の情報源情報の欠如という2つの弱点に直面している。 低トレーニング速度では,学習中の隠れ状態の計算速度を高速化するため,平均埋め込み層(AEL)を有するインクリメンタルトランスを提案する。 今後の指導訓練のために,インクリメンタルトランスの教師として従来の変圧器を提案し,知識蒸留を通したモデルに将来の情報を埋め込む。 提案手法を評価するために,中国語-英語-ドイツ語-英語同時翻訳タスクの実験を行い,wait-kポリシーと比較した。 提案手法は,学習速度を平均28倍に向上させ,予測能力を暗黙的にモデルに組み込むことにより,待ち時間ベースラインよりも優れた翻訳品質を実現する。

Simultaneous translation (ST) starts translations synchronously while reading source sentences, and is used in many online scenarios. The previous wait-k policy is concise and achieved good results in ST. However, wait-k policy faces two weaknesses: low training speed caused by the recalculation of hidden states and lack of future source information to guide training. For the low training speed, we propose an incremental Transformer with an average embedding layer (AEL) to accelerate the speed of calculation of the hidden states during training. For future-guided training, we propose a conventional Transformer as the teacher of the incremental Transformer, and try to invisibly embed some future information in the model through knowledge distillation. We conducted experiments on Chinese-English and German-English simultaneous translation tasks and compared with the wait-k policy to evaluate the proposed method. Our method can effectively increase the training speed by about 28 times on average at different k and implicitly embed some predictive abilities in the model, achieving better translation quality than wait-k baseline.
翻訳日:2021-04-25 18:23:43 公開日:2020-12-23
# マシンビジョンに基づく骨格型アプローチ:調査

Skeleton-based Approaches based on Machine Vision: A Survey ( http://arxiv.org/abs/2012.12447v1 )

ライセンス: Link先を確認
Jie Li, Binglin Li, Min Gao(参考訳) 近年,骨格表現に大きな成功を生かして,骨格に基づくアプローチが急速に進歩している。 多くの研究が骨格の特徴に応じて特定の問題を解決することに重点を置いている。 スケルトンに基づくいくつかのアプローチは、オブジェクト検出についていくつかの概要で言及されている。 それでも、骨格に基づくアプローチの徹底的な分析は行われていない。 これらの手法を理論的構成の観点から記述する代わりに、スケルトンに基づくアプローチをアプリケーション分野に関して要約し、可能な限り包括的にタスクを割り当てる。 本論文は,スケルトンに基づく応用のさらなる理解と,特定の問題への対処をめざすものである。

Recently, skeleton-based approaches have achieved rapid progress on the basis of great success in skeleton representation. Plenty of researches focus on solving specific problems according to skeleton features. Some skeleton-based approaches have been mentioned in several overviews on object detection as a non-essential part. Nevertheless, there has not been any thorough analysis of skeleton-based approaches attentively. Instead of describing these techniques in terms of theoretical constructs, we devote to summarizing skeleton-based approaches with regard to application fields and given tasks as comprehensively as possible. This paper is conducive to further understanding of skeleton-based application and dealing with particular issues.
翻訳日:2021-04-25 18:23:00 公開日:2020-12-23
# ICMSC : 非教師的領域適応のための股関節骨分節に対する意味的整合性

ICMSC: Intra- and Cross-modality Semantic Consistency for Unsupervised Domain Adaptation on Hip Joint Bone Segmentation ( http://arxiv.org/abs/2012.12570v1 )

ライセンス: Link先を確認
Guodong Zeng, Till D. Lerch, Florian Schmaranzer, Guoyan Zheng, Juergen Burger, Kate Gerber, Moritz Tannast, Klaus Siebenrock, Nicolas Gerber(参考訳) クロスモダリティ医療画像セグメンテーションのための教師なし領域適応(uda)は、ドメイン不変特徴学習や画像出現翻訳によって大きな進歩を遂げている。 適応型特徴学習は通常、ピクセルレベルでの領域シフトを検出できず、密集したセマンティックセグメンテーションタスクで良い結果を得ることができない。 画像の外観変換など。 CycleGANは、その人口にもかかわらず、その意味的な一貫性は維持されにくく、結果としてモダリティのセグメンテーションが劣る。 本稿では,UDAのためのICMSC(inter- and cross-modality semantic consistency)を提案する。 具体的には、画像翻訳モジュールとドメイン固有のセグメンテーションモジュールで構成される。 画像翻訳モジュールは標準のCycleGANであり、セグメンテーションモジュールは2つのドメイン固有のセグメンテーションネットワークを含んでいる。 モダリティ内セマンティック一貫性(IMSC)は、サイクル後の再構成画像を元の入力画像と同じ方法でセグメント化させ、一方、相互モダリティセマンティック一貫性(CMSC)は翻訳後の合成画像を翻訳前と同じセグメント化することを推奨する。 人工股関節置換術の包括的実験により, アセタブレムでは平均81.61%, 大腿骨近位では88.16%, 術式では88.16%, 術式では88.16%であった。 UDAなしでは、股関節骨分節のCTで訓練されたモデルがMRIでは転送不可能であり、ほぼゼロDICE分節である点に注意が必要である。

Unsupervised domain adaptation (UDA) for cross-modality medical image segmentation has shown great progress by domain-invariant feature learning or image appearance translation. Adapted feature learning usually cannot detect domain shifts at the pixel level and is not able to achieve good results in dense semantic segmentation tasks. Image appearance translation, e.g. CycleGAN, translates images into different styles with good appearance, despite its population, its semantic consistency is hardly to maintain and results in poor cross-modality segmentation. In this paper, we propose intra- and cross-modality semantic consistency (ICMSC) for UDA and our key insight is that the segmentation of synthesised images in different styles should be consistent. Specifically, our model consists of an image translation module and a domain-specific segmentation module. The image translation module is a standard CycleGAN, while the segmentation module contains two domain-specific segmentation networks. The intra-modality semantic consistency (IMSC) forces the reconstructed image after a cycle to be segmented in the same way as the original input image, while the cross-modality semantic consistency (CMSC) encourages the synthesized images after translation to be segmented exactly the same as before translation. Comprehensive experimental results on cross-modality hip joint bone segmentation show the effectiveness of our proposed method, which achieves an average DICE of 81.61% on the acetabulum and 88.16% on the proximal femur, outperforming other state-of-the-art methods. It is worth to note that without UDA, a model trained on CT for hip joint bone segmentation is non-transferable to MRI and has almost zero-DICE segmentation.
翻訳日:2021-04-25 18:22:35 公開日:2020-12-23
# バイオメディカル・サイエント・レビューにおけるレイ言語の自動要約

Automated Lay Language Summarization of Biomedical Scientific Reviews ( http://arxiv.org/abs/2012.12573v1 )

ライセンス: Link先を確認
Yue Guo, Wei Qiu, Yizhong Wang, Trevor Cohen(参考訳) 健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。 しかし、この領域における医学用語と専門用語の複雑な構造は、特に理解が困難である。 したがって、一般大衆への生物医学文献のアクセシビリティを高めるために、自動的な方法が緊急に必要となる。 この問題は、医療専門家の言語と一般人の言語の間の翻訳問題の一種として構成することができる。 本稿では,バイオメディカル・サイエンス・レビューにおけるレイ言語要約の自動生成という新たな課題を紹介し,バイオメディカル文献のアクセシビリティを高めるための自動手法の開発と評価を支援するデータセットを構築する。 本研究は,鍵点の要約だけでなく,背景知識の説明や専門用語の簡略化など,この課題を解決する上でのさまざまな課題の分析を行う。 我々は,最先端の要約モデルといくつかのデータ拡張手法を実験し,自動計測とヒューマンアセスメントを用いてその性能を評価する。 その結果, 現代のニューラルネットワークを用いた自動生成サマリーは, 一般一般向けに開発された参照サマリー(50.24のROUGE-L, 13.30のFlesch-Kincaid可読性スコア)と比較して, 有望な品質と可読性を達成できることが示唆された。 我々はまた、現在の試みの限界についても議論し、将来の作業への洞察と指示を提供する。

Health literacy has emerged as a crucial factor in making appropriate health decisions and ensuring treatment outcomes. However, medical jargon and the complex structure of professional language in this domain make health information especially hard to interpret. Thus, there is an urgent unmet need for automated methods to enhance the accessibility of the biomedical literature to the general population. This problem can be framed as a type of translation problem between the language of healthcare professionals, and that of the general public. In this paper, we introduce the novel task of automated generation of lay language summaries of biomedical scientific reviews, and construct a dataset to support the development and evaluation of automated methods through which to enhance the accessibility of the biomedical literature. We conduct analyses of the various challenges in solving this task, including not only summarization of the key points but also explanation of background knowledge and simplification of professional language. We experiment with state-of-the-art summarization models as well as several data augmentation techniques, and evaluate their performance using both automated metrics and human assessment. Results indicate that automatically generated summaries produced using contemporary neural architectures can achieve promising quality and readability as compared with reference summaries developed for the lay public by experts (best ROUGE-L of 50.24 and Flesch-Kincaid readability score of 13.30). We also discuss the limitations of the current attempt, providing insights and directions for future work.
翻訳日:2021-04-25 18:21:38 公開日:2020-12-23
# AutonoML: 自律機械学習のための統合フレームワークを目指す

AutonoML: Towards an Integrated Framework for Autonomous Machine Learning ( http://arxiv.org/abs/2012.12600v1 )

ライセンス: Link先を確認
David Jacob Kedziora and Katarzyna Musial and Bogdan Gabrys(参考訳) 過去10年間で、機械学習(ML)におけるハイレベルなプロセスを自動化するための長い努力が主流となり、最適化技術の進歩と、MLモデル/アルゴリズムの選択に対する彼らの影響によって刺激されている。 このドライブの中心は、人間との相互作用が最小限である任意のML問題に対して、高性能なソリューションを発見し、展開する計算システムの工学的魅力である。 これ以外にも、さらに大きな目標は自律性の追求であり、状況変化の生涯にわたってMLソリューションを独立的に調整するシステムの能力を記述する。 しかし、これらの野心は、様々なメカニズムや理論的な枠組みを広く統合することなく、堅牢な方法で達成することは不可能であり、現在、多くの研究スレッドに分散している。 したがって、このレビューは、これらの要素をどのように統合するかを考慮しながら、自動化および自律的なMLシステムを構成するものに関して、より広範な視点を動機付けようとしている。 ハイパーパラメータ最適化,マルチコンポーネントモデル,ニューラルアーキテクチャ探索,自動機能工学,メタラーニング,マルチレベルセンシング,動的適応,多目的評価,リソース制約,フレキシブルなユーザ関与,一般化の原則など,研究分野の発展を調査した。 また、各トピックによって拡張されたレビュー全体を通じて概念的なフレームワークを開発し、ハイレベルなメカニズムを自律型MLシステムに融合する方法を1つ示す。 最終的に、アーキテクチャ統合の概念は、自動化MLの分野が技術的優位性と一般的な獲得の両方を損なうリスクを伴わない、より議論に値すると結論付けます。

Over the last decade, the long-running endeavour to automate high-level processes in machine learning (ML) has risen to mainstream prominence, stimulated by advances in optimisation techniques and their impact on selecting ML models/algorithms. Central to this drive is the appeal of engineering a computational system that both discovers and deploys high-performance solutions to arbitrary ML problems with minimal human interaction. Beyond this, an even loftier goal is the pursuit of autonomy, which describes the capability of the system to independently adjust an ML solution over a lifetime of changing contexts. However, these ambitions are unlikely to be achieved in a robust manner without the broader synthesis of various mechanisms and theoretical frameworks, which, at the present time, remain scattered across numerous research threads. Accordingly, this review seeks to motivate a more expansive perspective on what constitutes an automated/autonomous ML system, alongside consideration of how best to consolidate those elements. In doing so, we survey developments in the following research areas: hyperparameter optimisation, multi-component models, neural architecture search, automated feature engineering, meta-learning, multi-level ensembling, dynamic adaptation, multi-objective evaluation, resource constraints, flexible user involvement, and the principles of generalisation. We also develop a conceptual framework throughout the review, augmented by each topic, to illustrate one possible way of fusing high-level mechanisms into an autonomous ML system. Ultimately, we conclude that the notion of architectural integration deserves more discussion, without which the field of automated ML risks stifling both its technical advantages and general uptake.
翻訳日:2021-04-25 18:21:17 公開日:2020-12-23
# GDPRに基づくプライバシドキュメントのコンプライアンス生成 - 自動化と機械学習のロードマップ

Compliance Generation for Privacy Documents under GDPR: A Roadmap for Implementing Automation and Machine Learning ( http://arxiv.org/abs/2012.12718v1 )

ライセンス: Link先を確認
David Restrepo Amariles, Aurore Cl\'ement Troussel, Rajaa El Hamdani(参考訳) 今日、最も顕著な研究は、消費者中心および公共規制アプローチによるデータ保護法の遵守である。 この視点をPrivatechプロジェクトで転換し、コンプライアンスのエージェントとして企業や法律会社に注力します。 データ保護法に準拠するために、データプロセッサは、プライバシー文書とプライバシー慣行の両方に関してコンプライアンスを評価し文書化するための説明責任対策を実行しなければならない。 本稿では, GDPRの自動化に関する最近の研究と, その一方で, 企業がGDPRに従わなければならない運用上の課題について調査し, 新たな形態の自動化の恩恵を受ける可能性がある。 私たちはそのギャップを橋渡ししようとする。 コンプライアンス問題を特定し,機械学習と自動化によって対処可能なタスクに分割し,privatechプロジェクトにおける関連する開発に関するメモを提供することで,コンプライアンス評価と生成のロードマップを提供する。

Most prominent research today addresses compliance with data protection laws through consumer-centric and public-regulatory approaches. We shift this perspective with the Privatech project to focus on corporations and law firms as agents of compliance. To comply with data protection laws, data processors must implement accountability measures to assess and document compliance in relation to both privacy documents and privacy practices. In this paper, we survey, on the one hand, current research on GDPR automation, and on the other hand, the operational challenges corporations face to comply with GDPR, and that may benefit from new forms of automation. We attempt to bridge the gap. We provide a roadmap for compliance assessment and generation by identifying compliance issues, breaking them down into tasks that can be addressed through machine learning and automation, and providing notes about related developments in the Privatech project.
翻訳日:2021-04-25 18:20:49 公開日:2020-12-23
# ベイズ深層学習による衛星結合管理の自動化に向けて

Towards Automated Satellite Conjunction Management with Bayesian Deep Learning ( http://arxiv.org/abs/2012.12450v1 )

ライセンス: Link先を確認
Francesco Pinto, Giacomo Acciarini, Sascha Metz, Sarah Boufelja, Sylvester Kaczmarek, Klaus Merz, Jos\'e A. Martinez-Heras, Francesca Letizia, Christopher Bridges, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 数十年にわたる宇宙旅行の後、低軌道は廃棄されたロケット本体、死んだ衛星、衝突や爆発による数百万の破片のジャンクヤードである。 高度の高い天体は大気圏に再突入して燃え上がるのではなく、長期間地球を周回する軌道に留まる。 速度は28,000km/hで、これらの軌道上の衝突は断片を発生させ、ケスラー症候群として知られるさらなる衝突のカスケードを引き起こす可能性がある。 この現象は将来の宇宙活動の妨げとなり、宇宙や地球科学の応用に不可欠な衛星インフラを損なう可能性があるため、惑星的な課題となる可能性がある。 商業団体が軌道上の衛星のメガコンステレーションを行うと、衝突回避操作を行うオペレーターの負担が増加する。 このため、潜在的な衝突イベント(結合)を予測する自動ツールの開発が不可欠である。 本稿では,この問題に対するベイズ深層学習手法を紹介し,空間コミュニティが使用する標準データフォーマットである時系列結合データメッセージ (cdms) で動作するリカレントニューラルネットワークアーキテクチャ (lstms) を開発した。 提案手法は,今後のCDMの到着時期など,全てのCDM特徴を同時にモデル化し,関連する不確実性と組み合わせたイベントの進化を予測できることを示す。

After decades of space travel, low Earth orbit is a junkyard of discarded rocket bodies, dead satellites, and millions of pieces of debris from collisions and explosions. Objects in high enough altitudes do not re-enter and burn up in the atmosphere, but stay in orbit around Earth for a long time. With a speed of 28,000 km/h, collisions in these orbits can generate fragments and potentially trigger a cascade of more collisions known as the Kessler syndrome. This could pose a planetary challenge, because the phenomenon could escalate to the point of hindering future space operations and damaging satellite infrastructure critical for space and Earth science applications. As commercial entities place mega-constellations of satellites in orbit, the burden on operators conducting collision avoidance manoeuvres will increase. For this reason, development of automated tools that predict potential collision events (conjunctions) is critical. We introduce a Bayesian deep learning approach to this problem, and develop recurrent neural network architectures (LSTMs) that work with time series of conjunction data messages (CDMs), a standard data format used by the space community. We show that our method can be used to model all CDM features simultaneously, including the time of arrival of future CDMs, providing predictions of conjunction event evolution with associated uncertainties.
翻訳日:2021-04-25 18:20:35 公開日:2020-12-23
# 深層学習と確率論的論理を組み合わせた自己教師型自己監督

Self-supervised self-supervision by combining deep learning and probabilistic logic ( http://arxiv.org/abs/2012.12474v1 )

ライセンス: Link先を確認
Hunter Lang, Hoifung Poon(参考訳) 大規模なトレーニング例のラベル付けは、マシンラーニングにおける長年にわたる課題だ。 自己スーパービジョン手法は、事前知識を活用してノイズの多いラベル付き例を自動的に生成することにより、直接的な監督の欠如を補う。 deep probabilistic logic (dpl) は未知ラベルを潜在変数として表現する自己教師あり学習のための統一フレームワークであり、確率論理を用いた多種多様な自己教師あり論理を組み込んで、変分emを用いてディープニューラルネットワークをエンドツーエンドに訓練する。 DPLは、事前に特定された自己スーパービジョンを組み合わせることに成功しているが、高い精度を達成するために手動で自己スーパービジョンを構築することは、いまだに面倒で難しい。 本稿では、DPLに新たな自己スーパービジョンを自動学習する機能を追加するセルフスーパービジョン(S4)を提案する。 s4は、最初の"シード"から始まり、ディープニューラルネットワークを使って新しい自己管理を提案する。 これらは直接追加(構造化された自己学習の形式)するか、あるいは(機能ベースのアクティブラーニングのように)人間の専門家によって検証される。 実験によると、S4は自動的に正確な自己スーパービジョンを提案し、監督された手法の精度を人間の努力のごく一部とほぼ一致させることができる。

Labeling training examples at scale is a perennial challenge in machine learning. Self-supervision methods compensate for the lack of direct supervision by leveraging prior knowledge to automatically generate noisy labeled examples. Deep probabilistic logic (DPL) is a unifying framework for self-supervised learning that represents unknown labels as latent variables and incorporates diverse self-supervision using probabilistic logic to train a deep neural network end-to-end using variational EM. While DPL is successful at combining pre-specified self-supervision, manually crafting self-supervision to attain high accuracy may still be tedious and challenging. In this paper, we propose Self-Supervised Self-Supervision (S4), which adds to DPL the capability to learn new self-supervision automatically. Starting from an initial "seed," S4 iteratively uses the deep neural network to propose new self supervision. These are either added directly (a form of structured self-training) or verified by a human expert (as in feature-based active learning). Experiments show that S4 is able to automatically propose accurate self-supervision and can often nearly match the accuracy of supervised methods with a tiny fraction of the human effort.
翻訳日:2021-04-25 18:20:12 公開日:2020-12-23
# IFGAN:特徴固有生成逆数ネットワークを用いた値計算の欠如

IFGAN: Missing Value Imputation using Feature-specific Generative Adversarial Networks ( http://arxiv.org/abs/2012.12581v1 )

ライセンス: Link先を確認
Wei Qiu, Yangsibo Huang, Quanzheng Li(参考訳) データマイニングにおいて、価値計算の欠如は困難でよく研究されているトピックである。 本稿では,特徴特異的生成型逆ネットワーク(gan)に基づく欠落値インプテーションアルゴリズムifganを提案する。 特徴固有のジェネレータは、欠落した値をインプットするように訓練され、識別器は、インプットされた値と観察された値とを区別することが期待される。 提案したアーキテクチャは、さまざまなデータタイプ、データ分散、欠落メカニズム、欠落率を扱うことができる。 また、機能間相関を保ち、インプット後の分析を改善する。 IFGANは、様々な不足条件下で現在の最先端アルゴリズムより優れている実生活データセットを実証的に示す。

Missing value imputation is a challenging and well-researched topic in data mining. In this paper, we propose IFGAN, a missing value imputation algorithm based on Feature-specific Generative Adversarial Networks (GAN). Our idea is intuitive yet effective: a feature-specific generator is trained to impute missing values, while a discriminator is expected to distinguish the imputed values from observed ones. The proposed architecture is capable of handling different data types, data distributions, missing mechanisms, and missing rates. It also improves post-imputation analysis by preserving inter-feature correlations. We empirically show on several real-life datasets that IFGAN outperforms current state-of-the-art algorithm under various missing conditions.
翻訳日:2021-04-25 18:19:15 公開日:2020-12-23
# 二次損失:不確実性改善のための新しい回帰目標

Second-Moment Loss: A Novel Regression Objective for Improved Uncertainties ( http://arxiv.org/abs/2012.12687v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Maximilian Pintz, Tim Wirtz, Asja Fischer, Stefan Wrobel(参考訳) 不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。 その重要性にもかかわらず、特にニューラルネットワークでは、一般的な解決には程遠い。 これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。 しかし、不確実性は過小評価できる。 本稿では,この問題に対処するため,第2モーメント損失(SML)と呼ばれる新たな目標を提案する。 完全なネットワークは平均をモデル化するよう奨励されるが、ドロップアウトネットワークはモデル分散を最適化するために明示的に使用される。 我々は,様々な玩具およびUCI回帰データセットを用いて,新しい目標の性能を分析した。 ディープアンサンブルの最先端と比較すると、SMLは単一のモデルのみを必要とする一方で、同等の予測精度と不確実性の推定につながる。 流通シフトでは,適度な改善が観察される。 安全性の観点からは、最悪のケースの不確実性の研究も重要である。 この点で私たちはかなり改善します。 最後に、SMLは、最新のオブジェクト検出ネットワークであるSqueezeDetに適用可能であることを示す。 回帰品質を損なうことなく,不確実性に関するスコアを改善する。 その結果,非飽和な直感的なwasserstein距離に基づく不確実性尺度を導入し,任意の不確実性推定値間の品質差を解消する。

Quantification of uncertainty is one of the most promising approaches to establish safe machine learning. Despite its importance, it is far from being generally solved, especially for neural networks. One of the most commonly used approaches so far is Monte Carlo dropout, which is computationally cheap and easy to apply in practice. However, it can underestimate the uncertainty. We propose a new objective, referred to as second-moment loss (SML), to address this issue. While the full network is encouraged to model the mean, the dropout networks are explicitly used to optimize the model variance. We analyze the performance of the new objective on various toy and UCI regression datasets. Comparing to the state-of-the-art of deep ensembles, SML leads to comparable prediction accuracies and uncertainty estimates while only requiring a single model. Under distribution shift, we observe moderate improvements. From a safety perspective also the study of worst-case uncertainties is crucial. In this regard we improve considerably. Finally, we show that SML can be successfully applied to SqueezeDet, a modern object detection network. We improve on its uncertainty-related scores while not deteriorating regression quality. As a side result, we introduce an intuitive Wasserstein distance-based uncertainty measure that is non-saturating and thus allows to resolve quality differences between any two uncertainty estimates.
翻訳日:2021-04-25 18:19:03 公開日:2020-12-23
# 構造的マルチアウトプット回帰による脊髄 cobb 角度の直接推定

Direct Estimation of Spinal Cobb Angles by Structured Multi-Output Regression ( http://arxiv.org/abs/2012.12626v1 )

ライセンス: Link先を確認
Haoliang Sun, Xiantong Zhen, Chris Bailey, Parham Rasoulinejad, Yilong Yin, Shuo Li(参考訳) 脊柱管曲率を定量的に評価するコブ角は、スコリオーシスの診断と治療において重要な役割を果たす。 これらの角度の従来の測定は、集中的な手動介入によって大きな変動と信頼性の低下に苦しむ。 しかし,椎体の境界付近には高い曖昧性と変動性があるため,自動的にコブ角を得ることは困難である。 本稿では,脊髄x線からのcobb角の推定を多出力回帰タスクとして定式化する。 一つのフレームワークにおいて,x線による脊椎の cobb 角度とランドマークを共同推定するための構造的支持ベクトル回帰 (s^2vr) を提案する。 提案するs^2vrは入力画像と定量的出力の非線形関係を忠実に処理でき,出力の固有相関を明示的に捉えることができる。 出力空間の幾何を利用するために多様体正規化を導入する。 本稿では、カーネルターゲットアライメントによるS2VRにおけるカーネルの学習を提案し、その識別能力を高める。 提案手法は, 439症例の脊髄X線データセットを用いて評価し, 人手による地上の真理と92.76%のインスピレーション相関係数を達成し, 2つのベースライン法より優れていた。 本手法は, 高い精度で cobb 角度の直接推定が可能であり, 臨床応用の可能性も示唆する。

The Cobb angle that quantitatively evaluates the spinal curvature plays an important role in the scoliosis diagnosis and treatment. Conventional measurement of these angles suffers from huge variability and low reliability due to intensive manual intervention. However, since there exist high ambiguity and variability around boundaries of vertebrae, it is challenging to obtain Cobb angles automatically. In this paper, we formulate the estimation of the Cobb angles from spinal X-rays as a multi-output regression task. We propose structured support vector regression (S^2VR) to jointly estimate Cobb angles and landmarks of the spine in X-rays in one single framework. The proposed S^2VR can faithfully handle the nonlinear relationship between input images and quantitative outputs, while explicitly capturing the intrinsic correlation of outputs. We introduce the manifold regularization to exploit the geometry of the output space. We propose learning the kernel in S2VR by kernel target alignment to enhance its discriminative ability. The proposed method is evaluated on the spinal X-rays dataset of 439 scoliosis subjects, which achieves the inspiring correlation coefficient of 92.76% with ground truth obtained manually by human experts and outperforms two baseline methods. Our method achieves the direct estimation of Cobb angles with high accuracy, which indicates its great potential in clinical use.
翻訳日:2021-04-25 18:18:18 公開日:2020-12-23
# シーンテキスト認識モデルの校正について

On Calibration of Scene-Text Recognition Models ( http://arxiv.org/abs/2012.12643v1 )

ライセンス: Link先を確認
Ron Slossberg, Oron Anschel, Amir Markovitz, Ron Litman, Aviad Aberdam, Shahar Tsiper, Shai Mazor, Jon Wu and R. Manmatha(参考訳) 本研究では,シーンテキスト認識(STR)における単語レベルの信頼度校正の問題について検討する。 信頼性キャリブレーションの話題は過去数十年にわたって活発な研究領域であったが、構造的およびシーケンス予測キャリブレーションの事例はほとんど調査されていない。 我々は最近のSTR法を分析し、それらが常に過信であることを示す。 次に、文字レベルではなく単語上のSTRモデルの校正に焦点を当てる。 特に注意に基づくデコーダでは、個々の文字予測のキャリブレーションにより、キャリブレーションされていないモデルと比較して単語レベルのキャリブレーション誤差が増加することを示す。 さらに,既存のキャリブレーション手法と新しいシーケンスベース拡張を多数のSTRモデルに適用し,キャリブレーション誤差を最大7。 最後に,ビームサーチにおける前処理ステップとして提案したシーケンスキャリブレーション法を適用し,一貫した精度向上を示す。

In this work, we study the problem of word-level confidence calibration for scene-text recognition (STR). Although the topic of confidence calibration has been an active research area for the last several decades, the case of structured and sequence prediction calibration has been scarcely explored. We analyze several recent STR methods and show that they are consistently overconfident. We then focus on the calibration of STR models on the word rather than the character level. In particular, we demonstrate that for attention based decoders, calibration of individual character predictions increases word-level calibration error compared to an uncalibrated model. In addition, we apply existing calibration methodologies as well as new sequence-based extensions to numerous STR models, demonstrating reduced calibration error by up to a factor of nearly 7. Finally, we show consistently improved accuracy results by applying our proposed sequence calibration method as a preprocessing step to beam-search.
翻訳日:2021-04-25 18:17:57 公開日:2020-12-23
# ハイブリッドラテント表現学習のためのプライベート共有分散マルチモーダルVAE

Private-Shared Disentangled Multimodal VAE for Learning of Hybrid Latent Representations ( http://arxiv.org/abs/2012.13024v1 )

ライセンス: Link先を確認
Mihee Lee, Vladimir Pavlovic(参考訳) マルチモーダル生成モデルは、複数のビューやモダリティを持つデータの表現学習を容易にすることを目的としているディープモデルの重要なファミリーを表す。 しかし、現在の深層マルチモーダルモデルは共有表現の推論にフォーカスしているが、個々のモダリティ内のデータの重要なプライベートな側面は無視している。 本稿では,複数のモードのプライベートかつ共有の潜在空間を分離するために,分散VAE戦略を利用する分散マルチモーダル変分オートエンコーダ(DMVAE)を提案する。 特に、潜在因子が連続的かつ離散的性質を持つ可能性がある場合を考察し、一般的なハイブリッドdmvaeモデルの族へと導く。 半教師付き学習タスクにおけるdmvaeの有用性を実証し,一方のモダリティが部分的データラベルを含み,他方のモダリティと無関係であることを示す。 いくつかのベンチマークで行った実験は、プライベートシェードな絡み合いとハイブリッドな潜伏表現の重要性を示している。

Multi-modal generative models represent an important family of deep models, whose goal is to facilitate representation learning on data with multiple views or modalities. However, current deep multi-modal models focus on the inference of shared representations, while neglecting the important private aspects of data within individual modalities. In this paper, we introduce a disentangled multi-modal variational autoencoder (DMVAE) that utilizes disentangled VAE strategy to separate the private and shared latent spaces of multiple modalities. We specifically consider the instance where the latent factor may be of both continuous and discrete nature, leading to the family of general hybrid DMVAE models. We demonstrate the utility of DMVAE on a semi-supervised learning task, where one of the modalities contains partial data labels, both relevant and irrelevant to the other modality. Our experiments on several benchmarks indicate the importance of the private-shared disentanglement as well as the hybrid latent representation.
翻訳日:2021-04-25 18:17:44 公開日:2020-12-23
# 自動車用クロスモーダル監視用カメラ画像へのレーダデータのワーピング

Warping of Radar Data into Camera Image for Cross-Modal Supervision in Automotive Applications ( http://arxiv.org/abs/2012.12809v1 )

ライセンス: Link先を確認
Christopher Grimm, Tai Fei, Ernst Warsitz, Ridha Farhoud, Tobias Breddermann, Reinhold Haeb-Umbach(参考訳) 本稿では,自動車用レーダレンジドップラー(rd)スペクトルをカメラ画像に投影する新しい枠組みを提案する。 使用済みのワーピング操作は、操作を通じてエラーバックプロパゲーションを可能にするため、完全に微分可能なように設計されている。 これにより、カメラビジョンモデルから提供されるラベルを利用することで、RDスペクトルのみで動作するニューラルネットワーク(NN)のトレーニングが可能になる。 ウォーピング操作は正確なシーンフローに依存するため,カメラ,ライダー,レーダーから供給されるシーンフロー推定アルゴリズムを提案することにより,ウォーピング動作の精度を向上させることができる。 本フレームワークは,カメラデータからの指向性推定(DoA),ターゲット検出,セマンティックセグメンテーション,レーダパワー推定など,複数のアプリケーションで実証されている。 広範に評価を行った結果,従来の推定値と比較してNNベース推定値に優れた品質が示唆された。 新たなシーンフロー推定手法は,最先端のシーンフローアルゴリズムに対してベンチマークを行い,約3分の1の精度で評価する。

In this paper, we present a novel framework to project automotive radar range-Doppler (RD) spectrum into camera image. The utilized warping operation is designed to be fully differentiable, which allows error backpropagation through the operation. This enables the training of neural networks (NN) operating exclusively on RD spectrum by utilizing labels provided from camera vision models. As the warping operation relies on accurate scene flow, additionally, we present a novel scene flow estimation algorithm fed from camera, lidar and radar, enabling us to improve the accuracy of the warping operation. We demonstrate the framework in multiple applications like direction-of-arrival (DoA) estimation, target detection, semantic segmentation and estimation of radar power from camera data. Extensive evaluations have been carried out for the DoA application and suggest superior quality for NN based estimators compared to classical estimators. The novel scene flow estimation approach is benchmarked against state-of-the-art scene flow algorithms and outperforms them by roughly a third.
翻訳日:2021-04-25 18:17:26 公開日:2020-12-23
# 測定誤差を伴う離散データの部分的識別可能性

Partial Identifiability in Discrete Data With Measurement Error ( http://arxiv.org/abs/2012.12449v1 )

ライセンス: Link先を確認
Noam Finkelstein, Roy Adams, Suchi Saria, Ilya Shpitser(参考訳) データに測定誤差が含まれている場合、観測された誤ったデータを観測されていない真の現象と関連づける仮定をする必要がある。 これらの仮定は従属的な根拠で正当化されるべきであるが、推論のターゲットを正確に特定するため、しばしば数学的利便性によって動機づけられる。 我々は、疑わしい前提の下で正確な識別を追求するよりも、正当化可能な仮定の下で境界を示すことが好ましいという見解を採用する。 そこで本研究では,モデルパラメータの線形制約として,一般的な測定誤差や条件付き独立仮定を含む,離散変数を含む広範囲なモデリング仮定を表現できることを実証する。 次に、そのようなモデルにおける測定誤差の下で、実数分布と反実数分布の鋭い境界を生成するために線形プログラミング手法を用いる。 さらに,非線形モデルにおける外界を求める手法を提案する。 本手法では,計測誤差を持つ機器変数のシナリオなど,多くの重要な設定において,これまで境界が知られていなかったシャープな境界を求める。

When data contains measurement errors, it is necessary to make assumptions relating the observed, erroneous data to the unobserved true phenomena of interest. These assumptions should be justifiable on substantive grounds, but are often motivated by mathematical convenience, for the sake of exactly identifying the target of inference. We adopt the view that it is preferable to present bounds under justifiable assumptions than to pursue exact identification under dubious ones. To that end, we demonstrate how a broad class of modeling assumptions involving discrete variables, including common measurement error and conditional independence assumptions, can be expressed as linear constraints on the parameters of the model. We then use linear programming techniques to produce sharp bounds for factual and counterfactual distributions under measurement error in such models. We additionally propose a procedure for obtaining outer bounds on non-linear models. Our method yields sharp bounds in a number of important settings -- such as the instrumental variable scenario with measurement error -- for which no bounds were previously known.
翻訳日:2021-04-25 18:16:30 公開日:2020-12-23
# 調達コストを考慮したオンライン資源配分における競争率向上のための機能設計

Function Design for Improved Competitive Ratio in Online Resource Allocation with Procurement Costs ( http://arxiv.org/abs/2012.12457v1 )

ライセンス: Link先を確認
Mitas Ray, Omid Sadeghi, Lillian J. Ratliff, Maryam Fazel(参考訳) 我々は、複数の顧客が順次到着し、売り手が入ってくる各顧客に対して無意味にリソースを割り当てると同時に、総割り当ての調達コストに直面するオンラインリソース割り当ての問題について検討する。 資源調達が限界的に増大するコスト関数に従えば、顧客の要求を満たすことで得られる報酬が累積調達コストに匹敵する最大化が目的である。 本研究では,本手法におけるプライマル・デュアルアルゴリズムの競合比を分析し,アルゴリズムが使用する調達コスト関数のサロゲート関数を合成する最適化フレームワークを開発し,プライマル・デュアルアルゴリズムの競合比を向上させる。 最初の設計手法は, 多項式調達コスト関数に着目し, 最適サロゲート関数を用いて, より洗練された境界を提供する。 第2の設計手法は, 準凸最適化を用いて, 調達コスト関数の一般クラスに対する最適設計パラメータを求める。 数値的な例は設計技法を説明するために使われる。 分析を拡張して、アルゴリズムが顧客の好みを明らかにする必要のない価格設定メカニズムを考案する。

We study the problem of online resource allocation, where multiple customers arrive sequentially and the seller must irrevocably allocate resources to each incoming customer while also facing a procurement cost for the total allocation. Assuming resource procurement follows an a priori known marginally increasing cost function, the objective is to maximize the reward obtained from fulfilling the customers' requests sans the cumulative procurement cost. We analyze the competitive ratio of a primal-dual algorithm in this setting, and develop an optimization framework for synthesizing a surrogate function for the procurement cost function to be used by the algorithm, in order to improve the competitive ratio of the primal-dual algorithm. Our first design method focuses on polynomial procurement cost functions and uses the optimal surrogate function to provide a more refined bound than the state of the art. Our second design method uses quasiconvex optimization to find optimal design parameters for a general class of procurement cost functions. Numerical examples are used to illustrate the design techniques. We conclude by extending the analysis to devise a posted pricing mechanism in which the algorithm does not require the customers' preferences to be revealed.
翻訳日:2021-04-25 18:16:15 公開日:2020-12-23
# 半透明パッチ:物体検出器に対する物理的および普遍的な攻撃

The Translucent Patch: A Physical and Universal Attack on Object Detectors ( http://arxiv.org/abs/2012.12528v1 )

ライセンス: Link先を確認
Alon Zolfi and Moshe Kravchik and Yuval Elovici and Asaf Shabtai(参考訳) 近年、物体検出器に対する物理的敵対攻撃が成功している。 しかし、これらの攻撃は物理的パッチを適用するために興味のあるオブジェクトに直接アクセスする必要がある。 さらに、複数のオブジェクトを隠すには、各オブジェクトに逆パッチを適用する必要がある。 本稿では,カメラのレンズに配置したパターンを念入りに組み込んだ非接触半透明の物理的パッチを,最先端の物体検出器を騙すために提案する。 パッチの主な目標は、選択されたターゲットクラスのすべてのインスタンスを隠すことです。 さらに、パッチ構築に使用される最適化手法は、他の(未対象の)クラスの検出が損なわれないようにすることを目的としている。 そこで,自動運転における最先端の物体検出モデルを用いた実験では,パッチが選択された対象クラスと他のクラスの両方の検出に与える影響について検討する。 我々のパッチは、他のクラスの高い(約80%)検出を維持しながら、すべてのストップサインインスタンスの42.27%の検出を防止できた。

Physical adversarial attacks against object detectors have seen increasing success in recent years. However, these attacks require direct access to the object of interest in order to apply a physical patch. Furthermore, to hide multiple objects, an adversarial patch must be applied to each object. In this paper, we propose a contactless translucent physical patch containing a carefully constructed pattern, which is placed on the camera's lens, to fool state-of-the-art object detectors. The primary goal of our patch is to hide all instances of a selected target class. In addition, the optimization method used to construct the patch aims to ensure that the detection of other (untargeted) classes remains unharmed. Therefore, in our experiments, which are conducted on state-of-the-art object detection models used in autonomous driving, we study the effect of the patch on the detection of both the selected target class and the other classes. We show that our patch was able to prevent the detection of 42.27% of all stop sign instances while maintaining high (nearly 80%) detection of the other classes.
翻訳日:2021-04-25 18:15:04 公開日:2020-12-23
# GANDA: 腫瘍画素内のナノ粒子の空間分布を推定する深層生成対向ネットワーク

GANDA: A deep generative adversarial network predicts the spatial distribution of nanoparticles in tumor pixelly ( http://arxiv.org/abs/2012.12561v1 )

ライセンス: Link先を確認
Jiulou Zhang, Yuxia Tang, Shouju Wang(参考訳) 腫瘍内ナノ粒子 (nps) 分布は診断および治療効果に重要であるが, 複雑な生体-ナノ相互作用のために分布を予測できない。 本稿では,腫瘍間のnps分布の画素間予測を行うganda(generative adversarial network for distribution analysis)を開発した。 この予測モデルは、腫瘍部位の全スライディング画像から腫瘍血管と細胞核の特徴を自動的に学習するためにディープラーニングアプローチを使用した。 GANDAは腫瘍血管と核の原像と同じ空間分解能でNPs分布の画像を生成することができた。 GANDAはNPs分布(R2=0.93)を定量的に分析し、実際の分布を知らずにエクスポーテーションを可能にした。 このモデルは、個々の腫瘍におけるNPs分布に影響を及ぼす要因を調べる機会を与え、パーソナライズされた治療のためのナノメディシン最適化を導く。

Intratumoral nanoparticles (NPs) distribution is critical for the diagnostic and therapeutic effect, but methods to predict the distribution remain unavailable due to the complex bio-nano interactions. Here, we developed a Generative Adversarial Network for Distribution Analysis (GANDA) to make pixels-to-pixels prediction of the NPs distribution across tumors. This predictive model used deep learning approaches to automatically learn the features of tumor vessels and cell nuclei from whole-slide images of tumor sections. We showed that the GANDA could generate images of NPs distribution with the same spatial resolution as original images of tumor vessels and nuclei. The GANDA enabled quantitative analysis of NPs distribution (R2=0.93) and extravasation without knowing their real distribution. This model provides opportunities to investigate how influencing factors affect NPs distribution in individual tumors and may guide nanomedicine optimization for personalized treatments.
翻訳日:2021-04-25 18:14:49 公開日:2020-12-23
# 深層多様体学習はプロテアソーム自己制御の隠れたダイナミクスを明らかにする

Deep manifold learning reveals hidden dynamics of proteasome autoregulation ( http://arxiv.org/abs/2012.12854v1 )

ライセンス: Link先を確認
Zhaolong Wu, Shuwen Zhang, Wei Li Wang, Yinping Ma, Yuanchen Dong and Youdong Mao(参考訳) 2.5-MDa 26Sプロテアソームはプロテオスタシスを維持し、無数の細胞プロセスを制御する。 ポリウビキチル化基質相互作用がプロテアソーム活性を制御するかは理解されていない。 ここでは,非平衡コンフォメーション連続体の原子レベル低温電子顕微鏡(cryo-EM)再構成を可能にし,プロテアソーム自己制御の隠れたダイナミクスを基板劣化の過程で再構成するAlphaCryo4Dという深層多様体学習フレームワークを紹介する。 AlphaCryo4Dは3次元深層学習と自由エネルギー景観の多様体埋め込みを統合し、エネルギーベースの粒子投票アルゴリズムによって3次元クラスタリングを誘導する。 ブラインド評価において,αcryo4dは従来の手法の3倍の3次元識別精度を達成し,130kdaタンパク質のサブ3アングストローム分解による連続構造変化を再構成した。 ヒト26Sプロテアソームの64個のコンホメータをAlphaCryo4Dを用いて解析し、二重キャップホロ酵素中の2つの制御粒子のコンホメーションの絡み合いと、それらのエネルギー的相違を明らかにした。 新規ユビキチン結合部位がRPN2、RPN10、Alpha5サブユニットで発見され、ポリユビキチン鎖をデビキチン化とリサイクルのためにリモデリングする。 重要なことは、AlphaCryo4Dはトランスロケーション開始時にプロテアソームAAA-ATPaseモーターの単一ヌクレオチド交換ダイナミクスを解析し、求核性攻撃を促進することでプロテアーゼ活性を亢進させる。 我々のシステム解析は、プロテアソーム自己調節のための大階層アロステリーを照らす。

The 2.5-MDa 26S proteasome maintains proteostasis and regulates myriad cellular processes. How polyubiquitylated substrate interactions regulate proteasome activity is not understood. Here we introduce a deep manifold learning framework, named AlphaCryo4D, which enables atomic-level cryogenic electron microscopy (cryo-EM) reconstructions of nonequilibrium conformational continuum and reconstitutes hidden dynamics of proteasome autoregulation in the act of substrate degradation. AlphaCryo4D integrates 3D deep residual learning with manifold embedding of free-energy landscapes, which directs 3D clustering via an energy-based particle-voting algorithm. In blind assessments using simulated heterogeneous cryo-EM datasets, AlphaCryo4D achieved 3D classification accuracy three times that of conventional method and reconstructed continuous conformational changes of a 130-kDa protein at sub-3-angstrom resolution. By using AlphaCryo4D to analyze a single experimental cryo-EM dataset, we identified 64 conformers of the substrate-bound human 26S proteasome, revealing conformational entanglement of two regulatory particles in the doubly capped holoenzymes and their energetic differences with singly capped ones. Novel ubiquitin-binding sites are discovered on the RPN2, RPN10 and Alpha5 subunits to remodel polyubiquitin chains for deubiquitylation and recycle. Importantly, AlphaCryo4D choreographs single-nucleotide-exchange dynamics of proteasomal AAA-ATPase motor during translocation initiation, which upregulates proteolytic activity by allosterically promoting nucleophilic attack. Our systemic analysis illuminates a grand hierarchical allostery for proteasome autoregulation.
翻訳日:2021-04-25 18:14:19 公開日:2020-12-23
# オフロード動的低可視環境における低遅延知覚

Low-latency Perception in Off-Road Dynamical Low Visibility Environments ( http://arxiv.org/abs/2012.13014v1 )

ライセンス: Link先を確認
Nelson Alves, Marco Ruiz, Marco Reis, Tiago Cajahyba, Davi Oliveira, Ana Barreto, Eduardo F. Simas Filho, Wagner L. A. de Oliveira, Leizer Schnitman, Roberto L. S. Monteiro(参考訳) 本研究は、未舗装道路とオフロード環境に特化した自動運転車と先進運転支援システムを提案する。 本研究では,オフロード環境と未舗装道路のセマンティックセグメンテーションに応用したディープラーニングアルゴリズムの挙動を,視認性の悪い条件下で検討した。 未舗装とオフロードの異なる環境の約12,000枚の画像が収集され、ラベルがつけられた。 開発専用のオフロード試験場として組み立てられた。 提案したデータセットには、雨、塵、低光など多くの有害な状況も含まれている。 システムを開発するために,畳み込みニューラルネットワークを用いて障害物や車が通過できる領域を分割する訓練を行った。 我々は、異なるアーキテクチャアレンジメントを作成し、提案するデータセット上でそれらをテストするための構成可能なモジュールセグメンテーションネットワーク(cmsnet)フレームワークを開発した。 また、組み込みリアルタイム推論を実現し、フィールドテストを可能にするためにTensorRT、C++、CUDAを使って多くのレイヤを削除、融合することで、いくつかのCMSNet構成も移植しました。 The main contributions of this work are: a new dataset for unpaved roads and off-roads environments containing many adverse conditions such as night, rain, and dust; a CMSNet framework; an investigation regarding the feasibility of applying deep learning to detect region where the vehicle can pass through when there is no clear boundary of the track; a study of how our proposed segmentation algorithms behave in different severity levels of visibility impairment; and an evaluation of field tests carried out with semantic segmentation architectures ported for real-time inference.

This work proposes a perception system for autonomous vehicles and advanced driver assistance specialized on unpaved roads and off-road environments. In this research, the authors have investigated the behavior of Deep Learning algorithms applied to semantic segmentation of off-road environments and unpaved roads under differents adverse conditions of visibility. Almost 12,000 images of different unpaved and off-road environments were collected and labeled. It was assembled an off-road proving ground exclusively for its development. The proposed dataset also contains many adverse situations such as rain, dust, and low light. To develop the system, we have used convolutional neural networks trained to segment obstacles and areas where the car can pass through. We developed a Configurable Modular Segmentation Network (CMSNet) framework to help create different architectures arrangements and test them on the proposed dataset. Besides, we also have ported some CMSNet configurations by removing and fusing many layers using TensorRT, C++, and CUDA to achieve embedded real-time inference and allow field tests. The main contributions of this work are: a new dataset for unpaved roads and off-roads environments containing many adverse conditions such as night, rain, and dust; a CMSNet framework; an investigation regarding the feasibility of applying deep learning to detect region where the vehicle can pass through when there is no clear boundary of the track; a study of how our proposed segmentation algorithms behave in different severity levels of visibility impairment; and an evaluation of field tests carried out with semantic segmentation architectures ported for real-time inference.
翻訳日:2021-04-25 18:13:43 公開日:2020-12-23
# プロポーショナルプログレッシブな擬似ラベルによる一般ドメイン適応

General Domain Adaptation Through Proportional Progressive Pseudo Labeling ( http://arxiv.org/abs/2012.13028v1 )

ライセンス: Link先を確認
Mohammad J. Hashemi, Eric Keller(参考訳) ドメイン適応はラベル付きソースドメインから取得した知識をラベルなしターゲットドメインに転送するのに役立つ。 過去数年間、異なるドメイン適応技術が出版されている。 これらのアプローチの一般的な欠点は、画像のような1つの入力タイプでうまく機能するが、テキストや時系列など、他の入力タイプに適用されるとパフォーマンスが低下する点である。 本稿では,いくつかの入力タイプに適用可能な,より汎用的なドメイン適応手法を構築するために,数行のコードで実装可能な,単純かつ効果的な手法であるprogressal progressive pseudo labeling (pppl)を提案する。 トレーニングフェーズの開始時にPPPLは、擬似ラベル付き対象ドメインサンプルでモデルを直接トレーニングし、トレーニングセットからより間違った擬似ラベルを持つサンプルを除外し、そのようなサンプル上でのトレーニングを延期することにより、対象ドメイン分類誤差を段階的に低減する。 異常検出、テキスト感情分析、画像分類などのタスクを含む6つの異なるデータセットの実験は、PPPLが他のベースラインを破り、より一般化できることを示しています。

Domain adaptation helps transfer the knowledge gained from a labeled source domain to an unlabeled target domain. During the past few years, different domain adaptation techniques have been published. One common flaw of these approaches is that while they might work well on one input type, such as images, their performance drops when applied to others, such as text or time-series. In this paper, we introduce Proportional Progressive Pseudo Labeling (PPPL), a simple, yet effective technique that can be implemented in a few lines of code to build a more general domain adaptation technique that can be applied on several different input types. At the beginning of the training phase, PPPL progressively reduces target domain classification error, by training the model directly with pseudo-labeled target domain samples, while excluding samples with more likely wrong pseudo-labels from the training set and also postponing training on such samples. Experiments on 6 different datasets that include tasks such as anomaly detection, text sentiment analysis and image classification demonstrate that PPPL can beat other baselines and generalize better.
翻訳日:2021-04-25 18:13:22 公開日:2020-12-23
# ニューラルネットワークを用いた混合整数プログラムの解法

Solving Mixed Integer Programs Using Neural Networks ( http://arxiv.org/abs/2012.13349v1 )

ライセンス: Link先を確認
Vinod Nair, Sergey Bartunov, Felix Gimeno, Ingrid von Glehn, Pawel Lichocki, Ivan Lobov, Brendan O'Donoghue, Nicolas Sonnerat, Christian Tjandraatmadja, Pengming Wang, Ravichandra Addanki, Tharindi Hapuarachchi, Thomas Keck, James Keeling, Pushmeet Kohli, Ira Ktena, Yujia Li, Oriol Vinyals, Yori Zwols(参考訳) 混合整数プログラミング(mip)ソルバは、何十年もの研究で開発された洗練されたヒューリスティックの配列に依存し、実際に遭遇する大規模mipインスタンスを解決する。 機械学習は、データ内のインスタンス間の共有構造を利用して、データからより優れたヒューリスティックを自動構築する。 本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。 提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 Neural Divingは、整数変数に対する複数の部分代入を生成するディープニューラルネットワークを学習し、その結果、未割り当て変数に対するより小さなMIPをSCIPで解決し、高品質な関節代入を構築する。 ニューラルブランチはディープニューラルネットワークを学び、分岐とバウンドの変数選択決定を行い、目的値ギャップを小さな木とバウンドする。 これは、GPUを使用して大規模インスタンスにスケールする、Full Strong Branchingの新しい変種を模倣することで実現される。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。 すべてのデータセットのほとんどのインスタンスは、10^3-10^6$変数を持ち、事前解決後の制約がある。 保持されたインスタンスセットの平均的なプリマル・デュアルギャップに対するソルバを比較すると、学習によるscipは10^5$x以上のデータセットを除いて、すべてのデータセットで2倍から10倍に向上する。 私たちの知る限りでは、大規模な実世界のアプリケーションデータセットとMIPLIBの両方において、SCIPよりも大きな改善を示す最初の学習アプローチです。

Mixed Integer Programming (MIP) solvers rely on an array of sophisticated heuristics developed with decades of research to solve large-scale MIP instances encountered in practice. Machine learning offers to automatically construct better heuristics from data by exploiting shared structure among instances in the data. This paper applies learning to the two key sub-tasks of a MIP solver, generating a high-quality joint variable assignment, and bounding the gap in objective value between that assignment and an optimal one. Our approach constructs two corresponding neural network-based components, Neural Diving and Neural Branching, to use in a base MIP solver such as SCIP. Neural Diving learns a deep neural network to generate multiple partial assignments for its integer variables, and the resulting smaller MIPs for un-assigned variables are solved with SCIP to construct high quality joint assignments. Neural Branching learns a deep neural network to make variable selection decisions in branch-and-bound to bound the objective value gap with a small tree. This is done by imitating a new variant of Full Strong Branching we propose that scales to large instances using GPUs. We evaluate our approach on six diverse real-world datasets, including two Google production datasets and MIPLIB, by training separate neural networks on each. Most instances in all the datasets combined have $10^3-10^6$ variables and constraints after presolve, which is significantly larger than previous learning approaches. Comparing solvers with respect to primal-dual gap averaged over a held-out set of instances, the learning-augmented SCIP is 2x to 10x better on all datasets except one on which it is $10^5$x better, at large time limits. To the best of our knowledge, ours is the first learning approach to demonstrate such large improvements over SCIP on both large-scale real-world application datasets and MIPLIB.
翻訳日:2021-04-25 18:13:04 公開日:2020-12-23
# 学習創発空間における創発的PDEの学習

Learning emergent PDEs in a learned emergent space ( http://arxiv.org/abs/2012.12738v1 )

ライセンス: Link先を確認
Felix P. Kemeth, Tom Bertalan, Thomas Thiem, Felix Dietrich, Sung Joon Moon, Carlo R. Laing and Ioannis G. Kevrekidis(参考訳) 我々は、結合した異種物質の大規模系の力学の観測から、データ駆動空間座標を抽出する。 これらの座標は、結合エージェント系の集合記述のための偏微分方程式(PDE)の形で予測モデルを学習する創発的空間として機能する。 このPDEでは、独立した空間変数の役割を担います(依存型、あるいはデータ駆動型状態変数とは対照的に)。 このことは、これらの創発座標に局所的な力学の代替記述をもたらし、複雑な結合エージェント系に対する代替モデリングパスを容易にする。 各エージェントがリミットサイクル発振器(いわゆるスチュアート・ランダウ発振器)であり、エージェントは異種(それぞれ異なる固有周波数$\omega$を持つ)であり、それぞれの変数のアンサンブル平均を介して結合されるシステム上で、このアプローチを説明する。 高速初期遷移の後、スロー多様体上の集団ダイナミクスは、創発座標における局所的"空間的"部分微分に基づく学習モデルによって近似できることを示した。 モデルは、時間内の予測や、システムのパラメータが変化するときの集合的分岐を捉えるために使用される。 提案手法では,エージェントのダイナミクスをパラメータ化する創発的空間座標の自動抽出と,このパラメータ化におけるダイナミクスの"emergent pde"記述の機械学習による同定を統合する。

We extract data-driven, intrinsic spatial coordinates from observations of the dynamics of large systems of coupled heterogeneous agents. These coordinates then serve as an emergent space in which to learn predictive models in the form of partial differential equations (PDEs) for the collective description of the coupled-agent system. They play the role of the independent spatial variables in this PDE (as opposed to the dependent, possibly also data-driven, state variables). This leads to an alternative description of the dynamics, local in these emergent coordinates, thus facilitating an alternative modeling path for complex coupled-agent systems. We illustrate this approach on a system where each agent is a limit cycle oscillator (a so-called Stuart-Landau oscillator); the agents are heterogeneous (they each have a different intrinsic frequency $\omega$) and are coupled through the ensemble average of their respective variables. After fast initial transients, we show that the collective dynamics on a slow manifold can be approximated through a learned model based on local "spatial" partial derivatives in the emergent coordinates. The model is then used for prediction in time, as well as to capture collective bifurcations when system parameters vary. The proposed approach thus integrates the automatic, data-driven extraction of emergent space coordinates parametrizing the agent dynamics, with machine-learning assisted identification of an "emergent PDE" description of the dynamics in this parametrization.
翻訳日:2021-04-25 18:12:27 公開日:2020-12-23
# 格子ゲージ同変畳み込みニューラルネットワーク

Lattice gauge equivariant convolutional neural networks ( http://arxiv.org/abs/2012.12901v1 )

ライセンス: Link先を確認
Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 格子ゲージ理論問題に対する汎用機械学習応用のための格子ゲージ同変畳み込みニューラルネットワーク(L-CNN)を提案する。 このネットワーク構造の中心には、連続した双線型層に任意の形状のウィルソンループを形成しながらゲージ平衡を保存する新しい畳み込み層がある。 例えばポリアコフループからの位相情報とともに、そのようなネットワークは格子上の任意のゲージ共変関数を原理的に近似することができる。 従来の畳み込みニューラルネットワークでは検出できないゲージ不変量をL-CNNが学習し、一般化できることを実証する。

We propose Lattice gauge equivariant Convolutional Neural Networks (L-CNNs) for generic machine learning applications on lattice gauge theoretical problems. At the heart of this network structure is a novel convolutional layer that preserves gauge equivariance while forming arbitrarily shaped Wilson loops in successive bilinear layers. Together with topological information, for example from Polyakov loops, such a network can in principle approximate any gauge covariant function on the lattice. We demonstrate that L-CNNs can learn and generalize gauge invariant quantities that traditional convolutional neural networks are incapable of finding.
翻訳日:2021-04-25 18:12:03 公開日:2020-12-23
# 認知推論における否定

Negation in Cognitive Reasoning ( http://arxiv.org/abs/2012.12641v1 )

ライセンス: Link先を確認
Claudia Schon, Sophie Siebert, Frieder Stolzenburg(参考訳) 否定は、形式論理学と自然言語における操作であり、命題は「ノー」または「他の否定のキュー」の追加によって、反対を表すものに置き換えられる。 コモンセンス推論とテキスト理解を含む認知的推論には、適切な方法で否定を扱う必要がある。 認知的推論の1つの課題は、自然言語の文によって与えられる質問に答えることである。 言論表現理論に基づくツールがあり、文を自動的に形式論理表現に変換する。 しかし、論理データベースにおける知識は常に不完全であるため、自動推論システムの前方推論だけでは、完全な証明の代わりに部分的正の知識のみを導出できるため、質問に対する答えを導出するのに十分ではない。 結果として、否定表現からの負の情報はこの文脈では役に立たない。 したがって, 厳密に言えば, 否定された事象や性質を逆数に還元することを目指す。 これは、一般的な質問応答に論理と機械学習の両方を用いる認知的推論の基礎となる。 本稿では,否定された事象や性質を逆系や認知的推論システムで置き換えるための効果的な手順について述べる。 この手順を実例で示し,いくつかのベンチマークを用いて評価する。

Negation is both an operation in formal logic and in natural language by which a proposition is replaced by one stating the opposite, as by the addition of "not" or another negation cue. Treating negation in an adequate way is required for cognitive reasoning, which comprises commonsense reasoning and text comprehension. One task of cognitive reasoning is answering questions given by sentences in natural language. There are tools based on discourse representation theory to convert sentences automatically into a formal logical representation. However, since the knowledge in logical databases in practice always is incomplete, forward reasoning of automated reasoning systems alone does not suffice to derive answers to questions because, instead of complete proofs, often only partial positive knowledge can be derived. In consequence, negative information from negated expressions does not help in this context, because only negative knowledge can be derived from this. Therefore, we aim at reducing syntactic negation, strictly speaking, the negated event or property, to its inverse. This lays the basis of cognitive reasoning employing both logic and machine learning for general question answering. In this paper, we describe an effective procedure to determine the negated event or property in order to replace it with it inverse and our overall system for cognitive reasoning. We demonstrate the procedure with examples and evaluate it with several benchmarks.
翻訳日:2021-04-25 18:11:36 公開日:2020-12-23
# Syllabificationのないスペイン語詩の自動スキャン

Automatic Scansion of Spanish Poetry without Syllabification ( http://arxiv.org/abs/2012.12799v1 )

ライセンス: Link先を確認
Guillermo Marco Rem\'on, Julio Gonzalo(参考訳) 近年、スペイン詩の自動計量分析システムがいくつか登場している。 これらのシステムは、計算コストが高いPoSタグライブラリを使用する、シラビフィケーションとストレス割り当ての複雑な方法に依存している。 このコストは計量のあいまいさの計算によって増加する。 さらに、11音節以上の詩のヘミスティック間の補償現象など、音節数における問題を決定することも考慮していない。 しかし、これらのコストのかかる手法を使わずに、情報的かつ正確な計量分析を行うことは可能である。 本研究では,音節分割を伴わずに正確なスキャン(音節数,ストレスパターン,詩の種類)を行うアルゴリズムを提案する。 計量的曖昧さに対処し、ヘミシュス補償を考慮に入れる。 我々のアルゴリズムは、固定長詩では2%、混合長詩では25%の精度で芸術の現況を上回ります。 また、それぞれ21倍と25倍の速度で走る。 最後に、スペイン語詩の研究者のためのツールとしてデスクトップアプリケーションが提供される。

In recent years, several systems of automated metric analysis of Spanish poetry have emerged. These systems rely on complex methods of syllabification and stress assignment, which use PoS-tagging libraries, whose computational cost is high. This cost increases with the calculation of metric ambiguities. Furthermore, they do not consider determining issues in syllabic count such as the phenomena of compensation between hemistichs of verses of more than eleven syllables. However, it is possible to carry out an informative and accurate metric analysis without using these costly methods. We propose an algorithm that performs accurate scansion (number of syllables, stress pattern and type of verse) without syllabification. It addresses metric ambiguities and takes into account the hemistichs compensation. Our algorithm outperforms the current state of the art by 2% in fixed-metre poetry, and 25% in mixed-metre poetry. It also runs 21 and 25 times faster, respectively. Finally, a desktop application is offered as a tool for researchers of Spanish poetry.
翻訳日:2021-04-25 18:11:14 公開日:2020-12-23
# 抽象論の安定性

Stability in Abstract Argumentation ( http://arxiv.org/abs/2012.12588v1 )

ライセンス: Link先を確認
Jean-Guy Mailly and Julien Rossit(参考訳) 構造化議論設定における安定性の概念は、与えられたリテラルに関連する受け入れステータスが、この設定の将来の進化に影響されない状況を特徴づける。 本稿では,議論の論理構造を抽象化し,この安定性の概念をダンジョン論の枠組みの文脈に転換する。 特に,この問題をArgument-Incomplete AFsを用いて推論する方法について述べる。 そして、4つの顕著な意味論の下での安定性に関する予備的な複雑性結果を提供する。 最後に,議論に基づくネゴシエーションの応用において,この概念がどの程度有用かを示す。

The notion of stability in a structured argumentation setup characterizes situations where the acceptance status associated with a given literal will not be impacted by any future evolution of this setup. In this paper, we abstract away from the logical structure of arguments, and we transpose this notion of stability to the context of Dungean argumentation frameworks. In particular, we show how this problem can be translated into reasoning with Argument-Incomplete AFs. Then we provide preliminary complexity results for stability under four prominent semantics, in the case of both credulous and skeptical reasoning. Finally, we illustrate to what extent this notion can be useful with an application to argument-based negotiation.
翻訳日:2021-04-25 18:11:00 公開日:2020-12-23
# AIベースの電力グリッド制御を再考する:アルゴリズム設計への転換

Rethink AI-based Power Grid Control: Diving Into Algorithm Design ( http://arxiv.org/abs/2012.13026v1 )

ライセンス: Link先を確認
Xiren Zhou and Siqi Wang and Ruisheng Diao and Desong Bian and Jiahui Duan and Di Shi(参考訳) Recently, deep reinforcement learning (DRL)-based approach has shown promisein solving complex decision and control problems in power engineering domain.In this paper, we present an in-depth analysis of DRL-based voltage control fromaspects of algorithm selection, state space representation, and reward engineering.To resolve observed issues, we propose a novel imitation learning-based approachto directly map power grid operating points to effective actions without any interimreinforcement learning process. その結果, 提案手法は, 学習時間が少なく, 高い一般化能力を有しており, 模倣学習により訓練されたエージェントは, 電圧制御問題を効果的かつ頑健に解くことができ, 従来のrlエージェントよりも優れていた。

Recently, deep reinforcement learning (DRL)-based approach has shown promisein solving complex decision and control problems in power engineering domain.In this paper, we present an in-depth analysis of DRL-based voltage control fromaspects of algorithm selection, state space representation, and reward engineering.To resolve observed issues, we propose a novel imitation learning-based approachto directly map power grid operating points to effective actions without any interimreinforcement learning process. The performance results demonstrate that theproposed approach has strong generalization ability with much less training time.The agent trained by imitation learning is effective and robust to solve voltagecontrol problem and outperforms the former RL agents.
翻訳日:2021-04-25 18:10:48 公開日:2020-12-23
# MG-SAGC:3次元点雲のためのマルチスケールグラフとその自己適応グラフ畳み込みネットワーク

MG-SAGC: A multiscale graph and its self-adaptive graph convolution network for 3D point clouds ( http://arxiv.org/abs/2012.12445v1 )

ライセンス: Link先を確認
Bo Wu, Bo Lang(参考訳) 本稿では,ニューラルネットワークがローカルポイントクラウドの特徴を抽出し,その品質を向上させる能力を高めるために,多スケールグラフ生成法と自己適応グラフ畳み込み法を提案する。 まず,点雲に対するマルチスケールグラフ生成手法を提案する。 このアプローチは、点雲を、スケール空間における点雲のマルチスケール解析をサポートする構造化されたマルチスケールグラフ形式に変換し、異なるスケールで点雲データの次元的特徴を得ることができるので、最良の点雲の特徴を容易に得ることができる。 従来の畳み込みニューラルネットワークは不規則な頂点近傍を持つグラフデータには適用できないため、最適近似理論に基づく不規則畳み込みフィルタにチェビシェフ多項式を用いたセフ適応グラフ畳み込みカーネルを提案する。 本稿では,スケールマップの異なる特徴を合成し,ポイントクラウド機能を生成するためにmax poolingを採用する。 広く使われている3つの公開データセットを用いて行った実験では、提案手法は他の最先端モデルよりも優れ、その有効性と一般化性を示す。

To enhance the ability of neural networks to extract local point cloud features and improve their quality, in this paper, we propose a multiscale graph generation method and a self-adaptive graph convolution method. First, we propose a multiscale graph generation method for point clouds. This approach transforms point clouds into a structured multiscale graph form that supports multiscale analysis of point clouds in the scale space and can obtain the dimensional features of point cloud data at different scales, thus making it easier to obtain the best point cloud features. Because traditional convolutional neural networks are not applicable to graph data with irregular vertex neighborhoods, this paper presents an sef-adaptive graph convolution kernel that uses the Chebyshev polynomial to fit an irregular convolution filter based on the theory of optimal approximation. In this paper, we adopt max pooling to synthesize the features of different scale maps and generate the point cloud features. In experiments conducted on three widely used public datasets, the proposed method significantly outperforms other state-of-the-art models, demonstrating its effectiveness and generalizability.
翻訳日:2021-04-25 18:10:38 公開日:2020-12-23
# CholecSeg8k: Cholec80 を用いた腹腔鏡下胆嚢摘出術のセマンティックセグメンテーションデータセット

CholecSeg8k: A Semantic Segmentation Dataset for Laparoscopic Cholecystectomy Based on Cholec80 ( http://arxiv.org/abs/2012.12453v1 )

ライセンス: Link先を確認
W.-Y. Hong, C.-L. Kao, Y.-H. Kuo, J.-R. Wang, W.-L. Chang and C.-S. Shih(参考訳) 手術の正確性と安全性を高めるためにコンピュータ支援手術が開発された。 しかし、研究者やエンジニアは、より良いアルゴリズムを開発し訓練するために、注釈付きデータに苦しむ。 したがって、同時局在マッピング(SLAM)のような基本アルゴリズムの開発は限られている。 本稿では,多くのコンピュータ支援手術機構の基礎となるセマンティクスセグメンテーションのためのデータセット作成の取り組みについて詳述する。 Cholec80データセット[3]に基づいて,Colec80の17本のビデオクリップから8,080本の腹腔鏡下胆嚢摘出画像フレームを抽出し,注視した。 データセットはCholecSeg8Kと名付けられ、総サイズは3GBである。 これらの画像はそれぞれ、腹腔鏡下胆嚢摘出術で一般的に確立される13のクラスでピクセルレベルでアノテートされる。 CholecSeg8kはCC BY-NC-SA 4.0ライセンスでリリースされた。

Computer-assisted surgery has been developed to enhance surgery correctness and safety. However, researchers and engineers suffer from limited annotated data to develop and train better algorithms. Consequently, the development of fundamental algorithms such as Simultaneous Localization and Mapping (SLAM) is limited. This article elaborates on the efforts of preparing the dataset for semantic segmentation, which is the foundation of many computer-assisted surgery mechanisms. Based on the Cholec80 dataset [3], we extracted 8,080 laparoscopic cholecystectomy image frames from 17 video clips in Cholec80 and annotated the images. The dataset is named CholecSeg8K and its total size is 3GB. Each of these images is annotated at pixel-level for thirteen classes, which are commonly founded in laparoscopic cholecystectomy surgery. CholecSeg8k is released under the license CC BY- NC-SA 4.0.
翻訳日:2021-04-25 18:10:18 公開日:2020-12-23
# トポロジカル制約を伴う群集の局在

Localization in the Crowd with Topological Constraints ( http://arxiv.org/abs/2012.12482v1 )

ライセンス: Link先を確認
Shahira Abousamra and Minh Hoai and Dimitris Samaras and Chao Chen(参考訳) 混み合っている場面の人に対応する点の予測という,群集の局所化の問題に対処する。 様々な課題により、ローカライズ手法は空間的意味的誤り、すなわち同一人物内の複数の点を予測したり、乱雑な領域で複数の点を崩壊させる。 これらの意味的誤りを対象とするトポロジ的アプローチを提案する。 本稿では,ドットの空間配置を推論するためにモデルを教えるトポロジカル制約を導入する。 この制約を強制するために、持続的ホモロジーの理論に基づいた永続的損失を定義する。 この損失は、確率写像の地形的景観と基底真理のトポロジーを比較している。 トポロジカル推論は局所化アルゴリズムの品質を特に散在する領域の近くで改善する。 複数の公開ベンチマークでは,従来のローカライズ手法を上回っている。 さらに,本手法が群集カウントタスクの性能向上に有効であることを示す。

We address the problem of crowd localization, i.e., the prediction of dots corresponding to people in a crowded scene. Due to various challenges, a localization method is prone to spatial semantic errors, i.e., predicting multiple dots within a same person or collapsing multiple dots in a cluttered region. We propose a topological approach targeting these semantic errors. We introduce a topological constraint that teaches the model to reason about the spatial arrangement of dots. To enforce this constraint, we define a persistence loss based on the theory of persistent homology. The loss compares the topographic landscape of the likelihood map and the topology of the ground truth. Topological reasoning improves the quality of the localization algorithm especially near cluttered regions. On multiple public benchmarks, our method outperforms previous localization methods. Additionally, we demonstrate the potential of our method in improving the performance in the crowd counting task.
翻訳日:2021-04-25 18:10:02 公開日:2020-12-23
# マルチBlur2Deblurは、ビデオの効率を良くする

Blur More To Deblur Better: Multi-Blur2Deblur For Efficient Video Deblurring ( http://arxiv.org/abs/2012.12507v1 )

ライセンス: Link先を確認
Dongwon Park, Dong Un Kang, Se Young Chun(参考訳) ビデオデブラリングの重要なコンポーネントの1つは、隣り合うフレームをどのように利用するかである。 最近の最先端の手法では、隣接フレームを中央フレームに配置するか、過去のフレームに関する情報を現在のフレームに繰り返し伝達する。 本稿では,隣り合うフレームを効率的にデブラリングするための新しい概念であるmb2dを提案する。 まず、unsharpのマスキングに触発されて、よりぼやけた画像と長時間露光を使用することで、追加の入力によってパフォーマンスが大幅に向上する、と主張する。 第2に,隣接するフレームからよりぼやけた画像を合成し,既存のビデオデブロワー法により性能を大幅に向上させるマルチブルーリカレントニューラルネットワーク(MBRNN)を提案する。 最後に,MBRNN(MSDR)からの繰り返し特徴マップを接続して,高速かつメモリ効率のよいGoProおよびSuデータセットの最先端性能を実現するマルチスケールデブロアリングを提案する。

One of the key components for video deblurring is how to exploit neighboring frames. Recent state-of-the-art methods either used aligned adjacent frames to the center frame or propagated the information on past frames to the current frame recurrently. Here we propose multi-blur-to-deblur (MB2D), a novel concept to exploit neighboring frames for efficient video deblurring. Firstly, inspired by unsharp masking, we argue that using more blurred images with long exposures as additional inputs significantly improves performance. Secondly, we propose multi-blurring recurrent neural network (MBRNN) that can synthesize more blurred images from neighboring frames, yielding substantially improved performance with existing video deblurring methods. Lastly, we propose multi-scale deblurring with connecting recurrent feature map from MBRNN (MSDR) to achieve state-of-the-art performance on the popular GoPro and Su datasets in fast and memory efficient ways.
翻訳日:2021-04-25 18:09:50 公開日:2020-12-23
# コンテンツ転送によるセマンティックセグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation by Content Transfer ( http://arxiv.org/abs/2012.12545v1 )

ライセンス: Link先を確認
Suhyeon Lee, Junhyuk Hyun, Hongje Seong, Euntai Kim(参考訳) 本稿では,ラベル付き合成データを用いてラベルなしの実データを分割することを目的とした,意味セグメンテーションのための教師なしドメイン適応(uda)に取り組む。 セマンティックセグメンテーションにおけるUDAの主な問題は、実画像と合成画像の間の領域ギャップを減らすことである。 この問題を解決するため,画像中の情報をコンテンツやスタイルに分離することに注力した。 ここでは、コンテンツだけがセマンティックセグメンテーションのヒントを持ち、スタイルがドメインのギャップを作ります。 したがって、画像中のコンテンツとスタイルを正確に分離することは、合成データで学習しても実データの監督として効果を発揮する。 この効果を最大限に活用するために,ゼロスタイルの損失を提案する。 実領域におけるセマンティックセグメンテーションのためのコンテンツを完全に抽出するが、もうひとつの大きな課題であるクラス不均衡問題は、セマンティックセグメンテーションのための UDA に存在する。 我々は、尾クラスの内容を合成ドメインから実ドメインに転送することでこの問題に対処する。 実験結果から,提案手法は主要な2つのUDA設定に対するセマンティックセグメンテーションにおける最先端の性能を実現する。

In this paper, we tackle the unsupervised domain adaptation (UDA) for semantic segmentation, which aims to segment the unlabeled real data using labeled synthetic data. The main problem of UDA for semantic segmentation relies on reducing the domain gap between the real image and synthetic image. To solve this problem, we focused on separating information in an image into content and style. Here, only the content has cues for semantic segmentation, and the style makes the domain gap. Thus, precise separation of content and style in an image leads to effect as supervision of real data even when learning with synthetic data. To make the best of this effect, we propose a zero-style loss. Even though we perfectly extract content for semantic segmentation in the real domain, another main challenge, the class imbalance problem, still exists in UDA for semantic segmentation. We address this problem by transferring the contents of tail classes from synthetic to real domain. Experimental results show that the proposed method achieves the state-of-the-art performance in semantic segmentation on the major two UDA settings.
翻訳日:2021-04-25 18:09:12 公開日:2020-12-23
# 軌道非関連動作予測のための多目的グラフ畳み込みネットワーク

Multi-grained Trajectory Graph Convolutional Networks for Habit-unrelated Human Motion Prediction ( http://arxiv.org/abs/2012.12558v1 )

ライセンス: Link先を確認
Jin Liu, Jianqin Yin(参考訳) 人間の動きの予測は、人間とロボットのコラボレーションに不可欠である。 高精度な予測のための時空間モデルの有効性向上に主眼を置いている既存の手法とは異なり,予測品質,計算効率,軽量化を目指して,有効性と効率を考慮に入れている。 習慣非関係な人間の動きを予測するために,多層トラジェクトリグラフ畳み込みネットワークと軽量フレームワークを提案する。 具体的には,関節軌跡とサブジョイント軌跡を含む多結晶軌道として,人間の運動を表現した。 先進的な表現に基づいて,複数粒度の時空間依存性を探索するために,多層トラジェクトリグラフ畳み込みネットワークを提案する。 また、大多数の人の右利きの習慣を考慮し、左利きの動作を発生させる新しい動き生成法を提案し、人間の習慣への偏りを少なくした動きをモデル化する。 human3.6m と cmu mocap を含む挑戦的データセットの実験結果は,提案手法の有効性と有効性を示す0.12倍のパラメータで,提案モデルが最先端技術を上回ることを示した。

Human motion prediction is an essential part for human-robot collaboration. Unlike most of the existing methods mainly focusing on improving the effectiveness of spatiotemporal modeling for accurate prediction, we take effectiveness and efficiency into consideration, aiming at the prediction quality, computational efficiency and the lightweight of the model. A multi-grained trajectory graph convolutional networks based and lightweight framework is proposed for habit-unrelated human motion prediction. Specifically, we represent human motion as multi-grained trajectories, including joint trajectory and sub-joint trajectory. Based on the advanced representation, multi-grained trajectory graph convolutional networks are proposed to explore the spatiotemporal dependencies at the multiple granularities. Moreover, considering the right-handedness habit of the vast majority of people, a new motion generation method is proposed to generate the motion with left-handedness, to better model the motion with less bias to the human habit. Experimental results on challenging datasets, including Human3.6M and CMU Mocap, show that the proposed model outperforms state-of-the-art with less than 0.12 times parameters, which demonstrates the effectiveness and efficiency of our proposed method.
翻訳日:2021-04-25 18:08:53 公開日:2020-12-23
# ConvMath: 数学的表現認識のための畳み込みシーケンスネットワーク

ConvMath: A Convolutional Sequence Network for Mathematical Expression Recognition ( http://arxiv.org/abs/2012.12619v1 )

ライセンス: Link先を確認
Zuoyu Yan, Xiaode Zhang, Liangcai Gao, Ke Yuan and Zhi Tang(参考訳) 近年の光学的文字認識(OCR)の進歩にもかかわらず、数学的表現は2次元のグラフィカルレイアウトのために認識する上で大きな課題に直面している。 本稿では,画像中の数学的表現記述をLaTeXシーケンスに変換する畳み込みシーケンスモデリングネットワークであるConvMathを提案する。 特徴抽出用画像エンコーダと、シーケンス生成用畳み込みデコーダとを組み合わせたネットワークである。 他のLong Short Term Memory(LSTM)ベースのエンコーダデコーダモデルと比較して、ConvMathは完全に畳み込みに基づいているため、並列計算が容易である。 さらに、ネットワークはデコーダにマルチレイヤーアテンション機構を採用しており、モデルが出力シンボルをソース特徴ベクトルと自動的に整合させ、モデルのトレーニング中にカバレッジ不足の問題を軽減することができる。 ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。 実験の結果,提案ネットワークは従来の手法よりも精度が高く,効率も優れていた。

Despite the recent advances in optical character recognition (OCR), mathematical expressions still face a great challenge to recognize due to their two-dimensional graphical layout. In this paper, we propose a convolutional sequence modeling network, ConvMath, which converts the mathematical expression description in an image into a LaTeX sequence in an end-to-end way. The network combines an image encoder for feature extraction and a convolutional decoder for sequence generation. Compared with other Long Short Term Memory(LSTM) based encoder-decoder models, ConvMath is entirely based on convolution, thus it is easy to perform parallel computation. Besides, the network adopts multi-layer attention mechanism in the decoder, which allows the model to align output symbols with source feature vectors automatically, and alleviates the problem of lacking coverage while training the model. The performance of ConvMath is evaluated on an open dataset named IM2LATEX-100K, including 103556 samples. The experimental results demonstrate that the proposed network achieves state-of-the-art accuracy and much better efficiency than previous methods.
翻訳日:2021-04-25 18:08:34 公開日:2020-12-23
# 確率的信頼領域を用いた頭部位置と方位からのドライバの視線領域の推定

Estimation of Driver's Gaze Region from Head Position and Orientation using Probabilistic Confidence Regions ( http://arxiv.org/abs/2012.12754v1 )

ライセンス: Link先を確認
Sumit Jha, Carlos Busso(参考訳) スマートな車両は人間の行動を理解し、危険な状況を避けるために行動を予測する必要がある。 人間の行動の特定の特性は自動的に予測され、それによって車両の安全性が向上する。 運転タスクに関連する最も重要な側面の1つは、運転者の視覚的注意である。 ドライバーの視覚的注意を予測することは、車両がドライバーの認識状態を理解し、重要なコンテキスト情報を提供するのに役立つ。 車内環境において正確な視線方向を推定することは困難であるが、頭部の位置や向きを追跡することで視覚的注意の粗い推定が得られる。 頭部の姿勢と視線方向の関係は一対一ではないため,ドライバの視覚的注意を表現した突出領域を作成するための確率モデルに基づく定式化を提案する。 予測された領域の面積は、モデルが予測に自信を持ち、データから直接学習した場合に小さい。 我々は,gaussian process regression (gpr) を用いて,線形回帰法やニューラルネットワークに基づく手法などの異なる回帰定式法との比較を行った。 UTDriveプラットフォームで収集した自然な記録を用いて,空間分解能と確率マップの精度のトレードオフについて検討した。 GPR法は局所的な正解域で正確な予測を行うのに最適である。 例えば95%の信頼領域は、ドライバーを取り巻く球体の3.77%の領域をカバーする領域で定義される。

A smart vehicle should be able to understand human behavior and predict their actions to avoid hazardous situations. Specific traits in human behavior can be automatically predicted, which can help the vehicle make decisions, increasing safety. One of the most important aspects pertaining to the driving task is the driver's visual attention. Predicting the driver's visual attention can help a vehicle understand the awareness state of the driver, providing important contextual information. While estimating the exact gaze direction is difficult in the car environment, a coarse estimation of the visual attention can be obtained by tracking the position and orientation of the head. Since the relation between head pose and gaze direction is not one-to-one, this paper proposes a formulation based on probabilistic models to create salient regions describing the visual attention of the driver. The area of the predicted region is small when the model has high confidence on the prediction, which is directly learned from the data. We use Gaussian process regression (GPR) to implement the framework, comparing the performance with different regression formulations such as linear regression and neural network based methods. We evaluate these frameworks by studying the tradeoff between spatial resolution and accuracy of the probability map using naturalistic recordings collected with the UTDrive platform. We observe that the GPR method produces the best result creating accurate predictions with localized salient regions. For example, the 95% confidence region is defined by an area that covers 3.77% region of a sphere surrounding the driver.
翻訳日:2021-04-25 18:07:43 公開日:2020-12-23
# 深い特徴と相関フィルタを用いた粗い物体追跡

Coarse-to-Fine Object Tracking Using Deep Features and Correlation Filters ( http://arxiv.org/abs/2012.12784v1 )

ライセンス: Link先を確認
Ahmed Zgaren, Wassim Bouachir, Riadh Ksantini(参考訳) 過去数年間、ディープラーニングトラッカーは、追跡問題の解決に興味深いアイデアをもたらしながら、刺激的な結果を得た。 この進歩は、大きな画像データベース上で深層畳み込みニューラルネットワーク(cnns)を訓練することで得られた学習された深層特徴の使用が主な原因である。 しかし、CNNはもともと画像分類のために開発されたため、深層で提供される外観モデリングはトラッキングタスクに十分な識別性を持たないかもしれない。 実際、そのような特徴は、オブジェクトの特定のインスタンスよりもオブジェクトカテゴリに関連がある、高レベルな情報を表している。 この観察と、識別相関フィルタ(dcfs)が補足的な低レベル情報を提供する可能性があるという事実に動機づけられ、両者のアプローチを生かした新しい追跡アルゴリズムを提案する。 追跡タスクを2段階の手順として定式化する。 まず,深層特徴の一般化機能を活用し,対象翻訳の粗さを推定し,出現変化に対する不均一性を確保した。 そして,相関フィルタの識別力を利用して追跡対象を正確に局所化する。 さらに,モデルドリフトを回避しながら外観変化を学習する更新制御機構を設計した。 提案手法をオブジェクト追跡ベンチマークで評価した。 実験の結果,提案アルゴリズムはCNNやDCFベースのトラッカーに対して良好に機能することがわかった。 https://github.com/ahmedzgaren/coarse-to-fine-tracker

During the last years, deep learning trackers achieved stimulating results while bringing interesting ideas to solve the tracking problem. This progress is mainly due to the use of learned deep features obtained by training deep convolutional neural networks (CNNs) on large image databases. But since CNNs were originally developed for image classification, appearance modeling provided by their deep layers might be not enough discriminative for the tracking task. In fact,such features represent high-level information, that is more related to object category than to a specific instance of the object. Motivated by this observation, and by the fact that discriminative correlation filters(DCFs) may provide a complimentary low-level information, we presenta novel tracking algorithm taking advantage of both approaches. We formulate the tracking task as a two-stage procedure. First, we exploit the generalization ability of deep features to coarsely estimate target translation, while ensuring invariance to appearance change. Then, we capitalize on the discriminative power of correlation filters to precisely localize the tracked object. Furthermore, we designed an update control mechanism to learn appearance change while avoiding model drift. We evaluated the proposed tracker on object tracking benchmarks. Experimental results show the robustness of our algorithm, which performs favorably against CNN and DCF-based trackers. Code is available at: https://github.com/AhmedZgaren/Coarse-to-fine-Tracker
翻訳日:2021-04-25 18:07:20 公開日:2020-12-23
# コンボリューションニューラルネットワークによる室内シナリオにおける高齢者の放浪予測

Convolutional Neural Network for Elderly Wandering Prediction in Indoor Scenarios ( http://arxiv.org/abs/2012.12987v1 )

ライセンス: Link先を確認
Rafael F. C. Oliveira, Fabio Barreto, Raphael Abreu(参考訳) 本研究は,非侵入型屋内センサから収集したパスデータからアルツハイマー病患者の迷走行動を検出する方法を提案する。 十分なデータがないため、当社が開発したアプリケーションを使用して、220パスのデータセットを手動で生成しました。 文学の迷走パターンは通常、視覚的特徴(ループやランダムな動きなど)によって識別されるため、データセットは画像に変換され、拡張されます。 畳み込み層は、特に画像上のパターンを見つける良い結果をもたらす傾向があるため、ニューラルネットワークモデルで使用された。 The Convolutional Neural Network model were training with the generated data and achieve a f1 score (relation between precision and recall) of 75%, recall of 60%, and precision of 100% on our 10 sample validation slice。

This work proposes a way to detect the wandering activity of Alzheimer's patients from path data collected from non-intrusive indoor sensors around the house. Due to the lack of adequate data, we've manually generated a dataset of 220 paths using our own developed application. Wandering patterns in the literature are normally identified by visual features (such as loops or random movement), thus our dataset was transformed into images and augmented. Convolutional layers were used on the neural network model since they tend to have good results finding patterns, especially on images. The Convolutional Neural Network model was trained with the generated data and achieved an f1 score (relation between precision and recall) of 75%, recall of 60%, and precision of 100% on our 10 sample validation slice
翻訳日:2021-04-25 18:06:27 公開日:2020-12-23
# スイス3DCitiesのセマンティックセグメンテーション:航空測光3Dポイントクラウドデータセットのベンチマーク研究

Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial Photogrammetric 3D Pointcloud Dataset ( http://arxiv.org/abs/2012.12996v1 )

ライセンス: Link先を確認
G\"ulcan Can, Dario Mantegazza, Gabriele Abbate, S\'ebastien Chappuis, Alessandro Giusti(参考訳) 我々は,スイスの3都市で異なる特徴を持つ2.7 km^2$の屋外3Dポイントクラウドデータセットを新たに導入した。 データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。 地上のLiDARセンサーで取得したデータセットとは対照的に、結果のポイントクラウドは均一に密度が高く、完全であり、自律運転、ゲーム、スマートシティプランニングなどの異なるアプリケーションに有用である。 ベンチマークとして,確立されたポイントベース深層3次元意味セグメンテーションモデルであるpointnet++の定量的結果について報告する。

We introduce a new outdoor urban 3D pointcloud dataset, covering a total area of 2.7 $km^2$, sampled from three Swiss cities with different characteristics. The dataset is manually annotated for semantic segmentation with per-point labels, and is built using photogrammetry from images acquired by multirotors equipped with high-resolution cameras. In contrast to datasets acquired with ground LiDAR sensors, the resulting point clouds are uniformly dense and complete, and are useful to disparate applications, including autonomous driving, gaming and smart city planning. As a benchmark, we report quantitative results of PointNet++, an established point-based deep 3D semantic segmentation model; on this model, we additionally study the impact of using different cities for model generalization.
翻訳日:2021-04-25 18:06:12 公開日:2020-12-23
# multimodal driver monitoring database: a naturalistic corpus to study driver attention

The Multimodal Driver Monitoring Database: A Naturalistic Corpus to Study Driver Attention ( http://arxiv.org/abs/2101.04639v1 )

ライセンス: Link先を確認
Sumit Jha, Mohamed F. Marzban, Tiancheng Hu, Mohamed H. Mahmoud, Naofal Al-Dhahir, Carlos Busso(参考訳) スマートな車両は、人間の運転者の行動や行動を監視して、必要な時に警告や介入を行う必要がある。 ディープラーニングとコンピュータビジョンの最近の進歩は、人間の行動や活動を監視することに大きな期待を示している。 これらのアルゴリズムは制御された環境ではうまく機能するが、自然主義的な運転条件は照明のバリエーション、閉塞、極端な頭部ポーズなどの新しい課題をもたらす。 運転行動や振る舞いを効果的に監視するためには、運転に関連するタスクを予測する上で高いパフォーマンスを提供するモデルをトレーニングするために、膨大なドメイン内データが要求される。 本稿では,必要なインフラストラクチャの構築に向けて,59名の被験者で収集したマルチモーダルドライバモニタリング(mdm)データセットについて述べる。 我々は,fiducial markerを用いてドライバの頭部の動きを連続的に追跡するficapデバイスを用いて,自然な運転条件下で頭部ポーズアルゴリズムをトレーニングするためのフレームベースのアノテーションを提供する。 運転者の顔画像と視覚注意の正確な相関を得るため,運転者に所定の視線位置を見るように依頼する。 また,スマートフォンを用いたナビゲーションや車内インフォテインメントシステムの運用など,運転者が共通する二次動作を行う際にもデータを収集する。 ドライバーの活動はすべて高精細なRGBカメラと飛行時間深度カメラで記録される。 制御領域ネットワークバス(CAN-Bus)も記録し,重要な情報を抽出する。 これらの高品質記録は、運転者を監視するための様々な効率的なアルゴリズムを訓練するための理想的なリソースとなり、車内安全システムの分野でさらなる進歩をもたらす。

A smart vehicle should be able to monitor the actions and behaviors of the human driver to provide critical warnings or intervene when necessary. Recent advancements in deep learning and computer vision have shown great promise in monitoring human behaviors and activities. While these algorithms work well in a controlled environment, naturalistic driving conditions add new challenges such as illumination variations, occlusions and extreme head poses. A vast amount of in-domain data is required to train models that provide high performance in predicting driving related tasks to effectively monitor driver actions and behaviors. Toward building the required infrastructure, this paper presents the multimodal driver monitoring (MDM) dataset, which was collected with 59 subjects that were recorded performing various tasks. We use the Fi- Cap device that continuously tracks the head movement of the driver using fiducial markers, providing frame-based annotations to train head pose algorithms in naturalistic driving conditions. We ask the driver to look at predetermined gaze locations to obtain accurate correlation between the driver's facial image and visual attention. We also collect data when the driver performs common secondary activities such as navigation using a smart phone and operating the in-car infotainment system. All of the driver's activities are recorded with high definition RGB cameras and time-of-flight depth camera. We also record the controller area network-bus (CAN-Bus), extracting important information. These high quality recordings serve as the ideal resource to train various efficient algorithms for monitoring the driver, providing further advancements in the field of in-vehicle safety systems.
翻訳日:2021-04-25 18:05:57 公開日:2020-12-23
# リスクサンプリングによるエンティティ解決のためのアクティブ深層学習

Active Deep Learning on Entity Resolution by Risk Sampling ( http://arxiv.org/abs/2012.12960v1 )

ライセンス: Link先を確認
Youcef Nafa, Qun Chen, Zhaoqiang Chen, Xingyu Lu, Haiyang He, Tianyi Duan and Zhanhuai Li(参考訳) 実体分解能(ER)の最先端性能は深層学習によって達成されているが、その有効性は大量の正確なラベル付きトレーニングデータに依存する。 データラベリングの負担を軽減するため、アクティブラーニング(AL)は、モデルトレーニングに役立つと考えられるデータに焦点を当てた、実現可能なソリューションとして自己を提示する。 ERのリスク分析の最近の進歩に基づき、より単純な分類器出力よりもラベル誤予測リスクをより正確に見積もることができるようにし、ERのリスクサンプリングの新たなALアプローチを提案する。 リスクサンプリングは、アクティブなインスタンス選択に誤予測リスク推定を利用する。 ALのコアセット特性に基づいて、不均一リプシッツ連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。 重み付きk-メドイド問題はnp-ハードであるため、効率的なヒューリスティックアルゴリズムを提案する。 最後に,実データに対する提案手法の有効性を比較検討により実証的に検証する。 我々の広範な実験により、既存の代替品よりもかなりの差で優れていることが示されている。 ERをテストケースとして使用することにより、リスクサンプリングが他の困難な分類タスクに適用可能な有望なアプローチであることを実証する。

While the state-of-the-art performance on entity resolution (ER) has been achieved by deep learning, its effectiveness depends on large quantities of accurately labeled training data. To alleviate the data labeling burden, Active Learning (AL) presents itself as a feasible solution that focuses on data deemed useful for model training. Building upon the recent advances in risk analysis for ER, which can provide a more refined estimate on label misprediction risk than the simpler classifier outputs, we propose a novel AL approach of risk sampling for ER. Risk sampling leverages misprediction risk estimation for active instance selection. Based on the core-set characterization for AL, we theoretically derive an optimization model which aims to minimize core-set loss with non-uniform Lipschitz continuity. Since the defined weighted K-medoids problem is NP-hard, we then present an efficient heuristic algorithm. Finally, we empirically verify the efficacy of the proposed approach on real data by a comparative study. Our extensive experiments have shown that it outperforms the existing alternatives by considerable margins. Using ER as a test case, we demonstrate that risk sampling is a promising approach potentially applicable to other challenging classification tasks.
翻訳日:2021-04-25 18:05:00 公開日:2020-12-23
# GAHNE: グラフ集約型不均一ネットワーク埋め込み

GAHNE: Graph-Aggregated Heterogeneous Network Embedding ( http://arxiv.org/abs/2012.12517v1 )

ライセンス: Link先を確認
Xiaohe Li, Lijie Wen, Chen Qian, Jianmin Wang(参考訳) 現実世界のネットワークは、異種情報ネットワーク(hin)として広く知られる、異なる種類のノードとエッジで構成されることが多い。 不均質なネットワーク埋め込みは、ノードを低次元ベクトルに埋め込むことを目的としており、不均質なネットワークの豊富な固有情報を取得する。 しかしながら、既存のモデルは、手動でメタパスを設計するか、異なる意味論間の相互効果を無視するか、あるいはグローバルネットワークからの情報のいくつかの側面を省略する。 これらの制約に対処するために,HINのセマンティクスを可能な限り包括的に抽出し,グラフ畳み込みニューラルネットワークに基づく下流タスクの結果を改善するための新しいグラフ集約異種ネットワーク埋め込み(GAHNE)を提案する。 GAHNEモデルでは、異なる単一タイプのサブネットワークからのセマンティック表現を集約する機構を開発し、グローバル情報を最終埋め込みに融合させる。 3つの実世界のHINデータセットに対する大規模な実験により、提案したモデルが既存の最先端手法よりも一貫して優れていることが示された。

The real-world networks often compose of different types of nodes and edges with rich semantics, widely known as heterogeneous information network (HIN). Heterogeneous network embedding aims to embed nodes into low-dimensional vectors which capture rich intrinsic information of heterogeneous networks. However, existing models either depend on manually designing meta-paths, ignore mutual effects between different semantics, or omit some aspects of information from global networks. To address these limitations, we propose a novel Graph-Aggregated Heterogeneous Network Embedding (GAHNE), which is designed to extract the semantics of HINs as comprehensively as possible to improve the results of downstream tasks based on graph convolutional neural networks. In GAHNE model, we develop several mechanisms that can aggregate semantic representations from different single-type sub-networks as well as fuse the global information into final embeddings. Extensive experiments on three real-world HIN datasets show that our proposed model consistently outperforms the existing state-of-the-art methods.
翻訳日:2021-04-25 18:04:41 公開日:2020-12-23
# ワンショットモデルによるニューラルアーキテクチャの進化

Evolving Neural Architecture Using One Shot Model ( http://arxiv.org/abs/2012.12540v1 )

ライセンス: Link先を確認
Nilotpal Sinha, Kuan-Wen Chen(参考訳) ニューラルアーキテクチャ検索(nas)は、特定のタスク用に設計された手作りのニューラルアーキテクチャを置き換える可能性を秘めた、新たな研究方向として登場している。 従来の進化的アーキテクチャ探索は高い計算資源を必要とするため、探索時間が高い。 本研究では,nas問題に単純な遺伝的アルゴリズムを適用する新しい手法であるevnas(evolving neural architecture using one shot model)を提案する。 アーキテクチャは、1ショットモデルのアーキテクチャパラメータを用いて表現され、その結果、特定の数のアーキテクチャに対するアーキテクチャ間の重みの共有と、一世代から次世代のアーキテクチャへの重みの継承をもたらす。 本稿では,アーキテクチャパラメータの復号化手法を提案する。この手法は,勾配情報の大部分を与えられたアーキテクチャに分散させ,探索過程における1ショットモデルから与えられたアーキテクチャの性能予測を改善するためにも用いられる。 さらに,検証データに対する部分的に訓練されたアーキテクチャの精度を,その適合性の予測として活用し,探索時間を短縮した。 EvNASはプロキシデータセット、すなわち、アーキテクチャを検索する。 CIFAR-10 for 4.4 GPU day on a single GPU and achieved top-1 test error of 2.47% with 3.63M parameters that then transfer to CIFAR-100 and ImageNet achieved top-1 error of 16.37% and top-5 error of 7.4%。 これらの結果は,アーキテクチャ探索問題の解法における進化的手法の可能性を示している。

Neural Architecture Search (NAS) is emerging as a new research direction which has the potential to replace the hand-crafted neural architectures designed for specific tasks. Previous evolution based architecture search requires high computational resources resulting in high search time. In this work, we propose a novel way of applying a simple genetic algorithm to the NAS problem called EvNAS (Evolving Neural Architecture using One Shot Model) which reduces the search time significantly while still achieving better result than previous evolution based methods. The architectures are represented by using the architecture parameter of the one shot model which results in the weight sharing among the architectures for a given population of architectures and also weight inheritance from one generation to the next generation of architectures. We propose a decoding technique for the architecture parameter which is used to divert majority of the gradient information towards the given architecture and is also used for improving the performance prediction of the given architecture from the one shot model during the search process. Furthermore, we use the accuracy of the partially trained architecture on the validation data as a prediction of its fitness in order to reduce the search time. EvNAS searches for the architecture on the proxy dataset i.e. CIFAR-10 for 4.4 GPU day on a single GPU and achieves top-1 test error of 2.47% with 3.63M parameters which is then transferred to CIFAR-100 and ImageNet achieving top-1 error of 16.37% and top-5 error of 7.4% respectively. All of these results show the potential of evolutionary methods in solving the architecture search problem.
翻訳日:2021-04-25 18:04:22 公開日:2020-12-23
# 輝きは金ではない - 保証付きプロセス発見技術に向けて

All That Glitters Is Not Gold: Towards Process Discovery Techniques with Guarantees ( http://arxiv.org/abs/2012.12764v1 )

ライセンス: Link先を確認
Jan Martijn E. M. van der Werf, Artem Polyvyanyy, Bart R. van Wensveen, Matthieu Brinkhuis and Hajo A. Reijers(参考訳) プロセス発見アルゴリズムの目的は、イベントデータから、基盤となる現実世界のプロセスを記述するプロセスモデルを構築することである。 直感的には、イベントデータの品質が向上すればするほど、発見されるモデルの品質も向上します。 しかし、既存のプロセス発見アルゴリズムはこの関係を保証していない。 我々は、イベントデータと発見プロセスモデルの両方に対して、様々な品質指標を用いてこれを実証する。 本稿では,IS技術者のコミュニティに対して,プロセス発見アルゴリズムを,入力の質と出力の質を関連付ける特性で補完するように呼びかける。 そこで,本研究では,関連する特性の定式化と実験的検証のための具体的なガイドラインとともに,これらのアルゴリズム開発のための4段階の段階を区別する。 また、これらのステージを使用して、アルゴリズムによるプロセス発見に関する考え方を前進させる必要性を示す技術の現状を反映します。

The aim of a process discovery algorithm is to construct from event data a process model that describes the underlying, real-world process well. Intuitively, the better the quality of the event data, the better the quality of the model that is discovered. However, existing process discovery algorithms do not guarantee this relationship. We demonstrate this by using a range of quality measures for both event data and discovered process models. This paper is a call to the community of IS engineers to complement their process discovery algorithms with properties that relate qualities of their inputs to those of their outputs. To this end, we distinguish four incremental stages for the development of such algorithms, along with concrete guidelines for the formulation of relevant properties and experimental validation. We will also use these stages to reflect on the state of the art, which shows the need to move forward in our thinking about algorithmic process discovery.
翻訳日:2021-04-25 18:03:36 公開日:2020-12-23
# 反トラスト・人工知能(AAI):反トラスト・ビジャランス・ライフサイクルとAI法推論オートノミー

Antitrust and Artificial Intelligence (AAI): Antitrust Vigilance Lifecycle and AI Legal Reasoning Autonomy ( http://arxiv.org/abs/2012.13016v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 人工知能(AI)分野と反トラスト分野の融合への関心が高まっており、研究文献においてしばしば反トラストとAI(AAI)と呼ばれる。 本研究は,(1)反トラストのAIへの適用,(2)反トラストへのAIの適用,という2つの分野が交わる主要な方法を求めることによって,反トラストとAIを絡めるシナジーに焦点を当てた。 これまで、このインターミキシングに関する既存の研究のほとんどは、AIに対する反トラスト適用という前者に集中しており、AIの出現とそれに伴う悪質な反トラスト行動の可能性によって市場がどのように変化するかを示している。 このコインの反対側をより深く探究することを目的として、この研究は、反トラストに対するAIの適用を精査し、反トラスト検出、執行、強化後の監視を可能にするために、AIが実質的に注入されると予測される反トラスト警戒ライフサイクルを確立する。 さらに、AI法推論(AILR)における自律性レベル(LoA)の中で、AIの反トラスト警戒への段階的かつ漸進的な注入が発生することが期待されている。

There is an increasing interest in the entwining of the field of antitrust with the field of Artificial Intelligence (AI), frequently referred to jointly as Antitrust and AI (AAI) in the research literature. This study focuses on the synergies entangling antitrust and AI, doing so to extend the literature by proffering the primary ways that these two fields intersect, consisting of: (1) the application of antitrust to AI, and (2) the application of AI to antitrust. To date, most of the existing research on this intermixing has concentrated on the former, namely the application of antitrust to AI, entailing how the marketplace will be altered by the advent of AI and the potential for adverse antitrust behaviors arising accordingly. Opting to explore more deeply the other side of this coin, this research closely examines the application of AI to antitrust and establishes an antitrust vigilance lifecycle to which AI is predicted to be substantively infused for purposes of enabling and bolstering antitrust detection, enforcement, and post-enforcement monitoring. Furthermore, a gradual and incremental injection of AI into antitrust vigilance is anticipated to occur as significant advances emerge amidst the Levels of Autonomy (LoA) for AI Legal Reasoning (AILR).
翻訳日:2021-04-25 18:03:22 公開日:2020-12-23
# ハードウェアアクセラレーションによるCOVID-19の確率疫学モデルの推定

Hardware-accelerated Simulation-based Inference of Stochastic Epidemiology Models for COVID-19 ( http://arxiv.org/abs/2012.14332v1 )

ライセンス: Link先を確認
Sourabh Kulkarni and Mario Michael Krell and Seth Nabarro and Csaba Andras Moritz(参考訳) 疫学モデルは大規模パンデミックの理解と制御の中心である。 いくつかの疫学モデルは、そのパラメータを観測に適合させるために、近似ベイズ計算(ABC)のようなシミュレーションベースの推論を必要とする。 ABC推論は効率的なハードウェアアクセラレーションに非常に適している。 本研究では,COVID-19に対する確率的疫学モデルのABC同時推定法を開発した。 統計的推論フレームワークは、Intel Xeon CPU、NVIDIA Tesla V100 GPU、Graphcore Mk1 IPUで実装され、比較され、計算アーキテクチャの文脈で議論される。 結果,GPUは4倍,IPUはXeon CPUの30倍高速であることがわかった。 大規模性能解析により、IPUとGPUの差は、通信帯域幅の増大、メモリの計算精度の向上、IPUの計算能力の向上によるものと考えられる。 提案されたフレームワークは16 IPUにまたがってスケールし、スケーリングのオーバーヘッドは実験の8%を超えない。 本稿では,3カ国にわたる疫学モデル上での推論を行い,その結果の概要を述べる。

Epidemiology models are central in understanding and controlling large scale pandemics. Several epidemiology models require simulation-based inference such as Approximate Bayesian Computation (ABC) to fit their parameters to observations. ABC inference is highly amenable to efficient hardware acceleration. In this work, we develop parallel ABC inference of a stochastic epidemiology model for COVID-19. The statistical inference framework is implemented and compared on Intel Xeon CPU, NVIDIA Tesla V100 GPU and the Graphcore Mk1 IPU, and the results are discussed in the context of their computational architectures. Results show that GPUs are 4x and IPUs are 30x faster than Xeon CPUs. Extensive performance analysis indicates that the difference between IPU and GPU can be attributed to higher communication bandwidth, closeness of memory to compute, and higher compute power in the IPU. The proposed framework scales across 16 IPUs, with scaling overhead not exceeding 8% for the experiments performed. We present an example of our framework in practice, performing inference on the epidemiology model across three countries, and giving a brief overview of the results.
翻訳日:2021-04-25 18:02:58 公開日:2020-12-23
# Pit30M: 自動運転車時代のグローバルローカライゼーションのベンチマーク

Pit30M: A Benchmark for Global Localization in the Age of Self-Driving Cars ( http://arxiv.org/abs/2012.12437v1 )

ライセンス: Link先を確認
Julieta Martinez, Sasha Doubov, Jack Fan, Ioan Andrei B\^arsan, Shenlong Wang, Gell\'ert M\'attyus, Raquel Urtasun(参考訳) 私たちは、検索ベースのローカライズアプローチが自動運転車のコンテキストで十分であるかどうかを理解することに興味を持っています。 この目標に向けて、3000万フレームを超える新しいイメージとLiDARデータセットであるPit30Mを紹介します。 Pit30Mは様々な条件(季節、天気、日時、交通量)で捕獲され、正確な位置決めの真実を提供する。 また、過去の気象や天文学的なデータに加えて、画像やLiDARセマンティックセグメンテーションをオクルージョンのプロキシ尺度として自動的にアノテートします。 我々は、画像とLiDAR検索のための既存の複数の手法をベンチマークし、その過程で、技術の状況と競合する単純な、効果的な畳み込みネットワークベースのLiDAR検索手法を導入する。 本研究は,都市規模におけるサブメートル検索に基づくローカライズのためのベンチマークを初めて提供する。 データセット、追加の実験結果、センサ、キャリブレーション、メタデータに関する詳細な情報は、プロジェクトのWebサイトで公開されている。

We are interested in understanding whether retrieval-based localization approaches are good enough in the context of self-driving vehicles. Towards this goal, we introduce Pit30M, a new image and LiDAR dataset with over 30 million frames, which is 10 to 100 times larger than those used in previous work. Pit30M is captured under diverse conditions (i.e., season, weather, time of the day, traffic), and provides accurate localization ground truth. We also automatically annotate our dataset with historical weather and astronomical data, as well as with image and LiDAR semantic segmentation as a proxy measure for occlusion. We benchmark multiple existing methods for image and LiDAR retrieval and, in the process, introduce a simple, yet effective convolutional network-based LiDAR retrieval method that is competitive with the state of the art. Our work provides, for the first time, a benchmark for sub-metre retrieval-based localization at city scale. The dataset, additional experimental results, as well as more information about the sensors, calibration, and metadata, are available on the project website: https://uber.com/atg/datasets/pit30m
翻訳日:2021-04-25 18:01:53 公開日:2020-12-23
# 胸部X線自動トリアージ(胸部X線自動トリアージ) : 4つのDeep Learningアーキテクチャを組み合わせることで,異なるタイプのラベルを活用

Chest x-ray automated triage: a semiologic approach designed for clinical implementation, exploiting different types of labels through a combination of four Deep Learning architectures ( http://arxiv.org/abs/2012.12712v1 )

ライセンス: Link先を確認
Candelaria Mosquera (1 and 2), Facundo Nahuel Diaz (3), Fernando Binder (1), Jose Martin Rabellino (3), Sonia Elizabeth Benitez (1), Alejandro Daniel Beres\~nak (3), Alberto Seehaus (3), Gabriel Ducrey (3), Jorge Alberto Ocantos (3) and Daniel Roberto Luna (1) ((1) Health Informatics Department Hospital Italiano de Buenos Aires,(2) Universidad Tecnologica Nacional,(3) Radiology Department Hospital Italiano de Buenos Aires)(参考訳) 背景と目的: 過去数年間にリリースされた複数の胸部x線データセットには、異なるコンピュータビジョンタスクを意図した接地ラベルがあり、様々な種類のアノテーションを活用できる方法を使用することで、胸部x線自動解釈のパフォーマンスが向上することを示唆している。 本研究は,異なる畳み込みアーキテクチャの遅発的融合に基づく深層学習手法を提案する。これにより,単純な実装で異種データとのトレーニングが可能となり,独立したテストデータでの性能評価を行う。 病院のワークフローにうまく統合できる臨床的に有用なツールの入手に焦点をあてた。 材料と方法: 専門的考察から, 肺の異常, 骨折, 気胸, 胸水という4つの胸部X線所見を抽出した。 それぞれの発見に対して,最も適切な地下構造ラベルを定義し,公共胸部X線データセットと機関アーカイブの画像を組み合わせた4つのトレーニングデータセットを構築した。 4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。 2つのテストデータセット、すなわち外部で利用可能なデータセットと、地域住民のパフォーマンスを推定するためのふりかえりデータセットでパフォーマンスを測定した。 結果: 外部テストセットは4376, 局所テストセットは1064の画像で, 異常胸部X線の検出において, 0.75 (95%CI: 0.74-0.76), 0.87 (95%CI: 0.86-0.89) の範囲を示した。 地域住民の感度は86%(95%CI:84-90)、特異性は88%(95%CI:86-90)であり、人口集団間で有意差はなかった。 本稿では, 真偽と偽陽性を検証し, 達成されたレベルの解釈可能性を示すヒートマップの例を示す。

BACKGROUND AND OBJECTIVES: The multiple chest x-ray datasets released in the last years have ground-truth labels intended for different computer vision tasks, suggesting that performance in automated chest-xray interpretation might improve by using a method that can exploit diverse types of annotations. This work presents a Deep Learning method based on the late fusion of different convolutional architectures, that allows training with heterogeneous data with a simple implementation, and evaluates its performance on independent test data. We focused on obtaining a clinically useful tool that could be successfully integrated into a hospital workflow. MATERIALS AND METHODS: Based on expert opinion, we selected four target chest x-ray findings, namely lung opacities, fractures, pneumothorax and pleural effusion. For each finding we defined the most adequate type of ground-truth label, and built four training datasets combining images from public chest x-ray datasets and our institutional archive. We trained four different Deep Learning architectures and combined their outputs with a late fusion strategy, obtaining a unified tool. Performance was measured on two test datasets: an external openly-available dataset, and a retrospective institutional dataset, to estimate performance on local population. RESULTS: The external and local test sets had 4376 and 1064 images, respectively, for which the model showed an area under the Receiver Operating Characteristics curve of 0.75 (95%CI: 0.74-0.76) and 0.87 (95%CI: 0.86-0.89) in the detection of abnormal chest x-rays. For the local population, a sensitivity of 86% (95%CI: 84-90), and a specificity of 88% (95%CI: 86-90) were obtained, with no significant differences between demographic subgroups. We present examples of heatmaps to show the accomplished level of interpretability, examining true and false positives.
翻訳日:2021-04-25 18:01:32 公開日:2020-12-23
# Vid2Actor:野生のビデオからの自由視点アニメーション人合成

Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild ( http://arxiv.org/abs/2012.12884v1 )

ライセンス: Link先を確認
Chung-Yi Weng, Brian Curless, Ira Kemelmacher-Shlizerman(参考訳) 対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。 出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。 提案手法の核心は,入力ビデオで訓練された深層ネットワークを用いて再構成された体積3次元人間表現であり,新しいポーズ/ビュー合成を可能にする。 本手法は,内部3d表現によるポーズやカメラの合成を可能にするが,メッシュベース学習のように事前学習されたモデルや基礎的真理メッシュを必要としないため,ganによる画像から画像への画像変換の進歩である。 実験は、設計上の選択を検証し、合成データや、制約のない活動を行う多様な人々の実ビデオ(例)で結果を得る。 テニスをしたり踊ったり)。 最後に,学習モデルを用いた動き再ターゲティングと弾丸時間レンダリングを実演する。

Given an "in-the-wild" video of a person, we reconstruct an animatable model of the person in the video. The output model can be rendered in any body pose to any camera view, via the learned controls, without explicit 3D mesh reconstruction. At the core of our method is a volumetric 3D human representation reconstructed with a deep network trained on input video, enabling novel pose/view synthesis. Our method is an advance over GAN-based image-to-image translation since it allows image synthesis for any pose and camera via the internal 3D representation, while at the same time it does not require a pre-rigged model or ground truth meshes for training, as in mesh-based learning. Experiments validate the design choices and yield results on synthetic data and on real videos of diverse people performing unconstrained activities (e.g. dancing or playing tennis). Finally, we demonstrate motion re-targeting and bullet-time rendering with the learned models.
翻訳日:2021-04-25 18:00:52 公開日:2020-12-23
# BENN:ディープニューラルネットワークを用いたバイアス推定

BENN: Bias Estimation Using Deep Neural Network ( http://arxiv.org/abs/2012.12537v1 )

ライセンス: Link先を確認
Amit Giloni and Edita Grolman and Tanja Hagemann and Ronald Fromm and Sebastian Fischer and Yuval Elovici and Asaf Shabtai(参考訳) The need to detect bias in machine learning (ML) models has led to the development of multiple bias detection methods, yet utilizing them is challenging since each method: i) explores a different ethical aspect of bias, which may result in contradictory output among the different methods, ii) provides an output of a different range/scale and therefore, can't be compared with other methods, and iii) requires different input, and therefore a human expert needs to be involved to adjust each method according to the examined model. 本稿では,事前学習された教師なし深層ニューラルネットワークを用いたバイアス推定手法であるbennを提案する。 MLモデルとデータサンプルが与えられた場合、BENNはモデルの予測に基づいて、すべての機能のバイアス推定を提供する。 3つのベンチマークデータセットと1つの独自のチャーン予測モデルを用いてBENNを評価し、既存の21のバイアス推定手法と比較した。 評価結果は、BENNがアンサンブルよりも大きな利点を浮き彫りにしており(つまり、任意のMLモデルに適用できる)、ドメインの専門家は必要ないが、アンサンブルのモデルと整合したバイアス推定を提供する。

The need to detect bias in machine learning (ML) models has led to the development of multiple bias detection methods, yet utilizing them is challenging since each method: i) explores a different ethical aspect of bias, which may result in contradictory output among the different methods, ii) provides an output of a different range/scale and therefore, can't be compared with other methods, and iii) requires different input, and therefore a human expert needs to be involved to adjust each method according to the examined model. In this paper, we present BENN -- a novel bias estimation method that uses a pretrained unsupervised deep neural network. Given a ML model and data samples, BENN provides a bias estimation for every feature based on the model's predictions. We evaluated BENN using three benchmark datasets and one proprietary churn prediction model used by a European Telco and compared it with an ensemble of 21 existing bias estimation methods. Evaluation results highlight the significant advantages of BENN over the ensemble, as it is generic (i.e., can be applied to any ML model) and there is no need for a domain expert, yet it provides bias estimations that are aligned with those of the ensemble.
翻訳日:2021-04-25 18:00:35 公開日:2020-12-23
# K-Meansカーネル分類器

K-Means Kernel Classifier ( http://arxiv.org/abs/2012.13021v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) K平均クラスタリングと最小二乗のカーネル分類法を組み合わせる。 K平均クラスタリングは、クラスごとに代表ベクトルの集合を抽出するために使用される。 最小二乗カーネル法は、これらの代表ベクトルを分類タスクのトレーニングセットとして使用する。 教師なし学習アルゴリズムと教師なし学習アルゴリズムの組み合わせは, MNISTデータセットを用いて, この手法を実証する。

We combine K-means clustering with the least-squares kernel classification method. K-means clustering is used to extract a set of representative vectors for each class. The least-squares kernel method uses these representative vectors as a training set for the classification task. We show that this combination of unsupervised and supervised learning algorithms performs very well, and we illustrate this approach using the MNIST dataset
翻訳日:2021-04-25 18:00:20 公開日:2020-12-23
# 高ひずみ脆性破壊における多変量機械学習予測の不確かさ境界

Uncertainty Bounds for Multivariate Machine Learning Predictions on High-Strain Brittle Fracture ( http://arxiv.org/abs/2012.15739v1 )

ライセンス: Link先を確認
Cristina Garcia-Cardona, M. Giselle Fern\'andez-Godino, Daniel O'Malley and Tanmoy Bhattacharya(参考訳) 脆性材料を用いた高速衝撃実験における亀裂ネットワークの進展シミュレーションは非常に計算集約的である。 ひび割れの長さ、位置、方向のランダム性を考慮するために複数のシミュレーションが必要な場合、コストはさらに増大する。 機械学習エミュレータの構築は、プロセスを桁違いに高速化することができる。 しかし、その予測にかかわる誤差を評価する作業はほとんど行われていない。 これらの誤差を推定することは、全体的な不確かさの定量化に不可欠である。 本研究では,不確実性推定を多出力機械学習エミュレータに拡張する。 応答予測はやや保守的な不確実性の推定で堅牢であることがわかった。

Simulation of the crack network evolution on high strain rate impact experiments performed in brittle materials is very compute-intensive. The cost increases even more if multiple simulations are needed to account for the randomness in crack length, location, and orientation, which is inherently found in real-world materials. Constructing a machine learning emulator can make the process faster by orders of magnitude. There has been little work, however, on assessing the error associated with their predictions. Estimating these errors is imperative for meaningful overall uncertainty quantification. In this work, we extend the heteroscedastic uncertainty estimates to bound a multiple output machine learning emulator. We find that the response prediction is robust with a somewhat conservative estimate of uncertainty.
翻訳日:2021-04-25 18:00:15 公開日:2020-12-23
# 産業制御システムにおけるサイバー攻撃検知器の攻撃対策

Poisoning Attacks on Cyber Attack Detectors for Industrial Control Systems ( http://arxiv.org/abs/2012.15740v1 )

ライセンス: Link先を確認
Moshe Kravchik and Battista Biggio and Asaf Shabtai(参考訳) 近年,産業制御システム(ICS)を対象としたサイバー攻撃の検出において,オートエンコーダを含むニューラルネットワークに基づく手法が提案されている。 このような検出器は、監視された信号の自然進化(すなわち概念ドリフト)に対処するために、システム操作中に収集されたデータを使用して再訓練されることが多い。 しかし、このメカニズムを悪用することにより、攻撃者は、トレーニング時に破損したセンサーによって提供された信号を偽装し、テスト時にサイバー攻撃が検出されないように検出器の学習プロセスを汚染することができる。 この研究により、我々はICSサイバー攻撃オンラインNN検出器に対するこのような毒攻撃を初めて実証した。 本研究では,2つの異なる攻撃アルゴリズム,すなわち補間と逆勾配に基づく中毒を提案し,その効果を合成および実世界のicデータで実証する。 また,潜在的な緩和戦略について検討・分析する。

Recently, neural network (NN)-based methods, including autoencoders, have been proposed for the detection of cyber attacks targeting industrial control systems (ICSs). Such detectors are often retrained, using data collected during system operation, to cope with the natural evolution (i.e., concept drift) of the monitored signals. However, by exploiting this mechanism, an attacker can fake the signals provided by corrupted sensors at training time and poison the learning process of the detector such that cyber attacks go undetected at test time. With this research, we are the first to demonstrate such poisoning attacks on ICS cyber attack online NN detectors. We propose two distinct attack algorithms, namely, interpolation- and back-gradient based poisoning, and demonstrate their effectiveness on both synthetic and real-world ICS data. We also discuss and analyze some potential mitigation strategies.
翻訳日:2021-04-25 18:00:07 公開日:2020-12-23
# ソボレフ時間空間におけるディープニューラルネットワークの近似

Approximations with deep neural networks in Sobolev time-space ( http://arxiv.org/abs/2101.06115v1 )

ライセンス: Link先を確認
Ahmed Abdeljawad and Philipp Grohs(参考訳) 進化方程式の解は、一般に特定のボヒナー・ソボレフ空間に存在し、解は空間変数に対して異なる時間変数に対して正則性と可積分性を持つ。 そこで本稿では,ディープニューラルネットワークがボヒナー・ソボレフ空間に対してソボレフ正則関数を近似できることを示す枠組みを開発した。 我々の研究では、いわゆるRectified Cubic Unit(ReCU)をネットワークのアクティベーション関数として使用し、最も一般的に使用されるRectived Linear Unit(ReLU)アクティベーション関数の非正規性に起因する問題を回避しつつ、ニューラルネットワークの近似結果の導出を可能にする。

Solutions of evolution equation generally lies in certain Bochner-Sobolev spaces, in which the solution may has regularity and integrability properties for the time variable that can be different for the space variables. Therefore, in this paper, we develop a framework shows that deep neural networks can approximate Sobolev-regular functions with respect to Bochner-Sobolev spaces. In our work we use the so-called Rectified Cubic Unit (ReCU) as an activation function in our networks, which allows us to deduce approximation results of the neural networks while avoiding issues caused by the non regularity of the most commonly used Rectivied Linear Unit (ReLU) activation function.
翻訳日:2021-04-25 17:59:53 公開日:2020-12-23
# 画像からの原理的ネットワーク抽出

Principled network extraction from images ( http://arxiv.org/abs/2012.12758v1 )

ライセンス: Link先を確認
Diego Baptista and Caterina De Bacco(参考訳) 自然系の画像は、ネットワークのような構造を表現し、基礎となる対象のトポロジ的特性に関する重要な情報を明らかにすることができる。 しかし、画像自体がノードとエッジのセットという観点でネットワークの正式な定義を自動で提供するわけではない。 代わりに、この情報は原画像データから好適に抽出されるべきである。 そこで我々は,スケーラブルで効率的な画像からネットワークトポロジを抽出する基本モデルを提案する。 我々は,この目標を,運用コストやインフラコストの観点から解釈可能なエネルギー関数を最小限に抑えるネットワークであるルーティング最適化問題にマッピングする。 本手法は, 最適輸送理論の最近の結果に依拠し, ヒューリスティックスに基づく標準画像処理手法に代わる原理的手法である。 網膜血管系,スライム型,河川ネットワークの実際の画像を用いて実験を行い,画像処理技術を組み合わせたルーチンと比較した。 結果は抽出に保存された情報量に関する類似度尺度を用いて検証される。 本モデルでは,手書き画像に類似した網膜血管網画像からネットワークを抽出し,河川やスライムカビの画像からネットワークを抽出し,真理が得られていない場合に高い性能を示す。 すべての画像をベストに適合させるユニークな方法はないが、我々のアプローチはデータセット間で一貫して実行しているが、アルゴリズムの実装は効率的であり、監督のほとんどない複数のデータセット上で実行できるように完全に自動化することができる。

Images of natural systems may represent patterns of network-like structure, which could reveal important information about the topological properties of the underlying subject. However, the image itself does not automatically provide a formal definition of a network in terms of sets of nodes and edges. Instead, this information should be suitably extracted from the raw image data. Motivated by this, we present a principled model to extract network topologies from images that is scalable and efficient. We map this goal into solving a routing optimization problem where the solution is a network that minimizes an energy function which can be interpreted in terms of an operational and infrastructural cost. Our method relies on recent results from optimal transport theory and is a principled alternative to standard image-processing techniques that are based on heuristics. We test our model on real images of the retinal vascular system, slime mold and river networks and compare with routines combining image-processing techniques. Results are tested in terms of a similarity measure related to the amount of information preserved in the extraction. We find that our model finds networks from retina vascular network images that are more similar to hand-labeled ones, while also giving high performance in extracting networks from images of rivers and slime mold for which there is no ground truth available. While there is no unique method that fits all the images the best, our approach performs consistently across datasets, its algorithmic implementation is efficient and can be fully automatized to be run on several datasets with little supervision.
翻訳日:2021-04-25 17:59:37 公開日:2020-12-23
# 電力市場における日頭・リアルタイム位置縁価格のギャップの学習

Learning the Gap in the Day-Ahead and Real-Time Locational Marginal Prices in the Electricity Market ( http://arxiv.org/abs/2012.12792v1 )

ライセンス: Link先を確認
Nika Nizharadze, Arash Farokhi Soofi, Saeed D. Manshadi(参考訳) 本稿では,統計的機械学習アルゴリズムとディープニューラルネットワークを用いて,日頭電気市場とリアルタイム電気市場との価格差の値を予測する。 いくつかの外生的特徴を収集し、これらの特徴のインパクトを調べ、特徴と対象変数の間の最良の関係を捉える。 アンサンブル学習アルゴリズム(英: Ensemble learning algorithm)とは、日頭およびリアルタイム市場における予測電力価格の確率分布を計算するために発行されるランダムフォレストである。 日頭市場とリアルタイム市場の予測を減算するよりも、前述の市場間の直接的ギャップ値の予測と、直接的ギャップ価格予測の利点において、長期的依存性を捉えるためにlstm(long-short-term-memory)が使用される。 ケーススタディはcalifornia independent system operator (caiso)の電気市場データで2年間実施されている。 提案手法を評価し,ニューラルネットワークはギャップの正確な値を予測できる有望な結果を示した。

In this paper, statistical machine learning algorithms, as well as deep neural networks, are used to predict the values of the price gap between day-ahead and real-time electricity markets. Several exogenous features are collected and impacts of these features are examined to capture the best relations between the features and the target variable. Ensemble learning algorithm namely the Random Forest issued to calculate the probability distribution of the predicted electricity prices for day-ahead and real-time markets. Long-Short-Term-Memory (LSTM) is utilized to capture long term dependencies in predicting direct gap values between mentioned markets and the benefits of directly predicting the gap price rather than subtracting the predictions of day-ahead and real-time markets are illustrated. Case studies are implemented on the California Independent System Operator (CAISO) electricity market data for a two years period. The proposed methods are evaluated and neural networks showed promising results in predicting the exact values of the gap.
翻訳日:2021-04-25 17:59:15 公開日:2020-12-23
# メトロポリス調整ランジュバンアルゴリズムの最適次元依存性

Optimal dimension dependence of the Metropolis-Adjusted Langevin Algorithm ( http://arxiv.org/abs/2012.12810v1 )

ライセンス: Link先を確認
Sinho Chewi, Chen Lu, Kwangjun Ahn, Xiang Cheng, Thibaut Le Gouic, Philippe Rigollet(参考訳) 一般的な拡散スケーリングの限界に裏打ちされた標本文献における従来の知見は、メトロポリス調整ランジュバンアルゴリズム(mala)の混合時間は、次元が$d$である場合、$o(d^{1/3})$にスケールすることを示唆している。 しかし、拡散スケーリング限界は対象分布に厳密な仮定を必要とし、本質的に漸近的である。 対照的に、対数平滑かつ強対数凹分布のクラス上でMALAが有する最もよく知られた非漸近混合時間は$O(d)$である。 本研究は, 対象分布のクラスにおけるMALAの混合時間は, 温かい開始条件下で$\widetilde\Theta(d^{1/2})$であることを示す。 上界証明では,MALAの学習をLangevin SDEのよく研究された離散化解析に還元し,受理確率の直接計算を回避し,メトロポリス調整の投影特性に基づく新しい手法を導入する。

Conventional wisdom in the sampling literature, backed by a popular diffusion scaling limit, suggests that the mixing time of the Metropolis-Adjusted Langevin Algorithm (MALA) scales as $O(d^{1/3})$, where $d$ is the dimension. However, the diffusion scaling limit requires stringent assumptions on the target distribution and is asymptotic in nature. In contrast, the best known non-asymptotic mixing time bound for MALA on the class of log-smooth and strongly log-concave distributions is $O(d)$. In this work, we establish that the mixing time of MALA on this class of target distributions is $\widetilde\Theta(d^{1/2})$ under a warm start. Our upper bound proof introduces a new technique based on a projection characterization of the Metropolis adjustment which reduces the study of MALA to the well-studied discretization analysis of the Langevin SDE and bypasses direct computation of the acceptance probability.
翻訳日:2021-04-25 17:58:55 公開日:2020-12-23
# ハッチンソンのトレース推定器の現代的解析

A Modern Analysis of Hutchinson's Trace Estimator ( http://arxiv.org/abs/2012.12895v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) 本稿ではハッチンソンのトレース推定器の精度解析における新しい最先端技術を確立する。 この文脈ではこれまで使われていなかったツール、特にサブガンマ分布の超収縮的不等式と濃度特性を利用して、エレガントでモジュラーな解析と数値的に優れた境界を提供する。 これらの改善に加えて、この取り組みは前述のcsコミュニティ内のテクニックをより広めることを目的としている。

The paper establishes the new state-of-art in the accuracy analysis of Hutchinson's trace estimator. Leveraging tools that have not been previously used in this context, particularly hypercontractive inequalities and concentration properties of sub-gamma distributions, we offer an elegant and modular analysis, as well as numerically superior bounds. Besides these improvements, this work aims to better popularize the aforementioned techniques within the CS community.
翻訳日:2021-04-25 17:58:36 公開日:2020-12-23
# 植物とのユーリトミックダンス ---ヒトの身体運動に対する植物反応の測定-

Eurythmic Dancing with Plants -- Measuring Plant Response to Human Body Movement in an Anthroposophic Environment ( http://arxiv.org/abs/2012.12978v1 )

ライセンス: Link先を確認
Sebastian Duerr, Josephine van Delden, Buenyamin Oezkaya, Peter A. Gloor(参考訳) 本稿では,人間と庭植物との相互作用を測定する3つの実験について述べる。 特に、植物(ミツバチ、トマト、レタス)近くのヒトの体の動きは、植物の電気活動を測定する装置であるスパイカーボックスによって測定された作用電位と、カメラで追跡された植物の葉の動きと相関する。 最初の実験では、測定システムは異なる植物に対する外部刺激を同一に捉え、測定システムを検証した。 第2の実験は、植物の反応がダンサーの動きと相関していることを示している。 3つ目の実験は、数週にわたってユーリトミックダンスに曝された植物は、初めてユーリトミックダンスに曝された植物と異なる反応を示す。

This paper describes three experiments measuring interaction of humans with garden plants. In particular, body movement of a human conducting eurythmic dances near the plants (beetroots, tomatoes, lettuce) is correlated with the action potential measured by a plant SpikerBox, a device measuring the electrical activity of plants, and the leaf movement of the plant, tracked with a camera. The first experiment shows that our measurement system captures external stimuli identically for different plants, validating the measurement system. The second experiment illustrates that the plants' response is correlated to the movements of the dancer. The third experiment indicates that plants that have been exposed for multiple weeks to eurythmic dancing might respond differently to plants which are exposed for the first time to eurythmic dancing.
翻訳日:2021-04-25 17:58:29 公開日:2020-12-23