このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210802となっている論文です。

PDF登録状況(公開日: 20210802)

TitleAuthorsAbstract論文公表日・翻訳日
# 離散時間量子ウォークにおけるボロミアン状態

Borromean states in discrete-time quantum walks ( http://arxiv.org/abs/2005.13588v3 )

ライセンス: Link先を確認
Marcin Markiewicz, Marcin Karczewski, Pawel Kurzynski(参考訳) 正しい条件下では、1つの粒子を多成分結合状態から取り除くと分解することがある。 この特徴は「ボロメアン性」と呼ばれ、最近エフィモフ州で実験的に実証されている。 このような特異な振る舞いは、強い粒子間相関の存在と結びつくことが期待できる。 しかし、この接続の探索はボロメアンの性質を示す物理系の複雑さによって妨げられる。 この問題を解決するために,多数の相互作用粒子の離散時間量子ウォークに基づく,シンプルな動的玩具モデルを導入する。 我々は,グリーンベルガー・ホルン・ゼイリンガー(GHZ)の絡み合いがボローム境界状態を形成する必要があることを示す。 このような絡み合いは粒子の損失に非常に近いため、我々の研究はシステムの相関とボロミアン特性の直感的な関係を示している。 さらに, 複合粒子の形成の文脈において, この知見について考察する。

In the right conditions, removing one particle from a multipartite bound state can make it fall apart. This feature, known as the "Borromean property", has been recently demonstrated experimentally in Efimov states. One could expect that such peculiar behavior should be linked with the presence of strong inter-particle correlations. However, any exploration of this connection is hindered by the complexity of the physical systems exhibiting the Borromean property. To overcome this problem, we introduce a simple dynamical toy model based on a discrete-time quantum walk of many interacting particles. We show that the particles described by it need to exhibit the Greenberger-Horne-Zeillinger (GHZ) entanglement to form Borromean bound states. As this type of entanglement is very prone to particle losses, our work demonstrates an intuitive link between correlations and Borromean properties of the system. Moreover, we discuss our findings in the context of the formation of composite particles.
翻訳日:2023-05-18 05:04:59 公開日:2021-08-02
# Page-Wootters 機構の定量化:絡み合いの相対エントロピーとしての共有非対称性

Quantifying resources for Page-Wootters mechanism: Shared asymmetry as relative entropy of entanglement ( http://arxiv.org/abs/2007.15592v3 )

ライセンス: Link先を確認
Rafael S. Carmo, Diogo O. Soares-Pinto(参考訳) 近年、量子時計のページウォッター機構(page-wootters mechanism)が注目されている。 より近代的な手法を用いてメカニズムを探求する様々な提案の中で、量子系が他の量子系の参照フレームとしてどれだけうまく機能するかを定量化するために、情報測度を定義し、使用することを選んだ者もいる。 本研究では,共有非対称性と呼ばれる非対称性の資源理論に基づく提案を考察する。この提案は,u(1)$ コンパクト群によって記述された量子参照フレームを対象とするコヒーレンス理論のアプローチと実際に等価である。 我々は、より一般的な場合において、共有非対称性とページ・ウーター機構に関する文献で、ヒルベルト空間 $\mathcal{h}_s\otimes\mathcal{h}_r$ のチャージセクタにおいて、二成分状態 $\rho_{sr}$ の共有非対称性と \textit{internal states} $\rho_m$ のエンタングルメントの相対エントロピーに関する定理を包含する。 この結果を用いて,Page-Wootters機構と絡み合いの関係を再解釈し,さらなる研究への道を開く。

Recently, some attention has been given to the so-called Page-Wootters mechanism of quantum clocks. Among the various proposals to explore the mechanism using more modern techniques, some have chosen to use a quantum information perspective, defining and using informational measures to quantify how well a quantum system can stand as a reference frame for other quantum system. In this work, we explore the proposal based on resource theory of asymmetry, known as mutual or shared asymmetry, which actually is equivalent to the approach from coherence theory in the case of interest here: quantum reference frames described by the $U(1)$ compact group. We extend some previous results in literature about shared asymmetry and Page-Wootters mechanism to more general cases, culminating in the enunciation of a theorem relating shared asymmetry of a bipartite state $\rho_{SR}$ with the relative entropy of entanglement of \textit{internal states} $\rho_M$ on the charge sectors of the Hilbert space $\mathcal{H}_S\otimes\mathcal{H}_R$. Using this result we reinterpret the relation between Page-Wootters mechanism and entanglement and also open some paths to further studies.
翻訳日:2023-05-07 18:23:28 公開日:2021-08-02
# ハミルトン作用素によるエネルギー測定と地盤状態の近似

Hamiltonian operator approximation for energy measurement and ground state preparation ( http://arxiv.org/abs/2009.03351v3 )

ライセンス: Link先を確認
Tatiana A. Bespalova, Oleksandr Kyriienko(参考訳) ハミルトン作用素は、ユニタリ量子力学の生成元である量子論において中心的な役割を果たす。 その期待値は量子システムのエネルギーを記述する。 通常、非ユニタリ作用素であるハミルトニアンの作用は複素アンシラベースの回路で符号化されるか、パウリの弦項の和として効果的に実装される。 ここでは、微分表現を用いて、ハミルトン作用素をプロパゲータの和として近似する方法を示す。 提案手法はハミルトン作用素近似 (HOA) と名付けられ, 量子力学のシミュレーションに直接アクセスできるアナログ量子シミュレータの利点が期待できるが, 分離回路の測定は不可能である。 エネルギー測定を行うためのハイブリッド量子古典ワークフローでこの戦略を利用する方法について述べる。 測定方式をベンチマークし,離散化ステップサイズ,ステンシルオーダー,ショット数,ノイズの関連性について検討した。 また、HOAを用いて直接反復と量子フィルタ対角化を伴う複雑な物質科学モデルの基底状態を作成し、時間進化した参照状態を用いて、水素鎖 H$_6$ with 10^{-5}$ Hartree の12量子ハミルトニアンに対して最低エネルギーを求める。 このアプローチは変分量子固有解器と比較され、ノイズの多い大規模量子デバイスに対応するサイズが大きくなるシステムに有効なHOAを証明している。 12以上のスピンを持つハイゼンベルクモデルの場合、我々のアプローチはゲート深さと測定総数の両方において変動法より優れていることが判明した。

The Hamiltonian operator plays a central role in quantum theory being a generator of unitary quantum dynamics. Its expectation value describes the energy of a quantum system. Typically being a non-unitary operator, the action of the Hamiltonian is either encoded using complex ancilla-based circuits, or implemented effectively as a sum of Pauli string terms. Here, we show how to approximate the Hamiltonian operator as a sum of propagators using a differential representation. The proposed approach, named Hamiltonian operator approximation (HOA), is designed to benefit analog quantum simulators, where one has direct access to simulation of quantum dynamics, but measuring separate circuits is not possible. We describe how to use this strategy in the hybrid quantum-classical workflow for performing energy measurements. Benchmarking the measurement scheme, we discuss the relevance of the discretization step size, stencil order, number of shots, and noise. We also use HOA to prepare ground states of complex material science models with direct iteration and quantum filter diagonalization, finding the lowest energy for the 12-qubit Hamiltonian of hydrogen chain H$_6$ with $10^{-5}$ Hartree precision using $11$ time-evolved reference states. The approach is compared to the variational quantum eigensolver, proving HOA beneficial for systems at increasing size corresponding to noisy large scale quantum devices. We find that for Heisenberg model with twelve or more spins our approach may outperform variational methods, both in terms of the gate depth and the total number of measurements.
翻訳日:2023-05-03 07:04:07 公開日:2021-08-02
# データ駆動型量子誤り軽減への統一的アプローチ

Unified approach to data-driven quantum error mitigation ( http://arxiv.org/abs/2011.01157v2 )

ライセンス: Link先を確認
Angus Lowe, Max Hunter Gordon, Piotr Czarnik, Andrew Arrasmith, Patrick J. Coles, Lukasz Cincio(参考訳) 短期的な量子優位を達成するには、ハードウェアノイズを軽減する効果的な方法が必要である。 ゼロノイズ外挿(ZNE)やクリフォードデータ回帰(CDR)など、データ駆動によるエラー軽減のアプローチは有望である。 本稿では,ZNEとCDRを概念的に統一した,スケーラブルなエラー軽減手法を提案する。 可変ノイズクリフォードデータレグレッション(vnCDR)と呼ばれる我々の手法は、これらの個々の手法を数値ベンチマークで著しく上回っている。 vnCDRは、まず近クリフォード回路(古典的にはシミュレート可能)を介してトレーニングデータを生成し、次にこれらの回路のノイズレベルを変化させる。 我々は、IBMのOurense量子コンピュータから得られたノイズモデルを用いて、我々の手法をベンチマークする。 8ビットIsingモデルのエネルギーを推定する問題に対して、vnCDRは未決定結果に対して33の係数、ZNEおよびCDRに対して20と1.8の係数で絶対エネルギー誤差を改善する。 64量子ビットのランダムな量子回路から可観測性を修正する問題に対して、vnCDRはZNEとCDRでそれぞれ2.7と1.5の誤差を改善する。

Achieving near-term quantum advantage will require effective methods for mitigating hardware noise. Data-driven approaches to error mitigation are promising, with popular examples including zero-noise extrapolation (ZNE) and Clifford data regression (CDR). Here we propose a novel, scalable error mitigation method that conceptually unifies ZNE and CDR. Our approach, called variable-noise Clifford data regression (vnCDR), significantly outperforms these individual methods in numerical benchmarks. vnCDR generates training data first via near-Clifford circuits (which are classically simulable) and second by varying the noise levels in these circuits. We employ a noise model obtained from IBM's Ourense quantum computer to benchmark our method. For the problem of estimating the energy of an 8-qubit Ising model system, vnCDR improves the absolute energy error by a factor of 33 over the unmitigated results and by factors 20 and 1.8 over ZNE and CDR, respectively. For the problem of correcting observables from random quantum circuits with 64 qubits, vnCDR improves the error by factors of 2.7 and 1.5 over ZNE and CDR, respectively.
翻訳日:2023-04-26 01:40:27 公開日:2021-08-02
# 量子誤差緩和のための仮想蒸留

Virtual Distillation for Quantum Error Mitigation ( http://arxiv.org/abs/2011.07064v3 )

ライセンス: Link先を確認
William J. Huggins, Sam McArdle, Thomas E. O'Brien, Joonho Lee, Nicholas C. Rubin, Sergio Boixo, K. Birgitta Whaley, Ryan Babbush, Jarrod R. McClean(参考訳) 現代の量子コンピュータはノイズのレベルが比較的高く、多くの量子ビットでも有用な計算を行うのに使用するのが困難である。 量子エラー訂正は、最終的に大規模でフォールトトレラントな量子計算を可能にすることが期待されているが、それまでは、エラーの影響を軽減するために代替戦略を使う必要がある。 我々は,ノイズの多い状態である$\rho$のコピーを絡み込み,測定することによりエラーを緩和する,短期的フレンドリーな戦略を提案する。 これにより、誤差が劇的に低減した状態、すなわち$\rho^m/ \mathrm{tr}(\rho^m)$に対して期待値を明示的に準備することなく推定できるため、仮想蒸留(virtual distillation)と呼ばれる。 M$が増加すると、この状態は最も近い純状態から$\rho$に近づき、指数関数的に速くなる。 仮想蒸留の有効性を解析し、この純粋な状態の挙動によって多くのレジームで支配されていることを発見した(優占的固有ベクトルは$\rho$に対応する)。 仮想蒸留は複数桁の誤差を抑制できることを数値的に示し,システム規模が大きくなるにつれてこの効果がどのように向上するかを説明する。 最後に, この手法は, デバイスノイズがなくても, ランダム量子アルゴリズムの収束性を向上させることができることを示す。

Contemporary quantum computers have relatively high levels of noise, making it difficult to use them to perform useful calculations, even with a large number of qubits. Quantum error correction is expected to eventually enable fault-tolerant quantum computation at large scales, but until then it will be necessary to use alternative strategies to mitigate the impact of errors. We propose a near-term friendly strategy to mitigate errors by entangling and measuring $M$ copies of a noisy state $\rho$. This enables us to estimate expectation values with respect to a state with dramatically reduced error, $\rho^M/ \mathrm{Tr}(\rho^M)$, without explicitly preparing it, hence the name "virtual distillation". As $M$ increases, this state approaches the closest pure state to $\rho$, exponentially quickly. We analyze the effectiveness of virtual distillation and find that it is governed in many regimes by the behavior of this pure state (corresponding to the dominant eigenvector of $\rho$). We numerically demonstrate that virtual distillation is capable of suppressing errors by multiple orders of magnitude and explain how this effect is enhanced as the system size grows. Finally, we show that this technique can improve the convergence of randomized quantum algorithms, even in the absence of device noise.
翻訳日:2023-04-24 05:18:41 公開日:2021-08-02
# Gottesman-Kitaev-Preskill qubitsを用いた全光長距離量子通信

All-Optical Long-Distance Quantum Communication with Gottesman-Kitaev-Preskill qubits ( http://arxiv.org/abs/2011.14876v2 )

ライセンス: Link先を確認
Kosuke Fukui, Rafael N. Alexander, Peter van Loock(参考訳) 量子リピータは、長距離量子通信を実現するための有望なプラットフォームであり、セキュアな量子インターネット、スケーラブルな量子ネットワーク、分散量子コンピュータのバックボーンを形成することができる。 単一または多光子状態の情報をエンコードするリピータプロトコルは、送信損失とエンタングゲートやベル測定の実装コストによって制限される。 本稿では,Gottesman-Kitaev-Preskill(GKP)量子ビットを用いた量子リピータプロトコルの実装を検討する。 これらの量子ビットは、室温で実装できる決定論的ガウス絡み操作とベル測定を可能にするため、量子反復プロトコルの自然な要素である。 GKP符号化は、小さな変位誤差を修正することもできる。 追加のガウス雑音の場合、位相非感光増幅器を適用することにより、光子損失をランダムな変位誤差チャネルに変換することができる。 ここでは、測定データの後処理に適用される位相感度増幅を用いて、同様の変換を双方向リピータプロトコルで実現できることを示し、結果として、(十分短い)リピータセグメント当たりのガウスノイズが小さくなることを示す。 また,gkp コードを高レベルな qubit コードと結合し,アナログシンドロームデータ,ポスト選択,パス選択技術を用いて通信速度の向上を図る。 安全な鍵レートを計算し、gkpリピータが光量子ビットに基づく方法と比較して、最小の量子ビットを使用して比較性能を達成できることを見いだす。

Quantum repeaters are a promising platform for realizing long-distance quantum communication and thus could form the backbone of a secure quantum internet, a scalable quantum network, or a distributed quantum computer. Repeater protocols that encode information in single- or multi-photon states are limited by transmission losses and the cost of implementing entangling gates or Bell measurements. In this work, we consider implementing a quantum repeater protocol using Gottesman-Kitaev-Preskill (GKP) qubits. These qubits are natural elements for quantum repeater protocols, because they allow for deterministic Gaussian entangling operations and Bell measurements, which can be implemented at room temperature. The GKP encoding is also capable of correcting small displacement errors. At the cost of additional Gaussian noise, photon loss can be converted into a random displacement error channel by applying a phase-insensitive amplifier. Here we show that a similar conversion can be achieved in two-way repeater protocols by using phase-sensitive amplification applied in the post-processing of the measurement data, resulting in less overall Gaussian noise per (sufficiently short) repeater segment. We also investigate concatenating the GKP code with higher level qubit codes while leveraging analog syndrome data, post-selection, and path-selection techniques to boost the rate of communication. We compute the secure key rates and find that GKP repeaters can achieve a comparative performance relative to methods based on photonic qubits while using orders-of-magnitude fewer qubits.
翻訳日:2023-04-22 14:29:29 公開日:2021-08-02
# 都市でもっと犯罪か? 犯罪のスケーリング法と一人当たりのランクの不適切性について-クロスカントリー研究

More crime in cities? On the scaling laws of crime and the inadequacy of per capita rankings -- a cross-country study ( http://arxiv.org/abs/2012.15368v2 )

ライセンス: Link先を確認
Marcos Oliveira(参考訳) 市民一人当たりの犯罪率は、ほぼどこでも都市をランク付けし比較するために使用される。 しかし、それらの使用法は、犯罪が地域内の人々の数と同じペースで増加するという強い線形仮定に依存している。 本稿では,都市における人口一人当たりのランク付けが,人口規模に合わせて調整されたランキングとは大きく異なることを実証する。 犯罪の種類に応じて,12カ国の都市における人口・犯罪関係を分析し,国民一人当たりの測定値が犯罪分析に与える影響を評価する。 ほとんどの国では、盗難は人口規模と超線形に増加するのに対し、強盗は線形に増加する。 その結果、1人当たりのランキングは人口調整されたランキングと異なり、ここで分析されたデータの中で最も危険な都市のトップ10の約半分で意見が一致しないことが明らかとなった。 したがって,1人当たりの犯罪率を用いて都市をランク付けする場合は,その前に直線的可能性を評価することを推奨する。

Crime rates per capita are used virtually everywhere to rank and compare cities. However, their usage relies on a strong linear assumption that crime increases at the same pace as the number of people in a region. In this paper, we demonstrate that using per capita rates to rank cities can produce substantially different rankings from rankings adjusted for population size. We analyze the population-crime relationship in cities across 12 countries and assess the impact of per capita measurements on crime analyses, depending on the type of offense. In most countries, we find that theft increases superlinearly with population size, whereas burglary increases linearly. Our results reveal that per capita rankings can differ from population-adjusted rankings such that they disagree in approximately half of the top 10 most dangerous cities in the data analysed here. Hence, we advise caution when using crime rates per capita to rank cities and recommend evaluating the linear plausibility before doing so.
翻訳日:2023-04-18 07:39:42 公開日:2021-08-02
# 機械学習による3体量子状態の形態

Morphology of three-body quantum states from machine learning ( http://arxiv.org/abs/2102.04961v2 )

ライセンス: Link先を確認
David Huber, Oleksandr V. Marchukov, Hans-Werner Hammer, and Artem G. Volosniev(参考訳) 環上の3つの不透明粒子の相対運動(この場合、同じフェルミオンと1つの不純物)は三角形の量子ビリヤードに同型である。 不純物とフェルミオンの質量の比$\kappa$により、ビリヤードは可積分あるいは非可積分である(本文ではカオス(chaotic)とも呼ばれる)。 まず、ビリヤードのエネルギー準位分布を、1/\kappa\in [0,1]$の関数として調べ、1/\kappa=1$と1/\kappa=0$の制限値以上の積分可能なケースの証拠を見つける。 次に、機械学習ツールを用いて個々の量子状態の確率分布の特性を解析する。 畳み込みニューラルネットワークは、可積分状態と非可積分状態を正確に分類できることを見いだし、波動関数の決定的な特徴は正規化と多数のゼロ要素であり、ノード線の存在に対応する。 このネットワークは、典型的な97%の精度を達成し、理論や実験で得られた確率密度の形態の分析と分類に機械学習ツールが使えることを示唆している。

The relative motion of three impenetrable particles on a ring, in our case two identical fermions and one impurity, is isomorphic to a triangular quantum billiard. Depending on the ratio $\kappa$ of the impurity and fermion masses, the billiards can be integrable or non-integrable (also referred to in the main text as chaotic). To set the stage, we first investigate the energy level distributions of the billiards as a function of $1/\kappa\in [0,1]$ and find no evidence of integrable cases beyond the limiting values $1/\kappa=1$ and $1/\kappa=0$. Then, we use machine learning tools to analyze properties of probability distributions of individual quantum states. We find that convolutional neural networks can correctly classify integrable and non-integrable states.The decisive features of the wave functions are the normalization and a large number of zero elements, corresponding to the existence of a nodal line. The network achieves typical accuracies of 97%, suggesting that machine learning tools can be used to analyze and classify the morphology of probability densities obtained in theory or experiment.
翻訳日:2023-04-12 03:17:40 公開日:2021-08-02
# トポロジカルオーダーの測定

Measuring Topological Order ( http://arxiv.org/abs/2102.05677v2 )

ライセンス: Link先を確認
Parsa Bonderson(参考訳) 物質の(2+1)次元位相相の位相次数は、そのキラルな中心電荷と、そのアノン準粒子の普遍的な融合とブレイディング特性を記述するユニタリモジュラーテンソル圏によって特徴づけられる。 トポロジ的不変量について論じ,トポロジ的順序を決定するのに有用なものを同定する。 本稿では,これらの量を調査し,計測データと位相不変量との関係を詳述する様々な物理実験を提案する。

The topological order of a (2+1)D topological phase of matter is characterized by its chiral central charge and a unitary modular tensor category that describes the universal fusion and braiding properties of its anyonic quasiparticles. I discuss the topologically invariant quantities associated with these and identify ones that are useful for determining the topological order. I propose a variety of physical experiments that probe these quantities and detail the relation of the measured data to the topological invariants.
翻訳日:2023-04-12 00:40:52 公開日:2021-08-02
# ベル非局所性は、デバイス非依存量子鍵分散プロトコルのセキュリティに十分ではない

Bell nonlocality is not sufficient for the security of standard device-independent quantum key distribution protocols ( http://arxiv.org/abs/2103.02639v2 )

ライセンス: Link先を確認
M\'at\'e Farkas, Maria Balanz\'o-Juand\'o, Karol {\L}ukanowski, Jan Ko{\l}ody\'nski, Antonio Ac\'in(参考訳) デバイスに依存しない量子鍵分布はセキュアな量子暗号パラダイムであり、2人の正直なユーザーが秘密鍵を確立できるが、デバイスへの信頼は最小限である。 既存のプロトコルの多くは以下の構造を持つ: まず、二部分非局所量子状態は、非局所相関を確立するために局所的な測定を行う誠実なユーザ間で分散される。 そして、実施した測定結果を公表し、測定結果の処理後、安全な鍵を抽出する。 この方式のプロトコルでは,特定の非局所状態,すなわち絡み合った2ビットのワーナー状態の局所的射影測定によって得られた相関に基づいて,秘密鍵の確立を許さないことを示す。 この結果を証明するため、簡単な盗聴攻撃に基づくデバイス非依存の量子鍵分布プロトコルの漸近鍵レートの上限化手法を提案する。 以上の結果から,大雑音領域におけるデバイス非依存量子鍵分布には,異なる和解手法が必要か,ベル非局所性が不十分かが示唆された。

Device-independent quantum key distribution is a secure quantum cryptographic paradigm that allows two honest users to establish a secret key, while putting minimal trust in their devices. Most of the existing protocols have the following structure: first, a bipartite nonlocal quantum state is distributed between the honest users, who perform local measurements to establish nonlocal correlations. Then, they announce the implemented measurements and extract a secure key by post-processing their measurement outcomes. We show that no protocol of this form allows for establishing a secret key when implemented on any correlation obtained by measuring local projective measurements on certain entangled nonlocal states, namely on a range of entangled two-qubit Werner states. To prove this result, we introduce a technique for upper-bounding the asymptotic key rate of device-independent quantum key distribution protocols, based on a simple eavesdropping attack. Our results imply that either different reconciliation techniques are needed for device-independent quantum key distribution in the large-noise regime, or Bell nonlocality is not sufficient for this task.
翻訳日:2023-04-09 07:54:13 公開日:2021-08-02
# コヒーレント励起散乱のためのテーラー高コントラストアト秒電子パルス

Tailored high-contrast attosecond electron pulses for coherent excitation and scattering ( http://arxiv.org/abs/2103.10921v2 )

ライセンス: Link先を確認
Sergey V. Yalunin, Armin Feist and Claus Ropers(参考訳) 光を用いて電子ビームの密度を一時的に形成することは、自由電子レーザーやアト秒電子顕微鏡を含む幅広い確立された新興技術の基礎を形成する。 圧縮電子パルスの変調深さは、応用を制限した重要な要素である。 そこで本研究では,非弾性電子光散乱による無背景電子パルス列生成手法を提案する。 分数タルボット効果における量子干渉を利用して、電子圧縮における望ましくない背景密度を数桁小さく抑える。 以上より,刺激されたカソードルミネッセンスやストレーキングなどのコヒーレント電子光散乱の応用性が大幅に向上する。

Temporally shaping the density of electron beams using light forms the basis for a wide range of established and emerging technologies, including free-electron lasers and attosecond electron microscopy. The modulation depth of compressed electron pulses is a key figure of merit limiting applications. In this work, we present an approach for generating background-free attosecond electron pulse trains by sequential inelastic electron-light scattering. Harnessing quantum interference in the fractional Talbot effect, we suppress unwanted background density in electron compression by several orders of magnitude. Our results will greatly enhance applications of coherent electron-light scattering, such as stimulated cathodoluminescence and streaking.
翻訳日:2023-04-07 10:55:04 公開日:2021-08-02
# 量子理論の原理としてのジェントル測定

Gentle Measurement as a Principle of Quantum Theory ( http://arxiv.org/abs/2103.15110v3 )

ライセンス: Link先を確認
Eyuri Wakakuwa(参考訳) 本稿では、量子力学の基礎となる原理の一つとして、温和な測定原理(GMP)を提案する。 これは、ある状態の集合が高い確率で区別できるならば、それらが基準系との相関を含むほとんど不変な状態を残す測定によって区別できると主張している。 GMPは古典理論と量子理論の両方で満足しているが、一般確率論の枠組みの中で、物理学の法則に強い制約を課していることが示される。 第一に、観測可能な一対の観測の不確かさは、準備の不確実性よりも大きくはならない。 したがって、CHSH非局所性の強さは最大ではない。 量子論を含む一般確率論の族である拡張量子論のパラメータも制限されている。 第二に、データ圧縮定理で定義される条件エントロピーは鎖の不等式を満たす。 因果関係や tsirelson の束縛に関する情報を含意するだけでなく、拡張された理論から量子論を導出する。 これらの結果は、GMPが量子力学の中心にある原理の1つであることを示している。

We propose the gentle measurement principle (GMP) as one of the principles at the foundation of quantum mechanics. It asserts that if a set of states can be distinguished with high probability, they can be distinguished by a measurement that leaves the states almost invariant, including correlation with a reference system. While GMP is satisfied in both classical and quantum theories, we show, within the framework of general probabilistic theories, that it imposes strong restrictions on the law of physics. First, the measurement uncertainty of a pair of observables cannot be significantly larger than the preparation uncertainty. Consequently, the strength of the CHSH nonlocality cannot be maximal. The parameter in the stretched quantum theory, a family of general probabilistic theories that includes the quantum theory, is also limited. Second, the conditional entropy defined in terms of a data compression theorem satisfies the chain inequality. Not only does it imply information causality and Tsirelson's bound, but it singles out the quantum theory from the stretched one. All these results show that GMP would be one of the principles at the heart of quantum mechanics.
翻訳日:2023-04-06 08:12:24 公開日:2021-08-02
# 単一粒子絡み合いに基づく現実的QRNGのエントロピー認証

Entropy certification of a realistic QRNG based on single-particle entanglement ( http://arxiv.org/abs/2104.06092v2 )

ライセンス: Link先を確認
Sonia Mazzucchi, Nicol\`o Leone, Stefano Azzini, Lorenzo Pavesi, Valter Moretti(参考訳) 単一粒子絡み(SPE)では、単一粒子の2自由度が絡み合っている。 SPEは、量子通信プロトコルと、コチェン=スペクターの定理に基づく非文脈性の実験の両方で利用することができる資源である。 SPEはベルの不等式に基づく量子文脈性の試験によって証明することができる。 単一粒子の絡み合った系によるベルのような不等式違反の実験は、同時に測定される2つの観測可能な物体の間に、実際には避けられない非イデオロギーの存在により、この文脈における局所性ループの類似によって影響を受ける可能性がある。 この問題は、光子を用いたspe実験における現実的なデバイスの挙動を定量的に分析することで解決される。 特に,光子のspe状態によるベル不等式違反に基づく現実的な量子乱数生成器の半デバイス独立なランダム性証明が実現可能であることを示す。 この分析はさらに拡張され、マルコフモデル、死亡時間による記憶効果、暗数、光子検出器1つに影響を及ぼす余波、特に偶然の測定に対処しない場合などを含む。 実験データの集合から量子遷移確率を推定する非バイアス推定器も提案されている。

In single-particle entanglement (SPE) two degrees of freedom of a single particle are entangled. SPE is a resource that can be exploited both in quantum communication protocols and in experimental tests of noncontextuality based on the Kochen-Specker theorem. SPE can be certified via a test of quantum contextuality based on Bell inequalities. Experiments of Bell-like inequality violation by single particle entangled systems may be affected by an analogue of the locality loophole in this context, due to the presence of unavoidable non-idealities in the experimental devices which actually produce unwanted correlations between the two observables that are simultaneously measured. This issue is tackled here by quantitatively analyzing the behaviour of realistic devices in SPE experiments with photons. In particular, we show how it is possible to provide a semi-device independent randomness certification of realistic quantum random number generators based on Bell inequality violation by SPE states of photons. The analysis is further enlarged to encompass, with a Markovian model, memory effects due to dead time, dark counts and afterpulsing affecting single photon detectors, in particular when not dealing with coincidence measurements. An unbiased estimator is also proposed for quantum transition probabilities out of the collection of experimental data.
翻訳日:2023-04-03 23:40:54 公開日:2021-08-02
# 遠方界における超解像線形光学イメージング

Super-resolution linear optical imaging in the far field ( http://arxiv.org/abs/2105.01743v2 )

ライセンス: Link先を確認
A.A. Pushkina, G. Maltese, J.I. Costa-Filho, P. Patel, A.I. Lvovsky(参考訳) 光イメージングデバイスの解像度は最終的に光の回折によって制限される。 この限界を回避するために、現代の超解像顕微鏡技術は、光学的非線形性、照明ビームの非古典的特性、または近接場プローブを利用して物体とのアクティブな相互作用を利用する。 したがって、天文学や非侵襲的な生物学的イメージングなど、そのような相互作用が不可能な場合には適用できない。 物体から来る光の受動的解析に基づく遠方場線形光学超解像技術は、これらのギャップをカバーする。 本稿では,このような手法の原理実証実験を初めて実施する。 画像の光学的場の空間的相関に関する情報にアクセスし、それゆえ、エルミート-ガウシアン空間モードへの投影を測定することによって物体自体に関する情報にアクセスする。 両横次元の21の空間モードを基礎として, 回折限界を超える2次元解像度の2次元イメージングを行う。

The resolution of optical imaging devices is ultimately limited by the diffraction of light. To circumvent this limit, modern super-resolution microscopy techniques employ active interaction with the object by exploiting its optical nonlinearities, nonclassical properties of the illumination beam, or near-field probing. Thus, they are not applicable whenever such interaction is not possible, for example, in astronomy or non-invasive biological imaging. Far-field, linear-optical super-resolution techniques based on passive analysis of light coming from the object would cover these gaps. In this paper, we present the first proof-of-principle demonstration of such a technique. It works by accessing information about spatial correlations of the image optical field and, hence, about the object itself via measuring projections onto Hermite-Gaussian transverse spatial modes. With a basis of 21 spatial modes in both transverse dimensions, we perform two-dimensional imaging with twofold resolution enhancement beyond the diffraction limit.
翻訳日:2023-04-01 23:35:29 公開日:2021-08-02
# 変分量子固有解法とLipkin-Meshkov-Glickモデルによる短期量子デバイスのベンチマーク

Benchmarking near-term quantum devices with the Variational Quantum Eigensolver and the Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2105.06761v3 )

ライセンス: Link先を確認
Kenneth Robbins and Peter J. Love(参考訳) 変分量子固有解法(VQE)は、ノイズ中間スケール量子(NISQ)計算のための有望なアルゴリズムである。 NISQ デバイス上での NISQ アルゴリズムの性能検証と検証は重要な課題である。 我々は、NISQコンピュータのベンチマーク候補として、正確に対角化可能なLipkin-Meshkov-Glick(LMG)モデルを考える。 我々はベーテアンサッツを用いて、LMGの基底となる代数構造にインスパイアされた量子回路を用いて三角LMGモデルの固有状態を構築する。 深さ$\mathcal{O}(N)$ と $\mathcal{O}(\log_2N)$ の回路を構築し、任意の三角式 LMG 固有状態を$N$ 粒子で作成できる。 両方の回路に必要なゲートの数は$\mathcal{O}(N)$である。 固有状態のエネルギーは、正確に知られた答えと比較して測定できる。

The Variational Quantum Eigensolver (VQE) is a promising algorithm for Noisy Intermediate Scale Quantum (NISQ) computation. Verification and validation of NISQ algorithms' performance on NISQ devices is an important task. We consider the exactly-diagonalizable Lipkin-Meshkov-Glick (LMG) model as a candidate for benchmarking NISQ computers. We use the Bethe ansatz to construct eigenstates of the trigonometric LMG model using quantum circuits inspired by the LMG's underlying algebraic structure. We construct circuits with depth $\mathcal{O}(N)$ and $\mathcal{O}(\log_2N)$ that can prepare any trigonometric LMG eigenstate of $N$ particles. The number of gates required for both circuits is $\mathcal{O}(N)$. The energies of the eigenstates can then be measured and compared to the exactly-known answers.
翻訳日:2023-03-31 04:19:57 公開日:2021-08-02
# 粒子検出器の熱化とウンルー効果の一般的な特徴

General features of the thermalization of particle detectors and the Unruh effect ( http://arxiv.org/abs/2106.14903v2 )

ライセンス: Link先を確認
T. Rick Perche(参考訳) 曲面時空における量子場理論において局所的に$any$演算子に結合するスメア粒子検出器の熱化について検討した。 磁場状態が検出器の局所的な時間進化の概念に対して逆温度$\beta$でKMS条件を満たす場合、合理的な仮定は、長い相互作用時間の制限でプローブが温度を1/\beta$に熱することを示す。 また, 磁場のKMS温度を正確に探査するために, 適切な加速度と時空曲率に関して, システムサイズに限界を課す。 次に、任意のcpt対称量子場理論のミンコフスキー真空を一様加速する検出器にこの形式を適用し、その検出器が結合する作用素とは無関係にアンルー温度に熱化することを示す。 これは、任意のスミア検出器が量子場理論の一般作用素を探索するために使用される場合でも、unruh効果のロバスト性を示す。

We study the thermalization of smeared particle detectors that couple locally to $any$ operator in a quantum field theory in curved spacetimes. We show that if the field state satisfies the KMS condition with inverse temperature $\beta$ with respect to the detector's local notion of time evolution, reasonable assumptions ensure that the probe thermalizes to the temperature $1/\beta$ in the limit of long interaction times. Our method also imposes bounds on the size of the system with respect to its proper acceleration and spacetime curvature in order to accurately probe the KMS temperature of the field. We then apply this formalism to a uniformly accelerated detector probing the Minkowski vacuum of any CPT symmetric quantum field theory, and show that the detector thermalizes to the Unruh temperature, independently of the operator it couples to. This exemplifies yet again the robustness of the Unruh effect, even when arbitrary smeared detectors are used to probe general operators in a quantum field theory.
翻訳日:2023-03-24 21:52:54 公開日:2021-08-02
# GaAsプラットフォーム上のCバンドInAs量子ドットおよび光共振器用薄膜InGaAs変成バッファ

Thin-Film InGaAs Metamorphic Buffer for telecom C-band InAs Quantum Dots and Optical Resonators on GaAs Platform ( http://arxiv.org/abs/2107.13371v2 )

ライセンス: Link先を確認
Robert Sittig, Cornelius Nawrath, Sascha Kolatschek, Stephanie Bauer, Richard Schaber, Jiasheng Huang, Ponraj Vijayan, Simone Luca Portalupi, Michael Jetter, Peter Michler(参考訳) GaAs系材料システムは、優れた光学特性を持つInAs量子ドット(QD)の実装でよく知られている。 しかし、これらの点は通常約900nmの波長で放射される。 メタモルフィックバッファ(MMB)の挿入は、放射を1550nm中心の技術的に魅力的なCバンドレンジにシフトさせることができる。 しかし、一般的なMBM設計の厚さは、ほとんどのフォトニック共振器タイプとの互換性を制限している。 ここでは, 最小層厚内での塑性緩和を最大化するために, 非リニアインジウム含有グレーディングプロファイルを有する新規InGaAs MMBのMOVPE成長について報告する。 この薄膜MBB上に堆積したInAs QDsから1550nmの単光子放出を示す。 新しいデザインの強さは、ナノ構造技術によってブルジーのキャビティに組み込むことで証明されている。 提案したQD/MMB構造のエピタキシャル成長の進歩は、光量子技術の鍵となる高品質なテレコム非古典光源の製造の基礎となる。

The GaAs-based material system is well-known for the implementation of InAs quantum dots (QDs) with outstanding optical properties. However, these dots typically emit at a wavelength of around 900nm. The insertion of a metamorphic buffer (MMB) can shift the emission to the technologically attractive telecom C-band range centered at 1550nm. However, the thickness of common MMB designs limits their compatibility with most photonic resonator types. Here we report on the MOVPE growth of a novel InGaAs MMB with a non-linear indium content grading profile designed to maximize plastic relaxation within minimal layer thickness. Single-photon emission at 1550nm from InAs QDs deposited on top of this thin-film MMB is demonstrated. The strength of the new design is proven by integrating it into a bullseye cavity via nano-structuring techniques. The presented advances in the epitaxial growth of QD/MMB structures form the basis for the fabrication of high-quality telecom non-classical light sources as a key component of photonic quantum technologies.
翻訳日:2023-03-20 17:13:03 公開日:2021-08-02
# ナノダイヤモンド中のSiV^-$中心状態の局所変化フォノン密度による長期軌道緩和

Prolonged orbital relaxation by locally modified phonon density of states for SiV$^-$ center in nanodiamonds ( http://arxiv.org/abs/2107.14648v2 )

ライセンス: Link先を確認
Marco Klotz, Konstantin G. Fehler, Elena S. Steiger, Stefan H\"au{\ss}ler, Richard Waltrich, Prithvi Reddy, Liudmila F. Kulikova, Valery A. Davydov, Viatcheslav N. Agafonov, Marcus W. Doherty, Alexander Kubanek(参考訳) コヒーレント量子システムは、新興量子技術の鍵となる資源である。 固体スピンシステムはコンパクトでスケーラブルなデバイスにとって特に重要である。 しかし、固体ホストとの相互作用はコヒーレンス特性を劣化させる。 ダイヤモンド中の負電荷のシリコン空孔中心はそのような例である。 スペクトル特性は際立っており、光学的コヒーレンスは欠陥対称性によって保護されているが、スピンコヒーレンスはスピン脱落時間を制限する高速な軌道緩和の影響を受けやすい。 そのため、軌道緩和時間の延長は極端に緊急であり、極低温での運転や大きなひずみの導入によって取り組まれている。 しかし、どちらの方法も大きな欠点があり、前者は希釈冷蔵庫の使用を必要とし、後者は内在的な対称性に影響を与える。 ここでは、ダイヤモンドホストを100nm以下に制限することにより、関連する周波数範囲における状態の局所的に変化したフォノン密度で軌道緩和を延長する新しい方法が提示される。 この方法はケルビンの少ない液体ヘリウム温度と低ひずみ状態で動作する。

Coherent quantum systems are a key resource for emerging quantum technology. Solid-state spin systems are of particular importance for compact and scalable devices. However, interaction with the solid-state host degrades the coherence properties. The negatively-charged silicon vacancy center in diamond is such an example. While spectral properties are outstanding, with optical coherence protected by the defects symmetry, the spin coherence is susceptible to rapid orbital relaxation limiting the spin dephasing time. A prolongation of the orbital relaxation time is therefore of utmost urgency and has been tackled by operating at very low temperatures or by introducing large strain. However, both methods have significant drawbacks, the former requires use of dilution refrigerators and the latter affects intrinsic symmetries. Here, a novel method is presented to prolong the orbital relaxation with a locally modified phonon density of states in the relevant frequency range, by restricting the diamond host to below 100 nm. The method works at liquid Helium temperatures of few Kelvin and in the low-strain regime.
翻訳日:2023-03-20 08:57:07 公開日:2021-08-02
# 対称トップキラル分子のエナンチオ特異状態転移

Enantio-specific state transfer for symmetric-top chiral molecules ( http://arxiv.org/abs/2108.00576v1 )

ライセンス: Link先を確認
Bo Liu, Chong Ye, C. P. Sun, Yong Li(参考訳) 対称トップキラル分子の4段階モデルにおけるエナンチオ特異的状態移動の研究を行った。 このようなモデルは、電気双極子遷移を4つの適切な動作状態と3つの電磁場を結合することによって形成される。 2つの環状三層構造を含み、全体相はエナンチオマーと$\pi$で異なり、分子のキラリティ依存性を反映している。 この4段階モデルに基づき、対称トップキラル分子のほぼ完全なエナンチオ特異的状態移動を達成するために2つの動的方法が提案されている。

We study the enantio-specific state transfer in a four-level model for symmetric-top chiral molecules. Such a model is formed by coupling the electric-dipole transitions among four appropriate working states with three electromagnetic fields. It includes two cyclic three-level substructures, where the overall phases differ by $\pi$ with enantiomers and reflect the chirality dependence of the molecule. Based on this four-level model, two dynamic ways are proposed to achieve the approximately perfect enantio-specific state transfer for symmetric-top chiral molecules.
翻訳日:2023-03-20 03:33:09 公開日:2021-08-02
# 反復受賞者による細胞集合体の形成-全計算と励起抑制バランス

Formation of cell assemblies with iterative winners-take-all computation and excitation-inhibition balance ( http://arxiv.org/abs/2108.00706v1 )

ライセンス: Link先を確認
Viacheslav Osaulenko and Danylo Ulianych(参考訳) 本稿では,情報をバイナリセルアセンブリにエンコードする問題を対象とする。 ニューラルネットワークとk-winners-take-allモデルをスパイクすることは2つの一般的なアプローチであるが、情報処理には1つは使いづらい。 我々はkWTAの計算容易性を共有し、より柔軟でリッチなダイナミクスを持つ中間モデルを提案する。 明示的な抑制ニューロンを使用して、反復的な手順で興奮をバランスさせ形作る。 これにより、刺激ニューロンと興奮ニューロンの繰り返し相互作用が生じ、入力分布に適応し、習慣化、デコリレーション、クラスタリングなどの計算を行う。 そこで本研究では,複数の安定化機構を有する2元重みに対する新しい学習規則を提案する。 ソースコードは公開されています。

This paper targets the problem of encoding information into binary cell assemblies. Spiking neural networks and k-winners-take-all models are two common approaches, but the first is hard to use for information processing and the second is too simple and lacks important features of the first. We present an intermediate model that shares the computational ease of kWTA and has more flexible and richer dynamics. It uses explicit inhibitory neurons to balance and shape excitation through an iterative procedure. This leads to a recurrent interaction between inhibitory and excitatory neurons that better adapts to the input distribution and performs such computations as habituation, decorrelation, and clustering. To show these, we investigate Hebbian-like learning rules and propose a new learning rule for binary weights with multiple stabilization mechanisms. Our source code is publicly available.
翻訳日:2023-03-20 03:30:41 公開日:2021-08-02
# ランダム発振器ネットワークを用いたオンライン量子時系列処理

Online quantum time series processing with random oscillator networks ( http://arxiv.org/abs/2108.00698v1 )

ライセンス: Link先を確認
Johannes Nokkala(参考訳) 貯水池コンピューティングは、オンライン時系列処理のための強力な機械学習パラダイムである。 カオス時系列予測や連続音声認識といったタスクでは、従来の訓練されたリカレントニューラルネットワークのような代替品とは別に、計算能力と低トレーニングコストのユニークな組み合わせによって最先端のパフォーマンスを達成しており、専用ハードウェアの実装にも適しており、非常にコンパクトで効率的なリザーバコンピュータに繋がる可能性がある。 近年,古典時系列処理における量子力学の複雑さを活用したランダム量子システムの利用が提案されている。 しかし、量子システムからその状態を乱すことなく出力を抽出することは問題であり、そのようなアプローチではボトルネックになることが期待できる。 本稿では、量子情報からなる時系列のオンライン処理に対する貯水池計算によるアプローチを提案する。 古典的リザーバコンピューティングから量子情報への2つのパラダイム的ベンチマークタスクを一般化し、ランダムシステムが直接相互作用しないシステム間の絡み合いを作り、分散するように訓練された古典的類似物なしでタスクを導入することにより、そのパワーを示す。 最後に、入力または出力時系列のみが量子である部分一般化について述べる。

Reservoir computing is a powerful machine learning paradigm for online time series processing. It has reached state-of-the-art performance in tasks such as chaotic time series prediction and continuous speech recognition thanks to its unique combination of high computational power and low training cost which sets it aside from alternatives such as traditionally trained recurrent neural networks, and furthermore is amenable to implementations in dedicated hardware, potentially leading to extremely compact and efficient reservoir computers. Recently the use of random quantum systems has been proposed, leveraging the complexity of quantum dynamics for classical time series processing. Extracting the output from a quantum system without disturbing its state too much is problematic however, and can be expected to become a bottleneck in such approaches. Here we propose a reservoir computing inspired approach to online processing of time series consisting of quantum information, sidestepping the measurement problem. We illustrate its power by generalizing two paradigmatic benchmark tasks from classical reservoir computing to quantum information and introducing a task without a classical analogue where a random system is trained to both create and distribute entanglement between systems that never directly interact. Finally, we discuss partial generalizations where only the input or only the output time series is quantum.
翻訳日:2023-03-20 03:30:25 公開日:2021-08-02
# 重力質量の非ガウス的絡み合い--累積体の役割

Non-Gaussian entanglement in gravitating masses: the role of cumulants ( http://arxiv.org/abs/2108.00662v1 )

ライセンス: Link先を確認
Daisuke Miki, Akira Matsumura, Kazuhiro Yamamoto(参考訳) 我々は、非ガウス状態の絡みを検出するために、3階および4階の累積と絡み合い基準を開発する。 光学系における鏡の浮き彫りにおけるエンタングルメント基準の効率について検討した。 鏡の絡み合った状態は、3階および4階の累積によって拡大されることを示す。 また,非ガウス状態における鏡の絡み合い基準の限界についても論じる。

We develop an entanglement criterion with third- and fourth-order cumulants to detect the entanglement of non-Gaussian states. The efficiency of the entanglement criterion is investigated for gravitating mirrors in optomechanical systems. We show that the entangled regime of the mirrors is enlarged by the third- and fourth-order cumulants. We also discuss the limitations of the entanglement criterion for mirrors in a highly non-Gaussian state.
翻訳日:2023-03-20 03:29:42 公開日:2021-08-02
# 静止したライドバーグ・ポラリトン

A stationary Rydberg polariton ( http://arxiv.org/abs/2108.00657v1 )

ライセンス: Link先を確認
Annika Tebben, Cl\'ement Hainaut, Andre Salzinger, Titus Franz, Sebastian Geier, Gerhard Z\"urn, Matthias Weidem\"uller(参考訳) 二重Vレベルスキームに基づく定常光偏光子にリドベルク状態とを結合する新しいスキームを提案する。 得られた定常偏光子の性質について検討し、その形状とその二次分散関係が基礎となる双対Vスキームの定常光偏光子とよく似ていることを示す。 我々は、Rydbergの不純物がシステムに与える影響を考察し、関連するプローブ場の強い相互作用による吸収を見出す。 静止したライドバーグ・ポラリトンに対する提案手法は、相互作用時間の増加を伴う相互作用ポラリトンを実現するための応用を見いだすことができる。

We propose a novel scheme for coupling a Rydberg state to a stationary light polariton, based on a dual-V level scheme. We investigate the properties of the resulting stationary Rydberg polariton, and show that its form and its quadratic dispersion relation closely resemble that of the stationary light polariton of the underlying dual-V scheme. We consider the influence of a Rydberg impurity on the system and find strong interaction-induced absorption of the involved probe field. The proposed scheme for a stationary Rydberg polariton might find applications for realizing interacting polaritons with increased interaction time.
翻訳日:2023-03-20 03:29:21 公開日:2021-08-02
# 最低励起状態ロ-振動レベル$^{23}$Na$^{87}$Rbのキャラクタリゼーション

Characterization of the lowest excited-state ro-vibrational level of $^{23}$Na$^{87}$Rb ( http://arxiv.org/abs/2108.00624v1 )

ライセンス: Link先を確認
Junyu He, Junyu Lin, Romain Vexiau, Nadia Bouloufa, Olivier Dulieu and Dajun Wang(参考訳) 超低温の基底状態である$^{23}$na$^{87}$rb分子のサンプルから始め、高分解能レーザー分光法を用いて$b^3\pi$状態の最低ro振動レベルを調査した。 この電子スピン禁止$x^1\sigma^+ \leftrightarrow b^3\pi$遷移は、ほぼ対角形フランク・コンドン因子を特徴とし、超低温分子ガスの探索と操作に有用である。 我々は、近距離共鳴光によって誘導されるアクスタークシフトを探索して遷移強度を直接測定し、分子の損失を観察して総励起状態自然放出速度を決定する。 抽出された分岐比と理論モデルから,$a^3\sigma^+$状態の連続体への漏洩が全遷移線幅において支配的な役割を果たすことがわかった。 これらの結果から、この遷移に近い波長のレーザ光で回転コヒーレンスを最大化するための光トラップ電位を作成することが可能であることを示す。

Starting from an ultracold sample of ground-state $^{23}$Na$^{87}$Rb molecules, we investigate the lowest ro-vibrational level of the $b^3\Pi$ state with high resolution laser spectroscopy. This electronic spin-forbidden $X^1\Sigma^+ \leftrightarrow b^3\Pi$ transition features a nearly diagonal Franck-Condon factor and has been proposed useful for probing and manipulating the ultracold molecular gas. We measure the transition strength directly by probing the ac Stark shift induced by near resonance light and determine the total excited-state spontaneous emission rate by observing the loss of molecules. From the extracted branching ratio and the theoretical modeling, we find that the leakage to the continuum of the $a^3\Sigma^+$ state plays the dominant role in the total transition linewidth. Based on these results, we show that it is feasible to create optical trapping potentials for maximizing the rotational coherence with laser light tuned to near this transition.
翻訳日:2023-03-20 03:28:54 公開日:2021-08-02
# 全国接触追跡ウイルスのプライバシについて--Cronav\'irus-SUSの場合

On the Privacy of National Contact Tracing COVID-19 Applications: The Coronav\'irus-SUS Case ( http://arxiv.org/abs/2108.00921v1 )

ライセンス: Link先を確認
J\'eferson Campos Nobre, Laura Rodrigues Soares, Briggette Olenka Roman Huaytalla, Elvandi da Silva J\'unior, Lisandro Zambenedetti Granville(参考訳) 重症急性呼吸器症候群(sars)2型(sars-cov-2)の早期流行による2019年新型コロナウイルス(covid-19)のパンデミックは、人命の喪失と経済的・社会的混乱の両面で、世界的に大きな影響を与えている。 デジタル技術の利用はパンデミックと戦うための重要な取り組みとみなされており、そのような技術の1つは接触追跡アプリケーションである。 これらの応用は、他の感染症と向き合うことに成功し、現在のパンデミックの間も使用されてきた。 しかし、ユーザ/デバイス識別や位置や行動追跡につながるデータを保存して処理する必要があるため、コンタクトトレースの使用にはいくつかのプライバシ上の懸念がある。 これらの懸念は、権威主義的な政府による大量監視につながる可能性があるため、全国的な実施を考える上でさらに重要となる。 いくつかの国のデータ保護法が課している規制にもかかわらず、ユーザーのプライバシーの保護には疑問が残る。 本稿では,その本質的な特徴を考慮した全国接触者追跡アプリケーションにおけるプライバシの特徴を分析する。 ケーススタディとして、ブラジルは現在のパンデミックで最も影響を受けている国の一つなので、ブラジルの新型コロナウイルス(COVID-19)適用についてより深く議論する。 最後に、現在および将来的なパンデミックの戦略の一環として、接触追跡が引き続き採用されると考えているので、重要な研究課題を提示します。

The 2019 Coronavirus disease (COVID-19) pandemic, caused by a quick dissemination of the Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2), has had a deep impact worldwide, both in terms of the loss of human life and the economic and social disruption. The use of digital technologies has been seen as an important effort to combat the pandemic and one of such technologies is contact tracing applications. These applications were successfully employed to face other infectious diseases, thus they have been used during the current pandemic. However, the use of contact tracing poses several privacy concerns since it is necessary to store and process data which can lead to the user/device identification as well as location and behavior tracking. These concerns are even more relevant when considering nationwide implementations since they can lead to mass surveillance by authoritarian governments. Despite the restrictions imposed by data protection laws from several countries, there are still doubts on the preservation of the privacy of the users. In this article, we analyze the privacy features in national contact tracing COVID-19 applications considering their intrinsic characteristics. As a case study, we discuss in more depth the Brazilian COVID-19 application Coronav\'irus-SUS, since Brazil is one of the most impacted countries by the current pandemic. Finally, as we believe contact tracing will continue to be employed as part of the strategy for the current and potential future pandemics, we present key research challenges.
翻訳日:2023-03-20 03:22:32 公開日:2021-08-02
# スケーラブル量子コンピューティングアーキテクチャのためのsi/sigeのコンベアモード単一電子シャットリング

Conveyor-mode single-electron shuttling in Si/SiGe for a scalable quantum computing architecture ( http://arxiv.org/abs/2108.00879v1 )

ライセンス: Link先を確認
Inga Seidler, Tom Struck, Ran Xue, Niels Focke, Stefan Trellenkamp, Hendrik Bluhm and Lars R. Schreiber(参考訳) Si/SiGe量子ドットに閉じ込められた単一電子で定義された小さなスピン量子ビットレジスタは正常に動作し、これらを接続することでスケーラブルな量子計算が可能となる。 レジスタ間で電子を運ぶ量子ビットをシャットダウンすることは、制御信号のオーバーヘッドが適度である場合、高忠実なコヒーレントリンクにとって自然な選択である。 この原理証明は、静電的に定義された420nmのsi/sige量子チャネルにおける伝播波電位による単一電子の遮断を示す。 このコンベアモードシャットリングアプローチは、その長さから独立して4つの正弦波制御信号のみを必要とする。 信号パラメータのチューニング、潜在的な障害のマッピングを可能にする電子運動の滑らかさの検出、および方向の反転を含む99.42\pm0.02\,\%$の高い単一電子遮断忠実度を観測する。 このシャットリングデバイスはsi/sige量子ビットチップの工業的製造に容易に組み込むことができ、完全にスケーラブルな半導体量子コンピューティングアーキテクチャの信号ファンアウト問題を解決する方法を模索している。

Small spin-qubit registers defined by single electrons confined in Si/SiGe quantum dots operate successfully and connecting these would permit scalable quantum computation. Shuttling the qubit carrying electrons between registers is a natural choice for high-fidelity coherent links provided the overhead of control signals stays moderate. Our proof-of-principle demonstrates shuttling of a single electron by a propagating wave-potential in an electrostatically defined 420 nm long Si/SiGe quantum-channel. This conveyor-mode shuttling approach requires independent from its length only four sinusoidal control signals. We discuss the tuning of the signal parameters, detect the smoothness of the electron motion enabling the mapping of potential disorder and observe a high single-electron shuttling fidelity of $99.42\pm0.02\,\%$ including a reversal of direction. Our shuttling device can be readily embedded in industrial fabrication of Si/SiGe qubit chips and paves the way to solving the signal-fanout problem for a fully scalable semiconductor quantum-computing architecture.
翻訳日:2023-03-20 03:22:05 公開日:2021-08-02
# トラップイオン系における有効3スピンハミルトニアンの量子シミュレーションへの応用

Engineering an Effective Three-spin Hamiltonian in Trapped-ion Systems for Applications in Quantum Simulation ( http://arxiv.org/abs/2108.01022v1 )

ライセンス: Link先を確認
B\'arbara Andrade, Zohreh Davoudi, Tobias Gra\ss, Mohammad Hafezi, Guido Pagano, and Alireza Seif(参考訳) アナログおよびデジタルモードのトラップイオン量子シミュレータは、量子シミュレーションと量子計算において量子優位性を達成するための主要な候補と考えられている。 基礎となる制御されたイオン-レーザー相互作用は、Cirac-Zoller あるいは Molmer-Sorensen スキームを通して、全対全2スピン相互作用を誘導し、効果的な2スピンハミルトニアンと2量子エンタングゲートをもたらす。 本研究では、モルマー-ソレンセンスキームを拡張し、一階と二階のスピン-モーションカップリングにより三スピン相互作用を誘導する。 このスキームは、単一、2、および3スピンの相互作用を工学的に実現し、純粋に3スピンダイナミクスをシミュレートする拡張プロトコルを介してチューニングすることができる。 提案手法の短期的適用の精度と実現可能性をサポートするため,全動力学の詳細な数値シミュレーションとともに,効果的な進化のための解析結果が提示された。 量子シミュレーションに焦点をあて、量子リンクモデル内のU(1)格子ゲージ理論における物質-ゲージ相互作用の例を通して、3スピンダイナミクスの直接アナログ実装の利点が示される。 3スピンスキームを大規模システムに拡張するための自由度と戦略のマッピングは、今後の実験で現実的な忠実さを与えられた量子リンクモデルのシミュレーションの期待結果と合わせて詳細に議論されている。 3スピンスキームの応用は、ここで研究した格子ゲージ理論の例を超えて、2-および3-スピンハミルトニアンによってモデル化された強相互作用した縮合マター系の静的および動的位相図の研究を含む。

Trapped-ion quantum simulators, in analog and digital modes, are considered a primary candidate to achieve quantum advantage in quantum simulation and quantum computation. The underlying controlled ion-laser interactions induce all-to-all two-spin interactions via the collective modes of motion through Cirac-Zoller or Molmer-Sorensen schemes, leading to effective two-spin Hamiltonians, as well as two-qubit entangling gates. In this work, the Molmer-Sorensen scheme is extended to induce three-spin interactions via tailored first- and second-order spin-motion couplings. The scheme enables engineering single-, two-, and three-spin interactions, and can be tuned via an enhanced protocol to simulate purely three-spin dynamics. Analytical results for the effective evolution are presented, along with detailed numerical simulations of the full dynamics to support the accuracy and feasibility of the proposed scheme for near-term applications. With a focus on quantum simulation, the advantage of a direct analog implementation of three-spin dynamics is demonstrated via the example of matter-gauge interactions in the U(1) lattice gauge theory within the quantum link model. The mapping of degrees of freedom and strategies for scaling the three-spin scheme to larger systems, are detailed, along with a discussion of the expected outcome of the simulation of the quantum link model given realistic fidelities in the upcoming experiments. The applications of the three-spin scheme go beyond the lattice gauge theory example studied here and include studies of static and dynamical phase diagrams of strongly interacting condensed-matter systems modeled by two- and three-spin Hamiltonians.
翻訳日:2023-03-20 03:12:21 公開日:2021-08-02
# Swanson Hamiltonian:非PT対称性相

Swanson Hamiltonian: non-PT-symmetry phase ( http://arxiv.org/abs/2108.01004v1 )

ライセンス: Link先を確認
V. Fern\'andez, R. Ram\'irez and M. Reboiro(参考訳) 本研究では,非エルミート的スワンソンハミルトニアン,特に非PT対称性相について検討する。 我々はGel'fand三重項の形式主義を用いて一般化固有函数と対応するスペクトルを構成する。 パラメータモデル空間の領域によって、スワンソンハミルトニアンが異なる物理系、すなわち放物的障壁、負の質量振動子を表すことが示される。 また,無限次例外点の存在についても考察した。

In this work, we study the non-hermitian Swanson hamiltonian, particularly the non-PT symmetry phase. We use the formalism of Gel'fand triplet to construct the generalized eigenfunctions and the corresponding spectrum. Depending on the region of the parameter model space, we show that the Swanson hamiltonian represents different physical systems, i.e. parabolic barrier, negative mass oscillators. We also discussed the presence of Exceptional Points of infinite order.
翻訳日:2023-03-20 03:11:29 公開日:2021-08-02
# 1次元超伝導キュービットチェーンにおける離散時間結晶の実現

Realizing discrete time crystal in an one-dimensional superconducting qubit chain ( http://arxiv.org/abs/2108.00942v1 )

ライセンス: Link先を確認
Huikai Xu, Jingning Zhang, Jiaxiu Han, Zhiyuan Li, Guangming Xue, Weiyang Liu, Yirong Jin, Haifeng Yu(参考訳) フロッケ工学、すなわち周期的ハミルトニアンでシステムを動かすことは、アナログ量子シミュレーションにおいて大きな柔軟性をもたらすだけでなく、非常にリッチな位相構造もサポートする。 Floquet系は、離散時間結晶(DTC)と呼ばれる離散時間変換対称性(TTS)の破断相を支持できると考えられている。 この提案は、エキゾチック相と同様に、量子シミュレーションのコミュニティの間で大きな関心を集めている。 ここでは1次元超伝導量子ビット鎖におけるDTCの観測を報告する。 8個のトランスモン量子ビットからなる周期駆動スピン系の長時間ストロボスコピック量子力学を実験的に実現し、基礎となる物理プラットフォームのコヒーレンス時間によって制限されたdtcオーダーの寿命を得る。 また、様々な物理的シグネチャを通じて、離散TSの破断相と未破断相の交叉についても検討する。 本研究は、多体物理学の量子シミュレーションにおける超伝導回路系の利用を拡張し、非平衡ダイナミクスと位相構造を調べるための実験的なツールを提供する。

Floquet engineering, i.e. driving the system with periodic Hamiltonians, not only provides great flexibility in analog quantum simulation, but also supports phase structures of great richness. It has been proposed that Floquet systems can support a discrete time-translation symmetry (TTS) broken phase, dubbed the discrete time crystal (DTC). This proposal, as well as the exotic phase, has attracted tremendous interest among the community of quantum simulation. Here we report the observation of the DTC in an one-dimensional superconducting qubit chain. We experimentally realize long-time stroboscopic quantum dynamics of a periodically driven spin system consisting of 8 transmon qubits, and obtain a lifetime of the DTC order limited by the coherence time of the underlying physical platform. We also explore the crossover between the discrete TTS broken and unbroken phases via various physical signatures. Our work extends the usage of superconducting circuit systems in quantum simulation of many-body physics, and provides an experimental tool for investigating non-equilibrium dynamics and phase structures.
翻訳日:2023-03-20 03:10:26 公開日:2021-08-02
# 究極密度と低損失を有するフォトニック集積回路の設計のための新しい概念

A new concept for design of photonic integrated circuits with the ultimate density and low loss ( http://arxiv.org/abs/2108.00928v1 )

ライセンス: Link先を確認
Jovana Petrovic, Jelena Krsic, Peter J. J. Veerman and Aleksandra Maluckov(参考訳) 我々は,通信,量子情報,センシングに応用するフォトニック集積回路(PIC)の設計への現在の考え方とアプローチに挑戦する。 標準的なPICは指向性カプラに基づいており、様々な機能を提供しているが、トランスミッションチャネルの大規模並列化、低エネルギーの散逸、フットプリントの小型化など、主要な技術的課題に完全に対応していない。 我々は,最終的なダウンスケーリング能力,幾何学的損失の欠如,高忠実度スループットを備えた画像設計のための新しい概念を提案する。 これは光子の周期的連続時間量子ウォークによって導波路アレイを通じて達成され、導波路結合の単純かつ効果的な代数的アプローチを利用する。 情報・センシングシステムの基本構成要素である相互接続,マルチポート結合器,絡み込み発生器,干渉計の設計を再考することにより,新しい概念の可能性を示す。 誘電体および半導体製造プラットフォームの広範な実現可能性チェックが、この可能性を確認した。

We challenge the current thinking and approach to the design of photonic integrated circuits (PICs) for applications in communications, quantum information and sensing. The standard PICs are based on directional couplers, that provide a wide range of functionalities but do not fully respond to the major technological challenges: massive parallelisation of transmission channels, low-energy dissipation and small footprint. We propose a new concept for design of PICs with the ultimate downscaling capability, the absence of geometric loss and a high-fidelity throughput. This is achieved by a periodic continuous-time quantum walk of photons through waveguide arrays that leverages on the simple and effective algebraic approach to engineering waveguide couplings. We demonstrate the potential of the new concept by reconsidering the design of basic building blocks of the information and sensing systems: interconnects, multiport couplers, entanglement generators and interferometers. An extensive feasibility check in dielectric and semiconductor fabrication platforms confirmed this potential.
翻訳日:2023-03-20 03:09:47 公開日:2021-08-02
# 量子力学における非エルミート位相アンダーソン絶縁体の観察

Observation of non-Hermitian topological Anderson insulator in quantum dynamics ( http://arxiv.org/abs/2108.01097v1 )

ライセンス: Link先を確認
Quan Lin, Tianyu Li, Lei Xiao, Kunkun Wang, Wei Yi and Peng Xue(参考訳) 障害と非ハーミティリティは、量子系のトポロジカルおよび局在特性に劇的に影響を与え、物質の興味深い量子状態を引き起こす。 障害、非エルミーティ性、トポロジーの豊かな相互作用は、最近提案された非エルミート位相的アンダーソン絶縁体によって象徴される。 ここでは、乱光量子ウォークを用いた非エルミート位相アンダーソン絶縁体を実験的にシミュレーションし、その局在と位相特性を特徴づける。 特に,無作為障害によって引き起こされるアンダーソン局在と,すべての固有状態が境界に向かって絞り込まれる非エルミート皮膚効果との競合に注目した。 2つの異なる局在化機構は、動的観測物を通して実験的に明らかとなるリャプノフ指数のプロファイルの非単調な変化を引き起こす。 次に、障害によって引き起こされる位相相転移を調べ、その生体直交臨界性を示す。 我々の実験は、オープンシステムにおける合成トポロジーのフロンティアをさらに前進させる。

Disorder and non-Hermiticity dramatically impact the topological and localization properties of a quantum system, giving rise to intriguing quantum states of matter. The rich interplay of disorder, non-Hermiticity, and topology is epitomized by the recently proposed non-Hermitian topological Anderson insulator that hosts a plethora of exotic phenomena. Here we experimentally simulate the non-Hermitian topological Anderson insulator using disordered photonic quantum walks, and characterize its localization and topological properties. In particular, we focus on the competition between Anderson localization induced by random disorder, and the non-Hermitian skin effect under which all eigenstates are squeezed toward the boundary. The two distinct localization mechanisms prompt a non-monotonous change in profile of the Lyapunov exponent, which we experimentally reveal through dynamic observables. We then probe the disorder-induced topological phase transitions, and demonstrate their biorthogonal criticality. Our experiment further advances the frontier of synthetic topology in open systems.
翻訳日:2023-03-20 03:02:40 公開日:2021-08-02
# 圧縮共振器におけるスピンのコヒーレンス特性

Coherence properties of a spin in a squeezed resonator ( http://arxiv.org/abs/2108.01091v1 )

ライセンス: Link先を確認
Inbar Shani, Emanuele G. Dalla Torre, Michael Stern(参考訳) ハイブリッド量子計算の有望な会場は、不純物スピンと超伝導共振器の間の強い結合である。 この結合を制御・強化するための1つの戦略は、圧縮状態のような非古典状態の共振器を準備することである。 本研究では,これらの状態がスピンのコヒーレンス特性に及ぼす影響を理論的に研究する。 我々はシュリーファー・ウルフ変換に基づく解析的アプローチを開発し、スピンのカップリングとデフォーカス率を定量的に予測し、その妥当性を数値的に検証する。 スクイーズ法は共振器とスピンの結合性を高めることができる。 しかし同時に光子ノイズを増幅し、スピンデコヒーレンスを増大させる。 我々の研究は、強い結合限界に達するためにスクイーズを使用する際の大きな障害を示す。

A promising venue for hybrid quantum computation involves the strong coupling between impurity spins and superconducting resonators. One strategy to control and enhance this coupling is to prepare the resonator in a non-classical state, such as a squeezed state. In this work, we theoretically study the effects of these states on the coherence properties of the spin. We develop an analytic approach based on the Schrieffer-Wolf transformation that allows us to quantitatively predict the coupling and the dephasing rate of the spin, and we numerically confirm its validity. We find that squeezing can enhance the coupling between the resonator and the spin. However, at the same time, it amplifies the photon noise and enhances the spin decoherence. Our work demonstrates a major impediment in using squeezing to reach the strong-coupling limit.
翻訳日:2023-03-20 03:02:23 公開日:2021-08-02
# 古典電気回路におけるU(1)格子ゲージ理論の工学

Engineering a U(1) lattice gauge theory in classical electric circuits ( http://arxiv.org/abs/2108.01086v1 )

ライセンス: Link先を確認
Hannes Riechert, Jad C. Halimeh, Valentin Kasper, Landry Bretheau, Erez Zohar, Philipp Hauke, Fred Jendrzejewski(参考訳) 格子ゲージ理論は、粒子物理学、凝縮物質、量子情報科学などの異なる分野の基本である。 彼らの局所対称性は物理学の法則で観察される電荷保存を強制する。 印象的な実験の進歩は、合成量子システムを用いたテーブルトップ実験で実装できることを証明した。 しかし,このような格子ゲージシミュレータのスケーラビリティが課題となっているため,異なる実験装置の探索が望ましい。 ここでは、LC発振器を接続する非線形要素を用いた古典電気回路において、5つの物質部位と4つのゲージリンクを持つU(1)格子ゲージ理論を実現する。 これにより、以前はアクセスできないスペクトルと輸送特性をマルチサイトシステムで探索することができる。 我々は、電気力学で知られているガウスの法則と、理論的な予測と完全に一致した質量粒子間の長距離相互作用の出現を直接観察する。 我々の研究は、表上古典的設定におけるますます複雑なゲージ理論の研究の道を開き、メタマテリアルデバイスにおける非線形効果の精密な制御を実証する。

Lattice gauge theories are fundamental to such distinct fields as particle physics, condensed matter, and quantum information science. Their local symmetries enforce the charge conservation observed in the laws of physics. Impressive experimental progress has demonstrated that they can be engineered in table-top experiments using synthetic quantum systems. However, the challenges posed by the scalability of such lattice gauge simulators are pressing, thereby making the exploration of different experimental setups desirable. Here, we realize a U(1) lattice gauge theory with five matter sites and four gauge links in classical electric circuits employing nonlinear elements connecting LC oscillators. This allows for probing previously inaccessible spectral and transport properties in a multi-site system. We directly observe Gauss's law, known from electrodynamics, and the emergence of long-range interactions between massive particles in full agreement with theoretical predictions. Our work paves the way for investigations of increasingly complex gauge theories on table-top classical setups, and demonstrates the precise control of nonlinear effects within metamaterial devices.
翻訳日:2023-03-20 03:02:13 公開日:2021-08-02
# トラップオン量子コンピュータにおけるシャトル膨張攻撃とその防御

Shuttle-Exploiting Attacks and Their Defenses in Trapped-Ion Quantum Computers ( http://arxiv.org/abs/2108.01054v1 )

ライセンス: Link先を確認
Abdullah Ash Saki, Rasit Onur Topaloglu, Swaroop Ghosh(参考訳) トラップイオン (ti) 量子ビットは量子コンピューティングのフロントエンド技術である。 複数の相互接続トラップを持つTIシステムは、超伝導量子ビット固有のハードウェア接続問題を克服し、大規模で実用的な問題を解決することができる。 量子コンピュータのためのマルチプログラミングモデル(qc:multi-programming model for quantum computers)は、複数のユーザが同じqcをコンピューティングで共有するためのモデルである。 量子クラウドプロバイダは、デバイスの利用、スループット、クラウドの利益を最大化できるため、マルチプログラミングが熱心です。 ユーザは、短い待ち行列の恩恵を受けることもできる。 しかし、量子コンピュータへの共有アクセスは新たなセキュリティ問題を引き起こす可能性がある。 本稿では、トラップ間の通信にシャトル操作を必要とする共有TIシステムにおけるそのような脆弱性について述べる。 繰り返しシャトル操作は量子ビットエネルギーを増大させ、計算の信頼性を低下させる。 我々は,多数のシャトルを必要とする敵プログラム設計手法を示す。 敵プログラム生成のためのランダムで体系的な手法を提案する。 解析の結果,シャトル爆発攻撃は,被害者プログラムのフィパリティを2倍から63倍に低下させることがわかった。 最後に,ハイブリッド初期マッピングポリシの採用,ダミーキュービットによる被害者プログラムのパディング,最大シャトルのキャッピングなど,いくつかの対策を提案する。

Trapped-ion (TI) quantum bits are a front-runner technology for quantum computing. TI systems with multiple interconnected traps can overcome the hardware connectivity issue inherent in superconducting qubits and can solve practical problems at scale. With a sufficient number of qubits on the horizon, the multi-programming model for Quantum Computers (QC) has been proposed where multiple users share the same QC for their computing. Multi-programming is enticing for quantum cloud providers as it can maximize device utilization, throughput, and profit for clouds. Users can also benefit from the short wait queue. However, shared access to quantum computers can create new security issues. This paper presents one such vulnerability in shared TI systems that require shuttle operations for communication among traps. Repeated shuttle operations increase quantum bit energy and degrade the reliability of computations (fidelity). We show adversarial program design approaches requiring numerous shuttles. We propose a random and systematic methodology for adversary program generation. Our analysis shows shuttle-exploiting attacks can substantially degrade the fidelities of victim programs by 2X to 63X. Finally, we present several countermeasures such as adopting a hybrid initial mapping policy, padding victim programs with dummy qubits, and capping maximum shuttles.
翻訳日:2023-03-20 03:01:26 公開日:2021-08-02
# 極低光度下でのゼロ光子イメージング

Zero-photon imaging under extremely low-light illumination ( http://arxiv.org/abs/2108.01037v1 )

ライセンス: Link先を確認
De-Zhong Cao, Su-Heng Zhang, Yanan Zhao, Cheng Ren, Jun Zhang, Baolai Liang, Baoqing Sun, and Kaige Wang(参考訳) 量子イメージは、その量子特性と実りある応用で称賛されている。 ゴーストイメージングは、パラメトリックダウン変換過程の量子エンタングル光子と、後に熱光源との非局所性を示した。 単一画素イメージングは圧縮センシングと特異値分解アルゴリズムを用いた高品質画像を検索した。 単光子感度装置は、ファーストフォトトンイメージング、ライト・イン・フライイメージング、光子効率イメージング、スーパーリモートイメージングに応用された。 光子リミテッドイメージングは、低光度ゴーストイメージングと高速ファーストフォトンゴーストイメージングで研究された。 ここでは,ゼロ光子計測と変調信号の相関により,高品質な負像を再構成するゼロ光子イメージングを提案する。 また、少ない光子状態測定で画像を再構成する。 比較すると、ZPIの画質はずっと高い。 このテクニックは、パターン認識とリモートセンシングの迅速化に大きなメリットがある。

Quantum imagers have won accolades for their quantum characteristics and fruitful applications. Ghost imaging exhibited nonlocality with quantum-entangled photons from the parametric down-conversion process, and later with thermal-light sources. Single-pixel imaging retrieved high-quality images with compressive sensing and singular valued decomposition algorithms. Single-photon sensitive apparatus were conducive to first-photon imaging, light-in-flight imaging, photon-efficient imaging, and super-remote imaging. Photon-limited imaging was investigated in low-light-level ghost imaging and fast first-photon ghost imaging. Here in the single-pixel imager scheme, we present zero-photon imaging in which high-quality negative images are reconstructed by correlating the zero-photon measurements and the modulation signals. Also, images are reconstructed with few-photon-state measurements. By comparison, the image quality in ZPI is much higher. This technique may be of significant benefit to rapid pattern recognition and remote sensing.
翻訳日:2023-03-20 03:01:09 公開日:2021-08-02
# 2$\mu$mの1光子のシリコン源

A silicon source of heralded single photons at 2 $\mu$m ( http://arxiv.org/abs/2108.01031v1 )

ライセンス: Link先を確認
S. Signorini, M. Sanna, S. Piccione, M. Ghulinyan, P. Tidemand-Lichtenberg, C. Pedersen and L. Pavesi(参考訳) 中赤外集積量子フォトニクスはセンシングとメトロロジーの応用に有望なプラットフォームである。 しかし、この波長でのオンチップ単一光子源の例はわずかである。 Cバンドでの演奏は限られている。 そこで本研究では,シリコンチップ上の中赤外域でヘラルド単一光子を生成する新しい手法を提案する。 標準的なcバンドポンプを使用することで、モード間自発4波混合により、1259.7nmのヘラルドアイドラーと2015 nmのヘラルド信号を生成することができる。 アイドラー光子は共通の赤外線単一光子検出器で容易に検出され、信号光子は検出前に可視に逆変換される。 このようにして、中赤外検出器やレーザー源を必要としない中赤外光源を動作させることができる。 g^{(2)}$$ 0.23 \, \pm \, 0.08$ の群を測ることで、ソースの単一光子挙動と、設定によって2$\mu$mを超える多重光子偶然測定の実現可能性を示す。 情報源は、$(59 \, \pm \,5)\%$の固有棚上げ効率が高く、偶然比が40.4 \, \pm \, 0.9$の最大一致と、$\left(0.72 \, \pm \, 0.10 \right)$ W$^{-2}$の生成確率を示す。

Mid infrared integrated quantum photonics is a promising platform for applications in sensing and metrology. However, there are only few examples of on-chip single photon sources at these wavelengths. These have limited performances with respect to their C-band counterparts. In this work, we demonstrate a new approach to generate heralded single photons in the mid infrared on a silicon chip. By using a standard C-band pump, the inter-modal spontaneous four wave mixing enables the generation of the herald idler at 1259.7 nm and the heralded signal at 2015 nm. The idler photon is easily detected with a common infrared single photon detector while the signal photon is upconverted to the visible before its detection. In this way, we are able to operate a mid infrared source without the need of mid infrared detectors and laser sources. By measuring a heralded $g^{(2)}$ of $0.23 \, \pm \, 0.08$ we demonstrate the single photon behaviour of the source as well as the feasibility of multi-photon coincidence measurements beyond 2 $\mu$m with our setup. The source exhibits a high intrinsic heralding efficiency of $(59 \, \pm \,5)\%$, a maximum coincidence to accidental ratio of $40.4 \, \pm \, 0.9$ and a generation probability of $\left( 0.72 \, \pm \, 0.10 \right)$ W$^{-2}$.
翻訳日:2023-03-20 03:00:56 公開日:2021-08-02
# プライベートデリバリネットワーク - 拡張抽象化

Private Delivery Networks -- Extended Abstract ( http://arxiv.org/abs/2108.07354v1 )

ライセンス: Link先を確認
Alex Berke, Nicolas Lee, Patrick Chwalek(参考訳) 過去10年間、人々の生活、働き方、商品の購入方法に大きな変化がみられ、eコマースと配送への依存が高まっている。 eコマースで生み出された購買履歴は非常に個人的なものであり、個人や家庭に関する情報が明らかにされる。 これらのデータからプロファイルを構築することで、ターゲットマーケティングや情報キャンペーンといったプラクティスを通じて個人やコミュニティをターゲットにすることができる。 さらに、購入プロファイルと配達先アドレスが接続された場合、これらのデータは地域コミュニティの人口統計を計測し、デジタル領域を超えて物理的地域への個人化ターゲティングを可能にする。 感染症などの電子商取引へのシフトを加速するイベントも、株式格差を拡大している。 この作業は、プライバシーの上昇と富の格差に対処する代替eコマースデリバリーネットワークモデルに関するものだ。 これには、購入履歴を隠蔽し、ノイズを加える戦略が含まれており、人々は慈善活動を通じて「プライバシーを買う」ことができる。

The past decade has seen tremendous shifts in how people live, work, and buy goods, with an increased reliance on e-commerce and deliveries. Purchase histories generated through e-commerce can be highly personal, revealing identifying information about individuals and households. Constructing profiles from these data allows for the targeting of individuals and communities through practices such as targeted marketing and information campaigns. Furthermore, when purchase profiles are connected with delivery addresses, these data can measure the demographics of a local community and allow for individualized targeting to reach beyond the digital realm to the physical one. Events that accelerated shifts towards e-commerce, such as an infectious disease epidemic, have also widened equity gaps. This work is about alternative e-commerce delivery network models that address both rising privacy and wealth inequality concerns. This includes strategies that mask and add noise to purchase histories, and allow people to "buy privacy" through charitable contributions.
翻訳日:2023-03-20 02:54:31 公開日:2021-08-02
# 短期量子コンピュータにおける駆動散逸問題のロバストシミュレーション

Demonstrating robust simulation of driven-dissipative problems on near-term quantum computers ( http://arxiv.org/abs/2108.01183v1 )

ライセンス: Link先を確認
Brian Rost, Lorenzo Del Re, Nathan Earnest, Alexander F. Kemper, Barbara Jones, and James K. Freericks(参考訳) 量子コンピュータは物理学と化学における量子力学系のシミュレーションに革命をもたらす。 現在の量子コンピュータは、ノイズ、ゲートエラー、デコヒーレンスが修正されていないため、アルゴリズムを不完全に実行する。 これは、短期的な量子ハードウェア上で実行できるプロトコルのサイズと範囲を厳しく制限する。 この問題に対処するために、多くの研究がより堅牢なハードウェアの構築に焦点を当ててきたが、より堅牢なアルゴリズムの利点はほとんど未調査のままである。 ここでは、量子力学における最も難しい問題のうち、駆動散逸多体問題の解法が本質的にエラーに対して堅牢であることを示す。 時間発展マップの収縮的性質から、現在の量子デバイス上での深い回路を必要とする散逸的な問題を解決することが可能である。 無限駆動散逸ハバードモデルの非相互作用限界に対する1000段階の時間進化をシミュレートし、システムを通して電流を計算し、ハバードモデルの原子限界の熱状態を作成する。 これらの問題は、IBMが利用可能な量子コンピュータ上で最大2万個のエンタングゲートを含む回路を用いて解決され、長い間忠実度が低下する兆しは見られなかった。 以上の結果から, 散逸問題シミュレーションアルゴリズムは, ノイズの多いハードウェア上で, 同様に複雑な非散逸性アルゴリズムをはるかに上回ることができることが示された。 我々のアルゴリズムプリミティブは、多くの凝縮物質物理系の基本的な構成ブロックであり、多くの多体駆動散逸性量子問題を解くために一般化されたときに、それらが持つ強靭性を期待する。 ここで示されるアルゴリズムに基づいて構築することは、誤り訂正が利用可能になる前に量子コンピュータで重要で古典的な難解な問題に取り組むための最も有望なアプローチであることが証明される。

Quantum computers are poised to revolutionize the simulation of quantum-mechanical systems in physics and chemistry. Current quantum computers execute their algorithms imperfectly, due to uncorrected noise, gate errors, and decoherence. This severely limits the size and scope of protocols which can be run on near-term quantum hardware. Much research has been focused on building more robust hardware to address this issue, however the advantages of more robust algorithms remains largely unexplored. Here we show that algorithms for solving the driven-dissipative many-body problem, among the hardest problems in quantum mechanics, are inherently robust against errors. We find it is possible to solve dissipative problems requiring deep circuits on current quantum devices due to the contractive nature of their time evolution maps. We simulate one thousand steps of time evolution for the non-interacting limit of the infinite driven-dissipative Hubbard model, calculate the current through the system and prepare a thermal state of the atomic limit of the Hubbard model. These problems were solved using circuits containing up to two thousand entangling gates on quantum computers made available by IBM, showing no signs of decreasing fidelity at long times. Our results demonstrate that algorithms for simulating dissipative problems are able to far out-perform similarly complex non-dissipative algorithms on noisy hardware. Our two algorithmic primitives are the basic building blocks of many condensed-matter-physics systems, and we anticipate their demonstrated robustness to hold when generalized to solve the full many-body driven-dissipative quantum problem. Building upon the algorithms presented here may prove to be the most promising approach to tackle important, classically intractable problems on quantum computers before error correction is available.
翻訳日:2023-03-20 02:53:23 公開日:2021-08-02
# 量子化望遠鏡のための最適フォトニックゲート

Optimal photonic gates for quantum-enhanced telescopes ( http://arxiv.org/abs/2108.01170v1 )

ライセンス: Link先を確認
Robert Czupryniak, John Steinmetz, Paul G. Kwiat, Andrew N. Jordan(参考訳) 量子エンハンス長ベースライン干渉法に使用できる2つの最適位相推定スキームを提案する。 分散エンタングルメントを用いることで、ベースライン上の伝送中に恒星光子の損失を除去することができる。 第一のプロトコルは非線形光学素子を用いたゲートのシーケンスであり、全ての可能な測定スキームに最適化され、クレージャ・ラオ境界を飽和させる。 第二のアプローチは既存のプロトコルの上に構築され、恒星光子の量子メモリへの到着時刻を符号化する。 改良したバージョンでは,アンシラキュービット数とゲート操作数を2倍に削減した。

We propose two optimal phase-estimation schemes that can be used for quantum-enhanced long-baseline interferometry. By using distributed entanglement, it is possible to eliminate the loss of stellar photons during transmission over the baselines. The first protocol is a sequence of gates using nonlinear optical elements, optimized over all possible measurement schemes to saturate the Cram\'er-Rao bound. The second approach builds on an existing protocol, which encodes the time of arrival of the stellar photon into a quantum memory. Our modified version reduces both the number of ancilla qubits and the number of gate operations by a factor of two.
翻訳日:2023-03-20 02:52:35 公開日:2021-08-02
# メンタルヘルス改善のためのリアルタイムIoT実現バイオシグナルのデータ収集とラベル付け

Data Collection and Labeling of Real-Time IoT-Enabled Bio-Signals in Everyday Settings for Mental Health Improvement ( http://arxiv.org/abs/2108.01169v1 )

ライセンス: Link先を確認
Ali Tazarv, Sina Labbaf, Amir M. Rahmani, Nikil Dutt, Marco Levorato(参考訳) リアルタイムの生理的データ収集と分析は、現代の幸福な応用において中心的な役割を果たす。 パーソナライズされた分類器と検出器は、多くの文脈で一般的な分類器より優れていることが示されている。 しかし、コントロールされた設定とは対照的に、日々の環境で効果的なパーソナライズされた分類器を構築するには、ユーザと対話することでラベル付きデータセットのオンラインコレクションが必要である。 このニーズは、信号とラベルの収集のための効果的なシステムの構築から、ユーザと対話する戦略の開発、日々の生活で発生する多くのユーザコンテキストを表すデータセットの構築まで、いくつかの課題につながります。 Based on a stress detection use case, this paper (1) builds a system for the real-time collection and analysis of photoplethysmogram, acceleration, gyroscope, and gravity data from a wearable sensor, as well as self-reported stress labels based on Ecological Momentary Assessment (EMA), and (2) collects and analyzes a dataset to extract statistics of users' response to queries and the quality of the collected signals as a function of the context, here defined as the user's activity and the time of the day.

Real-time physiological data collection and analysis play a central role in modern well-being applications. Personalized classifiers and detectors have been shown to outperform general classifiers in many contexts. However, building effective personalized classifiers in everyday settings - as opposed to controlled settings - necessitates the online collection of a labeled dataset by interacting with the user. This need leads to several challenges, ranging from building an effective system for the collection of the signals and labels, to developing strategies to interact with the user and building a dataset that represents the many user contexts that occur in daily life. Based on a stress detection use case, this paper (1) builds a system for the real-time collection and analysis of photoplethysmogram, acceleration, gyroscope, and gravity data from a wearable sensor, as well as self-reported stress labels based on Ecological Momentary Assessment (EMA), and (2) collects and analyzes a dataset to extract statistics of users' response to queries and the quality of the collected signals as a function of the context, here defined as the user's activity and the time of the day.
翻訳日:2023-03-20 02:52:19 公開日:2021-08-02
# 磁気フラックスと静電電位におけるガッピンググラフェンディスクのトンネル効果

Tunneling Effect in Gapped Graphene Disk in Magnetic Flux and Electrostatic Potential ( http://arxiv.org/abs/2108.01159v1 )

ライセンス: Link先を確認
A. Babe Cheikh, A. Bouhlal, A. Jellal, E. H. Atmani(参考訳) グラフェン中のコルビノ円盤のトンネル効果について, 有限質量項 (R_1<r<R_2) $ と静電電位 (静電電位) の影響下で内部円盤を貫通するソレノイドにより生成した可変磁束$\Phi_{i}$の存在下で検討した。 異なる領域を考慮すると、ハンケル関数の観点から関連する固有スピナーを明示的に決定する。 一致条件とハンケル関数の漸近的挙動を大きな議論に利用することで,伝送量や輸送量を計算することができる。 その結果,Fano係数$F$で定量化した最大ショットノイズピークに対応するゼロ透過点の特異点を生成することにより,エネルギーギャップがトンネル効果を抑制することがわかった。 ラジイ比$R_2/R_1$の関数としての伝送は、周期と振幅の減少とともに発振する。 エネルギーギャップの大きな値に対して1つ(クライントンネル)に達することもできる。 点 $ k_f r_1=r_1 \delta$ における最小コンダクタンスの出現を観測する。 最後に静電電位がバンドギャップの効果を制御することを発見した。

We investigate the tunneling effect of a Corbino disk in graphene in the presence of a variable magnetic flux $\Phi_{i}$ created by a solenoid piercing the inner disk under the effect of a finite mass term in the disk region $ (R_1< r<R_2) $ and an electrostatic potential. Considering different regions, we explicitly determine the associated eigenspinors in terms of Hankel functions. The use of matching conditions and asymptotic behavior of Hankel functions for large arguments, enables us to calculate transmission and other transport quantities. Our results show that the energy gap suppresses the tunneling effect by creating singularity points of zero transmission corresponding to the maximum shot noise peaks quantified by the Fano factor $ F $. The transmission as a function of the radii ratio $ R_2/R_1 $ becomes oscillatory with a decrease in periods and amplitudes. It can even reach one (Klein tunneling) for large values of the energy gap. The appearance of the minimal conductance at the points $ k_F R_1=R_1 \delta$ is observed. Finally we find that the electrostatic potential can control the effect of the band gap.
翻訳日:2023-03-20 02:52:03 公開日:2021-08-02
# 勧告システムにおけるデバイアスド・オフ・ポリティクスの評価

Debiased Off-Policy Evaluation for Recommendation Systems ( http://arxiv.org/abs/2002.08536v3 )

ライセンス: Link先を確認
Yusuke Narita, Shota Yasui, Kohei Yata(参考訳) 新しいアルゴリズムを評価する効率的な方法は、リコメンデーションシステムのようなインタラクティブなバンディットと強化学習システムを改善するために重要である。 A/Bテストは信頼できるが、時間と費用がかかり、失敗のリスクが伴う。 本稿では,異なるアルゴリズムによって生成された可能性のある履歴データに対して,アルゴリズムの性能を推定する手法を提案する。 我々の推定器は、サンプルサイズの$N$が増加するにつれて、その予測が正実数アルゴリズムの真のパフォーマンスに$\sqrt{N}$で収束する性質を持つ。 また、予測のばらつきを推定する正しい方法を示し、分析者が予測の不確かさを定量化できるようにする。 これらの特性は、アナリストが、潜在的に重要な状態変数のどれが実際に重要なのかを知らない場合にも保持される。 本手法は強化学習に関するシミュレーション実験により検証した。 大手広告会社による広告デザインの改善に、ようやく適用しました。 その結果,本手法は最先端手法よりも平均二乗誤差が小さいことがわかった。

Efficient methods to evaluate new algorithms are critical for improving interactive bandit and reinforcement learning systems such as recommendation systems. A/B tests are reliable, but are time- and money-consuming, and entail a risk of failure. In this paper, we develop an alternative method, which predicts the performance of algorithms given historical data that may have been generated by a different algorithm. Our estimator has the property that its prediction converges in probability to the true performance of a counterfactual algorithm at a rate of $\sqrt{N}$, as the sample size $N$ increases. We also show a correct way to estimate the variance of our prediction, thus allowing the analyst to quantify the uncertainty in the prediction. These properties hold even when the analyst does not know which among a large number of potentially important state variables are actually important. We validate our method by a simulation experiment about reinforcement learning. We finally apply it to improve advertisement design by a major advertisement company. We find that our method produces smaller mean squared errors than state-of-the-art methods.
翻訳日:2022-12-30 06:32:31 公開日:2021-08-02
# 忘れることを学ぶ:ニューロンマスキングによる機械学習

Learn to Forget: Machine Unlearning via Neuron Masking ( http://arxiv.org/abs/2003.10933v3 )

ライセンス: Link先を確認
Yang Liu, Zhuo Ma, Ximeng Liu, Jian Liu, Zhongyuan Jiang, Jianfeng Ma, Philip Yu, Kui Ren(参考訳) 現在、機械学習モデル、特にニューラルネットワークは、多くの現実世界のアプリケーションで普及している。これらのモデルは、ユーザーデータからの一方通行に基づいてトレーニングされている。 これはGDPRの「忘れられる権利」条項と矛盾し、法違反につながる可能性がある。 そこで本研究では,機械学習モデルから学習者のプライベートデータの記憶をなくし,機械学習手法の有効性を測定するためのフォーゲッティングレートと呼ばれる一貫した指標を提案する。 これは会員推定の概念に基づいており、未学習の後に削除されたデータの「暗記」から「未知」への変換率を記述する。 また,forsakenと呼ばれる新しい学習手法を提案する。 実用性や効率性において(同じ忘れる速度で)以前の作業よりも優れている。 Forsakenを8つの標準データセットでベンチマークして、パフォーマンスを評価します。 実験の結果, 平均で90%以上, 正解率5倍以上しか達成できないことがわかった。

Nowadays, machine learning models, especially neural networks, become prevalent in many real-world applications.These models are trained based on a one-way trip from user data: as long as users contribute their data, there is no way to withdraw; and it is well-known that a neural network memorizes its training data. This contradicts the "right to be forgotten" clause of GDPR, potentially leading to law violations. To this end, machine unlearning becomes a popular research topic, which allows users to eliminate memorization of their private data from a trained machine learning model.In this paper, we propose the first uniform metric called for-getting rate to measure the effectiveness of a machine unlearning method. It is based on the concept of membership inference and describes the transformation rate of the eliminated data from "memorized" to "unknown" after conducting unlearning. We also propose a novel unlearning method calledForsaken. It is superior to previous work in either utility or efficiency (when achieving the same forgetting rate). We benchmark Forsaken with eight standard datasets to evaluate its performance. The experimental results show that it can achieve more than 90\% forgetting rate on average and only causeless than 5\% accuracy loss.
翻訳日:2022-12-20 08:42:42 公開日:2021-08-02
# 植物構造をもつテンソルクラスタリング:統計的最適性と計算限界

Tensor Clustering with Planted Structures: Statistical Optimality and Computational Limits ( http://arxiv.org/abs/2005.10743v3 )

ライセンス: Link先を確認
Yuetian Luo and Anru R. Zhang(参考訳) 本稿では,植込み構造を用いた高次クラスタリングの統計的および計算的限界について検討する。 我々は,2つのクラスタリングモデル,constant high-order clustering(chc)とrank-one higher-order clustering(rohc)に注目し,クラスタの存在(検出)とクラスタのサポートの同定(回復)の方法と理論について検討した。 具体的には,CHCとROHCの検出/回復が統計的に可能である信号対雑音比の鋭い境界を同定する。 信号-雑音比がこれらのしきい値以下である場合、多項式時間アルゴリズムは、ハイパーグラフィックプランドclique(HPC)検出とハイパーグラフィックプランド高密度サブグラフ(HPDS)回復の計算硬度予測の下でこれらの問題を解くことができないことを証明している。 また,信号対雑音比がしきい値以上である場合に,信頼性の高い検出と回復を実現する多項式時間テンソルアルゴリズムを提案する。 疎度とテンソル構造の両方が高次テンソルクラスタリングの計算障壁となる。 それらの相互作用は、統計および計算相転移図、アルゴリズムアプローチ、硬さ予想、証明技術といった分野における文献における高階テンソルクラスタリングと行列クラスタリングの間に大きな違いをもたらす。 我々の知る限り、このような二重計算バリア問題に対する統計的および計算的トレードオフの徹底的な評価を最初に行った。 最後に,hpc検出(低次多項式法とメトロポリス法)とhpds回復(低次多項式法)の計算硬さ予想の証拠を提供する。

This paper studies the statistical and computational limits of high-order clustering with planted structures. We focus on two clustering models, constant high-order clustering (CHC) and rank-one higher-order clustering (ROHC), and study the methods and theory for testing whether a cluster exists (detection) and identifying the support of cluster (recovery). Specifically, we identify the sharp boundaries of signal-to-noise ratio for which CHC and ROHC detection/recovery are statistically possible. We also develop the tight computational thresholds: when the signal-to-noise ratio is below these thresholds, we prove that polynomial-time algorithms cannot solve these problems under the computational hardness conjectures of hypergraphic planted clique (HPC) detection and hypergraphic planted dense subgraph (HPDS) recovery. We also propose polynomial-time tensor algorithms that achieve reliable detection and recovery when the signal-to-noise ratio is above these thresholds. Both sparsity and tensor structures yield the computational barriers in high-order tensor clustering. The interplay between them results in significant differences between high-order tensor clustering and matrix clustering in literature in aspects of statistical and computational phase transition diagrams, algorithmic approaches, hardness conjecture, and proof techniques. To our best knowledge, we are the first to give a thorough characterization of the statistical and computational trade-off for such a double computational-barrier problem. Finally, we provide evidence for the computational hardness conjectures of HPC detection (via low-degree polynomial and Metropolis methods) and HPDS recovery (via low-degree polynomial method).
翻訳日:2022-11-30 23:19:34 公開日:2021-08-02
# 数発のニューラルアーキテクチャ探索

Few-shot Neural Architecture Search ( http://arxiv.org/abs/2006.06863v9 )

ライセンス: Link先を確認
Yiyang Zhao, Linnan Wang, Yuandong Tian, Rodrigo Fonseca, Tian Guo(参考訳) 大規模探索空間からのネットワークアーキテクチャの効率的な評価は、ニューラルネットワーク探索(nas)において重要な課題である。 Vanilla NASは、各アーキテクチャをスクラッチからトレーニングすることで評価する。 近年、一発NASは1つのスーパーネットワーク、すなわちスーパーネットのみをトレーニングし、重み付けによって検索空間内の全てのアーキテクチャの性能を近似することで、計算コストを大幅に削減している。 しかし、演算間の共適応のため、性能推定は非常に不正確である。 本稿では,サブスーパーネットと呼ばれる複数のスーパーネットワークを用いて,検索空間の異なる領域をカバーする少数ショットnasを提案する。 単発NASと比較して、少数ショットNASは、少ない評価コストでアーキテクチャ評価の精度を向上させる。 imagenetでは、600mbのフロップで80.5%のtop-1精度に達し、238mflopsで77.5%のtop-1精度を持つモデルが見つかった。cifar10では、追加のデータや転送学習を使わずに98.72%のtop-1精度に達する。 Auto-GANでは、数発のNASが、これまで公表された結果を最大20%上回っている。 NasBench-201とNasBench1-shot-1の3つのタスクに対する4つの勾配法と6つの探索法を含む、ショット数NASは、様々なワンショット法を著しく改善することを示した。

Efficient evaluation of a network architecture drawn from a large search space remains a key challenge in Neural Architecture Search (NAS). Vanilla NAS evaluates each architecture by training from scratch, which gives the true performance but is extremely time-consuming. Recently, one-shot NAS substantially reduces the computation cost by training only one supernetwork, a.k.a. supernet, to approximate the performance of every architecture in the search space via weight-sharing. However, the performance estimation can be very inaccurate due to the co-adaption among operations. In this paper, we propose few-shot NAS that uses multiple supernetworks, called sub-supernet, each covering different regions of the search space to alleviate the undesired co-adaption. Compared to one-shot NAS, few-shot NAS improves the accuracy of architecture evaluation with a small increase of evaluation cost. With only up to 7 sub-supernets, few-shot NAS establishes new SoTAs: on ImageNet, it finds models that reach 80.5% top-1 accuracy at 600 MB FLOPS and 77.5% top-1 accuracy at 238 MFLOPS; on CIFAR10, it reaches 98.72% top-1 accuracy without using extra data or transfer learning. In Auto-GAN, few-shot NAS outperforms the previously published results by up to 20%. Extensive experiments show that few-shot NAS significantly improves various one-shot methods, including 4 gradient-based and 6 search-based methods on 3 different tasks in NasBench-201 and NasBench1-shot-1.
翻訳日:2022-11-22 09:36:56 公開日:2021-08-02
# ColBERTによるOpenQAの関連ガイダンス

Relevance-guided Supervision for OpenQA with ColBERT ( http://arxiv.org/abs/2007.00814v2 )

ライセンス: Link先を確認
Omar Khattab, Christopher Potts, Matei Zaharia(参考訳) Open-Domain Question Answering (OpenQA) のシステムは一般に、大きなコーパス内の候補パスを見つけるためのレトリバーと、それらのパスから回答を抽出するリーダに依存している。 より最近の研究で、レトリバーは、質問や通路の粗粒度ベクトル表現を使用する学習コンポーネントである。 このモデリングの選択は、自然言語の問題の複雑さを扱うには不十分な表現であると主張する。 そこで我々は、スケーラブルなニューラルネットワークモデルColBERTをOpenQAに適応させるColBERT-QAを定義する。 ColBERTは、質問と通過の間のきめ細かい相互作用を生成する。 我々は,colbert を反復的に使用して独自のトレーニングデータを作成する,効率的な弱い監督戦略を提案する。 これにより、Natural Questions、SQuAD、TriviaQAのOpenQA検索が大幅に改善され、結果のシステムは3つのデータセットすべてに対して最先端の抽出性能が得られる。

Systems for Open-Domain Question Answering (OpenQA) generally depend on a retriever for finding candidate passages in a large corpus and a reader for extracting answers from those passages. In much recent work, the retriever is a learned component that uses coarse-grained vector representations of questions and passages. We argue that this modeling choice is insufficiently expressive for dealing with the complexity of natural language questions. To address this, we define ColBERT-QA, which adapts the scalable neural retrieval model ColBERT to OpenQA. ColBERT creates fine-grained interactions between questions and passages. We propose an efficient weak supervision strategy that iteratively uses ColBERT to create its own training data. This greatly improves OpenQA retrieval on Natural Questions, SQuAD, and TriviaQA, and the resulting system attains state-of-the-art extractive OpenQA performance on all three datasets.
翻訳日:2022-11-14 23:29:40 公開日:2021-08-02
# 機械学習モデルの匿名化

Anonymizing Machine Learning Models ( http://arxiv.org/abs/2007.13086v3 )

ライセンス: Link先を確認
Abigail Goldsteen, Gilad Ezov, Ron Shmelkin, Micha Moffie, Ariel Farkash(参考訳) ビジネスとプライバシーの懸念を喚起するために個人データを分析する必要性の間には、既知の緊張関係がある。 EU一般データ保護規則(GDPR)やカリフォルニア州消費者保護法(CCPA)を含む多くのデータ保護規則は、個人情報の収集と処理に関する厳格な規制と義務を定めている。 さらに、機械学習モデル自体が、最近のメンバーシップや属性推論攻撃で示されるように、個人情報の導出に使用できる。 しかし、匿名化されたデータは、これらの規則で定められた義務から除外されている。 したがって、匿名化されたモデルを作成することができ、攻撃に対するより優れた保護を提供するとともに、それらの義務を免除することが望ましい。 匿名化データの学習は通常、精度が著しく低下する。 本研究では、訓練されたモデルに符号化された知識を用いてモデル精度を向上させる方法を提案し、モデル精度への影響を最小限に抑えるための匿名化プロセス、すなわち精度誘導匿名化と呼ぶプロセスを提案する。 本手法は,一般的な情報損失対策よりもモデルの精度に注目することにより,達成された実用性,特にkの高い値と多数の擬似識別器を用いて,技術k匿名性手法の状態を向上することを示した。 また、当社のアプローチには、複雑性やパフォーマンスのオーバーヘッド、モデル固有の実装といった欠点を回避しつつ、差分プライバシーに基づくアプローチとして、メンバシップ推論攻撃を防止できる機能があることも示しています。 これにより、モデル誘導匿名化はそのような手法の正当な代用となり、プライバシ保護モデルを作成するための実践的なアプローチとなる。

There is a known tension between the need to analyze personal data to drive business and privacy concerns. Many data protection regulations, including the EU General Data Protection Regulation (GDPR) and the California Consumer Protection Act (CCPA), set out strict restrictions and obligations on the collection and processing of personal data. Moreover, machine learning models themselves can be used to derive personal information, as demonstrated by recent membership and attribute inference attacks. Anonymized data, however, is exempt from the obligations set out in these regulations. It is therefore desirable to be able to create models that are anonymized, thus also exempting them from those obligations, in addition to providing better protection against attacks. Learning on anonymized data typically results in significant degradation in accuracy. In this work, we propose a method that is able to achieve better model accuracy by using the knowledge encoded within the trained model, and guiding our anonymization process to minimize the impact on the model's accuracy, a process we call accuracy-guided anonymization. We demonstrate that by focusing on the model's accuracy rather than generic information loss measures, our method outperforms state of the art k-anonymity methods in terms of the achieved utility, in particular with high values of k and large numbers of quasi-identifiers. We also demonstrate that our approach has a similar, and sometimes even better ability to prevent membership inference attacks as approaches based on differential privacy, while averting some of their drawbacks such as complexity, performance overhead and model-specific implementations. This makes model-guided anonymization a legitimate substitute for such methods and a practical approach to creating privacy-preserving models.
翻訳日:2022-11-06 20:10:19 公開日:2021-08-02
# distdgl:数十億規模のグラフのための分散グラフニューラルネットワークトレーニング

DistDGL: Distributed Graph Neural Network Training for Billion-Scale Graphs ( http://arxiv.org/abs/2010.05337v3 )

ライセンス: Link先を確認
Da Zheng, Chao Ma, Minjie Wang, Jinjing Zhou, Qidong Su, Xiang Song, Quan Gan, Zheng Zhang, George Karypis(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データから学ぶ上で大きな成功を収めている。 これらはリコメンデーション、不正検出、検索など様々な用途で広く利用されている。 これらの領域では、グラフは通常大きく、数十億のノードと数十億のエッジを含む。 この課題に対処するため,マシンクラスタ上でGNNをミニバッチでトレーニングするシステムであるDistDGLを開発した。 DistDGLは人気のあるGNN開発フレームワークであるDeep Graph Library(DGL)に基づいている。 DistDGLは、グラフとその関連データ(初期特徴と埋め込み)をマシンに分散し、この分布を使用して、オーナー計算ルールに従うことによって計算分解を導出する。 distdglは同期トレーニングアプローチに従い、ミニバッチを形成するegoネットワークが非ローカルノードを含むことができる。 分散計算に伴うオーバーヘッドを最小限に抑えるため、DistDGLは高品質で軽量なミニカットグラフ分割アルゴリズムと複数のバランス制約を使用する。 これにより、通信オーバーヘッドを減らし、静的に計算のバランスをとることができる。 haloノードを複製し、スパース埋め込み更新を使用することで、通信をさらに削減する。 これらの設計選択を組み合わせることで、DistDGLは高品質なモデルをトレーニングし、高い並列効率とメモリスケーラビリティを実現することができる。 インダクティブGNNモデルとトランスダクティブGNNモデルの両方で最適化を行う。 この結果から,DistDGLはモデル精度を損なうことなく線形高速化を実現し,1億ノード,30億エッジのクラスタを持つグラフのトレーニングエポックを完成させるのに13秒しか要しないことがわかった。 DistDGLは、DGL:https://github.com/dmlc/dgl/tree/master/python/dgl/distributedの一部として公開されている。

Graph neural networks (GNN) have shown great success in learning from graph-structured data. They are widely used in various applications, such as recommendation, fraud detection, and search. In these domains, the graphs are typically large, containing hundreds of millions of nodes and several billions of edges. To tackle this challenge, we develop DistDGL, a system for training GNNs in a mini-batch fashion on a cluster of machines. DistDGL is based on the Deep Graph Library (DGL), a popular GNN development framework. DistDGL distributes the graph and its associated data (initial features and embeddings) across the machines and uses this distribution to derive a computational decomposition by following an owner-compute rule. DistDGL follows a synchronous training approach and allows ego-networks forming the mini-batches to include non-local nodes. To minimize the overheads associated with distributed computations, DistDGL uses a high-quality and light-weight min-cut graph partitioning algorithm along with multiple balancing constraints. This allows it to reduce communication overheads and statically balance the computations. It further reduces the communication by replicating halo nodes and by using sparse embedding updates. The combination of these design choices allows DistDGL to train high-quality models while achieving high parallel efficiency and memory scalability. We demonstrate our optimizations on both inductive and transductive GNN models. Our results show that DistDGL achieves linear speedup without compromising model accuracy and requires only 13 seconds to complete a training epoch for a graph with 100 million nodes and 3 billion edges on a cluster with 16 machines. DistDGL is now publicly available as part of DGL:https://github.com/dmlc/dgl/tree/master/python/dgl/distributed.
翻訳日:2022-10-08 13:59:43 公開日:2021-08-02
# 周期確率最適化を用いた三次元スワーミング

Three-Dimensional Swarming Using Cyclic Stochastic Optimization ( http://arxiv.org/abs/2010.05328v2 )

ライセンス: Link先を確認
Carsten H. Botts(参考訳) 本稿では,複数の目標を探索・追跡するために,循環確率最適化(CSO)アルゴリズムを実装した協調型移動センシングエージェントのアンサンブルをシミュレートする。 提案したCSOアルゴリズムでは、各エージェントは、その知覚された測定値、共有情報、および将来の動作の予測を用いて次の動作を決定する。 この決定は、目標状態の不確実性が減少するにつれて減少する損失関数を最小化する。 この損失関数のノイズ測定は各エージェントにのみ利用可能であり、本研究では各エージェントが確率勾配を計算してこの関数を最小化しようとする。 本稿では,シミュレーションに基づく実験を通して,CSO収束の3次元的意味と適用性について検討する。

In this paper we simulate an ensemble of cooperating, mobile sensing agents that implement the cyclic stochastic optimization (CSO) algorithm in an attempt to survey and track multiple targets. In the CSO algorithm proposed, each agent uses its sensed measurements, its shared information, and its predictions of others' future motion to decide on its next action. This decision is selected to minimize a loss function that decreases as the uncertainty in the targets' state estimates decreases. Only noisy measurements of this loss function are available to each agent, and in this study, each agent attempts to minimize this function by calculating its stochastic gradient. This paper examines, via simulation-based experiments, the implications and applicability of CSO convergence in three dimensions.
翻訳日:2022-10-08 13:07:26 公開日:2021-08-02
# バック・トゥ・ザ・フューチャー:非教師なしバックプロップベースのデコードによる反事実的およびアブダプティブ・コモンセンス推論

Back to the Future: Unsupervised Backprop-based Decoding for Counterfactual and Abductive Commonsense Reasoning ( http://arxiv.org/abs/2010.05906v4 )

ライセンス: Link先を確認
Lianhui Qin, Vered Shwartz, Peter West, Chandra Bhagavatula, Jena Hwang, Ronan Le Bras, Antoine Bosselut, Yejin Choi(参考訳) 帰納的かつ反事実的推論は、日常的な人間の認知の中核的な能力であり、時間tで何が起こったのかを推論し、相対的な過去と未来から複数の文脈で条件付けする必要がある。 しかしながら、生成言語モデル(lms)を用いた過去と将来のコンテキストの同時取り込みは、過去のコンテキストのみに条件を付けるか、狭い範囲のテキストインフィルングを実行するように訓練されるため、難しい場合がある。 本稿では,非教師なしのデコードアルゴリズムであるdeloreanを提案する。非教師なしデコードアルゴリズムは,既成の左右言語モデルのみを使用して,過去と未来の両方のコンテキストを柔軟に組み込むことができる。 アルゴリズムの重要な直感は、バックプロパゲーションによって未来を取り入れることであり、その間、モデルパラメータを固定しながら出力の内部表現だけを更新する。 前方と後方の伝搬を交互に行うことで、DeLoreanは左右両方のコンテキストを反映する出力表現をデコードできる。 このアプローチは,非単調な2つの推論タスク,すなわち推論テキスト生成と反事実的ストーリーリビジョンに適用可能であることを実証する。

Abductive and counterfactual reasoning, core abilities of everyday human cognition, require reasoning about what might have happened at time t, while conditioning on multiple contexts from the relative past and future. However, simultaneous incorporation of past and future contexts using generative language models (LMs) can be challenging, as they are trained either to condition only on the past context or to perform narrowly scoped text-infilling. In this paper, we propose DeLorean, a new unsupervised decoding algorithm that can flexibly incorporate both the past and future contexts using only off-the-shelf, left-to-right language models and no supervision. The key intuition of our algorithm is incorporating the future through back-propagation, during which, we only update the internal representation of the output while fixing the model parameters. By alternating between forward and backward propagation, DeLorean can decode the output representation that reflects both the left and right contexts. We demonstrate that our approach is general and applicable to two nonmonotonic reasoning tasks: abductive text generation and counterfactual story revision, where DeLorean outperforms a range of unsupervised and some supervised methods, based on automatic and human evaluation.
翻訳日:2022-10-08 05:21:40 公開日:2021-08-02
# ロボット非依存力誘導型高精度アセンブリの学習的アプローチ

A Learning Approach to Robot-Agnostic Force-Guided High Precision Assembly ( http://arxiv.org/abs/2010.08052v3 )

ライセンス: Link先を確認
Jieliang Luo and Hui Li(参考訳) 本研究では,高精度ロボット組立問題に対する学習手法を提案する。 組立部品が互いに密接な接触関係にあるような,コンタクトリッチなフェーズに着目する。 視覚や空間追跡に大きく依存する多くの学習ベースのアプローチとは異なり、我々のアプローチはタスク空間において唯一の観察として力/ねじれを取る。 私たちのトレーニング環境は、エンドエフェクターが特定のロボットにアタッチされないため、ロボットレスです。 トレーニングされたポリシーは、再トレーニングすることなく、異なるロボットアームに適用することができる。 このアプローチは、特に建築構造のような非構造的な環境において、実世界でコンタクトリッチなロボット組立を行うための複雑さを大幅に減らすことができる。 そこで我々は, Ape-X DDPG を繰り返し拡張する分散 RL エージェント Recurrent Distributed DDPG (RD2) を開発した。 以上の結果から,RD2はラッパージョイントとペグ・イン・ホールの2つの基本的高精度組立タスクを解くことができ,Ape-X DDPGとPPOの2つの最先端アルゴリズムをLSTMで上回っていることがわかった。 我々は,3つのロボットアーム,Kuka KR60,Franka Panda,UR10のロボット認識ポリシーをシミュレーションで評価した。 実験のビデオはhttps://sites.google.com/view/rd2-rlで公開されている。

In this work we propose a learning approach to high-precision robotic assembly problems. We focus on the contact-rich phase, where the assembly pieces are in close contact with each other. Unlike many learning-based approaches that heavily rely on vision or spatial tracking, our approach takes force/torque in task space as the only observation. Our training environment is robotless, as the end-effector is not attached to any specific robot. Trained policies can then be applied to different robotic arms without re-training. This approach can greatly reduce complexity to perform contact-rich robotic assembly in the real world, especially in unstructured settings such as in architectural construction. To achieve it, we have developed a new distributed RL agent, named Recurrent Distributed DDPG (RD2), which extends Ape-X DDPG with recurrency and makes two structural improvements on prioritized experience replay. Our results show that RD2 is able to solve two fundamental high-precision assembly tasks, lap-joint and peg-in-hole, and outperforms two state-of-the-art algorithms, Ape-X DDPG and PPO with LSTM. We have successfully evaluated our robot-agnostic policies on three robotic arms, Kuka KR60, Franka Panda, and UR10, in simulation. The video presenting our experiments is available at https://sites.google.com/view/rd2-rl
翻訳日:2022-10-07 05:04:45 公開日:2021-08-02
# neograd (複数形 neograds)

Neograd: Near-Ideal Gradient Descent ( http://arxiv.org/abs/2010.07873v4 )

ライセンス: Link先を確認
Michael F. Zimmer(参考訳) 本研究の目的は,(1)コスト関数を最小化しつつ発生する台地を除去・縮小すること,(2)学習率を「理想」値に継続的に調整すること,の2つの課題を解決することで,既存の勾配降下の変種を改善することである。 提案手法は,信頼度尺度の関数としての学習率を概ね解決するものである。 このテクニックが運動量とハイブリッド化されると、特に効果的な勾配降下変種(NeogradM)が生成される。 いくつかのテスト問題でAdamより優れており、例えば10^8$の係数でより小さいコスト関数値に容易に到達できることが示されている。

The purpose of this paper is to improve upon existing variants of gradient descent by solving two problems: (1) removing (or reducing) the plateau that occurs while minimizing the cost function, (2) continually adjusting the learning rate to an "ideal" value. The approach taken is to approximately solve for the learning rate as a function of a trust metric. When this technique is hybridized with momentum, it creates an especially effective gradient descent variant, called NeogradM. It is shown to outperform Adam on several test problems, and can easily reach cost function values that are smaller by a factor of $10^8$, for example.
翻訳日:2022-10-07 04:44:59 公開日:2021-08-02
# 電子健康記録を用いた知識グラフによる質問応答

Knowledge Graph-based Question Answering with Electronic Health Records ( http://arxiv.org/abs/2010.09394v2 )

ライセンス: Link先を確認
Junwoo Park, Youngwoo Cho, Haneol Lee, Jaegul Choo, Edward Choi(参考訳) Question Answering (QA)は、インテリジェントマシンの開発と評価のための広く使われているフレームワークである。 この光の中で、Electronic Health Records(EHR)のQA(EHR QA)は、医療におけるインテリジェントなエージェントを開発する上で重要なマイルストーンとなる。 ehrデータは、通常、リレーショナル・データベースに格納されるが、これは有向非循環グラフにも変換できるため、ehl qaには2つのアプローチがある:テーブルベースのqaと知識グラフベースのqaである。 グラフがテーブルよりも自然にエンティティと値の関係を表現できるため、グラフベースのアプローチは、基本的にJOIN操作を必要とするため、EHR QAに適していると仮定する。 本稿では,自然言語クエリをSQLの代わりにSPARQLに変換するグラフベースのEHR QAを提案する。 仮説を検証するために、テーブルベースのデータセットMIMICSQLに基づいて、4つのEHR QAデータセット(グラフベースのVSテーブルベース、単純化されたデータベーススキーマVSオリジナルデータベーススキーマ)を作成する。 グラフベースのデータセットは、モデルアーキテクチャを変更することなく、テーブルベースのデータセットよりも最大34%高い精度で、単純なSeq2Seqモデルと最先端のEHR QAモデルの両方をテストする。 最後に、すべてのデータセットはオープンソースとして公開され、EHR QAのさらなる研究を促進する。

Question Answering (QA) is a widely-used framework for developing and evaluating an intelligent machine. In this light, QA on Electronic Health Records (EHR), namely EHR QA, can work as a crucial milestone towards developing an intelligent agent in healthcare. EHR data are typically stored in a relational database, which can also be converted to a directed acyclic graph, allowing two approaches for EHR QA: Table-based QA and Knowledge Graph-based QA. We hypothesize that the graph-based approach is more suitable for EHR QA as graphs can represent relations between entities and values more naturally compared to tables, which essentially require JOIN operations. In this paper, we propose a graph-based EHR QA where natural language queries are converted to SPARQL instead of SQL. To validate our hypothesis, we create four EHR QA datasets (graph-based VS table-based, and simplified database schema VS original database schema), based on a table-based dataset MIMICSQL. We test both a simple Seq2Seq model and a state-of-the-art EHR QA model on all datasets where the graph-based datasets facilitated up to 34% higher accuracy than the table-based dataset without any modification to the model architectures. Finally, all datasets are open-sourced to encourage further EHR QA research in both directions.
翻訳日:2022-10-05 21:13:55 公開日:2021-08-02
# 解釈可能な飛行の着地パラメータ学習のためのトンネルガウス過程モデル

A Tunnel Gaussian Process Model for Learning Interpretable Flight's Landing Parameters ( http://arxiv.org/abs/2011.09335v3 )

ライセンス: Link先を確認
Sim Kuan Goh, Narendra Pratap Singh, Zhi Jun Lim and Sameer Alam(参考訳) 接近と着陸の事故は、世界中でかなりの数の船体損失をもたらした。 リスクを減らすために、技術(機器着陸システムなど)と手順(例えば、安定化したアプローチ基準)が開発されている。 本稿では,飛行力学の理解と実践的洞察を促進するために,飛行のアプローチと着陸パラメータを学習し,解釈するデータ駆動手法を提案する。 具体的には,advanced surface movement guidance and control system (a-smgcs) データを用いて航空機の接近と着陸ダイナミクスを解明するトンネルガウス過程(tgp)モデルの2つの変種を開発し,飛行の安定性を示す。 tgpは、ばらばらな変分ガウス過程と極性ガウス過程の強さをハイブリッド化し、円筒座標中の大量のデータから学ぶ。 3つの複雑な軌道データセットを定性的・定量的に合成し,tgpを既存の軌道学習法と比較した。 経験的に、TGPは優れたモデリング性能を示す。 運用中のA-SMGCSデータに適用した場合、TGPは着陸力学の生成確率的記述と接近パラメータと着陸パラメータの解釈可能なトンネルビューを提供する。 これらの確率的トンネルモデルは、アプローチと着陸手順中に既存のエアクルーと航空管制官のディスプレイを増強し、手順の順守を容易にする。

Approach and landing accidents have resulted in a significant number of hull losses worldwide. Technologies (e.g., instrument landing system) and procedures (e.g., stabilized approach criteria) have been developed to reduce the risks. In this paper, we propose a data-driven method to learn and interpret flight's approach and landing parameters to facilitate comprehensible and actionable insights into flight dynamics. Specifically, we develop two variants of tunnel Gaussian process (TGP) models to elucidate aircraft's approach and landing dynamics using advanced surface movement guidance and control system (A-SMGCS) data, which then indicates the stability of flight. TGP hybridizes the strengths of sparse variational Gaussian process and polar Gaussian process to learn from a large amount of data in cylindrical coordinates. We examine TGP qualitatively and quantitatively by synthesizing three complex trajectory datasets and compared TGP against existing methods on trajectory learning. Empirically, TGP demonstrates superior modeling performance. When applied to operational A-SMGCS data, TGP provides the generative probabilistic description of landing dynamics and interpretable tunnel views of approach and landing parameters. These probabilistic tunnel models can facilitate the analysis of procedure adherence and augment existing aircrew and air traffic controllers' displays during the approach and landing procedures, enabling necessary corrective actions.
翻訳日:2022-09-24 05:15:15 公開日:2021-08-02
# (参考訳) 非破壊的手法(Roger, IEC)と人工ニューラルネットワークを用いたアルジェリア北東部のファンクショナルトランスに応用したパワートランスの故障診断 : 比較研究

Power transformer faults diagnosis using undestructive methods (Roger and IEC) and artificial neural network for dissolved gas analysis applied on the functional transformer in the Algerian north-eastern: a comparative study ( http://arxiv.org/abs/2108.10205v1 )

ライセンス: CC BY 4.0
Bouchaoui Lahcene, Kamel Eddine Hemsas, Hacene Mellah, saad eddine benlahneche(参考訳) 今日では、変圧器の老朽化や故障が電力伝送産業に大きな注目を集めている。 溶存ガス分析(dga)は、電力変圧器の初期の初期故障を検出するための資産管理政策の文脈において、最も広く使われている手法に分類されている。 これまでにDGAの結果の講義にいくつかの手順が採用されている。 これらの有用な手段のうち、キーガス、ロジャース比、iec比、今日ではあまり使われない歴史的手法、デュバルペンタゴン法、2種類のデュバルトライアングル法、数種類のデュバルトライアングル法、対数ノモグラフがある。 問題よ DGAデータは、電力変換器の健康状態を評価する上で、これらの手法の能力と信頼性を検証するのに役立った。 Aim アルジェリア東北部のS\'etif州における機能的電力変換器の場合の2つの従来手法に基づくニューラルネットワークツールによる電力変換器の診断精度の向上。 方法論。 IECとRogersをベースとしたニューラルネットワークを用いた電力変換器診断のためのエレガントなツールを設計することで、障害の早期検出、消費者への電気エネルギーシステム全体の信頼性の向上、サービス継続性と品質の向上を実現している。 結果。 この問題をMATLAB-Simulink環境に実装したフィードフォワードバックプロパゲーションニューラルネットワークを用いて解決した。 砂漠,湿潤,寒冷など,環境や気候の異なる4つの実電力変圧器が検討された。 これらの変圧器のdgaによる診断の実際的な結果について述べる。 実用価値。

Nowadays, power transformer aging and failures are viewed with great attention in power transmission industry. Dissolved gas analysis (DGA) is classified among the biggest widely used methods used within the context of asset management policy to detect the incipient faults in their earlier stage in power transformers. Up to now, several procedures have been employed for the lecture of DGA results. Among these useful means, we find Key Gases, Rogers Ratios, IEC Ratios, the historical technique less used today Doernenburg Ratios, the two types of Duval Pentagons methods, several versions of the Duval Triangles method and Logarithmic Nomograph. Problem. DGA data extracted from different units in service served to verify the ability and reliability of these methods in assessing the state of health of the power transformer. Aim. An improving the quality of diagnostics of electrical power transformer by artificial neural network tools based on two conventional methods in the case of a functional power transformer at S\'etif province in East North of Algeria. Methodology. Design an inelegant tool for power transformer diagnosis using neural networks based on traditional methods IEC and Rogers, which allows to early detection faults, to increase the reliability, of the entire electrical energy system from transport to consumers and improve a continuity and quality of service. Results. The solution of the problem was carried out by using feed-forward back-propagation neural networks implemented in MATLAB-Simulink environment. Four real power transformers working under different environment and climate conditions such as: desert, humid, cold were taken into account. The practical results of the diagnosis of these power transformers by the DGA are presented. Practical value.....
翻訳日:2021-08-29 15:57:48 公開日:2021-08-02
# (参考訳) 教室におけるポーラリティ:スケーラブルアセスメントに向けたピアセンティメントを活用した事例研究

Polarity in the Classroom: A Case Study Leveraging Peer Sentiment Toward Scalable Assessment ( http://arxiv.org/abs/2108.10068v1 )

ライセンス: CC BY 4.0
Zachariah J. Beasley, Les A. Piegl, and Paul Rosen(参考訳) 大規模または大規模オープンオンラインコース(moocs)において、オープンエンドの割り当てを正確に評価することは簡単ではない。 ピアレビューは有望なソリューションだが、少数のレビュアーと無評価レビューフォームのために信頼できない。 これまでのところ,1)ピアレビュープロセスにおいて感情分析を活用して成績を報告・検証したり,2) アスペクト抽出を活用して学生が実際にコミュニケーションした内容からレビューフォームを作成する作業は行われていない。 我々の研究は、学生のデータをレビューフォームのコメントから取り除くのではなく、インストラクターにより良い情報を提供する。 本研究では、ドメイン依存の辞書とアスペクトインフォーム化されたレビューフォームを作成するプロセスと、テキストのみからきめ細かい感情スコアを提供する全感情分析アルゴリズムについて詳述する。 本研究は,9コースから6800名以上の審査員を対象とするコーパスの妥当性の分析と結論の議論を通じて,教室における感情の生存可能性を理解し,多くのコースにおいて公開課題の段階付けの信頼性を高める。

Accurately grading open-ended assignments in large or massive open online courses (MOOCs) is non-trivial. Peer review is a promising solution but can be unreliable due to few reviewers and an unevaluated review form. To date, no work has 1) leveraged sentiment analysis in the peer-review process to inform or validate grades or 2) utilized aspect extraction to craft a review form from what students actually communicated. Our work utilizes, rather than discards, student data from review form comments to deliver better information to the instructor. In this work, we detail the process by which we create our domain-dependent lexicon and aspect-informed review form as well as our entire sentiment analysis algorithm which provides a fine-grained sentiment score from text alone. We end by analyzing validity and discussing conclusions from our corpus of over 6800 peer reviews from nine courses to understand the viability of sentiment in the classroom for increasing the information from and reliability of grading open-ended assignments in large courses.
翻訳日:2021-08-29 15:44:20 公開日:2021-08-02
# サポートベクトルマシンと長期記憶による大規模IoTのための学習ベース高速アップリンク

A Learning-Based Fast Uplink Grant for Massive IoT via Support Vector Machines and Long Short-Term Memory ( http://arxiv.org/abs/2108.10070v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Mohammad Shehab, and Hirley Alves(参考訳) 現在のランダムアクセス(RA)割り当て技術は、大規模なマシン型通信(mMTC)アプリケーションを提供しながら、混雑と高い信号オーバーヘッドに悩まされている。 この目的のために、3GPPは、レイテンシを低減し、厳格なQoS制約のあるスマートインターネット・オブ・シング(IoT)アプリケーションの信頼性を高めるために、高速アップリンク・アロケーション(FUG)を使用する必要性を導入した。 まず,mtcデバイスはsvm分類器を用いて優先順位付けされるため,svmに基づく新しいfugアロケーションを提案する。 第2に、LSTMアーキテクチャは、予測エラーを克服するためにトラフィック予測と補正技術に使用される。 両結果は、平均レイテンシと総スループットの観点から、効率的なリソーススケジューラを達成するために使用される。 混合アラームと正規トラフィックを伴うCMMPP(Coupled Markov Modulated Poisson Process)トラヒックモデルを適用し,提案したFUGアロケーションと既存のアロケーション技術との比較を行った。 さらに,拡張トラヒックモデルに基づくCMMPPを用いて,より高密度なネットワークにおける提案アルゴリズムの評価を行う。 提案手法をnumenta anomaly benchmark (nab) データベースから収集した実時間計測データを用いて検証した。 シミュレーションの結果,提案手法は,最大スループットと最低アクセス遅延を1msで達成し,目標とする大規模かつクリティカルなMSCアプリケーションに限られたリソースを供給した場合の予測精度を98$\%とすることで,既存のRAアロケーション方式よりも優れた性能を示す。

The current random access (RA) allocation techniques suffer from congestion and high signaling overhead while serving massive machine type communication (mMTC) applications. To this end, 3GPP introduced the need to use fast uplink grant (FUG) allocation in order to reduce latency and increase reliability for smart internet-of-things (IoT) applications with strict QoS constraints. We propose a novel FUG allocation based on support vector machine (SVM), First, MTC devices are prioritized using SVM classifier. Second, LSTM architecture is used for traffic prediction and correction techniques to overcome prediction errors. Both results are used to achieve an efficient resource scheduler in terms of the average latency and total throughput. A Coupled Markov Modulated Poisson Process (CMMPP) traffic model with mixed alarm and regular traffic is applied to compare the proposed FUG allocation to other existing allocation techniques. In addition, an extended traffic model based CMMPP is used to evaluate the proposed algorithm in a more dense network. We test the proposed scheme using real-time measurement data collected from the Numenta Anomaly Benchmark (NAB) database. Our simulation results show the proposed model outperforms the existing RA allocation schemes by achieving the highest throughput and the lowest access delay of the order of 1 ms by achieving prediction accuracy of 98 $\%$ when serving the target massive and critical MTC applications with a limited number of resources.
翻訳日:2021-08-29 12:07:38 公開日:2021-08-02
# 方言識別のための動的マルチスケール畳み込み

Dynamic Multi-scale Convolution for Dialect Identification ( http://arxiv.org/abs/2108.07787v1 )

ライセンス: Link先を確認
Tianlong Kong, Shouyi Yin, Dawei Zhang, Wang Geng, Xin Wang, Dandan Song, Jinwen Huang, Huiyu Shi and Xiaorui Wang(参考訳) 時間遅延ニューラルネットワーク(TDNN)に基づく手法は方言識別に広く用いられている。 しかし、以前のTDNNアプリケーションでの作業では、異なる機能スケールで微妙なバリエーションが無視されている。 この問題に対処するために,動的カーネル畳み込み,局所的マルチスケール学習,グローバルなマルチスケールプールからなる動的マルチスケール畳み込みというアーキテクチャを提案する。 動的カーネルの畳み込みは、短期と長期の間の特徴を適応的にキャプチャする。 局所的マルチスケール学習は,マルチスケール特徴を粒度で表現し,畳み込み操作のための受容野の範囲を増加させることができる。 さらに、グローバルマルチスケールのプーリングは、複数の側面から情報を集めるために、異なるボトルネック層から機能を集約するために適用されます。 提案したアーキテクチャは、2020年のオリエンタル言語認識(OLR)チャレンジのAP20-OLR-dialect-taskにおいて、0.067のコストパフォーマンス(Cavg)と6.52%のエラー率(EER)において、最先端のシステムを大幅に上回っている。 既知の最も優れた結果と比較すると, キャビテーションの9%とeerの相対的改善の45%をそれぞれ達成した。 さらに、提案モデルのパラメータは、最もよく知られたモデルよりも91%少ない。

Time Delay Neural Networks (TDNN)-based methods are widely used in dialect identification. However, in previous work with TDNN application, subtle variant is being neglected in different feature scales. To address this issue, we propose a new architecture, named dynamic multi-scale convolution, which consists of dynamic kernel convolution, local multi-scale learning, and global multi-scale pooling. Dynamic kernel convolution captures features between short-term and long-term context adaptively. Local multi-scale learning, which represents multi-scale features at a granular level, is able to increase the range of receptive fields for convolution operation. Besides, global multi-scale pooling is applied to aggregate features from different bottleneck layers in order to collect information from multiple aspects. The proposed architecture significantly outperforms state-of-the-art system on the AP20-OLR-dialect-task of oriental language recognition (OLR) challenge 2020, with the best average cost performance (Cavg) of 0.067 and the best equal error rate (EER) of 6.52%. Compared with the known best results, our method achieves 9% of Cavg and 45% of EER relative improvement, respectively. Furthermore, the parameters of proposed model are 91% fewer than the best known model.
翻訳日:2021-08-22 14:37:17 公開日:2021-08-02
# 各種データソースと交通量推定モデルを用いた都市事例実験

An Experimental Urban Case Study with Various Data Sources and a Model for Traffic Estimation ( http://arxiv.org/abs/2108.07698v1 )

ライセンス: Link先を確認
Alexander Genser and Noel Hautle and Michail Makridis and Anastasios Kouvelas(参考訳) トラフィック管理戦略を設計・実装するための出発点であるため,ネットワーク上でのトラフィック状態の正確な推定が不可欠である。 したがって、交通網の交通事業者や利用者は、影響・変更経路やモード選択などの信頼できる判断を行うことができる。 しかし, 都市環境における各種センサからの交通状況推定の問題は, センサの可利用性, ノイズレベル, 出力量, センサ精度, 異種データ融合など, 様々な理由で非常に複雑である。 この問題をよりよく理解するために,スイスのチューリッヒ都市ネットワーク内の地域において,ビデオ計測を用いた実験キャンペーンを実施した。 都市当局が設置したサーマルカメラからの計測、ビデオデータ処理、google distance matrixの計測により、交通の流れと走行時間の観点から交通状況の把握に重点を置いている。 異なるデータソースを評価し,様々なデータソースの融合により移動時間を推定するための単純かつ効率的な多重線形回帰(mlr)モデルを提案する。 実測データとの比較により,提案手法の有効性と頑健性が示された。

Accurate estimation of the traffic state over a network is essential since it is the starting point for designing and implementing any traffic management strategy. Hence, traffic operators and users of a transportation network can make reliable decisions such as influence/change route or mode choice. However, the problem of traffic state estimation from various sensors within an urban environment is very complex for several different reasons, such as availability of sensors, different noise levels, different output quantities, sensor accuracy, heterogeneous data fusion, and many more. To provide a better understanding of this problem, we organized an experimental campaign with video measurement in an area within the urban network of Zurich, Switzerland. We focus on capturing the traffic state in terms of traffic flow and travel times by ensuring measurements from established thermal cameras by the city's authorities, processed video data, and the Google Distance Matrix. We assess the different data sources, and we propose a simple yet efficient Multiple Linear Regression (MLR) model to estimate travel times with fusion of various data sources. Comparative results with ground-truth data (derived from video measurements) show the efficiency and robustness of the proposed methodology.
翻訳日:2021-08-22 14:36:54 公開日:2021-08-02
# Wrist-based Photoplethysmography Sensor を用いたハイブリッドCNNによるストレス認識

Feature Augmented Hybrid CNN for Stress Recognition Using Wrist-based Photoplethysmography Sensor ( http://arxiv.org/abs/2108.03166v1 )

ライセンス: Link先を確認
Nafiul Rashid, Luke Chen, Manik Dautta, Abel Jimenez, Peter Tseng, Mohammad Abdullah Al Faruque(参考訳) ストレスは精神的健康を阻害し、身体的健康に深刻な影響を及ぼす生理的状態である。 さらに、新型コロナウイルス(COVID-19)のパンデミックは世界中の人々のストレスレベルを高めている。 そのため,ストレスの連続的モニタリングと検出が必要である。 最近のウェアラブルデバイスの進歩により、ストレスに関連するいくつかの生理的シグナルのモニタリングが可能になった。 スマートウォッチのようなウェアラブルデバイスは、使い勝手の良さから最も人気がある。 Photoplethysmography(PPG)センサーは、消費者向けのスマートウォッチの中では最も一般的なセンサーだ。 そこで本研究では, 血圧パルス(bvp)信号を収集し, 消費者の腕時計に適用可能なストレスを検出する手首型ppgセンサについて検討する。 さらに、最先端の作品は、従来の機械学習アルゴリズムを使用して、手作りの機能を使ってストレスを検出するか、あるいは自動的に特徴を抽出する畳み込みニューラルネットワーク(cnn)のようなディープラーニングアルゴリズムを使用している。 本稿では,手作り特徴と自動抽出特徴の両方を用いて,BVP信号を用いたストレス検出を行うハイブリッドCNN(H-CNN)分類器を提案する。 WESADデータセットのベンチマークによる評価は,3クラス分類(Baseline vs。 H-CNNは従来の分類器や通常のCNNよりも5%, 7%の精度, 10%, 7%のマクロF1スコアより優れていた。 また,2クラス分類(Stress vs. Non-stress)では,H-CNNが従来の分類器および通常のCNNよりも3%,精度が5%,マクロF1スコアが7%であった。

Stress is a physiological state that hampers mental health and has serious consequences to physical health. Moreover, the COVID-19 pandemic has increased stress levels among people across the globe. Therefore, continuous monitoring and detection of stress are necessary. The recent advances in wearable devices have allowed the monitoring of several physiological signals related to stress. Among them, wrist-worn wearable devices like smartwatches are most popular due to their convenient usage. And the photoplethysmography (PPG) sensor is the most prevalent sensor in almost all consumer-grade wrist-worn smartwatches. Therefore, this paper focuses on using a wrist-based PPG sensor that collects Blood Volume Pulse (BVP) signals to detect stress which may be applicable for consumer-grade wristwatches. Moreover, state-of-the-art works have used either classical machine learning algorithms to detect stress using hand-crafted features or have used deep learning algorithms like Convolutional Neural Network (CNN) which automatically extracts features. This paper proposes a novel hybrid CNN (H-CNN) classifier that uses both the hand-crafted features and the automatically extracted features by CNN to detect stress using the BVP signal. Evaluation on the benchmark WESAD dataset shows that, for 3-class classification (Baseline vs. Stress vs. Amusement), our proposed H-CNN outperforms traditional classifiers and normal CNN by 5% and 7% accuracy, and 10% and 7% macro F1 score, respectively. Also for 2-class classification (Stress vs. Non-stress), our proposed H-CNN outperforms traditional classifiers and normal CNN by 3% and ~5% accuracy, and ~3% and ~7% macro F1 score, respectively.
翻訳日:2021-08-15 11:33:37 公開日:2021-08-02
# (参考訳) 深い安定なニューラルネットワーク:大幅漸近性と収束率

Deep Stable neural networks: large-width asymptotics and convergence rates ( http://arxiv.org/abs/2108.02316v1 )

ライセンス: CC BY 4.0
Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) 現代のディープラーニングでは、ディープ・ガウス・ニューラルネット(NN)のための大きな幅の漸近の相互作用に関する文献が近年増えている。 ガウス分布重みを持つディープNNとガウス確率過程(SP)のクラス。 このような相互作用は、例えば、実用的関心のあるいくつかの文脈で批判的であることが証明されている。 gaussian sp priorsに基づくベイズ推定、勾配降下によって訓練された無限大深層nnの核回帰、無限大nn内の情報伝達。 本稿では,nnの重みの安定分布にガウス分布を置き換える可能性を示す経験的解析に動機づけられ,(完全に接続された)フィードフォワード深層安定nnに対する大幅漸近性について検討する。 安定分布重みを持つ深層nn。 まず,nnの層を横切る幅が無限大になるにつれて,nnの層を通して再帰的に分布する安定なspに対して,適切な再スケールの深い安定なnnが弱く収束することを示す。 非三角形 nn の構造のため、これは非標準漸近問題であり、独立興味を持つかもしれない、新規で自己完結した帰納的アプローチを提案する。 そこで、我々は、深い安定NNの安定SPへの超ノルム収束率を確立し、NN層上の幅の「結合成長」と「連続成長」の設定の臨界差を定量化する。 我々の研究は、ディープ・ガウス NN の無限大限界に関する最近の結果をより一般的なディープ・スタブル NN に拡張し、無限大ディープ NN の収束率の最初の結果を提供する。

In modern deep learning, there is a recent and growing literature on the interplay between large-width asymptotics for deep Gaussian neural networks (NNs), i.e. deep NNs with Gaussian-distributed weights, and classes of Gaussian stochastic processes (SPs). Such an interplay has proved to be critical in several contexts of practical interest, e.g. Bayesian inference under Gaussian SP priors, kernel regression for infinite-wide deep NNs trained via gradient descent, and information propagation within infinite-wide NNs. Motivated by empirical analysis, showing the potential of replacing Gaussian distributions with Stable distributions for the NN's weights, in this paper we investigate large-width asymptotics for (fully connected) feed-forward deep Stable NNs, i.e. deep NNs with Stable-distributed weights. First, we show that as the width goes to infinity jointly over the NN's layers, a suitable rescaled deep Stable NN converges weakly to a Stable SP whose distribution is characterized recursively through the NN's layers. Because of the non-triangular NN's structure, this is a non-standard asymptotic problem, to which we propose a novel and self-contained inductive approach, which may be of independent interest. Then, we establish sup-norm convergence rates of a deep Stable NN to a Stable SP, quantifying the critical difference between the settings of ``joint growth" and ``sequential growth" of the width over the NN's layers. Our work extends recent results on infinite-wide limits for deep Gaussian NNs to the more general deep Stable NNs, providing the first result on convergence rates for infinite-wide deep NNs.
翻訳日:2021-08-07 03:58:17 公開日:2021-08-02
# (参考訳) 画像ラベリングのための線形アサインメントフローの学習

Learning Linearized Assignment Flows for Image Labeling ( http://arxiv.org/abs/2108.02571v1 )

ライセンス: CC BY 4.0
Alexander Zeilmann, Stefania Petra, Christoph Schn\"orr(参考訳) 画像ラベリングのための線形割当流れの最適パラメータを推定する新しいアルゴリズムを提案する。 線形化代入フローを決定するODEの線形系によって制約される任意の損失関数のパラメータ勾配に対して正確な式が導出される。 この式をKrylov部分空間と低ランク近似を用いて効率的に評価する方法を示す。 これにより、パラメータ空間におけるリーマン勾配降下によるパラメータ学習を、誤差をバックプロパゲートしたり、随伴方程式を10秒未満で解くことなく、約0.5$ gbメモリで512\times 512$イメージを実行できる。 実験により,本手法は自動微分を用いた高度に調整された機械学習ソフトウェアと同等の性能を示す。 自動微分を用いる手法とは異なり,本手法は内部パラメータとそのダイナミクスを低次元で表現し,ネットワークの動作を理解し,代入フローとその一般化を実現する。

We introduce a novel algorithm for estimating optimal parameters of linearized assignment flows for image labeling. An exact formula is derived for the parameter gradient of any loss function that is constrained by the linear system of ODEs determining the linearized assignment flow. We show how to efficiently evaluate this formula using a Krylov subspace and a low-rank approximation. This enables us to perform parameter learning by Riemannian gradient descent in the parameter space, without the need to backpropagate errors or to solve an adjoint equation, in less than 10 seconds for a $512\times 512$ image using just about $0.5$ GB memory. Experiments demonstrate that our method performs as good as highly-tuned machine learning software using automatic differentiation. Unlike methods employing automatic differentiation, our approach yields a low-dimensional representation of internal parameters and their dynamics which helps to understand how networks work and perform that realize assignment flows and generalizations thereof.
翻訳日:2021-08-07 02:59:49 公開日:2021-08-02
# (参考訳) 非侵襲負荷モニタリングのための逆エネルギー分散

Adversarial Energy Disaggregation for Non-intrusive Load Monitoring ( http://arxiv.org/abs/2108.01998v1 )

ライセンス: CC BY 4.0
Zhekai Du and Jingjing Li and Lei Zhu and Ke Lu and Heng Tao Shen(参考訳) 非侵入的負荷モニタリング(non-intrusive load monitoring, nilm)とも呼ばれるエネルギー分散は、家庭全体の電力使用量を家電固有の個人消費に分離する問題に挑戦する。 nilmは、家庭がエネルギーの使い方を理解し、エネルギーの効率的な管理方法を教え、持続可能エネルギー政策(すなわち、エネルギー効率と再生可能エネルギー)の2つの柱の1つと見なされるエネルギー効率を許容することを目的としている。 NILMは同定できないが、NILM問題はデータ科学によって対処できると広く信じられている。 既存のアプローチの多くは、スパース符号化、非負行列分解、隠れマルコフモデルといった従来の手法によるエネルギー分解問題に対処する。 近年の進歩により、ディープニューラルネットワーク(DNN)は、異なるアプライアンスの識別シグネチャを本質的に学習できるため、NILMに好適な性能が得られることが判明した。 本稿では,DNNに基づく敵エネルギー分散(AED)という新しい手法を提案する。 我々は、エネルギー分散タスクに新しくなったNILMに、敵対的学習の考え方を導入する。 本手法は, 発電機と複数の識別器を逆方向で訓練する。 提案手法は,異なるアプライアンスのシャード表現を学習するだけでなく,各アプライアンスの特定のマルチモード構造をキャプチャする。 実世界のデータセットに関する広範囲な実験は、この手法が新たな最先端のパフォーマンスを実現できることを検証します。

Energy disaggregation, also known as non-intrusive load monitoring (NILM), challenges the problem of separating the whole-home electricity usage into appliance-specific individual consumptions, which is a typical application of data analysis. {NILM aims to help households understand how the energy is used and consequently tell them how to effectively manage the energy, thus allowing energy efficiency which is considered as one of the twin pillars of sustainable energy policy (i.e., energy efficiency and renewable energy).} Although NILM is unidentifiable, it is widely believed that the NILM problem can be addressed by data science. Most of the existing approaches address the energy disaggregation problem by conventional techniques such as sparse coding, non-negative matrix factorization, and hidden Markov model. Recent advances reveal that deep neural networks (DNNs) can get favorable performance for NILM since DNNs can inherently learn the discriminative signatures of the different appliances. In this paper, we propose a novel method named adversarial energy disaggregation (AED) based on DNNs. We introduce the idea of adversarial learning into NILM, which is new for the energy disaggregation task. Our method trains a generator and multiple discriminators via an adversarial fashion. The proposed method not only learns shard representations for different appliances, but captures the specific multimode structures of each appliance. Extensive experiments on real-world datasets verify that our method can achieve new state-of-the-art performance.
翻訳日:2021-08-06 02:24:16 公開日:2021-08-02
# (参考訳) 生理学的ECGノイズに対する畳み込みニューラルネットワークのロバスト性

Robustness of convolutional neural networks to physiological ECG noise ( http://arxiv.org/abs/2108.01995v1 )

ライセンス: CC BY 4.0
J. Venton, P. M. Harris, A. Sundar, N. A. S. Smith, P. J. Aston(参考訳) 心電図(ECG)は、医療において最も普及している診断ツールの一つであり、心血管疾患の診断を支援する。 深層学習法は、心電図信号から障害の徴候を検出する手法として成功し、普及している。 しかしながら、これらの方法が生理的心電図ノイズを含む様々な要因に対して頑健性に関する疑問がある。 本研究では,SPAR(Symmetric Projection Attractor Reconstruction)と頭蓋骨画像変換を適用する前に,ECGデータセットのクリーンでノイズの多いバージョンを生成する。 事前訓練された畳み込みニューラルネットワークは、これらの画像変換を分類するために転送学習を用いて訓練される。 クリーンECGデータセットでは,SPARアトラクションのF1スコアは0.70と0.79であり,ノイズECGデータセットのスコアは0.05以下であった。 特に、クリーンデータでトレーニングされたネットワークを使用してノイズの多いデータセットを分類すると、f1スコアで最大0.18パーセントのパフォーマンス低下が見られた。 しかし,ノイズデータにトレーニングしたネットワークを用いてクリーンデータセットを分類した場合,0.05未満の性能低下が見られた。 本研究は, 深層学習を用いた生理的ECGノイズが分類に影響を及ぼし, トレーニングデータにノイズの多いECG信号が組み込まれていることを考慮すべきであると結論した。

The electrocardiogram (ECG) is one of the most widespread diagnostic tools in healthcare and supports the diagnosis of cardiovascular disorders. Deep learning methods are a successful and popular technique to detect indications of disorders from an ECG signal. However, there are open questions around the robustness of these methods to various factors, including physiological ECG noise. In this study we generate clean and noisy versions of an ECG dataset before applying Symmetric Projection Attractor Reconstruction (SPAR) and scalogram image transformations. A pretrained convolutional neural network is trained using transfer learning to classify these image transforms. For the clean ECG dataset, F1 scores for SPAR attractor and scalogram transforms were 0.70 and 0.79, respectively, and the scores decreased by less than 0.05 for the noisy ECG datasets. Notably, when the network trained on clean data was used to classify the noisy datasets, performance decreases of up to 0.18 in F1 scores were seen. However, when the network trained on the noisy data was used to classify the clean dataset, the performance decrease was less than 0.05. We conclude that physiological ECG noise impacts classification using deep learning methods and careful consideration should be given to the inclusion of noisy ECG signals in the training data when developing supervised networks for ECG classification.
翻訳日:2021-08-06 02:06:50 公開日:2021-08-02
# (参考訳) 接触者追跡のためのパーソナルデバイス - スマートフォンとウェアラブルによるcovid-19対策

Personal Devices for Contact Tracing: Smartphones and Wearables to Fight Covid-19 ( http://arxiv.org/abs/2108.02008v1 )

ライセンス: CC BY 4.0
Pai Chet Ng, Petros Spachos, Stefano Gregori, Konstantinos Plataniotis(参考訳) デジタル接触追跡は手動接触追跡を補完する有効なツールとして登場した。 これまでに100以上の接触追跡アプリケーションが公開されており、感染性の高いCovid-19の拡散を遅らせている。 アプリケーション間の微妙なばらつきにもかかわらず、いずれも以下の3つのコンポーネントを操作することで接触追跡を実現する。a) 個人デバイスを使用してユーザのアイデンティティを匿名化するためのセキュアなプロトコルを設計し、b) ネットワーク技術を活用してデータを分析および保存する、c) ユーザデバイス上のリッチなセンシング機能を活用してユーザ間のインタラクションを検出し、露光リスクを見積もる。 本稿では,これら3つのコンポーネントに基づいて,現在のデジタル接触追跡についてレビューする。 ユーザと親密な2つのパーソナルデバイス – スマートフォンとウェアラブル – に重点を置いています。 データフローの促進に使用される中央集権的かつ分散的なネットワークアプローチについて論じる。 最後に,スマートフォンやウェアラブルで使用可能なセンサ機能について検討し,2つのユーザ間の近接検知性能の比較実験を行った。

Digital contact tracing has emerged as a viable tool supplementing manual contact tracing. To date, more than 100 contact tracing applications have been published to slow down the spread of highly contagious Covid-19. Despite subtle variabilities among these applications, all of them achieve contact tracing by manipulating the following three components: a) use a personal device to identify the user while designing a secure protocol to anonymize the user's identity; b) leverage networking technologies to analyze and store the data; c) exploit rich sensing features on the user device to detect the interaction among users and thus estimate the exposure risk. This paper reviews the current digital contact tracing based on these three components. We focus on two personal devices that are intimate to the user: smartphones and wearables. We discuss the centralized and decentralized networking approaches that use to facilitate the data flow. Lastly, we investigate the sensing feature available on smartphones and wearables to detect the proximity between any two users and present experiments comparing the proximity sensing performance between these two personal devices.
翻訳日:2021-08-06 01:50:52 公開日:2021-08-02
# (参考訳) AIベースのサイバーセキュリティシステムにおけるドメイン固有の説明の重要性について(技術報告)

On the Importance of Domain-specific Explanations in AI-based Cybersecurity Systems (Technical Report) ( http://arxiv.org/abs/2108.02006v1 )

ライセンス: CC BY 4.0
Jose N. Paredes, Juan Carlos L. Teze, Gerardo I. Simari, Maria Vanina Martinez(参考訳) 大規模なデータセットが利用可能になり、コンピューティング能力が継続的に向上するにつれ、データ駆動型人工知能システムの利用が増加し、さまざまな分野の応用が成功する可能性を示している。 しかし、これらのシステムの多くは、意思決定の背後にある根拠に関する情報をユーザーに提供できない。 このような決定に対する理解の欠如は、特にサイバーセキュリティに関連する重要な領域において大きな欠点となる。 In light of this problem, in this paper we make three contributions: (i) proposal and discussion of desiderata for the explanation of outputs generated by AI-based cybersecurity systems; (ii) a comparative analysis of approaches in the literature on Explainable Artificial Intelligence (XAI) under the lens of both our desiderata and further dimensions that are typically used for examining XAI approaches; and (iii) a general architecture that can serve as a roadmap for guiding research efforts towards the development of explainable AI-based cybersecurity systems -- at its core, this roadmap proposes combinations of several research lines in a novel way towards tackling the unique challenges that arise in this context.

With the availability of large datasets and ever-increasing computing power, there has been a growing use of data-driven artificial intelligence systems, which have shown their potential for successful application in diverse areas. However, many of these systems are not able to provide information about the rationale behind their decisions to their users. Lack of understanding of such decisions can be a major drawback, especially in critical domains such as those related to cybersecurity. In light of this problem, in this paper we make three contributions: (i) proposal and discussion of desiderata for the explanation of outputs generated by AI-based cybersecurity systems; (ii) a comparative analysis of approaches in the literature on Explainable Artificial Intelligence (XAI) under the lens of both our desiderata and further dimensions that are typically used for examining XAI approaches; and (iii) a general architecture that can serve as a roadmap for guiding research efforts towards the development of explainable AI-based cybersecurity systems -- at its core, this roadmap proposes combinations of several research lines in a novel way towards tackling the unique challenges that arise in this context.
翻訳日:2021-08-06 01:40:25 公開日:2021-08-02
# (参考訳) 量子ニューラルネットワーク:概念,応用,課題

Quantum Neural Networks: Concepts, Applications, and Challenges ( http://arxiv.org/abs/2108.01468v1 )

ライセンス: CC BY 4.0
Yunseok Kwak, Won Joon Yun, Soyi Jung, Joongheon Kim(参考訳) 量子ディープラーニングは、ディープニューラルネットワークのトレーニングに量子コンピューティング技術を使用する研究分野である。 ディープラーニングと量子コンピューティングの研究トピックと方向性は長い間分離されてきたが、量子回路が人工ニューラルネットワークのように振る舞うことを発見し、量子ディープラーニングの研究が広く採用されている。 本稿では,量子深層学習の背景と基本原理を説明し,その成果を紹介する。 その後、複数の観点から量子ディープラーニング研究の課題について論じる。 最後に,量子深層学習の今後の研究の方向性と応用分野について述べる。

Quantum deep learning is a research field for the use of quantum computing techniques for training deep neural networks. The research topics and directions of deep learning and quantum computing have been separated for long time, however by discovering that quantum circuits can act like artificial neural networks, quantum deep learning research is widely adopted. This paper explains the backgrounds and basic principles of quantum deep learning and also introduces major achievements. After that, this paper discusses the challenges of quantum deep learning research in multiple perspectives. Lastly, this paper presents various future research directions and application fields of quantum deep learning.
翻訳日:2021-08-05 00:07:29 公開日:2021-08-02
# (参考訳) ドイツ音声ディープフェイクの作成と検出

Creation and Detection of German Voice Deepfakes ( http://arxiv.org/abs/2108.01469v1 )

ライセンス: CC BY 4.0
Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto, Andreas Schaad and Felix Schmieder(参考訳) 機械学習技術の助けを借りて音声合成はここ数年で急速に進歩し、[1]、最近は最初の高名な詐欺事件が報告されている([2])。 オンライン教育における会議ツールの利用が増加している今、私たちはいかに簡単か(つまり)を疑問視している。 必要なデータ、ハードウェア、スキルセット) 説得力のある音声の偽造を作ることです。 参加者のトレーニングデータの量(例)を分析します。 学生)は実際に他の参加者の声(例えば)を偽装する必要がある。 教授)。 我々は、ボイスディープフェイクを作成する際の現在の技術状況の分析と、音声をコピーするのにどれだけの労力が必要かの詳細な技術的ガイダンスと証拠を提供する。 100人以上の参加者を対象にしたユーザスタディでは、実声と偽声の識別がいかに難しいかが示されています。 教授の本当の声と偽の声を区別できるのはたったの37%) ドイツ語とオンラインの教育環境に焦点をあて、社会的な意味を議論するとともに、機械学習技術を用いてそのような偽物を検出する方法を実証する。

Synthesizing voice with the help of machine learning techniques has made rapid progress over the last years [1] and first high profile fraud cases have been recently reported [2]. Given the current increase in using conferencing tools for online teaching, we question just how easy (i.e. needed data, hardware, skill set) it would be to create a convincing voice fake. We analyse how much training data a participant (e.g. a student) would actually need to fake another participants voice (e.g. a professor). We provide an analysis of the existing state of the art in creating voice deep fakes, as well as offer detailed technical guidance and evidence of just how much effort is needed to copy a voice. A user study with more than 100 participants shows how difficult it is to identify real and fake voice (on avg. only 37 percent can distinguish between real and fake voice of a professor). With a focus on German language and an online teaching environment we discuss the societal implications as well as demonstrate how to use machine learning techniques to possibly detect such fakes.
翻訳日:2021-08-04 23:58:04 公開日:2021-08-02
# (参考訳) ニュートンステップの計算はヘッセン累積より速い

Computing the Newton-step faster than Hessian accumulation ( http://arxiv.org/abs/2108.01219v1 )

ライセンス: CC BY 4.0
Akshay Srinivasan, Emanuel Todorov(参考訳) N$決定変数を持つ一般関数のニュートンステップの計算は、$O(N^3)$ flopsを取る。 本稿では、関数の計算グラフを考えると、この境界は$o(m\tau^3)$となり、ここで$\tau, m$ はグラフのツリー分解の幅と大きさであることを示す。 提案アルゴリズムは,LQRに基づく非線形最適制御法を一般化し,ヘシアンが高密度である場合でも,反復複雑度において非自明なゲインを提供する。

Computing the Newton-step of a generic function with $N$ decision variables takes $O(N^3)$ flops. In this paper, we show that given the computational graph of the function, this bound can be reduced to $O(m\tau^3)$, where $\tau, m$ are the width and size of a tree-decomposition of the graph. The proposed algorithm generalizes nonlinear optimal-control methods based on LQR to general optimization problems and provides non-trivial gains in iteration-complexity even in cases where the Hessian is dense.
翻訳日:2021-08-04 23:40:49 公開日:2021-08-02
# (参考訳) 非重複データを用いたクロスドメインレコメンデーションのためのヒンジ損失に基づくコードブック転送

A Hinge-Loss based Codebook Transfer for Cross-Domain Recommendation with Nonoverlapping Data ( http://arxiv.org/abs/2108.01473v1 )

ライセンス: CC BY 4.0
Sowmini Devi Veeramachaneni, Arun K Pujari, Vineet Padmanabhan and Vikas Kumar(参考訳) Recommender System(RS)、特にコラボレーティブフィルタリング(CF)ベースのRSは、多くのeコマースアプリケーションにおいて重要な役割を担っている。 インターネット上で検索される情報が増えるにつれて、利用者は自分の興味のあるアイテムを見つけることが難しくなり、rsはそうしたタスクの助けとなることが多い。 近年の研究では、アイテムスペースが増加し、ユーザによって評価されるアイテムの数が大幅に減少するにつれて、スパーシリティのような問題が発生することが示されている。 疎度問題を緩和するために、疎度ドメイン(ソース)からのデータがスパースドメイン(ターゲット)の欠落するエントリを予測するために考慮される転送学習技術が用いられている。 本稿では,両ドメインがユーザとアイテムの重複を伴わない場合のドメイン間推薦のための転送学習手法を提案する。 我々のアプローチでは、ソースからターゲットドメインへの知識の転送は、新しい方法で行われます。 ソースドメインのコードブック(クラスタレベルレーティングパターン)を取得するために、共クラスタ技術を利用する。 ヒンジ損失関数を利用することで、学習したソースドメインのコードブックをターゲットに転送する。 ヒンジ損失を損失関数として用いることは新規であり、転送学習では試みられていない。 提案手法は,ベンチマークデータセット上でのターゲット行列の近似を改善することを実証する。

Recommender systems(RS), especially collaborative filtering(CF) based RS, has been playing an important role in many e-commerce applications. As the information being searched over the internet is rapidly increasing, users often face the difficulty of finding items of his/her own interest and RS often provides help in such tasks. Recent studies show that, as the item space increases, and the number of items rated by the users become very less, issues like sparsity arise. To mitigate the sparsity problem, transfer learning techniques are being used wherein the data from dense domain(source) is considered in order to predict the missing entries in the sparse domain(target). In this paper, we propose a transfer learning approach for cross-domain recommendation when both domains have no overlap of users and items. In our approach the transferring of knowledge from source to target domain is done in a novel way. We make use of co-clustering technique to obtain the codebook (cluster-level rating pattern) of source domain. By making use of hinge loss function we transfer the learnt codebook of the source domain to target. The use of hinge loss as a loss function is novel and has not been tried before in transfer learning. We demonstrate that our technique improves the approximation of the target matrix on benchmark datasets.
翻訳日:2021-08-04 23:30:31 公開日:2021-08-02
# (参考訳) ニューラルネットワークトレーニングのためのバッチ正規化事前条件

Batch Normalization Preconditioning for Neural Network Training ( http://arxiv.org/abs/2108.01110v1 )

ライセンス: CC BY 4.0
Susanna Lange, Kyle Helfrich, Qiang Ye(参考訳) バッチ正規化(BN)は、ディープラーニングにおいて一般的なユビキタスな手法であり、トレーニング時間を短縮し、ニューラルネットワークの一般化性能を向上させることが示されている。 その成功にもかかわらず、BNは理論的にはよく理解されていない。 非常に小さなミニバッチサイズやオンライン学習での使用には適していない。 本稿では,バッチ正規化事前条件(BNP)と呼ばれる新しい手法を提案する。 BNで行われているようなバッチ正規化層を明示的に正規化する代わりに、BNPはトレーニング中にパラメータ勾配を直接条件付けすることで正規化を適用する。 これは損失関数のヘッセン行列を改善するために設計され、訓練中に収束する。 1つの利点は、BNPがミニバッチサイズに制約されず、オンライン学習環境で機能することである。 さらに、BNとの接続は、BNがトレーニングをどのように改善し、BNが畳み込みニューラルネットワークのような特別なアーキテクチャに適用されるかに関する理論的洞察を提供する。

Batch normalization (BN) is a popular and ubiquitous method in deep learning that has been shown to decrease training time and improve generalization performance of neural networks. Despite its success, BN is not theoretically well understood. It is not suitable for use with very small mini-batch sizes or online learning. In this paper, we propose a new method called Batch Normalization Preconditioning (BNP). Instead of applying normalization explicitly through a batch normalization layer as is done in BN, BNP applies normalization by conditioning the parameter gradients directly during training. This is designed to improve the Hessian matrix of the loss function and hence convergence during training. One benefit is that BNP is not constrained on the mini-batch size and works in the online learning setting. Furthermore, its connection to BN provides theoretical insights on how BN improves training and how BN is applied to special architectures such as convolutional neural networks.
翻訳日:2021-08-04 23:18:46 公開日:2021-08-02
# (参考訳) ソナー画像の事前学習モデル

Pre-trained Models for Sonar Images ( http://arxiv.org/abs/2108.01111v1 )

ライセンス: CC BY 4.0
Matias Valdenegro-Toro and Alan Preciado-Grijalva and Bilal Wehbe(参考訳) 機械学習とニューラルネットワークは現在、ソナー知覚においてユビキタスだが、ソナー画像のためのデータや事前学習されたモデルがないため、コンピュータビジョン分野に遅れをとっている。 本稿では,Mine Debris Turntableデータセットを提示し,このデータセットでトレーニングしたトレーニング済みニューラルネットワークを生成し,ソナー画像の未学習モデルのギャップを埋めることを目的とした。 Resnet 20、MobileNets、DenseNet121、SqueezeNet、MiniXception、AutoencoderをMine Debrisのターンテーブルデータセット上で、32 x 32から96 x 96までの入力画像サイズでトレーニングしています。 また,gemini 720i ソナーを用いて収集したデータを用いて,低ショット分類のためのトランスファー・ラーニングを用いたモデルの評価を行った。 両データセットにおいて,事前学習したモデルが,低値 (クラス毎10~30サンプル) で良好な分類精度を達成できる優れた特徴を持つことを示す。 Geminiデータセットは、機能が他の種類のソナーセンサーに転送されることを検証する。 トレーニング済みのモデルとターンテーブルデータセットの公開リリースによるコミュニティのメリットを期待しています。

Machine learning and neural networks are now ubiquitous in sonar perception, but it lags behind the computer vision field due to the lack of data and pre-trained models specifically for sonar images. In this paper we present the Marine Debris Turntable dataset and produce pre-trained neural networks trained on this dataset, meant to fill the gap of missing pre-trained models for sonar images. We train Resnet 20, MobileNets, DenseNet121, SqueezeNet, MiniXception, and an Autoencoder, over several input image sizes, from 32 x 32 to 96 x 96, on the Marine Debris turntable dataset. We evaluate these models using transfer learning for low-shot classification in the Marine Debris Watertank and another dataset captured using a Gemini 720i sonar. Our results show that in both datasets the pre-trained models produce good features that allow good classification accuracy with low samples (10-30 samples per class). The Gemini dataset validates that the features transfer to other kinds of sonar sensors. We expect that the community benefits from the public release of our pre-trained models and the turntable dataset.
翻訳日:2021-08-04 23:17:46 公開日:2021-08-02
# (参考訳) 音声における助詞の自動認識

Automatic recognition of suprasegmentals in speech ( http://arxiv.org/abs/2108.01122v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Neville Ryant, Xingyu Cai, Kenneth Church, Mark Liberman(参考訳) 自動音声認識に成功しているCTCを用いた微調整wav2vec 2.0による上顎骨の自動認識の改善の試みを報告する。 本手法は,音節,音調,ピッチアクセントの自動認識における最先端性の向上を実証する。 声調最終音や声調音節を認識単位としてセグメント情報を利用することで、マンダリン音調認識を大幅に改善することができる。 言語モデルは、音節を認識単位として使用する場合に役立つが、音調が認識単位である場合には役に立たない。 最後に、マンダリン音の認識は、微調整wav2vec 2.0における2つのタスクを組み合わせることで、英語の音素認識の恩恵を受けることができる。

This study reports our efforts to improve automatic recognition of suprasegmentals by fine-tuning wav2vec 2.0 with CTC, a method that has been successful in automatic speech recognition. We demonstrate that the method can improve the state-of-the-art on automatic recognition of syllables, tones, and pitch accents. Utilizing segmental information, by employing tonal finals or tonal syllables as recognition units, can significantly improve Mandarin tone recognition. Language models are helpful when tonal syllables are used as recognition units, but not helpful when tones are recognition units. Finally, Mandarin tone recognition can benefit from English phoneme recognition by combing the two tasks in fine-tuning wav2vec 2.0.
翻訳日:2021-08-04 23:04:31 公開日:2021-08-02
# (参考訳) 統計および人工知能を用いた不正情報サイバー攻撃検出モデルの有効性

Efficacy of Statistical and Artificial Intelligence-based False Information Cyberattack Detection Models for Connected Vehicles ( http://arxiv.org/abs/2108.01124v1 )

ライセンス: CC BY 4.0
Sakib Mahmud Khan, Gurcan Comert, Mashrur Chowdhury(参考訳) 接続された車両(CV)は、他のCVや接続されたインフラとの外部接続のために、車両自体や他の接続された車両や道路インフラの安全性を即座に損なうサイバー攻撃に脆弱である。 そのようなサイバー攻撃の1つは偽情報攻撃であり、外部の攻撃者は接続された車両に不正確な情報を注入し、最終的には前方衝突警告のような安全クリティカルなアプリケーションを妥協することで破滅的な結果をもたらす。 このような攻撃イベントの発生とターゲットは非常にダイナミックであり、リアルタイムおよび準リアルタイム検出が困難になる。 変更点モデルは、偽の情報攻撃によるリアルタイム異常検出に使用できる。 本稿では,CVデータにおけるサイバー攻撃検出のための予測最大化,累積要約,ベイズオンライン変更点アルゴリズムの3つの変化点統計モデルの評価を行った。 また、データセットの既知のパターンや未知のパターンを検出するために使用できるデータ駆動人工知能(AI)モデルでは、CVデータ内のリアルタイム異常を検出する可能性がある。 我々は、6つのAIモデルを用いて偽情報攻撃を検出し、攻撃を検出する性能を、開発した変更点モデルと比較した。 本研究は,AIモデルの性能よりもリアルタイムの偽情報攻撃検出において,変化点モデルの方が優れていることを示す。 トレーニング要件のない変更点モデルは、接続された車両における偽情報攻撃検出のためのAIモデルに代わる、実現可能かつ計算的に効率的である。

Connected vehicles (CVs), because of the external connectivity with other CVs and connected infrastructure, are vulnerable to cyberattacks that can instantly compromise the safety of the vehicle itself and other connected vehicles and roadway infrastructure. One such cyberattack is the false information attack, where an external attacker injects inaccurate information into the connected vehicles and eventually can cause catastrophic consequences by compromising safety-critical applications like the forward collision warning. The occurrence and target of such attack events can be very dynamic, making real-time and near-real-time detection challenging. Change point models, can be used for real-time anomaly detection caused by the false information attack. In this paper, we have evaluated three change point-based statistical models; Expectation Maximization, Cumulative Summation, and Bayesian Online Change Point Algorithms for cyberattack detection in the CV data. Also, data-driven artificial intelligence (AI) models, which can be used to detect known and unknown underlying patterns in the dataset, have the potential of detecting a real-time anomaly in the CV data. We have used six AI models to detect false information attacks and compared the performance for detecting the attacks with our developed change point models. Our study shows that change points models performed better in real-time false information attack detection compared to the performance of the AI models. Change point models having the advantage of no training requirements can be a feasible and computationally efficient alternative to AI models for false information attack detection in connected vehicles.
翻訳日:2021-08-04 22:52:24 公開日:2021-08-02
# (参考訳) 自律走行車交通画像分類のためのハイブリッド古典量子深層学習モデル

Hybrid Classical-Quantum Deep Learning Models for Autonomous Vehicle Traffic Image Classification Under Adversarial Attack ( http://arxiv.org/abs/2108.01125v1 )

ライセンス: CC BY 4.0
Reek Majumder, Sakib Mahmud Khan, Fahim Ahmed, Zadid Khan, Frank Ngeni, Gurcan Comert, Judith Mwakalonge, Dimitra Michalaka, Mashrur Chowdhury(参考訳) 画像分類は、公道で走行する自動運転車(AV)に対して有効であり、画像誤分類に基づく行動は深刻な結果をもたらす可能性がある。 トラフィックサイン画像は、AVがトラフィックサイン認識に使用している機械学習モデルに対する敵攻撃によって、誤って分類することができる。 敵の攻撃に対してレジリエントな分類モデルを構築するために,量子層と古典層の両方を持つハイブリッドディープラーニングモデルを用いた。 我々の目標は、中規模量子技術の現在をサポートするために、古典量子移動学習モデルのハイブリッドディープラーニングアーキテクチャの研究である。 我々はこれらのハイブリッドモデルに対する様々なホワイトボックス攻撃の影響を評価した。 ハイブリッドモデルの古典的な部分は、事前訓練されたResnet18モデルからの畳み込みネットワークを含み、高次元LISAトラフィックサイン画像データセットから情報的特徴を抽出する。 古典的プロセッサからの出力は、様々な量子ゲートからなる量子層を通してさらに処理され、絡み合いや重ね合わせのような様々な量子力学的特徴をサポートする。 我々は,複数の量子回路の組み合わせをテストして,トレーニングデータの削減による分類精度の向上と,攻撃時の古典量子深層学習モデルに対するレジリエンスの向上を検証した。

Image classification must work for autonomous vehicles (AV) operating on public roads, and actions performed based on image misclassification can have serious consequences. Traffic sign images can be misclassified by an adversarial attack on machine learning models used by AVs for traffic sign recognition. To make classification models resilient against adversarial attacks, we used a hybrid deep-learning model with both the quantum and classical layers. Our goal is to study the hybrid deep-learning architecture for classical-quantum transfer learning models to support the current era of intermediate-scale quantum technology. We have evaluated the impacts of various white box adversarial attacks on these hybrid models. The classical part of hybrid models includes a convolution network from the pre-trained Resnet18 model, which extracts informative features from a high dimensional LISA traffic sign image dataset. The output from the classical processor is processed further through the quantum layer, which is composed of various quantum gates and provides support to various quantum mechanical features like entanglement and superposition. We have tested multiple combinations of quantum circuits to provide better classification accuracy with decreasing training data and found better resiliency for our hybrid classical-quantum deep learning model during attacks compared to the classical-only machine learning models.
翻訳日:2021-08-04 22:37:19 公開日:2021-08-02
# (参考訳) インシデント検出のためのハイブリッド量子古典ニューラルネットワーク

Hybrid Quantum-Classical Neural Network for Incident Detection ( http://arxiv.org/abs/2108.01127v1 )

ライセンス: CC BY 4.0
Zadid Khan, Sakib Mahmud Khan, Jean Michel Tine, Ayse Turhan Comert, Diamon Rice, Gurcan Comert, Dimitra Michalaka, Judith Mwakalonge, Reek Majumdar, Mashrur Chowdhury(参考訳) リアルタイムインシデント検出モデルの効率と信頼性は、影響を受ける廊下の交通安全と運用条件に直接影響する。 最近のクラウドベースの量子コンピューティングインフラストラクチャの出現と、ノイズの多い中間スケール量子デバイスにおけるイノベーションにより、リアルタイムインシデント検出精度を向上させるために活用できる量子エンハンスアルゴリズムの新しい時代が明らかになった。 本研究では、古典的および量子機械学習(ML)モデルを含むハイブリッド機械学習モデルを開発し、コネクテッドカー(CV)データを用いてインシデントを特定する。 ハイブリッドモデルのインシデント検出性能を,ベースライン古典MLモデルに対して評価した。 このフレームワークは、様々なインシデントシナリオのためのマイクロシミュレーションツールのデータを用いて評価される。 その結果,4量子ビットの量子層を含むハイブリッドニューラルネットワークは,トレーニングデータがない場合には,他のベースラインモデルよりも優れていることがわかった。 十分なトレーニングデータを持つds-1,トレーニングデータ不足のds-2,ds-3の3つのデータセットを作成した。 ハイブリッドモデルは、それぞれDS-1、DS-2、DS-3の98.9%、98.3%、96.6%のリコールを達成する。 ds-2とds-3では、ハイブリッドモデルによって達成されたf2-score(インシデントを正確に識別するためのモデルの性能)は、古典的なモデルと比較してそれぞれ1.9%と7.8%であった。 これは、cvsに共通するデータ不足により、ハイブリッドmlモデルが従来のモデルよりもパフォーマンスが向上することを示している。 量子コンピューティングインフラストラクチャの継続的な改善により、利用可能なデータが不十分な場合、量子MLモデルはCV関連のアプリケーションにとって有望な代替となる可能性がある。

The efficiency and reliability of real-time incident detection models directly impact the affected corridors' traffic safety and operational conditions. The recent emergence of cloud-based quantum computing infrastructure and innovations in noisy intermediate-scale quantum devices have revealed a new era of quantum-enhanced algorithms that can be leveraged to improve real-time incident detection accuracy. In this research, a hybrid machine learning model, which includes classical and quantum machine learning (ML) models, is developed to identify incidents using the connected vehicle (CV) data. The incident detection performance of the hybrid model is evaluated against baseline classical ML models. The framework is evaluated using data from a microsimulation tool for different incident scenarios. The results indicate that a hybrid neural network containing a 4-qubit quantum layer outperforms all other baseline models when there is a lack of training data. We have created three datasets; DS-1 with sufficient training data, and DS-2 and DS-3 with insufficient training data. The hybrid model achieves a recall of 98.9%, 98.3%, and 96.6% for DS-1, DS-2, and DS-3, respectively. For DS-2 and DS-3, the average improvement in F2-score (measures model's performance to correctly identify incidents) achieved by the hybrid model is 1.9% and 7.8%, respectively, compared to the classical models. It shows that with insufficient data, which may be common for CVs, the hybrid ML model will perform better than the classical models. With the continuing improvements of quantum computing infrastructure, the quantum ML models could be a promising alternative for CV-related applications when the available data is insufficient.
翻訳日:2021-08-04 22:25:43 公開日:2021-08-02
# (参考訳) マンダリンASRにおける脱カップリング認識と転写

Decoupling recognition and transcription in Mandarin ASR ( http://arxiv.org/abs/2108.01129v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Dongji Gao, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 近年の音声認識(ASR)に関する文献の多くは、エンドツーエンドのアプローチを採っている。 文字体系が音と密接に関連している英語とは異なり、漢字(ハンジー)は音ではなく意味を表す。 本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。 オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。

Much of the recent literature on automatic speech recognition (ASR) is taking an end-to-end approach. Unlike English where the writing system is closely related to sound, Chinese characters (Hanzi) represent meaning, not sound. We propose factoring audio -> Hanzi into two sub-tasks: (1) audio -> Pinyin and (2) Pinyin -> Hanzi, where Pinyin is a system of phonetic transcription of standard Chinese. Factoring the audio -> Hanzi task in this way achieves 3.9% CER (character error rate) on the Aishell-1 corpus, the best result reported on this dataset so far.
翻訳日:2021-08-04 22:15:50 公開日:2021-08-02
# (参考訳) 音声感情認識における音素単位の役割

The Role of Phonetic Units in Speech Emotion Recognition ( http://arxiv.org/abs/2108.01132v1 )

ライセンス: CC BY 4.0
Jiahong Yuan, Xingyu Cai, Renjie Zheng, Liang Huang, Kenneth Church(参考訳) 本稿では,Wav2vec 2.0を用いた感情依存音声認識による感情認識手法を提案する。 提案手法は,ベンチマーク感情データセットであるIEMOCAPにおいて,これまでに報告された結果よりも大幅に改善された。 データセットや言語間の感情認識の正確性と堅牢性の観点から異なるタイプの音声単位が採用され、比較される。 音素モデル,幅広い音韻クラス,音節のモデルは全て発話モデルを大幅に上回り,音声単位が有効であり,音声感情認識に組み込むべきであることを示す。 最高のパフォーマンスは、幅広い音素クラスを使用することです。 感情認識タスクのための幅広い音韻クラスを最適なものにするには、さらなる研究が必要である。 最後に、wav2vec 2.0を微調整することで、音素よりも粗い音素単位や大きな音素単位を認識できることがわかりました。

We propose a method for emotion recognition through emotiondependent speech recognition using Wav2vec 2.0. Our method achieved a significant improvement over most previously reported results on IEMOCAP, a benchmark emotion dataset. Different types of phonetic units are employed and compared in terms of accuracy and robustness of emotion recognition within and across datasets and languages. Models of phonemes, broad phonetic classes, and syllables all significantly outperform the utterance model, demonstrating that phonetic units are helpful and should be incorporated in speech emotion recognition. The best performance is from using broad phonetic classes. Further research is needed to investigate the optimal set of broad phonetic classes for the task of emotion recognition. Finally, we found that Wav2vec 2.0 can be fine-tuned to recognize coarser-grained or larger phonetic units than phonemes, such as broad phonetic classes and syllables.
翻訳日:2021-08-04 21:59:42 公開日:2021-08-02
# (参考訳) 映像中の移動物体の連続深さ

Consistent Depth of Moving Objects in Video ( http://arxiv.org/abs/2108.01166v1 )

ライセンス: CC BY 4.0
Zhoutong Zhang, Forrester Cole, Richard Tucker, William T. Freeman, Tali Dekel(参考訳) 移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。 フレーム間の対応する点の深さ予測は、3次元において可塑性で滑らかな運動を誘導すべきである。 我々は、この目的を、入力ビデオ全体にわたって補助的なシーンフロー予測MLPを用いて、深度予測CNNをタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。 異なる時間ステップでシーンフロー予測MLPを逐次アンロールすることで、局所的なスムーズな動きを3Dに直接課すショートレンジシーンフローと、広いベースラインで複数ビューの整合性制約を課すロングレンジシーンフローの両方を計算する。 様々な移動物体(ペット、人間、車)やカメラの動きを含む様々な挑戦的なビデオで、正確かつ時間的に一貫性のある結果を示す。 深度マップは、物体や照明の挿入など、奥行きと動きを認識したビデオ編集効果を数多く生み出す。

We present a method to estimate depth of a dynamic scene, containing arbitrary moving objects, from an ordinary video captured with a moving camera. We seek a geometrically and temporally consistent solution to this underconstrained problem: the depth predictions of corresponding points across frames should induce plausible, smooth motion in 3D. We formulate this objective in a new test-time training framework where a depth-prediction CNN is trained in tandem with an auxiliary scene-flow prediction MLP over the entire input video. By recursively unrolling the scene-flow prediction MLP over varying time steps, we compute both short-range scene flow to impose local smooth motion priors directly in 3D, and long-range scene flow to impose multi-view consistency constraints with wide baselines. We demonstrate accurate and temporally coherent results on a variety of challenging videos containing diverse moving objects (pets, people, cars), as well as camera motion. Our depth maps give rise to a number of depth-and-motion aware video editing effects such as object and lighting insertion.
翻訳日:2021-08-04 21:51:25 公開日:2021-08-02
# (参考訳) 説明可能なAIのための知識集約型言語理解

Knowledge-intensive Language Understanding for Explainable AI ( http://arxiv.org/abs/2108.01174v1 )

ライセンス: CC BY 4.0
Amit Sheth, Manas Gaur, Kaushik Roy, Keyur Faldu(参考訳) aiシステムは様々な領域で広く採用されている。 同時に、一部のドメインでのさらなる採用は、AIシステムが人間に害を与えないように完全に信頼できないために妨げられている。 公平性、プライバシ、透明性、説明可能性に関する懸念に加えて、AIシステムにおける信頼を開発する上でも重要だ。 信頼できるAIについて述べたように、トラストは理解によって生まれる。 AI主導の意思決定の仕方と、どの決定要因が含まれているかを理解することが不可欠である。 AIシステムを説明するサブ領域はXAIとして知られるようになった。 AIシステムの複数の側面の説明には、データの持つ可能性のあるバイアス、サンプルスペースの特定の領域におけるデータポイントの欠如、データ収集の公正性、機能の重要性などが含まれる。 しかし、これらに加えて、ドメインの専門家が「ドメイン知識」に基づいて意思決定を行う方法と同様に、意思決定に直接関係する人間中心の説明を持つことが重要である。 aiシステムの信頼性向上につながるaiシステムの成果(分類、推奨、予測など)を理解し検証するには、人間が理解し、使用する明示的なドメイン知識が必要となる。

AI systems have seen significant adoption in various domains. At the same time, further adoption in some domains is hindered by inability to fully trust an AI system that it will not harm a human. Besides the concerns for fairness, privacy, transparency, and explainability are key to developing trusts in AI systems. As stated in describing trustworthy AI "Trust comes through understanding. How AI-led decisions are made and what determining factors were included are crucial to understand." The subarea of explaining AI systems has come to be known as XAI. Multiple aspects of an AI system can be explained; these include biases that the data might have, lack of data points in a particular region of the example space, fairness of gathering the data, feature importances, etc. However, besides these, it is critical to have human-centered explanations that are directly related to decision-making similar to how a domain expert makes decisions based on "domain knowledge," that also include well-established, peer-validated explicit guidelines. To understand and validate an AI system's outcomes (such as classification, recommendations, predictions), that lead to developing trust in the AI system, it is necessary to involve explicit domain knowledge that humans understand and use.
翻訳日:2021-08-04 21:30:22 公開日:2021-08-02
# (参考訳) NLG出力におけるエラーのアンダーレポートとその対策

Underreporting of errors in NLG output, and what to do about it ( http://arxiv.org/abs/2108.01182v1 )

ライセンス: CC BY 4.0
Emiel van Miltenburg, Miruna-Adriana Clinciu, Ond\v{r}ej Du\v{s}ek, Dimitra Gkatzia, Stephanie Inglis, Leo Lepp\"anen, Saad Mahamood, Emma Manning, Stephanie Schoch, Craig Thomson, Luou Wen(参考訳) 我々は,自然言語生成システムで発生するさまざまなエラーについて,厳密なアンダーレポーティングを観察する。 なぜなら、ミスはシステムがまだ改善されるべき場所を示す重要な指標だからです。 著者が全体的なパフォーマンス指標を報告していない場合、研究コミュニティは‘最先端’の研究によって示される特定の弱点について暗黙に残されている。 過誤報告の度合いを定量化するために,本研究では,誤りの特定,解析,報告を推奨する。

We observe a severe under-reporting of the different kinds of errors that Natural Language Generation systems make. This is a problem, because mistakes are an important indicator of where systems should still be improved. If authors only report overall performance metrics, the research community is left in the dark about the specific weaknesses that are exhibited by `state-of-the-art' research. Next to quantifying the extent of error under-reporting, this position paper provides recommendations for error identification, analysis and reporting.
翻訳日:2021-08-04 21:22:16 公開日:2021-08-02
# (参考訳) 量子化に基づくエッジの多目的リカレントニューラルネットワーク最適化

Multi-objective Recurrent Neural Networks Optimization for the Edge -- a Quantization-based Approach ( http://arxiv.org/abs/2108.01192v1 )

ライセンス: CC BY 4.0
Nesma M. Rezk, Tomas Nordstr\"om, Dimitrios Stathis, Zain Ul-Abdin, Eren Erdal Aksoy, Ahmed Hemani(参考訳) ディープラーニングモデルの圧縮は、このようなモデルをエッジデバイスにデプロイする上で、極めて重要である。 圧縮中にハードウェアモデルとアプリケーション制約を組み込むことは利点を最大化するが、特定のケースのために特別に設計する。 したがって圧縮を自動化する必要がある。 最適圧縮法パラメータの探索は最適化問題と考えられる。 本稿では,ハードウェア効率と推論誤差を混合精度量子化の目的とする多目的ハードウェアアウェア量子化(mohaq)手法を提案する。 提案手法は,2つのステップに依存して,大規模検索空間における候補解の評価を可能にする。 まず, 学習後の量子化を高速解法評価に適用する。 第二に,検索空間内でのみ選択された解を学習し,ビーコンとして利用し,他の解に対する再学習の効果を知るための検索手法「ビーコン検索」を提案する。 最適化ポテンシャルを評価するために,timitデータセットを用いた音声認識モデルを選択した。 このモデルは、他のリカレントユニットよりもかなりスピードアップするため、Simple Recurrent Unit (SRU) に基づいている。 提案手法をSiLagoとBitfusionの2つのプラットフォーム上での動作に適用した。 実験評価の結果, sru は誤差の大幅な増加を伴わず, 最大 12 倍まで圧縮でき, 誤差は 1.5 % の誤差増加に留まらず, 最大 8 倍まで圧縮できることがわかった。 シアゴでは、推論のみの探索により、最大速度アップと省エネルギーのそれぞれ80\%と64\%を達成する解を見つけ、誤差は0.5%増加した。 ビットフュージョンでは、sramサイズが小さい制約により、ビーコンベースの検索は推論のみ検索のエラーゲインを4ポイント減らし、ビットフュージョンのベースラインと比較して最大速度が47倍に向上した。

The compression of deep learning models is of fundamental importance in deploying such models to edge devices. Incorporating hardware model and application constraints during compression maximizes the benefits but makes it specifically designed for one case. Therefore, the compression needs to be automated. Searching for the optimal compression method parameters is considered an optimization problem. This article introduces a Multi-Objective Hardware-Aware Quantization (MOHAQ) method, which considers both hardware efficiency and inference error as objectives for mixed-precision quantization. The proposed method makes the evaluation of candidate solutions in a large search space feasible by relying on two steps. First, post-training quantization is applied for fast solution evaluation. Second, we propose a search technique named "beacon-based search" to retrain selected solutions only in the search space and use them as beacons to know the effect of retraining on other solutions. To evaluate the optimization potential, we chose a speech recognition model using the TIMIT dataset. The model is based on Simple Recurrent Unit (SRU) due to its considerable speedup over other recurrent units. We applied our method to run on two platforms: SiLago and Bitfusion. Experimental evaluations showed that SRU can be compressed up to 8x by post-training quantization without any significant increase in the error and up to 12x with only a 1.5 percentage point increase in error. On SiLago, the inference-only search found solutions that achieve 80\% and 64\% of the maximum possible speedup and energy saving, respectively, with a 0.5 percentage point increase in the error. On Bitfusion, with a constraint of a small SRAM size, beacon-based search reduced the error gain of inference-only search by 4 percentage points and increased the possible reached speedup to be 47x compared to the Bitfusion baseline.
翻訳日:2021-08-04 21:05:04 公開日:2021-08-02
# (参考訳) Multispectral Vineyard Segmentation: ディープラーニングアプローチ

Multispectral Vineyard Segmentation: A Deep Learning approach ( http://arxiv.org/abs/2108.01200v1 )

ライセンス: CC BY 4.0
T. Barros, P. Conde, G. Gon\c{c}alves, C. Premebida, M. Monteiro, C.S.S. Ferreira, U.J. Nunes(参考訳) デジタル農業は、地中海地域の関連作物であるブドウ園を含む農業分野に適用される自動化と計算知能の技術的発展により、ここ数年で大きく発展してきた。 本稿では, 実世界のブドウ畑におけるワイン検出のためのセマンティックセグメンテーションについて, 最先端のディープセグメンテーションネットワークと従来の教師なし手法を探索して検討する。 カメラデータは、高解像度カラーカメラと5バンドマルチスペクトル熱カメラを備えたデュアルイメージングセンサーペイロードを備えた無人航空システム(UAS)を用いて、ブドウ園で収集された。 ポルトガル中部の3つの異なるブドウ畑を表すマルチモーダルデータセットでは、セグメンテーションネットワークと教師なしの方法の広範な実験が行われている。 また,NIRバンドを用いた従来の(ディープでない)アプローチは競争力のある結果を示した。 また, マルチモーダリティはブドウのセグメンテーションの性能をわずかに向上させるが, NIRスペクトルだけではほとんどのデータセットで十分であることがわかった。 コードとデータセットは、 \url{https://github.com/Cybonic/DL_vineyard_segmentation_study.gitで公開されている。

Digital agriculture has evolved significantly over the last few years due to the technological developments in automation and computational intelligence applied to the agricultural sector, including vineyards which are a relevant crop in the Mediterranean region. In this paper, a study of semantic segmentation for vine detection in real-world vineyards is presented by exploring state-of-the-art deep segmentation networks and conventional unsupervised methods. Camera data was collected on vineyards using an Unmanned Aerial System (UAS) equipped with a dual imaging sensor payload, namely a high-resolution color camera and a five-band multispectral and thermal camera. Extensive experiments of the segmentation networks and unsupervised methods have been performed on multimodal datasets representing three distinct vineyards located in the central region of Portugal. The reported results indicate that the best segmentation performances are obtained with deep networks, while traditional (non-deep) approaches using the NIR band shown competitive results. The results also show that multimodality slightly improves the performance of vine segmentation but the NIR spectrum alone generally is sufficient on most of the datasets. The code and dataset are publicly available on \url{https://github.com/Cybonic/DL_vineyard_segmentation_study.git
翻訳日:2021-08-04 20:41:42 公開日:2021-08-02
# PyEuroVoc: EuroVoc記述子を用いた多言語法的文書分類ツール

PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors ( http://arxiv.org/abs/2108.01139v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Vasile Pais, Dan Tufis(参考訳) EuroVocは欧州連合の機関の立法文書を整理するために作られた多言語シソーラスである。 特殊性の異なるレベルにある何千ものカテゴリを含み、記述者はおよそ30の言語で法的文書によって標的にされている。 本研究では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語を対象としたEuroVoc分類のための統一フレームワークを提案する。 我々は、トレーニングされたモデルの性能を広範囲に研究し、同じデータセット上で、同様のツールであるJEXによって得られた結果が大幅に改善されたことを示す。 コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。

EuroVoc is a multilingual thesaurus that was built for organizing the legislative documentary of the European Union institutions. It contains thousands of categories at different levels of specificity and its descriptors are targeted by legal texts in almost thirty languages. In this work we propose a unified framework for EuroVoc classification on 22 languages by fine-tuning modern Transformer-based pretrained language models. We study extensively the performance of our trained models and show that they significantly improve the results obtained by a similar tool - JEX - on the same dataset. The code and the fine-tuned models were open sourced, together with a programmatic interface that eases the process of loading the weights of a trained model and of classifying a new document.
翻訳日:2021-08-04 14:10:57 公開日:2021-08-02
# BiLSTMに基づく機械学習によるアラビア語のソフトスペル誤りの訂正

Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine Learning ( http://arxiv.org/abs/2108.01141v1 )

ライセンス: Link先を確認
Gheith A. Abandah, Ashraf Suyyagh, Mohammed Z. Khedher(参考訳) ソフトスペル誤り(Soft spelling error)とは、アラビア語話者や外国語学習者の間で広く見られる綴りミスの一種である。 これらの誤りのいくつかは、自然界におけるタイポグラフィ的である。 アラビア文字の正書法的なバリエーションと、それらの正しい用法を規定する複雑な規則が原因である。 多くの人々がこれらの規則を禁止し、同じ音質の音をすると、しばしばそのような文字を混同する。 本稿では,このタイプの誤りを訂正する双方向長短期記憶ネットワークを提案する。 我々は一連のBiLSTMネットワークを開発し、訓練し、評価し、比較する。 我々は文字レベルでスペル補正問題にアプローチする。 我々は古典と現代の両方のアラビア語のテキストを扱う。 我々はこの問題を1対1のシーケンス転写問題として扱う。 ソフトアラビアエラークラスは, 1対1のシーケンス転写を保存するために, 欠落と加算ミスを包含するので, 1対1のシーケンシングを維持し, コストのかかるエンコーダ-デコーダアーキテクチャを使わない, 簡単な低リソースかつ効果的な手法を提案する。 我々は、変換入力と確率的エラーインジェクションアプローチを用いてスペルミスを修正するためにbilstmモデルを訓練する。 2つのBiLSTMレイヤを持ち、ドロップアウト正規化を使用し、エラー注入率40%の後者のトレーニングアプローチを用いてトレーニングされる構成を推奨する。 最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%低い文字誤り率を達成する。

Soft spelling errors are a class of spelling mistakes that is widespread among native Arabic speakers and foreign learners alike. Some of these errors are typographical in nature. They occur due to orthographic variations of some Arabic letters and the complex rules that dictate their correct usage. Many people forgo these rules, and given the identical phonetic sounds, they often confuse such letters. In this paper, we propose a bidirectional long short-term memory network that corrects this class of errors. We develop, train, evaluate, and compare a set of BiLSTM networks. We approach the spelling correction problem at the character level. We handle Arabic texts from both classical and modern standard Arabic. We treat the problem as a one-to-one sequence transcription problem. Since the soft Arabic errors class encompasses omission and addition mistakes, to preserve the one-to-one sequence transcription, we propose a simple low-resource yet effective technique that maintains the one-to-one sequencing and avoids using a costly encoder-decoder architecture. We train the BiLSTM models to correct the spelling mistakes using transformed input and stochastic error injection approaches. We recommend a configuration that has two BiLSTM layers, uses the dropout regularization, and is trained using the latter training approach with error injection rate of 40%. The best model corrects 96.4% of the injected errors and achieves a low character error rate of 1.28% on a real test set of soft spelling mistakes.
翻訳日:2021-08-04 14:08:32 公開日:2021-08-02
# RareDis corpus: まれな疾患, その徴候, 症状を注記したコーパス

The RareDis corpus: a corpus annotated with rare diseases, their signs and symptoms ( http://arxiv.org/abs/2108.01204v1 )

ライセンス: Link先を確認
Claudia Mart\'inez-deMiguel and Isabel Segura-Bedmar and Esteban Chac\'on-Solano and Sara Guerrero-Aspizua(参考訳) RareDis corpus には5,000以上の稀な疾患があり、約6,000の臨床症状が注記されている。 さらに、インターアノテータ協定の評価は比較的高い合意を示している(F1-measure is equal to 83.5% under exact Match criteria for the entity and equal to 81.3% for the relations)。 これらの結果から, このコーパスは高品質であり, 稀な疾患に注がれたコーパスが不足しているため, この分野にとって重要なステップとなる。 これにより、これらの稀な疾患の診断と治療を容易にし、これらの患者の生活の質を劇的に改善するNLPのさらなる応用への扉を開くことができる。

The RareDis corpus contains more than 5,000 rare diseases and almost 6,000 clinical manifestations are annotated. Moreover, the Inter Annotator Agreement evaluation shows a relatively high agreement (F1-measure equal to 83.5% under exact match criteria for the entities and equal to 81.3% for the relations). Based on these results, this corpus is of high quality, supposing a significant step for the field since there is a scarcity of available corpus annotated with rare diseases. This could open the door to further NLP applications, which would facilitate the diagnosis and treatment of these rare diseases and, therefore, would improve dramatically the quality of life of these patients.
翻訳日:2021-08-04 14:08:08 公開日:2021-08-02
# グラフサイド情報を用いた多腕バンディットの純粋探査

Pure Exploration in Multi-armed Bandits with Graph Side Information ( http://arxiv.org/abs/2108.01152v1 )

ライセンス: Link先を確認
Parth K.Thaker, Nikhil Rao, Mohit Malu, Gautam Dasarathy(参考訳) グラフ側情報を用いたマルチアームバンディットの純粋探索について検討する。 特に、与えられた任意のグラフに対してアーム報酬が滑らかであるという仮定の下で、固定信頼設定における最高のアーム(および最良に近いアーム)識別問題を考える。 これは、検討中のオプションやアクションの類似性に関する情報をしばしば持っている現実世界の純粋な爆発シナリオを捉えている。 本稿では,この問題に対する新しいアルゴリズムgrub(graph based ucb)を提案し,その性能を理論的に評価し,グラフ側情報の有効性を明らかにした。 この理論を実験結果で補完し, 利用可能なグラフサイド情報を利用することで, 純粋な探索手法よりも大幅に改善できることを示す。

We study pure exploration in multi-armed bandits with graph side-information. In particular, we consider the best arm (and near-best arm) identification problem in the fixed confidence setting under the assumption that the arm rewards are smooth with respect to a given arbitrary graph. This captures a range of real world pure-exploration scenarios where one often has information about the similarity of the options or actions under consideration. We propose a novel algorithm GRUB (GRaph based UcB) for this problem and provide a theoretical characterization of its performance that elicits the benefit of the graph-side information. We complement our theory with experimental results that show that capitalizing on available graph side information yields significant improvements over pure exploration methods that are unable to use this information.
翻訳日:2021-08-04 14:06:55 公開日:2021-08-02
# 制約付きマルチクリトリアパスプラニングの学習による予測

Learning-based Preference Prediction for Constrained Multi-Criteria Path-Planning ( http://arxiv.org/abs/2108.01080v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Andrei Bursuc, Tristan Cazenave and Eric Jacopin(参考訳) 単一基準最適化問題における探索アルゴリズムでは,学習に基づく手法がますます普及している。 対照的に、多重基準最適化には、多くのアプリケーションが存在するにもかかわらず、アプローチが著しく少ない。 自律地上車両(AGV)のための制約された経路計画(Constrained path-planning for autonomous Ground Vehicles,AGV)は、一般に、災害救助や災害救助の目的で、オフロード環境においてAGVが展開される。 エージェントは以下のジレンマに直面することができる: 既知の基準に従ってソース決定経路を最適化し、運用上の制約の下で不確実な基準を満たす。 既知の基準は、距離を表すパスのコストに関連付けられている。 不確かな基準は、人間の介入を必要とせずに経路を走行する可能性を示す。 これは、車両の物理、探索された地形の状態、気象条件など、様々な外部パラメータに依存する。 本研究では,オフラインシミュレーションによって得られた知識を,不確実性を予測するためにニューラルネットワークモデルをトレーニングすることで活用する。 このモデルをパスプランナーに統合し、オンラインで問題を解決します。 最後に,現実的なAGVシナリオの実験を行い,提案手法では人的介入の頻度を低くし,経路距離を限定的に増加させる。

Learning-based methods are increasingly popular for search algorithms in single-criterion optimization problems. In contrast, for multiple-criteria optimization there are significantly fewer approaches despite the existence of numerous applications. Constrained path-planning for Autonomous Ground Vehicles (AGV) is one such application, where an AGV is typically deployed in disaster relief or search and rescue applications in off-road environments. The agent can be faced with the following dilemma : optimize a source-destination path according to a known criterion and an uncertain criterion under operational constraints. The known criterion is associated to the cost of the path, representing the distance. The uncertain criterion represents the feasibility of driving through the path without requiring human intervention. It depends on various external parameters such as the physics of the vehicle, the state of the explored terrains or weather conditions. In this work, we leverage knowledge acquired through offline simulations by training a neural network model to predict the uncertain criterion. We integrate this model inside a path-planner which can solve problems online. Finally, we conduct experiments on realistic AGV scenarios which illustrate that the proposed framework requires human intervention less frequently, trading for a limited increase in the path distance.
翻訳日:2021-08-04 14:05:33 公開日:2021-08-02
# 連系・自律型自動車充電におけるリスク対応学習システム

Risk Adversarial Learning System for Connected and Autonomous Vehicle Charging ( http://arxiv.org/abs/2108.01466v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Ki Tae Kim, Kyi Thar, Dusit Niyato, and Choong Seon Hong(参考訳) 本稿では,コネクテッド・自動運転車充電インフラ(CAV-CI)のための合理的意思決定支援システム(RDSS)の設計について述べる。 検討されたCAV-CIでは、配電システムオペレーター(DSO)が電気自動車供給装置(EVSE)を配備し、人間駆動のコネクテッドカー(CV)と自動運転車(AV)のためのEV充電設備を提供する。 人力EVによる充電要求は、実際の需要よりもエネルギーと充電時間を必要とすると不合理になる。 したがって、各EVSEのスケジューリングポリシーは、CVとAVの両方の充電要求を満たすために、不合理充電要求を適応的に蓄積しなければならない。 そこで, DSOにおけるRDSS問題を定式化し, DSOの遅延リスクを満たすことにより充電能力利用を最大化することを目的とする。 そこで我々は,データインフォームド方式でCVによる不合理な動作に適応する合理的報酬最大化問題を考案した。 本稿では, 定式化rdss問題を解くために, cav-ci のリスク回避型マルチエージェント学習システム (ramals) を提案する。 RAMALSでは、DSOは各EVSEに毒性リスクを知らせる集中型リスク対抗剤(RAA)として機能する。 その後、各EVSEは自己学習エージェントの役割を担い、RAAからのアドバイスに対処することで、自身のEVセッションを適応的にスケジュールする。 実験の結果、提案されたRAMALSは充電速度が46.6%向上し、EVSEのアクティブ充電時間は約28.6%改善し、現在展開されているACN EVSEシステムや他のベースラインと比較して少なくとも33.3%のエネルギー利用が可能であることが示された。

In this paper, the design of a rational decision support system (RDSS) for a connected and autonomous vehicle charging infrastructure (CAV-CI) is studied. In the considered CAV-CI, the distribution system operator (DSO) deploys electric vehicle supply equipment (EVSE) to provide an EV charging facility for human-driven connected vehicles (CVs) and autonomous vehicles (AVs). The charging request by the human-driven EV becomes irrational when it demands more energy and charging period than its actual need. Therefore, the scheduling policy of each EVSE must be adaptively accumulated the irrational charging request to satisfy the charging demand of both CVs and AVs. To tackle this, we formulate an RDSS problem for the DSO, where the objective is to maximize the charging capacity utilization by satisfying the laxity risk of the DSO. Thus, we devise a rational reward maximization problem to adapt the irrational behavior by CVs in a data-informed manner. We propose a novel risk adversarial multi-agent learning system (RAMALS) for CAV-CI to solve the formulated RDSS problem. In RAMALS, the DSO acts as a centralized risk adversarial agent (RAA) for informing the laxity risk to each EVSE. Subsequently, each EVSE plays the role of a self-learner agent to adaptively schedule its own EV sessions by coping advice from RAA. Experiment results show that the proposed RAMALS affords around 46.6% improvement in charging rate, about 28.6% improvement in the EVSE's active charging time and at least 33.3% more energy utilization, as compared to a currently deployed ACN EVSE system, and other baselines.
翻訳日:2021-08-04 14:04:39 公開日:2021-08-02
# 神経線維経路モデリングのための計算幾何学的アプローチ

A computational geometry approach for modeling neuronal fiber pathways ( http://arxiv.org/abs/2108.01175v1 )

ライセンス: Link先を確認
S. Shailja, Angela Zhang, and B.S. Manjunath(参考訳) 神経線維の高レベルトポロジー構造をモデル化する新規で効率的なアルゴリズムを提案する。 トラクトグラフィーは、脳内の白質経路の幾何学を示す3次元の複雑な神経線維を構成する。 しかし,ほとんどのトラクトグラフィー解析手法は時間がかかり,難易度が高い。 ホワイトマターファイバの接続を容易にすることを目的とした,計算幾何学に基づくトラクトグラフィー表現を開発した。 神経線維経路の軌跡から、幾何学的に重要な事象を符号化し、3次元脳空間における点対応を計算する軌跡の進化をモデル化する。 軌道間距離は、トラクトグラムの局所的あるいは大域的表現を可能にするモデルの粒度を制御するパラメータとして用いられる。 アルツハイマー病患者研究の拡散mriデータを用いて, 本モデルから気道像の特徴を抽出し, アルツハイマー病患者を正常なコントロールと区別する。 アルゴリズムのソフトウェア実装はgithubで公開されている。

We propose a novel and efficient algorithm to model high-level topological structures of neuronal fibers. Tractography constructs complex neuronal fibers in three dimensions that exhibit the geometry of white matter pathways in the brain. However, most tractography analysis methods are time consuming and intractable. We develop a computational geometry-based tractography representation that aims to simplify the connectivity of white matter fibers. Given the trajectories of neuronal fiber pathways, we model the evolution of trajectories that encodes geometrically significant events and calculate their point correspondence in the 3D brain space. Trajectory inter-distance is used as a parameter to control the granularity of the model that allows local or global representation of the tractogram. Using diffusion MRI data from Alzheimer's patient study, we extract tractography features from our model for distinguishing the Alzheimer's subject from the normal control. Software implementation of our algorithm is available on GitHub.
翻訳日:2021-08-04 14:01:59 公開日:2021-08-02
# マルチイメージ融合と層分離のためのニューラルイメージ表現

Neural Image Representations for Multi-Image Fusion and Layer Separation ( http://arxiv.org/abs/2108.01199v1 )

ライセンス: Link先を確認
Seonghyeon Nam, Marcus A. Brubaker, Michael S. Brown(参考訳) 本稿では,複数の画像を1つの座標ベースニューラル表現に調整・融合するフレームワークを提案する。 私たちのフレームワークは、カメラのエゴモーションとシーンの小さな変更による不一致のあるバーストイメージをターゲットにしています。 シーンの動きの仮定によるアライメント戦略,すなわち,視点平面(すなわちホモグラフィ),最小限のシーン変化を伴う光流,および顕著な咬合と解離を伴う光流について述べる。 このフレームワークは、複数の入力を単一の神経暗黙関数に効果的に組み合わせ、参照フレームとして画像を選択する必要がない。 本稿では,このマルチフレーム融合フレームワークを様々な層分離タスクに利用する方法を示す。

We propose a framework for aligning and fusing multiple images into a single coordinate-based neural representations. Our framework targets burst images that have misalignment due to camera ego motion and small changes in the scene. We describe different strategies for alignment depending on the assumption of the scene motion, namely, perspective planar (i.e., homography), optical flow with minimal scene change, and optical flow with notable occlusion and disocclusion. Our framework effectively combines the multiple inputs into a single neural implicit function without the need for selecting one of the images as a reference frame. We demonstrate how to use this multi-frame fusion framework for various layer separation tasks.
翻訳日:2021-08-04 14:01:44 公開日:2021-08-02
# Shift-Robust GNN: 局所グラフトレーニングデータの限界を克服する

Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training data ( http://arxiv.org/abs/2108.01099v1 )

ライセンス: Link先を確認
Qi Zhu, Natalia Ponomareva, Jiawei Han, Bryan Perozzi(参考訳) 半教師付き学習タスクのためのグラフニューラルネットワーク(GNN)の設計への関心が高まっている。 残念なことに、この研究はトレーニングで使用するためにラベル付けされたノードがランダム(すなわちランダム)で一様に選択されたと仮定している。 IIDサンプルである)。 しかし、多くの現実世界のシナリオでは、グラフノードのラベルを集めるのにコストがかかり、本質的にバイアスがかかります。 GNNは、トレーニングデータに存在する過剰な正規性に過度に適合することにより、この現象が発生した場合の一般化を損なう可能性がある。 本研究では、偏りのあるトレーニングデータとグラフの真の推論分布の分布差を考慮に入れたShift-Robust GNN(SR-GNN)を提案する。 sr-gnnは、トレーニング用のラベルとデータセットの残りの部分を備えたノード間の分散シフトの存在をgnnモデルに適応させる。 本稿では,sr-gnnが他のgnnベースラインよりも精度が高く,バイアスドトレーニングデータによって引き起こされる悪影響の少なくとも(約40%)を除去し,sr-gnnが他のgnnベースラインよりも優れる,半教師付き学習のための共通gnnベンチマークデータセット上でのバイアスドトレーニングデータセットを用いた各種実験におけるsr-gnnの有効性を示す。 最も大きなデータセットであるogb-arxivでは、ベースラインに対する2%の絶対的な改善が観察され、負の効果の30%が減少する。

There has been a recent surge of interest in designing Graph Neural Networks (GNNs) for semi-supervised learning tasks. Unfortunately this work has assumed that the nodes labeled for use in training were selected uniformly at random (i.e. are an IID sample). However in many real world scenarios gathering labels for graph nodes is both expensive and inherently biased -- so this assumption can not be met. GNNs can suffer poor generalization when this occurs, by overfitting to superfluous regularities present in the training data. In this work we present a method, Shift-Robust GNN (SR-GNN), designed to account for distributional differences between biased training data and the graph's true inference distribution. SR-GNN adapts GNN models for the presence of distributional shifts between the nodes which have had labels provided for training and the rest of the dataset. We illustrate the effectiveness of SR-GNN in a variety of experiments with biased training datasets on common GNN benchmark datasets for semi-supervised learning, where we see that SR-GNN outperforms other GNN baselines by accuracy, eliminating at least (~40%) of the negative effects introduced by biased training data. On the largest dataset we consider, ogb-arxiv, we observe an 2% absolute improvement over the baseline and reduce 30% of the negative effects.
翻訳日:2021-08-04 13:57:48 公開日:2021-08-02
# 階層表現と明示記憶:グラフニューラルネットワークを用いた3次元シーングラフの効果的なナビゲーションポリシーの学習

Hierarchical Representations and Explicit Memory: Learning Effective Navigation Policies on 3D Scene Graphs using Graph Neural Networks ( http://arxiv.org/abs/2108.01176v1 )

ライセンス: Link先を確認
Zachary Ravichandran, Lisa Peng, Nathan Hughes, J. Daniel Griffith, Luca Carlone(参考訳) 表現は、ロボットが効果的なナビゲーションポリシーを学ぶために不可欠である。 近年の研究では、深度推定や2次元セマンティックセグメンテーションのような中レベルの知覚的抽象化が、生センサデータ(例えばRGB画像)の代わりに観測として提供される場合、より効果的なポリシーをもたらすことが示されている。 しかし、そのようなポリシーは、中レベルの抽象から潜在的な3次元の情景特性を学ばなければならない。 対照的に、3Dシーングラフのような高レベルの階層表現は、シーンの幾何学、トポロジ、セマンティクスを明示的に提供し、ナビゲーションに魅力的な表現を与える。 本稿では,高レベルの階層表現を活用し,ナビゲーションポリシーを学習する強化学習フレームワークを提案する。 この目的に向けて,グラフニューラルネットワークアーキテクチャを提案し,エージェント中心の機能空間に3次元シーングラフを埋め込む方法を示す。 シーングラフの各ノードに対して,ロボットの軌跡の記憶を明示的に保持しつつ,占有率と意味的コンテントをキャプチャする機能を用いる。 対象探索課題において,一般的なビジュモータポリシーに対する提案手法の有効性を実証する。 これらの実験とアブレーション研究により,本手法はより効果的な対象探索行動をもたらし,長期記憶が向上し,階層的な情報を利用してナビゲーションの目的を導出することを示す。

Representations are crucial for a robot to learn effective navigation policies. Recent work has shown that mid-level perceptual abstractions, such as depth estimates or 2D semantic segmentation, lead to more effective policies when provided as observations in place of raw sensor data (e.g., RGB images). However, such policies must still learn latent three-dimensional scene properties from mid-level abstractions. In contrast, high-level, hierarchical representations such as 3D scene graphs explicitly provide a scene's geometry, topology, and semantics, making them compelling representations for navigation. In this work, we present a reinforcement learning framework that leverages high-level hierarchical representations to learn navigation policies. Towards this goal, we propose a graph neural network architecture and show how to embed a 3D scene graph into an agent-centric feature space, which enables the robot to learn policies for low-level action in an end-to-end manner. For each node in the scene graph, our method uses features that capture occupancy and semantic content, while explicitly retaining memory of the robot trajectory. We demonstrate the effectiveness of our method against commonly used visuomotor policies in a challenging object search task. These experiments and supporting ablation studies show that our method leads to more effective object search behaviors, exhibits improved long-term memory, and successfully leverages hierarchical information to guide its navigation objectives.
翻訳日:2021-08-04 13:56:51 公開日:2021-08-02
# 複数発話対話システムにおけるユーザ主導の繰り返しに基づくリカバリ

User-Initiated Repetition-Based Recovery in Multi-Utterance Dialogue Systems ( http://arxiv.org/abs/2108.01208v1 )

ライセンス: Link先を確認
Hoang Long Nguyen, Vincent Renkens, Joris Pelemans, Srividya Pranavi Potharaju, Anil Kumar Nalamalapu, Murat Akbacak(参考訳) 認識エラーは人間のコミュニケーションによく見られる。 同様のエラーは、しばしば対話システムや仮想アシスタントにおいて望ましくない振る舞いを引き起こす。 人間同士のコミュニケーションでは、誤認識された単語やフレーズを繰り返し繰り返すことで回復することができるが、人間同士のコミュニケーションでは、この回復メカニズムは利用できない。 本稿では,このギャップを埋めて,誤解された単語を繰り返すことで,仮想アシスタントの音声認識誤差を補正するシステムを提案する。 ユーザがフレーズの一部を繰り返すと、システムは元のクエリを書き換えて修正を組み込む。 この書き換えにより、仮想アシスタントは元のクエリをうまく理解することができる。 本稿では,不正確に理解された発話と訂正のフォローアップを融合することにより,書き直しクエリを生成できる,エンドツーエンドの2段階注意ポインタネットワークを提案する。 このタスクのために収集したデータに関するモデルを評価し,提案モデルをルールベースベースラインと標準ポインターネットワークと比較する。 また,提案手法が規則ベースのベースラインを上回り,アノテートされたデータに対して2%の誤報率で単語誤り率を19%削減することを示した。

Recognition errors are common in human communication. Similar errors often lead to unwanted behaviour in dialogue systems or virtual assistants. In human communication, we can recover from them by repeating misrecognized words or phrases; however in human-machine communication this recovery mechanism is not available. In this paper, we attempt to bridge this gap and present a system that allows a user to correct speech recognition errors in a virtual assistant by repeating misunderstood words. When a user repeats part of the phrase the system rewrites the original query to incorporate the correction. This rewrite allows the virtual assistant to understand the original query successfully. We present an end-to-end 2-step attention pointer network that can generate the the rewritten query by merging together the incorrectly understood utterance with the correction follow-up. We evaluate the model on data collected for this task and compare the proposed model to a rule-based baseline and a standard pointer network. We show that rewriting the original query is an effective way to handle repetition-based recovery and that the proposed model outperforms the rule based baseline, reducing Word Error Rate by 19% relative at 2% False Alarm Rate on annotated data.
翻訳日:2021-08-04 13:55:15 公開日:2021-08-02
# エスタギオスにおけるアグリパメントの諸相

Metodos de Agrupamentos em dois Estagios ( http://arxiv.org/abs/2108.01123v1 )

ライセンス: Link先を確認
Jefferson Souza, Teresa Ludermir(参考訳) 本研究では,二段階クラスタリング手法について検討する。 SOMK、SOMAK、ASCAK、SoINAKの4つの技術が提案された。 SOMKはSOM(Self-Organizing Maps)とK-meansアルゴリズム、SOMAKはSOM、Ant K-means(AK)アルゴリズム、ASCAKはASCA(Ant System-based Clustering Algorithm)、AKアルゴリズム、SOINAKはSOINN(Self-Organizing Incremental Neural Network)で構成されている。 SOINAKはパターン認識問題に適用した場合に提案した4つの手法の中で優れた性能を示した。

This work investigates the use of two-stage clustering methods. Four techniques were proposed: SOMK, SOMAK, ASCAK and SOINAK. SOMK is composed of a SOM (Self-Organizing Maps) followed by the K-means algorithm, SOMAK is a combination of SOM followed by the Ant K-means (AK) algorithm, ASCAK is composed by the ASCA (Ant System-based Clustering Algorithm) and AK algorithms, SOINAK is composed by the Self-Organizing Incremental Neural Network (SOINN) and AK. SOINAK presented a better performance among the four proposed techniques when applied to pattern recognition problems.
翻訳日:2021-08-04 13:51:25 公開日:2021-08-02
# ニューラルネットワークトランスフォーマによる神経集団活動の表現学習

Representation learning for neural population activity with Neural Data Transformers ( http://arxiv.org/abs/2108.01210v1 )

ライセンス: Link先を確認
Joel Ye, Chethan Pandarinath(参考訳) 神経集団活動は、基礎となる動的構造を反映するように理論化されている。 この構造は、リカレントニューラルネットワーク(RNN)に基づくような明示的なダイナミックスを持つ状態空間モデルを使用して正確にキャプチャすることができる。 しかし、ダイナミックスを明示的にモデル化するために繰り返しを使用するには、データのシーケンシャルな処理が必要である。 ここでは、非リカレントな代替手段であるNeural Data Transformer (NDT)を紹介する。 rnnsによくモデル化された到達タスク中に、既知のダイナミクスとサル運動野からのデータを持つ合成データセットに適用することにより、ndtの自律力学系をキャプチャする能力をテストする。 NDTはこれらのデータセットと最先端のリカレントモデルをモデル化する。 さらに、その非再帰は3.9msの推論を可能にし、リアルタイムアプリケーションのループ時間の範囲内で、サル到達データセットのリカレントベースラインよりも6倍以上高速である。 これらの結果は、自律神経集団力学をモデル化するために明示的な力学モデルは必要ないことを示唆している。 コード: https://github.com/snel-repo/neural-data-transformers

Neural population activity is theorized to reflect an underlying dynamical structure. This structure can be accurately captured using state space models with explicit dynamics, such as those based on recurrent neural networks (RNNs). However, using recurrence to explicitly model dynamics necessitates sequential processing of data, slowing real-time applications such as brain-computer interfaces. Here we introduce the Neural Data Transformer (NDT), a non-recurrent alternative. We test the NDT's ability to capture autonomous dynamical systems by applying it to synthetic datasets with known dynamics and data from monkey motor cortex during a reaching task well-modeled by RNNs. The NDT models these datasets as well as state-of-the-art recurrent models. Further, its non-recurrence enables 3.9ms inference, well within the loop time of real-time applications and more than 6 times faster than recurrent baselines on the monkey reaching dataset. These results suggest that an explicit dynamics model is not necessary to model autonomous neural population dynamics. Code: https://github.com/snel-repo/neural-data-transformers
翻訳日:2021-08-04 13:51:09 公開日:2021-08-02
# ユニバーサル学習による記憶のあるターゲットチャネルにおけるレーダ追跡のための波形選択

Waveform Selection for Radar Tracking in Target Channels With Memory via Universal Learning ( http://arxiv.org/abs/2108.01181v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Anthony F. Martone(参考訳) 追跡レーダでは、ターゲットの軌跡と動的干渉により、センシング環境はしばしばトラック持続時間を大きく変化させる。 シーンの状態に関する部分的な情報を用いてレーダの波形を適応させることは、多くの実用的なシナリオにおいてパフォーマンスの利点をもたらすことが示されている。 さらに、レーダー測定は時間相関が強く、メモリベースの学習アルゴリズムは波形選択戦略を効果的に学習することができる。 本研究では,レーダー環境インタフェースの圧縮モデルをコンテキストツリーとして構築するレーダシステムについて検討する。 radarは、このコンテキストツリーベースのモデルを使用して、信号に依存したターゲットチャネル内の波形を選択する。 このアプローチは、レーダーに定数 U が未知の順序 U < $\infty$ のマルコフ過程として表現できる任意の定常目標チャネルに対する平均コスト最適ポリシーに漸近的に収束することが保証されている。 提案手法はシミュレーション実験で検証され、2つの最先端波形選択方式による追跡性能の向上が示されている。

In tracking radar, the sensing environment often varies significantly over a track duration due to the target's trajectory and dynamic interference. Adapting the radar's waveform using partial information about the state of the scene has been shown to provide performance benefits in many practical scenarios. Moreover, radar measurements generally exhibit strong temporal correlation, allowing memory-based learning algorithms to effectively learn waveform selection strategies. This work examines a radar system which builds a compressed model of the radar-environment interface in the form of a context-tree. The radar uses this context tree-based model to select waveforms in a signal-dependent target channel, which may respond adversarially to the radar's strategy. This approach is guaranteed to asymptotically converge to the average-cost optimal policy for any stationary target channel that can be represented as a Markov process of order U < $\infty$, where the constant U is unknown to the radar. The proposed approach is tested in a simulation study, and is shown to provide tracking performance improvements over two state-of-the-art waveform selection schemes.
翻訳日:2021-08-04 13:49:19 公開日:2021-08-02
# (参考訳) ベルの不等式の実験的違反

Ab-initio experimental violation of Bell inequalities ( http://arxiv.org/abs/2108.00574v1 )

ライセンス: CC BY 4.0
Davide Poderini, Emanuele Polino, Giovanni Rodari, Alessia Suprano, Rafael Chaves and Fabio Sciarrino(参考訳) ベルの不等式違反は、デバイスに依存しない量子情報のパラダイム的例である:データの非古典性は、デバイスの機能に関する知識がなくても認証される。 しかし実際には、全てのベルの実験は基礎となる物理的メカニズムの正確な理解に依存している。 真にブラックボックスなシナリオで非古典的行動を目撃することは可能か? 本稿では,このab-initioタスクの解法として,計算的,実験的に提案する。 Stochastic Nelder-Meadアルゴリズムに基づく堅牢な自動最適化アプローチを利用する。 測定装置をブラックボックスとして処理し,観測値のみに依存する適応プロトコルは,様々なフォトニック状態,測定応答,ベルシナリオの反復回数に制限された後,最適なベル不等式違反にアプローチする。 特に,未知の状態や測定値からのランダム性認証に活用する。 本研究は、デバイス非依存量子技術の実験的な実装のための新しい会場を開設し、自動化アルゴリズムのパワーを実証する。

The violation of a Bell inequality is the paradigmatic example of device-independent quantum information: the nonclassicality of the data is certified without the knowledge of the functioning of devices. In practice, however, all Bell experiments rely on the precise understanding of the underlying physical mechanisms. Given that, it is natural to ask: Can one witness nonclassical behaviour in a truly black-box scenario? Here we propose and implement, computationally and experimentally, a solution to this ab-initio task. It exploits a robust automated optimization approach based on the Stochastic Nelder-Mead algorithm. Treating preparation and measurement devices as black-boxes, and relying on the observed statistics only, our adaptive protocol approaches the optimal Bell inequality violation after a limited number of iterations for a variety photonic states, measurement responses and Bell scenarios. In particular, we exploit it for randomness certification from unknown states and measurements. Our results demonstrate the power of automated algorithms, opening a new venue for the experimental implementation of device-independent quantum technologies.
翻訳日:2021-08-04 03:42:43 公開日:2021-08-02
# (参考訳) セマンティックParseからの論理一貫性テキスト生成

Logic-Consistency Text Generation from Semantic Parses ( http://arxiv.org/abs/2108.00577v1 )

ライセンス: CC BY 4.0
Chang Shu, Yusen Zhang, Xiangyu Dong, Peng Shi, Tao Yu, Rui Zhang(参考訳) 意味構文解析からのテキスト生成は、論理形式やsqlクエリなどの形式表現入力のためのテキスト記述を生成することである。 1)データ不足の制約を伴う複雑で集中的な内部ロジック,(2)論理一貫性のための自動評価指標の欠如,という2つの理由により,これは難しい。 そこで本稿では,この2つの課題を解決するために,まずsnowballを提案する。snowballは意味構文解析から論理一貫性のあるテキスト生成のためのフレームワークであり,反復学習手順を用いて,品質制御を伴う学習セットを反復的に強化する。 第2に,意味構文解析と生成テキストの論理的一貫性を評価するための新しい自動メトリクスblecを提案する。 Logic2TextとSpiderという2つのベンチマークデータセットの実験結果は、SNOWBALLフレームワークがBLECと人的評価の両方における論理一貫性を向上させることを実証している。 さらに, BLEU, ROUGE, BLEURTなどの汎用自動測定値よりも, BLECは人的評価と論理的に一致していることが明らかとなった。 私たちのデータとコードはhttps://github.com/ciaranshu/relogicで利用可能です。

Text generation from semantic parses is to generate textual descriptions for formal representation inputs such as logic forms and SQL queries. This is challenging due to two reasons: (1) the complex and intensive inner logic with the data scarcity constraint, (2) the lack of automatic evaluation metrics for logic consistency. To address these two challenges, this paper first proposes SNOWBALL, a framework for logic consistent text generation from semantic parses that employs an iterative training procedure by recursively augmenting the training set with quality control. Second, we propose a novel automatic metric, BLEC, for evaluating the logical consistency between the semantic parses and generated texts. The experimental results on two benchmark datasets, Logic2Text and Spider, demonstrate the SNOWBALL framework enhances the logic consistency on both BLEC and human evaluation. Furthermore, our statistical analysis reveals that BLEC is more logically consistent with human evaluation than general-purpose automatic metrics including BLEU, ROUGE and, BLEURT. Our data and code are available at https://github.com/Ciaranshu/relogic.
翻訳日:2021-08-04 03:15:51 公開日:2021-08-02
# (参考訳) 私のモデルは正しい証拠を使っているか? Evidence-based Tabular Reasoning の体系的プローブ

Is My Model Using The Right Evidence? Systematic Probes for Examining Evidence-Based Tabular Reasoning ( http://arxiv.org/abs/2108.00578v1 )

ライセンス: CC BY 4.0
Vivek Gupta, Riyaz A. Bhat, Atreya Ghosal, Manish Srivastava, Maneesh Singh, Vivek Srikumar(参考訳) ニューラルモデルは、推論を含むNLPタスクにまたがる最先端のパフォーマンスを定期的に報告するが、そのアウトプットは正しく使用されず、インプットに提示されたエビデンスを推論することがしばしば観察される。 適切な理由のあるモデルは、入力の適切な部分に従うことが期待され、サンプル間の予測において自己一貫性を持ち、入力のスプリアスパターンを避け、基礎となる事前学習された言語モデルから、ニュアンス的で文脈に敏感な方法でバイアスを無視する(例えば、)。 偽造品の扱い) 今日のモデルはそうなるのか? 本稿では,表データに対する推論の問題を用いて,この問題を考察する。 入力の表的な性質は、上述した特性を対象とする系統的なプローブを認めるため、研究に特に適している。 a) 関連する証拠を見逃すこと、(b) 仮説や知識バイアスに苦しむこと、(c) 表形式の入力の前提に頼らずに、事前学習された言語モデルからの注釈的アーティファクトや知識に頼ること。

While neural models routinely report state-of-the-art performance across NLP tasks involving reasoning, their outputs are often observed to not properly use and reason on the evidence presented to them in the inputs. A model that reasons properly is expected to attend to the right parts of the input, be self-consistent in its predictions across examples, avoid spurious patterns in inputs, and to ignore biasing from its underlying pre-trained language model in a nuanced, context-sensitive fashion (e.g. handling counterfactuals). Do today's models do so? In this paper, we study this question using the problem of reasoning on tabular data. The tabular nature of the input is particularly suited for the study as it admits systematic probes targeting the properties listed above. Our experiments demonstrate that a BERT-based model representative of today's state-of-the-art fails to properly reason on the following counts: it often (a) misses the relevant evidence, (b) suffers from hypothesis and knowledge biases, and, (c) relies on annotation artifacts and knowledge from pre-trained language models as primary evidence rather than relying on reasoning on the premises in the tabular input.
翻訳日:2021-08-04 02:59:04 公開日:2021-08-02
# (参考訳) Dilated Convolutional Swin Transformer を用いた混雑群集の局所化

Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer ( http://arxiv.org/abs/2108.00584v1 )

ライセンス: CC BY 4.0
Junyu Gao, Maoguo Gong, Xuelong Li(参考訳) クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。 後者とは違って、各インスタンスの正確な位置情報を提供し、群衆シーン全体の数字をカウントするだけでなく、特に非常に混雑した群衆シーンにおいて大きな課題をもたらす。 本稿では,高濃度の群衆シーンにおける正確なインスタンスローカライズを実現する方法に着目し,従来のモデルの特徴抽出能力が目標のオクルージョンや画像のぼかしなどにより低下する問題を緩和する。 そこで本研究では,混み合った群衆シーンに対する拡張畳み込みスウィントランス(dcst)を提案する。 具体的には、ウィンドウベースの視覚変換器をクラウドローカライゼーションタスクに導入し、表現学習の能力を効果的に向上させる。 そして、よく設計された拡張畳み込みモジュールを変圧器のいくつかの異なるステージに挿入して、大域的文脈情報を強化する。 広範な実験により、提案手法の有効性が証明され、5つの人気のあるデータセットで最先端のパフォーマンスが得られた。 特に,提案モデルでは, 局所化およびカウント性能の観点から, 77.5\%のF1値と84.2のMAE値をそれぞれ達成している。

Crowd localization is a new computer vision task, evolved from crowd counting. Different from the latter, it provides more precise location information for each instance, not just counting numbers for the whole crowd scene, which brings greater challenges, especially in extremely congested crowd scenes. In this paper, we focus on how to achieve precise instance localization in high-density crowd scenes, and to alleviate the problem that the feature extraction ability of the traditional model is reduced due to the target occlusion, the image blur, etc. To this end, we propose a Dilated Convolutional Swin Transformer (DCST) for congested crowd scenes. Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. Then, the well-designed dilated convolutional module is inserted into some different stages of the transformer to enhance the large-range contextual information. Extensive experiments evidence the effectiveness of the proposed methods and achieve state-of-the-art performance on five popular datasets. Especially, the proposed model achieves F1-measure of 77.5\% and MAE of 84.2 in terms of localization and counting performance, respectively.
翻訳日:2021-08-04 02:36:43 公開日:2021-08-02
# (参考訳) SimCLRによる半教師学習, 移行学習, 知識蒸留

Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation with SimCLR ( http://arxiv.org/abs/2108.00587v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Yen Nguyen, Bao Le(参考訳) 半教師付き学習の分野における最近のブレークスルーは、最先端の従来の教師付き学習手法と一致する結果を得た。 コンピュータビジョンにおける最も成功した半教師付き学習アプローチは、膨大な量のラベル付きデータを活用すること、データ拡張と変換を通じて一般的な表現を学ぶこと、擬似ラベルを作成し、異なる損失関数を実装し、最終的にこれらの知識をタスク固有のより小さなモデルに転送することである。 本稿では,コンピュータビジョンのための最先端の半教師付き学習フレームワークであるsimclrの3つの異なる側面の分析を行う。 まず,コントラスト学習の特性を微調整で解析し,コントラスト学習がこのような手法を成功させる要因であることを理解する。 第二に, 教員育成パラダイムによる知識蒸留の研究である。 教師と生徒が同じベースモデルを共有すると、知識蒸留がより良い結果をもたらすことを観察する。 最後に、転送学習の仕組みと、異なるデータセット上のクラス数との関係について検討する。 その結果, 授業数が少ない場合, 転校学習の成績は良好であった。

Recent breakthroughs in the field of semi-supervised learning have achieved results that match state-of-the-art traditional supervised learning methods. Most successful semi-supervised learning approaches in computer vision focus on leveraging huge amount of unlabeled data, learning the general representation via data augmentation and transformation, creating pseudo labels, implementing different loss functions, and eventually transferring this knowledge to more task-specific smaller models. In this paper, we aim to conduct our analyses on three different aspects of SimCLR, the current state-of-the-art semi-supervised learning framework for computer vision. First, we analyze properties of contrast learning on fine-tuning, as we understand that contrast learning is what makes this method so successful. Second, we research knowledge distillation through teacher-forcing paradigm. We observe that when the teacher and the student share the same base model, knowledge distillation will achieve better result. Finally, we study how transfer learning works and its relationship with the number of classes on different data sets. Our results indicate that transfer learning performs better when number of classes are smaller.
翻訳日:2021-08-04 02:12:24 公開日:2021-08-02
# (参考訳) gtnet:guided transformer network for detection human-object interaction

GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v1 )

ライセンス: CC BY 4.0
A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B.S. Manjunath(参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。 hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。 この問題は、自己注意に基づくガイド型トランスネットワークであるGTNetによって解決されている。 GTNetは、V-COCOとHICO-DETの両方のデータセットにおいて、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードし、過去の技術結果よりも4%-6%改善する。 コードはオンラインで入手できる。

The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the proposed self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving a 4%-6% improvement over previous state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
翻訳日:2021-08-04 02:04:45 公開日:2021-08-02
# (参考訳) マルチタスク学習のための正確なpareto最適探索:paretoの最前線を巡る

Exact Pareto Optimal Search for Multi-Task Learning: Touring the Pareto Front ( http://arxiv.org/abs/2108.00597v1 )

ライセンス: CC BY 4.0
Debabrata Mahapatra, Vaibhav Rajan(参考訳) マルチタスク学習(mtl)は、複数の相関タスクに対してディープニューラルネットワークモデルをトレーニングするための確立されたパラダイムである。 多くの場合、タスクの目的が衝突し、モデル構築中にそれらの間のトレードオフが必要になる。 このような場合、MTLモデルは勾配に基づく多目的最適化(MOO)を用いて1つ以上のパレート最適解を求めることができる。 MTLアプリケーションで一般的な要件は、タスク固有の目的関数に関してユーザの好みを満たすパレート最適(EPO)ソリューションを見つけることである。 さらに、モデル一般化を改善するためには、トレーニング中に重量に関する様々な制約を課す必要がある。 これらの要件に対処するには、パレート前面だけでなく入力優先方向への降下を許容する探索方向が必要であるため、制約の範囲内で、高次元勾配にスケールする方法では困難である。 我々は,このような探索方向を設計・理論的に解析し,ボックスと等式制約が課された場合を含むEPOソリューションを見つけるために,収束の理論的保証のある最初のスケーラブルアルゴリズムを開発する。 本手法は,複数の勾配降下と注意深く制御された上昇を組み合わせることで,パレート前線を原理的に横断し,初期化に頑健な手法である。 このことはパレート前線の体系的な探索にも役立ち、多基準意思決定にパレート前線の近似に役立てる。 実験結果から,提案アルゴリズムはベンチマークMTLデータセットとMOO問題において競合する手法よりも優れていた。

Multi-Task Learning (MTL) is a well-established paradigm for training deep neural network models for multiple correlated tasks. Often the task objectives conflict, requiring trade-offs between them during model building. In such cases, MTL models can use gradient-based multi-objective optimization (MOO) to find one or more Pareto optimal solutions. A common requirement in MTL applications is to find an {\it Exact} Pareto optimal (EPO) solution, which satisfies user preferences with respect to task-specific objective functions. Further, to improve model generalization, various constraints on the weights may need to be enforced during training. Addressing these requirements is challenging because it requires a search direction that allows descent not only towards the Pareto front but also towards the input preference, within the constraints imposed and in a manner that scales to high-dimensional gradients. We design and theoretically analyze such search directions and develop the first scalable algorithm, with theoretical guarantees of convergence, to find an EPO solution, including when box and equality constraints are imposed. Our unique method combines multiple gradient descent with carefully controlled ascent to traverse the Pareto front in a principled manner, making it robust to initialization. This also facilitates systematic exploration of the Pareto front, that we utilize to approximate the Pareto front for multi-criteria decision-making. Empirical results show that our algorithm outperforms competing methods on benchmark MTL datasets and MOO problems.
翻訳日:2021-08-04 01:48:29 公開日:2021-08-02
# (参考訳) tabpert: 表の摂動に有効なプラットフォーム

TabPert: An Effective Platform for Tabular Perturbation ( http://arxiv.org/abs/2108.00603v1 )

ライセンス: CC BY 4.0
Nupur Jain, Vivek Gupta, Anshul Rai, Gaurav Kumar(参考訳) 推論能力を真に把握するには、偽データを用いて自然言語推論モデルを評価する必要がある。 TabPertは、そのような偽データの生成を支援して、モデル表の推論問題を評価することで、これを促進する。 TabPertを使えば、ユーザはテーブルを更新し、関連する仮説を変更し、ラベルを変更し、仮説分類に重要な行をハイライトすることができる。 tabpertは、テーブルの自動生成に使用されるテクニックに関する情報と、挑戦的な仮説を生成するための戦略もキャプチャする。 これらの反事実テーブルと仮説、およびメタデータは、既存のモデルの欠点を体系的かつ定量的に探究するために使用できる。

To truly grasp reasoning ability, a Natural Language Inference model should be evaluated on counterfactual data. TabPert facilitates this by assisting in the generation of such counterfactual data for assessing model tabular reasoning issues. TabPert allows a user to update a table, change its associated hypotheses, change their labels, and highlight rows that are important for hypothesis classification. TabPert also captures information about the techniques used to automatically produce the table, as well as the strategies employed to generate the challenging hypotheses. These counterfactual tables and hypotheses, as well as the metadata, can then be used to explore an existing model's shortcomings methodically and quantitatively.
翻訳日:2021-08-04 01:47:03 公開日:2021-08-02
# (参考訳) ニューロンミラー信号を用いたバケット型PCAニューラルネットワーク

Bucketed PCA Neural Networks with Neurons Mirroring Signals ( http://arxiv.org/abs/2108.00605v1 )

ライセンス: CC BY 4.0
Jackie Shen(参考訳) 深いニューラルネットワーク(DNN)をベンチマークするために、トランスフォーメーションを備えたバケット付きPCAニューラルネットワーク(PCA-NN)を開発した。 ほとんどの古典的PCAモデルは、還元表現を確立するためにトレーニングデータセット全体にPCAを適用し、高階多項式分類器のような非ネットワークツールを使用する。 対照的に、バケット付きPCA-NNは、2つの連続したフェーズで構築される個々のバケットにPCAを適用し、ニューラルネットワークの真のアーキテクチャを保持する。 これにより、dnnのespとapple対appleの公平な比較が容易になる。 多くの印象的なDNNによって達成された大きな精度は、バケツ入りPCA-NNによって説明できる可能性がある(例:MNISTデータセットの98%のうち96%)。 多くのDNNと比較して、バケット付きPCA-NNの3つのビルディングブロックは概念的に理解しやすい。 さらに、DNNで広く見られる準ランダムニューロンとは異なり、PCAニューロンは入力信号に類似または反映しており、結果としてより容易に解読できる。

The bucketed PCA neural network (PCA-NN) with transforms is developed here in an effort to benchmark deep neural networks (DNN's), for problems on supervised classification. Most classical PCA models apply PCA to the entire training data set to establish a reductive representation and then employ non-network tools such as high-order polynomial classifiers. In contrast, the bucketed PCA-NN applies PCA to individual buckets which are constructed in two consecutive phases, as well as retains a genuine architecture of a neural network. This facilitates a fair apple-to-apple comparison to DNN's, esp. to reveal that a major chunk of accuracy achieved by many impressive DNN's could possibly be explained by the bucketed PCA-NN (e.g., 96% out of 98% for the MNIST data set as an example). Compared with most DNN's, the three building blocks of the bucketed PCA-NN are easier to comprehend conceptually - PCA, transforms, and bucketing for error correction. Furthermore, unlike the somewhat quasi-random neurons ubiquitously observed in DNN's, the PCA neurons resemble or mirror the input signals and are more straightforward to decipher as a result.
翻訳日:2021-08-04 01:35:00 公開日:2021-08-02
# (参考訳) 教師なし領域適応のための多重分類器に基づく最大分類器不一致

Multiple Classifiers Based Maximum Classifier Discrepancy for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.00610v1 )

ライセンス: CC BY 4.0
Yiju Yang, Taejoon Kim, Guanghui Wang(参考訳) 画像分類のための教師なし領域適応タスクにおいて、2つの分類器構造間の最大分類器の差に基づく対立訓練は大きな成功を収めた。 このアプローチは2つの分類器の構造を採用するが、単純かつ直感的であるが、学習された分類境界は新しい領域のデータ特性をうまく表現していないかもしれない。 本稿では,構造を複数の分類器に拡張し,性能をさらに向上することを提案する。 この目的のために、より単純な分類器の追加手法を提案する。 我々は、分類器が互いに異なるという原則を用いて、複数の分類器に対する差分損失関数を構築する。 損失関数構築メソッドによって、任意の数の分類器を元のフレームワークに追加することができる。 提案手法は広範囲な実験評価によって検証される。 平均的に3つの分類器の構造を採用すると、精度と効率のトレードオフとして最高の性能が得られることを実証する。 最小限の計算コストで、提案手法は元のアルゴリズムを大幅に改善することができる。

Adversarial training based on the maximum classifier discrepancy between the two classifier structures has achieved great success in unsupervised domain adaptation tasks for image classification. The approach adopts the structure of two classifiers, though simple and intuitive, the learned classification boundary may not well represent the data property in the new domain. In this paper, we propose to extend the structure to multiple classifiers to further boost its performance. To this end, we propose a very straightforward approach to adding more classifiers. We employ the principle that the classifiers are different from each other to construct a discrepancy loss function for multiple classifiers. Through the loss function construction method, we make it possible to add any number of classifiers to the original framework. The proposed approach is validated through extensive experimental evaluations. We demonstrate that, on average, adopting the structure of three classifiers normally yields the best performance as a trade-off between the accuracy and efficiency. With minimum extra computational costs, the proposed approach can significantly improve the original algorithm.
翻訳日:2021-08-04 01:23:47 公開日:2021-08-02
# (参考訳) 軽度医用画像分割術におけるマスク再留置術

Recurrent Mask Refinement for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2108.00622v1 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Shanlin Sun, Xiangyi Yan, and Xiaohui Xie(参考訳) 深層畳み込みニューラルネットワークは医用画像セグメンテーションで大きな成功を収めているが、通常、トレーニングのために手動アノテーションを備えた大きなデータセットを必要とし、目に見えないクラスに一般化するのは難しい。 わずかにラベル付き例から新しいクラスを学ぶことで、これらの課題に対処するチャンスは、ほとんどない。 本研究では, プロトタイプネットワークに基づく医療画像分割のための新しいフレームワークを提案する。 我々のイノベーションは、2つの重要なモジュールの設計にある: 1)前景と背景領域の間の局所的な関係の特徴を捉えるために相関を利用するコンテキスト関係エンコーダ(cre)、2)コンテキスト関係の変化を捉え、反復的にセグメンテーションマスクを洗練するためにcreとプロトタイプネットワークを繰り返し使用する反復マスクリファインメントモジュールである。 2つの腹部CTデータセットと1つの腹部MRIデータセットを用いた実験により、提案手法は、それぞれDSCの平均16.32%、8.45%、および6.24%で最先端の方法よりも大幅に改善された。 コードは公開されている。

Although having achieved great success in medical image segmentation, deep convolutional neural networks usually require a large dataset with manual annotations for training and are difficult to generalize to unseen classes. Few-shot learning has the potential to address these challenges by learning new classes from only a few labeled examples. In this work, we propose a new framework for few-shot medical image segmentation based on prototypical networks. Our innovation lies in the design of two key modules: 1) a context relation encoder (CRE) that uses correlation to capture local relation features between foreground and background regions; and 2) a recurrent mask refinement module that repeatedly uses the CRE and a prototypical network to recapture the change of context relationship and refine the segmentation mask iteratively. Experiments on two abdomen CT datasets and an abdomen MRI dataset show the proposed method obtains substantial improvement over the state-of-the-art methods by an average of 16.32%, 8.45% and 6.24% in terms of DSC, respectively. Code is publicly available.
翻訳日:2021-08-04 01:09:42 公開日:2021-08-02
# (参考訳) 学習型二元化ニューラルネットワークによるMaxSAT評価2021のための計画

Planning with Learned Binarized Neural Networks Benchmarks for MaxSAT Evaluation 2021 ( http://arxiv.org/abs/2108.00633v1 )

ライセンス: CC BY 4.0
Buser Say, Scott Sanner, Jo Devriendt, Jakob Nordstr\"om, Peter J. Stuckey(参考訳) この文書では、状態遷移関数が二項化ニューラルネットワーク(BNN)の形式で学習された自動計画問題の簡単な紹介を行い、この問題に対する一般的なMaxSATエンコーディングを示し、MaxSAT Evaluation 2021のベンチマークとして提出されたナビゲーション、インベントリコントロール、システム管理者、セルダの4つのドメインについて説明する。

This document provides a brief introduction to learned automated planning problem where the state transition function is in the form of a binarized neural network (BNN), presents a general MaxSAT encoding for this problem, and describes the four domains, namely: Navigation, Inventory Control, System Administrator and Cellda, that are submitted as benchmarks for MaxSAT Evaluation 2021.
翻訳日:2021-08-04 01:08:30 公開日:2021-08-02
# (参考訳) LSATから - 複雑推論の進歩と課題-

From LSAT: The Progress and Challenges of Complex Reasoning ( http://arxiv.org/abs/2108.00648v1 )

ライセンス: CC BY 4.0
Siyuan Wang, Zhongkun Liu, Wanjun Zhong, Ming Zhou, Zhongyu Wei, Zhumin Chen and Nan Duan(参考訳) 複雑な推論は、複雑なルールに基づいて正しい推論を描くことを目的としている。 人間の知性の目印として、明示的な読解、論理的知識の解釈、複雑な規則の適用などが含まれる。 本稿では,LSAT(Law School Admission Test)の3つの課題を,解析的推論,論理的推論,読解的理解を含む体系的に研究することで,複雑な推論に一歩前進する。 本稿では,これら3つのタスクを統合し,lsatテストにおいて印象的な総合的性能を実現するためのハイブリッド推論システムを提案する。 実験の結果,本システムには複雑な推論能力,特に基本的な読解能力と論理的推論能力が備わっていることがわかった。 さらに、事前学習されたモデルとタスク固有の推論モジュールを組み合わせることで、複雑な推論においてシンボル知識を個別の解釈可能な推論ステップに統合する効果も示した。 我々はさらに,教師なしの記号的知識抽出,モデル解釈可能性,少数ショット学習,複雑な推論のための包括的ベンチマークなど,将来的な方向性について考察した。

Complex reasoning aims to draw a correct inference based on complex rules. As a hallmark of human intelligence, it involves a degree of explicit reading comprehension, interpretation of logical knowledge and complex rule application. In this paper, we take a step forward in complex reasoning by systematically studying the three challenging and domain-general tasks of the Law School Admission Test (LSAT), including analytical reasoning, logical reasoning and reading comprehension. We propose a hybrid reasoning system to integrate these three tasks and achieve impressive overall performance on the LSAT tests. The experimental results demonstrate that our system endows itself a certain complex reasoning ability, especially the fundamental reading comprehension and challenging logical reasoning capacities. Further analysis also shows the effectiveness of combining the pre-trained models with the task-specific reasoning module, and integrating symbolic knowledge into discrete interpretable reasoning steps in complex reasoning. We further shed a light on the potential future directions, like unsupervised symbolic knowledge extraction, model interpretability, few-shot learning and comprehensive benchmark for complex reasoning.
翻訳日:2021-08-04 00:53:35 公開日:2021-08-02
# (参考訳) 教育システムにおける因果推論:グラフィカルモデリングアプローチ

Causal Inference in Educational Systems: A Graphical Modeling Approach ( http://arxiv.org/abs/2108.00654v1 )

ライセンス: CC BY 4.0
Manie Tadayon, Greg Pottie(参考訳) 教育システムは伝統的に、プレテスト、ポストテスト、シングル介入など、横断的な研究を用いて評価されてきた。 これは一般的なアプローチであるが、変数の結合、学生へのフィードバック、理想的な条件からの研究の現実世界の偏りなど、貴重な情報をモデル化するものではない。 さらに、本質的に学習はシーケンシャルなプロセスであり、一連の介入を伴わなければならない。 本稿では, グラフィカルモデルと有向非巡回グラフ(DAG)言語を用いて, 教育システムの実験および準実験設計を提案し, それらを定量化する。 教育における各手法の適用と限界について論じる。 さらに, 教育システムを, 時変療法, 共同設立者, 時変療法-共同設立者フィードバックとしてモデル化することを提案する。 十分な共同創設者の集合を制御し、治療重み付けの逆確率(IPTW)やg-formulaなどの適切な推論手法を用いて、バックドアパスを閉じ、結果に対する共同介入のバイアスのない因果推定を導出できることを示す。 最後に,g-formula と IPTW のパフォーマンスを比較し,各手法の長所と短所について考察する。

Educational systems have traditionally been evaluated using cross-sectional studies, namely, examining a pretest, posttest, and single intervention. Although this is a popular approach, it does not model valuable information such as confounding variables, feedback to students, and other real-world deviations of studies from ideal conditions. Moreover, learning inherently is a sequential process and should involve a sequence of interventions. In this paper, we propose various experimental and quasi-experimental designs for educational systems and quantify them using the graphical model and directed acyclic graph (DAG) language. We discuss the applications and limitations of each method in education. Furthermore, we propose to model the education system as time-varying treatments, confounders, and time-varying treatments-confounders feedback. We show that if we control for a sufficient set of confounders and use appropriate inference techniques such as the inverse probability of treatment weighting (IPTW) or g-formula, we can close the backdoor paths and derive the unbiased causal estimate of joint interventions on the outcome. Finally, we compare the g-formula and IPTW performance and discuss the pros and cons of using each method.
翻訳日:2021-08-04 00:13:32 公開日:2021-08-02
# (参考訳) スタッキングアンサンブルによるビデオ広告タギングのためのマルチモーダル特徴融合

Multimodal Feature Fusion for Video Advertisements Tagging Via Stacking Ensemble ( http://arxiv.org/abs/2108.00679v1 )

ライセンス: CC BY 4.0
Qingsong Zhou, Hai Liang, Zhimin Lin, Kele Xu(参考訳) ビデオ広告の自動タグ付けは、批判的だが困難な問題であり、多くの分野でその応用が明らかになっているため、近年は関心が高まっている。 持続的努力にもかかわらず、タグづけ作業は、効率的な機能融合アプローチが望ましいなど、いくつかの課題に苦しめられているが、以前の研究では未検討である。 本稿では,2021年のtencent広告アルゴリズムコンペティションにおいて,マルチモーダルビデオ広告タギングのアプローチを提案する。 具体的には,複数のモダリティからの補完情報を組み合わせることを目的とした,新しいマルチモーダル機能融合フレームワークを提案する。 このフレームワークは、様々なレベルのノイズと異なるモダリティ間の衝突の影響を低減するために、スタック方式のアンサンブルアプローチを導入する。 このように、我々のフレームワークは従来の手法と比較してタグ付けタスクの性能を向上させることができる。 提案手法の有効性とロバスト性を実証的に検討するため,課題データセットについて広範な実験を行った。 その結果,我々のフレームワークは関連するアプローチを著しく上回ることができ,最終リーダボードでは第1位にランクインし,グローバル平均精度 (gap) は82.63%であった。 この分野での研究をより促進するために、最終バージョンでコードをリリースします。

Automated tagging of video advertisements has been a critical yet challenging problem, and it has drawn increasing interests in last years as its applications seem to be evident in many fields. Despite sustainable efforts have been made, the tagging task is still suffered from several challenges, such as, efficiently feature fusion approach is desirable, but under-explored in previous studies. In this paper, we present our approach for Multimodal Video Ads Tagging in the 2021 Tencent Advertising Algorithm Competition. Specifically, we propose a novel multi-modal feature fusion framework, with the goal to combine complementary information from multiple modalities. This framework introduces stacking-based ensembling approach to reduce the influence of varying levels of noise and conflicts between different modalities. Thus, our framework can boost the performance of the tagging task, compared to previous methods. To empirically investigate the effectiveness and robustness of the proposed framework, we conduct extensive experiments on the challenge datasets. The obtained results suggest that our framework can significantly outperform related approaches and our method ranks as the 1st place on the final leaderboard, with a Global Average Precision (GAP) of 82.63%. To better promote the research in this field, we will release our code in the final version.
翻訳日:2021-08-03 23:55:55 公開日:2021-08-02
# (参考訳) リモートセンシングデータの自己教師付き視覚表現学習

Self-supervised Audiovisual Representation Learning for Remote Sensing Data ( http://arxiv.org/abs/2108.00688v1 )

ライセンス: CC BY-SA 4.0
Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu(参考訳) 現在のディープラーニングのアプローチの多くは、imagenetのような大規模データセットで事前トレーニングされたバックボーンネットワークを広範囲に利用し、特定のタスクを実行するように微調整されている。 リモートセンシングでは、比較可能な大きな注釈付きデータセットの欠如と、さまざまなセンシングプラットフォームが同様の開発を妨げる。 リモートセンシングにおける事前学習されたバックボーンネットワークの可用性に寄与するため、深層ニューラルネットワークを事前学習するための自己教師ありアプローチを考案する。 ジオタグ付きオーディオ記録とリモートセンシング画像との対応を利用して、これは完全にラベルのない方法で行われ、面倒な手作業によるアノテーションは不要である。 そこで本研究では,世界中の空中画像と音声サンプルを同時配置したサウンドアースデータセットを提案する。 このデータセットを使用して、両方のモダリティからサンプルを共通の埋め込み空間にマッピングするためにresnetモデルを事前トレーニングし、視覚と聴覚の両方に影響を与えるシーンの重要な特性を理解するようにモデルに促します。 提案手法の有効性を検証するため,他の方法で得られた重みに対して得られた事前学習重みの伝達学習性能を評価する。 一般的なリモートセンシングデータセットでモデルを微調整することにより、我々のアプローチはリモートセンシング画像のための既存の事前学習戦略よりも優れていることを示す。 データセット、コード、事前トレーニングされたモデルの重み付けはhttps://github.com/khdlr/SoundingEarth.comから入手できる。

Many current deep learning approaches make extensive use of backbone networks pre-trained on large datasets like ImageNet, which are then fine-tuned to perform a certain task. In remote sensing, the lack of comparable large annotated datasets and the wide diversity of sensing platforms impedes similar developments. In order to contribute towards the availability of pre-trained backbone networks in remote sensing, we devise a self-supervised approach for pre-training deep neural networks. By exploiting the correspondence between geo-tagged audio recordings and remote sensing imagery, this is done in a completely label-free manner, eliminating the need for laborious manual annotation. For this purpose, we introduce the SoundingEarth dataset, which consists of co-located aerial imagery and audio samples all around the world. Using this dataset, we then pre-train ResNet models to map samples from both modalities into a common embedding space, which encourages the models to understand key properties of a scene that influence both visual and auditory appearance. To validate the usefulness of the proposed approach, we evaluate the transfer learning performance of pre-trained weights obtained against weights obtained through other means. By fine-tuning the models on a number of commonly used remote sensing datasets, we show that our approach outperforms existing pre-training strategies for remote sensing imagery. The dataset, code and pre-trained model weights will be available at https://github.com/khdlr/SoundingEarth.
翻訳日:2021-08-03 23:48:48 公開日:2021-08-02
# (参考訳) 深層ニューラルネットワークを改良したPiecewise Linear Unit

Piecewise Linear Units Improve Deep Neural Networks ( http://arxiv.org/abs/2108.00700v1 )

ライセンス: CC BY 4.0
Jordan Inturrisi, Sui Yang Khoo, Abbas Kouzani, Riccardo Pagliarella(参考訳) 活性化関数はディープニューラルネットワークの非線形性の中心であり、その関数の選択はトレーニングの成功に大きな影響を与える。 現在、多くの実践者は単純さと信頼性から整定線形単位(relu)を好むが、欠点は少ない。 ReLUの代替として提案された機能のほとんどは手作業で設計されているが、トレーニング中の関数の学習に関する最近の研究は有望な結果を示している。 本稿では,ニューラルネットワークの各次元に対して独立に学習可能な適応的ピースワイド線形活性化関数Piecewise Linear Unit (PiLU)を提案する。 我々は、PiLUが一般化整流器ユニットであることを示すとともに、適応ピアースワイド線形ユニットと類似点について述べる。 30実験の分布を通して、同じモデルアーキテクチャ、ハイパーパラメータ、前処理において、PiLUはReLUを著しく上回り、CIFAR-10では18.53%、CIFAR-100では13.13%の分類誤差を減らし、ニューロンの数もわずかに増加した。 さらなる研究は、一般化された区分線形単位の探索と、他の困難な領域やより大きな問題に対するこれらの結果の検証に費やされるべきである。

The activation function is at the heart of a deep neural networks nonlinearity; the choice of the function has great impact on the success of training. Currently, many practitioners prefer the Rectified Linear Unit (ReLU) due to its simplicity and reliability, despite its few drawbacks. While most previous functions proposed to supplant ReLU have been hand-designed, recent work on learning the function during training has shown promising results. In this paper we propose an adaptive piecewise linear activation function, the Piecewise Linear Unit (PiLU), which can be learned independently for each dimension of the neural network. We demonstrate how PiLU is a generalised rectifier unit and note its similarities with the Adaptive Piecewise Linear Units, namely adaptive and piecewise linear. Across a distribution of 30 experiments, we show that for the same model architecture, hyperparameters, and pre-processing, PiLU significantly outperforms ReLU: reducing classification error by 18.53% on CIFAR-10 and 13.13% on CIFAR-100, for a minor increase in the number of neurons. Further work should be dedicated to exploring generalised piecewise linear units, as well as verifying these results across other challenging domains and larger problems.
翻訳日:2021-08-03 23:28:15 公開日:2021-08-02
# (参考訳) 生成型adversarial networkに基づく連合学習システムにおける情報盗み

Information Stealing in Federated Learning Systems Based on Generative Adversarial Networks ( http://arxiv.org/abs/2108.00701v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Ng Chong, Hideya Ochiai(参考訳) インテリジェントマシンが協調して問題解決を行うディープラーニングシステムへの攻撃は、ネットワーク内のノードが重要な判断に誤りを犯す可能性がある。 同時に、AIのセキュリティとプライバシーに関する懸念は、複数の分野の専門家の注意を喚起している。 本研究では,3つの異なるデータセットを用いて,FL環境に対する敵攻撃の実施に成功した。 この攻撃はGANを利用して学習プロセスに影響を与え、共有されたローカルモデルパラメータから隠れた特徴を学習することでユーザのプライベートデータを再構築する。 攻撃はターゲット指向の描画データであり、それぞれcifar-10,mnist, fashion-mnistと異なるクラス分布を示した。 さらに, 実データと再構成した逆数サンプルとのユークリッド距離を計測することにより, 種々のシナリオにおいて, 学習過程における逆数の性能を評価した。 最後に,すべての適用データセットを用いて,共有グローバルモデルパラメータから被害者の実データを再構築することに成功しました。

An attack on deep learning systems where intelligent machines collaborate to solve problems could cause a node in the network to make a mistake on a critical judgment. At the same time, the security and privacy concerns of AI have galvanized the attention of experts from multiple disciplines. In this research, we successfully mounted adversarial attacks on a federated learning (FL) environment using three different datasets. The attacks leveraged generative adversarial networks (GANs) to affect the learning process and strive to reconstruct the private data of users by learning hidden features from shared local model parameters. The attack was target-oriented drawing data with distinct class distribution from the CIFAR- 10, MNIST, and Fashion-MNIST respectively. Moreover, by measuring the Euclidean distance between the real data and the reconstructed adversarial samples, we evaluated the performance of the adversary in the learning processes in various scenarios. At last, we successfully reconstructed the real data of the victim from the shared global model parameters with all the applied datasets.
翻訳日:2021-08-03 23:16:22 公開日:2021-08-02
# (参考訳) 全方向移動ロボットの並列タスク実行のための方向認識計画

Orientation-Aware Planning for Parallel Task Execution of Omni-Directional Mobile Robot ( http://arxiv.org/abs/2108.00716v1 )

ライセンス: CC BY 4.0
Cheng Gong and Zirui Li and Xingyu Zhou and Jiachen Li and Jianwei Gong and Junhui Zhou(参考訳) オムニ指向型移動ロボット(Omni-directional mobile robot, OMR)システムは、学界や業界で非常に人気がある。 しかし、OMRの余分な自由度によって、ロボットが余分なタスクを実行できる可能性があるため、そのポテンシャルは十分に活用されていない。 例えば、ロボット上のジンバルやセンサーは視野が限られているり、固有の機械設計によって制約を受けることがある。 そこで本研究では, omr シャシーに関連するタスクを方向遷移タスクと位置遷移タスクに分類し, 2つのタスクを同時に実行可能にする。 並列タスクの目標を単一計画問題に組み込むことにより,OMRシステムのための配向遷移と位置遷移を統一的かつ効率的な方法で実行するための配向対応計画アーキテクチャを提案する。 両タスクの要求を満たす軌道を生成するために,向き認識型時間-弾性バンド (OATEB) と呼ばれる改良された軌道最適化手法が導入された。 2次元シミュレーション環境と実シーンの両方で実験を行う。 実シーン実験を行うために4輪のomrを配置し,提案手法が並列タスクを同時に実行でき,実生活シナリオに適用可能であることを示す。

Omni-directional mobile robot (OMR) systems have been very popular in academia and industry for their superb maneuverability and flexibility. Yet their potential has not been fully exploited, where the extra degree of freedom in OMR can potentially enable the robot to carry out extra tasks. For instance, gimbals or sensors on robots may suffer from a limited field of view or be constrained by the inherent mechanical design, which will require the chassis to be orientation-aware and respond in time. To solve this problem and further develop the OMR systems, in this paper, we categorize the tasks related to OMR chassis into orientation transition tasks and position transition tasks, where the two tasks can be carried out at the same time. By integrating the parallel task goals in a single planning problem, we proposed an orientation-aware planning architecture for OMR systems to execute the orientation transition and position transition in a unified and efficient way. A modified trajectory optimization method called orientation-aware timed-elastic-band (OATEB) is introduced to generate the trajectory that satisfies the requirements of both tasks. Experiments in both 2D simulated environments and real scenes are carried out. A four-wheeled OMR is deployed to conduct the real scene experiment and the results demonstrate that the proposed method is capable of simultaneously executing parallel tasks and is applicable to real-life scenarios.
翻訳日:2021-08-03 23:07:48 公開日:2021-08-02
# (参考訳) ConveRT - FAQアンサーリングへの応用

ConveRT, an Application to FAQ Answering ( http://arxiv.org/abs/2108.00719v1 )

ライセンス: CC BY 4.0
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) 知識豊富なfaqチャットボットは、あらゆる組織にとって貴重なリソースです。 従来のコールセンタやFAQ Webページとは異なり、インスタントレスポンスを提供し、常に利用できる。 COVID19チャットボットを運用した経験から、英語以外の言語でFAQに答えるリソースが不足していることが分かりました。 英語には強力で効率的な検索ベースモデルが存在するが、同じ量のトレーニングデータを持っていない他の言語ではまれである。 本研究では、英語のSOTA会話エージェントであるConveRTを、トレーニングデータが少ない他の言語に適応させる、新しい保持手順を提案する。 これを初めて、オランダのfaqがcovid-19ワクチンに関する質問に答えるタスクに適用しました。 低データ体制と高データ体制におけるオープンソースの代替手段よりも優れた性能を示す。

Knowledgeable FAQ chatbots are a valuable resource to any organization. Unlike traditional call centers or FAQ web pages, they provide instant responses and are always available. Our experience running a COVID19 chatbot revealed the lack of resources available for FAQ answering in non-English languages. While powerful and efficient retrieval-based models exist for English, it is rarely the case for other languages which do not have the same amount of training data available. In this work, we propose a novel pretaining procedure to adapt ConveRT, an English SOTA conversational agent, to other languages with less training data available. We apply it for the first time to the task of Dutch FAQ answering related to the COVID19 vaccine. We show it performs better than an open-source alternative in a low-data regime and high-data regime.
翻訳日:2021-08-03 22:53:21 公開日:2021-08-02
# (参考訳) 対称錐分解の乗法的更新

Multiplicative updates for symmetric-cone factorizations ( http://arxiv.org/abs/2108.00740v1 )

ライセンス: CC BY 4.0
Yong Sheng Soh, Antonios Varvitsiotis(参考訳) 非負の成分を持つ行列 $X\in \mathbb{R}^{m\times n}_+$ が与えられたとき、コーン $\mathcal{K}\subseteq \mathbb{R}^k$ に関するコーン分解問題は、計算 $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ と $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ が双対に属するので、$X_{ij} = \langle a_i, b_j \rangle$ がすべての $i\in [m], j\in [n] に対して成り立つ。 凸係数分解は、線形円錐プログラムの可能な領域として凸体を表現できる数学的最適化の基礎となる。 本稿では,$\mathcal{K}$が対称であること,すなわち,自己双対で同質である場合,円錐分解を計算するための対称錐乗算更新(SCMU)アルゴリズムを導入,解析する。 対称錐は、非負のオルタン(線形計画)、二階の円錐(二階の円錐計画)、正の半定義行列(半定義的計画)の円錐上の線形最適化を研究する共通の言語を提供するため、数学的最適化において中心的な関心を持つ。 SCMUアルゴリズムは、幾何平均の一般化を用いて計算された錐体の巧妙に選択された自己同型を対称錐に適用することにより、反復を更新するという意味で乗法的である。 リーブの凹凸定理とフォン・ノイマンのトレース不等式を対称錐に拡張することにより、平方損失目標がSCMUアルゴリズムの軌道に沿って非減少していることを示す。 非負のオルサントに特化して、SCMUアルゴリズムは非負行列分解を計算するためのLee and Seungによるセミナルアルゴリズムに対応する。

Given a matrix $X\in \mathbb{R}^{m\times n}_+$ with non-negative entries, the cone factorization problem over a cone $\mathcal{K}\subseteq \mathbb{R}^k$ concerns computing $\{ a_1,\ldots, a_{m} \} \subseteq \mathcal{K}$ and $\{ b_1,\ldots, b_{n} \} \subseteq~\mathcal{K}^*$ belonging to its dual so that $X_{ij} = \langle a_i, b_j \rangle$ for all $i\in [m], j\in [n]$. Cone factorizations are fundamental to mathematical optimization as they allow us to express convex bodies as feasible regions of linear conic programs. In this paper, we introduce and analyze the symmetric-cone multiplicative update (SCMU) algorithm for computing cone factorizations when $\mathcal{K}$ is symmetric; i.e., it is self-dual and homogeneous. Symmetric cones are of central interest in mathematical optimization as they provide a common language for studying linear optimization over the nonnegative orthant (linear programs), over the second-order cone (second order cone programs), and over the cone of positive semidefinite matrices (semidefinite programs). The SCMU algorithm is multiplicative in the sense that the iterates are updated by applying a meticulously chosen automorphism of the cone computed using a generalization of the geometric mean to symmetric cones. Using an extension of Lieb's concavity theorem and von Neumann's trace inequality to symmetric cones, we show that the squared loss objective is non-decreasing along the trajectories of the SCMU algorithm. Specialized to the nonnegative orthant, the SCMU algorithm corresponds to the seminal algorithm by Lee and Seung for computing Nonnegative Matrix Factorizations.
翻訳日:2021-08-03 22:47:26 公開日:2021-08-02
# (参考訳) 水圧破砕設計最適化のためのデータ駆動モデル 第2部:逆問題

Data-driven model for hydraulic fracturing design optimization. Part II: Inverse problem ( http://arxiv.org/abs/2108.00751v1 )

ライセンス: CC BY 4.0
Viktor Duplyakov, Anton Morozov, Dmitriy Popkov, Egor Shel, Albert Vainshtein, Evgeny Burnaev, Andrei Osiptsov, Grigory Paderin(参考訳) 本稿では,リッジ回帰法とcatboostアルゴリズムを組み合わせた多段フラクチャーコンプリートを用いた油井の累積流体生成予測のための積み重ねモデルについて述べる。 このモデルは、貯留層、井戸およびフラクチャリング設計パラメータの拡張デジタルフィールドデータベースに基づいて開発された。 現在このデータベースには、西シベリア(ロシア)の23の油田から5000以上の油井が含まれており、合計6687回の破砕作業が行われている。 構築, 貯留特性, フラクチャー設計の特徴, 生産など, それぞれを特徴付ける387個のパラメータから始めると, モデルトレーニングプロセスにおいて各ウェルの入力特徴として38個のキーパラメータが使用される。 このモデルは、設計パラメータ(ステージ数、プロパント質量、平均および最終プロパント濃度、流体速度)に対するターゲットの物理的説明可能な依存性プロットを示す。 本研究では, ユークリッド距離法とクラスタリング法を用いて, 同様の(オフセット)ウェルズ探索を行う手法を含む一連の手法を開発した。 これらのアプローチは、方法論のフィールドテストキャンペーンの一部として、特定のパイロットの最適化パラメータ境界を得るためにも適用されている。 逆問題(生産を最大化するために最適な設計パラメータの集合を選択する)は、境界によって制約された高次元のブラックボックス近似関数を最適化し、4つの異なる最適化手法で解いたものとして定式化される。 これらすべての方法を含む推奨システムは、生産刺激エンジニアに最適化された破砕設計について助言するように設計されている。

We describe a stacked model for predicting the cumulative fluid production for an oil well with a multistage-fracture completion based on a combination of Ridge Regression and CatBoost algorithms. The model is developed based on an extended digital field data base of reservoir, well and fracturing design parameters. The database now includes more than 5000 wells from 23 oilfields of Western Siberia (Russia), with 6687 fracturing operations in total. Starting with 387 parameters characterizing each well, including construction, reservoir properties, fracturing design features and production, we end up with 38 key parameters used as input features for each well in the model training process. The model demonstrates physically explainable dependencies plots of the target on the design parameters (number of stages, proppant mass, average and final proppant concentrations and fluid rate). We developed a set of methods including those based on the use of Euclidean distance and clustering techniques to perform similar (offset) wells search, which is useful for a field engineer to analyze earlier fracturing treatments on similar wells. These approaches are also adapted for obtaining the optimization parameters boundaries for the particular pilot well, as part of the field testing campaign of the methodology. An inverse problem (selecting an optimum set of fracturing design parameters to maximize production) is formulated as optimizing a high dimensional black box approximation function constrained by boundaries and solved with four different optimization methods: surrogate-based optimization, sequential least squares programming, particle swarm optimization and differential evolution. A recommendation system containing all the above methods is designed to advise a production stimulation engineer on an optimized fracturing design.
翻訳日:2021-08-03 22:29:56 公開日:2021-08-02
# (参考訳) 臨床ノートにおける自己指導型回答検索

Self-supervised Answer Retrieval on Clinical Notes ( http://arxiv.org/abs/2108.00775v1 )

ライセンス: CC BY 4.0
Paul Grundmann, Sebastian Arnold, Alexander L\"oser(参考訳) 長い文書から回答文を取得することは、会話と文書コンテキストの両方を意味的に理解する必要がある複雑な作業である。 医師が診断やその他の潜伏する医療的側面に基づいて患者のコホートを検索する臨床シナリオにおいて、この課題に特にアプローチする。 ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースの自己スーパービジョン目標であるcaprを紹介する。 さらに,このシナリオを臨床ノートの大規模コーパスでシミュレートするために,臨床ノートに基づく新たな検索データセットを寄贈した。 目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。 MIMIC-IIIおよび他の3つの医療データセットに対する広範な評価から、CAPRはドメイン固有のパスの検索において強いベースラインを上回り、ルールベースおよび人間ラベルのパスを効果的に一般化する。 これにより、特に限られたトレーニングデータしか利用できないゼロショットシナリオでは、モデルが強力になる。

Retrieving answer passages from long documents is a complex task requiring semantic understanding of both discourse and document context. We approach this challenge specifically in a clinical scenario, where doctors retrieve cohorts of patients based on diagnoses and other latent medical aspects. We introduce CAPR, a rule-based self-supervision objective for training Transformer language models for domain-specific passage matching. In addition, we contribute a novel retrieval dataset based on clinical notes to simulate this scenario on a large corpus of clinical notes. We apply our objective in four Transformer-based architectures: Contextual Document Vectors, Bi-, Poly- and Cross-encoders. From our extensive evaluation on MIMIC-III and three other healthcare datasets, we report that CAPR outperforms strong baselines in the retrieval of domain-specific passages and effectively generalizes across rule-based and human-labeled passages. This makes the model powerful especially in zero-shot scenarios where only limited training data is available.
翻訳日:2021-08-03 22:15:23 公開日:2021-08-02
# (参考訳) CARLA: アルゴリズム記述と対実説明アルゴリズムをベンチマークするPythonライブラリ

CARLA: A Python Library to Benchmark Algorithmic Recourse and Counterfactual Explanation Algorithms ( http://arxiv.org/abs/2108.00783v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk and Sascha Bielawski and Johannes van den Heuvel and Tobias Richter and Gjergji Kasneci(参考訳) カウンターファクチュアルな説明は、将来の望ましい結果(保険承認など)を個人が達成できる行動可能な特徴変化(例えば収入の増加)を提案することによって、規範的なモデル説明の手段を提供する。 適切な方法を選択することは、意味のある反事実的説明にとって重要な側面である。 最近のレビューで述べられているように、利用可能な方法を持つ文献が急速に増えている。 しかし、広く利用可能なオープンソース実装が存在しないため、特定のモデルに賛成する決定は、主に簡単に利用できるものに基づいている。 今後は、説明メソッド間の有意義な比較を保証するために、さまざまなデータセットと異なる機械学習モデルにまたがる反事実説明メソッドをベンチマークするためのpythonライブラリであるcarla(counterfactual and recourse library)を提示します。 まとめると,本研究は,11の一般的な反事実説明手法の広範なベンチマーク,(ii)今後の反事実説明手法の研究のためのベンチマークフレームワーク,(iii)これらの手法を透明かつ広範囲に比較するための統合評価尺度とデータセットの標準化セットを提供する。 CARLAとGithubの実験成果をオープンソースとして公開し、競争上のベースラインとして利用しました。 他の研究グループや実践者からの貢献を歓迎します。

Counterfactual explanations provide means for prescriptive model explanations by suggesting actionable feature changes (e.g., increase income) that allow individuals to achieve favorable outcomes in the future (e.g., insurance approval). Choosing an appropriate method is a crucial aspect for meaningful counterfactual explanations. As documented in recent reviews, there exists a quickly growing literature with available methods. Yet, in the absence of widely available opensource implementations, the decision in favor of certain models is primarily based on what is readily available. Going forward - to guarantee meaningful comparisons across explanation methods - we present CARLA (Counterfactual And Recourse LibrAry), a python library for benchmarking counterfactual explanation methods across both different data sets and different machine learning models. In summary, our work provides the following contributions: (i) an extensive benchmark of 11 popular counterfactual explanation methods, (ii) a benchmarking framework for research on future counterfactual explanation methods, and (iii) a standardized set of integrated evaluation measures and data sets for transparent and extensive comparisons of these methods. We have open-sourced CARLA and our experimental results on Github, making them available as competitive baselines. We welcome contributions from other research groups and practitioners.
翻訳日:2021-08-03 21:58:18 公開日:2021-08-02
# (参考訳) 顔識別データを用いた顔認証モデルの訓練

Training face verification models from generated face identity data ( http://arxiv.org/abs/2108.00800v1 )

ライセンス: CC BY 4.0
Dennis Conway, Loic Simon, Alexis Lechervy, Frederic Jurie(参考訳) 機械学習ツールはますます強力で広く使われている。 残念なことに、機械学習で使用されるデータセットから情報を明らかにする会員攻撃は、データ共有を制限する可能性がある。 本稿では,顔認識に適用されるように,データセットのプライバシ保護を高めるアプローチを検討する。 補助的な顔認識モデルを用いて,スタイルガン生成逆ネットワークを基盤として,視覚識別係数を符号化する2つのサブコードと,非識別要素を組み合わせた潜在コードを生成する。 画像生成中にこれらのベクトルを独立に変化させることにより、架空の顔識別の合成データセットを作成する。 私たちはこのデータセットを使って顔認識モデルをトレーニングします。 モデル性能は顔認証の最先端と比較して低下する。 単純なメンバーシップアタックでテストすると、モデルは優れたプライバシー保護を提供しますが、モデルのパフォーマンスは、顔認証の最先端と比べて低下します。 少量のプライベートデータを追加することで、モデルの性能が大幅に向上し、機械学習モデルのトレーニングに合成データを使用することの制限が強調されることがわかった。

Machine learning tools are becoming increasingly powerful and widely used. Unfortunately membership attacks, which seek to uncover information from data sets used in machine learning, have the potential to limit data sharing. In this paper we consider an approach to increase the privacy protection of data sets, as applied to face recognition. Using an auxiliary face recognition model, we build on the StyleGAN generative adversarial network and feed it with latent codes combining two distinct sub-codes, one encoding visual identity factors, and, the other, non-identity factors. By independently varying these vectors during image generation, we create a synthetic data set of fictitious face identities. We use this data set to train a face recognition model. The model performance degrades in comparison to the state-of-the-art of face verification. When tested with a simple membership attack our model provides good privacy protection, however the model performance degrades in comparison to the state-of-the-art of face verification. We find that the addition of a small amount of private data greatly improves the performance of our model, which highlights the limitations of using synthetic data to train machine learning models.
翻訳日:2021-08-03 21:39:22 公開日:2021-08-02
# (参考訳) NL2SQLにおける半自己回帰的意味解析

Relation Aware Semi-autoregressive Semantic Parsing for NL2SQL ( http://arxiv.org/abs/2108.00804v1 )

ライセンス: CC BY 4.0
Junyang Huang, Yongbo Wang, Yongliang Wang, Yang Dong and Yanghua Xiao(参考訳) SQLへの自然言語(NL2SQL)は、あるデータベースで自然言語を解析してSQLクエリにすることを目的としている。 データベーススキーマと質問発話を共同でエンコードすることは、NL2SQLでは難しいが重要なタスクである。 一つの解決策は、入力を異質なグラフとして扱うことである。 しかし、質問発声において良い単語表現を学ばなかった。 優れた単語表現の学習は、よく設計されたNL2SQLシステムを構築する上で重要である。 この課題を解決するために,NL2SQLより適応性の高い半自動意味解析(\MODN)・フレームワークを提案する。 まず、ELECTRAと事前定義されたスキーマ関係を持つスキーマエンティティと疑問語に埋め込まれた関係を学習する。 次に、クエリSQLを半自己回帰パーサと事前定義されたSQL構文でデコードします。 実験結果とケーススタディから,NL2SQLにおける単語表現の学習の有効性を示す。

Natural language to SQL (NL2SQL) aims to parse a natural language with a given database into a SQL query, which widely appears in practical Internet applications. Jointly encode database schema and question utterance is a difficult but important task in NL2SQL. One solution is to treat the input as a heterogeneous graph. However, it failed to learn good word representation in question utterance. Learning better word representation is important for constructing a well-designed NL2SQL system. To solve the challenging task, we present a Relation aware Semi-autogressive Semantic Parsing (\MODN) ~framework, which is more adaptable for NL2SQL. It first learns relation embedding over the schema entities and question words with predefined schema relations with ELECTRA and relation aware transformer layer as backbone. Then we decode the query SQL with a semi-autoregressive parser and predefined SQL syntax. From empirical results and case study, our model shows its effectiveness in learning better word representation in NL2SQL.
翻訳日:2021-08-03 21:30:31 公開日:2021-08-02
# (参考訳) 網膜octの次元部分集合に沿ったセグメンテーションのための射影的スキップ接続

Projective Skip-Connections for Segmentation Along a Subset of Dimensions in Retinal OCT ( http://arxiv.org/abs/2108.00831v1 )

ライセンス: CC BY 4.0
Dmitrii Lachinov, Philipp Seeboeck, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 医療画像では、出力マスクが入力画像次元のサブセットへの投影である、臨床的に関連するセグメンテーションタスクが存在する。 本研究では,入力画像よりも低次元のセグメンテーションマスクを効果的に生成できる新しい畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワークは、入力された空間次元のサブセットでのみ符号化表現を復元し、他の部分で表現を不変に保つ。 新たに提案されたスキップ接続により、UNetのような構造でエンコーダとデコーダをリンクできる。 網膜光学コヒーレンス断層撮影 (oct) における2つの臨床関連課題 (地理的萎縮と網膜血管分画) について検討した。 提案手法は、3dボリュームと対応する2d内面マスクからなる全octデータセットにおける最先端のアプローチよりも優れていた。 提案アーキテクチャは,画像分類とND画像分割の方法論的ギャップを埋める。

In medical imaging, there are clinically relevant segmentation tasks where the output mask is a projection to a subset of input image dimensions. In this work, we propose a novel convolutional neural network architecture that can effectively learn to produce a lower-dimensional segmentation mask than the input image. The network restores encoded representation only in a subset of input spatial dimensions and keeps the representation unchanged in the others. The newly proposed projective skip-connections allow linking the encoder and decoder in a UNet-like structure. We evaluated the proposed method on two clinically relevant tasks in retinal Optical Coherence Tomography (OCT): geographic atrophy and retinal blood vessel segmentation. The proposed method outperformed the current state-of-the-art approaches on all the OCT datasets used, consisting of 3D volumes and corresponding 2D en-face masks. The proposed architecture fills the methodological gap between image classification and ND image segmentation.
翻訳日:2021-08-03 21:18:36 公開日:2021-08-02
# (参考訳) 弱教師付き物体定位のための浅部特徴量

Shallow Feature Matters for Weakly Supervised Object Localization ( http://arxiv.org/abs/2108.00873v1 )

ライセンス: CC BY 4.0
Jun Wei, Qin Wang, Zhen Li, Sheng Wang, S.Kevin Zhou, Shuguang Cui(参考訳) weakly supervised object localization (wsol) は、画像レベルのラベルのみを利用してオブジェクトをローカライズすることを目的としている。 クラスアクティベーションマップ(CAM)はWSOLを実現するのによく使われる機能である。 しかし、従来のCAMベースの手法は、WSOLの重要性にもかかわらず、浅い特徴を完全に活用しなかった。 浅い特徴は従来の融合によって容易に背景雑音に埋もれるためである。 本稿では, 浅層に埋もれた低レベル特徴を最大限に活用する, 高精度なwsolのための, 単純かつ効果的な浅層特徴認識擬似教師付き物体定位モデルを提案する。 実際、SPOLモデルは、背景雑音をフィルタし、よりシャープな境界を強固に生成する、浅い特徴写像と深い特徴写像の要素ワイド乗算により、まずCAMを生成する。 さらに,初期CAMを付加アノテーションなしで擬似ラベルとしてのみ使用することにより,精度の高いオブジェクトマスクを実現するための一般クラス非依存セグメンテーションモデルを提案する。 最終的に、対象マスクにバウンディングボックス抽出器を塗布してターゲットを特定する。 実験により、我々のSPOLはCUB-200とImageNet-1Kのベンチマークでそれぞれ93.44%と67.15%(すなわち3.93%と2.13%の改善)を達成した。

Weakly supervised object localization (WSOL) aims to localize objects by only utilizing image-level labels. Class activation maps (CAMs) are the commonly used features to achieve WSOL. However, previous CAM-based methods did not take full advantage of the shallow features, despite their importance for WSOL. Because shallow features are easily buried in background noise through conventional fusion. In this paper, we propose a simple but effective Shallow feature-aware Pseudo supervised Object Localization (SPOL) model for accurate WSOL, which makes the utmost of low-level features embedded in shallow layers. In practice, our SPOL model first generates the CAMs through a novel element-wise multiplication of shallow and deep feature maps, which filters the background noise and generates sharper boundaries robustly. Besides, we further propose a general class-agnostic segmentation model to achieve the accurate object mask, by only using the initial CAMs as the pseudo label without any extra annotation. Eventually, a bounding box extractor is applied to the object mask to locate the target. Experiments verify that our SPOL outperforms the state-of-the-art on both CUB-200 and ImageNet-1K benchmarks, achieving 93.44% and 67.15% (i.e., 3.93% and 2.13% improvement) Top-5 localization accuracy, respectively.
翻訳日:2021-08-03 21:05:39 公開日:2021-08-02
# (参考訳) ポリプセグメンテーションのための浅い注意ネットワーク

Shallow Attention Network for Polyp Segmentation ( http://arxiv.org/abs/2108.00882v1 )

ライセンス: CC BY 4.0
Jun Wei, Yiwen Hu, Ruimao Zhang, Zhen Li, S.Kevin Zhou, Shuguang Cui(参考訳) 正確なポリープの分画は大腸癌の診断に非常に重要である。 しかし、強力なディープニューラルネットワークであっても、ポリプセグメンテーションの開発を妨げる3つの大きな課題は残っている。 (i)異なる条件下で収集されたサンプルは、不整合色を示し、特徴分布ギャップと過度な適合の問題を引き起こし、(ii)繰り返し機能ダウンサンプリングにより、小さなポリープが容易に劣化し、(iii)前景と背景画素が不整合し、バイアスのある訓練につながる。 上記の問題に対処するため,ポリプセグメンテーションのためのShallow Attention Network (SANet)を提案する。 具体的には、色の影響をなくすために、色交換操作をデザインし、画像内容と色を分離し、モデルに対象の形状と構造をより集中させる。 さらに,小型ポリプのセグメンテーション品質を向上させるため,浅い特徴の背景雑音を除去できる浅層アテンションモジュールを提案する。 浅い特徴の高分解能により、小さなポリープを正確に保存することができる。 さらに,小型ポリープの画素不均衡を緩和するため,推定フェーズにおける確率補正戦略(PCS)を提案する。 PCSはトレーニングフェーズには関与していないが、偏りのあるモデルでもうまく機能し、セグメンテーション性能を一貫して改善できる。 5つの挑戦的ベンチマークにおける定量的および定性的な実験結果から,提案したSANetは従来の最先端手法よりも高い性能を示し,72FPSの速度を達成した。

Accurate polyp segmentation is of great importance for colorectal cancer diagnosis. However, even with a powerful deep neural network, there still exists three big challenges that impede the development of polyp segmentation. (i) Samples collected under different conditions show inconsistent colors, causing the feature distribution gap and overfitting issue; (ii) Due to repeated feature downsampling, small polyps are easily degraded; (iii) Foreground and background pixels are imbalanced, leading to a biased training. To address the above issues, we propose the Shallow Attention Network (SANet) for polyp segmentation. Specifically, to eliminate the effects of color, we design the color exchange operation to decouple the image contents and colors, and force the model to focus more on the target shape and structure. Furthermore, to enhance the segmentation quality of small polyps, we propose the shallow attention module to filter out the background noise of shallow features. Thanks to the high resolution of shallow features, small polyps can be preserved correctly. In addition, to ease the severe pixel imbalance for small polyps, we propose a probability correction strategy (PCS) during the inference phase. Note that even though PCS is not involved in the training phase, it can still work well on a biased model and consistently improve the segmentation performance. Quantitative and qualitative experimental results on five challenging benchmarks confirm that our proposed SANet outperforms previous state-of-the-art methods by a large margin and achieves a speed about 72FPS.
翻訳日:2021-08-03 20:53:04 公開日:2021-08-02
# (参考訳) Sticky-Datalog+/- by Finite-Position SelectionFunctions: Tractability, Algorithms, Optimizations

Extending Sticky-Datalog+/- via Finite-Position SelectionFunctions: Tractability, Algorithms, and Optimization ( http://arxiv.org/abs/2108.00903v1 )

ライセンス: CC BY 4.0
Leopoldo Bertossi, Mostafa Milani(参考訳) weakly-sticky(ws) datalog+/-は、粘着性と非循環性の条件に基づいて定義されるdatalog+/-プログラムクラスの表現力のあるメンバーである。 WS プログラム上での接続型クエリ応答 (QA) について検討し,データ複雑性のトラクタビリティを確立した。 しかし,実効的なQAアルゴリズムの設計と実装とその最適化は未完成である。 このギャップを埋めるために、私たちはまず、追跡手順の振る舞いの観点から、StickyとWSプログラムを研究します。 我々は、チェイスのスティッキネス特性を、チェイス中に有限の値が現れる述語位置を選択する(そして提供する)オラクルの一般化されたスティッキネス(gsch)モジュロに拡張する。 これらの位置のサブセットのみを提供する選択関数 S の粘度変調は、GSCh のセマンティックサブクラス sch(S) を定義する。 選択関数を持つプログラムクラスには、Sticky と WS と、WS を含むジョイント弱スティックプログラムの導入と特徴付けを行う別の構文クラス、すなわち JWS がある。 これら3つのクラスの選択関数は計算可能であり、外部の計算不可能なオラクルは必要ない。 本稿では,一般選択 s に対して,クラス sch(s) におけるプログラムのボトムアップ qa アルゴリズムを提案する。 WSと異なり、JWSはマジックセットのクエリ最適化の下でクローズされている。 その結果、一般的な多項式時間QAアルゴリズムとマジックセット最適化の両方を具体化し、WSに適用することができる。

Weakly-Sticky(WS) Datalog+/- is an expressive member of the family of Datalog+/- program classes that is defined on the basis of the conditions of stickiness and weak-acyclicity. Conjunctive query answering (QA) over the WS programs has been investigated, and its tractability in data complexity has been established. However, the design and implementation of practical QA algorithms and their optimizations have been open. In order to fill this gap, we first study Sticky and WS programs from the point of view of the behavior of the chase procedure. We extend the stickiness property of the chase to that of generalized stickiness of the chase (GSCh) modulo an oracle that selects (and provides) the predicate positions where finitely values appear during the chase. Stickiness modulo a selection function S that provides only a subset of those positions defines sch(S), a semantic subclass of GSCh. Program classes with selection functions include Sticky and WS, and another syntactic class that we introduce and characterize, namely JWS, of jointly-weakly-sticky programs, which contains WS. The selection functions for these last three classes are computable, and no external, possibly non-computable oracle is needed. We propose a bottom-up QA algorithm for programs in the class sch(S), for a general selection S.As a particular case, we obtain a polynomial-time QA algorithm for JWS and weakly-sticky programs. Unlike WS, JWS turns out to be closed under magic-sets query optimization. As a consequence, both the generic polynomial-time QA algorithm and its magic-set optimization can be particularized and applied to WS.
翻訳日:2021-08-03 20:43:42 公開日:2021-08-02
# (参考訳) 予測符号化によるコミュニケーション効率のよい連合学習

Communication-Efficient Federated Learning via Predictive Coding ( http://arxiv.org/abs/2108.00918v1 )

ライセンス: CC BY 4.0
Kai Yue, Richeng Jin, Chau-Wai Wong, Huaiyu Dai(参考訳) フェデレーション学習は、リモートワーカーが共有機械学習モデルを協調的にトレーニングし、トレーニングデータをローカルに保持できるようにする。 無線モバイルデバイスの場合、通信のオーバーヘッドは電力と帯域幅が限られているため、重大なボトルネックとなる。 以前の作業では、量子化やスパーシフィケーションといったさまざまなデータ圧縮ツールを使用してオーバーヘッドを削減している。 本稿では,フェデレーション学習のための予測符号化に基づく通信方式を提案する。 このスキームはすべてのデバイス間で予測機能を共有しており、各作業者は基準から導出された圧縮された残留ベクトルを送信できる。 各通信ラウンドにおいて、レート歪みコストに基づいて予測器と量子化器を選択し、エントロピー符号化による冗長性をさらに低減する。 大規模なシミュレーションにより,他のベースライン手法と比較して,学習性能が向上し,通信コストを99%まで削減できることがわかった。

Federated learning can enable remote workers to collaboratively train a shared machine learning model while allowing training data to be kept locally. In the use case of wireless mobile devices, the communication overhead is a critical bottleneck due to limited power and bandwidth. Prior work has utilized various data compression tools such as quantization and sparsification to reduce the overhead. In this paper, we propose a predictive coding based communication scheme for federated learning. The scheme has shared prediction functions among all devices and allows each worker to transmit a compressed residual vector derived from the reference. In each communication round, we select the predictor and quantizer based on the rate-distortion cost, and further reduce the redundancy with entropy coding. Extensive simulations reveal that the communication cost can be reduced up to 99% with even better learning performance when compared with other baseline methods.
翻訳日:2021-08-03 20:42:26 公開日:2021-08-02
# (参考訳) 旅行セールスマン問題における機械学習構成と局所探索

Machine Learning Constructives and Local Searches for the Travelling Salesman Problem ( http://arxiv.org/abs/2108.00938v1 )

ライセンス: CC BY-SA 4.0
Tommaso Vitali, Umberto Junior Mele, Luca Maria Gambardella, Roberto Montemanni(参考訳) ML-Constructive Heuristic(ML-コンストラクティブ・ヒューリスティック)は,現実の旅行セールスマン問題にスケールアップ可能な,最初のハイブリッド手法である。 機械学習技術と古典的な最適化技術を組み合わせている。 本稿では,従来のディープラーニングモデルの計算量の改善について述べる。 さらに,より単純なモデルにより実行時間を短縮し,局所探索フェーズを追加することにより,さらなる性能向上が期待できる。 実験の結果,提案する改良の質が一致した。

The ML-Constructive heuristic is a recently presented method and the first hybrid method capable of scaling up to real scale traveling salesman problems. It combines machine learning techniques and classic optimization techniques. In this paper we present improvements to the computational weight of the original deep learning model. In addition, as simpler models reduce the execution time, the possibility of adding a local-search phase is explored to further improve performance. Experimental results corroborate the quality of the proposed improvements.
翻訳日:2021-08-03 20:04:37 公開日:2021-08-02
# (参考訳) 機械学習のためのHuman-in-the-loopに関する調査

A Survey of Human-in-the-loop for Machine Learning ( http://arxiv.org/abs/2108.00941v1 )

ライセンス: CC BY 4.0
Xingjiao Wu, Luwei Xiao, Yixuan Sun, Junhang Zhang, Tianlong Ma, Liang He(参考訳) human-in-the-loopの目的は、人間の知識と経験を統合することによって、最小コストで正確な予測モデルを訓練することである。 人間は機械学習アプリケーションのためのトレーニングデータを提供し、機械学習アプローチの助けを借りて、パイプライン内のコンピュータにとって難しいタスクを直接達成することができる。 本稿では,(1)データ処理によるモデル性能向上作業,(2)介入型モデルトレーニングによるモデル性能向上作業,(3)独立型ヒューマン・イン・ザ・ループの設計という3つのカテゴリに分類した。 上記の分類を用いて、分野における主要なアプローチを要約し、その技術的強みや弱点とともに、自然言語処理、コンピュータビジョンなどにおける単純な分類と議論を行う。 さらに、オープンな課題と機会も提供します。 本調査は,ループ内人間に対する高レベルな要約を提供することを目的としている。

Human-in-the-loop aims to train an accurate prediction model with minimum cost by integrating human knowledge and experience. Humans can provide training data for machine learning applications and directly accomplish some tasks that are hard for computers in the pipeline with the help of machine-based approaches. In this paper, we survey existing works on human-in-the-loop from a data perspective and classify them into three categories with a progressive relationship: (1) the work of improving model performance from data processing, (2) the work of improving model performance through interventional model training, and (3) the design of the system independent human-in-the-loop. Using the above categorization, we summarize major approaches in the field, along with their technical strengths/ weaknesses, we have simple classification and discussion in natural language processing, computer vision, and others. Besides, we provide some open challenges and opportunities. This survey intends to provide a high-level summarization for human-in-the-loop and motivates interested readers to consider approaches for designing effective human-in-the-loop solutions.
翻訳日:2021-08-03 19:58:59 公開日:2021-08-02
# (参考訳) StyleGAN-NADA:CLIP誘導画像生成領域適応

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators ( http://arxiv.org/abs/2108.00946v1 )

ライセンス: CC BY 4.0
Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or(参考訳) 生成モデルは、画像を見ることなく、テキストプロンプトのみに導かれ、特定のドメインから画像を生成するように訓練できるだろうか? 言い換えれば、画像生成器は盲目的に訓練できるのか? 大規模コントラスト言語-イメージ-プレトレーニング(clip)モデルのセマンティックパワーを活用して,生成モデルから新たなドメインへのシフトを可能にするテキスト駆動方式を提案する。 自然言語プロンプトと数分のトレーニングによって,多様なスタイルと形状を特徴とする多数のドメインにわたってジェネレータを適応させることができることを示す。 特に、これらの変更の多くは、既存のメソッドに到達するのが困難か、あるいは完全に不可能である。 幅広い領域にわたる広範な実験と比較を実施します。 これらの結果は,提案手法の有効性を示し,シフトモデルが潜在空間特性を保ち,下流タスクにアピールする生成モデルとなることを示す。

Can a generative model be trained to produce images from a specific domain, guided by a text prompt only, without seeing any image? In other words: can an image generator be trained blindly? Leveraging the semantic power of large scale Contrastive-Language-Image-Pre-training (CLIP) models, we present a text-driven method that allows shifting a generative model to new domains, without having to collect even a single image from those domains. We show that through natural language prompts and a few minutes of training, our method can adapt a generator across a multitude of domains characterized by diverse styles and shapes. Notably, many of these modifications would be difficult or outright impossible to reach with existing methods. We conduct an extensive set of experiments and comparisons across a wide range of domains. These demonstrate the effectiveness of our approach and show that our shifted models maintain the latent-space properties that make generative models appealing for downstream tasks.
翻訳日:2021-08-03 18:51:52 公開日:2021-08-02
# (参考訳) 超画素混合による信頼性の高い意味セグメンテーション

Reliable Semantic Segmentation with Superpixel-Mix ( http://arxiv.org/abs/2108.00968v1 )

ライセンス: CC BY-SA 4.0
Gianni Franchi, Nacim Belkhir, Mai Lan Ha, Yufei Hu, Andrei Bursuc, Volker Blanz, Angela Yao(参考訳) 予測性能と実行速度に加えて、信頼性は現実のセマンティックセグメンテーションにとって重要な要件である。 信頼性には堅牢性、予測の不確実性、バイアスの低減が含まれる。 信頼性を向上させるために,教師と教師の一貫性トレーニングによる新しいスーパーピクセルベースのデータ拡張手法であるsuperpixel-mixを導入する。 他の混合ベースの拡張技術とは異なり、画像間のスーパーピクセルの混合はオブジェクトの境界を認識し、セグメンテーション精度は一貫して向上する。 提案手法は,都市景観データセット上で半教師ありセマンティクスセグメンテーションを実現する。 さらに、スーパーピクセル混合は、強い分布シフト(逆天候、画像腐敗)と分散データに直面する場合の競合結果によって確認されるように、ネットワークの不確実性とバイアスを低減し、意味セグメンテーションの信頼性を向上させる。

Along with predictive performance and runtime speed, reliability is a key requirement for real-world semantic segmentation. Reliability encompasses robustness, predictive uncertainty and reduced bias. To improve reliability, we introduce Superpixel-mix, a new superpixel-based data augmentation method with teacher-student consistency training. Unlike other mixing-based augmentation techniques, mixing superpixels between images is aware of object boundaries, while yielding consistent gains in segmentation accuracy. Our proposed technique achieves state-of-the-art results in semi-supervised semantic segmentation on the Cityscapes dataset. Moreover, Superpixel-mix improves the reliability of semantic segmentation by reducing network uncertainty and bias, as confirmed by competitive results under strong distributions shift (adverse weather, image corruptions) and when facing out-of-distribution data.
翻訳日:2021-08-03 18:35:28 公開日:2021-08-02
# (参考訳) モノのインターネットにおける侵入検知のためのフェデレーション学習の評価:レビューと課題

Evaluating Federated Learning for Intrusion Detection in Internet of Things: Review and Challenges ( http://arxiv.org/abs/2108.00974v1 )

ライセンス: CC BY 4.0
Enrique M\'armol Campos, Pablo Fern\'andez Saura, Aurora Gonz\'alez-Vidal, Jos\'e L. Hern\'andez-Ramos, Jorge Bernal Bernabe, Gianmarco Baldini, Antonio Skarmeta(参考訳) 機械学習(ML)技術のよく知られた侵入検知システム(IDS)への適用は、効率的かつ効率的な検出プロセスを通じて、ますます高度なサイバーセキュリティ攻撃に対処する鍵となる。 IoT(Internet of Things)のコンテキストでは、ほとんどのML対応IDSアプローチは、IoTデバイスがデータセンタとデータを共有する集中型アプローチを使用して、さらなる分析を行う。 集中型アプローチに関連するプライバシーの懸念を軽減するため、近年では、医療や交通システムなど、さまざまな分野へのフェデレートラーニング(FL)の利用が注目されている。 しかし、FL対応IoT用IDSの開発はまだ初期段階であり、現実のシナリオにおけるデプロイメントの主な課題を特定するためには、さまざまな分野の研究作業が必要である。 本研究は,IoTシナリオにおける異なる攻撃を検出するために,異なるデータ分布を考慮したマルチクラス分類器に基づくFL対応IDSアプローチを評価する。 特に、IoTデバイスのIPアドレスと攻撃タイプに応じて、最新のToN\_IoTデータセットをパーティショニングすることで得られる3つの異なる設定を使用します。 さらに,最近のIBMFLフレームワークをFL実装として使用することにより,異なるアグリゲーション関数の影響を評価した。 さらに,既存の文献と評価結果の分析に基づいて,課題の集合と今後の方向性を明らかにした。

The application of Machine Learning (ML) techniques to the well-known intrusion detection systems (IDS) is key to cope with increasingly sophisticated cybersecurity attacks through an effective and efficient detection process. In the context of the Internet of Things (IoT), most ML-enabled IDS approaches use centralized approaches where IoT devices share their data with data centers for further analysis. To mitigate privacy concerns associated with centralized approaches, in recent years the use of Federated Learning (FL) has attracted a significant interest in different sectors, including healthcare and transport systems. However, the development of FL-enabled IDS for IoT is in its infancy, and still requires research efforts from various areas, in order to identify the main challenges for the deployment in real-world scenarios. In this direction, our work evaluates a FL-enabled IDS approach based on a multiclass classifier considering different data distributions for the detection of different attacks in an IoT scenario. In particular, we use three different settings that are obtained by partitioning the recent ToN\_IoT dataset according to IoT devices' IP address and types of attack. Furthermore, we evaluate the impact of different aggregation functions according to such setting by using the recent IBMFL framework as FL implementation. Additionally, we identify a set of challenges and future directions based on the existing literature and the analysis of our evaluation results.
翻訳日:2021-08-03 18:32:27 公開日:2021-08-02
# (参考訳) クロスドメインオブジェクト検出のための多レベル知識転送

Multilevel Knowledge Transfer for Cross-Domain Object Detection ( http://arxiv.org/abs/2108.00977v1 )

ライセンス: CC BY 4.0
Botos Csaba, Xiaojuan Qi, Arslan Chaudhry, Puneet Dokania, Philip Torr(参考訳) ドメインシフトはよく知られた問題であり、特定のドメイン(ソース)でトレーニングされたモデルは、異なるドメイン(ターゲット)のサンプルに公開してもうまく機能しない。 ドメインシフトに適応できる教師なしの方法は、ターゲットから追加の注釈付きトレーニングデータを必要とせずに、ソースデータの有効活用を可能にするため、非常に望ましい。 実際、対象領域から十分な量の注釈付きデータを取得することは、実現不可能かつ極めて高価である。 本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。 我々のアプローチは、ソースとターゲットドメインの間のドメインシフトを徐々に取り除くことに依存している。 このアプローチの重要な要素は, (a) 画素レベルでソースをターゲットドメインにマッピングすること, (b) 教師ネットワークをマップしたソースと無注釈のターゲットドメインで訓練すること, (c) 教師から得られた擬似ラベルを用いて学生ネットワークを訓練することである。 実験的に、ドメインシフトを含む挑戦的なシナリオをテストすると、さまざまな最先端技術に対して、一貫して大きなパフォーマンス向上が得られる。

Domain shift is a well known problem where a model trained on a particular domain (source) does not perform well when exposed to samples from a different domain (target). Unsupervised methods that can adapt to domain shift are highly desirable as they allow effective utilization of the source data without requiring additional annotated training data from the target. Practically, obtaining sufficient amount of annotated data from the target domain can be both infeasible and extremely expensive. In this work, we address the domain shift problem for the object detection task. Our approach relies on gradually removing the domain shift between the source and the target domains. The key ingredients to our approach are -- (a) mapping the source to the target domain on pixel-level; (b) training a teacher network on the mapped source and the unannotated target domain using adversarial feature alignment; and (c) finally training a student network using the pseudo-labels obtained from the teacher. Experimentally, when tested on challenging scenarios involving domain shift, we consistently obtain significantly large performance gains over various recent state of the art approaches.
翻訳日:2021-08-03 18:31:22 公開日:2021-08-02
# (参考訳) $\beta-$mixingサンプルを用いた非パラメトリック回帰の一般化境界

Generalization bounds for nonparametric regression with $\beta-$mixing samples ( http://arxiv.org/abs/2108.00997v1 )

ライセンス: CC BY 4.0
David Barrera and Emmanuel Gobet(参考訳) 本稿では,実験過程の均一な偏差不等式を,訓練試料に付随する$\beta-$mixing係数を用いて付加誤差を特徴付ける従属事例に対して直接的に拡張できる一連の結果を示す。 この結果を非パラメトリック回帰における最小二乗誤差の偏差に関連する独立サンプルの不等式に適用し、トレーニングサンプルが独立ではないような回帰スキームに対する対応する一般化境界を求める。 これらの結果は、トレーニングサンプルが独立したケースのみを使用して、幾何学的にエルゴードマルコフサンプルを含む多数の$\beta-$mixingシーケンスのクラスに由来する回帰スキームに関連するエラーを分析するフレームワークを提供する。 より一般的には、独立なトレーニングサンプルに対して、Vapnik-Chervonenkisと同様の理論の有意義な拡張を許可し、このクラスは$\beta-$mixingサンプルである。

In this paper we present a series of results that permit to extend in a direct manner uniform deviation inequalities of the empirical process from the independent to the dependent case characterizing the additional error in terms of $\beta-$mixing coefficients associated to the training sample. We then apply these results to some previously obtained inequalities for independent samples associated to the deviation of the least-squared error in nonparametric regression to derive corresponding generalization bounds for regression schemes in which the training sample may not be independent. These results provide a framework to analyze the error associated to regression schemes whose training sample comes from a large class of $\beta-$mixing sequences, including geometrically ergodic Markov samples, using only the independent case. More generally, they permit a meaningful extension of the Vapnik-Chervonenkis and similar theories for independent training samples to this class of $\beta-$mixing samples.
翻訳日:2021-08-03 18:10:45 公開日:2021-08-02
# (参考訳) オブジェクトプッシュポリシー学習のための高能率画像変換HourGlassアーキテクチャ

An Efficient Image-to-Image Translation HourGlass-based Architecture for Object Pushing Policy Learning ( http://arxiv.org/abs/2108.01034v1 )

ライセンス: CC BY 4.0
Marco Ewerton, Angel Mart\'inez-Gonz\'alez, Jean-Marc Odobez(参考訳) 人間は日常におけるタスクの押し出しを無力に解決するが、これらの能力の解錠はロボット工学の課題であり続けている。 最先端のデータ駆動アプローチは、これらの不正確さを補うか、近似した物理モデルを完全に置き換えるかを学ぶ。 それでも、Deep Q-Networks (DQN) のようなアプローチは、大きな状態作用空間における局所的な最適性に悩まされている。 さらに、深層学習アーキテクチャや学習パラダイムにも依存している。 本稿では,dqnsによるプッシュポリシーの学習を画像から画像への翻訳問題として枠組み化し,砂時計ベースのアーキテクチャを活用することを提案する。 本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。 さらに,位置依存型政策行動学習のための位置情報符号化について検討する。 我々は、ur5ロボットアームを用いたシミュレーション実験で、dqnがより速く学習し、未知のダイナミクスを持つオブジェクトを含むプッシュタスクにおいて高いパフォーマンスを達成するのに役立つことを実証した。

Humans effortlessly solve pushing tasks in everyday life but unlocking these capabilities remains a challenge in robotics because physics models of these tasks are often inaccurate or unattainable. State-of-the-art data-driven approaches learn to compensate for these inaccuracies or replace the approximated physics models altogether. Nevertheless, approaches like Deep Q-Networks (DQNs) suffer from local optima in large state-action spaces. Furthermore, they rely on well-chosen deep learning architectures and learning paradigms. In this paper, we propose to frame the learning of pushing policies (where to push and how) by DQNs as an image-to-image translation problem and exploit an Hourglass-based architecture. We present an architecture combining a predictor of which pushes lead to changes in the environment with a state-action value predictor dedicated to the pushing task. Moreover, we investigate positional information encoding to learn position-dependent policy behaviors. We demonstrate in simulation experiments with a UR5 robot arm that our overall architecture helps the DQN learn faster and achieve higher performance in a pushing task involving objects with unknown dynamics.
翻訳日:2021-08-03 18:09:48 公開日:2021-08-02
# (参考訳) 新型コロナウイルス(covid-19)前後における欧州連帯の変遷--大群衆と専門家によるtwitterデータから

Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset ( http://arxiv.org/abs/2108.01042v1 )

ライセンス: CC BY 4.0
Alexandra Ils and Dan Liu and Daniela Grunow and Steffen Eger(参考訳) 我々は、新型コロナウイルスの感染拡大が世界的なパンデミックであると宣言された後、欧州の連帯言論がどのように変化したかを評価するため、NLPにおける機械学習を監督する新たな問題として、社会的連帯という確立した社会科学的概念と、その競争、反連帯(anti-solidarity)を紹介した。 この目的のために、私たちは2.3kの英語とドイツ語のつぶやきに、複数の人間の注釈と2つのアノテーションアプローチ(専門家 vs.\ crowds)を利用して、(アンチ)連帯表現を注釈します。 これらのアノテーションを使って、複数のデータ拡張戦略でBERTモデルをトレーニングします。 エキスパートアノテーションとクラウドアノテーションを組み合わせた拡張BERTモデルは、エキスパートアノテーションでトレーニングされたベースラインBERT分類器を58\%のマクロF1から85\%の25ポイントで上回ります。 この高品質なモデルを使って、2019年9月から2020年12月までに270万以上のツイートを自動的にラベル付けします。 次に、covid-19危機の前後において、ヨーロッパ(反連帯)の言論に関連する言論が、時間とともに相互にどのように発展していくかに関する、自動ラベル付きデータを評価する。 我々の結果は、連帯がますます健全になり、危機の間に争われたことを示している。 連帯ツイートの数は高い水準にとどまり、精査された時間枠の会話を支配していたが、反連帯ツイートは当初急増し、2020年末まで安定した高水準に上昇する前に(ほぼ)covid-19以前の値に低下した。

We introduce the well-established social scientific concept of social solidarity and its contestation, anti-solidarity, as a new problem setting to supervised machine learning in NLP to assess how European solidarity discourses changed before and after the COVID-19 outbreak was declared a global pandemic. To this end, we annotate 2.3k English and German tweets for (anti-)solidarity expressions, utilizing multiple human annotators and two annotation approaches (experts vs.\ crowds). We use these annotations to train a BERT model with multiple data augmentation strategies. Our augmented BERT model that combines both expert and crowd annotations outperforms the baseline BERT classifier trained with expert annotations only by over 25 points, from 58\% macro-F1 to almost 85\%. We use this high-quality model to automatically label over 270k tweets between September 2019 and December 2020. We then assess the automatically labeled data for how statements related to European (anti-)solidarity discourses developed over time and in relation to one another, before and during the COVID-19 crisis. Our results show that solidarity became increasingly salient and contested during the crisis. While the number of solidarity tweets remained on a higher level and dominated the discourse in the scrutinized time frame, anti-solidarity tweets initially spiked, then decreased to (almost) pre-COVID-19 values before rising to a stable higher level until the end of 2020.
翻訳日:2021-08-03 17:57:17 公開日:2021-08-02
# (参考訳) cold start similar artists ranking with gravity-inspired graph autoencoder (英語)

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders ( http://arxiv.org/abs/2108.01053v1 )

ライセンス: CC BY 4.0
Guillaume Salha-Galvan and Romain Hennequin and Benjamin Chapus and Viet-Anh Tran and Michalis Vazirgiannis(参考訳) アーティストのプロフィールページでは、音楽ストリーミングサービスはファンが好んだ「類似アーティスト」のランキングをしばしば推奨している。 しかし、こうした機能を実装することは、サービス上の使用データ(例えば、サービス上の使用データ)を持つ新しいアーティストにとって困難である。 ストリームやlikes)はまだ利用できない。 本稿では,このコールドスタート類似アーティストランキング問題を,有意かつ帰属的なグラフにおけるリンク予測タスクとしてモデル化し,アーティストと最上位の類似アーティストを接続し,サイド音楽情報を取り込む。 次に、グラフオートエンコーダアーキテクチャを用いて、このグラフからノード埋め込み表現を学習し、重力に着想を得たメカニズムを用いて、新しいアーティストの最もよく似た隣人を自動的にランク付けする。 我々は,世界規模の音楽ストリーミングサービスにおける類似アーティストのランキング問題に対処することで,その柔軟性と効果を実証的に示す。 この論文と並行して,実験から得られた産業用グラフデータとともに,ソースコードの公開も行います。

On an artist's profile page, music streaming services frequently recommend a ranked list of "similar artists" that fans also liked. However, implementing such a feature is challenging for new artists, for which usage data on the service (e.g. streams or likes) is not yet available. In this paper, we model this cold start similar artists ranking problem as a link prediction task in a directed and attributed graph, connecting artists to their top-k most similar neighbors and incorporating side musical information. Then, we leverage a graph autoencoder architecture to learn node embedding representations from this graph, and to automatically rank the top-k most similar neighbors of new artists using a gravity-inspired mechanism. We empirically show the flexibility and the effectiveness of our framework, by addressing a real-world cold start similar artists ranking problem on a global music streaming service. Along with this paper, we also publicly release our source code as well as the industrial graph data from our experiments.
翻訳日:2021-08-03 17:41:09 公開日:2021-08-02
# (参考訳) 接地画像キャプションのための分散注意

Distributed Attention for Grounded Image Captioning ( http://arxiv.org/abs/2108.01056v1 )

ライセンス: CC BY 4.0
Nenglun Chen, Xingjia Pan, Runnan Chen, Lei Yang, Zhiwen Lin, Yuqiang Ren, Haolei Yuan, Xiaowei Guo, Feiyue Huang, Wenping Wang(参考訳) 弱教師付き画像キャプションの問題点について検討する。 すなわち、画像が与えられたとき、画像中の対応する領域に接する名詞単語ごとに、画像の文脈を記述した文を自動的に生成することである。 このタスクは、監督としての明示的なきめ細かな地域単語アライメントが欠如しているため、難しい。 従来の弱教師付き手法は主に注意の精度を向上させるために様々な正規化スキームを探索する。 しかし、そのパフォーマンスは、完全に監督されたものとは程遠い。 無視されている主な問題は、視覚的に接地可能な単語を生成することの注意は、最も差別化された部分だけに集中し、オブジェクト全体をカバーできないことである。 この目的のために,本稿では,部分基底問題と呼ばれる問題を緩和する簡易かつ効果的な手法を提案する。 具体的には,複数の空間的に異なる領域の情報を一貫したセマンティクスで集約し,単語を生成するためにネットワークを強制する分散アテンション機構を設計する。 したがって、焦点を絞った地域提案の結合は、関心の対象を完全に囲む視覚領域を形成するべきである。 実験により,提案手法が最先端技術よりも優れていることを示した。

We study the problem of weakly supervised grounded image captioning. That is, given an image, the goal is to automatically generate a sentence describing the context of the image with each noun word grounded to the corresponding region in the image. This task is challenging due to the lack of explicit fine-grained region word alignments as supervision. Previous weakly supervised methods mainly explore various kinds of regularization schemes to improve attention accuracy. However, their performances are still far from the fully supervised ones. One main issue that has been ignored is that the attention for generating visually groundable words may only focus on the most discriminate parts and can not cover the whole object. To this end, we propose a simple yet effective method to alleviate the issue, termed as partial grounding problem in our paper. Specifically, we design a distributed attention mechanism to enforce the network to aggregate information from multiple spatially different regions with consistent semantics while generating the words. Therefore, the union of the focused region proposals should form a visual region that encloses the object of interest completely. Extensive experiments have demonstrated the superiority of our proposed method compared with the state-of-the-arts.
翻訳日:2021-08-03 17:21:32 公開日:2021-08-02
# (参考訳) 前向きなSonar Patch Matching:現代のCNN、組み立て、不確実性

Forward-Looking Sonar Patch Matching: Modern CNNs, Ensembling, and Uncertainty ( http://arxiv.org/abs/2108.01066v1 )

ライセンス: CC BY 4.0
Arka Mallick and Paul Pl\"oger and Matias Valdenegro-Toro(参考訳) 水中ロボットの応用は増加しており、そのほとんどが水中視覚のためのソナーに依存しているが、強い知覚能力の欠如は、このタスクにおいてそれらを制限する。 ソナー認識における重要な問題は、画像パッチのマッチングであり、ローカライゼーション、変更検出、マッピングなどの他のテクニックを可能にする。 カラー画像には、この問題に関する豊富な文献があるが、音響画像では、これらの画像を生成する物理学のために不足している。 本稿では,この問題に対するこれまでの結果(valdenegro-toro et al, 2017)を,手作業でモデリングする代わりに,畳み込みニューラルネットワーク(cnn)が類似度関数を学習し,2つの入力ソナー画像が類似しているか否かを予測する。 さらに、ソナー画像マッチング問題を改善することを目的として、CNNアーキテクチャの3つの状態が、DenseNetとVGGというMarine Debrisデータセット上で評価され、シアムまたは2チャネルアーキテクチャと対照的な損失が生じる。 各ネットワークの公平な評価を確保するために、徹底的なハイパーパラメータ最適化を行う。 DenseNet Two-Channel Network with 0.955 AUC, VGG-Siamese with 0.949 AUC, DenseNet Siamese with 0.921 AUCが最適である。 DenseNetの2チャンネルモデルとDenseNet-Siameseモデルの上位をアンサンブルすることで、得られる予測精度は0.978 AUCとなり、芸術の状況において0.91 AUCよりも大幅に改善された。

Application of underwater robots are on the rise, most of them are dependent on sonar for underwater vision, but the lack of strong perception capabilities limits them in this task. An important issue in sonar perception is matching image patches, which can enable other techniques like localization, change detection, and mapping. There is a rich literature for this problem in color images, but for acoustic images, it is lacking, due to the physics that produce these images. In this paper we improve on our previous results for this problem (Valdenegro-Toro et al, 2017), instead of modeling features manually, a Convolutional Neural Network (CNN) learns a similarity function and predicts if two input sonar images are similar or not. With the objective of improving the sonar image matching problem further, three state of the art CNN architectures are evaluated on the Marine Debris dataset, namely DenseNet, and VGG, with a siamese or two-channel architecture, and contrastive loss. To ensure a fair evaluation of each network, thorough hyper-parameter optimization is executed. We find that the best performing models are DenseNet Two-Channel network with 0.955 AUC, VGG-Siamese with contrastive loss at 0.949 AUC and DenseNet Siamese with 0.921 AUC. By ensembling the top performing DenseNet two-channel and DenseNet-Siamese models overall highest prediction accuracy obtained is 0.978 AUC, showing a large improvement over the 0.91 AUC in the state of the art.
翻訳日:2021-08-03 17:07:14 公開日:2021-08-02
# (参考訳) S$^2$-MLPv2:視覚のための空間シフト型MLPアーキテクチャの改善

S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision ( http://arxiv.org/abs/2108.01072v1 )

ライセンス: CC BY 4.0
Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li(参考訳) 近年、MLPベースの視覚バックボーンが出現している。 帰納バイアスの少ないMLPベースの視覚アーキテクチャは、CNNや視覚変換器と比較して、画像認識における競合性能を実現する。 これらのうち、空間シフト型MLP(S$^2$-MLP)は、単純空間シフト型演算を採用し、MLP-mixerやResMLPといった先駆的な作業よりも優れた性能を実現する。 最近では、ピラミッド構造を持つ小さなパッチを使用して、ViP(Vision Permutator)とGFNet(Global Filter Network)は、S$^2$-MLPよりも優れたパフォーマンスを実現している。 本稿では、S$^2$-MLPビジョンバックボーンを改善する。 チャネル次元に沿ってフィーチャーマップを拡張し、拡張したフィーチャーマップをいくつかの部分に分割します。 分割部分に対して異なる空間シフト操作を行う。 一方,分割注意操作を利用して分割部分を融合する。 さらに,提案手法と同様に,小規模のパッチを適用し,ピラミッド構造を用いて画像認識精度を向上させる。 改良型空間シフト型MLP視覚バックボーンをS$^2$-MLPv2と呼ぶ。 55mパラメータを用いることで、中規模モデルであるs$^2$-mlpv2-mediumは、224\times 224$イメージを自己参照と外部トレーニングデータなしでimagenet-1kベンチマークで83.6\%のtop-1精度を達成しました。

Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S$^2$-MLP. In this paper, we improve the S$^2$-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$ top-1 accuracy on the ImageNet-1K benchmark using $224\times 224$ images without self-attention and external training data.
翻訳日:2021-08-03 16:54:42 公開日:2021-08-02
# (参考訳) 音楽音声:トランスフォーマーベースの作曲ツール

Musical Speech: A Transformer-based Composition Tool ( http://arxiv.org/abs/2108.01043v1 )

ライセンス: CC BY 4.0
Jason d'Eon, Sri Harsha Dumpala, Chandramouli Shama Sastry, Dani Oore and Sageev Oore(参考訳) 本稿では,ユーザが録音/提供した音声の楽曲アウトラインを合成し,その楽曲に音楽ビルディングブロックとして用いるための新しい構成ツールを提案する。 このツールを使うと、ユーザーは自分の音声を使って音楽素材を生成できるが、録音した音声と結果の音楽との直接のつながりを聴くことができる。 このツールは、提案されたパイプライン上に構築されます。 このパイプラインは音声に基づく信号処理から始まり、その後いくつかの単純な音楽ヒューリスティックを適用し、最終的にこれらの前処理された信号を新しい音楽タスクで訓練されたトランスフォーマーモデルに渡す。 私たちは、トレーニング用のペアデータセットを必要としないパイプラインの有効性を、ツールを使用してミュージシャンが作成した音楽の例を通じて説明します。

In this paper, we propose a new compositional tool that will generate a musical outline of speech recorded/provided by the user for use as a musical building block in their compositions. The tool allows any user to use their own speech to generate musical material, while still being able to hear the direct connection between their recorded speech and the resulting music. The tool is built on our proposed pipeline. This pipeline begins with speech-based signal processing, after which some simple musical heuristics are applied, and finally these pre-processed signals are passed through Transformer models trained on new musical tasks. We illustrate the effectiveness of our pipeline -- which does not require a paired dataset for training -- through examples of music created by musicians making use of our tool.
翻訳日:2021-08-03 16:19:15 公開日:2021-08-02
# flip learning: セグメントを消去する

Flip Learning: Erase to Segment ( http://arxiv.org/abs/2108.00752v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Yuxin Zou, Chaoyu Chen, Jian Wang, Haoran Dou, Nishant Ravikumar, Alejandro F Frangi, Jianqiao Zhou, Dong Ni(参考訳) 乳房超音波像からの結節分画は診断に不可欠である。 弱い教師付きセグメンテーション(WSS)は、時間と面倒なマニュアルアノテーションを減らすのに役立つ。 本稿では、既存の弱い教師付きアプローチとは異なり、ボックスアノテーションのみを必要とするflip learningと呼ばれる新しい一般的なwssフレームワークを提案する。 具体的には、ラベルボックス内のターゲットを徐々に消去して分類タグを反転させ、削除された領域を最後にセグメント化結果とする。 私たちの貢献は3倍です。 まず,提案手法は,事前境界知識を活用し学習プロセスを高速化するために,マルチエージェント強化学習フレームワークを用いてスーパーピクセルレベルで消去する。 第2に,下位セグメンテーションと過剰セグメンテーションを避けるために,分類スコアと強度分布報酬の2つの報酬をデザインする。 第3に,残差を低減し,セグメンテーション性能を向上させるために,粗大な学習戦略を採用する。 大規模データセット上で広く検証され,提案手法は競争性能を達成し,完全教師付き学習と弱い教師付き学習のギャップを狭める可能性を示す。

Nodule segmentation from breast ultrasound images is challenging yet essential for the diagnosis. Weakly-supervised segmentation (WSS) can help reduce time-consuming and cumbersome manual annotation. Unlike existing weakly-supervised approaches, in this study, we propose a novel and general WSS framework called Flip Learning, which only needs the box annotation. Specifically, the target in the label box will be erased gradually to flip the classification tag, and the erased region will be considered as the segmentation result finally. Our contribution is three-fold. First, our proposed approach erases on superpixel level using a Multi-agent Reinforcement Learning framework to exploit the prior boundary knowledge and accelerate the learning process. Second, we design two rewards: classification score and intensity distribution reward, to avoid under- and over-segmentation, respectively. Third, we adopt a coarse-to-fine learning strategy to reduce the residual errors and improve the segmentation performance. Extensively validated on a large dataset, our proposed approach achieves competitive performance and shows great potential to narrow the gap between fully-supervised and weakly-supervised learning.
翻訳日:2021-08-03 15:40:18 公開日:2021-08-02
# MuSiQue: シングルホップ質問構成によるマルチホップ質問

MuSiQue: Multi-hop Questions via Single-hop Question Composition ( http://arxiv.org/abs/2108.00573v1 )

ライセンス: Link先を確認
Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal(参考訳) 探索的なマルチホップ質問応答データセットを構築するために,シングルホップ質問の合成によるボトムアップな半自動プロセスを提案する。 マルチホップ質問を単一ホップ質問の構成として構成することで、その結果のマルチホップ質問の品質をよりよく制御することができる。 このプロセスにより、 (i) 接続された推論でデータセットを構築することができ、 (ii) 推論ステップの部分的な重複を排除し、最小限のトレインテストリーク、 (iii) ホップと構成構造の変数数、 (iv) コンテキストを変更することで解決不可能な質問を対比することができる。 このプロセスを使用して、新しいマルチホップQAデータセットを構築する。 MuSiQue-Ans with ~25K 2-4 ホップ質問。 我々の実験は、MuSiqueが最先端のQAモデル(例えば、30F1 ptsの人間と機械のギャップなど)には挑戦的であり、既存のデータセット(2倍の人間と機械のギャップ)よりもはるかに困難であり、非常に不正ではないことを実証している。 さらに,さらに難解なデータセットであるmusique-fullを構築して,回答可能なコントラスト質問ペアと回答不能なコントラスト質問ペアから構成した。 データとコードは \url{https://github.com/stonybrooknlp/musique} を参照。

To build challenging multi-hop question answering datasets, we propose a bottom-up semi-automatic process of constructing multi-hop question via composition of single-hop questions. Constructing multi-hop questions as composition of single-hop questions allows us to exercise greater control over the quality of the resulting multi-hop questions. This process allows building a dataset with (i) connected reasoning where each step needs the answer from a previous step; (ii) minimal train-test leakage by eliminating even partial overlap of reasoning steps; (iii) variable number of hops and composition structures; and (iv) contrasting unanswerable questions by modifying the context. We use this process to construct a new multihop QA dataset: MuSiQue-Ans with ~25K 2-4 hop questions using seed questions from 5 existing single-hop datasets. Our experiments demonstrate that MuSique is challenging for state-of-the-art QA models (e.g., human-machine gap of $~$30 F1 pts), significantly harder than existing datasets (2x human-machine gap), and substantially less cheatable (e.g., a single-hop model is worse by 30 F1 pts). We also build an even more challenging dataset, MuSiQue-Full, consisting of answerable and unanswerable contrast question pairs, where model performance drops further by 13+ F1 pts. For data and code, see \url{https://github.com/stonybrooknlp/musique}.
翻訳日:2021-08-03 15:39:15 公開日:2021-08-02
# licHEE:多粒化による言語モデル事前学習の改善

LICHEE: Improving Language Model Pre-training with Multi-grained Tokenization ( http://arxiv.org/abs/2108.00801v1 )

ライセンス: Link先を確認
Weidong Guo, Mingjun Zhao, Lusheng Zhang, Di Niu, Jinwen Luo, Zhenhua Liu, Zhenyang Li and Jianbo Tang(参考訳) 大規模コーパスに基づく言語モデルの事前学習は、豊富な文脈表現の構築において大きな成功を収め、様々な自然言語理解(NLU)タスクにおいて大きなパフォーマンス向上をもたらした。 この成功にもかかわらず、BERTのような現在の事前訓練された言語モデルのほとんどは、単一の粒度のトークン化に基づいて訓練されており、通常は粒度の細かい文字やサブワードで訓練されている。 本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。 本手法は,様々な事前学習言語モデルに適用でき,表現能力を向上させることができる。 CLUE と SuperGLUE で行った大規模な実験により,提案手法は中国語と英語の多種多様な NLU タスクに対して,余分な推論コストを伴わずに包括的な改善を実現し,また,我々の最高のアンサンブルモデルがCLUE ベンチマーク競争における最先端性能を達成することを示した。

Language model pre-training based on large corpora has achieved tremendous success in terms of constructing enriched contextual representations and has led to significant performance gains on a diverse range of Natural Language Understanding (NLU) tasks. Despite the success, most current pre-trained language models, such as BERT, are trained based on single-grained tokenization, usually with fine-grained characters or sub-words, making it hard for them to learn the precise meaning of coarse-grained words and phrases. In this paper, we propose a simple yet effective pre-training method named LICHEE to efficiently incorporate multi-grained information of input text. Our method can be applied to various pre-trained language models and improve their representation capability. Extensive experiments conducted on CLUE and SuperGLUE demonstrate that our method achieves comprehensive improvements on a wide variety of NLU tasks in both Chinese and English with little extra inference cost incurred, and that our best ensemble model achieves the state-of-the-art performance on CLUE benchmark competition.
翻訳日:2021-08-03 15:38:43 公開日:2021-08-02
# BezierSeg:医療画像における高速物体分割のためのパラメトリック形状表現

BezierSeg: Parametric Shape Representation for Fast Object Segmentation in Medical Images ( http://arxiv.org/abs/2108.00760v1 )

ライセンス: Link先を確認
Haichou Chen, Yishu Deng, Bin Li, Zeqin Li, Haohua Chen, Bingzhong Jing and Chaofeng Li(参考訳) 病変領域の描出は画像診断において重要な課題である。 ピクセル単位の分類は、関心領域を分割する一般的なアプローチである。 しかし、ファジィ境界においては、そのような方法は通常、病変が固く滑らかであるという事実と矛盾するグリッチ、不連続または切断をもたらす。 これらの望ましくないアーチファクトを克服するために、関心領域を含むベジエ曲線を出力するBezierSegモデルを提案する。 輪郭を解析方程式で直接モデル化することで、セグメンテーションは連結で連続であり、境界は滑らかである。 さらに、サブピクセルの精度も提供する。 精度を損なうことなく、ベジエ輪郭を再サンプリングし、任意の解像度の画像でオーバーレイすることができる。 さらに、医師は曲線の制御ポイントを都合よく調整して結果を洗練することができる。 実験により,提案手法はリアルタイムに動作し,画素ワイドセグメンテーションモデルと競合する精度を実現する。

Delineating the lesion area is an important task in image-based diagnosis. Pixel-wise classification is a popular approach to segmenting the region of interest. However, at fuzzy boundaries such methods usually result in glitches, discontinuity, or disconnection, inconsistent with the fact that lesions are solid and smooth. To overcome these undesirable artifacts, we propose the BezierSeg model which outputs bezier curves encompassing the region of interest. Directly modelling the contour with analytic equations ensures that the segmentation is connected, continuous, and the boundary is smooth. In addition, it offers sub-pixel accuracy. Without loss of accuracy, the bezier contour can be resampled and overlaid with images of any resolution. Moreover, a doctor can conveniently adjust the curve's control points to refine the result. Our experiments show that the proposed method runs in real time and achieves accuracy competitive with pixel-wise segmentation models.
翻訳日:2021-08-03 15:37:18 公開日:2021-08-02
# ブラインド超解像における特定劣化に対する識別フィルタの探索

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution ( http://arxiv.org/abs/2108.01070v1 )

ライセンス: Link先を確認
Liangbin Xie, Xintao Wang, Chao Dong, Zhongang Qi, Ying Shan(参考訳) 最近のブラインド超解像法(SR)法は、通常、劣化予測と条件回復のための2つの枝からなる。 しかし,本実験では,1分岐ネットワークが2分岐方式に匹敵する性能を実現できることを示した。 ワンブランチネットワークは、どのようにして自動的に劣化を区別するか? そこで本研究では,積分勾配(faig)に基づく新しい診断ツール -- フィルタ帰属法を提案する。 従来の積分勾配法とは異なり、FAIGはブラインドSRネットワークの劣化除去のために入力画素/特徴の代わりに最も識別性の高いフィルタを求める。 検出されたフィルタを用いて,入力画像の劣化を簡易かつ効果的に予測する手法を考案する。 FAIGをベースとして,1) 特定の劣化に対して非常に少数の(1%) 識別フィルタが検出可能であること,2) 検出されたフィルタの重み,位置,接続がネットワーク機能を決定する上で重要であること,などが示されている。 3) 劣化予測の課題は, 明示的な教師付き学習を伴わない識別フィルタによって暗黙的に実現することができる。 我々の発見は、一つのブラインドSRネットワーク内のネットワークの振る舞いをよりよく理解するだけでなく、より効率的なアーキテクチャの設計や、ブラインドSRのためのネットワークの診断に関するガイダンスを提供する。

Recent blind super-resolution (SR) methods typically consist of two branches, one for degradation prediction and the other for conditional restoration. However, our experiments show that a one-branch network can achieve comparable performance to the two-branch scheme. Then we wonder: how can one-branch networks automatically learn to distinguish degradations? To find the answer, we propose a new diagnostic tool -- Filter Attribution method based on Integral Gradient (FAIG). Unlike previous integral gradient methods, our FAIG aims at finding the most discriminative filters instead of input pixels/features for degradation removal in blind SR networks. With the discovered filters, we further develop a simple yet effective method to predict the degradation of an input image. Based on FAIG, we show that, in one-branch blind SR networks, 1) we are able to find a very small number of (1%) discriminative filters for each specific degradation; 2) The weights, locations and connections of the discovered filters are all important to determine the specific network function. 3) The task of degradation prediction can be implicitly realized by these discriminative filters without explicit supervised learning. Our findings can not only help us better understand network behaviors inside one-branch blind SR networks, but also provide guidance on designing more efficient architectures and diagnosing networks for blind SR.
翻訳日:2021-08-03 15:37:04 公開日:2021-08-02
# sdedit:確率微分方程式による画像合成と編集

SDEdit: Image Synthesis and Editing with Stochastic Differential Equations ( http://arxiv.org/abs/2108.01073v1 )

ライセンス: Link先を確認
Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon(参考訳) 本稿では、確率微分方程式(SDE)を用いた最近の生成モデルに基づいて、新しい画像編集合成フレームワーク、Stochastic Differential Editing (SDEdit)を導入する。 ユーザが編集した入力画像(例えば手書きカラーストローク)が与えられた場合、まずSDEに従って入力にノイズを加え、その後、逆SDEをシミュレートしてノイズを消音し、その確率を事前に徐々に増加させる。 GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。 条件付きGANと比較して、新しいアプリケーションのために、原画像と編集画像の新しいデータセットを収集する必要はない。 そこで本手法は,モデルを再学習することなく,テスト時に様々な編集タスクに迅速に適応することができる。 本手法は,ストローク絵画による画像合成や編集,画像合成など,幅広い用途において高い性能を発揮する。

We introduce a new image editing and synthesis framework, Stochastic Differential Editing (SDEdit), based on a recent generative model using stochastic differential equations (SDEs). Given an input image with user edits (e.g., hand-drawn color strokes), we first add noise to the input according to an SDE, and subsequently denoise it by simulating the reverse SDE to gradually increase its likelihood under the prior. Our method does not require task-specific loss function designs, which are critical components for recent image editing methods based on GAN inversion. Compared to conditional GANs, we do not need to collect new datasets of original and edited images for new applications. Therefore, our method can quickly adapt to various editing tasks at test time without re-training models. Our approach achieves strong performance on a wide range of applications, including image synthesis and editing guided by stroke paintings and image compositing.
翻訳日:2021-08-03 15:36:42 公開日:2021-08-02
# ディープグラフニューラルネットワークの評価

Evaluating Deep Graph Neural Networks ( http://arxiv.org/abs/2108.00955v1 )

ライセンス: Link先を確認
Wentao Zhang, Zeang Sheng, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)はすでに様々なグラフマイニングタスクに広く適用されている。 しかし、モデルの性能改善を妨げる重要な障害である、浅いアーキテクチャの問題に悩まされている。 いくつかの関連するアプローチが提案されているが、既存の研究はいずれも、深いGNNの性能劣化の根本原因を深く理解するものではない。 本稿では,浅層建築の基本的限界を示すための,最初の体系的実験評価を行う。 実験結果に基づき,(1)深層gnnの性能が損なわれる原因は何か,(2)必要時,そしてどのように深層gnnを構築するか,という2つの重要な疑問に答える。 上記の質問に対する回答は、研究者が深くてよく表現されたgnnを設計するための経験的洞察とガイドラインを提供する。 提案するガイドラインの有効性を示すために,深層グラフ多層受容器(DGMLP)を提案する。 高い精度 - 様々なデータセットで最先端のノード分類性能を実現する - 高い柔軟性 - グラフのサイズとスパーシティに応じて、異なる伝播と変換深さを柔軟に選択できる - 高いスケーラビリティと効率 -- 大規模グラフの高速トレーニングをサポートする - という3つのdgmlpのメリットが実証された。 私たちのコードはhttps://github.com/zwt233/DGMLPで利用可能です。

Graph Neural Networks (GNNs) have already been widely applied in various graph mining tasks. However, they suffer from the shallow architecture issue, which is the key impediment that hinders the model performance improvement. Although several relevant approaches have been proposed, none of the existing studies provides an in-depth understanding of the root causes of performance degradation in deep GNNs. In this paper, we conduct the first systematic experimental evaluation to present the fundamental limitations of shallow architectures. Based on the experimental results, we answer the following two essential questions: (1) what actually leads to the compromised performance of deep GNNs; (2) when we need and how to build deep GNNs. The answers to the above questions provide empirical insights and guidelines for researchers to design deep and well-performed GNNs. To show the effectiveness of our proposed guidelines, we present Deep Graph Multi-Layer Perceptron (DGMLP), a powerful approach (a paradigm in its own right) that helps guide deep GNN designs. Experimental results demonstrate three advantages of DGMLP: 1) high accuracy -- it achieves state-of-the-art node classification performance on various datasets; 2) high flexibility -- it can flexibly choose different propagation and transformation depths according to graph size and sparsity; 3) high scalability and efficiency -- it supports fast training on large-scale graphs. Our code is available in https://github.com/zwt233/DGMLP.
翻訳日:2021-08-03 15:35:47 公開日:2021-08-02
# 軌道解析による確率最適化器の一般化特性

Generalization Properties of Stochastic Optimizers via Trajectory Analysis ( http://arxiv.org/abs/2108.00781v1 )

ライセンス: Link先を確認
Liam Hodgkinson, Umut \c{S}im\c{s}ekli, Rajiv Khanna, Michael W. Mahoney(参考訳) 機械学習における確率最適化アルゴリズムのユビキタスな使用にもかかわらず、現実的な非凸設定における一般化性能に対するこれらのアルゴリズムの正確な影響はいまだに理解されていない。 本稿では,その動力学に基づく確率的最適化器の一般化特性を調べるための包括的理論的枠組みを提案する。 まず、オプティマイザの軌道に適用されるフェルニク・タラグランド関数の有名な項で、オプティマイザダイナミクスに起因する有界な一般化を証明する。 このデータとアルゴリズムに依存した境界は、さらなる仮定がなければ最もシャープであることが示されている。 次に、確率最適化器のマルコフ構造を利用して、最適化アルゴリズムに関連する(データ依存)遷移カーネルの一般化境界を導出した。 確率最適化における一般化と重み付き挙動の関連を明らかにする最近の研究に合わせて、一般化誤差と遷移カーネルの局所的テール挙動をリンクする。 本稿では、カーネルの局所的なパワーロー指数が有効次元として作用し、遷移が「非ガウス」となるにつれて減少することを示す。 我々は,様々なニューラルネットワークを用いた実験結果を用いて,我々の理論を支持するとともに,fernique-talagrand functional とlocal power-law exponent の両方が一般化性能を予測できることを示した。

Despite the ubiquitous use of stochastic optimization algorithms in machine learning, the precise impact of these algorithms on generalization performance in realistic non-convex settings is still poorly understood. In this paper, we provide an encompassing theoretical framework for investigating the generalization properties of stochastic optimizers, which is based on their dynamics. We first prove a generalization bound attributable to the optimizer dynamics in terms of the celebrated Fernique-Talagrand functional applied to the trajectory of the optimizer. This data- and algorithm-dependent bound is shown to be the sharpest possible in the absence of further assumptions. We then specialize this result by exploiting the Markovian structure of stochastic optimizers, deriving generalization bounds in terms of the (data-dependent) transition kernels associated with the optimization algorithms. In line with recent work that has revealed connections between generalization and heavy-tailed behavior in stochastic optimization, we link the generalization error to the local tail behavior of the transition kernels. We illustrate that the local power-law exponent of the kernel acts as an effective dimension, which decreases as the transitions become "less Gaussian". We support our theory with empirical results from a variety of neural networks, and we show that both the Fernique-Talagrand functional and the local power-law exponent are predictive of generalization performance.
翻訳日:2021-08-03 15:35:13 公開日:2021-08-02
# 実用的ネットワーク圧縮のためのグループフィッシャープルーニング

Group Fisher Pruning for Practical Network Compression ( http://arxiv.org/abs/2108.00708v1 )

ライセンス: Link先を確認
Liyang Liu, Shilong Zhang, Zhanghui Kuang, Aojun Zhou, Jing-Hao Xue, Xinjiang Wang, Yimin Chen, Wenming Yang, Qingmin Liao, Wayne Zhang(参考訳) ネットワーク圧縮は、推論中にメモリと計算コストを削減できるため、広く研究されている。 しかし、従来の手法では、残差接続、グループ/奥行き畳み込み、機能ピラミッドネットワークなどの複雑な構造を扱うことはほとんどなく、複数の層が結合され、同時に刈り取る必要がある。 本稿では,様々な複雑な構造に適用可能な一般チャネルプルーニング手法を提案する。 特に,結合チャネルを自動的に見つけるための層グループ化アルゴリズムを提案する。 次に,フィッシャー情報に基づく統一指標を導出して,単一チャネルと結合チャネルの重要性を評価する。 さらに,gpu上での推論の高速化はフラップよりもメモリ削減とより相関しており,各チャネルのメモリ削減を重要度を正規化するために採用している。 本手法はチャネル結合構造を含む任意の構造をプルーピングするために使用できる。 我々は,従来のResNetやResNeXt,モバイルフレンドリーなMobileNetV2,NASベースのRegNetなど,さまざまなバックボーンに関する広範な実験を行い,画像分類と対象検出について検討する。 実験により,提案手法は精度を犠牲にすることなく,推論速度を向上できることを確認した。

Network compression has been widely studied since it is able to reduce the memory and computation cost during inference. However, previous methods seldom deal with complicated structures like residual connections, group/depth-wise convolution and feature pyramid network, where channels of multiple layers are coupled and need to be pruned simultaneously. In this paper, we present a general channel pruning approach that can be applied to various complicated structures. Particularly, we propose a layer grouping algorithm to find coupled channels automatically. Then we derive a unified metric based on Fisher information to evaluate the importance of a single channel and coupled channels. Moreover, we find that inference speedup on GPUs is more correlated with the reduction of memory rather than FLOPs, and thus we employ the memory reduction of each channel to normalize the importance. Our method can be used to prune any structures including those with coupled channels. We conduct extensive experiments on various backbones, including the classic ResNet and ResNeXt, mobile-friendly MobileNetV2, and the NAS-based RegNet, both on image classification and object detection which is under-explored. Experimental results validate that our method can effectively prune sophisticated networks, boosting inference speed without sacrificing accuracy.
翻訳日:2021-08-03 15:33:34 公開日:2021-08-02
# ポイントクラウドを用いた3次元物体検出のためのGNNにおける角度に基づく特徴学習

Angle Based Feature Learning in GNN for 3D Object Detection using Point Cloud ( http://arxiv.org/abs/2108.00780v1 )

ライセンス: Link先を確認
Md Afzal Ansari, Md Meraz, Pavan Chakraborty and Mohammed Javed(参考訳) 本稿では,点群内の3次元物体検出のための特徴符号化手法を提案する。 車、歩行者、自転車といった3D物体の検出には、グラフニューラルネットワーク(GNN)を使用しました。 特徴符号化は3Dオブジェクトの検出における重要なステップの1つである。 使用されるデータセットは、不規則で構造化されていないポイントクラウドデータであり、より良い機能カプセル化を保証するような方法でエンコードする必要がある。 初期の作品では、特徴をエンコードする手法の1つとして相対距離を用いた。 これらの手法はグラフニューラルネットワークの回転分散問題に耐性がない。 グラフニューラルネットワークで特徴符号化を行いながら角ベースの測度を含む。 これに加えて、絶対値、相対値、ユークリッド距離などの他の手法と角度と相対値の組み合わせとの比較を行った。 モデルは、リソース制約下でkitti object detection benchmarkデータセットのサブセット上でトレーニングされ、評価される。 その結果,角度測定と相対距離の組み合わせは,他の手法よりも優れていることがわかった。 ベースライン法(相対法)と比較すると、性能は向上した。 また,様々な特徴符号化手法の時間解析を行った。

In this paper, we present new feature encoding methods for Detection of 3D objects in point clouds. We used a graph neural network (GNN) for Detection of 3D objects namely cars, pedestrians, and cyclists. Feature encoding is one of the important steps in Detection of 3D objects. The dataset used is point cloud data which is irregular and unstructured and it needs to be encoded in such a way that ensures better feature encapsulation. Earlier works have used relative distance as one of the methods to encode the features. These methods are not resistant to rotation variance problems in Graph Neural Networks. We have included angular-based measures while performing feature encoding in graph neural networks. Along with that, we have performed a comparison between other methods like Absolute, Relative, Euclidean distances, and a combination of the Angle and Relative methods. The model is trained and evaluated on the subset of the KITTI object detection benchmark dataset under resource constraints. Our results demonstrate that a combination of angle measures and relative distance has performed better than other methods. In comparison to the baseline method(relative), it achieved better performance. We also performed time analysis of various feature encoding methods.
翻訳日:2021-08-03 15:33:14 公開日:2021-08-02
# ロバストな物体検出に向けて:ホモシedastic aleatoric uncertainty modelingのためのベイズ型網膜

Towards Robust Object Detection: Bayesian RetinaNet for Homoscedastic Aleatoric Uncertainty Modeling ( http://arxiv.org/abs/2108.00784v1 )

ライセンス: Link先を確認
Natalia Khanzhina, Alexey Lapenok, Andrey Filchenkov(参考訳) 最近の研究によると、一般的に使われるコンピュータビジョンデータセットはラベルエラーの約4%を含んでいる。 例えば、COCOデータセットは、データラベルの高レベルのノイズで知られており、実際のシナリオで堅牢なニューラルディープアーキテクチャをトレーニングするための使用を制限する。 このようなノイズをモデル化するため,本稿ではホモシedastic aleatoric uncertainty estimationを提案し,画像物体の大規模検出問題に対処するための新しい損失関数を提案する。 具体的には,提案した関数はベイズ推定に基づいており,一般コミュニティが提案するディープラーニングアーキテクチャRetinaNetに組み込んでいる。 また,新しい関数を用いたホモシedastic aleatoric uncertaintyのモデル化により,モデル解釈性が向上し,cocoデータセット上で評価されるオブジェクト検出性能が向上することを示した。

According to recent studies, commonly used computer vision datasets contain about 4% of label errors. For example, the COCO dataset is known for its high level of noise in data labels, which limits its use for training robust neural deep architectures in a real-world scenario. To model such a noise, in this paper we have proposed the homoscedastic aleatoric uncertainty estimation, and present a series of novel loss functions to address the problem of image object detection at scale. Specifically, the proposed functions are based on Bayesian inference and we have incorporated them into the common community-adopted object detection deep learning architecture RetinaNet. We have also shown that modeling of homoscedastic aleatoric uncertainty using our novel functions allows to increase the model interpretability and to improve the object detection performance being evaluated on the COCO dataset.
翻訳日:2021-08-03 15:33:01 公開日:2021-08-02
# グラフ畳み込みニューラルネットワークを用いた最小経路探索

Constrained Shortest Path Search with Graph Convolutional Neural Networks ( http://arxiv.org/abs/2108.00978v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Andrei Bursuc, Tristan Cazenave, Eric Jacopin(参考訳) 無人地上車両の計画(AUGV)は、特に困難でオフロードで重要な状況において依然として課題である。 自動プランニングは、ミッション目標に達するために、ナビゲーションや操作のために使用することができる。 ほとんどの場合、問題は、いくつかの運用上の制約を満たしながら、ソースから目的地へのパスを見つけることにあります。 負のサイクルのないグラフでは、開始ノードから終了ノードまでの単対短経路の計算を多項式時間で解く。 しかし、ソリューションパスに関する追加の制約は、問題の解決を難しくする可能性がある。 これは、特定の訪問順序を必要とせずに、いくつかの必須ノードを通過するパスが必要な場合になります。 複雑さは、訪問するノードの数によって指数関数的に増加する。 本稿では,与えられた連結グラフ上の必須ノードを用いた最短経路探索に着目する。 本稿では,制約に基づく解法とグラフ畳み込みニューラルネットワークを組み合わせたハイブリッドモデルを提案する。 現実的なシナリオで結果が得られます。

Planning for Autonomous Unmanned Ground Vehicles (AUGV) is still a challenge, especially in difficult, off-road, critical situations. Automatic planning can be used to reach mission objectives, to perform navigation or maneuvers. Most of the time, the problem consists in finding a path from a source to a destination, while satisfying some operational constraints. In a graph without negative cycles, the computation of the single-pair shortest path from a start node to an end node is solved in polynomial time. Additional constraints on the solution path can however make the problem harder to solve. This becomes the case when we need the path to pass through a few mandatory nodes without requiring a specific order of visit. The complexity grows exponentially with the number of mandatory nodes to visit. In this paper, we focus on shortest path search with mandatory nodes on a given connected graph. We propose a hybrid model that combines a constraint-based solver and a graph convolutional neural network to improve search performance. Promising results are obtained on realistic scenarios.
翻訳日:2021-08-03 15:30:46 公開日:2021-08-02
# 自動運転車のオフロード操縦計画の学習

Learning off-road maneuver plans for autonomous vehicles ( http://arxiv.org/abs/2108.01021v1 )

ライセンス: Link先を確認
Kevin Osanlou(参考訳) この論文では、オフロード環境での自動運転車のオンライン計画とスケジューリングに機械学習アルゴリズムがもたらすメリットを探求する。 主に、特定の目的を満たす計算反復や、他の車両との同期操作を実行するための計算スケジューリング戦略を含む、関心の典型的な問題に焦点を当てる。 我々は,異なる計画立案者を支援するための学習に基づくヒューリスティックスについて紹介する。 これらのヒューリスティックにより,最適プランナーの性能が大幅に向上することを示す。 さらに, 概略計画の場合, 実行時間が減少するだけでなく, 検出したイチナリーの品質もほぼ常に向上することを示す。 最後に,同期操作を実行するための戦略を合成するために,新しいスケジューリング制御可能性と学習支援アルゴリズムを提案する。 提案フレームワークは,この制御可能性型における既知のベンチマークを,関連する制御可能性型における最先端作業のパフォーマンスよりも大幅に改善する。 さらに、以前の作業が失敗する複雑なスケジューリング問題に関する戦略を見つけることができる。

This thesis explores the benefits machine learning algorithms can bring to online planning and scheduling for autonomous vehicles in off-road situations. Mainly, we focus on typical problems of interest which include computing itineraries that meet certain objectives, as well as computing scheduling strategies to execute synchronized maneuvers with other vehicles. We present a range of learning-based heuristics to assist different itinerary planners. We show that these heuristics allow a significant increase in performance for optimal planners. Furthermore, in the case of approximate planning, we show that not only does the running time decrease, the quality of the itinerary found also becomes almost always better. Finally, in order to synthesize strategies to execute synchronized maneuvers, we propose a novel type of scheduling controllability and a learning-assisted algorithm. The proposed framework achieves significant improvement on known benchmarks in this controllability type over the performance of state-of-the-art works in a related controllability type. Moreover, it is able to find strategies on complex scheduling problems for which previous works fail to do so.
翻訳日:2021-08-03 15:30:33 公開日:2021-08-02
# グラフ畳み込みネットワークと最適化木探索による制約付き経路計画問題の最適解法

Optimal Solving of Constrained Path-Planning Problems with Graph Convolutional Networks and Optimized Tree Search ( http://arxiv.org/abs/2108.01036v1 )

ライセンス: Link先を確認
Kevin Osanlou, Andrei Bursuc, Christophe Guettier, Tristan Cazenave and Eric Jacopin(参考訳) 学習ベースの手法は計画目的のために人気を増している。 しかし、グラフ上の制約付きパスプランニングを学習するアプローチはほとんどないが、下流の実践的な応用はいくつかある。 これは、通常災害救助や捜索救助用途に配備される自律無人地上車両(AUGV)の制約された経路計画のケースである。 オフロード環境では、AUGVは様々な運用上の制約の下でソース決定経路を動的に最適化する必要がある。 本稿では,機械学習モデルと最適解法を組み合わせたハイブリッド解法プランナーを提案する。 より具体的には、グラフ畳み込みネットワーク(GCN)は、制約を扱うために分岐とバウンド(B&B)アルゴリズムを支援するために使用される。 我々は現実的なシナリオで実験を行い、GCNサポートがより難しい問題に対して、大幅な高速化とスムーズなスケーリングを可能にしていることを示す。

Learning-based methods are growing prominence for planning purposes. However, there are very few approaches for learning-assisted constrained path-planning on graphs, while there are multiple downstream practical applications. This is the case for constrained path-planning for Autonomous Unmanned Ground Vehicles (AUGV), typically deployed in disaster relief or search and rescue applications. In off-road environments, the AUGV must dynamically optimize a source-destination path under various operational constraints, out of which several are difficult to predict in advance and need to be addressed on-line. We propose a hybrid solving planner that combines machine learning models and an optimal solver. More specifically, a graph convolutional network (GCN) is used to assist a branch and bound (B&B) algorithm in handling the constraints. We conduct experiments on realistic scenarios and show that GCN support enables substantial speedup and smoother scaling to harder problems.
翻訳日:2021-08-03 15:30:19 公開日:2021-08-02
# 不確実性のある分節時間ネットワークの時間的動的制御性:グラフニューラルネットワーク誘導を用いた木探索手法

Time-based Dynamic Controllability of Disjunctive Temporal Networks with Uncertainty: A Tree Search Approach with Graph Neural Network Guidance ( http://arxiv.org/abs/2108.01068v1 )

ライセンス: Link先を確認
Kevin Osanlou, Jeremy Frank, J. Benton, Andrei Bursuc, Christophe Guettier, Eric Jacopin and Tristan Cazenave(参考訳) 不確実性の存在下でのスケジューリングは、多くの応用のために人工知能への関心の領域である。 本研究では,不確実性を伴う分散時間ネットワーク(DTNU)の動的制御可能性(DC)の問題について検討し,制御不能な動作時間に対する全ての制約を満たすための戦略を提案する。 我々は,DTNUのDCよりも制限された,より強い制御性,時間に基づく動的制御性(TDC)を導入し,DTNUがTDCであるか否かを決定する木探索手法を提案する。 さらに、木探索指導のためのヒューリスティックとして、メッセージパッシングニューラルネットワーク(MPNN)の学習能力を活用する。 最後に,最先端のtimed-game automata (tga) ベースのアプローチに対して,木探索が優れた結果を示す実験を行う。 我々は,木探索指導にmpnnを使用することにより,dtnu問題に対する性能とスケーラビリティの大幅な向上が期待できる。

Scheduling in the presence of uncertainty is an area of interest in artificial intelligence due to the large number of applications. We study the problem of dynamic controllability (DC) of disjunctive temporal networks with uncertainty (DTNU), which seeks a strategy to satisfy all constraints in response to uncontrollable action durations. We introduce a more restricted, stronger form of controllability than DC for DTNUs, time-based dynamic controllability (TDC), and present a tree search approach to determine whether or not a DTNU is TDC. Moreover, we leverage the learning capability of a message passing neural network (MPNN) as a heuristic for tree search guidance. Finally, we conduct experiments for which the tree search shows superior results to state-of-the-art timed-game automata (TGA) based approaches. We observe that using an MPNN for tree search guidance leads to a significant increase in solving performance and scalability to harder DTNU problems.
翻訳日:2021-08-03 15:30:02 公開日:2021-08-02
# ランダムテンソル上のランダム行列の視点

A Random Matrix Perspective on Random Tensors ( http://arxiv.org/abs/2108.00774v1 )

ライセンス: Link先を確認
Jos\'e Henrique de Morais Goulart, Romain Couillet and Pierre Comon(参考訳) テンソルモデルは、特に機械学習において、多くの分野においてますます顕著な役割を果たす。 コミュニティ検出、トピックモデリング、ガウス混合学習などのそのようなモデルのいくつかの応用では、ノイズのあるテンソルから低ランク信号を推定する必要がある。 したがって、その信号の推定器の基本的な限界と到達可能な性能を理解することは、必然的にランダムテンソルの研究を要求する。 テンソル次元が大きくなるという仮定の下で、近年の努力により、この主題は実質的な進歩を遂げている。 しかし、これらの結果の中で最も重要なものは、特に、急激な位相転移(信号対雑音比)を正確に特徴づけることであり、非専門家に容易にアクセスできない統計物理学の考えに基づいて、ガウスノイズを持つ対称ランクワンモデルの最大極大(ML)推定器の性能を左右するものである。 本研究では、ランダム行列理論の長年の進歩によってもたらされた標準的だが強力なツールに代えて、鮮明に異なるアプローチを開発する。 鍵となるアイデアは、与えられたランダムテンソルの収縮から生じるランダム行列のスペクトルを研究することである。 これにより、ランダムテンソル自体のスペクトル特性にどのようにアクセスするかを示す。 ガウス雑音を持つ対称階数1モデルの特定の場合、この手法は位相遷移しきい値を超える大域的なML問題の局所的な最大値について、未知の特徴を与える。 このキャラクタリゼーションは、統計物理学の手法でのみ得られる公式によって満たされた固定点方程式の項である。 さらに,本稿では,ML問題におけるランドスケープの特性を多次元的に明らかにした。 我々のアプローチは汎用性があり、非対称、非ゲージ、高階モデルなど他のモデルにも拡張できる。

Tensor models play an increasingly prominent role in many fields, notably in machine learning. In several applications of such models, such as community detection, topic modeling and Gaussian mixture learning, one must estimate a low-rank signal from a noisy tensor. Hence, understanding the fundamental limits and the attainable performance of estimators of that signal inevitably calls for the study of random tensors. Substantial progress has been achieved on this subject thanks to recent efforts, under the assumption that the tensor dimensions grow large. Yet, some of the most significant among these results--in particular, a precise characterization of the abrupt phase transition (in terms of signal-to-noise ratio) that governs the performance of the maximum likelihood (ML) estimator of a symmetric rank-one model with Gaussian noise--were derived on the basis of statistical physics ideas, which are not easily accessible to non-experts. In this work, we develop a sharply distinct approach, relying instead on standard but powerful tools brought by years of advances in random matrix theory. The key idea is to study the spectra of random matrices arising from contractions of a given random tensor. We show how this gives access to spectral properties of the random tensor itself. In the specific case of a symmetric rank-one model with Gaussian noise, our technique yields a hitherto unknown characterization of the local maximum of the ML problem that is global above the phase transition threshold. This characterization is in terms of a fixed-point equation satisfied by a formula that had only been previously obtained via statistical physics methods. Moreover, our analysis sheds light on certain properties of the landscape of the ML problem in the large-dimensional setting. Our approach is versatile and can be extended to other models, such as asymmetric, non-Gaussian and higher-order ones.
翻訳日:2021-08-03 15:28:28 公開日:2021-08-02
# 校正・メモリレス偽検出率による連続多変量変化検出

Sequential Multivariate Change Detection with Calibrated and Memoryless False Detection Rates ( http://arxiv.org/abs/2108.00883v1 )

ライセンス: Link先を確認
Oliver Cobb, Arnaud Van Looveren and Janis Klaise(参考訳) 逐次変化検出器の検出に適切に応答するには、変化がない場合に偽陽性が発生する確率の知識が必要である。 変更前および変更後分布が不明な場合には、基準分布から多数のサンプルが存在する場合でも、所望の偽陽性率を達成するための検出しきい値の設定が困難となる。 既存の作業では、変化がない場合に検知器の期待されるランタイムにフォーカスする時間不変のしきい値を設定することを採用しています。 本稿では,予測されるランタイムを20倍の誤校正で目標とし,同時に時間ステップ間で偽陽性率を一定に保つためのシミュレーションベース手法を提案する。 しきい値設定へのアプローチはメートル法に依存しないが、人気で強力な二次時間MDD推定器を使用すると、計算の思慮深い構造化により、構成中のコストが$O(N^2B)$から$O(N^2+NB)$に減少し、動作中の$O(N^2)$から$O(N)$に減少し、$N$が参照サンプルの数、$B$がブートストラップサンプルの数であることを示す。 コードはオープンソースのPythonライブラリ \texttt{alibi-detect}の一部として利用できる。

Responding appropriately to the detections of a sequential change detector requires knowledge of the rate at which false positives occur in the absence of change. When the pre-change and post-change distributions are unknown, setting detection thresholds to achieve a desired false positive rate is challenging, even when there exists a large number of samples from the reference distribution. Existing works resort to setting time-invariant thresholds that focus on the expected runtime of the detector in the absence of change, either bounding it loosely from below or targeting it directly but with asymptotic arguments that we show cause significant miscalibration in practice. We present a simulation-based approach to setting time-varying thresholds that allows a desired expected runtime to be targeted with a 20x reduction in miscalibration whilst additionally keeping the false positive rate constant across time steps. Whilst the approach to threshold setting is metric agnostic, we show that when using the popular and powerful quadratic time MMD estimator, thoughtful structuring of the computation can reduce the cost during configuration from $O(N^2B)$ to $O(N^2+NB)$ and during operation from $O(N^2)$ to $O(N)$, where $N$ is the number of reference samples and $B$ the number of bootstrap samples. Code is made available as part of the open-source Python library \texttt{alibi-detect}.
翻訳日:2021-08-03 15:27:59 公開日:2021-08-02
# 大規模量子機械学習

Large-scale quantum machine learning ( http://arxiv.org/abs/2108.01039v1 )

ライセンス: Link先を確認
Tobias Haug, Chris N. Self, M. S. Kim(参考訳) 量子コンピュータは、実用化のための機械学習を強化することを約束する。 現実世界のデータに対する量子機械学習は、大量の高次元データを扱う必要がある。 しかし、従来の量子カーネルの測定方法は、データセットのサイズの二乗にスケールするため、大規模なデータセットでは実用的ではない。 ここでは、ランダム化測定を用いて量子カーネルを測定し、計算時間の2次高速化と大規模データセットの高速処理を行う。 さらに,高次元データを回路深さと線形にスケーリングする特徴数で量子コンピュータに効率的にエンコードする。 エンコーディングは量子フィッシャー情報メトリックによって特徴づけられ、放射基底関数カーネルと関連付けられる。 我々は,IBM量子コンピュータによる画像の分類による手法の利点と高速化を実証する。 提案手法は相補的誤り緩和スキームにより雑音に対して極めて頑健である。 現在利用可能な量子コンピュータを使用すると、MNISTデータベースは10年ではなく220時間以内に処理され、量子機械学習の産業的応用が開放される。

Quantum computers promise to enhance machine learning for practical applications. Quantum machine learning for real-world data has to handle extensive amounts of high-dimensional data. However, conventional methods for measuring quantum kernels are impractical for large datasets as they scale with the square of the dataset size. Here, we measure quantum kernels using randomized measurements to gain a quadratic speedup in computation time and quickly process large datasets. Further, we efficiently encode high-dimensional data into quantum computers with the number of features scaling linearly with the circuit depth. The encoding is characterized by the quantum Fisher information metric and is related to the radial basis function kernel. We demonstrate the advantages and speedups of our methods by classifying images with the IBM quantum computer. Our approach is exceptionally robust to noise via a complementary error mitigation scheme. Using currently available quantum computers, the MNIST database can be processed within 220 hours instead of 10 years which opens up industrial applications of quantum machine learning.
翻訳日:2021-08-03 15:27:30 公開日:2021-08-02
# 病変分割のための集計データセットにおけるコホートバイアス適応

Cohort Bias Adaptation in Aggregated Datasets for Lesion Segmentation ( http://arxiv.org/abs/2108.00713v1 )

ライセンス: Link先を確認
Brennan Nichyporuk, Jillian Cardinell, Justin Szeto, Raghav Mehta, Sotirios Tsaftaris, Douglas L. Arnold, Tal Arbel(参考訳) 焦点病理学のために開発された多くの自動機械学習モデル(例) 病変,腫瘍)の検出と分節は良好だが,新しい患者のコホートにも一般化せず,実際の臨床状況への普及を妨げている。 より多様で一般化可能なトレーニングセットを作成するための戦略の1つは、異なるコホートからデータセットをNaivelyプールすることである。 驚くべきことに、この \it{big data} でのトレーニングは必ずしも増加せず、ラベル分布に影響を与えるコホートバイアスの存在により、全体的なパフォーマンスとモデルの一般化可能性も低下する可能性がある。 本稿では,ソース・コンディションド・インスタンス正規化(SCIN)と呼ばれるマルチソースデータセット間のコホートバイアスを学習し,考慮するための一般化アフィン条件付けフレームワークを提案する。 大規模・大規模・マルチスキャン・多中心性多発性硬化症(MS)臨床MRIデータセットに対する広範囲な実験により,(1)正常化パラメータを微調整することで,プールされたデータセット上のネットワークの性能を向上させるとともに,10個のラベル付きサンプルで新たなコホートバイアスを学習できることが判明した。

Many automatic machine learning models developed for focal pathology (e.g. lesions, tumours) detection and segmentation perform well, but do not generalize as well to new patient cohorts, impeding their widespread adoption into real clinical contexts. One strategy to create a more diverse, generalizable training set is to naively pool datasets from different cohorts. Surprisingly, training on this \it{big data} does not necessarily increase, and may even reduce, overall performance and model generalizability, due to the existence of cohort biases that affect label distributions. In this paper, we propose a generalized affine conditioning framework to learn and account for cohort biases across multi-source datasets, which we call Source-Conditioned Instance Normalization (SCIN). Through extensive experimentation on three different, large scale, multi-scanner, multi-centre Multiple Sclerosis (MS) clinical trial MRI datasets, we show that our cohort bias adaptation method (1) improves performance of the network on pooled datasets relative to naively pooling datasets and (2) can quickly adapt to a new cohort by fine-tuning the instance normalization parameters, thus learning the new cohort bias with only 10 labelled samples.
翻訳日:2021-08-03 15:27:01 公開日:2021-08-02
# uav画像から大豆の相対成熟度を推定する深層学習手法による植物の育種決定支援

An Applied Deep Learning Approach for Estimating Soybean Relative Maturity from UAV Imagery to Aid Plant Breeding Decisions ( http://arxiv.org/abs/2108.00952v1 )

ライセンス: Link先を確認
Saba Moeinizade, Hieu Pham, Ye Han, Austin Dobbels, Guiping Hu(参考訳) 地球規模の育種組織では、次世代の優良作物を特定することが成功に不可欠である。 新しい遺伝的品種を認識するには、作物の収量、害虫耐性、耐熱性などに関するデータを集めるために、長年のフィールドテストが必要となる。 成長期が終わると、組織はどの品種が次の成長期(または農家に売られる)に進行し、どの品種が候補プールから廃棄されるかを決定する必要がある。 特に大豆の場合、その相対的な成熟度は、進歩決定に使用される重要な情報である。 しかし、この特性を物理的に観察する必要があるため、リソースの制限(時間、お金など)がある。 データ収集プロセスのボトルネックになります これに対抗するために、育種組織は高度な撮像装置に向かっている。 本稿では,UAV画像の時系列を用いて,大豆の相対的成熟度を推定するための頑健で自動的なアプローチを開発する。 The end-to-end hybrid model using Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) was proposed to extract features and capture the sequence behavior of time series data。 提案されたディープラーニングモデルは、米国中の6つの異なる環境でテストされた。 その結果,CNN-LSTMモデルの有効性を局所回帰法と比較した。 さらに,この新たな知見が植物育種促進決定にどのように役立つかを示す。

For a global breeding organization, identifying the next generation of superior crops is vital for its success. Recognizing new genetic varieties requires years of in-field testing to gather data about the crop's yield, pest resistance, heat resistance, etc. At the conclusion of the growing season, organizations need to determine which varieties will be advanced to the next growing season (or sold to farmers) and which ones will be discarded from the candidate pool. Specifically for soybeans, identifying their relative maturity is a vital piece of information used for advancement decisions. However, this trait needs to be physically observed, and there are resource limitations (time, money, etc.) that bottleneck the data collection process. To combat this, breeding organizations are moving toward advanced image capturing devices. In this paper, we develop a robust and automatic approach for estimating the relative maturity of soybeans using a time series of UAV images. An end-to-end hybrid model combining Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) is proposed to extract features and capture the sequential behavior of time series data. The proposed deep learning model was tested on six different environments across the United States. Results suggest the effectiveness of our proposed CNN-LSTM model compared to the local regression method. Furthermore, we demonstrate how this newfound information can be used to aid in plant breeding advancement decisions.
翻訳日:2021-08-03 15:26:09 公開日:2021-08-02
# 自己監督型ディスタングル表現学習による3人称模倣学習

Self-Supervised Disentangled Representation Learning for Third-Person Imitation Learning ( http://arxiv.org/abs/2108.01069v1 )

ライセンス: Link先を確認
Jinghuan Shang and Michael S. Ryoo(参考訳) 人間は他人を観察して模倣することを学ぶ。 しかし、ロボット模倣学習は通常、ファーストパーソンビュー(fpv)で専門家によるデモンストレーションを必要とする。 すべてのロボットにこうしたFPVビデオを集めるのは、非常にコストがかかる。 第三者模倣学習(英語: third-person mimicion learning, TPIL)とは、第三者の視点(TPV)で他のエージェントを観察することで行動ポリシーを学習する概念である。 これにより、ポリシー学習のために、さまざまなデータソースからtpv内の人間とロボットのデモビデオを活用することができる。 本稿では,ロボット作業におけるエゴモーションを用いたTPIL手法を提案する。 地上・空中移動のロボットタスクの多くは、カメラの自走動作を伴うことが多いが、そのようなタスクに対するTPILの研究は限られている。 ここでは、FPVとTPVの観察は視覚的には全く異なり、FPVは自走を示し、エージェントの外観はTPVでしか観察できない。 TPILのステートラーニングを改善するために,不整合表現学習法を提案する。 2つのオートエンコーダ構造と表現置換損失と時間連続損失を用いて、状態と視点の表現が適切に絡み合っていることを保証する。 我々の実験は我々のアプローチの有効性を示している。

Humans learn to imitate by observing others. However, robot imitation learning generally requires expert demonstrations in the first-person view (FPV). Collecting such FPV videos for every robot could be very expensive. Third-person imitation learning (TPIL) is the concept of learning action policies by observing other agents in a third-person view (TPV), similar to what humans do. This ultimately allows utilizing human and robot demonstration videos in TPV from many different data sources, for the policy learning. In this paper, we present a TPIL approach for robot tasks with egomotion. Although many robot tasks with ground/aerial mobility often involve actions with camera egomotion, study on TPIL for such tasks has been limited. Here, FPV and TPV observations are visually very different; FPV shows egomotion while the agent appearance is only observable in TPV. To enable better state learning for TPIL, we propose our disentangled representation learning method. We use a dual auto-encoder structure plus representation permutation loss and time-contrastive loss to ensure the state and viewpoint representations are well disentangled. Our experiments show the effectiveness of our approach.
翻訳日:2021-08-03 15:25:47 公開日:2021-08-02
# 無線通信におけるオートエンコーダによるエンドツーエンド通信のためのドメイン適応

Domain Adaptation for Autoencoder-Based End-to-End Communication Over Wireless Channels ( http://arxiv.org/abs/2108.00874v1 )

ライセンス: Link先を確認
Jayaram Raghuram, Yijing Zeng, Dolores Garc\'ia Mart\'i, Somesh Jha, Suman Banerjee, Joerg Widmer, Rafael Ruiz Ortiz(参考訳) ドメイン適応の問題は、従来、ソースドメインがラベル付きデータが多く、(異なるデータ分布を持つ)ターゲットドメインがラベル付きデータが多いがラベル付きデータに制限がないような設定を考慮してきた。 本稿では,対象ドメインが頻繁に変化すると予想される分布からのラベル付きデータのみを限定した設定に対処する。 まず,ターゲット領域のサンプル群のみを用いて,ガウス混合密度ネットワーク(mdn)を高速かつ軽量に適応させる手法を提案する。 この方法は、ターゲットデータの分布が急速に変化する設定(例えば、無線チャネル)に適しており、多数のサンプルを収集して再訓練することは困難である。 次に,提案手法を,無線通信オートエンコーダのエンド・オブ・エンド学習問題に適用する。 通信オートエンコーダは、ニューラルネットワークを用いてエンコーダ、デコーダ、チャネルをモデル化し、それらを共同で学習し、全体的なデコーダ誤り率を最小化する。 しかし、特定の(ソース)チャネル分布でトレーニングされたオートエンコーダのエラーレートは、チャネル分布が頻繁に変化するため劣化し、データ収集とターゲットチャネル分布へのオートエンコーダの再トレーニングに十分な時間がかからない。 本稿では、エンコーダとデコーダのニューラルネットワークを変更することなくオートエンコーダを適応させ、チャネルのMDNモデルのみを適用する手法を提案する。 この方法は、デコーダにおける特徴変換を利用してチャネル分布の変化を補償し、ソース分布に近いデコーダサンプルに効果的に存在する。 シミュレーションデータセットと実mm波無線チャネルの実験的評価により,提案手法はmdnモデルに迅速に適応でき,チャネル条件の変化によりオートエンコーダの誤差率を向上・維持できることを示した。

The problem of domain adaptation conventionally considers the setting where a source domain has plenty of labeled data, and a target domain (with a different data distribution) has plenty of unlabeled data but none or very limited labeled data. In this paper, we address the setting where the target domain has only limited labeled data from a distribution that is expected to change frequently. We first propose a fast and light-weight method for adapting a Gaussian mixture density network (MDN) using only a small set of target domain samples. This method is well-suited for the setting where the distribution of target data changes rapidly (e.g., a wireless channel), making it challenging to collect a large number of samples and retrain. We then apply the proposed MDN adaptation method to the problem of end-of-end learning of a wireless communication autoencoder. A communication autoencoder models the encoder, decoder, and the channel using neural networks, and learns them jointly to minimize the overall decoding error rate. However, the error rate of an autoencoder trained on a particular (source) channel distribution can degrade as the channel distribution changes frequently, not allowing enough time for data collection and retraining of the autoencoder to the target channel distribution. We propose a method for adapting the autoencoder without modifying the encoder and decoder neural networks, and adapting only the MDN model of the channel. The method utilizes feature transformations at the decoder to compensate for changes in the channel distribution, and effectively present to the decoder samples close to the source distribution. Experimental evaluation on simulated datasets and real mmWave wireless channels demonstrate that the proposed methods can quickly adapt the MDN model, and improve or maintain the error rate of the autoencoder under changing channel conditions.
翻訳日:2021-08-03 15:25:01 公開日:2021-08-02
# GraphFPN:オブジェクト検出のためのグラフ特徴ピラミッドネットワーク

GraphFPN: Graph Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2108.00580v1 )

ライセンス: Link先を確認
Gangming Zhao, Weifeng Ge, and Yizhou Yu(参考訳) 機能ピラミッドは、マルチスケール機能を必要とする画像理解タスクにおいて強力であることが証明されている。 マルチスケール機能学習のための最先端手法は、固定トポロジを持つニューラルネットワークを用いた空間とスケール間の機能インタラクションの実行に重点を置いている。 本稿では,そのトポロジ構造を固有の画像構造に適応させ,全てのスケールで同時特徴相互作用をサポートするグラフ特徴ピラミッドネットワークを提案する。 まず、各入力画像に対して画像固有のスーパーピクセル階層を定義し、その固有画像構造を表現する。 グラフ特徴ピラミッドネットワークは、このスーパーピクセル階層からその構造を継承する。 コンテキスト層と階層層は同じスケールで異なるスケールで機能インタラクションを実現するように設計されている。 これらの層をより強力にするため,畳み込みニューラルネットワークのグローバルチャネルアテンションを一般化することにより,グラフニューラルネットワークに2種類の局所チャネルアテンションを導入する。 提案したグラフ特徴ピラミッドネットワークは,畳み込み特徴ピラミッドネットワークからマルチスケール特徴を拡張できる。 我々は、オブジェクト検出タスクにおいて、より高速なR-CNNアルゴリズムに統合することで、グラフ特徴ピラミッドネットワークを評価する。 修正アルゴリズムは、明確なマージンを持つ以前の最先端の機能ピラミッドベースメソッドだけでなく、ms-coco 2017バリデーションとテストデータセットの両方で一般的な検出方法よりも優れています。

Feature pyramids have been proven powerful in image understanding tasks that require multi-scale features. State-of-the-art methods for multi-scale feature learning focus on performing feature interactions across space and scales using neural networks with a fixed topology. In this paper, we propose graph feature pyramid networks that are capable of adapting their topological structures to varying intrinsic image structures and supporting simultaneous feature interactions across all scales. We first define an image-specific superpixel hierarchy for each input image to represent its intrinsic image structures. The graph feature pyramid network inherits its structure from this superpixel hierarchy. Contextual and hierarchical layers are designed to achieve feature interactions within the same scale and across different scales. To make these layers more powerful, we introduce two types of local channel attention for graph neural networks by generalizing global channel attention for convolutional neural networks. The proposed graph feature pyramid network can enhance the multiscale features from a convolutional feature pyramid network. We evaluate our graph feature pyramid network in the object detection task by integrating it into the Faster R-CNN algorithm. The modified algorithm outperforms not only previous state-of-the-art feature pyramid-based methods with a clear margin but also other popular detection methods on both MS-COCO 2017 validation and test datasets.
翻訳日:2021-08-03 15:17:34 公開日:2021-08-02
# pro-uigan:オクルードサムネイルによる進行性顔面幻覚

Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails ( http://arxiv.org/abs/2108.00602v1 )

ライセンス: Link先を確認
Yang Zhang, Xin Yu, Xiaobo Lu, Ping Liu(参考訳) 本稿では,隠蔽サムネイルから高分解能顔(HR)を幻覚させる作業について検討する。 本稿では,多段階のプログレッシブアップサンプリングとインペインティングによる生成的敵ネットワーク,pro-uiganを提案する。 Pro-UIGAN は,(1) 低分解能 (LR) 顔の顔形状を推定し,(2) 推定した先行画像に基づいて非閉塞なHR顔画像を取得する。 我々の多段階幻覚ネットワークは、密閉されたLR面を粗い方法で超解像し、塗布することにより、望ましくないぼかしやアーティファクトを著しく低減する。 具体的には,入力面とそのランドマーク特徴をそれぞれクエリとキーとして定式化した,顔先行推定のための新しいクロスモーダルトランスフォーマーモジュールを設計した。 このようなデザインは、入力された顔とランドマークにまたがる共同機能学習を奨励し、深い特徴対応を注意して発見する。 これにより、顔の外観特徴と顔の形状を相互に促進して学習する。 広範な実験により,我々の親uiganは,他の最先端(sota)手法と比較して,下級タスク,すなわち顔のアライメント,顔解析,顔認識,表情分類において優れた性能を達成できることを示した。

In this paper, we study the task of hallucinating an authentic high-resolution (HR) face from an occluded thumbnail. We propose a multi-stage Progressive Upsampling and Inpainting Generative Adversarial Network, dubbed Pro-UIGAN, which exploits facial geometry priors to replenish and upsample (8*) the occluded and tiny faces (16*16 pixels). Pro-UIGAN iteratively (1) estimates facial geometry priors for low-resolution (LR) faces and (2) acquires non-occluded HR face images under the guidance of the estimated priors. Our multi-stage hallucination network super-resolves and inpaints occluded LR faces in a coarse-to-fine manner, thus reducing unwanted blurriness and artifacts significantly. Specifically, we design a novel cross-modal transformer module for facial priors estimation, in which an input face and its landmark features are formulated as queries and keys, respectively. Such a design encourages joint feature learning across the input facial and landmark features, and deep feature correspondences will be discovered by attention. Thus, facial appearance features and facial geometry priors are learned in a mutual promotion manner. Extensive experiments demonstrate that our Pro-UIGAN achieves visually pleasing HR faces, reaching superior performance in downstream tasks, i.e., face alignment, face parsing, face recognition and expression classification, compared with other state-of-the-art (SotA) methods.
翻訳日:2021-08-03 15:17:10 公開日:2021-08-02
# rindnet: 反射、照明、正常、深さの不連続性のエッジ検出

RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth ( http://arxiv.org/abs/2108.00616v1 )

ライセンス: Link先を確認
Mengyang Pu, Yaping Huang, Qingji Guan and Haibin Ling(参考訳) コンピュータビジョンの基本的な構成要素として、エッジは表面反射、照明、表面正常、深さの不連続性に応じて4つのタイプに分類できる。 汎用エッジや個別エッジの検出には大きな進歩があったが、これら4つのエッジタイプを総合的に研究することは未検討のままである。 本稿では,新しいニューラルネットワークソリューション RINDNet を提案し,これら4種類のエッジを共同で検出する。 各エッジの異なる属性とそれらの関係を考慮すると、RINDNetはそれぞれのエッジに対して効果的な表現を学び、3段階で機能する。 ステージIでは、RINDNetは共通のバックボーンを使用して、すべてのエッジで共有される特徴を抽出する。 そして、ステージIIでは、対応するデコーダによって、エッジタイプごとに識別機能を準備するように分岐する。 ステージIIIでは、各タイプの独立決定ヘッドが前のステージの特徴を集約し、初期結果を予測する。 さらに、アテンションモジュールは、すべてのタイプのアテンションマップを学習し、それらの関係をキャプチャし、これらのマップを初期結果と組み合わせて最終的なエッジ検出結果を生成する。 トレーニングと評価のために,4種類のエッジを注意深く注釈付けした最初の公開ベンチマークbsds-rindを構築した。 我々の実験では、RINDNetは最先端の手法と比較して有望な結果が得られる。 追加分析は補足資料で示される。

As a fundamental building block in computer vision, edges can be categorised into four types according to the discontinuity in surface-Reflectance, Illumination, surface-Normal or Depth. While great progress has been made in detecting generic or individual types of edges, it remains under-explored to comprehensively study all four edge types together. In this paper, we propose a novel neural network solution, RINDNet, to jointly detect all four types of edges. Taking into consideration the distinct attributes of each type of edges and the relationship between them, RINDNet learns effective representations for each of them and works in three stages. In stage I, RINDNet uses a common backbone to extract features shared by all edges. Then in stage II it branches to prepare discriminative features for each edge type by the corresponding decoder. In stage III, an independent decision head for each type aggregates the features from previous stages to predict the initial results. Additionally, an attention module learns attention maps for all types to capture the underlying relations between them, and these maps are combined with initial results to generate the final edge detection results. For training and evaluation, we construct the first public benchmark, BSDS-RIND, with all four types of edges carefully annotated. In our experiments, RINDNet yields promising results in comparison with state-of-the-art methods. Additional analysis is presented in supplementary material.
翻訳日:2021-08-03 15:16:38 公開日:2021-08-02
# 3次元点雲物体検出における注意機構の検討

Investigating Attention Mechanism in 3D Point Cloud Object Detection ( http://arxiv.org/abs/2108.00620v1 )

ライセンス: Link先を確認
Shi Qiu, Yunfan Wu, Saeed Anwar, Chongyi Li(参考訳) 三次元(3D)空間における物体検出は、ロボット工学、自律運転、拡張現実といったAI駆動アプリケーションにおいて重要なタスクであるため、学術や産業から多くの関心を集めている。 3Dデータの基本形式として、ポイントクラウドは元の3D空間のオブジェクトに関する詳細な幾何学的情報を提供することができる。 しかし、3Dデータの幅と非順序性のため、この種のデータを処理するには特別に設計されたネットワークとモジュールが必要である。 注意機構は様々なコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成したが、注意モジュールが3Dポイントクラウドオブジェクト検出のパフォーマンスにどのような影響を及ぼすのか、また、どのような注意モジュールが3Dデータ固有の特性に適合するかは不明である。 本研究では,3dポイントクラウドオブジェクト検出におけるアテンション機構の役割を調査し,アテンションモジュールの可能性を考察する。 そこで本研究では,SUN RGB-DおよびScanNetV2データセット上でのクラウドトランスフォーマの最新点を含む,従来の2Dアテンション,新しい3Dアテンションを包括的に調査する。 詳細な実験と分析に基づいて,注意モジュールの違いが与える影響を結論づける。 本稿では,注意を組み込んだ3dポイントクラウドオブジェクト検出のためのリファレンスソースとしての役割を期待する。 コードとトレーニングされたモデルは、https://github.com/ShiQiu0419/attentions_in_3D_detectionで利用可能だ。

Object detection in three-dimensional (3D) space attracts much interest from academia and industry since it is an essential task in AI-driven applications such as robotics, autonomous driving, and augmented reality. As the basic format of 3D data, the point cloud can provide detailed geometric information about the objects in the original 3D space. However, due to 3D data's sparsity and unorderedness, specially designed networks and modules are needed to process this type of data. Attention mechanism has achieved impressive performance in diverse computer vision tasks; however, it is unclear how attention modules would affect the performance of 3D point cloud object detection and what sort of attention modules could fit with the inherent properties of 3D data. This work investigates the role of the attention mechanism in 3D point cloud object detection and provides insights into the potential of different attention modules. To achieve that, we comprehensively investigate classical 2D attentions, novel 3D attentions, including the latest point cloud transformers on SUN RGB-D and ScanNetV2 datasets. Based on the detailed experiments and analysis, we conclude the effects of different attention modules. This paper is expected to serve as a reference source for benefiting attention-embedded 3D point cloud object detection. The code and trained models are available at: https://github.com/ShiQiu0419/attentions_in_3D_detection.
翻訳日:2021-08-03 15:16:16 公開日:2021-08-02
# LDDMM-Face:フレキシブルかつ一貫性のある顔アライメントのための大変形拡散型メトリックラーニング

LDDMM-Face: Large Deformation Diffeomorphic Metric Learning for Flexible and Consistent Face Alignment ( http://arxiv.org/abs/2108.00690v1 )

ライセンス: Link先を確認
Huilin Yang, Junyan Lyu, Pujin Cheng, Xiaoying Tang(参考訳) 本稿では, フレキシブルで一貫した顔アライメントフレームワーク LDDMM-Face を革新的に提案する。 ヒートマップや座標回帰によって顔のランドマークを予測する代わりに、このタスクをディファモーフィックな登録方法で定式化し、初期境界と真の境界の間の変形を一意にパラメータ化するモーメントを予測し、曲線とランドマークを同時に大変形ディファモーフィメトリックマッピング(lddmm)を行い、顔のランドマークを局所化する。 ディープネットワークへのltdmmの埋め込みにより、lddmm-faceはあいまいさなく一貫して顔のランドマークに注釈を付けることができ、様々なアノテーションスキームを柔軟に処理できる。 本手法は様々な顔アライメントネットワークに容易に統合できる。 我々は,300W,WFLW,HELEN,COFW-68の4つのベンチマークデータセット上でLDDMM-Faceを広範囲に評価した。 lddmm-faceは、従来のイントラデータセットや同注釈設定の最先端の手法に匹敵する、あるいは優れているが、弱い教師付き学習(部分対フル)、挑戦的なケース(例: occluded faces)、異なるトレーニングと予測データセットを扱う際の優れたパフォーマンスと真に区別する。 さらに、LCDMM-Faceは、異なるアノテーションスキームを持つデータセット間で予測する最も難しいタスクにおいて、有望な結果を示す。

We innovatively propose a flexible and consistent face alignment framework, LDDMM-Face, the key contribution of which is a deformation layer that naturally embeds facial geometry in a diffeomorphic way. Instead of predicting facial landmarks via heatmap or coordinate regression, we formulate this task in a diffeomorphic registration manner and predict momenta that uniquely parameterize the deformation between initial boundary and true boundary, and then perform large deformation diffeomorphic metric mapping (LDDMM) simultaneously for curve and landmark to localize the facial landmarks. Due to the embedding of LDDMM into a deep network, LDDMM-Face can consistently annotate facial landmarks without ambiguity and flexibly handle various annotation schemes, and can even predict dense annotations from sparse ones. Our method can be easily integrated into various face alignment networks. We extensively evaluate LDDMM-Face on four benchmark datasets: 300W, WFLW, HELEN and COFW-68. LDDMM-Face is comparable or superior to state-of-the-art methods for traditional within-dataset and same-annotation settings, but truly distinguishes itself with outstanding performance when dealing with weakly-supervised learning (partial-to-full), challenging cases (e.g., occluded faces), and different training and prediction datasets. In addition, LDDMM-Face shows promising results on the most challenging task of predicting across datasets with different annotation schemes.
翻訳日:2021-08-03 15:15:54 公開日:2021-08-02
# マッチングを学ぶ:ビジュアルトラッキングのための自動マッチングネットワーク設計

Learn to Match: Automatic Matching Network Design for Visual Tracking ( http://arxiv.org/abs/2108.00803v1 )

ライセンス: Link先を確認
Zhipeng Zhang, Yihao Liu, Xiao Wang, Bing Li, Weiming Hu(参考訳) シームズ追跡は近年、効率的な整合演算子相互相関とその変種を基本とする画期的な性能を達成している。 顕著な成功に加えて、ヒューリスティックなマッチングネットワーク設計は専門家の経験に大きく依存していることに注意する必要がある。 さらに,1つの単独マッチング演算子では,すべての困難な環境で安定したトラッキングを保証することが困難であることが実験的に判明した。 そこで,本研究では,特徴融合の観点から,類似性学習(Concatenation, Pointwise-Addition, Pairwise-Relation, FiLM, Simple-Transformer, Transductive-Guidance)の6つの新しいマッチング演算子を紹介し,マッチング演算子選択の実現可能性について検討する。 分析により, 異なる環境劣化型に対する操作者の選択的適応性を明らかにし, 相補的特徴を探求するきっかけとなった。 そこで本稿では,これらの演算子の最適組み合わせを探索するためのバイナリチャネル操作(BCM)を提案する。 bcmは、他の追跡ステップへの貢献を学習することによって、あるオペレータを再訓練または破棄することを決定する。 学習したマッチングネットワークを強力なベースライントラッカーであるOceanに挿入することで、当社のモデルは67.2 \rightarrow 71.4$, 5,2.6 \rightarrow 58.3$, 70.3 \rightarrow 76.0$, OTB100, LaSOT, TrackingNetでそれぞれ良好な利益を得ることができた。 特に、automattchと呼ばれる当社のトラッカーは、ベースライントラッカよりもトレーニングデータ/時間の半分未満で、pytorchを使用して50fpsで動作します。 コードとモデルはhttps://github.com/JudasDie/SOTS.comでリリースされる。

Siamese tracking has achieved groundbreaking performance in recent years, where the essence is the efficient matching operator cross-correlation and its variants. Besides the remarkable success, it is important to note that the heuristic matching network design relies heavily on expert experience. Moreover, we experimentally find that one sole matching operator is difficult to guarantee stable tracking in all challenging environments. Thus, in this work, we introduce six novel matching operators from the perspective of feature fusion instead of explicit similarity learning, namely Concatenation, Pointwise-Addition, Pairwise-Relation, FiLM, Simple-Transformer and Transductive-Guidance, to explore more feasibility on matching operator selection. The analyses reveal these operators' selective adaptability on different environment degradation types, which inspires us to combine them to explore complementary features. To this end, we propose binary channel manipulation (BCM) to search for the optimal combination of these operators. BCM determines to retrain or discard one operator by learning its contribution to other tracking steps. By inserting the learned matching networks to a strong baseline tracker Ocean, our model achieves favorable gains by $67.2 \rightarrow 71.4$, $52.6 \rightarrow 58.3$, $70.3 \rightarrow 76.0$ success on OTB100, LaSOT, and TrackingNet, respectively. Notably, Our tracker, dubbed AutoMatch, uses less than half of training data/time than the baseline tracker, and runs at 50 FPS using PyTorch. Code and model will be released at https://github.com/JudasDie/SOTS.
翻訳日:2021-08-03 15:15:22 公開日:2021-08-02
# I2V-GAN:赤外線可視光ビデオ翻訳

I2V-GAN: Unpaired Infrared-to-Visible Video Translation ( http://arxiv.org/abs/2108.00913v1 )

ライセンス: Link先を確認
Shuang Li, Bingfeng Han, Zhenjie Yu, Chi Harold Liu, Kai Chen, Shuigen Wang(参考訳) 人間の視覚はしばしば複雑な環境要因、特に夜間視覚のシナリオに影響される。 したがって、赤外線カメラは周囲の環境の赤外線を検知することで視覚効果を高めるためにしばしば利用されるが、詳細な意味情報の欠如により赤外線映像は望ましくない。 この場合、赤外線領域から可視光領域への効果的な映像から映像への変換は、赤外線領域と可視領域の間の内在的な大きなギャップを克服することによって強く必要となる。 この課題に対処するために、不対向赤外線ビデオによって微細で時空間的に一貫した可視光ビデオを生成する赤外線可視(I2V)ビデオ変換法I2V-GANを提案する。 技術的には,1) 実物に近い合成フレームを生成するための対角的制約,2) 効果的なコンテント変換とスタイル保存のために導入された知覚的損失に対する循環的整合性,3) 空間空間と時間空間の両方におけるコンテントと運動の整合性を高めるためのドメイン内および領域内における相似性制約,である。 さらに、現在公開されている赤外線と可視光のデータセットは、主にオブジェクトの検出や追跡に使われており、ビデオタスクには適さない不連続画像で構成されているものもある。 そこで我々は,IRVI と呼ばれる I2V ビデオ翻訳のための新しいデータセットを提供する。 具体的には、車両と監視シーンの12連続のビデオクリップがあり、赤外線と可視光の両方を24352フレームに分割することができる。 包括的な実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。 コードとIRVIデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

Human vision is often adversely affected by complex environmental factors, especially in night vision scenarios. Thus, infrared cameras are often leveraged to help enhance the visual effects via detecting infrared radiation in the surrounding environment, but the infrared videos are undesirable due to the lack of detailed semantic information. In such a case, an effective video-to-video translation method from the infrared domain to the visible light counterpart is strongly needed by overcoming the intrinsic huge gap between infrared and visible fields. To address this challenging problem, we propose an infrared-to-visible (I2V) video translation method I2V-GAN to generate fine-grained and spatial-temporal consistent visible light videos by given unpaired infrared videos. Technically, our model capitalizes on three types of constraints: 1)adversarial constraint to generate synthetic frames that are similar to the real ones, 2)cyclic consistency with the introduced perceptual loss for effective content conversion as well as style preservation, and 3)similarity constraints across and within domains to enhance the content and motion consistency in both spatial and temporal spaces at a fine-grained level. Furthermore, the current public available infrared and visible light datasets are mainly used for object detection or tracking, and some are composed of discontinuous images which are not suitable for video tasks. Thus, we provide a new dataset for I2V video translation, which is named IRVI. Specifically, it has 12 consecutive video clips of vehicle and monitoring scenes, and both infrared and visible light videos could be apart into 24352 frames. Comprehensive experiments validate that I2V-GAN is superior to the compared SOTA methods in the translation of I2V videos with higher fluency and finer semantic details. The code and IRVI dataset are available at https://github.com/BIT-DA/I2V-GAN.
翻訳日:2021-08-03 15:14:48 公開日:2021-08-02
# 私の目が見えてきた: マスク付き顔認識で露見した領域に焦点をあてる

My Eyes Are Up Here: Promoting Focus on Uncovered Regions in Masked Face Recognition ( http://arxiv.org/abs/2108.00996v1 )

ライセンス: Link先を確認
Pedro C. Neto, Fadi Boutros, Mohsen Saffari, Jo\~ao Ribeiro Pinto, Naser Damer, Ana F. Sequeira, Jaime S. Cardoso(参考訳) 新型コロナウイルスのパンデミックや、いくつかの国でマスクを着用することが義務付けられているという事実は、顔認識システム(FRS)の使用に課題を生み出した。 本研究では,マスク付き顔認証(MFR)の課題に対処し,マスク付き顔とマスクなし顔の検証において,マスク付き顔とマスクなし顔のみの検証に焦点をあてる。 本研究では,従来の三重項損失と平均二乗誤差(MSE)を組み合わせることで,マスク付き非マスク比較モードにおけるMFRシステムのロバスト性を改善する手法を提案する。 提案手法により得られた結果は,ステップワイドアブレーション研究において改善された。 本研究は,2つの評価データベースにおけるトレーニングパラダイムと修正三重項損失により有意な性能向上を示した。

The recent Covid-19 pandemic and the fact that wearing masks in public is now mandatory in several countries, created challenges in the use of face recognition systems (FRS). In this work, we address the challenge of masked face recognition (MFR) and focus on evaluating the verification performance in FRS when verifying masked vs unmasked faces compared to verifying only unmasked faces. We propose a methodology that combines the traditional triplet loss and the mean squared error (MSE) intending to improve the robustness of an MFR system in the masked-unmasked comparison mode. The results obtained by our proposed method show improvements in a detailed step-wise ablation study. The conducted study showed significant performance gains induced by our proposed training paradigm and modified triplet loss on two evaluation databases.
翻訳日:2021-08-03 15:14:18 公開日:2021-08-02
# 強度と幾何学的情報に基づく樹木点雲のウッドリーフ分類

Wood-leaf classification of tree point cloud based on intensity and geometrical information ( http://arxiv.org/abs/2108.01002v1 )

ライセンス: Link先を確認
Jingqian Sun, Pei Wang, Zhiyong Gao, Zichu Liu, Yaxin Li, Xiaozheng Gan(参考訳) 地上レーザー走査(TLS)は高精度で高密度のツリーポイント雲を得ることができる。 樹木の構造パラメータと生態特性を研究するためには,効率的な木点と葉点の分類が不可欠である。 強度情報と空間情報の両方を用いて,自動木葉分類を実現するために3段階の分類と検証手法を提案した。 木点雲は,強度閾値,近傍密度,ボクセル化によって,木点と葉点に分類した。 実験は北京のハイディアンパークで行われ、RIEGL VZ-400スキャナーを用いて24本の木がスキャンされた。 木点雲は,本手法を用いて処理され,その分類結果と標準値として使用した手動分類結果との比較を行った。 分類精度を評価するために, 総合精度 (oa), kappa係数 (kappa) およびマシューズ相関係数 (mcc) の3つの指標を用いた。 提案手法のOA, Kappa, MCCの範囲は0.9167から0.9872, 0.7276から0.9191, 0.7544から0.9211である。 OA、Kappa、MCCの平均値はそれぞれ0.9550、0.8547、0.8627である。 木葉分類の時間費用も,アルゴリズムの効率を評価するために記録された。 平均処理時間は1億ポイントあたり1.4秒である。 その結果,本手法は実験データに基づく木葉分類において,自動的かつ迅速に動作することがわかった。

Terrestrial laser scanning (TLS) can obtain tree point cloud with high precision and high density. Efficient classification of wood points and leaf points is essential to study tree structural parameters and ecological characteristics. By using both the intensity and spatial information, a three-step classification and verification method was proposed to achieve automated wood-leaf classification. Tree point cloud was classified into wood points and leaf points by using intensity threshold, neighborhood density and voxelization successively. Experiment was carried in Haidian Park, Beijing, and 24 trees were scanned by using the RIEGL VZ-400 scanner. The tree point clouds were processed by using the proposed method, whose classification results were compared with the manual classification results which were used as standard results. To evaluate the classification accuracy, three indicators were used in the experiment, which are Overall Accuracy (OA), Kappa coefficient (Kappa) and Matthews correlation coefficient (MCC). The ranges of OA, Kappa and MCC of the proposed method are from 0.9167 to 0.9872, from 0.7276 to 0.9191, and from 0.7544 to 0.9211 respectively. The average values of OA, Kappa and MCC are 0.9550, 0.8547 and 0.8627 respectively. Time cost of wood-leaf classification was also recorded to evaluate the algorithm efficiency. The average processing time are 1.4 seconds per million points. The results showed that the proposed method performed well automatically and quickly on wood-leaf classification based on the experimental dataset.
翻訳日:2021-08-03 15:14:02 公開日:2021-08-02
# ツイートとApp Storeレビューによるマイニング機能要求とバグレポートの転送学習

Transfer Learning for Mining Feature Requests and Bug Reports from Tweets and App Store Reviews ( http://arxiv.org/abs/2108.00663v1 )

ライセンス: Link先を確認
Pablo Restrepo Henao, Jannik Fischbach, Dominik Spies, Julian Frattini, and Andreas Vogelsang(参考訳) 機能要求とバグレポートをユーザコメントで特定することは、開発チームにとって大きな可能性を秘めている。 しかし,(1)ユーザコメントの約70%はノイズや無関係な情報を含むため,ソーシャルメディアやアプリストアからのRE関連情報の自動マイニングは困難であり,(2)ユーザコメントの量は日々増加し,手動による分析は不可能であり,(3)ユーザコメントは異なる言語で書かれる。 既存のアプローチは、従来の機械学習(ML)とディープラーニング(DL)をベースにしているが、この機能要求やバグレポートを高いリコールと許容精度で検出することができない。 本稿では,ユーザコメントの分類における転送学習(TL)の可能性について検討する。 具体的には,単言語モデルと多言語モデルの両方を訓練し,その性能を最先端手法と比較する。 モノリンガルBERTモデルは、英語およびイタリア語のつぶやきだけでなく、英語App Reviewsの分類において、既存のベースライン手法よりも優れていることがわかった。 しかし,重み付きTLモデルの適用が必ずしも性能向上につながるとは限らないことも確認した。 実際、我々の多言語BERTモデルは従来のML手法よりも性能が劣る。

Identifying feature requests and bug reports in user comments holds great potential for development teams. However, automated mining of RE-related information from social media and app stores is challenging since (1) about 70% of user comments contain noisy, irrelevant information, (2) the amount of user comments grows daily making manual analysis unfeasible, and (3) user comments are written in different languages. Existing approaches build on traditional machine learning (ML) and deep learning (DL), but fail to detect feature requests and bug reports with high Recall and acceptable Precision which is necessary for this task. In this paper, we investigate the potential of transfer learning (TL) for the classification of user comments. Specifically, we train both monolingual and multilingual BERT models and compare the performance with state-of-the-art methods. We found that monolingual BERT models outperform existing baseline methods in the classification of English App Reviews as well as English and Italian Tweets. However, we also observed that the application of heavyweight TL models does not necessarily lead to better performance. In fact, our multilingual BERT models perform worse than traditional ML methods.
翻訳日:2021-08-03 15:13:37 公開日:2021-08-02
# 模倣学習におけるアダプティブt-momentum-based optimization for unknown ratio of outliers in amateur data

Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in Amateur Data in Imitation Learning ( http://arxiv.org/abs/2108.00625v1 )

ライセンス: Link先を確認
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi, Kenji Sugimoto(参考訳) 行動クローニング(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。 しかしながら、人間のオペレーターによるデモンストレーションでは、未確認の場合には模倣者の効率に影響を与えるノイズや不完全な振る舞いがしばしば含まれる。 不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。 このアルゴリズムは、重い尾のデータを処理し、外部観測の効果を減らすために、学生のt分布に基づいて構築される。 適応的かつ自動的なロバスト性を実現するためにt-momentumアルゴリズムを拡張し、未知のヘビーネスを持つデータセットに対してロバストなbc模倣子を生成するために、このアルゴリズムをどのように利用できるか実証的に示す。 実際、t-momentumベースのadamオプティマイザで訓練された模倣者は、異なるロボットで2つの異なる操作タスクで不完全なデモンストレーションを行うための堅牢さを示し、非最適動作の悪影響を低減しながら、追加データを利用する能力を明らかにしました。

Behavioral cloning (BC) bears a high potential for safe and direct transfer of human skills to robots. However, demonstrations performed by human operators often contain noise or imperfect behaviors that can affect the efficiency of the imitator if left unchecked. In order to allow the imitators to effectively learn from imperfect demonstrations, we propose to employ the robust t-momentum optimization algorithm. This algorithm builds on the Student's t-distribution in order to deal with heavy-tailed data and reduce the effect of outlying observations. We extend the t-momentum algorithm to allow for an adaptive and automatic robustness and show empirically how the algorithm can be used to produce robust BC imitators against datasets with unknown heaviness. Indeed, the imitators trained with the t-momentum-based Adam optimizers displayed robustness to imperfect demonstrations on two different manipulation tasks with different robots and revealed the capability to take advantage of the additional data while reducing the adverse effect of non-optimal behaviors.
翻訳日:2021-08-03 15:11:36 公開日:2021-08-02
# 車両インターネットにおける深層強化学習フレームワークに対する敵意攻撃

Adversarial Attacks Against Deep Reinforcement Learning Framework in Internet of Vehicles ( http://arxiv.org/abs/2108.00833v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 機械学習(ML)は、広範囲の車載アプリケーションにおいて、驚くべき影響と変革をもたらしています。 インターネット・オブ・ビークルズ(IoV)におけるMLの利用が進み続けており、敵の脅威とその影響は探究する価値のある研究対象となっている。 本稿では,深部強化学習(DRL)支援IoVフレームワークに対するSybilベースの敵対的脅威,具体的にはIoVにおけるDRLベースの動的サービス配置に着目した。 DRLをベースとした動的サービス配置アプリケーションにおいて,異なる攻撃シナリオ下でのサービス遅延とリソース混雑の影響を実車軌道で解析する実験を行った。 ネットワークにおけるシビル攻撃車両の割合の影響についても検討する。 その結果,sybilベースのデータ中毒攻撃は,悪意のない健全なネットワークシナリオと比較した場合,その性能に大きく影響することが示された。

Machine learning (ML) has made incredible impacts and transformations in a wide range of vehicular applications. As the use of ML in Internet of Vehicles (IoV) continues to advance, adversarial threats and their impact have become an important subject of research worth exploring. In this paper, we focus on Sybil-based adversarial threats against a deep reinforcement learning (DRL)-assisted IoV framework and more specifically, DRL-based dynamic service placement in IoV. We carry out an experimental study with real vehicle trajectories to analyze the impact on service delay and resource congestion under different attack scenarios for the DRL-based dynamic service placement application. We further investigate the impact of the proportion of Sybil-attacked vehicles in the network. The results demonstrate that the performance is significantly affected by Sybil-based data poisoning attacks when compared to adversary-free healthy network scenario.
翻訳日:2021-08-03 15:11:15 公開日:2021-08-02
# PSA-GAN: 時系列合成のためのプログレッシブセルフアテンションGAN

PSA-GAN: Progressive Self Attention GANs for Synthetic Time Series ( http://arxiv.org/abs/2108.00981v1 )

ライセンス: Link先を確認
Jeha Paul, Bohlke-Schneider Michael, Mercado Pedro, Singh Nirwan Rajbir, Kapoor Shubham, Flunkert Valentin, Gasthaus Jan, Januschowski Tim(参考訳) 十分な長さのリアルな合成時系列データは、予測などの時系列モデリングタスクに実用的な応用を可能にするが、依然として課題である。 本稿では,GAN(Generative Adversarial Network, GAN)を用いて, GANの進行的成長と自己注意を用いて, 高品質の時系列サンプルを生成する。 PSA-GANは,実データのみを使用するベースライン上の2つの下流予測タスクにおいて,誤差を低減できることを示す。 また、Frechet-Inception Distance-like scoreであるContext-FIDを導入し、合成時系列サンプルの品質を評価する。 下流のタスクでは、最も低いスコアリングモデルは最もパフォーマンスの高いものに対応しています。 したがって、Context-FIDは時系列GANモデルを開発するのに役立つ。

Realistic synthetic time series data of sufficient length enables practical applications in time series modeling tasks, such as forecasting, but remains a challenge. In this paper we present PSA-GAN, a generative adversarial network (GAN) that generates long time series samples of high quality using progressive growing of GANs and self-attention. We show that PSA-GAN can be used to reduce the error in two downstream forecasting tasks over baselines that only use real data. We also introduce a Frechet-Inception Distance-like score, Context-FID, assessing the quality of synthetic time series samples. In our downstream tasks, we find that the lowest scoring models correspond to the best-performing ones. Therefore, Context-FID could be a useful tool to develop time series GAN models.
翻訳日:2021-08-03 15:11:03 公開日:2021-08-02
# Sequoia: 継続的な学習研究を統合するソフトウェアフレームワーク

Sequoia: A Software Framework to Unify Continual Learning Research ( http://arxiv.org/abs/2108.01005v1 )

ライセンス: Link先を確認
Fabrice Normandin, Florian Golemo, Oleksiy Ostapenko, Pau Rodriguez, Matthew D Riemer, Julio Hurtado, Khimya Khetarpal1, Dominic Zhao, Ryan Lindeborg, Thimoth\'ee Lesort, Laurent Charlin, Irina Rish, Massimo Caccia(参考訳) 連続学習(cl)の分野は、非定常環境とデータ分散とのインタラクションを通じて、時間とともに知識とスキルを蓄積するアルゴリズムの開発を目指している。 CL の進行度を測定することは、CL 問題に関する多くの評価手順 (\emph{settings}) とアルゴリズム解 (\emph{methods}) が出現し、それぞれが、CL 問題に関する仮定に相反する可能性があるため困難である。 この研究では、各設定を \emph{assumption} の集合とみなす。 次に、CLにおける研究環境のツリー型階層を作成し、より一般的な設定がより制限的な仮定を持つ人の親となる。 これにより、遺伝を利用して研究を共有、再利用することが可能となり、与えられた設定の方法を開発することで、子供にも直接適用することができる。 我々はこのアイデアを,CSL(Continuous Supervised Learning)ドメインとCRL(Continuous Reinforcement Learning)ドメインの両方からさまざまな設定を特徴とする,"emph{Sequoia}"という,公開可能なソフトウェアフレームワークとしてインスタンス化する。 sequoiaには、拡張やカスタマイズが容易なメソッドスイートや、サードパーティライブラリのより専門的なメソッドも含まれている。 我々は,この新たなパラダイムとその最初の実装が,CLにおける研究の統合と加速の基礎となることを願っている。 ツリーの成長を助けるには、 \url{www.github.com/lebrice/sequoia} を参照してください。

The field of Continual Learning (CL) seeks to develop algorithms that accumulate knowledge and skills over time through interaction with non-stationary environments and data distributions. Measuring progress in CL can be difficult because a plethora of evaluation procedures (\emph{settings}) and algorithmic solutions (\emph{methods}) have emerged, each with their own potentially disjoint set of assumptions about the CL problem. In this work, we view each setting as a set of \emph{assumptions}. We then create a tree-shaped hierarchy of the research settings in CL, in which more general settings become the parents of those with more restrictive assumptions. This makes it possible to use inheritance to share and reuse research, as developing a method for a given setting also makes it directly applicable onto any of its children. We instantiate this idea as a publicly available software framework called \emph{Sequoia}, which features a variety of settings from both the Continual Supervised Learning (CSL) and Continual Reinforcement Learning (CRL) domains. Sequoia also includes a growing suite of methods which are easy to extend and customize, in addition to more specialized methods from third-party libraries. We hope that this new paradigm and its first implementation can serve as a foundation for the unification and acceleration of research in CL. You can help us grow the tree by visiting \url{www.github.com/lebrice/Sequoia}.
翻訳日:2021-08-03 15:10:48 公開日:2021-08-02
# 特徴のマルチビュー分類のためのフレームワーク

A Framework for Multi-View Classification of Features ( http://arxiv.org/abs/2108.01019v1 )

ライセンス: Link先を確認
Khalil Taheri, Hadi Moradi, Mostafa Tavassolipour(参考訳) パターン認識の分野で最も重要な問題の1つは、データ分類である。 データ分類の分野で導入された技術の発展により、いくつかのソリューションはまだオープンであり、さらなる研究が必要である。 この領域における課題の1つは、データ分類問題の特徴集合の次元性の呪いである。 データ分類問題の解決では、機能セットが大きすぎると、典型的なアプローチではその問題を解決することができない。 この場合、特徴集合を複数の特徴部分集合に分割して、各特徴集合に対してデータ分類問題を解決し、最後にアンサンブル分類を用いることで、特徴集合全体に分類を適用することができる。 上述のアプローチでは、特徴集合を特徴部分集合に分割することは、この分野の文献における興味深い分野である。 本研究では,人間の多視点理論における物体認識の問題に触発された,多視点アンサンブル分類のための革新的な枠組みを提案する。 本手法では,まず,特徴の協調基準と呼ばれる基準を用いて,特徴間の協調値を算出する。 そして、算出されたコラボレーション値に基づいてコラボレーショングラフを形成する。 次のステップでは、コミュニティ検出手法を使用して、グラフコミュニティを見つける。 コミュニティは問題ビューと見なされ、異なるベース分類器は対応するトレーニングデータを用いて異なるビューのために訓練される。 マルチビューアンサンブル分類器は、adaboostアルゴリズムに基づくベース分類器の組み合わせによって構成される。 実データと合成データを用いたシミュレーションの結果,提案手法により分類精度が向上した。

One of the most important problems in the field of pattern recognition is data classification. Due to the increasing development of technologies introduced in the field of data classification, some of the solutions are still open and need more research. One of the challenging problems in this area is the curse of dimensionality of the feature set of the data classification problem. In solving the data classification problems, when the feature set is too large, typical approaches will not be able to solve the problem. In this case, an approach can be used to partition the feature set into multiple feature sub-sets so that the data classification problem is solved for each of the feature subsets and finally using the ensemble classification, the classification is applied to the entire feature set. In the above-mentioned approach, the partitioning of feature set into feature sub-sets is still an interesting area in the literature of this field. In this research, an innovative framework for multi-view ensemble classification, inspired by the problem of object recognition in the multiple views theory of humans, is proposed. In this method, at first, the collaboration values between the features is calculated using a criterion called the features collaboration criterion. Then, the collaboration graph is formed based on the calculated collaboration values. In the next step, using the community detection method, graph communities are found. The communities are considered as the problem views and the different base classifiers are trained for different views using the views corresponding training data. The multi-view ensemble classifier is then formed by a combination of base classifiers based on the AdaBoost algorithm. The simulation results of the proposed method on the real and synthetic datasets show that the proposed method increases the classification accuracy.
翻訳日:2021-08-03 15:10:20 公開日:2021-08-02
# 多目的パスベースD*ライト

Multi-Objective Path-Based D* Lite ( http://arxiv.org/abs/2108.00710v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) d* liteのようなインクリメンタルグラフ検索アルゴリズムは、同様の経路計画タスクを高速化するために、以前の検索作業を再利用する。 これらのアルゴリズムは、スクラッチからの検索と比較してその効率を実証し、未知の地形でのナビゲーションのような多くのアプリケーションで活用されている。 一方、パスプランニングでは、一般的に、旅行リスクや到着時間など、複数の競合対象を同時に最適化する。 多目的経路計画は、グラフのサイズに関して「パレート最適」な解の数が指数関数的に増加するため、類似の計画課題を解決する必要があるたびに、スクラッチから計画を立てるのが計算的に負担になるため、困難である。 本稿では,マルチ目的パスベースd* lite (mopbd*) と呼ばれる新しい多目的インクリメンタル検索アルゴリズムを提案する。 数値計算の結果,MOPBD* はスクラッチからの探索よりも効率的であり,既存の多目的経路計画法に比べて桁違いに高速であることがわかった。

Incremental graph search algorithms, such as D* Lite, reuse previous search efforts to speed up subsequent similar path planning tasks. These algorithms have demonstrated their efficiency in comparison with search from scratch, and have been leveraged in many applications such as navigation in unknown terrain. On the other hand, path planning typically involves optimizing multiple conflicting objectives simultaneously, such as travel risk, arrival time, etc. Multi-objective path planning is challenging as the number of "Pareto-optimal" solutions can grow exponentially with respect to the size of the graph, which makes it computationally burdensome to plan from scratch each time when similar planning tasks needs to be solved. This article presents a new multi-objective incremental search algorithm called Multi-Objective Path-Based D* Lite (MOPBD*) which reuses previous search efforts to speed up subsequent planning tasks while optimizing multiple objectives. Numerical results show that MOPBD* is more efficient than search from scratch and runs an order of magnitude faster than existing incremental method for multi-objective path planning.
翻訳日:2021-08-03 15:09:19 公開日:2021-08-02
# 安全区間計画を用いた多目的衝突探索

Multi-objective Conflict-based Search Using Safe-interval Path Planning ( http://arxiv.org/abs/2108.00745v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) 本稿では,旅行時間や経路リスクなど複数の競合目標を同時に最適化する,よく知られたマルチエージェント経路探索(mapf)問題の一般化について述べる。 この一般化は多目的MAPF (MOMAPF) と呼ばれ、有害物質輸送から建設現場計画まで、いくつかの応用で実現されている。 本稿では,その低レベル探索のための新しいマルチオブジェクトセーフインターバルパス計画(MO-SIPP)アルゴリズムに依存する,新しいマルチオブジェクトコンフリクトベースサーチ(MO-CBS)を提案する。 まずmo-sippアルゴリズムを開発し,その特性を示し,mo-cbsに組み込む。 その結果,(1)平均低レベルの探索時間には桁違いに改善がみられ,(2)パレートオプティカルフロントの探索成功率の大幅な向上が,アートの状況と比較して提案手法を用いて得られた。 最後に,建設現場計画における提案アルゴリズムの適用可能性を示すケーススタディを提案する。

This paper addresses a generalization of the well known multi-agent path finding (MAPF) problem that optimizes multiple conflicting objectives simultaneously such as travel time and path risk. This generalization, referred to as multi-objective MAPF (MOMAPF), arises in several applications ranging from hazardous material transportation to construction site planning. In this paper, we present a new multi-objective conflict-based search (MO-CBS) approach that relies on a novel multi-objective safe interval path planning (MO-SIPP) algorithm for its low-level search. We first develop the MO-SIPP algorithm, show its properties and then embed it in MO-CBS. We present extensive numerical results to show that (1) there is an order of magnitude improvement in the average low level search time, and (2) a significant improvement in the success rates of finding the Pareto-optimal front can be obtained using the proposed approach in comparison with the state of the art. Finally, we also provide a case study to demonstrate the potential application of the proposed algorithms for construction site planning.
翻訳日:2021-08-03 15:09:00 公開日:2021-08-02
# ソフトウェア要件優先順位付けのためのai技術

AI Techniques for Software Requirements Prioritization ( http://arxiv.org/abs/2108.00832v1 )

ライセンス: Link先を確認
Alexander Felfernig(参考訳) リソースの制限、市場要求の頻繁な変更、ソフトウェア要件(機能)の実装に関する技術的な制約といった側面は、しばしば要求の優先順位付けを要求する。 優先順位付けのタスクは、将来のソフトウェアリリースに含まれるべき要件のランク付けと選択です。 この文脈では、インテリジェントな優先順位決定支援が非常に重要です。 本稿では,要求優先プロセスの全体的な品質向上を支援する人工知能(AI)技術に基づく優先順位付け手法について述べる。

Aspects such as limited resources, frequently changing market demands, and different technical restrictions regarding the implementation of software requirements (features) often demand for the prioritization of requirements. The task of prioritization is the ranking and selection of requirements that should be included in future software releases. In this context, an intelligent prioritization decision support is extremely important. The prioritization approaches discussed in this paper are based on different Artificial Intelligence (AI) techniques that can help to improve the overall quality of requirements prioritization processes
翻訳日:2021-08-03 15:08:44 公開日:2021-08-02
# 興味分析に基づくユーザ人口統計の予測

Predicting user demographics based on interest analysis ( http://arxiv.org/abs/2108.01014v1 )

ライセンス: Link先を確認
Reza Shafiloo, Marjan Kaedi, Ali Pourmiri(参考訳) 近年,web 上で発生する情報量が増加しているため,ほとんどの web サービスプロバイダがサービスのパーソナライズを試みている。 ユーザは複数の方法でWebベースのシステムと対話し、提供されたアイテムを評価することによって、自分の興味や好みを述べる。 本稿では,システム利用者が登録した評価に基づいて,利用者の人口分布を予測する枠組みを提案する。 我々の知る限り、レコメンデーションシステムやサービスパーソナライゼーションにおいて広く研究されているユーザの人口予測問題に対して、項目評価が採用されるのは今回が初めてである。 このフレームワークをmovielensデータセットのレーティングに適用し、ユーザの年齢と性別を予測します。 実験結果から, 利用者が登録した全ての評価値を用いて予測精度を16%向上することが示された。 さらに, 商品を人気度と不人気度に分類することで, 95%の品目に属する格付けを排除し, 精度が許容できるレベルまで到達した。 これにより、時間を要する環境でのアップデートコストが大幅に削減される。 この分類に加えて,予測精度を維持しつつデータ量を削減する手法を提案する。

These days, due to the increasing amount of information generated on the web, most web service providers try to personalize their services. Users also interact with web-based systems in multiple ways and state their interests and preferences by rating the provided items. This paper proposes a framework to predict users' demographic based on ratings registered by users in a system. To the best of our knowledge, this is the first time that the item ratings are employed for users' demographic prediction problems, which have extensively been studied in recommendation systems and service personalization. We apply the framework to the Movielens dataset's ratings and predict users' age and gender. The experimental results show that using all ratings registered by users improves the prediction accuracy by at least 16% compared with previously studied models. Moreover, by classifying the items as popular and unpopular, we eliminate ratings that belong to 95% of items and still reach an acceptable level of accuracy. This significantly reduces update costs in a time-varying environment. Besides this classification, we propose other methods to reduce data volume while keeping the predictions accurate.
翻訳日:2021-08-03 15:08:36 公開日:2021-08-02
# 電力市場浄化のための純需要規定

Prescribing net demand for electricity market clearing ( http://arxiv.org/abs/2108.01003v1 )

ライセンス: Link先を確認
Juan M. Morales, Miguel \'A. Mu\~noz and Salvador Pineda(参考訳) 我々は、フォワードとリアルタイム決済からなる2段階の電力市場を考える。 前者は、低コストの功労命令に従って電力系統を前払いし、不確実な純需要に直面する一方、後者は、システムの実際の運用中に電力規制を利用することで、前払いスケジュールに関する可算偏差に対処する。 標準産業の慣行は、電力規制の必要性をリアルタイムに最小化するために、条件付き期待値(通常はポイント予測と呼ばれる)を適切に見積もることによって、前段階における不確定な純需要に対処する。 しかし、電力系統のコスト構造が非対称であり、その運用点に依存することが知られており、電力不均衡の量を最小化することは必ずしも運用コストの最小化と一致しない。 本稿では,電力系統のコスト非対称性を考慮に入れた電力需要の代替推定法として,利用可能な履歴データから混合整数計画を提案する。 さらに,電力系統の運用ポイントに対するコストの強い依存に対応するために,提案する推定値を予測されたネット需要体制に合わせるためにクラスタリングを用いる。 欧州電力システムに基づく実証的な例とより現実的なケーススタディによって、我々のアプローチは、慣習的なやり方と比較してかなりのコスト削減をもたらすことが示されている。

We consider a two-stage electricity market comprising a forward and a real-time settlement. The former pre-dispatches the power system following a least-cost merit order and facing an uncertain net demand, while the latter copes with the plausible deviations with respect to the forward schedule by making use of power regulation during the actual operation of the system. Standard industry practice deals with the uncertain net demand in the forward stage by replacing it with a good estimate of its conditional expectation (usually referred to as a point forecast), so as to minimize the need for power regulation in real time. However, it is well known that the cost structure of a power system is highly asymmetric and dependent on its operating point, with the result that minimizing the amount of power imbalances is not necessarily aligned with minimizing operating costs. In this paper, we propose a mixed-integer program to construct, from the available historical data, an alternative estimate of the net demand that accounts for the power system's cost asymmetry. Furthermore, to accommodate the strong dependence of this cost on the power system's operating point, we use clustering to tailor the proposed estimate to the foreseen net-demand regime. By way of an illustrative example and a more realistic case study based on the European power system, we show that our approach leads to substantial cost savings compared to the customary way of doing.
翻訳日:2021-08-03 15:08:03 公開日:2021-08-02
# カレイドスコープ変換による離散フーリエ空間の局所フラクタルサンプリングパターン

Bespoke Fractal Sampling Patterns for Discrete Fourier Space via the Kaleidoscope Transform ( http://arxiv.org/abs/2108.00639v1 )

ライセンス: Link先を確認
Jacob M. White, Stuart Crozier, and Shekhar S. Chandra(参考訳) サンプリング戦略はスパースイメージング手法、特に離散フーリエ変換(dft)を用いる手法において重要である。 カオスセンシングは決定論的フラクタルサンプリングと有限反復再構成スキームを併用して限られたサンプルから画像を生成する手法の一つである。 DFT空間の周期線から完全に構成されたサンプリングパターンを用いることで、カオスセンシングは従来の圧縮された磁気共鳴イメージングよりも優れることがわかったが、そのようなサンプリングパターンは1つだけ提示され、そのフラクタル性は証明されなかった。 Through the introduction of a novel image transform known as the kaleidoscope transform, which formalises and extends upon the concept of downsampling and concatenating an image with itself, this paper: (1) demonstrates a fundamental relationship between multiplication in modular arithmetic and downsampling; (2) provides a rigorous mathematical explanation for the fractal nature of the sampling pattern in the DFT; and (3) leverages this understanding to develop a collection of novel fractal sampling patterns for the 2D DFT with customisable properties. テーラーメイドのフラクタルサンプリングパターンを設計する能力は、カオスイメージングにおけるDFTの有用性を拡大し、フラクタルサンプリングがイメージタスクにマッチして再構成を改善するようなカオスセンシング手法の基礎を形成する可能性がある。

Sampling strategies are important for sparse imaging methodologies, especially those employing the discrete Fourier transform (DFT). Chaotic sensing is one such methodology that employs deterministic, fractal sampling in conjunction with finite, iterative reconstruction schemes to form an image from limited samples. Using a sampling pattern constructed entirely from periodic lines in DFT space, chaotic sensing was found to outperform traditional compressed sensing for magnetic resonance imaging; however, only one such sampling pattern was presented and the reason for its fractal nature was not proven. Through the introduction of a novel image transform known as the kaleidoscope transform, which formalises and extends upon the concept of downsampling and concatenating an image with itself, this paper: (1) demonstrates a fundamental relationship between multiplication in modular arithmetic and downsampling; (2) provides a rigorous mathematical explanation for the fractal nature of the sampling pattern in the DFT; and (3) leverages this understanding to develop a collection of novel fractal sampling patterns for the 2D DFT with customisable properties. The ability to design tailor-made fractal sampling patterns expands the utility of the DFT in chaotic imaging and may form the basis for a bespoke chaotic sensing methodology, in which the fractal sampling matches the imaging task for improved reconstruction.
翻訳日:2021-08-03 15:06:35 公開日:2021-08-02
# PoseFusion2: バックグラウンドでの同時再構築と人体形状復元

PoseFusion2: Simultaneous Background Reconstruction and Human Shape Recovery in Real-time ( http://arxiv.org/abs/2108.00695v1 )

ライセンス: Link先を確認
Huayan Zhang, Tianwei Zhang, Tin Lun Lam, and Sethu Vijayakumar(参考訳) 非構造化移動オブジェクトを含む動的環境は、同時ローカライゼーションとマッピング(slam)のパフォーマンスに困難をもたらす。 剛体の運動は、そのテクスチャと幾何学的特徴を利用して追跡することができる。 しかし、現場を移動する人間は多くの場合、最も重要で対話的な標的の1つです。 そこで本研究では,動的物体を分離し,リアルタイムの濃密な背景復元フレームワークを実現するための高速学習に基づくヒューマンオブジェクト検出器を提案する。 さらに、人間のポーズや形状を推定し、再構成する。 最終的な出力環境マップは、密度の高い静的背景を提供するだけでなく、動的人間のメッシュとその軌道も含んでいる。 われわれのDynamic SLAMシステムはGPU上で約26フレーム/秒(fps)で動作し、同時に正確な人間のポーズ推定を最大10fpsで行うことができる。

Dynamic environments that include unstructured moving objects pose a hard problem for Simultaneous Localization and Mapping (SLAM) performance. The motion of rigid objects can be typically tracked by exploiting their texture and geometric features. However, humans moving in the scene are often one of the most important, interactive targets - they are very hard to track and reconstruct robustly due to non-rigid shapes. In this work, we present a fast, learning-based human object detector to isolate the dynamic human objects and realise a real-time dense background reconstruction framework. We go further by estimating and reconstructing the human pose and shape. The final output environment maps not only provide the dense static backgrounds but also contain the dynamic human meshes and their trajectories. Our Dynamic SLAM system runs at around 26 frames per second (fps) on GPUs, while additionally turning on accurate human pose estimation can be executed at up to 10 fps.
翻訳日:2021-08-03 15:06:15 公開日:2021-08-02
# クロスモーダル・ジョイント・エンベディング学習におけるDeep Feature Calibration

Efficient Deep Feature Calibration for Cross-Modal Joint Embedding Learning ( http://arxiv.org/abs/2108.00705v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Lin Li, Luo Zhong(参考訳) 本稿では,データ前処理における深い特徴キャリブレーションを,関節埋め込みモデルのトレーニングから明確に分離する,セマンティクスを効率的に学習するための2段階の深層特徴キャリブレーションフレームワークを提案する。 技術的記述と実証検証にはRecipe1Mデータセットを使用します。 先行処理では,テキスト画像入力データから得られた意味的文脈特徴と深層特徴工学を組み合わせることで,深い特徴量校正を行う。 我々はLSTMを利用してキー項を識別し、キー項の特徴を生成する前にキー項のランキングスコアを生成する。 We leverage wideResNet50 to extract and encode the image category semantics to help semantic connection of the learned recipe and image embeddeds in the joint latent space。 組込み学習では,ソフトマージンと二重負サンプリングでバッチハード三重項損失関数を最適化し,カテゴリベースアライメント損失と判別器ベースアライメント損失を利用して,深い特徴校正を行う。 広汎な実験により, 深い特徴キャリブレーションによるSEJEのアプローチは, 最先端のアプローチよりも優れていることが示された。

This paper introduces a two-phase deep feature calibration framework for efficient learning of semantics enhanced text-image cross-modal joint embedding, which clearly separates the deep feature calibration in data preprocessing from training the joint embedding model. We use the Recipe1M dataset for the technical description and empirical validation. In preprocessing, we perform deep feature calibration by combining deep feature engineering with semantic context features derived from raw text-image input data. We leverage LSTM to identify key terms, NLP methods to produce ranking scores for key terms before generating the key term feature. We leverage wideResNet50 to extract and encode the image category semantics to help semantic alignment of the learned recipe and image embeddings in the joint latent space. In joint embedding learning, we perform deep feature calibration by optimizing the batch-hard triplet loss function with soft-margin and double negative sampling, also utilizing the category-based alignment loss and discriminator-based alignment loss. Extensive experiments demonstrate that our SEJE approach with the deep feature calibration significantly outperforms the state-of-the-art approaches.
翻訳日:2021-08-03 15:06:00 公開日:2021-08-02
# レシピ画像クロスモーダル検索サービスのためのtfidf強化ジョイント埋め込み学習

Learning TFIDF Enhanced Joint Embedding for Recipe-Image Cross-Modal Retrieval Service ( http://arxiv.org/abs/2108.00724v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Yanzhao Wu, Lin Li, Luo Zhong(参考訳) 調理工程における材料組成や変形の多様さから, レシピと画像の融合埋め込みの学習は困難であることが広く認識されている。 本稿では,2つのモード間の共通特徴空間(テキストと画像)を学習するためのマルチモーダル・セマンティックス強化共同埋め込み(MSJE)手法を提案する。 msjeのアプローチには3つのユニークな特徴があります。 まず,レシピの題名,具材,調理指導からtfidfの特徴を抽出する。 LSTM学習特徴とTFIDF特徴を組み合わせて単語列の重要度を決定することにより、重要なキーワードを抽出するためのTFIDF重み付きベクトルにレシピをエンコードし、それに対応する調理指示にそのキーワードがどのように使われるかを示す。 第2に、レシピTFIDF機能と、2段階のLSTMネットワークから抽出されたレシピシーケンス機能を組み合わせることで、レシピとその関連画像のユニークな関係を捉えるのに有効である。 第3に,tfidf強化カテゴリセマンティクスを組み込んで画像モダリティのマッピングを改善し,クロスモーダル関節埋め込みの反復学習中に類似度損失関数を制御する。 ベンチマークデータセットRecipe1Mの実験では、提案されたアプローチは最先端のアプローチよりも優れていた。

It is widely acknowledged that learning joint embeddings of recipes with images is challenging due to the diverse composition and deformation of ingredients in cooking procedures. We present a Multi-modal Semantics enhanced Joint Embedding approach (MSJE) for learning a common feature space between the two modalities (text and image), with the ultimate goal of providing high-performance cross-modal retrieval services. Our MSJE approach has three unique features. First, we extract the TFIDF feature from the title, ingredients and cooking instructions of recipes. By determining the significance of word sequences through combining LSTM learned features with their TFIDF features, we encode a recipe into a TFIDF weighted vector for capturing significant key terms and how such key terms are used in the corresponding cooking instructions. Second, we combine the recipe TFIDF feature with the recipe sequence feature extracted through two-stage LSTM networks, which is effective in capturing the unique relationship between a recipe and its associated image(s). Third, we further incorporate TFIDF enhanced category semantics to improve the mapping of image modality and to regulate the similarity loss function during the iterative learning of cross-modal joint embedding. Experiments on the benchmark dataset Recipe1M show the proposed approach outperforms the state-of-the-art approaches.
翻訳日:2021-08-03 15:05:36 公開日:2021-08-02
# あいまいな物体分類のためのアクティブ・パーセプション

Active Perception for Ambiguous Objects Classification ( http://arxiv.org/abs/2108.00737v1 )

ライセンス: Link先を確認
Evgenii Safronov, Nicola Piga, Michele Colledanchise, and Lorenzo Natale(参考訳) 最近の視覚的ポーズ推定と追跡ソリューションは、T-LESSやYCBといった一般的なデータセットに顕著な結果をもたらす。 しかし、現実の世界では、単一の視点から正確な分類と検出を許さない曖昧な物体を見つけることができる。 本研究では,オブジェクトの単一ビューが与えられた場合,オブジェクトを類似するものと識別するための次の視点の座標を提供し,あいまいさを解消するフレームワークを提案する。 また、実際のオブジェクトのスキャンから視点の選択と分類まで、完全なパイプラインを記述する。 我々は,franka emika pandaロボットと,あいまいさを特徴とする一般的な家庭用ロボットを用いて,このアプローチを検証する。 実験を再現するソースコードをリリースしました。

Recent visual pose estimation and tracking solutions provide notable results on popular datasets such as T-LESS and YCB. However, in the real world, we can find ambiguous objects that do not allow exact classification and detection from a single view. In this work, we propose a framework that, given a single view of an object, provides the coordinates of a next viewpoint to discriminate the object against similar ones, if any, and eliminates ambiguities. We also describe a complete pipeline from a real object's scans to the viewpoint selection and classification. We validate our approach with a Franka Emika Panda robot and common household objects featured with ambiguities. We released the source code to reproduce our experiments.
翻訳日:2021-08-03 15:05:12 公開日:2021-08-02
# 潜在最適化による制約付きグラフィックレイアウト生成

Constrained Graphic Layout Generation via Latent Optimization ( http://arxiv.org/abs/2108.00871v1 )

ライセンス: Link先を確認
Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi(参考訳) グラフィックデザインでは、人間がデザイン意図やセマンティクスに応じて視覚的に様々な要素を配置するのが一般的である。 例えば、タイトルテキストはほとんどの場合、ドキュメント内の他の要素の上に表示される。 本研究では,ユーザによって暗黙的に,あるいは明示的に指定された設計意味を柔軟に組み込むことのできるグラフィックレイアウトを生成する。 既成のレイアウト生成モデルの潜在空間の利用を最適化し、既存のレイアウト生成モデルと補完し、使用できるようにする。 本手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいて構築され,要素のアライメント,重なり回避,その他のユーザ特定関係に設計制約を用いる制約付き最適化問題としてレイアウト生成を定式化する。 実験では,制約のある生成タスクと制約のない生成タスクの両方において,単一のモデルで現実的なレイアウトを生成できることを示す。 コードはhttps://github.com/ktrk115/const_layoutで入手できる。

It is common in graphic design humans visually arrange various elements according to their design intent and semantics. For example, a title text almost always appears on top of other elements in a document. In this work, we generate graphic layouts that can flexibly incorporate such design semantics, either specified implicitly or explicitly by a user. We optimize using the latent space of an off-the-shelf layout generation model, allowing our approach to be complementary to and used with existing layout generation models. Our approach builds on a generative layout model based on a Transformer architecture, and formulates the layout generation as a constrained optimization problem where design constraints are used for element alignment, overlap avoidance, or any other user-specified relationship. We show in the experiments that our approach is capable of generating realistic layouts in both constrained and unconstrained generation tasks with a single model. The code is available at https://github.com/ktrk115/const_layout .
翻訳日:2021-08-03 15:05:02 公開日:2021-08-02
# 空間的集積と不確かさを伴う多相肝腫瘍分画

Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting ( http://arxiv.org/abs/2108.00911v1 )

ライセンス: Link先を確認
Yue Zhang, Chengtao Pen, Liying Peng, Huimin Huang, RuofengTong, Lanfen Lin, Jingsong Li, Yen-Wei Chen, Qingqing Chen, HongjieHu, Zhiyi Peng(参考訳) 多相CT画像は肝腫瘍の正確なセグメンテーション(LiTS)に重要な相補的情報を提供する。 最先端多相LiTS法は通常、位相重み付け和やチャネルアテンションに基づく結合を通じて、相を融合する。 しかし、これらの手法は異なる位相間の空間的(ピクセル単位で)関係を無視し、機能統合が不十分になった。 また, 腫瘍境界領域では特に急激なセグメンテーションにおいて, 既存手法の性能は依然として不確実性に起因している。 本研究では,多相情報を適切に集約し,不確実領域分割を洗練するための新しいLiTS法を提案する。 この目的のために、異なる位相間の画素間相互作用を促進する空間集約モジュール(SAM)を導入し、クロスフェーズ情報を完全に活用する。 さらに,隣接する識別特徴を用いて不確実な画素を精査するための不確実な領域塗装モジュール(URIM)を考案した。 局所肝病変 (mpct-flls) の多相ctデータセットを用いた実験により, 肝腫瘍の分画を有望に達成し, 術式を上回った。

Multi-phase computed tomography (CT) images provide crucial complementary information for accurate liver tumor segmentation (LiTS). State-of-the-art multi-phase LiTS methods usually fused cross-phase features through phase-weighted summation or channel-attention based concatenation. However, these methods ignored the spatial (pixel-wise) relationships between different phases, hence leading to insufficient feature integration. In addition, the performance of existing methods remains subject to the uncertainty in segmentation, which is particularly acute in tumor boundary regions. In this work, we propose a novel LiTS method to adequately aggregate multi-phase information and refine uncertain region segmentation. To this end, we introduce a spatial aggregation module (SAM), which encourages per-pixel interactions between different phases, to make full use of cross-phase information. Moreover, we devise an uncertain region inpainting module (URIM) to refine uncertain pixels using neighboring discriminative features. Experiments on an in-house multi-phase CT dataset of focal liver lesions (MPCT-FLLs) demonstrate that our method achieves promising liver tumor segmentation and outperforms state-of-the-arts.
翻訳日:2021-08-03 15:04:46 公開日:2021-08-02
# L_1$正規化ニューラルネットワーク予測による二重ロバスト推定器のバイアス変動トレードオフ

The Bias-Variance Tradeoff of Doubly Robust Estimator with Targeted $L_1$ regularized Neural Networks Predictions ( http://arxiv.org/abs/2108.00990v1 )

ライセンス: Link先を確認
Mehdi Rostami, Olli Saarela, Michael Escobar(参考訳) ATEの二重ロバスト(DR)推定は、第1ステップでは治療と結果がモデル化され、第2ステップでは予測がDR推定器に挿入される2ステップで行うことができる。 最初の段階でのモデルの誤特定は、研究者がパラメトリックアルゴリズムの代わりに機械学習アルゴリズムを使うきっかけとなった。 しかし、強力な共同設立者やインストゥルメンタル変数(IVs)の存在は、複雑なMLアルゴリズムを導くことで、肯定的な仮定に違反し、DR推定器のばらつきを高めることができる治療モデルに完璧な予測を与えることができる。 したがって、MLアルゴリズムは、共同創設者と治療と結果の関係を学習しながら、治療モデルの完全な予測を避けるために制御されなければならない。 2つのニューラルネットワークアーキテクチャを使用して,そのハイパーパラメータを共同設立者やivsの存在下でチューニングして,dr estimatorなどのate推定者に対するバイアス分散トレードオフを低く抑える方法を検討する。 シミュレーションの結果から,NN を ATE 推定に利用する方法についての提言を行う。

The Doubly Robust (DR) estimation of ATE can be carried out in 2 steps, where in the first step, the treatment and outcome are modeled, and in the second step the predictions are inserted into the DR estimator. The model misspecification in the first step has led researchers to utilize Machine Learning algorithms instead of parametric algorithms. However, existence of strong confounders and/or Instrumental Variables (IVs) can lead the complex ML algorithms to provide perfect predictions for the treatment model which can violate the positivity assumption and elevate the variance of DR estimators. Thus the ML algorithms must be controlled to avoid perfect predictions for the treatment model while still learn the relationship between the confounders and the treatment and outcome. We use two Neural network architectures and investigate how their hyperparameters should be tuned in the presence of confounders and IVs to achieve a low bias-variance tradeoff for ATE estimators such as DR estimator. Through simulation results, we will provide recommendations as to how NNs can be employed for ATE estimation.
翻訳日:2021-08-03 15:03:36 公開日:2021-08-02
# 不確かさ量子化によるマルコフ確率場推定の高速化

Accelerating Markov Random Field Inference with Uncertainty Quantification ( http://arxiv.org/abs/2108.00570v1 )

ライセンス: Link先を確認
Ramin Bashizade, Xiangyu Zhang, Sayan Mukherjee, Alvin R. Lebeck(参考訳) 統計機械学習は様々な分野に広く応用されている。 これらの手法は確率分布から乱数を生成するマルコフ連鎖モンテカルロ(mcmc)のような確率論的アルゴリズムを含んでいる。 これらのアルゴリズムは従来のプロセッサでは計算コストがかかるが、その統計的性質、すなわち深層学習と比較して解釈可能性と不確実性定量化(UQ)は魅力的な代替手法である。 したがって、これらのアプリケーションを実行する際の従来のプロセッサの欠点に対処するために、ハードウェアの特殊化が採用できる。 本稿では,Gibs サンプリングを用いた MCMC を用いて,幅広いアプリケーションを表現する強力なモデルである Markov Random Field (MRF) 推論のための高スループット加速器を提案する。 MRFのセマンティクスに合わせて,ニアメモリコンピューティングを利用するタイルアーキテクチャとメモリ最適化を提案する。 さらに,UQを効率的にサポートするためのハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。 このメモリシステム設計は、MRFモデルに特化せず、確率論的アルゴリズムを用いたアプリケーションに適用できる。 さらに、チップ外のメモリ帯域幅を劇的に削減する。 提案アーキテクチャのFPGAプロトタイプを高レベル合成ツールを用いて実装し,Intel Arria 10 FPGA上で32個の関数ユニットを持つアクセラレータに対して146MHzの周波数を実現した。 FPGAの以前の研究と比較して、我々のアクセラレータは26倍のスピードアップを達成した。 さらに、UQをサポートするメモリシステムとロギング方式により、2つのアプリケーションに対してオフチップ帯域幅を71%削減する。 15nmのASIC分析では、3GHzで動作する2048の関数ユニットがNvidia RTX2080Tiの動作推定とステレオビジョンのGPU実装を120X-210Xで上回り、面積の7.7%しか占めていない。

Statistical machine learning has widespread application in various domains. These methods include probabilistic algorithms, such as Markov Chain Monte-Carlo (MCMC), which rely on generating random numbers from probability distributions. These algorithms are computationally expensive on conventional processors, yet their statistical properties, namely interpretability and uncertainty quantification (UQ) compared to deep learning, make them an attractive alternative approach. Therefore, hardware specialization can be adopted to address the shortcomings of conventional processors in running these applications. In this paper, we propose a high-throughput accelerator for Markov Random Field (MRF) inference, a powerful model for representing a wide range of applications, using MCMC with Gibbs sampling. We propose a tiled architecture which takes advantage of near-memory computing, and memory optimizations tailored to the semantics of MRF. Additionally, we propose a novel hybrid on-chip/off-chip memory system and logging scheme to efficiently support UQ. This memory system design is not specific to MRF models and is applicable to applications using probabilistic algorithms. In addition, it dramatically reduces off-chip memory bandwidth requirements. We implemented an FPGA prototype of our proposed architecture using high-level synthesis tools and achieved 146MHz frequency for an accelerator with 32 function units on an Intel Arria 10 FPGA. Compared to prior work on FPGA, our accelerator achieves 26X speedup. Furthermore, our proposed memory system and logging scheme to support UQ reduces off-chip bandwidth by 71% for two applications. ASIC analysis in 15nm shows our design with 2048 function units running at 3GHz outperforms GPU implementations of motion estimation and stereo vision on Nvidia RTX2080Ti by 120X-210X, occupying only 7.7% of the area.
翻訳日:2021-08-03 14:59:52 公開日:2021-08-02
# メタラーニングによる低コスト大気汚染センサ(PM2.5)の校正

Few-shot calibration of low-cost air pollution (PM2.5) sensors using meta-learning ( http://arxiv.org/abs/2108.00640v1 )

ライセンス: Link先を確認
Kalpit Yadav, Vipul Arora, Sonu Kumar Jha, Mohit Kumar, Sachchida Nand Tripathi(参考訳) 低コスト粒子状物質センサは、基準モニターに比べて低コストで移動性が高いため、空気質の監視に変化をもたらしている。 これらの低コストセンサーのキャリブレーションには、共同デプロイされた参照モニターからのトレーニングデータが必要である。 機械学習に基づくキャリブレーションは、従来の技術よりも優れたパフォーマンスを提供するが、センサーからの大量のトレーニングデータを校正し、参照モニターと共同デプロイする必要がある。 本研究では,レファレンスモニタと最小限の協調配置を持つセンサの高速キャリブレーションのための新しい転送学習手法を提案する。 転送学習は、ターゲットセンサーからの限られたデータとともに、他のセンサーからの大量のデータを利用する。 提案したモデル非依存メタラーニング(MAML)に基づくトランスファー学習法は,他の競争ベースラインよりも効果的である。

Low-cost particulate matter sensors are transforming air quality monitoring because they have lower costs and greater mobility as compared to reference monitors. Calibration of these low-cost sensors requires training data from co-deployed reference monitors. Machine Learning based calibration gives better performance than conventional techniques, but requires a large amount of training data from the sensor, to be calibrated, co-deployed with a reference monitor. In this work, we propose novel transfer learning methods for quick calibration of sensors with minimal co-deployment with reference monitors. Transfer learning utilizes a large amount of data from other sensors along with a limited amount of data from the target sensor. Our extensive experimentation finds the proposed Model-Agnostic- Meta-Learning (MAML) based transfer learning method to be the most effective over other competitive baselines.
翻訳日:2021-08-03 14:59:19 公開日:2021-08-02
# 深層学習に基づく脆弱性検出器のロバスト化に向けて

Towards Making Deep Learning-based Vulnerability Detectors Robust ( http://arxiv.org/abs/2108.00669v1 )

ライセンス: Link先を確認
Zhen Li, Jing Tang, Deqing Zou, Qian Chen, Shouhuai Xu, Chao Zhang, Yichen Li, Hai Jin(参考訳) ソースコードのソフトウェア脆弱性を自動的に検出することは重要な問題であり、多くの注目を集めている。 特に、ディープラーニングベースの脆弱性検出(DLベースの脆弱性検出)は、人間の専門家が脆弱性の特徴やパターンを定義する必要がないため、魅力的である。 しかし、そのような検出器の堅牢性は不明である。 本稿では,DLベースの検出器が,攻撃と呼ばれる単純なコード変換に対して堅牢ではないことを示すことによって,この側面における研究を開始する。 このような攻撃に対してDLベースの検出器を堅牢化するための第一歩として、(i)特徴学習と分類器学習を分離することに焦点を当てたZigZagと呼ばれる革新的なフレームワークを提案し、(ii)頑健な特徴や頑健な分類器に収束するまで、ZigZagスタイルの戦略を反復的に洗練させる。 実験の結果、zigzagフレームワークはdlベースの検出器のロバスト性を大幅に改善できることがわかった。

Automatically detecting software vulnerabilities in source code is an important problem that has attracted much attention. In particular, deep learning-based vulnerability detectors, or DL-based detectors, are attractive because they do not need human experts to define features or patterns of vulnerabilities. However, such detectors' robustness is unclear. In this paper, we initiate the study in this aspect by demonstrating that DL-based detectors are not robust against simple code transformations, dubbed attacks in this paper, as these transformations may be leveraged for malicious purposes. As a first step towards making DL-based detectors robust against such attacks, we propose an innovative framework, dubbed ZigZag, which is centered at (i) decoupling feature learning and classifier learning and (ii) using a ZigZag-style strategy to iteratively refine them until they converge to robust features and robust classifiers. Experimental results show that the ZigZag framework can substantially improve the robustness of DL-based detectors.
翻訳日:2021-08-03 14:59:09 公開日:2021-08-02
# 浅いLSTMによるHARの深層学習の改善

Improving Deep Learning for HAR with shallow LSTMs ( http://arxiv.org/abs/2108.00702v1 )

ライセンス: Link先を確認
Marius Bock, Alexander Hoelzemann, Michael Moeller, Kristof Van Laerhoven(参考訳) 近年のHAR(Human Activity Recognition)では,ディープラーニング手法が従来の機械学習アルゴリズムより優れていることが示されている。 HARで人気のあるDeep LearningアーキテクチャはDeepConvLSTMである。 本稿では,DeepConvLSTMアーキテクチャを2層型LSTMではなく1層型LSTMに変更することを提案する。 LSTM層内の様々な隠蔽ユニットを用いて,予測性能と変更の有無を比較して,5つの公開HARデータセット上でのアーキテクチャ変更を検証する。 その結果,F1スコアでは認識性能が最大11.7%向上し,学習可能なパラメータの量が大幅に減少することがわかった。 DeepConvLSTMによるこの改善は、トレーニング時間を最大48%短縮する。 この結果は、シーケンシャルデータを扱う場合、少なくとも2層LSTMが必要であるという信念とは対照的である。 以上の結果から,センサベースHARには適用できない可能性が示唆された。

Recent studies in Human Activity Recognition (HAR) have shown that Deep Learning methods are able to outperform classical Machine Learning algorithms. One popular Deep Learning architecture in HAR is the DeepConvLSTM. In this paper we propose to alter the DeepConvLSTM architecture to employ a 1-layered instead of a 2-layered LSTM. We validate our architecture change on 5 publicly available HAR datasets by comparing the predictive performance with and without the change employing varying hidden units within the LSTM layer(s). Results show that across all datasets, our architecture consistently improves on the original one: Recognition performance increases up to 11.7% for the F1-score, and our architecture significantly decreases the amount of learnable parameters. This improvement over DeepConvLSTM decreases training time by as much as 48%. Our results stand in contrast to the belief that one needs at least a 2-layered LSTM when dealing with sequential data. Based on our results we argue that said claim might not be applicable to sensor-based HAR.
翻訳日:2021-08-03 14:58:49 公開日:2021-08-02
# ベイズメタラーニングによる不確実性定量化による復調学習

Learning to Learn to Demodulate with Uncertainty Quantification via Bayesian Meta-Learning ( http://arxiv.org/abs/2108.00785v1 )

ライセンス: Link先を確認
Kfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai (Shitz)(参考訳) メタ学習(meta-learning)、あるいは学習する学習(learning to learning)は、最小限の学習のための原則付きフレームワークを提供する。 複数の関連する学習タスクからのデータを活用し、新しいタスクへの迅速な適応を可能にする帰納的バイアスを推測する。 メタラーニングの応用は、最近、少数のパイロットから復調する方法を学ぶために提案された。 アイデアは、複数のデバイスからオフラインで利用するために受信されたパイロットを使って、新しいデバイスでのオンライントレーニングをスピードアップするために適応手順をメタ学習する。 比較的正確な"ハード"な分類決定を得られる標準的頻度主義学習は、特に小規模データ体制において、校正が不十分であることが知られている。 不正確なキャリブレーションは、復調器が出力するソフトスコアが正確な復調確率の正確な推定値であることを示している。 本稿では,多変量推論によるベイズ的メタラーニングを,よく校正された数パイロット復調器を得るために導入する。 ベイジアンフレームワークでは、各ニューラルネットワークの重みは分布で表され、てんかんの不確実性を捉える。 ベイズメタラーニングは、重みの事前分布を最適化する。 その結果得られたベイズアンサンブルは、復調のためにニューラルネットワークの複数のインスタンスを実行する計算コストにおいて、より良い校正されたソフトな決定を提供する。 送信機の非線形性を持つ単入力単出力レイリーフェージングチャネルの数値結果は、頻繁なメタラーニングとベイズ的メタラーニングの両方においてシンボル誤り率と期待キャリブレーション誤差を比較し、後者がより正確でより良いキャリブレーションであることを示す。

Meta-learning, or learning to learn, offers a principled framework for few-shot learning. It leverages data from multiple related learning tasks to infer an inductive bias that enables fast adaptation on a new task. The application of meta-learning was recently proposed for learning how to demodulate from few pilots. The idea is to use pilots received and stored for offline use from multiple devices in order to meta-learn an adaptation procedure with the aim of speeding up online training on new devices. Standard frequentist learning, which can yield relatively accurate "hard" classification decisions, is known to be poorly calibrated, particularly in the small-data regime. Poor calibration implies that the soft scores output by the demodulator are inaccurate estimates of the true probability of correct demodulation. In this work, we introduce the use of Bayesian meta-learning via variational inference for the purpose of obtaining well-calibrated few-pilot demodulators. In a Bayesian framework, each neural network weight is represented by a distribution, capturing epistemic uncertainty. Bayesian meta-learning optimizes over the prior distribution of the weights. The resulting Bayesian ensembles offer better calibrated soft decisions, at the computational cost of running multiple instances of the neural network for demodulation. Numerical results for single-input single-output Rayleigh fading channels with transmitter's non-linearities are provided that compare symbol error rate and expected calibration error for both frequentist and Bayesian meta-learning, illustrating how the latter is both more accurate and better-calibrated.
翻訳日:2021-08-03 14:58:34 公開日:2021-08-02
# CirCor DigiScope データセット:Murmur 検出からMurmur 分類へ

The CirCor DigiScope Dataset: From Murmur Detection to Murmur Classification ( http://arxiv.org/abs/2108.00813v1 )

ライセンス: Link先を確認
Jorge Oliveira, Francesco Renna, Paulo Dias Costa, Marcelo Nogueira, Cristina Oliveira, Carlos Ferreira, Alipio Jorge, Sandra Mattos, Thamine Hatem, Thiago Tavares, Andoni Elola, Ali Bahrami Rad, Reza Sameni, Gari D Clifford, Miguel T. Coimbra(参考訳) 心臓の聴診は、多くの心臓疾患の検出と同定に最も費用対効果の高いテクニックの1つである。 聴診に基づくコンピュータ支援意思決定システムは、医師の意思決定を支援することができる。 残念なことに、これらのシステムの臨床試験での応用は、ほとんどが心電図信号の余剰または異常な波の存在を検出することだけを目的としているため、まだ最小限である。 これは主に、そのような異常な波(例えば心臓の大腿骨)のより詳細な記述が存在しない大規模な公開データセットがないためである。 その結果、現在の機械学習アルゴリズムはそのような波を分類できない。 聴診に基づく医療レコメンデーションシステムに関するより効果的な研究の道を開くため、我々のチームは現在最大の小児心音データセットを作成しました。 1568人の4つの主要な聴診所から計5282の録音が収集され、215780の心臓の音が手動で注釈付けされている。 さらに, 各心室は, そのタイミング, 形状, ピッチ, 格付け, 品質に応じて, 専門家アノテータによって手動で注釈付けされている。 また, 大腿骨の存在部位と, 大腿骨がより集中的に検出されるオースカルテーション位置が同定された。

Cardiac auscultation is one of the most cost-effective techniques used to detect and identify many heart conditions. Computer-assisted decision systems based on auscultation can support physicians in their decisions. Unfortunately, the application of such systems in clinical trials is still minimal since most of them only aim to detect the presence of extra or abnormal waves in the phonocardiogram signal. This is mainly due to the lack of large publicly available datasets, where a more detailed description of such abnormal waves (e.g., cardiac murmurs) exists. As a result, current machine learning algorithms are unable to classify such waves. To pave the way to more effective research on healthcare recommendation systems based on auscultation, our team has prepared the currently largest pediatric heart sound dataset. A total of 5282 recordings have been collected from the four main auscultation locations of 1568 patients, in the process 215780 heart sounds have been manually annotated. Furthermore, and for the first time, each cardiac murmur has been manually annotated by an expert annotator according to its timing, shape, pitch, grading and quality. In addition, the auscultation locations where the murmur is present were identified as well as the auscultation location where the murmur is detected more intensively.
翻訳日:2021-08-03 14:58:09 公開日:2021-08-02
# cloud-hpcにaiパイプラインを導入する:covid-19 ai診断の精度基準を設定する

Bringing AI pipelines onto cloud-HPC: setting a baseline for accuracy of COVID-19 AI diagnosis ( http://arxiv.org/abs/2108.01033v1 )

ライセンス: Link先を確認
Iacopo Colonnelli and Barbara Cantalupo and Concetto Spampinato and Matteo Pennisi and Marco Aldinucci(参考訳) HPCはAIの可能なプラットフォームである。 HPCアプリケーションバスケットにおけるAIワークロードの導入は、AIアプリケーションの設計方法とHPCコンピューティングの提供方法の両方において、自明な結果をもたらす。 これは、HPCとAIの収束の理由である。 AIパイプラインの正式な定義は、HPC-AI収束のマイルストーンの1つだ。 うまく実行されれば、ポータブルでスケーラブルなアプリケーションを得ることができる。 一方で、科学的パイプラインの再現性には不可欠である。 本研究は,CTスキャンからCOVID-19肺病変を分類する手法の最適化空間を探索し,精度で比較し,パフォーマンス基準を設定可能な,パラメータパイプライン"CLAIRE COVID-19 Universal Pipeline"を定義するための重要な要素として,StreamFlow Workflow Management Systemを提唱する。 ユニバーサルパイプラインは、多くの異なるディープニューラルネットワーク(DNN)と多くの異なるハイパーパラメータのトレーニングを自動化する。 そのため、streamflowで設計されたパイプラインの設計によるポータビリティにより、従来のhpcインフラストラクチャで見られる巨大なコンピューティングパワーが必要になる。 ユニバーサルパイプラインを用いて,CT検査で90%以上の精度でDNNが検出された。

HPC is an enabling platform for AI. The introduction of AI workloads in the HPC applications basket has non-trivial consequences both on the way of designing AI applications and on the way of providing HPC computing. This is the leitmotif of the convergence between HPC and AI. The formalized definition of AI pipelines is one of the milestones of HPC-AI convergence. If well conducted, it allows, on the one hand, to obtain portable and scalable applications. On the other hand, it is crucial for the reproducibility of scientific pipelines. In this work, we advocate the StreamFlow Workflow Management System as a crucial ingredient to define a parametric pipeline, called "CLAIRE COVID-19 Universal Pipeline," which is able to explore the optimization space of methods to classify COVID-19 lung lesions from CT scans, compare them for accuracy, and therefore set a performance baseline. The universal pipeline automatizes the training of many different Deep Neural Networks (DNNs) and many different hyperparameters. It, therefore, requires a massive computing power, which is found in traditional HPC infrastructure thanks to the portability-by-design of pipelines designed with StreamFlow. Using the universal pipeline, we identified a DNN reaching over 90% accuracy in detecting COVID-19 lesions in CT scans.
翻訳日:2021-08-03 14:57:51 公開日:2021-08-02
# 高次元におけるマルコフ連鎖モンテカルロ法の漸近バイアス

Asymptotic bias of inexact Markov Chain Monte Carlo methods in high dimension ( http://arxiv.org/abs/2108.00682v1 )

ライセンス: Link先を確認
Alain Durmus and Andreas Eberle(参考訳) 本稿では,不規則mcmc法の不変確率測度と対象分布との間のワッサースタイン距離の非漸近境界を定式化する。 特に、この結果は未調整ランジュバンアルゴリズムや未調整のハミルトニアンモンテカルロにも適用されるが、他の離散化スキームに依存する方法にも適用される。 我々の焦点は、寸法と離散化ステップサイズの両方の精度の正確な依存性を理解することである。 次元はいくつかの重要な量に依存することを示す。 その結果、いくつかの重要なモデルのクラスに対して、製品の場合と同様のステップサイズと寸法への依存を回復することができる。 一方、より一般的なモデルでは、漸近バイアスの次元依存性は、正確なダイナミクスが次元フリーな混合特性を持っているとしても、積の場合よりも悪いかもしれない。

This paper establishes non-asymptotic bounds on Wasserstein distances between the invariant probability measures of inexact MCMC methods and their target distribution. In particular, the results apply to the unadjusted Langevin algorithm and to unadjusted Hamiltonian Monte Carlo, but also to methods relying on other discretization schemes. Our focus is on understanding the precise dependence of the accuracy on both the dimension and the discretization step size. We show that the dimension dependence relies on some key quantities. As a consequence, the same dependence on the step size and the dimension as in the product case can be recovered for several important classes of models. On the other hand, for more general models, the dimension dependence of the asymptotic bias may be worse than in the product case even if the exact dynamics has dimension-free mixing properties.
翻訳日:2021-08-03 14:57:29 公開日:2021-08-02
# 非平衡グラフ生成逆ネットワークによる合成能動分布系の生成

Synthetic Active Distribution System Generation via Unbalanced Graph Generative Adversarial Network ( http://arxiv.org/abs/2108.00599v1 )

ライセンス: Link先を確認
Rong Yan, Yuxuan Yuan, Zhaoyu Wang, Guangchao Geng, Quanyuan Jiang(参考訳) 電力研究者にとって、関連するスマートメータ(SM)データを持つ実アクティブ配信ネットワークが重要である。 しかし,プライバシ上の懸念から,研究者がこのような包括的なデータセットをユーティリティから取得することは事実上困難である。 このギャップを埋めるために、ワッサースタイン GAN の目的を持つ暗黙的な生成モデル、すなわち、非平衡グラフ生成逆数ネットワーク(UG-GAN)は、合成三相非平衡アクティブ分散系接続を生成するように設計されている。 基本的な考え方は、実世界のシステムと線分の各フェーズのランダムウォークの分布を学習し、個々の実世界の分布ネットワークの基盤となる局所特性を捕捉し、それに応じて特定の合成ネットワークを生成することである。 次に、総合的な総合的なテストケースを作成するために、分散エネルギー資源(ders)やキャパシティバンクを含む現実的なパラメータを持つ時系列nodal要求と標準分散グリッドコンポーネントを得るためのネットワーク補正と拡張プロセスを提案する。 1年間のSMデータを用いた中西部配電システムを用いて,本手法の性能評価を行った。 いくつかの電力応用によるケーススタディでは、提案フレームワークによって生成された合成アクティブネットワークが、秘密情報の開示を回避しつつ、現実世界のネットワークのほとんど全ての特徴を模倣できることが示されている。

Real active distribution networks with associated smart meter (SM) data are critical for power researchers. However, it is practically difficult for researchers to obtain such comprehensive datasets from utilities due to privacy concerns. To bridge this gap, an implicit generative model with Wasserstein GAN objectives, namely unbalanced graph generative adversarial network (UG-GAN), is designed to generate synthetic three-phase unbalanced active distribution system connectivity. The basic idea is to learn the distribution of random walks both over a real-world system and across each phase of line segments, capturing the underlying local properties of an individual real-world distribution network and generating specific synthetic networks accordingly. Then, to create a comprehensive synthetic test case, a network correction and extension process is proposed to obtain time-series nodal demands and standard distribution grid components with realistic parameters, including distributed energy resources (DERs) and capacity banks. A Midwest distribution system with 1-year SM data has been utilized to validate the performance of our method. Case studies with several power applications demonstrate that synthetic active networks generated by the proposed framework can mimic almost all features of real-world networks while avoiding the disclosure of confidential information.
翻訳日:2021-08-03 14:54:21 公開日:2021-08-02
# 時系列から市場にいる学習者:マルチエージェントシミュレータの逆校正による市場参加者発見

Learning who is in the market from time series: market participant discovery through adversarial calibration of multi-agent simulators ( http://arxiv.org/abs/2108.00664v1 )

ライセンス: Link先を確認
Victor Storchan, Svitlana Vyetrenko, Tucker Balch(参考訳) 電子取引市場では、複数の市場参加者の相互作用から生じる価格やボリュームの時系列だけが直接観測可能であることが多い。 リアルタイム取引に展開する前に取引戦略をテストするため、マルチエージェント市場環境は、シミュレーションエージェントの相互作用による時系列が歴史的に類似するように調整されている。 適切なテストを確保するためには、通常の市場日を示すシナリオと、(新型コロナウイルスのパンデミックの始まりで最近観測された)ストレスのある市場の両方を含む、さまざまな市場シナリオで取引戦略をテストする必要がある。 本稿では,マルチエージェント・シミュレーターパラメータ・キャリブレーションの問題に対処し,異なる市場体制のシミュレーターキャプチャー特性を実現する。 我々は,ganの一部として「リアル」価格と「フェイク」価格とボリューム時系列とを自己認識で区別できる判別器を訓練する新しい二段階法を提案し,市場シナリオを表現するために既知のエージェントアーチタイプを持つシミュレータモデルのパラメータをチューニングするための最適化フレームワークの中で利用する。 その結果,本手法の有効性を示す実験結果を得た。

In electronic trading markets often only the price or volume time series, that result from interaction of multiple market participants, are directly observable. In order to test trading strategies before deploying them to real-time trading, multi-agent market environments calibrated so that the time series that result from interaction of simulated agents resemble historical are often used. To ensure adequate testing, one must test trading strategies in a variety of market scenarios -- which includes both scenarios that represent ordinary market days as well as stressed markets (most recently observed due to the beginning of COVID pandemic). In this paper, we address the problem of multi-agent simulator parameter calibration to allow simulator capture characteristics of different market regimes. We propose a novel two-step method to train a discriminator that is able to distinguish between "real" and "fake" price and volume time series as a part of GAN with self-attention, and then utilize it within an optimization framework to tune parameters of a simulator model with known agent archetypes to represent a market scenario. We conclude with experimental results that demonstrate effectiveness of our method.
翻訳日:2021-08-03 14:53:59 公開日:2021-08-02
# segre多様体上の測地線を用いたテンソル完全化

Tensor completion using geodesics on Segre manifolds ( http://arxiv.org/abs/2108.00735v1 )

ライセンス: Link先を確認
Lars Swijsen, Joeri Van der Veken and Nick Vannieuwenhoven(参考訳) 不完全テンソルの低階近似を求めるためのリーマン共役勾配(CG)最適化法を提案する。 我々の主な貢献は、セグレ多様体上の測地線の明示的な表現である。 これらをアルゴリズムで活用してリトラクションを行う。 本手法は,MovieLensデータセットのレコメンデータシステムにおける映画評価予測に応用し,蛍光分光法と欠測データを用いた純粋な蛍光フッ化物の同定を行う。 この最後のアプリケーションでは、テンソル分解を10〜%未満のデータから回収する。

We propose a Riemannian conjugate gradient (CG) optimization method for finding low rank approximations of incomplete tensors. Our main contribution consists of an explicit expression of the geodesics on the Segre manifold. These are exploited in our algorithm to perform the retractions. We apply our method to movie rating predictions in a recommender system for the MovieLens dataset, and identification of pure fluorophores via fluorescent spectroscopy with missing data. In this last application, we recover the tensor decomposition from less than $10\%$ of the data.
翻訳日:2021-08-03 14:53:38 公開日:2021-08-02
# 全誤差最小化としての勾配スパーシフィケーションの再考

Rethinking gradient sparsification as total error minimization ( http://arxiv.org/abs/2108.00951v1 )

ライセンス: Link先を確認
Atal Narayan Sahu (1), Aritra Dutta (1), Ahmed M. Abdelmoniem (1), Trambak Banerjee (2), Marco Canini (1), Panos Kalnis (1) ((1) KAUST, (2) University of Kansas)(参考訳) 勾配圧縮は、大規模ディープニューラルネットワーク(dnn)の分散トレーニングにおける通信ボトルネックに取り組むために広く確立された修正である。 エラーフィードバックフレームワークの下では、Top-k$スペーシフィケーション(時として$k$でグラデーションサイズの0.1\%$)は、同様のイテレーションカウントの非圧縮ケースと同じモデル品質のトレーニングを可能にする。 最適化の観点からは、Top-$k$は、要素予算当たりの$k$を与えられた通信最適化スペーサーであることが分かる。 勾配スパーシフィケーションの利点をさらに高めるためには、特にdnnでは、シナリオ毎の最適性からトレーニング全体の最適性を検討するために、異なる視点が必要であると論じている。 すべてのイテレーションにおける圧縮エラーの総和である総エラーが、トレーニング全体を通してスペーシングをカプセル化する。 そこで本研究では,訓練全体における通信予算の総誤差を最小限に抑える通信複雑性モデルを提案する。 我々は、Top-k$スパリファイアの変種であるHard-threshold Sparsifierが、定数のHard-thresholdによって決定される$k$であることを確認した。 そこで本研究では,誤りフィードバックを伴うハードスレッショルドスパルシファイザに対して,凸および非凸収束解析を行う。 トップ$k$のスパーシファイザとは異なり、ハードスレッショルドは凸の場合sgdと同じ漸近収束と線形スピードアップ特性を持ち、非凸の場合のデータヘテロゲニティに影響を与えない。 各種DNNの多種多様な実験とロジスティック回帰モデルにより, 通信効率がTop-$k$よりも高いことを示した。

Gradient compression is a widely-established remedy to tackle the communication bottleneck in distributed training of large deep neural networks (DNNs). Under the error-feedback framework, Top-$k$ sparsification, sometimes with $k$ as little as $0.1\%$ of the gradient size, enables training to the same model quality as the uncompressed case for a similar iteration count. From the optimization perspective, we find that Top-$k$ is the communication-optimal sparsifier given a per-iteration $k$ element budget. We argue that to further the benefits of gradient sparsification, especially for DNNs, a different perspective is necessary -- one that moves from per-iteration optimality to consider optimality for the entire training. We identify that the total error -- the sum of the compression errors for all iterations -- encapsulates sparsification throughout training. Then, we propose a communication complexity model that minimizes the total error under a communication budget for the entire training. We find that the hard-threshold sparsifier, a variant of the Top-$k$ sparsifier with $k$ determined by a constant hard-threshold, is the optimal sparsifier for this model. Motivated by this, we provide convex and non-convex convergence analyses for the hard-threshold sparsifier with error-feedback. Unlike with Top-$k$ sparsifier, we show that hard-threshold has the same asymptotic convergence and linear speedup property as SGD in the convex case and has no impact on the data-heterogeneity in the non-convex case. Our diverse experiments on various DNNs and a logistic regression model demonstrated that the hard-threshold sparsifier is more communication-efficient than Top-$k$.
翻訳日:2021-08-03 14:53:14 公開日:2021-08-02
# 多クラス分類のための深部ReLUネットワークの収束率

Convergence rates of deep ReLU networks for multiclass classification ( http://arxiv.org/abs/2108.00969v1 )

ライセンス: Link先を確認
Thijs Bos and Johannes Schmidt-Hieber(参考訳) 分類問題では、訓練されたディープニューラルネットワークがクラスメンバーシップの確率を返す。 本研究では,学習確率の真の条件クラス確率への収束について検討する。 より具体的には、マルチクラス分類設定におけるクロスエントロピー損失を最小化する疎密なディープreluネットワーク再構成を考える。 興味ある現象は、クラスメンバーシップ確率が0に近いときに起こる。 収束率は、マージン型条件を介してゼロに近い挙動に依存する。

For classification problems, trained deep neural networks return probabilities of class memberships. In this work we study convergence of the learned probabilities to the true conditional class probabilities. More specifically we consider sparse deep ReLU network reconstructions minimizing cross-entropy loss in the multiclass classification setup. Interesting phenomena occur when the class membership probabilities are close to zero. Convergence rates are derived that depend on the near-zero behaviour via a margin-type condition.
翻訳日:2021-08-03 14:52:40 公開日:2021-08-02
# (参考訳) 正規化フローを用いた確率的単眼3次元人物位置推定

Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows ( http://arxiv.org/abs/2107.13788v2 )

ライセンス: CC BY 4.0
Tom Wehrbein, Marco Rudolph, Bodo Rosenhahn, Bastian Wandt(参考訳) 単眼画像からの3次元人物ポーズ推定は, 深さの曖昧さや咬合による問題である。 それでも、既存のほとんどの研究はこれらの曖昧さを無視し、1つの解のみを見積もっている。 対照的に、我々は、実現可能な3dポーズの完全な後方分布を表す多様な仮説群を生成する。 そこで本研究では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。 さらに、2D検出器の不確かさ情報を条件として組み込むことにより、不確かさの検出と閉塞を効果的にモデル化する。 さらなる成功の鍵は、学習された3Dポーズと、最高のM損失の一般化である。 ベンチマークデータセット human3.6m と mpi-inf-3dhp のアプローチを評価し,ほとんどの指標で比較した手法を上回った。 実装はgithubで公開されている。

3D human pose estimation from monocular images is a highly ill-posed problem due to depth ambiguities and occlusions. Nonetheless, most existing works ignore these ambiguities and only estimate a single solution. In contrast, we generate a diverse set of hypotheses that represents the full posterior distribution of feasible 3D poses. To this end, we propose a normalizing flow based method that exploits the deterministic 3D-to-2D mapping to solve the ambiguous inverse 2D-to-3D problem. Additionally, uncertain detections and occlusions are effectively modeled by incorporating uncertainty information of the 2D detector as condition. Further keys to success are a learned 3D pose prior and a generalization of the best-of-M loss. We evaluate our approach on the two benchmark datasets Human3.6M and MPI-INF-3DHP, outperforming all comparable methods in most metrics. The implementation is available on GitHub.
翻訳日:2021-08-03 11:17:21 公開日:2021-08-02
# (参考訳) ニューラルDP差分プライベートニューラルネットワークの設計

NeuralDP Differentially private neural networks by design ( http://arxiv.org/abs/2107.14582v2 )

ライセンス: CC BY 4.0
Moritz Knolle, Dmitrii Usynin, Alexander Ziller, Marcus R. Makowski, Daniel Rueckert, Georgios Kaissis(参考訳) ディープニューラルネットワークのトレーニングに対する差分プライバシーの適用は、個人に対して厳格なプライバシ保証を提供しながら、大規模な(分散化された)機密データの使用を可能にするという約束を果たす。 ニューラルネットワークの差分プライベートトレーニングの主なアプローチはdp-sgdであり、境界感度の方法としてノルムベースの勾配クリッピングに依存する。 本稿では,差動プライバシの処理後特性によって差動プライベートネットワークが形成されるニューラルネットワーク内のレイヤの活性化を民営化する手法であるneuraldpを提案する。 そこで我々は,本手法がdp-sgdと比較してプライバシー利用上のトレードオフを大幅に改善することを示す2つのデータセット(mnistおよびppd)を実験的に検証した。

The application of differential privacy to the training of deep neural networks holds the promise of allowing large-scale (decentralized) use of sensitive data while providing rigorous privacy guarantees to the individual. The predominant approach to differentially private training of neural networks is DP-SGD, which relies on norm-based gradient clipping as a method for bounding sensitivity, followed by the addition of appropriately calibrated Gaussian noise. In this work we propose NeuralDP, a technique for privatising activations of some layer within a neural network, which by the post-processing properties of differential privacy yields a differentially private network. We experimentally demonstrate on two datasets (MNIST and Pediatric Pneumonia Dataset (PPD)) that our method offers substantially improved privacy-utility trade-offs compared to DP-SGD.
翻訳日:2021-08-03 11:01:41 公開日:2021-08-02
# perceiver io: 構造化入力と出力のための汎用アーキテクチャ

Perceiver IO: A General Architecture for Structured Inputs & Outputs ( http://arxiv.org/abs/2107.14795v2 )

ライセンス: Link先を確認
Andrew Jaegle and Sebastian Borgeaud and Jean-Baptiste Alayrac and Carl Doersch and Catalin Ionescu and David Ding and Skanda Koppula and Daniel Zoran and Andrew Brock and Evan Shelhamer and Olivier H\'enaff and Matthew M. Botvinick and Andrew Zisserman and Oriol Vinyals and Jo\~ao Carreira(参考訳) 最近提案されたPerceiverモデルは、いくつかの領域(画像、オーディオ、マルチモーダル、ポイントクラウド)で良い結果を得ると同時に、入力サイズで計算とメモリで線形にスケールする。 Perceiverは多くの種類の入力をサポートしているが、クラススコアのような非常に単純な出力しか生成できない。 Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟に問い合わせることを学ぶことで、オリジナルの魅力を犠牲にすることなく、この制限を克服する。 Perceiver IOは依然としてモデル深さをデータサイズから切り離し、データサイズと線形にスケールするが、現在では入力サイズと出力サイズの両方でスケールしている。 完全なperceiver ioモデルでは、自然言語や視覚理解、starcraft ii、マルチタスクやマルチモーダルドメインなど、高度に構造化された出力空間を持つタスクで強い結果が得られる。 強調されているように、Perceiver IOは入力トークン化を必要とせず、GLUE言語ベンチマーク上のTransformerベースのBERTベースラインと一致し、シンテル光フロー推定における最先端のパフォーマンスを達成する。

The recently-proposed Perceiver model obtains good results on several domains (images, audio, multimodal, point clouds) while scaling linearly in compute and memory with the input size. While the Perceiver supports many kinds of inputs, it can only produce very simple outputs such as class scores. Perceiver IO overcomes this limitation without sacrificing the original's appealing properties by learning to flexibly query the model's latent space to produce outputs of arbitrary size and semantics. Perceiver IO still decouples model depth from data size and still scales linearly with data size, but now with respect to both input and output sizes. The full Perceiver IO model achieves strong results on tasks with highly structured output spaces, such as natural language and visual understanding, StarCraft II, and multi-task and multi-modal domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline on the GLUE language benchmark without the need for input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation.
翻訳日:2021-08-03 10:46:31 公開日:2021-08-02
# ChrEnTranslate: 品質推定と修正フィードバックを備えたチェロキー英語機械翻訳デモ

ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality Estimation and Corrective Feedback ( http://arxiv.org/abs/2107.14800v2 )

ライセンス: Link先を確認
Shiyue Zhang, Benjamin Frey, Mohit Bansal(参考訳) ChrEnTranslateは、英語と絶滅危惧言語であるチェロキー語を翻訳するオンライン機械翻訳実証システムである。 統計モデルとニューラル翻訳モデルの両方をサポートし、信頼性をユーザに知らせる品質推定、専門家と一般ユーザのための2つのユーザフィードバックインターフェース、モノリンガルデータのための人間の翻訳を収集する入力、単語のアライメントの可視化、チェロキー英語辞典からの関連用語を提供する。 定量的評価は, バックボーン翻訳モデルが最先端の翻訳性能を達成し, 品質推定はbleuと人間の判断とよく相関することを示した。 216個の専門家フィードバックを解析することにより、NMTはSMTよりコピーが少ないため、現在のモデルでは、ソース文の断片を翻訳できるが、大きな誤りを犯すことができる。 トレーニングセットとリトレーニングモデルに、これらの216のエキスパート修正パラレルテキストを追加して、同等か、あるいはやや優れたパフォーマンスを観察することで、ループ内学習の可能性を示しています。 私たちのコードはhttps://github.com/ZhangShiyue/ChrEnTranslateで、データはhttps://github.com/ZhangShiyue/ChrEnで利用可能です。

We introduce ChrEnTranslate, an online machine translation demonstration system for translation between English and an endangered language Cherokee. It supports both statistical and neural translation models as well as provides quality estimation to inform users of reliability, two user feedback interfaces for experts and common users respectively, example inputs to collect human translations for monolingual data, word alignment visualization, and relevant terms from the Cherokee-English dictionary. The quantitative evaluation demonstrates that our backbone translation models achieve state-of-the-art translation performance and our quality estimation well correlates with both BLEU and human judgment. By analyzing 216 pieces of expert feedback, we find that NMT is preferable because it copies less than SMT, and, in general, current models can translate fragments of the source sentence but make major mistakes. When we add these 216 expert-corrected parallel texts back into the training set and retrain models, equal or slightly better performance is observed, which indicates the potential of human-in-the-loop learning. Our online demo is at https://chren.cs.unc.edu/ , our code is open-sourced at https://github.com/ZhangShiyue/ChrEnTranslate , and our data is available at https://github.com/ZhangShiyue/ChrEn
翻訳日:2021-08-03 10:46:10 公開日:2021-08-02
# sparse-to-dense特徴マッチング:3次元意味セグメンテーションのためのドメイン適応におけるドメイン内およびドメイン間クロスモーダル学習

Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal Learning in Domain Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.14724v2 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Wen Li, Pingping Zhang and Yulan Guo(参考訳) 新しいドメインにおけるアノテーションの欠如に直面する場合、ドメイン適応は成功に不可欠である。 3Dポイントクラウド上でのラベリングプロセスの膨大な時間消費として、3Dセマンティックセグメンテーションのドメイン適応は非常に期待できる。 マルチモーダルデータセットの増加に伴い、大量の2D画像が3Dポイントクラウド以外にアクセス可能である。 そこで本研究では,領域内および領域間クロスモーダル学習による3次元領域適応のための2次元データをさらに活用することを提案する。 ドメイン内クロスモーダル学習については、既存のほとんどの研究は、高密度の2Dピクセルワイドな特徴とスパース3Dポイントワイドな特徴を同一サイズにサンプリングし、多くの有用な2D特徴を放棄している。 この問題に対処するために,dscml(dynamic sparse-to-dense cross modal learning)を提案する。 ドメイン間クロスモーダル学習では,高次モーダル相補性向上を目的とした意味内容の異なる2次元および3次元データに対して,クロスモーダル適応学習(CMAL)をさらに進める。 我々は、昼夜、国間、データセットを含む様々なマルチモダリティドメイン適応設定の下でモデルを評価することにより、すべての設定において、ユニモダリティおよびマルチモダリティドメイン適応法に対して大きな改善をもたらす。

Domain adaptation is critical for success when confronting with the lack of annotations in a new domain. As the huge time consumption of labeling process on 3D point cloud, domain adaptation for 3D semantic segmentation is of great expectation. With the rise of multi-modal datasets, large amount of 2D images are accessible besides 3D point clouds. In light of this, we propose to further leverage 2D data for 3D domain adaptation by intra and inter domain cross modal learning. As for intra-domain cross modal learning, most existing works sample the dense 2D pixel-wise features into the same size with sparse 3D point-wise features, resulting in the abandon of numerous useful 2D features. To address this problem, we propose Dynamic sparse-to-dense Cross Modal Learning (DsCML) to increase the sufficiency of multi-modality information interaction for domain adaptation. For inter-domain cross modal learning, we further advance Cross Modal Adversarial Learning (CMAL) on 2D and 3D data which contains different semantic content aiming to promote high-level modal complementarity. We evaluate our model under various multi-modality domain adaptation settings including day-to-night, country-to-country and dataset-to-dataset, brings large improvements over both uni-modal and multi-modal domain adaptation methods on all settings.
翻訳日:2021-08-03 10:45:44 公開日:2021-08-02
# 悪性・良性縦隔病変の鑑別のための3次元畳み込みニューラルネットワークを用いた内胚葉超音波像の解釈

The interpretation of endobronchial ultrasound image using 3D convolutional neural network for differentiating malignant and benign mediastinal lesions ( http://arxiv.org/abs/2107.13820v2 )

ライセンス: Link先を確認
Ching-Kai Lin, Shao-Hua Wu, Jerry Chang, Yun-Chien Cheng(参考訳) 本研究の目的は,3次元畳み込みニューラルネットワークを用いた気管支内超音波画像による悪性,良性縦隔病変の鑑別である。 前報と比較して,提案手法はノイズに耐性があり,EBUSビデオの様々な画像特徴と時空間的特徴を融合させることができる。 気管支内超音波ガイド下経気管支針吸引術(EBUS-TBNA)は胸腔内リンパ節の診断ツールである。 外科医は、手術中にグレースケールモード、ドップラーモード、エラストグラフィーを用いて病変の特徴を観察することができる。 ビデオ形式でEBUSデータを処理し、複数のイメージングモードの特徴を適切に統合するために、時系列3次元畳み込みニューラルネットワーク(3D CNN)を用いて時空間の特徴を学習し、各イメージングモードを融合させる様々なアーキテクチャを設計した。 本モデル(res3d_ude)は, トレーニングデータとしてグレースケールモード, ドップラーモード, エラストグラフィを用い, 精度82.00%, 曲線下領域(auc)0.83。 従来との比較では,術中記録した映像を直接トレーニング・検証データとして用いたが,手作業による選択は行わず,臨床応用は容易であった。 さらに、3D CNNで設計されたモデルは、時空間の特徴を効果的に学習し、精度を向上させることができる。 将来的には,検査期間中にスライス採取対象病変を迅速かつ正確に発見し,良性病変のスライス数を減少させ,検査時間を短縮するモデルが用いられるかもしれない。

The purpose of this study is to differentiate malignant and benign mediastinal lesions by using the three-dimensional convolutional neural network through the endobronchial ultrasound (EBUS) image. Compared with previous study, our proposed model is robust to noise and able to fuse various imaging features and spatiotemporal features of EBUS videos. Endobronchial ultrasound-guided transbronchial needle aspiration (EBUS-TBNA) is a diagnostic tool for intrathoracic lymph nodes. Physician can observe the characteristics of the lesion using grayscale mode, doppler mode, and elastography during the procedure. To process the EBUS data in the form of a video and appropriately integrate the features of multiple imaging modes, we used a time-series three-dimensional convolutional neural network (3D CNN) to learn the spatiotemporal features and design a variety of architectures to fuse each imaging mode. Our model (Res3D_UDE) took grayscale mode, Doppler mode, and elastography as training data and achieved an accuracy of 82.00% and area under the curve (AUC) of 0.83 on the validation set. Compared with previous study, we directly used videos recorded during procedure as training and validation data, without additional manual selection, which might be easier for clinical application. In addition, model designed with 3D CNN can also effectively learn spatiotemporal features and improve accuracy. In the future, our model may be used to guide physicians to quickly and correctly find the target lesions for slice sampling during the inspection process, reduce the number of slices of benign lesions, and shorten the inspection time.
翻訳日:2021-08-03 10:45:16 公開日:2021-08-02