このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220106となっている論文です。

PDF登録状況(公開日: 20220106)

TitleAuthorsAbstract論文公表日・翻訳日
# 実験評価によるノイズ量子回路のモデル化

Modeling Noisy Quantum Circuits Using Experimental Characterization ( http://arxiv.org/abs/2001.08653v2 )

ライセンス: Link先を確認
Megan L. Dahlhauser, Travis S. Humble(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、非フォールト耐性量子コンピューティングの挙動をテストし評価するためのユニークなプラットフォームを提供する。 しかし,NISQデバイス上でのプログラムの検証は,基礎となるノイズ源のゆらぎや,計算誤差を発生させる再現不可能な動作によって困難である。 NISQの動作を効果的かつ効果的にモデル化するには,これらのデバイスをデバッグし,エラーを軽減できるプログラミング手法を開発する必要がある。 我々は、アプリケーション固有の回路を一連のブートストラップ実験に分解することで、ノイズの多い回路モデリングの複雑さを管理するNISQプログラムの特徴付け手法を提案する。 個々のサブ回路を特徴付けることにより、元のノイズ量子回路と他の関連プログラムの合成モデルを生成する。 我々は、GHZ状態調製とベルンシュタイン・ヴァジラニアルゴリズムの応用を応用した超伝導トランスモンデバイス群を用いて、このアプローチを実証する。 予測結果と実験結果の総変動距離を用いてモデル精度を測定し, 複合モデルが複数の回路インスタンスで良好に動作することを示した。 さらに、これらのキャラクタリゼーションは計算効率が高く、望ましい予測精度に合わせたモデルの複雑さのトレードオフを提供する。

Noisy intermediate-scale quantum (NISQ) devices offer unique platforms to test and evaluate the behavior of non-fault-tolerant quantum computing. However, validating programs on NISQ devices is difficult due to fluctuations in the underlying noise sources and other non-reproducible behaviors that generate computational errors. Efficient and effective methods for modeling NISQ behaviors are necessary to debug these devices and develop programming techniques that mitigate against errors. We present a test-driven approach to characterizing NISQ programs that manages the complexity of noisy circuit modeling by decomposing an application-specific circuit into a series of bootstrapped experiments. By characterizing individual subcircuits, we generate a composite model for the original noisy quantum circuit as well as other related programs. We demonstrate this approach using a family of superconducting transmon devices running applications of GHZ-state preparation and the Bernstein-Vazirani algorithm. We measure the model accuracy using the total variation distance between predicted and experimental results, and we find that the composite model works well across multiple circuit instances. In addition, these characterizations are computationally efficient and offer a trade-off in model complexity that can be tailored to the desired predictive accuracy.
翻訳日:2023-06-06 04:58:48 公開日:2022-01-06
# ループ中の弱測定-量子状態の覗き見

Weakly measured while loops: peeking at quantum states ( http://arxiv.org/abs/2009.08832v4 )

ライセンス: Link先を確認
Pablo Andr\'es-Mart\'inez, Chris Heunen(参考訳) whileループは、イテレーション毎に終了条件をテストする。 量子コンピュータでは、そのような測定はアルゴリズムの進化を妨害する。 弱い測定値を用いて時間ループプリミティブを定義し、摂動と反復毎に得られる情報量とのトレードオフを提供する。 このトレードオフはプログラマが設定したパラメータで調整される。 任意に高い確率で、ループが実行するイテレーションの数を最悪のケースで見積もることができる十分な条件を提供しています。 例えば、時間ループを用いてGroverの探索問題を解き、二次量子スピードアップが維持されていることを示す。

A while loop tests a termination condition on every iteration. On a quantum computer, such measurements perturb the evolution of the algorithm. We define a while loop primitive using weak measurements, offering a trade-off between the perturbation caused and the amount of information gained per iteration. This trade-off is adjusted with a parameter set by the programmer. We provide sufficient conditions that let us determine, with arbitrarily high probability, a worst-case estimate of the number of iterations the loop will run for. As an example, we solve Grover's search problem using a while loop and prove the quadratic quantum speed-up is maintained.
翻訳日:2023-05-01 22:06:05 公開日:2022-01-06
# 超不変テンソルネットワークの共形性

Conformal Properties of Hyperinvariant Tensor Networks ( http://arxiv.org/abs/2012.09591v2 )

ライセンス: Link先を確認
Matthew Steinberg, Javier Prior(参考訳) AdS/CFT対応のシミュレーションにおいて,完全テンソルネットワーク(HaPPY)とマルチスケールエンタングルメント再正規化アンサッツ(MERA)を併用する手法としてハイパー不変テンソルネットワーク(hyMERA)を導入した。 この新しいテンソルネットワークのクラスは、準周期境界を持つ双曲バルク多様体から生じる共形場理論をシミュレートする可能性を示しているが、多くの問題は未解決である。 本稿では,準周期臨界スピンチェーンに対するヒメラのテンソルの最適化に関する課題を分析し,meraの標準的なアプローチと比較する。 さらに、元の構成と異なる性質を示す2つの新しいテンソル分解集合を示し、マルチテンソル制約は一意的でも見つけるのも困難でもないことを示し、これまで用いられてきた解析テンソル形式の一般化が存在することを示唆する。 最後に,いくつかのテンソル分解を用いた下降超演算子を用いてランダム化試験を行い,ヒメラの局所下降超オペレータのスペクトルに課される制約が,いくつかの最小モデルcftの演算子スペクトルと一致することを見出した。

Hyperinvariant tensor networks (hyMERA) were introduced as a way to combine the successes of perfect tensor networks (HaPPY) and the multiscale entanglement renormalization ansatz (MERA) in simulations of the AdS/CFT correspondence. Although this new class of tensor network shows much potential for simulating conformal field theories arising from hyperbolic bulk manifolds with quasiperiodic boundaries, many issues are unresolved. In this manuscript we analyze the challenges related to optimizing tensors in a hyMERA with respect to some quasiperiodic critical spin chain, and compare with standard approaches in MERA. Additionally, we show two new sets of tensor decompositions which exhibit different properties from the original construction, implying that the multitensor constraints are neither unique, nor difficult to find, and that a generalization of the analytical tensor forms used up until now may exist. Lastly, we perform randomized trials using a descending superoperator with several of the investigated tensor decompositions, and find that the constraints imposed on the spectra of local descending superoperators in hyMERA are compatible with the operator spectra of several minimial model CFTs.
翻訳日:2023-04-20 08:35:15 公開日:2022-01-06
# 集団力場形成支援による古典トンネルによる大域的最小化

Global minimization via classical tunneling assisted by collective force field formation ( http://arxiv.org/abs/2102.03385v3 )

ライセンス: Link先を確認
Francesco Caravelli, Forrest C. Sheldon, Fabio L. Traversa(参考訳) 単純な力学モデルは、大きなネットワークで複雑な振る舞いを生み出すことができる。 これらの挙動は、相互作用のネットワークによって捉えられる様々な物理系でしばしば観察される。 ここでは,次元の増加が動的不安定性に起因する力場を自在に生成する現象について述べる。 これは、ミニマと有効ポテンシャルの間の不安定なトンネル機構として理解することができる。 この集団的かつ非摂動的な効果を「リャプノフ力」と呼び、システムのサイズと指数関数的に増加する平衡点の集合が全系にあるとしても、ポテンシャル関数の世界の最小値に向けてシステムを操る。 本システムでは,電流駆動型memristorと等価なフローネットワークへの単純なマッピングを行う。 このメカニズムはナノスケール物理学における物理関係や、最適化やモンテカルロの新しいスキーム、機械学習の応用にアピールしている。

Simple dynamical models can produce intricate behaviors in large networks. These behaviors can often be observed in a wide variety of physical systems captured by the network of interactions. Here we describe a phenomenon where the increase of dimensions self-consistently generates a force field due to dynamical instabilities. This can be understood as an unstable ("rumbling") tunneling mechanism between minima in an effective potential. We dub this collective and nonperturbative effect a "Lyapunov force" which steers the system towards the global minimum of the potential function, even if the full system has a constellation of equilibrium points growing exponentially with the system size. The system we study has a simple mapping to a flow network, equivalent to current-driven memristors. The mechanism is appealing for its physical relevance in nanoscale physics, and to possible applications in optimization, novel Monte Carlo schemes and machine learning.
翻訳日:2023-04-12 11:42:16 公開日:2022-01-06
# 実験的クラウスマップ制御による全光入力非依存偏光変圧器

All-optical input-agnostic polarization transformer via experimental Kraus-map control ( http://arxiv.org/abs/2103.05398v2 )

ライセンス: Link先を確認
Wenlei Zhang, Ravi K. Saripalli, Jacob M. Leamer, Ryan T. Glasser, and Denys I. Bondar(参考訳) 光の偏光は科学と工学の多くの技術で使われている。 ある分極状態を別の分極状態に変換する能力は、重要な技術である。 一般的な偏光変換器は単純な偏光子と偏光回転子である。 単純な偏光子は入力状態に応じて強度を変化させ、固定偏光状態のみを出力することができ、偏光回転子は3dストークス空間で入力ストークスベクトルを回転させる。 我々は,全光入力非依存偏光変換器(ai-apt)を実験的に実証し,偏光状態の全ての入力状態を偏光あるいは部分偏光状態に変換する。 偏光と強度の出力状態は、入力状態ではなく設定パラメータにのみ依存するため、AI-APTは単純な偏光子や偏光回転子とは異なる機能を持つ。 AI-APTは完全に受動的であるため、単一光子と超高速パルスの偏光制御装置や安定化器として使用できる。 これを達成するために、我々は初めて [Wu et al. J. Phys. A 40, 5681 (2007)] で示されるクラウス写像による開シングルキュービットの完全なキネマティック状態制御性を実験的に実現した。 ai-aptは部分偏光超高速光学の新しいフロンティアを開くかもしれない。

The polarization of light is utilized in many technologies throughout science and engineering. The ability to transform one state of polarization to another is a key enabling technology. Common polarization transformers are simple polarizers and polarization rotators. Simple polarizers change the intensity depending on the input state and can only output a fixed polarized state, while polarization rotators rotates the input Stokes vector in the 3D Stokes space. We experimentally demonstrate an all-optical input-agnostic polarization transformer (AI-APT), which transforms all input states of polarization to a particular state that can be polarized or partially polarized. The output state of polarization and intensity depends solely on setup parameters, and not on the input state, thereby the AI-APT functions differently from simple polarizers and polarization rotators. The AI-APT is completely passive, and thus can be used as a polarization controller or stabilizer for single photons and ultrafast pulses. To achieve this, we, for the first time, experimentally realize complete kinematic state controllability of an open single-qubit by Kraus maps put forth in [Wu et al. J. Phys. A 40, 5681 (2007)]. The AI-APT may open a new frontier of partially polarized ultrafast optics.
翻訳日:2023-04-08 15:59:36 公開日:2022-01-06
# 古典的南武ブラケットのマトリックス量子化とスーパー$p$-Branes

Matrix Quantization of Classical Nambu Brackets and Super $p$-Branes ( http://arxiv.org/abs/2103.06666v3 )

ライセンス: Link先を確認
Meer Ashwinkumar, Lennart Schmidt, Meng-Chwan Tan(参考訳) 我々は、$n$-トーラスの体積保存微分同相写像の代数の明示的な行列代数の量子化を示す。 すなわち、対応する古典的ナンブ括弧を$\mathfrak{sl}(N^{\lceil\frac{n}{2}\rceil},\mathbb{C})$-matrices with the finite bracket given by the completely anti-symmetrized matrix product, that the classical brackets are retrieveed in the $N\rightarrow \infty$ limit。 次に、この近似を9$次元のスーパー4$ブレーンに適用し、スーパーメムブレーンの行列量子化と類似した正規化作用を与える。 この作用は、l_\infty$-algebrasの観点からバッガー=ランベルト=3$-algebrasからのリー=アルゲブラの構成へのわずかな一般化から議論される、ゲージ対称性の低下を示している。

We present an explicit matrix algebra quantization of the algebra of volume-preserving diffeomorphisms of the $n$-torus. That is, we approximate the corresponding classical Nambu brackets using $\mathfrak{sl}(N^{\lceil\frac{n}{2}\rceil},\mathbb{C})$-matrices equipped with the finite bracket given by the completely anti-symmetrized matrix product, such that the classical brackets are retrieved in the $N\rightarrow \infty$ limit. We then apply this approximation to the super $4$-brane in $9$ dimensions and give a regularized action in analogy with the matrix quantization of the supermembrane. This action exhibits a reduced gauge symmetry that we discuss from the viewpoint of $L_\infty$-algebras in a slight generalization to the construction of Lie $2$-algebras from Bagger--Lambert $3$-algebras.
翻訳日:2023-04-08 11:14:27 公開日:2022-01-06
# 雑音のある量子状態の優勢な固有ベクトル

The Dominant Eigenvector of a Noisy Quantum State ( http://arxiv.org/abs/2104.00608v3 )

ライセンス: Link先を確認
B\'alint Koczor(参考訳) 短期的な量子デバイスは誤りを修正するための包括的な解決策を持っていないが、実用的価値を達成するために多くの技術が提案されている。 2つの研究が最近、非常に有望なError Suppression by Derangements (ESD)とVirtual Distillation (VD)技術を導入した。 このアプローチは指数関数的に誤差を抑制し、最終的にノイズ量子状態の支配的固有ベクトルとして純粋な状態における期待値を測定することができる。 興味深いことに、この支配的な固有ベクトルは理想的な計算状態とは異なるものであり、この2つの純粋な状態がどの程度大きく異なるかという、以下の根本的な疑問を包括的に探求することが本研究の目的である。 この仕事の動機は2つあります。 第一に、このコヒーレントなミスマッチの効果を包括的に理解することは、ノイズの多い量子デバイスの利用を成功させる上で重要なことです。 このように、本研究は、実際に関係するシナリオにおいて、コヒーレントミスマッチは、EDD/VD技術を介して指数関数的に抑制できるフィリティーの不整合崩壊よりも指数関数的に深刻でないことを厳密に証明している。また、上記の問題は、2つの行列の和(ワイル不等式)の固有値の有界化など、数学の中心的な問題と密接に関連している。 この研究は、ワイルの不等式を2つの行列の和の固有ベクトルに拡張するための第一歩と考えることができる。

Although near-term quantum devices have no comprehensive solution for correcting errors, numerous techniques have been proposed for achieving practical value. Two works have recently introduced the very promising Error Suppression by Derangements (ESD) and Virtual Distillation (VD) techniques. The approach exponentially suppresses errors and ultimately allows one to measure expectation values in the pure state as the dominant eigenvector of the noisy quantum state. Interestingly this dominant eigenvector is, however, different than the ideal computational state and it is the aim of the present work to comprehensively explore the following fundamental question: how significantly different are these two pure states? The motivation for this work is two-fold. First, comprehensively understanding the effect of this coherent mismatch is of fundamental importance for the successful exploitation of noisy quantum devices. As such, the present work rigorously establishes that in practically relevant scenarios the coherent mismatch is exponentially less severe than the incoherent decay of the fidelity -- where the latter can be suppressed exponentially via the ESD/VD technique. Second, the above question is closely related to central problems in mathematics, such as bounding eigenvalues of a sum of two matrices (Weyl inequalities) -- solving of which was a major breakthrough. The present work can be viewed as a first step towards extending the Weyl inequalities to eigenvectors of a sum of two matrices -- and completely resolves this problem for the special case of the considered density matrices.
翻訳日:2023-04-05 22:11:36 公開日:2022-01-06
# 長距離相互作用における計測誘起相転移の運命

Fate of measurement-induced phase transition in long-range interactions ( http://arxiv.org/abs/2104.09118v3 )

ライセンス: Link先を確認
Takaaki Minato, Koudai Sugimoto, Tomotaka Kuwahara, and Keiji Saito(参考訳) 我々は、測定周波数を変化させる際に、測定誘起相転移(MIP)が発生する量子多体ダイナミクスを考える。 本研究では、距離$r$で$r^{-\alpha}$として崩壊する長距離相互作用に対するMIPの堅牢性を考える。 長距離相互作用の効果は2つに分類される。 (i)mipは$(\alpha > \alpha_c)$と観測される。 (ii)任意の強い測定値$(\alpha<\alpha_c)$であっても、MIPは欠落する。 フェルミオンモデルを用いて,可積分の場合と非可積分の場合の両方のレジームを示す。 基礎となるメカニズムを特定し、一般双線型系に対して$\alpha > d/2+1$、一般非可積分系に対して$\alpha > d+1$(d$:空間次元)という、MIPを観測するための十分な条件を提案する。 数値計算はこれらの条件が最適であることを示している。

We consider quantum many-body dynamics under quantum measurements, where the measurement-induced phase transitions (MIPs) occur when changing the frequency of the measurement. In this work, we consider the robustness of the MIP for long-range interaction that decays as $r^{-\alpha}$ with distance $r$. The effects of long-range interactions are classified into two regimes: (i) the MIP is observed $(\alpha > \alpha_c)$, and (ii) the MIP is absent even for arbitrarily strong measurements $(\alpha<\alpha_c)$. Using fermion models, we demonstrate both regimes in integrable and non-integrable cases. We identify the underlying mechanism and propose sufficient conditions to observe the MIP, that is, $\alpha > d/2+1$ for general bilinear systems and $\alpha > d+1$ for general non-integrable systems ($d$: spatial dimension). Numerical calculation indicates that these conditions are optimal.
翻訳日:2023-04-03 05:01:12 公開日:2022-01-06
# 損失推定としてのゴーストイメージング:量子対古典スキーム

Ghost imaging as loss estimation: Quantum versus classical schemes ( http://arxiv.org/abs/2105.09728v2 )

ライセンス: Link先を確認
Andrea Chiuri, Ilaria Gianani, Valeria Cimini, Luigi De Dominicis, Marco G. Genoni, and Marco Barbieri(参考訳) 周波数相関は汎用的で強力なツールであり、直接測定が不可能な物体のスペクトル分析に利用することができる。 これはいわゆるゴーストスペクトロメータによって実現され、量子と古典のリソースでも同様に実装できる。 どちらの選択にもいくつかの利点があるが、そのメトロロジー的能力の分析はまだ行われていない。 ここでは、量子と古典的ゴースト分光計のメートル法比較について報告する。 周波数結合光子対を用いた帯域通過フィルタの透過率の推定を行う。 その結果, 透過率の値や解析周波数モードの数によって, 量子アドバンテージは達成可能であることがわかった。

Frequency correlations are a versatile and powerful tool which can be exploited to perform spectral analysis of objects whose direct measurement might be unfeasible. This is achieved through a so-called ghost spectrometer, that can be implemented with quantum and classical resources alike. While there are some known advantages associated to either choice, an analysis of their metrological capabilities has not yet been performed. Here we report on the metrological comparison between a quantum and a classical ghost spectrometer. We perform the estimation of the transmittivity of a bandpass filter using frequency-entangled photon pairs. Our results show that a quantum advantage is achievable, depending on the values of the transmittivity and on the number of frequency modes analyzed.
翻訳日:2023-03-30 07:17:20 公開日:2022-01-06
# スピン1/2を持つ相対論的質量粒子, ベクトル束の観点から

Relativistic massive particle with spin-1/2, a vector bundle point of view ( http://arxiv.org/abs/2105.10138v2 )

ライセンス: Link先を確認
Heon Lee(参考訳) 近年、質量スピン1/2粒子の相対論的量子情報理論(rqi)の文脈において、スピン還元密度行列の正当な情報資源としての不十分さを示す運動量非依存スピン測定は不可能であることが示唆されている。 これは、運動する粒子のスピンの定義には避けられない曖昧さがあるからである。 本稿では, 単一粒子状態空間を見るためのベクトル束理論を導入することにより, この曖昧さを排除しようとする。 結果の表現空間の離散的な自由度は、曖昧なスピンの代わりに粒子のパウリ・ルバンスキー四ベクトルに関する情報を含む。 この表現をRQI文献で用いられる標準表現と比較すると、標準表現空間の離散的な自由度がニュートン・ウィグナースピンの意味に達することが示される。 また、この視点を用いて、スピン還元密度行列がなぜ無意味であるかの数学的証明を与えるが、これは以前の主張よりも強く、行列は測定の不合理性やローレンツ非共分散の観点だけでなく、いかなる意味も無意味であると主張する。 ローレンツ変換の下で共変であるパウリ・ルバンスキー還元密度行列を得る方法(これが唯一の方法であることが判明した)を与える。

Recently, in the context of Relativistic Quantum Information Theory (RQI) of massive spin-1/2 particles, it has been suggested that it is impossible to perform a momentum-independent spin measurement, showing the inadequacy of the spin reduced density matrix as a legitimate information resource. This is because there is an unavoidable ambiguity in the definition of the spin of a moving particle. In this paper, by introducing a vector bundle theoretic way to view the single-particle state space, we try to rule out this ambiguity. The discrete degree of freedom of the resulting representation space contains information about the Pauli-Lubansky four-vector of the particle instead of the ambiguous spin. Comparing this representation with the standard one used in the RQI literature, we show that the discrete degree of freedom of the standard representation space attains the meaning of the Newton-Wigner spin. Also using this viewpoint, we give a mathematical proof of why the spin reduced density matrix is meaningless, which is stronger than the previous claims in that it asserts that the matrix is void of any meaning at all, not just in terms of the impossibility of measurement or Lorentz non-covariance. We give a way (which turns out to be the only way) to modify it to obtain the Pauli-Lubansky reduced density matrix, which is covariant under Lorentz transformations.
翻訳日:2023-03-30 05:21:36 公開日:2022-01-06
# 変分量子異常検出:物理量子コンピュータ上の位相図の教師なしマッピング

Variational Quantum Anomaly Detection: Unsupervised mapping of phase diagrams on a physical quantum computer ( http://arxiv.org/abs/2106.07912v2 )

ライセンス: Link先を確認
Korbinian Kottmann, Friederike Metz, Joana Fraxanet, Niccolo Baldelli(参考訳) 量子コンピューティングの最も有望な応用の1つは、量子多体系のシミュレーションである。 しかし、これらのシステムをネイティブな方法で効率的に調査する手法が必要であり、その完全な複雑さを捉える必要がある。 本稿では,量子シミュレーションから量子データを解析するための教師なし量子機械学習アルゴリズムである変分量子異常検出を提案する。 このアルゴリズムは、事前の物理的知識のないシステムのフェーズダイアグラムを抽出するために使用され、シミュレーションされたシステムと同じ量子デバイス上でエンドツーエンドに実行できる。 1次元拡張ボースハバード模型の位相図を、対称性が保護された位相位相相を示す二元化ホッピングにマッピングすることにより、その能力を示す。 さらに,近年はアクセスしやすいデバイスで使用でき,実際の量子コンピュータ上でアルゴリズムを実行することができることを示す。

One of the most promising applications of quantum computing is simulating quantum many-body systems. However, there is still a need for methods to efficiently investigate these systems in a native way, capturing their full complexity. Here, we propose variational quantum anomaly detection, an unsupervised quantum machine learning algorithm to analyze quantum data from quantum simulation. The algorithm is used to extract the phase diagram of a system with no prior physical knowledge and can be performed end-to-end on the same quantum device that the system is simulated on. We showcase its capabilities by mapping out the phase diagram of the one-dimensional extended Bose Hubbard model with dimerized hoppings, which exhibits a symmetry protected topological phase. Further, we show that it can be used with readily accessible devices nowadays and perform the algorithm on a real quantum computer.
翻訳日:2023-03-26 15:41:31 公開日:2022-01-06
# ニューラルネットワーク量子状態を用いた連続変数最適化

Continuous-variable optimization with neural network quantum states ( http://arxiv.org/abs/2108.03325v3 )

ライセンス: Link先を確認
Yabin Zhang, David Gorsich, Paramsothy Jayakumar, Shravan Veerapaneni(参考訳) 連続可変量子近似最適化(CV-QAOA)の提案に触発されて,古典的反強磁性ロータモデルの基底状態最適化に着目し,連続可変ニューラルネットワーク量子状態(CV-NQS)の連続最適化への応用について検討した。 CV-NQSを用いた変分モンテカルロを用いた数値実験により,非局所的アルゴリズムは局所勾配探索法と競合する基底状態の探索に成功しているが,提案手法は好ましくないスケーリングに悩まされることを示した。 スケーリングの難しさを軽減するために、いくつかの拡張が提案されている。

Inspired by proposals for continuous-variable quantum approximate optimization (CV-QAOA), we investigate the utility of continuous-variable neural network quantum states (CV-NQS) for performing continuous optimization, focusing on the ground state optimization of the classical antiferromagnetic rotor model. Numerical experiments conducted using variational Monte Carlo with CV-NQS indicate that although the non-local algorithm succeeds in finding ground states competitive with the local gradient search methods, the proposal suffers from unfavorable scaling. A number of proposed extensions are put forward which may help alleviate the scaling difficulty.
翻訳日:2023-03-19 04:57:45 公開日:2022-01-06
# 状態平均軌道最適化変分量子固有解法における非断熱結合と勾配

Analytical nonadiabatic couplings and gradients within the state-averaged orbital-optimized variational quantum eigensolver ( http://arxiv.org/abs/2109.04576v2 )

ライセンス: Link先を確認
Saad Yalouz, Emiel Koridon, Bruno Senjean, Benjamin Lasorne, Francesco Buda and Lucas Visscher(参考訳) 本稿では,最新の状態平均軌道最適化変分量子固有解法 (sa-oo-vqe) の技術的および解析的拡張について紹介する。 [S. Yalouz et al.,Quantum Sci. Technol. 6, 024004 (2021)] 現在の量子コンピュータの限界に動機づけられた最初の拡張は、sa-oo-vqe固有状態を見つけるための効率的な状態解決手順であり、それらにまたがる部分空間だけでなく、equi-ensembleフレームワークに残されている。 このアプローチは、この問題を全アルゴリズムの終端に延期することで、固有状態の高価な中間分解を避ける。 2つ目の拡張は、円錐交叉の探索から、例えば光異性化反応のような量子力学のシミュレーションまで、多くの実践的な状況において重要な解析的勾配と非断熱的カップリングの推定を可能にする。 新しい実装の精度は、ホルマジミン分子ch$_2$nh(より大きな生体分子における光異性化の研究に関係した最小シッフ基底モデル)で実証され、また、分子の接点と最初の励起電子状態との間の円錐形の交点を見つけるための幾何学的最適化も行う。

In this work, we introduce several technical and analytical extensions to our recent state-averaged orbital-optimized variational quantum eigensolver (SA-OO-VQE) algorithm (see Ref. [S. Yalouz et al. ,Quantum Sci. Technol. 6, 024004 (2021).]). Motivated by the limitations of current quantum computers, the first extension consists in an efficient state-resolution procedure to find the SA-OO-VQE eigenstates, and not just the subspace spanned by them, while remaining in the equi-ensemble framework. This approach avoids expensive intermediate resolutions of the eigenstates by postponing this problem to the very end of the full algorithm. The second extension allows for the estimation of analytical gradients and non-adiabatic couplings, which are crucial in many practical situations ranging from the search of conical intersections to the simulation of quantum dynamics, in, for example, photoisomerization reactions. The accuracy of our new implementations is demonstrated on the formaldimine molecule CH$_2$NH (a minimal Schiff base model relevant for the study of photoisomerization in larger bio-molecules), for which we also perform a geometry optimization to locate a conical intersection between the ground and first-excited electronic states of the molecule.
翻訳日:2023-03-15 18:08:41 公開日:2022-01-06
# 新型コロナウイルス感染シミュレーターによる学校スケジュールのカスタマイズ

School Virus Infection Simulator for Customizing School Schedules During COVID-19 ( http://arxiv.org/abs/2110.03615v2 )

ライセンス: Link先を確認
Satoshi Takahashi, Masaki Kitazawa, Atsushi Yoshikawa(参考訳) 2019年の新型コロナウイルス(covid-19)パンデミックの間、学校は生徒に一貫した教育を提供し続ける。 教師や教育政策立案者は、地域社会や経済発展に必要な学校を再開する方法を模索している。 しかし、パンデミックを鑑み、学校は教室の大きさ、空調設備、教室システム、例えば自己完結型または複合型などを考える学生の健康上の懸念や安全に対処できるカスタマイズされたスケジュールを必要とする。 そこで我々は,教員や教育政策立案者を対象に,SVIS(School-Virus-Infection-Simulator)を開発した。 SVISは,学生の授業スケジュール,授業数量,教室内空気循環率,学生の感染性を考慮した学校における感染拡大をシミュレートする。 このように教師や教育政策立案者は、学校スケジュールが現在の健康にどのように影響するかをシミュレートすることができる。 次に,自己完結型・分科型教室における学校スケジュールの影響を明らかにし,同時に感染する生徒の最大数と対面授業の割合で評価した。 その結果,教室の換気率の増加は学校スケジュールのカスタマイズによる影響が安定していないこと,学校スケジュールが教室の自己完結の有無や分校化の有無によって感染する生徒の最大数に異なる影響を与えることが示唆された。 学校スケジュールの1つは、対面授業の割合が高いスケジュールに比べて、感染した生徒の最大数が高いことが判明した。 SVISとシミュレーションの結果は、教師や教育政策立案者が学校スケジュールを適切に計画し、感染する生徒の最大数を減らし、対面授業の一定の割合を維持するのに役立つ。

During the Coronavirus 2019 (the covid-19) pandemic, schools continuously strive to provide consistent education to their students. Teachers and education policymakers are seeking ways to re-open schools, as it is necessary for community and economic development. However, in light of the pandemic, schools require customized schedules that can address the health concerns and safety of the students considering classroom sizes, air conditioning equipment, classroom systems, e.g., self-contained or compartmentalized. To solve this issue, we developed the School-Virus-Infection-Simulator (SVIS) for teachers and education policymakers. SVIS simulates the spread of infection at a school considering the students' lesson schedules, classroom volume, air circulation rates in classrooms, and infectability of the students. Thus, teachers and education policymakers can simulate how their school schedules can impact current health concerns. We then demonstrate the impact of several school schedules in self-contained and departmentalized classrooms and evaluate them in terms of the maximum number of students infected simultaneously and the percentage of face-to-face lessons. The results show that increasing classroom ventilation rate is effective, however, the impact is not stable compared to customizing school schedules, in addition, school schedules can differently impact the maximum number of students infected depending on whether classrooms are self-contained or compartmentalized. It was found that one of school schedules had a higher maximum number of students infected, compared to schedules with a higher percentage of face-to-face lessons. SVIS and the simulation results can help teachers and education policymakers plan school schedules appropriately in order to reduce the maximum number of students infected, while also maintaining a certain percentage of face-to-face lessons.
翻訳日:2023-03-12 05:42:46 公開日:2022-01-06
# 障害の安定化-非局在化

Stabilizing Disorder-Free Localization ( http://arxiv.org/abs/2111.02427v2 )

ライセンス: Link先を確認
Jad C. Halimeh, Hongzheng Zhao, Philipp Hauke, Johannes Knolle(参考訳) 障害のないローカライゼーションは、ゲージ対称性をホストする翻訳不変量子多体系における非エルゴディディティのパラダイムである。 ゲージ超選択セクターの広範な重ね合わせに対応する単純な初期状態から始まるクエンチダイナミクスは、システムが自身の障害を動的に誘導する多体局在を示す。 オープンな質問は、ゲージ破壊エラーの存在下での無秩序な局在の安定性と、後者によるプロセスが制御的に抑制されるかどうかである。 ここでは、変換不変な \textit{single-body- gauge term} が、保護強度の少なくとも1倍の多項式に対する無秩序な局所化を確実に保護する量子ゼノ効果を誘導することを示す。 実験的に実現可能なスキームは,無秩序な局所化が確実に安定化できることを示すだけでなく,量子シミュレータでの観測に有望な可能性を開くものである。

Disorder-free localization is a paradigm of nonergodicity in translation-invariant quantum many-body systems hosting gauge symmetries. The quench dynamics starting from simple initial states, which correspond to extensive superpositions of gauge superselection sectors, exhibits many-body localization with the system dynamically inducing its own disorder. An open question concerns the stability of disorder-free localization in the presence of gauge-breaking errors, and whether processes due to the latter can be controllably suppressed. Here, we show that translation-invariant \textit{single-body gauge terms} induce a quantum Zeno effect that reliably protects disorder-free localization against errors up to times at least polynomial in the protection strength. Our experimentally feasible scheme not only shows that disorder-free localization can be reliably stabilized, but also opens promising prospects for its observation in quantum simulators.
翻訳日:2023-03-09 06:41:20 公開日:2022-01-06
# 量子デバイスにおけるschr\"odinger's cat, fractons and non-abelian topological orderの効率的作成

Efficiently preparing Schr\"odinger's cat, fractons and non-Abelian topological order in quantum devices ( http://arxiv.org/abs/2112.03061v2 )

ライセンス: Link先を確認
Ruben Verresen, Nathanan Tantivasadakarn, Ashvin Vishwanath(参考訳) 猫の状態やトポロジカル秩序のような長距離の絡み合った量子状態は、量子力学と情報目的の鍵であるが、スケーラブルなユニタリプロセスでは準備できない。 興味深いことに、測定を追加の成分として使うと、そのようなノーゴー定理を回避できる。 しかし、効率的なスキームは長距離絡み合い状態の限られたクラスでしか知られておらず、ゲートと測定の連続による既存の量子デバイスへの実装は高いオーバーヘッドによって妨げられている。 そこで我々は, 既存の実験プラットフォームを用いて, 広範囲にわたる絡み合った状態をスカラブルに作成する方法を提案する。 我々の2段階のプロセスは、Rydberg原子配列の理想的な実装を見つけ、固有の原子相互作用の下で時間進化を必要とするだけであり、続いて1つのサブラチテン(例えば2つの原子種)を測定する。 注目すべきは、このプロトコルは、1D Greenberger-Horne-Zeilinger (GHZ) 'cat'状態と2Dトーリックコードを作成し、サイトあたりの忠実度は0.9999ドルを超え、3Dフラクトン状態は$\gtrapprox 0.998$である。 最近の3d rydberg原子配列の実験結果を踏まえると、これはフラクトン秩序の最初の実験的実現への道を開く。 上記の例は、クラスタ状態の効率的な準備と測定に基づいているが、Rydberg原子配列やその他の量子デバイスにおいて、$S_3$および$D_4$非アベリア位相秩序を生成するための多段階手順も提案する。

Long-range entangled quantum states -- like cat states and topological order -- are key for quantum metrology and information purposes, but they cannot be prepared by any scalable unitary process. Intriguingly, using measurements as an additional ingredient could circumvent such no-go theorems. However, efficient schemes are known for only a limited class of long-range entangled states, and their implementation on existing quantum devices via a sequence of gates and measurements is hampered by high overheads. Here we resolve these problems, proposing how to scalably prepare a broad range of long-range entangled states with the use of existing experimental platforms. Our two-step process finds an ideal implementation in Rydberg atom arrays, only requiring time-evolution under the intrinsic atomic interactions, followed by measuring a single sublattice (by using, e.g., two atom species). Remarkably, this protocol can prepare the 1D Greenberger-Horne-Zeilinger (GHZ) 'cat' state and 2D toric code with fidelity per site exceeding $0.9999$, and a 3D fracton state with fidelity $\gtrapprox 0.998$. In light of recent experiments showcasing 3D Rydberg atom arrays, this paves the way to the first experimental realization of fracton order. While the above examples are based on efficiently preparing and measuring cluster states, we also propose a multi-step procedure to create $S_3$ and $D_4$ non-Abelian topological order in Rydberg atom arrays and other quantum devices -- offering a route towards universal topological quantum computation.
翻訳日:2023-03-06 02:02:56 公開日:2022-01-06
# 対称性に保護された位相位相の長距離エンタングルメント

Long-range entanglement from measuring symmetry-protected topological phases ( http://arxiv.org/abs/2112.01519v2 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ryan Thorngren, Ashvin Vishwanath, Ruben Verresen(参考訳) 多体量子状態の基本的な区別は、短距離と長距離の絡み合いを持つもの(SREとLRE)である。 後者は、schr\"odinger cat状態、位相次数、量子臨界性の非局所的性質を基礎として、有限深さ回路では作成できない。 注目すべきは、2Dクラスタ状態のサブラティティクスの測定からトーリックコードなどのSREの単一サイト計測を行うことで、LREが得られた例が知られていることである。 しかし、SREの測定がLREにどのような影響を及ぼすかという体系的な理解はいまだに欠けている。 ここでは、LREが対称性保護トポロジカル位相(SPT)の測定を行い、クラスター状態が一例であることを示す。 例えば、クラスタSPTを入力状態に追加し、次に測定することで、Kramers-Wannier変換の実装方法を示す。 この変換は自然に状態とSREとLREを関連付ける。 応用は、入力状態が$\mathbb Z_2$ Levin-Gu SPT であるときの倍数順序の実現である。 同様に、フェルミオンSPTの追加と測定は、一般的な状態のジョーダン・ウィグナー変換の実装につながる。 より一般に、g \times h$ 対称性によって保護されるspt相の大きなクラスは、$g$-chargesを測定すると異常なlreをもたらすと主張する。 これにより、SPT位相を資源としてLREを作成するための新しい実用的なツールを導入し、Abelian群やJordan-Wigner変換に関連する全ての状態が同一同値クラスにあるという分類結果を明らかにする。 特に、可解な有限ゲージ群を持つ位相的あるいはフラクトン次数は、この方法で積状態から得ることができる。

A fundamental distinction between many-body quantum states are those with short- and long-range entanglement (SRE and LRE). The latter cannot be created by finite-depth circuits, underscoring the nonlocal nature of Schr\"odinger cat states, topological order, and quantum criticality. Remarkably, examples are known where LRE is obtained by performing single-site measurements on SRE, such as the toric code from measuring a sublattice of a 2D cluster state. However, a systematic understanding of when and how measurements of SRE give rise to LRE is still lacking. Here we establish that LRE appears upon performing measurements on symmetry protected topological (SPT) phases -- of which the cluster state is one example. For instance, we show how to implement the Kramers-Wannier transformation, by adding a cluster SPT to an input state followed by measurement. This transformation naturally relates states with SRE and LRE. An application is the realization of double-semion order when the input state is the $\mathbb Z_2$ Levin-Gu SPT. Similarly, the addition of fermionic SPTs and measurement leads to an implementation of the Jordan-Wigner transformation of a general state. More generally, we argue that a large class of SPT phases protected by $G \times H$ symmetry gives rise to anomalous LRE upon measuring $G$-charges. This introduces a new practical tool for using SPT phases as resources for creating LRE, and uncovers the classification result that all states related by sequentially gauging Abelian groups or by Jordan-Wigner transformation are in the same equivalence class, once we augment finite-depth circuits with single-site measurements. In particular, any topological or fracton order with a solvable finite gauge group can be obtained from a product state in this way.
翻訳日:2023-03-06 02:00:48 公開日:2022-01-06
# 量子真空サニャック効果

Quantum Vacuum Sagnac Effect ( http://arxiv.org/abs/2112.01957v2 )

ライセンス: Link先を確認
Guilherme C. Matos, Reinaldo de Melo e Souza, Paulo A. Maia Neto, and Fran\c{c}ois Impens(参考訳) 我々は、中性ナノ粒子の近傍で伝播する原子波への高速回転によって引き起こされるサニャック相の量子力学的アナログについて報告する。 量子真空サニャック相は、回転の角速度に比例した幾何学的ベリー相である。 慣性フレームへの非慣性効果の持続性は、アハロノフ・ボーム効果と類似している。 ここでは、空間の制限領域に制限された回転は、慣性フレームに対して干渉計が静止しているにもかかわらず原子相を引き起こす。 プラズモン共鳴を利用して、誘導相の大きさは、アート干渉計の状態の感度限界に近くなることを示す。 量子真空サニャック原子相は動的カシミール様効果の幾何学的フットプリントである

We report on the quantum electrodynamical analogue of a Sagnac phase induced by the fast rotation of a neutral nanoparticle onto atomic waves propagating in its vicinity. The quantum vacuum Sagnac phase is a geometric Berry phase proportional to the angular velocity of rotation. The persistence of a noninertial effect into the inertial frame is also analogous to the Aharonov-Bohm effect. Here, a rotation confined to a restricted domain of space gives rise to an atomic phase even though the interferometer is at rest with respect to an inertial frame. By taking advantage of a plasmon resonance, we show that the magnitude of the induced phase can be close to the sensitivity limit of state of the art interferometers. The quantum vacuum Sagnac atomic phase is a geometric footprint of a dynamical Casimir-like effect
翻訳日:2023-03-05 23:55:03 公開日:2022-01-06
# 金属試験体間のカシミール力の理論・実験比較:空間的非局所誘電応答

Theory-experiment comparison for the Casimir force between metallic test bodies: A spatially nonlocal dielectric response ( http://arxiv.org/abs/2112.07283v2 )

ライセンス: Link先を確認
G. L. Klimchitskaya and V. M. Mostepanenko(参考訳) カシミール力のリフシッツ理論は、電磁揺らぎに対する金属中の導電電子の応答がよく試験された散逸ドロードモデルによって記述された場合、測定データと矛盾することが知られている。 同じ理論は、空間的に非局所的な電磁応答が量子電磁力学の最初の原理に由来するグラフェンからのカシミール力の測定と非常によく一致している。 本研究では, 伝搬波に対する標準ドローモデルとほとんど同じ応答を導くが, エバネッセント波の場合では異なる応答となる金属の空間的非局所的現象論的誘電関数を提案する。 このタイプのいくつかの以前の提案とは異なり、ここで考慮される応答関数は、鏡面反射の形式化において最も自然な波動ベクトルのすべての成分に依存する。 これらの応答関数がクラマース・クロニッヒ関係を満たすことが示されている。 表面インピーダンスと反射係数のそれぞれの式を導出する。 得られた結果は、2つの平行板間の有効カシミール圧力、球とプレートの間のカシミール力、非磁性(Au)試験体と磁気(Ni)試験体の両方で実施された最も正確な実験構成の勾配を計算するために用いられる。 任意の場合 (Au-Au, Au-Ni, Ni-Ni 試験体) において, 散逸非局所応答関数を用いたリフシッツ理論の予測は, 従来の無散逸プラズマモデルと同様, 測定値とよく一致していることが示されている。 これらの結果の展開と応用について論じる。

It has been known that the Lifshitz theory of the Casimir force comes into conflict with the measurement data if the response of conduction electrons in metals to electromagnetic fluctuations is described by the well tested dissipative Drude model. The same theory is in a very good agreement with measurements of the Casimir force from graphene whose spatially nonlocal electromagnetic response is derived from the first principles of quantum electrodynamics. Here, we propose the spatially nonlocal phenomenological dielectric functions of metals which lead to nearly the same response, as the standard Drude model, to the propagating waves, but to a different response in the case of evanescent waves. Unlike some previous suggestions of this type, the response functions considered here depend on all components of the wave vector as is most natural in the formalism of specular reflection used. It is shown that these response functions satisfy the Kramers-Kronig relations. We derive respective expressions for the surface impedances and reflection coefficients. The obtained results are used to compute the effective Casimir pressure between two parallel plates, the Casimir force between a sphere and a plate, and its gradient in configurations of the most precise experiments performed with both nonmagnetic (Au) and magnetic (Ni) test bodies. It is shown that in all cases (Au-Au, Au-Ni, and Ni-Ni test bodies) the predictions of the Lifshitz theory found by using the dissipative nonlocal response functions are in as good agreement with the measurement data, as was reached previously with the dissipationless plasma model. Possible developments and applications of these results are discussed.
翻訳日:2023-03-04 14:22:38 公開日:2022-01-06
# 限界計算なしで量子計測をシミュレートする方法

How to simulate quantum measurement without computing marginals ( http://arxiv.org/abs/2112.08499v2 )

ライセンス: Link先を確認
Sergey Bravyi, David Gosset, Yinchen Liu(参考訳) 量子状態の標準値である$n$-qubit の量子状態、すなわち確率分布 $|\langle x|\psi\rangle|^2$ からビット文字列 $x$ をサンプリングするアルゴリズムを古典的にシミュレートして解析する。 我々のアルゴリズムは、サンプリングタスクをpoly$の計算に削減する (n)$振幅は$n$-qubitであり、既知の手法とは異なり、限界確率の計算を必要としない。 まず、$|\psi\rangle=U|0^n\rangle$が$m$ゲート量子回路$U$の出力状態である場合を考える。 我々は$Oの計算を伴う正確なサンプリングアルゴリズムを提案する。 (m)$の振幅は、最初の$t=1,2,\ldots,m$gates で与えられる$u$のサブサーキットによって生成される。 提案アルゴリズムはテンソルネットワーク収縮法や低ランク安定化器分解に基づく量子回路シミュレーションを著しく高速化できることを示す。 もう1つの驚くべき結果として、任意の平面グラフ上の曲面コードリソース状態を持つ計測ベースの量子計算のための効率的な古典的シミュレーションアルゴリズムを求め、単一量子ビット測定の順序付けに関する制限的位相的制約下でのみ効率的であることが知られている以前のアルゴリズムを一般化した。 第二に、$\psi$ が局所ハミルトニアンの一意な基底状態であり、そのスペクトルギャップは、逆多項式関数 $n$ によってより低く有界である場合を考える。 簡単なMetropolis-Hastings Markov Chain が、$\psi$ が特定の技術的条件に従うような所望の確率分布と急速に混ざり合っていることを証明した。 これは$\mathrm{poly}計算を伴うサンプリングアルゴリズムを与える (n)$の振幅は$\psi$である。

We describe and analyze algorithms for classically simulating measurement of an $n$-qubit quantum state $\psi$ in the standard basis, that is, sampling a bit string $x$ from the probability distribution $|\langle x|\psi\rangle|^2$. Our algorithms reduce the sampling task to computing poly$(n)$ amplitudes of $n$-qubit states; unlike previously known techniques they do not require computation of marginal probabilities. First we consider the case where $|\psi\rangle=U|0^n\rangle$ is the output state of an $m$-gate quantum circuit $U$. We propose an exact sampling algorithm which involves computing $O(m)$ amplitudes of $n$-qubit states generated by subcircuits of $U$ spanned by the first $t=1,2,\ldots,m$ gates. We show that our algorithm can significantly accelerate quantum circuit simulations based on tensor network contraction methods or low-rank stabilizer decompositions. As another striking consequence we obtain an efficient classical simulation algorithm for measurement-based quantum computation with the surface code resource state on any planar graph, generalizing a previous algorithm which was known to be efficient only under restrictive topological constraints on the ordering of single-qubit measurements. Second, we consider the case in which $\psi$ is the unique ground state of a local Hamiltonian with a spectral gap that is lower bounded by an inverse polynomial function of $n$. We prove that a simple Metropolis-Hastings Markov Chain mixes rapidly to the desired probability distribution provided that $\psi$ obeys a certain technical condition, which we show is satisfied for all sign-problem free Hamiltonians. This gives a sampling algorithm which involves computing $\mathrm{poly}(n)$ amplitudes of $\psi$.
翻訳日:2023-03-04 11:29:26 公開日:2022-01-06
# 核スピン系における量子位相同期の観測

Observation of quantum phase-synchronization in a nuclear spin-system ( http://arxiv.org/abs/2112.12088v2 )

ライセンス: Link先を確認
V. R. Krithika, Parvinder Solanki, Sai Vinjanampathy, and T. S. Mahesh(参考訳) 核磁気共鳴構造における外部駆動を受ける相互作用核スピン対の位相同期化の実験的検討を行った。 スピンの1つに印加された弱い遷移選択高周波場が位相局在を生じさせ、様々な駆動条件下でのフシミ分布関数の測定により実験的に確立される。 そこで我々は,非駆動核スピンの逆磁化を通じてフシミ関数の値を直接抽出する一般干渉法を開発した。 さらに、アーノルド舌の動作を研究することにより、システムの変形に対する同期の堅牢性を検証する。

We report an experimental study of phase-synchronization in a pair of interacting nuclear spins subjected to an external drive in nuclear magnetic resonance architecture. A weak transition-selective radio-frequency field applied on one of the spins is observed to cause phase-localization, which is experimentally established by measuring the Husimi distribution function under various drive conditions. To this end, we have developed a general interferometric technique to directly extract values of the Husimi function via the transverse magnetization of the undriven nuclear spin. We further verify the robustness of synchronization to detuning in the system by studying the Arnold tongue behaviour.
翻訳日:2023-03-03 20:03:38 公開日:2022-01-06
# 動的環境における複数光度を求めるcec 2022コンペティションのベンチマーク関数

Benchmark Functions for CEC 2022 Competition on Seeking Multiple Optima in Dynamic Environments ( http://arxiv.org/abs/2201.00523v2 )

ライセンス: Link先を確認
Wenjian Luo, Xin Lin, Changhe Li, Shengxiang Yang, Yuhui Shi(参考訳) 動的およびマルチモーダルな特徴は2つの重要な性質であり、多くの実世界の最適化問題に広く存在している。 前者は、問題の目的や制約が時間とともに変化するのに対し、後者は、各環境に複数の最適解(時には受け入れられた局所解を含む)が存在することを意味する。 動的マルチモーダル最適化問題(dmmops、dynamic multimodal optimization problem)は、進化的計算と群知能の分野で長年研究されてきた2つの特徴を持ち、ますます注目を集めている。 このような問題を解決するには、変化する環境で複数のオプティマを同時に追跡する最適化アルゴリズムが必要である。 そのため、意思決定者は、経験や好みに応じて、各環境において最適なソリューションを1つ選択したり、現在のソリューションがうまく機能しない場合に素早く他のソリューションに切り替えることができる。 これは意思決定者、特に環境の変化に直面している場合に非常に役立ちます。 このコンペティションでは、現実世界のアプリケーションをモデル化するDMMOPに関するテストスーツが提供される。 具体的には、8つのマルチモーダル関数と8つの変更モードを採用し、24の典型的な動的マルチモーダル最適化問題を構成する。 一方、メトリックはアルゴリズムのパフォーマンスを測定するためにも与えられ、すべての環境に存在する最適解の平均数を考える。 この競争は動的マルチモーダル最適化アルゴリズムの開発を促進するのに非常に役立つだろう。

Dynamic and multimodal features are two important properties and widely existed in many real-world optimization problems. The former illustrates that the objectives and/or constraints of the problems change over time, while the latter means there is more than one optimal solution (sometimes including the accepted local solutions) in each environment. The dynamic multimodal optimization problems (DMMOPs) have both of these characteristics, which have been studied in the field of evolutionary computation and swarm intelligence for years, and attract more and more attention. Solving such problems requires optimization algorithms to simultaneously track multiple optima in the changing environments. So that the decision makers can pick out one optimal solution in each environment according to their experiences and preferences, or quickly turn to other solutions when the current one cannot work well. This is very helpful for the decision makers, especially when facing changing environments. In this competition, a test suit about DMMOPs is given, which models the real-world applications. Specifically, this test suit adopts 8 multimodal functions and 8 change modes to construct 24 typical dynamic multimodal optimization problems. Meanwhile, the metric is also given to measure the algorithm performance, which considers the average number of optimal solutions found in all environments. This competition will be very helpful to promote the development of dynamic multimodal optimization algorithms.
翻訳日:2023-03-02 09:55:10 公開日:2022-01-06
# 行動のインターネットシステムを設計する

Designing Internet of Behaviors Systems ( http://arxiv.org/abs/2201.02022v1 )

ライセンス: Link先を確認
Mahyar T. Moghaddam and Henry Muccini and Julie Dugdale and Mikkel Baun Kj{\ae}rgaard(参考訳) 行動のインターネット(iob)は、人間の行動をエンジニアリングとインテリジェントなコネクテッドシステムの中核に置く。 IoBは、人間による設計、開発、適応プロセスを確立するために、デジタル世界を人間の行動に結びつける。 本稿では,ソフトウェア技術者,人間-コンピュータインタラクション科学者,社会科学者,認知科学コミュニティと相互作用する集合的取り組みに基づいて,IoBモデルによる新しい概念を定義する。 IoBのモデルは、最先端の分析と専門家のインタビューを合成する探索的研究に基づいている。 実業界の4.0製造インフラのアーキテクチャは、IoBモデルとその応用を説明するのに役立つ。 概念モデルは、フィレンツェのウフィジ美術館の群衆監視と待ち行列管理システムのための社会技術的基盤の実装に成功するために用いられた。 この実験は2016年秋に始まり、2018年秋に運用された。 また、訪問者の移動行動の予測モデルも組み込んだ。 システムの主な目的は、人間の行動を捉え、モデル化し、変化を考慮し、リアルタイムで適応し、反復的な行動から継続的に学習するメカニズムを構築することである。 本論文は, 概念モデルと実生活評価に加えて, 専門家からの推薦, IoBが今後数年で重要な技術進歩をもたらすための今後の方向性について述べる。

The Internet of Behaviors (IoB) puts human behavior at the core of engineering intelligent connected systems. IoB links the digital world to human behavior to establish human-driven design, development, and adaptation processes. This paper defines the novel concept by an IoB model based on a collective effort interacting with software engineers, human-computer interaction scientists, social scientists, and cognitive science communities. The model for IoB is created based on an exploratory study that synthesizes state-of-the-art analysis and experts interviews. The architecture of a real industry 4.0 manufacturing infrastructure helps to explain the IoB model and it's application. The conceptual model was used to successfully implement a socio-technical infrastructure for a crowd monitoring and queue management system for the Uffizi Galleries, Florence, Italy. The experiment, which started in the fall of 2016 and was operational in the fall of 2018, used a data-driven approach to feed the system with real-time sensory data. It also incorporated prediction models on visitors' mobility behavior. The system's main objective was to capture human behavior, model it, and build a mechanism that considers changes, adapts in real-time, and continuously learns from repetitive behaviors. In addition to the conceptual model and the real-life evaluation, this paper provides recommendations from experts and gives future directions for IoB to become a significant technological advancement in the coming few years.
翻訳日:2023-03-02 03:39:03 公開日:2022-01-06
# 準1次元電子ダイヤモンドネックレス鎖におけるコンパクト局在境界状態

Compact localized boundary states in a quasi-1D electronic diamond-necklace chain ( http://arxiv.org/abs/2201.02012v1 )

ライセンス: Link先を確認
S. N. Kempkes (1), P. Capiod (2,3), S. Ismaili (1), J. Mulkens (2), I. Swart (2), C. Morais Smith (1) ((1) Institute for Theoretical Physics, Utrecht University, Netherlands, (2) Debye Institute for Nanomaterials Science, Utrecht University, Netherlands, (3) Junia-ISEN, Lille, France)(参考訳) 1次元(1D)ワイヤの端に局在したゼロエネルギーモードは、フォールトトレラント量子コンピューティングの量子ビットとして大きなポテンシャルを持つ。 しかし、今日知られている全ての候補は、指数関数的にバルクに崩壊し、近くの他のゼロモードとハイブリダイズする波動関数を示しており、ブレイディング操作の使用を妨げている。 ここでは、準1Dダイヤモンドネックレス鎖が、完全に予期せぬタイプの堅牢な境界状態、すなわち、バルクに崩壊しないコンパクトな局所零エネルギーモードを示すことを示す。 このモードにアクセスするための格子幾何学を理論的に設計し、電子量子シミュレータの設定で実験的に実現する。 私たちの研究は、ハイブリッド化の欠点を伴わずに組み上げることができるロバストでコンパクトなローカライズされたゼロエネルギモードの実現のための一般的な経路を提供します。

Zero-energy modes localized at the ends of one-dimensional (1D) wires hold great potential as qubits for fault-tolerant quantum computing. However, all the candidates known to date exhibit a wave function that decays exponentially into the bulk and hybridizes with other nearby zero-modes, thus hampering their use for braiding operations. Here, we show that a quasi-1D diamond-necklace chain exhibits a completely unforeseen type of robust boundary state, namely compact localized zero-energy modes that do not decay into the bulk. We theoretically engineer a lattice geometry to access this mode, and experimentally realize it in an electronic quantum simulator setup. Our work provides a general route for the realization of robust and compact localized zero-energy modes that could potentially be braided without the drawbacks of hybridization.
翻訳日:2023-03-02 03:38:41 公開日:2022-01-06
# 時間依存フラックスを用いた回路量子化:並列プレートSQUID

Circuit quantization with time-dependent flux:the parallel-plate SQUID ( http://arxiv.org/abs/2201.01945v1 )

ライセンス: Link先を確認
Rohan Narayan Rajmohan, Ahmed Kenawy and David DiVincenzo(参考訳) 量子回路理論は超伝導回路のダイナミクスの研究に必須の道具として登場した。 近年、外部磁場による時間依存駆動の計算の問題は、riwar-divincenzoが論文"circuit quantization with time-dependent magnetic fields for real geometries"で取り上げ、幾何と相互作用する外部磁場を入力として、与えられた回路幾何学のための低エネルギーハミルトニアンを構築する手法を提案した。 この結果は、離散回路のみを扱う以前の取り組みを一般化する。 さらに、離散回路の処理によって提案される個々のジョセフソン接合に個別の離散容量を割り当てる並列プレートSQUID回路の例を通して、負の時間依存的かつ特異な容量を許容する場合のみ可能であることを示す。 本稿では、並列プレートSQUID上で有限差分シミュレーションを行うことにより、この結果を裏付ける数値的な証拠を提供する。 各ジョセフソン接合に割り当てられる容量が負かつ特異でなければならないように、分布が変化する一様磁場を持つ連続測地線を提供する。 したがって、適切な量子化のための時間依存キャパシタンスの必要性は、磁場の分布を時間とともに変化させることで自然に現れる。

Quantum circuit theory has emerged as an essential tool for the study of the dynamics of superconducting circuits. Recently, the problem of accounting for time-dependent driving via external magnetic fields was addressed by Riwar-DiVincenzo in their paper - 'Circuit quantization with time-dependent magnetic fields for realistic geometries' in which they proposed a technique to construct a low-energy Hamiltonian for a given circuit geometry, taking as input the external magnetic field interacting with the geometry. This result generalises previous efforts that dealt only with discrete circuits. Moreover, it shows through the example of a parallel-plate SQUID circuit that assigning individual, discrete capacitances to each individual Josephson junction, as proposed by treatments of discrete circuits, is only possible if we allow for negative, time-dependent and even singular capacitances. In this report, we provide numerical evidence to substantiate this result by performing finite-difference simulations on a parallel-plate SQUID. We furnish continuous geometries with a uniform magnetic field whose distribution we vary such that the capacitances that are to be assigned to each Josephson junction must be negative and even singular. Thus, the necessity for time-dependent capacitances for appropriate quantization emerges naturally when we allow the distribution of the magnetic field to change with time.
翻訳日:2023-03-02 03:38:26 公開日:2022-01-06
# 離散位相空間-連続時間相対論的Klein-GordonとDirac方程式と新しい非特異湯川ポテンシャル

Discrete Phase Space-Continuous Time Relativistic Klein-Gordon and Dirac Equations, and a New Non-Singular Yukawa Potential ( http://arxiv.org/abs/2201.01935v1 )

ライセンス: Link先を確認
Anadijiban Das and Rupak Chatterjee(参考訳) 本稿では、離散位相空間と連続時間領域における相互作用する相対論的フェルミオン場とボソニック場の第二の量子化を扱う。 数学的定式化は部分差分方程式を含む。 対応するファインマン図と新しい$S^{\#}$-matrix理論が開発されている。 中性中間子の交換による陽子-陽子モラー散乱の特別な場合、明示的な第二次元 $\langle f | S^{\#}_{(2)} |i \rangle$ が導出される。 非常に低い外部3モーメントの近似において、新しい湯川ポテンシャルは$\langle f | S^{\#}_{(2)} |i \rangle$から明示的に導かれる。 さらに、この新しい湯川ポテンシャルはばらつきのないことが厳密に証明されている。 交換された中間子の質量パラメータはゼロに設定でき、仮定フェルミオン間のスカラーボソン交換の一種が得られる。 これは、新しい特異点自由湯川ポテンシャルから直接新しいクーロン型ポテンシャルの極限ケースを提供する。 2つの離散点における2つのフェルミオン間の発散のないクーロンポテンシャルは、オイラーベータ関数に比例する。 この相対論的離散位相空間の連続時間内で、1つの量子分位数は、超トリ $s^{1}_{n^1} \times s^{1}_{n^3} \times s^{1}_{n^3}$ ここで $s^{1}_{n}$ は半径 $\sqrt{2n+1}$ の円である。

This paper deals with the second quantization of interacting relativistic Fermionic and Bosonic fields in the arena of discrete phase space and continuous time. The mathematical formulation involves partial difference equations. The corresponding Feynman diagrams and a new $S^{\#}$-matrix theory is developed. In the special case of proton-proton Moller scattering via an exchange of a neutral meson, the explicit second order element $\langle f | S^{\#}_{(2)} |i \rangle$ is deduced. In the approximation of very low external three-momenta, a new Yukawa potential is explicitly derived from $\langle f | S^{\#}_{(2)} |i \rangle$. Moreover, it is rigorously proved that this new Yukawa potential is divergence-free. The mass parameter of the exchanged meson may be set to zero to obtain a type of scalar Boson exchange between hypothetical Fermions. This provides a limiting case of a new Coulomb type potential directly from the new singularity free Yukawa potential. A divergence-free Coulomb potential between two Fermions at two discrete points is shown to be proportional to the Euler beta function. Within this relativistic discrete phase space continuous time, a single quanta is shown to occupy the hyper-tori $S^{1}_{n^1} \times S^{1}_{n^3} \times S^{1}_{n^3}$ where $S^{1}_{n}$ is a circle of radius $\sqrt{2n+1}$.
翻訳日:2023-03-02 03:38:00 公開日:2022-01-06
# グローバーウォークのための快適なグラフ構造

A comfortable graph structure for Grover walk ( http://arxiv.org/abs/2201.01926v1 )

ライセンス: Link先を確認
Yusuke Higuchi, Mohamed Sabri and Etsuo Segawa(参考訳) 有限内部グラフ上のグロバーウォークモデルを考えると、有限個の半無限長経路に連結され、各ステップでこれらの経路に沿った代替の流入を受ける。 長い時間スケールの後、このようなグロバーウォークの挙動は安定している、すなわち、このモデルが定常状態を持つことが分かっている。 本稿では, 内部グラフの表面における定常状態の散乱と, 内部におけるこの状態のエネルギーについて, キャラクタリゼーションを行う。 散乱に対しては、内部グラフが二成分であるか否かによって形状が変化する散乱行列を具体的に与える。 一方,量子ウォークのためのグラフの快適性関数を導入し,内部に何人の量子ウォーカーが留まるかを示し,内部グラフの組合せ特性の観点からウォーカーの快適性を示すことに成功している。

We consider a Grover walk model on a finite internal graph, which is connected with a finite number of semi-infinite length paths and receives the alternative inflows along these paths at each time step. After the long time scale, we know that the behavior of such a Grover walk should be stable, that is, this model has a stationary state. In this paper our objectives are to give some characterization upon the scattering of the stationary state on the surface of the internal graph and upon the energy of this state in the interior. For the scattering, we concretely give a scattering matrix, whose form is changed depending on whether the internal graph is bipartite or not. On the other hand, we introduce a comfortability function of a graph for the quantum walk, which shows how many quantum walkers can stay in the interior, and we succeed in showing the comfortability of the walker in terms of combinatorial properties of the internal graph.
翻訳日:2023-03-02 03:37:36 公開日:2022-01-06
# bose hubbardモデルにおけるクラスタ平均場プラス密度行列再正規化理論

Cluster Mean Field plus Density Matrix Renormalization theory for the Bose Hubbard Model ( http://arxiv.org/abs/2201.01923v1 )

ライセンス: Link先を確認
Pallavi P. Gaude, Ananya Das and Ramesh V. Pai(参考訳) 1次元Bose-Hubbardモデルの位相を理解するための新しいアプローチを開発する。 本研究では, 平均場理論の単純さと密度行列再正規化群法の数値力を統合し, 適度な計算資源を持つ効率的な数値手法を構築し, 大規模一次元系の超流動次パラメータと相関関数を求める。 本稿では,Bose-Hubbardモデルにおける超流動,モット絶縁体,密度波位相を直接同定する手法の適用性を示す。

We develop a novel approach to understand the phases of one-dimensional Bose-Hubbard models. We integrate the simplicity of the mean-field theory and the numerical power of the density matrix renormalization group method to build an effective numerical technique with moderate computational resources to determine superfluid order parameters and correlation functions of large one-dimensional systems. We demonstrate the applicability of this method to directly identify superfluid, Mott insulator, and density wave phases in Bose-Hubbard models.
翻訳日:2023-03-02 03:37:06 公開日:2022-01-06
# 散逸異方性量子ラビ模型における多重光子アンチバンチング-バンチング遷移

Multiple photon antibunching-to-bunching transitions in the dissipative anisotropic quantum Rabi model ( http://arxiv.org/abs/2201.01917v1 )

ライセンス: Link先を確認
Tian Ye, Chen Wang, and Qing-Hu Chen(参考訳) 分散異方性量子ラビモデルにおける2光子相関関数を量子服装マスター方程式の枠組みで検討する。 複数の反バンチ-バンチ-バンチ遷移は、一般に強いクビット-光子カップリングで示される。 しかし、出現した追加の光子アンチバンチング機能は、散逸する等方性量子ラビモデルに欠けている。 重要なことに、観測された2光子統計は、低温のいくつかの最低固有状態において解析的によく説明できる。 追加の光子反束効果は, 2光子相関測定誘起固有状態遷移の選択則と, レベル交差後の第12固有状態のエネルギーギャップの拡大が主因であることが判明した。 さらに、一階の量子相転移によるフォトン束縛挙動の含意を解明する。 これらの結果は、異方性量子-光子ハイブリッド系における非古典光子放射の解析を受精させることを望んでいる。

We investigate the two-photon correlation function in the dissipative anisotropic quantum Rabi model in the framework of quantum dressed master equation. Multiple antibunching-to-bunching transitions are generally exhibited at the deep strong qubit-photon coupling. The emerged additional photon antibunching feature is however lacking in the dissipative isotropic quantum Rabi model. Importantly, the observed two-photon statistics can be well described analytically within a few lowest eigenstates at low temperatures. It is revealed that the additional photon antibunching effect is mainly originated from the selection rule of the two-photon correlation measurement induced eigenstate transitions and the enlarged energy gap of the first two eigenstates after the level crossings. Moreover, we unravel the implication of the photon bunching behavior with the first-order quantum phase transition. We hope these results may fertilize the analysis of the nonclassical photon radiation in the anisotropic qubit-photon hybrid systems.
翻訳日:2023-03-02 03:36:55 公開日:2022-01-06
# 量子計算と量子アルゴリズム研究における話題構造の書誌分析

Bibliometric analysis of topic structure in quantum computation and quantum algorithm research ( http://arxiv.org/abs/2201.01911v1 )

ライセンス: Link先を確認
Tsubasa Ichikawa(参考訳) 1985-2020年に発表された量子計算と量子アルゴリズムの研究論文の文献分析を行った。 我々は,年次刊行論文の傾向から3つの異なる期間を特定し,各期間の出版数と総引用数で上位20か国を示す。 最新の出版物の書誌結合ネットワークは, 様々な物理システムにおける量子ビットの生成, 量子アルゴリズムの研究, その他の関連トピックを対象とする, 14の大規模コミュニティを含む, 密度の高い小世界ネットワークとして特徴付けられる。 量子コンピューティングにおける新興トピックの1つである量子機械学習は、第5位の独立コミュニティである。

We present a bibliometric analysis of the research papers on quantum computation and quantum algorithms published in 1985-2020. We identify three distinct periods from the trend of the annual number of published papers, and show the 20 top contributing countries in each period in terms of the number of publications and the number of total citations. The bibliographic coupling network of the publications in the latest period is characterized as a dense, small-world network with a small diameter, which contains 14 large communities, whose topics are the fabrication of qubits in various physical systems, studies of the quantum algorithms, and other related topics. Quantum machine learning, one of the emerging topics in quantum computation, is found to be the fifth-largest independent community.
翻訳日:2023-03-02 03:36:42 公開日:2022-01-06
# ハイブリッド量子古典回路のOracle分離

Oracle separations of hybrid quantum-classical circuits ( http://arxiv.org/abs/2201.01904v1 )

ライセンス: Link先を確認
Atul Singh Arora, Alexandru Gheorghiu, Uttam Singh(参考訳) 量子計算の研究における重要な理論的問題は、短期的量子デバイスの文脈でも実際に関係しており、多時間古典計算と短期的量子計算を組み合わせたハイブリッドモデルの計算能力を理解することである。 ここでは、d-depth量子コンピュータを何度もクエリする多項式時間古典アルゴリズムのシナリオをキャプチャするCQ_dと、d-depth量子コンピュータのシナリオを、古典計算によって処理された測定結果に応じて適用されるゲートのシーケンスを変更する能力でキャプチャするQC_dについて考察する。 Chia, Chung & Lai (STOC 2020) と Coudron & Menda (STOC 2020) は、これらのモデル(d=log^O(1) (n))は、相対化された世界におけるジョザの予想を否定するオラクルに対して、BQP(ポリ時間量子計算で解ける問題のクラス)よりも厳格に弱いことを示した。 CQ_d と QC_d の類似性にもかかわらず、2つのモデルは相容れない。すなわち、CQ_d $\nsubseteq$ QC_d と QC_d $\nsubseteq$ CQ_d である。 言い換えれば、1つのモデルが解くことができるが、もう1つのモデルでは解くことができない問題が存在する。 これら2つのモデルの区別を捉える新しいオラクル問題を考察し、本質的な確率的オラクルの概念を導入することにより、応答が本質的にランダム化され、2つ目の結果に使用される。 標準オラクルに対する第2の分離をオープン問題として示しながらも、確率オラクルの概念は標準オラクルモデルにおける分離に抵抗する複雑性クラスを研究するために独立した関心を持つことができると信じている。 我々の構造は、以前の研究と比べて、ハイブリッドモデルとBQPの間のより単純なオラクル分離をもたらす。

An important theoretical problem in the study of quantum computation, that is also practically relevant in the context of near-term quantum devices, is to understand the computational power of hybrid models, that combine poly-time classical computation with short-depth quantum computation. Here, we consider two such models: CQ_d which captures the scenario of a polynomial-time classical algorithm that queries a d-depth quantum computer many times; and QC_d which is more analogous to measurement-based quantum computation and captures the scenario of a d-depth quantum computer with the ability to change the sequence of gates being applied depending on measurement outcomes processed by a classical computation. Chia, Chung & Lai (STOC 2020) and Coudron & Menda (STOC 2020) showed that these models (with d=log^O(1) (n)) are strictly weaker than BQP (the class of problems solvable by poly-time quantum computation), relative to an oracle, disproving a conjecture of Jozsa in the relativised world. We show that, despite the similarities between CQ_d and QC_d, the two models are incomparable, i.e. CQ_d $\nsubseteq$ QC_d and QC_d $\nsubseteq$ CQ_d relative to an oracle. In other words, there exist problems that one model can solve but not the other and vice versa. We do this by considering new oracle problems that capture the distinctions between the two models and by introducing the notion of an intrinsically stochastic oracle, an oracle whose responses are inherently randomised, which is used for our second result. While we leave showing the second separation relative to a standard oracle as an open problem, we believe the notion of stochastic oracles could be of independent interest for studying complexity classes which have resisted separation in the standard oracle model. Our constructions also yield simpler oracle separations between the hybrid models and BQP, compared to earlier works.
翻訳日:2023-03-02 03:36:30 公開日:2022-01-06
# Schr\'odinger方程式の一般解

General solution of the Schr\"odinger equation ( http://arxiv.org/abs/2201.02199v1 )

ライセンス: Link先を確認
Mikhail N. Sergeenko(参考訳) 量子力学における波動方程式とその位相空間における一般解を得る。

The wave equation in quantum mechanics and its general solution in the phase space are obtained.
翻訳日:2023-03-02 03:28:54 公開日:2022-01-06
# ツイスト二層グラフェンの磁気応答

Magnetic response of twisted bilayer graphene ( http://arxiv.org/abs/2201.02170v1 )

ライセンス: Link先を確認
Simon Becker, Jihoi Kim, Xiaowen Zhu(参考訳) 外部磁場中におけるツイスト二層グラフェン(tbg)のビストリッツァー・マクドナルドモデルについて考察し,模型のスペクトル特性と状態密度(dos)の半古典的記述について考察した。 DOSの明示的な拡張により、Shubnikov-de HaasやDe Haas-van Alphen振動を含む磁気振動や量子ホール効果などの磁気応答特性の研究が可能になる。 特に,AA'/BB'型トンネル相互作用の研究において,実験で観測されたランダウレベルの退化に光を遮蔽するAB'/BA'型(キラル/反キラル相互作用)と比較して,非常に異なる挙動を示す。

We consider the Bistritzer-MacDonald model for twisted bilayer graphene (TBG) in external magnetic fields and study spectral properties of the model and a semiclassical description of the density of states (DOS). The explicit expansion of the DOS enables us to study magnetic response properties such as magnetic oscillations which includes Shubnikov-de Haas and de Haas-van Alphen oscillations as well as the quantum Hall effect. In particular, we find very different behaviour when studying tunnelling interactions of type AA'/BB' compared to AB'/BA' (chiral/anti-chiral interactions) shedding light on experimentally observed degeneracies of Landau levels.
翻訳日:2023-03-02 03:28:52 公開日:2022-01-06
# マイクロ共振器へのデュアルレーザーセルフインジェクションロック

Dual-laser self-injection locking to an integrated microresonator ( http://arxiv.org/abs/2201.02130v1 )

ライセンス: Link先を確認
Dmitry A. Chermoshentsev, Artem E. Shitikov, Evgeny A. Lonshakov, Georgy V. Grechko, Ekaterina A. Sazhina, Nikita M. Kondratiev, Anatoly V. Masalov, Igor A. Bilenko, Alexander I. Lvovsky and Alexander E. Ulanov(参考訳) 半導体レーザの自己注入ロック(SIL)を高分解能共振器のささやきギャラリーモードで行うことは、レーザ線幅狭化と高周波ノイズ抑制に広く用いられる方法である。 SILは、既に超低雑音フォトニックマイクロ波発振器やソリトンマイクロコーム発生の実証に使われており、幅広い応用が可能である。 これまでSILは1つのレーザーでしか実証されなかった。 しかし、多周波および狭帯域レーザー源は、現代の通信システム、量子技術、マイクロ波フォトニクスに高い需要がある。 そこで我々は,Si$_3$N$_4$マイクロ共振器の異なるモードに2個の多周波レーザダイオードのデュアルレーザーSILを実験的に示す。 両レーザーの同時スペクトル崩壊, 線幅狭化, 高周波雑音抑制, および2つの磁場の強い非線形相互作用を観測した。 両方のレーザーを同じモードにロックすると、同時に周波数と位相の安定化と出力のコヒーレントな付加がもたらされる。 さらに, 包括的デュアルシル理論を提案し, マイクロ共振器における非線形効果によるレーザの相互影響について検討した。

Diode laser self-injection locking (SIL) to a whispering gallery mode of a high quality factor resonator is a widely used method for laser linewidth narrowing and high-frequency noise suppression. SIL has already been used for the demonstration of ultra-low-noise photonic microwave oscillators and soliton microcomb generation and has a wide range of possible applications. Up to date, SIL was demonstrated only with a single laser. However, multi-frequency and narrow-linewidth laser sources are in high demand for modern telecommunication systems, quantum technologies, and microwave photonics. Here we experimentally demonstrate the dual-laser SIL of two multifrequency laser diodes to different modes of an integrated Si$_3$N$_4$ microresonator. Simultaneous spectrum collapse of both lasers, as well as linewidth narrowing and high-frequency noise suppression , as well as strong nonlinear interaction of the two fields with each other, are observed. Locking both lasers to the same mode results in a simultaneous frequency and phase stabilization and coherent addition of their outputs. Additionally, we provide a comprehensive dual-SIL theory and investigate the influence of lasers on each other caused by nonlinear effects in the microresonator.
翻訳日:2023-03-02 03:28:14 公開日:2022-01-06
# 二次検出器によるN次元光学場の非古典性基準

Non-classicality criteria for N-dimensional optical fields detected by quadratic detectors ( http://arxiv.org/abs/2201.02116v1 )

ライセンス: Link先を確認
Jan Perina Jr, Pavel Pavlicek, Vaclav Michalek, Radek Machulka and Ondrej Haderka(参考訳) 一般N次元光学場の非古典性基準を導出する。 これらは強度モーメント、光子数分布の確率、あるいは両方の組み合わせを含む。 偶数や奇数の光子数の確率の和に対するヒルリーの基準は n-次元場に一般化される。 例として、導出した非古典性基準を2種類の光子対寄与を含む実験的3モード光学場に適用する。 付随する非古典性の深さは、それらのパフォーマンスを相互に比較するために使用される。

Non-classicality criteria for general N-dimensional optical fields are derived. They involve intensity moments, the probabilities of photon-number distributions or combinations of both. The Hillery criteria for the sums of the probabilities of even or odd photon numbers are generalized to N-dimensional fields. As an example, the derived non-classicality criteria are applied to an experimental 3-mode optical field containing two types of photon-pair contributions. The accompanying non-classicality depths are used to mutually compare their performance.
翻訳日:2023-03-02 03:27:57 公開日:2022-01-06
# 講義ノート:量子コンピュータのプログラミング

Lecture Notes: Programming Quantum Computers ( http://arxiv.org/abs/2201.02051v1 )

ライセンス: Link先を確認
Madita Willsch, Dennis Willsch, Kristel Michielsen(参考訳) 量子コンピューティングは新たなコンピュータ技術である。 現在の量子コンピューティングデバイスは、徐々に小さな現実世界のアプリケーションに適している開発段階にある。 この講義は、そのような量子コンピューティングデバイスをプログラミングする実践的な側面に焦点を当てている。 これらの講義の第一部はゲートベースの量子コンピュータのプログラミングに焦点を当て、第二部は量子アニールのプログラミング方法を示している。

Quantum computing is a new emerging computer technology. Current quantum computing devices are at a development stage where they are gradually becoming suitable for small real-world applications. This lecture is devoted to the practical aspects of programming such quantum computing devices. The first part of these lecture notes focuses on programming gate-based quantum computers, and the second part shows how to program quantum annealers.
翻訳日:2023-03-02 03:27:37 公開日:2022-01-06
# eラーニングにおける本格的ゲームの検討

A Review on Serious Games in E-learning ( http://arxiv.org/abs/2201.06917v1 )

ライセンス: Link先を確認
Huansheng Ning, Hang Wang, Wenxi Wang, Xiaozhen Ye, Jianguo Ding, Per Backlund(参考訳) eラーニングは広く使われている学習方法であるが、社会の発展に伴い、伝統的なeラーニング手法は退屈な教育方法などいくつかの欠点を浮き彫りにしているため、学生の熱意を高め、授業で注意を喚起することは困難である。 eラーニングにおける本格的ゲームの適用は、これらの欠点を補い、教育の質を効果的に改善することができる。 Eラーニングに真剣なゲームを適用する場合、教育目標とゲームデザインの2つの主な考慮事項がある。 真剣なゲームの成功は、2つの側面を有機的に組み合わせ、真剣なゲームの教育的・娯楽的な性質のバランスをとるべきである。 本稿では,eラーニングにおける本格的ゲームの役割,ゲーム設計のさまざまな要素,本格的ゲームの教育的目標の分類,教育的目標とゲームデザインの関係について論じる。 また,本型ゲームの設計における指導と支援を提供するため,本型ゲームと教育目標を一致させることを試みた。 また本論文では,本格的ゲームがeラーニングの応用にもたらした欠点を要約する。

E-learning is a widely used learning method, but with the development of society, traditional E-learning method has exposed some shortcomings, such as the boring way of teaching, so that it is difficult to increase the enthusiasm of students and raise their attention in class. The application of serious games in E-learning can make up for these shortcomings and effectively improve the quality of teaching. When applying serious games to E-learning, there are two main considerations: educational goals and game design. A successful serious game should organically combine the two aspects and balance the educational and entertaining nature of serious games. This paper mainly discusses the role of serious games in E-learning, various elements of game design, the classification of the educational goals of serious games and the relationship between educational goals and game design. In addition, we try to classify serious games and match educational goals with game types to provide guidance and assistance in the design of serious games. This paper also summarizes some shortcomings that serious games may have in the application of E-learning.
翻訳日:2023-03-02 03:20:57 公開日:2022-01-06
# モバイルアプリにおける期待違反の調査

Investigating Expectation Violations in Mobile Apps ( http://arxiv.org/abs/2201.02269v1 )

ライセンス: Link先を確認
Sherlock A. Licorish, Helen E. Owen, Bastin Tony Roy Savarimuthu and Priyanka Patel(参考訳) 情報技術とソフトウェアサービスは広く普及し、現代社会のほとんどの側面の中心を占めている。 これは、このようなシステムがどのように機能すべきかに関する一般的な規範や期待、これらの期待に違反する適切な罰則、さらに重要なのは、違反や制裁の結果を減らす方法の指標を生み出している。 期待違反とその後の制裁の証拠は、個人やグループが新しい友情を始め、新しいアイデアを探求し、製品やサービスにフィードバックを提供するために利用するポータルに存在している。 そこには、機能的な社会技術的システムや、情報技術とソフトウェアサービスを使う際の人間の行動(と相互作用)の一般的な認識と予測につながる洞察がある。 しかしながら、これらの理解を提供するために、限定された以前の研究はそのような成果物を調査した。 このような理解と理論的進歩に貢献するために,我々はモバイルアプリにおける期待違反について検討する。 我々は、コンテンツ分析および期待違反理論(evt)と期待確認理論(ect)を用いて、特定のドメインのアプリに対するアプリレビューにおける制裁の証拠と性質を調査した。 私たちの結果は、アプリが期待通りに動作しない場合、ユーザーは期待違反に反応し、開発者はアプリドメインでサービスを提供する際の特定の市場ニッチをターゲットにしており、アプリドメイン内のユーザーは同様の制裁で応答することを示している。 我々は,期待違反理論の進展に寄与し,モバイルアプリコミュニティに実践的な洞察を提供する。

Information technology and software services are pervasive, occupying the centre of most aspects of contemporary societies. This has given rise to commonly expected norms and expectations around how such systems should work, appropriate penalties for violating these expectations, and more importantly, indicators of how to reduce the consequences of violations and sanctions. Evidence for expectation violations and ensuing sanctions exists in a range of portals used by individuals and groups to start new friendships, explore new ideas, and provide feedback for products and services. Therein lies insights that could lead to functional socio-technical systems, and general awareness and anticipations of human actions (and interactions) when using information technology and software services. However, limited previous work has examined such artifacts to provide these understandings. To contribute to such understandings and theoretical advancement we study expectation violations in mobile apps, considered among the most engaging socio-technical systems. We used content analysis and expectancy violation theory (EVT) and expectation confirmation theory (ECT) to explore the evidence and nature of sanctions in app reviews for a specific domain of apps. Our outcomes show that users respond to expectation violation with sanctions when their app does not work as anticipated, developers seem to target specific market niches when providing services in an app domain, and users within an app domain respond with similar sanctions. We contribute to the advancement of expectation violation theories, and we provide practical insights for the mobile app community.
翻訳日:2023-03-02 03:19:32 公開日:2022-01-06
# 自己組織化ニューラルモデルに基づく脳誘発コンピューティングのための統合ソフトウェア/ハードウェアスケーラブルアーキテクチャ

A unified software/hardware scalable architecture for brain-inspired computing based on self-organizing neural models ( http://arxiv.org/abs/2201.02262v1 )

ライセンス: Link先を確認
Artem R. Muliukov, Laurent Rodriguez, Benoit Miramond, Lyes Khacef, Joachim Schmidt, Quentin Berthet, Andres Upegui(参考訳) 人工知能の分野は、生物学と神経科学の分野からの発見に触発されて、ここ数十年で大きく進歩してきた。 この研究のアイデアは、求心性および外側/内側の接続から人間の脳の皮質領域を自己組織化するプロセスに触発されている。 本研究では、Reentrant SOM(ReSOM)モデルにおける自己組織化マップ(SOM)とHebbian Learningを関連づけた脳誘発ニューラルモデルを開発する。 この枠組みはマルチモーダル分類問題に適用される。 教師なし学習とポストラベリングに基づく既存の手法と比較して、このモデルは最先端の結果を高める。 この研究は、SCALP(Self-configurable 3D Cellular Adaptive Platform)と呼ばれるFPGAベースの専用プラットフォーム上でのシミュレーション結果とハードウェア実行の両方を通じて、モデルの分散性とスケーラブル性を示す。 SCALPボードは、ニューラルネットワークの構造をサポートするモジュール方式で相互接続することができる。 このようなソフトウェアとハードウェアの統合アプローチにより、処理をスケールし、複数のモダリティからの情報を動的にマージすることができる。 ハードウェアボードへのデプロイは、複数のデバイスでの並列実行のパフォーマンス結果を提供し、各ボード間の通信は専用のシリアルリンクを通じて行われる。 提案した統合アーキテクチャは,ReSOMモデルとSCALPハードウェアプラットフォームで構成され,マルチモーダルアソシエーションによる精度の大幅な向上と,集中型GPU実装と比較してレイテンシと消費電力のトレードオフが良好であることを示す。

The field of artificial intelligence has significantly advanced over the past decades, inspired by discoveries from the fields of biology and neuroscience. The idea of this work is inspired by the process of self-organization of cortical areas in the human brain from both afferent and lateral/internal connections. In this work, we develop an original brain-inspired neural model associating Self-Organizing Maps (SOM) and Hebbian learning in the Reentrant SOM (ReSOM) model. The framework is applied to multimodal classification problems. Compared to existing methods based on unsupervised learning with post-labeling, the model enhances the state-of-the-art results. This work also demonstrates the distributed and scalable nature of the model through both simulation results and hardware execution on a dedicated FPGA-based platform named SCALP (Self-configurable 3D Cellular Adaptive Platform). SCALP boards can be interconnected in a modular way to support the structure of the neural model. Such a unified software and hardware approach enables the processing to be scaled and allows information from several modalities to be merged dynamically. The deployment on hardware boards provides performance results of parallel execution on several devices, with the communication between each board through dedicated serial links. The proposed unified architecture, composed of the ReSOM model and the SCALP hardware platform, demonstrates a significant increase in accuracy thanks to multimodal association, and a good trade-off between latency and power consumption compared to a centralized GPU implementation.
翻訳日:2023-03-02 03:19:07 公開日:2022-01-06
# 短期ハードウェアにおける量子近似最適化のスケーリング

Scaling Quantum Approximate Optimization on Near-term Hardware ( http://arxiv.org/abs/2201.02247v1 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Thien Nguyen, Anthony Santana, Alexander McCaskey, Rebekah Herrman, James Ostrowski, George Siopsis, and Travis S. Humble(参考訳) 量子近似最適化アルゴリズム (QAOA) は、組合せ最適化問題の解法における計算上の優位性を実証するために、短期量子コンピュータのアプローチである。 しかしながら、qaoaの実現性は、実際のハードウェア実装における問題のサイズと複雑さによって、そのパフォーマンスとリソース要件がいかにスケールするかに依存する。 ここでは,接続レベルが異なるハードウェアアーキテクチャの最適化回路を合成することにより,期待される資源要求のスケーリングを定量化する。 ノイズゲート演算を仮定すると、理想化QAOA回路の出力を高い確率でサンプリングするために必要な測定回数を推定する。 本稿では,QAOAアンサッツの深さ,ゲート不整合,および逆ハードウェアグラフ次数とともに,問題サイズと問題グラフ次数で指数関数的に増大する実測時間,すなわち解までの総数を示す。 これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される。

The quantum approximate optimization algorithm (QAOA) is an approach for near-term quantum computers to potentially demonstrate computational advantage in solving combinatorial optimization problems. However, the viability of the QAOA depends on how its performance and resource requirements scale with problem size and complexity for realistic hardware implementations. Here, we quantify scaling of the expected resource requirements by synthesizing optimized circuits for hardware architectures with varying levels of connectivity. Assuming noisy gate operations, we estimate the number of measurements needed to sample the output of the idealized QAOA circuit with high probability. We show the number of measurements, and hence total time to solution, grows exponentially in problem size and problem graph degree as well as depth of the QAOA ansatz, gate infidelities, and inverse hardware graph degree. These problems may be alleviated by increasing hardware connectivity or by recently proposed modifications to the QAOA that achieve higher performance with fewer circuit layers.
翻訳日:2023-03-02 03:18:40 公開日:2022-01-06
# 雑音量子回路のベンチマーク評価法

Benchmarking Characterization Methods for Noisy Quantum Circuits ( http://arxiv.org/abs/2201.02243v1 )

ライセンス: Link先を確認
Megan L. Dahlhauser and Travis S. Humble(参考訳) 量子コンピューティングデバイスにおけるノイズを特徴付ける効果的な手法は、回路性能のプログラミングとデバッグに不可欠である。 既存のアプローチは、取得した情報と必要な量子および古典的リソースの量によって異なり、より多くの情報は一般的により多くのリソースを必要とする。 本稿では,27量子ビット超伝導トランスモンデバイス上でのノイズ量子回路性能を記述するモデルの開発のために,ゲートトモグラフィ,ポーリチャネルノイズ再構成,経験的直接特性評価の手法について検討する。 ノイズ回路シミュレーションの精度を実験結果と比較することにより,これらのモデルを評価する。 実験用ノイズモデルの一致は, 特徴量から得られる情報と相関せず, 基礎回路が特徴量の最適選択に強く影響していることが判明した。 実験的な直接的特徴付けは、ベンチマーク全体で最も正確な特徴付けをテストし、生成した手法のベストをスケールします。

Effective methods for characterizing the noise in quantum computing devices are essential for programming and debugging circuit performance. Existing approaches vary in the information obtained as well as the amount of quantum and classical resources required, with more information generally requiring more resources. Here we benchmark the characterization methods of gate set tomography, Pauli channel noise reconstruction, and empirical direct characterization for developing models that describe noisy quantum circuit performance on a 27-qubit superconducting transmon device. We evaluate these models by comparing the accuracy of noisy circuit simulations with the corresponding experimental observations. We find that the agreement of noise model to experiment does not correlate with the information gained by characterization and that the underlying circuit strongly influences the best choice of characterization approach. Empirical direct characterization scales best of the methods we tested and produced the most accurate characterizations across our benchmarks.
翻訳日:2023-03-02 03:18:18 公開日:2022-01-06
# 角度と角運動量--古いペアの新しいねじれ

Angle and angular momentum -- new twist for an old pair ( http://arxiv.org/abs/2201.02231v1 )

ライセンス: Link先を確認
Ladislav Mi\v{s}ta Jr., Hubert de Guise, Jaroslav \v{R}eh\'a\v{c}ek, Zden\v{e}k Hradil(参考訳) 量子技術の究極のパフォーマンスを達成するには、量子限界の検出と基盤となる物理システムのすべてのリソースへのアクセスが必要である。 我々は、角運動量対と指数角変数の完全な量子アナロジーと、標準共役位置と運動量の構造を確立する。 これには、角運動量と角変数の最適同時測定の概念、アインシュタイン-ポドルスキー-ローゼン様変数と状態の同定、そして最終的に量子状態の位相空間表現が含まれる。 我々の構成は3つの概念の密接な相互接続に基づいており、他の観測対象に対する治療のテンプレートとして機能する可能性がある。 この理論はまた、離散的および連続的な量子変数を組み合わせた量子技術の実装のための新しいテストベッドを提供する。

Reaching ultimate performance of quantum technologies requires the use of detection at quantum limits and access to all resources of the underlying physical system. We establish a full quantum analogy between the pair of angular momentum and exponential angular variable, and the structure of canonically conjugate position and momentum. This includes the notion of optimal simultaneous measurement of the angular momentum and angular variable, the identification of Einstein-Podolsky-Rosen-like variables and states, and finally a phase-space representation of quantum states. Our construction is based on close interconnection of the three concepts and may serve as a template for the treatment of other observables. This theory also provides a new testbed for implementation of quantum technologies combining discrete and continuous quantum variables.
翻訳日:2023-03-02 03:17:56 公開日:2022-01-06
# 表情認識のためのDeep Metric Structured Learning

Deep Metric Structured Learning For Facial Expression Recognition ( http://arxiv.org/abs/2001.06612v2 )

ライセンス: Link先を確認
Pedro D. Marrero Fernandez, Tsang Ing Ren, Tsang Ing Jyh, Fidel A. Guerrero Pe\~na, Alexandre Cunha(参考訳) 本稿では,構造をよく定義した埋め込み部分空間を作成するための深層メトリック学習モデルを提案する。 ガウス構造を出力空間に課す新しい損失関数を導入してこれらの部分空間を作成し、データの分布を形作る。 ガウス解空間の混合を持つことは、その単純かつよく確立された構造を考えると有利である。 クラス内のクラスを素早く発見し、個々のクラスのセントロイドにおける平均代表者の識別を可能にする。 また,サブクラスを作成するための半教師付き手法を提案する。 本稿では,表情認識問題について,FER+, AffectNet, Extended Cohn-Kanade (CK+), BU-3DFE, JAFFEデータセットによる評価を行った。 表情検索や感情認識など,様々な応用において学習埋め込みが有効であることを実験的に実証した。

We propose a deep metric learning model to create embedded sub-spaces with a well defined structure. A new loss function that imposes Gaussian structures on the output space is introduced to create these sub-spaces thus shaping the distribution of the data. Having a mixture of Gaussians solution space is advantageous given its simplified and well established structure. It allows fast discovering of classes within classes and the identification of mean representatives at the centroids of individual classes. We also propose a new semi-supervised method to create sub-classes. We illustrate our methods on the facial expression recognition problem and validate results on the FER+, AffectNet, Extended Cohn-Kanade (CK+), BU-3DFE, and JAFFE datasets. We experimentally demonstrate that the learned embedding can be successfully used for various applications including expression retrieval and emotion recognition.
翻訳日:2023-01-10 05:11:05 公開日:2022-01-06
# 大規模確率ブロックモデルにおけるランダム化スペクトルクラスタリング

Randomized Spectral Clustering in Large-Scale Stochastic Block Models ( http://arxiv.org/abs/2002.00839v3 )

ライセンス: Link先を確認
Hai Zhang and Xiao Guo and Xiangyu Chang(参考訳) スペクトルクラスタリングは、ネットワーク内で広く使われているコミュニティ検出手法の1つである。 しかし、大規模ネットワークは固有値分解に計算課題をもたらす。 本稿では,統計学的観点からランダム化スケッチアルゴリズムを用いたスペクトルクラスタリングについて検討し,ネットワークデータは必ずしも完全ランクではない確率的ブロックモデルから生成されると仮定する。 そこで我々は,最近開発したスケッチアルゴリズムを用いて,ランダム投影法とランダムサンプリング法によるスペクトルクラスタリング法という2つのランダム化スペクトルクラスタリングアルゴリズムを得た。 次に, 集団隣接行列に対する近似誤差, 誤分類誤差, リンク確率行列に対する推定誤差の観点から, 得られたアルゴリズムの理論的境界について検討する。 穏やかな条件下では、ランダム化されたスペクトルクラスタリングアルゴリズムは、元のスペクトルクラスタリングアルゴリズムと同じ理論的境界をもたらすことが判明した。 また、結果を次数補正確率ブロックモデルに拡張する。 数値実験は理論的な知見をサポートし,ランダム化手法の効率を示す。 Rclustと呼ばれる新しいRパッケージが開発され、一般に公開されている。

Spectral clustering has been one of the widely used methods for community detection in networks. However, large-scale networks bring computational challenges to the eigenvalue decomposition therein. In this paper, we study the spectral clustering using randomized sketching algorithms from a statistical perspective, where we typically assume the network data are generated from a stochastic block model that is not necessarily of full rank. To do this, we first use the recently developed sketching algorithms to obtain two randomized spectral clustering algorithms, namely, the random projection-based and the random sampling-based spectral clustering. Then we study the theoretical bounds of the resulting algorithms in terms of the approximation error for the population adjacency matrix, the misclassification error, and the estimation error for the link probability matrix. It turns out that, under mild conditions, the randomized spectral clustering algorithms lead to the same theoretical bounds as those of the original spectral clustering algorithm. We also extend the results to degree-corrected stochastic block models. Numerical experiments support our theoretical findings and show the efficiency of randomized methods. A new R package called Rclust is developed and made available to the public.
翻訳日:2023-01-08 05:14:06 公開日:2022-01-06
# ポイントセットカーネルクラスタリング

Point-Set Kernel Clustering ( http://arxiv.org/abs/2002.05815v2 )

ライセンス: Link先を確認
Kai Ming Ting, Jonathan R. Wells and Ye Zhu(参考訳) 2つのオブジェクト間の類似度を測定することは、類似したオブジェクトをクラスタにグループ化する既存のクラスタリングアルゴリズムのコア操作である。 本稿では,オブジェクトとオブジェクトの集合の類似度を計算する点集合カーネルと呼ばれる新しい類似度尺度を提案する。 提案したクラスタリング手法は,シードオブジェクトから成長したすべてのクラスタを特徴付けるために,この新しい尺度を利用する。 新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。 対照的に、既存のクラスタリングアルゴリズムは効率的か効果的かのいずれかである。 最先端の密度ピーククラスタリングとスケーラブルなカーネルk平均クラスタリングと比較すると,提案アルゴリズムはより効率的で,数百万のデータポイントのデータセットに適用した場合,より高速に処理可能であることを示す。

Measuring similarity between two objects is the core operation in existing clustering algorithms in grouping similar objects into clusters. This paper introduces a new similarity measure called point-set kernel which computes the similarity between an object and a set of objects. The proposed clustering procedure utilizes this new measure to characterize every cluster grown from a seed object. We show that the new clustering procedure is both effective and efficient that enables it to deal with large scale datasets. In contrast, existing clustering algorithms are either efficient or effective. In comparison with the state-of-the-art density-peak clustering and scalable kernel k-means clustering, we show that the proposed algorithm is more effective and runs orders of magnitude faster when applying to datasets of millions of data points, on a commonly used computing machine.
翻訳日:2023-01-01 03:54:42 公開日:2022-01-06
# deep learning counter-forensicsにおける信頼度向上の例

Increased-confidence adversarial examples for deep learning counter-forensics ( http://arxiv.org/abs/2005.06023v2 )

ライセンス: Link先を確認
Wenjie Li, Benedetta Tondi, Rongrong Ni and Mauro Barni(参考訳) 実生活におけるディープラーニング(DL)に基づくマルチメディア・フォサイシクス(MMF)技術に対するこの種の攻撃を適用する上で,敵対例の転送性は重要な問題である。 実際、攻撃者が攻撃対象のシステムに関する完全な知識を持っていない場合、敵対的な例の転送能力は、成功した反法医学的攻撃への道を開くだろう。 いくつかの予備的な研究は、CNNベースの画像鑑定検出器に対する敵対的な例は、少なくとも最も人気のある図書館で実施された攻撃の基本バージョンが採用されている場合、一般的には非伝達可能であることを示した。 本稿では,攻撃の強度を高め,その強度が変化した場合の移動性を評価するための一般的な戦略を提案する。 このようにして,より大きな歪みを犠牲にして攻撃伝達性を大きく向上できることを実験的に示す。 本研究は,マルチメディア鑑定シナリオにおいても,敵対的事例の存在によって生じるセキュリティ上の脅威を確認し,DLベースのMMF技術のセキュリティを改善するための新たな防衛戦略を求める。

Transferability of adversarial examples is a key issue to apply this kind of attacks against multimedia forensics (MMF) techniques based on Deep Learning (DL) in a real-life setting. Adversarial example transferability, in fact, would open the way to the deployment of successful counter forensics attacks also in cases where the attacker does not have a full knowledge of the to-be-attacked system. Some preliminary works have shown that adversarial examples against CNN-based image forensics detectors are in general non-transferrable, at least when the basic versions of the attacks implemented in the most popular libraries are adopted. In this paper, we introduce a general strategy to increase the strength of the attacks and evaluate their transferability when such a strength varies. We experimentally show that, in this way, attack transferability can be largely increased, at the expense of a larger distortion. Our research confirms the security threats posed by the existence of adversarial examples even in multimedia forensics scenarios, thus calling for new defense strategies to improve the security of DL-based MMF techniques.
翻訳日:2022-12-03 19:46:05 公開日:2022-01-06
# 確率的勾配上昇を用いた共同学習環境と制御政策

Jointly Learning Environments and Control Policies with Projected Stochastic Gradient Ascent ( http://arxiv.org/abs/2006.01738v4 )

ライセンス: Link先を確認
Adrien Bolland, Ioannis Boukas, Mathias Berger, Damien Ernst(参考訳) 有限時間地平線上での離散時間確率力学系の結合設計と制御について考察する。 本研究では,システム設計の特定を求める不確実性の下での多段階最適化問題と,検討対象の時間的地平線上で収集した報奨の総和を最大化するための制御ポリシを定式化する。 遷移関数、報酬関数、およびポリシーはすべてパラメーターに対してパラメータ化され、推定され、微分可能である。 そこで本研究では,ポリシー勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。 本アルゴリズムは, モンテカルロサンプリングと自動微分による予測回帰の勾配を反復的に近似し, 環境パラメータと政策パラメータの空間における勾配上昇ステップを投影する。 このアルゴリズムは、Direct Environment and Policy Search (DEPS)と呼ばれる。 本研究では, マススプリングダンパシステム, 小型オフグリッド電力システム, ドローンの設計と制御に関する3つの環境において, 本アルゴリズムの性能を評価する。 さらに,共同設計および制御問題に対処するための最先端の深層強化学習アルゴリズムに対して,本アルゴリズムをベンチマークした。 DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを連続して生成する。 最後に,本アルゴリズムが生成する解を,環境パラメータとポリシーパラメータを共同で最適化しないアルゴリズムが生成する解と比較し,協調最適化を行う場合に高いリターンが得られることを強調する。

We consider the joint design and control of discrete-time stochastic dynamical systems over a finite time horizon. We formulate the problem as a multi-step optimization problem under uncertainty seeking to identify a system design and a control policy that jointly maximize the expected sum of rewards collected over the time horizon considered. The transition function, the reward function and the policy are all parametrized, assumed known and differentiable with respect to their parameters. We then introduce a deep reinforcement learning algorithm combining policy gradient methods with model-based optimization techniques to solve this problem. In essence, our algorithm iteratively approximates the gradient of the expected return via Monte-Carlo sampling and automatic differentiation and takes projected gradient ascent steps in the space of environment and policy parameters. This algorithm is referred to as Direct Environment and Policy Search (DEPS). We assess the performance of our algorithm in three environments concerned with the design and control of a mass-spring-damper system, a small-scale off-grid power system and a drone, respectively. In addition, our algorithm is benchmarked against a state-of-the-art deep reinforcement learning algorithm used to tackle joint design and control problems. We show that DEPS performs at least as well or better in all three environments, consistently yielding solutions with higher returns in fewer iterations. Finally, solutions produced by our algorithm are also compared with solutions produced by an algorithm that does not jointly optimize environment and policy parameters, highlighting the fact that higher returns can be achieved when joint optimization is performed.
翻訳日:2022-11-25 23:36:48 公開日:2022-01-06
# 偏極社会集団へのゼアロット導入による意見多様性の制御に向けて

Towards control of opinion diversity by introducing zealots into a polarised social group ( http://arxiv.org/abs/2006.07265v7 )

ライセンス: Link先を確認
Antoine Vendeville and Benjamin Guedj and Shi Zhou(参考訳) 偏極社会集団における意見の多様性に影響を与えるか、制御する方法を探究する。 我々は、ユーザーが二項意見を持ち、接続する他のものに基づいて信条を何度も更新する投票モデルを活用する。 心を変えることのない頑固なエージェント("zealots")もネットワークを通じて分散され、接続されたグラフによってモデル化される。 初期の結果に基づいて、平衡における群の平均的な意見に対する閉形式表現を提供する。 これにより、平均的な意見を任意の目標値に移すために、ゼアロットを分極されたネットワークに注入する戦略が導かれる。 我々はバックファイア効果の存在を考慮し、この効果により集団は負に反応し、反応における偏光レベルが強化される可能性がある。 この結果は合成データに関する数値実験によって裏付けられている。

We explore a method to influence or even control the diversity of opinions within a polarised social group. We leverage the voter model in which users hold binary opinions and repeatedly update their beliefs based on others they connect with. Stubborn agents who never change their minds ("zealots") are also disseminated through the network, which is modelled by a connected graph. Building on earlier results, we provide a closed-form expression for the average opinion of the group at equilibrium. This leads us to a strategy to inject zealots into a polarised network in order to shift the average opinion towards any target value. We account for the possible presence of a backfire effect, which may lead the group to react negatively and reinforce its level of polarisation in response. Our results are supported by numerical experiments on synthetic data.
翻訳日:2022-11-22 04:44:33 公開日:2022-01-06
# 対照的なコード表現学習

Contrastive Code Representation Learning ( http://arxiv.org/abs/2007.04973v4 )

ライセンス: Link先を確認
Paras Jain, Ajay Jain, Tianjun Zhang, Pieter Abbeel, Joseph E. Gonzalez, Ion Stoica(参考訳) 最近の研究は、そのコンテキストからトークンを再構築することで、ソースコードの文脈表現を学習する。 英語でコードを要約するような下流のセマンティック理解タスクでは、これらの表現は理想的にプログラム機能をキャプチャするべきである。 しかし、一般的な再構成に基づくBERTモデルは、編集が意味を保存する場合でもソースコードの編集に敏感であることを示す。 フォームではなく、コード機能を学ぶコントラコード(contracode)を提案する。 contracodeはニューラルネットワークを事前学習し、多くの非等価な邪魔者の間で、プログラムの機能的に類似した変種を識別する。 データ拡張の一形態として、自動ソース・ソース・コンパイラを使って、これらの変種を辛抱強く生成する。 対照的な事前トレーニングは、javascriptの要約とtypescriptの型推論精度を2%から13%向上させる。 また、新しいゼロショットJavaScriptコードクローン検出データセットを提案し、ContraCodeがより堅牢で意味のあるものであることを示す。 その上で,敵意設定では39%のaurocと,自然コードでは最大5%のrobertaを上回っています。

Recent work learns contextual representations of source code by reconstructing tokens from their context. For downstream semantic understanding tasks like summarizing code in English, these representations should ideally capture program functionality. However, we show that the popular reconstruction-based BERT model is sensitive to source code edits, even when the edits preserve semantics. We propose ContraCode: a contrastive pre-training task that learns code functionality, not form. ContraCode pre-trains a neural network to identify functionally similar variants of a program among many non-equivalent distractors. We scalably generate these variants using an automated source-to-source compiler as a form of data augmentation. Contrastive pre-training improves JavaScript summarization and TypeScript type inference accuracy by 2% to 13%. We also propose a new zero-shot JavaScript code clone detection dataset, showing that ContraCode is both more robust and semantically meaningful. On it, we outperform RoBERTa by 39% AUROC in an adversarial setting and up to 5% on natural code.
翻訳日:2022-11-12 03:13:20 公開日:2022-01-06
# 音響隣の埋め込み

Acoustic Neighbor Embeddings ( http://arxiv.org/abs/2007.10329v5 )

ライセンス: Link先を確認
Woojay Jeon(参考訳) 本稿では,任意の長さの音声やテキストを,確率的隣接埋め込み(SNE)を逐次入力に適応させることにより,固定次元のベクトル空間にマッピングする,Austic Neighbor Embeddingsと呼ばれる新しい音響単語埋め込みを提案する。 埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。 2つのエンコーダニューラルネットワークを訓練する:音響モデルから得られるフレーム毎のサブワード後方確率の形で音声信号を受け入れる音響エンコーダと、サブワード転写の形でテキストを受け入れるテキストエンコーダである。 三重項損失基準と比較すると,提案手法はニューラルネットワークトレーニングにおいてより効果的な勾配を持つことが示された。 また、2つのエンコーダネットワークを単語(名前)認識タスクでタンデムで使用する場合や、テキストエンコーダネットワークを近似音声マッチングタスクでスタンドアロンで使用する場合においても、低次元埋め込みによるより正確な結果が得られる。 特に、提案する埋め込みベクトル間のユークリッド最寄り探索のみに依存する孤立名称認識タスクにおいて、認識精度は従来の有限状態トランスデューサ(fst)に基づく復号化と同一であり、語彙100万名、埋め込み40次元の試験データを用いる。

This paper proposes a novel acoustic word embedding called Acoustic Neighbor Embeddings where speech or text of arbitrary length are mapped to a vector space of fixed, reduced dimensions by adapting stochastic neighbor embedding (SNE) to sequential inputs. The Euclidean distance between coordinates in the embedding space reflects the phonetic confusability between their corresponding sequences. Two encoder neural networks are trained: an acoustic encoder that accepts speech signals in the form of frame-wise subword posterior probabilities obtained from an acoustic model and a text encoder that accepts text in the form of subword transcriptions. Compared to a triplet loss criterion, the proposed method is shown to have more effective gradients for neural network training. Experimentally, it also gives more accurate results with low-dimensional embeddings when the two encoder networks are used in tandem in a word (name) recognition task, and when the text encoder network is used standalone in an approximate phonetic matching task. In particular, in an isolated name recognition task depending solely on Euclidean nearest-neighbor search between the proposed embedding vectors, the recognition accuracy is identical to that of conventional finite state transducer(FST)-based decoding using test data with up to 1 million names in the vocabulary and 40 dimensions in the embeddings.
翻訳日:2022-11-08 13:23:20 公開日:2022-01-06
# 高信頼・妥当性・説明可能性のための臨床意思決定の3段階知的支援

Three-stage intelligent support of clinical decision making for higher trust, validity, and explainability ( http://arxiv.org/abs/2007.12870v4 )

ライセンス: Link先を確認
Sergey V. Kovalchuk, Georgy D. Kopanitsa, Ilia V. Derevitskii, Daria A. Savitskaya(参考訳) 本稿では,CDSSの低適用性とスケーラビリティの問題を解決することを目的としたデータ駆動予測モデルを用いて,一貫した臨床診断支援システム(CDSS)を構築するためのアプローチを提案する。 このアプローチは、3段階のドメイン固有およびデータ駆動支援手順の応用に基づいており、高い信頼と予測結果とレコメンデーションの説明性を持つ臨床ビジネスプロセスに統合される予定である。 検討された3つの段階では、規制方針、データ駆動型モード、解釈手順が統合され、知的意思決定支援の焦点を連続的に絞った自然なドメイン固有の相互作用を可能にする。 提案手法はCDSSのより高度な自動化、スケーラビリティ、意味論的解釈を可能にする。 この手法はソフトウェアソリューションで実装され、T2DM予測のケーススタディでテストされ、既存のアプリケーションと同じような問題固有の推論インターフェースを維持しながら、既知の臨床スケール(FINDRISKなど)を改善することができる。 このような継承は、3段階のアプローチとともに、ソリューションのより高い互換性を提供し、現実世界のケースにおけるデータ駆動ソリューションの信頼性、有効性、説明可能な応用につながる。

The paper presents an approach for building consistent and applicable clinical decision support systems (CDSSs) using a data-driven predictive model aimed at resolving the problem of low applicability and scalability of CDSSs in real-world applications. The approach is based on a threestage application of domain-specific and data-driven supportive procedures that are to be integrated into clinical business processes with higher trust and explainability of the prediction results and recommendations. Within the considered three stages, the regulatory policy, data-driven modes, and interpretation procedures are integrated to enable natural domain-specific interaction with decisionmakers with sequential narrowing of the intelligent decision support focus. The proposed methodology enables a higher level of automation, scalability, and semantic interpretability of CDSSs. The approach was implemented in software solutions and tested within a case study in T2DM prediction, enabling us to improve known clinical scales (such as FINDRISK) while keeping the problem-specific reasoning interface similar to existing applications. Such inheritance, together with the three-staged approach, provide higher compatibility of the solution and leads to trust, valid, and explainable application of data-driven solutions in real-world cases.
翻訳日:2022-11-07 01:18:33 公開日:2022-01-06
# タンパク質とタンパク質の相互作用へのアサイン機能:PubMed抽象体を用いた弱制御BioBERTによるアプローチ

Assigning function to protein-protein interactions: a weakly supervised BioBERT based approach using PubMed abstracts ( http://arxiv.org/abs/2008.08727v3 )

ライセンス: Link先を確認
Aparna Elangovan, Melissa Davis and Karin Verspoor(参考訳) モチベーション:タンパク質-タンパク質相互作用(ppi)は正常細胞と疾患細胞の両方においてタンパク質の機能に不可欠であり、多くの重要なタンパク質機能には相互作用が関与している。 しかし、タンパク質相互作用データベースで取得されるPPIのごく一部に機能アノテーションがあり、例えば、IntActデータベースではPPIのわずか4%が機能アノテーションである。 本稿では,PubMed の要約に記述された関係を抽出することで,PPIの関数型をラベル付けすることを目的とする。 方法: IntAct PPIデータベースからアノテーション付きタンパク質対と関連する抽象化を含む弱い教師付きデータセットをPubMedデータベースから作成する。 バイオメディカル自然言語処理タスクBioBERTに最先端のディープラーニング技術を適用し,PPIの機能の同定にPPI-BioBERTと呼ばれるモデルを構築した。 高品質なPPI関数を大規模に抽出するために,不確実性評価を改善するためにPPI-BioBERTモデルのアンサンブルを用い,インタラクションタイプ固有のしきい値を適用し,インタラクションタイプ毎のトレーニングサンプル数の変動の影響を防止した。 結果: PubMedの抽象物質1800万件をスキャンし, リン酸化およびアセチル化相互作用を含む3253種の新規なPPIを自動同定し, 総合的精度は46% (87%) であった。 本研究は,PPI関数抽出のためのバイオメディカル抽象化の解析が,オンラインデータベースで取得した関数に注釈付けされたインタラクションの数を大幅に増やすための有効なアプローチであることを示す。

Motivation: Protein-protein interactions (PPI) are critical to the function of proteins in both normal and diseased cells, and many critical protein functions are mediated by interactions.Knowledge of the nature of these interactions is important for the construction of networks to analyse biological data. However, only a small percentage of PPIs captured in protein interaction databases have annotations of function available, e.g. only 4% of PPI are functionally annotated in the IntAct database. Here, we aim to label the function type of PPIs by extracting relationships described in PubMed abstracts. Method: We create a weakly supervised dataset from the IntAct PPI database containing interacting protein pairs with annotated function and associated abstracts from the PubMed database. We apply a state-of-the-art deep learning technique for biomedical natural language processing tasks, BioBERT, to build a model - dubbed PPI-BioBERT - for identifying the function of PPIs. In order to extract high quality PPI functions at large scale, we use an ensemble of PPI-BioBERT models to improve uncertainty estimation and apply an interaction type-specific threshold to counteract the effects of variations in the number of training samples per interaction type. Results: We scan 18 million PubMed abstracts to automatically identify 3253 new typed PPIs, including phosphorylation and acetylation interactions, with an overall precision of 46% (87% for acetylation) based on a human-reviewed sample. This work demonstrates that analysis of biomedical abstracts for PPI function extraction is a feasible approach to substantially increasing the number of interactions annotated with function captured in online databases.
翻訳日:2022-10-27 03:05:01 公開日:2022-01-06
# ガウス混合モデルを用いたサンプルベースカラー転送

Example-based Color Transfer with Gaussian Mixture Modeling ( http://arxiv.org/abs/2008.13626v3 )

ライセンス: Link先を確認
Chunzhi Gu, Xuequan Lu, Chao Zhang(参考訳) 画像編集において重要な役割を担う色転写は、最近注目されている。 時間を要する手動調整や事前セグメンテーション問題など、さまざまな問題により、これまでも課題となっている。 本稿では,確率的枠組みの下で色移動をモデル化し,パラメータ推定問題として位置づける。 特に、転送画像とガウス混合モデル(GMM)の例画像とを関連付け、転送画像の色をGMMセントロイドとみなす。 最適化には期待最大化(EM)アルゴリズム(EステップとMステップ)を用いる。 勾配情報をよりよく保存するために、勾配降下アルゴリズムを導出して解いたMステップの目的関数にラプラシアン系正規化項を導入する。 ソース画像とサンプル画像の入力を考えると、EMイテレーションの増加とともに連続的な色変換結果を生成することができる。 様々な実験により,本手法は視覚的にも定量的にも,他の競合色伝達法よりも優れていた。

Color transfer, which plays a key role in image editing, has attracted noticeable attention recently. It has remained a challenge to date due to various issues such as time-consuming manual adjustments and prior segmentation issues. In this paper, we propose to model color transfer under a probability framework and cast it as a parameter estimation problem. In particular, we relate the transferred image with the example image under the Gaussian Mixture Model (GMM) and regard the transferred image color as the GMM centroids. We employ the Expectation-Maximization (EM) algorithm (E-step and M-step) for optimization. To better preserve gradient information, we introduce a Laplacian based regularization term to the objective function at the M-step which is solved by deriving a gradient descent algorithm. Given the input of a source image and an example image, our method is able to generate continuous color transfer results with increasing EM iterations. Various experiments show that our approach generally outperforms other competitive color transfer methods, both visually and quantitatively.
翻訳日:2022-10-23 07:20:41 公開日:2022-01-06
# 画像分類器におけるバイアスの評価と軽減 : 反事実を用いた因果的視点

Evaluating and Mitigating Bias in Image Classifiers: A Causal Perspective Using Counterfactuals ( http://arxiv.org/abs/2009.08270v4 )

ライセンス: Link先を確認
Saloni Dash, Vineeth N Balasubramanian, Amit Sharma(参考訳) 特定の特徴を変えるが、他の特徴ではない摂動は、特定の集団に対する機械学習モデルのバイアスを評価するのに有用であることが示されている。 しかし、画像の様々な特徴に根ざした因果構造のため、画像の反実例を生成することは自明ではない。 意味を持つためには、生成摂動は因果モデルに含意される制約を満たす必要がある。 本稿では, 画像の属性間の因果関係に応じて, 逆因果関係を生成する改良型Adversarially Learned Inference (ALI) に, 構造因果モデル(SCM)を組み込むことにより, 逆因果関係を生成する手法を提案する。 生成した反事実に基づいて、事前学習された機械学習分類器の説明を行い、そのバイアスを評価し、反事実正規化器を用いてバイアスを軽減する方法を示す。 Morpho-MNIST データセットでは,より複雑な CelebA データセットでは,より高品質な有効なカウンティファクトを生成するために,DeepSCM よりも優れている。 また,人間の評価実験では,生成した偽物は再構成画像と区別できないため,celebaデータに基づく標準分類器の公平性を評価するために使用する。 分類器はw.r.t.の皮膚と毛髪の色が偏り、反事実正規化がこれらのバイアスをいかに取り除くかを示す。

Counterfactual examples for an input -- perturbations that change specific features but not others -- have been shown to be useful for evaluating bias of machine learning models, e.g., against specific demographic groups. However, generating counterfactual examples for images is non-trivial due to the underlying causal structure on the various features of an image. To be meaningful, generated perturbations need to satisfy constraints implied by the causal model. We present a method for generating counterfactuals by incorporating a structural causal model (SCM) in an improved variant of Adversarially Learned Inference (ALI), that generates counterfactuals in accordance with the causal relationships between attributes of an image. Based on the generated counterfactuals, we show how to explain a pre-trained machine learning classifier, evaluate its bias, and mitigate the bias using a counterfactual regularizer. On the Morpho-MNIST dataset, our method generates counterfactuals comparable in quality to prior work on SCM-based counterfactuals (DeepSCM), while on the more complex CelebA dataset our method outperforms DeepSCM in generating high-quality valid counterfactuals. Moreover, generated counterfactuals are indistinguishable from reconstructed images in a human evaluation experiment and we subsequently use them to evaluate the fairness of a standard classifier trained on CelebA data. We show that the classifier is biased w.r.t. skin and hair color, and how counterfactual regularization can remove those biases.
翻訳日:2022-10-17 08:42:49 公開日:2022-01-06
# スペクトル学習による重み付きオートマトン,テンソルネットワーク,リカレントニューラルネットワークの接続

Connecting Weighted Automata, Tensor Networks and Recurrent Neural Networks through Spectral Learning ( http://arxiv.org/abs/2010.10029v2 )

ライセンス: Link先を確認
Tianyu Li, Doina Precup, Guillaume Rabusseau(参考訳) 本稿では、形式言語と言語学からの重み付き有限オートマトン~(WFA)、機械学習で使用されるリカレントニューラルネットワーク、量子物理学や数値解析で使用される高次テンソルの一連の最適化技術を含むテンソルネットワークの3つのモデル間の接続について述べる。 まず、WFAとテンソル・トレインの分解(テンソル・ネットワークの特定の形態)の関係について述べる。 この関係により、WFAによって計算された関数のハンケル行列の新たな低階構造を示し、この構造を利用してアルゴリズムを非常に大きなハンケル行列まで拡張する効率的なスペクトル学習アルゴリズムを設計することができる。 重み付きオートマトンに対する古典的スペクトル学習アルゴリズムと組み合わせて、連続入力ベクトルの列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを導入し、このアルゴリズムは、線形2-RNNのパラメータを証明可能なハンケルテンソルの低階サブブロックの推定に依存する。 提案した学習アルゴリズムの性能は,合成データと実世界のデータの両方に関するシミュレーション研究で評価される。

In this paper, we present connections between three models used in different research fields: weighted finite automata~(WFA) from formal languages and linguistics, recurrent neural networks used in machine learning, and tensor networks which encompasses a set of optimization techniques for high-order tensors used in quantum physics and numerical analysis. We first present an intrinsic relation between WFA and the tensor train decomposition, a particular form of tensor network. This relation allows us to exhibit a novel low rank structure of the Hankel matrix of a function computed by a WFA and to design an efficient spectral learning algorithm leveraging this structure to scale the algorithm up to very large Hankel matrices.We then unravel a fundamental connection between WFA and second-orderrecurrent neural networks~(2-RNN): in the case of sequences of discrete symbols, WFA and 2-RNN with linear activationfunctions are expressively equivalent. Leveraging this equivalence result combined with the classical spectral learning algorithm for weighted automata, we introduce the first provable learning algorithm for linear 2-RNN defined over sequences of continuous input vectors.This algorithm relies on estimating low rank sub-blocks of the Hankel tensor, from which the parameters of a linear 2-RNN can be provably recovered. The performances of the proposed learning algorithm are assessed in a simulation study on both synthetic and real-world data.
翻訳日:2022-10-05 23:19:15 公開日:2022-01-06
# (参考訳) 進化型ニューラルネットワークの探索

Exploring Kervolutional Neural Networks ( http://arxiv.org/abs/2201.07264v1 )

ライセンス: CC BY 4.0
Nicolas Perez(参考訳) cvpr 2019で発表された論文では、新たなタイプの拡張畳み込みニューラルネットワーク(cnn)で使用される、"kervolutional neural network"(knn)と呼ばれる新しいテクニックが概説されている。 論文は、KNNはCNNよりも早く収束し、高い精度を達成すると主張している。 この「ミニペーパー」は、元の論文の発見をさらに調べ、KNNアーキテクチャのより詳細な分析を行う。 これは、KNNとCNNに対するハイパーパラメータ(特に学習率)の影響を分析し、元の論文ではテストされていない他のタイプのカーボリューション操作の実験、精度と収束時間のより厳密な統計分析、さらなる理論的分析によって行われる。 添付コードも公開されている。

A paper published in the CVPR 2019 conference outlines a new technique called 'kervolution' used in a new type of augmented convolutional neural network (CNN) called a 'kervolutional neural network' (KNN). The paper asserts that KNNs achieve faster convergence and higher accuracies than CNNs. This "mini paper" will further examine the findings in the original paper and perform a more in depth analysis of the KNN architecture. This will be done by analyzing the impact of hyper parameters (specifically the learning rate) on KNNs versus CNNs, experimenting with other types of kervolution operations not tested in the original paper, a more rigourous statistical analysis of accuracies and convergence times and additional theoretical analysis. The accompanying code is publicly available.
翻訳日:2022-01-23 21:18:17 公開日:2022-01-06
# (参考訳) CausalKG:介入と反事実推論を用いた因果知識グラフの説明可能性

CausalKG: Causal Knowledge Graph Explainability using interventional and counterfactual reasoning ( http://arxiv.org/abs/2201.03647v1 )

ライセンス: CC BY 4.0
Utkarshani Jaimini, Amit Sheth(参考訳) 人間は日常的な意思決定、計画、人生の出来事の理解において因果関係と仮説的振り返りを用いる。 人間の心は、与えられた状況を振り返りながら、「与えられた状況の原因は何か?」「私の行動の効果は何か?」「この効果はどのような行動に導かれたのか?」といった疑問を思い浮かべる。 それは世界の因果モデルを開発し、少ないデータポイントで学習し、推論を行い、反現実的なシナリオを考えます。 未知の、未知のシナリオは偽物として知られている。 AIアルゴリズムは、時間、空間、事実の概念を表現するために知識グラフ(KG)に基づく表現を使用する。 KGは、イベントやオブジェクト、概念といったエンティティ間のセマンティックな関係をキャプチャするグラフィカルデータモデルである。 既存のKGは、ConceptNetやWordNetのように、語句の言語パターンに基づいてテキストから抽出された因果関係を表す。 kgsにおける現在の因果関係表現は、偽りの推論をサポートするのに困難である。 KGベースのアプローチによるAIシステムの因果関係のより豊かな表現は、説明可能性の向上と介入と反事実推論のサポートのために必要であり、それによって人間によるAIシステムの理解が向上する。 因果関係表現は、文脈、因果情報、因果効果を定義するためのより高い表現枠組みを必要とする。 因果知識グラフ(Causal Knowledge Graph, CausalKG)フレームワークは、因果性やKGの最近の進歩を説明可能性に活用する。 CausalKGは、ドメイン適応型因果モデルの欠如に対処し、KGのハイパーリレーショナルグラフ表現を用いて複雑な因果関係を表現する。 我々は、CausalKGの介入的および反ファクト的推論が、AIシステムによってドメイン説明可能性に利用できることを示した。

Humans use causality and hypothetical retrospection in their daily decision-making, planning, and understanding of life events. The human mind, while retrospecting a given situation, think about questions such as "What was the cause of the given situation?", "What would be the effect of my action?", or "Which action led to this effect?". It develops a causal model of the world, which learns with fewer data points, makes inferences, and contemplates counterfactual scenarios. The unseen, unknown, scenarios are known as counterfactuals. AI algorithms use a representation based on knowledge graphs (KG) to represent the concepts of time, space, and facts. A KG is a graphical data model which captures the semantic relationships between entities such as events, objects, or concepts. The existing KGs represent causal relationships extracted from texts based on linguistic patterns of noun phrases for causes and effects as in ConceptNet and WordNet. The current causality representation in KGs makes it challenging to support counterfactual reasoning. A richer representation of causality in AI systems using a KG-based approach is needed for better explainability, and support for intervention and counterfactuals reasoning, leading to improved understanding of AI systems by humans. The causality representation requires a higher representation framework to define the context, the causal information, and the causal effects. The proposed Causal Knowledge Graph (CausalKG) framework, leverages recent progress of causality and KG towards explainability. CausalKG intends to address the lack of a domain adaptable causal model and represent the complex causal relations using the hyper-relational graph representation in the KG. We show that the CausalKG's interventional and counterfactual reasoning can be used by the AI system for the domain explainability.
翻訳日:2022-01-16 16:30:47 公開日:2022-01-06
# (参考訳) エキスパート補正を用いたbitcoin価格予測モデリング

Bitcoin Price Predictive Modeling Using Expert Correction ( http://arxiv.org/abs/2201.02729v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この論文は、Bitcoin通貨統計、マイニングプロセス、Google検索トレンド、Wikipediaページ訪問に基づくレグレッション機能を含む、Bitcoin価格の線形モデルを研究する。 実価格からの回帰モデル予測のずれのパターンは、価格時系列と比較するとより単純である。 このパターンは経験豊富な専門家によって予測できると考えられる。 このような方法で、回帰モデルと専門家の補正を組み合わせることで、回帰モデルや専門家の意見よりも優れた結果を得ることができるのです。 ベイジアンアプローチは、太い尾を持つ分布を用いて確率的アプローチを利用でき、Bitcoin価格時系列の外れ値を考慮することができることが示されている。

The paper studies the linear model for Bitcoin price which includes regression features based on Bitcoin currency statistics, mining processes, Google search trends, Wikipedia pages visits. The pattern of deviation of regression model prediction from real prices is simpler comparing to price time series. It is assumed that this pattern can be predicted by an experienced expert. In such a way, using the combination of the regression model and expert correction, one can receive better results than with either regression model or expert opinion only. It is shown that Bayesian approach makes it possible to utilize the probabilistic approach using distributions with fat tails and take into account the outliers in Bitcoin price time series.
翻訳日:2022-01-13 01:02:44 公開日:2022-01-06
# (参考訳) 包括的RFデータセット収集とリリース:深層学習型デバイスフィンガープリントのユースケース

Comprehensive RF Dataset Collection and Release: A Deep Learning-Based Device Fingerprinting Use Case ( http://arxiv.org/abs/2201.02213v1 )

ライセンス: CC0 1.0
Abdurrahman Elmaghbub, Bechir Hamdaoui(参考訳) ディープラーニングベースのRFフィンガープリントは、スペクトルアクセスポリシーの執行、自動ネットワークデバイス認証、不正なネットワークアクセス監視と制御など、新しい無線ネットワークアプリケーションを可能にする潜在的ソリューションとして最近認識されている。 新たに開発されたRFフィンガープリント手法の研究、評価、検証を可能にするために、実際の包括的なRFデータセットはこれまでになく必要となっている。 本稿では,USRP B210受信機を用いて,25種類のLoRa対応IoT伝送デバイスから収集した大規模RFフィンガープリントデータセットについて述べる。 我々のデータセットは、多数のSigMF準拠バイナリファイルからなり、I/Q時間領域のサンプルと対応するFFTベースのLoRa送信ファイルで構成されている。 このデータセットは、屋内と屋外の両方の環境と、送信機と受信機の間の距離、考慮されたLoRa変調の設定、実施された実験の物理的位置、ニューラルネットワークモデルのトレーニングとテストに使用される受信機ハードウェアなど、様々なネットワーク配置と構成を考慮して、包括的な実験シナリオを提供する。

Deep learning-based RF fingerprinting has recently been recognized as a potential solution for enabling newly emerging wireless network applications, such as spectrum access policy enforcement, automated network device authentication, and unauthorized network access monitoring and control. Real, comprehensive RF datasets are now needed more than ever to enable the study, assessment, and validation of newly developed RF fingerprinting approaches. In this paper, we present and release a large-scale RF fingerprinting dataset, collected from 25 different LoRa-enabled IoT transmitting devices using USRP B210 receivers. Our dataset consists of a large number of SigMF-compliant binary files representing the I/Q time-domain samples and their corresponding FFT-based files of LoRa transmissions. This dataset provides a comprehensive set of essential experimental scenarios, considering both indoor and outdoor environments and various network deployments and configurations, such as the distance between the transmitters and the receiver, the configuration of the considered LoRa modulation, the physical location of the conducted experiment, and the receiver hardware used for training and testing the neural network models.
翻訳日:2022-01-10 23:08:45 公開日:2022-01-06
# (参考訳) 大規模タンパク質-タンパク質-翻訳後修飾抽出法

Large-scale protein-protein post-translational modification extraction with distant supervision and confidence calibrated BioBERT ( http://arxiv.org/abs/2201.02229v1 )

ライセンス: CC BY 4.0
Aparna Elangovan, Yuan Li, Douglas E. V. Pires, Melissa J. Davis and Karin Verspoor(参考訳) タンパク質とタンパク質の相互作用(PPI)は正常な細胞機能に重要であり、多くの疾患経路と関連している。 しかし、ppisの4%がptmを無傷の生物学的知識データベースにアノテートしており、主に手動のキュレーションによって行われているが、時間や費用効果はない。 IntAct PPIデータベースを用いて、相互作用するタンパク質対、対応するPTMタイプ、およびPubMedデータベースからの関連する抽象化を付加した遠隔教師付きデータセットを作成する。 信頼性校正を改善するため,BioBERTモデルを用いたPPI-BioBERT-x10のアンサンブルを訓練する。 本稿では,信頼度変化を伴うアンサンブル平均信頼度アプローチの利用を拡張し,クラス不均衡の効果を相殺して高い信頼度を推定する。 テストセットで評価されたPPI-BioBERT-x10モデルは、控えめなF1-micro 41.3(P =5.1、R = 32.1)となった。 しかし、高い信頼性と低変動を組み合わせて高品質な予測を識別し、精度の予測を調整することで、100%精度でテスト予測の19%を維持した。 PPI-BioBERT-x10を1千万のPubMed抽象体上で評価し,PTM-PPI予測から1.6万(546507個)のPTM-PPI予測とフィルタ5700(4584個)の高信頼予測を抽出した。 5700のうち、ランダムにサンプリングされた小さなサブセットに対する人間による評価は、信頼性校正にもかかわらず精度が33.7%に低下し、信頼性校正においてもテストセットを超えて一般可能性の課題が強調された。 複数の論文に関連付けられた予測を含まないことで問題を回避し,58.8%の精度で精度を向上する。 本研究は,深層学習によるテキストマイニングの実践におけるメリットと課題と,人間のキュレーション活動を促進するための信頼性校正の強調の必要性を強調した。

Protein-protein interactions (PPIs) are critical to normal cellular function and are related to many disease pathways. However, only 4% of PPIs are annotated with PTMs in biological knowledge databases such as IntAct, mainly performed through manual curation, which is neither time nor cost-effective. We use the IntAct PPI database to create a distant supervised dataset annotated with interacting protein pairs, their corresponding PTM type, and associated abstracts from the PubMed database. We train an ensemble of BioBERT models - dubbed PPI-BioBERT-x10 to improve confidence calibration. We extend the use of ensemble average confidence approach with confidence variation to counteract the effects of class imbalance to extract high confidence predictions. The PPI-BioBERT-x10 model evaluated on the test set resulted in a modest F1-micro 41.3 (P =5 8.1, R = 32.1). However, by combining high confidence and low variation to identify high quality predictions, tuning the predictions for precision, we retained 19% of the test predictions with 100% precision. We evaluated PPI-BioBERT-x10 on 18 million PubMed abstracts and extracted 1.6 million (546507 unique PTM-PPI triplets) PTM-PPI predictions, and filter ~ 5700 (4584 unique) high confidence predictions. Of the 5700, human evaluation on a small randomly sampled subset shows that the precision drops to 33.7% despite confidence calibration and highlights the challenges of generalisability beyond the test set even with confidence calibration. We circumvent the problem by only including predictions associated with multiple papers, improving the precision to 58.8%. In this work, we highlight the benefits and challenges of deep learning-based text mining in practice, and the need for increased emphasis on confidence calibration to facilitate human curation efforts.
翻訳日:2022-01-10 22:56:16 公開日:2022-01-06
# (参考訳) ブラジルのジャーナリストを対象とした情報運用におけるバレンス測定への単語埋め込みの適用

Applying Word Embeddings to Measure Valence in Information Operations Targeting Journalists in Brazil ( http://arxiv.org/abs/2201.02257v1 )

ライセンス: CC0 1.0
David A. Broniatowski(参考訳) 情報操作の目標は、情報環境 vis-\'a-vis 特定のアクターを変更することである。 例えば「トロール運動」は、特定の公的人物の信用を弱体化させ、他人を不信にさせ、これらの人物を脅かして沈黙させようとする。 これらの目的を達成するため、情報活動では、これらの人物の言葉による虐待を狙う悪意のあるオンラインアクターである「トロール」を頻繁に利用している。ブラジルでは、特にブラジルの現大統領の同盟国が、この政治家や他の政権の汚職を訴えるジャーナリストを狙った「ヘイト・キャビネット」を運営していると非難されている。 GoogleのパースペクティブAPIのような有害なスピーチを検出するための主要なアプローチは、有害なコンテンツで特定のメッセージを特定することである。 このアプローチはコンテンツをダウンランク、フラグ、削除するのに役立つが、脆いことが知られており、会話により微妙なバイアスを導入する試みを見逃す可能性がある。 ここでは,対象とする情報操作が,特定の俳優の総合的価値や評価をいかに変えようとするかを評価するための尺度を開発することを目的とする。 予備結果は、既知のキャンペーンが男性ジャーナリストよりも女性ジャーナリストをターゲットにしていることを示唆している。

Among the goals of information operations are to change the overall information environment vis-\'a-vis specific actors. For example, "trolling campaigns" seek to undermine the credibility of specific public figures, leading others to distrust them and intimidating these figures into silence. To accomplish these aims, information operations frequently make use of "trolls" -- malicious online actors who target verbal abuse at these figures. In Brazil, in particular, allies of Brazil's current president have been accused of operating a "hate cabinet" -- a trolling operation that targets journalists who have alleged corruption by this politician and other members of his regime. Leading approaches to detecting harmful speech, such as Google's Perspective API, seek to identify specific messages with harmful content. While this approach is helpful in identifying content to downrank, flag, or remove, it is known to be brittle, and may miss attempts to introduce more subtle biases into the discourse. Here, we aim to develop a measure that might be used to assess how targeted information operations seek to change the overall valence, or appraisal, of specific actors. Preliminary results suggest known campaigns target female journalists more so than male journalists, and that these campaigns may leave detectable traces in overall Twitter discourse.
翻訳日:2022-01-10 22:29:41 公開日:2022-01-06
# (参考訳) ITSA:ステレオマッチングネットワークにおける自動ショートカット回避とドメイン一般化のための情報理論アプローチ

ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks ( http://arxiv.org/abs/2201.02263v1 )

ライセンス: CC BY 4.0
WeiQin Chuah, Ruwan Tennakoon, Reza Hoseinnezhad, Alireza Bab-Hadiashar, David Suter(参考訳) 合成データだけで訓練された最先端のステレオマッチングネットワークは、しばしばより困難な実際のデータドメインに一般化できない。 本稿では,ショートカット学習のレンズを通して,ドメイン間のネットワークの一般化を妨げる重要な要因を開拓しようと試みる。 ステレオマッチングネットワークにおける特徴表現の学習は,合成データアーティファクト(ショートカット属性)の影響を強く受けている。 この問題を軽減するために,情報理論的ショートカット回避(ITSA)アプローチを提案し,ショートカット関連情報を特徴表現にエンコードすることを自動的に制限する。 提案手法は,入力変動に対する潜在特徴の感度を最小化し,ロバストで近距離不変な特徴を学習する。 直接入力感度最適化の計算コストの禁止を回避するため,ロバスト性を実現するための有効なアルゴリズムを提案する。 この手法を用いることで,純粋に合成データに基づいてトレーニングされた最先端のステレオマッチングネットワークが,実データシナリオの挑戦的かつ未認識に効果的に一般化できることを示す。 提案手法は,合成学習ネットワークのロバスト性を向上し,ドメイン外のステレオデータセットに挑戦するために(実データ上で)微調整されたネットワークよりも優れた性能を発揮する。

State-of-the-art stereo matching networks trained only on synthetic data often fail to generalize to more challenging real data domains. In this paper, we attempt to unfold an important factor that hinders the networks from generalizing across domains: through the lens of shortcut learning. We demonstrate that the learning of feature representations in stereo matching networks is heavily influenced by synthetic data artefacts (shortcut attributes). To mitigate this issue, we propose an Information-Theoretic Shortcut Avoidance~(ITSA) approach to automatically restrict shortcut-related information from being encoded into the feature representations. As a result, our proposed method learns robust and shortcut-invariant features by minimizing the sensitivity of latent features to input variations. To avoid the prohibitive computational cost of direct input sensitivity optimization, we propose an effective yet feasible algorithm to achieve robustness. We show that using this method, state-of-the-art stereo matching networks that are trained purely on synthetic data can effectively generalize to challenging and previously unseen real data scenarios. Importantly, the proposed method enhances the robustness of the synthetic trained networks to the point that they outperform their fine-tuned counterparts (on real data) for challenging out-of-domain stereo datasets.
翻訳日:2022-01-10 22:17:23 公開日:2022-01-06
# (参考訳) 敵対的に堅牢で差別的にプライベートであることを学ぶ

Learning to be adversarially robust and differentially private ( http://arxiv.org/abs/2201.02265v1 )

ライセンス: CC BY 4.0
Jamie Hayes, Borja Balle, M. Pawan Kumar(参考訳) 我々は,ロバストかつ差動的にプライベートな最適化から生じる学習の難しさについて検討する。 まず,線形分離データに対する単純な二分分類タスクを例にとり,微分プライバシーを用いた勾配降下型逆学習の収束について検討した。 個人と非個人の両方において,敵対的リスクと名目的リスクのギャップを比較検討した結果,個人的最適化によって引き起こされるデータ次元依存項は頑健なモデルを学ぶことの難しさを示している。 その後、敵のトレーニングと差分プライバシーのどの部分が最適化を損なうかについて議論し、対立の摂動の大きさと差分プライバシーにおけるクリッピング規範が、損失景観の曲率を増大させ、一般化性能の低下を示唆する。

We study the difficulties in learning that arise from robust and differentially private optimization. We first study convergence of gradient descent based adversarial training with differential privacy, taking a simple binary classification task on linearly separable data as an illustrative example. We compare the gap between adversarial and nominal risk in both private and non-private settings, showing that the data dimensionality dependent term introduced by private optimization compounds the difficulties of learning a robust model. After this, we discuss what parts of adversarial training and differential privacy hurt optimization, identifying that the size of adversarial perturbation and clipping norm in differential privacy both increase the curvature of the loss landscape, implying poorer generalization performance.
翻訳日:2022-01-10 22:00:05 公開日:2022-01-06
# (参考訳) PWM2Vec: コロナウイルススパイク配列からのウイルス宿主仕様の効率的な埋め込み手法

PWM2Vec: An Efficient Embedding Approach for Viral Host Specification from Coronavirus Spike Sequences ( http://arxiv.org/abs/2201.02273v1 )

ライセンス: CC0 1.0
Sarwan Ali, Babatunde Bello, Prakash Chourasia, Ria Thazhe Punathil, Yijing Zhou, Murray Patterson(参考訳) 新型コロナウイルス(covid-19)のパンデミックはまだ不明だ。 コウモリが起源の可能性があるという憶測がある。 同様に、SARSのような近縁な(コロナウイルス)ウイルスが多数存在し、シベットを介して感染することが判明した。 ヒトへの致命的なウイルスのキャリアや送信者になりうる異なるホストの研究は、現在のパンデミックと将来のパンデミックを理解し、緩和し、予防するために重要である。 ウイルスでは、表面(s)タンパク質またはスパイクタンパク質は、ウイルスと宿主細胞膜との接触点であるため、宿主特異性を決定する重要な部分である。 本稿では, スパイクタンパク質配列から500万以上のウイルスの宿主を分類し, 鳥類, コウモリ, ラクダ, 豚, 人間, 麻疹の異なる宿主群に分離し, 数種の宿主を同定する。 我々は、PWM2Vecと呼ばれるよく知られた位置重み行列(PWM)に基づく特徴埋め込みを提案し、これらのウイルスのスパイクタンパク質配列から特徴ベクトルを生成する。 我々の埋め込みは、タンパク質機能の決定や転写因子結合部位の同定などの生物学的応用におけるPWMsの成功に触発されているが、ウイルス配列からのホスト分類の文脈でPWMsを使用して固定長の特徴ベクトル表現を生成するのはこれが初めてである。 実世界のデータから,PWM2Vecを用いることで,ベースラインモデルと同等に動作可能であることが示された。 また、情報ゲインを用いて異なるアミノ酸の重要性を測定し、特定のウイルスの宿主を予測する上で重要なアミノ酸を示す。

COVID-19 pandemic, is still unknown and is an important open question. There are speculations that bats are a possible origin. Likewise, there are many closely related (corona-) viruses, such as SARS, which was found to be transmitted through civets. The study of the different hosts which can be potential carriers and transmitters of deadly viruses to humans is crucial to understanding, mitigating and preventing current and future pandemics. In coronaviruses, the surface (S) protein, or spike protein, is an important part of determining host specificity since it is the point of contact between the virus and the host cell membrane. In this paper, we classify the hosts of over five thousand coronaviruses from their spike protein sequences, segregating them into clusters of distinct hosts among avians, bats, camels, swines, humans and weasels, to name a few. We propose a feature embedding based on the well-known position-weight matrix (PWM), which we call PWM2Vec, and use to generate feature vectors from the spike protein sequences of these coronaviruses. While our embedding is inspired by the success of PWMs in biological applications such as determining protein function, or identifying transcription factor binding sites, we are the first (to the best of our knowledge) to use PWMs in the context of host classification from viral sequences to generate a fixed-length feature vector representation. The results on the real world data show that in using PWM2Vec, we are able to perform comparably well as compared to baseline models. We also measure the importance of different amino acids using information gain to show the amino acids which are important for predicting the host of a given coronavirus.
翻訳日:2022-01-10 21:32:01 公開日:2022-01-06
# マルチモード網膜画像登録のための容器構造に基づくキーポイント検出と記述ネットワーク

A Keypoint Detection and Description Network Based on the Vessel Structure for Multi-Modal Retinal Image Registration ( http://arxiv.org/abs/2201.02242v1 )

ライセンス: Link先を確認
Aline Sindel (1), Bettina Hohberger (2), Sebastian Fassihi Dehcordi (2), Christian Mardin (2), Robert L\"ammer (2), Andreas Maier (1), Vincent Christlein (1) ((1) Pattern Recognition Lab, FAU Erlangen-N\"urnberg, (2) Department of Ophthalmology, Universit\"atsklinikum Erlangen)(参考訳) 眼科画像はカラーファンデース、赤外線、蛍光血管造影、オプティカルコヒーレンス断層撮影(oct)、oct血管造影などの異なるイメージングシステムを利用している。 異なるモダリティや取得時間を持つ複数の画像は網膜疾患の診断のためにしばしば分析される。 マルチモーダル登録による画像内の血管構造の自動調整は、眼科医の作業を支援することができる。 本手法は畳み込みニューラルネットワークを用いて多モード網膜画像の血管構造の特徴を抽出する。 我々は、分類とクロスモーダル記述子損失関数を用いて、小さなパッチ上のキーポイント検出と記述ネットワークを共同で訓練し、テストフェーズにおける全画像サイズに適用する。 提案手法は,競合する手法と比較して,提案手法と公開マルチモーダルデータセット上で最高の登録性能を示す。

Ophthalmological imaging utilizes different imaging systems, such as color fundus, infrared, fluorescein angiography, optical coherence tomography (OCT) or OCT angiography. Multiple images with different modalities or acquisition times are often analyzed for the diagnosis of retinal diseases. Automatically aligning the vessel structures in the images by means of multi-modal registration can support the ophthalmologists in their work. Our method uses a convolutional neural network to extract features of the vessel structure in multi-modal retinal images. We jointly train a keypoint detection and description network on small patches using a classification and a cross-modal descriptor loss function and apply the network to the full image size in the test phase. Our method demonstrates the best registration performance on our and a public multi-modal dataset in comparison to competing methods.
翻訳日:2022-01-10 15:41:44 公開日:2022-01-06
# 都市表面:歩道材料の都市規模セマンティックセグメンテーション

CitySurfaces: City-Scale Semantic Segmentation of Sidewalk Materials ( http://arxiv.org/abs/2201.02260v1 )

ライセンス: Link先を確認
Maryam Hosseini and Fabio Miranda and Jianzhe Lin and Claudio Silva(参考訳) 持続可能でレジリエントな都市構築環境の設計は、世界中でますます推進されているが、重要なデータギャップは、持続可能性問題への挑戦を迫る研究に繋がった。 舗装は経済的・環境的な影響が強いことが知られているが、ほとんどの都市は費用がかかり、時間を要するデータ収集の性質から、その表面の空間カタログを欠いている。 近年のコンピュータビジョンの進歩とストリートレベルの画像の入手は、都市がより低コストで精度の高い大規模構築環境データを抽出する新たな機会を提供する。 本稿では,街路面画像を用いた歩道資料の分類にコンピュータビジョン技術を活用した能動的学習基盤であるCitySurfacesを提案する。 我々は、ニューヨーク市とボストンの画像に基づいてフレームワークを訓練し、評価結果は90.5%のmIoUスコアを示した。 さらに,6つの異なる都市の画像を用いてフレームワークの評価を行い,トレーニングデータの領域外においても異なる都市構造を持つ地域に適用可能であることを示した。 citysurfacesは、気候変動や水面管理といった主要な持続可能性問題に対処する上で重要な役割を果たす歩道の材料データを収集する、低コストで正確で拡張可能な方法を研究者や市当局に提供することができる。

While designing sustainable and resilient urban built environment is increasingly promoted around the world, significant data gaps have made research on pressing sustainability issues challenging to carry out. Pavements are known to have strong economic and environmental impacts; however, most cities lack a spatial catalog of their surfaces due to the cost-prohibitive and time-consuming nature of data collection. Recent advancements in computer vision, together with the availability of street-level images, provide new opportunities for cities to extract large-scale built environment data with lower implementation costs and higher accuracy. In this paper, we propose CitySurfaces, an active learning-based framework that leverages computer vision techniques for classifying sidewalk materials using widely available street-level images. We trained the framework on images from New York City and Boston and the evaluation results show a 90.5% mIoU score. Furthermore, we evaluated the framework using images from six different cities, demonstrating that it can be applied to regions with distinct urban fabrics, even outside the domain of the training data. CitySurfaces can provide researchers and city agencies with a low-cost, accurate, and extensible method to collect sidewalk material data which plays a critical role in addressing major sustainability issues, including climate change and surface water management.
翻訳日:2022-01-10 15:41:29 公開日:2022-01-06
# 教師なしデュアルブランチ学習による脳動脈瘤の3次元分類と分節化

3D Intracranial Aneurysm Classification and Segmentation via Unsupervised Dual-branch Learning ( http://arxiv.org/abs/2201.02198v1 )

ライセンス: Link先を確認
Di Shao, Xuequan Lu, Xiao Liu(参考訳) 頭蓋内動脈瘤は近年一般的であり、それをインテリジェントに検出する方法はデジタルヘルスにおいて非常に重要である。 既存の深層学習研究は、医用画像の教師あり方式に重点を置いているが、3Dポイントクラウドデータに基づく頭蓋内動脈瘤検出のための教師なし手法を導入している。 特に本手法は,教師なし事前学習とダウンストリームタスクの2段階からなる。 前者については、各点の雲をジッタリングした雲と組み合わせて対応を最大化するというのが主な考えである。 次に、各分岐とその後の共通投影ヘッドのためのエンコーダを備えた二重分岐コントラストネットワークを設計する。 後者については,教師付き分類とセグメンテーショントレーニングのための単純なネットワークを設計する。 intra(public dataset)による実験では,最先端の監視技術と同等あるいはそれ以上のパフォーマンスが得られており,動脈瘤血管の検出において最も顕著である。 ModelNet40の実験では、既存の最先端の教師なしモデルを上回る90.79\%の精度を達成した。

Intracranial aneurysms are common nowadays and how to detect them intelligently is of great significance in digital health. While most existing deep learning research focused on medical images in a supervised way, we introduce an unsupervised method for the detection of intracranial aneurysms based on 3D point cloud data. In particular, our method consists of two stages: unsupervised pre-training and downstream tasks. As for the former, the main idea is to pair each point cloud with its jittered counterpart and maximise their correspondence. Then we design a dual-branch contrastive network with an encoder for each branch and a subsequent common projection head. As for the latter, we design simple networks for supervised classification and segmentation training. Experiments on the public dataset (IntrA) show that our unsupervised method achieves comparable or even better performance than some state-of-the-art supervised techniques, and it is most prominent in the detection of aneurysmal vessels. Experiments on the ModelNet40 also show that our method achieves the accuracy of 90.79\% which outperforms existing state-of-the-art unsupervised models.
翻訳日:2022-01-10 14:51:08 公開日:2022-01-06
# 一貫したスタイル転送

Consistent Style Transfer ( http://arxiv.org/abs/2201.02233v1 )

ライセンス: Link先を確認
Xuan Luo, Zhen Han, Lingkang Yang, Lingling Zhang(参考訳) 近年,スタイライゼーションのためのコンテンツとスタイル特徴の点的類似性を操作する細粒度結果を達成するために,注意的任意のスタイル転送手法が提案されている。 しかし,特徴点に基づく注意機構は特徴量分布を無視し,各特徴多様体が画像中の意味領域に対応する。 その結果、一様コンテンツセマンティック領域は、様々なスタイルセマンティック領域と非常に異なるパターンでレンダリングされ、視覚的アーティファクトとの一貫性のないスタイリング結果が生成される。 我々は、注意操作と空間認識補間を繰り返し適用するこの問題を緩和するために、progressive attentional manifold alignment (pama) を提案した。 注意操作は、コンテンツ特徴の空間分布に応じて動的にスタイル特徴を並べ替える。 これにより、コンテンツとスタイル多様体は特徴写像に対応する。 すると空間認識補間は対応するコンテンツとスタイル多様体の間に適応的に補間し、それらの類似性を高める。 コンテンツ多様体をスタイル多様体に徐々に整列させることにより,提案したPAMAは意味領域の不整合を回避しつつ,最先端の性能を実現する。 コードはhttps://github.com/ computer-vision2022/PAMAで入手できる。

Recently, attentional arbitrary style transfer methods have been proposed to achieve fine-grained results, which manipulates the point-wise similarity between content and style features for stylization. However, the attention mechanism based on feature points ignores the feature multi-manifold distribution, where each feature manifold corresponds to a semantic region in the image. Consequently, a uniform content semantic region is rendered by highly different patterns from various style semantic regions, producing inconsistent stylization results with visual artifacts. We proposed the progressive attentional manifold alignment (PAMA) to alleviate this problem, which repeatedly applies attention operations and space-aware interpolations. The attention operation rearranges style features dynamically according to the spatial distribution of content features. This makes the content and style manifolds correspond on the feature map. Then the space-aware interpolation adaptively interpolates between the corresponding content and style manifolds to increase their similarity. By gradually aligning the content manifolds to style manifolds, the proposed PAMA achieves state-of-the-art performance while avoiding the inconsistency of semantic regions. Codes are available at https://github.com/computer-vision2022/PAMA.
翻訳日:2022-01-10 14:48:34 公開日:2022-01-06
# 野生の3dオブジェクトのデレンダリング

De-rendering 3D Objects in the Wild ( http://arxiv.org/abs/2201.02279v1 )

ライセンス: Link先を確認
Felix Wimbauer, Shangzhe Wu, Christian Rupprecht(参考訳) 拡張現実および仮想現実アプリケーション(XR)への注目が高まるにつれ、画像やビデオからさまざまな3Dタスクに適した表現にオブジェクトを持ち上げるアルゴリズムの需要が高まっている。 XRデバイスとアプリケーションの大規模展開は、現実世界の無限のオブジェクトのデータの収集と注釈付けが不可能であるため、教師付き学習のみに頼ることはできないことを意味します。 本稿では,物体の1つの像を形状(深度と正規度),材料(アルベド,反射率,光度),大域照明パラメータに分解できる弱教師付き手法を提案する。 トレーニングでは、学習プロセスをブートストラップするために、トレーニング対象の粗い初期形状の推定にのみ依存する。 この形状の監視は、例えば、事前訓練された深度ネットワークから、あるいは、より汎用的に、従来の構造から移動パイプラインから得ることができる。 本実験では,2次元画像を分解して3次元表現に分解し,未知の対象カテゴリに一般化できることを示す。 また, 実測データがないため, 実測評価が困難であるため, 定量的評価を可能にするフォトリアリスティック合成テストセットも導入する。

With increasing focus on augmented and virtual reality applications (XR) comes the demand for algorithms that can lift objects from images and videos into representations that are suitable for a wide variety of related 3D tasks. Large-scale deployment of XR devices and applications means that we cannot solely rely on supervised learning, as collecting and annotating data for the unlimited variety of objects in the real world is infeasible. We present a weakly supervised method that is able to decompose a single image of an object into shape (depth and normals), material (albedo, reflectivity and shininess) and global lighting parameters. For training, the method only relies on a rough initial shape estimate of the training objects to bootstrap the learning process. This shape supervision can come for example from a pretrained depth network or - more generically - from a traditional structure-from-motion pipeline. In our experiments, we show that the method can successfully de-render 2D images into a decomposed 3D representation and generalizes to unseen object categories. Since in-the-wild evaluation is difficult due to the lack of ground truth data, we also introduce a photo-realistic synthetic test set that allows for quantitative evaluation.
翻訳日:2022-01-10 14:48:16 公開日:2022-01-06
# 非局所カーネルネットワーク : 安定かつ分解能に依存しないディープニューラルネットワーク

Nonlocal Kernel Network (NKN): a Stable and Resolution-Independent Deep Neural Network ( http://arxiv.org/abs/2201.02217v1 )

ライセンス: Link先を確認
Huaiqian You, Yue Yu, Marta D'Elia, Tian Gao, Stewart Silling(参考訳) ニューラルネットワークの形で関数空間間の解マップを設計するツールが最近人気になっている。 既知の偏微分方程式(PDE)のパラメータを、固定された解像度で入力パラメータの単一インスタンスに対して学習する古典的な科学機械学習アプローチとは異なり、ニューラル演算子は、PDEのファミリーの解写像を近似する。 その成功にもかかわらず、ニューラルネットワークの使用は比較的浅いニューラルネットワークに限定されており、隠された統治法を学ぶことに限定されている。 本研究では,非局所カーネルネットワーク(NKN)と呼ばれる,深層ニューラルネットワークを特徴とする分解能独立性を持ち,制御方程式の学習や画像の分類など,さまざまなタスクを処理可能な,新しい非局所ニューラルネットワークを提案する。 我々のNKNは、ニューラルネットワークを離散非局所拡散反応方程式として解釈し、無限層の極限において、その安定性は非局所ベクトル計算によって解析される放物型非局所方程式と等価である。 ニューラルネットワークの積分形式との類似性により、NKNは特徴空間における長距離依存関係をキャプチャし、ノード間相互作用の継続的な処理はNKNの分解を独立にすることができる。 非局所的な意味で再解釈されたニューラルodeと、層間の安定したネットワークダイナミクスにより、nknの最適パラメータを浅層から深層ネットワークへ一般化することができる。 この事実は浅層から深層への初期化技術の利用を可能にする。 実験の結果,NKNは制御方程式および画像分類タスクの学習において,基本的手法よりも優れ,解法や深度によく対応していることがわかった。

Neural operators have recently become popular tools for designing solution maps between function spaces in the form of neural networks. Differently from classical scientific machine learning approaches that learn parameters of a known partial differential equation (PDE) for a single instance of the input parameters at a fixed resolution, neural operators approximate the solution map of a family of PDEs. Despite their success, the uses of neural operators are so far restricted to relatively shallow neural networks and confined to learning hidden governing laws. In this work, we propose a novel nonlocal neural operator, which we refer to as nonlocal kernel network (NKN), that is resolution independent, characterized by deep neural networks, and capable of handling a variety of tasks such as learning governing equations and classifying images. Our NKN stems from the interpretation of the neural network as a discrete nonlocal diffusion reaction equation that, in the limit of infinite layers, is equivalent to a parabolic nonlocal equation, whose stability is analyzed via nonlocal vector calculus. The resemblance with integral forms of neural operators allows NKNs to capture long-range dependencies in the feature space, while the continuous treatment of node-to-node interactions makes NKNs resolution independent. The resemblance with neural ODEs, reinterpreted in a nonlocal sense, and the stable network dynamics between layers allow for generalization of NKN's optimal parameters from shallow to deep networks. This fact enables the use of shallow-to-deep initialization techniques. Our tests show that NKNs outperform baseline methods in both learning governing equations and image classification tasks and generalize well to different resolutions and depths.
翻訳日:2022-01-10 14:25:38 公開日:2022-01-06
# (参考訳) セマンティックコミュニケーション: 原則と課題

Semantic Communications: Principles and Challenges ( http://arxiv.org/abs/2201.01389v2 )

ライセンス: CC BY 4.0
Zhijin Qin, Xiaoming Tao, Jianhua Lu, and Geoffrey Ye Li(参考訳) 意味コミュニケーションはシャノンパラダイムを超えた突破口と見なされ、個々のシンボルやビットの正確な受信よりも、ソースによって伝達される意味情報の伝達の成功を目指している。 本稿では,セマンティックコミュニケーションの概要を紹介する。 シャノン情報理論の簡単なレビューの後、深層学習によって実現される理論、フレームワーク、システム設計とのセマンティックコミュニケーションについて論じる。 従来の通信システムの測定に用いられるシンボル/ビット誤り率とは違い,意味コミュニケーションのための新しい性能指標についても論じる。 この記事はいくつかのオープンな質問で締めくくられている。

Semantic communication, regarded as the breakthrough beyond Shannon paradigm, aims at the successful transmission of semantic information conveyed by the source rather than the accurate reception of each single symbol or bit regardless of its meaning. This article provides an overview on semantic communications. After a brief review on Shannon information theory, we discuss semantic communications with theory, frameworks, and system design enabled by deep learning. Different from the symbol/bit error rate used for measuring the conventional communication systems, new performance metrics for semantic communications are also discussed. The article is concluded by several open questions.
翻訳日:2022-01-09 13:57:55 公開日:2022-01-06
# (参考訳) 表面誘導ganを用いた実物匿名化

Realistic Full-Body Anonymization with Surface-Guided GANs ( http://arxiv.org/abs/2201.02193v1 )

ライセンス: CC BY 4.0
H{\aa}kon Hukkel{\aa}s, Morten Smebye, Rudolf Mester, Frank Lindseth(参考訳) 画像匿名化に関する最近の研究は、生成的敵ネットワーク(gans)が個人を匿名化するためにほぼフォトリアリスティックな顔を生成することができることを示した。 しかし、これらのネットワークを人体全体に拡張することは、困難でありながら未解決の課題である。 We propose a new anonymization method that generates close-to-photorealistic humans for in-the-wild images.A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface.We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator.Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearance in complex and varying scenes.We show that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator.Finally, we demonstrate that surface-guided anonymization preserves the usability of data for future computer vision development

Recent work on image anonymization has shown that generative adversarial networks (GANs) can generate near-photorealistic faces to anonymize individuals. However, scaling these networks to the entire human body has remained a challenging and yet unsolved task. We propose a new anonymization method that generates close-to-photorealistic humans for in-the-wild images.A key part of our design is to guide adversarial nets by dense pixel-to-surface correspondences between an image and a canonical 3D surface.We introduce Variational Surface-Adaptive Modulation (V-SAM) that embeds surface information throughout the generator.Combining this with our novel discriminator surface supervision loss, the generator can synthesize high quality humans with diverse appearance in complex and varying scenes.We show that surface guidance significantly improves image quality and diversity of samples, yielding a highly practical generator.Finally, we demonstrate that surface-guided anonymization preserves the usability of data for future computer vision development
翻訳日:2022-01-09 09:21:05 公開日:2022-01-06
# (参考訳) 自動関連作業生成:メタスタディ

Automatic Related Work Generation: A Meta Study ( http://arxiv.org/abs/2201.01880v1 )

ライセンス: CC BY 4.0
Xiangci Li and Jessica Ouyang(参考訳) 学術研究は、これまで解決されたことのない問題を解決するための調査活動である。 この性質上、各学術研究活動は、先行研究が取り組んだことのない斬新さを区別するために、文献レビューを行う必要がある。 自然言語処理では、この文献レビューは「関連作業」のセクションで通常実施される。 自動関連作業生成のタスクは、研究論文の残りと引用論文のリストを与えられた「関連作業」セクションを自動的に生成することを目的としている。 この課題は10年以上前に提案されたが、科学的多文書要約問題の変種として紹介されるまでほとんど注目されなかった。 しかし、現在でも自動関連作業や引用テキスト生成の問題は標準化されていない。 本研究では,課題の定式化,データセットの収集,方法論的アプローチ,パフォーマンス評価,今後の展望などの観点から,関連するワークジェネレーションに関する既存の文献をメタスタディとして比較し,最先端研究の進展と今後の研究のあり方について読者の洞察を提供する。 また,今後の統合について検討すべき研究分野についても検討する。

Academic research is an exploration activity to solve problems that have never been resolved before. By this nature, each academic research work is required to perform a literature review to distinguish its novelties that have not been addressed by prior works. In natural language processing, this literature review is usually conducted under the "Related Work" section. The task of automatic related work generation aims to automatically generate the "Related Work" section given the rest of the research paper and a list of cited papers. Although this task was proposed over 10 years ago, it received little attention until very recently, when it was cast as a variant of the scientific multi-document summarization problem. However, even today, the problems of automatic related work and citation text generation are not yet standardized. In this survey, we conduct a meta-study to compare the existing literature on related work generation from the perspectives of problem formulation, dataset collection, methodological approach, performance evaluation, and future prospects to provide the reader insight into the progress of the state-of-the-art studies, as well as and how future studies can be conducted. We also survey relevant fields of study that we suggest future work to consider integrating.
翻訳日:2022-01-07 20:51:58 公開日:2022-01-06
# (参考訳) タイムラプスデータを用いたメモリ誘導画像のデレイニング

Memory-guided Image De-raining Using Time-Lapse Data ( http://arxiv.org/abs/2201.01883v1 )

ライセンス: CC BY 4.0
Jaehoon Cho, Seungryong Kim, Kwanghoon Sohn(参考訳) 本稿では, 降雨物に隠れた単一画像から, きれいで無雨の背景環境を復元する作業である, 単一画像デライニングの課題に対処する。 近年では,雨クリーン画像対の必要性を克服するために実世界のタイムラプスデータを採用しているが,タイムラプスデータを完全に活用することは制限されている。 主な原因は、ネットワークアーキテクチャの観点からは、メモリコンポーネントの欠如により、トレーニング中のタイムラプスデータに長期間の雨季情報を取り込むことができなかったことである。 この問題に対処するため,我々は,タイムラプスデータに長期間の雨量情報を取り込むのに役立つメモリネットワークに基づく新しいネットワークアーキテクチャを提案する。 本ネットワークはエンコーダ・デコーダネットワークとメモリネットワークからなる。 エンコーダから抽出された特徴は、レインストリーク認識特徴表現を格納する複数のメモリアイテムを含むメモリネットワークで読み取り更新される。 メモリネットワークは、読み取り/更新操作により、クエリの観点から関連するメモリアイテムを検索し、タイムラプスデータに含まれる様々なレインストリークをメモリアイテムが表現できるようにする。 また,記憶特徴の識別能力を高めるため,背景情報を消去することで,雨害情報のみを記憶ネットワークに記録する新たな背景選択白化(BSW)損失を提示する。 標準ベンチマーク実験の結果,提案手法の有効性と優位性を示した。

This paper addresses the problem of single image de-raining, that is, the task of recovering clean and rain-free background scenes from a single image obscured by a rainy artifact. Although recent advances adopt real-world time-lapse data to overcome the need for paired rain-clean images, they are limited to fully exploit the time-lapse data. The main cause is that, in terms of network architectures, they could not capture long-term rain streak information in the time-lapse data during training owing to the lack of memory components. To address this problem, we propose a novel network architecture based on a memory network that explicitly helps to capture long-term rain streak information in the time-lapse data. Our network comprises the encoder-decoder networks and a memory network. The features extracted from the encoder are read and updated in the memory network that contains several memory items to store rain streak-aware feature representations. With the read/update operation, the memory network retrieves relevant memory items in terms of the queries, enabling the memory items to represent the various rain streaks included in the time-lapse data. To boost the discriminative power of memory features, we also present a novel background selective whitening (BSW) loss for capturing only rain streak information in the memory network by erasing the background information. Experimental results on standard benchmarks demonstrate the effectiveness and superiority of our approach.
翻訳日:2022-01-07 20:50:55 公開日:2022-01-06
# (参考訳) シーングラフを用いたインクリメンタルオブジェクトグラウンド

Incremental Object Grounding Using Scene Graphs ( http://arxiv.org/abs/2201.01901v1 )

ライセンス: CC BY 4.0
John Seon Keun Yi, Yoonwoo Kim, Sonia Chernova(参考訳) オブジェクトグラウンディングタスクは、言葉によるコミュニケーションを通じて、画像中の対象物を見つけることを目的としている。 ヒューマンコマンドを理解することは、効果的なヒューマンロボットコミュニケーションに必要な重要なプロセスである。 しかし、人間の命令は曖昧で誤っているため、これは難しい。 本稿では,シーングラフから得られた意味データに基づいて,エージェントが関連する質問を行うことにより,人間の参照表現の曖昧さを解消することを目的とする。 エージェントがシーングラフからのオブジェクト間の関係を利用して、元のユーザコマンドを曖昧にする意味的な質問をすることができるかどうかをテストする。 本稿では,画像シーングラフからのセマンティックデータと,言語シーングラフから人力によるグラウンドオブジェクトへの言語構造を用いた曖昧なモデルである,シーングラフを用いたインクリメンタルグラウンド(IGSG)を提案する。 IGSGはベースラインと比較して、複数の同一対象物が存在する複雑な現実世界のシーンで有望な結果を示す。 IGSGは、ユーザに対して曖昧な質問をすることで、曖昧さや間違った参照表現を効果的に曖昧にすることができる。

Object grounding tasks aim to locate the target object in an image through verbal communications. Understanding human command is an important process needed for effective human-robot communication. However, this is challenging because human commands can be ambiguous and erroneous. This paper aims to disambiguate the human's referring expressions by allowing the agent to ask relevant questions based on semantic data obtained from scene graphs. We test if our agent can use relations between objects from a scene graph to ask semantically relevant questions that can disambiguate the original user command. In this paper, we present Incremental Grounding using Scene Graphs (IGSG), a disambiguation model that uses semantic data from an image scene graph and linguistic structures from a language scene graph to ground objects based on human command. Compared to the baseline, IGSG shows promising results in complex real-world scenes where there are multiple identical target objects. IGSG can effectively disambiguate ambiguous or wrong referring expressions by asking disambiguating questions back to the user.
翻訳日:2022-01-07 20:25:00 公開日:2022-01-06
# (参考訳) コントラスト的近隣アライメント

Contrastive Neighborhood Alignment ( http://arxiv.org/abs/2201.01922v1 )

ライセンス: CC BY 4.0
Pengkai Zhu, Zhaowei Cai, Yuanjun Xiong, Zhuowen Tu, Luis Goncalves, Vijay Mahadevan, Stefano Soatto(参考訳) 本稿では,学習特徴のトポロジーを維持するための多様体学習手法であるコントラスト的近傍アライメント(cna)について述べる。 対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。 CNAは教師なし学習アルゴリズムであり、個々のサンプルに対して基調ラベルを必要としない。 cnaは3つのシナリオで示される: モデルが次元が縮小された空間における元のデータの局所トポロジを維持する多様体学習、小さな学生モデルがより大きな教師を模倣するように訓練されるモデル蒸留、古いモデルをより強力なものに置き換えるレガシーモデル更新。 実験により、cnaは高次元空間で多様体を捉えることができ、領域内の競合する方法と比較して性能が向上することが示された。

We present Contrastive Neighborhood Alignment (CNA), a manifold learning approach to maintain the topology of learned features whereby data points that are mapped to nearby representations by the source (teacher) model are also mapped to neighbors by the target (student) model. The target model aims to mimic the local structure of the source representation space using a contrastive loss. CNA is an unsupervised learning algorithm that does not require ground-truth labels for the individual samples. CNA is illustrated in three scenarios: manifold learning, where the model maintains the local topology of the original data in a dimension-reduced space; model distillation, where a small student model is trained to mimic a larger teacher; and legacy model update, where an older model is replaced by a more powerful one. Experiments show that CNA is able to capture the manifold in a high-dimensional space and improves performance compared to the competing methods in their domains.
翻訳日:2022-01-07 20:14:02 公開日:2022-01-06
# (参考訳) Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization ( http://arxiv.org/abs/2201.01928v1 )

ライセンス: CC BY 4.0
Hao Jiang, Calvin Murdock, Vamsi Krishna Ithapu(参考訳) 拡張現実デバイスは、人間の知覚を高め、複雑な会話環境における他の補助機能を可能にする可能性がある。 これらの社会的相互作用を理解するのに必要な音声・視覚コンテキストを効果的に把握するには、デバイス着用者と周囲の人々の音声活動を検出し、位置決めする必要がある。 装着者の頭部の動きは動きのぼやけを引き起こす可能性があり、周囲の人々は視界の難しい角度に現れる可能性があり、オクルージョン、視覚的乱雑、オーディオノイズ、照明の悪さがある。 これらの条件下では、以前の最先端のアクティブ話者検出手法では十分な結果が得られない。 代わりに、ビデオとマルチチャネルマイクロホンアレーオーディオの両方を使用して、新しい設定から問題に取り組む。 本稿では,音声活動の検出と局所化を堅牢に行うための,新しいエンドツーエンドディープラーニング手法を提案する。 従来手法とは対照的に、カメラの視野外においても、球面上のあらゆる可能な方向からアクティブな話者をローカライズし、同時に装置装着者の音声活動を検出する。 実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。

Augmented reality devices have the potential to enhance human perception and enable other assistive functionalities in complex conversational environments. Effectively capturing the audio-visual context necessary for understanding these social interactions first requires detecting and localizing the voice activities of the device wearer and the surrounding people. These tasks are challenging due to their egocentric nature: the wearer's head motion may cause motion blur, surrounding people may appear in difficult viewing angles, and there may be occlusions, visual clutter, audio noise, and bad lighting. Under these conditions, previous state-of-the-art active speaker detection methods do not give satisfactory results. Instead, we tackle the problem from a new setting using both video and multi-channel microphone array audio. We propose a novel end-to-end deep learning approach that is able to give robust voice activity detection and localization results. In contrast to previous methods, our method localizes active speakers from all possible directions on the sphere, even outside the camera's field of view, while simultaneously detecting the device wearer's own voice activity. Our experiments show that the proposed method gives superior results, can run in real time, and is robust against noise and clutter.
翻訳日:2022-01-07 19:57:54 公開日:2022-01-06
# (参考訳) DReyeVR:行動・インタラクション研究のためのバーチャルリアリティーにおける運転シミュレーションの民主化

DReyeVR: Democratizing driving simulation in virtual reality for behavioural & interaction research ( http://arxiv.org/abs/2201.01931v1 )

ライセンス: CC BY 4.0
Gustavo Silvera and Abhijat Biswas and Henny Admoni(参考訳) シミュレータは、運転実験の安全性、コスト、実験的な制御問題のために、運転に関する行動と相互作用の研究に不可欠なツールである。 最も先進的なシミュレーターは、高価格の360度プロジェクションシステムを使用して、視力、視野、没入性を確保する。 しかし、同様の視覚的忠実度は、バーチャルリアリティー(VR)ベースのビジュアルインターフェースで十分達成できる。 DReyeVRは、行動および相互作用研究の優先順位を念頭において設計された、オープンソースのVRベースの運転シミュレータプラットフォームである。 DReyeVR (read ``driver'')はUnreal EngineとCARLAの自動運転車シミュレータをベースにしており、アイトラッキング、機能駆動ヘッドアップディスプレイ(HUD)と車載オーディオ、カスタム定義可能なルートと交通シナリオ、実験的なロギング、再生機能、ROSとの互換性などを備えている。 このシミュレータを5000ドル以下で展開するために必要なハードウェアについて説明する。 最後に,DReyeVRを用いてインタラクション研究の質問に答える方法について,実例で述べる。

Simulators are an essential tool for behavioural and interaction research on driving, due to the safety, cost, and experimental control issues of on-road driving experiments. The most advanced simulators use expensive 360 degree projections systems to ensure visual fidelity, full field of view, and immersion. However, similar visual fidelity can be achieved affordably using a virtual reality (VR) based visual interface. We present DReyeVR, an open-source VR based driving simulator platform designed with behavioural and interaction research priorities in mind. DReyeVR (read ``driver'') is based on Unreal Engine and the CARLA autonomous vehicle simulator and has features such as eye tracking, a functional driving heads-up display (HUD) and vehicle audio, custom definable routes and traffic scenarios, experimental logging, replay capabilities, and compatibility with ROS. We describe the hardware required to deploy this simulator for under $5000$ USD, much cheaper than commercially available simulators. Finally, we describe how DReyeVR may be leveraged to answer an interaction research question in an example scenario.
翻訳日:2022-01-07 19:45:23 公開日:2022-01-06
# (参考訳) 因果表現の効率化

Efficiently Disentangle Causal Representations ( http://arxiv.org/abs/2201.01942v1 )

ライセンス: CC BY 4.0
Yuanpeng Li, Joel Hestness, Mohamed Elhoseiny, Liang Zhao, Kenneth Church(参考訳) 本稿では,元の分布と新しい分布の条件付き確率の差に基づく因果機構を用いた非絡み合い表現の学習手法を提案する。 モデルの一般化能力との違いを近似して、標準的な機械学習フレームワークに適合し、効率的に計算できる。 学習者の新しい分布への適応速度に依存する最先端のアプローチとは対照的に,提案手法ではモデルの一般化能力を評価する必要がある。 本稿では,提案手法の利点を理論的に説明し,提案手法が従来手法より1.9--11.0$\times$高効率で,9.4--32.4倍高速であることを示す。 ソースコードは \url{https://github.com/yuanpeng16/EDCR} で入手できる。

This paper proposes an efficient approach to learning disentangled representations with causal mechanisms based on the difference of conditional probabilities in original and new distributions. We approximate the difference with models' generalization abilities so that it fits in the standard machine learning framework and can be efficiently computed. In contrast to the state-of-the-art approach, which relies on the learner's adaptation speed to new distribution, the proposed approach only requires evaluating the model's generalization ability. We provide a theoretical explanation for the advantage of the proposed method, and our experiments show that the proposed technique is 1.9--11.0$\times$ more sample efficient and 9.4--32.4 times quicker than the previous method on various tasks. The source code is available at \url{https://github.com/yuanpeng16/EDCR}.
翻訳日:2022-01-07 19:33:41 公開日:2022-01-06
# (参考訳) 機械学習:アルゴリズム、モデル、応用

Machine Learning: Algorithms, Models, and Applications ( http://arxiv.org/abs/2201.01943v1 )

ライセンス: CC BY-SA 4.0
Jaydip Sen, Sidra Mehtab, Rajdeep Sen, Abhishek Dutta, Pooja Kherwa, Saheel Ahmed, Pranay Berry, Sahil Khurana, Sonali Singh, David W. W Cadotte, David W. Anderson, Kalum J. Ost, Racheal S. Akinbo, Oladunni A. Daramola, and Bongs Lainjo(参考訳) 近年,機械学習アルゴリズムシステム,特に強化学習,自然言語処理,コンピュータビジョン,ロボットビジョン,画像処理,音声処理,感情処理と理解において,急速な発展が見られる。 機械学習モデル、アルゴリズム、それらの応用の重要性と関連性の増加、そしてディープラーニングと人工知能のより革新的なユースケースの出現に合わせて、現在のボリュームは、ストックトレーディング、医療および医療システム、ソフトウェアオートメーションなど、現実世界におけるいくつかの革新的な研究成果とその応用を示している。 本書の章では、機械学習とディープラーニングアルゴリズムとモデルがどのように設計、最適化、デプロイされているかを説明している。 このボリュームは、上級の大学院生、博士課程の学生、研究者、大学の教員、データサイエンティスト、データエンジニア、専門家、および機械学習、ディープラーニング、人工知能の幅広い分野に取り組むコンサルタントに有用である。

Recent times are witnessing rapid development in machine learning algorithm systems, especially in reinforcement learning, natural language processing, computer and robot vision, image processing, speech, and emotional processing and understanding. In tune with the increasing importance and relevance of machine learning models, algorithms, and their applications, and with the emergence of more innovative uses cases of deep learning and artificial intelligence, the current volume presents a few innovative research works and their applications in real world, such as stock trading, medical and healthcare systems, and software automation. The chapters in the book illustrate how machine learning and deep learning algorithms and models are designed, optimized, and deployed. The volume will be useful for advanced graduate and doctoral students, researchers, faculty members of universities, practicing data scientists and data engineers, professionals, and consultants working on the broad areas of machine learning, deep learning, and artificial intelligence.
翻訳日:2022-01-07 19:12:20 公開日:2022-01-06
# (参考訳) リモートセンシング画像のマルチラベル分類

Multi-Label Classification on Remote-Sensing Images ( http://arxiv.org/abs/2201.01971v1 )

ライセンス: CC BY 4.0
Aditya Kumar Singh and B. Uma Shankar(参考訳) 衛星カメラで地球表面の広い範囲の情報を取得することは、地上に立っている間に見られる以上のものを見ることを可能にする。 これは、土地利用パターン、大気条件、森林被覆、および多くの未登録の側面のような領域の物理的特性の検出と監視を支援する。 得られた画像は連続的な自然現象を追跡するだけでなく、深刻な森林破壊の世界的な課題に取り組む上でも重要である。 中でもAmazonは毎年最大のシェアを占めている。 適切なデータ分析は、持続的な健全な環境で生態系と生物多様性に対する有害な影響を制限するのに役立つだろう。 本報告は,アマゾン熱帯雨林の衛星画像チップに,異なる機械学習と優れたディープラーニングモデルを用いて,大気および様々な土地被覆や土地利用を分類することを目的としている。 評価はF2測度に基づいて行われ、損失関数については、Sigmoid cross-entropy と Softmax cross-entropy の両方がある。 事前訓練されたimagenetアーキテクチャを使用して特徴のみを抽出すると、画像は機械学習分類器に間接的に供給される。 ディープラーニングモデルでは、微調整されたimagenet事前学習モデルのアンサンブルが転送学習によって使用される。 今までのベストスコアは、F2測定値が0.927である。

Acquiring information on large areas on the earth's surface through satellite cameras allows us to see much more than we can see while standing on the ground. This assists us in detecting and monitoring the physical characteristics of an area like land-use patterns, atmospheric conditions, forest cover, and many unlisted aspects. The obtained images not only keep track of continuous natural phenomena but are also crucial in tackling the global challenge of severe deforestation. Among which Amazon basin accounts for the largest share every year. Proper data analysis would help limit detrimental effects on the ecosystem and biodiversity with a sustainable healthy atmosphere. This report aims to label the satellite image chips of the Amazon rainforest with atmospheric and various classes of land cover or land use through different machine learning and superior deep learning models. Evaluation is done based on the F2 metric, while for loss function, we have both sigmoid cross-entropy as well as softmax cross-entropy. Images are fed indirectly to the machine learning classifiers after only features are extracted using pre-trained ImageNet architectures. Whereas for deep learning models, ensembles of fine-tuned ImageNet pre-trained models are used via transfer learning. Our best score was achieved so far with the F2 metric is 0.927.
翻訳日:2022-01-07 19:11:01 公開日:2022-01-06
# (参考訳) SASA:ポイントベース3次元オブジェクト検出のためのセマンティックス拡張セット抽象化

SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection ( http://arxiv.org/abs/2201.01976v1 )

ライセンス: CC BY 4.0
Chen Chen, Zhe Chen, Jing Zhang and Dacheng Tao(参考訳) ポイントベースのネットワークは3dポイントクラウドモデリングで正確であることが実証されているが、3d検出ではvoxelベースの競合に遅れをとっている。 ダウンサンプリング点に対する一般的な集合抽象設計は、対象を検出するための特徴学習に影響を及ぼすような、重要でない背景情報を維持する可能性がある。 この問題に対処するため,セマンティックス拡張集合抽象化(SASA)と呼ばれる新しい集合抽象化手法を提案する。 技術的には、フォアグラウンドポイントの識別を支援するために、まずサイド出力としてバイナリセグメンテーションモジュールを追加します。 そこで,前景推定スコアに基づいて,ダウンサンプリング時の重要前景点保持を支援するセマンティクス誘導点サンプリングアルゴリズムを提案する。 実際、sasaは前景オブジェクトに関連する貴重なポイントを識別し、ポイントベースの3d検出のための特徴学習を改善するのに効果的であることを示している。 さらに、プラグインが容易なモジュールであり、単段と二段を含む様々な点ベースの検出器を増強することができる。 人気のあるkittiとnuscenesデータセットに関する広範囲な実験は、最先端のvoxelベースの方法に匹敵する性能に達するポイントベースの検出モデルであるsasaの優位性を検証する。

Although point-based networks are demonstrated to be accurate for 3D point cloud modeling, they are still falling behind their voxel-based competitors in 3D detection. We observe that the prevailing set abstraction design for down-sampling points may maintain too much unimportant background information that can affect feature learning for detecting objects. To tackle this issue, we propose a novel set abstraction method named Semantics-Augmented Set Abstraction (SASA). Technically, we first add a binary segmentation module as the side output to help identify foreground points. Based on the estimated point-wise foreground scores, we then propose a semantics-guided point sampling algorithm to help retain more important foreground points during down-sampling. In practice, SASA shows to be effective in identifying valuable points related to foreground objects and improving feature learning for point-based 3D detection. Additionally, it is an easy-to-plug-in module and able to boost various point-based detectors, including single-stage and two-stage ones. Extensive experiments on the popular KITTI and nuScenes datasets validate the superiority of SASA, lifting point-based detection models to reach comparable performance to state-of-the-art voxel-based methods.
翻訳日:2022-01-07 19:09:47 公開日:2022-01-06
# (参考訳) ニューラルネットワークを用いたヒンディー語のヘイトスピーチ検出と伝達学習に関する探索実験

An exploratory experiment on Hindi, Bengali hate-speech detection and transfer learning using neural networks ( http://arxiv.org/abs/2201.01997v1 )

ライセンス: CC BY 4.0
Tung Minh Phung, Jan Cloos(参考訳) 本研究では,ヒンディー語とベンガル語におけるヘイトスピーチテキストを検出するニューラルネットワークのトレーニング手法を提案する。 また、これらの言語が同じ起源を持つため、いくつかの拡張に類似していることから、トランスファーラーニングをこれらの言語学習に適用する方法についても検討する。 実験全体は低い計算力で実施されたが、得られた結果は他のより高価なモデルの結果に匹敵するものである。 さらに、使用中のトレーニングデータは比較的小さく、2つの言語はほとんど不明であるため、この研究は、人間が理解できない失われた言語やエイリアンの言語を解読する試みとして一般化することができる。

This work presents our approach to train a neural network to detect hate-speech texts in Hindi and Bengali. We also explore how transfer learning can be applied to learning these languages, given that they have the same origin and thus, are similar to some extend. Even though the whole experiment was conducted with low computational power, the obtained result is comparable to the results of other, more expensive, models. Furthermore, since the training data in use is relatively small and the two languages are almost entirely unknown to us, this work can be generalized as an effort to demystify lost or alien languages that no human is capable of understanding.
翻訳日:2022-01-07 18:54:49 公開日:2022-01-06
# (参考訳) 異常部分群発見のための空間的特徴選択

Sparsity-based Feature Selection for Anomalous Subgroup Discovery ( http://arxiv.org/abs/2201.02008v1 )

ライセンス: CC BY 4.0
Girmaw Abebe Tadesse, William Ogallo, Catherine Wanjiru, Charles Wachira, Isaiah Onando Mulang', Vibha Anand, Aisha Walcott-Bryant, Skyler Speakman(参考訳) 異常パターン検出は、正規性からの逸脱が明らかなインスタンスを識別することを目的としており、ドメイン間で広く適用できる。 最先端では複数の異常検出技術が提案されている。 しかし、効率的な発見のための原則的でスケーラブルな特徴選択手法が欠如している。 既存の特徴選択手法は、期待値から体系的な逸脱よりも予測結果のパフォーマンスを最適化することで実施されることが多い。 本稿では,特徴駆動オッズ比の分散化によるシステム結果のずれをエンコードする,スパーシティに基づく自動特徴選択(SAFS)フレームワークを提案する。 SAFSは、さまざまな発見技術にまたがるユーザビリティを備えた、モデルに依存しないアプローチである。 SAFSは、一般公開されたクリティカルケアデータセットで検証された場合、検出性能を維持しながら、計算時間を3ドル以上削減する。 SAFSはまた、特徴選択のための複数のベースラインと比較して、優れたパフォーマンスをもたらす。

Anomalous pattern detection aims to identify instances where deviation from normalcy is evident, and is widely applicable across domains. Multiple anomalous detection techniques have been proposed in the state of the art. However, there is a common lack of a principled and scalable feature selection method for efficient discovery. Existing feature selection techniques are often conducted by optimizing the performance of prediction outcomes rather than its systemic deviations from the expected. In this paper, we proposed a sparsity-based automated feature selection (SAFS) framework, which encodes systemic outcome deviations via the sparsity of feature-driven odds ratios. SAFS is a model-agnostic approach with usability across different discovery techniques. SAFS achieves more than $3\times$ reduction in computation time while maintaining detection performance when validated on publicly available critical care dataset. SAFS also results in a superior performance when compared against multiple baselines for feature selection.
翻訳日:2022-01-07 18:45:50 公開日:2022-01-06
# (参考訳) 統一条件モデルを用いた自己学習型視覚言語BERT

Self-Training Vision Language BERTs with a Unified Conditional Model ( http://arxiv.org/abs/2201.02010v1 )

ライセンス: CC BY 4.0
Xiaofeng Yang, Fengmao Lv, Fayao Liu, Guosheng Lin(参考訳) 自然言語BERTは、言語コーパスを自己管理的に訓練する。 自然言語のBERTとは異なり、ビジョン言語BERTはトレーニングのためにペアのデータを必要とし、VL-BERT事前トレーニングの規模を制限する。 ラベルのない画像データからVL-BERTを学習する自己学習手法を提案する。 提案手法は,ゼロショット条件生成が可能な視覚言語BERTモデルである統一条件モデルから始める。 異なる条件によって、統一条件モデルはキャプション、密集したキャプション、さらには質問を生成できる。 教師モデルの学習にはラベル付き画像データを使用し,ラベル付き画像データに擬似キャプションを生成する訓練モデルを用いる。 次にラベル付きデータと擬似ラベル付きデータを組み合わせて学習モデルを構築する。 このプロセスは、学生モデルを新しい教師として配置することで反復される。 提案した自己学習アプローチと、ラベル付けされていない300万の余分なデータを使用することで、300万の余分な画像データでトレーニングされた類似モデルモデルと比較して、競争力やパフォーマンスが向上する。

Natural language BERTs are trained with language corpus in a self-supervised manner. Unlike natural language BERTs, vision language BERTs need paired data to train, which restricts the scale of VL-BERT pretraining. We propose a self-training approach that allows training VL-BERTs from unlabeled image data. The proposed method starts with our unified conditional model -- a vision language BERT model that can perform zero-shot conditional generation. Given different conditions, the unified conditional model can generate captions, dense captions, and even questions. We use the labeled image data to train a teacher model and use the trained model to generate pseudo captions on unlabeled image data. We then combine the labeled data and pseudo labeled data to train a student model. The process is iterated by putting the student model as a new teacher. By using the proposed self-training approach and only 300k unlabeled extra data, we are able to get competitive or even better performances compared to the models of similar model size trained with 3 million extra image data.
翻訳日:2022-01-07 18:37:08 公開日:2022-01-06
# (参考訳) 第三者視点による自己中心的3次元ポーズ推定の促進

Enhancing Egocentric 3D Pose Estimation with Third Person Views ( http://arxiv.org/abs/2201.02017v1 )

ライセンス: CC BY 4.0
Ameya Dhamanaskar, Mariella Dimiccoli, Enric Corona, Albert Pumarola, Francesc Moreno-Noguer(参考訳) 本稿では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。 鍵となるアイデアは、ジョイント埋め込みスペースで第1と第3のビューをリンクする高レベル機能を活用することだ。 このような埋め込み空間を学ぶために、私たちはfirst2third-poseという、ファーストビューとサードビューの両方からキャプチャされた人間の活動を描いた2000近いビデオのペア同期データセットを紹介します。 自己教師ありの方法で訓練された半シャム語アーキテクチャを用いて,空間的および動作領域的特徴を明示的に検討する。 実験の結果,本データセットで学習した多視点埋め込み空間は,カメラパラメータのドメイン適応や知識を必要とせず,任意の単視点エゴセントリックビデオから識別的特徴を抽出するのに有用であることがわかった。 本研究では,2つの非拘束データセットにおける自己中心型3次元身体ポーズ推定性能を,3つの教師付き最先端アプローチで大幅に改善する。 私たちのデータセットとコードは研究目的で利用できます。

In this paper, we propose a novel approach to enhance the 3D body pose estimation of a person computed from videos captured from a single wearable camera. The key idea is to leverage high-level features linking first- and third-views in a joint embedding space. To learn such embedding space we introduce First2Third-Pose, a new paired synchronized dataset of nearly 2,000 videos depicting human activities captured from both first- and third-view perspectives. We explicitly consider spatial- and motion-domain features, combined using a semi-Siamese architecture trained in a self-supervised fashion. Experimental results demonstrate that the joint multi-view embedded space learned with our dataset is useful to extract discriminatory features from arbitrary single-view egocentric videos, without needing domain adaptation or knowledge of camera parameters. We achieve significant improvement of egocentric 3D body pose estimation performance on two unconstrained datasets, over three supervised state-of-the-art approaches. Our dataset and code will be available for research purposes.
翻訳日:2022-01-07 18:19:16 公開日:2022-01-06
# (参考訳) 注意に基づく少数ショット物体検出のための統一フレームワーク

A Unified Framework for Attention-Based Few-Shot Object Detection ( http://arxiv.org/abs/2201.02052v1 )

ライセンス: CC BY 4.0
Pierre Le Jeune and Anissa Mokraoui(参考訳) Few-Shot Object Detection (FSOD) はコンピュータビジョンにおいて急速に成長している分野である。 与えられたクラスのすべての発生を、各クラスのアノテーション付きの例で見つけることで構成される。 この課題に対処するために多くの手法が提案されており、そのほとんどは注意機構に基づいている。 しかしながら、さまざまな古典的なオブジェクト検出フレームワークとトレーニング戦略は、メソッド間のパフォーマンス比較を困難にしている。 特に注意に基づくfsod法では,注意機構の違いが性能に与える影響を比較するのに手間がかかる。 本論文は,この欠点を満たすことを目的とする。 そのため,文献で利用可能な注意技法のほとんどを実装可能な柔軟なフレームワークが提案されている。 このようなフレームワークを適切に導入するために、まず既存のFSODメソッドの詳細なレビューを行う。 いくつかの異なる注意機構がフレームワーク内で再実装され、他のすべてのパラメータと比較される。

Few-Shot Object Detection (FSOD) is a rapidly growing field in computer vision. It consists in finding all occurrences of a given set of classes with only a few annotated examples for each class. Numerous methods have been proposed to address this challenge and most of them are based on attention mechanisms. However, the great variety of classic object detection frameworks and training strategies makes performance comparison between methods difficult. In particular, for attention-based FSOD methods, it is laborious to compare the impact of the different attention mechanisms on performance. This paper aims at filling this shortcoming. To do so, a flexible framework is proposed to allow the implementation of most of the attention techniques available in the literature. To properly introduce such a framework, a detailed review of the existing FSOD methods is firstly provided. Some different attention mechanisms are then reimplemented within the framework and compared with all other parameters fixed.
翻訳日:2022-01-07 18:09:04 公開日:2022-01-06
# (参考訳) 宇宙気象モデリングのための不確かさ定量化技術:熱圏密度応用

Uncertainty Quantification Techniques for Space Weather Modeling: Thermospheric Density Application ( http://arxiv.org/abs/2201.02067v1 )

ライセンス: CC BY 4.0
Richard J. Licata and Piyush M. Mehta(参考訳) 機械学習(ML)は近年、宇宙気象(SW)問題にしばしば適用されている。 SWは太陽の摂動に由来するもので、太陽と地球の間のシステム内で生じる複雑な変動から成り立っている。 これらのシステムは密結合であり、よく理解されていない。 これにより、予測の信頼性に関する知識を持つ熟練したモデルが必要となる。 このような力学系の例としては、地球上層大気の中立領域である熱圏がある。 我々の予測不能は、低軌道軌道上の物体に対する衛星のドラッグと衝突回避操作の文脈で深刻な反響を生じさせる。 たとえ(仮定された)完璧なドライバー予測であっても、システムの不完全な知識は、しばしば不正確な中性質量密度予測をもたらす。 モデル精度を改善するための継続的な努力が続けられているが、密度モデルが不確実性を評価することは滅多にない。 本研究では, 予測密度の負対数(nlpd)損失関数を用いて, モンテカルロ(mc)ドロップアウトと確率分布の直接予測という, 不確かさを校正した推定値を提供しながら, 熱圏密度を予測できる非線形mlモデルを開発する2つの手法を提案する。 ローカルおよびグローバルデータセットでトレーニングされたモデルの性能を示す。 これはNLPDが両方の手法に類似した結果をもたらすことを示しているが、直接確率法の方が計算コストがはるかに低いことを示している。 SET HASDM密度データベースに回帰した大域的モデルに対して, 精度の高い不確実性推定を伴う独立試験データ上で11%の誤差を達成した。 内部のCHAMP密度データセットを使用して、どちらの手法も13%の順序でテストエラーを提供する。 CHAMPモデル(独立データ)は、テストされた全ての予測間隔に対する完璧なキャリブレーションの2%以内である。 このモデルは、与えられた時期において不確実性を持つ大域的な予測を得るためにも使うことができる。

Machine learning (ML) has often been applied to space weather (SW) problems in recent years. SW originates from solar perturbations and is comprised of the resulting complex variations they cause within the systems between the Sun and Earth. These systems are tightly coupled and not well understood. This creates a need for skillful models with knowledge about the confidence of their predictions. One example of such a dynamical system is the thermosphere, the neutral region of Earth's upper atmosphere. Our inability to forecast it has severe repercussions in the context of satellite drag and collision avoidance operations for objects in low Earth orbit. Even with (assumed) perfect driver forecasts, our incomplete knowledge of the system results in often inaccurate neutral mass density predictions. Continuing efforts are being made to improve model accuracy, but density models rarely provide estimates of uncertainty. In this work, we propose two techniques to develop nonlinear ML models to predict thermospheric density while providing calibrated uncertainty estimates: Monte Carlo (MC) dropout and direct prediction of the probability distribution, both using the negative logarithm of predictive density (NLPD) loss function. We show the performance for models trained on local and global datasets. This shows that NLPD provides similar results for both techniques but the direct probability method has a much lower computational cost. For the global model regressed on the SET HASDM density database, we achieve errors of 11% on independent test data with well-calibrated uncertainty estimates. Using an in-situ CHAMP density dataset, both techniques provide test error on the order of 13%. The CHAMP models (on independent data) are within 2% of perfect calibration for all prediction intervals tested. This model can also be used to obtain global predictions with uncertainties at a given epoch.
翻訳日:2022-01-07 17:55:31 公開日:2022-01-06
# (参考訳) 勧告に対する深い因果推論

Deep Causal Reasoning for Recommendations ( http://arxiv.org/abs/2201.02088v1 )

ライセンス: CC BY 4.0
Yaochen Zhu, Jing Yi, Jiayi Xie and Zhenzhong Chen(参考訳) 伝統的なレコメンデータシステムは、人口から観測された評価に基づいて、あるアイテムに対するユーザーの評価を見積もることを目的としている。 すべての観察研究と同様に、アイテムの露出とユーザ評価の両方に影響を与える要因である隠れた共同創設者は、見積に体系的なバイアスをもたらす。 したがって、レコメンダシステム研究の新たなトレンドは、共同設立者の影響を因果的視点から否定することである。 共同設立者が通常、項目間で共有されるため、共同設立者が多元的であり、多元的マルチアウトカム(MCMO)推論問題としてモデル化する。 具体的には、バイアスを補うために、アイテムの露出を独立にBernoulli試験に反映するユーザ固有の潜伏変数を推定する。 生成分布は分解ロジスティック確率のDNNによりパラメータ化され、抽出可能な後部は変分推論により推定される。 これらの要因を代わる共同創設者として、軽微な仮定の下でコントロールすることは、複数の原因による共同創設者によるバイアスを取り除くことができる。 さらに, MCMOモデリングは, 高次元因果空間に付随する観測値の不足により, 高いばらつきをもたらす可能性が示唆された。 幸いなことに、前処理変数としてユーザ機能を導入することで、サンプル効率を大幅に改善し、オーバーフィッティングを軽減することができる。 シミュレーションおよび実世界のデータセットに関する実証研究は、提案された深い因果推薦者は、最先端の因果推薦者よりも、観測されていない共同設立者により堅牢性を示すことを示している。 コードとデータセットはhttps://github.com/yaochenzhu/deep-deconfでリリースされる。

Traditional recommender systems aim to estimate a user's rating to an item based on observed ratings from the population. As with all observational studies, hidden confounders, which are factors that affect both item exposures and user ratings, lead to a systematic bias in the estimation. Consequently, a new trend in recommender system research is to negate the influence of confounders from a causal perspective. Observing that confounders in recommendations are usually shared among items and are therefore multi-cause confounders, we model the recommendation as a multi-cause multi-outcome (MCMO) inference problem. Specifically, to remedy confounding bias, we estimate user-specific latent variables that render the item exposures independent Bernoulli trials. The generative distribution is parameterized by a DNN with factorized logistic likelihood and the intractable posteriors are estimated by variational inference. Controlling these factors as substitute confounders, under mild assumptions, can eliminate the bias incurred by multi-cause confounders. Furthermore, we show that MCMO modeling may lead to high variance due to scarce observations associated with the high-dimensional causal space. Fortunately, we theoretically demonstrate that introducing user features as pre-treatment variables can substantially improve sample efficiency and alleviate overfitting. Empirical studies on simulated and real-world datasets show that the proposed deep causal recommender shows more robustness to unobserved confounders than state-of-the-art causal recommenders. Codes and datasets are released at https://github.com/yaochenzhu/deep-deconf.
翻訳日:2022-01-07 17:33:17 公開日:2022-01-06
# (参考訳) HyperionSolarNet:空中画像からのソーラーパネル検出

HyperionSolarNet: Solar Panel Detection from Aerial Images ( http://arxiv.org/abs/2201.02107v1 )

ライセンス: CC BY 4.0
Poonam Parhar, Ryan Sawasaki, Alberto Todeschini, Colorado Reed, Hossein Vahabi, Nathan Nusaputra, Felipe Vergara(参考訳) 地球温暖化の影響により、温室効果ガス排出量の削減に集団的な努力が必要である。 エネルギー部門は気候変動の最大の貢献者であり、多くの取り組みは二酸化炭素発電の発電所への依存を減らし、太陽光発電のような再生可能エネルギー源に移行することに集中している。 ソーラーパネルの位置に関する包括的なデータベースは、アナリストや政策立案者が太陽エネルギーをさらに拡大するための戦略を定義するのを助けるために重要である。 本稿では,ソーラーパネルの世界地図の作成に焦点をあてる。 特定の地理的領域内のソーラーパネルの位置と表面積を識別する。 深層学習法を用いて,空中画像を用いたソーラーパネル位置とその表面積の自動検出を行う。 本フレームワークは,タンデムのイメージ分類器とセマンティックセグメンテーションモデルを用いた2分岐モデルで構成され,衛星画像のデータセットに基づいて訓練を行った。 本研究は,ソーラーパネルの検出に効率的でスケーラブルな手法を提供し,分類精度0.96,セグメンテーション性能0.82のiouスコアを実現する。

With the effects of global climate change impacting the world, collective efforts are needed to reduce greenhouse gas emissions. The energy sector is the single largest contributor to climate change and many efforts are focused on reducing dependence on carbon-emitting power plants and moving to renewable energy sources, such as solar power. A comprehensive database of the location of solar panels is important to assist analysts and policymakers in defining strategies for further expansion of solar energy. In this paper we focus on creating a world map of solar panels. We identify locations and total surface area of solar panels within a given geographic area. We use deep learning methods for automated detection of solar panel locations and their surface area using aerial imagery. The framework, which consists of a two-branch model using an image classifier in tandem with a semantic segmentation model, is trained on our created dataset of satellite images. Our work provides an efficient and scalable method for detecting solar panels, achieving an accuracy of 0.96 for classification and an IoU score of 0.82 for segmentation performance.
翻訳日:2022-01-07 17:02:19 公開日:2022-01-06
# (参考訳) contrip: コンセンサス感情レビュー分析とプラットフォームレーティング

ConTrip: Consensus Sentiment review Analysis and Platform ratings in a single score ( http://arxiv.org/abs/2201.02113v1 )

ライセンス: CC BY-SA 4.0
Jos\'e Bonet and Jos\'e Bonet(参考訳) 人々は、インターネット上のアイテムや体験を購入することを決めるために、明確にレビューを雇います。 その意味では、その重要性と意見の多さが、感情コンテンツを自動的に評価する手法の開発につながっている。 しかし、モデルが異なるレビューの合意を具現化し、アイテムに対する同等のレーティングを区別するコンセンサス値を作成するのは容易ではない。 2020年にNguyenらによって提案されたアプローチに基づいて、コントリプという新しいコンセンサス値が導出され、コンセンサススコアとアイテムのプラットフォーム全体の評価をマージします。 ConTripは評価範囲の値にあるため、平等に評価された体験を区別する能力を維持しながら、より解釈しやすい。 ConTripはMITライセンスのもと、https://github.com/pepebonet/contripscoreで実装され無料で利用できる。

People unequivocally employ reviews to decide on purchasing an item or an experience on the internet. In that regard, the growing significance and number of opinions have led to the development of methods to assess their sentiment content automatically. However, it is not straightforward for the models to create a consensus value that embodies the agreement of the different reviews and differentiates across equal ratings for an item. Based on the approach proposed by Nguyen et al. in 2020, we derive a novel consensus value named ConTrip that merges their consensus score and the overall rating of a platform for an item. ConTrip lies in the rating range values, which makes it more interpretable while maintaining the ability to differentiate across equally rated experiences. ConTrip is implemented and freely available under MIT license at https://github.com/pepebonet/contripscore
翻訳日:2022-01-07 16:54:10 公開日:2022-01-06
# (参考訳) 新型コロナウイルス問題におけるテキストマイニングとML, BERT, RNNの比較研究

An Opinion Mining of Text in COVID-19 Issues along with Comparative Study in ML, BERT & RNN ( http://arxiv.org/abs/2201.02119v1 )

ライセンス: CC BY 4.0
Md. Mahadi Hasan Sany, Mumenunnesa Keya, Sharun Akter Khushbu, Akm Shahariar Azad Rabby, Abu Kaisar Mohammad Masum(参考訳) 世界は、covid-19として認識される呼吸症候群の壊滅的な流行である、パンデミックの状況を横断している。 これは、人々が毎日強大な状況に遭遇する212カ国全体の世界的な脅威です。 逆に、何千人もの感染者が山で暮らしている。 メンタルヘルスは世界的な新型コロナウイルスの影響も受けている。 この状況により、オンラインソースは、一般市民があらゆる議題で意見を共有できるコミュニケーションの場となった。 影響のあるニュース、肯定的・否定的なニュース、財政問題、国と家族の危機、輸入・輸出制度の欠如など、様々な状況が近年のトレンドとなっている。 このように、膨大な量のテキストがモーメント内で生成されるため、他国の状況と同等のサブコンティネント領域や、テキストや状況に対する人々の意見も同様であるが、言語が異なる。 本稿では,個別ソースからのBanglaテキストコメントと合わせて,機械学習の結果が補助システムを構築することができることを示すための具体的なインプットを提案する。 意見マイニング支援システムは、可能なすべての言語選好に影響を与えうる。 我々の知る限り、この論文は、MLアルゴリズムを提案する新型コロナウイルス問題に関するBanglaの入力テキストを予測し、ディープラーニングモデル分析は、比較分析によって将来の到達可能性もチェックする。 比較分析では、テキスト予測精度に関するレポートは、MLアルゴリズムとともに91%、ディープラーニングモデルとともに79%である。

The global world is crossing a pandemic situation where this is a catastrophic outbreak of Respiratory Syndrome recognized as COVID-19. This is a global threat all over the 212 countries that people every day meet with mighty situations. On the contrary, thousands of infected people live rich in mountains. Mental health is also affected by this worldwide coronavirus situation. Due to this situation online sources made a communicative place that common people shares their opinion in any agenda. Such as affected news related positive and negative, financial issues, country and family crisis, lack of import and export earning system etc. different kinds of circumstances are recent trendy news in anywhere. Thus, vast amounts of text are produced within moments therefore, in subcontinent areas the same as situation in other countries and peoples opinion of text and situation also same but the language is different. This article has proposed some specific inputs along with Bangla text comments from individual sources which can assure the goal of illustration that machine learning outcome capable of building an assistive system. Opinion mining assistive system can be impactful in all language preferences possible. To the best of our knowledge, the article predicted the Bangla input text on COVID-19 issues proposed ML algorithms and deep learning models analysis also check the future reachability with a comparative analysis. Comparative analysis states a report on text prediction accuracy is 91% along with ML algorithms and 79% along with Deep Learning Models.
翻訳日:2022-01-07 16:50:06 公開日:2022-01-06
# (参考訳) treehouse:carbon-aware datacenter softwareのケース

Treehouse: A Case For Carbon-Aware Datacenter Software ( http://arxiv.org/abs/2201.02120v1 )

ライセンス: CC BY 4.0
Thomas Anderson, Adam Belay, Mosharaf Chowdhury, Asaf Cidon, and Irene Zhang(参考訳) デナードのスケーリングの終わりとムーアの法則の減速は、データセンターのエネルギー利用を持続不可能な経路に押し上げた。 データセンターはすでに世界の電力消費のかなりの部分を占めており、アプリケーションの需要は急速に拡大している。 我々は、データセンターコンピューティングの炭素強度の大幅な削減は、ソフトウェア中心のアプローチで可能であると論じる: アプリケーション開発者にエネルギーと炭素を細かく見えるようにすること、システムAPIを変更してパフォーマンスと二酸化炭素排出量の間の情報交換を可能にすること、計算とストレージのよりエネルギー効率の良い手段を柔軟に利用できるようにアプリケーションプログラミングのレベルを上げること。 我々はまた、データセンターコンピューティングの炭素フットプリントを削減するシステムソフトウェアの研究課題も策定した。

The end of Dennard scaling and the slowing of Moore's Law has put the energy use of datacenters on an unsustainable path. Datacenters are already a significant fraction of worldwide electricity use, with application demand scaling at a rapid rate. We argue that substantial reductions in the carbon intensity of datacenter computing are possible with a software-centric approach: by making energy and carbon visible to application developers on a fine-grained basis, by modifying system APIs to make it possible to make informed trade offs between performance and carbon emissions, and by raising the level of application programming to allow for flexible use of more energy efficient means of compute and storage. We also lay out a research agenda for systems software to reduce the carbon footprint of datacenter computing.
翻訳日:2022-01-07 16:38:02 公開日:2022-01-06
# (参考訳) 3次元em構造を有するmm波受動ネットワークのディープラーニングによるエンドツーエンド合成--トランスベースマッチングネットワークに関する研究

Deep Learning Assisted End-to-End Synthesis of mm-Wave Passive Networks with 3D EM Structures: A Study on A Transformer-Based Matching Network ( http://arxiv.org/abs/2201.02141v1 )

ライセンス: CC BY 4.0
Siawpeng Er, Edward Liu, Minshuo Chen, Yan Li, Yuqi Liu, Tuo Zhao, Hua Wang(参考訳) 本稿では,3次元EM構造を持つRF/mm波受動マッチングネットワークのエンドツーエンド生成のためのディープラーニング支援合成手法を提案する。 対象回路成分値と対象トポロジからem構造を合成する従来の手法とは異なり,提案手法は入力として所望の性能値からネットワークトポロジーを与えられた受動的ネットワークを直接合成する。 提案する合成ニューラルネットワーク(nn)モデルをオンチップ1:1トランスベースインピーダンスマッチングネットワーク上で紹介する。 パラメータ共有を利用した合成nnモデルは、入力インピーダンスと負荷キャパシタから関連する特徴をうまく抽出し、2つの負荷キャパシタを吸収しながら、標準の50$\omega$負荷とターゲット入力インピーダンスと一致する45nm soiプロセスでトランスフォーマ3d em形状を予測する。 概念実証として、いくつかの変圧器のジオメトリが合成され、Ansys HFSSで検証され、所望の入力インピーダンスが得られた。

This paper presents a deep learning assisted synthesis approach for direct end-to-end generation of RF/mm-wave passive matching network with 3D EM structures. Different from prior approaches that synthesize EM structures from target circuit component values and target topologies, our proposed approach achieves the direct synthesis of the passive network given the network topology from desired performance values as input. We showcase the proposed synthesis Neural Network (NN) model on an on-chip 1:1 transformer-based impedance matching network. By leveraging parameter sharing, the synthesis NN model successfully extracts relevant features from the input impedance and load capacitors, and predict the transformer 3D EM geometry in a 45nm SOI process that will match the standard 50$\Omega$ load to the target input impedance while absorbing the two loading capacitors. As a proof-of-concept, several example transformer geometries were synthesized, and verified in Ansys HFSS to provide the desired input impedance.
翻訳日:2022-01-07 16:22:26 公開日:2022-01-06
# (参考訳) 円拡大畳み込みニューラルネットワークを用いた長周期データの分類

Classification of Long Sequential Data using Circular Dilated Convolutional Neural Networks ( http://arxiv.org/abs/2201.02143v1 )

ライセンス: CC BY 4.0
Lei Cheng, Ruslan Khalitov, Tong Yu, and Zhirong Yang(参考訳) 長いシーケンシャルデータの分類は機械学習の重要なタスクであり、多くのアプリケーションシナリオに現れる。 リカレントニューラルネットワーク、トランスフォーマー、畳み込みニューラルネットワークは、シーケンシャルデータから学ぶための3つの主要なテクニックである。 これらの手法のうち、非常に長いシーケンスにスケーラブルな時間畳み込みネットワーク(tcns)は、時系列回帰の著しい進歩を達成した。 しかし、シーケンス分類におけるTCNの性能は、スキュー接続プロトコルと出力クラスが最終位置にあるため満足できない。 このような非対称性は、シーケンス全体に依存する分類の性能を制限する。 そこで本研究では,各位置が前層の他の位置から情報を受信する機会が等しくなるCDIL-CNN(Circular Dilated Convolutional Neural Network)という,対称なマルチスケールアーキテクチャを提案する。 本モデルでは,全ての位置で分類ロジットを付与し,簡単なアンサンブル学習を適用してより良い判定を行う。 我々は様々な長い時系列データセットでCDIL-CNNを検証した。 実験の結果,本手法は多くの最先端手法よりも優れた性能を示した。

Classification of long sequential data is an important Machine Learning task and appears in many application scenarios. Recurrent Neural Networks, Transformers, and Convolutional Neural Networks are three major techniques for learning from sequential data. Among these methods, Temporal Convolutional Networks (TCNs) which are scalable to very long sequences have achieved remarkable progress in time series regression. However, the performance of TCNs for sequence classification is not satisfactory because they use a skewed connection protocol and output classes at the last position. Such asymmetry restricts their performance for classification which depends on the whole sequence. In this work, we propose a symmetric multi-scale architecture called Circular Dilated Convolutional Neural Network (CDIL-CNN), where every position has an equal chance to receive information from other positions at the previous layers. Our model gives classification logits in all positions, and we can apply a simple ensemble learning to achieve a better decision. We have tested CDIL-CNN on various long sequential datasets. The experimental results show that our method has superior performance over many state-of-the-art approaches.
翻訳日:2022-01-07 16:11:00 公開日:2022-01-06
# (参考訳) バイオインスパイアされたMin-Netはディープネットワークの性能とロバスト性を改善する

Bio-inspired Min-Nets Improve the Performance and Robustness of Deep Networks ( http://arxiv.org/abs/2201.02149v1 )

ライセンス: CC BY 4.0
Philipp Gr\"uning and Erhardt Barth(参考訳) Min-Netは、2つの学習されたフィルタを最小に出力する単位を持つエンドストップの皮質細胞にインスパイアされている。 このようなMin-unitsをResNetやDenseNetのような最先端のディープネットワークに挿入し、結果のMin-NetsがCifar-10ベンチマークより優れていることを示す。 さらに,Min-NetはJPEG圧縮アーチファクトに対してより堅牢であることを示す。 最小演算はフィルタ対の操作と操作を実装する最も簡単な方法であり、そのような操作は自然画像の統計量を考えると適切なバイアスをもたらすと論じる。

Min-Nets are inspired by end-stopped cortical cells with units that output the minimum of two learned filters. We insert such Min-units into state-of-the-art deep networks, such as the popular ResNet and DenseNet, and show that the resulting Min-Nets perform better on the Cifar-10 benchmark. Moreover, we show that Min-Nets are more robust against JPEG compression artifacts. We argue that the minimum operation is the simplest way of implementing an AND operation on pairs of filters and that such AND operations introduce a bias that is appropriate given the statistics of natural images.
翻訳日:2022-01-07 15:58:09 公開日:2022-01-06
# 複合能動学習, 多元性モデリング, 部分集合シミュレーションを用いた先進核燃料の信頼性評価

Reliability Estimation of an Advanced Nuclear Fuel using Coupled Active Learning, Multifidelity Modeling, and Subset Simulation ( http://arxiv.org/abs/2201.02172v1 )

ライセンス: Link先を確認
Somayajulu L. N. Dhulipala and Michael D. Shields and Promit Chakroborty and Wen Jiang and Benjamin W. Spencer and Jason D. Hales and Vincent M. Laboure and Zachary M. Prince and Chandrakanth Bolisetti and Yifeng Che(参考訳) tristructureural isotropic (triso)-coated particle fuelはロバストな核燃料であり、その信頼性の決定は高度な核技術の成功に不可欠である。 しかし、トライソ故障確率は小さく、関連する計算モデルは高価である。 複数の1次元および2次元モデルを用いて, TRISO燃料の故障確率を推定するために, アクティブラーニング, 多要素モデル, サブセットシミュレーションを用いた。 高忠実度(hf)モデルの評価を2つの低忠実度(lf)モデルから情報融合に置き換えた。 1d trisoモデルでは、kriging, kriging lf prediction, kriging correction, deep neural network (dnn) lf prediction と kriging correction の3つの多元性モデリング戦略を検討した。 これらの多忠実度モデリング戦略に対する結果は良好に比較されるが、2つのLFモデルからの情報融合を利用した戦略は、最も頻繁にHFモデルと呼ばれる。 次に、DNN LF予測とクリグ補正(データ駆動)と1D TRISO LF予測とクリグ補正(物理ベース)の2つの多要素モデル戦略を検討した。 物理ベースの戦略は、予想通り、常に最も少ないHFモデルへの呼び出しを必要とした。 しかし、DNN予測が瞬時に行われるため、データ駆動方式は全体的なシミュレーション時間を低くし、1D TRISOモデルは無視できないシミュレーション時間を必要とする。

Tristructural isotropic (TRISO)-coated particle fuel is a robust nuclear fuel and determining its reliability is critical for the success of advanced nuclear technologies. However, TRISO failure probabilities are small and the associated computational models are expensive. We used coupled active learning, multifidelity modeling, and subset simulation to estimate the failure probabilities of TRISO fuels using several 1D and 2D models. With multifidelity modeling, we replaced expensive high-fidelity (HF) model evaluations with information fusion from two low-fidelity (LF) models. For the 1D TRISO models, we considered three multifidelity modeling strategies: only Kriging, Kriging LF prediction plus Kriging correction, and deep neural network (DNN) LF prediction plus Kriging correction. While the results across these multifidelity modeling strategies compared satisfactorily, strategies employing information fusion from two LF models consistently called the HF model least often. Next, for the 2D TRISO model, we considered two multifidelity modeling strategies: DNN LF prediction plus Kriging correction (data-driven) and 1D TRISO LF prediction plus Kriging correction (physics-based). The physics-based strategy, as expected, consistently required the fewest calls to the HF model. However, the data-driven strategy had a lower overall simulation time since the DNN predictions are instantaneous, and the 1D TRISO model requires a non-negligible simulation time.
翻訳日:2022-01-07 15:47:10 公開日:2022-01-06
# gpgpu, iot, モジュール型ソフトウェアアーキテクチャを用いたソーシャルヒューマノイドロボットのためのウェアラブルセンサベスト

A wearable sensor vest for social humanoid robots with GPGPU, IoT, and modular software architecture ( http://arxiv.org/abs/2201.02192v1 )

ライセンス: Link先を確認
Mohsen Jafarzadeh, Stephen Brooks, Shimeng Yu, Balakrishnan Prabhakaran, Yonas Tadesse(参考訳) 現在、ほとんどのソーシャルロボットは、ロボットの不可欠な部分であるセンサーを介して周囲や人間と対話し、センサーの使用性、人間とロボットの相互作用、および交換性を制限する。 多くのロボットに合うウェアラブルセンサーの衣服は、多くのアプリケーションで必要です。 本稿では、安価なウェアラブルセンサーベストと、ソーシャルヒューマノイドロボットのためのIoT(Internet of Things)を備えたオープンソースのソフトウェアアーキテクチャについて述べる。 ベストはタッチ、温度、ジェスチャー、距離、視覚センサー、無線通信モジュールで構成されている。 IoT機能により、ロボットはインターネット上で人間とローカルに対話できる。 デザインされたアーキテクチャは、汎用グラフィック処理ユニット(GPGPU)、I2C/SPIバス、インターネット接続、ロボティクスオペレーティングシステム(ROS)を持つあらゆる社会ロボットに対して機能する。 このアーキテクチャのモジュール設計により、開発者は複雑な振る舞いを容易に追加/削除/更新できる。 提案されたソフトウェアアーキテクチャは、IoTテクノロジ、GPGPUノード、I2CおよびSPIバスマネージャ、音声と視覚の相互作用ノード(音声からテキスト、テキストから音声、画像理解)、行動ノードと他のノード間の分離を提供する。 提案されたIoTソリューションは、ロボット内の関連するノード、RESTful Webサービス、ユーザインターフェースで構成される。 インターネット上でのソーシャルロボットとの双方向通信手段として,HTTPプロトコルを用いた。 開発者はC、C++、Pythonプログラミング言語で簡単にノードを編集または追加できる。 我々のアーキテクチャは、社会的なヒューマノイドロボットのためのより洗練された行動設計に利用できる。

Currently, most social robots interact with their surroundings and humans through sensors that are integral parts of the robots, which limits the usability of the sensors, human-robot interaction, and interchangeability. A wearable sensor garment that fits many robots is needed in many applications. This article presents an affordable wearable sensor vest, and an open-source software architecture with the Internet of Things (IoT) for social humanoid robots. The vest consists of touch, temperature, gesture, distance, vision sensors, and a wireless communication module. The IoT feature allows the robot to interact with humans locally and over the Internet. The designed architecture works for any social robot that has a general-purpose graphics processing unit (GPGPU), I2C/SPI buses, Internet connection, and the Robotics Operating System (ROS). The modular design of this architecture enables developers to easily add/remove/update complex behaviors. The proposed software architecture provides IoT technology, GPGPU nodes, I2C and SPI bus mangers, audio-visual interaction nodes (speech to text, text to speech, and image understanding), and isolation between behavior nodes and other nodes. The proposed IoT solution consists of related nodes in the robot, a RESTful web service, and user interfaces. We used the HTTP protocol as a means of two-way communication with the social robot over the Internet. Developers can easily edit or add nodes in C, C++, and Python programming languages. Our architecture can be used for designing more sophisticated behaviors for social humanoid robots.
翻訳日:2022-01-07 15:46:44 公開日:2022-01-06
# 深層学習に基づくモデル還元(DeePMR)法による化学動力学の簡易化

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics ( http://arxiv.org/abs/2201.02025v1 )

ライセンス: Link先を確認
Zhiwei Wang, Yaoyu Zhang, Yiguang Ju, Weinan E, Zhi-Qin John, Tianhan Zhang(参考訳) 化学動力学を簡易化する深層学習型モデル還元法 (DeePMR) を提案し, 高温自己着火, 完全旋回反応器 (PSR) およびn-ヘプタン/空気混合物の1次元自由拡散火炎を用いて検証した。 機構還元はブール空間上の最適化問題としてモデル化され、種に対応する各エントリであるブールベクトルが還元機構を表す。 最適化の目的は、事前選択されたベンチマーク量のエラー許容性を考慮すると、メカニズムサイズを最小化することである。 DeePMRの鍵となる考え方は、最適化問題の目的関数を定式化するためにディープニューラルネットワーク(DNN)を使用することである。 高次元ブール空間を効率的に探索するために、反復的DNN支援データサンプリングとDNN訓練手順を実装した。 以上の結果より, DNN はサンプリング効率を向上し, 10^5$ のサンプルのみを10^34} のサンプルとして選択し, 十分な精度を実現することができた。 その結果、DNNは鍵種を認識し、機構性能の低下を合理的に予測できることを示した。 良く訓練されたDNNは、逆最適化問題を解くことにより、最適還元機構を保証する。 着火遅延時間, 層火炎速度, PSRの温度を比較することにより, 結果として生じる骨格機構は少ない(45種)が, Path Flux Analysis (PFA) 法で得られた骨格機構(56種)と同等の精度が得られた。 さらに、大気・近距離条件(0.6から1.2の等価比)のみを考慮すれば、骨格機構はさらに28種に縮小できる。 DeePMRは、モデル還元を行う革新的な方法を提供し、燃焼領域におけるデータ駆動方式の大きな可能性を示している。

A deep learning-based model reduction (DeePMR) method for simplifying chemical kinetics is proposed and validated using high-temperature auto-ignitions, perfectly stirred reactors (PSR), and one-dimensional freely propagating flames of n-heptane/air mixtures. The mechanism reduction is modeled as an optimization problem on Boolean space, where a Boolean vector, each entry corresponding to a species, represents a reduced mechanism. The optimization goal is to minimize the reduced mechanism size given the error tolerance of a group of pre-selected benchmark quantities. The key idea of the DeePMR is to employ a deep neural network (DNN) to formulate the objective function in the optimization problem. In order to explore high dimensional Boolean space efficiently, an iterative DNN-assisted data sampling and DNN training procedure are implemented. The results show that DNN-assistance improves sampling efficiency significantly, selecting only $10^5$ samples out of $10^{34}$ possible samples for DNN to achieve sufficient accuracy. The results demonstrate the capability of the DNN to recognize key species and reasonably predict reduced mechanism performance. The well-trained DNN guarantees the optimal reduced mechanism by solving an inverse optimization problem. By comparing ignition delay times, laminar flame speeds, temperatures in PSRs, the resulting skeletal mechanism has fewer species (45 species) but the same level of accuracy as the skeletal mechanism (56 species) obtained by the Path Flux Analysis (PFA) method. In addition, the skeletal mechanism can be further reduced to 28 species if only considering atmospheric, near-stoichiometric conditions (equivalence ratio between 0.6 and 1.2). The DeePMR provides an innovative way to perform model reduction and demonstrates the great potential of data-driven methods in the combustion area.
翻訳日:2022-01-07 15:45:42 公開日:2022-01-06
# (参考訳) 最適アンテナティルト制御法を学習する:コンテキスト線形帯域アプローチ

Learning Optimal Antenna Tilt Control Policies: A Contextual Linear Bandit Approach ( http://arxiv.org/abs/2201.02169v1 )

ライセンス: CC BY 4.0
Filippo Vannella, Alexandre Proutiere, Yassir Jedra, Jaeseong Jeong(参考訳) セルネットワークにおけるアンテナ傾きの制御は、ネットワークカバレッジとキャパシティの効率的なトレードオフに到達するために不可欠である。 本稿では、既存のデータ(受動的学習設定)やアルゴリズム(アクティブ学習設定)によってアクティブに生成されたデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。 CL-MABにおけるBest Policy Identification (BPI)問題として,このようなアルゴリズムの設計を定式化する。 armはアンテナの傾き更新を表し、コンテキストは現在のネットワーク条件をキャプチャし、報酬はパフォーマンスの向上、カバレッジとキャパシティの混合に対応し、その目的は、与えられたレベルの信頼度で、ほぼ最適なポリシー(コンテキストを最大報酬でarmにマッピングする機能)を特定することである。 CL-MABをアクティブ・パッシブ・ラーニング・セッティングの両方で用いる場合、任意のアルゴリズムが所定の精度でほぼ最適なポリシーを返却するために必要なサンプル数に基づいて情報理論の下限を導出し、これらの基本的な限界を達成するアルゴリズムを考案する。 提案アルゴリズムはセルラーネットワークにおける遠隔電気ティルト(RET)最適化問題に適用し,従来のルールベース学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成可能であることを示す。

Controlling antenna tilts in cellular networks is imperative to reach an efficient trade-off between network coverage and capacity. In this paper, we devise algorithms learning optimal tilt control policies from existing data (in the so-called passive learning setting) or from data actively generated by the algorithms (the active learning setting). We formalize the design of such algorithms as a Best Policy Identification (BPI) problem in Contextual Linear Multi-Arm Bandits (CL-MAB). An arm represents an antenna tilt update; the context captures current network conditions; the reward corresponds to an improvement of performance, mixing coverage and capacity; and the objective is to identify, with a given level of confidence, an approximately optimal policy (a function mapping the context to an arm with maximal reward). For CL-MAB in both active and passive learning settings, we derive information-theoretical lower bounds on the number of samples required by any algorithm returning an approximately optimal policy with a given level of certainty, and devise algorithms achieving these fundamental limits. We apply our algorithms to the Remote Electrical Tilt (RET) optimization problem in cellular networks, and show that they can produce optimal tilt update policy using much fewer data samples than naive or existing rule-based learning algorithms.
翻訳日:2022-01-07 15:41:12 公開日:2022-01-06
# 2層ReLUネットワークの効率的なグローバル最適化:二次時間アルゴリズムと逆学習

Efficient Global Optimization of Two-layer ReLU Networks: Quadratic-time Algorithms and Adversarial Training ( http://arxiv.org/abs/2201.01965v1 )

ライセンス: Link先を確認
Yatong Bai, Tanmay Gautam, Somayeh Sojoudi(参考訳) ニューラルネットワーク(ann)トレーニング環境の非凸性は、本質的に最適化の困難をもたらす。 従来のバックプロパゲーション確率勾配勾配法(SGD)アルゴリズムとその変種は、一部のケースでは有効であるが、急激な局所最小値で立ち往生し、初期化やハイパーパラメータに敏感である。 近年の研究では、ReLUアクティベーションを備えたANNのトレーニングが凸プログラムとして再編成され、解釈可能なANNのグローバルな最適化が期待されている。 しかし、凸トレーニングの定式化は指数関数的に複雑であり、近似ヒューリスティックでさえ3次時間を必要とする。 本研究では,この近似の質を特徴付け,ANNをグローバル収束保証で訓練する2つの効率的なアルゴリズムを開発する。 第1のアルゴリズムは乗算器の交互方向法(ADMM)に基づいている。 正確な凸定式化と近似近似式の両方を解く。 線形大域収束は達成され、最初の数回の反復は高い予測精度の解をもたらす。 近似定式化を解くとき、文毎の時間複雑性は二次的である。 第2のアルゴリズムは、"sampled convex programs"理論に基づくもので、実装が容易である。 制約のない凸の定式化を解き、大まかに最適な分類器に収束する。 annトレーニングランドスケープの非凸性は、敵対的なトレーニングを考えると悪化する。 我々は,ロバスト凸最適化理論を凸トレーニングに適用し,逆入力にロバストな ann を訓練する凸定式法を開発した。 分析は一層完全連結のanに明示的に焦点を当てるが、より洗練されたアーキテクチャに拡張できる。

The non-convexity of the artificial neural network (ANN) training landscape brings inherent optimization difficulties. While the traditional back-propagation stochastic gradient descent (SGD) algorithm and its variants are effective in certain cases, they can become stuck at spurious local minima and are sensitive to initializations and hyperparameters. Recent work has shown that the training of an ANN with ReLU activations can be reformulated as a convex program, bringing hope to globally optimizing interpretable ANNs. However, naively solving the convex training formulation has an exponential complexity, and even an approximation heuristic requires cubic time. In this work, we characterize the quality of this approximation and develop two efficient algorithms that train ANNs with global convergence guarantees. The first algorithm is based on the alternating direction method of multiplier (ADMM). It solves both the exact convex formulation and the approximate counterpart. Linear global convergence is achieved, and the initial several iterations often yield a solution with high prediction accuracy. When solving the approximate formulation, the per-iteration time complexity is quadratic. The second algorithm, based on the "sampled convex programs" theory, is simpler to implement. It solves unconstrained convex formulations and converges to an approximately globally optimal classifier. The non-convexity of the ANN training landscape exacerbates when adversarial training is considered. We apply the robust convex optimization theory to convex training and develop convex formulations that train ANNs robust to adversarial inputs. Our analysis explicitly focuses on one-hidden-layer fully connected ANNs, but can extend to more sophisticated architectures.
翻訳日:2022-01-07 15:16:21 公開日:2022-01-06
# ロジスティック帯域に対する結合効率と最適アルゴリズム

Jointly Efficient and Optimal Algorithms for Logistic Bandits ( http://arxiv.org/abs/2201.01985v1 )

ライセンス: Link先を確認
Louis Faury, Marc Abeille, Kwang-Sung Jun, Cl\'ement Calauz\`enes(参考訳) ロジスティック・バンドは近年、理論的および実践的関連性の組み合わせにより慎重に精査されている。 この研究は統計的に効率的なアルゴリズムを提供し、指数関数的に大きな要因によって以前の戦略の後悔を改善した。 しかし、このようなアルゴリズムは、各ラウンドで$\Omega(t)$演算を必要とするため、著しくコストがかかる。 一方、別の研究は計算効率に焦点をあてる("\mathcal{o}(1)$ per-round cost")が、上記の指数関数的改善を放棄するコストを犠牲にしている。 両世界の最善を勝ち取ることは、残念ながら両者の結婚の問題ではない。 代わりに、ロジスティックバンドのための新しい学習手順を導入する。 統計的厳密性を犠牲にすることなく、十分な統計がオンラインで容易に維持できる信頼セットが得られる。 効率的な計画手法と組み合わさって,Abeille et al. (2021) の課題依存下界に相反する性能を後悔する高速アルゴリズムを設計する。 我々の知る限り、これらは統計と計算の効率を同時に享受する最初のロジスティック帯域幅アルゴリズムである。

Logistic Bandits have recently undergone careful scrutiny by virtue of their combined theoretical and practical relevance. This research effort delivered statistically efficient algorithms, improving the regret of previous strategies by exponentially large factors. Such algorithms are however strikingly costly as they require $\Omega(t)$ operations at each round. On the other hand, a different line of research focused on computational efficiency ($\mathcal{O}(1)$ per-round cost), but at the cost of letting go of the aforementioned exponential improvements. Obtaining the best of both world is unfortunately not a matter of marrying both approaches. Instead we introduce a new learning procedure for Logistic Bandits. It yields confidence sets which sufficient statistics can be easily maintained online without sacrificing statistical tightness. Combined with efficient planning mechanisms we design fast algorithms which regret performance still match the problem-dependent lower-bound of Abeille et al. (2021). To the best of our knowledge, those are the first Logistic Bandit algorithms that simultaneously enjoy statistical and computational efficiency.
翻訳日:2022-01-07 15:15:55 公開日:2022-01-06
# RDFデータのためのスキップベクトル:特徴パターンの複雑さに基づく抽出

Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature Patterns ( http://arxiv.org/abs/2201.01996v1 )

ライセンス: Link先を確認
Yota Minami, Ken Kaneiwa(参考訳) Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。 RDFグラフの機械学習タスクには3つの方法がある。 (i)RDFグラフカーネルによるベクトルマシン(SVM)のサポート。 (ii)rdfグラフ埋め込み、及び (iii)関係グラフ畳み込みネットワーク。 本稿では,隣接エッジとノードの様々な組み合わせを抽出することにより,rdfグラフ内の各リソースの特徴を表現できる新しい特徴ベクトル(スキップベクトルと呼ばれる)を提案する。 スキップベクトルを低次元化するために,各特徴の情報ゲイン比に基づいて分類タスクの重要な特徴を選択する。 分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。 Wikidata,DBpedia,YAGOなどのRDFデータを用いた評価実験において,本手法をSVM内のRDFグラフカーネルと比較した。 AIFB, MUTAG, BGS, AMベンチマーク上のRDF2vecやリレーショナルグラフ畳み込みネットワークなどのRDFグラフの埋め込み手法との比較を行った。

The Resource Description Framework (RDF) is a framework for describing metadata, such as attributes and relationships of resources on the Web. Machine learning tasks for RDF graphs adopt three methods: (i) support vector machines (SVMs) with RDF graph kernels, (ii) RDF graph embeddings, and (iii) relational graph convolutional networks. In this paper, we propose a novel feature vector (called a Skip vector) that represents some features of each resource in an RDF graph by extracting various combinations of neighboring edges and nodes. In order to make the Skip vector low-dimensional, we select important features for classification tasks based on the information gain ratio of each feature. The classification tasks can be performed by applying the low-dimensional Skip vector of each resource to conventional machine learning algorithms, such as SVMs, the k-nearest neighbors method, neural networks, random forests, and AdaBoost. In our evaluation experiments with RDF data, such as Wikidata, DBpedia, and YAGO, we compare our method with RDF graph kernels in an SVM. We also compare our method with the two approaches: RDF graph embeddings such as RDF2vec and relational graph convolutional networks on the AIFB, MUTAG, BGS, and AM benchmarks.
翻訳日:2022-01-07 15:15:39 公開日:2022-01-06
# 地域説明のトポロジカル表現

Topological Representations of Local Explanations ( http://arxiv.org/abs/2201.02155v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Gromit Chan, Harish Doraiswamy, Luis Gustavo Nonato, Brian Barr, Claudio Silva(参考訳) モデルアウトプットの合理化の必要性から,ローカルな説明可能性メソッド -- 予測毎に説明を発生させようとする – がますます普及している。 しかし,様々なスケールや次元で出力を生成するため,局所的説明可能性法の比較は困難である。 さらに、いくつかの説明可能性手法の確率的性質から、ある観測値に対して矛盾する説明を生成する方法の異なる実行が可能である。 本稿では,局所的な説明の集合から簡易表現を抽出するトポロジに基づくフレームワークを提案する。 まず、説明空間とモデル予測の関係をスカラー関数としてモデル化する。 そして,この関数のトポロジカルスケルトンを計算する。 このトポロジカルスケルトンはそのような関数のシグネチャとして機能し、異なる説明法を比較するために使用される。 我々のフレームワークは、説明可能性技術の違いを確実に識別できるだけでなく、安定した表現も提供できることを実証する。 次に,本フレームワークを用いて局所的説明可能性手法の適切なパラメータを同定する方法を示す。 我々のフレームワークは単純であり、複雑な最適化を必要としないため、ほとんどの局所的な説明手法に広く適用することができる。 提案手法の実践性と汎用性は,説明手法の理解と比較のためのツールとしてトポロジに基づくアプローチを促進するのに役立つと考えている。

Local explainability methods -- those which seek to generate an explanation for each prediction -- are becoming increasingly prevalent due to the need for practitioners to rationalize their model outputs. However, comparing local explainability methods is difficult since they each generate outputs in various scales and dimensions. Furthermore, due to the stochastic nature of some explainability methods, it is possible for different runs of a method to produce contradictory explanations for a given observation. In this paper, we propose a topology-based framework to extract a simplified representation from a set of local explanations. We do so by first modeling the relationship between the explanation space and the model predictions as a scalar function. Then, we compute the topological skeleton of this function. This topological skeleton acts as a signature for such functions, which we use to compare different explanation methods. We demonstrate that our framework can not only reliably identify differences between explainability techniques but also provides stable representations. Then, we show how our framework can be used to identify appropriate parameters for local explainability methods. Our framework is simple, does not require complex optimizations, and can be broadly applied to most local explanation methods. We believe the practicality and versatility of our approach will help promote topology-based approaches as a tool for understanding and comparing explanation methods.
翻訳日:2022-01-07 15:15:11 公開日:2022-01-06
# Grokking: 小さなアルゴリズムデータセットのオーバーフィッティング以上の一般化

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets ( http://arxiv.org/abs/2201.02177v1 )

ライセンス: Link先を確認
Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin, Vedant Misra(参考訳) 本稿では,小さなアルゴリズムで生成されたデータセット上でのニューラルネットワークの一般化について検討する。 この設定では、データ効率、記憶力、一般化、学習速度に関する質問を詳細に研究することができる。 いくつかの状況では、ニューラルネットワークはデータのパターンを"グロキング"するプロセスを通じて学習し、ランダムな確率レベルから完全な一般化までの一般化性能を改善し、この一般化の改善はオーバーフィッティング(overfitting)のポイントをはるかに越えて起こり得ることを示す。 また,データセットサイズの関数としての一般化についても検討し,より小さなデータセットでは一般化に最適化の量を増やす必要があることを発見した。 これらのデータセットは、深層学習の難解な側面を研究するための豊かな基盤を提供していると論じている: 有限訓練データセットの記憶を超えた過パラメータニューラルネットワークの一般化である。

In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great detail. In some situations we show that neural networks learn through a process of "grokking" a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in generalization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.
翻訳日:2022-01-07 15:14:51 公開日:2022-01-06
# 重み付きcspsのスーパーリパラメトリゼーション:特性と最適化の展望

Super-Reparametrizations of Weighted CSPs: Properties and Optimization Perspective ( http://arxiv.org/abs/2201.02018v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask, Tom\'a\v{s} Werner, Simon de Givry(参考訳) 重み付きCSP(WCSP)の再パラメータ化の概念(WCSPの同値保存変換とも呼ばれる)はよく知られており、最適なWCSP値の近似や有界化に多くのアルゴリズムで用いられている。 対照的にスーパーリパラメトリゼーション(wcspの目標を各割り当てに維持または増やす重みの変化)の概念は既に提案されていたが、詳細は研究されなかった。 このギャップを埋めるために、超再パラメータ化の理論的性質をいくつか提示し、再パラメータ化の理論特性と比較する。 さらに,スーパーリパラメトリゼーションを用いたwcspの最適値の上限を計算するためのフレームワークを提案する。 任意の制約伝達ルール(技術的条件下では)を原則として適用して境界値を改善することは可能であることを示す。 特にアーク整合性については、この手法は既知の仮想AC(VAC)アルゴリズムに還元される。 新たに我々はシングルトンアーク整合性(SAC)法を実装し,WCSPの他の強い局所成分と比較した。 その結果、SACから得られる境界は、多くの事例群よりも優れていることがわかった。

The notion of reparametrizations of Weighted CSPs (WCSPs) (also known as equivalence-preserving transformations of WCSPs) is well-known and finds its use in many algorithms to approximate or bound the optimal WCSP value. In contrast, the concept of super-reparametrizations (which are changes of the weights that keep or increase the WCSP objective for every assignment) was already proposed but never studied in detail. To fill this gap, we present a number of theoretical properties of super-reparametrizations and compare them to those of reparametrizations. Furthermore, we propose a framework for computing upper bounds on the optimal value of the (maximization version of) WCSP using super-reparametrizations. We show that it is in principle possible to employ arbitrary (under some technical conditions) constraint propagation rules to improve the bound. For arc consistency in particular, the method reduces to the known Virtual AC (VAC) algorithm. Newly, we implemented the method for singleton arc consistency (SAC) and compared it to other strong local consistencies in WCSPs on a public benchmark. The results show that the bounds obtained from SAC are superior for many instance groups.
翻訳日:2022-01-07 15:13:31 公開日:2022-01-06
# 均質不平衡正則化最適輸送モデルと境界付き最適輸送への応用

An Homogeneous Unbalanced Regularized Optimal Transport model with applications to Optimal Transport with Boundary ( http://arxiv.org/abs/2201.02082v1 )

ライセンス: Link先を確認
Th\'eo Lacombe(参考訳) 本研究は,不均衡最適輸送(ot)モデルにおけるエントロピー正規化項の導入が,入力測度に対する同質性を変化させる可能性について検討する。 我々は, 最適輸送コスト自体が均質ではなく, 最適な輸送計画であり, いわゆるシンクホーン発散は確かに均質であるにもかかわらず, 共通設定(平衡OTと非平衡OTとクルバック・リーブラー発散を含む)において観察する。 しかし、均質性はより一般的な非平衡正規化最適輸送(urot)モデルでは成立しない。 標準 urot モデルの多くの特性を維持しつつ均質な urot モデルを取得するために、エントロピー正規化項を変更することを提案する。 標準(不均一)UROTモデルが不適切な振る舞いをもたらす辺縁部への空間的変化を含む輸送モデルである、境界による最適輸送を規則化する上で、同種UROT(HUROT)モデルを使用することの重要性を示す。

This work studies how the introduction of the entropic regularization term in unbalanced Optimal Transport (OT) models may alter their homogeneity with respect to the input measures. We observe that in common settings (including balanced OT and unbalanced OT with Kullback-Leibler divergence to the marginals), although the optimal transport cost itself is not homogeneous, optimal transport plans and the so-called Sinkhorn divergences are indeed homogeneous. However, homogeneity does not hold in more general Unbalanced Regularized Optimal Transport (UROT) models, for instance those using the Total Variation as divergence to the marginals. We propose to modify the entropic regularization term to retrieve an UROT model that is homogeneous while preserving most properties of the standard UROT model. We showcase the importance of using our Homogeneous UROT (HUROT) model when it comes to regularize Optimal Transport with Boundary, a transportation model involving a spatially varying divergence to the marginals for which the standard (inhomogeneous) UROT model would yield inappropriate behavior.
翻訳日:2022-01-07 15:12:59 公開日:2022-01-06
# 単語N-gram言語モデルを用いたマンダリン終端音声認識の改良

Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model ( http://arxiv.org/abs/2201.01995v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Chao Weng, Yuexian Zou, and Dong Yu(参考訳) エンドツーエンド(e2e)自動音声認識(asr)の急速な進歩にもかかわらず、外部言語モデル(lms)をデコードに組み込むことにより、e2e asrシステムの認識性能がさらに向上することが示されている。 E2E ASRシステムで採用されているモデリングユニットに合わせて、サブワードレベル(文字、BPE)のLMは、通常、現在のE2E ASRシステムと協調するために使用される。 しかし、サブワードレベルのLMは単語レベルの情報を無視し、E2E ASRの外部LMの強度を制限する可能性がある。 単語レベルの外部LMをE2E ASRに組み込む方法はいくつか提案されているが、これらの手法は主に英語のような明確な単語境界を持つ言語向けに設計されており、各文字列が複数の単語列を持つことができるマンダリンのような言語には直接適用できない。 そこで本研究では,単語レベルの格子をオンザフライで構築し,各部分仮説に対して可能な単語列をすべて考慮した新しい復号アルゴリズムを提案する。 そして、生成された格子を外部語N-gram LMと交差させて仮説のLMスコアを得る。 提案手法は,AED(Attention-based Encoder-Decoder)とNT(Neural Transducer)の両フレームワークについて検討した。 実験の結果,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回ることがわかった。 Aishell-1(CER 4.18%)とAishell-2(CER 5.06%)の両方のデータセットで最先端の結果が得られ、21K時間マンダリンデータセットでCERを14.8%削減する。

Despite the rapid progress of end-to-end (E2E) automatic speech recognition (ASR), it has been shown that incorporating external language models (LMs) into the decoding can further improve the recognition performance of E2E ASR systems. To align with the modeling units adopted in E2E ASR systems, subword-level (e.g., characters, BPE) LMs are usually used to cooperate with current E2E ASR systems. However, the use of subword-level LMs will ignore the word-level information, which may limit the strength of the external LMs in E2E ASR. Although several methods have been proposed to incorporate word-level external LMs in E2E ASR, these methods are mainly designed for languages with clear word boundaries such as English and cannot be directly applied to languages like Mandarin, in which each character sequence can have multiple corresponding word sequences. To this end, we propose a novel decoding algorithm where a word-level lattice is constructed on-the-fly to consider all possible word sequences for each partial hypothesis. Then, the LM score of the hypothesis is obtained by intersecting the generated lattice with an external word N-gram LM. The proposed method is examined on both Attention-based Encoder-Decoder (AED) and Neural Transducer (NT) frameworks. Experiments suggest that our method consistently outperforms subword-level LMs, including N-gram LM and neural network LM. We achieve state-of-the-art results on both Aishell-1 (CER 4.18%) and Aishell-2 (CER 5.06%) datasets and reduce CER by 14.8% relatively on a 21K-hour Mandarin dataset.
翻訳日:2022-01-07 15:12:38 公開日:2022-01-06
# ビデオ分解用フローガイドスパース変圧器

Flow-Guided Sparse Transformer for Video Deblurring ( http://arxiv.org/abs/2201.01893v1 )

ライセンス: Link先を確認
Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 時空間近傍における類似したシャープなシーンパッチの活用は,ビデオデブラリングにおいて重要である。 しかし、cnnベースの手法では、長距離依存性の捕捉と非局所的自己相似性のモデリングに制限がある。 本稿では,FGST(Flow-Guided Sparse Transformer)という新しいフレームワークを提案する。 FGSTでは,FGSW-MSA(Flow-Guided Sparse Window-based Multi-head Self-Attention)をカスタマイズする。 ぼやけた参照フレーム上の$query$要素ごとに、FGSW-MSAは推定された光フローのガイダンスを楽しみ、隣接するフレームの同じシーンパッチに対応する、空間的にスパースで高関連性の高い$key$要素を世界中にサンプリングする。 さらに,過去のフレームから情報を転送し,長期の時間依存性を強化するリカレント埋め込み(re)機構を提案する。 総合的な実験により,提案するfgstはdvdおよびgoproのデータセットにおいて最先端(sota)メソッドよりも優れており,より視覚的な評価結果が得られることを示した。 コードとモデルは一般公開される予定だ。

Exploiting similar and sharper scene patches in spatio-temporal neighborhoods is critical for video deblurring. However, CNN-based methods show limitations in capturing long-range dependencies and modeling non-local self-similarity. In this paper, we propose a novel framework, Flow-Guided Sparse Transformer (FGST), for video deblurring. In FGST, we customize a self-attention module, Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each $query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of the estimated optical flow to globally sample spatially sparse yet highly related $key$ elements corresponding to the same scene patch in neighboring frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer information from past frames and strengthen long-range temporal dependencies. Comprehensive experiments demonstrate that our proposed FGST outperforms state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields more visually pleasing results in real video deblurring. Code and models will be released to the public.
翻訳日:2022-01-07 15:11:45 公開日:2022-01-06
# 非織布に対するあいまいな曇り指数

An unambiguous cloudiness index for nonwovens ( http://arxiv.org/abs/2201.02011v1 )

ライセンス: Link先を確認
Michael Godehardt, Ali Moghiseh, Christine Oetjen, Joachim Ohser and Katja Schladitz(参考訳) 曇りや形成は、不織布や論文の均質性からの逸脱に対処するために産業で日常的に使われる概念である。 画像データに基づく曇り指数の測定は,産業品質保証において一般的な課題である。 曇りを定量化する最も一般的な2つの方法は、一方の力スペクトルまたは相関関数または他方のラプラシアピラミッドに基づいている。 ここでは,最初のアプローチの数学的基礎を包括的に記憶し,曇り指数を導出し,その実用的評価を示す。 我々は、ラプラシアピラミッドと、相互作用の範囲や小角散乱の強度といった曇りを特徴付ける他の量は、パワースペクトルと非常に密接に関係していることを証明する。 最後に, 電力スペクトルを解析的に測定することが容易であり, 代替技術よりも多くの情報を運ぶことを示す。

Cloudiness or formation is a concept routinely used in industry to address deviations from homogeneity in nonwovens and papers. Measuring a cloudiness index based on image data is a common task in industrial quality assurance. The two most popular ways of quantifying cloudiness are based on power spectrum or correlation function on the one hand or the Laplacian pyramid on the other hand. Here, we recall the mathematical basis of the first approach comprehensively, derive a cloudiness index, and demonstrate its practical estimation. We prove that the Laplacian pyramid as well as other quantities characterizing cloudiness like the range of interaction and the intensity of small-angle scattering are very closely related to the power spectrum. Finally, we show that the power spectrum is easy to be measured image analytically and carries more information than the alternatives.
翻訳日:2022-01-07 15:11:26 公開日:2022-01-06
# ニューラルマシン翻訳のための句レベルの逆例生成

Phrase-level Adversarial Example Generation for Neural Machine Translation ( http://arxiv.org/abs/2201.02009v1 )

ライセンス: Link先を確認
Juncheng Wan, Jian Yang, Shuming Ma, Dongdong Zhang, Weinan Zhang, Yong Yu, Furu Wei(参考訳) エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。 拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 既存の敵例生成法(AEG)は、単語レベルまたは文字レベルである。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。 本手法は,ソース入力における脆弱な位置のフレーズを代用するために,勾配に基づく戦略を用いる。 我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。 実験の結果,従来の手法に比べて性能が大幅に向上した。

While end-to-end neural machine translation (NMT) has achieved impressive progress, noisy input usually leads models to become fragile and unstable. Generating adversarial examples as the augmented data is proved to be useful to alleviate this problem. Existing methods for adversarial example generation (AEG) are word-level or character-level. In this paper, we propose a phrase-level adversarial example generation (PAEG) method to enhance the robustness of the model. Our method leverages a gradient-based strategy to substitute phrases of vulnerable positions in the source input. We verify our method on three benchmarks, including LDC Chinese-English, IWSLT14 German-English, and WMT14 English-German tasks. Experimental results demonstrate that our approach significantly improves performance compared to previous methods.
翻訳日:2022-01-07 14:54:21 公開日:2022-01-06
# 幸いなことに、談話マーカーは感情分析のための言語モデルを強化できる

Fortunately, Discourse Markers Can Enhance Language Models for Sentiment Analysis ( http://arxiv.org/abs/2201.02026v1 )

ライセンス: Link先を確認
Liat Ein-Dor, Ilya Shnayderman, Artem Spector, Lena Dankin, Ranit Aharonov and Noam Slonim(参考訳) 近年、訓練済みの言語モデルがNLPの世界に革命をもたらし、下流の様々なタスクにおける芸術的パフォーマンスの状態を達成している。 しかし、多くの場合、ラベル付きデータが不足し、ゼロまたは少数のショット設定でモデルが実行されることが期待される場合、これらのモデルはうまく機能しない。 近年,ダウンストリームタスクに合致した第2フェーズの事前トレーニング(インタートレーニング)を行うことで,特に不足したデータセットにおいて,結果が改善されることが,いくつかの研究で示されている。 本稿では,感情分析に言語モデルを適用した大規模弱ラベルデータを生成するために,感情伝達型談話マーカーを活用することを提案する。 大規模な実験結果から,ファイナンス領域を含むさまざまなベンチマークデータセットに対するアプローチの価値が示された。 コード、モデル、データはhttps://github.com/ibm/tslm-discourse-markersで入手できる。

In recent years, pretrained language models have revolutionized the NLP world, while achieving state of the art performance in various downstream tasks. However, in many cases, these models do not perform well when labeled data is scarce and the model is expected to perform in the zero or few shot setting. Recently, several works have shown that continual pretraining or performing a second phase of pretraining (inter-training) which is better aligned with the downstream task, can lead to improved results, especially in the scarce data setting. Here, we propose to leverage sentiment-carrying discourse markers to generate large-scale weakly-labeled data, which in turn can be used to adapt language models for sentiment analysis. Extensive experimental results show the value of our approach on various benchmark datasets, including the finance domain. Code, models and data are available at https://github.com/ibm/tslm-discourse-markers.
翻訳日:2022-01-07 14:54:06 公開日:2022-01-06
# bern2: エンティティ認識および正規化ツールという,高度な神経バイオメディカル

BERN2: an advanced neural biomedical named entity recognition and normalization tool ( http://arxiv.org/abs/2201.02080v1 )

ライセンス: Link先を確認
Mujeen Sung, Minbyul Jeong, Yonghwa Choi, Donghyeon Kim, Jinhyuk Lee and Jaewoo Kang(参考訳) 生物医学の自然言語処理において、名前付き実体認識(NER)と名前付き実体正規化(NEN)は、成長を続ける生物医学の文献から生物医学の実体(疾患や化学物質など)を自動抽出できる重要なタスクである。 本稿では,従来のニューラルネットワークベースのNERツール(Kim et al., 2019)を改善するツールであるBERN2(Advanced Biomedical Entity Recognition and Normalization)を提案する。 我々は,バイオメディカル知識グラフ構築などの様々なタスクにおいて,大規模バイオメディカルテキストをより正確に注釈できるツールを期待する。

In biomedical natural language processing, named entity recognition (NER) and named entity normalization (NEN) are key tasks that enable the automatic extraction of biomedical entities (e.g., diseases and chemicals) from the ever-growing biomedical literature. In this paper, we present BERN2 (Advanced Biomedical Entity Recognition and Normalization), a tool that improves the previous neural network-based NER tool (Kim et al., 2019) by employing a multi-task NER model and neural network-based NEN models to achieve much faster and more accurate inference. We hope that our tool can help annotate large-scale biomedical texts more accurately for various tasks such as biomedical knowledge graph construction.
翻訳日:2022-01-07 14:53:50 公開日:2022-01-06
# Decompose to Adapt: Feature Disentanglementによるクロスドメインオブジェクト検出

Decompose to Adapt: Cross-domain Object Detection via Feature Disentanglement ( http://arxiv.org/abs/2201.01929v1 )

ライセンス: Link先を確認
Dongnan Liu, Chaoyi Zhang, Yang Song, Heng Huang, Chenyu Wang, Michael Barnett, Weidong Cai(参考訳) 教師なしドメイン適応(UDA)技術の最近の進歩は、ドメイン間コンピュータビジョンタスクにおいて大きな成功を収め、ドメイン分散ギャップを埋めることにより、データ駆動型ディープラーニングアーキテクチャの一般化能力を高めている。 UDAベースのクロスドメインオブジェクト検出手法では、その大部分は、逆学習戦略を通じてドメイン不変の機能生成を誘導することにより、ドメインバイアスを軽減する。 しかし, ドメイン識別者は, 不安定な対向訓練過程のため, 分類能力に制限がある。 したがって、抽出された特徴は完全にドメイン不変ではなく、依然としてドメインプライベートな要素を含まないため、ドメイン間の相違をさらに緩和する障害が生じる。 この問題に対処するために,タスク学習機能におけるソース固有情報を排除するために,DDF(Domain Disentanglement Faster-RCNN)を設計する。 ddf法は,gtd(global triplet disentanglement)モジュールとisd(instance similarity disentanglement)モジュールを用いて,大域的および局所的な段階における特徴的不等角化を促進する。 提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法よりも優れていることを示す。

Recent advances in unsupervised domain adaptation (UDA) techniques have witnessed great success in cross-domain computer vision tasks, enhancing the generalization ability of data-driven deep learning architectures by bridging the domain distribution gaps. For the UDA-based cross-domain object detection methods, the majority of them alleviate the domain bias by inducing the domain-invariant feature generation via adversarial learning strategy. However, their domain discriminators have limited classification ability due to the unstable adversarial training process. Therefore, the extracted features induced by them cannot be perfectly domain-invariant and still contain domain-private factors, bringing obstacles to further alleviate the cross-domain discrepancy. To tackle this issue, we design a Domain Disentanglement Faster-RCNN (DDF) to eliminate the source-specific information in the features for detection task learning. Our DDF method facilitates the feature disentanglement at the global and local stages, with a Global Triplet Disentanglement (GTD) module and an Instance Similarity Disentanglement (ISD) module, respectively. By outperforming state-of-the-art methods on four benchmark UDA object detection tasks, our DDF method is demonstrated to be effective with wide applicability.
翻訳日:2022-01-07 14:52:40 公開日:2022-01-06
# 空中シーン解析:タイルレベルシーン分類からピクセルワイドセマンティックラベリングへ

Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise Semantic Labeling ( http://arxiv.org/abs/2201.01953v1 )

ライセンス: Link先を確認
Yang Long and Gui-Song Xia and Liangpei Zhang and Gong Cheng and Deren Li(参考訳) 空中画像が与えられた場合、空中シーン解析(ASP)は、画像のすべてのピクセルにセマンティックラベルを割り当てることによって、画像内容の意味的構造を解釈する。 データ駆動型手法の普及に伴い、過去数十年間、高解像度空中画像を用いたタイルレベルのシーン分類やセグメンテーションに基づく画像解析の手法の問題にアプローチすることで、asp.netは有望な進歩を遂げてきた。 しかしながら、以前のスキームはタイルワイドなバウンダリで結果を生成することが多いが、後者はピクセルからセマンティクスまで複雑なモデリングプロセスを扱う必要がある。 本稿では,タイルレベルのシーン分類から画素単位のセマンティックラベリングまでの観点から,これらの課題をASP.NET で解決する。 具体的には,まず,文献レビューによる空中画像解釈を再考する。 次に,100万エイドという航空画像を含む大規模シーン分類データセットを提案する。 本稿では,従来の畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験についても報告する。 最後に,タイルレベルのシーン分類とオブジェクトベース画像解析を統合し,ピクセル単位の意味ラベリングを実現する。 集中的な実験によると、Million-AIDは難しいが有用なデータセットであり、新しく開発されたアルゴリズムを評価するためのベンチマークとして機能する。 Million-AIDから知識を伝達する際、Mario-AIDで事前訓練された微調整CNNモデルは、空中シーン分類のための事前訓練されたImageNetよりも一貫して性能が向上する。 さらに,階層型マルチタスク学習手法では,難解なgid上で最先端の画素単位の分類を実現し,航空機画像解釈のための画素単位の意味ラベリングに対してタイルレベルのシーン分類を橋渡しする。

Given an aerial image, aerial scene parsing (ASP) targets to interpret the semantic structure of the image content, e.g., by assigning a semantic label to every pixel of the image. With the popularization of data-driven methods, the past decades have witnessed promising progress on ASP by approaching the problem with the schemes of tile-level scene classification or segmentation-based image analysis, when using high-resolution aerial images. However, the former scheme often produces results with tile-wise boundaries, while the latter one needs to handle the complex modeling process from pixels to semantics, which often requires large-scale and well-annotated image samples with pixel-wise semantic labels. In this paper, we address these issues in ASP, with perspectives from tile-level scene classification to pixel-wise semantic labeling. Specifically, we first revisit aerial image interpretation by a literature review. We then present a large-scale scene classification dataset that contains one million aerial images termed Million-AID. With the presented dataset, we also report benchmarking experiments using classical convolutional neural networks (CNNs). Finally, we perform ASP by unifying the tile-level scene classification and object-based image analysis to achieve pixel-wise semantic labeling. Intensive experiments show that Million-AID is a challenging yet useful dataset, which can serve as a benchmark for evaluating newly developed algorithms. When transferring knowledge from Million-AID, fine-tuning CNN models pretrained on Million-AID perform consistently better than those pretrained ImageNet for aerial scene classification. Moreover, our designed hierarchical multi-task learning method achieves the state-of-the-art pixel-wise classification on the challenging GID, bridging the tile-level scene classification toward pixel-wise semantic labeling for aerial image interpretation.
翻訳日:2022-01-07 14:52:16 公開日:2022-01-06
# 人物再特定のための多領域共同訓練

Multi-Domain Joint Training for Person Re-Identification ( http://arxiv.org/abs/2201.01983v1 )

ライセンス: Link先を確認
Lu Yang, Lingqiao Liu, Yunlong Wang, Peng Wang, and Yanning Zhang(参考訳) ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。 したがって、多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。 より多くのサンプル、すなわち複数のデータセットからのサンプルによるトレーニングを使用することは、必ずしも人気のあるreidモデルを使用することによるパフォーマンス向上につながりません。 場合によっては、より多くのサンプルによるトレーニングが、これらのデータセットの1つで評価のパフォーマンスを損なうこともある。 我々は、この現象は標準ネットワークが多様な環境に適応できないことによるものであると仮定する。 この問題を解決するために,パラメータを様々な要因に適応できるDomain-Camera-Sample Dynamic Network (DCSD) を提案する。 具体的には、入力特徴から特定できる内部ドメイン関連因子と、ドメイン情報やカメラ情報などの外部ドメイン関連因子について考察する。 我々の発見によると、このような適応モデルによるトレーニングは、より多くのトレーニングサンプルの恩恵を受けることができる。 実験の結果,複数のデータセットで共同トレーニングを行うことで,dcsdの性能を最大12.3%向上させることができた。

Deep learning-based person Re-IDentification (ReID) often requires a large amount of training data to achieve good performance. Thus it appears that collecting more training data from diverse environments tends to improve the ReID performance. This paper re-examines this common belief and makes a somehow surprising observation: using more samples, i.e., training with samples from multiple datasets, does not necessarily lead to better performance by using the popular ReID models. In some cases, training with more samples may even hurt the performance of the evaluation is carried out in one of those datasets. We postulate that this phenomenon is due to the incapability of the standard network in adapting to diverse environments. To overcome this issue, we propose an approach called Domain-Camera-Sample Dynamic network (DCSD) whose parameters can be adaptive to various factors. Specifically, we consider the internal domain-related factor that can be identified from the input features, and external domain-related factors, such as domain information or camera information. Our discovery is that training with such an adaptive model can better benefit from more training samples. Experimental results show that our DCSD can greatly boost the performance (up to 12.3%) while joint training in multiple datasets.
翻訳日:2022-01-07 14:51:09 公開日:2022-01-06
# TransVPR:マルチレベルアテンションアグリゲーションを用いたトランスフォーマーを用いた位置認識

TransVPR: Transformer-based place recognition with multi-level attention aggregation ( http://arxiv.org/abs/2201.02001v1 )

ライセンス: Link先を確認
Ruotong Wang, Yanqing Shen, Weiliang Zuo, Sanping Zhou, Nanning Zhen(参考訳) 視覚位置認識は、自律走行ナビゲーションや移動ロボットのローカライズといったアプリケーションにとって難しい課題である。 複雑な場面に現れる要素の抽出は、しばしば視覚的な場所の知覚のずれにつながる。 この問題に対処するためには,タスク関連領域のみからの情報を画像表現に統合することが重要である。 本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。 タスク関連機能を自然に集約できるトランスフォーマーにおける自己注意操作の望ましい特性の恩恵を受ける。 異なる関心領域にフォーカスしたトランスフォーマの複数のレベルからの注意がさらに組み合わされ、グローバルなイメージ表現が生成される。 また、融合アテンションマスクによりフィルタされたトランス層からの出力トークンをキーパッチディスクリプタとして、グローバル画像特徴により検索された候補を再ランク付けするための空間マッチングを行う。 モデル全体は、単一の目的とイメージレベルの監督によるエンドツーエンドのトレーニングを可能にする。 TransVPRは、計算時間とストレージ要件を低く保ちながら、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。

Visual place recognition is a challenging task for applications such as autonomous driving navigation and mobile robot localization. Distracting elements presenting in complex scenes often lead to deviations in the perception of visual place. To address this problem, it is crucial to integrate information from only task-relevant regions into image representations. In this paper, we introduce a novel holistic place recognition model, TransVPR, based on vision Transformers. It benefits from the desirable property of the self-attention operation in Transformers which can naturally aggregate task-relevant features. Attentions from multiple levels of the Transformer, which focus on different regions of interest, are further combined to generate a global image representation. In addition, the output tokens from Transformer layers filtered by the fused attention mask are considered as key-patch descriptors, which are used to perform spatial matching to re-rank the candidates retrieved by the global image features. The whole model allows end-to-end training with a single objective and image-level supervision. TransVPR achieves state-of-the-art performance on several real-world benchmarks while maintaining low computational time and storage requirements.
翻訳日:2022-01-07 14:50:46 公開日:2022-01-06
# 効率的な動作分割のためのEM駆動型教師なし学習

EM-driven unsupervised learning for efficient motion segmentation ( http://arxiv.org/abs/2201.02074v1 )

ライセンス: Link先を確認
Etienne Meunier, Ana\"is Badoual, and Patrick Bouthemy(参考訳) 本稿では,cnnを用いた光流れからの運動分割の完全教師なし手法を提案する。 入力光の流れは、通常、アフィンまたは二次運動モデルと呼ばれるパラメトリック運動モデルの分割集合として表現できると仮定し、この研究の核となる考え方は、期待最大化(em)フレームワークを活用することである。 これにより,運動セグメンテーションニューラルネットワークの損失関数とトレーニング手順を,十分に確立した方法で設計することができる。 しかし、古典的反復的emとは対照的に、ネットワークが訓練されると、1つの推論ステップで認識されていない任意の光フロー場のセグメンテーションが提供され、それらは推論段階では推定されないため、運動モデルパラメータの初期化に依存しない。 損失関数は、ロバストなものを含めて異なる。 また,オプティカルフローフィールドにおける新しいデータ拡張手法を提案する。 DAVIS2016データセット上で動作セグメンテーションネットワークを検証した。 提案手法は, 教師なし手法よりも優れ, 効率的である。 実際、125fpsで実行でき、リアルタイムアプリケーションで使用することができる。

This paper presents a CNN-based fully unsupervised method for motion segmentation from optical flow. We assume that the input optical flow can be represented as a piecewise set of parametric motion models, typically, affine or quadratic motion models.The core idea of this work is to leverage the Expectation-Maximization (EM) framework. It enables us to design in a well-founded manner the loss function and the training procedure of our motion segmentation neural network. However, in contrast to the classical iterative EM, once the network is trained, we can provide a segmentation for any unseen optical flow field in a single inference step, with no dependence on the initialization of the motion model parameters since they are not estimated in the inference stage. Different loss functions have been investigated including robust ones. We also propose a novel data augmentation technique on the optical flow field with a noticeable impact on the performance. We tested our motion segmentation network on the DAVIS2016 dataset. Our method outperforms comparable unsupervised methods and is very efficient. Indeed, it can run at 125fps making it usable for real-time applications.
翻訳日:2022-01-07 14:50:31 公開日:2022-01-06
# (参考訳) 局所ホウレンソウ認識のための深層学習に基づく分類システム

Deep Learning Based Classification System For Recognizing Local Spinach ( http://arxiv.org/abs/2201.02093v1 )

ライセンス: CC BY 4.0
Mirajul Islam, Nushrat Jahan Ria, Jannatul Ferdous Ani, Abu Kaisar Mohammad Masum, Sheikh Abujar, Syed Akhter Hossain(参考訳) ディープラーニングモデルは、トレーニングされたデータセットから学習することで、画像処理に驚くべき結果をもたらす。 ホウレンソウはビタミンと栄養素を含む葉菜である。 本研究では,ホウレンソウを自動的に識別する深層学習法を考案し,3785枚の画像を含む5種のホウレンソウのデータセットを作成した。 4つの畳み込みニューラルネットワーク(CNN)モデルを用いてホウレンソウを分類した。 これらのモデルにより、より正確な画像分類結果が得られる。 これらのモデルを適用する前に、画像データのプリプロセッシングがある。 データの前処理には、いくつかのメソッドが必要になる。 RGB変換、フィルタリング、サイズ変更と再スケーリング、分類などです。 これらの手法を適用した後、画像データは前処理され、分類アルゴリズムで使用できる。 これらの分類器の精度は98.68%から99.79%である。 これらのモデルの中で、vgg16は最高精度99.79%を達成した。

A deep learning model gives an incredible result for image processing by studying from the trained dataset. Spinach is a leaf vegetable that contains vitamins and nutrients. In our research, a Deep learning method has been used that can automatically identify spinach and this method has a dataset of a total of five species of spinach that contains 3785 images. Four Convolutional Neural Network (CNN) models were used to classify our spinach. These models give more accurate results for image classification. Before applying these models there is some preprocessing of the image data. For the preprocessing of data, some methods need to happen. Those are RGB conversion, filtering, resize & rescaling, and categorization. After applying these methods image data are pre-processed and ready to be used in the classifier algorithms. The accuracy of these classifiers is in between 98.68% - 99.79%. Among those models, VGG16 achieved the highest accuracy of 99.79%.
翻訳日:2022-01-07 14:48:08 公開日:2022-01-06
# 資産配分勧告のための強化学習と逆強化学習の組み合わせ

Combining Reinforcement Learning and Inverse Reinforcement Learning for Asset Allocation Recommendations ( http://arxiv.org/abs/2201.01874v1 )

ライセンス: Link先を確認
Igor Halperin, Jiayu Liu, Xiao Zhang(参考訳) 我々は、人間と人工知能を組み合わせることで、ファンドマネージャの最良の投資プラクティスを学習し、それらを改善するためのアドバイスを提供するための、シンプルな実践的な方法を提案する。 我々のアプローチは、逆強化学習(IRL)とRLの組み合わせに基づいている。 まず、IRLコンポーネントは、トレーディング履歴から示唆されたファンドマネージャの意図を学習し、インプリッド報酬機能を回復する。 2番目のステップでは、アセット割り当て決定を最適化するために直接RLアルゴリズムによってこの報酬関数が使用される。 当社の手法は,個々のファンドマネージャのパフォーマンスよりも改善可能であることを示す。

We suggest a simple practical method to combine the human and artificial intelligence to both learn best investment practices of fund managers, and provide recommendations to improve them. Our approach is based on a combination of Inverse Reinforcement Learning (IRL) and RL. First, the IRL component learns the intent of fund managers as suggested by their trading history, and recovers their implied reward function. At the second step, this reward function is used by a direct RL algorithm to optimize asset allocation decisions. We show that our method is able to improve over the performance of individual fund managers.
翻訳日:2022-01-07 14:41:02 公開日:2022-01-06
# SABLAS:ブラックボックス動的システムのための安全な学習制御

SABLAS: Learning Safe Control for Black-box Dynamical Systems ( http://arxiv.org/abs/2201.01918v1 )

ライセンス: Link先を確認
Zengyi Qin, Dawei Sun and Chuchu Fan(参考訳) バリア関数に基づく制御証明書は、動的システムのおそらく安全な制御ポリシーを生成する強力なツールである。 しかしながら、バリア証明書に基づく既存の手法は、通常、識別可能な力学を持つホワイトボックスシステムに適用されるため、システムはブラックボックスであり、正確にモデル化できない多くの実用アプリケーションには適用できない。 一方、ブラックボックスシステムのモデルフリー強化学習(RL)法は、安全性保証の欠如とサンプリング効率の低下に悩まされている。 本稿では,ブラックボックス力学系の安全制御ポリシとバリア証明書を,システムモデルを正確に必要とせずに学習できる新しい手法を提案する。 本手法では,ブラックボックス力学系が微分不能であっても制御方針への勾配をバックプロパゲートするために損失関数を再設計し,ブラックボックス系に安全証明書が保持されていることを示す。 シミュレーション実験の結果,本手法は,最新のブラックボックスセーフコントロール法に比べて,100%の安全性と目標到達率をはるかに少ないトレーニングサンプルで達成することで,学習方針の性能を大幅に向上できることがわかった。 私たちの学習エージェントは、元のパフォーマンスを維持しながら、目に見えないシナリオに一般化することができます。 ソースコードはhttps://github.com/zengyi-qin/bcbfにある。

Control certificates based on barrier functions have been a powerful tool to generate probably safe control policies for dynamical systems. However, existing methods based on barrier certificates are normally for white-box systems with differentiable dynamics, which makes them inapplicable to many practical applications where the system is a black-box and cannot be accurately modeled. On the other side, model-free reinforcement learning (RL) methods for black-box systems suffer from lack of safety guarantees and low sampling efficiency. In this paper, we propose a novel method that can learn safe control policies and barrier certificates for black-box dynamical systems, without requiring for an accurate system model. Our method re-designs the loss function to back-propagate gradient to the control policy even when the black-box dynamical system is non-differentiable, and we show that the safety certificates hold on the black-box system. Empirical results in simulation show that our method can significantly improve the performance of the learned policies by achieving nearly 100% safety and goal reaching rates using much fewer training samples, compared to state-of-the-art black-box safe control methods. Our learned agents can also generalize to unseen scenarios while keeping the original performance. The source code can be found at https://github.com/Zengyi-Qin/bcbf.
翻訳日:2022-01-07 14:40:53 公開日:2022-01-06
# 貯留層モデルとしてのランダム化高次ファジィ認知マップの導入:太陽エネルギーと負荷予測を事例として

Introducing Randomized High Order Fuzzy Cognitive Maps as Reservoir Computing Models: A Case Study in Solar Energy and Load Forecasting ( http://arxiv.org/abs/2201.02158v1 )

ライセンス: Link先を確認
Omid Orang, Petr\^onio C\^andido de Lima Silva, Frederico Gadelha Guimar\~aes(参考訳) ファジィ認知マップ(FCM)は、概念間の依存関係を表すノード(概念)と重みからなる解釈可能な符号付き重み付きグラフ法として登場した。 FCMは様々な時系列予測アプリケーションでかなりの成果を上げてきたが、時間効率のトレーニング手法でFCMモデルを設計することは依然としてオープンな課題である。 そこで本研究では,R-HFCMをラベル付けしたランダム化高次FCMモデル群からなる,新しい一変量時系列予測手法を提案する。 提案するr-hfcmモデルの新規性は,fcm と echo state network (esn) の概念を,モデル学習に最小二乗法を適用した,リザーバコンピューティング (rc) モデルの効率的かつ特定ファミリーとして統合することに関連している。 別の観点からは、R-HFCMの構造は、入力層、貯留層、出力層のみをトレーニング可能とし、各サブ貯留層コンポーネントの重みはランダムに選択され、トレーニングプロセス中に一定に維持される。 ケーススタディとして、このモデルは、マレーシアのジョホール市の電力供給会社の時給電力負荷と温度データを含むマレーシアのデータセットと同様に、ブラジルのソーラーステーションの公共データによる太陽エネルギー予測について検討している。 また, 地図サイズ, 活性化関数, バイアスの有無, 貯水池の大きさがR-HFCM法の精度に及ぼす影響についても検討した。 その結果, 提案したR-HFCMモデルの性能が他の手法と比較された。 本研究は,FCMが時系列モデリングにおける力学の貯蓄を実現する新しい方法であることを示す。

Fuzzy Cognitive Maps (FCMs) have emerged as an interpretable signed weighted digraph method consisting of nodes (concepts) and weights which represent the dependencies among the concepts. Although FCMs have attained considerable achievements in various time series prediction applications, designing an FCM model with time-efficient training method is still an open challenge. Thus, this paper introduces a novel univariate time series forecasting technique, which is composed of a group of randomized high order FCM models labeled R-HFCM. The novelty of the proposed R-HFCM model is relevant to merging the concepts of FCM and Echo State Network (ESN) as an efficient and particular family of Reservoir Computing (RC) models, where the least squares algorithm is applied to train the model. From another perspective, the structure of R-HFCM consists of the input layer, reservoir layer, and output layer in which only the output layer is trainable while the weights of each sub-reservoir components are selected randomly and keep constant during the training process. As case studies, this model considers solar energy forecasting with public data for Brazilian solar stations as well as Malaysia dataset, which includes hourly electric load and temperature data of the power supply company of the city of Johor in Malaysia. The experiment also includes the effect of the map size, activation function, the presence of bias and the size of the reservoir on the accuracy of R-HFCM method. The obtained results confirm the outperformance of the proposed R-HFCM model in comparison to the other methods. This study provides evidence that FCM can be a new way to implement a reservoir of dynamics in time series modelling.
翻訳日:2022-01-07 14:40:19 公開日:2022-01-06
# ロバスト線形予測:一様濃度、高速速度、モデル不特定化の解析

Robust Linear Predictions: Analyses of Uniform Concentration, Fast Rates and Model Misspecification ( http://arxiv.org/abs/2201.01973v1 )

ライセンス: Link先を確認
Saptarshi Chakraborty, Debolina Paul and Swagatam Das(参考訳) 線形予測の問題は、かなり一般化された枠組みの下で過去1世紀にわたって広く研究されてきた。 近年のロバスト統計学の進歩により,メディア・オブ・ミーンズ(MoM)のプリズムを通じて古典線形モデルのロバストバージョンを解析できるようになった。 これらのアプローチを断片的な方法で組み合わせることで、アドホックな手続きにつながる可能性があり、個々の貢献の基盤となる限定的な理論的な結論はもはや有効ではないかもしれない。 これらの課題に整合的に対処するため、本研究では、ヒルベルト空間上の様々な線形予測問題を含む統一ロバストなフレームワークと、一般的な損失関数のクラスを提供する。 特に、外接するデータポイント(\mathcal{o}$)の分布に関する仮定や、内在するデータポイント(\mathcal{i}$)のサポートのコンパクト性は不要である。 二重ノルム上の穏やかな条件の下では、$\epsilon$ の誤特定レベルに対して、これらの推定器は、文献で最もよく知られた率である$o(\max\left\{|\mathcal{o}|^{1/2}n^{-1/2}, |\mathcal{i}|^{1/2}n^{-1} \right\}+\epsilon)$ の誤差率を達成する。 このレートは古典的な$O(n^{-1/2})$よりもわずかに遅く、ロバストな見積もりを得るためには誤差率の点で価格を支払う必要があることを示している。 さらに,この速度を,追加の仮定でいわゆる「高速」を達成するために改善できることを示す。

The problem of linear predictions has been extensively studied for the past century under pretty generalized frameworks. Recent advances in the robust statistics literature allow us to analyze robust versions of classical linear models through the prism of Median of Means (MoM). Combining these approaches in a piecemeal way might lead to ad-hoc procedures, and the restricted theoretical conclusions that underpin each individual contribution may no longer be valid. To meet these challenges coherently, in this study, we offer a unified robust framework that includes a broad variety of linear prediction problems on a Hilbert space, coupled with a generic class of loss functions. Notably, we do not require any assumptions on the distribution of the outlying data points ($\mathcal{O}$) nor the compactness of the support of the inlying ones ($\mathcal{I}$). Under mild conditions on the dual norm, we show that for misspecification level $\epsilon$, these estimators achieve an error rate of $O(\max\left\{|\mathcal{O}|^{1/2}n^{-1/2}, |\mathcal{I}|^{1/2}n^{-1} \right\}+\epsilon)$, matching the best-known rates in literature. This rate is slightly slower than the classical rates of $O(n^{-1/2})$, indicating that we need to pay a price in terms of error rates to obtain robust estimates. Additionally, we show that this rate can be improved to achieve so-called ``fast rates" under additional assumptions.
翻訳日:2022-01-07 14:39:47 公開日:2022-01-06
# 因果図形モデルにおける効率的な最小コスト調整セットに関する一考察

A note on efficient minimum cost adjustment sets in causal graphical models ( http://arxiv.org/abs/2201.02037v1 )

ライセンス: Link先を確認
Ezequiel Smucler and Andrea Rotnitzky(参考訳) 個別化処理ルールの下で介入平均を推定するための調整セットの選択について検討する。 可観測変数からなる隠れ変数と少なくとも1つの調整セットを持つ非パラメトリック因果的グラフィカルモデルと仮定する。 さらに、観測可能な変数はそれに関連する正のコストを持つと仮定する。 我々は、観測可能な調整セットのコストを、それを構成する変数のコストの和として定義する。 この設定では、最小コストの観測可能な調整セットを制御するものの中で、干渉平均の非パラメトリック推定器を最小の漸近差で生成するという意味で、最小コストの調整セットが存在することを示す。 本研究の結果は,元の因果グラフに付随する特別な流れネットワークの構築に基づいている。 本稿では,ネットワーク上の最大フローを計算し,経路を拡大することでソースから到達可能な頂点の集合を見つけることにより,最小コストの最適調整セットを見つけることができることを示す。 optimaladj pythonパッケージは、本論文で導入されたアルゴリズムを実装している。

We study the selection of adjustment sets for estimating the interventional mean under an individualized treatment rule. We assume a non-parametric causal graphical model with, possibly, hidden variables and at least one adjustment set comprised of observable variables. Moreover, we assume that observable variables have positive costs associated with them. We define the cost of an observable adjustment set as the sum of the costs of the variables that comprise it. We show that in this setting there exist adjustment sets that are minimum cost optimal, in the sense that they yield non-parametric estimators of the interventional mean with the smallest asymptotic variance among those that control for observable adjustment sets that have minimum cost. Our results are based on the construction of a special flow network associated with the original causal graph. We show that a minimum cost optimal adjustment set can be found by computing a maximum flow on the network, and then finding the set of vertices that are reachable from the source by augmenting paths. The optimaladj Python package implements the algorithms introduced in this paper.
翻訳日:2022-01-07 14:38:16 公開日:2022-01-06
# 浅い非線形オートエンコーダにおける表現学習のダイナミクス

The dynamics of representation learning in shallow, non-linear autoencoders ( http://arxiv.org/abs/2201.02115v1 )

ライセンス: Link先を確認
Maria Refinetti and Sebastian Goldt(参考訳) オートエンコーダは教師なし学習のための最も単純なニューラルネットワークであり、機能学習を研究するための理想的なフレームワークである。 近年、線形オートエンコーダのダイナミクスの詳細な理解が得られているが、非線形オートエンコーダの研究は、非自明な相関関係を持つトレーニングデータを扱う技術的困難さによって妨げられている。 本稿では,非線形浅層オートエンコーダにおける特徴学習のダイナミクスについて検討する。 確率勾配降下(SGD)で訓練されたオートエンコーダの高次元入力の極限における一般化ダイナミクスを記述する漸近的に正確な方程式の集合を導出する。 これらの方程式は、オートエンコーダが入力の主成分を逐次学習することを明らかにする。 長時間ダイナミクスの解析は、sgmoidal autoencoderが結合重みで学習できないことを説明し、relu autoencoderにおけるバイアスのトレーニングの重要性を強調している。 線形ネットワークに対する以前の結果に基づいて、我々は、正確な主成分の学習を可能にするバニラSGDアルゴリズムの修正を解析する。 最後に,CIFAR10のような現実的なデータセット上で,非線形オートエンコーダの一般化ダイナミクスを正確に記述する。

Autoencoders are the simplest neural network for unsupervised learning, and thus an ideal framework for studying feature learning. While a detailed understanding of the dynamics of linear autoencoders has recently been obtained, the study of non-linear autoencoders has been hindered by the technical difficulty of handling training data with non-trivial correlations - a fundamental prerequisite for feature extraction. Here, we study the dynamics of feature learning in non-linear, shallow autoencoders. We derive a set of asymptotically exact equations that describe the generalisation dynamics of autoencoders trained with stochastic gradient descent (SGD) in the limit of high-dimensional inputs. These equations reveal that autoencoders learn the leading principal components of their inputs sequentially. An analysis of the long-time dynamics explains the failure of sigmoidal autoencoders to learn with tied weights, and highlights the importance of training the bias in ReLU autoencoders. Building on previous results for linear networks, we analyse a modification of the vanilla SGD algorithm which allows learning of the exact principal components. Finally, we show that our equations accurately describe the generalisation dynamics of non-linear autoencoders on realistic datasets such as CIFAR10.
翻訳日:2022-01-07 14:37:59 公開日:2022-01-06
# 畳み込みニューラルネットワークの抽象的再定義法

An Abstraction-Refinement Approach to Verifying Convolutional Neural Networks ( http://arxiv.org/abs/2201.01978v1 )

ライセンス: Link先を確認
Matan Ostrovsky and Clark Barrett and Guy Katz(参考訳) 畳み込みニューラルネットワークは、コンピュータビジョンや画像処理などの分野での優れたパフォーマンスによって、大きな人気を集めている。 残念ながら、畳み込みネットワークがしばしば誤った結果を生み出すことはよく知られており、例えば、これらのネットワークの入力の小さな摂動は、深刻な分類エラーをもたらす可能性がある。 近年、このような誤りがないことを証明するために多くの検証手法が提案されているが、これらは一般に完全に接続されたネットワークを対象としており、畳み込みネットワークに適用した場合のスケーラビリティの悪化に悩まされている。 このギャップに対処するため,我々は,特に畳み込みネットワークの検証を目的としたcnn-absフレームワークを提案する。 Cnn-Abs の中核は、畳み込み接続の除去によって検証問題を単純化し、元の問題を過度に近似させる方法である。 Cnn-Absは、既存の検証エンジンをバックエンドとして使用するように設計されており、我々の評価は、最先端のDNN検証エンジンの性能を大幅に向上し、ランタイムを平均15.7%削減できることを示している。

Convolutional neural networks have gained vast popularity due to their excellent performance in the fields of computer vision, image processing, and others. Unfortunately, it is now well known that convolutional networks often produce erroneous results - for example, minor perturbations of the inputs of these networks can result in severe classification errors. Numerous verification approaches have been proposed in recent years to prove the absence of such errors, but these are typically geared for fully connected networks and suffer from exacerbated scalability issues when applied to convolutional networks. To address this gap, we present here the Cnn-Abs framework, which is particularly aimed at the verification of convolutional networks. The core of Cnn-Abs is an abstraction-refinement technique, which simplifies the verification problem through the removal of convolutional connections in a way that soundly creates an over-approximation of the original problem; and which restores these connections if the resulting problem becomes too abstract. Cnn-Abs is designed to use existing verification engines as a backend, and our evaluation demonstrates that it can significantly boost the performance of a state-of-the-art DNN verification engine, reducing runtime by 15.7% on average.
翻訳日:2022-01-07 14:36:47 公開日:2022-01-06
# 平滑損失関数のフェデレーション最適化

Federated Optimization of Smooth Loss Functions ( http://arxiv.org/abs/2201.01954v1 )

ライセンス: Link先を確認
Ali Jadbabaie and Anuran Makur and Devavrat Shah(参考訳) 本研究では,実験的リスク最小化(ERM, empirical risk minimization)を,中央サーバが,$m$のクライアントに格納するトレーニングデータを用いて,ERMの目的関数を最小化するフェデレーション学習フレームワーク内で研究する。 この設定では、フェデレート平均化(FedAve)アルゴリズムは、ERM問題に対する$\epsilon$-approximateソリューションを決定するための必須条件である。 標準最適化アルゴリズムと同様に、fedaveの収束解析は最適化パラメータの損失関数の滑らかさのみに依存する。 しかし、トレーニングデータでは損失関数も非常にスムーズであることが多い。 このさらなる滑らかさを活用するために,フェデレート低ランク勾配Descent (FedLRGD) アルゴリズムを提案する。 データの平滑性は損失関数の近似低ランク構造を誘導するので,本手法はまずサーバとクライアント間の数ラウンドの通信を行い,サーバがクライアントの勾配を近似するために使用できる重みを学習する。 そこで本手法では,不正確な勾配勾配を用いたサーバのERM問題を解く。 FedLRGDがFedAveよりも優れた性能を持つことを示すために,本研究では,標準オラクルの複雑性に対抗して,フェデレートされたオラクルの複雑性の概念を提案する。 損失関数、例えばパラメータの強い凸性、データのより古い滑らかさなどの仮定の下で、federated oracleのfederated oracle complexity of fedlrgd scales($\phi m(p/\epsilon)^{\theta(d/\eta)}$および$\phi m(p/\epsilon)^{3/4}$(neglecting sub-dominant factors)($\phi\gg 1$は「通信対計算比」、$p$はパラメータ次元、$d$はデータ次元である。 次に、$d$が小さく、データで損失関数が十分に滑らかである場合、federated oracle の複雑さにおいて fedave をfederrgd が上回っています。 最後に、FedLRGDを解析する過程で、潜在変数モデルの低階近似の結果も確立する。

In this work, we study empirical risk minimization (ERM) within a federated learning framework, where a central server minimizes an ERM objective function using training data that is stored across $m$ clients. In this setting, the Federated Averaging (FedAve) algorithm is the staple for determining $\epsilon$-approximate solutions to the ERM problem. Similar to standard optimization algorithms, the convergence analysis of FedAve only relies on smoothness of the loss function in the optimization parameter. However, loss functions are often very smooth in the training data too. To exploit this additional smoothness, we propose the Federated Low Rank Gradient Descent (FedLRGD) algorithm. Since smoothness in data induces an approximate low rank structure on the loss function, our method first performs a few rounds of communication between the server and clients to learn weights that the server can use to approximate clients' gradients. Then, our method solves the ERM problem at the server using inexact gradient descent. To show that FedLRGD can have superior performance to FedAve, we present a notion of federated oracle complexity as a counterpart to canonical oracle complexity. Under some assumptions on the loss function, e.g., strong convexity in parameter, $\eta$-H\"older smoothness in data, etc., we prove that the federated oracle complexity of FedLRGD scales like $\phi m(p/\epsilon)^{\Theta(d/\eta)}$ and that of FedAve scales like $\phi m(p/\epsilon)^{3/4}$ (neglecting sub-dominant factors), where $\phi\gg 1$ is a "communication-to-computation ratio," $p$ is the parameter dimension, and $d$ is the data dimension. Then, we show that when $d$ is small and the loss function is sufficiently smooth in the data, FedLRGD beats FedAve in federated oracle complexity. Finally, in the course of analyzing FedLRGD, we also establish a result on low rank approximation of latent variable models.
翻訳日:2022-01-07 14:36:27 公開日:2022-01-06
# (参考訳) a light in the dark: 産業用コンピュータビジョンのためのディープラーニングの実践

A Light in the Dark: Deep Learning Practices for Industrial Computer Vision ( http://arxiv.org/abs/2201.02028v1 )

ライセンス: CC BY 4.0
Maximilian Harl, Marvin Herchenbach, Sven Kruschel, Nico Hambauer, Patrick Zschech, Mathias Kraus(参考訳) 近年、大規模な事前学習型ディープニューラルネットワーク(DNN)がコンピュータビジョン(CV)の分野に革命をもたらした。 これらのDNNは一般的な画像認識タスクに非常に適していることが示されているが、業界での応用は3つの理由から除外されることが多い。 1) トレーニング済みの大きなDNNは数億のパラメータ上に構築されており、多くのデバイスへのデプロイが不可能である。 2) プレトレーニングの基盤となるデータセットは一般的な対象からなり, 産業ケースは太陽ウェハの構造など, 非常に特異な対象から構成されることが多い。 3) 事前訓練済みのDNNは企業に対して法的問題を提起する可能性がある。 治療として、私たちはスクラッチからトレーニングするCVのニューラルネットワークを研究します。 この目的のために、私たちはソーラーウェハメーカーの現実世界のケースを使用します。 ニューラルネットワークは、パラメータがはるかに少なく、サードパーティのデータセットに依存しないにもかかわらず、トレーニング済みのDNNと同じようなパフォーマンスを実現しています。

In recent years, large pre-trained deep neural networks (DNNs) have revolutionized the field of computer vision (CV). Although these DNNs have been shown to be very well suited for general image recognition tasks, application in industry is often precluded for three reasons: 1) large pre-trained DNNs are built on hundreds of millions of parameters, making deployment on many devices impossible, 2) the underlying dataset for pre-training consists of general objects, while industrial cases often consist of very specific objects, such as structures on solar wafers, 3) potentially biased pre-trained DNNs raise legal issues for companies. As a remedy, we study neural networks for CV that we train from scratch. For this purpose, we use a real-world case from a solar wafer manufacturer. We find that our neural networks achieve similar performances as pre-trained DNNs, even though they consist of far fewer parameters and do not rely on third-party datasets.
翻訳日:2022-01-07 14:34:26 公開日:2022-01-06
# リワードデザインによる許容政策教育

Admissible Policy Teaching through Reward Design ( http://arxiv.org/abs/2201.02185v1 )

ライセンス: Link先を確認
Kiarash Banihashem, Adish Singla, Jiarui Gan, Goran Radanovic(参考訳) 我々は、強化学習エージェントに報酬設計戦略を適用し、許容可能な政策の集合から政策を採用する。 報酬デザイナーの目標は、新たな報酬機能の下でのほぼ最適な決定論的ポリシーが許容可能であり、元の報酬機能の下でうまく機能することを保証しつつ、基礎となる報酬機能を費用効率良く変更することである。 この問題は、エージェントに特定のポリシーを強制するのではなく、報酬デザイナーは、特定の状態において許容できない行動を取ることを避けるためにエージェントにインセンティブを与える。 おそらく驚くべきことに、最適報酬中毒攻撃問題とは対照的に、まず、許容可能な政策教育における報酬設計問題は計算的に困難であり、ほぼ最適報酬修正を見つけることはNPハードであることを示す。 次に,最適解が最適解を最適解に近似するサロゲート問題の定式化を進めるが,最適化手法や解析にはより適している。 このサロゲート問題に対して,最適解の値の境界を与える特性評価結果を示す。 最後に,サロゲート問題を解くために局所探索アルゴリズムを設計し,シミュレーションに基づく実験を用いてその有用性を示す。

We study reward design strategies for incentivizing a reinforcement learning agent to adopt a policy from a set of admissible policies. The goal of the reward designer is to modify the underlying reward function cost-efficiently while ensuring that any approximately optimal deterministic policy under the new reward function is admissible and performs well under the original reward function. This problem can be viewed as a dual to the problem of optimal reward poisoning attacks: instead of forcing an agent to adopt a specific policy, the reward designer incentivizes an agent to avoid taking actions that are inadmissible in certain states. Perhaps surprisingly, and in contrast to the problem of optimal reward poisoning attacks, we first show that the reward design problem for admissible policy teaching is computationally challenging, and it is NP-hard to find an approximately optimal reward modification. We then proceed by formulating a surrogate problem whose optimal solution approximates the optimal solution to the reward design problem in our setting, but is more amenable to optimization techniques and analysis. For this surrogate problem, we present characterization results that provide bounds on the value of the optimal solution. Finally, we design a local search algorithm to solve the surrogate problem and showcase its utility using simulation-based experiments.
翻訳日:2022-01-07 14:21:19 公開日:2022-01-06
# バンディット学習におけるガウス的イマジネーション

Gaussian Imagination in Bandit Learning ( http://arxiv.org/abs/2201.01902v1 )

ライセンス: Link先を確認
Yueyang Liu, Adithya M. Devraj, Benjamin Van Roy, Kuang Xu(参考訳) 分布がガウス的であると仮定すると、そうでなければ難解な計算が容易になる。 ガウシアン事前分布とガウシアン確率関数を有するバンディット環境に対して低情報比を達成するように設計されたエージェントについて検討するが、ベルヌーイバンディットに代えて適用した場合のエージェントの性能について検討する。 我々は、エージェントがベルヌーイ・バンディットと相互作用する場合、ガウス・バンディットに満足する情報理論的境界に対して、ベイズ的後悔の増大に限界を定めている。 ガウスの事前分布と可能性関数が十分に拡散すると、時間軸の平方根とともにこの増加は増大し、時間ステップごとの増加は消失する。 本研究は, 拡散不特定分布のインスタンス化において, いわゆるベイズエージェントが有効であるとする民間伝承を定式化した。

Assuming distributions are Gaussian often facilitates computations that are otherwise intractable. We consider an agent who is designed to attain a low information ratio with respect to a bandit environment with a Gaussian prior distribution and a Gaussian likelihood function, but study the agent's performance when applied instead to a Bernoulli bandit. We establish a bound on the increase in Bayesian regret when an agent interacts with the Bernoulli bandit, relative to an information-theoretic bound satisfied with the Gaussian bandit. If the Gaussian prior distribution and likelihood function are sufficiently diffuse, this increase grows with the square-root of the time horizon, and thus the per-timestep increase vanishes. Our results formalize the folklore that so-called Bayesian agents remain effective when instantiated with diffuse misspecified distributions.
翻訳日:2022-01-07 14:20:59 公開日:2022-01-06
# ゼロショット学習におけるバランシング一般化と特殊化

Balancing Generalization and Specialization in Zero-shot Learning ( http://arxiv.org/abs/2201.01961v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Xiaojun Chang(参考訳) zero-shot learning (zsl) は、seeからunseenクラスへの分類能力の移行を目的としている。 近年の手法では、一般化と特殊化がZSLの性能向上に不可欠な2つの能力であることが証明されている。 しかし、それらはいずれも能力の1つにのみ焦点を合わせており、結果として、分解された分類能力を持つのが一般的すぎるか、目に見えないクラスに一般化するには特殊すぎるモデルとなる。 本稿では,bgsnetと呼ばれる,汎用性と特殊化能力のバランスを両立させ,インスタンスレベルとデータセットレベルでのバランスをとるエンドツーエンドネットワークを提案する。 具体的には、一般化学習にエピソディックなメタラーニングを適用した一般化ネットワーク(GNet)と、識別的特徴を抽出し、インスタンスレベルのバランスを満たすために複数の注意抽出器を採用するバランスドスペシャライゼーションネットワーク(BSNet)の2つの分野から構成される。 新しい自己調整型ダイバーシティ損失は、冗長性と多様性の少ないbsnetを最適化するために設計されている。 さらに,線形アニーリングスケジュールにおける重み付けを改良し,ネットワークプルーニングをシミュレートし,BSNetの最適構造を,データセットレベルのバランスを達成した低コストで得ることを提案する。 4つのベンチマークデータセットの実験は、我々のモデルの有効性を示している。 十分成分の短縮は一般化と特殊化能力の統合の必要性を証明している。

Zero-Shot Learning (ZSL) aims to transfer classification capability from seen to unseen classes. Recent methods have proved that generalization and specialization are two essential abilities to achieve good performance in ZSL. However, they all focus on only one of the abilities, resulting in models that are either too general with the degraded classifying ability or too specialized to generalize to unseen classes. In this paper, we propose an end-to-end network with balanced generalization and specialization abilities, termed as BGSNet, to take advantage of both abilities, and balance them at instance- and dataset-level. Specifically, BGSNet consists of two branches: the Generalization Network (GNet), which applies episodic meta-learning to learn generalized knowledge, and the Balanced Specialization Network (BSNet), which adopts multiple attentive extractors to extract discriminative features and fulfill the instance-level balance. A novel self-adjusting diversity loss is designed to optimize BSNet with less redundancy and more diversity. We further propose a differentiable dataset-level balance and update the weights in a linear annealing schedule to simulate network pruning and thus obtain the optimal structure for BSNet at a low cost with dataset-level balance achieved. Experiments on four benchmark datasets demonstrate our model's effectiveness. Sufficient component ablations prove the necessity of integrating generalization and specialization abilities.
翻訳日:2022-01-07 14:20:44 公開日:2022-01-06
# (参考訳) ディープQラーニングを用いた販売時系列分析

Sales Time Series Analytics Using Deep Q-Learning ( http://arxiv.org/abs/2201.02058v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この記事では、営業時系列分析の問題における深いQ-ラーニングモデルの使用について説明する。 歴史的データを用いた受動的学習の一種である教師付き機械学習とは対照的に、Q-ラーニングは行動の最適な順序による報酬の最大化を目標とするアクティブラーニングの一種である。 最適価格戦略と供給需要問題に対するモデル自由Q-ラーニング手法を検討した。 本研究の主なアイデアは,時系列分析における深いq-learningアプローチを用いることで,エージェントインタラクションの学習環境をパラメトリックモデルを用いてモデル化し,履歴データに基づくモデルを用いた場合,報酬関数を最大化することで,アクションのシーケンスを最適化できることを示すことである。 価格最適化のケーススタディ環境は,販売価格とランダムにシミュレートされた需要に依存してモデル化された。 価格最適化ケーススタディでは、追加価格とランダムにシミュレーションされた需要による販売依存を用いて環境をモデル化した。 需給ケーススタディでは,環境モデリングに歴史的需要時系列を用いることが提案され,エージェント状態はプロモアクション,以前の需要値,週ごとの季節的特徴によって表現された。 得られた結果から,q学習の深化により,価格最適化や需給問題に対する意思決定プロセスを最適化できることが示された。 学習エージェントのコールドスタートにパラメトリックモデルと履歴データを用いた環境モデリングを用いることができる。 次のステップでは、コールドスタート後に、トレーニングされたエージェントを実際のビジネス環境で使用できる。

The article describes the use of deep Q-learning models in the problems of sales time series analytics. In contrast to supervised machine learning which is a kind of passive learning using historical data, Q-learning is a kind of active learning with goal to maximize a reward by optimal sequence of actions. Model free Q-learning approach for optimal pricing strategies and supply-demand problems was considered in the work. The main idea of the study is to show that using deep Q-learning approach in time series analytics, the sequence of actions can be optimized by maximizing the reward function when the environment for learning agent interaction can be modeled using the parametric model and in the case of using the model which is based on the historical data. In the pricing optimizing case study environment was modeled using sales dependence on extras price and randomly simulated demand. In the pricing optimizing case study, the environment was modeled using sales dependence on extra price and randomly simulated demand. In the supply-demand case study, it was proposed to use historical demand time series for environment modeling, agent states were represented by promo actions, previous demand values and weekly seasonality features. Obtained results show that using deep Q-learning, we can optimize the decision making process for price optimization and supply-demand problems. Environment modeling using parametric models and historical data can be used for the cold start of learning agent. On the next steps, after the cold start, the trained agent can be used in real business environment.
翻訳日:2022-01-07 14:17:34 公開日:2022-01-06
# HuSpaCy:ハンガリーの産業用自然言語処理ツールキット

HuSpaCy: an industrial-strength Hungarian natural language processing toolkit ( http://arxiv.org/abs/2201.01956v1 )

ライセンス: Link先を確認
Gy\"orgy Orosz, Zsolt Sz\'ant\'o, P\'eter Berkecz, Gerg\H{o} Szab\'o, Rich\'ard Farkas(参考訳) ハンガリー語で利用可能なオープンソースの言語処理パイプラインはいくつかあるが、いずれも今日のNLPアプリケーションの要件を満たしていない。 言語処理パイプラインは、最先端の補間、形態素解析、エンティティ認識、単語埋め込みで構成される必要がある。 産業用テキスト処理アプリケーションは、機能しないソフトウェアの品質要件を満たす必要があり、さらに、複数の言語をサポートするフレームワークがますます好まれている。 本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。 提示されたツールは、最も重要な基本言語分析タスクにコンポーネントを提供する。 オープンソースであり、許容ライセンスのもと利用できる。 私たちのシステムはspurCyのNLPコンポーネント上に構築されており、高速で、NLPアプリケーションと拡張のリッチなエコシステムを持ち、豊富なドキュメントとよく知られたAPIを備えています。 基礎となるモデルの概要に加えて、一般的なベンチマークデータセットの厳密な評価も提示する。 実験の結果,HuSpaCyは全てのサブタスクにおいて高い精度を示しながら,資源効率の予測能力を維持していることがわかった。

Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today's NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognition and word embeddings. Industrial text processing applications have to satisfy non-functional software quality requirements, what is more, frameworks supporting multiple languages are more and more favored. This paper introduces HuSpaCy, an industryready Hungarian language processing pipeline. The presented tool provides components for the most important basic linguistic analysis tasks. It is open-source and is available under a permissive license. Our system is built upon spaCy's NLP components which means that it is fast, has a rich ecosystem of NLP applications and extensions, comes with extensive documentation and a well-known API. Besides the overview of the underlying models, we also present rigorous evaluation on common benchmark datasets. Our experiments confirm that HuSpaCy has high accuracy in all subtasks while maintaining resource-efficient prediction capabilities.
翻訳日:2022-01-07 14:09:06 公開日:2022-01-06
# 画像キャプション用小型双方向トランス

Compact Bidirectional Transformer for Image Captioning ( http://arxiv.org/abs/2201.01984v1 )

ライセンス: Link先を確認
Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Meng Wang(参考訳) 現在の画像キャプションモデルのほとんどは、通常左から右にキャプションを生成する。 この一方向プロパティは、過去のコンテキストのみを活用できるが、将来のコンテキストは利用できない。 最近のリファインメントベースのモデルは、第1段階で検索済みまたは生成されたキャプションに基づいて第2段階で新しいキャプションを生成することで、過去と将来の両方のコンテキストを利用することができるが、これらのモデルのデコーダは一般に2つのネットワーク(すなわち、第1段のレトリバーまたはキャプターと第2段のリファインダー)から成り、順次しか実行できない。 本稿では,デコーダを並列に実行しながら,暗黙的かつ明示的に双方向コンテキストを活用可能な画像キャプション用コンパクト双方向トランスフォーマモデルを提案する。 具体的には、左から右へ(L2R)と右から左へ(R2L)の流れを単一のコンパクトモデル~(つまり暗黙的に)に密結合し、2つの流れの相互作用(すなわち明示的に)を任意に許容し、最後のキャプションは文レベルのアンサンブル方法でL2RまたはR2Lフローから選択される。 我々は、MSCOCOベンチマークに関する広範囲なアブレーション研究を行い、双方向コンテキストを暗黙的に活用するための正規化として機能するコンパクトアーキテクチャが、明示的な相互作用メカニズムよりも重要な役割を果たすことを発見した。 単語レベルのアンサンブルをシームレスに組み合わせることで、文レベルのアンサンブルの効果をさらに拡大する。 このアーキテクチャの下では,従来の1フロー自己批判訓練を2フロー型に拡張し,非視覚言語予備学習モデルと比較し,新たな最先端結果を得る。 ソースコードは {\color{magenta}\url{https://github.com/YuanEZhou/CBTrans}}で入手できる。

Most current image captioning models typically generate captions from left to right. This unidirectional property makes them can only leverage past context but not future context. Though recent refinement-based models can exploit both past and future context by generating a new caption in the second stage based on pre-retrieved or pre-generated captions in the first stage, the decoder of these models generally consists of two networks~(i.e. a retriever or captioner in the first stage and a refiner in the second stage), which can only be executed sequentially. In this paper, we introduce a Compact Bidirectional Transformer model for image captioning that can leverage bidirectional context implicitly and explicitly while the decoder can be executed parallelly. Specifically, it is implemented by tightly coupling left-to-right(L2R) and right-to-left(R2L) flows into a single compact model~(i.e. implicitly) and optionally allowing interaction of the two flows(i.e. explicitly), while the final caption is chosen from either L2R or R2L flow in a sentence-level ensemble manner. We conduct extensive ablation studies on the MSCOCO benchmark and find that the compact architecture, which serves as a regularization for implicitly exploiting bidirectional context, and the sentence-level ensemble play more important roles than the explicit interaction mechanism. By combining with word-level ensemble seamlessly, the effect of the sentence-level ensemble is further enlarged. We further extend the conventional one-flow self-critical training to the two-flows version under this architecture and achieve new state-of-the-art results in comparison with non-vision-language-pretraining models. Source code is available at {\color{magenta}\url{https://github.com/YuanEZhou/CBTrans}}.
翻訳日:2022-01-07 14:08:50 公開日:2022-01-06
# ASL-Skeleton3DとASL-Phono:アメリカン手話のための2つの新しいデータセット

ASL-Skeleton3D and ASL-Phono: Two Novel Datasets for the American Sign Language ( http://arxiv.org/abs/2201.02065v1 )

ライセンス: Link先を確認
Cleison Correia de Amorim and Cleber Zanchettin(参考訳) 手話はコミュニケーションへのアクセスと、聴覚障害に苦しむ個人に対する適切な社会情緒発達を可能にする重要な資源である。 この人口は2050年までに7億人に達すると予測されているため、言語の重要性はさらに重要となり、社会にそのような個人を確実に取り入れるための重要な役割を担っている。 手話認識分野は、ユーザと手話の非ユーザの間のギャップを埋めることを目的としている。 しかし、データセットの量と品質の不足は、この研究領域で大きな進歩をもたらす可能性のある新しいアプローチの探索を制限する主要な課題の1つである。 そこで本研究では,アメリカ手話のための2つの新しいデータセットを導入し,その1つは手話の3次元表現からなり,もう1つはサインの音韻的属性を含む前例のない言語学的表現によるものである。

Sign language is an essential resource enabling access to communication and proper socioemotional development for individuals suffering from disabling hearing loss. As this population is expected to reach 700 million by 2050, the importance of the language becomes even more essential as it plays a critical role to ensure the inclusion of such individuals in society. The Sign Language Recognition field aims to bridge the gap between users and non-users of sign languages. However, the scarcity in quantity and quality of datasets is one of the main challenges limiting the exploration of novel approaches that could lead to significant advancements in this research area. Thus, this paper contributes by introducing two new datasets for the American Sign Language: the first is composed of the three-dimensional representation of the signers and, the second, by an unprecedented linguistics-based representation containing a set of phonological attributes of the signs.
翻訳日:2022-01-07 14:08:16 公開日:2022-01-06
# (参考訳) 時系列分析における予測モデルの構築と積み重ねに対するベイズ回帰アプローチ

Bayesian Regression Approach for Building and Stacking Predictive Models in Time Series Analytics ( http://arxiv.org/abs/2201.02034v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) 本論文は,時系列モデルの構築と時系列予測モデルの積み重ねにベイズ回帰を用いることについて述べる。 非線形トレンドを用いた時系列モデリングにベイズ回帰を用いた。 このアプローチにより、時系列予測の不確かさを推定し、リスク特性の値を計算することができる。 ベイズ回帰を用いた時系列の階層モデルが検討されている。 このアプローチでは、1つのパラメータセットがすべてのデータサンプルで同じであり、別のパラメータは異なるデータサンプルのグループで異なる可能性がある。 このようなアプローチでは、特定の時系列の短い履歴データの場合、例えば販売予測問題における新しい店舗や新製品の場合など、このモデルを使用することができる。 予測モデルの積み重ねに関する研究において、第1レベルのモデルアンサンブルの予測には、ARIMA、ニューラルネットワーク、ランダムフォレスト、エクストラツリーが用いられた。 第2段階では、検証セット上のこれらのモデルの時系列予測がベイズ回帰による積み重ねに用いられた。 このアプローチはこれらのモデルの回帰係数の分布を与える。 結果の積み重ねに各モデルが貢献する不確実性を見積もることができる。 これらの分布に関する情報により、ドメインの知識を考慮した最適な積み重ねモデルを選択することができます。 予測モデルを積み重ねる確率論的アプローチは、意思決定プロセスにおいて重要な予測に対するリスク評価を可能にします。

The paper describes the use of Bayesian regression for building time series models and stacking different predictive models for time series. Using Bayesian regression for time series modeling with nonlinear trend was analyzed. This approach makes it possible to estimate an uncertainty of time series prediction and calculate value at risk characteristics. A hierarchical model for time series using Bayesian regression has been considered. In this approach, one set of parameters is the same for all data samples, other parameters can be different for different groups of data samples. Such an approach allows using this model in the case of short historical data for specified time series, e.g. in the case of new stores or new products in the sales prediction problem. In the study of predictive models stacking, the models ARIMA, Neural Network, Random Forest, Extra Tree were used for the prediction on the first level of model ensemble. On the second level, time series predictions of these models on the validation set were used for stacking by Bayesian regression. This approach gives distributions for regression coefficients of these models. It makes it possible to estimate the uncertainty contributed by each model to stacking result. The information about these distributions allows us to select an optimal set of stacking models, taking into account the domain knowledge. The probabilistic approach for stacking predictive models allows us to make risk assessment for the predictions that are important in a decision-making process.
翻訳日:2022-01-07 14:05:24 公開日:2022-01-06
# (参考訳) 意思決定支援のためのツイート予測機能の作成

Forming Predictive Features of Tweets for Decision-Making Support ( http://arxiv.org/abs/2201.02049v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この記事では、ツイートデータセットのさまざまな予測機能を作成し、それらを意思決定サポートの予測分析に利用するアプローチについて説明する。 グラフ理論や頻繁な項目セット、関連規則理論は、これらのデータから異なる特徴を生成・検索するために用いられる。 これらのアプローチを使用することで、特定のエンティティに関連するツイートのセマンティック構造を明らかにすることができる。 目的変数の予測回帰モデルにおいて,意味的頻繁項目セットの定量的特徴が利用できることを示した。

The article describes the approaches for forming different predictive features of tweet data sets and using them in the predictive analysis for decision-making support. The graph theory as well as frequent itemsets and association rules theory is used for forming and retrieving different features from these datasests. The use of these approaches makes it possible to reveal a semantic structure in tweets related to a specified entity. It is shown that quantitative characteristics of semantic frequent itemsets can be used in predictive regression models with specified target variables.
翻訳日:2022-01-07 13:57:54 公開日:2022-01-06
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v3 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaiping Lin, Shilin Zhou(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/xinyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/XinyiYing/MoCoPnet.
翻訳日:2022-01-07 13:20:09 公開日:2022-01-06
# (参考訳) 説明可能なAI技術を用いた銀河外超コンパクトドワーフと球状クラスターの検出

Detection of extragalactic Ultra-Compact Dwarfs and Globular Clusters using Explainable AI techniques ( http://arxiv.org/abs/2201.01604v2 )

ライセンス: CC BY 4.0
Mohammad Mohammadi, Jarvin Mutatiina, Teymoor Saifollahi, Kerstin Bunte(参考訳) 銀河を取り巻く超コンパクト小星(UCD)や球状星団(GC)のような小さな恒星系は、これらの銀河を形成する融合現象のトレーサーとして知られている。 したがって、そのような系を特定することで銀河の集団形成、形成、進化を研究することができる。 しかし、画像データを用いたutds/gcsを検出する分光情報の欠如は極めて不確かである。 ここでは,これらの天体を前景の星や背景銀河から切り離すための機械学習モデルを,U,g,r,i,J,Ksという6つのフィルタでFornax銀河団のマルチ波長イメージングデータを用いて訓練することを目的とする。 オブジェクトのクラスは非常に不均衡であり、多くの自動分類技術に問題がある。 したがって、トレーニングデータの不均衡を処理するために、Synthetic Minority Over-Samplingを採用している。 次に,局所一般化行列学習ベクトル量子化(LGMLVQ)とランダムフォレスト(RF)の2つの分類器を比較した。 どちらの方法も精度と93パーセント以上のリコールでucds/gcsを識別でき、分類における各特徴次元%(色と角の大きさ)の重要性を反映した関連性を提供する。 どちらの方法も、この分類問題の重要なマーカーとして角の大きさを検出する。 u-i と i-Ks の色指数が最も重要な色であることは天文学的に予測されているが、我々は g-r などの色がより有益であることを示す。 優れた性能に加えて、lgmlvq法は、各クラス、クラス毎の代表サンプル、およびこのコントリビューションで示されているようにデータの非線形可視化を可能にすることで、さらなる解釈を可能にしている。 我々は、ucds/gcsを識別するために機械学習技術を使うことは、有望な結果につながると結論づける。

Compact stellar systems such as Ultra-compact dwarfs (UCDs) and Globular Clusters (GCs) around galaxies are known to be the tracers of the merger events that have been forming these galaxies. Therefore, identifying such systems allows to study galaxies mass assembly, formation and evolution. However, in the lack of spectroscopic information detecting UCDs/GCs using imaging data is very uncertain. Here, we aim to train a machine learning model to separate these objects from the foreground stars and background galaxies using the multi-wavelength imaging data of the Fornax galaxy cluster in 6 filters, namely u, g, r, i, J and Ks. The classes of objects are highly imbalanced which is problematic for many automatic classification techniques. Hence, we employ Synthetic Minority Over-sampling to handle the imbalance of the training data. Then, we compare two classifiers, namely Localized Generalized Matrix Learning Vector Quantization (LGMLVQ) and Random Forest (RF). Both methods are able to identify UCDs/GCs with a precision and a recall of >93 percent and provide relevances that reflect the importance of each feature dimension %(colors and angular sizes) for the classification. Both methods detect angular sizes as important markers for this classification problem. While it is astronomical expectation that color indices of u-i and i-Ks are the most important colors, our analysis shows that colors such as g-r are more informative, potentially because of higher signal-to-noise ratio. Besides the excellent performance the LGMLVQ method allows further interpretability by providing the feature importance for each individual class, class-wise representative samples and the possibility for non-linear visualization of the data as demonstrated in this contribution. We conclude that employing machine learning techniques to identify UCDs/GCs can lead to promising results.
翻訳日:2022-01-07 12:46:17 公開日:2022-01-06
# (参考訳) スケールにおける非構造媒体からの逆薬物反応のマイニング

Mining Adverse Drug Reactions from Unstructured Mediums at Scale ( http://arxiv.org/abs/2201.01405v2 )

ライセンス: CC BY 4.0
Hasham Ul Haq, Veysel Kocaman, David Talby(参考訳) 逆薬物反応/事象(ADR/ADE)は、患者の健康と医療費に大きな影響を及ぼす。 できるだけ早くadrを検出し、規制当局、製薬会社、医療提供者と共有することは、致死を防ぎ、多くの命を救える。 たいていのADRは、正式なチャンネルを通しては報告されていないが、患者によるソーシャルメディア投稿、カスタマーサポート電話の書き起こし、医療提供者と製薬販売担当者の会議のCRMノートなど、様々な非構造化の会話に記録されていることが多い。この記事では、そのような非構造化の会話の中でADRを検出する自然言語処理(NLP)ソリューションを提案し、3つの方法で改善する。 まず、新しい名前付きエンティティ認識(ner)モデルは、ade、cadec、smm4hベンチマークデータセット(それぞれ91.75%、78.76%、83.41%のf1スコア)でadrおよび薬物エンティティ抽出のための新しい最先端精度を得る。 第2に、BioBERTに基づいて2つの新しいリレーショナル抽出(RE)モデルを導入し、もう1つは、Fully Connected Neural Network(FCNN)よりも工芸的な特徴を活用して、既存の最先端モデルと同等に実行し、補助的なクリニック注釈REデータセットでトレーニングした場合に、それらを上回るパフォーマンスを示す。 第3に、会話にADRが含まれているかどうかを決定するための新しいテキスト分類モデルがCADECデータセット(86.69% F1スコア)で新しい最先端の精度を得る。 完全なソリューションは、Apache Spark上に構築されたプロダクショングレードライブラリに統一されたNLPパイプラインとして実装されている。

Adverse drug reactions / events (ADR/ADE) have a major impact on patient health and health care costs. Detecting ADR's as early as possible and sharing them with regulators, pharma companies, and healthcare providers can prevent morbidity and save many lives. While most ADR's are not reported via formal channels, they are often documented in a variety of unstructured conversations such as social media posts by patients, customer support call transcripts, or CRM notes of meetings between healthcare providers and pharma sales reps. In this paper, we propose a natural language processing (NLP) solution that detects ADR's in such unstructured free-text conversations, which improves on previous work in three ways. First, a new Named Entity Recognition (NER) model obtains new state-of-the-art accuracy for ADR and Drug entity extraction on the ADE, CADEC, and SMM4H benchmark datasets (91.75%, 78.76%, and 83.41% F1 scores respectively). Second, two new Relation Extraction (RE) models are introduced - one based on BioBERT while the other utilizing crafted features over a Fully Connected Neural Network (FCNN) - are shown to perform on par with existing state-of-the-art models, and outperform them when trained with a supplementary clinician-annotated RE dataset. Third, a new text classification model, for deciding if a conversation includes an ADR, obtains new state-of-the-art accuracy on the CADEC dataset (86.69% F1 score). The complete solution is implemented as a unified NLP pipeline in a production-grade library built on top of Apache Spark, making it natively scalable and able to process millions of batch or streaming records on commodity clusters.
翻訳日:2022-01-07 12:23:11 公開日:2022-01-06
# 手話生産に必要なものすべて

All You Need In Sign Language Production ( http://arxiv.org/abs/2201.01609v2 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Vassilis Athitsos, Mohammad Sabokrou(参考訳) 手話は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語の主要な形態である。 難聴者と難聴者コミュニティとのコミュニケーションが容易かつ相互に行えるようにし、音声言語を手話に翻訳できるロバストなシステムを構築することが基本である。 この目的のために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分である。 言語認識と生産はいくつかの重要な課題に対処する必要がある。 本稿では,手話生成(SLP)とその関連分野の最近の進歩を,ディープラーニングを用いて概観する。 手話にもっと現実的な視点を持たせるために,聴覚障害者文化,聴覚障害者センター,手話の心理的視点,話し言葉と手話の主な違いについて紹介する。 さらに,本稿では,双方向手話翻訳システムの基本コンポーネントを紹介し,この分野の主な課題について述べる。 また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。 最後に、SLPと性能評価のための一般的なフレームワーク、およびSLPの最近の発展、利点、限界に関する議論について、今後の研究の行程についてコメントする。

Sign Language is the dominant form of communication language used in the deaf and hearing-impaired community. To make an easy and mutual communication between the hearing-impaired and the hearing communities, building a robust system capable of translating the spoken language into sign language and vice versa is fundamental. To this end, sign language recognition and production are two necessary parts for making such a two-way system. Sign language recognition and production need to cope with some critical challenges. In this survey, we review recent advances in Sign Language Production (SLP) and related areas using deep learning. To have more realistic perspectives to sign language, we present an introduction to the Deaf culture, Deaf centers, psychological perspective of sign language, the main differences between spoken language and sign language. Furthermore, we present the fundamental components of a bi-directional sign language translation system, discussing the main challenges in this area. Also, the backbone architectures and methods in SLP are briefly introduced and the proposed taxonomy on SLP is presented. Finally, a general framework for SLP and performance evaluation, and also a discussion on the recent developments, advantages, and limitations in SLP, commenting on possible lines for future research are presented.
翻訳日:2022-01-07 12:10:42 公開日:2022-01-06
# 類似性を考慮した時系列分類に向けて

Towards Similarity-Aware Time-Series Classification ( http://arxiv.org/abs/2201.01413v2 )

ライセンス: Link先を確認
Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu(参考訳) 時系列データマイニングの基本課題である時系列分類(TSC)について検討する。 先行研究は,(1)近接する隣人に基づいて時系列を分類する類似性に基づく手法,(2)データ駆動方式で分類表現を直接学習する深層学習モデル,の2つの方向からTSCにアプローチしてきた。 これら2つの研究ラインで異なる作業メカニズムによって動機付けられ、時系列の類似性を共同でモデル化し、表現を学習することを目的としている。 類似情報を効率的に活用する方法が不明確であるため、これは難しい課題です。 この課題を解決するために,グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化する概念的にシンプルで一般的なフレームワークであるSimTSCを提案する。 具体的には、ノードが時系列に対応し、リンクがペアワイズ類似性に対応するグラフにおいて、TSCをノード分類問題として定式化する。 さらに,グラフ構築戦略と負サンプリングによるバッチ学習アルゴリズムを設計し,学習効率を向上させる。 我々はSimTSCをResNetをバックボーンとし、Dynamic Time Warping(DTW)を類似度尺度としてインスタンス化する。 ucrデータセットと複数の多変量データセットに関する広範な実験は、教師付きと半教師付きの両方の設定でディープラーニングモデルに類似性情報を組み込む効果を示している。 私たちのコードはhttps://github.com/daochenzha/SimTSCで利用可能です。

We study time-series classification (TSC), a fundamental task of time-series data mining. Prior work has approached TSC from two major directions: (1) similarity-based methods that classify time-series based on the nearest neighbors, and (2) deep learning models that directly learn the representations for classification in a data-driven manner. Motivated by the different working mechanisms within these two research lines, we aim to connect them in such a way as to jointly model time-series similarities and learn the representations. This is a challenging task because it is unclear how we should efficiently leverage similarity information. To tackle the challenge, we propose Similarity-Aware Time-Series Classification (SimTSC), a conceptually simple and general framework that models similarity information with graph neural networks (GNNs). Specifically, we formulate TSC as a node classification problem in graphs, where the nodes correspond to time-series, and the links correspond to pair-wise similarities. We further design a graph construction strategy and a batch training algorithm with negative sampling to improve training efficiency. We instantiate SimTSC with ResNet as the backbone and Dynamic Time Warping (DTW) as the similarity measure. Extensive experiments on the full UCR datasets and several multivariate datasets demonstrate the effectiveness of incorporating similarity information into deep learning models in both supervised and semi-supervised settings. Our code is available at https://github.com/daochenzha/SimTSC
翻訳日:2022-01-07 12:10:24 公開日:2022-01-06