このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211119となっている論文です。

PDF登録状況(公開日: 20211119)

TitleAuthorsAbstract論文公表日・翻訳日
# iWash: 感染性疾患の文脈におけるリアルタイムフィードバックを備えたスマートウォッチハンドウォッシング品質評価とリマインダーシステム

iWash: A Smartwatch Handwashing Quality Assessment and Reminder System with Real-time Feedback in the Context of Infectious Disease ( http://arxiv.org/abs/2009.10317v2 )

ライセンス: Link先を確認
Sirat Samyoun, Sudipta Saha Shubha, Md Abu Sayeed Mondol, John A. Stankovic(参考訳) 手を適切に頻繁に洗うことは、感染症の拡散を防ぐための最もシンプルで費用効果の高い介入である。 人々は、様々な状況で適切な手洗いについて無知であり、適切に手を洗うかどうかを知らないことが多い。 スマートウォッチはハンドウォッシングの質を評価するのに有効である。 しかし、既存のスマートウォッチベースのシステムは、精度の面では十分に包括的ではなく、手洗いのクオリティについてユーザーにフィードバックを提供するよう人々にリマインドしている。 オンデバイス処理は、ユーザに対してリアルタイムフィードバックを提供するために必要とされることが多いため、スマートウォッチのような低リソースデバイス上で効率的に動作するシステムを開発することが重要である。 しかし,既存の手洗い品質評価システムはいずれもデバイス上での処理に最適化されていない。 本稿では,スマートウォッチを用いたリアルタイムフィードバックによる手洗いにおける品質評価とコンテキスト認識リマインダーの総合システムであるiwashを提案する。 iWashは、デバイス上での処理に最適化されたハイブリッドディープニューラルネットワークベースのシステムで、最小処理時間とバッテリ使用量で高い精度を保証する。 さらに、bluetoothビーコンを使ってユーザーが家に入ることを検知し、手を洗うリマインダーを提供するコンテキストアウェアシステムである。 iwashはまた、ユーザーとスマートウォッチとのタッチフリーなインタラクションも提供し、細菌感染のリスクを最小化している。 実生活データセットを収集し,iwashの性能を示すために広範囲な評価を行った。 従来の手洗い品質評価システムと比較して,品質評価の精度が約12%向上し,処理時間と電池使用量を約37%,10%削減した。

Washing hands properly and frequently is the simplest and most cost-effective interventions to prevent the spread of infectious diseases. People are often ignorant about proper handwashing in different situations and do not know if they wash hands properly. Smartwatches are found to be effective for assessing the quality of handwashing. However, the existing smartwatch based systems are not comprehensive enough in terms of achieving accuracy as well as reminding people to handwash and providing feedback to the user about the quality of handwashing. On-device processing is often required to provide real-time feedback to the user, and so it is important to develop a system that runs efficiently on low-resource devices like smartwatches. However, none of the existing systems for handwashing quality assessment are optimized for on-device processing. We present iWash, a comprehensive system for quality assessment and context-aware reminder for handwashing with real-time feedback using smartwatches. iWash is a hybrid deep neural network based system that is optimized for on-device processing to ensure high accuracy with minimal processing time and battery usage. Additionally, it is a context-aware system that detects when the user is entering home using a Bluetooth beacon and provides reminders to wash hands. iWash also offers touch-free interaction between the user and the smartwatch that minimizes the risk of germ transmission. We collected a real-life dataset and conducted extensive evaluations to demonstrate the performance of iWash. Compared to the existing handwashing quality assessment systems, we achieve around 12% higher accuracy for quality assessment, as well as we reduce the processing time and battery usage by around 37% and 10%, respectively.
翻訳日:2023-05-01 07:16:10 公開日:2021-11-19
# 電子スピン量子ビットによる核アンサンブル内の量子相関の観測

Witnessing quantum correlations in a nuclear ensemble via an electron spin qubit ( http://arxiv.org/abs/2012.11279v2 )

ライセンス: Link先を確認
Dorian A. Gangloff, Leon Zaporski, Jonathan H. Bodey, Clara Bachorz, Daniel M. Jackson, Gabriel \'Ethier-Majcher, Constantin Lang, Edmund Clarke, Maxime Hugues, Claire Le Gall, Mete Atat\"ure(参考訳) プロキシキュービットと相互作用するスピンのコヒーレントアンサンブルは、多体コヒーレンスを作成し、集団励起の仕組みを調べる魅力的なプラットフォームである。 半導体量子ドット内の電子スピン量子ビットは、複数の高スピン原子種からなる量子ドット内の高密度核スピンアンサンブルへのインターフェースとして機能することができる。 初期の研究では、電子は原子核の偏光と平均場相互作用、すなわち平均と分散の統計を通じて核環境の性質を中継できることが示されている。 そこで本研究では,核アンサンブルのスピン状態を探索し,スピン励起に対する応答を利用して,平均場を超えた種選択的な再構成を可能にする方法を示す。 光合成された平均場の範囲では、再構成された集団はアンサンブルが非熱的、相関した核状態にあることを示している。 再構成された種分解分極の和は、古典的予測の3倍を超える。 この恒星の偏差は、粒子間コヒーレンスを含むスピンアンサンブルから続き、暗黒の多体状態の形成を確認する絡み合いの証人として機能する。

A coherent ensemble of spins interfaced with a proxy qubit is an attractive platform to create many-body coherences and probe the regime of collective excitations. An electron spin qubit in a semiconductor quantum dot can act as such an interface to the dense nuclear spin ensemble within the quantum dot consisting of multiple high-spin atomic species. Earlier work has shown that the electron can relay properties of its nuclear environment through the statistics of its mean-field interaction with the total nuclear polarisation, namely its mean and variance. Here, we demonstrate a method to probe the spin state of a nuclear ensemble that exploits its response to collective spin excitations, enabling a species-selective reconstruction beyond the mean field. For the accessible range of optically prepared mean fields, the reconstructed populations indicate that the ensemble is in a non-thermal, correlated nuclear state. The sum over reconstructed species-resolved polarisations exceeds the classical prediction threefold. This stark deviation follows from a spin ensemble that contains inter-particle coherences, and serves as an entanglement witness that confirms the formation of a dark many-body state.
翻訳日:2023-04-20 00:27:56 公開日:2021-11-19
# トランスモンシミュレーションにおける近似

Approximations in transmon simulation ( http://arxiv.org/abs/2102.09721v2 )

ライセンス: Link先を確認
Tyler Jones, Kaiah Steven, Xavier Poncini, Matthew Rose, Arkady Fedorov(参考訳) 時間依存量子システムの古典的なシミュレーションは、量子制御研究で広く使われている。 特に、これらのシミュレーションは反復最適制御アルゴリズムをホストするのによく用いられる。 これは、現在の量子ハードウェアでループを走らせるには難しすぎるアルゴリズムや、ハードウェアに一貫したアクセスを持たない研究者にとって便利である。 しかし、システムを表すために使用されるモデルが慎重に選択されていない場合、ハードウェアに適用した場合、最適化された制御プロトコルを無駄にすることができる。 我々は、量子制御の文献に現れる進行近似の階層の中で順序付けられた一連のモデルを提示する。 各モデルの妥当性は、IBMQクラウド量子デバイスのための制御プロトコルの設計とベンチマークによって実験的に特徴づけられる。 この結果は、一階摂動近似の適用によって生じる誤差増幅を示す。 さらに,制御パルスの簡単な振幅スケーリングでは補正できない誤差の発生をシミュレーションにより証明した。 最後に, シミュレーション制御ダイナミクスの評価により, 提案モデル全体の数値予測のかなりのばらつきにもかかわらず, 局所最適制御プロトコルの発見の複雑さは単純制御スキーム設定において不変であることが明らかとなった。

Classical simulations of time-dependent quantum systems are widely used in quantum control research. In particular, these simulations are commonly used to host iterative optimal control algorithms. This is convenient for algorithms that are too onerous to run in the loop with current-day quantum hardware, as well as for researchers without consistent access to hardware. However, if the model used to represent the system is not selected carefully, an optimised control protocol may be rendered futile when applied to hardware. We present a series of models, ordered in a hierarchy of progressive approximation, which appear in quantum control literature. The validity of each model is characterised experimentally by designing and benchmarking control protocols for an IBMQ cloud quantum device. This result demonstrates error amplification induced by the application of a first-order perturbative approximation. Furthermore, the emergence of errors that cannot be corrected by simple amplitude scaling of control pulses is demonstrated in simulation, due to an underlying mistreatment of noncomputational dynamics. Finally, an evaluation of simulated control dynamics reveals that despite the substantial variance in numerical predictions across the proposed models, the complexity of discovering local optimal control protocols appears invariant in the simple control scheme setting.
翻訳日:2023-04-10 18:04:56 公開日:2021-11-19
# 量子力学の完成

Completing Quantum Mechanics ( http://arxiv.org/abs/2104.12701v3 )

ライセンス: Link先を確認
M. Baldo (INFN, Sezione di Catania)(参考訳) 量子力学(QM)の基礎とその解釈は、その定式化の開始以来議論されてきたが、まだ多くの項目が共通の合意に達していない。 特に、ニールス・ボーアとアルベルト・アインシュタインがQMの解釈について全く異なる意見を持っていたことはよく知られている。 彼らの議論の焦点は、確率論の特徴からqmが不完全である可能性であった。 ボーアはそれを否定し、アインシュタインはその不完全性を証明しようとした。 この議論の根底にある疑問は、qmの「現実的」な物理像を持つことができるか、あるいはそれどころか、現象や実験のマクロな記述のレベルに留まらなければならないかである。 本稿では、QMは不完全であるが、波動関数は物理系の適切な表現であると考える。 出発点は、空間座標に対する非標準実軸 \Rns\ における超有限格子の導入である。 この標準実軸 \Rs\ の拡張は、追加の非標準自由度を導入する。 さらなる仮定で、モデルは、いわゆる QM 'パラドックス' と呼ばれるいくつかの物理記述を定式化し、測定問題を扱うことができる。 後者はモデル自身から生じる確率過程によって記述され、パールによる一般的なスキームと一致している。 さらに、遠方のシステム間の絡み合いは自然な表現となる。 この意味では、測定過程と絡み合いは共通の物理的起源を持つことが分かる。

The foundations of Quantum Mechanics (QM) and its interpretation have been debated since the beginning of its formulation, but still many items have not yet reached a common consensus. In particular it is well known that Niels Bohr and Albert Einstein were of quite different opinions on the possible interpretation of QM. The focus of their debate was on the possibility that QM is incomplete because of its feature of probabilistic theory. Bohr was denying that, while Einstein tried to prove its incompleteness. The underlying question of this debate is if one can have a 'realistic' physical picture of QM, or, on the contrary, we have to remain at the level of macroscopic description of phenomena and experiments. In this paper we take the line of thought that QM is incomplete, but that the wave function is still the proper representation of physical systems. The starting point is the introduction of an hyperfinite lattice in the nonstandard real axis \Rns\ for the space coordinates. This extension of the standard real axis \Rs\ introduces additional nonstandard degrees of freedom. With additional assumptions the model is able to formulate a physical description of several so called QM 'paradoxes', as well as to handle the measurement problem. The latter is described by a stochastic process that arises from the model itself, and it is in line with the general scheme by Pearle. Furthermore the entanglement between distant systems gets a natural representation. In this sense the measurement process and the entanglement turn out to have a common physical origin.
翻訳日:2023-04-02 08:51:59 公開日:2021-11-19
# 時間多重量子リピータを用いたサブ指数速度と距離

Subexponential rate versus distance with time-multiplexed quantum repeaters ( http://arxiv.org/abs/2105.01002v2 )

ライセンス: Link先を確認
Prajit Dhara, Ashlesha Patil, Hari Krovi, Saikat Guha(参考訳) 長さ-l$の光ファイバによる直接伝送を用いた量子通信能力は、$r \sim e^{-\alpha l}$であり、ここで$\alpha$はファイバーの損失係数である。 量子記憶と確率的ベル状態測定(bsms)と空間多重化に使用されるスイッチを備えた量子リピータの線形連鎖を用いて得られたレートは、直接透過容量を上回ったが、量子誤差補正は行われなかった。 しかし、この速度は、端から端までの距離 (viz., $R \sim e^{-s{\alpha L}}$, $s < 1$) で指数関数的に減衰する。 時間的多重化(temporal multiplexing)の導入が 繰り返しノードでキュービット間でbsmsを実行する能力は、"em different} 時間ステップで異なる隣接ノードでキュービットと絡み合うことに成功し、サブ指数レート-vsに繋がる。 距離スケーリング、すなわち$R \sim e^{-t\sqrt{\alpha L}}$は空間的あるいはスペクトル的多重化だけでは達成できない。 このレートに対する解析上の上限と下限を評価し、時間多重化ブロック長とリピータノード数を数値的に最適化することで正確なレートを得る。 さらに、時間多重化を実装するために使用される光スイッチの損失がレートvsを劣化させることを示す。 距離性能は最終的に非常に損失の少ないスイッチの指数スケーリングに戻る。 また,量子メモリのデコヒーレンスモデルについて検討し,時間的多重化から所望の増大を保ちながら,最適動作のレジームを記述する。 量子メモリのデコヒーレンスは、スイッチング損失よりもリピータのパフォーマンスに有害であると考えられている。

Quantum communications capacity using direct transmission over length-$L$ optical fiber scales as $R \sim e^{-\alpha L}$, where $\alpha$ is the fiber's loss coefficient. The rate achieved using a linear chain of quantum repeaters equipped with quantum memories, probabilistic Bell state measurements (BSMs) and switches used for spatial multiplexing, but no quantum error correction, was shown to surpass the direct-transmission capacity. However, this rate still decays exponentially with the end-to-end distance, viz., $R \sim e^{-s{\alpha L}}$, with $s < 1$. We show that the introduction of temporal multiplexing - i.e., the ability to perform BSMs among qubits at a repeater node that were successfully entangled with qubits at distinct neighboring nodes at {\em different} time steps - leads to a sub-exponential rate-vs.-distance scaling, i.e., $R \sim e^{-t\sqrt{\alpha L}}$, which is not attainable with just spatial or spectral multiplexing. We evaluate analytical upper and lower bounds to this rate, and obtain the exact rate by numerically optimizing the time-multiplexing block length and the number of repeater nodes. We further demonstrate that incorporating losses in the optical switches used to implement time multiplexing degrades the rate-vs.-distance performance, eventually falling back to exponential scaling for very lossy switches. We also examine models for quantum memory decoherence and describe optimal regimes of operation to preserve the desired boost from temporal multiplexing. Quantum memory decoherence is seen to be more detrimental to the repeater's performance over switching losses.
翻訳日:2023-04-01 17:49:15 公開日:2021-11-19
# コヒーレントノイズ下での表面符号上のフォールトトレラント量子誤差補正のためのサンプリングベース準確率シミュレーション

Sampling-based quasiprobability simulation for fault-tolerant quantum error correction on the surface codes under coherent noise ( http://arxiv.org/abs/2105.04478v2 )

ライセンス: Link先を確認
Shigeo Hakkaku, Kosuke Mitarai, and Keisuke Fujii(参考訳) コヒーレントノイズ下でのフォールトトレラント量子誤差補正のためのサンプリングベースシミュレーションを提案する。 非コヒーレントノイズとコヒーレントノイズの混合は、おそらく過回転のため、準確率分布を持つクリフォードチャネルに分解される。 そして、適切な後処理でクリフォードチャネルをサンプリングすることにより、論理誤差確率の偏りのない推定器を構築する。 チャネルのロバスト性によりサンプリングコストを特徴付け,提案手法は, 比較的大きな符号距離を持つ平面面符号であっても, 完全な状態ベクトルシミュレーションを行うことができることを示す。 実演として, 81キュービットの距離5の平面面符号における反復的欠陥症候群の測定をシミュレートした。 コヒーレントエラーは論理エラー率を増加させる。 これは、有意義なタスクに対する準確率シミュレーションの実践的な応用であり、短期量子デバイス上での実験的な量子誤差補正を探索するのに有用である。

We propose a sampling-based simulation for fault-tolerant quantum error correction under coherent noise. A mixture of incoherent and coherent noise, possibly due to over-rotation, is decomposed into Clifford channels with a quasiprobability distribution. Then, an unbiased estimator of the logical error probability is constructed by sampling Clifford channels with an appropriate postprocessing. We characterize the sampling cost via the channel robustness and find that the proposed sampling-based method is feasible even for planar surface codes with relatively large code distances intractable for full state-vector simulations. As a demonstration, we simulate repetitive faulty syndrome measurements on the planar surface code of distance 5 with 81 qubits. We find that the coherent error increases the logical error rate. This is a practical application of the quasiprobability simulation for a meaningful task and would be useful to explore experimental quantum error correction on the near-term quantum devices.
翻訳日:2023-03-31 23:22:10 公開日:2021-11-19
# 第二ロウ原子上の単純ハーツリーフォック計算

Simplified Hartree-Fock Computations on Second-Row Atoms ( http://arxiv.org/abs/2105.07018v2 )

ライセンス: Link先を確認
S. M. Blinder(参考訳) 3つのパラメータに依存する1s, 2s, 2p軌道の正規化基底関数を用いて、簡易なハートリー・フォック計算を行う。 新しいApple M1チップでMathematicaを使用すると、計算時間は0.005秒である。 これにより、最高のh-f値の1%以内の近似エネルギーを得ることができ、計算労力は桁違いに少なくなる。

Simplified Hartree-Fock computations are carried out on the atoms He through Ne, using orthonormalized basis functions for the 1s, 2s and 2p orbitals dependent on three parameters. Using Mathematica with the new Apple M1 chip, computations require about 0.005 seconds of CPU time. Approximate energies within 1% of the best H-F values are thereby obtained, with an order of magnitude less computational effort.
翻訳日:2023-03-31 04:01:01 公開日:2021-11-19
# ヘテロ二層膜における層間励起子の3次偏光性

Third-order polarizability of interlayer excitons in hetero-bilayers ( http://arxiv.org/abs/2106.11738v2 )

ライセンス: Link先を確認
M. F. C. Martins Quintela, J. C. G. Henriques, N. M. R. Peres(参考訳) 本稿では,ヘテロ二層膜における層間エキシトンの研究に完全顕微鏡的アプローチを用いる。 我々はFowler's and Karplus' 法を用いて、$\mathrm{WSe}_{2}/\mathrm{WS}_{2}$-based van der Waals heterostructureにおける非相互作用層間励起子の動的偏光性にアクセスする。 線形偏光率の計算に続き、スヴェンセンの変分法を動的3次偏光率の計算に用い、この変分法を用いて、2光子吸収法と3光子生成法の両方を$\mathrm{WSe}_{2}/\mathrm{WS}_{2}$here-bilayerで検討し、励起エネルギー準位遷移の様々な選択規則について議論する。

In this paper, we employ a fully microscopic approach to the study of interlayer excitons in hetero-bilayers. We use Fowler's and Karplus' method to access the dynamical polarizability of non--interacting interlayer excitons in a $\mathrm{WSe}_{2}/\mathrm{WS}_{2}$--based van der Waals heterostructure. Following from the calculation of the linear polarizability, we consider Svendsen's variational method to the calculation of the dynamic third--order polarizability. With this variational method, we study both two--photon absorption and third--harmonic generation processes for interlayer excitons in a $\mathrm{WSe}_{2}/\mathrm{WS}_{2}$ hetero--bilayer, discussing the various selection rules of intra--excitonic energy level transitions.
翻訳日:2023-03-25 20:53:27 公開日:2021-11-19
# 有限体K$\Gamma$モデルにおける$\alpha$-RuCl$_3$の量子液晶

Quantum liquid crystals in the finite-field K$\Gamma$ model for $\alpha$-RuCl$_3$ ( http://arxiv.org/abs/2107.03045v2 )

ライセンス: Link先を確認
Masahiko G. Yamada, Satoshi Fujimoto(参考訳) k$\gamma$モデルと呼ばれる拡張されたキタエフモデルについて、よく制御された平均場近似と最先端の完全対角化を組み合わせた摂動展開を用いて研究する。 位相図では、ネマティックな北エフスピン液体とKekul\'e 北エフスピン液体が発見された。 前者は、$\Gamma/|K|$の十分小さな値であっても、$\alpha$-RuCl$_3$で実験的に観測されたチャーン数ゼロの高磁場ネマティック状態を説明する可能性がある。 後者は$z_3$ vortexコアに majorana zeroモードを持ち、ドメイン壁の動きによって制御される可能性がある。 これにより、K$\Gamma$モデルにおける量子液晶相のトポロジカル量子計算への応用が可能となる。

We study the extended Kitaev model called the K$\Gamma$ model, using a perturbative expansion combined with a well-controlled mean-field approximation and a cutting-edge exact diagonalization. In the phase diagram, we discover a nematic Kitaev spin liquid and a Kekul\'e Kitaev spin liquid. The former potentially explains the high-field nematic state with zero Chern number experimentally observed in $\alpha$-RuCl$_3$, even for sufficiently small values of $\Gamma/|K|$. The latter has a Majorana zero mode in its $Z_3$ vortex core, which can be potentially controlled by the domain wall motion. This opens a possible application of the quantum liquid crystal phases in the K$\Gamma$ model to the topological quantum computation.
翻訳日:2023-03-23 04:33:55 公開日:2021-11-19
# ニューロモルフィック情報処理のための共鳴トンネル型ダイオードナノオプトエレクトロニクススパイクノード

Resonant tunnelling diode nano-optoelectronic spiking nodes for neuromorphic information processing ( http://arxiv.org/abs/2107.06721v3 )

ライセンス: Link先を確認
Mat\v{e}j Hejda, Juan Arturo Alanis, Ignacio Ortega-Piwonka, Jo\~ao Louren\c{c}o, Jos\'e Figueiredo, Julien Javaloyes, Bruno Romeira and Antonio Hurtado(参考訳) 本研究では,超高速(約100ps/光スパイク)で動作可能で,低消費電力(<$pj/spike)の光電子スパイク人工ニューロンを提案する。 提案システムは、負の微分コンダクタンスを示す励起共振トンネルダイオード(RTD)素子をナノスケール光源(マスターノードを形成する)またはフォト検出器(レシーバノードを形成する)に結合する。 相互接続型マスタ-受信機RTDノードシステムのスパイキング動的応答と情報伝達機能について数値解析を行った。 パルスしきい値と積分の重要な機能を用いて、単一ノードを用いてシーケンシャルパルスパターンを分類し、画像特徴(エッジ)認識のための畳み込み機能を実行する。 また,10gbps以上の時空間データを高い推定精度で処理するための,光相互接続型スパイキングニューラルネットワークモデルを示す。 最後に,rtd対応フォトニックスパイキングニューラルネットワークにおけるスパイクタイピング依存可塑性を利用したオフチップ教師あり学習手法を示す。 これらの結果は,rtdスパイキングノードの低フットプリント,低エネルギー,高速光電子実現のための可能性と有効性を示している。

In this work, we introduce an optoelectronic spiking artificial neuron capable of operating at ultrafast rates ($\approx$ 100 ps/optical spike) and with low energy consumption ($<$ pJ/spike). The proposed system combines an excitable resonant tunnelling diode (RTD) element exhibiting negative differential conductance, coupled to a nanoscale light source (forming a master node) or a photodetector (forming a receiver node). We study numerically the spiking dynamical responses and information propagation functionality of an interconnected master-receiver RTD node system. Using the key functionality of pulse thresholding and integration, we utilize a single node to classify sequential pulse patterns and perform convolutional functionality for image feature (edge) recognition. We also demonstrate an optically-interconnected spiking neural network model for processing of spatiotemporal data at over 10 Gbps with high inference accuracy. Finally, we demonstrate an off-chip supervised learning approach utilizing spike-timing dependent plasticity for the RTD-enabled photonic spiking neural network. These results demonstrate the potential and viability of RTD spiking nodes for low footprint, low energy, high-speed optoelectronic realization of neuromorphic hardware.
翻訳日:2023-03-22 07:32:43 公開日:2021-11-19
# 半導体量子井戸における2次元ホールガスの配向依存線形ラシュバスピン軌道結合に対する上および下界

An upper and lower bound to the orientation-dependent linear Rashba spin-orbit coupling of two-dimensional hole gases in semiconductor quantum wells ( http://arxiv.org/abs/2107.07681v2 )

ライセンス: Link先を確認
Jia-Xin Xiong, Shan-Guan, Jun-Wei Luo, Shu-Shen Li(参考訳) 最近の研究[phys. rev. b 103, 085309 (2021)]は、重孔光孔(hh-lh)混合と外部電界への直接双極子カップリングを組み合わせた量子井戸(qws)内の2次元ホールガスの$\bf{k}$-linear rashbaスピン軌道結合(soc)の存在を検証した。 しかし、Rashba SOCはQW配向に依存している。 ここでは、このQW配向への依存を探求し、理論解析に関連した原子論的擬ポテンシャル計算を行うことにより、[110]-および[111]-結晶方向に沿った配向依存の$\bf{k}$-linear Rashba SOCへの上と下の境界を明らかにする。 ブリルアンゾーン中心における固有HH-LH混合、[110]配向量子井戸の最大値、[111]-配向QWと[001]配向QWの最小値は、重要な役割を果たす。 注目すべきは、[111] 向きの QW には $\bf{k}$-cubic Rashba SOC しか存在しないことである。 これらの知見は、Rashba SOCのQW方向依存の物理的メカニズムの解明に役立ち、大規模なRashba SOCを実現するための実験の戦略的予測を提供する。

Our recent study [Phys. Rev. B 103, 085309 (2021)] verified the existence of $\bf{k}$-linear Rashba spin-orbit coupling (SOC) of two-dimensional hole gases in quantum wells (QWs) which originates from a combination of heavy-hole-light-hole (HH-LH) mixing and direct dipolar coupling to the external electric field. However, the Rashba SOC dependence on QW orientations remains unclear. Here, we explore this dependence on QW orientations and uncover an upper and lower bound to the orientation-dependent $\bf{k}$-linear Rashba SOC along the [110]- and [111]- crystalline directions by performing atomistic pseudopotential calculations associated with theoretical analysis. The intrinsic HH-LH mixing at the Brillouin zone center, maximal in [110]-oriented quantum wells and minimal in [111]- and [001]-oriented QWs, plays an essential role. Remarkably, we find that only $\bf{k}$-cubic Rashba SOC exists in [111]-oriented QWs. These findings help understand the physical mechanism of the Rashba SOC dependence on QW orientations and provide a strategic prediction for experiments to realize the large Rashba SOC.
翻訳日:2023-03-22 03:21:15 公開日:2021-11-19
# 初期相関処理のための適応射影演算子手法

Adapted projection operator technique for the treatment of initial correlations ( http://arxiv.org/abs/2107.13577v2 )

ライセンス: Link先を確認
Andrea Trevisan, Andrea Smirne, Nina Megier, Bassano Vacchini(参考訳) オープン量子系の力学に関する標準的な理論的な記述は、ある基準(初期)時間で環境との相関を無視できるという仮定に依存している。 システムと環境の結合が弱い場合や、相互作用が顕著な時間に始まる場合など、特定の場合において合理的である一方で、オープン・システムと環境の進化が互いに与える相互の影響を考慮して、一般モデルに対処したい場合、初期非相関状態の使用は疑問視される。 本稿では,システム環境相互作用の微視的モデリングに適用可能な摂動法について紹介する。 グローバルダイナミクスの関連部分を独り占めするプロジェクション演算子に基づく標準手法を拡張し、初期状態の便利な分解に適応したプロジェクションのファミリーを定義し、製品演算子と適切な環境状態の凸混合を含む。 これにより、任意の種類の初期相関に対して開系の次元性によって制限される等質な微分方程式の非結合系を通じて開系力学を特徴づける。 本手法は, 従来のプロジェクション手法よりも長期のレジームにおいて期待される動的挙動を再現する2つのケーススタディによってさらに示される。

The standard theoretical descriptions of the dynamics of open quantum systems rely on the assumption that the correlations with the environment can be neglected at some reference (initial) time. While being reasonable in specific instances, such as when the coupling between the system and the environment is weak or when the interaction starts at a distinguished time, the use of initially uncorrelated states is questionable if one wants to deal with general models, taking into account the mutual influence that the open-system and environmental evolutions perform on each other. Here, we introduce a perturbative method that can be applied to any microscopic modeling of the system-environment interaction, including fully general initial correlations. Extending the standard technique based on projection operators that single out the relevant part of the global dynamics, we define a family of projections adapted to a convenient decomposition of the initial state, which involves a convex mixture of product operators with proper environmental states. This leads us to characterize the open-system dynamics via an uncoupled system of differential equations, which are homogeneous and whose number is limited by the dimensionality of the open system, for any kind of initial correlations. Our method is further illustrated by means of two cases study, for which it reproduces the expected dynamical behavior in the long-time regime more consistently than the standard projection technique.
翻訳日:2023-03-20 16:53:24 公開日:2021-11-19
# 遺伝的プログラミングを用いた物理モデルの拡張

Extending a Physics-Based Constitutive Model using Genetic Programming ( http://arxiv.org/abs/2108.01595v4 )

ライセンス: Link先を確認
Gabriel Kronberger, Evgeniya Kabliman, Johannes Kronsteiner, Michael Kommenda(参考訳) 物質科学において、モデルは創発的物質特性(弾性、強度、導電性など)とその処理条件との関係を予測するために導出される。 主な欠点は、処理条件に依存するモデルパラメータのキャリブレーションである。 現在、これらのパラメータは、処理条件(例えば、変形温度、ひずみ速度)との関係が十分に理解されていないため、測定データに適合するように最適化されなければならない。 本稿では,遺伝的プログラミングに基づく処理条件からのキャリブレーションパラメータの機能依存性を同定する新しい手法を提案する。 我々は,これらの依存関係を識別し,短い解釈可能な表現を生成する2つの手法を提案する。 この手法は、変形過程の物理に基づく構成モデルを拡張するために用いられる。 この構成モデルは転位密度などの内部物質変数と共に動作し、3つのキャリブレーションパラメータのうちいくつかのパラメータを含む。 導出式は構成モデルを拡張し、校正パラメータを置き換える。 これにより、様々な処理パラメータ間の補間が可能となる。 その結果,暗黙的手法は明示的手法よりも計算コストが高いが,優れた結果が得られることがわかった。

In material science, models are derived to predict emergent material properties (e.g. elasticity, strength, conductivity) and their relations to processing conditions. A major drawback is the calibration of model parameters that depend on processing conditions. Currently, these parameters must be optimized to fit measured data since their relations to processing conditions (e.g. deformation temperature, strain rate) are not fully understood. We present a new approach that identifies the functional dependency of calibration parameters from processing conditions based on genetic programming. We propose two (explicit and implicit) methods to identify these dependencies and generate short interpretable expressions. The approach is used to extend a physics-based constitutive model for deformation processes. This constitutive model operates with internal material variables such as a dislocation density and contains a number of parameters, among them three calibration parameters. The derived expressions extend the constitutive model and replace the calibration parameters. Thus, interpolation between various processing parameters is enabled. Our results show that the implicit method is computationally more expensive than the explicit approach but also produces significantly better results.
翻訳日:2023-03-20 00:47:00 公開日:2021-11-19
# 世俗近似を超えた熱力学的に一貫したマルコフマスター方程式

A thermodynamically consistent Markovian master equation beyond the secular approximation ( http://arxiv.org/abs/2108.07528v2 )

ライセンス: Link先を確認
Patrick P. Potts, Alex Arash Sand Kalaee, Andreas Wacker(参考訳) マルコフのマスター方程式は、環境のメモリ効果が無視される場合、オープン量子系を記述する汎用的なツールを提供する。 これらの方程式は近似的な性質であるため、それらの導出において世俗近似が行わない場合、熱力学の法則を尊重しないことが多い。 ここでは、熱力学的に一貫性があり、記憶効果を無視できる限り正確に記述できるマルコフマスター方程式を紹介する。 熱力学的整合性は、熱力学的簿記のための再スケールされたハミルトニアンによって得られ、マルコフの記述が熱の分解能を限定しているという事実を利用する。 以上の結果から, 種々の系の熱力学的に一貫した記述が可能となる。

Markovian master equations provide a versatile tool for describing open quantum systems when memory effects of the environment may be neglected. As these equations are of an approximate nature, they often do not respect the laws of thermodynamics when no secular approximation is performed in their derivation. Here we introduce a Markovian master equation that is thermodynamically consistent and provides an accurate description whenever memory effects can be neglected. The thermodynamic consistency is obtained through a rescaled Hamiltonian for the thermodynamic bookkeeping, exploiting the fact that a Markovian description implies a limited resolution for heat. Our results enable a thermodynamically consistent description of a variety of systems where the secular approximation breaks down.
翻訳日:2023-03-18 05:33:50 公開日:2021-11-19
# グローバル量子ネットワークのための最適マルチスレッドCV-QKD再構成

Optimised Multithreaded CV-QKD Reconciliation for Global Quantum Networks ( http://arxiv.org/abs/2108.08418v4 )

ライセンス: Link先を確認
Xiaoyu Ai and Robert Malaney(参考訳) 実用的な連続可変(CV)量子鍵分布(QKD)システムの設計には、多数の分散量子信号に基づいて、量子チャネル特性とセキュアな鍵ビットの抽出を推定する必要がある。 この要件を短時間で満たすのは難しい。 標準プロセッサでは、必要な数の量子信号の調整に数時間かかることがある。 この問題は、低地球軌道(LEO)衛星CV-QKDの文脈で悪化しており、衛星のフライオーバー時間は数分未満である。 この問題に対する潜在的な解決策は、個々の復号のために大きな符号ブロックを多くの短いブロックに分割した古典的再結合プロセスの大規模並列化である。 しかし、重要な最終保証鍵レートに対するこの手続きのペナルティは、決定し、ヒッヘルトが正式に分析されていないことは自明ではない。 理想的には、最終鍵レートを最大化する最適なブロックサイズの決定は、そのような分析で予想される。 本研究では,大容量ブロック長パリティチェックデコーダを用いたcv-qkdスライスリコンシリエーションプロトコルの詳細な解析と実験的検証を通じて,この重要な知識ギャップを埋める。 我々の新しいソリューションは、最適化されていない和解に対する最終鍵レートを著しく増加させる。 さらに、地上ステーションとLEO衛星の間で、オフザシェルフプロセッサを使用しても、フライオーバータイムスケールで量子セキュアなメッセージを取得することができる。 我々の研究は、基本物理学によって確保されたグローバル量子ネットワークの最適化方法を示している。

Designing a practical Continuous Variable (CV) Quantum Key Distribution (QKD) system requires an estimation of the quantum channel characteristics and the extraction of secure key bits based on a large number of distributed quantum signals. Meeting this requirement in short timescales is difficult. On standard processors, it can take several hours to reconcile the required number of quantum signals. This problem is exacerbated in the context of Low Earth Orbit (LEO) satellite CV-QKD, in which the satellite flyover time is constrained to be less than a few minutes. A potential solution to this problem is massive parallelisation of the classical reconciliation process in which a large-code block is subdivided into many shorter blocks for individual decoding. However, the penalty of this procedure on the important final secured key rate is non-trivial to determine and hitherto has not been formally analysed. Ideally, a determination of the optimal reduced block size, maximising the final key rate, would be forthcoming in such an analysis. In this work, we fill this important knowledge gap via detailed analyses and experimental verification of a CV-QKD sliced reconciliation protocol that uses large block-length low-density parity-check decoders. Our new solution results in a significant increase in the final key rate relative to non-optimised reconciliation. In addition, it allows for the acquisition of quantum secured messages between terrestrial stations and LEO satellites within a flyover timescale even using off-the-shelf processors. Our work points the way to optimised global quantum networks secured via fundamental physics.
翻訳日:2023-03-18 01:24:30 公開日:2021-11-19
# 光とフェルミ共鳴のダイナミクスを操作する。 直接最適制御理論のアプローチ

Manipulating the Dynamics of a Fermi Resonance with Light. A Direct Optimal Control Theory Approach ( http://arxiv.org/abs/2108.12302v2 )

ライセンス: Link先を確認
A. R. Ramos Ramos, O. K\"uhn(参考訳) 量子力学問題に対する直接最適制御理論は、従来の間接最適制御の代替として興味深い。 この方法は第一の離散化と最適化のパラダイムに依存し、力学方程式の離散化が非線形最適化問題につながる。 波動パックがパラメータ化されたガウス式によって近似された双安定系の制御にうまく適用され、半古典的運動方程式(a)が導かれる。 R. Ramos Ramos, O. K\'uhn, Front Phys 9 (2021) 615168). これらの結果に動機づけられ,本論文では,一般的なフェルミ共鳴モデルの例を用いて,本手法の適用を厳密なウェーブパック伝搬に適用する。 特に, 分子内振動エネルギー分配の効果を減少させるため, 関連するオーバートーン状態の個体群がいかに避けられるかという疑問に答える。 方法論上の利点は、間接最適制御の場合のように関数微分や結合項を計算する必要がないため、直接最適制御理論は実行コストを選択するときに柔軟性を提供する。 この事実を利用して州人口をランニングコストに含め、最適化を可能にします。

Direct optimal control theory for quantum dynamical problems presents itself as an interesting alternative to the traditional indirect optimal control. The method relies on the first discretize and then optimize paradigm, where a discretization of the dynamical equations leads to a nonlinear optimization problem. It has been applied successfully to the control of a bistable system where the wavepacket had been approximated by a parameterized Gaussian, leading to a semiclassical set of equations of motion (A. R. Ramos Ramos, O. K\"uhn, Front. Phys. 9 (2021) 615168). Motivated by these results, in the present paper we extend the application of the method to the case of exact wavepacket propagation using the example of a generic Fermi-resonance model. In particular we address the question how population of the involved overtone state can be avoided such as to reduce the effect of intramolecular vibrational energy redistribution. A methodological advantage is that direct optimal control theory offers flexibility when choosing the running cost, since there is no need to compute functional derivatives and coupling terms as in the case of indirect optimal control. We exploit this fact to include state populations in the running cost, which allows their optimization.
翻訳日:2023-03-17 01:01:15 公開日:2021-11-19
# 重力準備状態用島及び擬似絡み合いウェッジ

Island for Gravitationally Prepared State and Pseudo Entanglement Wedge ( http://arxiv.org/abs/2109.03830v4 )

ライセンス: Link先を確認
Masamichi Miyaji(参考訳) 有限次元の初期境界によって開始される時空をハートル・ホーク非境界状態の一般化と考える。 このような時空で作成した物質状態の絡み合いエントロピーについて検討する。 大規模領域のエンタングルメントエントロピーは, 初期状態エンタングルメントまたはエンタングルメントアイランドによって与えられるため, エントロピーが任意に大きくなるのを防ぐことができる。 その結果、絡み合いのエントロピーは島の境界領域によって常に上から境界付けられ、島の観点からエントロピーの境界となる。 I$の島は解析的に連続した時空にあり、シュウィンガー・ケルディッシュ形式における時空のブラやケット部分にある。 エントロピーは、エンタングルメント島ごとに平均$complex$ pseudo generalized entropyによって与えられる。 初期状態の必要条件は強い部分付加性と一致しており、任意のプローブ自由度は系の他の部分と熱的に絡み合わなければならない。 次に、有限サイズの初期境界を持つ時空が先頭の分解パズルを持たないような大きなパラメータ領域がハートル・ホーキング非有界状態やブラケットワームホールに支配される。 時間的反射対称性がないことから、我々の設定における島は、疑似絡み合いウェッジ(pseudo entanglement wedge)と呼ばれる絡み合いウェッジの一般化である。 擬似エンタングルメントウェッジ再構成では, バルク物質遷移行列を$a\cup i$, きめ細かい状態から$a$ で再構成することを検討する。 バルク遷移行列は、初期状態によって投影される熱場二重状態によって与えられる。 コーナー付きEOWブレーンを考慮したAdS/BCFTモデルも提供する。 また,pythonのランチ予想の一般化と擬似一般化エントロピーを用いて,このような復元作業の指数関数的硬さを見出した。

We consider spacetime initiated by a finite-sized initial boundary as a generalization of the Hartle-Hawking no-boundary state. We study entanglement entropy of matter state prepared by such spacetime. We find that the entanglement entropy for large subregion is given either by the initial state entanglement or the entanglement island, preventing the entropy to grow arbitrarily large. Consequently, the entanglement entropy is always bounded from above by the boundary area of the island, leading to an entropy bound in terms of the island. The island $I$ is located in the analytically continued spacetime, either at the bra or the ket part of the spacetime in Schwinger-Keldysh formalism. The entanglement entropy is given by an average of $complex$ pseudo generalized entropy for each entanglement island. We find a necessary condition of the initial state to be consistent with the strong sub-additivity, which requires that any probe degrees of freedom are thermally entangled with the rest of the system. We then find a large parameter region where the spacetime with finite-sized initial boundary, which does not have the factorization puzzle at leading order, dominates over the Hartle-Hawking no-boundary state or the bra-ket wormhole. Due to the absence of a moment of time reflection symmetry, the island in our setup is a generalization of the entanglement wedge, called pseudo entanglement wedge. In pseudo entanglement wedge reconstruction, we consider reconstructing the bulk matter transition matrix on $A\cup I$, from a fine-grained state on $A$. The bulk transition matrix is given by a thermofield double state with a projection by the initial state. We also provide an AdS/BCFT model by considering EOW branes with corners. We also find the exponential hardness of such reconstruction task using a generalization of Python's lunch conjecture to pseudo generalized entropy.
翻訳日:2023-03-15 20:25:31 公開日:2021-11-19
# 準周期スピン鎖における多体局在転移の有限サイズスケーリング解析

Finite-Size scaling analysis of many-body localization transition in quasi-periodic spin chains ( http://arxiv.org/abs/2109.08408v2 )

ライセンス: Link先を確認
Adith Sai Aramthottil, Titas Chanda, Piotr Sierant, Jakub Zakrzewski(参考訳) 準周期 (QP) ポテンシャルを持つ1次元ハイゼンベルクスピンチェーンにおいて, 平均ギャップ比と多体局在 (MBL) 遷移間の絡み合いエントロピーの有限サイズスケーリングを解析した。 最近導入されたコスト関数アプローチを用いて,22の格子点までの厳密な対角化を用いた遷移の異なるシナリオを比較した。 以上の結果から,QPハイゼンベルク鎖のMBL遷移はBerezinskii-Kosterlitz-Thouless(BKT)遷移のクラスに属することが示唆された。 さらに, 不規則モデルに見られる線形ドリフトと比較して, 臨界障害強度はシステムサイズで明らかなサブリニアドリフトを示し, qp系におけるmbl遷移における有限サイズ効果は無秩序シナリオよりも小さいことが示唆された。 さらに, エルゴード系では, QP電位の強い相関関係に遡ることができる, オンサイト磁化分布の予期せぬ二重ピーク構造がみられた。

We analyze the finite-size scaling of the average gap-ratio and the entanglement entropy across the many-body localization (MBL) transition in one dimensional Heisenberg spin-chain with quasi-periodic (QP) potential. By using the recently introduced cost-function approach, we compare different scenarios for the transition using exact diagonalization of systems up to 22 lattice sites. Our findings suggest that the MBL transition in the QP Heisenberg chain belongs to the class of Berezinskii-Kosterlitz-Thouless (BKT) transition, the same as in the case of uniformly disordered systems as advocated in recent studies. Moreover, we observe that the critical disorder strength shows a clear sub-linear drift with the system-size as compared to the linear drift seen in random disordered models, suggesting that the finite-size effects in the MBL transition for the QP systems are less severe than that in the random disordered scenario. Moreover, deep in the ergodic regime, we find an unexpected double-peak structure of distribution of on-site magnetizations that can be traced back to the strong correlations present in the QP potential.
翻訳日:2023-03-14 11:35:15 公開日:2021-11-19
# 一次元ボースガス中におけるポーラロン質量の実測結果

Exact result for the polaron mass in a one-dimensional Bose gas ( http://arxiv.org/abs/2109.15028v2 )

ライセンス: Link先を確認
Zoran Ristivojevic(参考訳) 我々は1次元ボース気体中のポラロン準粒子について研究する。 ヤン=ガウディンモデルにより記述された可積分の場合、熱力学限界におけるポーラロン質量の正確な結果を得る。 ポーラロンを使わずにボース気体の粒子当たりの基底状態エネルギーの密度に関して、導関数の項で表される。 これにより、弱い相互作用と強い相互作用のレギュレーションにおいて、ポーラロン質量の高次級数を見つけることができる。

We study the polaron quasiparticle in a one-dimensional Bose gas. In the integrable case described by the Yang-Gaudin model, we derive an exact result for the polaron mass in the thermodynamic limit. It is expressed in terms of the derivative with respect to the density of the ground-state energy per particle of the Bose gas without the polaron. This enables us to find high-order power series for the polaron mass in the regimes of weak and strong interaction.
翻訳日:2023-03-12 23:09:41 公開日:2021-11-19
# displacemonデバイスは、目的の崩壊モデルをテストすることができるか?

Can the displacemon device test objective collapse models? ( http://arxiv.org/abs/2110.15180v2 )

ライセンス: Link先を確認
Lydia A. Kanari-Naish, Jack Clarke, Michael R. Vanner, Edward A. Laird(参考訳) 量子力学の応用可能性の限界をテストすることは、宇宙の理解を深め、量子力学と重力の相互作用に光を当てるかもしれない。 現在、大規模な分子の物質波干渉計からマイクロスケールカンチレバーの運動における加熱速度の精密測定まで、このようなマクロテストには幅広いアプローチがある。 displacemon(ディスプレースモン)は、量子状態の生成と読み出しを可能にする超伝導量子ビットに結合したメカニカル共振器からなる電気機械装置である。 当初の提案では、メカニカル共振器は10^6$の核子を含むカーボンナノチューブであった。 ここでは、よりマクロなスケールで量子力学を調べるために、マーシャル-シモン-ペンローズ-ブーメスター移動ミラーの提案にインスパイアされた2つの大きな質量スケールのアルミニウムメカニカル共振器、およびプランク質量による1つのセットを提案する。 このような装置では、よりマクロな量子テストを行うために必要な実験的要件を検証し、2つの目標崩壊モデルであるDi\'{o}si-Penroseと連続自発局所化によって予測されるデコヒーレンス効果を確実に検出する。 この2つの理論をテストするためのプロトコルは、displacemonアーキテクチャを利用して、環境との平衡から非ガウス力学状態を生成し、超伝導量子ビットの測定統計を分析する。 これらの電気機械装置の製作と振動感度の改善により、displacemonデバイスは標準量子理論を超えてデコヒーレンス機構を検証できる新しい経路を提供する。

Testing the limits of the applicability of quantum mechanics will deepen our understanding of the universe and may shed light on the interplay between quantum mechanics and gravity. At present there is a wide range of approaches for such macroscopic tests spanning from matter-wave interferometry of large molecules to precision measurements of heating rates in the motion of micro-scale cantilevers. The "displacemon" is a proposed electromechanical device consisting of a mechanical resonator flux-coupled to a superconducting qubit enabling generation and readout of mechanical quantum states. In the original proposal, the mechanical resonator was a carbon nanotube, containing $10^6$ nucleons. Here, in order to probe quantum mechanics at a more macroscopic scale, we propose using an aluminium mechanical resonator on two larger mass scales, one inspired by the Marshall-Simon-Penrose-Bouwmeester moving-mirror proposal, and one set by the Planck mass. For such a device, we examine the experimental requirements needed to perform a more macroscopic quantum test and thus feasibly detect the decoherence effects predicted by two objective collapse models: Di\'{o}si-Penrose and continuous spontaneous localization. Our protocol for testing these two theories takes advantage of the displacemon architecture to create non-Gaussian mechanical states out of equilibrium with their environment and then analyzing the measurement statistics of a superconducting qubit. We find that with improvements to the fabrication and vibration sensitivities of these electromechanical devices, the displacemon device provides a new route to feasibly test decoherence mechanisms beyond standard quantum theory.
翻訳日:2023-03-10 00:57:05 公開日:2021-11-19
# マルチモード回路QEDにおけるZZ相互作用率の直接計算

Direct calculation of the ZZ-interaction rates in the multi-mode circuit-QED ( http://arxiv.org/abs/2111.05765v2 )

ライセンス: Link先を確認
Firat Solgun and Srikanth Srinivasan(参考訳) トランスモン型の超伝導量子ビットのハミルトニアンは、有限かつ小さな非調和性のため、非零のzz相互作用項を含む。 これらの条件は、2ビットゲートの実行中に急激な位相の不要な蓄積につながる可能性がある。 ZZ-相互作用速度の厳密な計算は、カプラ回路のモード数が増加するにつれて急速に計算的に要求される回路ハミルトニアンの完全な対角化を必要とする。 本稿では,マルチモード回路QEDの分散限界における低調波量子ビット間のZZ-相互作用速度の正確な推定法を提案する。 提案手法の予測とマルチキュービットデバイスから収集した測定データとの間には,非常によく一致している。 本手法は, 量子マイクロ波技術者のツールボックスに, 量子ビットポート間で定義されたインピーダンス行列のエントリと直接ZZ-相互作用速度を関連づける手法として, [1]におけるこれまでの研究の延長である。

Hamiltonians of the superconducting qubits of Transmon type involve non-zero ZZ-interaction terms due to their finite and small anharmonicities. These terms might lead to the unwanted accumulation of spurious phases during the execution of the two-qubit gates. Exact calculation of the ZZ-interaction rates requires the full diagonalization of the circuit Hamiltonians which very quickly becomes computationally demanding as the number of the modes in the coupler circuit increases. Here we propose a direct analytical method for the accurate estimation of the ZZ-interaction rates between low-anharmonicity qubits in the dispersive limit of the multi-mode circuit-QED. We observe very good agreement between the predictions of our method and the measurement data collected from the multi-qubit devices. Our method being an extension of our previous work in [1] is a new addition to the toolbox of the quantum microwave engineers as it relates the ZZ-interaction rates directly to the entries of the impedance matrix defined between the qubit ports.
翻訳日:2023-03-08 12:09:37 公開日:2021-11-19
# 誤差緩和深部回路量子シミュレーション:定常状態と緩和率問題

Error-mitigated deep-circuit quantum simulation: steady state and relaxation rate problems ( http://arxiv.org/abs/2111.09622v2 )

ライセンス: Link先を確認
Anbang Wang, Jingning Zhang, Ying Li(参考訳) Shorのアルゴリズムのように深い回路量子計算はエラーの蓄積によって弱まり、近未来量子技術は本格的な量子誤り訂正には適していない。 最近の理論的研究は、浅い回路の量子アルゴリズムに頼る代わりに、閉じた量子系のデジタル量子シミュレーション(DQS)が、局所的な観測可能量に関する限り、トロッター誤差の蓄積に対して堅牢であることを示している。 本稿では,オープン量子システムのディジタル量子シミュレーションについて検討する。 まず,ディジタル量子シミュレーションにより得られた定常状態の偏差が,単一トロッターステップの誤差のみに依存することを証明し,誤差の蓄積が悲惨なものではないことを示す。 散逸xyzモデルのdqsに対する量子回路の数値シミュレーションにより、dqsの誤差率が鋭い閾値以下である限り、正しい結果が量子誤差緩和によって回復できることを示した。 このしきい値の挙動は、散逸駆動の量子相転移の存在によって説明される。 最後に,量子相転移の臨界点近傍のスケーリング挙動に基づく新しい誤差緩和手法を提案する。 その結果、近未来の量子アルゴリズムの領域を拡大し、実用的な量子応用におけるさらなる理論的および実験的取り組みを刺激する。

Deep-circuit quantum computation, like Shor's algorithm, is undermined by error accumulation, and near-future quantum techniques are far from adequate for full-fledged quantum error correction. Instead of resorting to shallow-circuit quantum algorithms, recent theoretical research suggests that digital quantum simulation (DQS) of closed quantum systems are robust against the accumulation of Trotter errors, as long as local observables are concerned. In this paper, we investigate digital quantum simulation of open quantum systems. First, we prove that the deviation in the steady state obtained from digital quantum simulation depends only on the error in a single Trotter step, which indicates that error accumulation may not be disastrous. By numerical simulation of the quantum circuits for the DQS of the dissipative XYZ model, we then show that the correct results can be recovered by quantum error mitigation as long as the error rate in the DQS is below a sharp threshold. We explain this threshold behavior by the existence of a dissipation-driven quantum phase transition. Finally, we propose a new error-mitigation technique based on the scaling behavior in the vicinity of the critical point of a quantum phase transition. Our results expand the territory of near-future available quantum algorithms and stimulate further theoretical and experimental efforts in practical quantum applications.
翻訳日:2023-03-07 12:47:15 公開日:2021-11-19
# トピックスホワイトペーパー:宇宙における量子記憶の事例

Topical White Paper: A Case for Quantum Memories in Space ( http://arxiv.org/abs/2111.09595v2 )

ライセンス: Link先を確認
Mustafa G\"undo\u{g}an, Thomas Jennewein, Faezeh Kimiaee Asadi, Elisa Da Ros, Erhan Sa\u{g}lamy\"urek, Daniel Oblak, Tobias Vogl, Daniel Riel\"ander, Jasminder Sidhu, Samuele Grandi, Luca Mazzarella, Julius Walln\"ofer, Patrick Ledingham, Lindsay LeBlanc, Margherita Mazzera, Makan Mohageg, Janik Wolters, Alexander Ling, Mete Atat\"ure, Hugues de Riedmatten, Daniel Oi, Christoph Simon, Markus Krutzik(参考訳) 最近、量子メモリ(QM)が宇宙に展開すると、地球規模の量子ネットワークを可能にすることが理論的に示されている。 さらに、宇宙空間におけるqmは、深宇宙リンクや基礎物理学試験のための拡張シナリオに適した、新しいプロトコルと長距離絡み合いおよびテレポーテーションアプリケーションを可能にする。 このホワイトペーパーでは、qmsを宇宙に展開することの重要性について述べ、また、考慮すべき主要な技術的マイルストーンと開発段階についても論じる。

It has recently been theoretically shown that Quantum Memories (QM) could enable truly global quantum networking when deployed in space thereby surpassing the limited range of land-based quantum repeaters. Furthermore, QM in space could enable novel protocols and long-range entanglement and teleportation applications suitable for Deep-Space links and extended scenarios for fundamental physics tests. In this white paper we will make the case for the importance of deploying QMs to space, and also discuss the major technical milestones and development stages that will need to be considered.
翻訳日:2023-03-07 12:46:19 公開日:2021-11-19
# e3ne:fpga上で新たなニューラルエンコーディングによりスパイクニューラルネットワークを加速するエンドツーエンドフレームワーク

E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks with Emerging Neural Encoding on FPGAs ( http://arxiv.org/abs/2111.10027v1 )

ライセンス: Link先を確認
Daniel Gerlinghoff, Zhehui Wang, Xiaozhe Gu, Rick Siow Mong Goh, Tao Luo(参考訳) FPGAベースのディープラーニングアクセラレータの普及には,コンパイラフレームワークが不可欠だ。 ハードウェアエンジニアリングに詳しい研究者や開発者は、ドメイン固有のロジックによって達成されたパフォーマンスを活用することができる。 従来の人工ニューラルネットワークには様々なフレームワークがある。 しかしながら、スパイクニューラルネットワーク(snn)に最適化されたフレームワークの作成には、あまり研究が行われていない。 新たな世代のニューラルネットワークは、強大なパワーとリソース制約を持つエッジデバイスにAIを配置する上で、ますます興味深いものになりつつある。 我々のエンドツーエンドフレームワークであるE3NEはFPGAのための効率的なSNN推論ロジックを自動生成する。 PyTorchモデルとユーザパラメータに基づいて、様々な最適化を適用し、スパイクベースのアクセラレータ固有のトレードオフを評価する。 並列性の複数のレベルと新たなニューラルエンコーディングスキームの使用により、従来のSNNハードウェア実装よりも効率が優れている。 同様のモデルでは、E3NEはハードウェアリソースの50%未満と20%未満の電力を使用し、レイテンシを桁違いに低減する。 さらにスケーラビリティと汎用性により、大規模なSNNモデルのAlexNetとVGGのデプロイが可能になった。

Compiler frameworks are crucial for the widespread use of FPGA-based deep learning accelerators. They allow researchers and developers, who are not familiar with hardware engineering, to harness the performance attained by domain-specific logic. There exists a variety of frameworks for conventional artificial neural networks. However, not much research effort has been put into the creation of frameworks optimized for spiking neural networks (SNNs). This new generation of neural networks becomes increasingly interesting for the deployment of AI on edge devices, which have tight power and resource constraints. Our end-to-end framework E3NE automates the generation of efficient SNN inference logic for FPGAs. Based on a PyTorch model and user parameters, it applies various optimizations and assesses trade-offs inherent to spike-based accelerators. Multiple levels of parallelism and the use of an emerging neural encoding scheme result in an efficiency superior to previous SNN hardware implementations. For a similar model, E3NE uses less than 50% of hardware resources and 20% less power, while reducing the latency by an order of magnitude. Furthermore, scalability and generality allowed the deployment of the large-scale SNN models AlexNet and VGG.
翻訳日:2023-03-07 12:18:48 公開日:2021-11-19
# 時間依存的弱値測定で生じるptおよび抗pt対称性

PT and Anti-PT Symmetry Arising in Time Dependent Weak Value Measurements ( http://arxiv.org/abs/2111.10035v1 )

ライセンス: Link先を確認
A. D. Parks, J. E. Gray, and G. K Josemans(参考訳) パークスは2008年に時間依存弱値の定式化を導入し、これは我々がこの論文で用いた形式主義である。 本稿では、時間依存的弱値の概念を拡張し、弱値測定に関連するハミルトン多様体が偶数あるいは奇数対称性を示すことを示す。 それぞれpt対称性またはpt対称性を示す。 これらの対称性は、実部分の虚構を消滅させるポインター翻訳として測定過程中に現れる。 この結果、時間依存の弱い値から生じる時間依存ハミルトニアンのこれらの対称性のいくつかの側面を特徴づけることができる。 これにより、弱い値と弱い測定に関するベンダーによる量子力学(qm)における非エルミート変数の研究を一般化することができる。 また,本論文の結論において,これらの対称性がqmの様々な2回解釈の区別にどのように適用されるのかを推測する。

Parks introduced a formulation of time dependent weak values in 2008, which is the formalism we use in this paper. In this paper we extend notions from time dependent weak values to show that Hamiltonians associated with weak value measurements can be shown to exhibit even or odd symmetric properties. They exhibit PT or anti-PT symmetry, respectively. These symmetries are manifested during the measurement process as pointer translations, which have vanishing imaginary or vanishing real parts. The consequence of this that one can characterize some of the aspects of these symmetries of the time dependent Hamiltonians that arise from time dependent weak values. This allows one to generalize some work on non-Hermitian variables in quantum mechanics (QM) due to Bender related to weak values and weak measurement. We also speculate how these symmetries might apply to distinguishing between the various two-time interpretations of QM in the Conclusions of this paper.
翻訳日:2023-03-07 12:11:07 公開日:2021-11-19
# 有限浴と相互作用するトッピング鉛筆の熱化への量子的アプローチ

Quantum approach to the thermalization of the toppling pencil interacting with a finite bath ( http://arxiv.org/abs/2111.10181v1 )

ライセンス: Link先を確認
Sreeja Loho Choudhury and Frank Grossmann(参考訳) 有限個の高調波発振器と相互作用するバイスタブル・クォート発振器に着目し, 環境に結合した量子系の熱化の長年の問題について検討する。 拡張システムの時間依存シュリンガー方程式を解くためにグリッドベースのアプローチで通常遭遇する指数関数的壁を克服するためには、時間依存変動原理に基づく手法が最適である。 ここでは結合コヒーレント状態 [d] の方法を適用する。 V・シャラシリンとM・S・チャイルド、J・チェム。 Phys a bf 113}, 10028 (2000)] 二重井戸の障壁の上の初期波動関数の力学を調査することにより、基底状態から選択可能な周波数を持つ少数の発振器だけが、非結合基底状態に近い双安定系を駆動するのに十分であることを示す。 二重ウェルエネルギーの長期平均は、数値的にアクセス可能なパラメータ範囲の環境振動子数の単調な減衰関数であることが判明した。

We investigate the longstanding problem of thermalization of quantum systems coupled to an environment by focusing on a bistable quartic oscillator interacting with a finite number of harmonic oscillators. In order to overcome the exponential wall that one usually encounters in grid based approaches to solve the time-dependent Schr\"odinger equation of the extended system, methods based on the time-dependent variational principle are best suited. Here we will apply the method of coupled coherent states [D. V. Shalashilin and M. S. Child, J. Chem. Phys. {\bf 113}, 10028 (2000)]. By investigating the dynamics of an initial wavefunction on top of the barrier of the double well, it will be shown that only a handful of oscillators with suitably chosen frequencies, starting in their ground states, is enough to drive the bistable system close to its uncoupled ground state. The long-time average of the double-well energy is found to be a monotonously decaying function of the number of environmental oscillators in the parameter range that was numerically accessible.
翻訳日:2023-03-07 10:12:16 公開日:2021-11-19
# スピンキュービットアレイにおける同時駆動2量子ゲートのクロストーク解析

Crosstalk analysis for simultaneously driven two-qubit gates in spin qubit arrays ( http://arxiv.org/abs/2111.10174v1 )

ライセンス: Link先を確認
Irina Heinz and Guido Burkard(参考訳) 半導体ベースの量子プロセッサをスケールアップする際の課題の1つは、隣接する量子ビットの制御操作に起因するクロストークエラーの存在である。 スピン量子ビットアレイにおけるクロストークは、個別に駆動される量子ゲート付近の非駆動単一量子ビットと、同時に駆動される2つの単一量子ビットゲートについて研究されている。 それにもかかわらず、同時ゲートは単一ビット操作に限定されず、CNOTゲートのような2ビットゲートも頻繁に使用される。 cnotやcphaseゲートなどの量子ビット演算におけるクロストークドライブの影響を分析する。 並列y$ ゲートと cnot ゲートの場合を調査し,2つの並列cnotゲートの二次元配置を検討し,避けられないクロストークを見つける。 クロストークエラーを最小限に抑えるために,適切な制御プロトコルを開発する。

One of the challenges when scaling up semiconductor-based quantum processors consists in the presence of crosstalk errors caused by control operations on neighboring qubits. In previous work, crosstalk in spin qubit arrays has been investigated for non-driven single qubits near individually driven quantum gates and for two simultaneously driven single-qubit gates. Nevertheless, simultaneous gates are not restricted to single-qubit operations but also include frequently used two-qubit gates such as the CNOT gate. We analyse the impact of crosstalk drives on qubit operations, such as the CNOT and CPHASE gates. We investigate the case of parallel $Y$ and CNOT gates, and we also consider a two-dimensional arrangement of two parallel CNOT gates and find unavoidable crosstalk. To minimize crosstalk errors, we develop appropriate control protocols.
翻訳日:2023-03-07 10:11:59 公開日:2021-11-19
# 準粒子状態操作用極低温ボースガスを用いたキャビティオプトメカニクスとセンシング応用への展望

Cavity optomechanics with ultra-cold Bose gases for quasiparticle state manipulation and prospects for sensing applications ( http://arxiv.org/abs/2111.10163v1 )

ライセンス: Link先を確認
Benjamin Maa{\ss}, Daniel Hartley, Kurt Busch, Dennis R\"atzel(参考訳) 超低温原子のアンサンブルは高精度センシングのための汎用ツールであることが証明されている。 本稿では,超低温ボソニック原子の閉じ込められた雲の状態の操作と読み出しを行う方法を提案する。 特に, 準粒子のコヒーレント・圧縮状態の生成と, 外部空洞場を介する準粒子モードの結合について論じる。 これにより、状態スワッピングやビームスプリッティングなどの操作が可能となり、周波数空間でマッハ・ツェンダー干渉計(MZI)を実現することができる。 本研究では, mzi法を用いて凝縮物のヒーリング長の測定と, パルス光機械式読み出し方式による振動力勾配の測定という, センシングにおける2つの明示的な応用例を示す。 さらに,最先端技術のパラメータに基づく基本的限界を計算する。

Ensembles of ultra-cold atoms have been proven to be versatile tools for high precision sensing applications. Here, we present a method for manipulation and readout of the state of trapped clouds of ultra-cold bosonic atoms. In particular, we discuss the creation of coherent and squeezed states of quasiparticles and the coupling of quasiparticle modes through an external cavity field. This enables operations like state swapping and beam splitting which can be applied to realize a Mach-Zehnder interferometer (MZI) in frequency space. We present two explicit example applications in sensing: the measurement of the healing length of the condensate with the MZI scheme, and the measurement of an oscillating force gradient with a pulsed optomechanical readout scheme. Furthermore, we calculate fundamental limitations based on parameters of state-of-the-art technology.
翻訳日:2023-03-07 10:11:23 公開日:2021-11-19
# 非系列二重イオン化における軌道角運動量の絡み合い

Entanglement of Orbital Angular Momentum in Non-Sequential Double Ionization ( http://arxiv.org/abs/2111.10148v1 )

ライセンス: Link先を確認
Andrew S. Maxwell and Lars Bojer Madsen and Maciej Lewenstein(参考訳) 非系列二重イオン化(nsdi)の強い相関過程を通じてイオン化された2つの光電子の軌道角運動量(oam)の絡み合いを示す。 OAMの量子化により、この絡み合いは容易に定量化され、保存則の観点で単純な物理的解釈を持つ。 局所的な測定に分解可能な絡み合い目撃者による検出を探索し,実験実施の難しさを強く軽減する。 混合状態に直接適用可能な対数ネガティビティ測度を計算し,その絡み合いが焦点平均化などの非一貫性効果にロバストであることを示す。 強場近似を用いて,多種多様な対象とフィールドパラメータの絡み合いを定量化し,実験家にとって最善の目標を分離する。 ここで提示する手法は、oamを使用してエンタングルメントを定量化し、原則として、attosecondプロセスに適したエンタングルメントを測定し、我々の理解を高め、イメージングプロセスやoamエンタングル電子の生成で活用する一般的な方法を提供する。

We demonstrate entanglement between the orbital angular momentum (OAM) of two photoelectrons ionized via the strongly correlated process of non-sequential double ionization (NSDI). Due to the quantization of OAM, this entanglement is easily quantified and has a simple physical interpretation in terms of conservation laws. We explore detection by an entanglement witness, decomposable into local measurements, which strongly reduces the difficulty of experimental implementation. We compute the logarithmic negativity measure, which is directly applicable to mixed states, to demonstrate that the entanglement is robust to incoherent effects such as focal averaging. Using the strong-field approximation, we quantify the entanglement for a large range of targets and field parameters, isolating the best targets for experimentalists. The methodology presented here provides a general way to use OAM to quantify and, in principle, measure entanglement, that is well-suited to attosecond processes, can enhance our understanding and may be exploited in imaging processes or the generation of OAM-entangled electrons.
翻訳日:2023-03-07 10:11:08 公開日:2021-11-19
# 単一原子の多重フォノン状態の量子非ガウス性

Quantum non-Gaussianity of multi-phonon states of a single atom ( http://arxiv.org/abs/2111.10129v1 )

ライセンス: Link先を確認
Lukas Podhora, Lukas Lachman, Tuan Pham, Adam Lesundak, Ondrej Cip, Lukas Slodicka, Radim Filip(参考訳) 本質的に非線形な量子過程からの量子非ガウス力学状態は、量子センシングから連続変数による量子コンピューティングまで幅広い応用において既に必要である。 そのような状態の離散的な構成要素はエネルギー固有状態、フォック状態である。 準備の進展にもかかわらず、残りの不完全性は依然として、応用に関連するフォノン分布の臨界量子非ガウス的側面の損失を引き起こす可能性がある。 個々のメカニカルフォック状態に対する量子非ガウシアン基準の最も難しい階層を導出し、最大10~フォノンまでの単一捕捉イオン振動子状態のキャラクタリゼーションにおいてその実装を実証する。 機械加熱下での量子非ガウス特徴の深さを解析し,量子センシングへの応用を予測した。 これらの結果は、重要な量子非ガウジアン特徴が、その応用において量子優位に達するために要求されることを明らかにする。

Quantum non-Gaussian mechanical states from inherently nonlinear quantum processes are already required in a range of applications spanning from quantum sensing up to quantum computing with continuous variables. The discrete building blocks of such states are the energy eigenstates - Fock states. Despite the progress in their preparation, the remaining imperfections can still invisibly cause loss of the critical quantum non-Gaussian aspects of the phonon distribution relevant in the applications. We derive the most challenging hierarchy of quantum non-Gaussian criteria for the individual mechanical Fock states and demonstrate its implementation on the characterization of single trapped-ion oscillator states up to 10~phonons. We analyze the depth of quantum non-Gaussian features under mechanical heating and predict their application in quantum sensing. These results uncover that the crucial quantum non-Gaussian features are demanded to reach quantum advantage in the applications.
翻訳日:2023-03-07 10:10:50 公開日:2021-11-19
# 翻訳不変スピンモデル問題の非NPハードネス

Non-NP-Hardness of Translationally-Invariant Spin-Model Problems ( http://arxiv.org/abs/2111.10092v1 )

ライセンス: Link先を確認
Rotem Liss, Tal Mor, Roman Shapira(参考訳) ハイゼンベルク・ハミルトニアンの基底状態エネルギーの発見は、凝縮物質物理学の分野において重要な問題である。 2次元正方格子上の反強磁性変換不変の場合のようないくつかの構成では、その正確な基底状態エネルギーは未だ不明である。 ハイゼンベルクモデルの基底状態エネルギーを求めることは、P=NPでない限りNP-Hard問題にはならない。 この結果はスパース集合への還元と計算複雑性理論からのある種の定理を用いて証明する。 この結果は、問題の潜在的なトラクタビリティを示唆し、プラスの複雑性結果に向けたさらなる研究を促進する。 さらに、Ising、t-J、Fermi-Hubbardモデルなど、同様の構造を持つ多くのハミルトン問題に対して同様の結果を示す。

Finding the ground state energy of the Heisenberg Hamiltonian is an important problem in the field of condensed matter physics. In some configurations, such as the antiferromagnetic translationally-invariant case on the 2D square lattice, its exact ground state energy is still unknown. We show that finding the ground state energy of the Heisenberg model cannot be an NP-Hard problem unless P=NP. We prove this result using a reduction to a sparse set and certain theorems from computational complexity theory. The result hints at the potential tractability of the problem and encourages further research towards a positive complexity result. In addition, we prove similar results for many similarly structured Hamiltonian problems, including certain forms of the Ising, t-J, and Fermi-Hubbard models.
翻訳日:2023-03-07 10:10:19 公開日:2021-11-19
# コンパクト群上でのランダム化ベンチマークの枠組み

A framework for randomized benchmarking over compact groups ( http://arxiv.org/abs/2111.10357v1 )

ライセンス: Link先を確認
Linghang Kong(参考訳) 実験システムのキャラクタリゼーションは、量子ハードウェアの開発と改善に不可欠なステップである。 ランダム化ベンチマーク(Randomized Benchmarking, RB)として知られるプロトコルの集合が過去10年間に開発され、量子システムにおけるエラー率を効率的に測定する方法を提供している。 最近の論文 (arxiv:2010.07974) では、RBの一般的なフレームワークが提案され、RBプロトコルのほとんどを包含し、以前の研究におけるエラーモデルに対する制限を克服した。 しかし、この一般的なフレームワークでさえ制限があり、有限個のゲート群にしか適用できない。 これは実験、特に量子デバイス上の非クリフォードゲートと連続ゲートセットのベンチマークの必要性を満たすものではない。 本研究では、RBフレームワークをゲートの連続群に一般化し、ノイズレベルが合理的に小さい限り、出力は行列指数崩壊の線形結合として近似できることを示す。 応用として、証明によって実現された完全ランダム化ベンチマークプロトコル(例えば、一元群全体をゲート集合とするRB)を数値的に研究する。 これは実験において任意の量子ゲートに対するゲート忠実度を推定する統一的な方法を提供する。

Characterization of experimental systems is an essential step in developing and improving quantum hardware. A collection of protocols known as Randomized Benchmarking (RB) was developed in the past decade, which provides an efficient way to measure error rates in quantum systems. In a recent paper (arxiv:2010.07974), a general framework for RB was proposed, which encompassed most of the known RB protocols and overcame the limitation on error models in previous works. However, even this general framework has a restriction: it can only be applied to a finite group of gates. This does not meet the need posed by experiments, in particular the demand for benchmarking non-Clifford gates and continuous gate sets on quantum devices. In this work we generalize the RB framework to continuous groups of gates and show that as long as the noise level is reasonably small, the output can be approximated as a linear combination of matrix exponential decays. As an application, we numerically study the fully randomized benchmarking protocol (i.e. RB with the entire unitary group as the gate set) enabled by our proof. This provides a unified way to estimate the gate fidelity for any quantum gate in an experiment.
翻訳日:2023-03-07 10:03:42 公開日:2021-11-19
# ライドバーグ電子のアンダーソン局在

Anderson localization of a Rydberg electron ( http://arxiv.org/abs/2111.10345v1 )

ライセンス: Link先を確認
Matthew T. Eiles, Alexander Eisfeld, Jan M. Rost(参考訳) 高励起リドベルグ原子はその準位構造、対称性、水素原子からのスケーリング挙動を継承する。 これらの基本的な性質により、近傍の基底状態原子との相互作用を受ける単一のリドバーグ原子の熱力学的限界が実現できることを実証する。 この限界は、基底状態原子の数と、クーロンポテンシャルが無限に多くの高縮退励起状態を供給するrydberg原子の励起レベルを同時に増加させることによって達成される。 我々の研究は、Rydberg原子の電子スペクトルと強結合ハミルトニアンのスペクトルとの直接マッピングによって促進される、凝縮物質物理学の古来の概念であるアンダーソン局在と驚くべき関係を明らかにした。 このタイト結合系のホッピング振幅は、基底状態原子の配置によって決定され、最接近からパワーローテールまで、実質的に無限範囲までの範囲があり、異なる局在シナリオをもたらす。 隣り合うホッピング振幅を与える配置について、リドベルク電子のアンダーソン局在の明確な符号を同定する。

Highly excited Rydberg atoms inherit their level structure, symmetries, and scaling behavior from the hydrogen atom. We will demonstrate that these fundamental properties enable a thermodynamic limit of a single Rydberg atom subjected to interactions with nearby ground state atoms. The limit is reached by simultaneously increasing the number of ground state atoms and the level of excitation of the Rydberg atom, for which the Coulomb potential supplies infinitely many and highly degenerate excited states. Our study reveals a surprising connection to an archetypal concept of condensed matter physics, Anderson localization, facilitated by a direct mapping between the Rydberg atom's electronic spectrum and the spectrum of a tight-binding Hamiltonian. The hopping amplitudes of this tight-binding system are determined by the arrangement of ground state atoms and can range from nearest-neighbor to power-law-tailed to effectively infinite-range, giving rise to different localization scenarios. For arrangements yielding nearest-neighbor hopping amplitudes we identify clear signatures of the Anderson localization of the Rydberg electron.
翻訳日:2023-03-07 10:03:12 公開日:2021-11-19
# 絡み合った光原子時計の量子ネットワーク

A quantum network of entangled optical atomic clocks ( http://arxiv.org/abs/2111.10336v1 )

ライセンス: Link先を確認
B. C. Nichol, R. Srinivas, D. P. Nadlinger, P. Drmota, D. Main, G. Araneda, C. J. Ballance, and D. M. Lucas(参考訳) 光原子時計は、時間と周波数を測定する最も正確なツールです。 これらは、基本定数の時空変動、ダークマターの性質、測地性を調べるために、別々の位置にある原子間の精密周波数比較を可能にする。 独立系の測定は、標準量子極限(SQL)によって制限されるが、対照的に、絡み合った系の測定は、量子理論によって許容される究極の精度(いわゆるハイゼンベルク極限)に達するためにSQLを超えることができる。 局所的絡み合い操作は微視的な距離でこの拡張を示すために用いられてきたが、遠隔原子時計間の周波数比較では、内在的な相互作用を持たない別々のシステム間の高速高忠実な絡み合いが必要となる。 我々は、光子リンクを用いて絡み合うマクロ距離(2m)で分離された2つの$^{88}$sr$^+$イオンを用いて、絡み合う光時計の最初の量子ネットワークを示す。 イオン間の周波数比較における絡み合いエンハンスメントを特徴付ける。 エンタングルメントは、ハイゼンベルク極限で予測されるような$\sqrt{2}$に近い係数で測定の不確かさを減少させ、与えられた精度に達するのに必要な測定回数を半減させる。 この体制では、絡み合ったクロックを用いることでさらに大きな利益が得られ、従来の相関分光法と比較して測定回数が4倍減少することがわかった。 原理の証明として、クロックの1つに適用される周波数シフトを測定するためのこの拡張を実証する。 以上の結果から,量子ネットワークの成熟度が向上したことが明らかとなった。 この2ノードネットワークは、追加のノード、閉じ込められた粒子の他の種、またはローカル操作を介してより大きな絡み合ったシステムまで拡張することができる。

Optical atomic clocks are our most precise tools to measure time and frequency. They enable precision frequency comparisons between atoms in separate locations to probe the space-time variation of fundamental constants, the properties of dark matter, and for geodesy. Measurements on independent systems are limited by the standard quantum limit (SQL); measurements on entangled systems, in contrast, can surpass the SQL to reach the ultimate precision allowed by quantum theory - the so-called Heisenberg limit. While local entangling operations have been used to demonstrate this enhancement at microscopic distances, frequency comparisons between remote atomic clocks require rapid high-fidelity entanglement between separate systems that have no intrinsic interactions. We demonstrate the first quantum network of entangled optical clocks using two $^{88}$Sr$^+$ ions separated by a macroscopic distance (2 m), that are entangled using a photonic link. We characterise the entanglement enhancement for frequency comparisons between the ions. We find that entanglement reduces the measurement uncertainty by a factor close to $\sqrt{2}$, as predicted for the Heisenberg limit, thus halving the number of measurements required to reach a given precision. Practically, today's optical clocks are typically limited by laser dephasing; in this regime, we find that using entangled clocks confers an even greater benefit, yielding a factor 4 reduction in the number of measurements compared to conventional correlation spectroscopy techniques. As a proof of principle, we demonstrate this enhancement for measuring a frequency shift applied to one of the clocks. Our results show that quantum networks have now attained sufficient maturity for enhanced metrology. This two-node network could be extended to additional nodes, to other species of trapped particles, or to larger entangled systems via local operations.
翻訳日:2023-03-07 10:02:55 公開日:2021-11-19
# 逐次測定による量子検出器のコヒーレンスを直接特徴付ける

Directly Characterizing the Coherence of Quantum Detectors by Sequential Measurement ( http://arxiv.org/abs/2111.10325v1 )

ライセンス: Link先を確認
Liang Xu, Huichao Xu, Jie Xie, Hui Li, Lin Zhou, Feixiang Xu, Lijian Zhang(参考訳) 量子測定の量子特性は、量子情報処理において必須の資源であり、広範な研究の関心を集めている。 従来の量子特性を明らかにするアプローチは、量子検出器トモグラフィーによる測定演算子全体の再構成に依存している。 しかしながら、多くの特定の性質は、測定演算子の行列エントリの一部によって決定できるため、特性キャラクタリゼーションのプロセスを単純化することができる。 本稿では,2つの非互換可観測器を逐次測定することにより,測定演算子の個々の行列エントリを直接取得する汎用フレームワークを提案する。 この手法により, 量子計測の完全なトモグラフィーを回避し, 有用な情報を抽出することができる。 我々は,この手法を実験的に実装し,一般量子計測のコヒーレント発展を非対角行列の項目を決定づける。 測定精度の調査は、任意の量子測定に対する我々のプロトコルの良好な実現可能性を示している。 本研究は, 測定演算子の行列成分を選択的に決定することにより, 量子測定の量子特性を明らかにする方法である。

The quantum properties of quantum measurements are indispensable resources in quantum information processing and have drawn extensive research interest. The conventional approach to reveal the quantum properties relies on the reconstruction of the entire measurement operators by quantum detector tomography. However, many specific properties can be determined by a part of matrix entries of the measurement operators, which provides us the possibility to simplify the process of property characterization. Here, we propose a general framework to directly obtain individual matrix entries of the measurement operators by sequentially measuring two non-compatible observables. This method allows us to circumvent the complete tomography of the quantum measurement and extract the useful information for our purpose. We experimentally implement this scheme to monitor the coherent evolution of a general quantum measurement by determining the off-diagonal matrix entries. The investigation of the measurement precision indicates the good feasibility of our protocol to the arbitrary quantum measurements. Our results pave the way for revealing the quantum properties of quantum measurements by selectively determining the matrix entries of the measurement operators.
翻訳日:2023-03-07 10:02:24 公開日:2021-11-19
# メトロスケールにおけるエンタングルメント分布制御のためのイリノイ急行量子ネットワーク

Illinois Express Quantum Network for Distributing and Controlling Entanglement on Metro-Scale ( http://arxiv.org/abs/2111.10256v1 )

ライセンス: Link先を確認
Wenji Wu, Joaquin Chung, Gregory Kanter, Nikolai Lauk, Raju Valivarthi, Russell R. Ceballos, Cristin Pena, Neil Sinclair, Jordan M. Thomas, Ely M. Eastman, Si Xie, Rajkumar Kettimuthu, Prem Kumar, Panagiotis Spentzouris, Maria Spiropulu(参考訳) 本稿では,シカゴ地域で設置されたファイバ上の量子ネットワークの実装について述べる。我々は,このネットワークのネットワークトポロジーと制御アーキテクチャを示し,同じファイバリンク上の量子テレポーテーションと古典データの共存に関する予備的な結果を示す。

We describe an implementation of a quantum network over installed fiber in the Chicago area.We present network topology and control architecture of this network and illustrate preliminary results for quantum teleportation and coexistence of quantum and classical data on the same fiber link.
翻訳日:2023-03-07 10:02:08 公開日:2021-11-19
# 原子トロンdc-squidにおける共存在ジョセフソンモードへの回転駆動遷移

Rotation-driven transition into coexistent Josephson modes in an atomtronic dc-SQUID ( http://arxiv.org/abs/2111.10254v1 )

ライセンス: Link先を確認
D. M. Jezek and H. M. Cataldo(参考訳) 2モードモデルを用いて, 2つのダイアグラム配置障壁を持つトロイダル凝縮系からなる二重ウェル系を回転させることにより, 相空間における異なる共存在レジームへの遷移が達成できることを示す。 このような構成は、よく知られた直流超伝導量子干渉装置の原子トロニクスに対応する。 システムが回転する際のオンサイト局所化関数によって実験された位相勾配により、トーラス周辺の速度場の量子化を満たすために各接合に位相差が現れる。 このような位相が異なる種類のホッピングパラメータの相対値に有意な変化をもたらすことを実証する。 特に、決定された回転周波数間隔内では、通常非回転系では無視されるホッピングパラメータがダイナミクスを制御していることを示す。 このような周波数間隔の限界において、静止点の分岐が起こり、これはマクロな正準共役変数の軌道を記述する位相空間の像を著しく変化させる。 0$と$\pi$ josephsonモードを組み合わせた新しいダイナミクスを分析し、各モードが存続する周波数範囲でこれらの軌道の小さな振動時間周期を評価する。 モデルにより予測されたすべての結果はグロス・ピタエフスキーシミュレーションによって確認されている。

By means of a two-mode model, we show that transitions to different arrays of coexistent regimes in the phase space can be attained by rotating a double-well system, which consists of a toroidal condensate with two diametrically placed barriers. Such a configuration corresponds to the atomtronic counterpart of the well-known direct-current superconducting quantum interference device. Due to the phase gradient experimented by the on-site localized functions when the system is subject to rotation, a phase difference appears on each junction in order to satisfy the quantization of the velocity field around the torus. We demonstrate that such a phase can produce a significant change on the relative values of different types of hopping parameters. In particular, we show that within a determined rotation frequency interval, a hopping parameter, usually disregarded in nonrotating systems, turns out to rule the dynamics. At the limits of such a frequency interval, bifurcations of the stationary points occur, which substantially change the phase space portrait that describes the orbits of the macroscopic canonical conjugate variables. We analyze the emerging dynamics that combines the $0$ and $\pi$ Josephson modes, and evaluate the small-oscillation time-periods of such orbits at the frequency range where each mode survives. All the findings predicted by the model are confirmed by Gross-Pitaevskii simulations.
翻訳日:2023-03-07 10:02:02 公開日:2021-11-19
# デチューンパルスを用いた量子エミッタ集団のスイングアップ

Swing-up of quantum emitter population using detuned pulses ( http://arxiv.org/abs/2111.10236v1 )

ライセンス: Link先を確認
Thomas K. Bracht, Michael Cosacchi, Tim Seidelmann, Moritz Cygorek, Alexei Vagov, V. Martin Axt, Tobias Heindel, Doris E. Reiter(参考訳) 量子エミッタにおける励起状態の制御された準備は、量子技術の主要な構成要素である単一光子源としての利用の前提条件である。 本稿では,オフ共振パルスを用いたコヒーレント励起方式を提案する。 通常のラビ方式では、これらのパルスは大きな占有にはならない。 これは周波数変調パルスを用いて励起状態の集団を揺らぐことで克服される。 同じ効果は、同じ符号の強い変形の異なる2つのパルスを用いて得ることができる。 本稿では,半導体量子ドットへのスキームの適用性について理論的に解析する。 この場合、励起はバンドギャップの下の数メガV、すなわち検出周波数から遠く離れており、容易にスペクトルフィルタリングが可能であり、フォノンのような補助粒子に依存しない。 我々のスキームは、近接から理想への光子を生成する可能性を秘めている。

The controlled preparation of the excited state in a quantum emitter is a prerequisite for its usage as single-photon sources - a key building block for quantum technologies. In this paper we propose a coherent excitation scheme using off-resonant pulses. In the usual Rabi scheme, these pulses would not lead to a significant occupation. This is overcome by using a frequency modulated pulse to swing up the excited state population. The same effect can be obtained using two pulses with different strong detunings of the same sign. We theoretically analyze the applicability of the scheme to a semiconductor quantum dot. In this case the excitation is several meV below the band gap, i.e., far away from the detection frequency allowing for easy spectral filtering, and does not rely on any auxiliary particles such as phonons. Our scheme has the potential to lead to the generation of close-to-ideal photons.
翻訳日:2023-03-07 10:01:16 公開日:2021-11-19
# テンソル処理ユニットを用いた量子物理学のシミュレーション:地上状態のブルート力計算と時間発展

Simulation of quantum physics with Tensor Processing Units: brute-force computation of ground states and time evolution ( http://arxiv.org/abs/2111.10466v1 )

ライセンス: Link先を確認
Markus Hauru, Alan Morningstar, Jackson Beall, Martin Ganahl, Adam Lewis, and Guifre Vidal(参考訳) テンソル処理ユニット(TPU)は、Googleが大規模機械学習タスクをサポートするために開発した。 しかし、TPUは、他の計算に要求されるタスクの高速化とスケールアップにも使用できる。 本稿では,TPUを量子スピン系のシミュレーション問題に再利用する。 n$ spin-$\frac{1}{2}$ 量子スピン、または qubits と、局所項 $h_i$ と波動関数 $|\psi\rangle$ の和であるhamiltonian $h = \sum_i h_i$ を持つ格子モデルを考える。 両方のTPUの使用例を示す。 (i)ハミルトンの$h$の基底状態$|\psi_{gs}\rangle$を計算し、 (ii) 時間発展をシミュレートする ||\psi(t)\rangle=e^{-ith}|\psi(0)\rangle$ このハミルトニアンが生成する初期状態 $|\psi(0)\rangle$ から開始する。 上記のタスクのボトルネックは、製品 $h |\psi\rangle$ を計算することである。 2048コアを持つ TPU v3 pod では、波動関数 $|\Psi\rangle$ を最大$N=38$ qubits でシミュレートする。 専用行列乗算ユニット(MXU)、各コア上の高帯域メモリ(HBM)、高速コア間相互接続(ICI)は汎用プロセッサの能力を超える性能を提供する。

Tensor Processing Units (TPUs) were developed by Google exclusively to support large-scale machine learning tasks. TPUs can, however, also be used to accelerate and scale up other computationally demanding tasks. In this paper we repurpose TPUs for the challenging problem of simulating quantum spin systems. Consider a lattice model made of $N$ spin-$\frac{1}{2}$ quantum spins, or qubits, with a Hamiltonian $H = \sum_i h_i$ that is a sum of local terms $h_i$ and a wavefunction $|\Psi\rangle$ consisting of $2^N$ complex amplitudes. We demonstrate the usage of TPUs for both (i) computing the ground state $|\Psi_{gs}\rangle$ of the Hamiltonian $H$, and (ii) simulating the time evolution $|\Psi(t)\rangle=e^{-itH}|\Psi(0)\rangle$ generated by this Hamiltonian starting from some initial state $|\Psi(0)\rangle$. The bottleneck of the above tasks is computing the product $H |\Psi\rangle$, which can be implemented with remarkable efficiency utilising the native capabilities of TPUs. With a TPU v3 pod, with 2048 cores, we simulate wavefunctions $|\Psi\rangle$ of up to $N=38$ qubits. The dedicated matrix multiplication units (MXUs), the high bandwidth memory (HBM) on each core, and the fast inter-core interconnects (ICIs) together provide performance far beyond the capabilities of general purpose processors.
翻訳日:2023-03-07 09:54:43 公開日:2021-11-19
# リアルタイムインスタントによるクビットデコヒーレンスと対称性回復

Qubit Decoherence and Symmetry Restoration through Real-Time Instantons ( http://arxiv.org/abs/2111.10433v1 )

ライセンス: Link先を確認
Foster Thompson and Alex Kamenev(参考訳) 非線形散逸によって安定化されたパラメトリック駆動量子発振器はパリティ対称性の自発的な破れを示す。 量子双安定性(quantum bi-stability)は、暗黒状態のブロッホ球面に対応する。 これにより、このような駆動散逸システムはキュービットの魅力的な候補となる。 パリティ対称性の破れは古典レベルと量子力学的摂動理論の両方において正確である。 ここでは、非摂動量子効果が対称性の回復をもたらし、指数的に小さいが有限の量子ビットデコヒーレンス速度をもたらすことを示す。 厳密には、対称性の復元は、駆動散逸振動子のリンドブラディアン進化を表すケルディシュ経路積分のリアルタイムインスタント軌道によるものである。

A parametrically driven quantum oscillator, stabilized by a nonlinear dissipation, exhibits a spontaneous breaking of the parity symmetry. It results in the quantum bi-stability, corresponding to a Bloch sphere of dark states. This makes such a driven-dissipative system an attractive candidate for a qubit. The parity symmetry breaking is exact both on the classical level and within the quantum mechanical perturbation theory. Here we show that non-perturbative quantum effects lead to the symmetry restoration and result in exponentially small but finite qubit decoherence rate. Technically the symmetry restoration is due to real time instanton trajectories of the Keldysh path integral, which represents the Lindbladian evolution of the driven-dissipative oscillator.
翻訳日:2023-03-07 09:54:09 公開日:2021-11-19
# RacketStore: モバイルおよびアプリ使用によるGoogle PlayのASO誤認の測定

RacketStore: Measurements of ASO Deception in Google Play via Mobile and App Usage ( http://arxiv.org/abs/2111.10400v1 )

ライセンス: Link先を確認
Nestor Hernandez, Ruben Recabarren, Bogdan Carbunar, Syed Ishtiaque Ahmed(参考訳) オンラインアプリ検索最適化(aso: online app search optimization)プラットフォームは、アプリストアにおける検索ランクを不正に増やすために、有料アプリ開発者に大量のインストールと偽レビューを提供する。 本稿では、Google Play Storeからインストールしたアプリとのインタラクションに基づいて、ASOプロバイダとレギュラーユーザのAndroidデバイスからデータを収集するプラットフォームであるRacketStoreを紹介する。 これらのデバイスから収集された58,362,249個のデータスナップショット、インストールされた12,341個のアプリ、および110,511,637個のGoogle Playレビューで構成されている。 ASOプロバイダとレギュラーユーザの間には,デバイスに登録されているユーザアカウントの数とタイプ,レビューするアプリの数,インストール時間とレビュー時間との間隔において,大きな違いがみられた。 これらの洞察を活用して、アプリやデバイスの使用をモデル化する機能を導入し、有料アプリのインストールと偽レビューを99.72%(AUC以上0.99)で検出する教師付き学習アルゴリズムをトレーニングし、F1の95.29%(AUC=0.95)でASOプロバイダが管理するデバイスを検出することができることを示す。 分類器による検出回避に伴うコストと、アプリストアがASOのプライバシー問題を検出するために我々のアプローチを利用する可能性についても論じる。

Online app search optimization (ASO) platforms that provide bulk installs and fake reviews for paying app developers in order to fraudulently boost their search rank in app stores, were shown to employ diverse and complex strategies that successfully evade state-of-the-art detection methods. In this paper we introduce RacketStore, a platform to collect data from Android devices of participating ASO providers and regular users, on their interactions with apps which they install from the Google Play Store. We present measurements from a study of 943 installs of RacketStore on 803 unique devices controlled by ASO providers and regular users, that consists of 58,362,249 data snapshots collected from these devices, the 12,341 apps installed on them and their 110,511,637 Google Play reviews. We reveal significant differences between ASO providers and regular users in terms of the number and types of user accounts registered on their devices, the number of apps they review, and the intervals between the installation times of apps and their review times. We leverage these insights to introduce features that model the usage of apps and devices, and show that they can train supervised learning algorithms to detect paid app installs and fake reviews with an F1-measure of 99.72% (AUC above 0.99), and detect devices controlled by ASO providers with an F1-measure of 95.29% (AUC = 0.95). We discuss the costs associated with evading detection by our classifiers and also the potential for app stores to use our approach to detect ASO work with privacy.
翻訳日:2023-03-07 09:52:04 公開日:2021-11-19
# ヒト様アピカルデンドライト活性を有する非線形ニューロン

Non-linear Neurons with Human-like Apical Dendrite Activations ( http://arxiv.org/abs/2003.03229v3 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Nicolae-Catalin Ristea, Nicu Sebe(参考訳) 線形に分離できないデータを分類するために、ニューロンは通常、少なくとも1つの隠れ層を持つ多層ニューラルネットワークに編成される。 神経科学の最近の発見に触発されて、単一ニューロンを用いた非線形決定境界の学習を可能にする新しい活性化関数とともに、新しいニューロンモデルを提案する。 XOR論理関数を100倍の精度で学習し, 標準的なニューロンに新しいアピーカルデンドライト活性化(ADA)が続くことを示す。 Furthermore, we conduct experiments on five benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, and Tiny ImageNet, showing that ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. 錐体ニューロンと円錐状樹状突起活性化(PyNADA)を併用してニューロンの標準モデルを変更することにより,さらなる性能向上が期待できる。 コードはhttps://github.com/raduionescu/pynada.com/。

In order to classify linearly non-separable data, neurons are typically organized into multi-layer neural networks that are equipped with at least one hidden layer. Inspired by some recent discoveries in neuroscience, we propose a new neuron model along with a novel activation function enabling the learning of non-linear decision boundaries using a single neuron. We show that a standard neuron followed by the novel apical dendrite activation (ADA) can learn the XOR logical function with 100\% accuracy. Furthermore, we conduct experiments on five benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, and Tiny ImageNet, showing that ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. We obtain further performance improvements when we change the standard model of the neuron with our pyramidal neuron with apical dendrite activations (PyNADA). Our code is available at: https://github.com/raduionescu/pynada.
翻訳日:2023-01-04 19:49:50 公開日:2021-11-19
# Gauge Equivariant Mesh CNNs:幾何グラフ上の異方的畳み込み

Gauge Equivariant Mesh CNNs: Anisotropic convolutions on geometric graphs ( http://arxiv.org/abs/2003.05425v3 )

ライセンス: Link先を確認
Pim de Haan, Maurice Weiler, Taco Cohen and Max Welling(参考訳) メッシュ上の畳み込みを定義する一般的なアプローチは、それらをグラフとして解釈し、グラフ畳み込みネットワーク(GCN)を適用することである。 このようなGCNは等方的核を利用しており、したがって頂点の相対配向やメッシュ全体の幾何学には無関心である。 本稿では、GCNを一般化して異方性ゲージ同変カーネルを適用するGauge Equivariant Mesh CNNを提案する。 この結果から,メッシュエッジ上の並列輸送機能によって定義される幾何学的メッセージパッシング方式を導入する。 本実験は,従来のGCNおよび他の手法と比較して,提案手法の表現性を大幅に向上することを示した。

A common approach to define convolutions on meshes is to interpret them as a graph and apply graph convolutional networks (GCNs). Such GCNs utilize isotropic kernels and are therefore insensitive to the relative orientation of vertices and thus to the geometry of the mesh as a whole. We propose Gauge Equivariant Mesh CNNs which generalize GCNs to apply anisotropic gauge equivariant kernels. Since the resulting features carry orientation information, we introduce a geometric message passing scheme defined by parallel transporting features over mesh edges. Our experiments validate the significantly improved expressivity of the proposed model over conventional GCNs and other methods.
翻訳日:2022-12-24 13:19:31 公開日:2021-11-19
# Dendrite Net: 分類、回帰、システム識別のためのホワイトボックスモジュール

Dendrite Net: A White-Box Module for Classification, Regression, and System Identification ( http://arxiv.org/abs/2004.03955v6 )

ライセンス: Link先を確認
Gang Liu and Jing Wang(参考訳) 生物学的デンドライト計算のシミュレーションは人工知能(AI)の発展に不可欠である。 本稿では,SVM (Support Vector Machine) やMLP (Multilayer Perceptron) と同じように,Dendrite Net あるいは DD という基本的な機械学習アルゴリズムを提案する。 DDの主な概念は、出力の論理式が入力間の対応するクラスの論理的関係(および$\backslash$or$\backslash$not)を含んでいる場合、学習後にアルゴリズムがこのクラスを認識することである。 実験と主な結果:ホワイトボックス機械学習アルゴリズムDDはブラックボックスシステムに対して優れたシステム識別性能を示した。 第二に、ddはニューロンの細胞体(細胞体網)を模倣したmlpアーキテクチャよりも優れた一般化能力をもたらしたという9つの実世界応用によって検証された。 第3に,MNISTおよびFASHION-MNISTデータセットにより,DDは細胞体ネットよりも高いトレーニング損失下で高い試験精度を示した。 モジュール数はDDの論理式キャパシティを効果的に調整することができ、過剰な適合を回避し、優れた一般化能力を持つモデルを簡単に取得できる。 最後に、MATLABとPyTorch(Python)の反復実験では、DDはエポックおよびフォワードプロパゲーションの両方において細胞体ネットよりも高速であることが示された。 本論文の主な貢献は,ホワイトボックス属性を持つ基本機械学習アルゴリズム(dd),一般化能力の向上のための制御可能な精度,計算複雑性の低減である。 DDは汎用エンジニアリングに利用できるだけでなく、ディープラーニングのモジュールとして大きな開発可能性を持っている。 ddコードはgithubで入手できる: https://github.com/liugang1234567/gang-neuron。

The simulation of biological dendrite computations is vital for the development of artificial intelligence (AI). This paper presents a basic machine learning algorithm, named Dendrite Net or DD, just like Support Vector Machine (SVM) or Multilayer Perceptron (MLP). DD's main concept is that the algorithm can recognize this class after learning, if the output's logical expression contains the corresponding class's logical relationship among inputs (and$\backslash$or$\backslash$not). Experiments and main results: DD, a white-box machine learning algorithm, showed excellent system identification performance for the black-box system. Secondly, it was verified by nine real-world applications that DD brought better generalization capability relative to MLP architecture that imitated neurons' cell body (Cell body Net) for regression. Thirdly, by MNIST and FASHION-MNIST datasets, it was verified that DD showed higher testing accuracy under greater training loss than Cell body Net for classification. The number of modules can effectively adjust DD's logical expression capacity, which avoids over-fitting and makes it easy to get a model with outstanding generalization capability. Finally, repeated experiments in MATLAB and PyTorch (Python) demonstrated that DD was faster than Cell body Net both in epoch and forward-propagation. The main contribution of this paper is the basic machine learning algorithm (DD) with a white-box attribute, controllable precision for better generalization capability, and lower computational complexity. Not only can DD be used for generalized engineering, but DD has vast development potential as a module for deep learning. DD code is available at GitHub: https://github.com/liugang1234567/Gang-neuron .
翻訳日:2022-12-15 08:29:37 公開日:2021-11-19
# sgdの最適バッチサイズに関する適応学習

Adaptive Learning of the Optimal Batch Size of SGD ( http://arxiv.org/abs/2005.01097v2 )

ライセンス: Link先を確認
Motasem Alfarra, Slavomir Hanzely, Alyazeed Albasyoni, Bernard Ghanem and Peter Richtarik(参考訳) 近年のsgdの理論的理解の進歩により、効率的なデータパス数、すなわちバッチサイズ倍のイテレーション数を最小化する最適なバッチサイズの公式が導かれた。 しかし、この公式は最適で評価された確率勾配の分散の知識に依存するので実用的価値はない。 本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな機能を実現するための実用的なSGD手法を設計する。 提案手法は実現可能であり, 合成および実データを用いた実験では, ほぼ最適挙動がロバストに示され, 最適なバッチサイズがa-prioriとして知られるように動作する。 さらに,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。

Recent advances in the theoretical understanding of SGD led to a formula for the optimal batch size minimizing the number of effective data passes, i.e., the number of iterations times the batch size. However, this formula is of no practical value as it depends on the knowledge of the variance of the stochastic gradients evaluated at the optimum. In this paper we design a practical SGD method capable of learning the optimal batch size adaptively throughout its iterations for strongly convex and smooth functions. Our method does this provably, and in our experiments with synthetic and real data robustly exhibits nearly optimal behaviour; that is, it works as if the optimal batch size was known a-priori. Further, we generalize our method to several new batch strategies not considered in the literature before, including a sampling suitable for distributed implementations.
翻訳日:2022-12-07 06:23:34 公開日:2021-11-19
# 可換分類文法へのランベック計算の埋め込みについて

On embedding Lambek calculus into commutative categorial grammars ( http://arxiv.org/abs/2005.10058v4 )

ライセンス: Link先を確認
Sergey Slavnov(参考訳) 我々は古典的(直観主義的ではなく)線形論理に基づく「可換」文法の例であるテンソル文法を考察する。 これらは抽象圏文法 ACG の表面表現として見ることができ、ACG の導出はテンソル文法の導出に変換され、この変換は文字列言語レベルで同型である。 基本成分はテンソル項であり、証明ネットの符号化と一般化と見なすことができる。 テンソル項を用いることで構文は非常に単純になり、直接的な幾何学的意味が透明になる。 そして、この設定で非可換操作をエンコードする問題に対処する。 これは、新しい単項演算子でシステムを強化した後で可能となる。 結果として得られたシステムは、ACGとランベク語の文法を保守的な断片として表現できるが、形式主義は私たちと同じように、比較的単純で直感的なままである。

We consider tensor grammars, which are an example of \commutative" grammars, based on the classical (rather than intuitionistic) linear logic. They can be seen as a surface representation of abstract categorial grammars ACG in the sense that derivations of ACG translate to derivations of tensor grammars and this translation is isomorphic on the level of string languages. The basic ingredient are tensor terms, which can be seen as encoding and generalizing proof-nets. Using tensor terms makes the syntax extremely simple and a direct geometric meaning becomes transparent. Then we address the problem of encoding noncommutative operations in our setting. This turns out possible after enriching the system with new unary operators. The resulting system allows representing both ACG and Lambek grammars as conservative fragments, while the formalism remains, as it seems to us, rather simple and intuitive.
翻訳日:2022-12-01 05:57:49 公開日:2021-11-19
# 機械学習手法ベンチマークのための性能説明可能性フレームワーク:多変量時系列分類への応用

A Performance-Explainability Framework to Benchmark Machine Learning Methods: Application to Multivariate Time Series Classifiers ( http://arxiv.org/abs/2005.14501v6 )

ライセンス: Link先を確認
Kevin Fauvel, V\'eronique Masson, \'Elisa Fromont(参考訳) 本研究では,機械学習手法の評価とベンチマークを行うための新しい性能説明可能性分析フレームワークを提案する。 このフレームワークは、既存の機械学習手法のパフォーマンス説明可能性評価を体系化する特徴のセットを詳述している。 このフレームワークの使用を説明するために,現在最先端の多変量時系列分類器のベンチマークを行う。

Our research aims to propose a new performance-explainability analytical framework to assess and benchmark machine learning methods. The framework details a set of characteristics that systematize the performance-explainability assessment of existing machine learning methods. In order to illustrate the use of the framework, we apply it to benchmark the current state-of-the-art multivariate time series classifiers.
翻訳日:2022-11-26 22:37:37 公開日:2021-11-19
# ロバスト性のためのクラスタリング再考

Rethinking Clustering for Robustness ( http://arxiv.org/abs/2006.07682v3 )

ライセンス: Link先を確認
Motasem Alfarra, Juan C. P\'erez, Adel Bibi, Ali Thabet, Pablo Arbel\'aez, Bernard Ghanem(参考訳) 本稿では,ニューラルネットワークの深層学習における意味的に整合した特徴の促進が,ネットワークロバスト性を高める効果について検討する。 近年の研究では、敵の訓練が頑健なモデルにつながり、その学習的特徴は人間の知覚と相関していることが観察されている。 この接続をロバスト性からセマンティクスにインスパイアされ、セマンティクスからロバスト性へ、補完的な接続を研究する。 そのため、距離に基づく分類モデル(クラスタリングに基づく分類器)の堅牢性証明を提供する。 さらに,この証明が厳密であることを示し,それを活用して,堅牢なモデルを学ぶためのクラスタリングベースで敵対的でないトレーニングフレームワークであるclustr(clustering training for robustness)を提案する。 興味深いことに、 \textit{clustr} は強力なpgd攻撃下で、敵が訓練したネットワークを最大$4\%$で上回っている。

This paper studies how encouraging semantically-aligned features during deep neural network training can increase network robustness. Recent works observed that Adversarial Training leads to robust models, whose learnt features appear to correlate with human perception. Inspired by this connection from robustness to semantics, we study the complementary connection: from semantics to robustness. To do so, we provide a robustness certificate for distance-based classification models (clustering-based classifiers). Moreover, we show that this certificate is tight, and we leverage it to propose ClusTR (Clustering Training for Robustness), a clustering-based and adversary-free training framework to learn robust models. Interestingly, \textit{ClusTR} outperforms adversarially-trained networks by up to $4\%$ under strong PGD attacks.
翻訳日:2022-11-21 20:41:13 公開日:2021-11-19
# バースト撮影による極暗画像の学習

Burst Photography for Learning to Enhance Extremely Dark Images ( http://arxiv.org/abs/2006.09845v2 )

ライセンス: Link先を確認
Ahmet Serdar Karadeniz and Erkut Erdem and Aykut Erdem(参考訳) 極めて低照度な条件下で画像を撮影することは、標準的なカメラパイプラインにとって大きな課題となる。 画像は暗すぎてノイズが多すぎるため、従来のエンハンスメント技術はほとんど適用できない。 最近、学習ベースのアプローチは、品質を改善するための表現力が大幅に向上するため、このタスクに非常に有望な結果をもたらしています。 本稿では,これらの研究に動機づけられ,バースト撮影による性能向上と,極めて暗い原画像からより鮮明で正確なrgb画像を得ることを目的としている。 提案するフレームワークのバックボーンは,高品質な出力を段階的に生成する,粗大なネットワークアーキテクチャである。 粗いネットワークは低解像度で分断された生画像を予測し、細かな細部とリアルなテクスチャを復元するために細かなネットワークに送られる。 ノイズレベルをさらに低減し、色精度を向上させるため、このネットワークを置換不変構造に拡張し、低照度の画像を入力としてバーストし、特徴レベルの複数の画像から情報をマージする。 実験により,我々のアプローチは,より詳細かつかなり高品質な画像を生成することにより,最先端の手法よりも知覚的に優れた結果をもたらすことを実証した。

Capturing images under extremely low-light conditions poses significant challenges for the standard camera pipeline. Images become too dark and too noisy, which makes traditional enhancement techniques almost impossible to apply. Recently, learning-based approaches have shown very promising results for this task since they have substantially more expressive capabilities to allow for improved quality. Motivated by these studies, in this paper, we aim to leverage burst photography to boost the performance and obtain much sharper and more accurate RGB images from extremely dark raw images. The backbone of our proposed framework is a novel coarse-to-fine network architecture that generates high-quality outputs progressively. The coarse network predicts a low-resolution, denoised raw image, which is then fed to the fine network to recover fine-scale details and realistic textures. To further reduce the noise level and improve the color accuracy, we extend this network to a permutation invariant structure so that it takes a burst of low-light images as input and merges information from multiple images at the feature-level. Our experiments demonstrate that our approach leads to perceptually more pleasing results than the state-of-the-art methods by producing more detailed and considerably higher quality images.
翻訳日:2022-11-19 21:02:40 公開日:2021-11-19
# 構造保存介入による内因的因果貢献の定量化

Quantifying intrinsic causal contributions via structure preserving interventions ( http://arxiv.org/abs/2007.00714v3 )

ライセンス: Link先を確認
Dominik Janzing, Patrick Bl\"obaum, Lenon Minorics, Philipp Faller, Atalanti Mastakouri(参考訳) 本稿では,DAG内のノードに対するノードの寄与の「内在的」部分を記述した新たな因果寄与の概念を提案する。 いくつかのシナリオでは、既存の因果定量化手法は、この概念を正確に捉えられなかった。 各ノードを上流雑音項の関数として再帰的に書き直すことにより、各ノードが付加する固有情報をその祖先から得たものから分離する。 内在的な情報を因果的貢献として解釈するために,親への通常の依存を模倣し,観察された共同分布を乱さない方法で各ノードをランダム化する「構造保存介入」を考える。 ノードの任意の順序に不変な測度を得るため、shapleyベースの対称性を提案する。 我々は分散とエントロピーに対する貢献分析について述べるが、他のターゲットメトリクスへの貢献は類似的に定義できる。

We propose a new notion of causal contribution which describes the 'intrinsic' part of the contribution of a node on a target node in a DAG. We show that in some scenarios the existing causal quantification methods failed to capture this notion exactly. By recursively writing each node as a function of the upstream noise terms, we separate the intrinsic information added by each node from the one obtained from its ancestors. To interpret the intrinsic information as a causal contribution, we consider 'structure-preserving interventions' that randomize each node in a way that mimics the usual dependence on the parents and do not perturb the observed joint distribution. To get a measure that is invariant across arbitrary orderings of nodes we propose Shapley based symmetrization. We describe our contribution analysis for variance and entropy, but contributions for other target metrics can be defined analogously.
翻訳日:2022-11-14 22:27:41 公開日:2021-11-19
# 距離保存型マトリックススケッチ

A Distance-preserving Matrix Sketch ( http://arxiv.org/abs/2009.03979v3 )

ライセンス: Link先を確認
Leland Wilkinson, Hengrui Luo(参考訳) 非常に大きな行列を視覚化することは、多くの厄介な問題を伴う。 これらの問題に対する様々な一般的な解決策は、サンプリング、クラスタリング、プロジェクション、または元のタスクのサイズと複雑さを減らす機能選択である。 これらの手法の重要な側面は、行と列を下次元空間に収まるように減らした後、高次元空間の点間の相対距離をいかに保つかである。 この側面は、欠陥のある視覚的推論に基づく結論が有害である可能性があるため重要である。 異なる点と類似点、または類似点を視覚化に基づいて判断することは、誤った結論につながる。 このバイアスを緩和し、非常に大きなデータセットの可視化を可能にするために、矩形行列の行と列のサブセットをそれぞれ選択する2つの新しいアルゴリズムを導入する。 この選択は、できるだけ近い距離を保つように設計されている。 我々は、行列スケッチを、さまざまな人工的および実際のデータセット上のより伝統的な代替品と比較する。

Visualizing very large matrices involves many formidable problems. Various popular solutions to these problems involve sampling, clustering, projection, or feature selection to reduce the size and complexity of the original task. An important aspect of these methods is how to preserve relative distances between points in the higher-dimensional space after reducing rows and columns to fit in a lower dimensional space. This aspect is important because conclusions based on faulty visual reasoning can be harmful. Judging dissimilar points as similar or similar points as dissimilar on the basis of a visualization can lead to false conclusions. To ameliorate this bias and to make visualizations of very large datasets feasible, we introduce two new algorithms that respectively select a subset of rows and columns of a rectangular matrix. This selection is designed to preserve relative distances as closely as possible. We compare our matrix sketch to more traditional alternatives on a variety of artificial and real datasets.
翻訳日:2022-10-20 21:03:48 公開日:2021-11-19
# ファクト抽出と検証に関するレビュー

A Review on Fact Extraction and Verification ( http://arxiv.org/abs/2010.03001v5 )

ライセンス: Link先を確認
Giannis Bekoulis, Christina Papagiannopoulou, Nikos Deligiannis(参考訳) 我々は,クレームの真性を特定することを目的としたファクトチェック問題について検討する。 具体的には、Fact extract and VERification(FEVER)タスクとその関連するデータセットに焦点を当てる。 このタスクは、ウィキペディアから関連文書(および文)を検索し、文書内の情報が所定のクレームを支持または反証するかどうかを検証するサブタスクで構成されている。 このタスクは必須であり、フェイクニュース検出や医療クレームの検証といったアプリケーションのビルディングブロックになり得る。 本稿では,文献を構造化・包括的に提示することで,課題の理解を深めることを目的とする。 提案手法は, 異なるアプローチの技術的視点を解析し, 事実抽出および検証タスクにおいて最もよく研究され, 正式に構造化されたデータセットであるFEVERデータセットの性能結果について議論することによって述べる。 また,文検索成分の有益損失関数の同定に関して,これまでで最大の実験を行った。 分析の結果,否定文のサンプリングは性能の向上と計算複雑性の低減に重要であることが示された。 最後に、オープンな課題と今後の課題について述べ、その課題における今後の研究を動機づける。

We study the fact checking problem, which aims to identify the veracity of a given claim. Specifically, we focus on the task of Fact Extraction and VERification (FEVER) and its accompanied dataset. The task consists of the subtasks of retrieving the relevant documents (and sentences) from Wikipedia and validating whether the information in the documents supports or refutes a given claim. This task is essential and can be the building block of applications such as fake news detection and medical claim verification. In this paper, we aim at a better understanding of the challenges of the task by presenting the literature in a structured and comprehensive way. We describe the proposed methods by analyzing the technical perspectives of the different approaches and discussing the performance results on the FEVER dataset, which is the most well-studied and formally structured dataset on the fact extraction and verification task. We also conduct the largest experimental study to date on identifying beneficial loss functions for the sentence retrieval component. Our analysis indicates that sampling negative sentences is important for improving the performance and decreasing the computational complexity. Finally, we describe open issues and future challenges, and we motivate future research in the task.
翻訳日:2022-10-10 07:14:03 公開日:2021-11-19
# リカレントニューラルネットワークを用いたボディーズ最適化に基づく最適特徴選択による人間の行動認識

Automated Human Activity Recognition by Colliding Bodies Optimization-based Optimal Feature Selection with Recurrent Neural Network ( http://arxiv.org/abs/2010.03324v3 )

ライセンス: Link先を確認
Pankaj Khatiwada, Ayan Chatterjee, Matrika Subedi(参考訳) スマートヘルスケアにおいて、ヒューマンアクティビティ認識(HAR)は、センサ読み取りから広範に計算を行う上で、効率的なモデルであると考えられている。 家庭やコミュニティにおける環境支援生活(AAL)は、自立したケアと生活の質の向上を支援する。 しかし、多くのAALモデルは計算コストやシステムの複雑さを含む多くの要因によって制限された。 さらに、HARの概念は、その応用によりより関連性が高い。 そこで本稿では,UC Irvine Machine Learning Repository (UCI)で公開されているセンサから収集したデータを用いて,ディープラーニングを用いたHARシステムの実装を誘惑する。 提案モデルは,(1)データ収集,(2)データ収集の3つのプロセスを含む。 (b)最適特徴選択 c) 認識。 ベンチマークリポジトリから収集されたデータは、最初に最も重要な機能を選択するのに役立つ最適な機能選択が行われる。 提案する最適特徴選択は、コリディングボディ最適化(cbo)と呼ばれる新しいメタヒューリスティックアルゴリズムに基づいている。 最適な特徴選択を達成するために、認識精度によって導出される目的関数を用いる。 ここでは、アクティビティ認識にRNN(Recurrent Neural Network)と呼ばれるディープラーニングモデルを用いる。 提案するベンチマークデータセットのモデルは,既存の学習手法を上回り,従来のモデルと比較して高いパフォーマンスを提供する。

In smart healthcare, Human Activity Recognition (HAR) is considered to be an efficient model in pervasive computation from sensor readings. The Ambient Assisted Living (AAL) in the home or community helps the people in providing independent care and enhanced living quality. However, many AAL models were restricted using many factors that include computational cost and system complexity. Moreover, the HAR concept has more relevance because of its applications. Hence, this paper tempts to implement the HAR system using deep learning with the data collected from smart sensors that are publicly available in the UC Irvine Machine Learning Repository (UCI). The proposed model involves three processes: (1) Data collection, (b) Optimal feature selection, (c) Recognition. The data gathered from the benchmark repository is initially subjected to optimal feature selection that helps to select the most significant features. The proposed optimal feature selection is based on a new meta-heuristic algorithm called Colliding Bodies Optimization (CBO). An objective function derived by the recognition accuracy is used for accomplishing the optimal feature selection. Here, the deep learning model called Recurrent Neural Network (RNN) is used for activity recognition. The proposed model on the concerned benchmark dataset outperforms existing learning methods, providing high performance compared to the conventional models.
翻訳日:2022-10-10 00:13:02 公開日:2021-11-19
# ネストサンプリングを伴う限界化ガウス過程

Marginalised Gaussian Processes with Nested Sampling ( http://arxiv.org/abs/2010.16344v2 )

ライセンス: Link先を確認
Fergus Simpson, Vidhi Lalchand, Carl Edward Rasmussen(参考訳) ガウス過程(GP)モデルは、カーネル関数によって制御される帰納バイアスを持つ関数上の豊富な分布である。 学習は、限界確率を目的とするカーネルハイパーパラメータの最適化を通じて行われる。 type-iimaximum likelihood(ml-ii)として知られるこの古典的なアプローチはハイパーパラメータのポイント推定をもたらし、gpsのトレーニングのデフォルトとなっている。 しかし、このアプローチは予測の不確実性を過小評価するリスクがあり、特に多くのハイパーパラメータが存在する場合、過度に適合する傾向にある。 さらに、勾配に基づく最適化により、ML-II点推定は局所ミニマの存在に非常に影響を受けやすい。 本稿では,複雑なマルチモーダル分布からのサンプルに適した手法であるnested sampling (ns) を用いて,カーネル関数のハイパーパラメータを限界化する方法を提案する。 我々は,スペクトル混合(SM)クラスを用いた回帰タスクに着目し,モデル不確実性を定量化するための原則的アプローチが,合成およびベンチマークデータセットの範囲で予測性能を大幅に向上させることを示した。 この文脈では、ネストサンプリングはハミルトニアンモンテカルロ(英語版)(hmc)よりも高速に有利であり、mcmcに基づく推論では金本位制と広く考えられている。

Gaussian Process (GPs) models are a rich distribution over functions with inductive biases controlled by a kernel function. Learning occurs through the optimisation of kernel hyperparameters using the marginal likelihood as the objective. This classical approach known as Type-II maximum likelihood (ML-II) yields point estimates of the hyperparameters, and continues to be the default method for training GPs. However, this approach risks underestimating predictive uncertainty and is prone to overfitting especially when there are many hyperparameters. Furthermore, gradient based optimisation makes ML-II point estimates highly susceptible to the presence of local minima. This work presents an alternative learning procedure where the hyperparameters of the kernel function are marginalised using Nested Sampling (NS), a technique that is well suited to sample from complex, multi-modal distributions. We focus on regression tasks with the spectral mixture (SM) class of kernels and find that a principled approach to quantifying model uncertainty leads to substantial gains in predictive performance across a range of synthetic and benchmark data sets. In this context, nested sampling is also found to offer a speed advantage over Hamiltonian Monte Carlo (HMC), widely considered to be the gold-standard in MCMC based inference.
翻訳日:2022-10-01 16:19:00 公開日:2021-11-19
# ロボットビジョンのための衣服の形状と重量の連続認識

Continuous Perception for Classifying Shapes and Weights of Garmentsfor Robotic Vision Applications ( http://arxiv.org/abs/2011.06089v2 )

ライセンス: Link先を確認
Li Duan, Gerardo Aragon-Camarasa(参考訳) ロボット洗濯作業における連続知覚へのアプローチを提案する。 我々は,映像列から衣服の動的変化を学習するニューラルネットワークによって,衣服の形状と重量の視覚的な予測が可能であると仮定した。 連続知覚は連続したフレームを入力することで訓練中に利用され、ネットワークは衣服がどのように変形するかを学ぶ。 この仮説を評価するために,衣服の操作中に40KRGB,40K深度ビデオシーケンスのデータセットを収集した。 また,ニューラルネットワークが衣服の物理的および動的特性を学習するかどうかを理解するためにアブレーション研究を行った。 この結果から,改良型AlexNet-LSTMアーキテクチャは衣服の形状と重量に最適な分類性能を有することが示唆された。 さらに, 連続的な知覚が衣服の形状や重量の予測を促進する証拠として, 未確認映像系列によるネットワークの評価と, 一連の予測による「移動平均」の計算を行った。 その結果,ネットワークは衣服の形状と重量について,それぞれ48%,60%の分類精度を示した。

We present an approach to continuous perception for robotic laundry tasks. Our assumption is that the visual prediction of a garment's shapes and weights is possible via a neural network that learns the dynamic changes of garments from video sequences. Continuous perception is leveraged during training by inputting consecutive frames, of which the network learns how a garment deforms. To evaluate our hypothesis, we captured a dataset of 40K RGB and 40K depth video sequences while a garment is being manipulated. We also conducted ablation studies to understand whether the neural network learns the physical and dynamic properties of garments. Our findings suggest that a modified AlexNet-LSTM architecture has the best classification performance for the garment's shape and weights. To further provide evidence that continuous perception facilitates the prediction of the garment's shapes and weights, we evaluated our network on unseen video sequences and computed the 'Moving Average' over a sequence of predictions. We found that our network has a classification accuracy of 48% and 60% for shapes and weights of garments, respectively.
翻訳日:2022-09-27 00:51:20 公開日:2021-11-19
# Visual Time Series Forecasting: イメージ駆動型アプローチ

Visual Time Series Forecasting: An Image-driven Approach ( http://arxiv.org/abs/2011.09052v3 )

ライセンス: Link先を確認
Srijan Sood, Zhen Zeng, Naftali Cohen, Tucker Balch, and Manuela Veloso(参考訳) エージェントが決定を下すためには時系列予測が不可欠である。 伝統的なアプローチは、過去の数値を予測するために統計手法に依存している。 実際には、エンドユーザーはチャートやプロットのような視覚化を使って予測を行うことが多い。 実践者からインスパイアされた私たちは、人間が直感的に行うのと同じように、視覚的な予測を生成するための新しいフレームワークを作成することで、トピックを再想像します。 本研究では,ディープラーニングの進歩を活用して時系列予測の分野を視覚的環境に拡張する。 入力データを画像としてキャプチャし,モデルをトレーニングして次の画像を生成する。 このアプローチは、ポイントワイズ値とは対照的に分布を予測する。 複雑度が異なる様々な合成データと実データについて検討する。 実験の結果,ビジュアル予測は循環データには有効であるが,株価などの不規則データには若干少ないことがわかった。 重要な点として,画像に基づく評価指標を用いた場合,ARIMAや数値変動など,様々な数値ベースラインを上回る視覚予測手法が提案されている。 我々は、予測タスクにビジョンベースのアプローチを組み込むことの利点を実証する -- 生成された予測の品質と、それらを評価するのに使用できるメトリクスの両方のために。

Time series forecasting is essential for agents to make decisions. Traditional approaches rely on statistical methods to forecast given past numeric values. In practice, end-users often rely on visualizations such as charts and plots to reason about their forecasts. Inspired by practitioners, we re-imagine the topic by creating a novel framework to produce visual forecasts, similar to the way humans intuitively do. In this work, we leverage advances in deep learning to extend the field of time series forecasting to a visual setting. We capture input data as an image and train a model to produce the subsequent image. This approach results in predicting distributions as opposed to pointwise values. We examine various synthetic and real datasets with diverse degrees of complexity. Our experiments show that visual forecasting is effective for cyclic data but somewhat less for irregular data such as stock price. Importantly, when using image-based evaluation metrics, we find the proposed visual forecasting method to outperform various numerical baselines, including ARIMA and a numerical variation of our method. We demonstrate the benefits of incorporating vision-based approaches in forecasting tasks -- both for the quality of the forecasts produced, as well as the metrics that can be used to evaluate them.
翻訳日:2022-09-24 03:56:19 公開日:2021-11-19
# エネルギーベースコントラスト表現転送を用いた重ね合わせ不均衡データ学習

Supercharging Imbalanced Data Learning With Energy-based Contrastive Representation Transfer ( http://arxiv.org/abs/2011.12454v4 )

ライセンス: Link先を確認
Zidi Xiu, Junya Chen, Ricardo Henao, Benjamin Goldstein, Lawrence Carin, Chenyang Tao(参考訳) 特にマイノリティクラスの正確な分類と一般化が主な関心事である場合、厳しいクラス不均衡に対処することは現実のアプリケーションにとって大きな課題となる。 コンピュータビジョンでは、ロングテールデータセットからの学習は、特に自然画像データセットの繰り返しテーマである。 既存の解は, 病的不均衡を緩和するためのサンプリングや重み付け調整, または非純正な関係を優先するために帰納的バイアスを課すことに主眼を置いているが, 因果関係の不分散原理に基づくサンプル効率とモデル一般化を促進するために, 新たな視点を取り入れた。 本稿では,データ生成機構がラベル条件特徴分布に不変であるメタ分散シナリオを提案する。 このような因果的仮定は、たとえ各特徴分布が明らかな相違を示したとしても、支配階級から非表現階級への効率的な知識伝達を可能にする。 これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。 我々の開発は既存の極端な分類手法と直交しており、シームレスに統合できる。 この提案の有用性は、somaソリューションに対する合成および実世界のコンピュータビジョンタスクの広範なセットで検証される。

Dealing with severe class imbalance poses a major challenge for real-world applications, especially when the accurate classification and generalization of minority classes is of primary interest. In computer vision, learning from long tailed datasets is a recurring theme, especially for natural image datasets. While existing solutions mostly appeal to sampling or weighting adjustments to alleviate the pathological imbalance, or imposing inductive bias to prioritize non-spurious associations, we take novel perspectives to promote sample efficiency and model generalization based on the invariance principles of causality. Our proposal posits a meta-distributional scenario, where the data generating mechanism is invariant across the label-conditional feature distributions. Such causal assumption enables efficient knowledge transfer from the dominant classes to their under-represented counterparts, even if the respective feature distributions show apparent disparities. This allows us to leverage a causal data inflation procedure to enlarge the representation of minority classes. Our development is orthogonal to the existing extreme classification techniques thus can be seamlessly integrated. The utility of our proposal is validated with an extensive set of synthetic and real-world computer vision tasks against SOTA solutions.
翻訳日:2022-09-21 02:45:30 公開日:2021-11-19
# (参考訳) ファジィ分析階層プロセスを用いた契約者選択のためのフィードバック統合型マルチクリトリアグループ意思決定支援モデル

A Feedback Integrated Web-Based Multi-Criteria Group Decision Support Model for Contractor Selection using Fuzzy Analytic Hierarchy Process ( http://arxiv.org/abs/2112.00797v1 )

ライセンス: CC BY 4.0
Abimbola Helen Afolayan, Bolanle Adefowoke Ojokoh, and Adebayo Adetunmbi(参考訳) 本稿では,請負業者選択のためのフィードバック統合型マルチクリトリアグループ意思決定支援モデルを提案する。

In this paper, a feedback integrated multi-criteria group decision support model for contractor selection was proposed.
翻訳日:2021-12-06 02:55:39 公開日:2021-11-19
# クラウドソーシングのためのWorker-Task特化モデル:効率的な推論と基本限界

A Worker-Task Specialization Model for Crowdsourcing: Efficient Inference and Fundamental Limits ( http://arxiv.org/abs/2111.12550v1 )

ライセンス: Link先を確認
Doyeon Kim, Jeonghwan Lee and Hye Won Chung(参考訳) クラウドソーシングシステムは、専門家でない労働者を用いて比較的低コストでデータをラベル付けする効果的なプラットフォームとして登場した。 しかし,データに対する複数のノイズの多い回答から正しいラベルを推測することは課題であり,回答の質はタスクや作業者によって大きく異なる。 従来の作業の多くは、作業の信頼性の観点から労働者の順序を定め、異なる重みで回答を集約するために労働者の信頼度を推定する単純なモデルを想定していた。 我々は,与えられたタスクのタイプに応じて各ワーカーの信頼性が変化し,タスク数で$d$の型がスケールできる,極めて一般的な$d$-type worker-task特殊化モデルを提案する。 本モデルでは,任意の回復精度でラベルを正確に推測する最適なサンプル複雑性を特徴付け,オーダーワイド最適境界を達成する推論アルゴリズムを提案する。 我々は、合成データセットと実世界のデータセットの両方で実験を行い、厳密なモデル仮定に基づく既存のアルゴリズムよりも優れていることを示す。

Crowdsourcing system has emerged as an effective platform to label data with relatively low cost by using non-expert workers. However, inferring correct labels from multiple noisy answers on data has been a challenging problem, since the quality of answers varies widely across tasks and workers. Many previous works have assumed a simple model where the order of workers in terms of their reliabilities is fixed across tasks, and focused on estimating the worker reliabilities to aggregate answers with different weights. We propose a highly general $d$-type worker-task specialization model in which the reliability of each worker can change depending on the type of a given task, where the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer labels with any given recovery accuracy, and propose an inference algorithm achieving the order-wise optimal bound. We conduct experiments both on synthetic and real-world datasets, and show that our algorithm outperforms the existing algorithms developed based on strict model assumptions.
翻訳日:2021-11-28 18:13:09 公開日:2021-11-19
# (参考訳) 有限状態マルコフ鎖の準定常分布の学習

Learn Quasi-stationary Distributions of Finite State Markov Chain ( http://arxiv.org/abs/2111.11213v1 )

ライセンス: CC BY 4.0
Zhiqiang Cai and Ling Lin and Xiang Zhou(参考訳) 準定常分布の表現を計算するための強化学習(RL)手法を提案する。 準定常分布の固定点定式化に基づき、候補分布と真の対象分布によって引き起こされる2つのマルコフ経路分布のkl分布を最小化する。 この難解な最小化問題を勾配降下によって解くために,対応する報酬と価値関数を導入することで強化学習手法を適用する。 対応するポリシー勾配定理を導出し、最適な解と値関数を学ぶためにアクター-クリティックアルゴリズムを設計する。 有限状態マルコフ連鎖の数値例は、新しい方法を実証するために試験される

We propose a reinforcement learning (RL) approach to compute the expression of quasi-stationary distribution. Based on the fixed-point formulation of quasi-stationary distribution, we minimize the KL-divergence of two Markovian path distributions induced by the candidate distribution and the true target distribution. To solve this challenging minimization problem by gradient descent, we apply the reinforcement learning technique by introducing the corresponding reward and value functions. We derive the corresponding policy gradient theorem and design an actor-critic algorithm to learn the optimal solution and value function. The numerical examples of finite state Markov chain are tested to demonstrate the new methods
翻訳日:2021-11-26 11:03:43 公開日:2021-11-19
# (参考訳) 尿中微視画像データセット

Urine Microscopic Image Dataset ( http://arxiv.org/abs/2111.10374v1 )

ライセンス: CC BY 4.0
Dipam Goswami, Hari Om Aggrawal, Rajiv Gupta, Vinti Agarwal(参考訳) 尿路透析は尿路系の問題を検出する標準的な診断法である。 尿素分解の自動化は、全体の診断時間を短縮する。 最近の研究では、尿細胞を分類し検出する深層学習に基づくアルゴリズムを設計するために尿の微視的データセットを用いた。 しかし、これらのデータセットはさらなる研究のためには公開されていない。 尿ダットセットの必要性を軽減するため,約3700の細胞アノテーションとRBC,pus,上皮細胞の3つのカテゴリからなる尿沈着顕微鏡画像(UMID)データセットを作成した。 データセットとアノテーションの作成に関わるいくつかの課題について論じる。 データセットを公開しています。

Urinalysis is a standard diagnostic test to detect urinary system related problems. The automation of urinalysis will reduce the overall diagnostic time. Recent studies used urine microscopic datasets for designing deep learning based algorithms to classify and detect urine cells. But these datasets are not publicly available for further research. To alleviate the need for urine datsets, we prepare our urine sediment microscopic image (UMID) dataset comprising of around 3700 cell annotations and 3 categories of cells namely RBC, pus and epithelial cells. We discuss the several challenges involved in preparing the dataset and the annotations. We make the dataset publicly available.
翻訳日:2021-11-26 10:44:19 公開日:2021-11-19
# (参考訳) アルゴリトモス・パラ・ガナデリアの精度に関する比較研究

Compresion y analisis de imagenes por medio de algoritmos para la ganaderia de precision ( http://arxiv.org/abs/2111.11854v1 )

ライセンス: CC BY 4.0
David Agudelo Tapias, Simon Marin Giraldo y Mauricio Toro Bermudez(参考訳) このデータ構造とアルゴリズムのプロジェクトにおいて、私たちが解決したい問題は、それらの動物に有するいくつかの画像を解読することであり、より具体的にはウシ動物である。つまり、動物が健康であるかどうかを識別する必要がある。 これらすべてを圧縮のアルゴリズムで処理することで、画像を取得してコード内のこれらを検査することが可能になる。結果が100%正確であるとは限らないが、このコードが効率的であることは、機械学習が有効であることであり、より多くの情報が得られればなるほど、結果が一般的な愛情を伴わずに正確になることを意味する。 提案アルゴリズムはNNと双線形補間であり,実行速度において有意な結果が得られた。 より良い仕事はできたかもしれないと結論づけるが、納品されたことで、それはその仕事のよい結果であると信じられている。

The problem that we want to solve in this project of the subject of Data Structures and Algorithms, is to decipher some images, which have in them animals, being more specific, bovine animals; in which it is necessary to identify if the animal is healthy, that is to say, if it is in good conditions to be taken into account in the process of selection of the cattle, or if it is sick, to know if it is discarded. All this by means of an algorithm of compression, which allows to take the images and to take them to an examination of these in the code, where not always the results are going to be one hundred percent exact, but what allows this code to be efficient, is that it works with machine learning, which means that the more information it takes, the more precise the results are going to be without bringing with it general affectations. The proposed algorithms are NN and bilinear interpolation, where significant results were obtained on the execution speed. It is concluded that a better job could have been done, but with what was delivered, it is believed that it is a good result of the work.
翻訳日:2021-11-26 10:39:05 公開日:2021-11-19
# (参考訳) スマートヘルスケアのためのIoMTフレームワークを用いた新しい脳波統合失調症検出

Novel EEG based Schizophrenia Detection with IoMT Framework for Smart Healthcare ( http://arxiv.org/abs/2111.11298v1 )

ライセンス: CC BY 4.0
Geetanjali Sharma, Amit M. Joshi(参考訳) 神経科学の分野では、脳活動分析は常に重要な領域とみなされている。 統合失調症(Sz)は、世界中の人々の思考、行動、感情に深刻な影響を与える脳障害である。 脳波検査(EEG)はSz検出に有効なバイオマーカーであることが証明された。 EEGは非線形時系列信号であり、その非線形構造のために調査に利用することがかなり重要である。 本稿では,深層学習を用いた脳波を用いたSz検出の性能向上を目的とする。 畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)を組み合わせた,SzHNN(Schizophrenia Hybrid Neural Network)と呼ばれる新しいハイブリッドディープラーニングモデルが提案されている。 CNNネットワークは局所的特徴抽出に使われ、LSTMは分類に使われている。 提案モデルは,CNNのみ,LSTMのみ,機械学習に基づくモデルと比較されている。 すべてのモデルが2つの異なるデータセットで評価され、Dataset 1は19の被験者で構成され、Dataset 2は16の被験者で構成されている。 異なる周波数帯の様々なパラメトリック設定と、頭皮上の異なる電極セットを用いて、同様の実験が行われている。 すべての実験から,提案するハイブリッドモデル (szhnn) が,他の既存モデルと比較して99.9%の精度を持つことが明らかになった。 提案手法は, 周波数帯域の違いによる影響を克服し, 5電極のみを用いて91%の精度を示した。 提案モデルは、スマートヘルスケアおよび遠隔監視アプリケーションのためのInternet of Medical Things (IoMT)フレームワークでも評価されている。

In the field of neuroscience, Brain activity analysis is always considered as an important area. Schizophrenia(Sz) is a brain disorder that severely affects the thinking, behaviour, and feelings of people all around the world. Electroencephalography (EEG) is proved to be an efficient biomarker in Sz detection. EEG is a non-linear time-seriesi signal and utilizing it for investigation is rather crucial due to its non-linear structure. This paper aims to improve the performance of EEG based Sz detection using a deep learning approach. A novel hybrid deep learning model known as SzHNN (Schizophrenia Hybrid Neural Network), a combination of Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) has been proposed. CNN network is used for local feature extraction and LSTM has been utilized for classification. The proposed model has been compared with CNN only, LSTM only, and machine learning-based models. All the models have been evaluated on two different datasets wherein Dataset 1 consists of 19 subjects and Dataset 2 consists of 16 subjects. Several experiments have been conducted for the same using various parametric settings on different frequency bands and using different sets of electrodes on the scalp. Based on all the experiments, it is evident that the proposed hybrid model (SzHNN) provides the highest classification accuracy of 99.9% in comparison to other existing models. The proposed model overcomes the influence of different frequency bands and even showed a much better accuracy of 91% with only 5 electrodes. The proposed model is also evaluated on the Internet of Medical Things (IoMT) framework for smart healthcare and remote monitoring applications.
翻訳日:2021-11-26 10:11:12 公開日:2021-11-19
# (参考訳) ComMA Dataset V0.2:多言語ソーシャルメディア談話におけるアグレッションとバイアスの注釈

The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual Social Media Discourse ( http://arxiv.org/abs/2111.10390v1 )

ライセンス: CC BY-SA 4.0
Ritesh Kumar and Enakshi Nandi and Laishram Niranjana Devi and Shyam Ratan and Siddharth Singh and Akash Bhagat and Yogesh Dawer(参考訳) 本稿では,異なるタイプの攻撃をマークした階層的,きめ細かいタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。 ここでのコンテキストは、特定のコメントが発生する会話スレッドと、前回のコメントに関してコメントが実行している不正確な役割の"タイプ"によって定義されます。 最初のデータセットはここで議論され(comma@iconの共有タスクの一部として利用可能)、youtube、facebook、twitter、telegramなどのソーシャルメディアプラットフォームから収集された、meitei、bangla、ヒンディー語、インド英語の4つの言語で合計15,000の注釈付きコメントで構成されている。 ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。 本稿では,アノテーションに使用されているタグセットの詳細な説明と,性別バイアス,宗教的不寛容(タグセットにおけるコミュニカルバイアスと呼ばれる),クラス/キャストバイアス,民族/人種バイアスなど,さまざまな種類の攻撃的・偏見を伴うコメントのマーク付けに使用できるマルチラベルの細粒度タグセットの開発プロセスについて述べる。 また,アタックやディフェンスなど,コメントを通じて実行されている不正な役割をマーキングするために使用されたタグを定義し,議論する。 また,提案したデータセットを用いた自動攻撃識別システムを開発するためのベースライン実験の結果とともに,データセットの統計的解析を行った。

In this paper, we discuss the development of a multilingual dataset annotated with a hierarchical, fine-grained tagset marking different types of aggression and the "context" in which they occur. The context, here, is defined by the conversational thread in which a specific comment occurs and also the "type" of discursive role that the comment is performing with respect to the previous comment. The initial dataset, being discussed here (and made available as part of the ComMA@ICON shared task), consists of a total 15,000 annotated comments in four languages - Meitei, Bangla, Hindi, and Indian English - collected from various social media platforms such as YouTube, Facebook, Twitter and Telegram. As is usual on social media websites, a large number of these comments are multilingual, mostly code-mixed with English. The paper gives a detailed description of the tagset being used for annotation and also the process of developing a multi-label, fine-grained tagset that can be used for marking comments with aggression and bias of various kinds including gender bias, religious intolerance (called communal bias in the tagset), class/caste bias and ethnic/racial bias. We also define and discuss the tags that have been used for marking different the discursive role being performed through the comments, such as attack, defend, etc. We also present a statistical analysis of the dataset as well as results of our baseline experiments with developing an automatic aggression identification system using the dataset developed.
翻訳日:2021-11-26 08:37:30 公開日:2021-11-19
# (参考訳) AIのためのデータ卓越性:なぜ注意すべきなのか

Data Excellence for AI: Why Should You Care ( http://arxiv.org/abs/2111.10391v1 )

ライセンス: CC BY 4.0
Lora Aroyo, Matthew Lease, Praveen Paritosh, Mike Schaekermann(参考訳) 機械学習(ML)モデルの有効性はアルゴリズムとデータの両方に依存する。 トレーニングデータは、モデルが学習したいものを定義し、テストデータは、経験的な進歩を測定する手段を提供します。 ベンチマークデータセットは、モデルの存在と運用に関する世界全体を定義しますが、研究は、私たちのモデルが運用するデータの評価と改善よりも、モデルのアルゴリズム的な側面の批判と改善にフォーカスし続けています。 もし「データが新しい石油」なら、データ自体をより効果的に利用するために最適化できる製油所の作業が不足しています。

The efficacy of machine learning (ML) models depends on both algorithms and data. Training data defines what we want our models to learn, and testing data provides the means by which their empirical progress is measured. Benchmark datasets define the entire world within which models exist and operate, yet research continues to focus on critiquing and improving the algorithmic aspect of the models rather than critiquing and improving the data with which our models operate. If "data is the new oil," we are still missing work on the refineries by which the data itself could be optimized for more effective use.
翻訳日:2021-11-26 08:03:46 公開日:2021-11-19
# (参考訳) 学習ベースの3d登録が現実世界で動くのをやめる理由

What Stops Learning-based 3D Registration from Working in the Real World? ( http://arxiv.org/abs/2111.10399v1 )

ライセンス: CC BY 4.0
Zheng Dang, Lizhou Wang, Junning Qiu, Minglei Lu, Mathieu Salzmann(参考訳) 学習ベースの3dポイントクラウド登録のタスクには多くの進歩があり、既存の手法はmodelnet40のような標準ベンチマークにおいて、部分的から部分的なマッチングシナリオにおいても優れた結果をもたらしている。 残念ながら、これらの方法はまだ実際のデータの存在に苦戦している。 本研究では,これらの失敗の原因を特定し,その背後にある理由を分析し,対処するための解決策を提案する。 本研究の成果を一連のガイドラインに要約し, DCP と IDAM の異なる基準法に適用することにより, それらの効果を実証する。 要するに、我々のガイドラインはトレーニングの収束とテストの精度の両方を改善している。 最終的に、これは最高の実践的な3d登録ネットワーク(bpnet)に変換され、実世界データで未認識のオブジェクトを処理できる最初の学習ベースの方法を構成する。 合成データのみをトレーニングしたものの,微調整を行わずに実データに一般化し,商用センサで取得した未検出物体の点雲上で最大67%の精度に達する。

Much progress has been made on the task of learning-based 3D point cloud registration, with existing methods yielding outstanding results on standard benchmarks, such as ModelNet40, even in the partial-to-partial matching scenario. Unfortunately, these methods still struggle in the presence of real data. In this work, we identify the sources of these failures, analyze the reasons behind them, and propose solutions to tackle them. We summarise our findings into a set of guidelines and demonstrate their effectiveness by applying them to different baseline methods, DCP and IDAM. In short, our guidelines improve both their training convergence and testing accuracy. Ultimately, this translates to a best-practice 3D registration network (BPNet), constituting the first learning-based method able to handle previously-unseen objects in real-world data. Despite being trained only on synthetic data, our model generalizes to real data without any fine-tuning, reaching an accuracy of up to 67% on point clouds of unseen objects obtained with a commercial sensor.
翻訳日:2021-11-26 07:58:29 公開日:2021-11-19
# (参考訳) 機械換気制御のための機械学習(拡張抽象)

Machine Learning for Mechanical Ventilation Control (Extended Abstract) ( http://arxiv.org/abs/2111.10434v1 )

ライセンス: CC BY 4.0
Daniel Suo, Cyril Zhang, Paula Gradu, Udaya Ghai, Xinyi Chen, Edgar Minasyan, Naman Agarwal, Karan Singh, Julienne LaChance, Tom Zajdel, Manuel Schottdorf, Daniel Cohen, Elad Hazan(参考訳) 機械的換気はICUで最も広く用いられている治療法の1つである。 しかし、麻酔から新型コロナウイルス関連の生命維持への幅広い応用にもかかわらず、多くの有害な課題が残っている。 人工呼吸器は、所定の気道圧の軌跡に従って、患者の肺内および肺外への空気を通さなければならない。 PID法に基づく業界標準コントローラは最適でも堅牢でもない。 データ駆動型アプローチは、人工呼吸器から収集したデータに基づいて訓練されたシミュレーターをトレーニングすることで、侵襲的人工呼吸器を制御することを学ぶ。 この方法は、一般的な強化学習アルゴリズムより優れており、PIDよりも正確で堅牢な物理的換気装置も制御できる。 これらの結果は、データ駆動の方法論が侵襲的換気にいかに有効かを強調し、より一般的な換気形態(例えば、非侵襲的、適応的)も実現可能であることを示唆している。

Mechanical ventilation is one of the most widely used therapies in the ICU. However, despite broad application from anaesthesia to COVID-related life support, many injurious challenges remain. We frame these as a control problem: ventilators must let air in and out of the patient's lungs according to a prescribed trajectory of airway pressure. Industry-standard controllers, based on the PID method, are neither optimal nor robust. Our data-driven approach learns to control an invasive ventilator by training on a simulator itself trained on data collected from the ventilator. This method outperforms popular reinforcement learning algorithms and even controls the physical ventilator more accurately and robustly than PID. These results underscore how effective data-driven methodologies can be for invasive ventilation and suggest that more general forms of ventilation (e.g., non-invasive, adaptive) may also be amenable.
翻訳日:2021-11-26 07:44:50 公開日:2021-11-19
# (参考訳) 肺線維症評価のための気道形状自動定量法の検討

Evaluation of automated airway morphological quantification for assessing fibrosing lung disease ( http://arxiv.org/abs/2111.10443v1 )

ライセンス: CC BY 4.0
Ashkan Pakzad, Wing Keung Cheung, Kin Quan, Nesrin Mogulkoc, Coline H.M. Van Moorsel, Brian J. Bartholmai, Hendrik W. Van Es, Alper Ezircan, Frouke Van Beek, Marcel Veltkamp, Ronald Karwoski, Tobias Peikert, Ryan D. Clay, Finbar Foley, Cassandra Braun, Recep Savas, Carole Sudre, Tom Doel, Daniel C. Alexander, Peter Wijeratne, David Hawkes, Yipeng Hu, John R Hurst, Joseph Jacob(参考訳) 気道拡張異常は気道拡張と呼ばれ、特発性肺線維症(ipf)の典型的な特徴である。 volumetric ct (ct)イメージングは、ipfの正常な気道テーパリングの損失をキャプチャする。 気道異常の自動定量化はipf疾患の程度と重症度を推定できると仮定した。 胸部CTから気道構造を導出する深層学習に基づく気道セグメンテーションから気道木をその葉と世代枝に体系的に解析する自動計算パイプラインであるAirQuantを提案する。 重要なことは、AirQuantは、厚い波動伝播による突発性気道分岐の発生を防ぎ、既存の気道骨格化アルゴリズムの限界を克服するグラフ探索によって気道木のループを除去する。 気道セグメント間をテーパリングし,気道tortuosityを算出し,健常者14名とipf患者14名とを比較した。 気道インターテーパはIPF患者では有意に減少し,健常者では気道トーチシティが有意に増加した。 また,IPF関連損傷の典型的分布に応じて,下葉に有意差が認められた。 AirQuantは、既存の気道定量化アルゴリズムの制限を回避し、臨床解釈性を持つオープンソースのパイプラインである。 自動気道測定は、IPFの重症度と病気の程度をイメージングする新しいバイオマーカーとして潜在する可能性がある。

Abnormal airway dilatation, termed traction bronchiectasis, is a typical feature of idiopathic pulmonary fibrosis (IPF). Volumetric computed tomography (CT) imaging captures the loss of normal airway tapering in IPF. We postulated that automated quantification of airway abnormalities could provide estimates of IPF disease extent and severity. We propose AirQuant, an automated computational pipeline that systematically parcellates the airway tree into its lobes and generational branches from a deep learning based airway segmentation, deriving airway structural measures from chest CT. Importantly, AirQuant prevents the occurrence of spurious airway branches by thick wave propagation and removes loops in the airway-tree by graph search, overcoming limitations of existing airway skeletonisation algorithms. Tapering between airway segments (intertapering) and airway tortuosity computed by AirQuant were compared between 14 healthy participants and 14 IPF patients. Airway intertapering was significantly reduced in IPF patients, and airway tortuosity was significantly increased when compared to healthy controls. Differences were most marked in the lower lobes, conforming to the typical distribution of IPF-related damage. AirQuant is an open-source pipeline that avoids limitations of existing airway quantification algorithms and has clinical interpretability. Automated airway measurements may have potential as novel imaging biomarkers of IPF severity and disease extent.
翻訳日:2021-11-26 07:38:58 公開日:2021-11-19
# (参考訳) グラフトランスフォーマネットワークによる動的グラフ表現学習

Dynamic Graph Representation Learning via Graph Transformer Networks ( http://arxiv.org/abs/2111.10447v1 )

ライセンス: CC BY 4.0
Weilin Cong, Yanhong Wu, Yuandong Tian, Mengting Gu, Yinglong Xia, Mehrdad Mahdavi, Chun-cheng Jason Chen(参考訳) 動的グラフ表現学習は幅広い応用において重要な課題である。 動的グラフ学習における従来の手法は、通常、欠落や急激な接続のようなノイズの多いグラフ情報に敏感であり、劣化した性能と一般化をもたらす。 この課題を克服するために,空間時空間符号化を用いた動的グラフ学習法であるdynamic graph transformer (dgt)を提案し,グラフトポロジーを効果的に学習し,暗黙リンクをキャプチャする。 一般化能力を向上させるために,2つの補完的自己指導型事前学習タスクを導入し,2つの事前学習タスクを共同最適化することで,情報理論解析によりベイズ誤差率を小さくすることを示す。 また,効率的かつスケーラブルな学習のための時間結合グラフ構造とターゲットコンテキストノードサンプリング戦略を提案する。 実世界のデータセットに関する広範な実験は、dgtがいくつかの最先端のベースラインよりも優れたパフォーマンスを示している。

Dynamic graph representation learning is an important task with widespread applications. Previous methods on dynamic graph learning are usually sensitive to noisy graph information such as missing or spurious connections, which can yield degenerated performance and generalization. To overcome this challenge, we propose a Transformer-based dynamic graph learning method named Dynamic Graph Transformer (DGT) with spatial-temporal encoding to effectively learn graph topology and capture implicit links. To improve the generalization ability, we introduce two complementary self-supervised pre-training tasks and show that jointly optimizing the two pre-training tasks results in a smaller Bayesian error rate via an information-theoretic analysis. We also propose a temporal-union graph structure and a target-context node sampling strategy for efficient and scalable training. Extensive experiments on real-world datasets illustrate that DGT presents superior performance compared with several state-of-the-art baselines.
翻訳日:2021-11-26 07:13:39 公開日:2021-11-19
# (参考訳) スマートシティとコネクテッドシティにおけるWi-Fiユーザ数からの非負行列因子化による人口動態の同定

Identifying Population Movements with Non-Negative Matrix Factorization from Wi-Fi User Counts in Smart and Connected Cities ( http://arxiv.org/abs/2111.10459v1 )

ライセンス: CC BY 4.0
Michael Huffman, Armen Davis, Joshua Park, James Curry(参考訳) 非負行列分解(Non-Negative Matrix Factorization、NMF)は、データセットの「部分ベース」分解を生成する貴重な行列分解手法である。 Wi-Fi利用者数は、スマートで接続された都市環境における人口移動のプライバシー保護指標である。 本稿では,コロラド大学ボルダー校のWi-Fiユーザ数データに新たなマトリックスを組み込んだNMFを適用し,スマート・コネクテッドインフラストラクチャ環境における人間の動きのパターンを自動的に識別する。

Non-Negative Matrix Factorization (NMF) is a valuable matrix factorization technique which produces a "parts-based" decomposition of data sets. Wi-Fi user counts are a privacy-preserving indicator of population movements in smart and connected urban environments. In this paper, we apply NMF with a novel matrix embedding to Wi-Fi user count data from the University of Colorado at Boulder Campus for the purpose of automatically identifying patterns of human movement in a Smart and Connected infrastructure environment.
翻訳日:2021-11-26 06:41:24 公開日:2021-11-19
# (参考訳) Mini-batch Stochastic Gradient Descent を用いたガウス過程推定:収束保証と経験的便益

Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent: Convergence Guarantees and Empirical Benefits ( http://arxiv.org/abs/2111.10461v1 )

ライセンス: CC BY 4.0
Hao Chen, Lili Zheng, Raed Al Kontar, Garvesh Raskutti(参考訳) 確率勾配勾配(SGD)とその変種は、その一般化性能と本質的な計算優位性から、独立サンプルを用いた大規模機械学習問題に対するゴートアルゴリズムとして確立されている。 しかし、確率勾配が相関サンプルによる全勾配の偏り推定であるという事実は、SGDの相関条件下での挙動に関する理論的理解の欠如を招き、そのような場合の使用を妨げている。 本稿では,ガウス過程(gp)のハイパーパラメータ推定に着目し,ミニバッチsgdが全ログ類似損失関数の臨界点に収束することを証明することにより,障壁を破る方向に一歩前進させ,モデルハイパーパラメータを小バッチサイズに依存する統計誤差項まで,レート$o(\frac{1}{k})$で回収する。 我々の理論的な保証は、gpsで一般的に使われる幅広いカーネルによって満たされる指数関数あるいは多項式固有値を示すことを前提としている。 シミュレーションと実データの両方に関する数値的研究により、最小バッチSGDは、最先端のGP手法よりもより一般化され、計算負担を低減し、GPのための新しい、未探索のデータサイズレギュレーションを開放することを示した。

Stochastic gradient descent (SGD) and its variants have established themselves as the go-to algorithms for large-scale machine learning problems with independent samples due to their generalization performance and intrinsic computational advantage. However, the fact that the stochastic gradient is a biased estimator of the full gradient with correlated samples has led to the lack of theoretical understanding of how SGD behaves under correlated settings and hindered its use in such cases. In this paper, we focus on hyperparameter estimation for the Gaussian process (GP) and take a step forward towards breaking the barrier by proving minibatch SGD converges to a critical point of the full log-likelihood loss function, and recovers model hyperparameters with rate $O(\frac{1}{K})$ for $K$ iterations, up to a statistical error term depending on the minibatch size. Our theoretical guarantees hold provided that the kernel functions exhibit exponential or polynomial eigendecay which is satisfied by a wide range of kernels commonly used in GPs. Numerical studies on both simulated and real datasets demonstrate that minibatch SGD has better generalization over state-of-the-art GP methods while reducing the computational burden and opening a new, previously unexplored, data size regime for GPs.
翻訳日:2021-11-26 06:29:26 公開日:2021-11-19
# (参考訳) アレル周波数でフィルタされたSNPは高血圧サブタイプの予測を改善する

SNPs Filtered by Allele Frequency Improve the Prediction of Hypertension Subtypes ( http://arxiv.org/abs/2111.10471v1 )

ライセンス: CC BY 4.0
Yiming Li, Sanjiv J. Shah, Donna Arnett, Ryan Irvin and Yuan Luo(参考訳) 高血圧は心血管疾患と早死の主要な原因である。 異なる高血圧のサブタイプは、予後が異なり、異なる治療を必要とする。 高血圧に対する個人のリスクは、遺伝的および環境的要因と相互作用によって決定される。 本研究では,高血圧性遺伝疫学ネットワーク(hypergen)コホートにおいて,アフリカ系アメリカ人911名とヨーロッパ人1,171名を調査した。 異なる基準に基づいて選択された遺伝的特徴群と環境変数を用いた高血圧サブタイプ分類モデルを構築した。 適合した予測モデルは、将来高血圧のパーソナライズされた診断と治療に役立つ高血圧のサブタイプの遺伝的ランドスケープに関する洞察を提供した。

Hypertension is the leading global cause of cardiovascular disease and premature death. Distinct hypertension subtypes may vary in their prognoses and require different treatments. An individual's risk for hypertension is determined by genetic and environmental factors as well as their interactions. In this work, we studied 911 African Americans and 1,171 European Americans in the Hypertension Genetic Epidemiology Network (HyperGEN) cohort. We built hypertension subtype classification models using both environmental variables and sets of genetic features selected based on different criteria. The fitted prediction models provided insights into the genetic landscape of hypertension subtypes, which may aid personalized diagnosis and treatment of hypertension in the future.
翻訳日:2021-11-26 06:27:58 公開日:2021-11-19
# (参考訳) 視覚変換器を用いた対向パッチに対するゼロショット認証防御

Zero-Shot Certified Defense against Adversarial Patches with Vision Transformers ( http://arxiv.org/abs/2111.10481v1 )

ライセンス: CC BY 4.0
Yuheng Huang, Yuanchun Li(参考訳) 逆パッチ攻撃は、入力画像の制限領域内の画素を任意に修正することで、機械学習モデルを騙すことを目的としている。 このような攻撃は物理的な世界で展開されるモデルにとって大きな脅威であり、カメラビューにカスタマイズされたオブジェクトを表示することで容易に実現できる。 このような攻撃に対する防御はパッチの任意性のために困難であり、既存の証明可能な防御は認証の精度が低い。 本稿では、視覚変換器(ViT)モデルに基づく敵パッチに対するゼロショット認証防御であるPatchVetoを提案する。 PatchVetoは、必然的に精度を犠牲にする可能性のある敵のパッチに抵抗する堅牢なモデルをトレーニングする代わりに、事前訓練されたViTモデルを追加のトレーニングなしで再利用する。 具体的には、各入力は、異なる注意マスクを持つ複数の推論に対して投票することでテストされる。 この予測は、すべてのマスクされた推論が合意に達すると証明可能で、敵のパッチが偽陰性で検出されることを保証する。 広範な実験により、patchvetoは高い認証精度を達成できることが示されている(例えば、imagenetでは2%の対向パッチに対して67.1%)。 クリーンな精度は、モデルパラメータが直接再利用されるため、vanilla vitモデル(imagenetでは81.8%)と同じである。 一方,本手法はマスキング戦略を変更すれば,異なる対向パッチサイズを柔軟に処理できる。

Adversarial patch attack aims to fool a machine learning model by arbitrarily modifying pixels within a restricted region of an input image. Such attacks are a major threat to models deployed in the physical world, as they can be easily realized by presenting a customized object in the camera view. Defending against such attacks is challenging due to the arbitrariness of patches, and existing provable defenses suffer from poor certified accuracy. In this paper, we propose PatchVeto, a zero-shot certified defense against adversarial patches based on Vision Transformer (ViT) models. Rather than training a robust model to resist adversarial patches which may inevitably sacrifice accuracy, PatchVeto reuses a pretrained ViT model without any additional training, which can achieve high accuracy on clean inputs while detecting adversarial patched inputs by simply manipulating the attention map of ViT. Specifically, each input is tested by voting over multiple inferences with different attention masks, where at least one inference is guaranteed to exclude the adversarial patch. The prediction is certifiably robust if all masked inferences reach consensus, which ensures that any adversarial patch would be detected with no false negative. Extensive experiments have shown that PatchVeto is able to achieve high certified accuracy (e.g. 67.1% on ImageNet for 2%-pixel adversarial patches), significantly outperforming state-of-the-art methods. The clean accuracy is the same as vanilla ViT models (81.8% on ImageNet) since the model parameters are directly reused. Meanwhile, our method can flexibly handle different adversarial patch sizes by simply changing the masking strategy.
翻訳日:2021-11-26 06:14:59 公開日:2021-11-19
# 回帰器分布制御を用いたWasserstein-based Fairness Metricsのモデル非依存バイアス緩和法

Model-agnostic bias mitigation methods with regressor distribution control for Wasserstein-based fairness metrics ( http://arxiv.org/abs/2111.11259v1 )

ライセンス: Link先を確認
Alexey Miroshnikov, Konstandinos Kotsiopoulos, Ryan Franks, Arjun Ravi Kannan(参考訳) この記事では、偏見説明を導入するフェアネス解釈可能性に関する初期の論文であるMiroshnikov et al. (2021)の共著である。 本稿では,Wassersteinをベースとしたフェアネス測定値に対して,より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。 バイアスに最も寄与する予測者のリストを同定することにより、これらの予測者に由来するバイアスを軽減し、問題の次元性を低減する。 後処理手法では、正と負のバイアス説明のバランスをとることによって予測分布を再構成し、回帰のバイアスを減少させる。 最適なモデルが選択される後処理モデル群に対するバイアス効率の優れたフロンティアを構築するためにベイズ最適化を用いたアルゴリズムを設計する。 提案手法は,低次元空間において最適化を行い,高価なモデル再訓練を回避する。

This article is a companion paper to our earlier work Miroshnikov et al. (2021) on fairness interpretability, which introduces bias explanations. In the current work, we propose a bias mitigation methodology based upon the construction of post-processed models with fairer regressor distributions for Wasserstein-based fairness metrics. By identifying the list of predictors contributing the most to the bias, we reduce the dimensionality of the problem by mitigating the bias originating from those predictors. The post-processing methodology involves reshaping the predictor distributions by balancing the positive and negative bias explanations and allows for the regressor bias to decrease. We design an algorithm that uses Bayesian optimization to construct the bias-performance efficient frontier over the family of post-processed models, from which an optimal model is selected. Our novel methodology performs optimization in low-dimensional spaces and avoids expensive model retraining.
翻訳日:2021-11-23 17:18:11 公開日:2021-11-19
# 勾配重要度に基づくフェデレート学習におけるクライアント選択

Client Selection in Federated Learning based on Gradients Importance ( http://arxiv.org/abs/2111.11204v1 )

ライセンス: Link先を確認
Ouiame Marnissi, Hajar El Hammouti, El Houcine Bergou(参考訳) フェデレートラーニング(FL)は、複数のデバイスが個人データを共有せずにグローバルモデルを協調的に学習することを可能にする。 現実世界のアプリケーションでは、異なるパーティは異種データ分散と限られた通信帯域を持つ可能性が高い。 本稿では,FLシステムの通信効率の向上に関心がある。 グラデーションノルムの重要度に基づくデバイス選択戦略の検討と設計を行う。 特に,本手法は,各通信ラウンドにおける勾配値の基準が最も高いデバイスを選択することで構成される。 このような選択手法の収束と性能について検討し,既存の手法と比較する。 非iid設定でいくつかの実験を行う。 その結果,提案手法の収束度は,ランダム選択と比較してテスト精度がかなり高いことがわかった。

Federated learning (FL) enables multiple devices to collaboratively learn a global model without sharing their personal data. In real-world applications, the different parties are likely to have heterogeneous data distribution and limited communication bandwidth. In this paper, we are interested in improving the communication efficiency of FL systems. We investigate and design a device selection strategy based on the importance of the gradient norms. In particular, our approach consists of selecting devices with the highest norms of gradient values at each communication round. We study the convergence and the performance of such a selection technique and compare it to existing ones. We perform several experiments with non-iid set-up. The results show the convergence of our method with a considerable increase of test accuracy comparing to the random selection.
翻訳日:2021-11-23 16:54:23 公開日:2021-11-19
# 血管流れの時間的超解像シミュレーションのための抵抗時間共変調ポイントネット

Resistance-Time Co-Modulated PointNet for Temporal Super-Resolution Simulation of Blood Vessel Flows ( http://arxiv.org/abs/2111.10372v1 )

ライセンス: Link先を確認
Zhizheng Jiang, Fei Gao, Renshu Gu, Jinlan Xu, Gang Xu, Timon Rabczuk(参考訳) 本稿では,低時間分解能流シミュレーション結果から高時間分解能時間変化型血管血流シミュレーションを発生させる,時相超解像シミュレーションのための新しいディープラーニングフレームワークを提案する。 本フレームワークでは, 複雑な血管モデルを表現するためにポイントクラウドを用い, 時間変動流れ場の時間空間特性を抽出するための抵抗時間支援ポイントネットモデルを提案し, 最終的にデコーダモジュールを通して高精度で高分解能な流れ場を再構築する。 特に,速度のベクトル特性から,速度の振幅損失と方向損失を提案する。 これら2つのメトリクスの組み合わせは、ネットワークトレーニングの最終損失関数を構成する。 血管流れの時間的超解像シミュレーションのための枠組みの有効性と効率を示すいくつかの例が提示されている。

In this paper, a novel deep learning framework is proposed for temporal super-resolution simulation of blood vessel flows, in which a high-temporal-resolution time-varying blood vessel flow simulation is generated from a low-temporal-resolution flow simulation result. In our framework, point-cloud is used to represent the complex blood vessel model, resistance-time aided PointNet model is proposed for extracting the time-space features of the time-varying flow field, and finally we can reconstruct the high-accuracy and high-resolution flow field through the Decoder module. In particular, the amplitude loss and the orientation loss of the velocity are proposed from the vector characteristics of the velocity. And the combination of these two metrics constitutes the final loss function for network training. Several examples are given to illustrate the effective and efficiency of the proposed framework for temporal super-resolution simulation of blood vessel flows.
翻訳日:2021-11-23 16:51:32 公開日:2021-11-19
# DIVeR:ボリュームレンダリングのための決定論的統合によるリアルタイムかつ高精度なニューラルラジアンスフィールド

DIVeR: Real-time and Accurate Neural Radiance Fields with Deterministic Integration for Volume Rendering ( http://arxiv.org/abs/2111.10427v1 )

ライセンス: Link先を確認
Liwen Wu, Jae Yong Lee, Anand Bhattad, Yuxiong Wang, David Forsyth(参考訳) diverは、nerfとその変種である密度モデルとボリュームレンダリングの重要なアイデアに基づいて構築され、少数の画像からリアルにレンダリングできる3dオブジェクトモデルを学ぶ。 従来のすべてのNeRF法とは対照的に、DIVeRはボリュームレンダリング積分の確率的推定よりも決定論的を用いる。 DIVeRの表現は、特徴のボクセルベースのフィールドである。 ボリュームレンダリング積分を計算するために、光線をボクセル毎に間隔に分割し、mlpを用いて各区間の特徴からボリュームレンダリング積分の成分を推定し、部品を集約する。 その結果、ダイバーは、他のインテグレータが見逃している薄い半透明な構造をレンダリングできる。 さらに、ダイバーの表現には、他の方法と比較して相対的に露出するセマンティクスがある -- ボクセル空間で特徴ベクトルを動かすと、自然に編集される。 現在の最先端手法との広範囲な質的、定量的比較により、ダイバーは(1)最先端品質以上、(2)焼成せずに非常に小さく、(3)焼成せずに非常に高速に、(4)自然に編集できるモデルを生成することが示された。

DIVeR builds on the key ideas of NeRF and its variants -- density models and volume rendering -- to learn 3D object models that can be rendered realistically from small numbers of images. In contrast to all previous NeRF methods, DIVeR uses deterministic rather than stochastic estimates of the volume rendering integral. DIVeR's representation is a voxel based field of features. To compute the volume rendering integral, a ray is broken into intervals, one per voxel; components of the volume rendering integral are estimated from the features for each interval using an MLP, and the components are aggregated. As a result, DIVeR can render thin translucent structures that are missed by other integrators. Furthermore, DIVeR's representation has semantics that is relatively exposed compared to other such methods -- moving feature vectors around in the voxel space results in natural edits. Extensive qualitative and quantitative comparisons to current state-of-the-art methods show that DIVeR produces models that (1) render at or above state-of-the-art quality, (2) are very small without being baked, (3) render very fast without being baked, and (4) can be edited in natural ways.
翻訳日:2021-11-23 15:22:07 公開日:2021-11-19
# TransMorph: 教師なし医療画像登録用トランスフォーマー

TransMorph: Transformer for unsupervised medical image registration ( http://arxiv.org/abs/2111.10480v1 )

ライセンス: Link先を確認
Junyu Chen, Yong Du, Yufan He, William P. Segars, Ye Li, Eirc C. Frey(参考訳) 過去10年間で、畳み込みニューラルネットワーク(ConvNets)が医療画像分析の分野を支配してきた。 しかし,画像中のボクセル間の長距離空間関係をモデル化できないため,コンブネットの性能は制限される可能性がある。 ConvNetsの欠点に対処するために、多くのビジョントランスフォーマーが最近提案され、多くの医療画像アプリケーションで最先端のパフォーマンスを実証している。 トランスフォーマーは、移動画像と固定画像の空間対応をより正確に理解できるため、画像登録の強力な候補となるかもしれない。 本稿では,ボリューム医療画像登録のためのTransformer-ConvNetハイブリッドモデルTransMorphを提案する。 また、位相保存変形を保証する2つの微分同相変種と、よく校正された登録不確実性推定を生成するベイズ変種という3つの変種も導入する。 提案モデルは, 患者間MRIとファントムCTの2つの応用から, ボリューム医療画像を用いて, 既存の登録方法やトランスフォーマーアーキテクチャに対して広範囲に検証されている。 質的および定量的な結果は、TransMorphとその変種がベースライン法よりも大幅に改善し、医療画像登録におけるTransformerの有効性を示す。

In the last decade, convolutional neural networks (ConvNets) have dominated the field of medical image analysis. However, it is found that the performances of ConvNets may still be limited by their inability to model long-range spatial relations between voxels in an image. Numerous vision Transformers have been proposed recently to address the shortcomings of ConvNets, demonstrating state-of-the-art performances in many medical imaging applications. Transformers may be a strong candidate for image registration because their self-attention mechanism enables a more precise comprehension of the spatial correspondence between moving and fixed images. In this paper, we present TransMorph, a hybrid Transformer-ConvNet model for volumetric medical image registration. We also introduce three variants of TransMorph, with two diffeomorphic variants ensuring the topology-preserving deformations and a Bayesian variant producing a well-calibrated registration uncertainty estimate. The proposed models are extensively validated against a variety of existing registration methods and Transformer architectures using volumetric medical images from two applications: inter-patient brain MRI registration and phantom-to-CT registration. Qualitative and quantitative results demonstrate that TransMorph and its variants lead to a substantial performance improvement over the baseline methods, demonstrating the effectiveness of Transformers for medical image registration.
翻訳日:2021-11-23 15:02:51 公開日:2021-11-19
# スケルトン画像の領域不変特徴を用いた行動認識

Action Recognition with Domain Invariant Features of Skeleton Image ( http://arxiv.org/abs/2111.11250v1 )

ライセンス: Link先を確認
Han Chen and Yifan Jiang and Hanseok Ko(参考訳) 高速な処理速度と堅牢性のため、骨格に基づく行動認識はコンピュータビジョンコミュニティの注目を集めている。 最近の畳み込みニューラルネットワーク(CNN)に基づく手法は,骨格画像をCNNへの入力として使用する骨格配列の時空間表現を学習する際の可換性を示している。 側頭骨と骨格の関節をそれぞれ行と列としてコードするCNN法では,2次元畳み込みにより,すべての関節に関する潜時的相関が失われる可能性がある。 そこで本研究では,行動認識のための対人訓練を用いた新しいCNN手法を提案する。 異なる視野角や対象からそれぞれ骨格画像の特徴を整列する2段階のドメイン対角学習を導入し、一般化をさらに改善する。 提案手法をNTU RGB+Dで評価した。 最先端の手法と比較して競争力のある結果が得られ、クロスサブジェクトとクロスビューのベースラインよりも2.4$\%$, 1.9$\%$精度が向上する。

Due to the fast processing-speed and robustness it can achieve, skeleton-based action recognition has recently received the attention of the computer vision community. The recent Convolutional Neural Network (CNN)-based methods have shown commendable performance in learning spatio-temporal representations for skeleton sequence, which use skeleton image as input to a CNN. Since the CNN-based methods mainly encoding the temporal and skeleton joints simply as rows and columns, respectively, the latent correlation related to all joints may be lost caused by the 2D convolution. To solve this problem, we propose a novel CNN-based method with adversarial training for action recognition. We introduce a two-level domain adversarial learning to align the features of skeleton images from different view angles or subjects, respectively, thus further improve the generalization. We evaluated our proposed method on NTU RGB+D. It achieves competitive results compared with state-of-the-art methods and 2.4$\%$, 1.9$\%$ accuracy gain than the baseline for cross-subject and cross-view.
翻訳日:2021-11-23 15:01:50 公開日:2021-11-19
# 真空蒸留装置用機械学習型ソフトセンサ

Machine Learning-Based Soft Sensors for Vacuum Distillation Unit ( http://arxiv.org/abs/2111.11251v1 )

ライセンス: Link先を確認
Kamil Oster, Stefan G\"uttel, Lu Chen, Jonathan L. Shapiro, Megan Jobson(参考訳) 石油加工業界における製品品質評価は、植物からの液体サンプルの手作業による収集や、その後の化学実験による分析など、困難かつ時間を要する可能性がある。 製品の品質は、プロセスの製品が仕様の範囲内かどうかを知らせる重要な特性である。 特に、サンプル処理(収集、実験室計測、結果分析、報告)による遅延は、有害な経済効果をもたらす可能性がある。 この問題に対処する戦略の1つはソフトセンサーである。 ソフトセンサー(Soft Sensor)は、物理センサーによって提供される温度、圧力、流量などのより頻繁な測定に基づいて、頻繁に測定される性質(石油製品の実験室測定など)を予測・予測するために使用されるモデルの集合である。 ソフトセンサーは、製品の品質に関する関連情報を得るための経路をショートカットし、しばしば毎分同じ頻度で測定する。 ソフトセンサーの応用の1つは、操作パラメータのターゲット適応による化学プロセスのリアルタイム最適化である。 ソフトセンサーに使用されるモデルには様々な形態があるが、最も一般的なものは人工ニューラルネットワーク(anns)に基づくモデルである。 ソフトセンサーは精製プロセスのいくつかの問題に対処できるが、その開発と展開は、この論文で解決される他の課題を生じさせる可能性がある。 まず,データ前処理段階におけるデータセット(実験計測と物理センサ)の質を高めることが重要である(方法論セクションで説明されている)。 次に、データセットが事前処理されると、予測エラーとモデルの解釈可能性に対して異なるモデルをテストする必要がある。 本稿では,生データから利用可能モデルまで,ソフトセンサ開発のためのフレームワークを提案する。

Product quality assessment in the petroleum processing industry can be difficult and time-consuming, e.g. due to a manual collection of liquid samples from the plant and subsequent chemical laboratory analysis of the samples. The product quality is an important property that informs whether the products of the process are within the specifications. In particular, the delays caused by sample processing (collection, laboratory measurements, results analysis, reporting) can lead to detrimental economic effects. One of the strategies to deal with this problem is soft sensors. Soft sensors are a collection of models that can be used to predict and forecast some infrequently measured properties (such as laboratory measurements of petroleum products) based on more frequent measurements of quantities like temperature, pressure and flow rate provided by physical sensors. Soft sensors short-cut the pathway to obtain relevant information about the product quality, often providing measurements as frequently as every minute. One of the applications of soft sensors is for the real-time optimization of a chemical process by a targeted adaptation of operating parameters. Models used for soft sensors can have various forms, however, among the most common are those based on artificial neural networks (ANNs). While soft sensors can deal with some of the issues in the refinery processes, their development and deployment can pose other challenges that are addressed in this paper. Firstly, it is important to enhance the quality of both sets of data (laboratory measurements and physical sensors) in a data pre-processing stage (as described in Methodology section). Secondly, once the data sets are pre-processed, different models need to be tested against prediction error and the model's interpretability. In this work, we present a framework for soft sensor development from raw data to ready-to-use models.
翻訳日:2021-11-23 14:59:13 公開日:2021-11-19
# ColDE:大腸内視鏡再建のための深さ推定フレームワーク

ColDE: A Depth Estimation Framework for Colonoscopy Reconstruction ( http://arxiv.org/abs/2111.10371v1 )

ライセンス: Link先を確認
Yubo Zhang, Jan-Michael Frahm, Samuel Ehrenstein, Sarah K. McGill, Julian G. Rosenman, Shuxian Wang, Stephen M. Pizer(参考訳) 単眼映像から3dメッシュを再構成するための重要な要素の1つは、各フレームの深度マップを生成することである。 しかし,大腸内視鏡画像再構成の応用においては,高品質な深度推定が困難である。 ニューラルネットワークは、光度差によって簡単に騙されるか、または結腸表面の複雑な形状を捉えず、メッシュが壊れる原因となる欠陥を予測できる。 本研究は,大腸内視鏡3次元再構築の深さ推定精度を根本的に向上することを目的として,大腸内視鏡データの特殊課題に対処するための訓練損失のセットを考案した。 より優れたトレーニングのために、深度と表面の正規情報の両方を用いて幾何整合性の目標セットを開発した。 また、古典的な測光損失は、照明ノイズを補償する特徴マッチングによって拡張された。 トレーニングの損失は十分に強力であるため,coldeという自己監督型フレームワークは,事前の奥行き知識を利用した先行研究と比較して,大腸内視鏡データの奥行きマップを作成できる。 リコンストラクションに使用されるネットワークは,高品質な大腸メッシュを後処理なしでリアルタイムに再構築することが可能であり,臨床応用は初めてである。

One of the key elements of reconstructing a 3D mesh from a monocular video is generating every frame's depth map. However, in the application of colonoscopy video reconstruction, producing good-quality depth estimation is challenging. Neural networks can be easily fooled by photometric distractions or fail to capture the complex shape of the colon surface, predicting defective shapes that result in broken meshes. Aiming to fundamentally improve the depth estimation quality for colonoscopy 3D reconstruction, in this work we have designed a set of training losses to deal with the special challenges of colonoscopy data. For better training, a set of geometric consistency objectives was developed, using both depth and surface normal information. Also, the classic photometric loss was extended with feature matching to compensate for illumination noise. With the training losses powerful enough, our self-supervised framework named ColDE is able to produce better depth maps of colonoscopy data as compared to the previous work utilizing prior depth knowledge. Used in reconstruction, our network is able to reconstruct good-quality colon meshes in real-time without any post-processing, making it the first to be clinically applicable.
翻訳日:2021-11-23 14:56:23 公開日:2021-11-19
# 2021年糖尿病足潰瘍グランドチャレンジ:評価と概要

Diabetic Foot Ulcer Grand Challenge 2021: Evaluation and Summary ( http://arxiv.org/abs/2111.10376v1 )

ライセンス: Link先を確認
Bill Cassidy, Connah Kendrick, Neil D. Reeves, Joseph M. Pappachan, Claire O'Shea, David G. Armstrong, Moi Hoon Yap(参考訳) 糖尿病性足潰瘍分類システムは、創傷治癒の治療と予測のための重要な臨床指標として、創傷感染(創傷内細菌)と虚血(制限血液供給)の存在を使用する。 糖尿病性足の創傷における感染・虚血の自動分類法の使用についての研究は, 利用可能なデータセットの多さや, 存在する少数のデータ不均衡が原因で限られている。 糖尿病性足潰瘍チャレンジ2021では、糖尿病性足潰瘍パッチ15,683、トレーニングに5,955、テストに5,734、半教師付きおよび弱教師付きディープラーニング技術の開発を促進するために3,994の未ラベルパッチを参加者に提供した。 本稿では,糖尿病性足潰瘍チャレンジ2021における方法の評価を行い,各ネットワークから得られた結果を要約する。 最高性能のネットワークは上位3モデルの結果のアンサンブルであり、マクロ平均F1スコアは0.6307である。

Diabetic foot ulcer classification systems use the presence of wound infection (bacteria present within the wound) and ischaemia (restricted blood supply) as vital clinical indicators for treatment and prediction of wound healing. Studies investigating the use of automated computerised methods of classifying infection and ischaemia within diabetic foot wounds are limited due to a paucity of publicly available datasets and severe data imbalance in those few that exist. The Diabetic Foot Ulcer Challenge 2021 provided participants with a more substantial dataset comprising a total of 15,683 diabetic foot ulcer patches, with 5,955 used for training, 5,734 used for testing and an additional 3,994 unlabelled patches to promote the development of semi-supervised and weakly-supervised deep learning techniques. This paper provides an evaluation of the methods used in the Diabetic Foot Ulcer Challenge 2021, and summarises the results obtained from each network. The best performing network was an ensemble of the results of the top 3 models, with a macro-average F1-score of 0.6307.
翻訳日:2021-11-23 14:56:06 公開日:2021-11-19
# ムラリ:電子健康記録データのための無監督ランダムフォレストベースの埋め込み

MURAL: An Unsupervised Random Forest-Based Embedding for Electronic Health Record Data ( http://arxiv.org/abs/2111.10452v1 )

ライセンス: Link先を確認
Michal Gerasimiuk, Dennis Shung, Alexander Tong, Adrian Stanley, Michael Schultz, Jeffrey Ngu, Loren Laine, Guy Wolf, Smita Krishnaswamy(参考訳) 臨床患者データを埋め込みまたは可視化する上での最大の課題は、連続的な検査値、分類学的診断コード、欠如または不完全なデータを含む可変型の多様性である。 特に、EHRデータでは、いくつかの変数はランダム(MNAR)ではなく、意図的に収集されていないため、情報源となっている。 例えば、検査は、疑わしい診断に基づいて、一部の患者に必要とされているが、他の患者には必要ではない。 ここでは、異なる変数タイプ(カテゴリー、連続、MNARなど)でデータを表現するための教師なしランダムフォレストであるMuraLフォレストを提示する。 muraL forestsは、ノード分割変数がランダムに選択される一連の決定木で構成され、他のすべての変数の端エントロピーが分割によって最小化される。 これにより、連続変数と一貫性のある方法で、MNAR変数と離散変数を分割することもできます。 目的は,患者間の平均木間距離を用いてMUL埋め込みを学習することである。 これらの距離はPHATEのような非線形次元減少法に供給され、可視化可能な埋め込みを導出する。 このような手法は、連続的に評価されたデータセット(シングルセルRNAシークエンシングなど)ではユビキタスであるが、混合変数データでは広く使われていない。 本手法を1つの人工的および2つの臨床データセットに適用した。 提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。 最後に,最近提案されているツリースライスワッサースタイン距離を用いて,患者のコホートを比較することも可能であることを示した。

A major challenge in embedding or visualizing clinical patient data is the heterogeneity of variable types including continuous lab values, categorical diagnostic codes, as well as missing or incomplete data. In particular, in EHR data, some variables are {\em missing not at random (MNAR)} but deliberately not collected and thus are a source of information. For example, lab tests may be deemed necessary for some patients on the basis of suspected diagnosis, but not for others. Here we present the MURAL forest -- an unsupervised random forest for representing data with disparate variable types (e.g., categorical, continuous, MNAR). MURAL forests consist of a set of decision trees where node-splitting variables are chosen at random, such that the marginal entropy of all other variables is minimized by the split. This allows us to also split on MNAR variables and discrete variables in a way that is consistent with the continuous variables. The end goal is to learn the MURAL embedding of patients using average tree distances between those patients. These distances can be fed to nonlinear dimensionality reduction method like PHATE to derive visualizable embeddings. While such methods are ubiquitous in continuous-valued datasets (like single cell RNA-sequencing) they have not been used extensively in mixed variable data. We showcase the use of our method on one artificial and two clinical datasets. We show that using our approach, we can visualize and classify data more accurately than competing approaches. Finally, we show that MURAL can also be used to compare cohorts of patients via the recently proposed tree-sliced Wasserstein distances.
翻訳日:2021-11-23 14:11:18 公開日:2021-11-19
# マルコフ決定過程の帰納的パリティに向けて

Towards Return Parity in Markov Decision Processes ( http://arxiv.org/abs/2111.10476v1 )

ライセンス: Link先を確認
Jianfeng Chi, Jian Shen, Xinyi Dai, Weinan Zhang, Yuan Tian, Han Zhao(参考訳) 高度な領域における機械学習モデルによるアルゴリズムによる決定は、時間とともに持続的な影響を与える可能性がある。 残念なことに、時間領域の静的設定における標準フェアネス基準のナイーブな応用は、遅延や悪影響をもたらす可能性がある。 性能格差のダイナミクスを理解するために,マルコフ決定過程(MDP)における公平性問題について検討する。 具体的には,同じ状態と行動空間を共有する異なる集団集団のmdpが,ほぼ同じ時間分布の報酬を得られるように要求するフェアネス概念であるreturn parityを提案する。 まず,2つのmdpの帰納格差をグループ毎の報酬関数間の距離,グループポリシーの不一致,およびグループポリシーによって引き起こされる状態訪問分布間の不一致に分解する帰納格差の分解定理を提案する。 本研究では, 積分確率メトリクスを用いた状態訪問分布アライメントを用いた共有群ポリシーを学習することにより, 回帰不均衡を緩和するアルゴリズムを提案する。 提案手法は,2つの実世界のレコメンダシステムベンチマークデータセットにおけるポリシのパフォーマンスを維持しつつ,不一致のギャップを解消することに成功した。

Algorithmic decisions made by machine learning models in high-stakes domains may have lasting impacts over time. Unfortunately, naive applications of standard fairness criterion in static settings over temporal domains may lead to delayed and adverse effects. To understand the dynamics of performance disparity, we study a fairness problem in Markov decision processes (MDPs). Specifically, we propose return parity, a fairness notion that requires MDPs from different demographic groups that share the same state and action spaces to achieve approximately the same expected time-discounted rewards. We first provide a decomposition theorem for return disparity, which decomposes the return disparity of any two MDPs into the distance between group-wise reward functions, the discrepancy of group policies, and the discrepancy between state visitation distributions induced by the group policies. Motivated by our decomposition theorem, we propose algorithms to mitigate return disparity via learning a shared group policy with state visitation distributional alignment using integral probability metrics. We conduct experiments to corroborate our results, showing that the proposed algorithm can successfully close the disparity gap while maintaining the performance of policies on two real-world recommender system benchmark datasets.
翻訳日:2021-11-23 13:28:02 公開日:2021-11-19
# (参考訳) TYolov5:ビデオにおけるリアルタイムハンドガン検出のための準リカレントニューラルネットワークに基づく一時ヨーロフ5検出器

TYolov5: A Temporal Yolov5 Detector Based on Quasi-Recurrent Neural Networks for Real-Time Handgun Detection in Video ( http://arxiv.org/abs/2111.08867v2 )

ライセンス: CC BY 4.0
Mario Alberto Duran-Vega, Miguel Gonzalez-Mendoza, Leonardo Chang, Cuauhtemoc Daniel Suarez-Ramirez(参考訳) タイムリーな拳銃検出は公衆の安全を改善する上で重要な問題である。しかしながら、多くの監視システムの有効性は、依然として有限の人間の注意に依存している。 以前の拳銃検出に関する研究の多くは静的な画像検出器に基づいており、ビデオの物体検出を改善するのに使える貴重な時間情報を残している。 監視システムの性能向上のためには,リアルタイムの拳銃検出システムを構築する必要がある。 準リカレントニューラルネットワークに基づくアーキテクチャであるtemporal yolov5を用いて、ビデオから時間情報を抽出し、拳銃検出結果を改善する。 さらに、手、銃、電話でラベル付けされた2つの公開データセットが提案されている。 ひとつは静的検出器をトレーニングする2199の静的イメージと、もうひとつは時間モジュールをトレーニングする5960フレームのビデオだ。 さらにモザイクとミックスアップに基づく2つの時間的データ拡張手法について検討する。 その結果得られたシステムは、3つの時間的アーキテクチャである: 1つは、map$_{50:95}$が55.9、もう1つは推論と精度のバランスが良く、map$_{50:95}$が59、もう1つはmap$_{50:95}$が60.2の精度を専門とする。 テンポラリyolov5は、中小規模アーキテクチャでリアルタイム検出を実現する。 さらに、ビデオに含まれる時間的特徴を利用して、時間的データセットのYolov5よりも優れたパフォーマンスを実現しています。 ソースコードはhttps://github.com/marioduran/tyolov5で公開されている。

Timely handgun detection is a crucial problem to improve public safety; nevertheless, the effectiveness of many surveillance systems still depends of finite human attention. Much of the previous research on handgun detection is based on static image detectors, leaving aside valuable temporal information that could be used to improve object detection in videos. To improve the performance of surveillance systems, a real-time temporal handgun detection system should be built. Using Temporal Yolov5, an architecture based on Quasi-Recurrent Neural Networks, temporal information is extracted from video to improve the results of handgun detection. Moreover, two publicly available datasets are proposed, labeled with hands, guns, and phones. One containing 2199 static images to train static detectors, and another with 5960 frames of videos to train temporal modules. Additionally, we explore two temporal data augmentation techniques based on Mosaic and Mixup. The resulting systems are three temporal architectures: one focused in reducing inference with a mAP$_{50:95}$ of 55.9, another in having a good balance between inference and accuracy with a mAP$_{50:95}$ of 59, and a last one specialized in accuracy with a mAP$_{50:95}$ of 60.2. Temporal Yolov5 achieves real-time detection in the small and medium architectures. Moreover, it takes advantage of temporal features contained in videos to perform better than Yolov5 in our temporal dataset, making TYolov5 suitable for real-world applications. The source code is publicly available at https://github.com/MarioDuran/TYolov5.
翻訳日:2021-11-23 06:15:18 公開日:2021-11-19
# (参考訳) LOLNeRF: 一目で学ぶ

LOLNeRF: Learn from One Look ( http://arxiv.org/abs/2111.09996v1 )

ライセンス: CC BY 4.0
Daniel Rebain, Mark Matthews, Kwang Moo Yi, Dmitry Lagun, Andrea Tagliasacchi(参考訳) 本稿では,各オブジェクトの単一ビューのみを用いたデータからのみ訓練された,ニューラルレージアンス場に基づく生成3次元モデルの学習方法を提案する。 写実的な画像を生成することはもはや難しい作業ではないが、異なるビューからレンダリングできるように対応する3d構造を生成するのは簡単ではない。 既存の手法とは異なり、この目標を達成するためにマルチビューデータを必要としないことを示す。 具体的には、共有潜在空間に条件付き単一ネットワークで近似正準ポーズに整列した多数の画像を再構成することにより、オブジェクトのクラスに対して形状と外観をモデル化した放射場空間を学習できることを示す。 我々は、深度や幾何学的情報のない各対象の1つのビューのみを含むデータセットを用いて、オブジェクトカテゴリを再構築するモデルをトレーニングすることでこれを実証する。 実験の結果,モノクル深度予測のための新しいビュー合成と競合する結果が得られた。

We present a method for learning a generative 3D model based on neural radiance fields, trained solely from data with only single views of each object. While generating realistic images is no longer a difficult task, producing the corresponding 3D structure such that they can be rendered from different views is non-trivial. We show that, unlike existing methods, one does not need multi-view data to achieve this goal. Specifically, we show that by reconstructing many images aligned to an approximate canonical pose with a single network conditioned on a shared latent space, you can learn a space of radiance fields that models shape and appearance for a class of objects. We demonstrate this by training models to reconstruct object categories using datasets that contain only one view of each subject without depth or geometry information. Our experiments show that we achieve state-of-the-art results in novel view synthesis and competitive results for monocular depth prediction.
翻訳日:2021-11-23 02:56:55 公開日:2021-11-19
# (参考訳) 微分可能な波長合成

Differentiable Wavetable Synthesis ( http://arxiv.org/abs/2111.10003v1 )

ライセンス: CC BY 4.0
Siyuan Shan, Lamtharn Hantrakul, Jitong Chen, Matt Avent, David Trevelyan(参考訳) 微分可能なウェーブテーブル合成(英: Differentiable Wavetable Synthesis、DWTS)は、一周期波形の辞書、すなわちウェーブテーブルの辞書をエンドツーエンドの訓練によって学習するニューラルオーディオ合成技術である。 10~20個のウェーブテーブルで高忠実度音声合成を実現し,データ駆動波形辞書が,短い音声クリップで前例のないワンショット学習パラダイムを展開する様子を実演する。 特に、数秒の入力音声を用いて、高品質なピッチシフトなどのオーディオ操作を示す。 最後に,リアルタイムおよびインタラクティブな音声合成のための学習ウェーブテーブルによる性能向上について検討する。

Differentiable Wavetable Synthesis (DWTS) is a technique for neural audio synthesis which learns a dictionary of one-period waveforms i.e. wavetables, through end-to-end training. We achieve high-fidelity audio synthesis with as little as 10 to 20 wavetables and demonstrate how a data-driven dictionary of waveforms opens up unprecedented one-shot learning paradigms on short audio clips. Notably, we show audio manipulations, such as high quality pitch-shifting, using only a few seconds of input audio. Lastly, we investigate performance gains from using learned wavetables for realtime and interactive audio synthesis.
翻訳日:2021-11-23 02:43:24 公開日:2021-11-19
# (参考訳) ExoMiner: 太陽系外惑星の高精度かつ説明可能な深層学習分類器

ExoMiner: A Highly Accurate and Explainable Deep Learning Classifier to Mine Exoplanets ( http://arxiv.org/abs/2111.10009v1 )

ライセンス: CC BY 4.0
Hamed Valizadegan, Miguel Martinho, Laurent S. Wilkens, Jon M. Jenkins, Jeffrey Smith, Douglas A. Caldwell, Joseph D. Twicken, Pedro C. Gerum, Nikash Walia, Kaylie Hausknecht, Noa Y. Lubin, Stephen T. Bryson, Nikunj C. Oza(参考訳) ケプラーとTESSのミッションは、惑星候補のカタログを作成するために処理しなければならない10万以上のトランジット信号を生成する。 ここ数年、新しい太陽系外惑星を探すために機械学習を使ってこれらのデータを分析することへの関心が高まっている。 既存の機械学習と異なり、この研究で提案されているディープラーニング分類器であるExoMinerは、ドメインの専門家が診断テストを調べてトランジットシグナルを検査する方法を模倣している。 ExoMinerは、非常に正確で説明可能な、堅牢な分類器である 1) MASTケプラーアーカイブから新たに301個の太陽系外惑星を検証できる。 2)は、現在進行中のtessミッションのようなミッションにまたがって適用できるほど一般的である。 我々は,ExoMinerが既存のトランジット信号分類器よりも信頼性が高く,精度が高いことを検証するために,広範囲にわたる実験を行った。 例えば、固定精度99%の場合、エクソミナーはテストセット内の全ての太陽系外惑星の93.6%を回収する(すなわち、リコール=0.936)が、最良の分類器では76.3%である。 さらに、ExoMinerのモジュール設計は、その説明可能性を支持している。 本稿では,ExoMinerがトランジットシグナルを特定のクラスラベル(惑星候補か惑星候補でないか)に分類する理由について,専門家にフィードバックを提供するシンプルな説明可能性フレームワークを紹介する。

The kepler and TESS missions have generated over 100,000 potential transit signals that must be processed in order to create a catalog of planet candidates. During the last few years, there has been a growing interest in using machine learning to analyze these data in search of new exoplanets. Different from the existing machine learning works, ExoMiner, the proposed deep learning classifier in this work, mimics how domain experts examine diagnostic tests to vet a transit signal. ExoMiner is a highly accurate, explainable, and robust classifier that 1) allows us to validate 301 new exoplanets from the MAST Kepler Archive and 2) is general enough to be applied across missions such as the on-going TESS mission. We perform an extensive experimental study to verify that ExoMiner is more reliable and accurate than the existing transit signal classifiers in terms of different classification and ranking metrics. For example, for a fixed precision value of 99%, ExoMiner retrieves 93.6% of all exoplanets in the test set (i.e., recall=0.936) while this rate is 76.3% for the best existing classifier. Furthermore, the modular design of ExoMiner favors its explainability. We introduce a simple explainability framework that provides experts with feedback on why ExoMiner classifies a transit signal into a specific class label (e.g., planet candidate or not planet candidate).
翻訳日:2021-11-23 02:34:34 公開日:2021-11-19
# (参考訳) CoCAtt:認知的な運転注意データセット

CoCAtt: A Cognitive-Conditioned Driver Attention Dataset ( http://arxiv.org/abs/2111.10014v1 )

ライセンス: CC BY 4.0
Yuan Shen and Niviru Wijayaratne and Pranav Sriram and Aamir Hasan and Peter Du and Katie Driggs-Campbell(参考訳) ドライバー注意予測のタスクは、ロボット工学と自動運転車産業の研究者の間で大きな関心を集めている。 運転注意予測は、衝突や死傷などのリスクの高い出来事を緩和し防止する上で、重要な役割を果たす。 しかし、既存の運転注意予測モデルは、運転者の気晴らし状態や意図を無視し、周囲の観察方法に大きな影響を与える可能性がある。 これらの問題に対処するために、新しいドライバー注意データセットCoCAt(Cognitive-Conditioned Attention)を提案する。 以前のドライバ注意データセットとは異なり、CoCAttには、ドライバの混乱状態と意図を記述するフレーム単位のアノテーションが含まれている。 さらに、我々のデータセットの注意データは、異なる解像度のアイトラッキングデバイスを使用して、手動モードと自動操縦モードの両方でキャプチャされる。 以上の2つの運転状態を注意モデルに組み込むことにより、運転者注意予測の性能が向上することを示す。 私たちの知る限りでは、この研究が初めてオートパイロットの注意データを提供した。 さらに、CoCAttは現在、自律レベル、アイトラッカーの解像度、運転シナリオの観点から、最大かつ最も多様なドライバー注意データセットである。

The task of driver attention prediction has drawn considerable interest among researchers in robotics and the autonomous vehicle industry. Driver attention prediction can play an instrumental role in mitigating and preventing high-risk events, like collisions and casualties. However, existing driver attention prediction models neglect the distraction state and intention of the driver, which can significantly influence how they observe their surroundings. To address these issues, we present a new driver attention dataset, CoCAtt (Cognitive-Conditioned Attention). Unlike previous driver attention datasets, CoCAtt includes per-frame annotations that describe the distraction state and intention of the driver. In addition, the attention data in our dataset is captured in both manual and autopilot modes using eye-tracking devices of different resolutions. Our results demonstrate that incorporating the above two driver states into attention modeling can improve the performance of driver attention prediction. To the best of our knowledge, this work is the first to provide autopilot attention data. Furthermore, CoCAtt is currently the largest and the most diverse driver attention dataset in terms of autonomy levels, eye tracker resolutions, and driving scenarios.
翻訳日:2021-11-23 02:25:21 公開日:2021-11-19
# (参考訳) 完全対数ランキングの達成可能性と不可能性

Achievability and Impossibility of Exact Pairwise Ranking ( http://arxiv.org/abs/2111.10021v1 )

ライセンス: CC BY 4.0
Yihan He(参考訳) 我々は,一組のn$項目のランクを,うるさい対数比較に基づいて回復する問題を考える。 我々は、SSTクラスを生成モデルのファミリとみなす。 本解析は, パラメトリック限界に適合する正確な要件に対して, 鋭い情報理論上および下限を与えた。 モーメント法により誘導されるアルゴリズムの厳密な解析により, ~\citet{shah2017simple} よりもミニマックスの最適速度の定数が向上し, 開問題に寄与した。 情報理論的な境界を得るためにこの研究で使った戦略は、組合せ論に基づいており、独立した興味を持っている。

We consider the problem of recovering the rank of a set of $n$ items based on noisy pairwise comparisons. We assume the SST class as the family of generative models. Our analysis gave sharp information theoretic upper and lower bound for the exact requirement, which matches exactly in the parametric limit. Our tight analysis on the algorithm induced by the moment method gave better constant in Minimax optimal rate than ~\citet{shah2017simple} and contribute to their open problem. The strategy we used in this work to obtain information theoretic bounds is based on combinatorial arguments and is of independent interest.
翻訳日:2021-11-23 02:11:13 公開日:2021-11-19
# (参考訳) 大規模教師なし再同定のためのメタクラスタリング学習

Meta Clustering Learning for Large-scale Unsupervised Person Re-identification ( http://arxiv.org/abs/2111.10032v1 )

ライセンス: CC0 1.0
Xin Jin, Tianyu He, Zhiheng Yin, Xu Shen, Tongliang Liu, Xinchao Wang, Jianqiang Huang, Xian-Sheng Hua, Zhibo Chen(参考訳) 疑似ラベル付き非教師付き人物再識別(U-ReID)は, 現代のクラスタリングアルゴリズムに基づく完全教師付きReID法と比較して, 競争性能が向上した。 しかし、このようなクラスタリングに基づくスキームは、大規模データセットでは計算的に禁止される。 u-reidを改善するために、限られた計算リソースで無限のラベルのないデータを効率的に活用する方法は未検討である。 本稿では,大規模U-ReIDの最初の試みとして,メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。 mclは、第1フェーズのトレーニングのためにコンピューティングを節約するために、クラスタリングを通じてラベルのないデータのサブセットのみを擬似ラベルする。 その後、学習したクラスタセントロイドはmclでメタプロトタイプ(meta-prototypes)と呼ばれ、モデルのさらなる洗練のために他のラベルのないデータをソフトに注釈付けするプロキシアノテータとみなされる。 研磨工程における潜在的なノイズラベリング問題を軽減するため,我々は2つのよく設計された損失制約を強制し,同一性内一貫性と同一性間の強い相関を約束する。 複数の広く使われているU-ReIDベンチマークにおいて,本手法は計算コストを大幅に削減し,従来よりも同等あるいはそれ以上の性能を実現している。

Unsupervised Person Re-identification (U-ReID) with pseudo labeling recently reaches a competitive performance compared to fully-supervised ReID methods based on modern clustering algorithms. However, such clustering-based scheme becomes computationally prohibitive for large-scale datasets. How to efficiently leverage endless unlabeled data with limited computing resources for better U-ReID is under-explored. In this paper, we make the first attempt to the large-scale U-ReID and propose a "small data for big task" paradigm dubbed Meta Clustering Learning (MCL). MCL only pseudo-labels a subset of the entire unlabeled data via clustering to save computing for the first-phase training. After that, the learned cluster centroids, termed as meta-prototypes in our MCL, are regarded as a proxy annotator to softly annotate the rest unlabeled data for further polishing the model. To alleviate the potential noisy labeling issue in the polishment phase, we enforce two well-designed loss constraints to promise intra-identity consistency and inter-identity strong correlation. For multiple widely-used U-ReID benchmarks, our method significantly saves computational cost while achieving a comparable or even better performance compared to prior works.
翻訳日:2021-11-23 01:57:29 公開日:2021-11-19
# (参考訳) 情報フローを用いたグラフ上GNNの解説

Explaining GNN over Evolving Graphs using Information Flow ( http://arxiv.org/abs/2111.10037v1 )

ライセンス: CC BY 4.0
Yazheng Liu and Xi Zhang and Sihong Xie(参考訳) グラフは、ソーシャルネットワーク、ナレッジグラフ、スマートグリッドなど、多くのアプリケーションにおいてユビキタスです。 グラフニューラルネットワーク(GNN)は、これらの応用の最先端でありながら、人間には不明瞭である。 GNNの予測を説明すると透明性が増す。 しかし、多くのグラフが静的ではないが継続的に進化しているため、2つのグラフスナップショット間の予測の変化は異なるが、同様に重要である。 従来の手法では静的な予測のみを説明するか、動的予測に対して粗いあるいは無関係な説明を生成する。 進化するGNN予測を説明する問題を定義し,計算グラフ上の経路に対する予測の変化を一意に分解する公理的帰属法を提案する。 高次ノードを含む多くのパスの帰属はいまだ解釈できないが、最も重要なパスを選択することは、変更を近似するのに最適ではない。 予測進化を説明する経路を最適に選択するために,新しい凸最適化問題を定式化する。 理論的には,LRP(Layer-Relevance-Propagation)に基づく既存手法が,空グラフと比較した場合に提案アルゴリズムの特別な場合であることが証明されている。 実験的に、7つのグラフデータセット上で、予測変化の説明を評価するために設計された新しいメトリクスを用いて、LRPやDeepLIFTなどの既存手法よりも提案手法の方が優れていることを示す。

Graphs are ubiquitous in many applications, such as social networks, knowledge graphs, smart grids, etc.. Graph neural networks (GNN) are the current state-of-the-art for these applications, and yet remain obscure to humans. Explaining the GNN predictions can add transparency. However, as many graphs are not static but continuously evolving, explaining changes in predictions between two graph snapshots is different but equally important. Prior methods only explain static predictions or generate coarse or irrelevant explanations for dynamic predictions. We define the problem of explaining evolving GNN predictions and propose an axiomatic attribution method to uniquely decompose the change in a prediction to paths on computation graphs. The attribution to many paths involving high-degree nodes is still not interpretable, while simply selecting the top important paths can be suboptimal in approximating the change. We formulate a novel convex optimization problem to optimally select the paths that explain the prediction evolution. Theoretically, we prove that the existing method based on Layer-Relevance-Propagation (LRP) is a special case of the proposed algorithm when an empty graph is compared with. Empirically, on seven graph datasets, with a novel metric designed for evaluating explanations of prediction change, we demonstrate the superiority of the proposed approach over existing methods, including LRP, DeepLIFT, and other path selection methods.
翻訳日:2021-11-23 01:34:40 公開日:2021-11-19
# (参考訳) YMIR: ビジョンアプリケーションのための高速なデータ中心開発プラットフォーム

YMIR: A Rapid Data-centric Development Platform for Vision Applications ( http://arxiv.org/abs/2111.10046v1 )

ライセンス: CC BY 4.0
Phoenix X. Huang, Wenze Hu, William Brendel, Manmohan Chandraker, Li-Jia Li, Xiaoyu Wang(参考訳) 本稿では,コンピュータビジョンアプリケーションの迅速な開発のためのオープンソースプラットフォームを提案する。 このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置き、アクティブな学習方法、データとモデルバージョン管理を統合し、プロジェクトのような概念を使用して、複数のタスク固有のデータセットを並列に高速にイテレーションできるようにする。 開発プロセスをコア状態と運用に抽象化し、サードパーティツールを操作の実装として統合するオープンAPIを設計することで、オープンプラットフォームにします。 このオープンデザインにより、既存のツールを使用したMLチームの開発コストと採用コストが削減される。 同時に、プラットフォームはプロジェクト開発履歴の記録をサポートし、成功しているプロジェクトを共有して、同様のタスクでモデル生産効率をさらに高めることができる。 プラットフォームはオープンソースで、すでに社内で、カスタムの現実世界のコンピュータビジョンアプリケーションからの需要の高まりに対応するために使用されている。

This paper introduces an open source platform for rapid development of computer vision applications. The platform puts the efficient data development at the center of the machine learning development process, integrates active learning methods, data and model version control, and uses concepts such as projects to enable fast iteration of multiple task specific datasets in parallel. We make it an open platform by abstracting the development process into core states and operations, and design open APIs to integrate third party tools as implementations of the operations. This open design reduces the development cost and adoption cost for ML teams with existing tools. At the same time, the platform supports recording project development history, through which successful projects can be shared to further boost model production efficiency on similar tasks. The platform is open source and is already used internally to meet the increasing demand from custom real world computer vision applications.
翻訳日:2021-11-23 01:14:33 公開日:2021-11-19
# (参考訳) ゼロショット転送学習のための複合スケーリング

Combined Scaling for Zero-shot Transfer Learning ( http://arxiv.org/abs/2111.10050v1 )

ライセンス: CC BY 4.0
Hieu Pham, Zihang Dai, Golnaz Ghiasi, Hanxiao Liu, Adams Wei Yu, Minh-Thang Luong, Mingxing Tan, Quoc V. Le(参考訳) 我々は、ImageNet ILSVRC-2012バリデーションセットにおいて、85.7%のトップ1ゼロショット精度を達成し、最高のゼロショットモデルであるCLIPとALIGNを9.3%上回るBASICと呼ばれるスケーリング手法を提案する。 私たちの基本的なモデルは、ロバスト性ベンチマークも大幅に改善しています。 例えば、ImageNet-{A,R,V2,Sketch} や ObjectNet のような自然な分布シフトを持つ5つのテストセットでは、私たちのモデルは83.7%の最高1の精度を達成しています。 これらの結果を得るために,データサイズ,モデルサイズ,バッチサイズという,CLIPとALIGNの対比学習フレームワークを3次元でスケールアップした。 我々のデータセットには6.6Bのノイズの多い画像テキストペアがあり、ALIGNより4倍、CLIPより16倍大きい。 我々の最大のモデルは3B重みを持ち、パラメータは3.75倍、FLOPはALIGNやCLIPよりも8倍大きい。 バッチサイズは65536で、CLIPの2倍、ALIGNの4倍です。 スケーリングの主な課題は、GPUやTPUといったアクセラレータのメモリ制限です。 そこで我々は,この限界を克服するためのオンライン勾配キャッシング手法を提案する。

We present a combined scaling method called BASIC that achieves 85.7% top-1 zero-shot accuracy on the ImageNet ILSVRC-2012 validation set, surpassing the best-published zero-shot models - CLIP and ALIGN - by 9.3%. Our BASIC model also shows significant improvements in robustness benchmarks. For instance, on 5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our model achieves 83.7% top-1 average accuracy, only a small drop from the its original ImageNet accuracy. To achieve these results, we scale up the contrastive learning framework of CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than ALIGN and CLIP. Our batch size is 65536 which is 2x more than CLIP and 4x more than ALIGN. The main challenge with scaling is the limited memory of our accelerators such as GPUs and TPUs. We hence propose a simple method of online gradient caching to overcome this limit.
翻訳日:2021-11-23 01:08:32 公開日:2021-11-19
# (参考訳) 医学的視覚的質問への回答:調査

Medical Visual Question Answering: A Survey ( http://arxiv.org/abs/2111.10056v1 )

ライセンス: CC BY 4.0
Zhihong Lin, Donghao Zhang, Qingyi Tac, Danli Shi, Gholamreza Haffari, Qi Wu, Mingguang He, and Zongyuan Ge(参考訳) VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。 医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待される。 一般領域のVQAは広く研究されているが、医療領域のVQAはタスクの特徴から、特定の調査と探索が必要である。 この調査の第1部では、データソース、データ量、タスク機能について、現在公開されている医療用VQAデータセットを取り上げ、議論する。 第2部では,医療用VQAタスクにおけるアプローチについて概観する。 最後に,この分野における医学的課題を分析し,今後の研究の方向性について考察する。

Medical Visual Question Answering (VQA) is a combination of medical artificial intelligence and popular VQA challenges. Given a medical image and a clinically relevant question in natural language, the medical VQA system is expected to predict a plausible and convincing answer. Although the general-domain VQA has been extensively studied, the medical VQA still needs specific investigation and exploration due to its task features. In the first part of this survey, we cover and discuss the publicly available medical VQA datasets up to date about the data source, data quantity, and task feature. In the second part, we review the approaches used in medical VQA tasks. In the last part, we analyze some medical-specific challenges for the field and discuss future research directions.
翻訳日:2021-11-23 00:42:42 公開日:2021-11-19
# (参考訳) 大規模メルボルンの輸送需要に関する活動モデル

An Activity-Based Model of Transport Demand for Greater Melbourne ( http://arxiv.org/abs/2111.10061v1 )

ライセンス: CC BY-SA 4.0
Alan Both, Dhirendra Singh, Afshin Jafari, Billie Giles-Corti, Lucy Gunn(参考訳) 本稿では,機械学習,確率的,重力に基づくアプローチを組み合わせて,メルボルン大都市圏の合成人口を作成するアルゴリズムを提案する。 これらのテクニックを3つの主要なイノベーションとハイブリッドモデルで組み合わせます。 1 活動パターンを割り当てたときは、各エージェントに対して、コホートに合わせて個別の活動連鎖を生成する。 2 目的地を選択する際、旅行距離のずれと目的地の行動に基づくアトラクションとのバランスをとることを目的とする。 3 我々は、帰国が無理な目的地を選ばないように、エージェントが残す旅行の回数を考慮している。 提案手法は完全にオープンで複製可能であり,MATSimなどの一般的なエージェントベースモデリングソフトウェアと互換性のあるエージェントの合成集団を生成するために,公開データのみを必要とする。 合成個体群は, 距離分布, モード選択, 目的地選択の点で, 様々な個体群に対して正確であることがわかった。

In this paper, we present an algorithm for creating a synthetic population for the Greater Melbourne area using a combination of machine learning, probabilistic, and gravity-based approaches. We combine these techniques in a hybrid model with three primary innovations: 1. when assigning activity patterns, we generate individual activity chains for every agent, tailored to their cohort; 2. when selecting destinations, we aim to strike a balance between the distance-decay of trip lengths and the activity-based attraction of destination locations; and 3. we take into account the number of trips remaining for an agent so as to ensure they do not select a destination that would be unreasonable to return home from. Our method is completely open and replicable, requiring only publicly available data to generate a synthetic population of agents compatible with commonly used agent-based modeling software such as MATSim. The synthetic population was found to be accurate in terms of distance distribution, mode choice, and destination choice for a variety of population sizes.
翻訳日:2021-11-23 00:18:56 公開日:2021-11-19
# (参考訳) 受動型慣性センサを用いた妊娠中の胎児・母性健康度の評価

Assessment of Fetal and Maternal Well-Being During Pregnancy Using Passive Wearable Inertial Sensor ( http://arxiv.org/abs/2111.10066v1 )

ライセンス: CC BY 4.0
Eranda Somathilake, Upekha Delay, Janith Bandara Senanayaka, Samitha Gunarathne, Roshan Godaliyadda, Parakrama Ekanayake, Janaka Wijayakulasooriya, Chathura Rathnayake(参考訳) 胎児と母親の健康を評価することは、妊娠中の合併症の予防と特定に不可欠である。 本論文は、母親自身が最小限の監督で効果的に利用でき、安全で快適で使いやすく、胎児と母親の健康を合理的に評価できる装置に焦点をあてる。 この装置は、母親の子宮の上に1つの加速度計を備えたベルトを使って必要な情報を記録している。 この装置は、母親と胎児の両方を長期間にわたって継続的に監視し、医療専門家に有用な情報を提供することが期待されている。 本研究は,母親の呼吸情報と胎児の運動を同時に測定することは,軽度の干渉があっても可能であることを示唆する。

Assessing the health of both the fetus and mother is vital in preventing and identifying possible complications in pregnancy. This paper focuses on a device that can be used effectively by the mother herself with minimal supervision and provide a reasonable estimation of fetal and maternal health while being safe, comfortable, and easy to use. The device proposed uses a belt with a single accelerometer over the mother's uterus to record the required information. The device is expected to monitor both the mother and the fetus constantly over a long period and provide medical professionals with useful information, which they would otherwise overlook due to the low frequency that health monitoring is carried out at the present. The paper shows that simultaneous measurement of respiratory information of the mother and fetal movement is in fact possible even in the presence of mild interferences, which needs to be accounted for if the device is expected to be worn for extended times.
翻訳日:2021-11-23 00:18:00 公開日:2021-11-19
# (参考訳) インプット・デノイジングと特徴復元による対向攻撃の強化

Enhanced countering adversarial attacks via input denoising and feature restoring ( http://arxiv.org/abs/2111.10075v1 )

ライセンス: CC0 1.0
Yanni Li and Wenhui Zhang and Jiawei Liu and Xiaoli Kou and Hui Li and Jiangtao Cui(参考訳) ディープニューラルネットワーク(DNN)が様々なアプリケーションで顕著なパフォーマンスを達成したという事実にもかかわらず、DNNはクリーン/オリジンサンプルに知覚できない摂動を伴う敵の例/サンプル(AE)に弱いことはよく知られている。 本報告では,既存の敵攻撃に対する防御手法の弱点を克服し,元のサンプルに関する情報を損なうとともに,ターゲット分類器の精度を低下させるため,敵攻撃対策IDFR(Integrated Denoising and Feature Restoring)を改良した手法を提案する。 提案したIDFRは, 凸船体最適化に基づく拡張型インプットデノイザ (ID) と隠れ型ロスィ特徴復元器 (FR) から構成される。 ベンチマークデータセットを用いて行った大規模な実験により、提案したIDFRは様々な最先端の防御手法よりも優れており、様々な敵のブラックボックスやホワイトボックス攻撃に対してターゲットモデルを保護するのに非常に効果的であることが示された。 https://github.com/ID-FR/IDFR}{https://github.com/ID-FR/IDFR}}

Despite the fact that deep neural networks (DNNs) have achieved prominent performance in various applications, it is well known that DNNs are vulnerable to adversarial examples/samples (AEs) with imperceptible perturbations in clean/original samples. To overcome the weakness of the existing defense methods against adversarial attacks, which damages the information on the original samples, leading to the decrease of the target classifier accuracy, this paper presents an enhanced countering adversarial attack method IDFR (via Input Denoising and Feature Restoring). The proposed IDFR is made up of an enhanced input denoiser (ID) and a hidden lossy feature restorer (FR) based on the convex hull optimization. Extensive experiments conducted on benchmark datasets show that the proposed IDFR outperforms the various state-of-the-art defense methods, and is highly effective for protecting target models against various adversarial black-box or white-box attacks. \footnote{Souce code is released at: \href{https://github.com/ID-FR/IDFR}{https://github.com/ID-FR/IDFR}}
翻訳日:2021-11-23 00:05:35 公開日:2021-11-19
# (参考訳) 拡張直交重み修正による壊滅的鍛造

Defeating Catastrophic Forgetting via Enhanced Orthogonal Weights Modification ( http://arxiv.org/abs/2111.10078v1 )

ライセンス: CC0 1.0
Yanni Li and Bing Liu and Kaicheng Yao and Xiaoli Kou and Pengfan Lv and Yueshen Xu and Jiangtao Cui(参考訳) ニューラルネットワーク(NN)が複数のタスクを逐次学習し記憶する能力は、破滅的な忘れ(CF)問題のために、汎用人工知能を達成する上で難しい課題に直面している。 幸いなことに、最新のOWM Orthogonal Weights Modificationといくつかの連続学習(CL)メソッドはCF問題を克服する有望な方法を示している。 しかし、既存のclメソッドは、cf問題を効果的に克服するための3つの重要な質問を探求していない:すなわち、逐次タスク学習中のnnの効果的な重み付け修正にどんな知識が寄与するのか? 新しい学習タスクのデータ分布が以前の学習タスクに応じて変化するとき、一様/特定重み変更戦略を採用するべきか? 与えられたCLメソッドに対して、学習可能なタスクの上位境界は何でしょうか? ect. そこで本稿では,まず,新しいタスクの入力空間と前回の学習タスクの重み空間の両方から,新しい学習タスクの重み勾配が順次決定されることを示す。 この観察と再帰的最小二乗法について,拡張OWMによる効率的かつ効果的な連続学習法EOWMを提案する。 そして、理論的かつ決定的に、学習可能なタスクの上限をEOWMの逐次的に与えました。 ベンチマーク実験により、EOWMは有効であり、最先端のCLベースラインをすべて上回っていることが示された。

The ability of neural networks (NNs) to learn and remember multiple tasks sequentially is facing tough challenges in achieving general artificial intelligence due to their catastrophic forgetting (CF) issues. Fortunately, the latest OWM Orthogonal Weights Modification) and other several continual learning (CL) methods suggest some promising ways to overcome the CF issue. However, none of existing CL methods explores the following three crucial questions for effectively overcoming the CF issue: that is, what knowledge does it contribute to the effective weights modification of the NN during its sequential tasks learning? When the data distribution of a new learning task changes corresponding to the previous learned tasks, should a uniform/specific weight modification strategy be adopted or not? what is the upper bound of the learningable tasks sequentially for a given CL method? ect. To achieve this, in this paper, we first reveals the fact that of the weight gradient of a new learning task is determined by both the input space of the new task and the weight space of the previous learned tasks sequentially. On this observation and the recursive least square optimal method, we propose a new efficient and effective continual learning method EOWM via enhanced OWM. And we have theoretically and definitively given the upper bound of the learningable tasks sequentially of our EOWM. Extensive experiments conducted on the benchmarks demonstrate that our EOWM is effectiveness and outperform all of the state-of-the-art CL baselines.
翻訳日:2021-11-22 23:44:48 公開日:2021-11-19
# (参考訳) 説明可能な回避攻撃によるマルウェア検出装置の弱点の露呈

Exposing Weaknesses of Malware Detectors with Explainability-Guided Evasion Attacks ( http://arxiv.org/abs/2111.10085v1 )

ライセンス: CC BY 4.0
Wei Wang, Ruoxi Sun, Tian Dong, Shaofeng Li, Minhui Xue, Gareth Tyson, Haojin Zhu(参考訳) 多数のオープンソースおよび商用のマルウェア検知器が利用可能である。 しかし、これらのツールの有効性は新たな敵攻撃によって脅かされており、マルウェアは例えば機械学習技術を使って検出を回避しようとする。 本研究では,特徴空間と問題空間操作の両方に依存する逆回避攻撃を設計する。 検出に影響を及ぼす最も重要な特徴を特定することで、回避を最大化する。 そして、この攻撃をベンチマークとして、いくつかの最先端のマルウェア検出器を評価する。 私たちはそれを見つけ i) 最先端のマルウェア検出器は,単純な回避戦略でさえも脆弱であり,市販の技術を用いて容易に騙すことができる。 二 特徴空間の操作及び問題空間の難読化を組み合わせて、検出器のホワイトボックスの理解を必要とせずに回避することができる。 (iii)機能操作をガイドし、複数の検出器をまたぐ攻撃方法を説明するために、説明可能性アプローチ(SHAPなど)を用いることができる。 我々の発見は、現在のマルウェア検知器の弱点と、それを改善する方法に光を当てた。

Numerous open-source and commercial malware detectors are available. However, the efficacy of these tools has been threatened by new adversarial attacks, whereby malware attempts to evade detection using, for example, machine learning techniques. In this work, we design an adversarial evasion attack that relies on both feature-space and problem-space manipulation. It uses explainability-guided feature selection to maximize evasion by identifying the most critical features that impact detection. We then use this attack as a benchmark to evaluate several state-of-the-art malware detectors. We find that (i) state-of-the-art malware detectors are vulnerable to even simple evasion strategies, and they can easily be tricked using off-the-shelf techniques; (ii) feature-space manipulation and problem-space obfuscation can be combined to enable evasion without needing white-box understanding of the detector; (iii) we can use explainability approaches (e.g., SHAP) to guide the feature manipulation and explain how attacks can transfer across multiple detectors. Our findings shed light on the weaknesses of current malware detectors, as well as how they can be improved.
翻訳日:2021-11-22 23:27:26 公開日:2021-11-19
# (参考訳) RecGURU:クロスドメインレコメンデーションのための汎用ユーザ表現の逆学習

RecGURU: Adversarial Learning of Generalized User Representations for Cross-Domain Recommendation ( http://arxiv.org/abs/2111.10093v1 )

ライセンス: CC BY 4.0
Chenglin Li, Mingjun Zhao, Huanming Zhang, Chenyun Yu, Lei Cheng, Guoqiang Shu, Beibei Kong, Di Niu(参考訳) ドメイン間のレコメンデーションは、従来のシーケンシャルなレコメンデーションシステムにおけるデータスパリティの問題を軽減するのに役立つ。 本稿では,2つのドメインに共通ユーザが存在する場合であっても,逐次レコメンデーションにおいて,ドメイン間のユーザ情報を包含する一般化ユーザ表現(gur)を生成するための正規化アルゴリズムフレームワークを提案する。 本稿では,潜在ユーザ表現を導出する自己注意型オートエンコーダと,生成された潜在ユーザ表現の起源ドメインを予測するドメイン識別器を提案する。 本稿では,異なるドメインから生成されたユーザ埋め込みをユーザ毎に単一のグローバルGURに統一する,2つのモジュールの学習方法を提案する。 学習されたGURは、ユーザの全体的な嗜好と特性をキャプチャし、ユーザの行動データを強化し、ユーザが関与する単一ドメインのレコメンデーションを改善するために使用できる。 2つのパブリックなドメイン間リコメンデーションデータセットと、現実世界のアプリケーションから収集された大規模なデータセットに関する広範な実験が行われた。 その結果、RecGURUはパフォーマンスを向上し、最先端のシーケンシャルレコメンデーションやクロスドメインレコメンデーションメソッドよりも優れていることが示された。 収集したデータは、将来の研究を促進するためにリリースされる。

Cross-domain recommendation can help alleviate the data sparsity issue in traditional sequential recommender systems. In this paper, we propose the RecGURU algorithm framework to generate a Generalized User Representation (GUR) incorporating user information across domains in sequential recommendation, even when there is minimum or no common users in the two domains. We propose a self-attentive autoencoder to derive latent user representations, and a domain discriminator, which aims to predict the origin domain of a generated latent representation. We propose a novel adversarial learning method to train the two modules to unify user embeddings generated from different domains into a single global GUR for each user. The learned GUR captures the overall preferences and characteristics of a user and thus can be used to augment the behavior data and improve recommendations in any single domain in which the user is involved. Extensive experiments have been conducted on two public cross-domain recommendation datasets as well as a large dataset collected from real-world applications. The results demonstrate that RecGURU boosts performance and outperforms various state-of-the-art sequential recommendation and cross-domain recommendation methods. The collected data will be released to facilitate future research.
翻訳日:2021-11-22 22:49:37 公開日:2021-11-19
# (参考訳) ランダムウォークを意識した特徴と構造を考慮したグラフニューラルネットワーク

Graph Neural Networks with Feature and Structure Aware Random Walk ( http://arxiv.org/abs/2111.10102v1 )

ライセンス: CC BY 4.0
Wei Zhuo, Chenyun Yu, Guang Tan(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな機械学習タスクにおける表現学習に注目が集まっている。 しかし、ほとんどの既存のGNNは、隣り合うノードが異なるクラスに属するヘテロフィリーを持つグラフ上では、よく機能しない。 本稿では, 典型的な親水性グラフにおいて, エッジを指向する可能性があり, エッジを非指向的に扱うか, あるいは単純に扱うかは, GNNモデルの性能に大きな影響を与えることを示す。 さらに, ヘテロフィリーの限界により, 類似ノードからのメッセージを局所的近傍を越えて集約することが極めて有益であり, グラフの方向性を適応的に学習し, ノード間の長距離相関を利用するモデルの開発を動機づける。 まず,グラフの向き性とノード間の長距離的特徴類似性を同時に考慮し,提案する特徴認識ページランクアルゴリズムに基づいてグラフラプラシアンをdigraphに一般化する。 次に、グラフグラフラプラシアンはグラフ伝播行列を定義し、これは {\em DiglacianGCN} と呼ばれるモデルに導かれる。 これに基づいて,ノード間の可換時間によって測定されるノードの近接性をさらに活用し,トポロジーレベルでのノードの長距離相関を維持する。 ノード分類のタスクにおける既存の解に対する提案手法の有効性を,相同性の異なる10種類のデータセットに対する広範囲な実験により実証した。

Graph Neural Networks (GNNs) have received increasing attention for representation learning in various machine learning tasks. However, most existing GNNs applying neighborhood aggregation usually perform poorly on the graph with heterophily where adjacent nodes belong to different classes. In this paper, we show that in typical heterphilous graphs, the edges may be directed, and whether to treat the edges as is or simply make them undirected greatly affects the performance of the GNN models. Furthermore, due to the limitation of heterophily, it is highly beneficial for the nodes to aggregate messages from similar nodes beyond local neighborhood.These motivate us to develop a model that adaptively learns the directionality of the graph, and exploits the underlying long-distance correlations between nodes. We first generalize the graph Laplacian to digraph based on the proposed Feature-Aware PageRank algorithm, which simultaneously considers the graph directionality and long-distance feature similarity between nodes. Then digraph Laplacian defines a graph propagation matrix that leads to a model called {\em DiglacianGCN}. Based on this, we further leverage the node proximity measured by commute times between nodes, in order to preserve the nodes' long-distance correlation on the topology level. Extensive experiments on ten datasets with different levels of homophily demonstrate the effectiveness of our method over existing solutions in the task of node classification.
翻訳日:2021-11-22 22:28:18 公開日:2021-11-19
# (参考訳) Bradley-Terryモデルに基づくニューラル画像美容予測器

Neural Image Beauty Predictor Based on Bradley-Terry Model ( http://arxiv.org/abs/2111.10127v1 )

ライセンス: CC BY 4.0
Shiyu Li and Hao Ma and Xiangyu Hu(参考訳) 画像美容評価はコンピュータビジョンの重要な課題である。 したがって、画像美容評価を模倣するモデルを構築することが重要な課題となる。 ヒト視覚システム(hvs)の動作をよりよく模倣するために、異なるカテゴリの画像に関する完全な調査を実施する必要がある。 本研究は画像美観評価に焦点をあてる。 本研究では,Bradley-Terryモデルに基づくペアワイズ評価手法を用いた。 我々は,この手法が画像グループ内の他の画像評価手法よりも正確であると信じている。 さらに、画像品質評価に適した畳み込みニューラルネットワーク(CNN)もこの研究で使用されている。 本研究の第1部は,画像の美しさ比較に関する調査である。 ブラッドリー・テリーモデルは、cnnモデルのターゲットである計算スコアに使用される。 本研究の第2部では、景観画像、建築画像、肖像画など、画像美容予測の結果に焦点を当てている。 モデルはAVAデータセットによって事前トレーニングされ、後でパフォーマンスが向上する。 そして、調査した画像と対応するスコアでcnnモデルを訓練する。 さらに、文献で議論されているように、4つのCNNベースネットワーク、すなわち、Alex net、VGG net、Squeeze net、LSiM netの結果を比較する。 最後に、対の精度、相関係数、調査結果から算出した相対誤差によってモデルを評価する。 提案手法により, 約70%の精度で満足度が得られた。 我々の研究は、新しい画像美容評価法にもっと光を当てている。 さらなる研究が必要であるが、この方法は有望なステップである。

Image beauty assessment is an important subject of computer vision. Therefore, building a model to mimic the image beauty assessment becomes an important task. To better imitate the behaviours of the human visual system (HVS), a complete survey about images of different categories should be implemented. This work focuses on image beauty assessment. In this study, the pairwise evaluation method was used, which is based on the Bradley-Terry model. We believe that this method is more accurate than other image rating methods within an image group. Additionally, Convolution neural network (CNN), which is fit for image quality assessment, is used in this work. The first part of this study is a survey about the image beauty comparison of different images. The Bradley-Terry model is used for the calculated scores, which are the target of CNN model. The second part of this work focuses on the results of the image beauty prediction, including landscape images, architecture images and portrait images. The models are pretrained by the AVA dataset to improve the performance later. Then, the CNN model is trained with the surveyed images and corresponding scores. Furthermore, this work compares the results of four CNN base networks, i.e., Alex net, VGG net, Squeeze net and LSiM net, as discussed in literature. In the end, the model is evaluated by the accuracy in pairs, correlation coefficient and relative error calculated by survey results. Satisfactory results are achieved by our proposed methods with about 70 percent accuracy in pairs. Our work sheds more light on the novel image beauty assessment method. While more studies should be conducted, this method is a promising step.
翻訳日:2021-11-22 22:08:58 公開日:2021-11-19
# (参考訳) 変圧器による接地状況認識

Grounded Situation Recognition with Transformers ( http://arxiv.org/abs/2111.10135v1 )

ライセンス: CC BY-SA 4.0
Junhyeong Cho, Youngseok Yoon, Hyeonjun Lee, Suha Kwak(参考訳) 接地状況認識(英: grounded situation recognition, gsr)とは、salient action (verb) を分類するだけでなく、意味的役割とその位置に関連するエンティティ (名詞) を予測するタスクである。 視覚タスクにおけるトランスフォーマーの顕著な成功に着想を得て,トランスフォーマーエンコーダデコーダアーキテクチャに基づくGSRモデルを提案する。 本モデルの注意機構は、画像の高レベルな意味的特徴を効果的に捉えることで、正確な動詞の分類を可能にするとともに、名詞の分類と局所化を改善するために、エンティティ間の複雑で画像依存の関係を柔軟に扱うことができる。 我々のモデルは、GSRのための最初のトランスフォーマーアーキテクチャであり、SWiGベンチマークのすべての評価基準における技術の状態を達成する。 私たちのコードはhttps://github.com/jhcho99/gsrtrで利用可能です。

Grounded Situation Recognition (GSR) is the task that not only classifies a salient action (verb), but also predicts entities (nouns) associated with semantic roles and their locations in the given image. Inspired by the remarkable success of Transformers in vision tasks, we propose a GSR model based on a Transformer encoder-decoder architecture. The attention mechanism of our model enables accurate verb classification by capturing high-level semantic feature of an image effectively, and allows the model to flexibly deal with the complicated and image-dependent relations between entities for improved noun classification and localization. Our model is the first Transformer architecture for GSR, and achieves the state of the art in every evaluation metric on the SWiG benchmark. Our code is available at https://github.com/jhcho99/gsrtr .
翻訳日:2021-11-22 21:53:44 公開日:2021-11-19
# (参考訳) 言葉以上のもの:テキストから音声への視覚駆動型韻律

More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech ( http://arxiv.org/abs/2111.10139v1 )

ライセンス: CC BY 4.0
Michael Hassid, Michelle Tadmor Ramanovich, Brendan Shillingford, Miaosen Wang, Ye Jia, Tal Remez(参考訳) 本稿では,視覚駆動型テキスト音声合成モデルであるVDTTSを提案する。 ダビングによって動機づけられたVDTTSは、ビデオフレームをテキストと共に追加入力として利用し、ビデオ信号にマッチする音声を生成する。 これにより、VDTTSが通常のTSモデルとは異なり、自然なポーズやピッチのような韻律的なバリエーションを持つだけでなく、入力ビデオと同期する音声を生成することができることを示す。 実験では,VoxCeleb2 の "in-the-wild" コンテンツを含むいくつかのベンチマークを用いて,音声の音声同期品質にアプローチし,良好な同期出力が得られることを示す。 我々は,ビデオ音声同期,話者IDスワップに対する堅牢性,韻律のデモビデオの視聴を推奨する。

In this paper we present VDTTS, a Visually-Driven Text-to-Speech model. Motivated by dubbing, VDTTS takes advantage of video frames as an additional input alongside text, and generates speech that matches the video signal. We demonstrate how this allows VDTTS to, unlike plain TTS models, generate speech that not only has prosodic variations like natural pauses and pitch, but is also synchronized to the input video. Experimentally, we show our model produces well synchronized outputs, approaching the video-speech synchronization quality of the ground-truth, on several challenging benchmarks including "in-the-wild" content from VoxCeleb2. We encourage the reader to view the demo videos demonstrating video-speech synchronization, robustness to speaker ID swapping, and prosody.
翻訳日:2021-11-22 21:33:18 公開日:2021-11-19
# (参考訳) 歓迎文化と国境のフェンスの間です ドイツ新聞、欧州難民危機に関するデータセットを公表

Between welcome culture and border fence. A dataset on the European refugee crisis in German newspaper reports ( http://arxiv.org/abs/2111.10142v1 )

ライセンス: CC BY 4.0
Nico Blokker, Andr\'e Blessing, Erenay Dayanik, Jonas Kuhn, Sebastian Pad\'o, Gabriella Lapesa(参考訳) 新聞の報道は、政治科学の探求の基礎となる特定の政策分野に関する公的な議論の展開に関する豊富な情報源を提供している。 このような議論は、しばしば批判的な出来事によって引き起こされ、大衆の注目を集め、政治的アクターの反応を呼び起こす。 しかし、信頼できるアノテーションとモデリングの課題のため、高品質なアノテーションを備えた大規模データセットは少ない。 本稿は、2015年のドイツの品質新聞「タズ」における欧州難民危機に関する政治的議論を辿るDebateNet2.0を紹介する。 私たちのアノテーションの中核的な単位は、政治的主張(政策分野内で取るべき特定の行動の要求)とそれらを作る俳優(政治家、政党など)である。 この論文の貢献は2つある。 まず,新聞における政策議論のアノテーションに関する実践的,概念的な問題を通じて,読者を指導する共同パッケージである mardyR とともに DebateNet2.0 を文書化し,リリースする。 第2に,DbateNet2.0 に Discourse Network Analysis (DNA) を概説し,「難民危機」に関する政策討論の2つの重要な瞬間,すなわち4月・5月の地中海への移民フラックスと9月・10月のバルカンルート沿いの移民フラックスを比較した。 私たちは新聞記事から談話ネットワークへのステップを通じて読者と話をし、ドイツの移民討論のための1つの談話ネットワークだけでなく、関心のある話題(政治活動者、政策分野、期間)によって複数の論説ネットワークがあることを実証します。

Newspaper reports provide a rich source of information on the unfolding of public debate on specific policy fields that can serve as basis for inquiry in political science. Such debates are often triggered by critical events, which attract public attention and incite the reactions of political actors: crisis sparks the debate. However, due to the challenges of reliable annotation and modeling, few large-scale datasets with high-quality annotation are available. This paper introduces DebateNet2.0, which traces the political discourse on the European refugee crisis in the German quality newspaper taz during the year 2015. The core units of our annotation are political claims (requests for specific actions to be taken within the policy field) and the actors who make them (politicians, parties, etc.). The contribution of this paper is twofold. First, we document and release DebateNet2.0 along with its companion R package, mardyR, guiding the reader through the practical and conceptual issues related to the annotation of policy debates in newspapers. Second, we outline and apply a Discourse Network Analysis (DNA) to DebateNet2.0, comparing two crucial moments of the policy debate on the 'refugee crisis': the migration flux through the Mediterranean in April/May and the one along the Balkan route in September/October. Besides the released resources and the case-study, our contribution is also methodological: we talk the reader through the steps from a newspaper article to a discourse network, demonstrating that there is not just one discourse network for the German migration debate, but multiple ones, depending on the topic of interest (political actors, policy fields, time spans).
翻訳日:2021-11-22 21:10:24 公開日:2021-11-19
# (参考訳) 画像分類のためのニューラルネットワークの勾配からのトレーニングデータ漏洩の理解

Understanding Training-Data Leakage from Gradients in Neural Networks for Image Classification ( http://arxiv.org/abs/2111.10178v1 )

ライセンス: CC BY 4.0
Cangxiong Chen, Neill D.F. Campbell(参考訳) 教師付きタスクのためのディープラーニングモデルのフェデレーション学習(例えば、画像分類やセグメンテーション)は、例えばフィルムポストプロダクションのような、人間のアーティストのドメイン知識を効率的かつ効果的に共有できるヒューマンインザループタスクにおいて、多くの応用を見出した。 多くのアプリケーションでは、IPやプライバシの懸念により、トレーニングプロセスで勾配が共有されている場合、トレーニングデータの漏洩を防止する必要があります。 近年の研究では、アーキテクチャが分かっていれば、画像分類モデルの勾配からトレーニングデータを再構築できることが示されている。 しかし、そのような攻撃の有効性と失敗についてはまだ不完全な理論的理解が残っている。 本稿では,勾配からのトレーニングデータ漏洩源の解析を行う。 各層に対する最適化問題の反復解として,データ再構成のトレーニング問題を定式化する。 層別目的関数は、主に現在の層からの重みと勾配と、それに続く層の再構築からの出力によって定義されるが、前層からの'プルバック'制約も含む。 各層を通してネットワークの出力から逆方向の問題を解くと、トレーニングデータを再構築することができる。 この定式化に基づき、深層ネットワークにおけるトレーニングデータの潜在的漏洩を、そのアーキテクチャに分類することができる。 また,学習データに対する勾配に基づく攻撃に対して,ディープラーニングモデルのセキュリティレベルを測定する指標を提案する。

Federated learning of deep learning models for supervised tasks, e.g. image classification and segmentation, has found many applications: for example in human-in-the-loop tasks such as film post-production where it enables sharing of domain expertise of human artists in an efficient and effective fashion. In many such applications, we need to protect the training data from being leaked when gradients are shared in the training process due to IP or privacy concerns. Recent works have demonstrated that it is possible to reconstruct the training data from gradients for an image-classification model when its architecture is known. However, there is still an incomplete theoretical understanding of the efficacy and failure of such attacks. In this paper, we analyse the source of training-data leakage from gradients. We formulate the problem of training data reconstruction as solving an optimisation problem iteratively for each layer. The layer-wise objective function is primarily defined by weights and gradients from the current layer as well as the output from the reconstruction of the subsequent layer, but it might also involve a 'pull-back' constraint from the preceding layer. Training data can be reconstructed when we solve the problem backward from the output of the network through each layer. Based on this formulation, we are able to attribute the potential leakage of the training data in a deep network to its architecture. We also propose a metric to measure the level of security of a deep learning model against gradient-based attacks on the training data.
翻訳日:2021-11-22 21:09:13 公開日:2021-11-19
# (参考訳) フェデレーション学習の最大化への期待

An Expectation-Maximization Perspective on Federated Learning ( http://arxiv.org/abs/2111.10192v1 )

ライセンス: CC BY 4.0
Christos Louizos, Matthias Reisser, Joseph Soriaga, Max Welling(参考訳) フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。 本研究では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバによる連合学習プロセスを考察する。 我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。 FedAvg のこの視点は、この分野におけるいくつかの最近の研究を統合し、階層モデルに対する異なる選択を通じて拡張の可能性を開く。 そこで本研究では,スパルサリティを促進するために,事前分布を用いた階層モデルの変種を提案する。 同様に、学習のためのhard-emアルゴリズムを使用することで、federated learning設定でスパースニューラルネットワークを学習できる方法であるfederparseを得る。 FedSparseはクライアントからサーバ、リバーサへの通信コストを削減し、また、分散ネットワークによる推論の計算コストも削減します。

Federated learning describes the distributed training of models across multiple clients while keeping the data private on-device. In this work, we view the server-orchestrated federated learning process as a hierarchical latent variable model where the server provides the parameters of a prior distribution over the client-specific model parameters. We show that with simple Gaussian priors and a hard version of the well known Expectation-Maximization (EM) algorithm, learning in such a model corresponds to FedAvg, the most popular algorithm for the federated learning setting. This perspective on FedAvg unifies several recent works in the field and opens up the possibility for extensions through different choices for the hierarchical model. Based on this view, we further propose a variant of the hierarchical model that employs prior distributions to promote sparsity. By similarly using the hard-EM algorithm for learning, we obtain FedSparse, a procedure that can learn sparse neural networks in the federated learning setting. FedSparse reduces communication costs from client to server and vice-versa, as well as the computational costs for inference with the sparsified network - both of which are of great practical importance in federated learning.
翻訳日:2021-11-22 21:00:58 公開日:2021-11-19
# (参考訳) 変分量子回路のコンパイルに対するポリシーのグラディエントアプローチ

Policy Gradient Approach to Compilation of Variational Quantum Circuits ( http://arxiv.org/abs/2111.10227v1 )

ライセンス: CC BY 4.0
David A. Herrera-Mart\'i(参考訳) 本稿では,政策勾配強化学習の手法に基づいて,量子回路の近似コンパイルを求める手法を提案する。 確率的ポリシーの選択により、変動パラメータではなく確率分布の観点から最適化問題を言い換えることができる。 これは、回路自由角度よりも分布パラメータを最適化することで、最適構成の探索を行うことを意味する。 要点は、ポリシーが微分可能であれば、常に勾配を計算できるということです。 非分極ノイズの存在下でも、このアプローチは勾配のない手法よりも競争力があることを数値的に示し、なぜそうであるのかを分析的に議論する。 変分コンパイルに対するこのアプローチのもう1つの興味深い特徴は、エンドポイント忠実度を推定するために別々のレジスタと長距離インタラクションを必要としないことである。 他の文脈における変分回路の訓練にこれらの手法が関係していると期待する。

We propose a method for finding approximate compilations of quantum circuits, based on techniques from policy gradient reinforcement learning. The choice of a stochastic policy allows us to rephrase the optimization problem in terms of probability distributions, rather than variational parameters. This implies that searching for the optimal configuration is done by optimizing over the distribution parameters, rather than over the circuit free angles. The upshot of this is that we can always compute a gradient, provided that the policy is differentiable. We show numerically that this approach is more competitive than those using gradient-free methods, even in the presence of depolarizing noise, and argue analytically why this is the case. Another interesting feature of this approach to variational compilation is that it does not need a separate register and long-range interactions to estimate the end-point fidelity. We expect these techniques to be relevant for training variational circuit in other contexts
翻訳日:2021-11-22 20:36:28 公開日:2021-11-19
# (参考訳) xp-gan:マルチオブジェクト制御可能なビデオ生成

Xp-GAN: Unsupervised Multi-object Controllable Video Generation ( http://arxiv.org/abs/2111.10233v1 )

ライセンス: CC BY-SA 4.0
Bahman Rouhani, Mohammad Rahmati(参考訳) ビデオ生成は、幅広い潜在的なアプリケーションと多くの課題のために、機械学習において比較的新しいが人気がある分野である。 ビデオ生成における現在のメソッドは、ビデオ生成中のオブジェクトがどのように移動され、各フレームに配置されるかの正確な仕様について、ユーザがほとんど、あるいはまったく制御できない。 本稿では,オブジェクト上にバウンディングボックスを描画し,そのボックスを所望の経路に移動させるだけで,単一の初期フレームの任意の数のオブジェクトを移動させることができる新しい方法を提案する。 本モデルでは,2つのオートエンコーダを用いて動画中の動作情報とコンテンツ情報を完全に分解し,アート手法のベースラインと状態に匹敵する結果を得る。

Video Generation is a relatively new and yet popular subject in machine learning due to its vast variety of potential applications and its numerous challenges. Current methods in Video Generation provide the user with little or no control over the exact specification of how the objects in the generate video are to be moved and located at each frame, that is, the user can't explicitly control how each object in the video should move. In this paper we propose a novel method that allows the user to move any number of objects of a single initial frame just by drawing bounding boxes over those objects and then moving those boxes in the desired path. Our model utilizes two Autoencoders to fully decompose the motion and content information in a video and achieves results comparable to well-known baseline and state of the art methods.
翻訳日:2021-11-22 20:20:11 公開日:2021-11-19
# (参考訳) panoptic segmentation - レビュー

Panoptic Segmentation: A Review ( http://arxiv.org/abs/2111.10250v1 )

ライセンス: CC BY 4.0
Omar Elharrouss, Somaya Al-Maadeed, Nandhini Subramanian, Najmath Ottakath, Noor Almaadeed, and Yassine Himeur(参考訳) 映像分析のためのイメージセグメンテーションは、スマートシティ、ヘルスケア、コンピュータビジョンと地球科学、リモートセンシングアプリケーションなど、さまざまな研究分野において重要な役割を果たす。 この点において、近年、新しいセグメンテーション戦略の開発に多大な努力が注がれており、最新の成果の1つは、一眼セグメンテーションである。 後者はセマンティックとインスタンスセグメンテーションの融合によるものである。 ビデオ監視、群衆の数え上げ、自動運転、医療画像分析、一般のシーンのより深い理解など、画像シーンに関するより精巧な知識を得るために、パン光学セグメンテーションが現在研究されている。 そこで本稿では,著者の知識を最大限に活用するために,既存のpanopticセグメンテーション手法の包括的レビューを行う。 そこで, 適用アルゴリズムの性質, 応用シナリオ, 主目的に基づいて, 既存の汎視的手法の明確な分類を行う。 さらに、擬似ラベルによる新しいデータセットのアノテートにパノプティカルセグメンテーションを用いることについて論じる。 その後、異なる視点からパン光学的手法を理解するためにアブレーション研究が行われる。 さらに, 汎視的セグメンテーションに適した評価指標について検討し, 既存ソリューションの性能の比較を行い, その限界と強度を明らかにした。 最後に、課題技術が直面する現在の課題と、近い将来にかなりの関心を惹きつける今後のトレンドを詳述し、今後の研究の出発点となる。 コードはhttps://github.com/elharroussomar/awesome-panoptic-segmentationで入手できる。

Image segmentation for video analysis plays an essential role in different research fields such as smart city, healthcare, computer vision and geoscience, and remote sensing applications. In this regard, a significant effort has been devoted recently to developing novel segmentation strategies; one of the latest outstanding achievements is panoptic segmentation. The latter has resulted from the fusion of semantic and instance segmentation. Explicitly, panoptic segmentation is currently under study to help gain a more nuanced knowledge of the image scenes for video surveillance, crowd counting, self-autonomous driving, medical image analysis, and a deeper understanding of the scenes in general. To that end, we present in this paper the first comprehensive review of existing panoptic segmentation methods to the best of the authors' knowledge. Accordingly, a well-defined taxonomy of existing panoptic techniques is performed based on the nature of the adopted algorithms, application scenarios, and primary objectives. Moreover, the use of panoptic segmentation for annotating new datasets by pseudo-labeling is discussed. Moving on, ablation studies are carried out to understand the panoptic methods from different perspectives. Moreover, evaluation metrics suitable for panoptic segmentation are discussed, and a comparison of the performance of existing solutions is provided to inform the state-of-the-art and identify their limitations and strengths. Lastly, the current challenges the subject technology faces and the future trends attracting considerable interest in the near future are elaborated, which can be a starting point for the upcoming research studies. The papers provided with code are available at: https://github.com/elharroussomar/Awesome-Panoptic-Segmentation
翻訳日:2021-11-22 20:07:21 公開日:2021-11-19
# (参考訳) 血管のtortuosity測定におけるトランスファー・ラーニングの影響の解析

An Analysis of the Influence of Transfer Learning When Measuring the Tortuosity of Blood Vessels ( http://arxiv.org/abs/2111.10255v1 )

ライセンス: CC BY 4.0
Matheus V. da Silva, Julie Ouellette, Baptiste Lacoste, Cesar H. Comin(参考訳) デジタル画像における血管の特徴付けは,様々な疾患の診断や,血管系に関する最近の研究を支援する上で重要である。 血管の自動分析は通常、画像または画像のセット内の血管の同定、または分割を必要とするが、これは通常困難な作業である。 畳み込みニューラルネットワーク(CNN)は血管のセグメンテーションに関して優れた結果をもたらすことが示されている。 CNNの重要な側面の1つは、大量のデータをトレーニングして、例えば、広範囲に使用するための画像処理ソフトウェアで利用できるようにすることである。 事前訓練されたcnnは、血管の長さ、tortuosity、カリバーの計算など、下流の血管の特徴付けタスクに容易に適用することができる。 しかし、事前トレーニングされたCNNが、トレーニングされていないデータセットに適用した場合、ダウンストリームタスクに対して堅牢で偏見のない結果を提供できるかどうかはまだ不明だ。 そこで本研究では, 血管の硬さを計測し, CNNが新たなデータセットにネットワークを微調整した後でも, どの程度の偏りがあるかを調べる。 我々は,データセット上のスクラッチからトレーニングしたCNNが取得したトルチューシティ値が,異なるトルチューシティ統計を持つデータセット上で事前学習した微調整ネットワークのものと一致しないことを示す。 また,ネットワークを微調整した場合のセグメンテーション性能の向上が,そのトチュニシティの推定における各改善につながるとは限らないことを示す。 上記の問題を緩和するため,セグメンテーション性能が向上しない状況においても,特定のデータ拡張手法の適用を提案する。

Characterizing blood vessels in digital images is important for the diagnosis of many types of diseases as well as for assisting current researches regarding vascular systems. The automated analysis of blood vessels typically requires the identification, or segmentation, of the blood vessels in an image or a set of images, which is usually a challenging task. Convolutional Neural Networks (CNNs) have been shown to provide excellent results regarding the segmentation of blood vessels. One important aspect of CNNs is that they can be trained on large amounts of data and then be made available, for instance, in image processing software for wide use. The pre-trained CNNs can then be easily applied in downstream blood vessel characterization tasks such as the calculation of the length, tortuosity, or caliber of the blood vessels. Yet, it is still unclear if pre-trained CNNs can provide robust, unbiased, results on downstream tasks when applied to datasets that they were not trained on. Here, we focus on measuring the tortuosity of blood vessels and investigate to which extent CNNs may provide biased tortuosity values even after fine-tuning the network to the new dataset under study. We show that the tortuosity values obtained by a CNN trained from scratch on a dataset may not agree with those obtained by a fine-tuned network that was pre-trained on a dataset having different tortuosity statistics. In addition, we show that the improvement in segmentation performance when fine-tuning the network does not necessarily lead to a respective improvement on the estimation of the tortuosity. To mitigate the aforementioned issues, we propose the application of specific data augmentation techniques even in situations where they do not improve segmentation performance.
翻訳日:2021-11-22 19:02:50 公開日:2021-11-19
# (参考訳) 再送信によるオーバーザ・エアフェデレーション学習(拡張版)

Over-the-Air Federated Learning with Retransmissions (Extended Version) ( http://arxiv.org/abs/2111.10267v1 )

ライセンス: CC BY 4.0
Henrik Hellstr\"om, Viktoria Fodor, Carlo Fischione(参考訳) ワイヤレスデバイスの計算能力の向上と、ユーザとデバイスが生成するデータの前例のないレベルの増加により、新しい分散機械学習(ML)メソッドが出現した。 無線コミュニティでは、通信効率と非iidデータの問題に対処する能力から、連合学習(federated learning:fl)が特に注目されている。 flトレーニングは、同時アップリンク送信の干渉を利用して効率的にモデル更新を集約するover-the-air computation(aircomp)と呼ばれる無線通信方法によって促進される。 しかし,AirCompはアナログ通信を利用するため,避けられない推定誤差が生じる。 本稿では,この推定誤差がFLの収束に与える影響について検討し,資源制約された無線ネットワーク上でのFL収束を改善する手法として再送信を提案する。 まず,静的チャネル上の再送信を伴う最適AirComp電力制御方式を導出する。 次に,再送によるオーバー・ザ・エアFLの性能を調査し,FL損失関数上の2つの上限を求める。 最後に,MLモデルの学習前に計算可能な最適再送信数を選択するためのヒューリスティックを提案する。 数値計算の結果,再送信の導入は,通信や計算の面で余分なコストを伴わずに,ML性能の向上につながることが示された。 さらに,無線ネットワークのセットアップや機械学習の問題に対して,最適な再送回数を正しく特定できることを示すヒューリスティックなシミュレーション結果を提供する。

Motivated by increasing computational capabilities of wireless devices, as well as unprecedented levels of user- and device-generated data, new distributed machine learning (ML) methods have emerged. In the wireless community, Federated Learning (FL) is of particular interest due to its communication efficiency and its ability to deal with the problem of non-IID data. FL training can be accelerated by a wireless communication method called Over-the-Air Computation (AirComp) which harnesses the interference of simultaneous uplink transmissions to efficiently aggregate model updates. However, since AirComp utilizes analog communication, it introduces inevitable estimation errors. In this paper, we study the impact of such estimation errors on the convergence of FL and propose retransmissions as a method to improve FL convergence over resource-constrained wireless networks. First, we derive the optimal AirComp power control scheme with retransmissions over static channels. Then, we investigate the performance of Over-the-Air FL with retransmissions and find two upper bounds on the FL loss function. Finally, we propose a heuristic for selecting the optimal number of retransmissions, which can be calculated before training the ML model. Numerical results demonstrate that the introduction of retransmissions can lead to improved ML performance, without incurring extra costs in terms of communication or computation. Additionally, we provide simulation results on our heuristic which indicate that it can correctly identify the optimal number of retransmissions for different wireless network setups and machine learning problems.
翻訳日:2021-11-22 18:41:28 公開日:2021-11-19
# (参考訳) pointer over attention: hybrid pointer generator networkを用いたバングラテキスト要約手法の改良

Pointer over Attention: An Improved Bangla Text Summarization Approach Using Hybrid Pointer Generator Network ( http://arxiv.org/abs/2111.10269v1 )

ライセンス: CC BY 4.0
Nobel Dhar, Gaurob Saha, Prithwiraj Bhattacharjee, Avi Mallick, Md Saiful Islam(参考訳) 抽象的テキスト要約のためのニューラルシーケンス-シーケンスモデルの成功にもかかわらず、不正確な事実的詳細を繰り返したり、自分自身を繰り返す傾向があるといったいくつかの欠点がある。 本稿では,事実的詳細を不適切に再現することの欠点と句の繰り返しを解消するハイブリッドポインター生成ネットワークを提案する。 本稿では,語彙外単語を生成可能なハイブリッドポインタージェネレータネットワークを用いて注目に基づくシーケンス・ツー・シーケンスを拡大し,真偽を再現する精度を高め,繰り返しを回避できるカバレッジ機構を提案する。 入力記事の概念的完全性と事実的情報を保持する合理的な出力テキストを生成する。 評価のためには主に、広く採用されているBengaliデータセットである"BANSData"を採用しました。 さらに,人間生成サマリーに関連する133kのバングラニュース記事からなる大規模データセット"bans-133"を作成した。 提案モデルを用いて,BANS-133kデータセットのROUGE-1とROUGE-2スコアの0.66,0.41,BANS-133kデータセットの0.67,0.42をそれぞれ達成し,提案システムは従来のベンガル抽象要約技術を超え,より大きなデータセット上での安定性を示す。

Despite the success of the neural sequence-to-sequence model for abstractive text summarization, it has a few shortcomings, such as repeating inaccurate factual details and tending to repeat themselves. We propose a hybrid pointer generator network to solve the shortcomings of reproducing factual details inadequately and phrase repetition. We augment the attention-based sequence-to-sequence using a hybrid pointer generator network that can generate Out-of-Vocabulary words and enhance accuracy in reproducing authentic details and a coverage mechanism that discourages repetition. It produces a reasonable-sized output text that preserves the conceptual integrity and factual information of the input article. For evaluation, we primarily employed "BANSData" - a highly adopted publicly available Bengali dataset. Additionally, we prepared a large-scale dataset called "BANS-133" which consists of 133k Bangla news articles associated with human-generated summaries. Experimenting with the proposed model, we achieved ROUGE-1 and ROUGE-2 scores of 0.66, 0.41 for the "BANSData" dataset and 0.67, 0.42 for the BANS-133k" dataset, respectively. We demonstrated that the proposed system surpasses previous state-of-the-art Bengali abstractive summarization techniques and its stability on a larger dataset. "BANS-133" datasets and code-base will be publicly available for research.
翻訳日:2021-11-22 18:16:10 公開日:2021-11-19
# (参考訳) 多様性からのレジリエンス: 敵対的攻撃に対するモデル強化のための人口ベースアプローチ

Resilience from Diversity: Population-based approach to harden models against adversarial attacks ( http://arxiv.org/abs/2111.10272v1 )

ライセンス: CC BY 4.0
Jasser Jasser and Ivan Garibay(参考訳) 従来のディープラーニングモデルには興味深い脆弱性があり、攻撃者がタスクで失敗を強いることができる。 高速勾配符号法(fgsm)やより強力な投影勾配降下法(pgd)のような悪名高い攻撃は、入力の計算された勾配に摂動量$\epsilon$を追加して逆の例を生成し、結果としてモデルの分類の有効性が低下する。 この研究は敵攻撃に対して回復力のあるモデルを導入する。 我々のモデルは、生物科学から確立された原則を生かし、人口多様性は環境変化に対して弾力性を生み出す。 より正確には、我々のモデルは様々なサブモデルの集団から成り、それぞれのサブモデルは、手元のタスクに対して高い精度を個別に得るように訓練され、ウェイトテンソルの有意義な差異を維持せざるを得なかった。 我々のモデルが分類クエリを受け取る度に、その集団からランダムにサブモデルを選択し、クエリに応答する。 サブモデルの個体群に多様性を導入・維持するために,カウンターリンクウェイトの概念を導入する。 カウンターリンクモデル(clm)は、同時トレーニング中に周期的ランダム類似性試験を行い、精度を維持しながら多様性を保証する同じアーキテクチャのサブモデルから構成される。 私たちのテストでは、MNISTデータセットでテストするとCLMの堅牢性が約20%向上し、CIFAR-10データセットでテストすると少なくとも15%向上しました。 敵対的に訓練されたサブモデルで実装すると、この手法は最先端の堅牢性を達成する。 MNISTデータセットの$\epsilon=0.3$では、FGSMに対して94.34%、PGDに対して91%を達成した。 CIFAR-10データセットの$\epsilon=8/255$では、FGSMに対して62.97%、PGDに対して59.16%を達成した。

Traditional deep learning models exhibit intriguing vulnerabilities that allow an attacker to force them to fail at their task. Notorious attacks such as the Fast Gradient Sign Method (FGSM) and the more powerful Projected Gradient Descent (PGD) generate adversarial examples by adding a magnitude of perturbation $\epsilon$ to the input's computed gradient, resulting in a deterioration of the effectiveness of the model's classification. This work introduces a model that is resilient to adversarial attacks. Our model leverages a well established principle from biological sciences: population diversity produces resilience against environmental changes. More precisely, our model consists of a population of $n$ diverse submodels, each one of them trained to individually obtain a high accuracy for the task at hand, while forced to maintain meaningful differences in their weight tensors. Each time our model receives a classification query, it selects a submodel from its population at random to answer the query. To introduce and maintain diversity in population of submodels, we introduce the concept of counter linking weights. A Counter-Linked Model (CLM) consists of submodels of the same architecture where a periodic random similarity examination is conducted during the simultaneous training to guarantee diversity while maintaining accuracy. In our testing, CLM robustness got enhanced by around 20% when tested on the MNIST dataset and at least 15% when tested on the CIFAR-10 dataset. When implemented with adversarially trained submodels, this methodology achieves state-of-the-art robustness. On the MNIST dataset with $\epsilon=0.3$, it achieved 94.34% against FGSM and 91% against PGD. On the CIFAR-10 dataset with $\epsilon=8/255$, it achieved 62.97% against FGSM and 59.16% against PGD.
翻訳日:2021-11-22 18:05:29 公開日:2021-11-19
# (参考訳) カーネルを用いた複合適合試験

Composite Goodness-of-fit Tests with Kernels ( http://arxiv.org/abs/2111.10275v1 )

ライセンス: CC BY 4.0
Oscar Key, Tamara Fernandez, Arthur Gretton, Fran\c{c}ois-Xavier Briol(参考訳) モデルの不特定は確率モデルの実装に重大な課題を生じさせ、これによってこの問題を直接的に考慮する様々な推論手法の開発につながった。 しかし、これらのより関連するメソッドが必要かどうかは、モデルが本当に誤った仕様であるかどうかに依存し、この質問に答える一般的な方法が欠如している。 適合度テスト(goodness-of-fit test)は、データセットが固定ディストリビューションによって生成された可能性があるかどうかをテストするためのツールである。 カーネルベースのテストはこの問題に対して開発されており、その柔軟性、強力な理論的保証、幅広いシナリオにおける実装の容易さから人気がある。 本稿では、この研究の行程を、より困難な複合適合性問題にまで拡張し、その代わりに、データがパラメトリックな家系の任意の分布から来るかどうかに興味を持つ。 これは、パラメトリックモデルがデータに対して適切に指定されているかどうかをテストすることと等価である。

Model misspecification can create significant challenges for the implementation of probabilistic models, and this has led to development of a range of inference methods which directly account for this issue. However, whether these more involved methods are required will depend on whether the model is really misspecified, and there is a lack of generally applicable methods to answer this question. One set of tools which can help are goodness-of-fit tests, where we test whether a dataset could have been generated by a fixed distribution. Kernel-based tests have been developed to for this problem, and these are popular due to their flexibility, strong theoretical guarantees and ease of implementation in a wide range of scenarios. In this paper, we extend this line of work to the more challenging composite goodness-of-fit problem, where we are instead interested in whether the data comes from any distribution in some parametric family. This is equivalent to testing whether a parametric model is well-specified for the data.
翻訳日:2021-11-22 17:53:28 公開日:2021-11-19
# (参考訳) 解釈可能かつ説明可能な侵入検知システムに対するハイブリッドアプローチ

A Hybrid Approach for an Interpretable and Explainable Intrusion Detection System ( http://arxiv.org/abs/2111.10280v1 )

ライセンス: CC BY 4.0
Tiago Dias, Nuno Oliveira, Norberto Sousa, Isabel Pra\c{c}a, Orlando Sousa(参考訳) サイバーセキュリティは、かなり前から懸念されていた。 近年、サイバー攻撃は、テクノロジーの大幅な進歩によって、サイズと複雑さが増している。 今日では、ビジネス継続に不可欠なシステムやデータを保護することの避けられない必要性がある。 したがって、これらの脅威を緩和し、タイマー検出に寄与するために、多くの侵入検知システムが作成されている。 本研究は,より優れた長期的セキュリティを実現するために人工知能手法を活用する,解釈可能かつ説明可能なハイブリッド侵入検知システムを提案する。 このシステムは、ネットワーク活動から新たなエビデンスが生まれると、決定木アルゴリズムによって継続的に生成される専門家のルールと動的知識を組み合わせる。

Cybersecurity has been a concern for quite a while now. In the latest years, cyberattacks have been increasing in size and complexity, fueled by significant advances in technology. Nowadays, there is an unavoidable necessity of protecting systems and data crucial for business continuity. Hence, many intrusion detection systems have been created in an attempt to mitigate these threats and contribute to a timelier detection. This work proposes an interpretable and explainable hybrid intrusion detection system, which makes use of artificial intelligence methods to achieve better and more long-lasting security. The system combines experts' written rules and dynamic knowledge continuously generated by a decision tree algorithm as new shreds of evidence emerge from network activity.
翻訳日:2021-11-22 17:43:39 公開日:2021-11-19
# (参考訳) 神経絵画の喜び

The Joy of Neural Painting ( http://arxiv.org/abs/2111.10283v1 )

ライセンス: CC BY-SA 4.0
Ernesto Diaz-Aviles and Claudia Orellana-Rodriguez and Beth Jochim(参考訳) ニューラルペインティング(neural painters)は、ganフレームワークに従ってブラシストロークを生成し、絵を作成するためのモデルである。 GANはAIアートの優れた生成モデルですが、トレーニングが難しいことで知られています。 GANの限界を克服し,ニューラルペインティングのトレーニングを高速化するために,最終的な絵画において同じレベルの視覚美学を達成しつつ,数日から数時間に短縮するプロセスにトランスファーラーニングを適用した。 私たちはこの研究のアプローチと成果を報告します。

Neural Painters is a class of models that follows a GAN framework to generate brushstrokes, which are then composed to create paintings. GANs are great generative models for AI Art but they are known to be notoriously difficult to train. To overcome GAN's limitations and to speed up the Neural Painter training, we applied Transfer Learning to the process reducing it from days to only hours, while achieving the same level of visual aesthetics in the final paintings generated. We report our approach and results in this work.
翻訳日:2021-11-22 17:34:34 公開日:2021-11-19
# (参考訳) インスタンス適応型ビデオ圧縮:テストセットのトレーニングによるニューラルコーデックの改善

Instance-Adaptive Video Compression: Improving Neural Codecs by Training on the Test Set ( http://arxiv.org/abs/2111.10302v1 )

ライセンス: CC BY 4.0
Ties van Rozendaal, Johann Brehmer, Yunfan Zhang, Reza Pourreza, Taco S. Cohen(参考訳) インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。 送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。 最適なパラメータは潜在コードと共に受信者に送信される。 適切な混合モデルの下でパラメータ更新をエントロピー符号化することにより、ネットワークパラメータを効率的にエンコードできる。 このインスタンス適応圧縮アルゴリズムはベースモデルの選択に非依存であり、ニューラルビデオコーデックを改善する可能性がある。 UVG、HEVC、Xiphのデータセットでは、私たちのコーデックは、低レイテンシのスケールスペースフローモデルの性能を21%から26%のBDレートで、最先端のBフレームモデルは17~20%のBDレートで改善します。 また、インスタンス適応的な微調整によってドメインシフトに対する堅牢性が向上することを示す。 最後に,提案手法は圧縮モデルのキャパシティ要求を低減させる。 ネットワークサイズを72%削減した後でも,最先端のパフォーマンスを実現できることを示す。

We introduce a video compression algorithm based on instance-adaptive learning. On each video sequence to be transmitted, we finetune a pretrained compression model. The optimal parameters are transmitted to the receiver along with the latent code. By entropy-coding the parameter updates under a suitable mixture model prior, we ensure that the network parameters can be encoded efficiently. This instance-adaptive compression algorithm is agnostic about the choice of base model and has the potential to improve any neural video codec. On UVG, HEVC, and Xiph datasets, our codec improves the performance of a low-latency scale-space flow model by between 21% and 26% BD-rate savings, and that of a state-of-the-art B-frame model by 17 to 20% BD-rate savings. We also demonstrate that instance-adaptive finetuning improves the robustness to domain shift. Finally, our approach reduces the capacity requirements on compression models. We show that it enables a state-of-the-art performance even after reducing the network size by 72%.
翻訳日:2021-11-22 17:28:26 公開日:2021-11-19
# (参考訳) ファクトリゼーションに基づく画像ラベリング

Factorisation-based Image Labelling ( http://arxiv.org/abs/2111.10326v1 )

ライセンス: CC BY 4.0
Yu Yan, Yael Balbastre, Mikael Brudfors, John Ashburner(参考訳) 脳磁気共鳴画像(MRI)の解剖学的領域への分割は神経イメージングに有用である。 手動アノテーションは時間と費用がかかるため、完全に自動化され、汎用的な脳セグメンテーションアルゴリズムを持つことが非常に望ましい。 そこで本研究では,潜在変数を持つ生成モデルに基づくパッチ付きラベル伝播手法を提案する。 トレーニングが完了すると、Factisationベースのイメージラベリング(FIL)モデルは、さまざまなコントラストでターゲットイメージをラベル付けすることができます。 提案手法の有効性を,MICCAI 2012 Grand Challenge and Workshop on Multi-Atlas Labelingのデータを用いて比較した。 提案手法は汎用的な目的のため,異なるMRコントラストで取得した同一被験者の画像にラベルを付けることで,ドメインシフトの処理能力も評価する。

Segmentation of brain magnetic resonance images (MRI) into anatomical regions is a useful task in neuroimaging. Manual annotation is time consuming and expensive, so having a fully automated and general purpose brain segmentation algorithm is highly desirable. To this end, we propose a patched-based label propagation approach based on a generative model with latent variables. Once trained, our Factorisation-based Image Labelling (FIL) model is able to label target images with a variety of image contrasts. We compare the effectiveness of our proposed model against the state-of-the-art using data from the MICCAI 2012 Grand Challenge and Workshop on Multi-Atlas Labeling. As our approach is intended to be general purpose, we also assess how well it can handle domain shift by labelling images of the same subjects acquired with different MR contrasts.
翻訳日:2021-11-22 16:54:41 公開日:2021-11-19
# (参考訳) 大規模ビデオ転写を用いた高分解能ビデオランゲージ表現の改良

Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions ( http://arxiv.org/abs/2111.10337v1 )

ライセンス: CC BY 4.0
Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo(参考訳) 共同ビデオと言語(VL)の事前学習について検討し、モダリティ間の学習を可能にし、多くの下流VLタスクに役立てる。 既存の作業は、低品質のビデオの特徴を抽出するか、限られたテキスト埋め込みを学習する一方、高解像度のビデオと多彩なセマンティクスは、モダリティ間の学習を大幅に改善できることを無視する。 本稿では,多くの視覚的タスクを対象とした高分解能・多変量VIdeo-LAnguage事前学習モデル(HD-VILA)を提案する。 特に、2つの異なる特性を持つ大きなデータセットを収集する。 1)720pビデオの371.5k時間を含む最初の高解像度データセット 2)最も多様なデータセットは15のyoutubeカテゴリをカバーする。 vl事前学習を可能にするために,リッチな時空間的特徴を学習するハイブリッドトランスフォーマティブと,学習した映像特徴と多様なテキストとの相互作用を強制するマルチモーダルトランスフォーマによるhd-vilaモデルを共同で最適化する。 事前学習モデルは、10のvl理解タスクと2つの新しいテキスト・ツー・ビジュアル生成タスクで最新の結果を得る。 例えば、ゼロショットMSR-VTTテキスト・ビデオ検索タスクでは38.5%のR@1、高解像度データセットLSMDCでは53.6%でSOTAモデルを上回った。 学習されたVL埋め込みは、テキスト対視覚操作や超解像度タスクにおいて視覚的に快く意味的に関連する結果を生成するのにも有効である。

We study joint video and language (VL) pre-training to enable cross-modality learning and benefit plentiful downstream VL tasks. Existing works either extract low-quality video features or learn limited text embedding, while neglecting that high-resolution videos and diversified semantics can significantly improve cross-modality learning. In this paper, we propose a novel High-resolution and Diversified VIdeo-LAnguage pre-training model (HD-VILA) for many visual tasks. In particular, we collect a large dataset with two distinct properties: 1) the first high-resolution dataset including 371.5k hours of 720p videos, and 2) the most diversified dataset covering 15 popular YouTube categories. To enable VL pre-training, we jointly optimize the HD-VILA model by a hybrid Transformer that learns rich spatiotemporal features, and a multimodal Transformer that enforces interactions of the learned video features with diversified texts. Our pre-training model achieves new state-of-the-art results in 10 VL understanding tasks and 2 more novel text-to-visual generation tasks. For example, we outperform SOTA models with relative increases of 38.5% R@1 in zero-shot MSR-VTT text-to-video retrieval task, and 53.6% in high-resolution dataset LSMDC. The learned VL embedding is also effective in generating visually pleasing and semantically relevant results in text-to-visual manipulation and super-resolution tasks.
翻訳日:2021-11-22 16:53:46 公開日:2021-11-19
# (参考訳) 統計的逆数における適応性の力について

On the power of adaptivity in statistical adversaries ( http://arxiv.org/abs/2111.10352v1 )

ライセンス: CC BY 4.0
Guy Blanc, Jane Lange, Ali Malik, Li-Yang Tan(参考訳) 本稿では,アルゴリズムが分布$\mathcal{D}$から引き出す統計的問題において,逆雑音モデルに関する基本的問題について検討する。 これらの敵の定義は、許容される腐敗の種類(ノイズモデル)と、これらの腐敗(適応性)を規定している。後者は、$\mathcal{d}$の分布を損なうことしかできない限定的な敵と、その腐敗を$\mathcal{d}$から引き出す特定のサンプル$s$に依存する適応的な敵とを区別する。 本研究では,文献で研究されているすべてのノイズモデルにおいて,難解な敵が適応的敵に効果的に等価であるか否かを検討する。 具体的には、従属敵の存在下でのアルゴリズム $\mathcal{a}$ の振る舞いは、常に適応敵の存在下で $\mathcal{a}'$ のアルゴリズムの振る舞いによって近似することができるか? 最初の結果は、すべての妥当なノイズモデルの下で、統計クエリアルゴリズムの幅広いクラスが実際にそうであることを示している。 次に、付加雑音の特定の場合において、この等価性はすべてのアルゴリズムに対して成立することを示す。 最後に、すべてのアルゴリズムと妥当なノイズモデルに対して、このステートメントを最大限の汎用性で証明するアプローチを図示する。

We study a fundamental question concerning adversarial noise models in statistical problems where the algorithm receives i.i.d. draws from a distribution $\mathcal{D}$. The definitions of these adversaries specify the type of allowable corruptions (noise model) as well as when these corruptions can be made (adaptivity); the latter differentiates between oblivious adversaries that can only corrupt the distribution $\mathcal{D}$ and adaptive adversaries that can have their corruptions depend on the specific sample $S$ that is drawn from $\mathcal{D}$. In this work, we investigate whether oblivious adversaries are effectively equivalent to adaptive adversaries, across all noise models studied in the literature. Specifically, can the behavior of an algorithm $\mathcal{A}$ in the presence of oblivious adversaries always be well-approximated by that of an algorithm $\mathcal{A}'$ in the presence of adaptive adversaries? Our first result shows that this is indeed the case for the broad class of statistical query algorithms, under all reasonable noise models. We then show that in the specific case of additive noise, this equivalence holds for all algorithms. Finally, we map out an approach towards proving this statement in its fullest generality, for all algorithms and under all reasonable noise models.
翻訳日:2021-11-22 16:36:43 公開日:2021-11-19
# メカニクスインフォームド機械学習を用いた食道仮想疾患の展望

Esophageal virtual disease landscape using mechanics-informed machine learning ( http://arxiv.org/abs/2111.09993v1 )

ライセンス: Link先を確認
Sourav Halder, Jun Yamasaki, Shashank Acharya, Wenjun Kou, Guy Elisha, Dustin A. Carlson, Peter J. Kahrilas, John E. Pandolfino, Neelesh A. Patankar(参考訳) 食道疾患の病態は食道壁の力学と関連している。 そこで, 食道疾患の根底にあるメカニズムを理解するためには, 食道壁力学に基づくパラメータを, 経時的変化と下垂体IPPに対応する生理的, 病態的条件にマッピングすることが重要である。 本研究では,流体力学と機械学習を組み合わせることで,食道疾患の根底にある物理を同定し,仮想疾患景観 (virtual disease landscape, vdl) と呼ばれるパラメータ空間にマップする。 一次元逆モデルは、内視鏡的機能的ルーメンイメージングプローブ(endoflip)と呼ばれる食道診断装置からの出力を処理し、食道壁の剛性、筋収縮パターン、食道壁の活発な緩和などのメカニカルベースのパラメータのセットを予測し、食道の機械的「健康」を推定する。 メカニクスに基づくパラメータは、潜伏空間を生成する変分オートエンコーダ(VAE)と、食道胃接合運動を推定するための機械的作業量を予測するサイドネットワークからなるニューラルネットワークのトレーニングに使用される。 潜在ベクトルと離散力学に基づくパラメータのセットは、VDLを定義し、様々な食道疾患に対応するクラスターを形成する。 VDLは異なる疾患を区別するだけでなく、病気の進行を予測するのにも使える。 最後に,治療効果を推定し,治療後の患者状態を追跡するための枠組みの臨床的適用性を示す。

The pathogenesis of esophageal disorders is related to the esophageal wall mechanics. Therefore, to understand the underlying fundamental mechanisms behind various esophageal disorders, it is crucial to map the esophageal wall mechanics-based parameters onto physiological and pathophysiological conditions corresponding to altered bolus transit and supraphysiologic IBP. In this work, we present a hybrid framework that combines fluid mechanics and machine learning to identify the underlying physics of the various esophageal disorders and maps them onto a parameter space which we call the virtual disease landscape (VDL). A one-dimensional inverse model processes the output from an esophageal diagnostic device called endoscopic functional lumen imaging probe (EndoFLIP) to estimate the mechanical "health" of the esophagus by predicting a set of mechanics-based parameters such as esophageal wall stiffness, muscle contraction pattern and active relaxation of esophageal walls. The mechanics-based parameters were then used to train a neural network that consists of a variational autoencoder (VAE) that generates a latent space and a side network that predicts mechanical work metrics for estimating esophagogastric junction motility. The latent vectors along with a set of discrete mechanics-based parameters define the VDL and form clusters corresponding to the various esophageal disorders. The VDL not only distinguishes different disorders but can also be used to predict disease progression in time. Finally, we also demonstrate the clinical applicability of this framework for estimating the effectiveness of a treatment and track patient condition after a treatment.
翻訳日:2021-11-22 16:34:39 公開日:2021-11-19
# 条件付き生成ネットを用いたフラッシュメモリチャネルのモデリング

Modeling Flash Memory Channels Using Conditional Generative Nets ( http://arxiv.org/abs/2111.10039v1 )

ライセンス: Link先を確認
Simeng Zheng, Chih-Hui Ho, Paul H. Siegel(参考訳) nandフラッシュメモリチャネルの理解は、継続的な密度増加と書き込みおよび読み取り機構に起因する複雑な歪みのため、ますます困難になっている。 本研究では,フラッシュメモリチャネルを特徴付けるデータ駆動型生成モデリング手法を提案する。 学習したモデルは、セルとその周辺セルのプログラムレベルに基づいて、個々のメモリセルから読み出し電圧を再構成することができる。 実験の結果, 再構成された読み出し電圧の統計的分布は, 市販フラッシュメモリチップ上で測定された分布を, 総変動距離で定量的かつ定量に反映することがわかった。 さらに,単語行とビット行の特定のパターンの誤り確率の比較により,学習モデルが正確なセル間干渉(ICI)効果を捉えることができることを確認した。

Understanding the NAND flash memory channel has become more and more challenging due to the continually increasing density and the complex distortions arising from the write and read mechanisms. In this work, we propose a data-driven generative modeling method to characterize the flash memory channel. The learned model can reconstruct the read voltage from an individual memory cell based on the program levels of the cell and its surrounding array of cells. Experimental results show that the statistical distribution of the reconstructed read voltages accurately reflects the measured distribution on a commercial flash memory chip, both qualitatively and as quantified by the total variation distance. Moreover, we observe that the learned model can capture precise inter-cell interference (ICI) effects, as verified by comparison of the error probabilities of specific patterns in wordlines and bitlines.
翻訳日:2021-11-22 16:34:11 公開日:2021-11-19
# A* の埋め込みとラベリング方式

Embeddings and labeling schemes for A* ( http://arxiv.org/abs/2111.10041v1 )

ライセンス: Link先を確認
Talya Eden, Piotr Indyk, Haike Xu(参考訳) A*はグラフ検索と経路探索のための古典的で一般的な方法である。 これは、任意の入力ノード$u$から宛先$t$までの最も短い距離を推定するヒューリスティック関数$h(u,t)$の存在を仮定する。 伝統的に、ヒューリスティックはドメインの専門家によって手作りされている。 しかし、ここ数年で、ヒューリスティックな機能を学ぶことへの関心が高まっている。 このような学習的ヒューリスティックスは、与えられたノード間の距離をこれらのノードの「特徴」に基づいて推定する。 本稿では,このような特徴に基づくヒューリスティックスの研究を形式化・開始する。 特に,ノルム埋め込みと距離ラベリングスキームによって誘導されるヒューリスティックスを考察し,各グラフノードを表すために使用される次元やビットの数と,A*アルゴリズムの実行時間とのトレードオフを低くする。 また、自然仮定の下では、下限はほぼ最適であることも示している。

A* is a classic and popular method for graphs search and path finding. It assumes the existence of a heuristic function $h(u,t)$ that estimates the shortest distance from any input node $u$ to the destination $t$. Traditionally, heuristics have been handcrafted by domain experts. However, over the last few years, there has been a growing interest in learning heuristic functions. Such learned heuristics estimate the distance between given nodes based on "features" of those nodes. In this paper we formalize and initiate the study of such feature-based heuristics. In particular, we consider heuristics induced by norm embeddings and distance labeling schemes, and provide lower bounds for the tradeoffs between the number of dimensions or bits used to represent each graph node, and the running time of the A* algorithm. We also show that, under natural assumptions, our lower bounds are almost optimal.
翻訳日:2021-11-22 16:33:59 公開日:2021-11-19
# 層間関係伝搬を用いた深部都市音の分類

Interpreting deep urban sound classification using Layer-wise Relevance Propagation ( http://arxiv.org/abs/2111.10235v1 )

ライセンス: Link先を確認
Marco Colussi and Stavros Ntalampiras(参考訳) 都市音分類のためのディープニューラルネットワークを構築した後、この研究は聴覚障害に苦しむドライバーの繊細な応用に焦点を当てた。 したがって、モデル予測を正当化し解釈する明確なエチオロジーは、強い要求である。 この目的のために、我々は、MelとConstant-Q Spectrogramという2つの異なるオーディオ信号の表現を使用し、深層ニューラルネットワークによる決定は、レイヤワイドな関連性伝播によって説明される。 同時に、両特徴集合に高い関連性を持つ周波数コンテンツが、現在分類課題を特徴付ける極端に識別的な情報を示す。 総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。

After constructing a deep neural network for urban sound classification, this work focuses on the sensitive application of assisting drivers suffering from hearing loss. As such, clear etiology justifying and interpreting model predictions comprise a strong requirement. To this end, we used two different representations of audio signals, i.e. Mel and constant-Q spectrograms, while the decisions made by the deep neural network are explained via layer-wise relevance propagation. At the same time, frequency content assigned with high relevance in both feature sets, indicates extremely discriminative information characterizing the present classification task. Overall, we present an explainable AI framework for understanding deep urban sound classification.
翻訳日:2021-11-22 16:33:44 公開日:2021-11-19
# 一般ベイズ学習における後部濃度と高速収束率

Posterior concentration and fast convergence rates for generalized Bayesian learning ( http://arxiv.org/abs/2111.10243v1 )

ライセンス: Link先を確認
Lam Si Tung Ho, Binh T. Nguyen, Vu Dinh, Duy Nguyen(参考訳) 本稿では,一般化ベイズ推定器の学習率について,仮説クラスが非対称で不規則な形状であり,損失関数が重く,最適仮説が一意ではないような一般的な設定で検討する。 マルチスケールベルンシュタイン条件下では、一般化後分布は最適仮説の集合を中心に集中しており、一般化ベイズ推定器は高速な学習率を達成することができる。 この結果から,標準ベイズ線形回帰が重み付き分布に対して頑健であることを示す。

In this paper, we study the learning rate of generalized Bayes estimators in a general setting where the hypothesis class can be uncountable and have an irregular shape, the loss function can have heavy tails, and the optimal hypothesis may not be unique. We prove that under the multi-scale Bernstein's condition, the generalized posterior distribution concentrates around the set of optimal hypotheses and the generalized Bayes estimator can achieve fast learning rate. Our results are applied to show that the standard Bayesian linear regression is robust to heavy-tailed distributions.
翻訳日:2021-11-22 16:32:23 公開日:2021-11-19
# 平均シフトアルゴリズムとクラスタツリーの漸近等価性

An Asymptotic Equivalence between the Mean-Shift Algorithm and the Cluster Tree ( http://arxiv.org/abs/2111.10298v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Wanli Qiao(参考訳) 1970年代には、ハルディガンが提唱したレベルセットやクラスタツリーによるクラスタリングと、福永とホステラーが提唱した勾配線や勾配流によるクラスタリングの2つの重要な非パラメトリックなアプローチが現れた。 最近の論文では、これらの2つのアプローチは基本的に同じであり、勾配流がクラスタツリーに沿って移動する手段を提供することを示す。 より強固なケースを作るとき、私たちは、勾配フローがそうであるのに対して、クラスタツリーが基盤となる密度のサポート全体の分割を定義しないという事実に直面する。 本稿では,クラスタツリーからの分割を得る2つの方法 -- それぞれが単独で非常に自然である -- を提案し,その両方がサンプリング密度の標準的な仮定の下での勾配フローによって与えられる分割に還元されることを示すことで,この混乱を解消する。

Two important nonparametric approaches to clustering emerged in the 1970's: clustering by level sets or cluster tree as proposed by Hartigan, and clustering by gradient lines or gradient flow as proposed by Fukunaga and Hosteler. In a recent paper, we argue the thesis that these two approaches are fundamentally the same by showing that the gradient flow provides a way to move along the cluster tree. In making a stronger case, we are confronted with the fact the cluster tree does not define a partition of the entire support of the underlying density, while the gradient flow does. In the present paper, we resolve this conundrum by proposing two ways of obtaining a partition from the cluster tree -- each one of them very natural in its own right -- and showing that both of them reduce to the partition given by the gradient flow under standard assumptions on the sampling density.
翻訳日:2021-11-22 16:32:13 公開日:2021-11-19
# 均一ブラケット,容器,複合macbeath領域

Uniform Brackets, Containers, and Combinatorial Macbeath Regions ( http://arxiv.org/abs/2111.10048v1 )

ライセンス: Link先を確認
Kunal Dutta, Arijit Ghosh and Shay Moran(参考訳) 統計学と確率論における「一様」括弧、オンラインおよび分散学習理論における「コンテナ」、離散および計算幾何学における「組合せマクベス領域」の3つの異なる組み合わせ構造間の関係について検討する。 この3つの概念は、一様収束のためのvapnik-chervonenkis型理論のラインに沿って統一された枠組みの下で表現できる単一組合せ的性質の表象であることを示す。 これらの新しい接続は、これらのオブジェクトに対する改善された境界を証明するために、離散的および計算幾何学のツールをもたらすのに役立ちます。 提案手法は,半代数的しきい値関数の平滑化に対して,半空間の分散学習のための最適アルゴリズム,分散凸集合不連続性問題に対する改良アルゴリズム,オンラインアルゴリズムの後悔境界の改善に寄与する。

We study the connections between three seemingly different combinatorial structures - "uniform" brackets in statistics and probability theory, "containers" in online and distributed learning theory, and "combinatorial Macbeath regions", or Mnets in discrete and computational geometry. We show that these three concepts are manifestations of a single combinatorial property that can be expressed under a unified framework along the lines of Vapnik-Chervonenkis type theory for uniform convergence. These new connections help us to bring tools from discrete and computational geometry to prove improved bounds for these objects. Our improved bounds help to get an optimal algorithm for distributed learning of halfspaces, an improved algorithm for the distributed convex set disjointness problem, and improved regret bounds for online algorithms against a smoothed adversary for a large class of semi-algebraic threshold functions.
翻訳日:2021-11-22 16:31:56 公開日:2021-11-19
# (参考訳) ニューラルアルゴリズム推論を用いた視覚アナロジーの解法

Solving Visual Analogies Using Neural Algorithmic Reasoning ( http://arxiv.org/abs/2111.10361v1 )

ライセンス: CC BY 4.0
Atharv Sonwane, Gautam Shroff, Lovekesh Vig, Ashwin Srinivasan, Tirtharaj Dash(参考訳) 入力/出力画像のペアが関連している変換列の発見に関わる視覚的類似推論問題のクラスを、アナログ的に将来の入力を変換するために検討する。 このプログラム合成タスクは記号探索により容易に解決できる。 Velickovic と Blundell 2021 の「ニューラルアナログ推論」アプローチのバリエーションを用いて、入力画像が直接符号化されるシンボリック空間から導出される分散表現を操作する基本的ニューラルネットワーク変換のシーケンスを探索する。 形態や位置が見えない画像に対して、「神経推論」アプローチが一般化する範囲を評価する。

We consider a class of visual analogical reasoning problems that involve discovering the sequence of transformations by which pairs of input/output images are related, so as to analogously transform future inputs. This program synthesis task can be easily solved via symbolic search. Using a variation of the `neural analogical reasoning' approach of (Velickovic and Blundell 2021), we instead search for a sequence of elementary neural network transformations that manipulate distributed representations derived from a symbolic space, to which input images are directly encoded. We evaluate the extent to which our `neural reasoning' approach generalizes for images with unseen shapes and positions.
翻訳日:2021-11-22 16:30:31 公開日:2021-11-19
# 教師なしビジュアル時系列表現学習とクラスタリング

Unsupervised Visual Time-Series Representation Learning and Clustering ( http://arxiv.org/abs/2111.10309v1 )

ライセンス: Link先を確認
Gaurangi Anand and Richi Nayak(参考訳) 時系列データは、IoT(Internet-of-Things)インフラストラクチャ、コネクテッドおよびウェアラブルデバイス、リモートセンシング、自律運転研究、オーディオビデオ通信など、ユビキタスに生成される。 本稿では,これらの時系列における教師なし表現学習の可能性について検討する。 本稿では、新しいデータ変換と教師なし学習システムを用いて、学習を他のドメインから時系列に転送し、前者が非常に大きなラベル付きデータセットで訓練された広範囲なモデルを持つようにする。 時系列クラスタリングにより,提案手法の可能性を実証する広範囲な実験を行った。

Time-series data is generated ubiquitously from Internet-of-Things (IoT) infrastructure, connected and wearable devices, remote sensing, autonomous driving research and, audio-video communications, in enormous volumes. This paper investigates the potential of unsupervised representation learning for these time-series. In this paper, we use a novel data transformation along with novel unsupervised learning regime to transfer the learning from other domains to time-series where the former have extensive models heavily trained on very large labelled datasets. We conduct extensive experiments to demonstrate the potential of the proposed approach through time-series clustering.
翻訳日:2021-11-22 16:16:55 公開日:2021-11-19
# リモートセンシングセグメンテーションタスクのための自己および半教師あり手法の評価

Evaluating Self and Semi-Supervised Methods for Remote Sensing Segmentation Tasks ( http://arxiv.org/abs/2111.10079v1 )

ライセンス: Link先を確認
Chaitanya Patel, Shashank Sharma, Varun Gulshan(参考訳) 河床セグメンテーション,土地被覆マッピング,洪水マッピングの3つのリモートセンシングタスクにおいて,下流の作業性能を改善するためにラベルのないデータを活用する,最近の自己および半教師付きML手法の厳密な評価を行う。 これらの手法は、ラベルなし画像へのアクセスが容易で、真理ラベルの取得が高価である場合が多いため、リモートセンシングタスクには特に有用である。 これらのリモートセンシングセグメンテーションタスクにおいて、ラベル付きデータセット以外の)ラベルなし画像がトレーニングに利用できる場合に期待できるパフォーマンス改善を定量化する。 テストセットがトレーニングと検証セットに対してドメインシフトがある場合、これらのテクニックの有効性をテストする実験も設計する。

We perform a rigorous evaluation of recent self and semi-supervised ML techniques that leverage unlabeled data for improving downstream task performance, on three remote sensing tasks of riverbed segmentation, land cover mapping and flood mapping. These methods are especially valuable for remote sensing tasks since there is easy access to unlabeled imagery and getting ground truth labels can often be expensive. We quantify performance improvements one can expect on these remote sensing segmentation tasks when unlabeled imagery (outside of the labeled dataset) is made available for training. We also design experiments to test the effectiveness of these techniques when the test set has a domain shift relative to the training and validation sets.
翻訳日:2021-11-22 16:16:20 公開日:2021-11-19
# 地理データのための位置エンコーダグラフニューラルネットワーク

Positional Encoder Graph Neural Networks for Geographic Data ( http://arxiv.org/abs/2111.10144v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Nathan Safir, Daniel B Neill(参考訳) グラフニューラルネットワーク(GNN)は、連続空間データをモデリングするための強力でスケーラブルなソリューションを提供する。 しかし、データの幾何学的構造に関するさらなる文脈がないため、それらは入力グラフを構築するためにユークリッド距離に依存することが多い。 この仮定は、空間構造がより複雑で明らかにユークリッド的でない(例えば道路網)多くの実世界の環境では不可能である。 本稿では,空間コンテキストと相関関係をモデルに明示的に組み込んだ新しいフレームワークPE-GNNを提案する。 近年の地理空間的補助的タスク学習と意味的空間埋め込みの進歩に基づいて,提案手法は地理的座標の文脈認識ベクトル符号化を学習し,(2)主タスクと並行してデータの空間的自己相関を予測する。 空間回帰タスクでは, 提案手法の有効性を示すとともに, 現状の異なるGNN手法よりも性能を向上する。 我々はまた,GNNが現在競争力に欠ける課題である空間補間,すなわちノード特徴のない空間回帰に対するアプローチをテストする。 本手法はgnnのベースラインよりも大幅に改善されるだけでなく,空間補間問題の最も一般的な手法であるガウス過程に適合する。

Graph neural networks (GNNs) provide a powerful and scalable solution for modeling continuous spatial data. However, in the absence of further context on the geometric structure of the data, they often rely on Euclidean distances to construct the input graphs. This assumption can be improbable in many real-world settings, where the spatial structure is more complex and explicitly non-Euclidean (e.g., road networks). In this paper, we propose PE-GNN, a new framework that incorporates spatial context and correlation explicitly into the models. Building on recent advances in geospatial auxiliary task learning and semantic spatial embeddings, our proposed method (1) learns a context-aware vector encoding of the geographic coordinates and (2) predicts spatial autocorrelation in the data in parallel with the main task. On spatial regression tasks, we show the effectiveness of our approach, improving performance over different state-of-the-art GNN approaches. We also test our approach for spatial interpolation, i.e., spatial regression without node features, a task that GNNs are currently not competitive at. We observe that our approach not only vastly improves over the GNN baselines, but can match Gaussian processes, the most commonly utilized method for spatial interpolation problems.
翻訳日:2021-11-22 16:16:06 公開日:2021-11-19
# ClevrTex: 教師なしマルチオブジェクトセグメンテーションのためのテクスチャリッチベンチマーク

ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation ( http://arxiv.org/abs/2111.10265v1 )

ライセンス: Link先を確認
Laurynas Karazija, Iro Laina, Christian Rupprecht(参考訳) 最近、シーンを教師なしの方法で、すなわち教師なしのマルチオブジェクトセグメンテーションで、複数のオブジェクトに分解およびセグメント化することを目的としたメソッドが急増している。 このようなタスクを実行することは、コンピュータビジョンの長年の目標であり、セグメンテーションモデルのトレーニングに密なアノテーションを必要とせずに、オブジェクトレベルの推論を解き放つことができる。 著しい進歩にもかかわらず、現在のモデルは、普通の背景にモノクロオブジェクトを描いた視覚的に単純なシーンで開発され、訓練されている。 しかし、自然界は視覚的に複雑であり、多様なテクスチャや複雑な照明効果といった相違点がある。 本研究では,アルゴリズムの比較,評価,解析を行う次の課題として,ClevrTexという新しいベンチマークを提案する。 ClevrTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。 背景に配置した3-10個のオブジェクトを描いた50kのサンプルが60の素材のカタログで作成され、さらに25の異なる材料で作成された10kのイメージがフィーチャーされたテストセットも用意されている。 我々は、clevrtex上で最近教師なしのマルチオブジェクトセグメンテーションモデルの大規模なセットをベンチマークし、より単純なデータで素晴らしいパフォーマンスにもかかわらず、すべての最先端のアプローチがテクスチャ設定で良い表現を学習できないことを発見した。 また、clevrtexデータセットの変種を作成し、シーンの複雑さの異なる側面を制御し、個々の欠点に対する現在のアプローチを調査します。 データセットとコードはhttps://www.robots.ox.ac.uk/~vgg/research/clevrtexで入手できる。

There has been a recent surge in methods that aim to decompose and segment scenes into multiple objects in an unsupervised manner, i.e., unsupervised multi-object segmentation. Performing such a task is a long-standing goal of computer vision, offering to unlock object-level reasoning without requiring dense annotations to train segmentation models. Despite significant progress, current models are developed and trained on visually simple scenes depicting mono-colored objects on plain backgrounds. The natural world, however, is visually complex with confounding aspects such as diverse textures and complicated lighting effects. In this study, we present a new benchmark called ClevrTex, designed as the next challenge to compare, evaluate and analyze algorithms. ClevrTex features synthetic scenes with diverse shapes, textures and photo-mapped materials, created using physically based rendering techniques. It includes 50k examples depicting 3-10 objects arranged on a background, created using a catalog of 60 materials, and a further test set featuring 10k images created using 25 different materials. We benchmark a large set of recent unsupervised multi-object segmentation models on ClevrTex and find all state-of-the-art approaches fail to learn good representations in the textured setting, despite impressive performance on simpler data. We also create variants of the ClevrTex dataset, controlling for different aspects of scene complexity, and probe current approaches for individual shortcomings. Dataset and code are available at https://www.robots.ox.ac.uk/~vgg/research/clevrtex.
翻訳日:2021-11-22 16:14:03 公開日:2021-11-19
# アーキテクチャ非依存ニューラルネットワーク圧縮のためのコンパクトパラメータ表現に向けて

Toward Compact Parameter Representations for Architecture-Agnostic Neural Network Compression ( http://arxiv.org/abs/2111.10320v1 )

ライセンス: Link先を確認
Yuezhou Sun, Wenlong Zhao, Lijun Zhang, Xiao Liu, Hui Guan, Matei Zaharia(参考訳) 本稿では,訓練パラメータをコンパクトに表現し保存するという観点から,ディープニューラルネットワーク(dnn)の圧縮について検討する。 DNNパラメータの層間アーキテクチャに依存しない表現共有の機会について検討する。 これを実現するために、feedforwardパラメータをdnnアーキテクチャから切り離し、画像記述子のために考案された極端に損失のある圧縮法である加法量子化を利用してパラメータをコンパクトに表現する。 それらの表現はタスクの精度を改善するためにタスクの目的に基づいて微調整される。 我々はmobilenet-v2, vgg-11, resnet-50, feature pyramid network, pruned dnnの分類・検出・セグメンテーションタスクに関する広範な実験を行った。 概念的に単純なスキームは、反復的な非構造化プルーニングを一貫して上回っている。 ILSVRC12分類チャレンジで76.1%の精度でResNet-50に適用されると、精度損失のない7.2\times$圧縮比と、74.79%の精度で15.3\times$圧縮比が得られる。 さらに、ネットワーク層間での表現共有が頻繁に起こり、DNN全体の共有表現を学習することで、モデルを複数の別々の部分として圧縮するよりも、同じ圧縮比で精度良く実現できることを示唆している。 我々は、リソース制約のあるデバイス上でDNNの展開を容易にするためにPyTorchコードをリリースし、DNNパラメータの効率的な表現と保存に関する今後の研究を刺激する。

This paper investigates deep neural network (DNN) compression from the perspective of compactly representing and storing trained parameters. We explore the previously overlooked opportunity of cross-layer architecture-agnostic representation sharing for DNN parameters. To do this, we decouple feedforward parameters from DNN architectures and leverage additive quantization, an extreme lossy compression method invented for image descriptors, to compactly represent the parameters. The representations are then finetuned on task objectives to improve task accuracy. We conduct extensive experiments on MobileNet-v2, VGG-11, ResNet-50, Feature Pyramid Networks, and pruned DNNs trained for classification, detection, and segmentation tasks. The conceptually simple scheme consistently outperforms iterative unstructured pruning. Applied to ResNet-50 with 76.1% top-1 accuracy on the ILSVRC12 classification challenge, it achieves a $7.2\times$ compression ratio with no accuracy loss and a $15.3\times$ compression ratio at 74.79% accuracy. Further analyses suggest that representation sharing can frequently happen across network layers and that learning shared representations for an entire DNN can achieve better accuracy at the same compression ratio than compressing the model as multiple separate parts. We release PyTorch code to facilitate DNN deployment on resource-constrained devices and spur future research on efficient representations and storage of DNN parameters.
翻訳日:2021-11-22 16:13:37 公開日:2021-11-19
# マルチスピーカーのための韻律クラスタリングの改善と話者非依存音素レベル韻律制御

Improved Prosodic Clustering for Multispeaker and Speaker-independent Phoneme-level Prosody Control ( http://arxiv.org/abs/2111.10168v1 )

ライセンス: Link先を確認
Myrsini Christidou, Alexandra Vioni, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Panos Kakoulidis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,韻律クラスタリングに基づくマルチ話者音声合成におけるf0と持続時間の音素レベル韻律制御手法を提案する。 プロソディエンコーダと並行してマルチスピーカーアーキテクチャモジュールを組み込んだ自己回帰的注意ベースモデルが用いられる。 韻律制御範囲と範囲を増加させる基本単一話者法に対するいくつかの改善が提案されている。 より具体的には、データ拡張、f0正規化、持続時間のバランス付きクラスタリング、話者非依存の韻律クラスタリングを用いる。 これらの修正は、話者のアイデンティティを維持しながら、トレーニングセットに含まれるすべての話者に対して、きめ細かい音素レベルの韻律制御を可能にする。 モデルはまた、限られた量のデータを持つ未確認話者に微調整され、その韻律制御能力を維持し、話者非依存の韻律クラスタリングが有効であることを示す。 実験結果から,提案手法は,複数話者設定が導入する可変性に拘わらず,各話者の範囲内で効率の良い韻律制御を可能にすることを確認した。

This paper presents a method for phoneme-level prosody control of F0 and duration on a multispeaker text-to-speech setup, which is based on prosodic clustering. An autoregressive attention-based model is used, incorporating multispeaker architecture modules in parallel to a prosody encoder. Several improvements over the basic single-speaker method are proposed that increase the prosodic control range and coverage. More specifically we employ data augmentation, F0 normalization, balanced clustering for duration, and speaker-independent prosodic clustering. These modifications enable fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. The model is also fine-tuned to unseen speakers with limited amounts of data and it is shown to maintain its prosody control capabilities, verifying that the speaker-independent prosodic clustering is effective. Experimental results verify that the model maintains high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
翻訳日:2021-11-22 16:13:12 公開日:2021-11-19
# 表現型非係り受け音声合成のための単語レベル制御

Word-Level Style Control for Expressive, Non-attentive Speech Synthesis ( http://arxiv.org/abs/2111.10173v1 )

ライセンス: Link先を確認
Konstantinos Klapsas, Nikolaos Ellinas, June Sig Sung, Hyoungmin Park, Spyros Raptis(参考訳) 本稿では,単語レベルで発話スタイルをモデル化し制御するための表現型音声合成アーキテクチャを提案する。 2つのエンコーダの助けを借りて、単語レベルのスタイリスティックと韻律表現の音声データの学習を試みる。 第1のモデルでは、音響的特徴から各単語のスタイルトークンの組み合わせを見つけ、第2のモデルでは、スタイル情報から切り離すために、音声情報のみに条件付けられた単語レベルのシーケンスを出力する。 2つのエンコーダ出力は、音素エンコーダ出力と整列して連結され、非減衰タコトロンモデルで復号される。 追加の事前エンコーダは、参照発話なしでモデルが実行できるように、スタイルトークンを自動回帰的に予測するために使用される。 結果として得られたモデルは、語レベルとグローバルの両方のスタイルと、韻律伝達機能の両方を制御できることが分かりました。

This paper presents an expressive speech synthesis architecture for modeling and controlling the speaking style at a word level. It attempts to learn word-level stylistic and prosodic representations of the speech data, with the aid of two encoders. The first one models style by finding a combination of style tokens for each word given the acoustic features, and the second outputs a word-level sequence conditioned only on the phonetic information in order to disentangle it from the style information. The two encoder outputs are aligned and concatenated with the phoneme encoder outputs and then decoded with a Non-Attentive Tacotron model. An extra prior encoder is used to predict the style tokens autoregressively, in order for the model to be able to run without a reference utterance. We find that the resulting model gives both word-level and global control over the style, as well as prosody transfer capabilities.
翻訳日:2021-11-22 16:12:52 公開日:2021-11-19
# エンドツーエンド音声合成における音素レベル韻律制御のための韻律クラスタリング

Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis ( http://arxiv.org/abs/2111.10177v1 )

ライセンス: Link先を確認
Alexandra Vioni, Myrsini Christidou, Nikolaos Ellinas, Georgios Vamvoukakis, Panos Kakoulidis, Taehoon Kim, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,自己回帰注意型音声合成システムにおける音素レベルの韻律制御手法を提案する。 変分フレームワークを用いて潜在韻律的特徴を学習する代わりに、トレーニングセットの音声データから音素レベルF0と持続時間特徴を直接抽出する。 各韻律的特徴は教師なしクラスタリングを用いて離散化され、発話毎に韻律的ラベルのシーケンスを生成する。 このシーケンスは、韻律エンコーダと対応する注意モジュールを利用してデコーダを条件付けるために、音素列と並行して使用される。 実験の結果,提案手法はf0と持続時間の音素レベル制御を可能とし,高品質な生成音声を保持できることがわかった。 f0クラスタのセントロイドを音符に置き換えることで、モデルは話者の範囲内で音符とオクターブを制御することもできる。

This paper presents a method for controlling the prosody at the phoneme level in an autoregressive attention-based text-to-speech system. Instead of learning latent prosodic features with a variational framework as is commonly done, we directly extract phoneme-level F0 and duration features from the speech data in the training set. Each prosodic feature is discretized using unsupervised clustering in order to produce a sequence of prosodic labels for each utterance. This sequence is used in parallel to the phoneme sequence in order to condition the decoder with the utilization of a prosodic encoder and a corresponding attention module. Experimental results show that the proposed method retains the high quality of generated speech, while allowing phoneme-level control of F0 and duration. By replacing the F0 cluster centroids with musical notes, the model can also provide control over the note and octave within the range of the speaker.
翻訳日:2021-11-22 16:12:33 公開日:2021-11-19
# SLUE:自然言語の音声理解評価のための新しいベンチマークタスク

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech ( http://arxiv.org/abs/2111.10367v1 )

ライセンス: Link先を確認
Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han(参考訳) 音声処理の進歩は、共有データセットとベンチマークによって促進されている。 歴史的にこれらは、自動音声認識(ASR)、話者識別、その他の下位レベルタスクに重点を置いている。 エンドツーエンドモデルの使用など、高レベルの言語理解タスクへの関心は高まっているが、そのようなタスクに対する注釈付きデータセットは少ない。 同時に、最近の研究は、ジェネリック表現を事前学習し、比較的少ないラベル付きデータを用いていくつかのタスクを微調整する可能性を示している。 本稿では,限定的なラベル付き学習セットと対応する評価セットからなる音声言語理解評価(SLUE)のためのベンチマークタスクスイートを作成することを提案する。 このリソースにより、研究コミュニティは進捗を追跡でき、より高いレベルのタスクに対する事前訓練された表現を評価し、パイプラインとエンドツーエンドのアプローチの実用性のようなオープンな質問を研究できる。 本稿では、名前付きエンティティ認識、感情分析、asrからなるslueベンチマークスイートの第1フェーズについて述べる。 我々は、自然に生成された(読み書きや合成されていない)音声と、自由に利用できるデータセットに焦点を当てる。 我々は,VoxCelebとVoxPopuliデータセットのサブセットに新たな転写とアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。

Progress in speech processing has been facilitated by shared datasets and benchmarks. Historically these have focused on automatic speech recognition (ASR), speaker identification, or other lower-level tasks. Interest has been growing in higher-level spoken language understanding tasks, including using end-to-end models, but there are fewer annotated datasets for such tasks. At the same time, recent work shows the possibility of pre-training generic representations and then fine-tuning for several tasks using relatively little labeled data. We propose to create a suite of benchmark tasks for Spoken Language Understanding Evaluation (SLUE) consisting of limited-size labeled training sets and corresponding evaluation sets. This resource would allow the research community to track progress, evaluate pre-trained representations for higher-level tasks, and study open questions such as the utility of pipeline versus end-to-end approaches. We present the first phase of the SLUE benchmark suite, consisting of named entity recognition, sentiment analysis, and ASR on the corresponding datasets. We focus on naturally produced (not read or synthesized) speech, and freely available datasets. We provide new transcriptions and annotations on subsets of the VoxCeleb and VoxPopuli datasets, evaluation metrics and results for baseline models, and an open-source toolkit to reproduce the baselines and evaluate new models.
翻訳日:2021-11-22 16:12:18 公開日:2021-11-19
# 整数格子上の単調部分モジュラー関数最大化のためのランダム化アルゴリズム

Randomized Algorithms for Monotone Submodular Function Maximization on the Integer Lattice ( http://arxiv.org/abs/2111.10175v1 )

ライセンス: Link先を確認
Alberto Schiabel and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) 集合部分モジュラー目的関数の最適化問題には実世界の多くの応用がある。 同じ項目を1回以上選択できるような離散的なシナリオでは、領域は2要素集合から有界整数格子へと一般化される。 本研究では,濃度制約を受ける有界整数格子上の単調部分モジュラ関数を最大化する問題を考える。 特に、drm-submodular関数、すなわち減少する戻り値特性を示す整数格子上で定義される関数の最大化に焦点をあてる。 任意の epsilon > 0 が与えられたとき、Mirzasoleiman らによる部分モジュラ函数の設定のために開発された確率的グリーディアルゴリズムに着想を得たフレームワークを用いて、O(1 - 1/e - epsilon)近似の確率的保証を持つランダム化アルゴリズムを提案する。 次に, 合成DR-部分モジュラー関数において, 提案したアルゴリズムを整数格子に適用することは, 対象問題を目標領域に還元し, 最高速の集合部分モジュラー最大化アルゴリズムを適用するなど, 選択肢よりも高速であることを示す。

Optimization problems with set submodular objective functions have many real-world applications. In discrete scenarios, where the same item can be selected more than once, the domain is generalized from a 2-element set to a bounded integer lattice. In this work, we consider the problem of maximizing a monotone submodular function on the bounded integer lattice subject to a cardinality constraint. In particular, we focus on maximizing DR-submodular functions, i.e., functions defined on the integer lattice that exhibit the diminishing returns property. Given any epsilon > 0, we present a randomized algorithm with probabilistic guarantees of O(1 - 1/e - epsilon) approximation, using a framework inspired by a Stochastic Greedy algorithm developed for set submodular functions by Mirzasoleiman et al. We then show that, on synthetic DR-submodular functions, applying our proposed algorithm on the integer lattice is faster than the alternatives, including reducing a target problem to the set domain and then applying the fastest known set submodular maximization algorithm.
翻訳日:2021-11-22 16:11:58 公開日:2021-11-19
# UN-AVOIDS:非教師的・非パラメトリックな外乱と不変検出スコーリングの可視化手法

UN-AVOIDS: Unsupervised and Nonparametric Approach for Visualizing Outliers and Invariant Detection Scoring ( http://arxiv.org/abs/2111.10010v1 )

ライセンス: Link先を確認
Waleed A.Yousef, Issa Traore, William Briguglio(参考訳) 異常(異常)の可視化と検出は多くの分野、特にサイバーセキュリティにおいて重要である。 これらの分野ではいくつかのアプローチが提案されているが、私たちの知る限りでは、どちらも同時に、あるいは協調的に、一貫した枠組みで両方の目的を達成できていない。 これらのアプローチの可視化手法は、スタンドアロンの視覚検出を容易にするデータ探索ではなく、検出アルゴリズムの出力を説明するために導入された。 UN-AVOIDSは、厳密な二分決定ではなく、不変の異常スコア(通常$[0,1]$)を割り当てる、外乱の可視化(人間のプロセス)と検出(アルゴリズムプロセス)の両方のための教師なしおよび非パラメトリックなアプローチです。 UN-AVOIDSの新規性の主な特徴は、データを新しい空間に変換することであり、この論文では、近辺累積密度関数 (NCDF) として導入され、可視化と検出の両方を行う。 この領域では、アウトレーヤは著しく視覚的に識別可能であるため、検出アルゴリズムによって割り当てられた異常スコアは、ROC曲線(AUC)の下で高い領域を達成した。 シミュレーションと最近公開された2つのサイバーセキュリティデータセットを用いてUN-AVOIDSを評価し、LOF, IF, FABODの3つの最も成功した異常検出手法と比較した。 AUCに関しては、UN-AVOIDSはほぼ総合的な勝者である。 この記事は、UN-AVOIDSの新しい理論的および実践的な道のプレビューを提供することで締めくくっている。 その中には、UN-AVOIDSの検出アルゴリズム(バックエンジンで動作する)、NCDF可視化空間(プロットに関連付けられている)、および元の特徴空間における他の従来の視覚化方法(いずれも1つのインタラクティブな環境でリンクされている)を提供することで、アナリストを支援するソフトウェアであるVAAD(Anomaly Detection)が設計されている。

The visualization and detection of anomalies (outliers) are of crucial importance to many fields, particularly cybersecurity. Several approaches have been proposed in these fields, yet to the best of our knowledge, none of them has fulfilled both objectives, simultaneously or cooperatively, in one coherent framework. The visualization methods of these approaches were introduced for explaining the output of a detection algorithm, not for data exploration that facilitates a standalone visual detection. This is our point of departure: UN-AVOIDS, an unsupervised and nonparametric approach for both visualization (a human process) and detection (an algorithmic process) of outliers, that assigns invariant anomalous scores (normalized to $[0,1]$), rather than hard binary-decision. The main aspect of novelty of UN-AVOIDS is that it transforms data into a new space, which is introduced in this paper as neighborhood cumulative density function (NCDF), in which both visualization and detection are carried out. In this space, outliers are remarkably visually distinguishable, and therefore the anomaly scores assigned by the detection algorithm achieved a high area under the ROC curve (AUC). We assessed UN-AVOIDS on both simulated and two recently published cybersecurity datasets, and compared it to three of the most successful anomaly detection methods: LOF, IF, and FABOD. In terms of AUC, UN-AVOIDS was almost an overall winner. The article concludes by providing a preview of new theoretical and practical avenues for UN-AVOIDS. Among them is designing a visualization aided anomaly detection (VAAD), a type of software that aids analysts by providing UN-AVOIDS' detection algorithm (running in a back engine), NCDF visualization space (rendered to plots), along with other conventional methods of visualization in the original feature space, all of which are linked in one interactive environment.
翻訳日:2021-11-22 16:10:57 公開日:2021-11-19
# 神経マルコフ連鎖モンテカルロシミュレーションにおける自己相関時間の解析

Analysis of autocorrelation times in Neural Markov Chain Monte Carlo simulations ( http://arxiv.org/abs/2111.10189v1 )

ライセンス: Link先を確認
Piotr Bia{\l}as and Piotr Korcyl and Tomasz Stebel(参考訳) ニューラルマルコフ連鎖モンテカルロシミュレーションにおける自己相関の深層的研究を行った。これは、ニューラルネットワークを用いて独立した提案を行う従来のメトロポリスアルゴリズムのバージョンである。 2次元イジングモデルを用いてアイデアを説明する。 本研究では, 自己相関時間のいくつかの推定法を提案し, 解析結果に触発され, 逆温度$\beta$の関数として検討した。 そこで本研究では代替損失関数を提案し,その自己コア化時間への影響について検討する。 さらに,ニューラルネットワーク学習過程におけるシステム対称性(z_2$および/または翻訳)が自己相関時間に及ぼす影響について検討した。 最終的に,部分熱バス更新を組み込んだ手法を提案する。 上記の拡張の影響は16 \times 16$ spinシステムで議論されている。 今回の知見の要約は,より複雑なモデルのニューラルマルコフ連鎖モンテカルロシミュレーションの実装への手掛かりとなるかもしれない。

We provide a deepened study of autocorrelations in Neural Markov Chain Monte Carlo simulations, a version of the traditional Metropolis algorithm which employs neural networks to provide independent proposals. We illustrate our ideas using the two-dimensional Ising model. We propose several estimates of autocorrelation times, some inspired by analytical results derived for the Metropolized Independent Sampler, which we compare and study as a function of inverse temperature $\beta$. Based on that we propose an alternative loss function and study its impact on the autocorelation times. Furthermore, we investigate the impact of imposing system symmetries ($Z_2$ and/or translational) in the neural network training process on the autocorrelation times. Eventually, we propose a scheme which incorporates partial heat-bath updates. The impact of the above enhancements is discussed for a $16 \times 16$ spin system. The summary of our findings may serve as a guide to the implementation of Neural Markov Chain Monte Carlo simulations of more complicated models.
翻訳日:2021-11-22 16:10:20 公開日:2021-11-19
# 非同期和重みゴシッププロトコルにおける非漸近境界

Non asymptotic bounds in asynchronous sum-weight gossip protocols ( http://arxiv.org/abs/2111.10248v1 )

ライセンス: Link先を確認
David Picard, J\'er\^ome Fellus, St\'ephane Garnier(参考訳) 本稿では,非同期ゴシッププロトコルにおける非漸近拡散時間に着目した。 非同期ゴシッププロトコルは、関連するグラフ上のメッセージをランダムに交換することで、ノードネットワーク内で分散計算を行うように設計されている。 ノード間のコンセンサスを実現するには、最小のメッセージ数を交換する必要がある。 一般の場合、そのような数に確率的拘束を与える。 グラフのノード数のみに依存する完全連結グラフに対する明示的な公式と、グラフのスペクトルに依存する任意のグラフに対する近似を提供する。

This paper focuses on non-asymptotic diffusion time in asynchronous gossip protocols. Asynchronous gossip protocols are designed to perform distributed computation in a network of nodes by randomly exchanging messages on the associated graph. To achieve consensus among nodes, a minimal number of messages has to be exchanged. We provides a probabilistic bound to such number for the general case. We provide a explicit formula for fully connected graphs depending only on the number of nodes and an approximation for any graph depending on the spectrum of the graph.
翻訳日:2021-11-22 16:09:49 公開日:2021-11-19
# 小型データレジームにおける物理エンハンスドニューラルネットワーク

Physics-enhanced Neural Networks in the Small Data Regime ( http://arxiv.org/abs/2111.10329v1 )

ライセンス: Link先を確認
Jonas Eichelsd\"orfer, Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 物理システムのダイナミクスを特定するには、観測データを統一するだけでなく、物理法則も取り入れる機械学習モデルが必要である。 HamiltonianやLagrangian NNのような物理原理に基づくニューラルネットワークは、最近、外挿予測を生成し、システムのダイナミクスを正確に表現する有望な結果を示している。 また,実エネルギーレベルを訓練中の正規化項として考慮し,物理的情報を帰納バイアスとして用いることにより,さらに改善できることを示す。 特に少量のデータしか利用できない場合、これらの改善は予測能力を著しく向上させることができる。 提案する正規化項をハミルトンニューラルネットワーク(hnn)と制約付きハミルトンニューラルネットワーク(chhn)に適用し,未知の初期条件下での予測を生成し,予測精度の有意な向上を報告した。

Identifying the dynamics of physical systems requires a machine learning model that can assimilate observational data, but also incorporate the laws of physics. Neural Networks based on physical principles such as the Hamiltonian or Lagrangian NNs have recently shown promising results in generating extrapolative predictions and accurately representing the system's dynamics. We show that by additionally considering the actual energy level as a regularization term during training and thus using physical information as inductive bias, the results can be further improved. Especially in the case where only small amounts of data are available, these improvements can significantly enhance the predictive capability. We apply the proposed regularization term to a Hamiltonian Neural Network (HNN) and Constrained Hamiltonian Neural Network (CHHN) for a single and double pendulum, generate predictions under unseen initial conditions and report significant gains in predictive accuracy.
翻訳日:2021-11-22 16:09:42 公開日:2021-11-19
# ハイパースペクトル画像分類のための3次元畳み込みニューラルネットワークモデル

A 3D 2D convolutional Neural Network Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2111.10293v1 )

ライセンス: Link先を確認
Jiaxin Cao and Xiaoyan Li(参考訳) 提案したSEHybridSNモデルでは、浅い特徴を再利用するために高密度ブロックが用いられ、階層的な空間スペクトル特性をより活用することを目的とした。 その後の深度分離可能な畳み込み層を用いて空間情報を識別した。 各3次元畳み込み層と各2次元畳み込み層の後方で行うチャネルアテンション法により,空間スペクトル特性のさらなる改善を実現した。 実験の結果,本モデルは非常に少ないトレーニングデータを用いて,より識別的な空間スペクトル特徴を学習できることが示唆された。 トレーニングには0.05と0.01のラベル付きデータのみを使用するSEHybridSNが有効である。

In the proposed SEHybridSN model, a dense block was used to reuse shallow feature and aimed at better exploiting hierarchical spatial spectral feature. Subsequent depth separable convolutional layers were used to discriminate the spatial information. Further refinement of spatial spectral features was realized by the channel attention method, which were performed behind every 3D convolutional layer and every 2D convolutional layer. Experiment results indicate that our proposed model learn more discriminative spatial spectral features using very few training data. SEHybridSN using only 0.05 and 0.01 labeled data for training, a very satisfactory performance is obtained.
翻訳日:2021-11-22 16:09:26 公開日:2021-11-19
# ガウス行列過程:データにおける方向性の新しいモデル

Gaussian Determinantal Processes: a new model for directionality in data ( http://arxiv.org/abs/2111.09990v1 )

ライセンス: Link先を確認
Subhro Ghosh, Philippe Rigollet(参考訳) 決定点過程 (Determinantal point process, DPPs) は、最近、データにおける負の依存または反発の現象をモデル化するための一般的なツールとなっている。 しかしながら、古典的パラメトリック統計理論の類似性に対する我々の理解は、このクラスのモデルに対してかなり限定的である。 本研究では,観測点に対するパラメトリック変調の影響を明確に解釈可能なガウス型dppのパラメトリック系について検討する。 パラメータ変調は、その反発構造に方向性を導入することによって観測された点に影響を及ぼし、主方向は最大依存(すなわち最も長い範囲)の方向に対応することを示す。 このモデルにより、主成分分析(PCA)の新たな代替手段が容易に得られ、データが最も拡散する方向を支持する次元削減ツールとなる。 この手法は,PCA研究の枠組みとして共分散行列に類似したスパイクモデルの統計的解析によって補完される。 これらの理論的研究は、確率行列理論、確率幾何学および関連するトピックのさらなる検討に興味深い疑問を呈する。

Determinantal point processes (a.k.a. DPPs) have recently become popular tools for modeling the phenomenon of negative dependence, or repulsion, in data. However, our understanding of an analogue of a classical parametric statistical theory is rather limited for this class of models. In this work, we investigate a parametric family of Gaussian DPPs with a clearly interpretable effect of parametric modulation on the observed points. We show that parameter modulation impacts the observed points by introducing directionality in their repulsion structure, and the principal directions correspond to the directions of maximal (i.e. the most long ranged) dependency. This model readily yields a novel and viable alternative to Principal Component Analysis (PCA) as a dimension reduction tool that favors directions along which the data is most spread out. This methodological contribution is complemented by a statistical analysis of a spiked model similar to that employed for covariance matrices as a framework to study PCA. These theoretical investigations unveil intriguing questions for further examination in random matrix theory, stochastic geometry and related topics.
翻訳日:2021-11-22 16:08:04 公開日:2021-11-19
# テキスト感性分析のための辞書ベース手法とBERT

Lexicon-based Methods vs. BERT for Text Sentiment Analysis ( http://arxiv.org/abs/2111.10097v1 )

ライセンス: Link先を確認
Anastasia Kotelnikova, Danil Paschenko, Klavdiya Bochenina, Evgeny Kotelnikov(参考訳) 近年,感情分析手法の性能が大幅に向上している。 これはTransformerアーキテクチャ、特にBERTに基づく様々なモデルの使用によるものである。 しかし、深層ニューラルネットワークモデルは訓練が困難であり、解釈が不十分である。 別のアプローチとして、感情レキシコンを用いたルールベース手法がある。 それらは速く、訓練を必要としず、よく解釈される。 しかし、最近はディープラーニングの普及により、レキシコンベースの手法が背景に回帰している。 本稿の目的は,ロシア語に適応したSO-CAL法とSentiStrength lexicon法の性能を検討することである。 我々は、これらの手法、およびrubertニューラルネットワークモデルを16テキストコーパス上でテストし、その結果を分析した。 RuBERTはレキシコン法を平均で上回っているが、SO-CALは16の4コーパスでRuBERTを上回っている。

The performance of sentiment analysis methods has greatly increased in recent years. This is due to the use of various models based on the Transformer architecture, in particular BERT. However, deep neural network models are difficult to train and poorly interpretable. An alternative approach is rule-based methods using sentiment lexicons. They are fast, require no training, and are well interpreted. But recently, due to the widespread use of deep learning, lexicon-based methods have receded into the background. The purpose of the article is to study the performance of the SO-CAL and SentiStrength lexicon-based methods, adapted for the Russian language. We have tested these methods, as well as the RuBERT neural network model, on 16 text corpora and have analyzed their results. RuBERT outperforms both lexicon-based methods on average, but SO-CAL surpasses RuBERT for four corpora out of 16.
翻訳日:2021-11-22 16:07:49 公開日:2021-11-19
# BERTは感情のレキシコンを見ているか?

Does BERT look at sentiment lexicon? ( http://arxiv.org/abs/2111.10100v1 )

ライセンス: Link先を確認
Elena Razova, Sergey Vychegzhanin, Evgeny Kotelnikov(参考訳) 感情分析の主なアプローチはルールベースの手法とマシーン学習、特にBERTを含むTrans-formerアーキテクチャを備えたディープニューラルネットワークモデルである。 感情分析タスクにおけるニューラルネットワークモデルの性能は,ルールベース手法の性能よりも優れている。 この状況の理由は、ディープニューラルネットワークモデルの解釈性が悪いため、いまだに不明である。 2つのアプローチの基本的な違いを理解するための鍵の1つは、ニューラルネットワークモデルにおける感情レキシコンがどのように考慮されているかの分析である。 そこで我々は,ロシア語RuBERTモデルの注意重み行列について検討した。 我々は感傷テキストコーパスでRuBERTを微調整し、感傷的および中立的語彙に対する注意重みの分布を比較した。 平均すると、様々なモデルvar-iantsの頭部の3/4は、中性よりも感情レキシコンに統計的に注意を払っている。

The main approaches to sentiment analysis are rule-based methods and ma-chine learning, in particular, deep neural network models with the Trans-former architecture, including BERT. The performance of neural network models in the tasks of sentiment analysis is superior to the performance of rule-based methods. The reasons for this situation remain unclear due to the poor interpretability of deep neural network models. One of the main keys to understanding the fundamental differences between the two approaches is the analysis of how sentiment lexicon is taken into account in neural network models. To this end, we study the attention weights matrices of the Russian-language RuBERT model. We fine-tune RuBERT on sentiment text corpora and compare the distributions of attention weights for sentiment and neutral lexicons. It turns out that, on average, 3/4 of the heads of various model var-iants statistically pay more attention to the sentiment lexicon compared to the neutral one.
翻訳日:2021-11-22 16:07:34 公開日:2021-11-19
# 毒性検出は会話的文脈に敏感になりうる

Toxicity Detection can be Sensitive to the Conversational Context ( http://arxiv.org/abs/2111.10223v1 )

ライセンス: Link先を確認
Alexandros Xenos, John Pavlopoulos, Ion Androutsopoulos, Lucas Dixon, Jeffrey Sorensen and Leo Laugier(参考訳) 現在の毒性検出データセットでは、会話コンテキストに依存すると認識されるユーザ投稿はまれである。 したがって、既存のデータセットで訓練された毒性検知器は、文脈を無視する傾向があり、状況に敏感な毒性の検出が困難になる。 2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。 (一 注釈家は、前項を文脈として各投稿を考察し、 (ii)注釈には追加の文脈がなかった。 そこで,本稿では,コンテキスト(過去の投稿)も考慮された場合,毒性が知覚されるポストの同定を目的とした,コンテキスト感度推定という新たなタスクを導入する。 次に,本課題における機械学習システムの評価を行い,実用品質の分類器を開発することを示し,知識蒸留によるデータ拡張により,さらなる性能向上が期待できることを示す。 このようなシステムは、よりコンテキスト依存的なポストによる毒性検出データセットの強化や、モデレーターが親ポストをいつ検討すべきかの提案に利用することができる。

User posts whose perceived toxicity depends on the conversational context are rare in current toxicity detection datasets. Hence, toxicity detectors trained on existing datasets will also tend to disregard context, making the detection of context-sensitive toxicity harder when it does occur. We construct and publicly release a dataset of 10,000 posts with two kinds of toxicity labels: (i) annotators considered each post with the previous one as context; and (ii) annotators had no additional context. Based on this, we introduce a new task, context sensitivity estimation, which aims to identify posts whose perceived toxicity changes if the context (previous post) is also considered. We then evaluate machine learning systems on this task, showing that classifiers of practical quality can be developed, and we show that data augmentation with knowledge distillation can improve the performance further. Such systems could be used to enhance toxicity detection datasets with more context-dependent posts, or to suggest when moderators should consider the parent posts, which often may be unnecessary and may otherwise introduce significant additional cost.
翻訳日:2021-11-22 16:07:22 公開日:2021-11-19
# demfi:フローガイド付き注意相関と再帰的ブースティングによる深部継手デブラリングとマルチフレーム補間

DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with Flow-Guided Attentive Correlation and Recursive Boosting ( http://arxiv.org/abs/2111.09985v1 )

ライセンス: Link先を確認
Jihyong Oh, Munchurl Kim(参考訳) 本稿では,低フレームレートのぼやけたビデオから高フレームレートのシャープなビデオに,フロー誘導の注意-相関に基づく特徴ボルスターリング (FAC-FB) モジュールと再帰的ブースティング (RB) を多フレーム補間 (MFI) の観点から正確に変換する,DeMFI(DeMFI) フレームワークを提案する。 DeMFI-Netは、そのベースラインバージョンがFAC-FBモジュールで特徴フローベースのワープを実行し、シャープな補間フレームと2つのセンターインプットフレームを得る。 さらに、拡張バージョンでは、GRUベースのRBを用いた画素フローベースのワープに基づくジョイントタスク性能が向上している。 我々のFAC-FBモジュールは,特徴領域内のぼやけた入力フレーム上に分散したぼやけた画素情報を効果的に収集し,全体的な関節性能を改善する。 その結果,私たちのDeMFI-Netは,最近のSOTA法と比較して,多種多様なデータセットに対する最先端(SOTA)性能を実現している。 事前トレーニングされたDeMFI-Netを含むすべてのソースコードはhttps://github.com/JihyongOh/DeMFIで公開されている。

In this paper, we propose a novel joint deblurring and multi-frame interpolation (DeMFI) framework, called DeMFI-Net, which accurately converts blurry videos of lower-frame-rate to sharp videos at higher-frame-rate based on flow-guided attentive-correlation-based feature bolstering (FAC-FB) module and recursive boosting (RB), in terms of multi-frame interpolation (MFI). The DeMFI-Net jointly performs deblurring and MFI where its baseline version performs feature-flow-based warping with FAC-FB module to obtain a sharp-interpolated frame as well to deblur two center-input frames. Moreover, its extended version further improves the joint task performance based on pixel-flow-based warping with GRU-based RB. Our FAC-FB module effectively gathers the distributed blurry pixel information over blurry input frames in feature-domain to improve the overall joint performances, which is computationally efficient since its attentive correlation is only focused pointwise. As a result, our DeMFI-Net achieves state-of-the-art (SOTA) performances for diverse datasets with significant margins compared to the recent SOTA methods, for both deblurring and MFI. All source codes including pretrained DeMFI-Net are publicly available at https://github.com/JihyongOh/DeMFI.
翻訳日:2021-11-22 16:07:06 公開日:2021-11-19
# fbnetv5: ニューラルネットワークによる単一実行中の複数のタスクの検索

FBNetV5: Neural Architecture Search for Multiple Tasks in One Run ( http://arxiv.org/abs/2111.10007v1 )

ライセンス: Link先を確認
Bichen Wu, Chaojian Li, Hang Zhang, Xiaoliang Dai, Peizhao Zhang, Matthew Yu, Jialiang Wang, Yingyan Lin, Peter Vajda(参考訳) ニューラルネットワーク探索(NAS)は、正確で効率的な画像分類モデルの設計に広く採用されている。 しかし、新しいコンピュータビジョンタスクにNASを適用するには、まだ膨大な労力を要する。 これは 1) これまでのnas研究は,画像分類に重点を置いているが,他の課題をほとんど無視している。 2)多くのNAS作業は、他のタスクに適切に転送できないタスク固有のコンポーネントの最適化に重点を置いている。 3) 既存のNASメソッドは一般的に"プロキシレス"に設計されており、各タスクのトレーニングパイプラインに統合するためには多大な労力を要する。 これらの課題に対処するために、計算コストと人的労力を大幅に削減して、様々な視覚タスクのためのニューラルアーキテクチャを探索できるNASフレームワークであるFBNetV5を提案する。 特に私たちは 1) 単純かつ包括的で、転送可能な探索空間 2) 目標タスクの訓練パイプラインに絡み合うマルチタスク探索プロセス,及び 3)タスク数に依存しない計算コストで複数のタスクのアーキテクチャを同時に探索するアルゴリズム。 本研究では,画像分類,物体検出,意味セグメンテーションという3つの基本ビジョンタスクを対象としたfbnetv5の評価を行った。 FBNetV5が1回の検索で検索したモデルは、画像分類(例えば、FBNetV3と比較して、画像分類(+1.3% ImageNet top-1の精度)、セマンティックセグメンテーション(例えば、3.6倍のFLOPを持つSegFormerより1.8%高いADE20K val.mIoU)、オブジェクト検出(例えば、+1.1% COCO val.mAPとYOLOXに比べて1.2倍少ないFLOPを持つ)の3つのタスクにおいて、過去の最先端よりも優れていた。

Neural Architecture Search (NAS) has been widely adopted to design accurate and efficient image classification models. However, applying NAS to a new computer vision task still requires a huge amount of effort. This is because 1) previous NAS research has been over-prioritized on image classification while largely ignoring other tasks; 2) many NAS works focus on optimizing task-specific components that cannot be favorably transferred to other tasks; and 3) existing NAS methods are typically designed to be "proxyless" and require significant effort to be integrated with each new task's training pipelines. To tackle these challenges, we propose FBNetV5, a NAS framework that can search for neural architectures for a variety of vision tasks with much reduced computational cost and human effort. Specifically, we design 1) a search space that is simple yet inclusive and transferable; 2) a multitask search process that is disentangled with target tasks' training pipeline; and 3) an algorithm to simultaneously search for architectures for multiple tasks with a computational cost agnostic to the number of tasks. We evaluate the proposed FBNetV5 targeting three fundamental vision tasks -- image classification, object detection, and semantic segmentation. Models searched by FBNetV5 in a single run of search have outperformed the previous stateof-the-art in all the three tasks: image classification (e.g., +1.3% ImageNet top-1 accuracy under the same FLOPs as compared to FBNetV3), semantic segmentation (e.g., +1.8% higher ADE20K val. mIoU than SegFormer with 3.6x fewer FLOPs), and object detection (e.g., +1.1% COCO val. mAP with 1.2x fewer FLOPs as compared to YOLOX).
翻訳日:2021-11-22 16:04:44 公開日:2021-11-19
# Tiny Model Constraints下での視覚変換器におけるクエリ、キー、バリュー埋め込みの再考

Rethinking Query, Key, and Value Embedding in Vision Transformer under Tiny Model Constraints ( http://arxiv.org/abs/2111.10017v1 )

ライセンス: Link先を確認
Jaesin Ahn, Jiuk Hong, Jeongwoo Ju and Heechul Jung(参考訳) ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。 帰納バイアスと複雑性に主に焦点をあてる多くの研究にもかかわらず、より優れたトランスフォーマーネットワークを見つけるという問題が残っている。 例えば、従来のトランスフォーマーベースのモデルは、通常、各クエリ(Q)、キー(K)、値(V)の埋め込みに対して、マルチヘッド自己アテンションの前にプロジェクション層を使用する。 意味的$q、k$、および$v$埋め込みの十分な考慮がなければ、パフォーマンスが低下する可能性がある。 本稿では,$q$,$k$,$v$組込みのための3種類の構造を提案する。 最初の構造はReLUの2つの層を利用しており、これは$Q, K$, $V$の非線形埋め込みである。 2つ目は、$Q、K$、$V$の知識を共有するための非線形レイヤの1つを共有することである。 3つ目の提案された構造は、すべての非線形層をコードパラメータで共有する。 コードはトレーニング可能で、その値は、$Q$、$K$、$V$で実行される埋め込みプロセスを決定する。 そこで本研究では,提案手法が最先端手法に比べて優れた画像分類性能を示す。 提案した手法は、XCiT-N12 (69.9\%$) のトランスフォーマーモデルで要求されるものと比較して、ImageNet-1kデータセット上でいくつかのパラメータ($3.1M$)で71.4\%$を達成した。 さらに、CIFAR-10、CIFAR-100、Stanford Carsデータセット、STL-10データセットの転送学習における平均的なパラメータはわずか2.9M$で93.3\%で、これは元のXCiT-N12モデルによる9.2\%の精度よりも優れている。

A vision transformer (ViT) is the dominant model in the computer vision field. Despite numerous studies that mainly focus on dealing with inductive bias and complexity, there remains the problem of finding better transformer networks. For example, conventional transformer-based models usually use a projection layer for each query (Q), key (K), and value (V) embedding before multi-head self-attention. Insufficient consideration of semantic $Q, K$, and $V$ embedding may lead to a performance drop. In this paper, we propose three types of structures for $Q$, $K$, and $V$ embedding. The first structure utilizes two layers with ReLU, which is a non-linear embedding for $Q, K$, and $V$. The second involves sharing one of the non-linear layers to share knowledge among $Q, K$, and $V$. The third proposed structure shares all non-linear layers with code parameters. The codes are trainable, and the values determine the embedding process to be performed among $Q$, $K$, and $V$. Hence, we demonstrate the superior image classification performance of the proposed approaches in experiments compared to several state-of-the-art approaches. The proposed method achieved $71.4\%$ with a few parameters (of $3.1M$) on the ImageNet-1k dataset compared to that required by the original transformer model of XCiT-N12 ($69.9\%$). Additionally, the method achieved $93.3\%$ with only $2.9M$ parameters in transfer learning on average for the CIFAR-10, CIFAR-100, Stanford Cars datasets, and STL-10 datasets, which is better than the accuracy of $92.2\%$ obtained via the original XCiT-N12 model.
翻訳日:2021-11-22 16:04:04 公開日:2021-11-19
# UFO:視覚言語表現学習のためのUniFied TransfOrmer

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning ( http://arxiv.org/abs/2111.10023v1 )

ライセンス: Link先を確認
Jianfeng Wang, Xiaowei Hu, Zhe Gan, Zhengyuan Yang, Xiyang Dai, Zicheng Liu, Yumao Lu, Lijuan Wang(参考訳) 本稿では,視覚言語(vl)表現学習のための一様入力(画像や言語など)または多様入力(画像と質問の結合など)を処理可能な単一統一トランスフォーマ(ufo)を提案する。 既存のアプローチは通常、各モダリティのための個々のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。 ネットワークアーキテクチャを単純化するため,VL事前学習において,画像テキストコントラスト損失,画像テキストマッチング損失,マスク付き言語モデリング損失などのマルチタスク学習を双方向およびセック2セックの注意マスクに基づいて実施する。 同じトランスフォーマーネットワークは、イメージエンコーダ、テキストエンコーダ、または異なる事前訓練タスクにおける融合ネットワークとして使用される。 視覚的質問応答,COCO画像キャプション (クロスエントロピー最適化) とnocaps (SPICE) で, 異なるタスク間の対立を減らし, 新たな芸術性を実現する。 他の下流タスク、例えば画像テキスト検索では、競争性能も達成します。

In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.
翻訳日:2021-11-22 16:03:33 公開日:2021-11-19
# 舗装き裂検出のための深部領域適応

Deep Domain Adaptation for Pavement Crack Detection ( http://arxiv.org/abs/2111.10101v1 )

ライセンス: Link先を確認
Huijun Liu, Chunhua Yang, Ao Li, Yongxin Ge, Sheng Huang, Xin Feng, Zhimin Ruan(参考訳) 深層学習に基づく舗装ひび割れ検出法では,正確な予測を行うために,詳細なひび割れ位置情報を含む大規模ラベルが必要となることが多い。 しかし, 舗装ひび割れの視覚パターンが多岐にわたるため, 手作業によるひび割れ位置の特定は困難である。 本稿では,DDACDN(Deep Domain Adaptation-based Crack Detection Network)を提案する。DDACDNは,ソースドメインの知識を活用して,画像レベルのラベルのみが利用可能な対象ドメイン内の複数カテゴリの亀裂位置情報を予測する。 具体的には、ddacdnはまず、2分岐重み共有バックボーンネットワークによってソースドメインとターゲットドメインの両方からクラックの特徴を抽出する。 そして、クロスドメイン適応を実現するために、ソースドメインからターゲットドメインへのクラック特徴を適応させるために、各ドメインの特徴空間から3つのスケール特徴を集約して中間ドメインを構築する。 最後に、ネットワークは両方のドメインの知識を含んでおり、舗装の亀裂を認識し、局所化するように訓練されている。 そこで我々は,CQU-BPDD と RDD2020 の2つの難解な舗装き裂データセットを用いた。 さらに,38994枚の高分解能舗装疾患画像を含む,cqu-bpmddと呼ばれる大規模舗装多層疾患データセットを構築し,モデルのロバスト性をさらに評価した。 大規模実験により、DDACDNは対象領域の亀裂位置を予測する上で、最先端の舗装き裂検出法より優れていることが示された。

Deep learning-based pavement cracks detection methods often require large-scale labels with detailed crack location information to learn accurate predictions. In practice, however, crack locations are very difficult to be manually annotated due to various visual patterns of pavement crack. In this paper, we propose a Deep Domain Adaptation-based Crack Detection Network (DDACDN), which learns to take advantage of the source domain knowledge to predict the multi-category crack location information in the target domain, where only image-level labels are available. Specifically, DDACDN first extracts crack features from both the source and target domain by a two-branch weights-shared backbone network. And in an effort to achieve the cross-domain adaptation, an intermediate domain is constructed by aggregating the three-scale features from the feature space of each domain to adapt the crack features from the source domain to the target domain. Finally, the network involves the knowledge of both domains and is trained to recognize and localize pavement cracks. To facilitate accurate training and validation for domain adaptation, we use two challenging pavement crack datasets CQU-BPDD and RDD2020. Furthermore, we construct a new large-scale Bituminous Pavement Multi-label Disease Dataset named CQU-BPMDD, which contains 38994 high-resolution pavement disease images to further evaluate the robustness of our model. Extensive experiments demonstrate that DDACDN outperforms state-of-the-art pavement crack detection methods in predicting the crack location on the target domain.
翻訳日:2021-11-22 16:03:13 公開日:2021-11-19
# 補完画像ラベルを用いたインスタンスレベルの有能物体検出の学習

Learning to Detect Instance-level Salient Objects Using Complementary Image Labels ( http://arxiv.org/abs/2111.10137v1 )

ライセンス: Link先を確認
Xin Tian, Ke Xu, Xin Yang, Baocai Yin, Rynson W.H. Lau,(参考訳) 既存のサルエントインスタンス検出(SID)メソッドは通常、ピクセルレベルの注釈付きデータセットから学習する。 本稿では,SID問題に対する最初の弱教師付きアプローチを提案する。 一般のサリエンシ検出では弱い監視が検討されているが、主にオブジェクトのローカライゼーションにクラスラベルを使用する。 しかし、意味的な親和性が高いサルエントインスタンスはラベルによって容易に分離できないため、インスタンス認識のサルエント情報を学習するためにクラスラベルのみを使用するのは自明ではない。 サブティナイズ情報は、有能なアイテムの数を瞬時に判断するので、自然に有能なインスタンスを検出し、同じインスタンスの異なる部分をグループ化しながら、同じクラスのインスタンスを分離するのに役立ちます。 そこで本研究では,SID問題に対して,クラスとサブティナイズラベルを弱い監督力として用いることを提案する。 提案手法では,候補オブジェクトの識別にクラス一貫性情報を利用するサリエンシー検出ブランチ,オブジェクト境界の特定にクラス不一致情報を利用するバウンダリ検出ブランチ,サブイット化情報を用いたセンタロイド検出ブランチの3つの枝からなる新しい弱教師付きネットワークを提案する。 この相補的な情報は融合され、健全なインスタンスマップを生成する。 さらに,学習プロセスを容易にするため,モデルが学習したラベルノイズとそれに対応するノイズを,プログレッシブなサルエントなインスタンス予測とモデルリフレッシュで再現することで,段階的な学習手法を提案する。 提案手法は,関連するタスクから適応した,注意深く設計したベースライン手法に対して好適であることを示す。

Existing salient instance detection (SID) methods typically learn from pixel-level annotated datasets. In this paper, we present the first weakly-supervised approach to the SID problem. Although weak supervision has been considered in general saliency detection, it is mainly based on using class labels for object localization. However, it is non-trivial to use only class labels to learn instance-aware saliency information, as salient instances with high semantic affinities may not be easily separated by the labels. As the subitizing information provides an instant judgement on the number of salient items, it is naturally related to detecting salient instances and may help separate instances of the same class while grouping different parts of the same instance. Inspired by this observation, we propose to use class and subitizing labels as weak supervision for the SID problem. We propose a novel weakly-supervised network with three branches: a Saliency Detection Branch leveraging class consistency information to locate candidate objects; a Boundary Detection Branch exploiting class discrepancy information to delineate object boundaries; and a Centroid Detection Branch using subitizing information to detect salient instance centroids. This complementary information is then fused to produce a salient instance map. To facilitate the learning process, we further propose a progressive training scheme to reduce label noise and the corresponding noise learned by the model, via reciprocating the model with progressive salient instance prediction and model refreshing. Our extensive evaluations show that the proposed method plays favorably against carefully designed baseline methods adapted from related tasks.
翻訳日:2021-11-22 16:02:49 公開日:2021-11-19
# DVCFlow:人間ライクなビデオキャプションに向けた情報フローのモデリング

DVCFlow: Modeling Information Flow Towards Human-like Video Captioning ( http://arxiv.org/abs/2111.10146v1 )

ライセンス: Link先を確認
Xu Yan, Zhengcong Fei, Shuhui Wang, Qingming Huang, Qi Tian(参考訳) 高密度ビデオキャプション(dvc)は、ビデオ内の複数のイベントを解明するために、マルチセンテンス記述を生成することを目的としている。 既存の方法は、主に個々のビデオセグメントからキャプションを生成し、グローバルな視覚的コンテキストへの適応や、高速に進化した視覚コンテンツとテキスト記述の間の進行的なアライメントに欠け、冗長でスプリケートな記述をもたらす。 本稿では,映像シーケンスやキャプション間で変化する進行情報をモデル化するための情報フローの概念を紹介する。 クロスモーダル情報フローアライメント機構を設計することで、視覚情報フローとテキスト情報フローをキャプチャしてアライメントし、より豊かなコンテキストとイベント/トピック進化のダイナミクスでキャプションプロセスを内包する。 クロスモーダル情報フローアライメントモジュールをベースとしたDVCFlowフレームワークは,各ビデオセグメントのグローバル機能とローカル機能の両方をキャプチャするグローバルローカルビジュアルエンコーダと,キャプションを生成するプリトレーニング済みキャプションジェネレータで構成されている。 人気の高いActivityNet CaptionsとYouCookIIデータセットの大規模な実験は、我々の手法が競争ベースラインを著しく上回り、主観的および客観的なテストに応じてより人間的なテキストを生成することを示した。

Dense video captioning (DVC) aims to generate multi-sentence descriptions to elucidate the multiple events in the video, which is challenging and demands visual consistency, discoursal coherence, and linguistic diversity. Existing methods mainly generate captions from individual video segments, lacking adaptation to the global visual context and progressive alignment between the fast-evolved visual content and textual descriptions, which results in redundant and spliced descriptions. In this paper, we introduce the concept of information flow to model the progressive information changing across video sequence and captions. By designing a Cross-modal Information Flow Alignment mechanism, the visual and textual information flows are captured and aligned, which endows the captioning process with richer context and dynamics on event/topic evolution. Based on the Cross-modal Information Flow Alignment module, we further put forward DVCFlow framework, which consists of a Global-local Visual Encoder to capture both global features and local features for each video segment, and a pre-trained Caption Generator to produce captions. Extensive experiments on the popular ActivityNet Captions and YouCookII datasets demonstrate that our method significantly outperforms competitive baselines, and generates more human-like text according to subject and objective tests.
翻訳日:2021-11-22 16:02:16 公開日:2021-11-19
# 実世界における半教師ありドメイン一般化:新しいベンチマークと強いベースライン

Semi-Supervised Domain Generalization in Real World:New Benchmark and Strong Baseline ( http://arxiv.org/abs/2111.10221v1 )

ライセンス: Link先を確認
Luojun Lin, Han Xie, Zhifeng Yang, Zhishu Sun, Wenxi Liu, Yuanlong Yu, Weijie Chen, Shicai Yang and Di Xie(参考訳) 従来のドメイン一般化は、正確なアノテーションを必要とする複数のドメインからドメイン不変表現を学ぶことを目的としている。 しかし、現実的なアプリケーションシナリオでは、大量のデータを集めて注釈を付けるのは面倒すぎるか、あるいは不可能です。 しかし、web dataは大量のラベルのないデータにアクセスするための無料のランチを提供し、リッチなスタイル情報を提供し、ドメインの一般化能力を高めることができる。 本稿では,ラベル付きドメインとラベル付きドメインの相互作用を研究するために,半教師付きドメイン一般化と呼ばれる新しいタスクを導入し,既存の技術の限界を押し上げるための新しい現実的挑戦となるwebクロージャデータセットを含む2つのベンチマークを確立する。 このタスクに取り組むための簡単な解決策は、ラベル付きドメインからラベル付きドメインへのクラス情報を疑似ラベル付けを通じて、ドメイン混乱トレーニングと組み合わせて伝達することである。 ドメインギャップを狭めることで擬似ラベルの品質が向上し、さらに一般化のためのドメイン不変機能学習が進むことを考慮し、ラベル伝達とドメイン一般化の間のポジティブなフィードバックを促進するためのサイクル学習フレームワークを提案し、ラベル付きドメインとラベルなしドメインをカリキュラム学習形式でブリッジする進化中の中間ドメインを選択する。 フレームワークの有効性を検証する実験を行った。 この結果が示すように、Webcrawled Dataはドメインの一般化に役立ちます。 私たちのコードは後で入手できます。

Conventional domain generalization aims to learn domain invariant representation from multiple domains, which requires accurate annotations. In realistic application scenarios, however, it is too cumbersome or even infeasible to collect and annotate the large mass of data. Yet, web data provides a free lunch to access a huge amount of unlabeled data with rich style information that can be harnessed to augment domain generalization ability. In this paper, we introduce a novel task, termed as semi-supervised domain generalization, to study how to interact the labeled and unlabeled domains, and establish two benchmarks including a web-crawled dataset, which poses a novel yet realistic challenge to push the limits of existing technologies. To tackle this task, a straightforward solution is to propagate the class information from the labeled to the unlabeled domains via pseudo labeling in conjunction with domain confusion training. Considering narrowing domain gap can improve the quality of pseudo labels and further advance domain invariant feature learning for generalization, we propose a cycle learning framework to encourage the positive feedback between label propagation and domain generalization, in favor of an evolving intermediate domain bridging the labeled and unlabeled domains in a curriculum learning manner. Experiments are conducted to validate the effectiveness of our framework. It is worth highlighting that web-crawled data benefits domain generalization as demonstrated in our results. Our code will be available later.
翻訳日:2021-11-22 16:01:50 公開日:2021-11-19
# ハマー分布による確率的回帰

Probabilistic Regression with Huber Distributions ( http://arxiv.org/abs/2111.10296v1 )

ライセンス: Link先を確認
David Mohlin, Gerald Bianchi, Josephine Sullivan(参考訳) 本稿では,ニューラルネットワークを用いて物体の位置を共分散行列とともに推定する確率的手法について述べる。 提案手法は,外乱に対する堅牢性,ネットワーク出力に対する境界勾配,その他の望ましい特性を有するように設計されている。 これを実現するために,ハマー損失に触発された新しい確率分布を導入する。 また, 回帰する座標系に対する方向選択の不均一性を確保するために, 正定値行列をパラメータ化する新しい手法を提案する。 本手法は,一般的なボディポーズと顔のランドマークデータセットを用いて評価し,非熱マップ法の性能以上の性能を得る。 私たちのコードはgithub.com/Davmo049/Public_prob_regression_with_huber_distributionsで利用可能です。

In this paper we describe a probabilistic method for estimating the position of an object along with its covariance matrix using neural networks. Our method is designed to be robust to outliers, have bounded gradients with respect to the network outputs, among other desirable properties. To achieve this we introduce a novel probability distribution inspired by the Huber loss. We also introduce a new way to parameterize positive definite matrices to ensure invariance to the choice of orientation for the coordinate system we regress over. We evaluate our method on popular body pose and facial landmark datasets and get performance on par or exceeding the performance of non-heatmap methods. Our code is available at github.com/Davmo049/Public_prob_regression_with_huber_distributions
翻訳日:2021-11-22 16:00:20 公開日:2021-11-19
# bi-mix: 領域適応型夜間意味セグメンテーションのための双方向混合

Bi-Mix: Bidirectional Mixing for Domain Adaptive Nighttime Semantic Segmentation ( http://arxiv.org/abs/2111.10339v1 )

ライセンス: Link先を確認
Guanglei Yang, Zhun Zhong, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci(参考訳) 自律運転では,様々な環境条件に適応可能なセグメンテーションモデルを学ぶことが重要である。 特に、夜間に夜間データでトレーニングされたモデルの性能が悪くなるため、深刻な照明変更を伴うコピーは不必要である。 本稿では,昼行ラベル付きデータセットとラベルなしデータセットを用いた識別夜間モデルの学習を目的とした,ドメイン適応夜間意味セグメンテーション(danss)の問題について検討する。 そこで本研究では,画像翻訳とセグメンテーション適応プロセスの両方に寄与できる双方向混合(bi-mix)フレームワークを提案する。 特に、画像翻訳の段階では、bi-mixは昼夜画像ペアの知識を活用して、夜間画像のリライトの品質を向上させる。 一方、セグメンテーション適応段階において、bi-mixは、夜間領域にモデルを適用するために昼夜領域間の分配ギャップを効果的に橋渡しする。 どちらのプロセスでも、Bi-Mixは2つのサンプルを余分なハイパーパラメータなしで混合するだけで動作し、実装が容易である。 ダークチューリッヒとナイトタイム駆動データセットに関する広範囲な実験は,提案するバイミックスの利点を実証し,本手法がダンスにおける最先端性能を得ることを示す。 私たちのコードはhttps://github.com/ygjwd12345/bimixで利用可能です。

In autonomous driving, learning a segmentation model that can adapt to various environmental conditions is crucial. In particular, copying with severe illumination changes is an impelling need, as models trained on daylight data will perform poorly at nighttime. In this paper, we study the problem of Domain Adaptive Nighttime Semantic Segmentation (DANSS), which aims to learn a discriminative nighttime model with a labeled daytime dataset and an unlabeled dataset, including coarsely aligned day-night image pairs. To this end, we propose a novel Bidirectional Mixing (Bi-Mix) framework for DANSS, which can contribute to both image translation and segmentation adaptation processes. Specifically, in the image translation stage, Bi-Mix leverages the knowledge of day-night image pairs to improve the quality of nighttime image relighting. On the other hand, in the segmentation adaptation stage, Bi-Mix effectively bridges the distribution gap between day and night domains for adapting the model to the night domain. In both processes, Bi-Mix simply operates by mixing two samples without extra hyper-parameters, thus it is easy to implement. Extensive experiments on Dark Zurich and Nighttime Driving datasets demonstrate the advantage of the proposed Bi-Mix and show that our approach obtains state-of-the-art performance in DANSS. Our code is available at https://github.com/ygjwd12345/BiMix.
翻訳日:2021-11-22 16:00:08 公開日:2021-11-19
# 画像間翻訳のためのグローバル・ローカルアライメントネットワーク

Global and Local Alignment Networks for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2111.10346v1 )

ライセンス: Link先を確認
Guanglei Yang, Hao Tang, Humphrey Shi, Mingli Ding, Nicu Sebe, Radu Timofte, Luc Van Gool, Elisa Ricci(参考訳) 画像対画像変換の目標は、入力元画像の無関係な内容を維持しつつ、対象領域のスタイルを反映した出力画像を作成することである。 しかし,既存の手法では内容変化に注意が払われていないため,ソース画像からの意味情報は翻訳中の劣化に悩まされる。 本稿では,この問題に対処するために,GLA-Net(Global and Local Alignment Networks)という新たなアプローチを導入する。 グローバルアライメントネットワークは、入力画像をソースドメインからターゲットドメインに転送することを目的としている。 そこで本研究では,多変量ガウス分布のパラメータ(平均偏差,標準偏差)をmlpミキサー型エンコーダを用いてスタイル特徴として学習する。 より正確にスタイルを伝達するには、対象とする多変量ガウス分布のパラメータを入力として、エンコーダの適応インスタンス正規化層を用いる。 また、規則化と可能性損失を導入して、ドメインギャップをさらに削減し、高品質なアウトプットを生成します。 さらに,事前学習された自己教師付きモデルを用いて,新たな局所アライメント損失による注意マップを生成するローカルアライメントネットワークを導入し,翻訳ネットワークが関連する画素に焦点を当てていることを保証する。 5つの公開データセットで行った広範な実験により、既存のアプローチよりもシャープでリアルなイメージを効果的に生成できることが証明された。 私たちのコードはhttps://github.com/ygjwd12345/glanetで利用可能です。

The goal of unpaired image-to-image translation is to produce an output image reflecting the target domain's style while keeping unrelated contents of the input source image unchanged. However, due to the lack of attention to the content change in existing methods, the semantic information from source images suffers from degradation during translation. In the paper, to address this issue, we introduce a novel approach, Global and Local Alignment Networks (GLA-Net). The global alignment network aims to transfer the input image from the source domain to the target domain. To effectively do so, we learn the parameters (mean and standard deviation) of multivariate Gaussian distributions as style features by using an MLP-Mixer based style encoder. To transfer the style more accurately, we employ an adaptive instance normalization layer in the encoder, with the parameters of the target multivariate Gaussian distribution as input. We also adopt regularization and likelihood losses to further reduce the domain gap and produce high-quality outputs. Additionally, we introduce a local alignment network, which employs a pretrained self-supervised model to produce an attention map via a novel local alignment loss, ensuring that the translation network focuses on relevant pixels. Extensive experiments conducted on five public datasets demonstrate that our method effectively generates sharper and more realistic images than existing approaches. Our code is available at https://github.com/ygjwd12345/GLANet.
翻訳日:2021-11-22 15:59:41 公開日:2021-11-19
# 小さな変化は大きな差をもたらす:細粒度コントラスト学習によるマルチターン応答選択 \\in対話システムの改善

Small Changes Make Big Differences: Improving Multi-turn Response Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning ( http://arxiv.org/abs/2111.10154v1 )

ライセンス: Link先を確認
Yuntao Li, Can Xu, Huang Hu, Lei Sha, Yan Zhang, Daxin Jiang(参考訳) 検索に基づく対話応答選択は、マルチターンコンテキストの候補セットから適切な応答を求めることを目的としている。 プレトレーニング言語モデル(PLM)ベースの手法は、このタスクに大幅な改善をもたらした。 シーケンス表現は、対話コンテキストと応答の間の一致する度合いの学習において重要な役割を果たす。 しかし、同じ文脈を共有する異なる文脈応答対は、plmで計算されたシーケンス表現に常に大きな類似性を持ち、正の応答と負の応答の区別が困難である。 そこで本研究では, PLM に基づく応答選択タスクに対する新しい \textbf{F}ine-\textbf{G}rained \textbf{C}ontrastive (FGC) 学習法を提案する。 このfgc学習戦略により、plmは、微粒度で各対話のより識別可能なマッチング表現を生成し、さらにポジティブな応答を選択するためのより良い予測を行うことができる。 2つのベンチマークデータセットに関する実証研究は、提案手法が既存のplmベースのマッチングモデルのモデル性能を概ね改善できることを実証している。

Retrieve-based dialogue response selection aims to find a proper response from a candidate set given a multi-turn context. Pre-trained language models (PLMs) based methods have yielded significant improvements on this task. The sequence representation plays a key role in the learning of matching degree between the dialogue context and the response. However, we observe that different context-response pairs sharing the same context always have a greater similarity in the sequence representations calculated by PLMs, which makes it hard to distinguish positive responses from negative ones. Motivated by this, we propose a novel \textbf{F}ine-\textbf{G}rained \textbf{C}ontrastive (FGC) learning method for the response selection task based on PLMs. This FGC learning strategy helps PLMs to generate more distinguishable matching representations of each dialogue at fine grains, and further make better predictions on choosing positive responses. Empirical studies on two benchmark datasets demonstrate that the proposed FGC learning method can generally and significantly improve the model performance of existing PLM-based matching models.
翻訳日:2021-11-22 15:58:57 公開日:2021-11-19
# IoTシステムにおけるディープニューラルネットワークのロバスト性を効果的に評価する方法

Towards Efficiently Evaluating the Robustness of Deep Neural Networks in IoT Systems: A GAN-based Method ( http://arxiv.org/abs/2111.10055v1 )

ライセンス: Link先を確認
Tao Bai, Jun Zhao, Jinlin Zhu, Shoudong Han, Jiefeng Chen, Bo Li, Alex Kot(参考訳) ディープニューラルネットワーク(DNN)に基づくインテリジェントモノのインターネット(IoT)システムは、現実世界に広くデプロイされている。 しかし、DNNは敵の例に弱いことが判明し、インテリジェントなIoTシステムの信頼性とセキュリティに対する人々の懸念が高まる。 IoTシステムの堅牢性をテストし、評価することが不可欠である。 近年,様々な攻撃・戦略が提案されているが,効率問題は未解決のままである。 既存の手法は計算量や時間を要するが、実際には適用できない。 本稿では,AI-GAN(Attack-Inspired GAN)と呼ばれる新たなフレームワークを提案する。 トレーニングが完了すると、入力画像とターゲットクラスを効率よく生成できる。 我々は、ホワイトボックス設定、ブラックボックス設定、最先端の防御によって保護されたターゲットモデルで異なるデータセットにAI-GANを適用する。 広範な実験を通じて、ai-ganは高い攻撃成功率を達成し、既存の手法を上回り、生成時間を大幅に削減する。 さらに、AI-GANはCIFAR-100やImageNetといった複雑なデータセットに初めてスケールし、すべてのクラスで約90\%の成功を収めた。

Intelligent Internet of Things (IoT) systems based on deep neural networks (DNNs) have been widely deployed in the real world. However, DNNs are found to be vulnerable to adversarial examples, which raises people's concerns about intelligent IoT systems' reliability and security. Testing and evaluating the robustness of IoT systems becomes necessary and essential. Recently various attacks and strategies have been proposed, but the efficiency problem remains unsolved properly. Existing methods are either computationally extensive or time-consuming, which is not applicable in practice. In this paper, we propose a novel framework called Attack-Inspired GAN (AI-GAN) to generate adversarial examples conditionally. Once trained, it can generate adversarial perturbations efficiently given input images and target classes. We apply AI-GAN on different datasets in white-box settings, black-box settings and targeted models protected by state-of-the-art defenses. Through extensive experiments, AI-GAN achieves high attack success rates, outperforming existing methods, and reduces generation time significantly. Moreover, for the first time, AI-GAN successfully scales to complex datasets e.g. CIFAR-100 and ImageNet, with about $90\%$ success rates among all classes.
翻訳日:2021-11-22 15:58:36 公開日:2021-11-19
# 予測機器故障に対するXGBoostやScikit Learningなどの既存ライブラリとカスタムアンサンブルモデルのデータ計算と比較

Data imputation and comparison of custom ensemble models with existing libraries like XGBoost, Scikit learn, etc. for Predictive Equipment failure ( http://arxiv.org/abs/2111.10088v1 )

ライセンス: Link先を確認
Tejas Y. Deo(参考訳) 本稿では,xgboost や scikit learn などの既存ライブラリを用いて,油抽出装置設置時の予測機器の故障を想定したモデルとの比較を行った。 使用するデータセットには欠落値が多く含まれており,欠落値をインデュートするモデルに基づくデータインプテーション戦略を提案する。 カスタムアンサンブルモデルのアーキテクチャとトレーニングおよびテストプロセスの詳細は説明されている。

This paper presents comparison of custom ensemble models with the models trained using existing libraries Like Xgboost, Scikit Learn, etc. in case of predictive equipment failure for the case of oil extracting equipment setup. The dataset that is used contains many missing values and the paper proposes different model-based data imputation strategies to impute the missing values. The architecture and the training and testing process of the custom ensemble models are explained in detail.
翻訳日:2021-11-22 15:56:41 公開日:2021-11-19
# ANOVAに基づく高速行列ベクトル乗算による高次元特徴空間の学習

Learning in High-Dimensional Feature Spaces Using ANOVA-Based Fast Matrix-Vector Multiplication ( http://arxiv.org/abs/2111.10140v1 )

ライセンス: Link先を確認
Franziska Nestler, Martin Stoll and Theresa Wagner(参考訳) カーネル行列はサポートベクターマシンやカーネルリッジ回帰のような多くの学習タスクにおいて不可欠である。 カーネルマトリックスは通常密度が高く、大規模である。 特徴空間の次元によっては、合理的な時間における全てのエントリの計算でさえ難しい課題となる。 このような密行列に対して、行列ベクトル積のコストは、カスタマイズされた方法が適用されない場合、エントリ数で二乗的にスケールする。 そこで我々は,ANOVAカーネルを用いて低次元の特徴空間に基づいて複数のカーネルを構築し,行列ベクトル積を実現する高速アルゴリズムを提案する。 非等空間高速フーリエ変換 (non-equispaced fast fourier transform, nfft) を用いる。 特徴グループ化アプローチに基づいて,カーネルリッジ回帰と事前条件付き共役勾配解法を選択する学習手法に,高速な行列ベクトル積を組み込む方法を示す。 いくつかのデータセット上で,本手法の性能について述べる。

Kernel matrices are crucial in many learning tasks such as support vector machines or kernel ridge regression. The kernel matrix is typically dense and large-scale. Depending on the dimension of the feature space even the computation of all of its entries in reasonable time becomes a challenging task. For such dense matrices the cost of a matrix-vector product scales quadratically in the number of entries, if no customized methods are applied. We propose the use of an ANOVA kernel, where we construct several kernels based on lower-dimensional feature spaces for which we provide fast algorithms realizing the matrix-vector products. We employ the non-equispaced fast Fourier transform (NFFT), which is of linear complexity for fixed accuracy. Based on a feature grouping approach, we then show how the fast matrix-vector products can be embedded into a learning method choosing kernel ridge regression and the preconditioned conjugate gradient solver. We illustrate the performance of our approach on several data sets.
翻訳日:2021-11-22 15:56:32 公開日:2021-11-19
# 交通シーン記述に向けて:セマンティックシーングラフ

Towards Traffic Scene Description: The Semantic Scene Graph ( http://arxiv.org/abs/2111.10196v1 )

ライセンス: Link先を確認
Maximilian Zipfl, J. Marius Z\"ollner(参考訳) 交通シーンの分類には、そのドメインとは無関係に、シーンを統一的に記述できる記述モデルが必要である。 本稿では,トラフィックシーンを意味的に記述するモデルについて述べる。 記述モデルは、道路形状と道路トポロジーとは独立に交通シーンを記述することができる。 ここで、交通参加者は道路網に投影され、グラフのノードとして表現される。 道路トポロジーに関する2つのトラフィック参加者間の相対的な位置に応じて、対応するノード間で意味的に分類されたエッジが生成される。 コンクレット化の場合、エッジ属性はレーンの経路に関して両交通参加者間の相対距離と速度によって拡張される。 この記述の重要な側面は、機械可読形式に容易に変換できることである。 現在の記述では、交通シーンの動的対象に注目し、歩行者や車両などの交通参加者を考察している。

For the classification of traffic scenes, a description model is necessary that can describe the scene in a uniform way, independent of its domain. A model to describe a traffic scene in a semantic way is described in this paper. The description model allows to describe a traffic scene independently of the road geometry and road topology. Here, the traffic participants are projected onto the road network and represented as nodes in a graph. Depending on the relative location between two traffic participants with respect to the road topology, semantic classified edges are created between the corresponding nodes. For concretization, the edge attributes are extended by relative distances and velocities between both traffic participants with regard to the course of the lane. An important aspect of the description is that it can be converted easily into a machine-readable format. The current description focuses on dynamic objects of a traffic scene and considers traffic participants, such as pedestrians or vehicles.
翻訳日:2021-11-22 15:56:18 公開日:2021-11-19
# レインボーの高速かつデータ効率の良いトレーニング--アタリの実験的研究

Fast and Data-Efficient Training of Rainbow: an Experimental Study on Atari ( http://arxiv.org/abs/2111.10247v1 )

ライセンス: Link先を確認
Dominik Schmidt, Thomas Schmied(参考訳) アーケード学習環境全体では、Rainbowは人間や現代のRLアルゴリズムと競合するレベルのパフォーマンスを達成する。 しかし、このレベルの性能を達成するには大量のデータとハードウェアリソースが必要であり、この分野の研究は計算コストが高く、実用的な用途での使用は不可能であることが多い。 本稿では,(1)Rainbowのデータ,トレーニング時間,および計算要求を大幅に削減し,競争性能を維持しつつ,Rainbowの改良版を提案すること,(2)アーケード学習環境における実験を通じて,アプローチの有効性を実証的に実証すること,(3)提案した修正がもたらす影響について,多くのアブレーション研究を実施していること,の3点について述べる。 改良版のRainbowは、従来のRainbowに近い中央値の人間の正規化スコアに到達し、20倍のデータを使用でき、単一のGPU上でのトレーニング時間は7.5時間しか必要ありません。 また、事前訓練されたモデルを含む完全な実装も提供します。

Across the Arcade Learning Environment, Rainbow achieves a level of performance competitive with humans and modern RL algorithms. However, attaining this level of performance requires large amounts of data and hardware resources, making research in this area computationally expensive and use in practical applications often infeasible. This paper's contribution is threefold: We (1) propose an improved version of Rainbow, seeking to drastically reduce Rainbow's data, training time, and compute requirements while maintaining its competitive performance; (2) we empirically demonstrate the effectiveness of our approach through experiments on the Arcade Learning Environment, and (3) we conduct a number of ablation studies to investigate the effect of the individual proposed modifications. Our improved version of Rainbow reaches a median human normalized score close to classic Rainbow's, while using 20 times less data and requiring only 7.5 hours of training time on a single GPU. We also provide our full implementation including pre-trained models.
翻訳日:2021-11-22 15:56:04 公開日:2021-11-19
# 分布と欠落シフトの存在下での一般化のための最大平均偏差

Maximum Mean Discrepancy for Generalization in the Presence of Distribution and Missingness Shift ( http://arxiv.org/abs/2111.10344v1 )

ライセンス: Link先を確認
Liwn Ouyang, Aaron Key(参考訳) 共変量シフトは実世界の問題に対する予測モデリングにおいて一般的な問題である。 本稿では,特徴入力空間,特徴表現空間,あるいはその両方において,最大平均偏差(mmd)の統計量を最小限にし,共変量シフト問題に対処することを提案する。 MMD Representation, MMD Mask, MMD Hybrid と呼ぶ3つの手法を設計し, 分散シフトのみが存在する場合, 不足シフトのみが存在する場合, あるいは両タイプのシフトが存在する場合のシナリオに対処する。 MMD損失成分の統合は、モデルが最適化に最適な機能を利用するのに役立ち、テストサンプル毎に可能な限り危険な外挿を避けるのに役立ちます。 このmmdアプローチで処理されたモデルは、テストセットのパフォーマンス、キャリブレーション、外挿性が向上する。

Covariate shifts are a common problem in predictive modeling on real-world problems. This paper proposes addressing the covariate shift problem by minimizing Maximum Mean Discrepancy (MMD) statistics between the training and test sets in either feature input space, feature representation space, or both. We designed three techniques that we call MMD Representation, MMD Mask, and MMD Hybrid to deal with the scenarios where only a distribution shift exists, only a missingness shift exists, or both types of shift exist, respectively. We find that integrating an MMD loss component helps models use the best features for generalization and avoid dangerous extrapolation as much as possible for each test sample. Models treated with this MMD approach show better performance, calibration, and extrapolation on the test set.
翻訳日:2021-11-22 15:55:44 公開日:2021-11-19
# フォールトトレラントロボット制御のための適応型カリキュラムダイナミクスランダム化による強化学習

Reinforcement Learning with Adaptive Curriculum Dynamics Randomization for Fault-Tolerant Robot Control ( http://arxiv.org/abs/2111.10005v1 )

ライセンス: Link先を確認
Wataru Okamoto, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 本研究では,四足ロボットのアクチュエータ故障に対する耐障害性の問題に対処することを目的としている。 特に、動的ランダム化(ACDR)を用いた適応型カリキュラム強化学習アルゴリズムを確立する。 ACDRアルゴリズムは、ランダムなアクチュエータ故障条件下で四足歩行ロボットを適応的に訓練し、フォールトトレラントロボット制御のための単一のロバストポリシーを定式化することができる。 hard2easyのカリキュラムは、四足歩行ロボットのeasy2hardのカリキュラムよりも効果的である。 ACDRアルゴリズムは、アクチュエータ故障やスイッチングポリシーを検出するための追加モジュールを必要としないロボットシステムを構築するために使用できる。 実験の結果,ACDRアルゴリズムは平均報酬と歩行距離において従来のアルゴリズムよりも優れていた。

This study is aimed at addressing the problem of fault tolerance of quadruped robots to actuator failure, which is critical for robots operating in remote or extreme environments. In particular, an adaptive curriculum reinforcement learning algorithm with dynamics randomization (ACDR) is established. The ACDR algorithm can adaptively train a quadruped robot in random actuator failure conditions and formulate a single robust policy for fault-tolerant robot control. It is noted that the hard2easy curriculum is more effective than the easy2hard curriculum for quadruped robot locomotion. The ACDR algorithm can be used to build a robot system that does not require additional modules for detecting actuator failures and switching policies. Experimental results show that the ACDR algorithm outperforms conventional algorithms in terms of the average reward and walking distance.
翻訳日:2021-11-22 15:55:07 公開日:2021-11-19
# 低リソース言語へのエンドツーエンド音声認識モデルの言語拡張のための半教師あり変換学習

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages ( http://arxiv.org/abs/2111.10047v1 )

ライセンス: Link先を確認
Jiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim(参考訳) 本稿では,低リソース言語の音声認識精度を向上させるための3段階学習手法を提案する。 本研究では,転送学習,エンコーダ凍結,テキスト・トゥ・スペーチ(TTS)を用いたデータ拡張,セミ・スーパーバイザード・ラーニング(SSL)など,効果的な組み合わせを提案する。 低リソースのイタリアASRの精度を向上させるため、トランスファーラーニング、TS拡張、SSLを用いて、よく訓練された英語モデル、未ラベルのテキストコーパス、未ラベルのオーディオコーパスを利用する。 第1段階では、よく訓練された英語モデルから転送学習を利用する。 これは主に、リソース豊富な言語から音響情報を学ぶのに役立つ。 この段階では、ベースライン上のワードエラー率(WER)を約24%削減する。 ステージ2では、TSデータ拡張によるラベルなしテキストデータを用いて、言語情報をモデルに組み込む。 この段階では音響エンコーダの凍結も検討する。 TTSデータ拡張は、WERを相対的に約21%削減するのに役立ちます。 最後に、ステージ3では、未ラベルのオーディオデータからSSLを使用することで、WERをさらに4%削減する。 全体として、第1パスに単調なチャンクワイズアテンション(mocha)、第2パスにフルアテンションを持つ2パス音声認識システムは、ベースラインに対して約42%のwhr削減を達成している。

In this paper, we propose a three-stage training methodology to improve the speech recognition accuracy of low-resource languages. We explore and propose an effective combination of techniques such as transfer learning, encoder freezing, data augmentation using Text-To-Speech (TTS), and Semi-Supervised Learning (SSL). To improve the accuracy of a low-resource Italian ASR, we leverage a well-trained English model, unlabeled text corpus, and unlabeled audio corpus using transfer learning, TTS augmentation, and SSL respectively. In the first stage, we use transfer learning from a well-trained English model. This primarily helps in learning the acoustic information from a resource-rich language. This stage achieves around 24% relative Word Error Rate (WER) reduction over the baseline. In stage two, We utilize unlabeled text data via TTS data-augmentation to incorporate language information into the model. We also explore freezing the acoustic encoder at this stage. TTS data augmentation helps us further reduce the WER by ~ 21% relatively. Finally, In stage three we reduce the WER by another 4% relative by using SSL from unlabeled audio data. Overall, our two-pass speech recognition system with a Monotonic Chunkwise Attention (MoChA) in the first pass and a full-attention in the second pass achieves a WER reduction of ~ 42% relative to the baseline.
翻訳日:2021-11-22 15:53:47 公開日:2021-11-19
# ASR再構成における格子アテンション

Lattention: Lattice-attention in ASR rescoring ( http://arxiv.org/abs/2111.10157v1 )

ライセンス: Link先を確認
Prabhat Pandey, Sergio Duarte Torres, Ali Orkan Bayer, Ankur Gandhe, Volker Leutnant(参考訳) 格子は自動音声認識システムから生成された複数の仮説のコンパクトな表現であり、音声言語理解や音声翻訳などの下流タスクの性能は1-best仮説よりも向上することが示されている。 本研究では,第2パスにおけるn-bestリストの再現における格子キューの有効性について検討する。 格子をリカレントネットワークでエンコードし,n-best再コーディングのためのアテンションエンコーダデコーダモデルを訓練する。 格子に着目した再構成モデルは, 格子と音響特性の両方に着目して, 4-5%の単語誤り率と6-8%の相対的な単語誤り率の低減を実現する。 格子に注意を向けたモデルがn-best仮説に注意を向けたモデルよりも優れていることを示す。 また, 格子の重みを格子エンコーダに組み込む方法も検討し, n-best rescoring の重要性を実証した。

Lattices form a compact representation of multiple hypotheses generated from an automatic speech recognition system and have been shown to improve performance of downstream tasks like spoken language understanding and speech translation, compared to using one-best hypothesis. In this work, we look into the effectiveness of lattice cues for rescoring n-best lists in second-pass. We encode lattices with a recurrent network and train an attention encoder-decoder model for n-best rescoring. The rescoring model with attention to lattices achieves 4-5% relative word error rate reduction over first-pass and 6-8% with attention to both lattices and acoustic features. We show that rescoring models with attention to lattices outperform models with attention to n-best hypotheses. We also study different ways to incorporate lattice weights in the lattice encoder and demonstrate their importance for n-best rescoring.
翻訳日:2021-11-22 15:53:24 公開日:2021-11-19
# tnt攻撃! ニューラルネットシステムに対する普遍的自然主義的対立パッチ

TnT Attacks! Universal Naturalistic Adversarial Patches Against Deep Neural Network Systems ( http://arxiv.org/abs/2111.09999v1 )

ライセンス: Link先を確認
Bao Gia Doan, Minhui Xue, Shiqing Ma, Ehsan Abbasnejad, Damith C. Ranasinghe(参考訳) ディープニューラルネットワークは、敵の入力からの攻撃に対して脆弱であり、最近ではトロイの木馬がモデルの判断を誤ったりハイジャックしたりする。 我々は、有界逆数例空間と生成逆数ネットワーク内の自然入力空間のスーパーセットを探索することによって、TnTsと呼ばれる有界逆数例の興味深いクラスの存在を明らかにする。 今や敵は、自然主義的で、悪意がなく、物理的に実現可能で、非常に効果的で、高い攻撃の成功率、そして普遍的なパッチで武装することができる。 TnTは、シーン内でTnTでキャプチャされた任意の入力画像が次のようになるため、普遍的である。 一 ネットワーク(ターゲティングされていない攻撃)を誤認すること、又は 二 ネットワークに悪意のある決定(標的攻撃)を強制すること。 興味深いことに、敵のパッチアタッカーは、ノイズの多い摂動に制約されているのとは対照的に、位置に依存しない自然なパッチをトリガーとして選択する能力として、より大きなレベルのコントロールを実行する可能性がある。 大規模視覚分類タスクであるimagenetにおける5万画像の検証セット全体の評価実験を通じて,tntsによる現実的な脅威と攻撃の堅牢性を示す。 既存の最先端手法よりも高い攻撃成功率を達成するパッチを作成するための攻撃の一般化を示す。 本研究は,視覚分類タスク(CIFAR-10, GTSRB, PubFig)およびWideResnet50, Inception-V3, VGG-16といった最先端の深層ニューラルネットワークに対する攻撃の一般化可能性を示す。

Deep neural networks are vulnerable to attacks from adversarial inputs and, more recently, Trojans to misguide or hijack the decision of the model. We expose the existence of an intriguing class of bounded adversarial examples -- Universal NaTuralistic adversarial paTches -- we call TnTs, by exploring the superset of the bounded adversarial example space and the natural input space within generative adversarial networks. Now, an adversary can arm themselves with a patch that is naturalistic, less malicious-looking, physically realizable, highly effective -- achieving high attack success rates, and universal. A TnT is universal because any input image captured with a TnT in the scene will: i) misguide a network (untargeted attack); or ii) force the network to make a malicious decision (targeted attack). Interestingly, now, an adversarial patch attacker has the potential to exert a greater level of control -- the ability to choose a location independent, natural-looking patch as a trigger in contrast to being constrained to noisy perturbations -- an ability is thus far shown to be only possible with Trojan attack methods needing to interfere with the model building processes to embed a backdoor at the risk discovery; but, still realize a patch deployable in the physical world. Through extensive experiments on the large-scale visual classification task, ImageNet with evaluations across its entire validation set of 50,000 images, we demonstrate the realistic threat from TnTs and the robustness of the attack. We show a generalization of the attack to create patches achieving higher attack success rates than existing state-of-the-art methods. Our results show the generalizability of the attack to different visual classification tasks (CIFAR-10, GTSRB, PubFig) and multiple state-of-the-art deep neural networks such as WideResnet50, Inception-V3 and VGG-16.
翻訳日:2021-11-22 15:52:12 公開日:2021-11-19
# 均質性島の同定のための個体群に基づく変化点検出

Population based change-point detection for the identification of homozygosity islands ( http://arxiv.org/abs/2111.10187v1 )

ライセンス: Link先を確認
Lucas Prates, Renan B Lemes, T\'abita H\"unemeier and Florencia Leonardi(参考訳) 本稿では,ランダムベクトルの分布のパラメータをオフラインで検出する新しい手法を提案する。 本稿では,動的プログラミングアルゴリズムで効率的に計算できるか,あるいは高速二分法で近似できるペナルティ化最大度法を提案する。 両アルゴリズムは、確率ベクトルの分布と独立サンプリングに関する非常に一般的な仮定の下で、ほぼ確実に変化点の集合に収束する。 特に,アルゴリズムの整合性につながる仮定を分類的およびガウス的確率変数で満たしていることを示す。 この新しいアプローチは、集団内の個体のゲノム上でホモ接合性島を同定する問題によって動機付けられた。 本手法は個体群レベルでのホモ接合性諸島の同定の問題に直接対処し,現在最先端のアプローチで行われているように,個々の個体を解析し,結果を組み合わせる必要がない。

In this paper, we propose a new method for offline change-point detection on some parameters of the distribution of a random vector. We introduce a penalized maximum likelihood approach that can be efficiently computed by a dynamic programming algorithm or approximated by a fast greedy binary splitting algorithm. We prove both algorithms converge almost surely to the set of change-points under very general assumptions on the distribution and independent sampling of the random vector. In particular, we show the assumptions leading to the consistency of the algorithms are satisfied by categorical and Gaussian random variables. This new approach is motivated by the problem of identifying homozygosity islands on the genome of individuals in a population. Our method directly tackles the issue of identification of the homozygosity islands at the population level, without the need of analyzing single individuals and then combining the results, as is made nowadays in state-of-the-art approaches.
翻訳日:2021-11-22 15:51:37 公開日:2021-11-19
# ディープラーニングを用いたスケッチベースクリエイティビティ支援ツール

Sketch-based Creativity Support Tools using Deep Learning ( http://arxiv.org/abs/2111.09991v1 )

ライセンス: Link先を確認
Forrest Huang, Eldon Schoop, David Ha, Jeffrey Nichols, John Canny(参考訳) スケッチング(sketching)は、創造的プロセスで一般的に使用される、自然で効果的な視覚コミュニケーション媒体である。 ディープラーニングモデルの最近の進歩は、視覚的コンテンツを理解および生成するマシンの能力を大幅に改善した。 エキサイティングな開発領域は、人間のスケッチのモデル化に使用されるディープラーニングのアプローチを探求し、クリエイティブなアプリケーションへの機会を開く。 本章では、スケッチを消費し生成するディープラーニング駆動創造性支援ツールの開発における3つの基本的なステップについて記述する。 1) スケッチとモバイルユーザインターフェースの間に新たなペアデータセットを生成するデータ収集作業 2)最先端のコンピュータビジョン技術に適応したスケッチベースのユーザインタフェース検索システム,及び 3)自然言語に基づくスケッチ/批評オーサリングプロセスの新たなインタラクションを支援する会話スケッチシステム。 本章では、深層学習とヒューマン・コンピュータ・インタラクションの両コミュニティにおける先行研究について、データ収集プロセスとシステムのアーキテクチャの詳細を文書化し、質的かつ定量的な結果を提示し、このエキサイティングな領域における将来の研究方向性の風景を描く。

Sketching is a natural and effective visual communication medium commonly used in creative processes. Recent developments in deep-learning models drastically improved machines' ability in understanding and generating visual content. An exciting area of development explores deep-learning approaches used to model human sketches, opening opportunities for creative applications. This chapter describes three fundamental steps in developing deep-learning-driven creativity support tools that consumes and generates sketches: 1) a data collection effort that generated a new paired dataset between sketches and mobile user interfaces; 2) a sketch-based user interface retrieval system adapted from state-of-the-art computer vision techniques; and, 3) a conversational sketching system that supports the novel interaction of a natural-language-based sketch/critique authoring process. In this chapter, we survey relevant prior work in both the deep-learning and human-computer-interaction communities, document the data collection process and the systems' architectures in detail, present qualitative and quantitative results, and paint the landscape of several future research directions in this exciting area.
翻訳日:2021-11-22 15:50:20 公開日:2021-11-19
# IC-U-Net:独立成分混合を用いたU-Netによる自動脳波アーチファクト除去

IC-U-Net: A U-Net-based Denoising Autoencoder Using Mixtures of Independent Components for Automatic EEG Artifact Removal ( http://arxiv.org/abs/2111.10026v1 )

ライセンス: Link先を確認
Chun-Hsiang Chuang, Kong-Yi Chang, Chi-Sheng Huang, Tzyy-Ping Jung(参考訳) 脳波(EEG)信号は、しばしば人工物で汚染される。 神経信号の誤解や脳-コンピューターインターフェースの過小評価を防止するために、実用的で信頼性の高いアーティファクト除去法を開発することが不可欠である。 本研究では,広汎な脳波アーチファクトを除去し,脳源を再構築するU-Netアーキテクチャに基づく新しい人工物除去手法IC-U-Netを開発した。 IC-U-Netは、独立成分分析によって分解された脳と非脳源の混合物を用いて訓練され、脳波記録における複雑な信号変動をモデル化するために、損失関数のアンサンブルを用いた。 提案手法は, 運転・歩行中および休息時に収集した3つの実世界の脳波データを用いてシミュレーション実験を行い, 脳源の回復と各種人工物(眼球運動, 筋活動, 線・チャネルノイズなど)の除去に有効であることを示した。 IC-U-Netはユーザフレンドリーで公開されており、パラメータチューニングやアーティファクトタイプ指定は必要とせず、チャンネル番号に制限はない。 モバイル環境での自然な脳のダイナミクスの画像化の必要性が高まる中、IC-U-Netは、EEGレコードからアーティファクトを自動的に削除する、有望なエンドツーエンドソリューションを提供する。

Electroencephalography (EEG) signals are often contaminated with artifacts. It is imperative to develop a practical and reliable artifact removal method to prevent misinterpretations of neural signals and underperformance of brain-computer interfaces. This study developed a new artifact removal method, IC-U-Net, which is based on the U-Net architecture for removing pervasive EEG artifacts and reconstructing brain sources. The IC-U-Net was trained using mixtures of brain and non-brain sources decomposed by independent component analysis and employed an ensemble of loss functions to model complex signal fluctuations in EEG recordings. The effectiveness of the proposed method in recovering brain sources and removing various artifacts (e.g., eye blinks/movements, muscle activities, and line/channel noises) was demonstrated in a simulation study and three real-world EEG datasets collected at rest and while driving and walking. IC-U-Net is user-friendly and publicly available, does not require parameter tuning or artifact type designations, and has no limitations on channel numbers. Given the increasing need to image natural brain dynamics in a mobile setting, IC-U-Net offers a promising end-to-end solution for automatically removing artifacts from EEG recordings.
翻訳日:2021-11-22 15:50:01 公開日:2021-11-19
# グラフ編集距離計算における小型量子デバイスのベンチマーク

Benchmarking Small-Scale Quantum Devices on Computing Graph Edit Distance ( http://arxiv.org/abs/2111.10183v1 )

ライセンス: Link先を確認
Massimiliano Incudini, Fabio Tarocco, Riccardo Mengoni, Alessandra Di Pierro, and Antonio Mandarino(参考訳) 距離測定は機械学習とパターン認識において多くの一般的なアルゴリズムの基礎を提供する。 距離の概念は、アルゴリズムが処理しているデータの種類によって異なる。 グラフ型データにとって重要な概念は、グラフ編集距離(GED)であり、グラフを同一にするために必要な操作の観点から、2つのグラフ間の(異なる)相似性の度合いを測定する。 GEDの複雑性はNPハード問題と同じであるため、近似解を考えることは合理的である。 本稿では,量子アニーリング(quantum annealing)と変分量子アルゴリズム( variational quantum algorithms)という,量子アニーラ(quantum annealer)とゲート型量子コンピュータ(gate-based quantum computer)の2種類の量子ハードウェアについて比較検討を行った。 ノイズの多い中間スケール量子コンピュータの現状を考えると、本研究はこれらの量子アルゴリズムの性能の原理実証テストに基づいている。

Distance measures provide the foundation for many popular algorithms in Machine Learning and Pattern Recognition. Different notions of distance can be used depending on the types of the data the algorithm is working on. For graph-shaped data, an important notion is the Graph Edit Distance (GED) that measures the degree of (dis)similarity between two graphs in terms of the operations needed to make them identical. As the complexity of computing GED is the same as NP-hard problems, it is reasonable to consider approximate solutions. In this paper we present a comparative study of two quantum approaches to computing GED: quantum annealing and variational quantum algorithms, which refer to the two types of quantum hardware currently available, namely quantum annealer and gate-based quantum computer, respectively. Considering the current state of noisy intermediate-scale quantum computers, we base our study on proof-of-principle tests of the performance of these quantum algorithms.
翻訳日:2021-11-22 15:49:34 公開日:2021-11-19
# GRecX: GNNベースのレコメンデーションのための効率的で統一されたベンチマーク

GRecX: An Efficient and Unified Benchmark for GNN-based Recommendation ( http://arxiv.org/abs/2111.10342v1 )

ライセンス: Link先を確認
Desheng Cai, Jun Hu, Shengsheng Qian, Quan Fang, Quan Zhao, Changsheng Xu(参考訳) 本稿では、GNNベースのレコメンデーションモデルを効率的かつ統一的にベンチマークするためのオープンソースのTensorFlowフレームワークであるGRecXを提案する。 GRecXは、GNNベースのレコメンデーションベンチマークを構築するためのコアライブラリと、人気のあるGNNベースのレコメンデーションモデルの実装で構成されている。 コアライブラリは、FastMetrics(効率的なメトリクス計算ライブラリ)、VectorSearch(高密度ベクトルの効率的な類似検索ライブラリ)、BatchEval(効率的なミニバッチ評価ライブラリ)、DataManager(統一データセット管理ライブラリ)など、効率的で統一されたベンチマークを構築するための必須コンポーネントを提供する。 特に、異なる複雑なGNNベースレコメンデーションモデルの公正な比較のための統一されたベンチマークを提供するため、新しいメトリクスGRMF-Xを設計し、FastMetricsコンポーネントに統合する。 TensorFlow GNNライブラリtf_geometricに基づいて、GRecXは、さまざまな人気のあるGNNベースのレコメンデーションモデルを慎重に実装する。 私たちはこれらのベースラインモデルを慎重に実装して、文献で報告されたパフォーマンスを再現しています。 結論として、GRecXはGNNベースのレコメンデーションベースラインを効率的かつ統一的にトレーニングし、ベンチマークするための使用を可能にする。 我々はGRecXを用いて実験を行い、実験の結果、GRecXはGNNベースの推薦基準を効率的かつ統一的にトレーニングし、ベンチマークすることができることを示した。 GRecXのソースコードはhttps://github.com/maenzhier/GRecXで公開されている。

In this paper, we present GRecX, an open-source TensorFlow framework for benchmarking GNN-based recommendation models in an efficient and unified way. GRecX consists of core libraries for building GNN-based recommendation benchmarks, as well as the implementations of popular GNN-based recommendation models. The core libraries provide essential components for building efficient and unified benchmarks, including FastMetrics (efficient metrics computation libraries), VectorSearch (efficient similarity search libraries for dense vectors), BatchEval (efficient mini-batch evaluation libraries), and DataManager (unified dataset management libraries). Especially, to provide a unified benchmark for the fair comparison of different complex GNN-based recommendation models, we design a new metric GRMF-X and integrate it into the FastMetrics component. Based on a TensorFlow GNN library tf_geometric, GRecX carefully implements a variety of popular GNN-based recommendation models. We carefully implement these baseline models to reproduce the performance reported in the literature, and our implementations are usually more efficient and friendly. In conclusion, GRecX enables uses to train and benchmark GNN-based recommendation baselines in an efficient and unified way. We conduct experiments with GRecX, and the experimental results show that GRecX allows us to train and benchmark GNN-based recommendation baselines in an efficient and unified way. The source code of GRecX is available at https://github.com/maenzhier/GRecX.
翻訳日:2021-11-22 15:49:18 公開日:2021-11-19
# FastDOG: GPUの高速離散最適化

FastDOG: Fast Discrete Optimization on GPU ( http://arxiv.org/abs/2111.10270v1 )

ライセンス: Link先を確認
Ahmed Abbas, Paul Swoboda(参考訳) 本稿では,構造化予測で発生する0-1整数線形プログラムを並列に分解する手法を提案する。 本稿では,ラグランジュ双対を解くための新しい反復更新スキームと,プライマル解の復号のための摂動法を提案する。 サブプロブレムを表現するには、Lange氏ら(2021年)に従い、バイナリ意思決定図(BDD)を使用します。 我々の原始的アルゴリズムと双対アルゴリズムはサブプロブレム間の同期をほとんど必要とせず、BDDの最適化には複雑な制御フローのない基本的な操作しか必要としない。 これにより、メソッドのすべてのコンポーネントに対してgpuが提供する並列処理を活用できます。 本稿では、マルコフ確率場におけるMAP推論の組合せ問題、発達生物学における二次配置と細胞追跡に関する実験結果を示す。 高度に並列なgpuの実装は、lange et al. (2021) のアルゴリズムの実行時間を最大で1桁改善する。 特に、問題非依存であるながら、最先端の専門的なヒューリスティックに近づいたり、あるいは及ばなかったりします。

We present a massively parallel Lagrange decomposition method for solving 0-1 integer linear programs occurring in structured prediction. We propose a new iterative update scheme for solving the Lagrangean dual and a perturbation technique for decoding primal solutions. For representing subproblems we follow Lange et al. (2021) and use binary decision diagrams (BDDs). Our primal and dual algorithms require little synchronization between subproblems and optimization over BDDs needs only elementary operations without complicated control flow. This allows us to exploit the parallelism offered by GPUs for all components of our method. We present experimental results on combinatorial problems from MAP inference for Markov Random Fields, quadratic assignment and cell tracking for developmental biology. Our highly parallel GPU implementation improves upon the running times of the algorithms from Lange et al. (2021) by up to an order of magnitude. In particular, we come close to or outperform some state-of-the-art specialized heuristics while being problem agnostic.
翻訳日:2021-11-22 15:48:48 公開日:2021-11-19
# (参考訳) オフライン視情報マッチングのための一般化決定変換器

Generalized Decision Transformer for Offline Hindsight Information Matching ( http://arxiv.org/abs/2111.10364v1 )

ライセンス: CC BY 4.0
Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu(参考訳) 各軌跡データから学習信号を抽出する方法は強化学習(RL)において重要な問題であり、サンプルの非効率性は実用上深刻な課題となっている。 近年の研究では、後見経験リプレイや意思決定トランスフォーマ(dt)におけるリターン・トゥ・ゴーといった、将来の軌道情報に対する表現的ポリシー関数の近似とコンディショニングを用いることで、オンラインrlがオフライン動作のクローン(シーケンスモデリングなど)によって完全に置き換えられるようなマルチタスクポリシの効率的な学習が可能になる。 これらすべてのアプローチが、将来の状態情報の統計に一致する軌道の残りの部分を出力できるトレーニングポリシーを、後向きの情報マッチング(HIM)によって実行していることを実証する。 我々は,HIM問題を解くための一般化決定変換器(GDT)を提案し,特徴関数と反因果アグリゲータの異なる選択が,DTを特別なケースとして回収するだけでなく,将来の異なる統計値に適合する新たなカテゴリーDT(CDT)と双方向DT(BDT)をもたらすことを示す。 CDTとBDTの評価では、オフラインマルチタスク状態マージナルマッチング(SMM)と模倣学習(IL)を2つの一般的なHIM問題として定義し、両者のメトリクスとしてワッサーシュタイン距離損失を提案し、MuJoCo連続制御ベンチマークでそれらを実証研究する。 cdtは、単に抗causal和をdtの抗causalbinningに置き換えるだけで、初めて有効なオフラインマルチタスクsmmアルゴリズムを可能にし、未発見および合成のマルチモーダル状態特徴分布にうまく一般化する。 BDTは、アグリゲータとして反因果第2変圧器を使用し、将来の統計をモデル化し、オフラインマルチタスクILにおいてDT変圧器より優れていることを学習することができる。 HIMとGDTの一般化された定式化は、現代のRLにおける強力なシーケンスモデリングアーキテクチャの役割を大きく広げます。

How to extract as much learning signal from each trajectory data has been a key problem in reinforcement learning (RL), where sample inefficiency has posed serious challenges for practical applications. Recent works have shown that using expressive policy function approximators and conditioning on future trajectory information -- such as future states in hindsight experience replay or returns-to-go in Decision Transformer (DT) -- enables efficient learning of multi-task policies, where at times online RL is fully replaced by offline behavioral cloning, e.g. sequence modeling. We demonstrate that all these approaches are doing hindsight information matching (HIM) -- training policies that can output the rest of trajectory that matches some statistics of future state information. We present Generalized Decision Transformer (GDT) for solving any HIM problem, and show how different choices for the feature function and the anti-causal aggregator not only recover DT as a special case, but also lead to novel Categorical DT (CDT) and Bi-directional DT (BDT) for matching different statistics of the future. For evaluating CDT and BDT, we define offline multi-task state-marginal matching (SMM) and imitation learning (IL) as two generic HIM problems, propose a Wasserstein distance loss as a metric for both, and empirically study them on MuJoCo continuous control benchmarks. CDT, which simply replaces anti-causal summation with anti-causal binning in DT, enables the first effective offline multi-task SMM algorithm that generalizes well to unseen and even synthetic multi-modal state-feature distributions. BDT, which uses an anti-causal second transformer as the aggregator, can learn to model any statistics of the future and outperforms DT variants in offline multi-task IL. Our generalized formulations from HIM and GDT greatly expand the role of powerful sequence modeling architectures in modern RL.
翻訳日:2021-11-22 15:46:51 公開日:2021-11-19
# DeepQR: 学習用複数項目質問に対するニューラルネットワークによる品質評価

DeepQR: Neural-based Quality Ratings for Learnersourced Multiple-Choice Questions ( http://arxiv.org/abs/2111.10058v1 )

ライセンス: Link先を確認
Lin Ni, Qiming Bao, Xiaoxuan Li, Qianqian Qi, Paul Denny, Jim Warren, Michael Witbrock, Jiamou Liu(参考訳) 自動質問品質評価(automated question quality rating, aqqr)は、計算手段を通じて質問品質を評価することを目的としている。 既存のAQQRの手法は、可読性や単語数といった明確に定義された基準にのみ依存するが、最先端のディープラーニング技術の力を十分に活用していない。 我々は、広く使われている学習者ソーシングプラットフォームであるPeerWiseから収集されたMultiple-choice-question (MCQ)データセットを用いてトレーニングされた、AQQRの新しいニューラルネットワークモデルであるDeepQRを提案する。 DeepQRの設計とともに、明示的に定義された機能やセマンティック機能に基づいたモデル、あるいはその両方を調査します。 また,MCQコンポーネント間の意味的相関を捉える自己認識機構や,品質評価を用いた質問表現獲得のためのコントラスト学習手法も導入する。 8つの大学レベルのコースから収集されたデータセットに関する広範な実験は、deepqrが6つの比較モデルよりも優れたパフォーマンスを示している。

Automated question quality rating (AQQR) aims to evaluate question quality through computational means, thereby addressing emerging challenges in online learnersourced question repositories. Existing methods for AQQR rely solely on explicitly-defined criteria such as readability and word count, while not fully utilising the power of state-of-the-art deep-learning techniques. We propose DeepQR, a novel neural-network model for AQQR that is trained using multiple-choice-question (MCQ) datasets collected from PeerWise, a widely-used learnersourcing platform. Along with designing DeepQR, we investigate models based on explicitly-defined features, or semantic features, or both. We also introduce a self-attention mechanism to capture semantic correlations between MCQ components, and a contrastive-learning approach to acquire question representations using quality ratings. Extensive experiments on datasets collected from eight university-level courses illustrate that DeepQR has superior performance over six comparative models.
翻訳日:2021-11-22 14:32:37 公開日:2021-11-19
# 深層強化学習のための不確実性を考慮した低ランクq行列推定

Uncertainty-aware Low-Rank Q-Matrix Estimation for Deep Reinforcement Learning ( http://arxiv.org/abs/2111.10103v1 )

ライセンス: Link先を確認
Tong Sang, Hongyao Tang, Jianye Hao, Yan Zheng, Zhaopeng Meng(参考訳) 価値の見積もりは強化学習の重要な問題のひとつです。 異なる分野の深層強化学習(drl)によって多くの成果が得られたが、価値関数の構造や学習のダイナミクス、特に複素関数近似は、完全には理解されていない。 本稿では,様々なアルゴリズムを対象とした連続制御タスクの学習過程において,$q$-matrixの低下ランクが広く存在することを報告する。 低ランク現象は確率的高次元空間から滑らかな低次元空間への$Q$-matrixの共通学習ダイナミクスを示すと仮定する。 さらに,値行列のランクと値推定の不確実性との間に正の相関関係を示す。 上記の証拠に触発されて,値関数の学習を容易にする汎用フレームワークとして,新しい不確実性を考慮した低ランクq行列推定(ua-lqe)アルゴリズムを提案する。 状態作用値推定の不確かさを定量化することにより、状態作用値行列における不確かさの高い値のエントリを選択的に消去し、それらの値の回復のために低ランク行列再構成を行う。 このような再構成は値行列の基盤構造を利用して値近似を改善し、値関数のより効率的な学習プロセスをもたらす。 実験では,OpenAI MuJoCo連続制御タスクにおけるUA-LQEの有効性を評価した。

Value estimation is one key problem in Reinforcement Learning. Albeit many successes have been achieved by Deep Reinforcement Learning (DRL) in different fields, the underlying structure and learning dynamics of value function, especially with complex function approximation, are not fully understood. In this paper, we report that decreasing rank of $Q$-matrix widely exists during learning process across a series of continuous control tasks for different popular algorithms. We hypothesize that the low-rank phenomenon indicates the common learning dynamics of $Q$-matrix from stochastic high dimensional space to smooth low dimensional space. Moreover, we reveal a positive correlation between value matrix rank and value estimation uncertainty. Inspired by above evidence, we propose a novel Uncertainty-Aware Low-rank Q-matrix Estimation (UA-LQE) algorithm as a general framework to facilitate the learning of value function. Through quantifying the uncertainty of state-action value estimation, we selectively erase the entries of highly uncertain values in state-action value matrix and conduct low-rank matrix reconstruction for them to recover their values. Such a reconstruction exploits the underlying structure of value matrix to improve the value approximation, thus leading to a more efficient learning process of value function. In the experiments, we evaluate the efficacy of UA-LQE in several representative OpenAI MuJoCo continuous control tasks.
翻訳日:2021-11-22 14:32:21 公開日:2021-11-19
# 個別処理効果予測と昇降モデルのための大規模ベンチマーク

A Large Scale Benchmark for Individual Treatment Effect Prediction and Uplift Modeling ( http://arxiv.org/abs/2111.10106v1 )

ライセンス: Link先を確認
Eustache Diemert, Artem Betlei, Christophe Renaudin, Massih-Reza Amini, Th\'eophane Gregoir, Thibaud Rahier(参考訳) 個別処理効果(ITE)予測は、粒度レベルでの行動の因果的影響の説明と推定を目的とした機械学習における重要な研究領域である。 これは、医療、オンライン広告、社会経済といった、複数の分野のアプリケーションへの関心が高まる問題を表している。 このトピックに関する研究を促進すべく、いくつかのランダム化されたコントロールトライアルから収集された1390万のサンプルの公開コレクションをリリースします。 我々は、データ収集の詳細と、このデータを利用した因果推論タスクの正当性チェックを行う。 まず,このデータを用いて行うことのできるアップリフトモデリング(um)のタスクと,関連する評価指標を定式化する。 そして,ITE予測のための一般的なセットアップを提供する合成応答面とヘテロジニアス処理割り当てを提案する。 最後に,データセットの大きさを利用して,ベースラインumとiteの予測手法を選定し,統計的に有意な評価・比較を行う実験を行った。

Individual Treatment Effect (ITE) prediction is an important area of research in machine learning which aims at explaining and estimating the causal impact of an action at the granular level. It represents a problem of growing interest in multiple sectors of application such as healthcare, online advertising or socioeconomics. To foster research on this topic we release a publicly available collection of 13.9 million samples collected from several randomized control trials, scaling up previously available datasets by a healthy 210x factor. We provide details on the data collection and perform sanity checks to validate the use of this data for causal inference tasks. First, we formalize the task of uplift modeling (UM) that can be performed with this data, along with the relevant evaluation metrics. Then, we propose synthetic response surfaces and heterogeneous treatment assignment providing a general set-up for ITE prediction. Finally, we report experiments to validate key characteristics of the dataset leveraging its size to evaluate and compare - with high statistical significance - a selection of baseline UM and ITE prediction methods.
翻訳日:2021-11-22 14:31:59 公開日:2021-11-19
# ubi-sleepnet:ユビキタスセンシングを用いた3段階睡眠分類のための高度マルチモーダル融合技術

Ubi-SleepNet: Advanced Multimodal Fusion Techniques for Three-stage Sleep Classification Using Ubiquitous Sensing ( http://arxiv.org/abs/2111.10245v1 )

ライセンス: Link先を確認
Bing Zhai, Yu Guan, Michael Catt, Thomas Ploetz(参考訳) 睡眠は健康な体と心を維持するのに不可欠な基本的な生理的過程である。 臨床睡眠モニタリングの金本位制はポリソムノグラフィ(psg)であり、睡眠は覚醒/ラピッド眼球運動睡眠(レム睡眠)/非レム睡眠1(n1)/非レム睡眠2(n2)/非レム睡眠3(n3)の5段階に分類できる。 しかし、PSGは高価で負担がかかり、日常使用には適さない。 長期睡眠モニタリングでは、ユビキタスセンシングが解決策となるかもしれない。 最近では、研究グレードまたはコンシューマグレードのデバイス(例えばApple Watch)から、両方のモダリティを簡単に取得できるため、三段階睡眠の分類において心臓と運動感覚が人気である。 しかし、データを最も正確に融合する方法については、まだ疑問の余地がある。 本研究では,3つの融合戦略と3段階の睡眠分類のための3つの融合手法を組み合わせた3つの公開データセットに基づく深層学習(DL)に基づく高度な融合手法を包括的に研究した。 実験結果から,3段階睡眠は,大規模な睡眠ステージアセスメント研究や長期の睡眠自己追跡を行うための実践的ツールとなりうる心・運動感覚モダリティを融合させることで,確実に分類できることが示唆された。 ユビキタス/ウェアラブルコンピューティングコミュニティにおける睡眠研究の進展を加速するため、このプロジェクトをオープンソース化し、https://github.com/bzhai/Ubi-SleepNet.comでコードを見ることができる。

Sleep is a fundamental physiological process that is essential for sustaining a healthy body and mind. The gold standard for clinical sleep monitoring is polysomnography(PSG), based on which sleep can be categorized into five stages, including wake/rapid eye movement sleep (REM sleep)/Non-REM sleep 1 (N1)/Non-REM sleep 2 (N2)/Non-REM sleep 3 (N3). However, PSG is expensive, burdensome, and not suitable for daily use. For long-term sleep monitoring, ubiquitous sensing may be a solution. Most recently, cardiac and movement sensing has become popular in classifying three-stage sleep, since both modalities can be easily acquired from research-grade or consumer-grade devices (e.g., Apple Watch). However, how best to fuse the data for the greatest accuracy remains an open question. In this work, we comprehensively studied deep learning (DL)-based advanced fusion techniques consisting of three fusion strategies alongside three fusion methods for three-stage sleep classification based on two publicly available datasets. Experimental results demonstrate important evidence that three-stage sleep can be reliably classified by fusing cardiac/movement sensing modalities, which may potentially become a practical tool to conduct large-scale sleep stage assessment studies or long-term self-tracking on sleep. To accelerate the progression of sleep research in the ubiquitous/wearable computing community, we made this project open source, and the code can be found at: https://github.com/bzhai/Ubi-SleepNet.
翻訳日:2021-11-22 14:31:43 公開日:2021-11-19
# メタ逆境摂動

Meta Adversarial Perturbations ( http://arxiv.org/abs/2111.10291v1 )

ライセンス: Link先を確認
Chia-Hung Yuan, Pin-Yu Chen, Chia-Mu Yu(参考訳) 多数の攻撃手法が攻撃例を生成するために提案されており、その中に強力な攻撃を見つける能力が実証されている。 しかし,新たなデータ点に対する逆摂動の計算には,時間を要する最適化問題をゼロから解く必要がある。 より強力な攻撃を生成するには、通常、より多くのイテレーションでデータポイントを更新する必要がある。 本稿では, メタ逆転摂動 (MAP) の存在を示すとともに, 1段階の勾配上昇更新のみで更新された後, 自然画像が高い確率で誤分類されるような, より優れた初期化を行い, このような摂動を計算するためのアルゴリズムを提案する。 我々は広範な実験を行い、最先端の深層ニューラルネットワークがメタ摂動に弱いことを実証した。 さらに、これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであることを示し、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化する。

A plethora of attack methods have been proposed to generate adversarial examples, among which the iterative methods have been demonstrated the ability to find a strong attack. However, the computation of an adversarial perturbation for a new data point requires solving a time-consuming optimization problem from scratch. To generate a stronger attack, it normally requires updating a data point with more iterations. In this paper, we show the existence of a meta adversarial perturbation (MAP), a better initialization that causes natural images to be misclassified with high probability after being updated through only a one-step gradient ascent update, and propose an algorithm for computing such perturbations. We conduct extensive experiments, and the empirical results demonstrate that state-of-the-art deep neural networks are vulnerable to meta perturbations. We further show that these perturbations are not only image-agnostic, but also model-agnostic, as a single perturbation generalizes well across unseen data points and different neural network architectures.
翻訳日:2021-11-22 14:31:10 公開日:2021-11-19
# DSPoint:高周波核融合によるデュアルスケールポイントクラウド認識

DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion ( http://arxiv.org/abs/2111.10332v1 )

ライセンス: Link先を確認
Renrui Zhang, Ziyao Zeng, Ziyu Guo, Xinben Gao, Kexue Fu, Jianbo Shi(参考訳) ポイントクラウド処理は、その幅と不規則性のために難しい課題である。 以前の作品では、局所的特徴アグリゲータと大域的幾何学的アーキテクチャの両方に繊細なデザインを取り入れているが、両方の利点を組み合わせるものは少ない。 本研究では,voxel と point を同時に操作することで局所的グローバル特徴を抽出するために,高頻度融合(dspoint)を用いたデュアルスケールポイントクラウド認識を提案する。 ボクセルに畳み込みを適用し、点に注意を向ける従来の設計を逆転する。 具体的には、細粒度解析のためのポイントワイド畳み込みと、長距離構造探査のためのボクセルワイドグローバルアテンションの2つの特徴をチャネル次元で切り離す。 我々は,高頻度座標情報を伝達することにより,大規模な相互モーダル間相互作用を行う特徴アライメントのためのコアテンション融合モジュールを設計する。 広く採用されているModelNet40,ShapeNet,S3DISの実験と改善により,DSPointの最先端性能が実証された。

Point cloud processing is a challenging task due to its sparsity and irregularity. Prior works introduce delicate designs on either local feature aggregator or global geometric architecture, but few combine both advantages. We propose Dual-Scale Point Cloud Recognition with High-frequency Fusion (DSPoint) to extract local-global features by concurrently operating on voxels and points. We reverse the conventional design of applying convolution on voxels and attention to points. Specifically, we disentangle point features through channel dimension for dual-scale processing: one by point-wise convolution for fine-grained geometry parsing, the other by voxel-wise global attention for long-range structural exploration. We design a co-attention fusion module for feature alignment to blend local-global modalities, which conducts inter-scale cross-modality interaction by communicating high-frequency coordinates information. Experiments and ablations on widely-adopted ModelNet40, ShapeNet, and S3DIS demonstrate the state-of-the-art performance of our DSPoint.
翻訳日:2021-11-22 14:30:53 公開日:2021-11-19
# 騒音誘導による摂食支援訓練

Fooling Adversarial Training with Inducing Noise ( http://arxiv.org/abs/2111.10130v1 )

ライセンス: Link先を確認
Zhirui Wang, Yifei Wang, Yisen Wang(参考訳) 敵意トレーニングは、敵意攻撃に対するモデルのロバスト性を改善するための信頼できるアプローチであると広く考えられている。 しかし本論文では,ある種類の有毒データに基づいてトレーニングを行う場合,cifar-10データセット上では,<1\%$ロバストなテスト精度と>90\%$ロバストなトレーニング精度を持つ<1\%$ロバストなテスト精度など,敵対的トレーニングを騙すことも示す。 従来、トレーニングデータには、標準トレーニング(CIFAR-10データセットで標準トレーニング精度が15.8\%、標準トレーニング精度が99.9\%)を騙すことに成功している他の種類のノイズがあるが、敵のトレーニングを採用する際には、その毒性を簡単に除去することができる。 そこで,我々は,トレーニングデータの無作為な中毒であるadvinという新しいタイプの誘発雑音の設計を目指している。 ADVINは、CIFAR-10データセットで511.7 %$から0.57 %$まで大きなマージンで敵の訓練の堅牢性を低下させるだけでなく、標準トレーニングを騙すのにも有効である(13.1 %$標準テスト精度と100 %$標準トレーニング精度)。 さらにADVINは、個人データ(自撮りなど)が標準的あるいは敵対的な訓練を受けずに悪用されるのを防ぐために適用することができる。

Adversarial training is widely believed to be a reliable approach to improve model robustness against adversarial attack. However, in this paper, we show that when trained on one type of poisoned data, adversarial training can also be fooled to have catastrophic behavior, e.g., $<1\%$ robust test accuracy with $>90\%$ robust training accuracy on CIFAR-10 dataset. Previously, there are other types of noise poisoned in the training data that have successfully fooled standard training ($15.8\%$ standard test accuracy with $99.9\%$ standard training accuracy on CIFAR-10 dataset), but their poisonings can be easily removed when adopting adversarial training. Therefore, we aim to design a new type of inducing noise, named ADVIN, which is an irremovable poisoning of training data. ADVIN can not only degrade the robustness of adversarial training by a large margin, for example, from $51.7\%$ to $0.57\%$ on CIFAR-10 dataset, but also be effective for fooling standard training ($13.1\%$ standard test accuracy with $100\%$ standard training accuracy). Additionally, ADVIN can be applied to preventing personal data (like selfies) from being exploited without authorization under whether standard or adversarial training.
翻訳日:2021-11-22 14:30:34 公開日:2021-11-19
# 製造業領域における質問応答システムの構築

Building a Question Answering System for the Manufacturing Domain ( http://arxiv.org/abs/2111.10044v1 )

ライセンス: Link先を確認
Liu Xingguang, Cheng Zhenbo, Shen Zhengyuan, Zhang Haoxin, Meng Hangcheng, Xu Xuesong, Xiao Gang(参考訳) 特別装備品の設計又はシミュレーション分析は、国定基準に従わなければならないため、設計プロセスにおける基準の内容を繰り返し検討する必要があるかもしれない。 しかし,従来のキーワード検索に基づく質問応答システムは,技術的質問に対して正確な回答を与えるのが困難である。 そこで本研究では,自然言語処理手法を用いて圧力容器設計における意思決定過程の質問応答システムを設計する。 技術質問応答システムのトレーニングデータ不足を解決するため,複数の次元から宣言文に基づいて質問を生成する手法を提案し,複数の問合せ対を宣言文から得られるようにした。 さらに,2つの質問文の類似性比較の性能を向上させるために,双方向長短期メモリ(BiLSTM)ネットワークに基づく対話型アテンションモデルを構築した。 最後に、質問応答システムの性能をパブリックおよびテクニカルなドメインデータセットでテストした。

The design or simulation analysis of special equipment products must follow the national standards, and hence it may be necessary to repeatedly consult the contents of the standards in the design process. However, it is difficult for the traditional question answering system based on keyword retrieval to give accurate answers to technical questions. Therefore, we use natural language processing techniques to design a question answering system for the decision-making process in pressure vessel design. To solve the problem of insufficient training data for the technology question answering system, we propose a method to generate questions according to a declarative sentence from several different dimensions so that multiple question-answer pairs can be obtained from a declarative sentence. In addition, we designed an interactive attention model based on a bidirectional long short-term memory (BiLSTM) network to improve the performance of the similarity comparison of two question sentences. Finally, the performance of the question answering system was tested on public and technical domain datasets.
翻訳日:2021-11-22 14:28:48 公開日:2021-11-19
# オンラインリソースアロケーションのための逆深層学習

Adversarial Deep Learning for Online Resource Allocation ( http://arxiv.org/abs/2111.10285v1 )

ライセンス: Link先を確認
Bingqian Du, Zhiyi Huang, Chuan Wu(参考訳) オンラインアルゴリズムはアルゴリズム設計において重要な分野である。 オンラインアルゴリズムを(最悪の場合のパフォーマンスの観点から)有界競争比で設計することは困難であり、通常は問題固有の仮定に依存する。 Generative Adversarial Net (GAN) の敵対的トレーニングや,オンラインアルゴリズムの競合比率が最悪のケース入力に基づいているという事実に触発されて,我々は,オフライン最適化と学習したオンラインアルゴリズムのパフォーマンスギャップを最小化して,リソース割り当てと価格問題に対するオンラインアルゴリズムをゼロから学習するために,ディープニューラルネットワークを採用した。 具体的には、2つのニューラルネットワークをそれぞれアルゴリズムと敵として利用し、そのアルゴリズムが相手の入力に基づいて最良の戦略を学習している間に、相手が最悪の入力を生成する責任を負うゼロサムゲームをさせる。 アルゴリズムネットワーク(所望のオンラインアルゴリズムへ)の収束性を確保するため,複数のラウンド間の複雑な依存関係を壊すようなシーケンシャルな決定を処理し,サンプル化されたアクションのみでなく,可能なすべてのアクションに対して更新を行うことが可能な,新しい1ラウンドごとの更新手法を提案する。 我々の知る限りでは、私たちの研究は、最悪のパフォーマンス保証の観点からオンラインアルゴリズムを設計するためにディープニューラルネットワークを使った初めてのものです。 実証研究により,nash均衡への収束を保証し,学習アルゴリズムが様々な条件下で最先端のオンラインアルゴリズムを上回ることを示した。

Online algorithm is an important branch in algorithm design. Designing online algorithms with a bounded competitive ratio (in terms of worst-case performance) can be hard and usually relies on problem-specific assumptions. Inspired by adversarial training from Generative Adversarial Net (GAN) and the fact that competitive ratio of an online algorithm is based on worst-case input, we adopt deep neural networks to learn an online algorithm for a resource allocation and pricing problem from scratch, with the goal that the performance gap between offline optimum and the learned online algorithm can be minimized for worst-case input. Specifically, we leverage two neural networks as algorithm and adversary respectively and let them play a zero sum game, with the adversary being responsible for generating worst-case input while the algorithm learns the best strategy based on the input provided by the adversary. To ensure better convergence of the algorithm network (to the desired online algorithm), we propose a novel per-round update method to handle sequential decision making to break complex dependency among different rounds so that update can be done for every possible action, instead of only sampled actions. To the best of our knowledge, our work is the first using deep neural networks to design an online algorithm from the perspective of worst-case performance guarantee. Empirical studies show that our updating methods ensure convergence to Nash equilibrium and the learned algorithm outperforms state-of-the-art online algorithms under various settings.
翻訳日:2021-11-22 14:28:34 公開日:2021-11-19
# マルコフ決定過程におけるエキスパート誘導対称性検出

Expert-Guided Symmetry Detection in Markov Decision Processes ( http://arxiv.org/abs/2111.10297v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel(参考訳) 固定された軌道のバッチからマルコフ決定過程(MDP)を学習することは、結果の質が状態-作用空間のサンプル領域の量と多様性に依存する非自明なタスクである。 しかし、多くのMDPには、現在の状態と動作の変換に関して不変の報酬と遷移関数が与えられている。 これらの構造を検出して活用することは、MDPの学習だけでなく、その後の最適制御ポリシーの計算にも役立つ。 本研究では,mdp動力学が不変である状態-作用空間の既に想定されている変換の存在を検出することを目的とした,密度推定法に基づくパラダイムを提案する。 提案手法を離散トロイダルグリッド環境とOpenAIのGym Learning Suiteの2つの悪名高い環境で検証した。 その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトを低減し, 遷移関数のより徹底的でデータ効率のよい学習を可能にした。

Learning a Markov Decision Process (MDP) from a fixed batch of trajectories is a non-trivial task whose outcome's quality depends on both the amount and the diversity of the sampled regions of the state-action space. Yet, many MDPs are endowed with invariant reward and transition functions with respect to some transformations of the current state and action. Being able to detect and exploit these structures could benefit not only the learning of the MDP but also the computation of its subsequent optimal control policy. In this work we propose a paradigm, based on Density Estimation methods, that aims to detect the presence of some already supposed transformations of the state-action space for which the MDP dynamics is invariant. We tested the proposed approach in a discrete toroidal grid environment and in two notorious environments of OpenAI's Gym Learning Suite. The results demonstrate that the model distributional shift is reduced when the dataset is augmented with the data obtained by using the detected symmetries, allowing for a more thorough and data-efficient learning of the transition functions.
翻訳日:2021-11-22 14:28:07 公開日:2021-11-19
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v3 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-22 14:25:12 公開日:2021-11-19
# (参考訳) XLS-R:大規模言語間音声表現学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale ( http://arxiv.org/abs/2111.09296v2 )

ライセンス: CC BY 4.0
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli(参考訳) 本稿では,wav2vec 2.0に基づく言語間音声表現学習の大規模モデルであるXLS-Rを提案する。 私たちは、128の言語で50万時間近く公開されている音声音声に対して、最大2Bパラメータを持つモデルをトレーニングします。 私たちの評価は、ハイリソースとローリソースの両方で、幅広いタスク、ドメイン、データレジーム、言語をカバーしています。 CoVoST-2音声翻訳ベンチマークでは,21の翻訳方向に対して平均7.4BLEUで先行技術を改善する。 音声認識において、XLS-RはBABEL、MLS、CommonVoice、およびVoxPopuliの既知の先行研究を改善し、平均して14~34%の誤差率を低下させる。 XLS-RはVoxLingua107言語識別の新たな状態も設定している。 さらに, モデルサイズが十分であれば, 英語を他の言語に翻訳する際には, 言語間事前学習が英語のみの事前学習よりも優れることを示す。 我々は、XLS-Rが世界中の多くの言語における音声処理タスクの改善に役立つことを願っている。

This paper presents XLS-R, a large-scale model for cross-lingual speech representation learning based on wav2vec 2.0. We train models with up to 2B parameters on nearly half a million hours of publicly available speech audio in 128 languages, an order of magnitude more public data than the largest known prior work. Our evaluation covers a wide range of tasks, domains, data regimes and languages, both high and low-resource. On the CoVoST-2 speech translation benchmark, we improve the previous state of the art by an average of 7.4 BLEU over 21 translation directions into English. For speech recognition, XLS-R improves over the best known prior work on BABEL, MLS, CommonVoice as well as VoxPopuli, lowering error rates by 14-34% relative on average. XLS-R also sets a new state of the art on VoxLingua107 language identification. Moreover, we show that with sufficient model size, cross-lingual pretraining can outperform English-only pretraining when translating English speech into other languages, a setting which favors monolingual pretraining. We hope XLS-R can help to improve speech processing tasks for many more languages of the world.
翻訳日:2021-11-22 13:47:49 公開日:2021-11-19
# (参考訳) 視覚記憶を用いた非教師なしオンライン学習

Unsupervised Online Learning for Robotic Interestingness with Visual Memory ( http://arxiv.org/abs/2111.09793v2 )

ライセンス: CC0 1.0
Chen Wang, Yuheng Qiu, Wenshan Wang, Yafei Hu, Seungchan Kim, Sebastian Scherer(参考訳) 自律ロボットは、さらなる探索を決定するために「興味深い」シーンを検出したり、協力のために共有するデータを決定する必要がある。 これらのシナリオは、ほとんど、あるいはまったくトレーニングデータを持たない高速なデプロイメントを必要とすることが多い。 先行研究では、同じ分布のデータに基づいて「興味」を考える。 代わりに,オンライン環境に自動的に適応して興味ある場面を素早く報告する手法を開発することを提案する。 この問題に対処するため,我々は,新しい翻訳不変ビジュアルメモリを開発し,長期・短期・オンライン学習のための3段階アーキテクチャを設計した。 このシステムにより,地下トンネル環境における最先端の非監視手法よりも平均20%高い精度が得られる。 提案手法の有効性を示すロボット探索シナリオにおける教師付き手法と同等の性能を示す。 提案手法は,ロボットの興味をそそる探索作業において重要な役割を果たすことを期待する。

Autonomous robots frequently need to detect "interesting" scenes to decide on further exploration, or to decide which data to share for cooperation. These scenarios often require fast deployment with little or no training data. Prior work considers "interestingness" based on data from the same distribution. Instead, we propose to develop a method that automatically adapts online to the environment to report interesting scenes quickly. To address this problem, we develop a novel translation-invariant visual memory and design a three-stage architecture for long-term, short-term, and online learning, which enables the system to learn human-like experience, environmental knowledge, and online adaption, respectively. With this system, we achieve an average of 20% higher accuracy than the state-of-the-art unsupervised methods in a subterranean tunnel environment. We show comparable performance to supervised methods for robot exploration scenarios showing the efficacy of our approach. We expect that the presented method will play an important role in the robotic interestingness recognition exploration tasks.
翻訳日:2021-11-22 13:14:39 公開日:2021-11-19
# (参考訳) 分布外データに基づくディープネットワークの一般化と検証

Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data ( http://arxiv.org/abs/2111.09190v2 )

ライセンス: CC BY 4.0
Rui Hu, Jitao Sang, Jinqiang Wang, Rui Hu, Chaoquan Jiang(参考訳) ディープネットワークモデルは、In-Distribution(ID)データでは優れた性能を発揮するが、Out-Of-Distribution(OOD)データでは著しく失敗する可能性がある。 OODの一般化の改善に焦点が当てられているが、OODデータを扱うモデルの性能を評価することにはほとんど注意が払われている。 本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計し,実用性能を正確に評価することを目的とする。 分析は,OODデータを生成するために,3種類の分布シフトの分類を導入した。 1) 単一モデルの実際の性能を反映せず、OODデータの下で異なるモデルの比較も行わない場合、IDテストは失敗する。 2) IDテストの失敗は, 対応する分布シフトから得られた学習限界と条件の急激な相関に説明できる。 そこで本研究では,OODテストの新たなパラダイムを提案するとともに,モデルデバッギングのガイドとなるモデルのバグを見つけるためのOODテスト結果の活用方法について検討する。

Deep network models perform excellently on In-Distribution (ID) data, but can significantly fail on Out-Of-Distribution (OOD) data. While developing methods focus on improving OOD generalization, few attention has been paid to evaluating the capability of models to handle OOD data. This study is devoted to analyzing the problem of experimental ID test and designing OOD test paradigm to accurately evaluate the practical performance. Our analysis is based on an introduced categorization of three types of distribution shifts to generate OOD data. Main observations include: (1) ID test fails in neither reflecting the actual performance of a single model nor comparing between different models under OOD data. (2) The ID test failure can be ascribed to the learned marginal and conditional spurious correlations resulted from the corresponding distribution shifts. Based on this, we propose novel OOD test paradigms to evaluate the generalization capacity of models to unseen data, and discuss how to use OOD test results to find bugs of models to guide model debugging.
翻訳日:2021-11-22 12:44:45 公開日:2021-11-19
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v3 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-22 12:27:12 公開日:2021-11-19
# 亜深度:自己蒸留と不確かさ向上による自己監督単眼深度推定

SUB-Depth: Self-distillation and Uncertainty Boosting Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2111.09692v2 )

ライセンス: Link先を確認
Hang Zhou, Sarah Taylor, David Greenwood(参考訳) 自己教師付き単眼深度推定(SDE)のための汎用マルチタスクトレーニングフレームワークであるSUB-Depthを提案する。 SUB-Depthでトレーニングされた深度モデルは、標準のシングルタスクSDEフレームワークでトレーニングされた同じモデルより優れている。 新たな自己蒸留タスクを標準のSDEトレーニングフレームワークに導入することにより、Sub-Depthは、画像再構成タスクの深度マップを予測するだけでなく、学習した教師ネットワークから学習データを用いて知識を抽出する深度ネットワークを訓練する。 このマルチタスク設定を活用するために,教師ネットワークノイズの影響を受けやすい領域やSDEの仮定に反する領域を罰する,各タスクに対する相似不確実性定式化を提案する。 提案するフレームワークを用いて,既存のネットワークをトレーニングすることで達成された改善を実証するために,KITTIの広範な評価を行い,その課題に対して最先端の性能を実現する。 さらに、SUB-Depthは深度出力の不確かさを推定できる。

We propose SUB-Depth, a universal multi-task training framework for self-supervised monocular depth estimation (SDE). Depth models trained with SUB-Depth outperform the same models trained in a standard single-task SDE framework. By introducing an additional self-distillation task into a standard SDE training framework, SUB-Depth trains a depth network, not only to predict the depth map for an image reconstruction task, but also to distill knowledge from a trained teacher network with unlabelled data. To take advantage of this multi-task setting, we propose homoscedastic uncertainty formulations for each task to penalize areas likely to be affected by teacher network noise, or violate SDE assumptions. We present extensive evaluations on KITTI to demonstrate the improvements achieved by training a range of existing networks using the proposed framework, and we achieve state-of-the-art performance on this task. Additionally, SUB-Depth enables models to estimate uncertainty on depth output.
翻訳日:2021-11-22 12:26:53 公開日:2021-11-19
# LiDARクラスタファーストとカメラ推論:自動運転への新たな展望

LiDAR Cluster First and Camera Inference Later: A New Perspective Towards Autonomous Driving ( http://arxiv.org/abs/2111.09799v2 )

ライセンス: Link先を確認
Jiyang Chen, Simon Yu, Rohan Tabish, Ayoosh Bansal, Shengzhong Liu, Tarek Abdelzaher, and Lui Sha(参考訳) 最先端自動運転車(av)フレームワークにおけるオブジェクト検出は、ディープニューラルネットワークに大きく依存する。 通常、これらのネットワークはカメラのLiDARフレーム全体に一様にオブジェクト検出を行う。 しかし、この均一性は、AVに衝突するリスクに関係なく、シーン内のすべてのオブジェクトに同じ優先度を与えることで、AVの安全性を損なう。 本稿では、まずLiDARクラスタの概念を導入し、次にカメラ推論を行い、オブジェクトを検出して分類するAVのための新しいエンドツーエンドパイプラインを提案する。 提案するフレームワークの利点は2つあります。 まず、当社のパイプラインでは、avに衝突するリスクが高いオブジェクトの検出を優先し、安全でない条件にavが反応する時間を増やします。 第2に、一般的なディープニューラルネットワークパイプラインと比較して、平均的な推論速度も速い。 実世界のデータセットであるWaymo Open Datasetを使用して,LiDARセンサとオブジェクト検出アルゴリズムの限界から生じる課題を解決するフレームワークを設計する。 提案する新たなオブジェクト検出パイプラインは,カメラ推論のみと比較して,高いリスクオブジェクトの検出を優先すると同時に,同等の精度と平均速度を25%向上することを示す。

Object detection in state-of-the-art Autonomous Vehicles (AV) framework relies heavily on deep neural networks. Typically, these networks perform object detection uniformly on the entire camera LiDAR frames. However, this uniformity jeopardizes the safety of the AV by giving the same priority to all objects in the scenes regardless of their risk of collision to the AV. In this paper, we present a new end-to-end pipeline for AV that introduces the concept of LiDAR cluster first and camera inference later to detect and classify objects. The benefits of our proposed framework are twofold. First, our pipeline prioritizes detecting objects that pose a higher risk of collision to the AV, giving more time for the AV to react to unsafe conditions. Second, it also provides, on average, faster inference speeds compared to popular deep neural network pipelines. We design our framework using the real-world datasets, the Waymo Open Dataset, solving challenges arising from the limitations of LiDAR sensors and object detection algorithms. We show that our novel object detection pipeline prioritizes the detection of higher risk objects while simultaneously achieving comparable accuracy and a 25% higher average speed compared to camera inference only.
翻訳日:2021-11-22 12:26:36 公開日:2021-11-19
# 制限のない3次元逆点雲の生成

Generating Unrestricted 3D Adversarial Point Clouds ( http://arxiv.org/abs/2111.08973v2 )

ライセンス: Link先を確認
Xuelong Dai, Yanjie Li, Hua Dai, Bin Xiao(参考訳) 3dポイントクラウドデータを活用することで、顔認識や自動運転など、多くの分野における人工知能の展開が緊急に求められている。 しかし、3dポイントクラウドのディープラーニングは、反復攻撃、ポイント変換攻撃、生成攻撃など、相反する攻撃に対して脆弱である。 これらの攻撃は、厳密な境界内での敵の例の摂動を制限する必要があり、非現実的な3D点雲に繋がる。 本稿では,視覚的に現実的な3D点雲をスクラッチから生成するAdvGCGAN(Adversarial Graph-Convolutional Generative Adversarial Network)を提案する。 具体的には,グラフ畳み込み生成器と補助分類器を備えた判別器を用いて,実3次元データから潜在分布を学習する実数点雲を生成する。 GANの特殊対向訓練には制限のない対向攻撃損失が組み込まれており、生成器は敵のサンプルを生成してターゲットネットワークをスポークすることができる。 既存の最先端攻撃法と比較して,本実験は,攻撃成功率が高く視覚品質の高い非制限攻撃法の有効性を示す。 さらに,提案するadvgcganは,強力なカモフラージュを有する既存の攻撃手法よりも,防御モデルに対する優れた性能と移動性を達成することができる。

Utilizing 3D point cloud data has become an urgent need for the deployment of artificial intelligence in many areas like facial recognition and self-driving. However, deep learning for 3D point clouds is still vulnerable to adversarial attacks, e.g., iterative attacks, point transformation attacks, and generative attacks. These attacks need to restrict perturbations of adversarial examples within a strict bound, leading to the unrealistic adversarial 3D point clouds. In this paper, we propose an Adversarial Graph-Convolutional Generative Adversarial Network (AdvGCGAN) to generate visually realistic adversarial 3D point clouds from scratch. Specifically, we use a graph convolutional generator and a discriminator with an auxiliary classifier to generate realistic point clouds, which learn the latent distribution from the real 3D data. The unrestricted adversarial attack loss is incorporated in the special adversarial training of GAN, which enables the generator to generate the adversarial examples to spoof the target network. Compared with the existing state-of-art attack methods, the experiment results demonstrate the effectiveness of our unrestricted adversarial attack methods with a higher attack success rate and visual quality. Additionally, the proposed AdvGCGAN can achieve better performance against defense models and better transferability than existing attack methods with strong camouflage.
翻訳日:2021-11-22 12:26:19 公開日:2021-11-19