このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210207となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 反共振相互作用に支配される超強マグノン-マグノンカップリング Ultrastrong Magnon-Magnon Coupling Dominated by Antiresonant Interactions ( http://arxiv.org/abs/2008.10721v2 ) ライセンス: Link先を確認 | Takuma Makihara, Kenji Hayashida, G. Timothy Noe II, Xinwei Li, Nicolas Marquez Peraca, Xiaoxuan Ma, Zuanming Jin, Wei Ren, Guohong Ma, Ikufumi Katayama, Jun Takeda, Hiroyuki Nojiri, Dmitry Turchinovich, Shixun Cao, Motoaki Bamba, Junichiro Kono | (参考訳) エキゾチックな量子真空現象は、超強光子相互作用を持つキャビティ量子電磁力学(qed)系で予測される。
その基底状態は量子揺らぎが抑制された真空圧縮状態であると予測されている。
このような現象の源はハミルトニアンにおける反共鳴項であるが、反共鳴相互作用は通常、光物質系の共鳴相互作用と比較して無視できる。
超強結合構造と支配的反共振項に容易に調整可能な結合強度を持つ特異なキャビティqedハミルトニアンをシミュレートできるマグノンの異常結合マター系について報告する。
反共振相互作用の指標である真空Bloch-Siegertシフトが共振相互作用からの類似周波数シフトを大幅に超える新しい状態を発見した。
さらに,システムの基底状態を理論的に検討し,最大5.9dbの量子揺らぎ抑制を計算した。
これらの観測により、マグノニクス系は、超強結合光マター系で予測されるエキゾチック量子真空現象をシミュレーションするための理想的なプラットフォームを提供することが示された。 Exotic quantum vacuum phenomena are predicted in cavity quantum electrodynamics (QED) systems with ultrastrong light-matter interactions. Their ground states are predicted to be vacuum squeezed states with suppressed quantum fluctuations. The source of such phenomena are antiresonant terms in the Hamiltonian, yet antiresonant interactions are typically negligible compared to resonant interactions in light-matter systems. We report an unusual coupled matter-matter system of magnons that can simulate a unique cavity QED Hamiltonian with coupling strengths that are easily tunable into the ultrastrong coupling regime and with dominant antiresonant terms. We found a novel regime where vacuum Bloch-Siegert shifts, the hallmark of antiresonant interactions, greatly exceed analogous frequency shifts from resonant interactions. Further, we theoretically explored the system's ground state and calculated up to 5.9 dB of quantum fluctuation suppression. These observations demonstrate that magnonic systems provide an ideal platform for simulating exotic quantum vacuum phenomena predicted in ultrastrongly coupled light-matter systems. | 翻訳日:2023-05-05 02:01:41 公開日:2021-02-07 |
# メソスコピック熱電エンジンの確率的熱力学サイクル Stochastic Thermodynamic Cycles of a Mesoscopic Thermoelectric Engine ( http://arxiv.org/abs/2010.06853v2 ) ライセンス: Link先を確認 | R David Mayrhofer, Cyril Elouard, Janine Splettstoesser and Andrew N Jordan | (参考訳) 2つの容量結合量子ドットからなる定常型熱電エンジンの解析を行った。
1つのドットを熱源として機能するホット貯水池にトンネル結合し、もう1つのドットから2つの電気的に偏りのある貯水池を低温で冷却し、バイアスに対する定常電流の形でワークを抽出する。
この定常エンジンの動力学の単一実現において、4ストロークサイクルを同定することができる。
サイクルは純粋に確率的であり、自己振動を示す機械式自律エンジンとは対照的である。
特に、これらのサイクルは方向と持続時間で変動し、他のスプリアスサイクルと競合して起こる。
確率的熱力学手法を用いて、サイクル変動を定量化し、個々のサイクル中に生じるエントロピーと関連付ける。
エンジンの性能に主に責任を負うサイクルを特定し、その統計をグラフ理論のツールで定量化する。
従来のメカニカルエンジンで見られる作業-置換ハミルトニアンの周期時間依存性に代えて,作業抽出機構自体が確率的であることから,このような確率サイクルが可能となる。
本研究は循環式エンジンと定常式エンジンの接続に関する新たな視点をもたらす。 We analyze a steady-state thermoelectric engine, whose working substance consists of two capacitively coupled quantum dots. One dot is tunnel-coupled to a hot reservoir serving as a heat source, the other one to two electrically biased reservoirs at a colder temperature, such that work is extracted under the form of a steady-state current against the bias. In single realizations of the dynamics of this steady-state engine autonomous, 4-stroke cycles can be identified. The cycles are purely stochastic, in contrast to mechanical autonomous engines which exhibit self-oscillations. In particular, these cycles fluctuate in direction and duration, and occur in competition with other spurious cycles. Using a stochastic thermodynamic approach, we quantify the cycle fluctuations and relate them to the entropy produced during individual cycles. We identify the cycle mainly responsible for the engine performance and quantify its statistics with tools from graph theory. We show that such stochastic cycles are made possible because the work extraction mechanism is itself stochastic instead of the periodic time dependence in the working-substance Hamiltonian which can be found in conventional mechanical engines. Our investigation brings new perspectives about the connection between cyclic and steady-state engines. | 翻訳日:2023-04-29 02:55:13 公開日:2021-02-07 |
# スピン系における非典型的な超対称量子力学 Unconventional supersymmetric quantum mechanics in spin systems ( http://arxiv.org/abs/2012.00197v2 ) ライセンス: Link先を確認 | Amin Naseri, Yutao Hu and Wenchen Luo | (参考訳) 離散固有値を持つ任意の 2,\times 2$ matrix Hamiltonian の固有確率が超対称量子力学に関係していることが示されている。
超代数のエネルギー依存は、導出された超対称性と標準超対称性量子力学の相違を示す。
固有スピナーの成分は、スピン部分空間でハミルトニアンを対角化する2つの還元固有プロブレムを導出できる$SU(2)$ transformation\textemdashまでの超パートナー\textemdashである。
その結果、各コンポーネントは固有スピノルにエンコードされた全ての情報を運ぶ。
また、外部場と結合した1つのスピン-$\frac{p}{2}$の系への形式主義の一般化についても論じる。
非伝統的な超対称性はフルトン・グーターマン変換の拡張と見なすことができ、ミラー対称性を示すマルチ発振器と組み合わされた2レベル系に対して確立することができる。
この変換はRabi型モデルを解くために最近利用された。
それに応じて、超対称形式論が模型の対称性を訴える必要なしにスピンボーソン模型をいかに解くかを示す。
さらに、単一スピンに付随する超対称量子力学を利用して、多スピン系の固有状態の成分間の絡み合いパターンを、行列積状態として再キャストすることにより明らかにすることができる。
マルチスピンモデルの例は形式主義を利用して提示され、解決される。 It is shown that the eigenproblem of any $2\times 2$ matrix Hamiltonian with discrete eigenvalues is involved with a supersymmetric quantum mechanics. The energy dependence of the superalgebra marks the disparity between the deduced supersymmetry and the standard supersymmetric quantum mechanics. The components of an eigenspinor are superpartners\textemdash up to a $SU(2)$ transformation\textemdash which allows to derive two reduced eigenproblems diagonalizing the Hamiltonian in the spin subspace. As a result, each component carries all information encoded in the eigenspinor. We also discuss the generalization of the formalism to a system of a single spin-$\frac{p}{2}$ coupled with external fields. The unconventional supersymmetry can be regarded as an extension of the Fulton-Gouterman transformation, which can be established for a two-level system coupled with multi oscillators displaying a mirror symmetry. The transformation is exploited recently to solve Rabi-type models. Correspondingly, we illustrate how the supersymmetric formalism can solve spin-boson models with no need to appeal a symmetry of the model. Furthermore, a pattern of entanglement between the components of an eigenstate of a many-spin system can be unveiled by exploiting the supersymmetric quantum mechanics associated with single spins which also recasts the eigenstate as a matrix product state. Examples of many-spin models are presented and solved by utilizing the formalism. | 翻訳日:2023-04-22 12:21:12 公開日:2021-02-07 |
# 円上の連続絡み合い再正規化 Continuous entanglement renormalization on the circle ( http://arxiv.org/abs/2101.03674v3 ) ライセンス: Link先を確認 | Ling-Yan Hung and Guifre Vidal | (参考訳) 連続多スケールエンタングルメント再正規化アンサッツ(cMERA)は、量子場の状態の変分クラスである。
もともと定式化されたように、cMERA は無限系のみに適用される。
本稿では、cmera形式を有限円に一般化し、円の周りのいわゆるエンタングルラーの作用を包むことにより達成する。
これにより、直線上のcMERAを円上のcMERAに変換することができる。
さらに、非相互作用量子場に対するガウスcmeraの場合、画像の方法は次の結果を証明することができる: 直線上でcmera状態が局所qftハミルトニアンの基底状態のよい近似であるなら、(それらの相関関数の穏やかな仮定の下で)円上のcmeraは、円上の同じqftハミルトニアンの基底状態のよい近似でもある。 The continuous multi-scale entanglement renormalization ansatz (cMERA) is a variational class of states for quantum fields. As originally formulated, the cMERA applies to infinite systems only. In this paper we generalize the cMERA formalism to a finite circle, which we achieve by wrapping the action of the so-called entangler around the circle. This allows us to transform a cMERA on the line into a cMERA on the circle. In addition, in the case of a Gaussian cMERA for non-interacting quantum fields, the method of images allow us to prove the following result: if on the line a cMERA state is a good approximation to a ground state of a local QFT Hamiltonian, then (under mild assumptions on their correlation functions) the resulting cMERA on a circle is also a good approximation to the ground state of the same QFT Hamiltonian on the circle. | 翻訳日:2023-04-17 03:00:00 公開日:2021-02-07 |
# ステップ電位における1次元粒子の力子の平均値について On the mean value of the force operator for 1D particles in the step potential ( http://arxiv.org/abs/2101.06766v2 ) ライセンス: Link先を確認 | Salvatore De Vincenzo | (参考訳) 1次元のklein-fock-gordon理論では、確率密度はステップポテンシャルが不連続である点における不連続関数である。
したがって、外部古典力演算子の平均値は、対応する平均値の式から計算することはできない。
この問題を解決するために、ハミルトン形式のクライン・フォック・ゴルドン方程式やフェシュバッハ・ヴィラーズ波動方程式から直接この量を得る。
意外なことに、得られた結果は確率密度の不連続性の平均に比例せず、不連続の大きさに比例する。
対照的に、1次元のシュル・オーディンガーとディラック理論では、この量はステップポテンシャルが不連続な点において各確率密度が取る値に比例する。
本稿ではこれらの問題を詳細に検討する。
プレゼンテーションは上級の学部レベルに適している。 In the one-dimensional Klein-Fock-Gordon theory, the probability density is a discontinuous function at the point where the step potential is discontinuous. Thus, the mean value of the external classical force operator cannot be calculated from the corresponding formula of the mean value. To resolve this issue, we obtain this quantity directly from the Klein-Fock-Gordon equation in Hamiltonian form, or the Feshbach-Villars wave equation. Not without surprise, the result obtained is not proportional to the average of the discontinuity of the probability density but to the size of the discontinuity. In contrast, in the one-dimensional Schr\"odinger and Dirac theories this quantity is proportional to the value that the respective probability density takes at the point where the step potential is discontinuous. We examine these issues in detail in this paper. The presentation is suitable for the advanced undergraduate level. | 翻訳日:2023-04-14 23:13:54 公開日:2021-02-07 |
# 区別可能なデコイ状態を持つ2フィールド量子鍵分布の送信の有無 Sending or not sending twin-field quantum key distribution with distinguishable decoy states ( http://arxiv.org/abs/2101.11283v2 ) ライセンス: Link先を確認 | Yi-Fei Lu, Mu-Sheng Jiang, Yang Wang, Xiao-Xu Zhang, Fan Liu, Chun Zhou, Hong-Wei Li, Wan-Su Bao | (参考訳) ツインフィールド量子鍵分布(TF-QKD)とその変種は、実験室やフィールドで実証されたQKDの基本的な速度-距離制限を克服することができるが、それらのサイドチャネルによる物理実装は研究が続けられている。
TF-QKDの位相後補償で要求される試験によって異なる強度状態の外部変調が周波数領域の側チャネルを示す。
そこで本研究では,周波数領域における信号状態とデコイ状態の差異が与えられ,識別可能なデコイ状態を持つ他の不完全状態にも拡張可能なtf-qkdプロトコルの送信/停止(sns)時に,パッシブ周波数シフト攻撃と呼ばれる完全かつ未検出の盗聴攻撃を提案する。
本稿では,Alice と Bob の推定値の下での秘密鍵レートの上限値と,AOPP 法と有限鍵効果を考慮した秘密鍵レートの上限値とを比較して,この攻撃を解析する。
シミュレーションの結果,Eveは長距離で検出されることなく秘密鍵ビットの完全な情報を得ることができることがわかった。
本研究は,TF-QKDの実践的実装において,情報源における実用的セキュリティの重要性を強調した。 Twin-field quantum key distribution (TF-QKD) and its variants can overcome the fundamental rate-distance limit of QKD which has been demonstrated in the laboratory and field while their physical implementations with side channels remains to be further researched. We find the external modulation of different intensity states through the test, required in those TF-QKD with post-phase compensation, shows a side channel in frequency domain. Based on this, we propose a complete and undetected eavesdropping attack, named passive frequency shift attack, on sending or not-sending (SNS) TF-QKD protocol given any difference between signal and decoy states in frequency domain which can be extended to other imperfections with distinguishable decoy states. We analyze this attack by giving the formula of upper bound of real secure key rate and comparing it with lower bound of secret key rate under Alice and Bob's estimation with the consideration of actively odd-parity pairing (AOPP) method and finite key effects. The simulation results show that Eve can get full information about the secret key bits without being detected at long distance. Our results emphasize the importance of practical security at source and might provide a valuable reference for the practical implementation of TF-QKD. | 翻訳日:2023-04-13 20:21:13 公開日:2021-02-07 |
# 神経細胞オートマトンによるソフトロボットの再生 Regenerating Soft Robots through Neural Cellular Automata ( http://arxiv.org/abs/2102.02579v2 ) ライセンス: Link先を確認 | Kazuya Horibe, Kathryn Walker, Sebastian Risi | (参考訳) 形態的再生は生物システムの環境適応能力を強調する重要な特徴である。
この再生能力の欠如は、機械の弾力性とそれらが操作できる環境を著しく制限する。
このギャップに対処するために, ソフトロボットを模擬し, 損傷した際の形態を再現する手法を開発した。
ソフトロボットを用いた数値シミュレーションは設計において重要な役割を担っているが、再生能力を持つソフトロボットの進化は今のところほとんど注目されていない。
本稿では,神経細胞オートマトンを介して再生するソフトロボットのモデルを提案する。
重要なことに、このアプローチは損傷した部品を再生するためのローカルなセル情報のみに依存しているため、将来的には物理的に再生可能なソフトロボットに興味深い可能性を開く。
我々のアプローチは、損傷を受けたシミュレーションされたソフトロボットが、局所的な細胞相互作用だけで元の形態を部分的に再生することを可能にする。
これらの結果は、再生能力を持つ人工システムの装備に向けて一歩前進し、様々な状況や環境においてより堅牢な運用を可能にする可能性がある。
実験のコードは \url{github.com/kazuyahoribe/regeneratingsoftrobots} で利用可能である。 Morphological regeneration is an important feature that highlights the environmental adaptive capacity of biological systems. Lack of this regenerative capacity significantly limits the resilience of machines and the environments they can operate in. To aid in addressing this gap, we develop an approach for simulated soft robots to regrow parts of their morphology when being damaged. Although numerical simulations using soft robots have played an important role in their design, evolving soft robots with regenerative capabilities have so far received comparable little attention. Here we propose a model for soft robots that regenerate through a neural cellular automata. Importantly, this approach only relies on local cell information to regrow damaged components, opening interesting possibilities for physical regenerable soft robots in the future. Our approach allows simulated soft robots that are damaged to partially regenerate their original morphology through local cell interactions alone and regain some of their ability to locomote. These results take a step towards equipping artificial systems with regenerative capacities and could potentially allow for more robust operations in a variety of situations and environments. The code for the experiments in this paper is available at: \url{github.com/KazuyaHoribe/RegeneratingSoftRobots}. | 翻訳日:2023-04-12 20:02:14 公開日:2021-02-07 |
# 量子分割と計算: 異なるノイズ源の効果を探求する Quantum Divide and Compute: Exploring The Effect of Different Noise Sources ( http://arxiv.org/abs/2102.03788v1 ) ライセンス: Link先を確認 | Thomas Ayral, Fran\c{c}ois-Marie Le R\'egent, Zain Saleem, Yuri Alexeev, Martin Suchara | (参考訳) 我々の最近の研究(Ayral et al., 2020 IEEE Computer Society Annual Symposium on VLSI (ISVLSI))は、量子回路をより少ない量子ビットとより浅い深さの断片に分割できる量子除算計算法(QDC)の最初の実装を示した。
したがってqdcは、ノイズの多い中間スケール量子プロセッサのキュービット数と短いコヒーレンス時間を扱うことができる。
本稿では,異なるノイズ源(読み出し誤差,ゲート誤差,デコヒーレンス)がQDC手順の成功確率に与える影響について検討する。
我々は、atos量子学習マシン上で詳細なノイズモデリングを行い、トレードオフを理解し、どのハードウェアノイズ源を優先的に最適化すべきかを推奨する。
我々は,IBM の Johannesburg プロセッサ上での実験走行を再現するために使用したノイズモデルについて詳述する。
この研究はまた、qdc手順において元の量子回路の出力分布をそのフラグメントの出力分布から計算するために使われる方程式の詳細な導出を含んでいる。
最後に, テンソルネットワークを考慮した研究対象回路のQDC法の計算複雑性を解析し, テンソルネットワークシミュレーション手法とQDC法との関係について詳しく検討する。 Our recent work (Ayral et al., 2020 IEEE Computer Society Annual Symposium on VLSI (ISVLSI)) showed the first implementation of the Quantum Divide and Compute (QDC) method, which allows to break quantum circuits into smaller fragments with fewer qubits and shallower depth. QDC can thus deal with the limited number of qubits and short coherence times of noisy, intermediate-scale quantum processors. This article investigates the impact of different noise sources -- readout error, gate error and decoherence -- on the success probability of the QDC procedure. We perform detailed noise modeling on the Atos Quantum Learning Machine, allowing us to understand tradeoffs and formulate recommendations about which hardware noise sources should be preferentially optimized. We describe in detail the noise models we used to reproduce experimental runs on IBM's Johannesburg processor. This work also includes a detailed derivation of the equations used in the QDC procedure to compute the output distribution of the original quantum circuit from the output distribution of its fragments. Finally, we analyze the computational complexity of the QDC method for the circuit under study via tensor-network considerations, and elaborate on the relation the QDC method with tensor-network simulation methods. | 翻訳日:2023-04-12 07:28:07 公開日:2021-02-07 |
# 非相互結合を持つ原子配列におけるバウンドおよびサブラジアント多原子励起 Bound and Subradiant Multi-Atom Excitations in an Atomic Array with Nonreciprocal Couplings ( http://arxiv.org/abs/2102.03757v1 ) ライセンス: Link先を確認 | H. H. Jen | (参考訳) 多重励起原子の集団崩壊は、原子-導波路界面の誘導モードに強く結合すると、サブラディアンで空間に結合する。
このインターフェースでは,久保累積展開による平均密度密度と修正3次相関を解析し,長期にわたって持続する。
形状保存二量体と原子励起三量体は、光誘起双極子-双極子相互作用の最もラジアント結合状態に現れる。
これにより、量子情報処理と量子記憶が符号化された非相互スピン拡散に応用される可能性があり、その拡散速度は励起原子間の初期コヒーレンスに依存し、相対位相変動に頑健である。
状態依存光子ルーティングは、このインターフェイスでも実現可能である。 Collective decays of multiply-excited atoms become subradiant and bound in space when they are strongly coupled to the guided modes in an atom-waveguide interface. In this interface, we analyze their average density-density and modified third-order correlations via Kubo cumulant expansions, which can arise and sustain for long time. The shape-preserving dimers and trimers of atomic excitations emerge in the most subradiant coupling regime of light-induced dipole-dipole interactions. This leads to a potential application of quantum information processing and quantum storage in the encoded nonreciprocal spin diffusion, where its diffusion speed depends on the initial coherence between the excited atoms and is robust to their relative phase fluctuations. The state-dependent photon routing can be viable as well in this interface. | 翻訳日:2023-04-12 07:27:26 公開日:2021-02-07 |
# MoS2/WSe2ヘテロ構造における室温双極性バレートロニックトランジスタ Room-temperature bipolar valleytronic transistor in MoS2/WSe2 heterostructures ( http://arxiv.org/abs/2102.03756v1 ) ライセンス: Link先を確認 | Chongyun Jiang, Abdullah Rasmita, Hui Ma, Qinghai Tan, Zumeng Huang, Shen Lai, Sheng Liu, Xue Liu, Qihua Xiong, Wei-bo Gao | (参考訳) 2d半導体におけるバレー自由度は次世代光エレクトロニクスにとって有望なプラットフォームである。
異なる谷の電子は反対のベリー曲率を持ち、バレーホール効果(VHE)をもたらす。
しかし、プラズモン構造を持たないVHEは低温でしか報告されておらず、実用的利用が制限されている。
本稿では,MoS2/WSe2ヘテロ構造における室温でのVHE観測について報告する。
また、2次元ヘテロ構造におけるVHEの大きさと極性の両方がゲート調整可能であることも明らかにした。
これは、異なる層の電子とホールからの反対のVHE寄与によるものである。
これらの結果は、バレートロニクストランジスタのバイポーラ輸送性を示している。
このゲート調整性を利用して、双極性バレートロニックトランジスタを実証する。
この結果は、ヴァレートロニクストランジスタのオン/オフ比を改善し、より汎用的なヴァレートロニクス論理回路を実現するために使用できる。 Valley degree of freedom in the 2D semiconductor is a promising platform for the next generation optoelectronics. Electrons in different valleys can have opposite Berry curvature, leading to the valley Hall effect (VHE). However, VHE without the plasmonic structure's assistance has only been reported in cryogenic temperature, limiting its practical application. Here, we report the observation of VHE at room temperature in the MoS2/WSe2 heterostructures. We also uncover that both the magnitude and the polarity of the VHE in the 2D heterostructure is gate tunable. We attribute this to the opposite VHE contribution from the electron and hole in different layers. These results indicate the bipolar transport nature of our valleytronic transistor. Utilizing this gate tunability, we demonstrate a bipolar valleytronic transistor. Our results can be used to improve the ON/OFF ratio of the valleytronic transistor and to realize more versatile valleytronics logic circuits. | 翻訳日:2023-04-12 07:27:10 公開日:2021-02-07 |
# 生涯分解光子相関フーリエ分光 Lifetime-resolved Photon-Correlation Fourier Spectroscopy ( http://arxiv.org/abs/2102.03706v1 ) ライセンス: Link先を確認 | Hendrik Utzat, Moungi G. Bawendi | (参考訳) 単一固体エミッタの励起状態の集団は、入浴によって引き起こされる平衡の周りのエネルギー変動とフォノンや光子の放出によって緩和される。
関連するスペクトルダイナミクスの同時測定には、高いスペクトルと時間分解能、さらに高い時間的ダイナミックレンジのテクニックが必要である。
本稿では,光子相関フーリエ分光法 (PCFS) のパルス励起レーザーアナログを提案し, 発光器の発光寿命軌道に沿った線状およびスペクトル拡散ダイナミクスを抽出し, 緩和や浴槽変動からスペクトルダイナミクスを効果的に識別する。
この寿命分解型pcfは、ミシェルソン干渉計の出力アームの光子ペアにレーザー励起と光子検出の時間遅延と2つの光子間の時間遅延の両方で相関する。
本稿では,多元状態からの放出に対する相対的寄与を変化させるシステム,例えば,異なる微細構造状態間のフォノンによる交換を示す量子エミッタのための手法の有用性を提案する。 The excited state population of single solid-state emitters is subjected to energy fluctuations around the equilibrium driven by the bath and relaxation through the emission of phonons or photons. Simultaneous measurement of the associated spectral dynamics requires a technique with a high spectral and temporal resolution with an additionally high temporal dynamic range. We propose a pulsed excitation-laser analog of Photon-Correlation Fourier Spectroscopy (PCFS), which extracts the lineshape and spectral diffusion dynamics along the emission lifetime trajectory of the emitter, effectively discriminating spectral dynamics from relaxation and bath fluctuations. This lifetime-resolved PCFS correlates photon-pairs at the output arm of a Michelson interferometer in both their time-delay between laser-excitation and photon-detection and the time-delay between two photons. We propose the utility of the technique for systems with changing relative contributions to the emission from multiple states, for example, quantum emitters exhibiting phonon-mediated exchange between different fine-structure states. | 翻訳日:2023-04-12 07:26:40 公開日:2021-02-07 |
# ScalingNet:感情認識のための生脳波データから特徴抽出 ScalingNet: extracting features from raw EEG data for emotion recognition ( http://arxiv.org/abs/2105.13987v1 ) ライセンス: Link先を確認 | Jingzhao Hu, Chen Wang, Qiaomei Jia, Qirong Bu, Jun Feng | (参考訳) 畳み込みニューラルネットワーク(CNN)は、様々なタスクにおいて顕著なパフォーマンスのブレークスルーを達成した。
近年,手引きされた脳波特徴を付与するcnnsベースの手法が,脳波データに基づく感情認識タスクにおいて,徐々に強力なパフォーマンスを生み出している。
本稿では,新しい畳み込み層を提案する。この層をスケーリング層と呼ぶ生脳波信号から,効率的なデータ駆動型スペクトログラムライクな特徴を適応的に抽出できる。
さらに、あるデータ駆動パターンからスケールされた畳み込みカーネルを活用して、周波数のような次元を露出し、手引き特徴やその近似を必要とする以前の方法の欠点に対処する。
スケーリング層に基づくニューラルネットワークアーキテクチャであるScalingNetは、確立されたDEAPベンチマークデータセット全体で最先端の結果を達成した。 Convolutional Neural Networks(CNNs) has achieved remarkable performance breakthrough in a variety of tasks. Recently, CNNs based methods that are fed with hand-extracted EEG features gradually produce a powerful performance on the EEG data based emotion recognition task. In this paper, we propose a novel convolutional layer allowing to adaptively extract effective data-driven spectrogram-like features from raw EEG signals, which we reference as scaling layer. Further, it leverages convolutional kernels scaled from one data-driven pattern to exposed a frequency-like dimension to address the shortcomings of prior methods requiring hand-extracted features or their approximations. The proposed neural network architecture based on the scaling layer, references as ScalingNet, has achieved the state-of-the-art result across the established DEAP benchmark dataset. | 翻訳日:2023-04-12 07:20:08 公開日:2021-02-07 |
# フレキシブル300mm集積Si MOSプラットフォームによる電子・スピン量子ビット探査 A flexible 300 mm integrated Si MOS platform for electron- and hole-spin qubits exploration ( http://arxiv.org/abs/2102.03929v1 ) ライセンス: Link先を確認 | R. Li, N. I. Dumoulin Stuyck, S. Kubicek, J. Jussot, B. T. Chan, F. A. Mohiyaddin, A. Elsayed, M. Shehata, G. Simion, C. Godfrin, Y. Canvel, Ts. Ivanov, L. Goux, B. Govoreanu, and I. P. Radu | (参考訳) シリコンスピン量子ビットを作製するために,光・電子ビームリソグラフィを最適に組み合わせたフレキシブル300mmプロセスについて報告する。
オンザフライのレイアウト変更が可能で、n型またはp型ohmicインプラント、100nm以下のピッチ、標準偏差1.6nmの30nmまでの均一な臨界寸法を持つデバイスが利用可能である。
様々なn型およびp型キュービットは10mK程度で希釈冷凍機として特徴付けられる。
電気的測定により、量子ドット、可変トンネル結合、コヒーレントスピン制御が示され、これは大規模量子プロセッサの実装に不可欠な要件である。 We report on a flexible 300 mm process that optimally combines optical and electron beam lithography to fabricate silicon spin qubits. It enables on-the-fly layout design modifications while allowing devices with either n- or p-type ohmic implants, a pitch smaller than 100 nm, and uniform critical dimensions down to 30 nm with a standard deviation ~ 1.6 nm. Various n- and p-type qubits are characterized in a dilution refrigerator at temperatures ~ 10 mK. Electrical measurements demonstrate well-defined quantum dots, tunable tunnel couplings, and coherent spin control, which are essential requirements for the implementation of a large-scale quantum processor. | 翻訳日:2023-04-12 07:19:39 公開日:2021-02-07 |
# ブール値解析から量子集合論へ:ガイシ・タケウティの数学的世界観 From Boolean Valued Analysis to Quantum Set Theory: Mathematical Worldview of Gaisi Takeuti ( http://arxiv.org/abs/2102.03851v1 ) ライセンス: Link先を確認 | Masanao Ozawa | (参考訳) 1974年頃、gaisi takeuti は集合論のブール値モデルから解析への体系的応用を提供するためにブール値解析を導入した。
その後、彼の手法は、彼の追随者によってさらに発展し、解析と代数のいくつかの未解決な問題を解決した。
ブール値解析の手法を用いて、彼はさらに量子論理に基づく集合論の構築を進め、量子論理に基づく数学である「量子数学」を構築する最初のステップとなった。
分配則は量子論理には適用されないことが知られており、等式公理は量子集合論では成立しないことが判明したが、量子集合論の実数はヒルベルト空間上の自己共役作用素、あるいは対応する量子系の物理量と1対1の対応にあることを示した。
量子論理は本質的に経験的であり、量子集合論の結果は量子力学によって実験的に検証できる。
本稿では,Takeutiの数学的世界観を,現代数学の理論的基礎を設定し,集合の概念を多値論理に拡張する2つの視点から分析する。
我々は、彼のプログラムの現状を展望し、このプログラムのさらなる発展を展望し、長年続いている量子力学の謎を解き明かすための大きな一歩を踏み出すことができるだろう。 Gaisi Takeuti introduced Boolean valued analysis around 1974 to provide systematic applications of Boolean valued models of set theory to analysis. Later, his methods were further developed by his followers, leading to solving several open problems in analysis and algebra. Using the methods of Boolean valued analysis, he further stepped forward to construct set theory based on quantum logic, as the first step to construct "quantum mathematics", a mathematics based on quantum logic. While it is known that the distributive law does not apply to quantum logic, and the equality axiom turns out not to hold in quantum set theory, he showed that the real numbers in quantum set theory are in one-to-one correspondence with the self-adjoint operators on a Hilbert space, or equivalently the physical quantities of the corresponding quantum system. As quantum logic is intrinsic and empirical, the results of the quantum set theory can be experimentally verified by quantum mechanics. In this paper, we analyze Takeuti's mathematical world view underlying his program from two perspectives: set theoretical foundations of modern mathematics and extending the notion of sets to multi-valued logic. We outlook the present status of his program, and envisage the further development of the program, by which we would be able to take a huge step forward toward unraveling the mysteries of quantum mechanics that have persisted for many years. | 翻訳日:2023-04-12 07:19:15 公開日:2021-02-07 |
# Cirel'son境界を超えるベルの不等式に違反する認知の絡み合い Entanglement in Cognition violating Bell Inequalities Beyond Cirel'son's Bound ( http://arxiv.org/abs/2102.03847v1 ) ライセンス: Link先を確認 | Diederik Aerts, Jonito Aerts Argu\"elles, Lester Beltran, Suzette Geriente (Center Leo Apostel for Interdisciplinary Studies, Free University of Brussels (VUB), Brussels, Belgium), and Sandro Sozzo (School of Business and Centre IQSCS, University of Leicester, Leicester, United Kingdom) | (参考訳) そこで本研究では,ヒトの被験者のサンプルを用いて,概念的組み合わせ (it The Animal Acts) と動物が食品を食べる (it The Animal eats the Food}) の判定を行った。
どちらの試験も、Claruser-Horne-Shimony-Holt版のベル不等式(CHSH不等式)を著しく違反し、組み合わせられる個々の概念間の関係によって、明らかに非古典的な振る舞いを示す。
次に、ベル型状況に対して開発した量子理論フレームワークを適用し、複素ヒルベルト空間における経験的データを表現する。
観測されたCHSH不等式の不等式違反は、状態と測定の両方が絡み合っているコンポーネント概念的実体間の「量子絡み合い」の強い形の結果として説明できることを示す。
ヒルベルト空間の量子モデルは、chsh の破れが既知の「シレルソン境界」を超える場合であっても、これらのベルタイプの状況において精巧化することができる。
これらの知見は, 様々な認知検査, 文書検索, 画像検索において, 同じ概念の組み合わせで得られた結果を確認し, 強化した。 We present the results of two tests where a sample of human participants were asked to make judgements about the conceptual combinations {\it The Animal Acts} and {\it The Animal eats the Food}. Both tests significantly violate the Clauser-Horne-Shimony-Holt version of Bell inequalities (`CHSH inequality'), thus exhibiting manifestly non-classical behaviour due to the meaning connection between the individual concepts that are combined. We then apply a quantum-theoretic framework which we developed for any Bell-type situation and represent empirical data in complex Hilbert space. We show that the observed violations of the CHSH inequality can be explained as a consequence of a strong form of `quantum entanglement' between the component conceptual entities in which both the state and measurements are entangled. We finally observe that a quantum model in Hilbert space can be elaborated in these Bell-type situations even when the CHSH violation exceeds the known `Cirel'son bound', in contrast to a widespread belief. These findings confirm and strengthen the results we recently obtained in a variety of cognitive tests and document and image retrieval operations on the same conceptual combinations. | 翻訳日:2023-04-12 07:18:50 公開日:2021-02-07 |
# 臨界を持つ量子多体プローブに対する地球センシングとその影響 Global sensing and its impact for quantum many-body probes with criticality ( http://arxiv.org/abs/2102.03843v1 ) ライセンス: Link先を確認 | Victor Montenegro, Utkarsh Mishra, Abolfazl Bayat | (参考訳) 量子センシングは、量子技術の優位性を示す重要な領域の1つである。
それでも、ほとんどの量子センシングプロトコルは、未知のパラメータが非常に狭い領域、すなわち局所センシング内で変化した場合にのみ効率的に動作する。
本稿では,パラメータに関する事前情報がない場合に,多パラメータグローバルセンシングのためのプローブの精度を定量化するための体系的定式化を提案する。
余分な可変パラメータが存在する多体プローブでは、我々のプロトコルは任意の大きなセンシング間隔で量子臨界性を利用する性能を調整できる。
単一パラメータセンシングでは、イジングプローブが常に臨界付近で動作するように調整されるように制御フィールドを最適化する。
これにより、関心の間隔が大きすぎて精度が標準限界に制限されるような場合でも、プローブの性能が著しく向上する。
マルチパラメータの場合、本プロトコルは、プローブが臨界線に沿って最も効率的な位置で動作するように制御フィールドを最適化する。
興味深いことに、イジングプローブでは、主に縦方向の磁場によって決定される。
最後に, 簡単な磁化測定であっても, 最適化の利点が大きく, 理論精度を適度に発揮できることを示す。 Quantum sensing is one of the key areas which exemplifies the superiority of quantum technologies. Nonetheless, most quantum sensing protocols operate efficiently only when the unknown parameters vary within a very narrow region, i.e., local sensing. Here, we provide a systematic formulation for quantifying the precision of a probe for multi-parameter global sensing when there is no prior information about the parameters. In many-body probes, in which extra tunable parameters exist, our protocol can tune the performance for harnessing the quantum criticality over arbitrarily large sensing intervals. For the single-parameter sensing, our protocol optimizes a control field such that an Ising probe is tuned to always operate around its criticality. This significantly enhances the performance of the probe even when the interval of interest is so large that the precision is bounded by the standard limit. For the multi-parameter case, our protocol optimizes the control fields such that the probe operates at the most efficient point along its critical line. Interestingly, for an Ising probe, it is predominantly determined by the longitudinal field. Finally, we show that even a simple magnetization measurement significantly benefits from our optimization and moderately delivers the theoretical precision. | 翻訳日:2023-04-12 07:18:28 公開日:2021-02-07 |
# 正のエネルギー密度はスクイーズを起こさない Positive energy density leads to no squeezing ( http://arxiv.org/abs/2102.03841v1 ) ライセンス: Link先を確認 | S. Kannan and C. Sudheesh | (参考訳) 光を絞った状態の2種類の重ね合わせを考える。
第1種の重ね合わせの場合、スクイージングと全ての高次スクイージングは消滅する。
しかし、第2種の場合、重ね合わせのパラメータを調整することにより、最大量のスクイーズを達成することができる。
重ね合わせ状態に対するスクイーズの発生と消滅は,エネルギー密度の期待値に基づいて説明される。
我々は、スクイーズしない量子状態のエネルギー密度の期待値が常に正であり、圧縮状態の期待値が時空依存相のいくつかの値に対して負となることを示す。 We consider two kinds of superpositions of squeezed states of light. In the case of superpositions of first kind, the squeezing and all higher order squeezing vanishes. However, in the case of the second kind, it is possible to achieve a maximum amount of squeezing by adjusting the parameters in the superposition. The emergence and vanishing of squeezing for the superposition states are explained on the basis of expectation values of the energy density. We show that expectation values of energy density of quantum states which show no squeezing will be always positive and that of squeezed states will be negative for some values of spacetime-dependent phase. | 翻訳日:2023-04-12 07:18:10 公開日:2021-02-07 |
# エンタングルメントスワッピングにおける量子状態の相対性:エンタングルメントのないベルの不等式の違反」について Comment on "Relativity of Quantum States in Entanglement Swapping: Violation of Bell's Inequality with no Entanglement" ( http://arxiv.org/abs/2102.03797v1 ) ライセンス: Link先を確認 | Luiz Carlos Ryff | (参考訳) 最近の興味深い記事で、Chris Nagele氏、Ebubechukwu O. IloOkeke氏、Peter P. Rohde氏、Jonathan P. Dowling氏、Tim Byrnes氏は、測定の時間順序を切り替えることが可能なセットアップを使った絡み合わせスワッピング実験について論じている。
これまでの2つの論文で全く同じ考えが紹介されたという事実に留意し、その主題に関する重要な点を簡潔に取り上げたいと思います。 In a recent interesting article Chris Nagele, Ebubechukwu O. IloOkeke, Peter P. Rohde, Jonathan P. Dowling, and Tim Byrnes discuss an entanglement swapping experiment using a setup where it is possible to switch the time ordering of measurements. I would like to draw your attention to the fact that the very same idea was introduced in two previous papers, and briefly address some important points related to the subject. | 翻訳日:2023-04-12 07:17:59 公開日:2021-02-07 |
# SOAR: 2次逆正則化 SOAR: Second-Order Adversarial Regularization ( http://arxiv.org/abs/2004.01832v2 ) ライセンス: Link先を確認 | Avery Ma, Fartash Faghri, Nicolas Papernot, Amir-massoud Farahmand | (参考訳) 敵のトレーニングは、敵の例に対するディープニューラルネットワークの堅牢性を改善するための一般的なアプローチである。
本研究では,新しい正規化手法を提案する。
正規化子を導出するために,ロバスト最適化枠組みの下で逆ロバスト性問題を定式化し,二次テイラー級数展開を用いて損失関数を近似する。
提案する2次逆正則化器(soar)は,ロバスト最適化目的における内部マックスのテイラー近似に基づく上界である。
CIFAR-10 と SVHN 上のクロスエントロピー PGD を用いて生成した $\ell_\infty$ と $\ell_2$ の有界摂動に対して,提案手法はネットワークのロバスト性を大幅に向上させることを示す。 Adversarial training is a common approach to improving the robustness of deep neural networks against adversarial examples. In this work, we propose a novel regularization approach as an alternative. To derive the regularizer, we formulate the adversarial robustness problem under the robust optimization framework and approximate the loss function using a second-order Taylor series expansion. Our proposed second-order adversarial regularizer (SOAR) is an upper bound based on the Taylor approximation of the inner-max in the robust optimization objective. We empirically show that the proposed method significantly improves the robustness of networks against the $\ell_\infty$ and $\ell_2$ bounded perturbations generated using cross-entropy-based PGD on CIFAR-10 and SVHN. | 翻訳日:2022-12-16 22:44:02 公開日:2021-02-07 |
# 生成モデルを用いた高速・普遍的音声アタックの実現 Enabling Fast and Universal Audio Adversarial Attack Using Generative Model ( http://arxiv.org/abs/2004.12261v2 ) ライセンス: Link先を確認 | Yi Xie, Zhuohang Li, Cong Shi, Jian Liu, Yingying Chen, Bo Yuan | (参考訳) 近年,敵攻撃に対するDNNベースの音声システムの脆弱性に注目が集まっている。
しかし、既存の音声対向攻撃により、相手はユーザーの音声入力全体を保持することができ、また、相手の摂動を生成するのに十分な時間予算が与えられる。
しかし、これらの理想的な仮定は、既存のオーディオの敵対的攻撃は、実際にタイムリーに起動することはほとんど不可能である(例えば、ユーザのストリーミング入力とともに、目立たない敵の摂動を再生するなど)。
この制限を克服するため,本稿では,1回のフォワードパスで音声入力に対して逆摂動を生成する生成モデルを用いた高速オーディオ対向摂動生成器(fapg)を提案し,摂動発生速度を劇的に改善する。
FAPGの上に構築されたUAPG(Universal Audio Adversarial Perturbation Generator)は,任意の良性な音声入力に課すことができ,誤分類を引き起こすことができる。
広範な実験により,提案するfapgは最大167倍の速度向上を達成できることが分かった。
また、提案したUAPGは、最先端のソリューションよりもはるかに優れた攻撃性能を実現する普遍的対向摂動を生成することができる。 Recently, the vulnerability of DNN-based audio systems to adversarial attacks has obtained the increasing attention. However, the existing audio adversarial attacks allow the adversary to possess the entire user's audio input as well as granting sufficient time budget to generate the adversarial perturbations. These idealized assumptions, however, makes the existing audio adversarial attacks mostly impossible to be launched in a timely fashion in practice (e.g., playing unnoticeable adversarial perturbations along with user's streaming input). To overcome these limitations, in this paper we propose fast audio adversarial perturbation generator (FAPG), which uses generative model to generate adversarial perturbations for the audio input in a single forward pass, thereby drastically improving the perturbation generation speed. Built on the top of FAPG, we further propose universal audio adversarial perturbation generator (UAPG), a scheme crafting universal adversarial perturbation that can be imposed on arbitrary benign audio input to cause misclassification. Extensive experiments show that our proposed FAPG can achieve up to 167X speedup over the state-of-the-art audio adversarial attack methods. Also our proposed UAPG can generate universal adversarial perturbation that achieves much better attack performance than the state-of-the-art solutions. | 翻訳日:2022-12-09 14:05:08 公開日:2021-02-07 |
# TPNet:動き予測のための軌道提案ネットワーク TPNet: Trajectory Proposal Network for Motion Prediction ( http://arxiv.org/abs/2004.12255v2 ) ライセンス: Link先を確認 | Liangji Fang, Qinhong Jiang, Jianping Shi, Bolei Zhou | (参考訳) 歩行者、車両、自転車などの周囲の交通機関の正確な動き予測は、自動運転には不可欠である。
近年のデータ駆動型動き予測法は, 大量の軌跡データから, 正確な将来の位置や分布を直接回帰する手法を試みている。
しかし,これらの手法が交通規則や移動領域といった物理的な制約を統合できるだけでなく,多モーダルな予測を提供することは依然として困難である。
本研究では,新しい2段階の動作予測フレームワークTrajectory Proposal Network (TPNet)を提案する。
tpnetは、まず仮説提案として将来の軌道の候補セットを生成し、その後、物理的制約を満たす提案を分類し、精錬することで最終的な予測を行う。
提案生成プロセスを操ることで、安全かつマルチモーダルな予測を実現する。
したがって、このフレームワークはマルチモーダル出力を確保しつつ、動作予測問題の複雑性を効果的に軽減する。
ETH、UCY、Apollo、Argoverseの4つの大規模軌道予測データセットの実験は、TPNetが定量的にも質的にも、最先端の結果を達成することを示した。 Making accurate motion prediction of the surrounding traffic agents such as pedestrians, vehicles, and cyclists is crucial for autonomous driving. Recent data-driven motion prediction methods have attempted to learn to directly regress the exact future position or its distribution from massive amount of trajectory data. However, it remains difficult for these methods to provide multimodal predictions as well as integrate physical constraints such as traffic rules and movable areas. In this work we propose a novel two-stage motion prediction framework, Trajectory Proposal Network (TPNet). TPNet first generates a candidate set of future trajectories as hypothesis proposals, then makes the final predictions by classifying and refining the proposals which meets the physical constraints. By steering the proposal generation process, safe and multimodal predictions are realized. Thus this framework effectively mitigates the complexity of motion prediction problem while ensuring the multimodal output. Experiments on four large-scale trajectory prediction datasets, i.e. the ETH, UCY, Apollo and Argoverse datasets, show that TPNet achieves the state-of-the-art results both quantitatively and qualitatively. | 翻訳日:2022-12-09 13:37:07 公開日:2021-02-07 |
# アウトリーチの有無における一般化境界--中間研究 Generalization Bounds in the Presence of Outliers: a Median-of-Means Study ( http://arxiv.org/abs/2006.05240v2 ) ライセンス: Link先を確認 | Pierre Laforgue, Guillaume Staerman, Stephan Cl\'emen\c{c}on | (参考訳) 経験的平均とは対照的に、MoM (Median-of-Means) は平方可積分 r.v.$Z$ の平均$\theta$ を推定するものであり、Z$ が準ガウス的尾の振る舞いを示さない場合でも、正確な漸近的信頼境界を構築できる。
重み付けされたデータに対する高い信頼性のおかげで、MoMは機械学習の様々な応用を見つけ、非定型的な観察に敏感でない訓練手順を設計するのに使われている。
最近では、MoMが破損したデータに対処する能力を特徴付け、活用しようと試みている。
本研究は, 汚染体制下でのMoMの濃度特性に関する一般研究を提案し, 流出率と選択したブロック数の影響を明確に把握する。
この分析は (multisample) $U$-statistics、すなわち、観測のタプル平均に拡張され、依存が引き起こされるため、さらなる課題が生じる。
最後に, 後者の境界は, 対学習の一般化保証を導出するために, 直接的に使用できることを示すとともに, 信頼性の高い決定関数を計算するアルゴリズムを提案する。 In contrast to the empirical mean, the Median-of-Means (MoM) is an estimator of the mean $\theta$ of a square integrable r.v. $Z$, around which accurate nonasymptotic confidence bounds can be built, even when $Z$ does not exhibit a sub-Gaussian tail behavior. Thanks to the high confidence it achieves on heavy-tailed data, MoM has found various applications in machine learning, where it is used to design training procedures that are not sensitive to atypical observations. More recently, a new line of work is now trying to characterize and leverage MoM's ability to deal with corrupted data. In this context, the present work proposes a general study of MoM's concentration properties under the contamination regime, that provides a clear understanding of the impact of the outlier proportion and the number of blocks chosen. The analysis is extended to (multisample) $U$-statistics, i.e. averages over tuples of observations, that raise additional challenges due to the dependence induced. Finally, we show that the latter bounds can be used in a straightforward fashion to derive generalization guarantees for pairwise learning in a contaminated setting, and propose an algorithm to compute provably reliable decision functions. | 翻訳日:2022-11-23 13:51:23 公開日:2021-02-07 |
# アダプティブ慣性:適応学習速度と運動量の影響を解消する Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum ( http://arxiv.org/abs/2006.15815v11 ) ライセンス: Link先を確認 | Zeke Xie, Xinrui Wang, Huishuai Zhang, Issei Sato, Masashi Sugiyama | (参考訳) Adaptive Moment Estimation (Adam)は、Adaptive Learning RateとMomentumを組み合わせることで、ディープニューラルネットワークのトレーニングを加速するための最も一般的な確率最適化である。
しかし、アダムがSGD (Stochastic Gradient Descent) よりも悪くなることは経験的に知られている。
本研究の目的は, この現象の謎を拡散理論の枠組みで明らかにすることである。
具体的には,適応学習速度とadam dynamicsの運動量の違いがサドルポイントエスケープと平たいミニマ選択に与える影響について考察した。
適応学習速度は,サドルポイントを効率的に回避できるが,SGDほど平坦な最小値を選択することはできない。
対照的に、Momentumはトレーニングプロセスがサドルポイントを通過するのを助けるドリフト効果を提供しており、平らなミニマ選択にはほとんど影響しない。
これはSGD (with Momentum) がより良く一般化するのに対し、アダムはより良く一般化するがより速く収束する理由を部分的に説明している。
さらに,本分析により,パラメータワイド適応慣性を用いてトレーニングを加速し,フラットなミニマとSGDを効果的に好む適応最適化フレームワークであるAdaptive Inertiaを設計した。
提案する適応慣性法がsgd法や従来の適応勾配法よりも大幅に一般化できることを示す。 Adaptive Moment Estimation (Adam), which combines Adaptive Learning Rate and Momentum, would be the most popular stochastic optimizer for accelerating the training of deep neural networks. However, it is empirically known that Adam often generalizes worse than Stochastic Gradient Descent (SGD). The purpose of this paper is to unveil the mystery of this behavior in the diffusion theoretical framework. Specifically, we disentangle the effects of Adaptive Learning Rate and Momentum of the Adam dynamics on saddle-point escaping and flat minima selection. We prove that Adaptive Learning Rate can escape saddle points efficiently, but cannot select flat minima as SGD does. In contrast, Momentum provides a drift effect to help the training process pass through saddle points, and almost does not affect flat minima selection. This partly explains why SGD (with Momentum) generalizes better, while Adam generalizes worse but converges faster. Furthermore, motivated by the analysis, we design a novel adaptive optimization framework named Adaptive Inertia, which uses parameter-wise adaptive inertia to accelerate the training and provably favors flat minima as well as SGD. Our extensive experiments demonstrate that the proposed adaptive inertia method can generalize significantly better than SGD and conventional adaptive gradient methods. | 翻訳日:2022-11-15 13:37:43 公開日:2021-02-07 |
# ストリートビュー画像における不健康広告の同定のための深層学習手法 A deep learning approach to identify unhealthy advertisements in street view images ( http://arxiv.org/abs/2007.04611v2 ) ライセンス: Link先を確認 | Gregory Palmer, Mark Green, Emma Boyland, Yales Stefano Rios Vasconcelos, Rahul Savani, Alex Singleton | (参考訳) 屋外広告は町や都市でよく見られる特徴であるが、健康における社会的不平等を強化する可能性がある。
略奪された地域の脆弱な人口は、ファーストフード、ギャンブル、アルコール広告に曝され、消費を促進する可能性がある。
潜在的ポリシー制約の公開と評価を行うには,手作業によるデータ収集が必要になります。
この問題に対処するため,街路レベルの画像から不健康な広告を自動的に抽出・分類するディープラーニングワークフローを開発した。
リバプール360ストリートビュー(LIV360SV)データセットを導入し、ワークフローを評価する。
このデータセットには、2020年1月14日から18日にかけて記録されたGoPro Fusionカメラでサイクリングによって収集された25,349, 360度のストリートレベルの画像が含まれている。
10,106件の広告は、食品(1335件)、アルコール(217件)、ギャンブル(149件)、その他の広告(8405件)に分類された。
不足地域や学生が頻繁に使う食品広告の比率が高い社会不平等の証拠を見いだす。
本稿では,不健康な広告を識別するための街路ビュー画像の同時分類のための新しい実装を提案し,社会的不平等に対処するためのより厳しい広告規制政策の恩恵を受けることができる地域を特定するための手段を提供する。 While outdoor advertisements are common features within towns and cities, they may reinforce social inequalities in health. Vulnerable populations in deprived areas may have greater exposure to fast food, gambling and alcohol advertisements encouraging their consumption. Understanding who is exposed and evaluating potential policy restrictions requires a substantial manual data collection effort. To address this problem we develop a deep learning workflow to automatically extract and classify unhealthy advertisements from street-level images. We introduce the Liverpool 360 Street View (LIV360SV) dataset for evaluating our workflow. The dataset contains 25,349, 360 degree, street-level images collected via cycling with a GoPro Fusion camera, recorded Jan 14th - 18th 2020. 10,106 advertisements were identified and classified as food (1335), alcohol (217), gambling (149) and other (8405) (e.g., cars and broadband). We find evidence of social inequalities with a larger proportion of food advertisements located within deprived areas and those frequented by students. Our project presents a novel implementation for the incidental classification of street view images for identifying unhealthy advertisements, providing a means through which to identify areas that can benefit from tougher advertisement restriction policies for tackling social inequalities. | 翻訳日:2022-11-12 05:19:05 公開日:2021-02-07 |
# LF-MMI学習時間遅延ニューラルネットワークのニューラルネットワーク探索 Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks ( http://arxiv.org/abs/2007.08818v4 ) ライセンス: Link先を確認 | Shoukang Hu, Xurong Xie, Shansong Liu, Mingyu Cui, Mengzhe Geng, Xunying Liu, Helen Meng | (参考訳) ディープニューラルネットワーク(DNN)に基づく自動音声認識(ASR)システムは、専門家の知識と経験的評価を用いて設計されることが多い。
本稿では,TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために,幅広いニューラルネットワーク探索手法を用いる。
一 左右のスプライシングコンテキストオフセット
二 各隠蔽層におけるボトルネック線形射影の寸法
例えば、アーキテクチャ選択を格子フリーなmmi(lf-mmi)tdnnトレーニングと統合するdartsメソッド、候補アーキテクチャに対する混乱を低減し、アーキテクチャ選択の一般化を改善するgumbel-softmaxとpipelined darts、パフォーマンスとシステムの複雑さの間のトレードオフを調整するためのリソース制約を組み込んだペナルティ付きdartsなどがある。
候補アーキテクチャ間のパラメータ共有により、TDNNシステムを最大7〜28ドルまで効率的に検索できる。
300時間のSwitchboardコーパスで行った実験から、自動構成システムはLHUC話者適応とRNNLM再構成の後、手動のネットワーク設計やランダムアーキテクチャ探索を用いて、ベースラインLF-MMI TDNNシステムより一貫して優れていたことが示唆された。
絶対単語誤り率 (WER) は 1.0 % まで低下し, 相対モデルサイズは 28 % まで低下した。
提案するnasアプローチを用いたuaspeech disordered speech recognitionタスクでも一貫した性能改善が得られた。 Deep neural networks (DNNs) based automatic speech recognition (ASR) systems are often designed using expert knowledge and empirical evaluation. In this paper, a range of neural architecture search (NAS) techniques are used to automatically learn two types of hyper-parameters of state-of-the-art factored time delay neural networks (TDNNs): i) the left and right splicing context offsets; and ii) the dimensionality of the bottleneck linear projection at each hidden layer. These include the DARTS method integrating architecture selection with lattice-free MMI (LF-MMI) TDNN training; Gumbel-Softmax and pipelined DARTS reducing the confusion over candidate architectures and improving the generalization of architecture selection; and Penalized DARTS incorporating resource constraints to adjust the trade-off between performance and system complexity. Parameter sharing among candidate architectures allows efficient search over up to $7^{28}$ different TDNN systems. Experiments conducted on the 300-hour Switchboard corpus suggest the auto-configured systems consistently outperform the baseline LF-MMI TDNN systems using manual network design or random architecture search after LHUC speaker adaptation and RNNLM rescoring. Absolute word error rate (WER) reductions up to 1.0\% and relative model size reduction of 28\% were obtained. Consistent performance improvements were also obtained on a UASpeech disordered speech recognition task using the proposed NAS approaches. | 翻訳日:2022-11-09 13:20:27 公開日:2021-02-07 |
# 高速で高精度で安定な3次元顔アライメントを目指して Towards Fast, Accurate and Stable 3D Dense Face Alignment ( http://arxiv.org/abs/2009.09960v2 ) ライセンス: Link先を確認 | Jianzhu Guo, Xiangyu Zhu, Yang Yang, Fan Yang, Zhen Lei and Stan Z. Li | (参考訳) 既存の3次元密度面アライメントの手法は主に精度に集中しており、実用的応用範囲は限られている。
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
まず、軽量なバックボーンに基づいて、3DMMパラメータの小さなセットを動的に回帰するメタジョイント最適化手法を提案し、同時にスピードと精度を大幅に向上させる。
映像の安定性をさらに向上するため,静止画を平面内および面外移動を取り入れたショートビデオに変換する仮想合成法を提案する。
高い精度と安定性の前提で、3DDFA-V2は1つのCPUコア上で50fps以上で動作し、同時に他の最先端の重モデルより優れている。
いくつかの挑戦的データセットの実験により,本手法の有効性が検証された。
事前トレーニングされたモデルとコードはhttps://github.com/cleardusk/3ddfa_v2で入手できる。 Existing methods of 3D dense face alignment mainly concentrate on accuracy, thus limiting the scope of their practical applications. In this paper, we propose a novel regression framework named 3DDFA-V2 which makes a balance among speed, accuracy and stability. Firstly, on the basis of a lightweight backbone, we propose a meta-joint optimization strategy to dynamically regress a small set of 3DMM parameters, which greatly enhances speed and accuracy simultaneously. To further improve the stability on videos, we present a virtual synthesis method to transform one still image to a short-video which incorporates in-plane and out-of-plane face moving. On the premise of high accuracy and stability, 3DDFA-V2 runs at over 50fps on a single CPU core and outperforms other state-of-the-art heavy models simultaneously. Experiments on several challenging datasets validate the efficiency of our method. Pre-trained models and code are available at https://github.com/cleardusk/3DDFA_V2. | 翻訳日:2022-10-16 05:07:01 公開日:2021-02-07 |
# セルフプレイによるモデルベース強化学習のシャープ解析 A Sharp Analysis of Model-based Reinforcement Learning with Self-Play ( http://arxiv.org/abs/2010.01604v2 ) ライセンス: Link先を確認 | Qinghua Liu, Tiancheng Yu, Yu Bai, Chi Jin | (参考訳) モデルベースアルゴリズム -- 推定モデルの構築と活用を通じて環境を探索するアルゴリズム -- は強化学習実践で広く使われており、理論的にはマルコフ決定過程(mdps)における単一エージェント強化学習の最適なサンプル効率を達成することが示されている。
しかしながら、マルコフゲームにおけるマルチエージェント強化学習では、モデルベースアルゴリズムの現在の最もよく知られたサンプル複雑性は、比較的最適であり、最近のモデルフリーアプローチと好ましくない比較である。
本稿では,マルチエージェント型マルコフゲームのためのモデルベースセルフプレイアルゴリズムの急激な解析を行う。
私たちは、ゲームプレイのエピソードである$\tilde{\mathcal{o}}(h^3sab/\epsilon^2)$で$\epsilon$-approximate nashポリシーを出力できる2人のプレイヤーのゼロサムマルコフゲームのための楽観的なnash値反復(nash-vi)を設計します。
これは、$\tilde{\mathcal{O}}(H^4S^2AB/\epsilon^2)$の最もよく知られたモデルベースの保証よりも大幅に改善され、$\min\{A,B\}$ factorを除いて、情報理論的下界$\Omega(H^3S(A+B)/\epsilon^2)$と一致する最初のものである。
さらに,既存のサンプル効率のよいモデルフリーアルゴリズムは,一般にはマルコフでないが保存や実行に不便なマルコフポリシーのネスト混合を出力するのに対して,$\min \{A,B\}=o(H^3)$の場合,この保証は最もよく知られたモデルフリーアルゴリズムと比較できる。
我々はさらに,ゼロサムマルコフゲームにおけるタスク非依存な実現可能なアルゴリズムの設計と,マルチプレーヤ一般サムマルコフゲームのための実証可能なサンプル効率アルゴリズムの最初のラインの設計に,解析を適用した。 Model-based algorithms -- algorithms that explore the environment through building and utilizing an estimated model -- are widely used in reinforcement learning practice and theoretically shown to achieve optimal sample efficiency for single-agent reinforcement learning in Markov Decision Processes (MDPs). However, for multi-agent reinforcement learning in Markov games, the current best known sample complexity for model-based algorithms is rather suboptimal and compares unfavorably against recent model-free approaches. In this paper, we present a sharp analysis of model-based self-play algorithms for multi-agent Markov games. We design an algorithm -- Optimistic Nash Value Iteration (Nash-VI) for two-player zero-sum Markov games that is able to output an $\epsilon$-approximate Nash policy in $\tilde{\mathcal{O}}(H^3SAB/\epsilon^2)$ episodes of game playing, where $S$ is the number of states, $A,B$ are the number of actions for the two players respectively, and $H$ is the horizon length. This significantly improves over the best known model-based guarantee of $\tilde{\mathcal{O}}(H^4S^2AB/\epsilon^2)$, and is the first that matches the information-theoretic lower bound $\Omega(H^3S(A+B)/\epsilon^2)$ except for a $\min\{A,B\}$ factor. In addition, our guarantee compares favorably against the best known model-free algorithm if $\min \{A,B\}=o(H^3)$, and outputs a single Markov policy while existing sample-efficient model-free algorithms output a nested mixture of Markov policies that is in general non-Markov and rather inconvenient to store and execute. We further adapt our analysis to designing a provably efficient task-agnostic algorithm for zero-sum Markov games, and designing the first line of provably sample-efficient algorithms for multi-player general-sum Markov games. | 翻訳日:2022-10-11 02:56:48 公開日:2021-02-07 |
# 高速ロバスト主成分分析:CURによる不正確な低ランク推定 Rapid Robust Principal Component Analysis: CUR Accelerated Inexact Low Rank Estimation ( http://arxiv.org/abs/2010.07422v3 ) ライセンス: Link先を確認 | HanQin Cai, Keaton Hamm, Longxiu Huang, Jiaqi Li, Tao Wang | (参考訳) ロバスト主成分分析(RPCA)は次元減少のための広く使われているツールである。
本研究では,既存のアルゴリズムと比較して計算効率を劇的に向上させるrpca問題の解法として,イテレーテッド・ロバスト・カー(ircur)という新しい非凸アルゴリズムを提案する。
ircurは、低ランク成分を更新する際にcur分解を使用することで、この加速を実現し、3つの小さな部分行列のみを通して正確な低ランク近似を得ることができる。
これにより、IRCURは小さなサブマトリクスのみを処理し、アルゴリズム全体を通して全行列上の高価な計算を避けることができる。
数値実験は、合成と実世界の両方のデータセットの最先端アルゴリズムに対するIRCURの計算上の優位性を確立する。 Robust principal component analysis (RPCA) is a widely used tool for dimension reduction. In this work, we propose a novel non-convex algorithm, coined Iterated Robust CUR (IRCUR), for solving RPCA problems, which dramatically improves the computational efficiency in comparison with the existing algorithms. IRCUR achieves this acceleration by employing CUR decomposition when updating the low rank component, which allows us to obtain an accurate low rank approximation via only three small submatrices. Consequently, IRCUR is able to process only the small submatrices and avoid expensive computing on the full matrix through the entire algorithm. Numerical experiments establish the computational advantage of IRCUR over the state-of-art algorithms on both synthetic and real-world datasets. | 翻訳日:2022-10-07 12:36:07 公開日:2021-02-07 |
# 無線センシングのための深層学習--最近の進歩と今後の展望 Deep Learning for Radio-based Human Sensing: Recent Advances and Future Directions ( http://arxiv.org/abs/2010.12717v2 ) ライセンス: Link先を確認 | Isura Nirmal, Abdelwahed Khamis, Mahbub Hassan, Wen Hu, Xiaoqing Zhu | (参考訳) 10年にわたる研究により、多くの人体検知タスクにおいてRF(Radio frequency)の可能性が明らかに示されたが、従来の手法では問題があった。
近年,無線によるセンシングを新たなレベルに引き上げるために,ディープラーニングの応用が成功している。
多くの異なるタイプのディープラーニングモデルが、多くの人口と活動セット、および目に見えない環境において高い知覚精度を達成するために提案されている。
深層学習はまた、これまで不可能だった新しい人間の知覚現象の検出を可能にした。
本稿では,近年の深層学習に基づくRFセンシング研究の総合的なレビューと分類について紹介する。
また、これらの深層学習研究を促進するために、ラベル付きRFセンシングデータセットを公開して比較する。
最後に、学習した教訓を要約し、深層学習に基づくRFセンシングの現在の限界と今後の方向性について論じる。 While decade-long research has clearly demonstrated the vast potential of radio frequency (RF) for many human sensing tasks, scaling this technology to large scenarios remained problematic with conventional approaches. Recently, researchers have successfully applied deep learning to take radio-based sensing to a new level. Many different types of deep learning models have been proposed to achieve high sensing accuracy over a large population and activity set, as well as in unseen environments. Deep learning has also enabled detection of novel human sensing phenomena that were previously not possible. In this survey, we provide a comprehensive review and taxonomy of recent research efforts on deep learning based RF sensing. We also identify and compare several publicly released labeled RF sensing datasets that can facilitate such deep learning research. Finally, we summarize the lessons learned and discuss the current limitations and future directions of deep learning based RF sensing. | 翻訳日:2022-10-04 00:11:18 公開日:2021-02-07 |
# 対照的自己教師付き学習に関する調査研究 A Survey on Contrastive Self-supervised Learning ( http://arxiv.org/abs/2011.00362v3 ) ライセンス: Link先を確認 | Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, Debapriya Banerjee, Fillia Makedon | (参考訳) 自己教師付き学習は、大規模なデータセットのアノテートコストを回避する能力によって人気を集めている。
自己定義された擬似ラベルを監督として採用し、学習した表現を下流のタスクに使用することができる。
具体的には、コンピュータビジョン、自然言語処理(NLP)などの分野における自己教師型学習手法において、コントラスト学習が主流となっている。
異なるサンプルから埋め込みを排除しながら、同じサンプルの強化バージョンを互いに近くに埋め込むことを目的としている。
本稿では,コントラスト的アプローチに従う自己教師型手法の広範なレビューを行う。
この研究は、対照的な学習セットアップで一般的に使われるプリテキストタスクを説明し、これまでに提案されている異なるアーキテクチャについて説明している。
次に,画像分類,物体検出,行動認識など,複数の下流タスクに対する異なる手法の性能比較を行う。
最後に,現在の手法の限界と,さらなる技術と今後の方向性の必要性を結論づける。 Self-supervised learning has gained popularity because of its ability to avoid the cost of annotating large-scale datasets. It is capable of adopting self-defined pseudo labels as supervision and use the learned representations for several downstream tasks. Specifically, contrastive learning has recently become a dominant component in self-supervised learning methods for computer vision, natural language processing (NLP), and other domains. It aims at embedding augmented versions of the same sample close to each other while trying to push away embeddings from different samples. This paper provides an extensive review of self-supervised methods that follow the contrastive approach. The work explains commonly used pretext tasks in a contrastive learning setup, followed by different architectures that have been proposed so far. Next, we have a performance comparison of different methods for multiple downstream tasks such as image classification, object detection, and action recognition. Finally, we conclude with the limitations of the current methods and the need for further techniques and future directions to make substantial progress. | 翻訳日:2022-10-01 05:04:40 公開日:2021-02-07 |
# 3次元物体点雲の相補的理解のための幾何差分表現の学習 Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud ( http://arxiv.org/abs/2012.10921v3 ) ライセンス: Link先を確認 | Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao | (参考訳) 2次元画像処理では、エッジとスムーズな部分をそれぞれ記述するために、高周波数成分と低周波成分に分解する試みがある。
同様に、3dオブジェクトの輪郭と平坦な面積、例えば椅子の境界や座席面積は異なるが相補的なジオメトリも記述している。
しかし、すべての点や局所パッチを等しく扱うことで点雲を理解する、以前のディープネットワークではそのような調査は失われる。
そこで本研究では,GDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetはGeometry-Disentangle Moduleを導入し、点雲を3Dオブジェクトの輪郭と平らな部分に動的に分散させる。
そしてGDANetはSharp-Gentle Complementary Attention Moduleを利用して、シャープなコンポーネントと穏やかなコンポーネントの機能を2つの全体的な表現として扱い、それぞれが元のポイントクラウド機能と融合しながら異なる注意を払っている。
このようにして, 局所情報を補うために, 2つの異なる不連続成分から全体的かつ相補的な3次元幾何学的意味論を捉え, 洗練する。
3Dオブジェクトの分類とセグメンテーションのベンチマークに関する大規模な実験は、GDANetがより少ないパラメータで最先端の状態を達成することを示した。
コードはhttps://github.com/mutianxu/gdanet。 In 2D image processing, some attempts decompose images into high and low frequency components for describing edge and smooth parts respectively. Similarly, the contour and flat area of 3D objects, such as the boundary and seat area of a chair, describe different but also complementary geometries. However, such investigation is lost in previous deep networks that understand point clouds by directly treating all points or local patches equally. To solve this problem, we propose Geometry-Disentangled Attention Network (GDANet). GDANet introduces Geometry-Disentangle Module to dynamically disentangle point clouds into the contour and flat part of 3D objects, respectively denoted by sharp and gentle variation components. Then GDANet exploits Sharp-Gentle Complementary Attention Module that regards the features from sharp and gentle variation components as two holistic representations, and pays different attentions to them while fusing them respectively with original point cloud features. In this way, our method captures and refines the holistic and complementary 3D geometric semantics from two distinct disentangled components to supplement the local information. Extensive experiments on 3D object classification and segmentation benchmarks demonstrate that GDANet achieves the state-of-the-arts with fewer parameters. Code is released on https://github.com/mutianxu/GDANet. | 翻訳日:2021-05-01 04:41:44 公開日:2021-02-07 |
# (参考訳) Deep Stock Trading: ポートフォリオ最適化と注文実行のための階層的強化学習フレームワーク Deep Stock Trading: A Hierarchical Reinforcement Learning Framework for Portfolio Optimization and Order Execution ( http://arxiv.org/abs/2012.12620v2 ) ライセンス: CC BY 4.0 | Rundong Wang, Hongxin Wei, Bo An, Zhouyan Feng, Jun Yao | (参考訳) 強化学習によるポートフォリオ管理はfintech researchの最前線にあり、試行錯誤によって長期にわたってファンドを異なる金融資産に最適に再配置する方法を探求している。
既存の方法は、通常、各再配置が直ちに完了すると仮定し、取引コストの一部として価格下落を無視しているため、現実的ではない。
そこで本稿では,ポートフォリオ管理のための階層的強化株取引システム(hrpm)を提案する。
具体的には、取引プロセスを取引実行よりもポートフォリオ管理の階層に分解し、対応する政策を訓練する。
高水準政策は、長期利益を最大化するためにポートフォリオ重量を低い周波数で与え、トレーディングコストを最小限に抑えるために、短時間の窓口で対応する株を高頻度で売り買いする低水準政策を呼び起こす。
データ効率のための事前学習スキームと反復訓練スキームを用いて2段階の政策を訓練する。
米国市場と中国市場における大規模な実験結果から、HRPMは多くの最先端のアプローチに対して大幅な改善を達成していることがわかる。 Portfolio management via reinforcement learning is at the forefront of fintech research, which explores how to optimally reallocate a fund into different financial assets over the long term by trial-and-error. Existing methods are impractical since they usually assume each reallocation can be finished immediately and thus ignoring the price slippage as part of the trading cost. To address these issues, we propose a hierarchical reinforced stock trading system for portfolio management (HRPM). Concretely, we decompose the trading process into a hierarchy of portfolio management over trade execution and train the corresponding policies. The high-level policy gives portfolio weights at a lower frequency to maximize the long term profit and invokes the low-level policy to sell or buy the corresponding shares within a short time window at a higher frequency to minimize the trading cost. We train two levels of policies via pre-training scheme and iterative training scheme for data efficiency. Extensive experimental results in the U.S. market and the China market demonstrate that HRPM achieves significant improvement against many state-of-the-art approaches. | 翻訳日:2021-04-26 01:35:01 公開日:2021-02-07 |
# 医療検出におけるインスタンスレベルの不確実性の検討 Exploring Instance-Level Uncertainty for Medical Detection ( http://arxiv.org/abs/2012.12880v3 ) ライセンス: Link先を確認 | Jiawei Yang, Yuan Liang, Yao Zhang, Weinan Song, Kun Wang, Lei He | (参考訳) 不確実性を予測できる深層学習の能力は、臨床ルーチンにおける導入の鍵として認識されている。
さらに、実証的な証拠に従って不確実性をモデル化することで、性能向上を実現している。
セグメンテーションと分類タスクにおける不確実性の推定については,これまで広く議論されてきたが,境界ボックスの整合性の問題から,境界ボックスに基づく検出への応用は限られている。
本研究では,2つの異なる境界ボックスレベル(またはインスタンスレベル)の不確実性推定,すなわち予測分散とモンテカルロサンプル分散を用いた2.5D検出CNNの拡張について検討する。
肺結節検出実験はLUNA16データセット上で行われ、結節と非結節の間に重要な意味的曖昧性が存在する。
その結果,両種類の分散の組み合わせを用いて評価スコアを84.57%から88.86%に改善した。
さらに,生成した不確実性は,確率しきい値のみを使用するのに比べ,操作点が優れていることを示し,さらに89.52%まで性能を向上できることを示した。
本手法の利点をさらに説明するために,実例の結節検出を可視化する。 The ability of deep learning to predict with uncertainty is recognized as key for its adoption in clinical routines. Moreover, performance gain has been enabled by modelling uncertainty according to empirical evidence. While previous work has widely discussed the uncertainty estimation in segmentation and classification tasks, its application on bounding-box-based detection has been limited, mainly due to the challenge of bounding box aligning. In this work, we explore to augment a 2.5D detection CNN with two different bounding-box-level (or instance-level) uncertainty estimates, i.e., predictive variance and Monte Carlo (MC) sample variance. Experiments are conducted for lung nodule detection on LUNA16 dataset, a task where significant semantic ambiguities can exist between nodules and non-nodules. Results show that our method improves the evaluating score from 84.57% to 88.86% by utilizing a combination of both types of variances. Moreover, we show the generated uncertainty enables superior operating points compared to using the probability threshold only, and can further boost the performance to 89.52%. Example nodule detections are visualized to further illustrate the advantages of our method. | 翻訳日:2021-04-25 18:06:45 公開日:2021-02-07 |
# (参考訳) ガウス畳み込みモデルに基づく層分解学習と逆ハーフトニングのための残留分解 Layer Decomposition Learning Based on Gaussian Convolution Model and Residual Deblurring for Inverse Halftoning ( http://arxiv.org/abs/2012.13894v2 ) ライセンス: CC BY 4.0 | Chang-Hwan Son | (参考訳) 入力画像をベース層とディテール層に分離するための層分解は、画像復元に着実に使われている。
付加モデルに基づく既存の残差ネットワークは、高速収束と視覚的品質改善のために出力範囲が小さい残差層を必要とする。
しかし、逆ハーフトーンでは、均質なドットパターンは残留層から小さな出力範囲を妨げている。
そこで,ガウス畳み込みモデル(GCM)に基づく新しい層分解ネットワークと構造認識型デブロアリング戦略を提案し,基礎層と詳細層の両方の残差学習を実現する。
ベース層には,新しいGCMベースの残留サブネットワークが提供される。
gcmは、ガウスフィルタによるぼやけた連続音画像とぼやけた半音画像との画像差を狭い出力範囲にすることができる統計分布を用いる。
その後、GCMベースの残差サブネットはガウスフィルタ半音像を入力とし、画像差分を残差として出力し、ガウスブル連続音像という基底層を生成する。
詳細層については、新しい構造対応残留劣化サブネットワーク(SARDS)を示す。
ベース層のガウス的ぼかしを取り除くため、SARDSは予測ベース層を入力として使用し、遅延バージョンを出力する。
線やテキストなどの画像構造をより効果的に復元するために、デブロアリングネットワークに新しい画像構造マップ予測器を組み込んで構造適応学習を誘導する。
本稿では,GCMとSARDSに基づいて,ベース層とディテール層の両方の残差学習を実現する手法を提案する。
さらに,提案手法は,U-Net,ダイレクトデブロアリングネットワーク,そして漸進的残留ネットワークに基づく最先端手法を超越していることを確認した。 Layer decomposition to separate an input image into base and detail layers has been steadily used for image restoration. Existing residual networks based on an additive model require residual layers with a small output range for fast convergence and visual quality improvement. However, in inverse halftoning, homogenous dot patterns hinder a small output range from the residual layers. Therefore, a new layer decomposition network based on the Gaussian convolution model (GCM) and structure-aware deblurring strategy is presented to achieve residual learning for both the base and detail layers. For the base layer, a new GCM-based residual subnetwork is presented. The GCM utilizes a statistical distribution, in which the image difference between a blurred continuous-tone image and a blurred halftoned image with a Gaussian filter can result in a narrow output range. Subsequently, the GCM-based residual subnetwork uses a Gaussian-filtered halftoned image as input and outputs the image difference as residual, thereby generating the base layer, i.e., the Gaussian-blurred continuous-tone image. For the detail layer, a new structure-aware residual deblurring subnetwork (SARDS) is presented. To remove the Gaussian blurring of the base layer, the SARDS uses the predicted base layer as input and outputs the deblurred version. To more effectively restore image structures such as lines and texts, a new image structure map predictor is incorporated into the deblurring network to induce structure-adaptive learning. This paper provides a method to realize the residual learning of both the base and detail layers based on the GCM and SARDS. In addition, it is verified that the proposed method surpasses state-of-the-art methods based on U-Net, direct deblurring networks, and progressively residual networks. | 翻訳日:2021-04-24 23:13:20 公開日:2021-02-07 |
# 不均一レンダリングマシンを用いたタスク指向対話システムのための解釈可能なNLG Interpretable NLG for Task-oriented Dialogue Systems with Heterogeneous Rendering Machines ( http://arxiv.org/abs/2012.14645v2 ) ライセンス: Link先を確認 | Yangming Li, Kaisheng Yao | (参考訳) エンドツーエンドのニューラルネットワークは、自然言語生成(NLG)において有望なパフォーマンスを達成した。
しかし、ブラックボックスとして扱われ、解釈性に欠ける。
この問題に対処するために,ニューラルジェネレータが入力対話行為(da)を発話に変換する方法を解釈する,新しいフレームワークであるヘテロジニアスレンダリングマシン(hrm)を提案する。
HRMは、レンダラーセットとモードスイッチャーで構成される。
レンダラーセットには、構造と機能の両方が異なる複数のデコーダが含まれている。
生成ステップ毎に、モード切替器は、レンダラセットから適切なデコーダを選択してアイテム(単語または句)を生成する。
提案手法の有効性を検証するため,5つのベンチマークデータセットについて広範な実験を行った。
自動メトリクス(例えばBLEU)に関しては、我々のモデルは現在の最先端手法と競合する。
定性解析により,我々はニューラルネットワークの描画過程をよく解釈できることを示した。
また,人間評価により,提案手法の解釈可能性も確認できた。 End-to-end neural networks have achieved promising performances in natural language generation (NLG). However, they are treated as black boxes and lack interpretability. To address this problem, we propose a novel framework, heterogeneous rendering machines (HRM), that interprets how neural generators render an input dialogue act (DA) into an utterance. HRM consists of a renderer set and a mode switcher. The renderer set contains multiple decoders that vary in both structure and functionality. For every generation step, the mode switcher selects an appropriate decoder from the renderer set to generate an item (a word or a phrase). To verify the effectiveness of our method, we have conducted extensive experiments on 5 benchmark datasets. In terms of automatic metrics (e.g., BLEU), our model is competitive with the current state-of-the-art method. The qualitative analysis shows that our model can interpret the rendering process of neural generators well. Human evaluation also confirms the interpretability of our proposed approach. | 翻訳日:2021-04-18 20:39:52 公開日:2021-02-07 |
# 電子顕微鏡による3次元画像再構成のための曲面エワルド球面問題の解法 A new solution to the curved Ewald sphere problem for 3D image reconstruction in electron microscopy ( http://arxiv.org/abs/2101.11709v2 ) ライセンス: Link先を確認 | J. P. J. Chen, K. E. Schmidt, J. C. H. Spence, R. A. Kirian | (参考訳) 本研究では,エヴァルト球面の曲率に大きく影響される物体の二次元画像の集合を3次元物体で撮像するアルゴリズムを開発した。
これらの二次元画像は物体の投影として近似することはできない。
このようなアルゴリズムは、より大きなサンプル、高分解能または低エネルギーの電子ビームが要求されるクライオ電子顕微鏡において有用であり、これらすべてがエヴァルト曲率の意義に寄与する。 We develop an algorithm capable of imaging a three-dimensional object given a collection of two-dimensional images of that object that are significantly influenced by the curvature of the Ewald sphere. These two-dimensional images cannot be approximated as projections of the object. Such an algorithm is useful in cryo-electron microscopy where larger samples, higher resolution, or lower energy electron beams are desired, all of which contribute to the significance of Ewald curvature. | 翻訳日:2021-04-11 22:50:21 公開日:2021-02-07 |
# (参考訳) 独立試験による多機能・アンサンブル学習に基づく高精度医薬の視覚オンライン検査システムと分類 High Precision Medicine Bottles Vision Online Inspection System and Classification Based on Multi-Features and Ensemble Learning via Independence Test ( http://arxiv.org/abs/2101.01362v2 ) ライセンス: CC BY 4.0 | Le Ma, Xiaoyue Wu, Zhiwei Li | (参考訳) 製造ラインにおける薬液ボトルのオンライン自動検査の問題に対処するため, 組込み型視覚検査システムを設計し, 多機能融合に基づく検出のためのアンサンブル学習アルゴリズムを提案する。
トンネル構造は視覚検査システムのために設計されており、ボトル検査を原点を変えることなく自動化することができる。 To address the problem of online automatic inspection of drug liquid bottles in production line, an implantable visual inspection system is designed and the ensemble learning algorithm for detection is proposed based on multi-features fusion. A tunnel structure is designed for visual inspection system, which allows bottles inspection to be automated without changing original | 翻訳日:2021-04-11 20:52:20 公開日:2021-02-07 |
# (参考訳) ディープニューラルネットワークに基づく関係抽出:概観 Deep Neural Network Based Relation Extraction: An Overview ( http://arxiv.org/abs/2101.01907v2 ) ライセンス: CC0 1.0 | Hailin Wang, Ke Qin, Rufai Yusuf Zakari, Guoming Lu, Jin Yin | (参考訳) 知識は世界を理解するための正式な方法であり、次世代人工知能(AI)のための人間レベルの認知と知性を提供する。
知識の表現の1つは、エンティティ間の意味関係である。
情報抽出のサブタスクである関係抽出(RE)と呼ばれるこの重要な知識を自動的に取得する効果的な方法は、自然言語処理(NLP)において重要な役割を果たす。
その目的は自然言語テキストからエンティティ間の意味関係を特定することである。
これまでの研究では、ディープニューラルネットワーク(dnn)に基づくこれらのテクニックを文書化したreについて、いくつかの研究がなされている。
特に、DNNに基づく監視・遠隔監視手法は、REにとって最も人気があり信頼性の高いソリューションである。
1) 一般的な概念をいくつか紹介するとともに, 2) 標準reシステムの改善を目指す教師付きreと,文エンコーダの設計にdnnを採用する遠方監視reという2つの視点から,reにおけるdnnの包括的概要を述べる。
さらに,新しい手法や最近の動向を取り上げ,今後の研究の方向性について論じる。 Knowledge is a formal way of understanding the world, providing a human-level cognition and intelligence for the next-generation artificial intelligence (AI). One of the representations of knowledge is semantic relations between entities. An effective way to automatically acquire this important knowledge, called Relation Extraction (RE), a sub-task of information extraction, plays a vital role in Natural Language Processing (NLP). Its purpose is to identify semantic relations between entities from natural language text. To date, there are several studies for RE in previous works, which have documented these techniques based on Deep Neural Networks (DNNs) become a prevailing technique in this research. Especially, the supervised and distant supervision methods based on DNNs are the most popular and reliable solutions for RE. This article 1) introduces some general concepts, and further 2) gives a comprehensive overview of DNNs in RE from two points of view: supervised RE, which attempts to improve the standard RE systems, and distant supervision RE, which adopts DNNs to design sentence encoder and de-noise method. We further 3) cover some novel methods and recent trends as well as discuss possible future research directions for this task. | 翻訳日:2021-04-11 05:59:00 公開日:2021-02-07 |
# (参考訳) アラビア方言のためのオープンアクセスNLPデータセット : データ収集,ラベル付け,モデル構築 An open access NLP dataset for Arabic dialects : Data collection, labeling, and model construction ( http://arxiv.org/abs/2102.11000v1 ) ライセンス: CC BY 4.0 | ElMehdi Boujou, Hamza Chataoui, Abdellah El Mekki, Saad Benjelloun, Ikram Chairi, and Ismail Berrada | (参考訳) 自然言語処理(NLP)は現在、研究とイノベーションの非常に活発な分野である。
しかし、多くのアプリケーションは教師あり学習のために大量のデータを必要とする。
これにはアラビア語とその方言の応用が含まれる。
しかし、このようなアラビア語とその方言のオープンアクセスラベル付きデータセットは、データサイエンスのエコシステムにおいて不足しており、この分野におけるイノベーションと研究の負担となっている。
本研究では,いくつかのアラビア方言におけるソーシャルデータコンテンツのオープンデータセットについて述べる。
このデータはtwitterのソーシャルネットワークから収集され、5つの5つの国語で+50kのtwitsで構成されている。
さらに、このデータは方言検出、話題検出、感情分析などいくつかの応用でラベル付けされた。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
このデータセットを用いてモデルの選択を行い、その性能とともに本論文で提示する。 Natural Language Processing (NLP) is today a very active field of research and innovation. Many applications need however big sets of data for supervised learning, suitably labelled for the training purpose. This includes applications for the Arabic language and its national dialects. However, such open access labeled data sets in Arabic and its dialects are lacking in the Data Science ecosystem and this lack can be a burden to innovation and research in this field. In this work, we present an open data set of social data content in several Arabic dialects. This data was collected from the Twitter social network and consists on +50K twits in five (5) national dialects. Furthermore, this data was labeled for several applications, namely dialect detection, topic detection and sentiment analysis. We publish this data as an open access data to encourage innovation and encourage other works in the field of NLP for Arabic dialects and social media. A selection of models were built using this data set and are presented in this paper along with their performances. | 翻訳日:2021-04-06 06:29:54 公開日:2021-02-07 |
# タグ付きテキストにおける単語頻度-ランク関係 Word frequency-rank relationship in tagged texts ( http://arxiv.org/abs/2102.10992v1 ) ライセンス: Link先を確認 | A. Chacoma, D. H. Zanette | (参考訳) 本研究では,3つの異なる文法クラス({\em nouns}, {\em verbs}, {\em other})に対応する下位語彙の頻度ランク関係を,文法的役割に応じて単語が自動的にタグ付けされた英語の文学作品群で解析した。
各クラスに属する単語が全作業の頻度ランク付き語彙に一様分布していると仮定したヌル仮説と比較し、3つのクラス間の統計的に有意な差異を明らかにした。
この結果は、周波数-ランク関係が文法関数に関連する言語的特徴を反映していることを示している。 We analyze the frequency-rank relationship in sub-vocabularies corresponding to three different grammatical classes ({\em nouns}, {\em verbs}, and {\em others}) in a collection of literary works in English, whose words have been automatically tagged according to their grammatical role. Comparing with a null hypothesis which assumes that words belonging to each class are uniformly distributed across the frequency-ranked vocabulary of the whole work, we disclose statistically significant differences between the three classes. This results point to the fact that frequency-rank relationships may reflect linguistic features associated with grammatical function. | 翻訳日:2021-04-05 00:34:44 公開日:2021-02-07 |
# (参考訳) E Pluribus Unum Ex Machina: 一度に多くの衝突イベントから学ぶ E Pluribus Unum Ex Machina: Learning from Many Collider Events at Once ( http://arxiv.org/abs/2101.07263v2 ) ライセンス: CC BY 4.0 | Benjamin Nachman and Jesse Thaler | (参考訳) 多くの異なる事象を1つのアンサンブル特徴に組み合わせることで、衝突型物理学の機械学習戦略の性能を高めるための最近の提案が数多くある。
これらの提案の有効性を評価するために,コライダーイベントが独立かつ同一分布(IID)であることを前提として,単一イベント分類器と複数イベント分類器の関連性を検討する。
単一イベント分類器から最適なマルチイベント分類器を構築する方法を示し、また最適な単一イベント分類器を生成するためのマルチイベント分類器を構築する方法を示す。
これはガウスの例や、大型ハドロン衝突型加速器の探索と測定に関連する分類タスクのために説明される。
パラメトリズド分類器(parametrized classifiers)という用語で表現する方法を示し,回帰タスクへの議論を拡張した。
実験により, 単一インスタンス(インスタンス毎)の分類器の訓練は, 少なくとも研究例では, 複数インスタンス(アンサンブル毎)の分類器の訓練よりも効果的であることが判明し, この事実を2症例における損失関数勾配の特性と関連づける。
衝突型加速器の文脈で多重事象分類器を使用することによる明確な利点は特定できなかったが、ジェットサブストラクチャ研究に関連する近似独立性のみに関わる場合におけるこれらの手法の潜在的価値について考察した。 There have been a number of recent proposals to enhance the performance of machine learning strategies for collider physics by combining many distinct events into a single ensemble feature. To evaluate the efficacy of these proposals, we study the connection between single-event classifiers and multi-event classifiers under the assumption that collider events are independent and identically distributed (IID). We show how one can build optimal multi-event classifiers from single-event classifiers, and we also show how to construct multi-event classifiers such that they produce optimal single-event classifiers. This is illustrated for a Gaussian example as well as for classification tasks relevant for searches and measurements at the Large Hadron Collider. We extend our discussion to regression tasks by showing how they can be phrased in terms of parametrized classifiers. Empirically, we find that training a single-event (per-instance) classifier is more effective than training a multi-event (per-ensemble) classifier, as least for the cases we studied, and we relate this fact to properties of the loss function gradient in the two cases. While we did not identify a clear benefit from using multi-event classifiers in the collider context, we speculate on the potential value of these methods in cases involving only approximate independence, as relevant for jet substructure studies. | 翻訳日:2021-03-27 08:11:06 公開日:2021-02-07 |
# UPDeT: トランスフォーマーとのポリシーデカップリングによるユニバーサルマルチエージェント強化学習 UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers ( http://arxiv.org/abs/2101.08001v3 ) ライセンス: Link先を確認 | Siyi Hu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang | (参考訳) マルチエージェント強化学習の最近の進歩は、新しいタスクごとに1つのモデルをスクラッチからトレーニングすることに大きく制限されている。
この制限は、固定された入力と出力の次元に関連する制限されたモデルアーキテクチャに起因する。
これにより、さまざまなレベルの難易度を持つタスク(例えば、学習エージェントの蓄積と転送を妨げます。
3対3または5対6のマルチエージェントゲーム)。
本稿では,マルチエージェント強化学習パイプラインの汎用化に向けた最初の試みとして,異なる観測・動作構成の要求に適合する1つの単一アーキテクチャを設計する。
従来のRNNモデルとは違って,自己注意機構の利点によって測定された重み付き入力観測からポリシー分布を分離することにより,トランスフォーマモデルを用いてフレキシブルなポリシーを生成する。
標準変圧器ブロックと比較すると,UPDeT(Universal Policy Decoupling Transformer)と呼ばれるモデルが動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにしている。
UPDeTは、任意のマルチエージェント強化学習パイプラインにプラグインして、複数のタスクを同時に処理できる強力な一般化能力を備えるのに十分な一般性を持っている。
大規模SMACマルチエージェント競争ゲームにおける大規模な実験により、UPDeTベースのマルチエージェント強化学習は、最先端のアプローチと比較して有意な結果が得られ、性能とトレーニング速度の両面で有利な転送能力を示す。 Recent advances in multi-agent reinforcement learning have been largely limited in training one model from scratch for every new task. The limitation is due to the restricted model architecture related to fixed input and output dimensions. This hinders the experience accumulation and transfer of the learned agent over tasks with diverse levels of difficulty (e.g. 3 vs 3 or 5 vs 6 multi-agent games). In this paper, we make the first attempt to explore a universal multi-agent reinforcement learning pipeline, designing one single architecture to fit tasks with the requirement of different observation and action configurations. Unlike previous RNN-based models, we utilize a transformer-based model to generate a flexible policy by decoupling the policy distribution from the intertwined input observation with an importance weight measured by the merits of the self-attention mechanism. Compared to a standard transformer block, the proposed model, named as Universal Policy Decoupling Transformer (UPDeT), further relaxes the action restriction and makes the multi-agent task's decision process more explainable. UPDeT is general enough to be plugged into any multi-agent reinforcement learning pipeline and equip them with strong generalization abilities that enables the handling of multiple tasks at a time. Extensive experiments on large-scale SMAC multi-agent competitive games demonstrate that the proposed UPDeT-based multi-agent reinforcement learning achieves significant results relative to state-of-the-art approaches, demonstrating advantageous transfer capability in terms of both performance and training speed (10 times faster). | 翻訳日:2021-03-22 01:35:56 公開日:2021-02-07 |
# 会話型推薦システムの進歩と課題:調査 Advances and Challenges in Conversational Recommender Systems: A Survey ( http://arxiv.org/abs/2101.09459v5 ) ライセンス: Link先を確認 | Chongming Gao, Wenqiang Lei, Xiangnan He, Maarten de Rijke, Tat-Seng Chua | (参考訳) レコメンダシステムは、幅広い業界アプリケーションで多用されたユーザー好みを推定するためにインタラクション履歴を利用する。
しかし,静的レコメンデーションモデルは,本質的な欠点から,2つの重要な質問に答えることが困難である。
(b)なぜユーザがアイテムを好むのか?
欠点は、静的モデルがユーザの好み、すなわち明示的な指示やユーザからのアクティブなフィードバックなしで学習する方法にある。
近年の会話レコメンデーションシステム(CRS)の台頭は、この状況を根本的に変える。
CRSでは、ユーザとシステムは自然言語による対話を通じて動的に通信することができ、ユーザの正確な嗜好を明確化するための前例のない機会を提供する。
異なる設定やアプリケーションにまたがる考慮すべき取り組みは、CRSの開発に費やされている。
既存のCRSのモデル、技術、評価方法はまだ成熟していない。
本稿では,現在のCRSで使用されている技術について,体系的なレビューを行う。
我々は,crssを開発する上での課題を,(1)質問に基づくユーザ嗜好の誘発という5つの方向にまとめる。
(2)多方向対話型推薦戦略。
3)対話の理解と生成。
(4)爆発探索トレードオフ
(5)評価とユーザシミュレーション。
これらの研究の方向性には、情報検索(ir)、自然言語処理(nlp)、人間とコンピュータの相互作用(hci)など複数の研究分野が含まれる。
これらの研究の方向性に基づき、今後の課題と機会について論じる。
複数のコミュニティの研究者がこの分野に参入するためのロードマップを提供する。
この調査がCRSの課題を特定し、対処し、将来の研究を促すのに役立つことを願っています。 Recommender systems exploit interaction history to estimate user preference, having been heavily used in a wide range of industry applications. However, static recommendation models are difficult to answer two important questions well due to inherent shortcomings: (a) What exactly does a user like? (b) Why does a user like an item? The shortcomings are due to the way that static models learn user preference, i.e., without explicit instructions and active feedback from users. The recent rise of conversational recommender systems (CRSs) changes this situation fundamentally. In a CRS, users and the system can dynamically communicate through natural language interactions, which provide unprecedented opportunities to explicitly obtain the exact preference of users. Considerable efforts, spread across disparate settings and applications, have been put into developing CRSs. Existing models, technologies, and evaluation methods for CRSs are far from mature. In this paper, we provide a systematic review of the techniques used in current CRSs. We summarize the key challenges of developing CRSs into five directions: (1) Question-based user preference elicitation. (2) Multi-turn conversational recommendation strategies. (3) Dialogue understanding and generation. (4) Exploitation-exploration trade-offs. (5) Evaluation and user simulation. These research directions involve multiple research fields like information retrieval (IR), natural language processing (NLP), and human-computer interaction (HCI). Based on these research directions, we discuss some future challenges and opportunities. We provide a road map for researchers from multiple communities to get started in this area. We hope this survey helps to identify and address challenges in CRSs and inspire future research. | 翻訳日:2021-03-19 10:43:29 公開日:2021-02-07 |
# (参考訳) 議論トポロジーに関する一考察:未解決問題としての円性とシルロジズム A Note on Argumentative Topology: Circularity and Syllogisms as Unsolved Problems ( http://arxiv.org/abs/2102.03874v1 ) ライセンス: CC BY 4.0 | Wlodek W. Zadrozny | (参考訳) ここ数年、トポロジカルなデータ分析をテキスト、特に自然言語の推論に適用しようとする試みがいくつかあった。
Tymochko et al.による最近の作品。
動的システムから派生した手法である「トポロジカル遅延埋め込み」を単語埋め込みに適用し、「テキストにおける論理形状の概念」を捕捉する可能性を示唆する。
本稿では,それらの議論を再構築し,古い例と新しい例を用いて,論理,トポロジー,テキストをつなぐ問題はいまだに未解決であることを示す。
私たちは、この質問に明確な答えがないと結論付けます:「円は円形の引数で見つけることができますか?
我々は探査のいくつかの可能な手段を指摘します。
実験で使われたコードも示しています。 In the last couple of years there were a few attempts to apply topological data analysis to text, and in particular to natural language inference. A recent work by Tymochko et al. suggests the possibility of capturing `the notion of logical shape in text,' using `topological delay embeddings,' a technique derived from dynamical systems, applied to word embeddings. In this note we reconstruct their argument and show, using several old and new examples, that the problem of connecting logic, topology and text is still very much unsolved. We conclude that there is no clear answer to the question: ``Can we find a circle in a circular argument?'' We point out some possible avenues of exploration. The code used in our experiment is also shown. | 翻訳日:2021-02-11 10:52:02 公開日:2021-02-07 |
# (参考訳) 熱拡散と最大旋回角による自己適応的かつ堅牢な核分裂クラスタリングアルゴリズム A self-adaptive and robust fission clustering algorithm via heat diffusion and maximal turning angle ( http://arxiv.org/abs/2102.03794v1 ) ライセンス: CC BY 4.0 | Yu Han, Shizhan Lu, Haiyan Xu | (参考訳) 類似要素の分類とグループ化に焦点を当てたクラスタ分析は、様々な研究分野で広く利用されている。
近年、新規かつ高速なクラスタリングアルゴリズムである分裂クラスタリングアルゴリズムが提案されている。
本稿では,ロバストなfission clustering (rfc)アルゴリズムと自己適応型雑音同定手法を提案する。
RFCと自己適応型雑音識別法を組み合わせて自己適応型堅牢核分裂クラスタリング(SARFC)アルゴリズムを提案する。
提案したクラスタリング手法の性能を検証し,結果を他のアルゴリズムと比較するために,頻繁なデータセットを適用した。
包括的比較は,提案手法が他の一般的な手法よりも優れていることを示している。 Cluster analysis, which focuses on the grouping and categorization of similar elements, is widely used in various fields of research. A novel and fast clustering algorithm, fission clustering algorithm, is proposed in recent year. In this article, we propose a robust fission clustering (RFC) algorithm and a self-adaptive noise identification method. The RFC and the self-adaptive noise identification method are combine to propose a self-adaptive robust fission clustering (SARFC) algorithm. Several frequently-used datasets were applied to test the performance of the proposed clustering approach and to compare the results with those of other algorithms. The comprehensive comparisons indicate that the proposed method has advantages over other common methods. | 翻訳日:2021-02-11 10:06:09 公開日:2021-02-07 |
# (参考訳) attributenet:属性強化車の再識別 AttributeNet: Attribute Enhanced Vehicle Re-Identification ( http://arxiv.org/abs/2102.03898v1 ) ライセンス: CC BY 4.0 | Rodolfo Quispe and Cuiling Lan and Wenjun Zeng and Helio Pedrini | (参考訳) 車両再識別(V-ReID)は、異なるカメラ視点からの画像間で同じ車両を関連付ける重要なタスクである。
多くの作品はV-ReIDを強化するための属性の手がかりを探りますが、属性関連モジュールと最終的なV-ReID目標の間には効果的な相互作用が欠如しています。
本研究では,車両属性(色やタイプなど)からの識別情報を効率的に探索する新しい手法を提案する。
アイデンティティ関連機能や属性機能を共同で抽出するAttributeNet(ANet)を紹介します。
ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。
さらに,一般のreid特徴に属性的特徴を加えた後,元の一般のreid特徴よりも識別的になるように特徴を奨励する制約 amelioration constraints (ac) を提案する。
3つの挑戦的なデータセットで、フレームワークの有効性を検証する。
実験結果から,本手法は最先端性能を実現することが示された。 Vehicle Re-Identification (V-ReID) is a critical task that associates the same vehicle across images from different camera viewpoints. Many works explore attribute clues to enhance V-ReID; however, there is usually a lack of effective interaction between the attribute-related modules and final V-ReID objective. In this work, we propose a new method to efficiently explore discriminative information from vehicle attributes (e.g., color and type). We introduce AttributeNet (ANet) that jointly extracts identity-relevant features and attribute features. We enable the interaction by distilling the ReID-helpful attribute feature and adding it into the general ReID feature to increase the discrimination power. Moreover, we propose a constraint, named Amelioration Constraint (AC), which encourages the feature after adding attribute features onto the general ReID feature to be more discriminative than the original general ReID feature. We validate the effectiveness of our framework on three challenging datasets. Experimental results show that our method achieves state-of-the-art performance. | 翻訳日:2021-02-11 08:53:38 公開日:2021-02-07 |
# (参考訳) 病理画像解析のための機械学習手法:概観 Machine Learning Methods for Histopathological Image Analysis: A Review ( http://arxiv.org/abs/2102.03889v1 ) ライセンス: CC BY 4.0 | Jonathan de Matos and Steve Tsham Mpinda Ataky and Alceu de Souza Britto Jr. and Luiz Eduardo Soares de Oliveira and Alessandro Lameiras Koerich | (参考訳) 病理組織像 (HIs) は癌診断における腫瘍の種類を評価するための金の基準である。
このような画像の解析は時間と資源を消費するだけでなく、経験豊富な病理学者にとっても非常に困難である。
このような分析を高速化する方法の1つは、コンピュータ支援診断(CAD)システムを使用することである。
本稿では,浅層・深層学習を含む組織病理学的画像解析のための機械学習手法について検討する。
また、セグメント化や特徴抽出など、HI分析における最も一般的なタスクについても取り上げる。
さらに、HI研究で使用されている公開およびプライベートデータセットのリストを紹介します。 Histopathological images (HIs) are the gold standard for evaluating some types of tumors for cancer diagnosis. The analysis of such images is not only time and resource consuming, but also very challenging even for experienced pathologists, resulting in inter- and intra-observer disagreements. One of the ways of accelerating such an analysis is to use computer-aided diagnosis (CAD) systems. In this paper, we present a review on machine learning methods for histopathological image analysis, including shallow and deep learning methods. We also cover the most common tasks in HI analysis, such as segmentation and feature extraction. In addition, we present a list of publicly available and private datasets that have been used in HI research. | 翻訳日:2021-02-11 08:38:22 公開日:2021-02-07 |
# (参考訳) ベイズ教示による説明可能な人工知能における信念投影の緩和 Mitigating belief projection in explainable artificial intelligence via Bayesian Teaching ( http://arxiv.org/abs/2102.03919v1 ) ライセンス: CC BY 4.0 | Scott Cheng-Hsin Yang, Wai Keen Vong, Ravi B. Sojitra, Tomas Folke, Patrick Shafto | (参考訳) 最先端のディープラーニングシステムは、人間がモデル化することが難しい決定ルールを使用する。
説明可能なAI(XAI)は人間の理解を改善しようとするが、人々がよく知らないエージェントをどう考えるかを説明することは滅多にない。
そこで本研究では,説明者の推論を希望する目標にどの程度移行させるかによって説明を評価するベイズ的指導を通して,説明者を明示的にモデル化することを提案する。
様々な文脈にまたがる二元画像分類課題におけるベイズ教育の評価を行う。
絶え間ない介入により、参加者はAIの分類が彼ら自身のものと一致すると予測するが、ベイズ教養が生み出した説明は、AIの判断をこの以前の信念から遠ざけることで予測する能力を向上させる。
ベイズ教育はさらに、各ケースを副例に分解することができる(ここではサラジェンシーマップ)。
これらのサブサンプルは、見慣れたカテゴリのエラー検出を改善することによって、すべての例を補完する。 State-of-the-art deep-learning systems use decision rules that are challenging for humans to model. Explainable AI (XAI) attempts to improve human understanding but rarely accounts for how people typically reason about unfamiliar agents. We propose explicitly modeling the human explainee via Bayesian Teaching, which evaluates explanations by how much they shift explainees' inferences toward a desired goal. We assess Bayesian Teaching in a binary image classification task across a variety of contexts. Absent intervention, participants predict that the AI's classifications will match their own, but explanations generated by Bayesian Teaching improve their ability to predict the AI's judgements by moving them away from this prior belief. Bayesian Teaching further allows each case to be broken down into sub-examples (here saliency maps). These sub-examples complement whole examples by improving error detection for familiar categories, whereas whole examples help predict correct AI judgements of unfamiliar cases. | 翻訳日:2021-02-11 07:45:21 公開日:2021-02-07 |
# (参考訳) AIのミスアライメント Consequences of Misaligned AI ( http://arxiv.org/abs/2102.03896v1 ) ライセンス: CC BY 4.0 | Simon Zhuang, Dylan Hadfield-Menell | (参考訳) AIシステムは、指定されたゴールまたは報酬関数と、そのゴールに対する最適な振る舞いを計算する最適化アルゴリズムの2つの重要なコンポーネントに依存していることが多い。
このアプローチは、プリンシパル — エージェントの動作を代行するユーザ — に価値を提供することを目的としている。
これらのエージェントに与えられた目的は、しばしばプリンシパルの目標の部分的な仕様を参照する。
この不完全性のコストは、状態の$L$属性がプリンシパルのためのユーティリティの異なるソースに対応するリソース制約された世界のプリンシパルとエージェントのモデルを分析することによって考慮します。
エージェントに与えられた報酬関数は$J < L$属性でのみサポートされていると仮定します。
The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions.
この論文の結果は、報酬関数の設計をインタラクティブでダイナミックなプロセスと見なし、ある程度の相互作用が望ましい理論的シナリオを特定するべきであると論じています。 AI systems often rely on two key components: a specified goal or reward function and an optimization algorithm to compute the optimal behavior for that goal. This approach is intended to provide value for a principal: the user on whose behalf the agent acts. The objectives given to these agents often refer to a partial specification of the principal's goals. We consider the cost of this incompleteness by analyzing a model of a principal and an agent in a resource constrained world where the $L$ attributes of the state correspond to different sources of utility for the principal. We assume that the reward function given to the agent only has support on $J < L$ attributes. The contributions of our paper are as follows: 1) we propose a novel model of an incomplete principal-agent problem from artificial intelligence; 2) we provide necessary and sufficient conditions under which indefinitely optimizing for any incomplete proxy objective leads to arbitrarily low overall utility; and 3) we show how modifying the setup to allow reward functions that reference the full state or allowing the principal to update the proxy objective over time can lead to higher utility solutions. The results in this paper argue that we should view the design of reward functions as an interactive and dynamic process and identifies a theoretical scenario where some degree of interactivity is desirable. | 翻訳日:2021-02-11 07:44:20 公開日:2021-02-07 |
# (参考訳) spoiler alert: 自然言語処理を使って書籍レビューのスポイラーを検出する Spoiler Alert: Using Natural Language Processing to Detect Spoilers in Book Reviews ( http://arxiv.org/abs/2102.03882v1 ) ライセンス: CC BY 4.0 | Allen Bao, Marshall Ho, Saarthak Sangamnerkar | (参考訳) 本稿では,カリフォルニア大学サンディエゴ校(UCSD)のGoodreads Spoilerデータセットを用いて,書籍レビューにおけるスポイラー検出のためのNLP(Natural Language Processing)アプローチを提案する。
文レベルでスポイラー検出を行うために,LSTM,BERT,RoBERTa言語モデルを用いて検討した。
これは、UCSDの論文が同じ作業を行ったのとは対照的に、データ準備に手作りの機能を使用した。
また,手工芸品を用いたにもかかわらず,LSTMモデルの結果はスポイラー検出においてUCSDチームの性能をわずかに上回ることができた。 This paper presents an NLP (Natural Language Processing) approach to detecting spoilers in book reviews, using the University of California San Diego (UCSD) Goodreads Spoiler dataset. We explored the use of LSTM, BERT, and RoBERTa language models to perform spoiler detection at the sentence-level. This was contrasted with a UCSD paper which performed the same task, but using handcrafted features in its data preparation. Despite eschewing the use of handcrafted features, our results from the LSTM model were able to slightly exceed the UCSD team's performance in spoiler detection. | 翻訳日:2021-02-11 06:19:57 公開日:2021-02-07 |
# (参考訳) マニホールド近似と投影による教師なし文埋め込み Unsupervised Sentence-embeddings by Manifold Approximation and Projection ( http://arxiv.org/abs/2102.03795v1 ) ライセンス: CC BY 4.0 | Subhradeep Kayal | (参考訳) 教師なし普遍文エンコーダの概念は近年注目を集めており、事前訓練されたモデルでは、フレーズ、文、段落に対する効果的なタスク非依存の定次元表現が生成される。
このような方法は、単語ベクトルの単純な重み付け平均から双方向変換器に基づく複雑な言語モデルまで、複雑性が異なる。
本研究では, 局所的な空間保存を目的として, 文章を定次元多様体に投影することにより, 文章埋め込みを無監督的に生成する新しい手法を提案する。
そこで我々は,最近提案されたWord Mover距離を含む集合距離測定値について実験を行った。一方,この固定次元投影は,トポロジカルデータ解析に根ざしたスケーラブルで効率的な多様体近似法を用いて実現されている。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
実験結果から,本手法は従来手法と同等か,あるいはそれ以上の性能を示すことがわかった。 The concept of unsupervised universal sentence encoders has gained traction recently, wherein pre-trained models generate effective task-agnostic fixed-dimensional representations for phrases, sentences and paragraphs. Such methods are of varying complexity, from simple weighted-averages of word vectors to complex language-models based on bidirectional transformers. In this work we propose a novel technique to generate sentence-embeddings in an unsupervised fashion by projecting the sentences onto a fixed-dimensional manifold with the objective of preserving local neighbourhoods in the original space. To delineate such neighbourhoods we experiment with several set-distance metrics, including the recently proposed Word Mover's distance, while the fixed-dimensional projection is achieved by employing a scalable and efficient manifold approximation method rooted in topological data analysis. We test our approach, which we term EMAP or Embeddings by Manifold Approximation and Projection, on six publicly available text-classification datasets of varying size and complexity. Empirical results show that our method consistently performs similar to or better than several alternative state-of-the-art approaches. | 翻訳日:2021-02-11 06:15:30 公開日:2021-02-07 |
# (参考訳) 自然言語処理のための表現学習 Representation Learning for Natural Language Processing ( http://arxiv.org/abs/2102.03732v1 ) ライセンス: CC BY 4.0 | Zhiyuan Liu, Yankai Lin, Maosong Sun | (参考訳) 本書は,NLPにおける分散表現学習の最近の進歩について,表現学習がNLPを改善できる理由,表現学習がNLPの様々な重要なトピックにどのように関与するか,分散表現によってまだ解決されていない課題について,レビューし,提示することを目的としている。 This book aims to review and present the recent advances of distributed representation learning for NLP, including why representation learning can improve NLP, how representation learning takes part in various important topics of NLP, and what challenges are still not well addressed by distributed representation. | 翻訳日:2021-02-11 06:02:10 公開日:2021-02-07 |
# (参考訳) ディープラーニングを用いた超高速DCE-MRIにおける乳房病変の自動検出 Automatic Breast Lesion Detection in Ultrafast DCE-MRI Using Deep Learning ( http://arxiv.org/abs/2102.03932v1 ) ライセンス: CC BY 4.0 | Fazael Ayatollahi (1 and 2), Shahriar B. Shokouhi (1), Ritse M. Mann (2), Jonas Teuwen (2 and 3) ((1) Electrical Engineering Department, Iran University of Science and Technology (IUST), Tehran, Iran, (2) Department of Radiology and Nuclear Medicine, Radboud University Medical Center, Nijmegen, the Netherlands, (3) Department of Radiation Oncology, Netherlands Cancer Institute, Amsterdam, the Netherlands) | (参考訳) 目的:超高速DCE-MRIにおける乳房病変検出のための深層学習型コンピュータ支援検出法(CADe)を提案する。
本手法は,動的獲得の初期段階から得られた3次元空間情報と時間情報の両方を用いており,提案手法は3次元RetinaNetモデルに基づいて,動作補償,時間正規化,およびモデルに渡す前に収穫される超高速なT1重み付きシーケンスを演算する。
The model is optimized to enable the detection of relatively small breast lesions in a screening setting, focusing on detection of lesions that are harder to differentiate from confounding structures inside the breast.Results: The method was developed based on a dataset consisting of 489 ultrafast MRI studies obtained from 462 patients containing a total of 572 lesions (365 malignant, 207 benign) and achieved a detection rate, sensitivity, and detection rate of benign lesions of 0.90, 0.95, and 0.86 at 4 false positives per normal breast with a 10-fold cross-validation, respectively.Conclusions: The deep learning architecture used for the proposed CADe application can efficiently detect benign and malignant lesions on ultrafast DCE-MRI.
さらに, 訓練中の難読度が低くなることで, 学習過程が改善し, 乳腺悪性病変も検出される。 Purpose: We propose a deep learning-based computer-aided detection (CADe) method to detect breast lesions in ultrafast DCE-MRI sequences. This method uses both the three-dimensional spatial information and temporal information obtained from the early-phase of the dynamic acquisition.Methods: The proposed CADe method, based on a modified 3D RetinaNet model, operates on ultrafast T1 weighted sequences, which are preprocessed for motion compensation, temporal normalization, and are cropped before passing into the model. The model is optimized to enable the detection of relatively small breast lesions in a screening setting, focusing on detection of lesions that are harder to differentiate from confounding structures inside the breast.Results: The method was developed based on a dataset consisting of 489 ultrafast MRI studies obtained from 462 patients containing a total of 572 lesions (365 malignant, 207 benign) and achieved a detection rate, sensitivity, and detection rate of benign lesions of 0.90, 0.95, and 0.86 at 4 false positives per normal breast with a 10-fold cross-validation, respectively.Conclusions: The deep learning architecture used for the proposed CADe application can efficiently detect benign and malignant lesions on ultrafast DCE-MRI. Furthermore, utilizing the less visible hard-to detect-lesions in training improves the learning process and, subsequently, detection of malignant breast lesions. | 翻訳日:2021-02-11 04:30:02 公開日:2021-02-07 |
# (参考訳) 機能的最適輸送:機能的データに対するマッピング推定とドメイン適応 Functional Optimal Transport: Mapping Estimation and Domain Adaptation for Functional data ( http://arxiv.org/abs/2102.03895v1 ) ライセンス: CC BY 4.0 | Jiacheng Zhu, Aritra Guha, Mengdi Xu, Yingchen Ma, Rayleigh Lei, Vincenzo Loffredo, XuanLong Nguyen, Ding Zhao | (参考訳) 最適輸送(OT)は、ある分布から別の分布へ質量を輸送するマッピングを見つける能力によって、近年の関心を集めており、教師なし学習、ドメイン適応、移動学習といった機械学習タスクにおいて有用な役割を見出した。
一方、多くの応用において、データは高次元の関数、曲線、曲面の畳み込み空間を含む複雑なメカニズムによって生成される。
機能データ分析は、そのような領域に対する治療の有用なフレームワークを提供する。
本稿では,関数空間における最適輸送問題の新たな定式化と,関数領域間の確率写像を求める効率的な学習アルゴリズムを提案する。
本手法を合成データセットに適用し,輸送地図の幾何学的性質を検討する。
実世界におけるロボットアーム軌跡と数字のデータセット実験により,ドメイン適応と生成モデルの適用性について,本手法の有効性が示された。 Optimal transport (OT) has generated much recent interest by its capability of finding mappings that transport mass from one distribution to another, and found useful roles in machine learning tasks such as unsupervised learning, domain adaptation and transfer learning. On the other hand, in many applications data are generated by complex mechanisms involving convoluted spaces of functions, curves and surfaces in high dimensions. Functional data analysis provides a useful framework of treatment for such domains. In this paper we introduce a novel formulation of optimal transport problem in functional spaces and develop an efficient learning algorithm for finding the stochastic map between functional domains. We apply our method to synthetic datasets and study the geometric properties of the transport map. Experiments on real-world datasets of robot arm trajectories and digit numbers further demonstrate the effectiveness of our method on applications of domain adaptation and generative modeling. | 翻訳日:2021-02-11 02:04:53 公開日:2021-02-07 |
# (参考訳) 非線形メトリック学習のための次元自由一般化境界 Dimension Free Generalization Bounds for Non Linear Metric Learning ( http://arxiv.org/abs/2102.03802v1 ) ライセンス: CC BY 4.0 | Mark Kozdoba and Shie Mannor | (参考訳) 本研究では,データのニューラルネットワーク型埋め込みによってメトリックが誘導される計量学習問題に対する一般化保証について検討する。
具体的には、2つのレジーム - スパースレジーム、および \emph{bounded amplification} と呼ばれる非スパースレジームに対して一様一般化境界を与える。
スパース規則境界は、パラメータの$\ell_1$-typeノルムが小さい状況に対応する。
分類の状況と同様に、そのような境界を満たす解は問題の適切な正則化によって得られる。
一方、メトリック学習損失の非正規化SGD最適化は、典型的にはスパースソリューションを生成しません。
このような疎性の欠如にもかかわらず、解の異なる新しい性質を頼りにすることで、次元自由一般化保証を提供することが可能であることを示す。
したがって、これらの境界は非スパース実実験的状況における一般化を説明することができる。
mnistおよび20newsgroupsデータセット上での研究現象について述べる。 In this work we study generalization guarantees for the metric learning problem, where the metric is induced by a neural network type embedding of the data. Specifically, we provide uniform generalization bounds for two regimes -- the sparse regime, and a non-sparse regime which we term \emph{bounded amplification}. The sparse regime bounds correspond to situations where $\ell_1$-type norms of the parameters are small. Similarly to the situation in classification, solutions satisfying such bounds can be obtained by an appropriate regularization of the problem. On the other hand, unregularized SGD optimization of a metric learning loss typically does not produce sparse solutions. We show that despite this lack of sparsity, by relying on a different, new property of the solutions, it is still possible to provide dimension free generalization guarantees. Consequently, these bounds can explain generalization in non sparse real experimental situations. We illustrate the studied phenomena on the MNIST and 20newsgroups datasets. | 翻訳日:2021-02-11 01:48:44 公開日:2021-02-07 |
# フォトニックナノ構造の知識発見と知能逆設計のためのマニフォールド学習:幾何学的複雑さを破る Manifold Learning for Knowledge Discovery and Intelligent Inverse Design of Photonic Nanostructures: Breaking the Geometric Complexity ( http://arxiv.org/abs/2102.04454v1 ) ライセンス: Link先を確認 | Mohammadreza Zandehshahvar, Yashar Kiarashi, Muliang Zhu, Hossein Maleki, Tyler Brown, and Ali Adibi | (参考訳) 本稿では,フォトニックナノ構造における知識発見と逆設計のための多様体学習に基づく新しいアプローチを提案する。
提案手法は,よりインテリジェントな設計を導くためのデバイス操作の物理に関する貴重な知見を得るために,潜在空間における設計複雑さが異なるナノ構造のサブマニフォールドの応答を研究することに基づく。
本手法は, フォトニックナノ構造の逆設計法とは対照的に, 初期設計から最も単純な構造への進化を可能とし, 逆問題も解決できることが示唆された。 Here, we present a new approach based on manifold learning for knowledge discovery and inverse design with minimal complexity in photonic nanostructures. Our approach builds on studying sub-manifolds of responses of a class of nanostructures with different design complexities in the latent space to obtain valuable insight about the physics of device operation to guide a more intelligent design. In contrast to the current methods for inverse design of photonic nanostructures, which are limited to pre-selected and usually over-complex structures, we show that our method allows evolution from an initial design towards the simplest structure while solving the inverse problem. | 翻訳日:2021-02-10 14:52:34 公開日:2021-02-07 |
# (参考訳) プレイフィールドのティルティング:機械学習のための動的損失関数 Tilting the playing field: Dynamical loss functions for machine learning ( http://arxiv.org/abs/2102.03793v1 ) ライセンス: CC BY-SA 4.0 | Miguel Ruiz-Garcia, Ge Zhang, Samuel S. Schoenholz, Andrea J. Liu | (参考訳) 学習中に周期的に進化する損失関数を用いて1つのクラスを同時に強調することにより、学習を改善することができることを示す。
低パラメータネットワークでは、そのような動的損失関数は、標準のクロスエントロピー損失の深いミニマムを見つけることができないネットワークのトレーニングに成功する可能性がある。
過パラメータネットワークでは、動的損失関数はより良い一般化につながる可能性がある。
改善は、損失を最小限に抑えるために進化するシステムのダイナミクスと、変化する損失景観の相互作用から生じる。
特に、損失関数が振動するにつれて、不安定性は分岐カスケードの形で発達し、ヘッセンおよびニューラルタンジェントカーネルを用いて研究する。
風景の谷は拡大し、深くなり、サイクル中に失われた風景が変わるにつれて狭くなります。
風景が狭まるにつれて、学習率が大きくなり、ネットワークが不安定になり、谷の周りに跳ね返る。
この過程は最終的に系を損失ランドスケープのより深くより広い領域に押し込み、ヘッセンの固有値の減少を特徴とする。
これにより、正規化モデルが向上し、一般化性能が向上します。 We show that learning can be improved by using loss functions that evolve cyclically during training to emphasize one class at a time. In underparameterized networks, such dynamical loss functions can lead to successful training for networks that fail to find a deep minima of the standard cross-entropy loss. In overparameterized networks, dynamical loss functions can lead to better generalization. Improvement arises from the interplay of the changing loss landscape with the dynamics of the system as it evolves to minimize the loss. In particular, as the loss function oscillates, instabilities develop in the form of bifurcation cascades, which we study using the Hessian and Neural Tangent Kernel. Valleys in the landscape widen and deepen, and then narrow and rise as the loss landscape changes during a cycle. As the landscape narrows, the learning rate becomes too large and the network becomes unstable and bounces around the valley. This process ultimately pushes the system into deeper and wider regions of the loss landscape and is characterized by decreasing eigenvalues of the Hessian. This results in better regularized models with improved generalization performance. | 翻訳日:2021-02-10 14:34:03 公開日:2021-02-07 |
# (参考訳) モノリスアプリケーションをリファクタリングするためのグラフニューラルネットワーク Graph Neural Network to Dilute Outliers for Refactoring Monolith Application ( http://arxiv.org/abs/2102.03827v1 ) ライセンス: CC BY 4.0 | Utkarsh Desai, Sambaran Bandyopadhyay, Srikanth Tamilselvam | (参考訳) マイクロサービスはソフトウェアアーキテクチャのデファクトな設計選択になりつつある。
開発が独立して行えるように、ソフトウェアコンポーネントをより細かいモジュールに分割すること。
また、要求に応じてリソースを動的に必要なコンポーネントに割り当てることができるので、クラウドにデプロイする際の自然なメリットも提供する。
したがって、企業はクラウドへの移行の一環として、モノリスアプリケーションを1つまたは複数の候補マイクロサービスにリファクタリングしようとしています。各サービスには共通の機能を担うソフトウェアエンティティ(クラスなど)のグループが含まれています。
グラフはソフトウェアシステムを表現するための自然な選択です。
各ソフトウェアエンティティはノードとして表現でき、他のエンティティとの依存関係はリンクとして表現できる。
したがって、このリファクタリングの問題はグラフベースのクラスタリングタスクと見なすことができる。
本研究では,ソフトウェアをよりよく理解し,クラスタリングタスクに適用するために,コードコンテキストにおけるグラフニューラルネットワークの最近の進歩を適応するための新しい手法を提案する。
このプロセスでは、ソフトウェア内の最上位のリファクタリング候補に直接マッピング可能なグラフの外れ値も特定します。
我々のソリューションは、ソフトウェア工学と既存のグラフ表現に基づく技術の両方の成果と比較して、最先端のパフォーマンスを向上させることができる。 Microservices are becoming the defacto design choice for software architecture. It involves partitioning the software components into finer modules such that the development can happen independently. It also provides natural benefits when deployed on the cloud since resources can be allocated dynamically to necessary components based on demand. Therefore, enterprises as part of their journey to cloud, are increasingly looking to refactor their monolith application into one or more candidate microservices; wherein each service contains a group of software entities (e.g., classes) that are responsible for a common functionality. Graphs are a natural choice to represent a software system. Each software entity can be represented as nodes and its dependencies with other entities as links. Therefore, this problem of refactoring can be viewed as a graph based clustering task. In this work, we propose a novel method to adapt the recent advancements in graph neural networks in the context of code to better understand the software and apply them in the clustering task. In that process, we also identify the outliers in the graph which can be directly mapped to top refactor candidates in the software. Our solution is able to improve state-of-the-art performance compared to works from both software engineering and existing graph representation based techniques. | 翻訳日:2021-02-10 11:23:50 公開日:2021-02-07 |
# (参考訳) 単発cuboids:球面パノラマを用いた測地線に基づくエンドツーエンドマンハッタンアラインレイアウト推定 Single-Shot Cuboids: Geodesics-based End-to-end Manhattan Aligned Layout Estimation from Spherical Panoramas ( http://arxiv.org/abs/2102.03939v1 ) ライセンス: CC BY 4.0 | Nikolaos Zioulis, Federico Alvarez, Dimitrios Zarpalas, Petros Daras | (参考訳) レイアウト推定などのグローバルなシーン理解タスクは、広い視野、特に球面パノラマの恩恵を受けることができることが示されています。
近年、多くの進展が見られたが、以前のアプローチはすべて中間表現と後処理に依存してマンハッタンに整合した見積もりを生成する。
本稿では,全室レイアウトを単一ショットで推定する方法を示し,後処理の必要性を解消する。
私たちの仕事はマンハッタン整列アウトプットを直接推論する最初のものです。
これを達成するために、データ駆動モデルは直接座標回帰を利用して、エンドツーエンドで監視されます。
その結果、ホモグラフィに基づくマンハッタンアライメントモジュールに必要な条件を設定する擬似マンタン制約を明示的に追加することができる。
最後に,測地線ヒートマップと損失,球面領域における高品質キーポイント推定を容易にする質量計算の境界認識中心について紹介する。
私たちのモデルとコードはhttps://vcl3d.github.io/SingleShotCuboids/で公開されています。 It has been shown that global scene understanding tasks like layout estimation can benefit from wider field of views, and specifically spherical panoramas. While much progress has been made recently, all previous approaches rely on intermediate representations and postprocessing to produce Manhattan-aligned estimates. In this work we show how to estimate full room layouts in a single-shot, eliminating the need for postprocessing. Our work is the first to directly infer Manhattan-aligned outputs. To achieve this, our data-driven model exploits direct coordinate regression and is supervised end-to-end. As a result, we can explicitly add quasi-Manhattan constraints, which set the necessary conditions for a homography-based Manhattan alignment module. Finally, we introduce the geodesic heatmaps and loss and a boundary-aware center of mass calculation that facilitate higher quality keypoint estimation in the spherical domain. Our models and code are publicly available at https://vcl3d.github.io/SingleShotCuboids/. | 翻訳日:2021-02-10 10:41:33 公開日:2021-02-07 |
# (参考訳) ドメイン一般化のためのドメイン逆ニューラルネットワーク:それが機能する時と改善方法 Domain Adversarial Neural Networks for Domain Generalization: When It Works and How to Improve ( http://arxiv.org/abs/2102.03924v1 ) ライセンス: CC BY 4.0 | Anthony Sicilia, Xingchen Zhao, Seong Jae Hwang | (参考訳) 理論的には、ドメイン適応はよく研究された問題である。
さらに、この理論は実際よく使われている。
特に、Ben-Davidらによるターゲット誤差の上限について言及する。
(2010)と、Ganin and Lempitsky (2015) が提示したDomain Adversarial Neural Networks (DANN) を用いたこの研究に基づく有名なドメイン適応アルゴリズム。
近年,ドメイン一般化の問題に対して,DANNの複数の変種が提案されているが,本来のモチベーション境界についてはあまり議論されていない。
本稿では,ドメイン一般化におけるDANNの有効性について検討する。
DANNの応用が理にかなっている条件について検討し、DANNをトレーニング中の動的プロセスとみなす。
本研究は,ドメイン一般化へのDANNの適用が,見かけほど単純ではないことを示唆している。
そこで本研究では,ドメイン一般化におけるDANNのアルゴリズム拡張を設計する。
我々の実験は理論とアルゴリズムの両方を検証する。 Theoretically, domain adaptation is a well-researched problem. Further, this theory has been well-used in practice. In particular, we note the bound on target error given by Ben-David et al. (2010) and the well-known domain-aligning algorithm based on this work using Domain Adversarial Neural Networks (DANN) presented by Ganin and Lempitsky (2015). Recently, multiple variants of DANN have been proposed for the related problem of domain generalization, but without much discussion of the original motivating bound. In this paper, we investigate the validity of DANN in domain generalization from this perspective. We investigate conditions under which application of DANN makes sense and further consider DANN as a dynamic process during training. Our investigation suggests that the application of DANN to domain generalization may not be as straightforward as it seems. To address this, we design an algorithmic extension to DANN in the domain generalization case. Our experimentation validates both theory and algorithm. | 翻訳日:2021-02-10 10:21:48 公開日:2021-02-07 |
# (参考訳) 不十分な推論とMaxEntの原理の因果バージョン Causal version of Principle of Insufficient Reason and MaxEnt ( http://arxiv.org/abs/2102.03906v1 ) ライセンス: CC BY 4.0 | Dominik Janzing | (参考訳) 不十分な推論の原理(PIR)は、一方が他方よりも優先する理由がない場合に、ランダムな実験の選択肢ごとに等しい確率を割り当てる。
MaxEnt(Maximum Entropy)は、期待などの統計情報が与えられる場合にPIRを一般化します。
両方の原理が原因と効果の共同分布のパラドックス確率更新をもたらすことが知られている。
これは条件付き p( effect | cause) の制約によって p( because) が変化し、その効果により多くの選択肢を提供する原因の値に高い確率を割り当てるようになり、「意図的行動」が示唆されるからである。
初期の研究は、因果順に従って(条件付き)エントロピーを逐次最大化することを示唆していたが、おもちゃの具体例の妥当性とは別に、さらなる正当化は行わなかった。
私たちは、PIRとMaxEntの因果的な修正を、原因から効果を生み出すメカニズムの制約と制限に制約を分けることによって正当化します。
Causal PIRが「情報幾何因果推論」を含む理由をさらにスケッチします。
MaxEnt の因果バージョンを任意の因果 DAG に一般化する問題について簡単に説明します。 The Principle of insufficient Reason (PIR) assigns equal probabilities to each alternative of a random experiment whenever there is no reason to prefer one over the other. Maximum Entropy (MaxEnt) generalizes PIR to the case where statistical information like expectations are given. It is known that both principles result in paradox probability updates for joint distributions of cause and effect. This is because constraints on the conditional P(effect | cause) result in changes of P(cause) that assign higher probability to those values of the cause that offer more options for the effect, suggesting 'intentional behaviour'. Earlier work therefore suggested sequentially maximizing (conditional) entropy according to the causal order, but without further justification apart from plausibility for toy examples. We justify causal modifications of PIR and MaxEnt by separating constraints into restrictions for the cause and restrictions for the mechanism that generates the effect from the cause. We further sketch why Causal PIR also entails 'Information Geometric Causal Inference'. We briefly discuss problems of generalizing the causal version of MaxEnt to arbitrary causal DAGs. | 翻訳日:2021-02-10 08:30:58 公開日:2021-02-07 |
# (参考訳) PAC-Bayes Bounds for Meta- Learning with Data-Dependent Prior PAC-Bayes Bounds for Meta-learning with Data-Dependent Prior ( http://arxiv.org/abs/2102.03748v1 ) ライセンス: CC0 1.0 | Tianyu Liu, Jie Lu, Zheng Yan, Guangquan Zhang | (参考訳) 過去のタスクからの経験を活用することで、メタラーニングアルゴリズムは新しいタスクに遭遇したときに効果的な迅速な適応能力を達成できます。
しかし、一般化プロパティが新しいタスクにどのように適用されるかは不明である。
おそらくほぼ正しい(PAC)ベイズ境界理論はメタラーニングの一般化性能を分析する理論的枠組みを提供する。
PAC-Bayes相対エントロピー境界に基づくメタラーニングのための3つの新しい一般化誤差境界を導出する。
さらに,経験的リスク最小化(ERM)手法を用いて,データ依存型メタラーニングのためのPAC-Bayesバウンドを開発した。
実験では、メタラーニングのための3つのPAC-Bayes境界が競合的な一般化性能保証を保証し、データ依存の事前結合された拡張PAC-Bayesが迅速な収束能力を達成できることが示されている。 By leveraging experience from previous tasks, meta-learning algorithms can achieve effective fast adaptation ability when encountering new tasks. However it is unclear how the generalization property applies to new tasks. Probably approximately correct (PAC) Bayes bound theory provides a theoretical framework to analyze the generalization performance for meta-learning. We derive three novel generalisation error bounds for meta-learning based on PAC-Bayes relative entropy bound. Furthermore, using the empirical risk minimization (ERM) method, a PAC-Bayes bound for meta-learning with data-dependent prior is developed. Experiments illustrate that the proposed three PAC-Bayes bounds for meta-learning guarantee a competitive generalization performance guarantee, and the extended PAC-Bayes bound with data-dependent prior can achieve rapid convergence ability. | 翻訳日:2021-02-10 08:12:19 公開日:2021-02-07 |
# (参考訳) ディープqネットワークのための状態対応変分トンプソンサンプリング State-Aware Variational Thompson Sampling for Deep Q-Networks ( http://arxiv.org/abs/2102.03719v1 ) ライセンス: CC BY 4.0 | Siddharth Aravindan, Wee Sun Lee | (参考訳) thompson samplingは強化学習における探索と搾取のバランスをとるためのよく知られたアプローチである。
価値アクション関数の後方分布を維持する必要があるが、高次元のステートアクション空間を持つタスクでは一般的には役に立たない。
学習した変動雑音分布によってパラメータが摂動するディープネットワークを用いたDQNに対する変分トンプソンサンプリング近似を導出する。
提案手法は,本手法が導出する変分トンプソンサンプリング法の近似として,成功したNoisyNets法を解釈する。
さらに、パラメータの摂動の量がエージェントの状態によって調整されるような不均一な摂動を可能にすることにより、NoisyNetsの改善を目指すState Aware Noisy Exploration(SANE)を提案します。
これは、出力が状態に依存し、勾配降下で終わりから終わりまで学習される補助摂動モジュールの助けを借りて行われる。
このような状態認識型のノイズ探索は、特定の \textit{high risk}状態における探索がエージェントの失敗に繋がる可能性のある問題において特に有用であると仮定する。
補助摂動モジュールを用いたDQNの増強により、オフポリシ設定における状態認識探索法の有効性を実証する。 Thompson sampling is a well-known approach for balancing exploration and exploitation in reinforcement learning. It requires the posterior distribution of value-action functions to be maintained; this is generally intractable for tasks that have a high dimensional state-action space. We derive a variational Thompson sampling approximation for DQNs which uses a deep network whose parameters are perturbed by a learned variational noise distribution. We interpret the successful NoisyNets method \cite{fortunato2018noisy} as an approximation to the variational Thompson sampling method that we derive. Further, we propose State Aware Noisy Exploration (SANE) which seeks to improve on NoisyNets by allowing a non-uniform perturbation, where the amount of parameter perturbation is conditioned on the state of the agent. This is done with the help of an auxiliary perturbation module, whose output is state dependent and is learnt end to end with gradient descent. We hypothesize that such state-aware noisy exploration is particularly useful in problems where exploration in certain \textit{high risk} states may result in the agent failing badly. We demonstrate the effectiveness of the state-aware exploration method in the off-policy setting by augmenting DQNs with the auxiliary perturbation module. | 翻訳日:2021-02-10 06:16:02 公開日:2021-02-07 |
# (参考訳) 神経終末解析 Neural Termination Analysis ( http://arxiv.org/abs/2102.03824v1 ) ライセンス: CC BY 4.0 | Mirco Giacobbe, Daniel Kroening, Julian Parsert | (参考訳) 我々はニューラルネットワークをトレーニングしてランキング関数として機能させるという,コンピュータプログラムの自動終端解析に新たなアプローチを導入する。
ランク付け関数は、プログラムが実行するときに下からバウンドされ減少する値にプログラムをマップする。
有効なランキング関数の存在は、プログラムが終了することを証明する。
過去のランキング関数は通常静的解析を用いて構築されているが,本手法はサンプル実行から学習する。
ニューラルネットワークをトレーニングして、ランキング機能として実行トレースに沿って出力が減少するようにします。次に、すべての実行に一般化するかどうかを形式的な推論で検証します。
辞書ランキング関数を学習し、満足度変調理論を用いて検証するカスタム損失関数を提案する。
ニューラルネットワークをうまく一般化する能力のおかげで、我々の手法は様々なプログラムで成功している。
これには標準ライブラリのデータ構造を使用するプログラムが含まれる。
Javaバイトコード用のプロトタイプアナライザを構築し、ベンチマークの標準データセットに対するメソッドの有効性を示した。 We introduce a novel approach to the automated termination analysis of computer programs: we train neural networks to act as ranking functions. Ranking functions map program states to values that are bounded from below and decrease as the program runs. The existence of a valid ranking function proves that the program terminates. While in the past ranking functions were usually constructed using static analysis, our method learns them from sampled executions. We train a neural network so that its output decreases along execution traces as a ranking function would; then, we use formal reasoning to verify whether it generalises to all possible executions. We present a custom loss function for learning lexicographic ranking functions and use satisfiability modulo theories for verification. Thanks to the ability of neural networks to generalise well, our method succeeds over a wide variety of programs. This includes programs that use data structures from standard libraries. We built a prototype analyser for Java bytecode and show the efficacy of our method over a standard dataset of benchmarks. | 翻訳日:2021-02-10 03:07:55 公開日:2021-02-07 |
# (参考訳) プライベートサポートベクトルマシンのロバスト説明 Robust Explanations for Private Support Vector Machines ( http://arxiv.org/abs/2102.03785v1 ) ライセンス: CC BY 4.0 | Rami Mochaourab and Sugandh Sinha and Stanley Greenstein and Panagiotis Papapetrou | (参考訳) 我々は、分類器を公開するプライバシ機構が差分プライバシーを保証するプライベートサポートベクターマシン(svm)の反事実説明を検討する。
機密データを扱う場合、プライバシー保護は不可欠であるが、分類器重みに導入された摂動によって分類精度が低下する。
このような分類器では、説明すべきデータインスタンスの分類が、その説明と異なることを確実にするために、SVM重みの不確実性に対して反実的説明が堅牢である必要がある。
確率ベクトルによるSVM重みの不確実性をモデル化し、確率的制約による最適化問題として説明問題を定式化する。
続いて,問題の決定論的等価性を特徴付け,その解を考察する。
線形SVMの場合、問題は凸2次コーンプログラムである。
非線形SVMの場合、問題は非凸である。
そこで本研究ではbisection法に基づくサブ最適解を提案する。
以上の結果から,ロバストでない説明とは対照的に,ロバストなソリューションによる説明の質は,適切な分類の信頼度を保証するために,プライバシーの増大とともに低下することがわかった。 We consider counterfactual explanations for private support vector machines (SVM), where the privacy mechanism that publicly releases the classifier guarantees differential privacy. While privacy preservation is essential when dealing with sensitive data, there is a consequent degradation in the classification accuracy due to the introduced perturbations in the classifier weights. For such classifiers, counterfactual explanations need to be robust against the uncertainties in the SVM weights in order to ensure, with high confidence, that the classification of the data instance to be explained is different than its explanation. We model the uncertainties in the SVM weights through a random vector, and formulate the explanation problem as an optimization problem with probabilistic constraint. Subsequently, we characterize the problem's deterministic equivalent and study its solution. For linear SVMs, the problem is a convex second-order cone program. For non-linear SVMs, the problem is non-convex. Thus, we propose a sub-optimal solution that is based on the bisection method. The results show that, contrary to non-robust explanations, the quality of explanations from the robust solution degrades with increasing privacy in order to guarantee a prespecified confidence level for correct classifications. | 翻訳日:2021-02-10 02:54:58 公開日:2021-02-07 |
# (参考訳) 生成型adversarial netsによるブラックボックス最適化 Black-Box Optimization via Generative Adversarial Nets ( http://arxiv.org/abs/2102.03888v1 ) ライセンス: CC BY 4.0 | Minfang Lu, Fengyang Sun, Lin Wang, Bo Yang, Shuangrong Liu | (参考訳) ブラックボックス最適化(BBO)アルゴリズムは、解析的詳細を欠く問題に対する最良の解を見つけることを目的としている。
そのような問題のほとんどの古典的方法は、ガウス分布のような強かつ固定な \emph{a priori} 仮定に基づいている。
しかし、多くの複雑な実世界の問題は \emph{a priori} 分布から遠く離れており、これらの方法に予期せぬ障害をもたらす。
本稿では,オプティマ分布を推定することで,ブラックボックス問題の探索を導くために,生成逆ネット(opt-gan)を用いた最適化手法を提案する。
この方法は選択候補が支配する最適領域の広範な分布を学習する。
実験により、OPT-GANは他の古典的BBOアルゴリズム、特にガウス的仮定のアルゴリズムよりも優れていることが示された。 Black-box optimization (BBO) algorithms are concerned with finding the best solutions for the problems with missing analytical details. Most classical methods for such problems are based on strong and fixed \emph{a priori} assumptions such as Gaussian distribution. However, lots of complex real-world problems are far from the \emph{a priori} distribution, bringing some unexpected obstacles to these methods. In this paper, we present an optimizer using generative adversarial nets (OPT-GAN) to guide search on black-box problems via estimating the distribution of optima. The method learns the extensive distribution of the optimal region dominated by selective candidates. Experiments demonstrate that OPT-GAN outperforms other classical BBO algorithms, in particular the ones with Gaussian assumptions. | 翻訳日:2021-02-09 23:14:05 公開日:2021-02-07 |
# (参考訳) 畳み込みニューラルネットワークエンコーダデコーダモデルを用いたX線光子相関分光法のノイズ低減 Noise Reduction in X-ray Photon Correlation Spectroscopy with Convolutional Neural Networks Encoder-Decoder Models ( http://arxiv.org/abs/2102.03877v1 ) ライセンス: CC BY 4.0 | Tatiana Konstantinova, Lutz Wiegart, Maksim Rakitin, Anthony M. DeGennaro, Andi M. Barbour | (参考訳) 他の実験手法と同様に、x線光子相関分光法は様々なノイズの対象となる。
ランダムおよび相関ゆらぎと不均一性は2時間相関関数に存在し、サンプルの固有力学に関する情報を曖昧にすることができる。
実験データのノイズの異なる起源を同時に解決することは困難です。
畳み込みニューラルネットワークエンコーダデコーダ(CNN-ED)モデルに基づく2時間相関関数の信号対雑音比向上のための計算手法を提案する。
このようなモデルは畳み込み層を介して画像から特徴を抽出し、低次元空間に投影し、変換された畳み込み層を介してこの縮小表現からクリーンイメージを再構築する。
EDモデルがランダムノイズ除去の一般的なツールであるだけでなく、低信号対雑音データへの適用は、信号の機能形態を学ぶことができるため、データの定量的使用率を高めることができる。
実世界の実験データに基づいて訓練されたcnn-edモデルは,統計ノイズと動的不均一性を含む2時間相関関数から平衡ダイナミクスパラメータを効果的に抽出するのに役立つ。
モデルのパフォーマンスと適用可能性の限界を最適化するための戦略を議論する。 Like other experimental techniques, X-ray Photon Correlation Spectroscopy is a subject to various kinds of noise. Random and correlated fluctuations and heterogeneities can be present in a two-time correlation function and obscure the information about the intrinsic dynamics of a sample. Simultaneously addressing the disparate origins of noise in the experimental data is challenging. We propose a computational approach for improving the signal-to-noise ratio in two-time correlation functions that is based on Convolutional Neural Network Encoder-Decoder (CNN-ED) models. Such models extract features from an image via convolutional layers, project them to a low dimensional space and then reconstruct a clean image from this reduced representation via transposed convolutional layers. Not only are ED models a general tool for random noise removal, but their application to low signal-to-noise data can enhance the data quantitative usage since they are able to learn the functional form of the signal. We demonstrate that the CNN-ED models trained on real-world experimental data help to effectively extract equilibrium dynamics parameters from two-time correlation functions, containing statistical noise and dynamic heterogeneities. Strategies for optimizing the models performance and their applicability limits are discussed. | 翻訳日:2021-02-09 23:02:09 公開日:2021-02-07 |
# (参考訳) 深層学習のための適応最適化器を誘起する構造化スパーシティ Structured Sparsity Inducing Adaptive Optimizers for Deep Learning ( http://arxiv.org/abs/2102.03869v1 ) ライセンス: CC BY 4.0 | Tristan Deleu, Yoshua Bengio | (参考訳) ニューラルネットワークのパラメータは自然にグループ化され、その一部は全体的なパフォーマンスに寄与しないかもしれない。
パラメータの重要でないグループを排除するために、目的関数に非微分性のペナルティを含み、近位勾配法を用いて最小化することができる。
本稿では,これら近位法の必要成分である重み付き近位演算子を2つの構造的間隔で導出し,罰則を導出する。
さらに, 数値解法を用いて効率よく近似することが可能であり, この近似にも拘わらず, これらの演算子を一般適応近似法の一部として統合した場合, 既存の収束保証が保存されることを示す。
最後に, この適応法は, 重み付き近位作用素とともに, コンピュータビジョンや自然言語処理の代表的な例として, スパーシティパターンの構造を持つ解を見つけることができることを示す。 The parameters of a neural network are naturally organized in groups, some of which might not contribute to its overall performance. To prune out unimportant groups of parameters, we can include some non-differentiable penalty to the objective function, and minimize it using proximal gradient methods. In this paper, we derive the weighted proximal operator, which is a necessary component of these proximal methods, of two structured sparsity inducing penalties. Moreover, they can be approximated efficiently with a numerical solver, and despite this approximation, we prove that existing convergence guarantees are preserved when these operators are integrated as part of a generic adaptive proximal method. Finally, we show that this adaptive method, together with the weighted proximal operators derived here, is indeed capable of finding solutions with structure in their sparsity patterns, on representative examples from computer vision and natural language processing. | 翻訳日:2021-02-09 22:51:54 公開日:2021-02-07 |
# (参考訳) トポロジカルデータ分析に基づく分類 Classification based on Topological Data Analysis ( http://arxiv.org/abs/2102.03709v1 ) ライセンス: CC BY 4.0 | Rolando Kindelan and Jos\'e Fr\'ias and Mauricio Cerda and Nancy Hitschfeld | (参考訳) トポロジカルデータ分析(TDA)は、データセットに隠されたトポロジカル情報を発見することを目的とした緊急フィールドです。
TDAツールは、機械学習(ML)メソッドを改善するためのフィルタとトポロジカルディスクリプタを作成するために一般的に使用されています。
本論文では,マルチクラス分類問題や不均衡データセットに直接TDAを適用するアルゴリズムを提案する。
提案するアルゴリズムは、データセット上にフィルタされた単純化複合体を構築した。
永続ホモロジーは、ラベルのない点がラベル付き隣接点から最も票の多いラベルを得る部分複合体を選択するガイドに適用される。
提案手法を評価するために, クラス絡み合いの度合い, クラス毎のサンプルの変動性, 次元の8つのデータセットを選定した。
提案手法は平均して,各計算値,特に絡み合ったクラスとマイノリティクラスにおいて,ベースライン分類器(wk-NNとk-NN)を克服する。 Topological Data Analysis (TDA) is an emergent field that aims to discover topological information hidden in a dataset. TDA tools have been commonly used to create filters and topological descriptors to improve Machine Learning (ML) methods. This paper proposes an algorithm that applies TDA directly to multi-class classification problems, even imbalanced datasets, without any further ML stage. The proposed algorithm built a filtered simplicial complex on the dataset. Persistent homology is then applied to guide choosing a sub-complex where unlabeled points obtain the label with most votes from labeled neighboring points. To assess the proposed method, 8 datasets were selected with several degrees of class entanglement, variability on the samples per class, and dimensionality. On average, the proposed TDABC method was capable of overcoming baseline classifiers (wk-NN and k-NN) in each of the computed metrics, especially on classifying entangled and minority classes. | 翻訳日:2021-02-09 22:10:25 公開日:2021-02-07 |
# (参考訳) 対比イメージングパイプライン Adversarial Imaging Pipelines ( http://arxiv.org/abs/2102.03728v1 ) ライセンス: CC BY 4.0 | Buu Phan, Fahim Mannan, Felix Heide | (参考訳) 敵対的攻撃は、ディープニューラルネットワークの予測を理解し、その堅牢性を改善する上で重要な役割を果たす。
既存の攻撃方法は、分類器に直接供給されるRGB画像を操作することによって、畳み込みニューラルネットワーク(CNN)ベースの分類器を欺くことを目指している。
しかし、これらのアプローチは通常、ネットワーク入力を生成するカメラ光学および画像処理パイプライン(ISP)の影響を無視します。
ISPはRAW測定をRGB画像に変換し、伝統的に敵のパターンを保存することが想定されている。
しかし、これらの低レベルのパイプラインは、実際に下流の検出器を欺きかねない敵のパターンを破壊、導入、または増幅することができる。
その結果、特定のカメラISPや光学装置に変換された後に、最適化されたパターンが分類器の敵になる可能性があるが、他ではそうではない。
本研究では、同一のダウンストリーム分類器を用いて、特定のカメラISPを欺くような攻撃を他人を無傷にしながら検討・開発する。
カメラ固有の攻撃を、isp自体の微分可能な近似に依存するマルチタスク最適化問題として捉える。
提案手法を最近の自動車用ハードウェアISPを用いて検証し,特定のISPを攻撃した場合に,92%の騙し率を達成した。
我々は、特定のカメラレンズに対して90%の騙し率で物理的光学攻撃を示す。 Adversarial attacks play an essential role in understanding deep neural network predictions and improving their robustness. Existing attack methods aim to deceive convolutional neural network (CNN)-based classifiers by manipulating RGB images that are fed directly to the classifiers. However, these approaches typically neglect the influence of the camera optics and image processing pipeline (ISP) that produce the network inputs. ISPs transform RAW measurements to RGB images and traditionally are assumed to preserve adversarial patterns. However, these low-level pipelines can, in fact, destroy, introduce or amplify adversarial patterns that can deceive a downstream detector. As a result, optimized patterns can become adversarial for the classifier after being transformed by a certain camera ISP and optic but not for others. In this work, we examine and develop such an attack that deceives a specific camera ISP while leaving others intact, using the same down-stream classifier. We frame camera-specific attacks as a multi-task optimization problem, relying on a differentiable approximation for the ISP itself. We validate the proposed method using recent state-of-the-art automotive hardware ISPs, achieving 92% fooling rate when attacking a specific ISP. We demonstrate physical optics attacks with 90% fooling rate for a specific camera lenses. | 翻訳日:2021-02-09 20:19:47 公開日:2021-02-07 |
# (参考訳) モデル強化Q-ラーニング Model-Augmented Q-learning ( http://arxiv.org/abs/2102.03866v1 ) ライセンス: CC BY 4.0 | Youngmin Oh, Jinwoo Shin, Eunho Yang, Sung Ju Hwang | (参考訳) 近年,モデルフリー強化学習(MFRL)にはQ$-learningが不可欠である。
しかし、それは、政策学習に悪影響を及ぼす可能性のある値の過小評価バイアスなどのよく知られた問題に苦しんでいます。
そこで本研究では,モデルベースRLのコンポーネントを付加したMFRLフレームワークを提案する。
具体的には、$Q$値だけでなく、共有ネットワークでのトランジションと報酬の両方を推定することを提案する。
さらに,モデル推定者からの推定報酬を$q$学習に活用し,推定者間のインタラクションを促進する。
提案されたスキームはモデル拡張$Q$-ラーニング(MQL)と呼ばれ、真の報酬で学習することによって得られるソリューションと同一のポリシー不変のソリューションを得る。
最後に,モデル推定誤差を利用して,リプレイバッファにおける過去の経験を優先するトリックも提供する。
我々は、最先端のオフポリティクスMFRL法に基づいて構築されたMQLを実験的に検証し、MQLが性能と収束性を大幅に改善することを示す。
提案方式は実装が簡単で,追加のトレーニングコストを必要としない。 In recent years, $Q$-learning has become indispensable for model-free reinforcement learning (MFRL). However, it suffers from well-known problems such as under- and overestimation bias of the value, which may adversely affect the policy learning. To resolve this issue, we propose a MFRL framework that is augmented with the components of model-based RL. Specifically, we propose to estimate not only the $Q$-values but also both the transition and the reward with a shared network. We further utilize the estimated reward from the model estimators for $Q$-learning, which promotes interaction between the estimators. We show that the proposed scheme, called Model-augmented $Q$-learning (MQL), obtains a policy-invariant solution which is identical to the solution obtained by learning with true reward. Finally, we also provide a trick to prioritize past experiences in the replay buffer by utilizing model-estimation errors. We experimentally validate MQL built upon state-of-the-art off-policy MFRL methods, and show that MQL largely improves their performance and convergence. The proposed scheme is simple to implement and does not require additional training cost. | 翻訳日:2021-02-09 18:29:54 公開日:2021-02-07 |
# (参考訳) 動的オプティミズムを用いた深層強化学習 Deep Reinforcement Learning with Dynamic Optimism ( http://arxiv.org/abs/2102.03765v1 ) ライセンス: CC BY 4.0 | Ted Moskovitz, Jack Parker-Holder, Aldo Pacchiano, Michael Arbel | (参考訳) 近年,連続制御のための強化学習において,深部オフポリシーのアクタ-クリティックアルゴリズムが主流となっている。
これは、関数近似エラーに対処するための一連のブレークスルーの後に発生し、以前はパフォーマンスが悪くなりました。
これらの洞察は悲観的な価値更新の使用を促進する。
しかし、これは探検を妨げ、不確実性に直面した楽観主義の有効性に対する理論的支持に逆らう。
どのアプローチが最善か?
本研究では,最適な楽観性の度合いが,課題や学習過程によって異なることを示す。
この洞察に触発され、我々は、マルチアームバンディット問題として選択を定式化することによって、オンライン楽観的および悲観的価値学習を切り替える新しいディープアクタークリティカルアルゴリズム、ダイナミックオプティミティと悲観的推定(DOPE)を導入しました。
DOPEは、一定の楽観性に依存する既存の最先端の方法よりも優れている一連の挑戦的な連続制御タスクを示します。
私たちの変更は実装が簡単なため、これらの洞察は多くのオフポリシーアルゴリズムに拡張できると考えています。 In recent years, deep off-policy actor-critic algorithms have become a dominant approach to reinforcement learning for continuous control. This comes after a series of breakthroughs to address function approximation errors, which previously led to poor performance. These insights encourage the use of pessimistic value updates. However, this discourages exploration and runs counter to theoretical support for the efficacy of optimism in the face of uncertainty. So which approach is best? In this work, we show that the optimal degree of optimism can vary both across tasks and over the course of learning. Inspired by this insight, we introduce a novel deep actor-critic algorithm, Dynamic Optimistic and Pessimistic Estimation (DOPE) to switch between optimistic and pessimistic value learning online by formulating the selection as a multi-arm bandit problem. We show in a series of challenging continuous control tasks that DOPE outperforms existing state-of-the-art methods, which rely on a fixed degree of optimism. Since our changes are simple to implement, we believe these insights can be extended to a number of off-policy algorithms. | 翻訳日:2021-02-09 18:08:23 公開日:2021-02-07 |
# (参考訳) 強化学習におけるフレームスキップの解析 An Analysis of Frame-skipping in Reinforcement Learning ( http://arxiv.org/abs/2102.03718v1 ) ライセンス: CC BY 4.0 | Shivaram Kalyanakrishnan, Siddharth Aravindan, Vishwajeet Bagdawat, Varun Bhatt, Harshith Goka, Archit Gupta, Kalpesh Krishna, Vihari Piratla | (参考訳) 連続的な意思決定の実践では、エージェントはしばしば$d$時間ステップ、$d > 1$の定期的な間隔で状態を感知するように設計され、感知ステップの間の状態情報を無視します。
このプラクティスがセンシングと計算コストを削減できることは明らかですが、最近の結果はさらなるメリットを示しています。
多くのatariコンソールゲームでは、強化学習(rl)アルゴリズムは、$d > 1$で実行した場合、大幅に優れたポリシーを提供する。
本稿では,rlにおけるパラメータ $d$ の役割について検討する。$d$ は atari ドメインの状態がイメージであるため,"frame-skip" パラメータと呼ばれる。
固定ポリシーの評価には,標準条件下ではフレームスキッピングは漸近的一貫性に影響を与えない。
他のパラメータによっては、学習の恩恵を受けることさえできます。
制御設定で$d > 1$を使用するには、最初に、どの$d$-step open-loopアクションシーケンスをセンシングステップ間で実行できるかを指定する必要がある。
我々は、この選択を同じアクションの$d$-lengthシーケンスに共通の制限である"action-repetition"に焦点を当てている。
我々は「慣性値」と呼ばれるタスク依存量を定義し、行動反復によって生じる損失を上向きに定義する。
この損失は、より小さなタスクの地平線によって学習にもたらされる利得によって相殺される可能性がある。
我々の分析は、様々なタスクや学習アルゴリズムの実験によって支えられている。 In the practice of sequential decision making, agents are often designed to sense state at regular intervals of $d$ time steps, $d > 1$, ignoring state information in between sensing steps. While it is clear that this practice can reduce sensing and compute costs, recent results indicate a further benefit. On many Atari console games, reinforcement learning (RL) algorithms deliver substantially better policies when run with $d > 1$ -- in fact with $d$ even as high as $180$. In this paper, we investigate the role of the parameter $d$ in RL; $d$ is called the "frame-skip" parameter, since states in the Atari domain are images. For evaluating a fixed policy, we observe that under standard conditions, frame-skipping does not affect asymptotic consistency. Depending on other parameters, it can possibly even benefit learning. To use $d > 1$ in the control setting, one must first specify which $d$-step open-loop action sequences can be executed in between sensing steps. We focus on "action-repetition", the common restriction of this choice to $d$-length sequences of the same action. We define a task-dependent quantity called the "price of inertia", in terms of which we upper-bound the loss incurred by action-repetition. We show that this loss may be offset by the gain brought to learning by a smaller task horizon. Our analysis is supported by experiments on different tasks and learning algorithms. | 翻訳日:2021-02-09 17:46:23 公開日:2021-02-07 |
# SeReNe: ニューラルネットワークにおける構造空間に対するニューロンの正則化 SeReNe: Sensitivity based Regularization of Neurons for Structured Sparsity in Neural Networks ( http://arxiv.org/abs/2102.03773v1 ) ライセンス: Link先を確認 | Enzo Tartaglione, Andrea Bragagnolo, Francesco Odierna, Attilio Fiandrotti, Marco Grangetto | (参考訳) 深層ニューラルネットワークには数百万の学習可能なパラメータが含まれているため、リソースに制約のあるデバイスへのデプロイが問題になる。
SeReNe(Sensitivity-based regularization of Neurons)は、神経の感度を正規化として利用し、構造を持つスパーストポロジを学習する手法である。
我々はニューロンの感度をニューロンの活動の変動に関するネットワーク出力の変動として定義する。
ニューロンの感度が低いほど、ニューロンの出力が変化すると、ネットワーク出力が摂動される。
ニューロンの感度を正規化項としてコスト関数に含めることで、感度の低いニューロンをプルートすることができる。
ニューロン全体が刈り取られるので、単一のパラメータでネットワークのフットプリントを削減できる。
複数のネットワークアーキテクチャとデータセットに対する実験結果から,最先端参照に対する競合圧縮比が得られた。 Deep neural networks include millions of learnable parameters, making their deployment over resource-constrained devices problematic. SeReNe (Sensitivity-based Regularization of Neurons) is a method for learning sparse topologies with a structure, exploiting neural sensitivity as a regularizer. We define the sensitivity of a neuron as the variation of the network output with respect to the variation of the activity of the neuron. The lower the sensitivity of a neuron, the less the network output is perturbed if the neuron output changes. By including the neuron sensitivity in the cost function as a regularization term, we areable to prune neurons with low sensitivity. As entire neurons are pruned rather then single parameters, practical network footprint reduction becomes possible. Our experimental results on multiple network architectures and datasets yield competitive compression ratios with respect to state-of-the-art references. | 翻訳日:2021-02-09 16:13:25 公開日:2021-02-07 |
# SPADE : Black-Box Adversarial Robustness 評価のためのスペクトル法 SPADE: A Spectral Method for Black-Box Adversarial Robustness Evaluation ( http://arxiv.org/abs/2102.03716v1 ) ライセンス: Link先を確認 | Wuxinlin Cheng, Chenhui Deng, Zhiqiang Zhao, Yaohui Cai, Zhiru Zhang, Zhuo Feng | (参考訳) 所定の機械学習(ML)モデルの逆ロバスト性を評価するためのブラックボックススペクトル法を提案する。
提案手法は,入出力データに対応する多様体を近似するために構築した入出力グラフ間の単射距離マッピングを利用する。
一般化 Courant-Fischer の定理を利用して、与えられたモデルの逆ロバスト性を評価するためのSPADEスコアを提案し、これは多様体設定の下での最良のリプシッツ定数の上界であることが証明される。
逆行攻撃に非常に弱い最も非ロバストなデータサンプルを明らかにするために,支配的一般化固有ベクトルを用いたスペクトルグラフ埋め込み手法を開発した。
この埋め込みステップにより、各データサンプルに堅牢性スコアを割り当てることができ、より効果的な敵対的トレーニングにさらに活用できます。
提案手法は,mnistとcifar-10のデータセットを相反的に学習したニューラルネットワークモデルに対して有望な実験結果をもたらすことを示す。 A black-box spectral method is introduced for evaluating the adversarial robustness of a given machine learning (ML) model. Our approach, named SPADE, exploits bijective distance mapping between the input/output graphs constructed for approximating the manifolds corresponding to the input/output data. By leveraging the generalized Courant-Fischer theorem, we propose a SPADE score for evaluating the adversarial robustness of a given model, which is proved to be an upper bound of the best Lipschitz constant under the manifold setting. To reveal the most non-robust data samples highly vulnerable to adversarial attacks, we develop a spectral graph embedding procedure leveraging dominant generalized eigenvectors. This embedding step allows assigning each data sample a robustness score that can be further harnessed for more effective adversarial training. Our experiments show the proposed SPADE method leads to promising empirical results for neural network models adversarially trained with the MNIST and CIFAR-10 data sets. | 翻訳日:2021-02-09 16:11:48 公開日:2021-02-07 |
# MIN2Net: 主観非依存運動画像脳波分類のためのエンドツーエンドマルチタスク学習 MIN2Net: End-to-End Multi-Task Learning for Subject-Independent Motor Imagery EEG Classification ( http://arxiv.org/abs/2102.03814v1 ) ライセンス: Link先を確認 | Phairot Autthasan, Rattanaphon Chaisaen, Thapanun Sudhawiyangkul, Phurin Rangpong, Suktipol Kiatthaveephong, Nat Dilokthanakul, Gun Bhakdisongkhram, Huy Phan, Cuntai Guan and Theerawit Wilaiprasitporn | (参考訳) 運動画像(MI)ベースの脳-コンピュータインタフェース(BCI)の進歩は、神経生理学的現象をデコードすることでいくつかの応用を制御し、通常は非侵襲的手法を用いて脳波(EEG)によって記録される。
MIベースのBCIの大幅な進歩にもかかわらず、脳波のリズムは主題に特有であり、時間とともに様々な変化が生じる。
これらの問題は、特に主題に依存しない方法で分類性能を向上させるための重要な課題を示している。
これらの課題を克服するために,この課題に対処するための新しいエンドツーエンドマルチタスク学習であるMIN2Netを提案する。
ディープメトリック学習をマルチタスクオートエンコーダに統合し,脳波からコンパクトかつ識別可能な潜在表現を学習し,同時に分類を行う。
このアプローチにより、前処理の複雑さが減少し、EEG分類のパフォーマンスが大幅に向上します。
被験者に依存しない方法での実験結果は、MIN2Netが最新技術を上回ることを示し、それぞれBCIコンペティションIV 2a、SMR-BCI、OpenBMIデータセットで11.65%、1.03%、および10.53%の精度向上を達成した。
MIN2Netが潜在表現における識別情報を改善することを実証する。
本研究は, キャリブレーションを必要とせず, 新規ユーザ向けにMIベースのBCIアプリケーションを開発できる可能性と実用性を示す。 Advances in the motor imagery (MI)-based brain-computer interfaces (BCIs) allow control of several applications by decoding neurophysiological phenomena, which are usually recorded by electroencephalography (EEG) using a non-invasive technique. Despite great advances in MI-based BCI, EEG rhythms are specific to a subject and various changes over time. These issues point to significant challenges to enhance the classification performance, especially in a subject-independent manner. To overcome these challenges, we propose MIN2Net, a novel end-to-end multi-task learning to tackle this task. We integrate deep metric learning into a multi-task autoencoder to learn a compact and discriminative latent representation from EEG and perform classification simultaneously. This approach reduces the complexity in pre-processing, results in significant performance improvement on EEG classification. Experimental results in a subject-independent manner show that MIN2Net outperforms the state-of-the-art techniques, achieving an accuracy improvement of 11.65%, 1.03%, and 10.53% on the BCI competition IV 2a, SMR-BCI, and OpenBMI datasets, respectively. We demonstrate that MIN2Net improves discriminative information in the latent representation. This study indicates the possibility and practicality of using this model to develop MI-based BCI applications for new users without the need for calibration. | 翻訳日:2021-02-09 16:11:31 公開日:2021-02-07 |
# 強化学習による分離結合畳み込みニューラルネットワーク分類器 Sparsely ensembled convolutional neural network classifiers via reinforcement learning ( http://arxiv.org/abs/2102.03921v1 ) ライセンス: Link先を確認 | Roman Malashin ((1) Pavlov institute of Physiology RAS, (2) State University of Aerospace Instrumentation, Saint-Petersburg, Russia) | (参考訳) 本稿では,最小行動原理に触発された目的関数を用いた畳み込みニューラルネットワーク(cnn)アンサンブル学習について検討する。
エージェントに事前学習された分類器のセットを通してイメージを知覚させ、得られた動的に構成されたシステムが計算グラフを最小の演算数と最大期待精度を示す軌道で展開するように指示する。
提案するエージェントのアーキテクチャは強化学習の助けを借りて,必要な分類器選択関数を暗黙的に近似する。
実験の結果,エージェントが動的(かつ文脈に依存した)計算構造を利用する場合,従来のアンサンブル学習よりも優れることがわかった。 We consider convolutional neural network (CNN) ensemble learning with the objective function inspired by least action principle; it includes resource consumption component. We teach an agent to perceive images through the set of pre-trained classifiers and want the resulting dynamically configured system to unfold the computational graph with the trajectory that refers to the minimal number of operations and maximal expected accuracy. The proposed agent's architecture implicitly approximates the required classifier selection function with the help of reinforcement learning. Our experimental results prove, that if the agent exploits the dynamic (and context-dependent) structure of computations, it outperforms conventional ensemble learning. | 翻訳日:2021-02-09 16:11:06 公開日:2021-02-07 |
# CSS-LM:事前訓練言語モデルの半教師付き微調整のためのコントラストフレームワーク CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models ( http://arxiv.org/abs/2102.03752v1 ) ライセンス: Link先を確認 | Yusheng Su, Xu Han, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Peng Li, Maosong Sun | (参考訳) 微調整プリトレーニング言語モデル(PLM)は、最近、さまざまな下流のNLPタスクでその効果を実証しています。
しかし、多くの低リソースシナリオでは、従来の微調整戦略は下流タスクの重要な意味的特徴を十分に捉えられない。
そこで本研究では, 対照的半教師学習によるPLMの微調整を改善すべく, 新たなフレームワーク (CSS-LM) を提案する。
具体的には、特定のタスクが与えられた場合、そのタスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて、大規模未ラベルコーパスから正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
実験結果から,CSS-LMは一連の下流タスクにおいて,従来の微調整戦略よりも優れた結果が得られ,最新の教師付きコントラスト微調整戦略よりも優れていた。
データセットとソースコードは、詳細を提供するために公開されます。 Fine-tuning pre-trained language models (PLMs) has demonstrated its effectiveness on various downstream NLP tasks recently. However, in many low-resource scenarios, the conventional fine-tuning strategies cannot sufficiently capture the important semantic features for downstream tasks. To address this issue, we introduce a novel framework (named "CSS-LM") to improve the fine-tuning phase of PLMs via contrastive semi-supervised learning. Specifically, given a specific task, we retrieve positive and negative instances from large-scale unlabeled corpora according to their domain-level and class-level semantic relatedness to the task. We then perform contrastive semi-supervised learning on both the retrieved unlabeled and original labeled instances to help PLMs capture crucial task-related semantic features. The experimental results show that CSS-LM achieves better results than the conventional fine-tuning strategy on a series of downstream tasks with few-shot settings, and outperforms the latest supervised contrastive fine-tuning strategies. Our datasets and source code will be available to provide more details. | 翻訳日:2021-02-09 16:09:24 公開日:2021-02-07 |
# Nystr\"omformer: Nystr\"om-based Algorithm for Approximating Self-Attention Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention ( http://arxiv.org/abs/2102.03902v1 ) ライセンス: Link先を確認 | Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh | (参考訳) トランスフォーマーは、幅広い自然言語処理タスクのための強力なツールとして登場した。
トランスフォーマーの印象的なパフォーマンスを駆動するキーコンポーネントは、特定のトークンに対する他のトークンの影響や依存をエンコードするセルフアテンションメカニズムである。
有益ではあるが、入力シーケンスの長さに対する自己注意の二次的な複雑さは、その応用を長いシーケンスに限定している。
この制限に対処するため、シーケンス長の関数として良好なスケーラビリティを示すモデルである Nystr\"omformer を提案する。
我々のアイデアは、nystr\"om 法を $o(n)$ の複雑さで標準自己着脱近似に適応させることに基づいている。
Nystr\"omformerのスケーラビリティにより、アプリケーションは何千ものトークンで長いシーケンスを実行できる。
我々はGLUEベンチマークとIMDBレビューで複数のダウンストリームタスクの評価を行い、我々のNystr\"omformerが標準のTransformerよりも相補的、あるいはいくつかのケースで若干良い結果が得られることを確認した。
私たちのコードはhttps://github.com/mlpen/Nystromformerにあります。 Transformers have emerged as a powerful tool for a broad range of natural language processing tasks. A key component that drives the impressive performance of Transformers is the self-attention mechanism that encodes the influence or dependence of other tokens on each specific token. While beneficial, the quadratic complexity of self-attention on the input sequence length has limited its application to longer sequences -- a topic being actively studied in the community. To address this limitation, we propose Nystr\"omformer -- a model that exhibits favorable scalability as a function of sequence length. Our idea is based on adapting the Nystr\"om method to approximate standard self-attention with $O(n)$ complexity. The scalability of Nystr\"omformer enables application to longer sequences with thousands of tokens. We perform evaluations on multiple downstream tasks on the GLUE benchmark and IMDB reviews with standard sequence length, and find that our Nystr\"omformer performs comparably, or in a few cases, even slightly better, than standard Transformer. Our code is at https://github.com/mlpen/Nystromformer. | 翻訳日:2021-02-09 16:09:08 公開日:2021-02-07 |
# online limited memory neural-linear bandits with likelihood matching Online Limited Memory Neural-Linear Bandits with Likelihood Matching ( http://arxiv.org/abs/2102.03799v1 ) ライセンス: Link先を確認 | Ofir Nabati, Tom Zahavy and Shie Mannor | (参考訳) 本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,神経線形バンディットについて検討する。
ニューラルネットワークの帯域幅は、Deep Neural Networks(DNN)の表現力を生かし、最後の隠蔽層の上に線形コンテキスト帯域幅を設計するための効率的な探索メカニズムと組み合わせる。
近年の「無限幅」システムにおけるDNNの解析では、これらのモデルが勾配降下で訓練された場合、最適解は初期化点に近づき、DNNはカーネルマシンと見なせることが示唆されている。
その結果、カーネル構築を通じてDNN上の線形探索アルゴリズムを利用することができる。
問題は、実際にはカーネルが学習プロセス中に変化し、エージェントのパフォーマンスが低下することです。
これは、新しい不確実性推定をストアドデータで再計算することで解決できる。
それでもバッファのサイズが限られると、破滅的忘れという現象が現れる。
代わりに,大惨事に耐性を持ち,完全にオンラインである確率マッチングアルゴリズムを提案する。
様々なデータセット上でシミュレーションを行い、我々のアルゴリズムが無数のメモリアプローチに匹敵する性能を達成し、破滅的な記憶に対するレジリエンスを示すことを観察する。 We study neural-linear bandits for solving problems where both exploration and representation learning play an important role. Neural-linear bandits leverage the representation power of Deep Neural Networks (DNNs) and combine it with efficient exploration mechanisms designed for linear contextual bandits on top of the last hidden layer. A recent analysis of DNNs in the "infinite-width" regime suggests that when these models are trained with gradient descent the optimal solution is close to the initialization point and the DNN can be viewed as a kernel machine. As a result, it is possible to exploit linear exploration algorithms on top of a DNN via the kernel construction. The problem is that in practice the kernel changes during the learning process and the agent's performance degrades. This can be resolved by recomputing new uncertainty estimations with stored data. Nevertheless, when the buffer's size is limited, a phenomenon called catastrophic forgetting emerges. Instead, we propose a likelihood matching algorithm that is resilient to catastrophic forgetting and is completely online. We perform simulations on a variety of datasets and observe that our algorithm achieves comparable performance to the unlimited memory approach while exhibits resilience to catastrophic forgetting. | 翻訳日:2021-02-09 16:08:48 公開日:2021-02-07 |
# ニューラルタンジェントカーネルを用いたメタラーニング Meta-Learning with Neural Tangent Kernels ( http://arxiv.org/abs/2102.03909v1 ) ライセンス: Link先を確認 | Yufan Zhou, Zhenyi Wang, Jiayi Xian, Changyou Chen, Jinhui Xu | (参考訳) Model Agnostic Meta-Learning(MAML)はメタ学習の標準フレームワークとして登場し、メタモデルは新しいタスクに迅速に適応する能力によって学習される。
しかし、二重ループ最適化問題として、MMLは、外部ループのトレーニングステップごとに内部ループ全体の最適化パスを区別する必要があります。
本稿では,メタラーニングを関数空間で定義するための MAML を一般化し,メタモデルのニューラルタンジェントカーネル (NTK) によって誘導される再生成カーネルヒルベルト空間 (RKHS) における最初のメタラーニングパラダイムを提案する。
このパラダイムでは、RKHSに2つのメタラーニングアルゴリズムを導入し、MDLフレームワークのようにサブオプティマティックな反復インナーループ適応を必要としない。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
広範な実験により, 関連するメタ学習アルゴリズムと比較して, ソリューションの効率と品質の両方において, このパラダイムの利点が示された。
提案手法のもう1つの興味深い特徴は,我々の実験で示されたように,敵の攻撃や分散適応に対して,一般的なベースラインよりも頑健であることが示されていることである。 Model Agnostic Meta-Learning (MAML) has emerged as a standard framework for meta-learning, where a meta-model is learned with the ability of fast adapting to new tasks. However, as a double-looped optimization problem, MAML needs to differentiate through the whole inner-loop optimization path for every outer-loop training step, which may lead to both computational inefficiency and sub-optimal solutions. In this paper, we generalize MAML to allow meta-learning to be defined in function spaces, and propose the first meta-learning paradigm in the Reproducing Kernel Hilbert Space (RKHS) induced by the meta-model's Neural Tangent Kernel (NTK). Within this paradigm, we introduce two meta-learning algorithms in the RKHS, which no longer need a sub-optimal iterative inner-loop adaptation as in the MAML framework. We achieve this goal by 1) replacing the adaptation with a fast-adaptive regularizer in the RKHS; and 2) solving the adaptation analytically based on the NTK theory. Extensive experimental studies demonstrate advantages of our paradigm in both efficiency and quality of solutions compared to related meta-learning algorithms. Another interesting feature of our proposed methods is that they are demonstrated to be more robust to adversarial attacks and out-of-distribution adaptation than popular baselines, as demonstrated in our experiments. | 翻訳日:2021-02-09 16:08:28 公開日:2021-02-07 |
# 「ショートは恐怖から憎しみへと導く道」:インドのWhatsAppグループにおける恐怖のスピーチ "Short is the Road that Leads from Fear to Hate": Fear Speech in Indian WhatsApp Groups ( http://arxiv.org/abs/2102.03870v1 ) ライセンス: Link先を確認 | Punyajoy Saha, Binny Mathew, Kiran Garimella, Animesh Mukherjee | (参考訳) WhatsAppは世界でもっとも人気のあるメッセージングアプリだ。
その人気により、WhatsAppは、2019年のインド総選挙で広く使われている政治キャンペーンのための強力で安価なツールとなり、大規模な投票者への接続に使用された。
このキャンペーンに加えて、WhatsAppは様々な保護団体や宗教的少数派に対する有害なスピーチの場にもなっているという報道もある。
このようなメッセージの多くは、特定の(少数派)コミュニティに対する恐怖を鎮めようとしている。
グループ間紛争の研究によれば、このような「恐ろしい言動」メッセージは永続的な影響をもたらし、真のオフライン暴力につながる可能性がある。
本稿では,インドの政治を議論する数千の公開WhatsAppグループを対象に,恐怖のスピーチに関する大規模な研究を行った。
新しいデータセットをキュレートし、このデータセットから恐怖のスピーチを特徴付けるようにします。
恐怖のメッセージを書くユーザは、さまざまなイベントやシンボルを使って、対象とするコミュニティに対する読者の恐怖の錯覚を創り出す。
我々は,恐怖音声を分類するモデルを構築し,現状のnlpモデルでは,このタスクではうまく機能しないことを示す。
恐怖的な音声メッセージは急速に広まり、従来の有害な音声を検出するために構築された分類器によって検出されない可能性がある。
最後に、Facebookの広告でユーザーをターゲットとする新しい手法を用いて、これらのWhatsAppグループのユーザーの間で調査を行い、恐怖の言葉を消費し共有するユーザーのタイプを理解する。
この研究は、研究コミュニティが伝統的に関わってきたヘイトスピーチに取り組むのとは大きく異なる新しい研究問題を開くと信じています。 WhatsApp is the most popular messaging app in the world. Due to its popularity, WhatsApp has become a powerful and cheap tool for political campaigning being widely used during the 2019 Indian general election, where it was used to connect to the voters on a large scale. Along with the campaigning, there have been reports that WhatsApp has also become a breeding ground for harmful speech against various protected groups and religious minorities. Many such messages attempt to instil fear among the population about a specific (minority) community. According to research on inter-group conflict, such `fear speech' messages could have a lasting impact and might lead to real offline violence. In this paper, we perform the first large scale study on fear speech across thousands of public WhatsApp groups discussing politics in India. We curate a new dataset and try to characterize fear speech from this dataset. We observe that users writing fear speech messages use various events and symbols to create the illusion of fear among the reader about a target community. We build models to classify fear speech and observe that current state-of-the-art NLP models do not perform well at this task. Fear speech messages tend to spread faster and could potentially go undetected by classifiers built to detect traditional toxic speech due to their low toxic nature. Finally, using a novel methodology to target users with Facebook ads, we conduct a survey among the users of these WhatsApp groups to understand the types of users who consume and share fear speech. We believe that this work opens up new research questions that are very different from tackling hate speech which the research community has been traditionally involved in. | 翻訳日:2021-02-09 16:06:14 公開日:2021-02-07 |
# 重り付きバンドのレグレット最小化 Regret Minimization in Heavy-Tailed Bandits ( http://arxiv.org/abs/2102.03734v1 ) ライセンス: Link先を確認 | Shubhada Agrawal, Sandeep Juneja, Wouter M. Koolen | (参考訳) 腕の分布に重み付けが許される確率的マルチアームバンディット設定における古典的後悔最小化問題を再考する。
レグレト最小化は、単一のパラメータ指数族に属する有界支持報酬分布または分布の単純な設定でよく研究されている。
順序 $(1+\epsilon)$ のモーメントは、与えられた $\epsilon > 0$ に対して既知の定数 B によって一様に有界であるというより弱い仮定の下で働く。
1次項において下限に正確に一致する最適アルゴリズムを提案する。
我々はまた、その後悔に有限時間縛りを与える。
重み付き分布の平均値に対して,我々の指数はよく知られた切り裂かれたあるいはトリミングされた経験的平均推定値よりも早く集中することを示した。
インデックスの計算は計算的に要求される。
そこで本研究では,バッチサイズに依存する乗算定数に最適化されたバッチベースのアルゴリズムを提案する。
したがって,統計的最適性と計算コストのトレードオフを制御できる。 We revisit the classic regret-minimization problem in the stochastic multi-armed bandit setting when the arm-distributions are allowed to be heavy-tailed. Regret minimization has been well studied in simpler settings of either bounded support reward distributions or distributions that belong to a single parameter exponential family. We work under the much weaker assumption that the moments of order $(1+\epsilon)$ are uniformly bounded by a known constant B, for some given $\epsilon > 0$. We propose an optimal algorithm that matches the lower bound exactly in the first-order term. We also give a finite-time bound on its regret. We show that our index concentrates faster than the well known truncated or trimmed empirical mean estimators for the mean of heavy-tailed distributions. Computing our index can be computationally demanding. To address this, we develop a batch-based algorithm that is optimal up to a multiplicative constant depending on the batch size. We hence provide a controlled trade-off between statistical optimality and computational cost. | 翻訳日:2021-02-09 16:03:56 公開日:2021-02-07 |
# 無限チャネル深層安定畳み込みニューラルネットワーク Infinite-channel deep stable convolutional neural networks ( http://arxiv.org/abs/2102.03739v1 ) ライセンス: Link先を確認 | Daniele Bracale, Stefano Favaro, Sandra Fortini, Stefano Peluchetti | (参考訳) 無限幅ニューラルネットワーク (NN) とガウス過程 (GP) のクラスとの相互作用は、Neal (1996) のセミナルな研究から知られている。
近年、多くの理論的改良が提案されているが、NNとGP間の相互作用は、NNのパラメータに関する2つの重要な分布仮定に依存している:A1)有限分散;A2)独立分布と同一分布(iid)。
本稿では,深層フィードフォワード畳み込みnnの一般的な文脈において,a1を除去する問題を考える。
特に,安定分布に従って分布するiidパラメータを仮定し,適切なスケーリング下での深いフィードフォワード畳み込みnnの無限チャネル極限は,多変量安定な有限次元分布を持つ確率過程であることを示す。
このような制限分布は、層上のパラメータの明示的な後方再帰によって特徴づけられる。
私たちの貢献はFavaro et alの結果を拡張します。
2020年)は畳み込みアーキテクチャに転換し、GPの限界のクラスに依存するエキサイティングな最近の研究ラインを拡大する方法を切り拓きます。 The interplay between infinite-width neural networks (NNs) and classes of Gaussian processes (GPs) is well known since the seminal work of Neal (1996). While numerous theoretical refinements have been proposed in the recent years, the interplay between NNs and GPs relies on two critical distributional assumptions on the NN's parameters: A1) finite variance; A2) independent and identical distribution (iid). In this paper, we consider the problem of removing A1 in the general context of deep feed-forward convolutional NNs. In particular, we assume iid parameters distributed according to a stable distribution and we show that the infinite-channel limit of a deep feed-forward convolutional NNs, under suitable scaling, is a stochastic process with multivariate stable finite-dimensional distributions. Such a limiting distribution is then characterized through an explicit backward recursion for its parameters over the layers. Our contribution extends results of Favaro et al. (2020) to convolutional architectures, and it paves the way to expand exciting recent lines of research that rely on classes of GP limits. | 翻訳日:2021-02-09 16:03:33 公開日:2021-02-07 |
# パワーローデータストリーム下のカウントミンスケッチに対するベイズ非パラメトリックアプローチ A Bayesian nonparametric approach to count-min sketch under power-law data streams ( http://arxiv.org/abs/2102.03743v1 ) ライセンス: Link先を確認 | Emanuele Dolera, Stefano Favaro, Stefano Peluchetti | (参考訳) カウントミンスケッチ(CMS)は、ランダムハッシュによるデータの圧縮表現を使用して、大規模なデータストリーム内のトークンの周波数の推定を提供するランダム化されたデータ構造です。
本論文では、最近のベイズ非パラメトリック(BNP)ビューをCMSに頼って、パワーローデータストリームの下で新しい学習強化CMSを開発する。
ストリーム内のトークンは未知の離散分布から引き出されると仮定し、それ以前に正規化された逆ガウス過程(NIGP)が与えられる。
そして、NIGPの分布特性を用いて、ハッシュデータに基づき、ストリーム内のトークンの周波数の後方分布を計算し、対応するBNP推定を行う。
合成および実データへの応用は,低周波トークンの推定において顕著な性能を達成していることを示す。
これは自然言語処理の文脈において望ましい特徴として知られており、データの力則の振る舞いの文脈では確かに一般的である。 The count-min sketch (CMS) is a randomized data structure that provides with estimates of tokens' frequencies in a large data stream using a compressed representation of the data by random hashing. In this paper, we rely on a recent Bayesian nonparametric (BNP) view on the CMS to develop a novel learning-augmented CMS under power-law data streams. We assume that tokens in the stream are drawn from an unknown discrete distribution, which is endowed with a normalized inverse Gaussian process (NIGP) prior. Then, using distributional properties of the NIGP, we compute the posterior distribution of a token's frequency in the stream, given the hashed data, and in turn corresponding BNP estimates. Applications to synthetic and real data show that our approach achieves a remarkable performance in the estimation of low-frequency tokens. This is known to be a desirable feature in the context of natural language processing, where it is indeed common in the context of the power-law behaviour of the data. | 翻訳日:2021-02-09 16:03:12 公開日:2021-02-07 |
# 記憶と非確率制御による非定常オンライン学習 Non-stationary Online Learning with Memory and Non-stochastic Control ( http://arxiv.org/abs/2102.03758v1 ) ライセンス: Link先を確認 | Peng Zhao and Yu-Xiang Wang and Zhi-Hua Zhou | (参考訳) 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉えた。
本稿では,ノンステーショナリーな環境に堅牢なアルゴリズムを設計するためのパフォーマンス尺度として動的ポリシーの後悔について紹介する。
我々は,最適な動的ポリシーの後悔を確実に享受するメモリを持つOCOの新しいアルゴリズムを提案する。
重要な技術的課題は、スイッチングコスト、プレイヤーの決定の累積的な動きを制御する方法であり、動的ポリシーの後悔の新しい分解と適切なメタエキスパート構造によってうまく対処されます。
さらに, オンライン非確率制御, すなわち, 対向障害や凸損失関数を伴う線形力学系を制御する問題に対して, 結果を一般化する。
我々は,方針変更の順序に匹敵する最初のコントローラである動的ポリシー後悔保証を備えた,新しい勾配ベースのコントローラを導出する。 We study the problem of Online Convex Optimization (OCO) with memory, which allows loss functions to depend on past decisions and thus captures temporal effects of learning problems. In this paper, we introduce dynamic policy regret as the performance measure to design algorithms robust to non-stationary environments, which competes algorithms' decisions with a sequence of changing comparators. We propose a novel algorithm for OCO with memory that provably enjoys an optimal dynamic policy regret. The key technical challenge is how to control the switching cost, the cumulative movements of player's decisions, which is neatly addressed by a novel decomposition of dynamic policy regret and an appropriate meta-expert structure. Furthermore, we generalize the results to the problem of online non-stochastic control, i.e., controlling a linear dynamical system with adversarial disturbance and convex loss functions. We derive a novel gradient-based controller with dynamic policy regret guarantees, which is the first controller competitive to a sequence of changing policies. | 翻訳日:2021-02-09 16:02:56 公開日:2021-02-07 |
# 説明から説明するためのバンディット Bandits for Learning to Explain from Explanations ( http://arxiv.org/abs/2102.03815v1 ) ライセンス: Link先を確認 | Freya Behrens, Stefano Teso, Davide Mottin | (参考訳) 予測と説明を共同で出力することを学ぶオンラインアルゴリズム「Explearn」を紹介します。
Explearn は Gaussian Processes (GP)-based contextual bandits を活用している。
これは2つの大きな利点をもたらす。
まず、GPは自然にさまざまな種類の説明をキャプチャし、システムデザイナが適切なカーネルを選択することによって、空間全体の説明の一般化を制御できるようにします。
第二に、Explearnは、高確率で収束を保証するコンテキストバンディットの最近の結果に基づいています。
私達の最初の実験はアプローチの約束を暗示します。 We introduce Explearn, an online algorithm that learns to jointly output predictions and explanations for those predictions. Explearn leverages Gaussian Processes (GP)-based contextual bandits. This brings two key benefits. First, GPs naturally capture different kinds of explanations and enable the system designer to control how explanations generalize across the space by virtue of choosing a suitable kernel. Second, Explearn builds on recent results in contextual bandits which guarantee convergence with high probability. Our initial experiments hint at the promise of the approach. | 翻訳日:2021-02-09 16:02:40 公開日:2021-02-07 |
# 多項式回帰によるニューラルネットワークモデリングの数学的枠組みの実現に向けて Towards a mathematical framework to inform Neural Network modelling via Polynomial Regression ( http://arxiv.org/abs/2102.03865v1 ) ライセンス: Link先を確認 | Pablo Morala (1), Jenny Alexandra Cifuentes (1), Rosa E. Lillo (1 and 2), I\~naki Ucar (1) ((1) uc3m-Santander Big Data Institute, Universidad Carlos III de Madrid., (2) Department of Statistics, Universidad Carlos III de Madrid.) | (参考訳) ニューラルネットワークが多くのアプリケーションで広く使われているとしても、ブラックボックスとして見なされ、予測エラーを測ったり評価したりすることは困難である。
これにより、ニューラルネットワークと従来の統計手法の重複領域への関心が高まり、これらの問題を克服するのに役立ちます。
本稿では,与えられたニューラルネットワークの重みから多項式回帰係数の明示的な表現をテイラー展開法を用いて構築することにより,ニューラルネットワークと多項式回帰に関する数学的枠組みを考察する。
これは回帰問題において単一の隠れ層ニューラルネットワークで実現される。
提案手法の妥当性は, シナプス電位の分布や選択された活性化関数など, 異なる要因に依存する。
本手法の性能は, 多項式から生成された合成データのシミュレーションにより, 異なる構造とハイパーパラメータを持つニューラルネットワークを訓練することにより, 一定の条件が満たされた場合, ほぼ同一の予測が得られることを示す。
最後に、多項式生成データから学習する場合、提案手法はデータを局所的に近似する多項式を生成する。 Even when neural networks are widely used in a large number of applications, they are still considered as black boxes and present some difficulties for dimensioning or evaluating their prediction error. This has led to an increasing interest in the overlapping area between neural networks and more traditional statistical methods, which can help overcome those problems. In this article, a mathematical framework relating neural networks and polynomial regression is explored by building an explicit expression for the coefficients of a polynomial regression from the weights of a given neural network, using a Taylor expansion approach. This is achieved for single hidden layer neural networks in regression problems. The validity of the proposed method depends on different factors like the distribution of the synaptic potentials or the chosen activation function. The performance of this method is empirically tested via simulation of synthetic data generated from polynomials to train neural networks with different structures and hyperparameters, showing that almost identical predictions can be obtained when certain conditions are met. Lastly, when learning from polynomial generated data, the proposed method produces polynomials that approximate correctly the data locally. | 翻訳日:2021-02-09 16:02:31 公開日:2021-02-07 |
# 決定的コンセンサスクラスタリング Determinantal consensus clustering ( http://arxiv.org/abs/2102.03948v1 ) ライセンス: Link先を確認 | Serge Vicente, Alejandro Murua | (参考訳) 与えられたアルゴリズムのランダム再起動は多くのパーティションを生成し、コンセンサスクラスタリングを生成する。
コンセンサスクラスタリングのようなエンサンブルメソッドは、単一のクラスタリングアルゴリズムよりもデータクラスタリングの堅牢なアプローチとして認識されている。
本稿では,k-medoids や k-means などの中心点の初期集合に基づくクラスタリングアルゴリズムのランダム再起動に行列点過程や dpp を用いることを提案する。
DPPとカーネルベースのメソッドの関係により、DPPはオブジェクト間の類似性を記述および定量化するのに適している。
DPPはサブセット内の中心点の多様性を好む。
したがって、類似点を持つ部分集合は、非常に異なる点を持つ部分集合よりも生成する確率が低い。
現在最も普及しているサンプリング技術は、ランダムにセンターポイントを均一にサンプリングすることです。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェーットの良好なカバレッジを得るのに失敗する、という広範なシミュレーションを通して示している。
これらのDPPの2つの特性は、DPPが小さなアンサンブルで優れたパフォーマンスを達成する鍵です。
人工データセットによるシミュレーションと実際のデータセットへの応用により、決定的コンセンサスクラスタリングは、中心点の均一なランダムサンプリングに基づくk-メノイドやk-平均コンセンサスクラスタリングのような古典的アルゴリズムよりも優れた結果を示す。 Random restart of a given algorithm produces many partitions to yield a consensus clustering. Ensemble methods such as consensus clustering have been recognized as more robust approaches for data clustering than single clustering algorithms. We propose the use of determinantal point processes or DPP for the random restart of clustering algorithms based on initial sets of center points, such as k-medoids or k-means. The relation between DPP and kernel-based methods makes DPPs suitable to describe and quantify similarity between objects. DPPs favor diversity of the center points within subsets. So, subsets with more similar points have less chances of being generated than subsets with very distinct points. The current and most popular sampling technique is sampling center points uniformly at random. We show through extensive simulations that, contrary to DPP, this technique fails both to ensure diversity, and to obtain a good coverage of all data facets. These two properties of DPP are key to make DPPs achieve good performance with small ensembles. Simulations with artificial datasets and applications to real datasets show that determinantal consensus clustering outperform classical algorithms such as k-medoids and k-means consensus clusterings which are based on uniform random sampling of center points. | 翻訳日:2021-02-09 16:02:14 公開日:2021-02-07 |
# hgan: ハイブリッド生成型adversarial network HGAN: Hybrid Generative Adversarial Network ( http://arxiv.org/abs/2102.03710v1 ) ライセンス: Link先を確認 | Seyed Mehdi Iranmanesh and Nasser M. Nasrabadi | (参考訳) 本稿では,GAN(Generative Adversarial Networks)を訓練する簡単な手法を提案する。
GANのような暗黙のモデルは、抽出可能なデータ可能性に基づいて訓練された明示的なモデルと比較して、より良いサンプルを生成する傾向がある。
しかしgansは明示的なデータ密度特性を見落とし、望ましくない定量的評価とモード崩壊をもたらす。
このギャップを埋めるために,HGAN(Hybrid generation adversarial Network)を提案し,自己回帰モデルを介してデータ密度推定を強制し,異なるモードをカバーするために推定密度を多様化する共同トレーニング方法で,対人フレームワークと可能性フレームワークの両方をサポートする。
本論文では,自己回帰モデル(ティーチャー)からGANモデルのジェネレータ(学生)へ,その逆ネットワークを \textit {transfer knowledge} に用いることを提案する。
GAN定式化における新しい深層構造は、単純なGANトレーニング手法に加えて、自己回帰モデル情報を逆向きに蒸留するために開発されている。
実世界のデータセット(MNIST, CIFAR-10, STL-10)について, 定性的, 定量的な評価を行い, 提案したHGANの有効性を実証する。
実験の結果,本手法のベースラインに対する優位性と競合性が示された。 In this paper, we present a simple approach to train Generative Adversarial Networks (GANs) in order to avoid a \textit {mode collapse} issue. Implicit models such as GANs tend to generate better samples compared to explicit models that are trained on tractable data likelihood. However, GANs overlook the explicit data density characteristics which leads to undesirable quantitative evaluations and mode collapse. To bridge this gap, we propose a hybrid generative adversarial network (HGAN) for which we can enforce data density estimation via an autoregressive model and support both adversarial and likelihood framework in a joint training manner which diversify the estimated density in order to cover different modes. We propose to use an adversarial network to \textit {transfer knowledge} from an autoregressive model (teacher) to the generator (student) of a GAN model. A novel deep architecture within the GAN formulation is developed to adversarially distill the autoregressive model information in addition to simple GAN training approach. We conduct extensive experiments on real-world datasets (i.e., MNIST, CIFAR-10, STL-10) to demonstrate the effectiveness of the proposed HGAN under qualitative and quantitative evaluations. The experimental results show the superiority and competitiveness of our method compared to the baselines. | 翻訳日:2021-02-09 16:00:10 公開日:2021-02-07 |
# 連続ゼロショット学習のための可変オートエンコーダの対比訓練 Adversarial Training of Variational Auto-encoders for Continual Zero-shot Learning ( http://arxiv.org/abs/2102.03778v1 ) ライセンス: Link先を確認 | Subhankar Ghosh | (参考訳) 既存のニューラルネットワーク(ann)のほとんどは、破滅的な忘れによって継続的に学習できないが、人間は以前のタスクのパフォーマンスを維持することで同じことをできる。
以前のデータを全て保存することは問題を緩和するが、実際の利用では不可能な大きなメモリを必要とする。
そこで本研究では,実例のシナリオに適合するゼロショット学習モデルを提案し,逐次学習が可能な問題に対処し,学習中にモデルを目にしなかったクラスを識別する。
本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。
モデルのサイズはタスクごとに大きくなり、タスク固有のスキルの破滅的な忘れを防ぎ、共有スキルを維持するためのリプレイアプローチを含む。
我々は、CUB、AWA1、AWA2、aPYといった複数のデータセットに対して、ハイブリッドモデルの有効性を実証する。
本手法は,ZSL(Zero-Shot Learning)とGZSL(Generalized Zero-Shot Learning)を用いたクラスシーケンシャル学習に優れていることを示す。 Most of the existing artificial neural networks(ANNs) fail to learn continually due to catastrophic forgetting, while humans can do the same by maintaining previous tasks' performances. Although storing all the previous data can alleviate the problem, it takes a large memory, infeasible in real-world utilization. We propose a continual zero-shot learning model that is more suitable in real-case scenarios to address the issue that can learn sequentially and distinguish classes the model has not seen during training. We present a hybrid network that consists of a shared VAE module to hold information of all tasks and task-specific private VAE modules for each task. The model's size grows with each task to prevent catastrophic forgetting of task-specific skills, and it includes a replay approach to preserve shared skills. We demonstrate our hybrid model is effective on several datasets, i.e., CUB, AWA1, AWA2, and aPY. We show our method is superior on class sequentially learning with ZSL(Zero-Shot Learning) and GZSL(Generalized Zero-Shot Learning). | 翻訳日:2021-02-09 15:59:48 公開日:2021-02-07 |
# in-domain と cross-domain transfer learning を用いた損傷検出 Damage detection using in-domain and cross-domain transfer learning ( http://arxiv.org/abs/2102.03858v1 ) ライセンス: Link先を確認 | Zaharah A. Bukhsh, Nils Jansen, Aaqib Saeed | (参考訳) 構造ヘルスモニタリング分野における転校学習の能力について検討する。
特に,コンクリート構造物の損傷検出に関心がある。
このような問題の典型的な画像データセットは比較的小さく、関連する大規模データセットからの学習表現の転送を要求する。
過去、画像を用いた損傷検出は、主に対象タスク用に微調整された事前学習されたimagenetモデルを用いたクロスドメイン転送学習のアプローチとして検討されてきた。
しかし、視覚検査や医用画像撮影など、特定の対象領域に対するImageNet表現の一般化性に対する懸念が高まっている。
そこで本研究では,橋梁の損傷検出のためのドメイン内およびドメイン間移動学習戦略の組み合わせを提案する。
6つのパブリックな視覚検査データセットを用いて、クロスドメインとインドメイン転送の影響を様々な初期化戦略と総合的に比較した。
事前訓練されたモデルは、非常に低データ体制に対処する能力も評価されている。
クロスドメインとインドメイントランスファーの組み合わせは、小さなデータセットでも永続的に優れたパフォーマンスを示す。
同様に、予測モデルの視覚的説明も提供し、アルゴリズムの透明性を実現し、黒箱深層モデルの本質的な決定論理に関する専門家に洞察を提供する。 We investigate the capabilities of transfer learning in the area of structural health monitoring. In particular, we are interested in damage detection for concrete structures. Typical image datasets for such problems are relatively small, calling for the transfer of learned representation from a related large-scale dataset. Past efforts of damage detection using images have mainly considered cross-domain transfer learning approaches using pre-trained ImageNet models that are subsequently fine-tuned for the target task. However, there are rising concerns about the generalizability of ImageNet representations for specific target domains, such as for visual inspection and medical imaging. We, therefore, propose a combination of in-domain and cross-domain transfer learning strategies for damage detection in bridges. We perform comprehensive comparisons to study the impact of cross-domain and in-domain transfer, with various initialization strategies, using six publicly available visual inspection datasets. The pre-trained models are also evaluated for their ability to cope with the extremely low-data regime. We show that the combination of cross-domain and in-domain transfer persistently shows superior performance even with tiny datasets. Likewise, we also provide visual explanations of predictive models to enable algorithmic transparency and provide insights to experts about the intrinsic decision-logic of typically black-box deep models. | 翻訳日:2021-02-09 15:59:29 公開日:2021-02-07 |
# U-vectors: ラベルのないデータからクラスタ可能なスピーカーを埋め込む U-vectors: Generating clusterable speaker embedding from unlabeled data ( http://arxiv.org/abs/2102.03868v1 ) ライセンス: Link先を確認 | M. F. Mridha, Abu Quwsar Ohi, M. Ameer Ali, Muhammad Mostafa Monowar, Md. Abdul Hamid | (参考訳) 発話者認識は、発話者を認識します。
話者認識に関する戦略は、音声の音色特性、アクセント、音声パターンなどを調べることができる。
教師付き話者認識は劇的に研究されている。
しかし,厳密な発掘調査により,教師なし話者認識システムは主にドメイン適応政策に依存していることが判明した。
本稿では,小さな固定サイズの音声フレームからクラスタ可能な埋め込みベクトルを生成する,ラベルなしデータを扱う話者認識戦略を提案する。
教師なしのトレーニング戦略は、小さなスピーチセグメントが単一のスピーカーを含むべきであるという仮定を含む。
このような信念に依拠して,2つのディープラーニングアーキテクチャを学習するために,話者埋め込みを生成するノイズ強化ポリシをペアワイズ制約として構築する。
ドメイン適応ポリシーを頼らずに、このプロセスはクラスター可能な話者埋め込みを生成し、それを教師なしベクトル (u-vectors) と呼ぶ。
評価は、TIMITとLibriSpeechの2つの人気のある英語話者認識データセットにまとめられる。
また、話者認識システムにおけるドメインシフトの多様性を説明するため、BengaliデータセットであるBengali ASRも含んでいる。
最後に,提案手法はペアワイズアーキテクチャによる優れた性能を実現する。 Speaker recognition deals with recognizing speakers by their speech. Strategies related to speaker recognition may explore speech timbre properties, accent, speech patterns and so on. Supervised speaker recognition has been dramatically investigated. However, through rigorous excavation, we have found that unsupervised speaker recognition systems mostly depend on domain adaptation policy. This paper introduces a speaker recognition strategy dealing with unlabeled data, which generates clusterable embedding vectors from small fixed-size speech frames. The unsupervised training strategy involves an assumption that a small speech segment should include a single speaker. Depending on such a belief, we construct pairwise constraints to train twin deep learning architectures with noise augmentation policies, that generate speaker embeddings. Without relying on domain adaption policy, the process unsupervisely produces clusterable speaker embeddings, and we name it unsupervised vectors (u-vectors). The evaluation is concluded in two popular speaker recognition datasets for English language, TIMIT, and LibriSpeech. Also, we include a Bengali dataset, Bengali ASR, to illustrate the diversity of the domain shifts for speaker recognition systems. Finally, we conclude that the proposed approach achieves remarkable performance using pairwise architectures. | 翻訳日:2021-02-09 15:55:33 公開日:2021-02-07 |
# Lazy OCO: 切り替え予算によるオンライン凸最適化 Lazy OCO: Online Convex Optimization on a Switching Budget ( http://arxiv.org/abs/2102.03803v1 ) ライセンス: Link先を確認 | Uri Sherman, Tomer Koren | (参考訳) 我々は、プレイヤーが$ T$ラウンドを通じて予想で最大$ S$で決定を切り替えることができるオンライン凸最適化の変形を研究します。
同様の問題は、離散的な決定セットの設定の事前作業や、より最近の連続的な設定では、適応的な敵のみに対処されている。
本研究では,このギャップを埋めて計算効率の高いアルゴリズムを,より広く普及し,一般凸損失に対してo(t/s)$,強凸損失に対してo(t/s^2)$という後悔の限度を確立することを目的とする。
さらに,確率的 i.i.d.~losses に対して,一般的な凸設定と強い凸設定の両方において,乗算的$\log t$ factor のオーバーヘッドのみで $\log t$ スイッチを実行する単純なアルゴリズムを提案する。
最後に、我々はアルゴリズムを、考慮すべきいくつかのケースにおいて上界に一致する下界で補完する。 We study a variant of online convex optimization where the player is permitted to switch decisions at most $S$ times in expectation throughout $T$ rounds. Similar problems have been addressed in prior work for the discrete decision set setting, and more recently in the continuous setting but only with an adaptive adversary. In this work, we aim to fill the gap and present computationally efficient algorithms in the more prevalent oblivious setting, establishing a regret bound of $O(T/S)$ for general convex losses and $\widetilde O(T/S^2)$ for strongly convex losses. In addition, for stochastic i.i.d.~losses, we present a simple algorithm that performs $\log T$ switches with only a multiplicative $\log T$ factor overhead in its regret in both the general and strongly convex settings. Finally, we complement our algorithms with lower bounds that match our upper bounds in some of the cases we consider. | 翻訳日:2021-02-09 15:51:17 公開日:2021-02-07 |
# モデル診断メタラーニングアルゴリズムの一般化:繰り返しおよび見えないタスク Generalization of Model-Agnostic Meta-Learning Algorithms: Recurring and Unseen Tasks ( http://arxiv.org/abs/2102.03832v1 ) ライセンス: Link先を確認 | Alireza Fallah, Aryan Mokhtari, Asuman Ozdaglar | (参考訳) 本稿では,教師付き学習問題に対するモデル診断メタラーニング(MAML)アルゴリズムの一般化特性について検討する。
まず、テスト時の新しいタスクはトレーニングタスクの1つであると仮定し、強く凸対的関数の場合、予想される過剰な人口減少は$\mathcal{O}(1/mn)$によってバインドされることを示します。
第2に,mamlアルゴリズムの一般化を未知のタスクに適用し,結果として生じる一般化誤差が,新しいタスクの基本分布とトレーニングプロセス中に観測されたタスクとの変動距離に依存することを示した。
我々の証明手法は,アルゴリズムの安定性と一般化境界の関係に依存する。
特に,メタ学習アルゴリズムの安定性の新たな定義を提案し,MAMLの一般化誤差におけるタスク数$m$とタスク毎のサンプル数$n$の両方の役割を捉える。 In this paper, we study the generalization properties of Model-Agnostic Meta-Learning (MAML) algorithms for supervised learning problems. We focus on the setting in which we train the MAML model over $m$ tasks, each with $n$ data points, and characterize its generalization error from two points of view: First, we assume the new task at test time is one of the training tasks, and we show that, for strongly convex objective functions, the expected excess population loss is bounded by $\mathcal{O}(1/mn)$. Second, we consider the MAML algorithm's generalization to an unseen task and show that the resulting generalization error depends on the total variation distance between the underlying distributions of the new task and the tasks observed during the training process. Our proof techniques rely on the connections between algorithmic stability and generalization bounds of algorithms. In particular, we propose a new definition of stability for meta-learning algorithms, which allows us to capture the role of both the number of tasks $m$ and number of samples per task $n$ on the generalization error of MAML. | 翻訳日:2021-02-09 15:50:58 公開日:2021-02-07 |
# 2レベル最適化のための下界と加速アルゴリズム Lower Bounds and Accelerated Algorithms for Bilevel Optimization ( http://arxiv.org/abs/2102.03926v1 ) ライセンス: Link先を確認 | Kaiyi Ji and Yingbin Liang | (参考訳) 最近の機械学習問題に広く適用されているため、最近バイレベル最適化が関心を集めています。
近年の研究では、そのような一般的なアルゴリズムの収束率を特徴付けているが、この収束率がどの程度改善できるかは未だ分かっていない。
本稿では,この基本的問題を2つの観点から論じる。
まず, 第一に, $\widetilde{\omega}(\frac{1}{\sqrt{\mu_x}\mu_y})$ および $\widetilde \omega\big(\frac{1}{\sqrt{\epsilon}}\min\{\frac{1}{\mu_y},\frac{1}{\sqrt{\epsilon^{3}}}\}\big)$ という,強凸強凸および凸強凸二レベル最適化の初見の低複雑性境界を与える。
第2に,強凸強凸,凸強凸,非凸強凸強凸ジオメトリにおいて,既存の上界を秩序的に改善するaccbioという,高速化された2レベル最適化器を提案する。
さらに, accbio は, 対数因子による条件下での最適結果(すなわち, 上界と下界の一致)を達成することを示した。
興味深いことに、両方のジオメトリの下限は、対応するミニマックス最適化の最適な複雑性よりも大きく、バイレベル最適化は、ミニマックス最適化よりも明らかに困難です。
最後に、minimax最適化など他の問題に対する結果の拡張と応用について論じる。 Bilevel optimization has recently attracted growing interests due to its wide applications in modern machine learning problems. Although recent studies have characterized the convergence rate for several such popular algorithms, it is still unclear how much further these convergence rates can be improved. In this paper, we address this fundamental question from two perspectives. First, we provide the first-known lower complexity bounds of $\widetilde{\Omega}(\frac{1}{\sqrt{\mu_x}\mu_y})$ and $\widetilde \Omega\big(\frac{1}{\sqrt{\epsilon}}\min\{\frac{1}{\mu_y},\frac{1}{\sqrt{\epsilon^{3}}}\}\big)$ respectively for strongly-convex-strongly-convex and convex-strongly-convex bilevel optimizations. Second, we propose an accelerated bilevel optimizer named AccBiO, whose complexity improves the existing upper bounds orderwisely under strongly-convex-strongly-convex, convex-strongly-convex and nonconvex-strongly-convex geometries. We further show that AccBiO achieves the optimal results (i.e., the upper and lower bounds match) under certain conditions up to logarithmic factors. Interestingly, our lower bounds under both geometries are larger than the corresponding optimal complexities of minimax optimization, establishing that bilevel optimization is provably more challenging than minimax optimization. We finally discuss the extensions and applications of our results to other problems such as minimax optimization. | 翻訳日:2021-02-09 15:50:40 公開日:2021-02-07 |
# LiDARを用いた3次元物体検出器上の物体除去攻撃 Object Removal Attacks on LiDAR-based 3D Object Detectors ( http://arxiv.org/abs/2102.03722v1 ) ライセンス: Link先を確認 | Zhongyuan Hau, Kenneth T. Co, Soteris Demetriou, Emil C. Lupu | (参考訳) LiDARは、自律走行車(AV)の認識と安全運用において重要な役割を担っている。
近年の研究では、LiDARリターンシグナルをスプープして偽のオブジェクトを抽出できることが示されている。
この作業では、同じ物理的機能を使って、新たな、さらに危険なタイプの攻撃、すなわちオブジェクト除去攻撃(ORAs)をマウントする方法を実証します。
orasは3dオブジェクト検出器の故障を強制する。
我々は、3Dオブジェクトの関心領域(RoI)の点群に方向ごとの単一の戻り信号を記録するLiDARのデフォルトの設定を利用します。
ターゲットオブジェクトの後方に不正なポイントを注入することで、ターゲットオブジェクトのroisからポイントを効果的に移動させる。
簡単なランダム点選択戦略を用いた初期結果から、この攻撃は一般的な3次元物体検出モデルの性能を劣化させるのに有効であることが示された。 LiDARs play a critical role in Autonomous Vehicles' (AVs) perception and their safe operations. Recent works have demonstrated that it is possible to spoof LiDAR return signals to elicit fake objects. In this work we demonstrate how the same physical capabilities can be used to mount a new, even more dangerous class of attacks, namely Object Removal Attacks (ORAs). ORAs aim to force 3D object detectors to fail. We leverage the default setting of LiDARs that record a single return signal per direction to perturb point clouds in the region of interest (RoI) of 3D objects. By injecting illegitimate points behind the target object, we effectively shift points away from the target objects' RoIs. Our initial results using a simple random point selection strategy show that the attack is effective in degrading the performance of commonly used 3D object detection models. | 翻訳日:2021-02-09 15:48:32 公開日:2021-02-07 |
# Mimetic Neural Networks: タンパク質設計と折り畳みのための統合フレームワーク Mimetic Neural Networks: A unified framework for Protein Design and Folding ( http://arxiv.org/abs/2102.03881v1 ) ライセンス: Link先を確認 | Moshe Eliasof, Tue Boesen, Eldad Haber, Chen Keasar, Eran Treister | (参考訳) タンパク質フォールディングのための機械学習技術の最近の進歩は、その逆問題であるタンパク質設計のより良い結果をもたらす。
本稿では,新しいグラフマイメティックニューラルネットワークであるmimnetを導入し,構造と設計問題をタンデムで解決する可逆的なアーキテクチャを構築することが可能であることを示し,構造がより良く見積もられた場合のタンパク質設計の改善を可能にする。
タンパク質の折りたたみ構造を考えると,我々はproteinnetデータセットを用いて,タンパク質設計における技術結果が改善可能であることを示す。 Recent advancements in machine learning techniques for protein folding motivate better results in its inverse problem -- protein design. In this work we introduce a new graph mimetic neural network, MimNet, and show that it is possible to build a reversible architecture that solves the structure and design problems in tandem, allowing to improve protein design when the structure is better estimated. We use the ProteinNet data set and show that the state of the art results in protein design can be improved, given recent architectures for protein folding. | 翻訳日:2021-02-09 15:48:19 公開日:2021-02-07 |
# マルチホップ質問応答のためのメモリ拡張逐次パラグラフ検索 Memory Augmented Sequential Paragraph Retrieval for Multi-hop Question Answering ( http://arxiv.org/abs/2102.03741v1 ) ライセンス: Link先を確認 | Nan Shao, Yiming Cui, Ting Liu, Shijin Wang, Guoping Hu | (参考訳) オープンドメインのマルチホップの質問に答えるために相関パラグラフやドキュメントから情報を取得することは非常に困難です。
この課題に対処するために、既存の作品の多くはグラフのノードとして段落を検討し、グラフベースの方法を提案する。
しかし,本稿では,そのような手法の本質的な欠陥を指摘する。
代わりに、段落を逐次データとしてモデル化し、マルチホップ情報検索を一種のシーケンスラベリングタスクとみなす新しいアーキテクチャを提案する。
具体的には、パラグラフ間の依存性をモデル化する書き込み可能な外部メモリを設計する。
さらに,ノイズ段落の乱れを解消するためのしきい値ゲート機構を提案する。
提案手法は,マルチホップ情報検索を必要とする公開テキストマルチホップQAデータセットHotpotQAのフルwikiとイントラクタサブタスクの両方で評価する。
実験により,本手法は,検索および下流QAタスクパフォーマンスにおける最新手法よりも有意な改善を達成できることが示された。 Retrieving information from correlative paragraphs or documents to answer open-domain multi-hop questions is very challenging. To deal with this challenge, most of the existing works consider paragraphs as nodes in a graph and propose graph-based methods to retrieve them. However, in this paper, we point out the intrinsic defect of such methods. Instead, we propose a new architecture that models paragraphs as sequential data and considers multi-hop information retrieval as a kind of sequence labeling task. Specifically, we design a rewritable external memory to model the dependency among paragraphs. Moreover, a threshold gate mechanism is proposed to eliminate the distraction of noise paragraphs. We evaluate our method on both full wiki and distractor subtask of HotpotQA, a public textual multi-hop QA dataset requiring multi-hop information retrieval. Experiments show that our method achieves significant improvement over the published state-of-the-art method in retrieval and downstream QA task performance. | 翻訳日:2021-02-09 15:45:59 公開日:2021-02-07 |
# SR-Affine:UVマップによる高品質な3Dハンドモデル再構築 SR-Affine: High-quality 3D hand model reconstruction from UV Maps ( http://arxiv.org/abs/2102.03725v1 ) ライセンス: Link先を確認 | Ping Chen, Dong Yang, Fangyin Wu, Qin Li, Qingpei Xia and Yong Tan | (参考訳) 様々なポーズと重い閉塞の下で、単一の単眼RGB画像に基づく3Dハンドモデルの再構築は、長年にわたってコンピュータビジョン分野で困難な問題でした。
本稿では,SR-Affineによる高品質3Dハンドモデル再構築手法を提案する。
まず,manoハンドリコンストラクションのためのエンコーダデコーダネットワークアーキテクチャ(affinenet)を提案する。
MANOハンドは詳細ではないため、UVマップ上での画像超解像によるアップサンプリングポイントクラウドへのSRNetの提案も進めています。
多くの実験では、私たちのアプローチが堅牢であり、FreiHANDおよびHO3Dデータセットを含む標準ベンチマークの最先端の方法を上回ることを実証しています。 Under various poses and heavy occlusions,3D hand model reconstruction based on a single monocular RGB image has been a challenging problem in computer vision field for many years. In this paper, we propose a SR-Affine approach for high-quality 3D hand model reconstruction. First, we propose an encoder-decoder network architecture (AffineNet) for MANO hand reconstruction. Since MANO hand is not detailed, we further propose SRNet to up-sampling point-clouds by image super-resolution on the UV map. Many experiments demonstrate that our approach is robust and outperforms the state-of-the-art methods on standard benchmarks, including the FreiHAND and HO3D datasets. | 翻訳日:2021-02-09 15:42:23 公開日:2021-02-07 |
# AdaBelief Optimizer と Crop Invariance を用いた逆例生成 Adversarial example generation with AdaBelief Optimizer and Crop Invariance ( http://arxiv.org/abs/2102.03726v1 ) ライセンス: Link先を確認 | Bo Yang, Hengwei Zhang, Yuchen Zhang, Kaiyong Xu, Jindong Wang | (参考訳) ディープニューラルネットワークは、オリジナルの画像に小さな人間の知覚できない摂動を適用し、深層ニューラルネットワークを誤誘導して不正確な予測を出力することで、敵の例に弱い。
したがって、敵の攻撃は、安全クリティカルなアプリケーションで堅牢なモデルを評価し、選択する重要な方法です。
しかし、挑戦的なブラックボックス設定の下で、ほとんどの既存の敵対攻撃は、しばしば敵対訓練されたネットワークと高度な防衛モデルで比較的低い成功率を達成します。
本稿では,AdaBelief Iterative Fast Gradient Method (ABI-FGM)とCrop-Invariant attack Method (CIM)を提案する。
ABI-FGMとCIMは、ブラックボックス攻撃の敵例の成功率をさらに高めるために、強力な勾配ベースの攻撃を構築するために容易に統合できる。
さらに、私たちの方法は、自然に他のグラデーションベースの攻撃方法と組み合わせて、より堅牢な攻撃を構築し、防御モデルに対するより転送可能な敵対的な例を生成することもできます。
ImageNetデータセットの広範な実験は、メソッドの有効性を示しています。
敵対的に訓練されたネットワークや高度な防御モデルにおいて,本手法は最先端の勾配に基づく攻撃手法よりも高い成功率を示す。 Deep neural networks are vulnerable to adversarial examples, which are crafted by applying small, human-imperceptible perturbations on the original images, so as to mislead deep neural networks to output inaccurate predictions. Adversarial attacks can thus be an important method to evaluate and select robust models in safety-critical applications. However, under the challenging black-box setting, most existing adversarial attacks often achieve relatively low success rates on adversarially trained networks and advanced defense models. In this paper, we propose AdaBelief Iterative Fast Gradient Method (ABI-FGM) and Crop-Invariant attack Method (CIM) to improves the transferability of adversarial examples. ABI-FGM and CIM can be readily integrated to build a strong gradient-based attack to further boost the success rates of adversarial examples for black-box attacks. Moreover, our method can also be naturally combined with other gradient-based attack methods to build a more robust attack to generate more transferable adversarial examples against the defense models. Extensive experiments on the ImageNet dataset demonstrate the method's effectiveness. Whether on adversarially trained networks or advanced defense models, our method has higher success rates than state-of-the-art gradient-based attack methods. | 翻訳日:2021-02-09 15:42:15 公開日:2021-02-07 |
# DPointNet:ポイントクラウドにおける3Dオブジェクト検出のための密度指向ポイントネット DPointNet: A Density-Oriented PointNet for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2102.03747v1 ) ライセンス: Link先を確認 | Jie Li, Yu Hu | (参考訳) 現在の物体検出器では、特徴抽出演算子の受容領域のスケールは通常層単位で増大する。
これらの演算子はCNNの畳み込み層やPointNet++のセット抽象化層といったスケール指向演算子と呼ばれる。
スケール指向演算子は、マルチスケールオブジェクトを持つ2Dイメージに適しているが、マルチ密度だがスケール不変なオブジェクトを持つ3Dポイントクラウドでは自然ではない。
本稿では,点群における3次元物体検出のための新しい密度指向ポイントネット(dpointnet)について述べる。
物体検出実験では、DPointNet が PointRCNN に適用され、提案された DPointNet の有効性を検証するベースライン PointRCNN よりも、新しい演算子を搭載したモデルがより良い性能と高速を達成できることが示された。 For current object detectors, the scale of the receptive field of feature extraction operators usually increases layer by layer. Those operators are called scale-oriented operators in this paper, such as the convolution layer in CNN, and the set abstraction layer in PointNet++. The scale-oriented operators are appropriate for 2D images with multi-scale objects, but not natural for 3D point clouds with multi-density but scale-invariant objects. In this paper, we put forward a novel density-oriented PointNet (DPointNet) for 3D object detection in point clouds, in which the density of points increases layer by layer. In experiments for object detection, the DPointNet is applied to PointRCNN, and the results show that the model with the new operator can achieve better performance and higher speed than the baseline PointRCNN, which verify the effectiveness of the proposed DPointNet. | 翻訳日:2021-02-09 15:41:55 公開日:2021-02-07 |
# アノテーション効率の高い組織病理画像解析のための自己監督駆動整合性訓練 Self-supervised driven consistency training for annotation efficient histopathology image analysis ( http://arxiv.org/abs/2102.03897v1 ) ライセンス: Link先を確認 | Chetan L. Srinidhi, Seung Wook Kim, Fu-Der Chen, Anne L. Martel | (参考訳) 大きなラベル付きデータセットでニューラルネットワークをトレーニングすることは、計算病理学において依然として支配的なパラダイムである。
しかし、このような徹底的な手動アノテーションの取得は、しばしば高価で手間がかかり、サーバ間およびオブジェクト間の変動が起こりやすい。
最近の自己監視および半監視メソッドは、教師なしの機能表現を学習することによってこのニーズを軽減することができますが、ラベル付きインスタンスの数が少ない場合、ダウンストリームタスクにうまく一般化することは依然として困難です。
In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data.
2つの分類と1つの回帰ベースのタスク、すなわち腫瘍転移検出、組織型分類、および腫瘍細胞性定量に関する3つの組織病理学的ベンチマークデータセットに関する広範な検証実験を実施します。
限られたラベルデータに基づいて、提案手法は、他の最先端の自己監督および監督ベースラインに近づいたり、さらに性能を上回ったりする有形改善をもたらす。
さらに、自己教師付き事前学習機能のブートストラップは、標準ベンチマークにおけるタスク固有の半教師付き学習を改善する効果的な方法であることを示す。 Training a neural network with a large labeled dataset is still a dominant paradigm in computational histopathology. However, obtaining such exhaustive manual annotations is often expensive, laborious, and prone to inter and Intra-observer variability. While recent self-supervised and semi-supervised methods can alleviate this need by learn-ing unsupervised feature representations, they still struggle to generalize well to downstream tasks when the number of labeled instances is small. In this work, we overcome this challenge by leveraging both task-agnostic and task-specific unlabeled data based on two novel strategies: i) a self-supervised pretext task that harnesses the underlying multi-resolution contextual cues in histology whole-slide images to learn a powerful supervisory signal for unsupervised representation learning; ii) a new teacher-student semi-supervised consistency paradigm that learns to effectively transfer the pretrained representations to downstream tasks based on prediction consistency with the task-specific un-labeled data. We carry out extensive validation experiments on three histopathology benchmark datasets across two classification and one regression-based tasks, i.e., tumor metastasis detection, tissue type classification, and tumor cellularity quantification. Under limited-label data, the proposed method yields tangible improvements, which is close or even outperforming other state-of-the-art self-supervised and supervised baselines. Furthermore, we empirically show that the idea of bootstrapping the self-supervised pretrained features is an effective way to improve the task-specific semi-supervised learning on standard benchmarks. | 翻訳日:2021-02-09 15:41:39 公開日:2021-02-07 |
# アートワークのための図像キャプション Iconographic Image Captioning for Artworks ( http://arxiv.org/abs/2102.03942v1 ) ライセンス: Link先を確認 | Eva Cetinic | (参考訳) 画像キャプションは、視覚入力のみに基づいて自動的に画像のテキスト記述を生成することを意味する。
これは近年、広く取り上げられている研究テーマですが、美術史データの分野ではあまり貢献されていません。
この文脈では、画像キャプションのタスクは、画像テキストペアの大規模なデータセットの欠如、アートワークの記述に関連する意味の複雑さ、専門家レベルのアノテーションの必要性など、様々な課題に直面している。
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを活用することで,これらの課題に対処することを目的とする。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
自然画像のキャプションを生成するという最先端の成果に動機づけられ、トランスフォーマーベースの視覚言語事前学習モデルがアートワーク画像データセットを用いて微調整される。
結果の定量的評価は,標準画像キャプション指標を用いて行う。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
その結果,自然画像データセットでのみトレーニングされたモデルから得られたキャプションと比較して,美術史の文脈に強い関連性を示す有意義なキャプションを生成できることが示唆された。 Image captioning implies automatically generating textual descriptions of images based only on the visual input. Although this has been an extensively addressed research topic in recent years, not many contributions have been made in the domain of art historical data. In this particular context, the task of image captioning is confronted with various challenges such as the lack of large-scale datasets of image-text pairs, the complexity of meaning associated with describing artworks and the need for expert-level annotations. This work aims to address some of those challenges by utilizing a novel large-scale dataset of artwork images annotated with concepts from the Iconclass classification system designed for art and iconography. The annotations are processed into clean textual description to create a dataset suitable for training a deep neural network model on the image captioning task. Motivated by the state-of-the-art results achieved in generating captions for natural images, a transformer-based vision-language pre-trained model is fine-tuned using the artwork image dataset. Quantitative evaluation of the results is performed using standard image captioning metrics. The quality of the generated captions and the model's capacity to generalize to new data is explored by employing the model on a new collection of paintings and performing an analysis of the relation between commonly generated captions and the artistic genre. The overall results suggest that the model can generate meaningful captions that exhibit a stronger relevance to the art historical context, particularly in comparison to captions obtained from models trained only on natural image datasets. | 翻訳日:2021-02-09 15:41:15 公開日:2021-02-07 |
# 微分メタ機能を用いたハイパーパラメータ最適化 Hyperparameter Optimization with Differentiable Metafeatures ( http://arxiv.org/abs/2102.03776v1 ) ライセンス: Link先を確認 | Hadi S. Jomaa, Lars Schmidt-Thieme, Josif Grabocka | (参考訳) ハイパーパラメータ最適化(HPO)の性能向上のために,メタ機能,すなわちデータセット特性が示されている。
従来、メタデータは事前計算され、データセット間の類似度を測定するために使用され、HPOモデルのより優れた初期化につながる。
本稿では,DMFBS(diffariable Metafeature-based Surrogate)と呼ばれる,ハイパーパラメータ応答を予測するクロスデータセットサロゲートモデルを提案する。
検証損失 – 手元のデータセットでトレーニングされたモデルの検証損失。
既存のモデルとは対照的に、dmfbs i) は微分可能なメタ特徴抽出器を統合し、ii) 新しいマルチタスク損失を用いて最適化され、多様体正規化と補助データセット識別メタタスクで学習されたデータセット類似度測度をリンクし、類似したデータセットに対する応答近似を効果的に強制する。
DMFBSをHPOの3つの大規模メタデータセットの最近のモデルと比較し、平均10%の改善でその性能を一貫して上回っていることを示す。
最後に、我々のアプローチの異なるコンポーネントを調べるための広範囲なアブレーション研究を提供する。 Metafeatures, or dataset characteristics, have been shown to improve the performance of hyperparameter optimization (HPO). Conventionally, metafeatures are precomputed and used to measure the similarity between datasets, leading to a better initialization of HPO models. In this paper, we propose a cross dataset surrogate model called Differentiable Metafeature-based Surrogate (DMFBS), that predicts the hyperparameter response, i.e. validation loss, of a model trained on the dataset at hand. In contrast to existing models, DMFBS i) integrates a differentiable metafeature extractor and ii) is optimized using a novel multi-task loss, linking manifold regularization with a dataset similarity measure learned via an auxiliary dataset identification meta-task, effectively enforcing the response approximation for similar datasets to be similar. We compare DMFBS against several recent models for HPO on three large meta-datasets and show that it consistently outperforms all of them with an average 10% improvement. Finally, we provide an extensive ablation study that examines the different components of our approach. | 翻訳日:2021-02-09 15:36:26 公開日:2021-02-07 |
# 付加的特徴ハッシング Additive Feature Hashing ( http://arxiv.org/abs/2102.03943v1 ) ライセンス: Link先を確認 | M. Andrecut | (参考訳) ハッシュトリックは、分類的特徴を予め定義された固定長の数値ベクトル表現に符号化する機械学習技術である。
これは、カテゴリハッシュ値をベクトルインデックスとして使用し、それらのインデックスでベクトル値を更新することで機能する。
本稿では,高次元ランダムベクトルの加法ハッシングと「ほぼ直交」特性に基づく異なるアプローチについて考察する。
すなわち,ハッシュ値を加えて高次元の数値ベクトルに変換することで,付加的特徴ハッシュを直接行うことができることを示す。
また,合成,言語認識,smsスパム検出データを用いて,加算特徴ハッシュの性能がハッシュ手法に類似していることを示し,その結果を数値的に示す。 The hashing trick is a machine learning technique used to encode categorical features into a numerical vector representation of pre-defined fixed length. It works by using the categorical hash values as vector indices, and updating the vector values at those indices. Here we discuss a different approach based on additive-hashing and the "almost orthogonal" property of high-dimensional random vectors. That is, we show that additive feature hashing can be performed directly by adding the hash values and converting them into high-dimensional numerical vectors. We show that the performance of additive feature hashing is similar to the hashing trick, and we illustrate the results numerically using synthetic, language recognition, and SMS spam detection data. | 翻訳日:2021-02-09 15:36:07 公開日:2021-02-07 |
# 空間情報とマルチスピーカコンディショニング機構を用いた時間領域音声抽出 Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism ( http://arxiv.org/abs/2102.03762v1 ) ライセンス: Link先を確認 | Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker | (参考訳) 本稿では,雑音環境と残響環境の混合から複数のクリーンな個人源を同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は, 複数チャンネル時間領域音声分離ネットワークを改良し, 話者埋め込みを用いて, ラベル置換のあいまいさを伴わない複数のターゲットを同定・抽出する。
抽出モデルに話者情報を効率的に通知するために,外部話者埋め込みを受信するための追加話者分岐を設計し,新しい話者条件付け機構を提案する。
2チャンネルwhamrの実験!
提案手法は,複数チャネルのベースラインに対して,9%の精度で音源分離性能が向上し,同一ベースラインに対して音声認識精度が16%以上向上することを示す。 In this paper, we present a novel multi-channel speech extraction system to simultaneously extract multiple clean individual sources from a mixture in noisy and reverberant environments. The proposed method is built on an improved multi-channel time-domain speech separation network which employs speaker embeddings to identify and extract multiple targets without label permutation ambiguity. To efficiently inform the speaker information to the extraction model, we propose a new speaker conditioning mechanism by designing an additional speaker branch for receiving external speaker embeddings. Experiments on 2-channel WHAMR! data show that the proposed system improves by 9% relative the source separation performance over a strong multi-channel baseline, and it increases the speech recognition accuracy by more than 16% relative over the same baseline. | 翻訳日:2021-02-09 15:30:01 公開日:2021-02-07 |
# RaSE:ランダムサブスペースアンサンブルによる可変スクリーニングフレームワーク RaSE: A Variable Screening Framework via Random Subspace Ensembles ( http://arxiv.org/abs/2102.03892v1 ) ライセンス: Link先を確認 | Ye Tian, Yang Feng | (参考訳) 可変スクリーニング法は超高次元設定下での次元減少に有効であることが示されている。
ほとんどの既存のスクリーニング方法は、応答に対する個々の貢献に応じて予測子をランク付けするように設計されている。
結果として、わずかな独立性を持つが、応答に共同で依存する変数を見逃すことができた。
本研究では,変数探索のための新しいフレームワークであるランダム部分空間アンサンブル(RaSE)を提案し,複数の予測器をカバーするランダム部分空間の品質を評価する。
この新しいスクリーニングフレームワークは、任意のサブスペース評価基準と自然に組み合わせることができ、スクリーニング方法の配列につながります。
このフレームワークは、マージン効果や高次相互作用効果のない信号を識別することができる。
確実なスクリーニング特性とランク一貫性を享受できることが示されている。
また,理論的支援を伴うRaSEスクリーニングの反復版も開発している。
詳細なシミュレーション研究と実データ解析により,新しいスクリーニングフレームワークの有効性が示された。 Variable screening methods have been shown to be effective in dimension reduction under the ultra-high dimensional setting. Most existing screening methods are designed to rank the predictors according to their individual contributions to the response. As a result, variables that are marginally independent but jointly dependent with the response could be missed. In this work, we propose a new framework for variable screening, Random Subspace Ensemble (RaSE), which works by evaluating the quality of random subspaces that may cover multiple predictors. This new screening framework can be naturally combined with any subspace evaluation criterion, which leads to an array of screening methods. The framework is capable to identify signals with no marginal effect or with high-order interaction effects. It is shown to enjoy the sure screening property and rank consistency. We also develop an iterative version of RaSE screening with theoretical support. Extensive simulation studies and real-data analysis show the effectiveness of the new screening framework. | 翻訳日:2021-02-09 15:29:30 公開日:2021-02-07 |
# 果樹のLiDARスキャンを用いた自動樹刈りの提案法 A procedure for automated tree pruning suggestion using LiDAR scans of fruit trees ( http://arxiv.org/abs/2102.03700v1 ) ライセンス: Link先を確認 | Fredrik Westling and James Underwood and Mitch Bryson | (参考訳) 果樹栽培において、刈り込みは過密化を防ぎ、光への天蓋のアクセスを改善し、再成長を促進するための重要な管理手法である。
農業が遅いため、刈り取りの意思決定は通常、データ駆動分析ではなく、伝統や親指の規則を用いて行われる。
既存のアルゴリズムによるシミュレーションベースのアプローチの多くは、高忠実なデジタルキャプチャや純粋にコンピュータ生成のフルーツツリーに依存しており、果樹園のスケールで具体的な結果を提供することができない。
本論文では,キャノピー全体における光分布の改善に焦点をあてたスコアリング機能を用いて,LiDARをスキャンした市販果樹のプランニング戦略を提案する。
樹木の収量特性を比較分析するために, 樹木の光量と大きさに基づいて樹形を評価できる得点関数を開発し, 収量特性に対する妥当性を検証し, アボカドでは$r^2$スコア0.615, マンゴーでは0.506で果樹数と適度な相関を示した。
木の構造解析を用いて,木点雲のどの部分を特定の切断点から除去するかをアルゴリズムで推定し,144実験で平均0.78のF1スコアで実験的に検証した。
最後に,新しい刈り取り場所を提案し,これらの提案を考慮し,これまでの2つの段階を用いて木の改良を推定した。
光分布は25.15\%まで改善され、実樹の商業的刈り取りよりも16\%向上し、木量に対する負の影響を小さくして光分布を改善できるいくつかの切断点が発見された。
最終結果は、商業栽培者のための意思決定ツールとしてのフレームワークの価値や、プロセス全体を人間の介入で行うことができることから、自動刈り出しの出発点としての価値を示唆している。 In fruit tree growth, pruning is an important management practice for preventing overcrowding, improving canopy access to light and promoting regrowth. Due to the slow nature of agriculture, decisions in pruning are typically made using tradition or rules of thumb rather than data-driven analysis. Many existing algorithmic, simulation-based approaches rely on high-fidelity digital captures or purely computer-generated fruit trees, and are unable to provide specific results on an orchard scale. We present a framework for suggesting pruning strategies on LiDAR-scanned commercial fruit trees using a scoring function with a focus on improving light distribution throughout the canopy. A scoring function to assess the quality of the tree shape based on its light availability and size was developed for comparative analysis between trees, and was validated against yield characteristics, demonstrating a reasonable correlation against fruit count with an $R^2$ score of 0.615 for avocado and 0.506 for mango. A tool was implemented for simulating pruning by algorithmically estimating which parts of a tree point cloud would be removed given specific cut points using structural analysis of the tree, validated experimentally with an average F1 score of 0.78 across 144 experiments. Finally, new pruning locations were suggested and we used the previous two stages to estimate the improvement of the tree given these suggestions. The light distribution was improved by up to 25.15\%, demonstrating a 16\% improvement over commercial pruning on a real tree, and certain cut points were discovered which improved light distribution with a smaller negative impact on tree volume. The final results suggest value in the framework as a decision making tool for commercial growers, or as a starting point for automated pruning since the entire process can be performed with little human intervention. | 翻訳日:2021-02-09 15:27:23 公開日:2021-02-07 |
# MULLS:多次元線形最小方形による垂直LiDARSLAM MULLS: Versatile LiDAR SLAM via Multi-metric Linear Least Square ( http://arxiv.org/abs/2102.03771v1 ) ライセンス: Link先を確認 | Yue Pan, Pengchuan Xiao, Yujie He, Zhenlei Shao, Zesong Li | (参考訳) 自動運転とモバイルマッピングの急速な開発は、さまざまな複雑なシナリオで異なる仕様のLiDARに適応する既製のLiDAR SLAMソリューションを必要とします。
そこで本研究では,効率よく,低ドリフト,多用途3D LiDAR SLAMシステムであるMULLSを提案する。
フロントエンドについては、大まかに分類された特徴点(地面、ファサード、柱、梁など)
各フレームからdual-threshold ground filteringと主成分分析を用いて抽出する。
次に、提案するマルチメトリック線形最小二乗反復最短点アルゴリズムにより、現在のフレームとローカルサブマップの登録を効率的に行う。
各点クラス内の点対点(平面、直線)誤差メトリクスは、エゴ運動を推定するために線形近似と共同で最適化される。
登録されたフレームの静的な特徴点がローカルマップに追加され、更新される。
バックエンドでは、定期的に保存された履歴サブマップ間で階層的なポーズグラフ最適化を行い、デッドリコーミングによるドリフトを低減する。
さまざまな屋外および屋内シナリオで6種類のLiDARによって収集された100,000以上のフレームを持つ3つのデータセットで広範な実験が行われます。
KITTIベンチマークでは、MULLSはリアルタイムパフォーマンスでLiDARのみのSLAMシステムにランクインしている。 The rapid development of autonomous driving and mobile mapping calls for off-the-shelf LiDAR SLAM solutions that are adaptive to LiDARs of different specifications on various complex scenarios. To this end, we propose MULLS, an efficient, low-drift, and versatile 3D LiDAR SLAM system. For the front-end, roughly classified feature points (ground, facade, pillar, beam, etc.) are extracted from each frame using dual-threshold ground filtering and principal components analysis. Then the registration between the current frame and the local submap is accomplished efficiently by the proposed multi-metric linear least square iterative closest point algorithm. Point-to-point (plane, line) error metrics within each point class are jointly optimized with a linear approximation to estimate the ego-motion. Static feature points of the registered frame are appended into the local map to keep it updated. For the back-end, hierarchical pose graph optimization is conducted among regularly stored history submaps to reduce the drift resulting from dead reckoning. Extensive experiments are carried out on three datasets with more than 100,000 frames collected by six types of LiDAR on various outdoor and indoor scenarios. On the KITTI benchmark, MULLS ranks among the top LiDAR-only SLAM systems with real-time performance. | 翻訳日:2021-02-09 15:26:48 公開日:2021-02-07 |
# データ増強と自己監督学習による新型コロナ重症度評価のための新しい複数インスタンス学習フレームワーク A novel multiple instance learning framework for COVID-19 severity assessment via data augmentation and self-supervised learning ( http://arxiv.org/abs/2102.03837v1 ) ライセンス: Link先を確認 | Zekun Li, Wei Zhao, Feng Shi, Lei Qi, Xingzhi Xie, Ying Wei, Zhongxiang Ding, Yang Gao, Shangjie Wu, Jun Liu, Yinghuan Shi, Dinggang Shen | (参考訳) 新型コロナウイルスの重症度を迅速かつ正確に評価する方法は、世界中の何百万人もの人々がパンデミックに苦しんでいるとき、不可欠な問題です。
現在、胸部CTは新型コロナウイルスの診断に人気があり、有益な画像診断ツールとされている。
しかし、ct画像によるcovid-19自動重症度評価を阻害する弱いアノテーションと不十分なデータという2つの問題がある。
そこで本研究では,この3つの課題を解決するために,(1)バッグを共同分類し,また,インスタンスを計量するインスタンスレベルの深いインスタンス学習コンポーネント,2)高機密インスタンスを再構成して仮想バッグを生成するバッグレベルのデータ拡張コンポーネント,3)学習プロセスを支援する自己監視型プリテキストコンポーネントという,新しい3つのコンポーネントの手法を提案する。
重症例50例,非重症例179例を含む229例のCT画像について体系的に検討した。
平均精度は95.8%,感度93.6%,特異度96.4%であり,従来よりも優れていた。 How to fast and accurately assess the severity level of COVID-19 is an essential problem, when millions of people are suffering from the pandemic around the world. Currently, the chest CT is regarded as a popular and informative imaging tool for COVID-19 diagnosis. However, we observe that there are two issues -- weak annotation and insufficient data that may obstruct automatic COVID-19 severity assessment with CT images. To address these challenges, we propose a novel three-component method, i.e., 1) a deep multiple instance learning component with instance-level attention to jointly classify the bag and also weigh the instances, 2) a bag-level data augmentation component to generate virtual bags by reorganizing high confidential instances, and 3) a self-supervised pretext component to aid the learning process. We have systematically evaluated our method on the CT images of 229 COVID-19 cases, including 50 severe and 179 non-severe cases. Our method could obtain an average accuracy of 95.8%, with 93.6% sensitivity and 96.4% specificity, which outperformed previous works. | 翻訳日:2021-02-09 15:26:32 公開日:2021-02-07 |
# WiSleep:パッシブWiFiセンシングによるスケーラブルな睡眠モニタリングと分析 WiSleep: Scalable Sleep Monitoring and Analytics Using Passive WiFi Sensing ( http://arxiv.org/abs/2102.03690v1 ) ライセンス: Link先を確認 | Priyanka Mary Mammen, Camellia Zakaria, Tergel Molom-Ochir, Amee Trivedi, Prashant Shenoy, Rajesh Balan | (参考訳) 睡眠不足は公衆衛生上の懸念であり、健康とパフォーマンスに大きく影響します。
睡眠は親密な経験であり、最先端の睡眠モニタリングソリューションは個々のユーザーに高度にパーソナライズされている。
睡眠モニタリングを大規模に拡張し、睡眠データを公衆衛生の理解に貢献する動機として、WiFiインフラから受動的に感知されるスマートフォンネットワーク接続を使用した睡眠監視および分析プラットフォームであるWiSleepを紹介します。
本稿では,ベイズ変換点検出の非監視アンサンブルモデルを提案し,睡眠時間や目覚め時間を予測する。
そこで,キャンパスドミトリーと民家におけるユーザスタディから,地道な真理を用いたアプローチを検証した。
その結果、WiSleepは、不規則な睡眠パターンを持つユーザーに対して確立された手法を上回り、平均79.5\%の精度で通常の睡眠者に対して匹敵する精度が得られることがわかった。
これはクライアントサイドのメソッドに匹敵するが、粗い情報のみを利用する。
最後に、WiSleepは単一のコモディティサーバー上で20,000人のユーザーからのデータを処理することができ、サーバー要件の低い大規模なキャンパス人口にスケールすることができます。 Sleep deprivation is a public health concern that significantly impacts one's well-being and performance. Sleep is an intimate experience, and state-of-the-art sleep monitoring solutions are highly-personalized to individual users. With a motivation to expand sleep monitoring at a large-scale and contribute sleep data to public health understanding, we present WiSleep, a sleep monitoring and analytics platform using smartphone network connections that are passively sensed from WiFi infrastructure. We propose an unsupervised ensemble model of Bayesian change point detection to predict sleep and wake-up times. Then, we validate our approach using ground truth from a user study in campus dormitories and a private home. Our results find WiSleep outperforming established methods for users with irregular sleep patterns while yielding comparable accuracy for regular sleepers with an average 79.5\% accuracy. This is comparable to client-side based methods, albeit utilizing only coarse-grained information. Finally, we show that WiSleep can process data from 20,000 users on a single commodity server, allowing it to scale to large campus populations with low server requirements. | 翻訳日:2021-02-09 15:22:13 公開日:2021-02-07 |
# 名前には何がありますか?
--文字ベース機械学習モデルを用いた名前のジェンダー分類 What's in a Name? -- Gender Classification of Names with Character Based Machine Learning Models ( http://arxiv.org/abs/2102.03692v1 ) ライセンス: Link先を確認 | Yifan Hu, Changwei Hu, Thanh Tran, Tejaswi Kasturi, Elizabeth Joseph, Matt Gillingham | (参考訳) 多くの大手インターネット企業でアカウントを登録する場合、性別情報はもはや必須入力ではありません。
しかし、特にレコメンダシステムにおける意図しない性別/年齢バイアスの介入において、性別や年齢などの人口統計情報の予測は重要な課題である。
したがって、登録中にこの情報を提供しなかったユーザーの性別を推測する必要があります。
本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上のユーザーのファーストネームを分析した結果、性別は名前文字列の合成を使って非常に効果的に分類できることがわかった。
我々は,多数の文字ベース機械学習モデルを提案し,我々のモデルがベースラインモデルよりもはるかに高い精度でユーザの性別を推測できることを実証した。
さらに,初期名に加えて最終名を用いることで,分類性能が向上することを示す。 Gender information is no longer a mandatory input when registering for an account at many leading Internet companies. However, prediction of demographic information such as gender and age remains an important task, especially in intervention of unintentional gender/age bias in recommender systems. Therefore it is necessary to infer the gender of those users who did not to provide this information during registration. We consider the problem of predicting the gender of registered users based on their declared name. By analyzing the first names of 100M+ users, we found that genders can be very effectively classified using the composition of the name strings. We propose a number of character based machine learning models, and demonstrate that our models are able to infer the gender of users with much higher accuracy than baseline models. Moreover, we show that using the last names in addition to the first names improves classification performance further. | 翻訳日:2021-02-09 15:21:52 公開日:2021-02-07 |
# 航空破壊管理のための探索データ解析 Exploratory Data Analysis for Airline Disruption Management ( http://arxiv.org/abs/2102.03711v1 ) ライセンス: Link先を確認 | Kolawole Ogunsina, Ilias Bilionis, Daniel DeLaurentis | (参考訳) 航空会社のスケジュール運用中にデータ照合を行うための信頼できるプラットフォームは、航空会社のスケジュール破壊を効果的に管理するための利用可能な情報の品質と量を大幅に増加させた。
そこで,本稿では,米国の主要航空会社の履歴スケジューリングと運用データを解析するために,基本統計と機械学習を用いてマクロな手法と顕微鏡的手法を適用した。
巨視的結果は、1年間のフライト遅延による混乱に起因する航空会社のスケジュールの不規則な操作の大部分が、ガウスプロセスのような航空会社の混乱管理のための重要なドライバーに関するさまざまなモデリングの仮定を検証する。 Reliable platforms for data collation during airline schedule operations have significantly increased the quality and quantity of available information for effectively managing airline schedule disruptions. To that effect, this paper applies macroscopic and microscopic techniques by way of basic statistics and machine learning, respectively, to analyze historical scheduling and operations data from a major airline in the United States. Macroscopic results reveal that majority of irregular operations in airline schedule that occurred over a one-year period stemmed from disruptions due to flight delays, while microscopic results validate different modeling assumptions about key drivers for airline disruption management like turnaround as a Gaussian process. | 翻訳日:2021-02-09 15:21:38 公開日:2021-02-07 |
# ヘルスケアにおける機械学習モデルの分類パリティの公平性評価 Assessing Fairness in Classification Parity of Machine Learning Models in Healthcare ( http://arxiv.org/abs/2102.03717v1 ) ライセンス: Link先を確認 | Ming Yuan, Vikas Kumar, Muhammad Aurangzeb Ahmad, Ankur Teredesai | (参考訳) AIシステムと機械学習システムの公正性は、AIシステムの説明責任における根本的な問題となっている。
AIモデルのアカウンタビリティの必要性は至るところにあるが、特に医療は、このようなシステムのカウンタビリティが、医療における決定が人生を変える結果をもたらすため、さらなる重要性を負う難しい分野である。
本稿では,医療における分類パリティの文脈における公平性に関する予備的結果を示す。
また,公平性を改善し,適切な分類アルゴリズムを選択するための探索的手法を提案する。 Fairness in AI and machine learning systems has become a fundamental problem in the accountability of AI systems. While the need for accountability of AI models is near ubiquitous, healthcare in particular is a challenging field where accountability of such systems takes upon additional importance, as decisions in healthcare can have life altering consequences. In this paper we present preliminary results on fairness in the context of classification parity in healthcare. We also present some exploratory methods to improve fairness and choosing appropriate classification algorithms in the context of healthcare. | 翻訳日:2021-02-09 15:21:26 公開日:2021-02-07 |
# グラフ畳み込みネットワークを用いた集合格子のバクテリオファージ分類 Bacteriophage classification for assembled contigs using Graph Convolutional Network ( http://arxiv.org/abs/2102.03746v1 ) ライセンス: Link先を確認 | Jiayu Shang and Jingzhe Jiang and Yanni Sun | (参考訳) モチベーション:バクテリオファージ(別名ファージ)は主に細菌に感染し、微生物の生物学において重要な役割を果たす。
地球上で最も豊富な生物として、発見されているファージの数は氷山の一角に過ぎない。
近年,高スループットシークエンシング,特にメッサージノミクスシークエンシングによって新しいファージが多数明らかにされている。
ファージ様配列の高速な蓄積と比較すると、ファージの分類学的分類には深刻な遅れがある。
高い多様性、豊富さ、限られた既知のファージは分類学解析に大きな課題をもたらす。
特にアライメントベースのツールは、メタゲノミクスデータから組み立てられた高速に蓄積されたコンティグの分類が困難である。
結果:本研究では,ファージの分類分類を行うため,PhaGCNという新たな半教師付き学習モデルを提案する。
この学習モデルでは、畳み込みニューラルネットワーク(CNN)で得られたDNA配列の特徴と遺伝子共有ネットワークから得られたタンパク質配列類似性を組み合わせて知識グラフを構築する。
次に、グラフ畳み込みネットワーク(GCN)を用いて、ラベル付きサンプルとラベルなしサンプルの両方をトレーニングで活用し、学習能力を向上する。
シミュレーションおよび実シークエンシングデータを用いてPhaGCNを試験した。
その結果,本手法は利用可能なファージ分類ツールと良好に競合することが明らかとなった。 Motivation: Bacteriophages (aka phages), which mainly infect bacteria, play key roles in the biology of microbes. As the most abundant biological entities on the planet, the number of discovered phages is only the tip of the iceberg. Recently, many new phages have been revealed using high throughput sequencing, particularly metagenomic sequencing. Compared to the fast accumulation of phage-like sequences, there is a serious lag in taxonomic classification of phages. High diversity, abundance, and limited known phages pose great challenges for taxonomic analysis. In particular, alignment-based tools have difficulty in classifying fast accumulating contigs assembled from metagenomic data. Results: In this work, we present a novel semi-supervised learning model, named PhaGCN, to conduct taxonomic classification for phage contigs. In this learning model, we construct a knowledge graph by combining the DNA sequence features learned by convolutional neural network (CNN) and protein sequence similarity gained from gene-sharing network. Then we apply graph convolutional network (GCN) to utilize both the labeled and unlabeled samples in training to enhance the learning ability. We tested PhaGCN on both simulated and real sequencing data. The results clearly show that our method competes favorably against available phage classification tools. | 翻訳日:2021-02-09 15:21:17 公開日:2021-02-07 |
# ブラックボックスモデル判別のための動的実験の設計 Design of Dynamic Experiments for Black-Box Model Discrimination ( http://arxiv.org/abs/2102.03782v1 ) ライセンス: Link先を確認 | Simon Olofsson and Eduardo S. Schultz and Adel Mhamdi and Alexander Mitsos and Marc Peter Deisenroth and Ruth Misener | (参考訳) 科学と工学の様々な領域は、例えば力学の数学的モデルを必要とする。
微分代数方程式のシステム。
このようなモデルは、しばしばデータから推定される不確実なパラメータを含む。
選択したいような動的モデル判別の設定を考えてみましょう。 (i) 最高のメカニスティックな時間変化モデルと (ii) 最高のモデルパラメータ推定値です。
これらのタスクはしばしばモデル識別/選択/検証/検証と呼ばれます。
典型的には、複数の競合する力学モデルがデータを説明できるため、利用可能なデータを取り入れ、より多くのデータを集めるための新しい実験も実行します。
モデル判別のための動的実験の設計は、データを最適に収集するのに役立つ。
勾配情報にアクセスできる競合する力学モデルでは、既存の手法を拡張して幅広い問題不確実性を取り入れ、提案手法が不確実性を考慮した場合の歴史的アプローチと等価であることを示す。
また、競合する力学モデルについても、評価可能な動的ブラックボックスとみなす。
レガシコードを実行することで、グラデーションや他の高度な情報は利用できない。
これらのブラックボックスモデルをガウス過程サロゲートモデルに置き換え、モデル識別設定を拡張して、ライバルブラックボックスモデルも組み込む。
また、ガウス過程を近似勾配法に用いた結果についても検討する。 Diverse domains of science and engineering require and use mechanistic mathematical models, e.g. systems of differential algebraic equations. Such models often contain uncertain parameters to be estimated from data. Consider a dynamic model discrimination setting where we wish to chose: (i) what is the best mechanistic, time-varying model and (ii) what are the best model parameter estimates. These tasks are often termed model discrimination/selection/validation/verification. Typically, several rival mechanistic models can explain data, so we incorporate available data and also run new experiments to gather more data. Design of dynamic experiments for model discrimination helps optimally collect data. For rival mechanistic models where we have access to gradient information, we extend existing methods to incorporate a wider range of problem uncertainty and show that our proposed approach is equivalent to historical approaches when limiting the types of considered uncertainty. We also consider rival mechanistic models as dynamic black boxes that we can evaluate, e.g. by running legacy code, but where gradient or other advanced information is unavailable. We replace these black-box models with Gaussian process surrogate models and thereby extend the model discrimination setting to additionally incorporate rival black-box model. We also explore the consequences of using Gaussian process surrogates to approximate gradient-based methods. | 翻訳日:2021-02-09 15:20:59 公開日:2021-02-07 |
# 大規模グラフ上の効率的かつスケーラブルなクラスタリング Effective and Scalable Clustering on Massive Attributed Graphs ( http://arxiv.org/abs/2102.03826v1 ) ライセンス: Link先を確認 | Renchi Yang, Jieming Shi, Yin Yang, Keke Huang, Shiqi Zhang and Xiaokui Xiao | (参考訳) 各ノードが属性の集合に関連付けられているグラフGと、出力クラスタの数を指定するパラメータkと、Gのk属性グラフクラスタリング(k-AGC)は、同じクラスタ内のノードが同じ位相特性と属性特性を共有しているように、G内のノードをk非結合クラスタにグループ化する。
この問題は、例えば数百万のノードと数十億のエッジを持つ巨大なグラフでは難しい。
このようなグラフの場合、既存のソリューションは、非常に高いコストを負うか、あるいは妥協された品質でクラスタリング結果を生成する。
In this paper, we propose ACMin, an effective approach to k-AGC that yields high-quality clusters with cost linear to the size of the input graph G. The main contributions of ACMin are twofold: (i) a novel formulation of the k-AGC problem based on an attributed multi-hop conductance quality measure custom-made for this problem setting, which effectively captures cluster coherence in terms of both topological proximities and attribute similarities, and (ii) a linear-time optimization solver that obtains high-quality clusters iteratively, based on efficient matrix operations such as orthogonal iterations, an alternative optimization approach, as well as an initialization technique that significantly speeds up the convergence of ACMin in practice.
6つの実際のデータセット上の11の競合他社を比較した広範な実験は、ACMinが地上トラスラベルに対して測定された結果品質の点ですべての競合他社を一貫して上回ることを示しています。
特に、265.2百万のエッジと11億の属性値を持つMicrosoft Academic Knowledge Graphデータセットでは、ACMinは1つのCPUコアを使用して1.68時間以内に5-AGCの高品質な結果を出力する。 Given a graph G where each node is associated with a set of attributes, and a parameter k specifying the number of output clusters, k-attributed graph clustering (k-AGC) groups nodes in G into k disjoint clusters, such that nodes within the same cluster share similar topological and attribute characteristics, while those in different clusters are dissimilar. This problem is challenging on massive graphs, e.g., with millions of nodes and billions of edges. For such graphs, existing solutions either incur prohibitively high costs, or produce clustering results with compromised quality. In this paper, we propose ACMin, an effective approach to k-AGC that yields high-quality clusters with cost linear to the size of the input graph G. The main contributions of ACMin are twofold: (i) a novel formulation of the k-AGC problem based on an attributed multi-hop conductance quality measure custom-made for this problem setting, which effectively captures cluster coherence in terms of both topological proximities and attribute similarities, and (ii) a linear-time optimization solver that obtains high-quality clusters iteratively, based on efficient matrix operations such as orthogonal iterations, an alternative optimization approach, as well as an initialization technique that significantly speeds up the convergence of ACMin in practice. Extensive experiments, comparing 11 competitors on 6 real datasets, demonstrate that ACMin consistently outperforms all competitors in terms of result quality measured against ground-truth labels, while being up to orders of magnitude faster. In particular, on the Microsoft Academic Knowledge Graph dataset with 265.2 million edges and 1.1 billion attribute values, ACMin outputs high-quality results for 5-AGC within 1.68 hours using a single CPU core, while none of the 11 competitors finish within 3 days. | 翻訳日:2021-02-09 15:20:41 公開日:2021-02-07 |
# 時間的信用割当理解のためのアンサンブル視点 Ensemble perspective for understanding temporal credit assignment ( http://arxiv.org/abs/2102.03740v1 ) ライセンス: Link先を確認 | Wenxuan Zou, Chan Li, and Haiping Huang | (参考訳) 繰り返しニューラルネットワークは、自然言語処理とニューラル人口ダイナミクスの両方で時空間配列のモデリングに広く使用されている。
しかし、時間的クレジットの割り当てを理解することは難しい。
本稿では,再帰計算における個々の接続は,正確な重み値ではなく,スパイクとスラブ分布によってモデル化されることを示す。
次に,ネットワークをアンサンブルレベルで学習するための平均場アルゴリズムを導出する。
次に, 動物の基本認知機能である多感覚統合タスクに, 連続して画素を読み取る際に手書き桁を分類する手法を適用した。
本モデルでは,ネットワーク全体の性能を決定する重要な接続を明らかにする。
モデルはまた、時空間情報が分布のハイパーパラメータを通してどのように処理されるかを示し、さらに、創発性神経選択性の異なるタイプを明らかにする。
したがって、リカレントニューラルネットワークにおける時間的クレジット割り当てをアンサンブルの観点から研究することが期待できる。 Recurrent neural networks are widely used for modeling spatio-temporal sequences in both nature language processing and neural population dynamics. However, understanding the temporal credit assignment is hard. Here, we propose that each individual connection in the recurrent computation is modeled by a spike and slab distribution, rather than a precise weight value. We then derive the mean-field algorithm to train the network at the ensemble level. The method is then applied to classify handwritten digits when pixels are read in sequence, and to the multisensory integration task that is a fundamental cognitive function of animals. Our model reveals important connections that determine the overall performance of the network. The model also shows how spatio-temporal information is processed through the hyperparameters of the distribution, and moreover reveals distinct types of emergent neural selectivity. It is thus promising to study the temporal credit assignment in recurrent neural networks from the ensemble perspective. | 翻訳日:2021-02-09 15:16:41 公開日:2021-02-07 |
# EEGFuseNet:高次元脳波のハイブリッド非教師付き深部特徴評価と融合と感情認識への応用 EEGFuseNet: Hybrid Unsupervised Deep Feature Characterization and Fusion for High-Dimensional EEG with An Application to Emotion Recognition ( http://arxiv.org/abs/2102.03777v1 ) ライセンス: Link先を確認 | Zhen Liang, Rushuang Zhou, Li Zhang, Linling Li, Gan Huang, Zhiguo Zhang and Shin Ishii | (参考訳) 高次元脳波(EEG)から有効で信頼性の高い特徴を効果的に抽出する方法、特に空間的および時間的動的脳情報をより良い特徴表現に融合する方法は、脳データ分析において重要な課題です。
ほとんどのEEG研究は、経験と人間のフィードバックによって非常に制限される監督されたモデリングを備えた手作りの機能に取り組んでいます。
本稿では,EEGFuseNetと呼ばれる,非教師付きディープCNN-RNN-GANに基づくEEG特徴量と融合モデルを提案する。
EEGFuseNetは教師なしの方法で訓練され、空間的および時間的ダイナミクスをカバーする深部脳波特徴が自動的に特徴づけられる。
ハンドクラフト機能と比較すると、ディープEEG機能はより汎用的で、特定のEEGタスクとは独立していると見なすことができる。
eegfusenetによって抽出された深層および低次元特徴の性能は、有名な公開感情データベースに基づく教師なし感情認識アプリケーションにおいて慎重に評価される。
その結果、提案されたEEGFuseNetは堅牢で信頼性の高いモデルであり、動的EEG機能の表現と融合において効率的にトレーニング、管理、実行が容易である。
特に、EEGFuseNetは、EEGベースのクロスサブジェクト感情認識を純粋な非監視方法で実現する可能性を実証する4つの感情次元(有価、興奮、支配、および嗜好)の認識において有望な主観ベースの離職結果と最適な非監視融合モデルとして確立されています。 How to effectively and efficiently extract valid and reliable features from high-dimensional electroencephalography (EEG), particularly how to fuse the spatial and temporal dynamic brain information into a better feature representation, is a critical issue in brain data analysis. Most current EEG studies are working on handcrafted features with a supervised modeling, which would be limited by experience and human feedbacks to a great extent. In this paper, we propose a practical hybrid unsupervised deep CNN-RNN-GAN based EEG feature characterization and fusion model, which is termed as EEGFuseNet. EEGFuseNet is trained in an unsupervised manner, and deep EEG features covering spatial and temporal dynamics are automatically characterized. Comparing to the handcrafted features, the deep EEG features could be considered to be more generic and independent of any specific EEG task. The performance of the extracted deep and low-dimensional features by EEGFuseNet is carefully evaluated in an unsupervised emotion recognition application based on a famous public emotion database. The results demonstrate the proposed EEGFuseNet is a robust and reliable model, which is easy to train and manage and perform efficiently in the representation and fusion of dynamic EEG features. In particular, EEGFuseNet is established as an optimal unsupervised fusion model with promising subject-based leave-one-out results in the recognition of four emotion dimensions (valence, arousal, dominance and liking), which demonstrates the possibility of realizing EEG based cross-subject emotion recognition in a pure unsupervised manner. | 翻訳日:2021-02-09 15:16:27 公開日:2021-02-07 |
# EMA2S:マルチモーダル音声合成システム EMA2S: An End-to-End Multimodal Articulatory-to-Speech System ( http://arxiv.org/abs/2102.03786v1 ) ライセンス: Link先を確認 | Yu-Wen Chen, Kuo-Hsuan Hung, Shang-Yi Chuang, Jonathan Sherman, Wen-Chin Huang, Xugang Lu, Yu Tsao | (参考訳) 調音運動から合成された音声は、声帯障害、サイレントスピーチを必要とする状況、あるいはハイノイズ環境での実際の使用が可能である。
本研究では,音声信号に調音運動を直接変換するマルチモーダル音声合成システムであるema2sを提案する。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
The experimental results confirmed that the multimodal approach of EMA2S is outperforming the baseline system with both objective evaluation and subjective evaluation metrics。
さらに,関節メルスペクトログラムと深い特徴損失トレーニングにより,システム性能が効果的に向上することを示す。 Synthesized speech from articulatory movements can have real-world use for patients with vocal cord disorders, situations requiring silent speech, or in high-noise environments. In this work, we present EMA2S, an end-to-end multimodal articulatory-to-speech system that directly converts articulatory movements to speech signals. We use a neural-network-based vocoder combined with multimodal joint-training, incorporating spectrogram, mel-spectrogram, and deep features. The experimental results confirm that the multimodal approach of EMA2S outperforms the baseline system in terms of both objective evaluation and subjective evaluation metrics. Moreover, results demonstrate that joint mel-spectrogram and deep feature loss training can effectively improve system performance. | 翻訳日:2021-02-09 15:15:59 公開日:2021-02-07 |
# プロトタイプ定義無限隠れマルコフモデルを用いた数ショット時系列分割 Few-shot time series segmentation using prototype-defined infinite hidden Markov models ( http://arxiv.org/abs/2102.03885v1 ) ライセンス: Link先を確認 | Yazan Qarout and Yordan P. Raykov and Max A. Little | (参考訳) 本稿では,非定常逐次データの解析をフレキシブルなグラフィカルモデルを用いて,プロトタイプのラジアル基底関数(RBF)ニューラルネットワークエミッションを用いて,逐次イベントの構造分布を表現するための頑健なフレームワークを提案する。
少数ショット学習のためのプロトタイプニューラルネットワークアーキテクチャと提案されたRBFネットワーク無限隠れマルコフモデル(RBF-iHMM)との間に動機付けリンクが示される。
RBFネットワークをプロトタイプを用いて効率的に特定し,複雑な非定常パターンを表現できることを示し,隠れマルコフモデルを用いて高次マルコフ力学を推定する。
RBFネットワークが長期間のメモリ変動オートエンコーダのトレーニングに必要なデータの一部を使用して最先端の性能を達成するEEGデータからの自動発作検出などのバイオメディカル信号処理アプリケーションで、このフレームワークの有用性を実証する。 We propose a robust framework for interpretable, few-shot analysis of non-stationary sequential data based on flexible graphical models to express the structured distribution of sequential events, using prototype radial basis function (RBF) neural network emissions. A motivational link is demonstrated between prototypical neural network architectures for few-shot learning and the proposed RBF network infinite hidden Markov model (RBF-iHMM). We show that RBF networks can be efficiently specified via prototypes allowing us to express complex nonstationary patterns, while hidden Markov models are used to infer principled high-level Markov dynamics. The utility of the framework is demonstrated on biomedical signal processing applications such as automated seizure detection from EEG data where RBF networks achieve state-of-the-art performance using a fraction of the data needed to train long-short-term memory variational autoencoders. | 翻訳日:2021-02-09 15:15:44 公開日:2021-02-07 |
# (参考訳) 混合可変メタモデリングのための潜在マップガウス過程 Latent Map Gaussian Processes for Mixed Variable Metamodeling ( http://arxiv.org/abs/2102.03935v1 ) ライセンス: CC BY 4.0 | Nicholas Oune, Ramin Bostanabad | (参考訳) ガウス過程(GP)は、科学や工学においてメタモデルとして広く使われている。
しかし、標準的なgpsは数値変数や量変数しか扱えない。
本稿では,GPの魅力的特性を継承する潜在写像ガウス過程(LMGP)を紹介するが,定量値と定性値の両方を持つ混合データにも適用可能である。
LMGPの背後にある基本的な考え方は、すべての定性的な入力がいくつかの定量的な特徴で表される低次元多様体を学ぶことである。
この多様体を学ぶために、まず定性入力の各組み合わせに一意な先行ベクトル表現を割り当てる。
次に、線型写像を用いてこれらの先行を後述表現を特徴づける多様体上に射影する。
後者は定量的であるため、ガウスのような任意の標準相関関数で簡単に使用できる。
したがって、最適写像と対応する多様体はガウス確率関数を最大化することで効率的に学習することができる。
解析的および実世界の幅広い例を通して、精度と汎用性の観点から、最先端の手法よりもLMGPの利点を実証する。
特に,lmgpsは可変長入力を処理し,質的入力が応答にどのように影響するか,あるいは相互に作用するかについての洞察を与える。
また, LMGPのニューラルネットワーク解釈を行い, 先行潜時表現が性能に与える影響について検討する。 Gaussian processes (GPs) are ubiquitously used in sciences and engineering as metamodels. Standard GPs, however, can only handle numerical or quantitative variables. In this paper, we introduce latent map Gaussian processes (LMGPs) that inherit the attractive properties of GPs but are also applicable to mixed data that have both quantitative and qualitative inputs. The core idea behind LMGPs is to learn a low-dimensional manifold where all qualitative inputs are represented by some quantitative features. To learn this manifold, we first assign a unique prior vector representation to each combination of qualitative inputs. We then use a linear map to project these priors on a manifold that characterizes the posterior representations. As the posteriors are quantitative, they can be straightforwardly used in any standard correlation function such as the Gaussian. Hence, the optimal map and the corresponding manifold can be efficiently learned by maximizing the Gaussian likelihood function. Through a wide range of analytical and real-world examples, we demonstrate the advantages of LMGPs over state-of-the-art methods in terms of accuracy and versatility. In particular, we show that LMGPs can handle variable-length inputs and provide insights into how qualitative inputs affect the response or interact with each other. We also provide a neural network interpretation of LMGPs and study the effect of prior latent representations on their performance. | 翻訳日:2021-02-09 14:31:06 公開日:2021-02-07 |
# meingame: 一つのポートレートからゲームキャラクターの顔を作る MeInGame: Create a Game Character Face from a Single Portrait ( http://arxiv.org/abs/2102.02371v2 ) ライセンス: Link先を確認 | Jiangke Lin, Yi Yuan, Zhengxia Zou | (参考訳) 近年,深層学習に基づく3次元顔再構成法が提案されているが,ゲームに応用例は少ない。
現在のゲームキャラクターのカスタマイズシステムでは、プレイヤーは顔の特徴を手動で調整する必要があるか、顔の形やテクスチャの制限がある。
本論文では,顔の形状と質感を1つのポートレートから予測し,既存のほとんどの3Dゲームに組み込むことができる自動文字顔作成手法を提案する。
3D Morphable Face Model(3DMM)ベースの手法は、単一の画像から正確な3D顔を復元することができるが、3DMMメッシュのトポロジは、ほとんどのゲームで使用されるメッシュとは異なる。
忠実なテクスチャを得るためには、既存の手法ではトレーニングに大量の顔テクスチャデータを必要とするが、そのようなデータセットの構築には時間がかかり、手間がかかる。
さらに、実験室で収集されたそのようなデータセットは、現場の状況によく当てはまらない。
これらの課題に対処するために,1)低コストの顔テクスチャ取得手法,2)3DMMメッシュの形状をゲームに変換する形状変換アルゴリズム,3)3Dゲームフェイス再構築ネットワークをトレーニングするための新しいパイプラインを提案する。
提案手法は,入力されたポートレートに類似した詳細かつ鮮明なゲームキャラクタを生成できるだけでなく,照明や咬合の影響も排除できる。
実験の結果,本手法はゲームにおける最先端手法よりも優れていた。 Many deep learning based 3D face reconstruction methods have been proposed recently, however, few of them have applications in games. Current game character customization systems either require players to manually adjust considerable face attributes to obtain the desired face, or have limited freedom of facial shape and texture. In this paper, we propose an automatic character face creation method that predicts both facial shape and texture from a single portrait, and it can be integrated into most existing 3D games. Although 3D Morphable Face Model (3DMM) based methods can restore accurate 3D faces from single images, the topology of 3DMM mesh is different from the meshes used in most games. To acquire fidelity texture, existing methods require a large amount of face texture data for training, while building such datasets is time-consuming and laborious. Besides, such a dataset collected under laboratory conditions may not generalized well to in-the-wild situations. To tackle these problems, we propose 1) a low-cost facial texture acquisition method, 2) a shape transfer algorithm that can transform the shape of a 3DMM mesh to games, and 3) a new pipeline for training 3D game face reconstruction networks. The proposed method not only can produce detailed and vivid game characters similar to the input portrait, but can also eliminate the influence of lighting and occlusions. Experiments show that our method outperforms state-of-the-art methods used in games. | 翻訳日:2021-02-09 11:46:35 公開日:2021-02-07 |
# 物理計算における敵対的攻撃と防御:システム的レビュー Adversarial Attacks and Defenses in Physiological Computing: A Systematic Review ( http://arxiv.org/abs/2102.02729v2 ) ライセンス: Link先を確認 | Dongrui Wu, Weili Fang, Yi Zhang, Liuqing Yang, Hanbin Luo, Lieyun Ding, Xiaodong Xu and Xiang Yu | (参考訳) 生理学的コンピューティングは、人間の生理データをリアルタイムでシステム入力として利用する。
脳とコンピュータのインターフェース、感情コンピューティング、適応的自動化、健康情報学、生理的信号に基づく生体計測などと大きく重なり合っている。
生理学的コンピューティングは、ユーザからコンピュータへの通信帯域幅を増加させるが、攻撃者が故意にトレーニングおよび/またはテスト例を操作して機械学習アルゴリズム出力をハイジャックすることで、ユーザの混乱、フラストレーション、負傷、さらには死に至る可能性のある、さまざまなタイプの敵対攻撃の対象となる。
しかし、生理学的コンピューティングシステムの脆弱性は十分に注目されておらず、それに対する敵意攻撃に関する包括的なレビューは存在していない。
このギャップを埋めるために、生理学コンピューティングの主要な研究分野、様々なタイプの敵攻撃とその生理学コンピューティングへの応用、およびそれに対応する防衛戦略を体系的に検討する。
このレビューは、生理学的コンピューティングシステムの脆弱性、およびより重要な、それらをより安全にするための防衛戦略に関するより多くの研究の関心を引き付けることを願っています。 Physiological computing uses human physiological data as system inputs in real time. It includes, or significantly overlaps with, brain-computer interfaces, affective computing, adaptive automation, health informatics, and physiological signal based biometrics. Physiological computing increases the communication bandwidth from the user to the computer, but is also subject to various types of adversarial attacks, in which the attacker deliberately manipulates the training and/or test examples to hijack the machine learning algorithm output, leading to possibly user confusion, frustration, injury, or even death. However, the vulnerability of physiological computing systems has not been paid enough attention to, and there does not exist a comprehensive review on adversarial attacks to it. This paper fills this gap, by providing a systematic review on the main research areas of physiological computing, different types of adversarial attacks and their applications to physiological computing, and the corresponding defense strategies. We hope this review will attract more research interests on the vulnerability of physiological computing systems, and more importantly, defense strategies to make them more secure. | 翻訳日:2021-02-09 11:44:36 公開日:2021-02-07 |