このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210210となっている論文です。

PDF登録状況(公開日: 20210210)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 時系列の自動登録とクラスタリング [全文訳有]

Automatic Registration and Clustering of Time Series ( http://arxiv.org/abs/2012.04756v2 )

ライセンス: CC BY-SA 4.0
Michael Weylandt and George Michailidis(参考訳) 時系列データのクラスタリングは、特に観測された信号の登録(調整)の問題など、他の設定に存在しない多くの課題を示す。 典型的なアプローチとしては、ユーザが指定したテンプレートへの事前登録や、最小限の歪みでシリーズを最適に調整しようとするタイムワーピングアプローチなどがある。 記録やセンシング装置から得られる多くの信号では、テンプレート信号が事前登録に使用できないため、これらの方法は不適当であり、反りの歪みは意味のある時間的情報を曖昧にする可能性がある。 本稿では,クラスタリング問題における時系列自動アライメント手法を提案する。 提案手法であるTROUT(Temporal Registration using Optimal Unitary Transformations)は,時系列のペア間の最適なアライメントを計算し,自動的に識別することのできる,時系列間の新たな相違度尺度に基づいている。 最適化の定式化に新しい尺度を組み込むことで、計算と統計のパフォーマンスの既知の利点を保ちます。 トラウトベースのクラスタリングのための効率的なアルゴリズムを提供し,その優れた性能を示す。

Clustering of time series data exhibits a number of challenges not present in other settings, notably the problem of registration (alignment) of observed signals. Typical approaches include pre-registration to a user-specified template or time warping approaches which attempt to optimally align series with a minimum of distortion. For many signals obtained from recording or sensing devices, these methods may be unsuitable as a template signal is not available for pre-registration, while the distortion of warping approaches may obscure meaningful temporal information. We propose a new method for automatic time series alignment within a clustering problem. Our approach, Temporal Registration using Optimal Unitary Transformations (TROUT), is based on a novel dissimilarity measure between time series that is easy to compute and automatically identifies optimal alignment between pairs of time series. By embedding our new measure in a optimization formulation, we retain well-known advantages of computational and statistical performance. We provide an efficient algorithm for TROUT-based clustering and demonstrate its superior performance over a range of competitors.
翻訳日:2021-05-16 23:22:23 公開日:2021-02-10
# 逆コストと既知の遷移を考慮した確率的最短経路のミニマックスレグレット

Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition ( http://arxiv.org/abs/2012.04053v2 )

ライセンス: Link先を確認
Liyu Chen, Haipeng Luo, Chen-Yu Wei(参考訳) 逆コストと既知の遷移を伴う確率的最短経路問題を調べ、ミニマックスの後悔が$\widetilde{O}(\sqrt{DT^\star K})$および$\widetilde{O}(\sqrt{DT^\star SA K})$であることを示す。 本研究は, 完全情報設定のみを考慮し, 準最適後悔を実現する, 既存の作業 (Rosenberg and Mansour, 2020) を大幅に改善した。 我々の研究は、敵のコストによる盗聴フィードバックを初めて検討した。 提案手法は,マルチスケール・エキスパートアルゴリズムの改良,一般確率的最短経路から特別なループフリーケースへの縮小,スキュード占有度測定空間,学習率スケジュールの増加に伴うログバーリアーの利用率,コスト推定器に追加した新しい補正項など,独立した関心を持つ新たな手法を駆使して,オンラインミラー降下フレームワーク上に構築されている。 興味深いことに、最後の2つの要素は、正のバイアスによる学習者の分散と負のバイアスによる最適方針の分散をそれぞれ減少させ、同時にそれらを持つことは、バンディットフィードバック設定に束縛された最適な高い確率を得るために重要である。

We study the stochastic shortest path problem with adversarial costs and known transition, and show that the minimax regret is $\widetilde{O}(\sqrt{DT^\star K})$ and $\widetilde{O}(\sqrt{DT^\star SA K})$ for the full-information setting and the bandit feedback setting respectively, where $D$ is the diameter, $T^\star$ is the expected hitting time of the optimal policy, $S$ is the number of states, $A$ is the number of actions, and $K$ is the number of episodes. Our results significantly improve upon the existing work of (Rosenberg and Mansour, 2020) which only considers the full-information setting and achieves suboptimal regret. Our work is also the first to consider bandit feedback with adversarial costs. Our algorithms are built on top of the Online Mirror Descent framework with a variety of new techniques that might be of independent interest, including an improved multi-scale expert algorithm, a reduction from general stochastic shortest path to a special loop-free case, a skewed occupancy measure space, %the usage of log-barrier with an increasing learning rate schedule, and a novel correction term added to the cost estimators. Interestingly, the last two elements reduce the variance of the learner via positive bias and the variance of the optimal policy via negative bias respectively, and having them simultaneously is critical for obtaining the optimal high-probability bound in the bandit feedback setting.
翻訳日:2021-05-16 21:06:11 公開日:2021-02-10
# 創薬・開発におけるグラフ機械学習の活用

Utilising Graph Machine Learning within Drug Discovery and Development ( http://arxiv.org/abs/2012.05716v2 )

ライセンス: Link先を確認
Thomas Gaudelet, Ben Day, Arian R. Jamasb, Jyothish Soman, Cristian Regep, Gertrude Liu, Jeremy B. R. Hayter, Richard Vickers, Charles Roberts, Jian Tang, David Roblin, Tom L. Blundell, Michael M. Bronstein, Jake P. Taylor-King(参考訳) グラフ機械学習(GML)は、生体分子構造をモデル化し、それらの機能的関係をモデル化し、他のデータタイプにマルチオミックデータセットを統合する能力によって、製薬やバイオテクノロジー業界で関心が高まりつつある。 本稿では,創薬・開発におけるトピックの多分野の学術・産業的考察を行う。 重要な用語とモデリングアプローチを導入した後、薬物開発パイプラインを経時的に経時的に移動し、標的の同定、小さな分子や生物の設計、薬物の再利用などを含む作業の特定と要約を行う。 この分野はまだ発展途上だが、in vivo研究に応用された医薬品を含む重要なマイルストーンは、グラフ機械学習がバイオメディカル機械学習で選択されるモデリングフレームワークになることを示唆している。

Graph Machine Learning (GML) is receiving growing interest within the pharmaceutical and biotechnology industries for its ability to model biomolecular structures, the functional relationships between them, and integrate multi-omic datasets - amongst other data types. Herein, we present a multidisciplinary academic-industrial review of the topic within the context of drug discovery and development. After introducing key terms and modelling approaches, we move chronologically through the drug development pipeline to identify and summarise work incorporating: target identification, design of small molecules and biologics, and drug repurposing. Whilst the field is still emerging, key milestones including repurposed drugs entering in vivo studies, suggest graph machine learning will become a modelling framework of choice within biomedical machine learning.
翻訳日:2021-05-16 01:49:58 公開日:2021-02-10
# ラベルなしデータによる希少コード分類の改善

Improving the Classification of Rare Chords with Unlabeled Data ( http://arxiv.org/abs/2012.07055v2 )

ライセンス: Link先を確認
Marcelo Bortolozzo, Rodrigo Schramm, Claudio R. Jung(参考訳) 本研究では,ACR(Automatic Chord Recognition)タスクにおける希少クラスの性能向上手法について検討する。 まず, 硬質試料の分類を改善するために提案されたACRの文脈における焦点損失の利用について検討した。 並行して,音楽領域に画像認識のための自己学習手法を適用した。 実験の結果,2つのアプローチは希少なコード認識を改善するが,ノイズ付加を伴う自己学習のみを用いることで,最良の結果が得られることがわかった。

In this work, we explore techniques to improve performance for rare classes in the task of Automatic Chord Recognition (ACR). We first explored the use of the focal loss in the context of ACR, which was originally proposed to improve the classification of hard samples. In parallel, we adapted a self-learning technique originally designed for image recognition to the musical domain. Our experiments show that both approaches individually (and their combination) improve the recognition of rare chords, but using only self-learning with noise addition yields the best results.
翻訳日:2021-05-09 12:39:35 公開日:2021-02-10
# Memory Approximate Message Passing

Memory Approximate Message Passing ( http://arxiv.org/abs/2012.10861v2 )

ライセンス: Link先を確認
Lei Liu, Shunqi Huang and Brian M. Kurkoski(参考訳) 近似メッセージパッシング(AMP)は、ガウス分布のない高次元線形系の低コスト反復パラメータ推定手法である。 しかし、AMPは独立に分布する(IID)変換行列にのみ適用されるが、信頼できない(例えば)。 他のマトリクスアンサンブル、特に不調なアンサンブルに対して、貧弱なまたは分岐する) この困難に対処するため、直交ベクトルAMP (OAMP/VAMP) が一般的な二単位不変行列に対して提案された。 しかし、ベイズ最適OAMP/VAMPは、高複素性線形平均二乗誤差(MMSE)推定器を必要とする。 これにより、大規模システムへのOAMP/VAMPの適用が制限される。 本稿では,AMP と OAMP/VAMP の欠点を解決するために,一様不変行列に対する低複雑性メモリ AMP (MAMP) を提案する。 MAMPは直交非線形推定器(NLE)と干渉抑制のための直交長メモリマッチングフィルタ(MF)から構成される。 直交原理は、マンプにおける推定誤差の漸近ガウス性を保証するために用いられる。 状態進化は、MAMPの性能を漸近的に特徴づけるために導かれる。 MAMPの緩和パラメータと減衰ベクトルは、状態進化に基づいて解析的に最適化され、収束が保証され改善される。 MAMPはAMPと同等の複雑さを持つ。 さらに、すべてのユニタリ不変行列に対して、最適化された MAMP は高複素度 OAMP/VAMP に収束し、一意な不動点を持つならベイズ最適である。 最後に,理論結果の妥当性と正確性を検証するためにシミュレーションを行った。

Approximate message passing (AMP) is a low-cost iterative parameter-estimation technique for certain high-dimensional linear systems with non-Gaussian distributions. However, AMP only applies to the independent identically distributed (IID) transform matrices, but may become unreliable (e.g. perform poorly or even diverge) for other matrix ensembles, especially for ill-conditioned ones. To handle this difficulty, orthogonal/vector AMP (OAMP/VAMP) was proposed for general bi-unitarily-invaria nt matrices. However, the Bayes-optimal OAMP/VAMP requires high-complexity linear minimum mean square error (MMSE) estimator. This limits the application of OAMP/VAMP to large-scale systems. To solve the disadvantages of AMP and OAMP/VAMP, this paper proposes a low-complexity memory AMP (MAMP) for unitarily-invariant matrices. MAMP is consisted of an orthogonal non-linear estimator (NLE) for denoising (same as OAMP/VAMP), and an orthogonal long-memory matched filter (MF) for interference suppression. Orthogonal principle is used to guarantee the asymptotic Gaussianity of estimation errors in MAMP. A state evolution is derived to asymptotically characterize the performance of MAMP. The relaxation parameters and damping vector in MAMP are analytically optimized based on the state evolution to guarantee and improve the convergence. MAMP has comparable complexity to AMP. Furthermore, for all unitarily-invariant matrices, the optimized MAMP converges to the high-complexity OAMP/VAMP, and thus is Bayes-optimal if it has a unique fixed point. Finally, simulations are provided to verify the validity and accuracy of the theoretical results.
翻訳日:2021-05-01 04:44:11 公開日:2021-02-10
# (参考訳) モバイルユーザへの予測電力配分のための対称前置型深層強化学習 [全文訳有]

Deep Reinforcement Learning with Symmetric Prior for Predictive Power Allocation to Mobile Users ( http://arxiv.org/abs/2103.13298v1 )

ライセンス: CC BY 4.0
Jianyu Zhao, Chenyang Yang(参考訳) 深い強化学習は様々なワイヤレスタスクに応用されているが、高いトレーニングと推論の複雑さで知られている。 本稿では,ビデオストリーミングを要求されるkモバイルユーザ間での予測電力配分を最適化するために,ddpg(deep deterministic policy gradient)アルゴリズムを用いる。 DDPGのサンプリング複雑性とモデルサイズを低減するために、アクターと批評家ネットワークに固有の対称的先行特性(置換不変性と同変特性)を利用してニューラルネットワークを設計する。 DDPGのフリーモデルパラメータを2/K^2で圧縮できることを示す。 シミュレーションの結果、k = 10 の場合、バニラポリシーと同じ性能を達成するのに、対称の学習モデルが要求するエピソードはおよそ3分の1減少することが示された。

Deep reinforcement learning has been applied for a variety of wireless tasks, which is however known with high training and inference complexity. In this paper, we resort to deep deterministic policy gradient (DDPG) algorithm to optimize predictive power allocation among K mobile users requesting video streaming, which minimizes the energy consumption of the network under the no-stalling constraint of each user. To reduce the sampling complexity and model size of the DDPG, we exploit a kind of symmetric prior inherent in the actor and critic networks: permutation invariant and equivariant properties, to design the neural networks. Our analysis shows that the free model parameters of the DDPG can be compressed by 2/K^2. Simulation results demonstrate that the episodes required by the learning model with the symmetric prior to achieve the same performance as the vanilla policy reduces by about one third when K = 10.
翻訳日:2021-04-06 06:04:37 公開日:2021-02-10
# (参考訳) 深層学習に基づくモバイルアプリケーションの展開障害に関する実証的研究 [全文訳有]

An Empirical Study on Deployment Faults of Deep Learning Based Mobile Applications ( http://arxiv.org/abs/2101.04930v2 )

ライセンス: CC BY 4.0
Zhenpeng Chen and Huihan Yao and Yiling Lou and Yanbin Cao and Yuanqiang Liu and Haoyu Wang and Xuanzhe Liu(参考訳) ディープラーニング(DL)は、ますます多くのモバイルソフトウェアアプリケーションに浸透しつつある。 これらのソフトウェアアプリケーションは、DLベースのモバイルアプリケーション(略してモバイルDLアプリケーション)と名付けられ、大規模なデータを使って訓練されたDLモデルをDLプログラムに統合する。 dlプログラムは、望ましいdlモデルの構造と、モデルをトレーニングデータを用いて訓練するプロセスの構造を符号化する。 現在のモバイルアプリがDLに依存しているため、モバイルDLアプリのソフトウェアエンジニアリング(SE)が重要になっている。 しかし、se研究コミュニティにおける既存の取り組みは主にdlモデルの開発とdlプログラムの障害を広範囲に分析することに焦点を当てている。 対照的に、モバイルデバイス(モバイルDLアプリのデプロイメント障害として知られる)へのDLモデルのデプロイに関連する欠陥は、よく研究されていない。 モバイルDLアプリは、安全クリティカルなシナリオを含むさまざまな目的で毎日何十億ものエンドユーザによって使用されているため、デプロイメントの障害を特徴づけることは非常に重要である。 知識ギャップを埋めるため,モバイルDLアプリの展開障害に関する総合的研究を行った。 私たちはstack overflowとgithubから304の実際のデプロイメント障害を特定しました。 同定された断層に基づいて, 故障症状に関する23の分類と, 異なる故障タイプに対する共通固定戦略からなる粒度分類法を構築した。 さらに、モバイルデバイスへのDLモデルの展開をさらに促進できる実用的な意味と研究方法を提案する。

Deep Learning (DL) is finding its way into a growing number of mobile software applications. These software applications, named as DL based mobile applications (abbreviated as mobile DL apps) integrate DL models trained using large-scale data with DL programs. A DL program encodes the structure of a desirable DL model and the process by which the model is trained using training data. Due to the increasing dependency of current mobile apps on DL, software engineering (SE) for mobile DL apps has become important. However, existing efforts in SE research community mainly focus on the development of DL models and extensively analyze faults in DL programs. In contrast, faults related to the deployment of DL models on mobile devices (named as deployment faults of mobile DL apps) have not been well studied. Since mobile DL apps have been used by billions of end users daily for various purposes including for safety-critical scenarios, characterizing their deployment faults is of enormous importance. To fill the knowledge gap, this paper presents the first comprehensive study on the deployment faults of mobile DL apps. We identify 304 real deployment faults from Stack Overflow and GitHub, two commonly used data sources for studying software faults. Based on the identified faults, we construct a fine-granularity taxonomy consisting of 23 categories regarding to fault symptoms and distill common fix strategies for different fault types. Furthermore, we suggest actionable implications and research avenues that could further facilitate the deployment of DL models on mobile devices.
翻訳日:2021-04-03 19:01:51 公開日:2021-02-10
# (参考訳) 対人防御効果を考慮した人物識別データ拡張手法 [全文訳有]

A Person Re-identification Data Augmentation Method with Adversarial Defense Effect ( http://arxiv.org/abs/2101.08783v2 )

ライセンス: CC BY 4.0
Yunpeng Gong and Zhiyong Zeng and Liwen Chen and Yifan Luo and Bin Weng and Feng Ye(参考訳) 個人再識別(ReID)モデルのセキュリティは、ReIDの適用において決定的な役割を果たす。 しかし、ディープニューラルネットワークは脆弱であることが示されており、クリーンイメージに検出不能な逆向きの摂動を加えることで、クリーンイメージでうまく機能するディープニューラルネットワークを騙すことができる。 1) 局所greyscale patch replacement (lgpr) と global grayscale patch replacement (ggpr) からなるgreyscale patch replacement (ggpr) である。 この手法はモデルの精度を向上するだけでなく、モデルが敵の例に対して防御するのに役立つ。 2)マルチモードディフェンスでは、可視、グレースケール、スケッチの3つの同質なモーダルイメージを統合し、モデルの防御能力をさらに強化する。 これらの方法は、入力サンプルの多様性を高めるために、均質な画像の異なるモダリティを融合させ、サンプルのバリアリティは、ReIDモデルの過剰適合をカラーバリエーションに低減し、攻撃方法が整合し難いデータセットの逆空間を整合させることにより、モデルの精度が向上し、攻撃効果が大幅に低減される。 モードの均質な画像が融合するほど、防御能力は強くなる。 提案手法は複数のデータセット上で良好に動作し、cvpr2020 が reid [10] に対して提案した ms-ssim の攻撃を効果的に防御し、精度を 467 倍(0.2% から 93.3% に向上させる。

The security of the Person Re-identification(Re ID) model plays a decisive role in the application of ReID. However, deep neural networks have been shown to be vulnerable, and adding undetectable adversarial perturbations to clean images can trick deep neural networks that perform well in clean images. We propose a ReID multi-modal data augmentation method with adversarial defense effect: 1) Grayscale Patch Replacement, it consists of Local Grayscale Patch Replacement(LGPR) and Global Grayscale Patch Replacement(GGPR). This method can not only improve the accuracy of the model, but also help the model defend against adversarial examples; 2) Multi-Modal Defense, it integrates three homogeneous modal images of visible, grayscale and sketch, and further strengthens the defense ability of the model. These methods fuse different modalities of homogeneous images to enrich the input sample variety, the variaty of samples will reduce the over-fitting of the ReID model to color variations and make the adversarial space of the dataset that the attack method can find difficult to align, thus the accuracy of model is improved, and the attack effect is greatly reduced. The more modal homogeneous images are fused, the stronger the defense capabilities is . The proposed method performs well on multiple datasets, and successfully defends the attack of MS-SSIM proposed by CVPR2020 against ReID [10], and increases the accuracy by 467 times(0.2% to 93.3%).The code is available at https://github.com/f inger-monkey/ReID_Ad versarial_Defense.
翻訳日:2021-03-21 15:56:40 公開日:2021-02-10
# (参考訳) 逐次実験のための拡散漸近

Diffusion Asymptotics for Sequential Experiments ( http://arxiv.org/abs/2101.09855v2 )

ライセンス: CC BY 4.0
Stefan Wager and Kuang Xu(参考訳) 逐次ランダム化実験のための新しい拡散漸近解析を提案する。 問題パラメータを固定しながら無限大に$n$を取るのではなく、平均信号レベルを$/\sqrt{n}$にスケールさせ、$n$が大きくなるにつれて学習タスクの難易度を維持するようにします。 この体制では、連続実験のための一連の方法の挙動が拡散限界に収束することを示した。 この接続により、鋭い性能予測を行い、トンプソンサンプリングの挙動に関する新たな知見を得ることができる。 私たちの拡散無症状学は、固定パラメータによって予測される$\Theta(\log(n))$の後悔と、最悪の場合からの$\Theta(\sqrt{n})$の後悔、もう一方の有限サンプル分析との相違を解決するのにも役立ち、実用的な大規模な連続実験を理解するための適切な無症状体制であることが示唆されている。

We propose a new diffusion-asymptotic analysis for sequentially randomized experiments. Rather than taking sample size $n$ to infinity while keeping the problem parameters fixed, we let the mean signal level scale to the order $1/\sqrt{n}$ so as to preserve the difficulty of the learning task as $n$ gets large. In this regime, we show that the behavior of a class of methods for sequential experimentation converges to a diffusion limit. This connection enables us to make sharp performance predictions and obtain new insights on the behavior of Thompson sampling. Our diffusion asymptotics also help resolve a discrepancy between the $\Theta(\log(n))$ regret predicted by the fixed-parameter, large-sample asymptotics on the one hand, and the $\Theta(\sqrt{n})$ regret from worst-case, finite-sample analysis on the other, suggesting that it is an appropriate asymptotic regime for understanding practical large-scale sequential experiments.
翻訳日:2021-03-16 07:59:44 公開日:2021-02-10
# (参考訳) UniToPatho 大腸ポリープ分類と腺腫異形成の分類のためのラベル付き組織病理学的データセット [全文訳有]

UniToPatho, a labeled histopathological dataset for colorectal polyps classification and adenoma dysplasia grading ( http://arxiv.org/abs/2101.09991v2 )

ライセンス: CC BY 4.0
Carlo Alberto Barbano, Daniele Perlo, Enzo Tartaglione, Attilio Fiandrotti, Luca Bertero, Paola Cassoni, Marco Grangetto(参考訳) 大腸ポリープの病理組織学的特徴は、患者の管理を調整し、浸潤癌を予防または迅速に検出する究極の目的に追随することができる。 大腸ポリープの特徴は組織サンプルの組織学的解析によってポリープ悪性度と異形成度を決定する。 深層ニューラルネットワークは、医療パターン認識において優れた精度を発揮するが、大量の注釈付きトレーニング画像を必要とする。 大腸ポリープ分類および腺腫の分類のための深いニューラルネットワークを訓練するための292全スライド画像から抽出された9536ヘマトキシリンおよびエオシン(H&E)染色パッチの注釈付きデータセットであるUniToPathoを紹介します。 私たちは、データセットを提示し、自動大腸ポリープ特性評価の問題に対処する方法に関する洞察を提供します。

Histopathological characterization of colorectal polyps allows to tailor patients' management and follow up with the ultimate aim of avoiding or promptly detecting an invasive carcinoma. Colorectal polyps characterization relies on the histological analysis of tissue samples to determine the polyps malignancy and dysplasia grade. Deep neural networks achieve outstanding accuracy in medical patterns recognition, however they require large sets of annotated training images. We introduce UniToPatho, an annotated dataset of 9536 hematoxylin and eosin (H&E) stained patches extracted from 292 whole-slide images, meant for training deep neural networks for colorectal polyps classification and adenomas grading. We present our dataset and provide insights on how to tackle the problem of automatic colorectal polyps characterization.
翻訳日:2021-03-16 05:43:31 公開日:2021-02-10
# (参考訳) Reviewable Automated Decision-Making: a Framework for Accountable Algorithmic Systems [全文訳有]

Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems ( http://arxiv.org/abs/2102.04201v2 )

ライセンス: CC BY 4.0
Jennifer Cobbe, Michelle Seng Ah Lee, Jatinder Singh(参考訳) 本稿では,機械学習を含むアルゴリズム的意思決定(adm)のアカウンタビリティ向上のためのフレームワークとして,reviewabilityを提案する。 我々は、ADMを人間と技術の両方の要素を含む社会技術的プロセスであると理解し、決定が下される前に開始し、決定そのものを超えて拡張する。 説明やその他のモデル中心のメカニズムは、いくつかの説明責任の懸念を助長するかもしれないが、規制の監督と法的コンプライアンスの評価のためにこれらの幅広いadmプロセスの不十分な情報を提供することが多い。 レビュー容易性は、ADMプロセスを技術的および組織的な要素に分解して、意味のあるレビューを促進するためにコンテキスト的に適切なレコード管理メカニズムを決定するための体系的なフレームワークを提供する。 我々は、人間の意思決定をレビューする行政法のアプローチに基づいたレビュー可能性枠組みは、admに対してより包括的かつ法的に関連のある説明責任の形式を進めるための実用的な方法であると主張する。

This paper introduces reviewability as a framework for improving the accountability of automated and algorithmic decision-making (ADM) involving machine learning. We draw on an understanding of ADM as a socio-technical process involving both human and technical elements, beginning before a decision is made and extending beyond the decision itself. While explanations and other model-centric mechanisms may assist some accountability concerns, they often provide insufficient information of these broader ADM processes for regulatory oversight and assessments of legal compliance. Reviewability involves breaking down the ADM process into technical and organisational elements to provide a systematic framework for determining the contextually appropriate record-keeping mechanisms to facilitate meaningful review - both of individual decisions and of the process as a whole. We argue that a reviewability framework, drawing on administrative law's approach to reviewing human decision-making, offers a practical way forward towards more a more holistic and legally-relevant form of accountability for ADM.
翻訳日:2021-03-14 06:29:39 公開日:2021-02-10
# (参考訳) K\'ahler Geometry of Quiver Varieties and Machine Learning

K\"ahler Geometry of Quiver Varieties and Machine Learning ( http://arxiv.org/abs/2101.11487v2 )

ライセンス: CC BY 4.0
George Jeffreys and Siu-Cheong Lau(参考訳) 我々は、フレームド・クイバー表現のモジュライ空間を用いた機械学習におけるニューラルネットワークの代数幾何学的定式化を開発する。 一般線型群による GIT の商構造と互換性のあるモジュライ上の普遍バンドル上の自然なエルミート測度と、それらのリッチ曲率がモジュライ上の K\" アーラー測度を与えることを示す。 さらに, トーリックモーメント写像を用いて活性化関数を構築し, 複素射影空間から構築した多変数活性化関数に対する普遍近似定理を証明した。

We develop an algebro-geometric formulation for neural networks in machine learning using the moduli space of framed quiver representations. We find natural Hermitian metrics on the universal bundles over the moduli which are compatible with the GIT quotient construction by the general linear group, and show that their Ricci curvatures give a K\"ahler metric on the moduli. Moreover, we use toric moment maps to construct activation functions, and prove the universal approximation theorem for the multi-variable activation function constructed from the complex projective space.
翻訳日:2021-03-13 22:27:55 公開日:2021-02-10
# (参考訳) 通信が制限されたマルチエージェントマルチアームバンディット [全文訳有]

Multi-Agent Multi-Armed Bandits with Limited Communication ( http://arxiv.org/abs/2102.08462v1 )

ライセンス: CC BY 4.0
Mridul Agarwal, Vaneet Aggarwal, Kamyar Azizzadenesheli(参考訳) 我々は、$n$エージェントが確率的$k$ arm bandit問題のインスタンスと$k \gg n$で協調的に相互作用する問題を考える。 エージェントは、合計でT$のタイムステップ、通信ラウンドの数、各通信ラウンドにおけるビット数について、すべてのエージェントに対する累積的後悔を同時に最小化することを目指している。 筆者らは, 各エージェントがエポック終了後にのみ通信し, 知っている最高の腕の指標を共有する, ダブルエポックなアルゴリズムであるLCC-UCB(Limited Communication Collaboration - Upper Confidence Bound)を提案する。 我々のアルゴリズムであるLCC-UCBでは、各エージェントは$\tilde{O}\left(\sqrt{({K/N}+ N)T}\right)$を後悔し、$O(\log T)$のステップで通信し、各通信ステップで$O(\log K)$のビットをブロードキャストする。 最大度 $K_G$ と直径 $D$ のグラフをスパースに拡張し、$\tilde{O}\left(D\sqrt{(K/N+ K_G)DT}\right)$ のリコールバウンドを楽しむLCC-UCB-GRAPHを提案します。 最後に, LCC-UCB と LCC-UCB- Graph アルゴリズムは, 中央ノードを介して通信する, 良好な, かつ, 優れた戦略を示す。

We consider the problem where $N$ agents collaboratively interact with an instance of a stochastic $K$ arm bandit problem for $K \gg N$. The agents aim to simultaneously minimize the cumulative regret over all the agents for a total of $T$ time steps, the number of communication rounds, and the number of bits in each communication round. We present Limited Communication Collaboration - Upper Confidence Bound (LCC-UCB), a doubling-epoch based algorithm where each agent communicates only after the end of the epoch and shares the index of the best arm it knows. With our algorithm, LCC-UCB, each agent enjoys a regret of $\tilde{O}\left(\sqrt{({K/N}+ N)T}\right)$, communicates for $O(\log T)$ steps and broadcasts $O(\log K)$ bits in each communication step. We extend the work to sparse graphs with maximum degree $K_G$, and diameter $D$ and propose LCC-UCB-GRAPH which enjoys a regret bound of $\tilde{O}\left(D\sqrt{(K/N+ K_G)DT}\right)$. Finally, we empirically show that the LCC-UCB and the LCC-UCB-GRAPH algorithm perform well and outperform strategies that communicate through a central node
翻訳日:2021-03-13 16:26:19 公開日:2021-02-10
# (参考訳) グラフマイニングとトランスフォーマー学習によるcovid-19研究の加速 [全文訳有]

Accelerating COVID-19 research with graph mining and transformer-based learning ( http://arxiv.org/abs/2102.07631v1 )

ライセンス: CC BY 4.0
Ilya Tyagin and Ankit Kulshrestha and Justin Sybrandt and Krish Matta and Michael Shtutman and Ilya Safro(参考訳) 2020年、ホワイトハウスは "Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset" を発表した。人工知能の専門家は、データを収集し、科学コミュニティがCOVID-19に関連する優先度の高い科学的質問に答えるのに役立つテキストマイニング技術を開発するよう求められている。 Allen Institute for AI and Colaboratorsは、急速に成長している公開データセットであるCOVID-19 Open Research Dataset(CORD-19)の可用性を発表した。 研究のペースが加速するにつれて、生物医学の科学者は現状を維持するのに苦労する。 研究者たちは、論文を自動的に検査し、新たな暗黙のつながりを発見する仮説生成システムを活用しています。 新型コロナウイルス研究のための汎用仮説自動生成システムAGATHA-CとAGATHA-GPを紹介します。 システムはグラフマイニングとトランスモデルに基づいています。 システムは、ふりかえりの情報の再発見と、人的インザループの専門家分析を含む積極的な分析を使用して、大幅に検証されます。 どちらのシステムも、高速な計算時間でドメイン全体(最大0.97% ROC AUC)にわたる高品質な予測を達成し、バイオメディカル研究を加速するために幅広い科学コミュニティに解放される。 また、ドメインエキスパートによる研究を行うことで、covid-19とオキシトシンホルモンの関係など、現在進行中の研究結果が発見できることを示した。

In 2020, the White House released the, "Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset," wherein artificial intelligence experts are asked to collect data and develop text mining techniques that can help the science community answer high-priority scientific questions related to COVID-19. The Allen Institute for AI and collaborators announced the availability of a rapidly growing open dataset of publications, the COVID-19 Open Research Dataset (CORD-19). As the pace of research accelerates, biomedical scientists struggle to stay current. To expedite their investigations, scientists leverage hypothesis generation systems, which can automatically inspect published papers to discover novel implicit connections. We present an automated general purpose hypothesis generation systems AGATHA-C and AGATHA-GP for COVID-19 research. The systems are based on graph-mining and the transformer model. The systems are massively validated using retrospective information rediscovery and proactive analysis involving human-in-the-loop expert analysis. Both systems achieve high-quality predictions across domains (in some domains up to 0.97% ROC AUC) in fast computational time and are released to the broad scientific community to accelerate biomedical research. In addition, by performing the domain expert curated study, we show that the systems are able to discover on-going research findings such as the relationship between COVID-19 and oxytocin hormone.
翻訳日:2021-03-13 16:00:59 公開日:2021-02-10
# (参考訳) テキスト分類のためのプライバシー保護グラフ畳み込みネットワーク [全文訳有]

Privacy-Preserving Graph Convolutional Networks for Text Classification ( http://arxiv.org/abs/2102.09604v1 )

ライセンス: CC BY-SA 4.0
Timour Igamberdiev and Ivan Habernal(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフとして自然に発生する文書(例えば、引用やソーシャルネットワーク)の表現学習や予測を行うための強力なアーキテクチャである。 人々のプロファイルやエッジとしての関連性などの機密性の高い個人情報を含むデータは、トレーニングされたモデルからのオリジナルの入力を敵が明らかにする可能性があるため、GCNからのプライバシー漏洩を招きがちである。 差分プライバシー(DP)は十分に確立されたプライバシー保護フレームワークを提供しますが、GCNはトレーニングの詳細のために理論的および実用的な課題を提起します。 GCNに差分プライベートグラデーションベースのトレーニングを適用することで、これらの課題に対処します。 2つの言語の5つのNLPデータセットの実験セットアップにおいて、さまざまなプライバシー予算、データセットサイズ、および2つのオプティマイザの影響を調査します。 特定のモデリング選択の下では、プライバシ保存型gcnは、公式には強力なプライバシ対策を保証しながら、非プライベート型の最大90%を実行する。

Graph convolutional networks (GCNs) are a powerful architecture for representation learning and making predictions on documents that naturally occur as graphs, e.g., citation or social networks. Data containing sensitive personal information, such as documents with people's profiles or relationships as edges, are prone to privacy leaks from GCNs, as an adversary might reveal the original input from the trained model. Although differential privacy (DP) offers a well-founded privacy-preserving framework, GCNs pose theoretical and practical challenges due to their training specifics. We address these challenges by adapting differentially-priva te gradient-based training to GCNs. We investigate the impact of various privacy budgets, dataset sizes, and two optimizers in an experimental setup over five NLP datasets in two languages. We show that, under certain modeling choices, privacy-preserving GCNs perform up to 90% of their non-private variants, while formally guaranteeing strong privacy measures.
翻訳日:2021-03-13 15:41:15 公開日:2021-02-10
# (参考訳) 3次元多孔質媒体の流動性を考慮したマルチスケールニューラルネットワーク [全文訳有]

Multi-Scale Neural Networks for to Fluid Flow in 3D Porous Media ( http://arxiv.org/abs/2102.07625v1 )

ライセンス: CC BY 4.0
Javier Santos, Ying Yin, Honggeun Jo, Wen Pan, Qinjun Kang, Hari Viswanathan, Masa Prodanovic, Michael Pyrcz, Nicholas Lubbers(参考訳) 複雑な多孔質材料の透過性は、最も正確な結果を与える直接流シミュレーションによって得られるが、計算量は非常に高価である。 特にシミュレーション領域がより強固あるいは不均一になるにつれて、シミュレーション収束時間は小さくなる。 平均構造特性(すなわち)に依存する半分析モデル。 porosity と tortuosity) が提案されているが、これらの特徴はドメインを要約するだけで、適用性は限られている。 一方,データ駆動型機械学習アプローチは,領域の境界の空間的配置を考慮し,より汎用的なモデルを構築するという大きな可能性を示している。 しかし、2次元画像認識問題に関する畳み込みニューラルネットワーク(ConvNet)の文献に基づく先行的なアプローチは、代表的初等巻(REV)を得るのに必要な大きな3次元領域にはあまり及ばない。 このように、ほとんどの以前の研究は均質なサンプルに焦点を当てており、流体の流れのグローバルな性質がほとんど無視され、それゆえ、convnetによる3dドメインへの対処のメモリボトルネックは横置きされた。 したがって、破砕やウグジードメインのような重要なジオメトリはうまくモデル化できなかった。 本研究では,多孔質メディアシミュレーションデータから学習できる汎用的マルチスケール深層学習モデルを用いて,この制限に対処する。 異なるスケールでドメインを表示するニューラルネットワークの結合セットを使用することで、単一のグラフィックス処理ユニットで約1秒で大きな画像の評価を可能にします。 このモデルアーキテクチャは、デスクトップコンピュータ上の従来の直接シミュレーションツールでは実現不可能なドメインサイズをモデル化する可能性を開く。

The permeability of complex porous materials can be obtained via direct flow simulation, which provides the most accurate results, but is very computationally expensive. In particular, the simulation convergence time scales poorly as simulation domains become tighter or more heterogeneous. Semi-analytical models that rely on averaged structural properties (i.e. porosity and tortuosity) have been proposed, but these features only summarize the domain, resulting in limited applicability. On the other hand, data-driven machine learning approaches have shown great promise for building more general models by virtue of accounting for the spatial arrangement of the domains solid boundaries. However, prior approaches building on the Convolutional Neural Network (ConvNet) literature concerning 2D image recognition problems do not scale well to the large 3D domains required to obtain a Representative Elementary Volume (REV). As such, most prior work focused on homogeneous samples, where a small REV entails that that the global nature of fluid flow could be mostly neglected, and accordingly, the memory bottleneck of addressing 3D domains with ConvNets was side-stepped. Therefore, important geometries such as fractures and vuggy domains could not be well-modeled. In this work, we address this limitation with a general multiscale deep learning model that is able to learn from porous media simulation data. By using a coupled set of neural networks that view the domain on different scales, we enable the evaluation of large images in approximately one second on a single Graphics Processing Unit. This model architecture opens up the possibility of modeling domain sizes that would not be feasible using traditional direct simulation tools on a desktop computer.
翻訳日:2021-03-13 15:20:14 公開日:2021-02-10
# (参考訳) GANに基づく次元展開による2次元スライスからの3次元構造生成 [全文訳有]

Generating 3D structures from a 2D slice with GAN-based dimensionality expansion ( http://arxiv.org/abs/2102.07708v1 )

ライセンス: CC BY 4.0
Steve Kench, Samuel J. Cooper(参考訳) GAN(Generative adversarial Network)は、3D画像データを生成するためのトレーニングが可能で、設計の最適化に役立ちます。 しかし、従来は3dトレーニングデータが必要であり、取得が困難である。 2Dイメージング技術は、より高速で高解像度で、位相識別が良く、より広く利用できる傾向がある。 本稿では,1つの代表2次元画像を用いて高忠実度3次元データセットを合成できる生成逆ネットワークアーキテクチャであるSliceGANを紹介する。 これは、断面顕微鏡が3Dサンプルを統計的に再構築するための十分な情報を含むことができるため、材料の微細構造生成のタスクに特に関連しています。 このアーキテクチャは、生成したボリュームが空間のすべての点で等しく高品質であること、そして任意に大きなボリュームを生成できることを保証する均一な情報密度の概念を実装している。 スライスガンは様々な素材の訓練に成功し、このツールの広範な適用性を示している。 生成したマイクログラフの品質は、電池電極の合成データと実際のデータセットを、キーマイクロ構造指標を用いて統計的に比較して示される。 最後に、10^8ドルのvoxelボリュームの生成時間は数秒のオーダーであり、高スループットなマイクロ構造最適化への今後の研究の道筋となることがわかりました。

Generative adversarial networks (GANs) can be trained to generate 3D image data, which is useful for design optimisation. However, this conventionally requires 3D training data, which is challenging to obtain. 2D imaging techniques tend to be faster, higher resolution, better at phase identification and more widely available. Here, we introduce a generative adversarial network architecture, SliceGAN, which is able to synthesise high fidelity 3D datasets using a single representative 2D image. This is especially relevant for the task of material microstructure generation, as a cross-sectional micrograph can contain sufficient information to statistically reconstruct 3D samples. Our architecture implements the concept of uniform information density, which both ensures that generated volumes are equally high quality at all points in space, and that arbitrarily large volumes can be generated. SliceGAN has been successfully trained on a diverse set of materials, demonstrating the widespread applicability of this tool. The quality of generated micrographs is shown through a statistical comparison of synthetic and real datasets of a battery electrode in terms of key microstructural metrics. Finally, we find that the generation time for a $10^8$ voxel volume is on the order of a few seconds, yielding a path for future studies into high-throughput microstructural optimisation.
翻訳日:2021-03-13 14:55:28 公開日:2021-02-10
# 隠れマルコフモデルにおける推論の時間並列化

Temporal Parallelization of Inference in Hidden Markov Models ( http://arxiv.org/abs/2102.05743v1 )

ライセンス: Link先を確認
Sakira Hassan, Simo S\"arkk\"a and \'Angel F. Garc\'ia-Fern\'andez(参考訳) 本稿では隠れマルコフモデル(hmms)における推論の並列化のためのアルゴリズムを提案する。 特に,並列な後方方向フィルタリングと平滑化アルゴリズム,および並列なViterbi-type maximum-a-posteriori (MAP)アルゴリズムを提案する。 連想要素と演算子を定義し、これらの推論問題を和積アルゴリズムと最大積アルゴリズムの並列プリフィックス・サム計算として提示し、並列スキャンアルゴリズムを用いて並列化します。 提案アルゴリズムの利点は、長い時間的地平線を持つHMM推論問題において、計算効率が良いことである。 高並列なグラフィカル処理ユニット(GPU)上で,提案手法と古典的手法の性能を実証的に比較した。

This paper presents algorithms for parallelization of inference in hidden Markov models (HMMs). In particular, we propose parallel backward-forward type of filtering and smoothing algorithm as well as parallel Viterbi-type maximum-a-posteriori (MAP) algorithm. We define associative elements and operators to pose these inference problems as parallel-prefix-sum computations in sum-product and max-product algorithms and parallelize them using parallel-scan algorithms. The advantage of the proposed algorithms is that they are computationally efficient in HMM inference problems with long time horizons. We empirically compare the performance of the proposed methods to classical methods on a highly parallel graphical processing unit (GPU).
翻訳日:2021-03-13 14:50:36 公開日:2021-02-10
# 勾配型・進化型学習システムにおける信号伝達

Signal Propagation in a Gradient-Based and Evolutionary Learning System ( http://arxiv.org/abs/2102.08929v1 )

ライセンス: Link先を確認
Jamal Toutouh and Una-May O'Reilly(参考訳) GAN(Generative adversarial Network)は、GANトレーニングのための空間分散共進化アルゴリズム(CEA)に対して、収束に関連する変性行動につながる可能性がある訓練病理を示す。 Lipizzanerは、彼らに経験的に堅牢です。 堅牢性は、トロイダルグリッドの各セルで発生器と識別器の集団を訓練することによって生じる多様性から生じる。 細胞の中で最高のGANのパラメータの形の信号が4方向(北、南、西、東の4方向)で伝播する通信は、新しく適合した適応を伝達することでも役割を果たす。 そこで我々は,Lipizzanerのような分散CEAであるLipi-Ringを提案する。 指輪だ 私たちの中心となる疑問は、異なるデータセット(mnist、celeba、covid-19の胸部x線画像)におけるリピズザナー実験解析の性能品質とトレーニング効率が、信号伝達の異なる方向性(セルの両側に1つまたは複数の隣人へ効果的に移行する)が一致しているか、あるいはそれを超えるかということです。 しかし、リピリングは計算時間を大幅に短縮する(14.2%)。 . . 41.2%). したがって、Lipi-Ringは、トレーニングの計算コストが重要な場合、Lipizzanerに代わるものを提供します。

Generative adversarial networks (GANs) exhibit training pathologies that can lead to convergence-related degenerative behaviors, whereas spatially-distribute d, coevolutionary algorithms (CEAs) for GAN training, e.g. Lipizzaner, are empirically robust to them. The robustness arises from diversity that occurs by training populations of generators and discriminators in each cell of a toroidal grid. Communication, where signals in the form of parameters of the best GAN in a cell propagate in four directions: North, South, West, and East, also plays a role, by communicating adaptations that are both new and fit. We propose Lipi-Ring, a distributed CEA like Lipizzaner, except that it uses a different spatial topology, i.e. a ring. Our central question is whether the different directionality of signal propagation (effectively migration to one or more neighbors on each side of a cell) meets or exceeds the performance quality and training efficiency of Lipizzaner Experimental analysis on different datasets (i.e, MNIST, CelebA, and COVID-19 chest X-ray images) shows that there are no significant differences between the performances of the trained generative models by both methods. However, Lipi-Ring significantly reduces the computational time (14.2%. . . 41.2%). Thus, Lipi-Ring offers an alternative to Lipizzaner when the computational cost of training matters.
翻訳日:2021-03-13 14:50:09 公開日:2021-02-10
# KNN探索アルゴリズムのロバスト性評価のための強化学習の活用

Leveraging Reinforcement Learning for evaluating Robustness of KNN Search Algorithms ( http://arxiv.org/abs/2102.06525v1 )

ライセンス: Link先を確認
Pramod Vadiraja, Christoph Peter Balada(参考訳) 与えられたクエリポイントのデータセットでk-nearestの隣人を見つける問題は、数年前から解決されてきた。 非常に高次元空間では、K-nearest neighbor search (KNNS) は高次元距離の計算の複雑さに悩まされる。 次元の呪いの問題では、さまざまな近似近くの検索アプローチの結果を確実に銀行化するのは非常に面倒になります。 本稿では,K-Nearest Neighbor Search(K-Nearest Neighbor Search)の手法について,計算の視点から検索の課題,近似結果の精度,並列性を利用して計算を高速化する手法を検討する。 私たちは、与えられたKNNSアプローチの真正点と偽点の関係を導出しようとします。 最後に、KNNSアプローチの敵対的点に対する堅牢性を評価するために、汎用的な強化学習ベースのフレームワークを提案します。

The problem of finding K-nearest neighbors in the given dataset for a given query point has been worked upon since several years. In very high dimensional spaces the K-nearest neighbor search (KNNS) suffers in terms of complexity in computation of high dimensional distances. With the issue of curse of dimensionality, it gets quite tedious to reliably bank on the results of variety approximate nearest neighbor search approaches. In this paper, we survey some novel K-Nearest Neighbor Search approaches that tackles the problem of Search from the perspectives of computations, the accuracy of approximated results and leveraging parallelism to speed-up computations. We attempt to derive a relationship between the true positive and false points for a given KNNS approach. Finally, in order to evaluate the robustness of a KNNS approach against adversarial points, we propose a generic Reinforcement Learning based framework for the same.
翻訳日:2021-02-15 13:22:49 公開日:2021-02-10
# GBMの生存と遺伝を予測する機械学習分類器の比較:臨床実装のための標準化モデルに向けて

Comparison of Machine Learning Classifiers to Predict Patient Survival and Genetics of GBM: Towards a Standardized Model for Clinical Implementation ( http://arxiv.org/abs/2102.06526v1 )

ライセンス: Link先を確認
Luca Pasquini, Antonio Napolitano, Martina Lucignani, Emanuela Tagliente, Francesco Dellepiane, Maria Camilla Rossi-Espagnet, Matteo Ritrovato, Antonello Vidiri, Veronica Villani, Giulio Ranazzi, Antonella Stoppacciaro, Andrea Romano, Alberto Di Napoli, Alessandro Bozzao(参考訳) 放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。 しかし、パラメータの標準化の欠如により臨床実施は制限される。 本研究の目的は, GBM患者における9種類の機械学習分類器と, 総合生存率 (OS), Isocitrate dehydrogenase (IDH) 変異, O-6-methylguanine-DN A-methyltransferase (MGMT) プロモーターメチル化, 上皮成長因子受容体 (EGFR) VII 増幅, Ki-67 発現を, 従来および高度MRの放射線学的特徴に基づいて比較することであった。 腫瘍領域は, 造影腫瘍, 壊死, 非造影腫瘍の3つで, 手動分節で選択した。 放射能の特徴はpyradiomicsのカスタムバージョンで抽出され、borutaアルゴリズムによって選択された。 グリッドサーチアルゴリズムは, 4倍のK倍のクロスバリデーション(K=10)を計算し, 平均値と最小値の精度を得た。 最適パラメータが特定されると、モデル性能はAUC-ROC(Area Under The Curve-Receiver Operating Characteristics)で評価された。 メタヒューリスティックとアンサンブルの分類器はタスク全体で最高のパフォーマンスを示した。 xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81,6%) の最大精度を得た。 MRと腫瘍組織学の相関性に最も適した特徴が光を当てた。

Radiomic models have been shown to outperform clinical data for outcome prediction in glioblastoma (GBM). However, clinical implementation is limited by lack of parameters standardization. We aimed to compare nine machine learning classifiers, with different optimization parameters, to predict overall survival (OS), isocitrate dehydrogenase (IDH) mutation, O-6-methylguanine-DN A-methyltransferase (MGMT) promoter methylation, epidermal growth factor receptor (EGFR) VII amplification and Ki-67 expression in GBM patients, based on radiomic features from conventional and advanced MR. 156 adult patients with pathologic diagnosis of GBM were included. Three tumoral regions were analyzed: contrast-enhancing tumor, necrosis and non-enhancing tumor, selected by manual segmentation. Radiomic features were extracted with a custom version of Pyradiomics, and selected through Boruta algorithm. A Grid Search algorithm was applied when computing 4 times K-fold cross validation (K=10) to get the highest mean and lowest spread of accuracy. Once optimal parameters were identified, model performances were assessed in terms of Area Under The Curve-Receiver Operating Characteristics (AUC-ROC). Metaheuristic and ensemble classifiers showed the best performance across tasks. xGB obtained maximum accuracy for OS (74.5%), AB for IDH mutation (88%), MGMT methylation (71,7%), Ki-67 expression (86,6%), and EGFR amplification (81,6%). Best performing features shed light on possible correlations between MR and tumor histology.
翻訳日:2021-02-15 12:55:59 公開日:2021-02-10
# (参考訳) 医療療法のための人工知能に基づく自律的分子設計 : 展望 [全文訳有]

Artificial Intelligence based Autonomous Molecular Design for Medical Therapeutic: A Perspective ( http://arxiv.org/abs/2102.06045v1 )

ライセンス: CC BY 4.0
Rajendra P. Joshi and Neeraj Kumar(参考訳) ドメイン認識機械学習(ML)モデルは、近年、小さな分子治療設計の加速にますます採用されている。 これらのモデルは、最先端の人工知能(AI)とコンピューティングインフラストラクチャの大幅な進歩によって実現されています。 いくつかのMLアーキテクチャは、主に独立して、小さな分子の特性を予測するために、またはリード治療候補を生成するために使用されます。 これらの個々のコンポーネントとロバストな表現とデータ生成テクニックをクローズドループで自律的に使用することによって、薬物設計の高速化が期待できる。 この観点から、各コンポーネントによって達成された最新のブレークスルーと、このような自律AIおよびMLワークフローがヒット識別とリード最適化を根本的に加速するためにどのように実現できるかを紹介します。 これは、新しい動物性感染イベントが到着する数週間前に、エンド・ツー・エンドの抗ウイルス発見と最適化のタイムラインを大幅に短縮する可能性がある。 我々の視点は、研究者が治療発見において自律的な分子設計を実践するためのガイドとなる。

Domain-aware machine learning (ML) models have been increasingly adopted for accelerating small molecule therapeutic design in the recent years. These models have been enabled by significant advancement in state-of-the-art artificial intelligence (AI) and computing infrastructures. Several ML architectures are pre-dominantly and independently used either for predicting the properties of small molecules, or for generating lead therapeutic candidates. Synergetically using these individual components along with robust representation and data generation techniques autonomously in closed loops holds enormous promise for accelerated drug design which is a time consuming and expensive task otherwise. In this perspective, we present the most recent breakthrough achieved by each of the components, and how such autonomous AI and ML workflow can be realized to radically accelerate the hit identification and lead optimization. Taken together, this could significantly shorten the timeline for end-to-end antiviral discovery and optimization times to weeks upon the arrival of a novel zoonotic transmission event. Our perspective serves as a guide for researchers to practice autonomous molecular design in therapeutic discovery.
翻訳日:2021-02-13 02:00:42 公開日:2021-02-10
# (参考訳) マルチモーダルバイリンガル事前学習と音声翻訳のための融合音響・テキスト符号化 [全文訳有]

Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation ( http://arxiv.org/abs/2102.05766v1 )

ライセンス: CC BY 4.0
Renjie Zheng and Junkun Chen and Mingbo Ma and Liang Huang(参考訳) 近年,テキストおよび音声表現学習は多くの言語関連タスクの改善に成功している。 しかし、既存のすべての方法は1つの入力モダリティからのみ学習し、音声翻訳などの多くの音声関連タスクでは統一された音響およびテキスト表現が望まれます。 本稿では,音声とテキストの合成表現を同時学習する融合音響・テキストマスク言語モデル(fat-mlm)を提案する。 このクロスモーダル表現学習フレームワークでは、Fused Acoustic and Text Speech Translation (FAT-ST) のエンドツーエンドモデルをさらに提示します。 3つの翻訳方向の実験により,fat-mlmから微調整した音声翻訳モデルにより,翻訳品質(+5.90 bleu)が大幅に向上した。

Recently text and speech representation learning has successfully improved many language related tasks. However, all existing methods only learn from one input modality, while a unified acoustic and text representation is desired by many speech-related tasks such as speech translation. We propose a Fused Acoustic and Text Masked Language Model (FAT-MLM) which jointly learns a unified representation for both acoustic and text in-put. Within this cross modal representation learning framework, we further present an end-to-end model for Fused Acoustic and Text Speech Translation (FAT-ST). Experiments on three translation directions show that our proposed speech translation models fine-tuned from FAT-MLM substantially improve translation quality (+5.90 BLEU).
翻訳日:2021-02-12 23:26:30 公開日:2021-02-10
# (参考訳) SCA-Net: ハイパースペクトルアンミックスのための自己修正2層オートエンコーダ [全文訳有]

SCA-Net: A Self-Correcting Two-Layer Autoencoder for Hyper-spectral Unmixing ( http://arxiv.org/abs/2102.05713v1 )

ライセンス: CC BY 4.0
Gurpreet Singh, Soumyajit Gupta, Matthew Lease, Clint Dawson(参考訳) ハイパースペクトルデータセットのための線形混合モデルでは、混合画素を構成端部と対応する分数量の線形結合として分離する。 最適化とニューラルメソッドはどちらもこの問題に取り組み、ベンチマークデータセット上のニューラルモデルによって達成された最先端の技術結果を用いている。 しかし,これらのニューラルモデルについて検討した結果,これらのネットワークは過度に過パラメータ化されており,したがってデコーダ重みとして抽出された不変エンドメンバースペクトルは複数実行に対して高いばらつきを持つことがわかった。 これらのアプローチはすべて、LMM制約を満たすためにかなりの後処理を必要とする。 さらに、エンドメンバー数の正確な仕様や、VCAのような他のアルゴリズムからのウェイトの初期化も必要である。 私たちの研究では、2層オートエンコーダ(SCA-Net)が2FK$パラメータ($F$機能、$K$エンドメンバー)で、以前に報告された値$(10^{-2})$からスケールアウトされたエラーメトリック($10^{-5})$を達成したことが初めて示されています。 SCA-Netは、ウェイトのランダムな初期化から始まるこの低いエラーソリューションに収束します。 また、両直交表現に基づくSCA-Netは、エンドメンバー数が過剰に指定された場合に自己補正を行うことを示す。 ネットワーク定式化により,下限の低ランク表現を尾エネルギーで抽出し,計算的に検証できることを示した。 Samson、Jasper、Urbanのデータセットに関する数値実験は、SCA-Netが以前報告した全てのケースのエラーメトリクスより優れており、ノイズや外れ値に対して堅牢であることを示している。

Linear Mixture Model for hyperspectral datasets involves separating a mixed pixel as a linear combination of its constituent endmembers and corresponding fractional abundances. Both optimization and neural methods have attempted to tackle this problem, with the current state of the art results achieved by neural models on benchmark datasets. However, our review of these neural models show that these networks are severely over-parameterized and consequently the invariant endmember spectra extracted as decoder weights has a high variance over multiple runs. All of these approaches require substantial post-processing to satisfy LMM constraints. Furthermore, they also require an exact specification of the number of endmembers and specialized initialization of weights from other algorithms like VCA. Our work shows for the first time that a two-layer autoencoder (SCA-Net), with $2FK$ parameters ($F$ features, $K$ endmembers), achieves error metrics that are scales apart ($10^{-5})$ from previously reported values $(10^{-2})$. SCA-Net converges to this low error solution starting from a random initialization of weights. We also show that SCA-Net, based upon a bi-orthogonal representation, performs a self-correction when the the number of endmembers are over-specified. We show that our network formulation extracts a low-rank representation that is bounded below by a tail-energy and can be computationally verified. Our numerical experiments on Samson, Jasper, and Urban datasets demonstrate that SCA-Net outperforms previously reported error metrics for all the cases while being robust to noise and outliers.
翻訳日:2021-02-12 21:25:56 公開日:2021-02-10
# (参考訳) 土壌と環境パラメータを用いた作物収量推定モデルの開発 [全文訳有]

Development of Crop Yield Estimation Model using Soil and Environmental Parameters ( http://arxiv.org/abs/2102.05755v1 )

ライセンス: CC BY 4.0
Nisar Ahmed, Hafiz Muhammad Shahzad Asif, Gulshan Saleem, Muhammad Usman Younus(参考訳) 作物の収量は、様々な土壌や環境パラメータに影響され、大きく変化する。 そのため、食料安全保障には、収穫前収量を予測できる収量推定モデルが必要である。 この研究はパキスタンの国立茶研究所(national tea research institute)で行われている。 データは毎月10年ごとに記録される。 収集されたパラメータは、最低温度、最大温度、湿度、雨量、土壌のphレベル、農薬の使用、労働専門知識である。 モデルの設計はこれらのパラメータを全て取り入れ、歩留まり予測に最も重要なパラメータを特定しました。 より良い性能のモデルを得るために特徴変換を行う。 設計モデルはニューラルネットワークのアンサンブルに基づいており、表面および環境パラメータに基づく歩留まり予測における提案モデルの有用性を示す0.9461のRスクワッドと0.1204のRMSEを提供した。

Crop yield is affected by various soil and environmental parameters and can vary significantly. Therefore, a crop yield estimation model which can predict pre-harvest yield is required for food security. The study is conducted on tea forms operating under National Tea Research Institute, Pakistan. The data is recorded on monthly basis for ten years period. The parameters collected are minimum and maximum temperature, humidity, rainfall, PH level of the soil, usage of pesticide and labor expertise. The design of model incorporated all of these parameters and identified the parameters which are most crucial for yield predictions. Feature transformation is performed to obtain better performing model. The designed model is based on an ensemble of neural networks and provided an R-squared of 0.9461 and RMSE of 0.1204 indicating the usability of the proposed model in yield forecasting based on surface and environmental parameters.
翻訳日:2021-02-12 21:06:42 公開日:2021-02-10
# (参考訳) 予測システムの評価とアラームの軽減のための新しい手法 [全文訳有]

Novel Techniques to Assess Predictive Systems and Reduce Their Alarm Burden ( http://arxiv.org/abs/2102.05691v1 )

ライセンス: CC BY 4.0
Jonathan A. Handler, Craig F. Feied, Michael T. Gillam(参考訳) バイナリ分類子("predictor")のパフォーマンスは、それが動作するコンテキスト("workflow")に大きく依存します。 予測器の性能の古典的な測定は特定の暗黙のワークフローの仮定が満たされない限り予測器の実現された実用性を反映しません。 これらの暗黙の仮定を満たさないと、最適化された分類器の実装と、予測または評価された性能と実際のデプロイメントで得られた実際のパフォーマンスのミスマッチが発生する。 このミスマッチは、同じ事象に対して複数の予測を行うことができ、イベントは比較的稀であり、同じ事象に対する冗長な真の正の予測は、例えば、毎分予測を行うシステムや、予測される事象に対して中断的なアラームを繰り返し発行するなど、ほとんど価値を付加しない。 本稿では,従来の指標がこれらの文脈における予測器の性能を正しく表現しない理由を説明し,実用関数を用いた性能評価手法("u-metrics")を導入する。 U-metricsは時間的関係から生じる予測ユーティリティの変動を明示的に説明する。 従来のパフォーマンス指標と比較して、u-metricsはワークフローコンテキストで動作する予測器の現実の利点とコストをより正確に反映する。 違いは大きいかもしれません。 また,予測を一定期間抑制する手法である"snoozing"の使用について述べるとともに,事象の捕捉を保ちながら偽陽性を低減し,予測器の性能を向上させる手法について述べる。 スヌージングは、臨床現場で頻繁に発生するように、予測者が中断警報を生成するときに特に有用です。 ユーティリティベースのパフォーマンスメトリクスはスヌーズのパフォーマンスの利点を正しく予測し追跡するが、従来のパフォーマンスメトリクスはそうではない。

The performance of a binary classifier ("predictor") depends heavily upon the context ("workflow") in which it operates. Classic measures of predictor performance do not reflect the realized utility of predictors unless certain implied workflow assumptions are met. Failure to meet these implied assumptions results in suboptimal classifier implementations and a mismatch between predicted or assessed performance and the actual performance obtained in real-world deployments. The mismatch commonly arises when multiple predictions can be made for the same event, the event is relatively rare, and redundant true positive predictions for the same event add little value, e.g., a system that makes a prediction each minute, repeatedly issuing interruptive alarms for a predicted event that may never occur. We explain why classic metrics do not correctly represent the performance of predictors in such contexts, and introduce an improved performance assessment technique ("u-metrics") using utility functions to score each prediction. U-metrics explicitly account for variability in prediction utility arising from temporal relationships. Compared to traditional performance measures, u-metrics more accurately reflect the real-world benefits and costs of a predictor operating in a workflow context. The difference can be significant. We also describe the use of "snoozing," a method whereby predictions are suppressed for a period of time, commonly improving predictor performance by reducing false positives while retaining the capture of events. Snoozing is especially useful when predictors generate interruptive alerts, as so often happens in clinical practice. Utility-based performance metrics correctly predict and track the performance benefits of snoozing, whereas traditional performance metrics do not.
翻訳日:2021-02-12 18:16:38 公開日:2021-02-10
# (参考訳) 顧客生涯価値の予測 - eコマースのユースケース [全文訳有]

Predicting Customer Lifetime Values -- ecommerce use case ( http://arxiv.org/abs/2102.05771v1 )

ライセンス: CC BY-SA 4.0
Ziv Pollak(参考訳) 顧客の将来の購入と生涯価値を予測することは、マーケティングキャンペーンを管理し、マーケティング支出を最適化するための重要な指標です。 この課題は、顧客と企業の関係が非契約的であるため、主に歴史的購入に基づいて将来の購入を予測する必要がある場合、特に困難である。 この研究では、顧客の将来の購入を予測する2つのアプローチを比較します。まず、顧客の行動を予測するために「購入する」統計モデルを使用し、その後、同じデータセットにニューラルネットワークを使用し、結果を比較します。 この比較は、これらの2つの方法の定量的および定性的な分析と、異なるケースでの進行方法と将来の研究の機会の両方につながります。

Predicting customer future purchases and lifetime value is a key metrics for managing marketing campaigns and optimizing marketing spend. This task is specifically challenging when the relationships between the customer and the firm are of a noncontractual nature and therefore the future purchases need to be predicted based mostly on historical purchases. This work compares two approaches to predict customer future purchases, first using a 'buy-till-you-die 7; statistical model to predict customer behavior and later using a neural network on the same dataset and comparing the results. This comparison will lead to both quantitative and qualitative analysis of those two methods as well as recommendation on how to proceed in different cases and opportunities for future research.
翻訳日:2021-02-12 17:51:40 公開日:2021-02-10
# (参考訳) 畳み込みニューラルネットワークによる多角格子の微細化と多角不連続ガレルキン法および仮想要素法への応用 [全文訳有]

Refinement of polygonal grids using Convolutional Neural Networks with applications to polygonal Discontinous Galerkin and Virtual Element methods ( http://arxiv.org/abs/2102.05738v1 )

ライセンス: CC BY 4.0
P. F. Antonietti, E. Manuzzi(参考訳) Convolutional Neural Networks (CNNs) に基づくポリゴングリッドの改良を処理するための新しい戦略を提案します。 CNNは多角形要素の「形状」を正しく同定し、適応的精錬戦略において適用可能な適切な精錬基準を設計するために、うまく活用可能であることを示す。 我々は,CNNを用いて要素の形状を低計算コストで分類する2つの改良戦略を提案する。 任意の形状の多角形要素、すなわちポリゴン不連続ガレルキン法(Polygonal Discontinuous Galerkin)と仮想要素法(Virtual Element Methods, VEMs)をサポートする有限要素法の2つのファミリーを考慮し、提案手法を検証した。 提案アルゴリズムは,グリッドの精度と品質の両面において,離散化方式の性能を大幅に向上させることができることを示す。 さらに、トレーニングフェーズがオフラインで実行され、問題独立であるため、全体的な計算コストが低く抑えられる。

We propose new strategies to handle polygonal grids refinement based on Convolutional Neural Networks (CNNs). We show that CNNs can be successfully employed to identify correctly the "shape" of a polygonal element so as to design suitable refinement criteria to be possibly employed within adaptive refinement strategies. We propose two refinement strategies that exploit the use of CNNs to classify elements' shape, at a low computational cost. We test the proposed idea considering two families of finite element methods that support arbitrarily shaped polygonal elements, namely Polygonal Discontinuous Galerkin (PolyDG) methods and Virtual Element Methods (VEMs). We demonstrate that the proposed algorithms can greatly improve the performance of the discretization schemes both in terms of accuracy and quality of the underlying grids. Moreover, since the training phase is performed off-line and is problem independent the overall computational costs are kept low.
翻訳日:2021-02-12 16:45:17 公開日:2021-02-10
# コンテキスト言語モデルをカスタマイズするLegal Document Reviews

Customizing Contextualized Language Models forLegal Document Reviews ( http://arxiv.org/abs/2102.05757v1 )

ライセンス: Link先を確認
Shohreh Shaghaghian, Luna (Yue) Feng, Borna Jafarpour, Nicolai Pogrebnyakov(参考訳) コンピュータビジョンにおける帰納的トランスファー学習に触発され、自然言語処理タスクの性能を高める文脈化言語モデルのトレーニングに多くの取り組みがなされている。 これらのモデルは、主にニュース、書籍、wikipediaのような大きな一般ドメインコーパスで訓練されている。これらの事前訓練されたジェネリック言語モデルは、言語構造の意味的および構文的本質をよく認識しているが、現実世界のドメイン固有のシナリオでそれらを利用するには、トークンの分配シフト、推論時間、記憶、そして複数のタスクにおける同時能力など、いくつかの実用的な考慮が必要である。 本稿では、法律領域に注目し、汎用ドメインコーパスに重きを置く異なる言語モデルが、複数の法律文書レビュータスクに最適なカスタマイズが可能であることを示す。 本研究は,タスクのパフォーマンスと実践的考察の効率を比較検討する。

Inspired by the inductive transfer learning on computer vision, many efforts have been made to train contextualized language models that boost the performance of natural language processing tasks. These models are mostly trained on large general-domain corpora such as news, books, or Wikipedia.Although these pre-trained generic language models well perceive the semantic and syntactic essence of a language structure, exploiting them in a real-world domain-specific scenario still needs some practical considerations to be taken into account such as token distribution shifts, inference time, memory, and their simultaneous proficiency in multiple tasks. In this paper, we focus on the legal domain and present how different language model strained on general-domain corpora can be best customized for multiple legal document reviewing tasks. We compare their efficiencies with respect to task performances and present practical considerations.
翻訳日:2021-02-12 14:27:32 公開日:2021-02-10
# sparse-push: 非iidデータセットを用いた有向および時変グラフ上のコミュニケーションとエネルギー効率の高い分散学習

Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets ( http://arxiv.org/abs/2102.05715v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Amandeep Singh, Jan Rabaey(参考訳) 現在のディープラーニング(DL)システムは、利用可能なトレーニングデータの量を制限する集中型コンピューティングパラダイムに依存し、システムのレイテンシを高め、プライバシーとセキュリティの制約を追加します。 ピアツーピアのワイヤレス接続エッジデバイス上でのDLモデルの分散および分散トレーニングによって実現されるオンデバイス学習は、上記の制限を軽減するだけでなく、DLモデルを必要とする次世代のアプリケーションが環境から継続的に相互作用して学習できるようにする。 しかし、これは、デバイス間の通信量を最小限に抑えつつ、非IIDデータ分布に耐性があると同時に、時間変動および指向ピアツーピアグラフ構造を通じてDLモデルを訓練する新しいトレーニングアルゴリズムの開発を必要とする。 本研究では、ピアツーピア、ディレクティブ、時間変化のあるグラフトポロジのトレーニングを支援する通信効率の良い分散分散トレーニングアルゴリズムであるスパースプッシュを提案する。 提案アルゴリズムは,CIFAR-10データセット上でResNet-20やVGG11などの各種DLモデルをトレーニングする場合,通信性能がわずか1%低下した466倍の低減を実現する。 さらに,非IIDデータセットにおいて,通信圧縮がパフォーマンスの大幅な低下につながることを実証し,同様のレベルの通信圧縮を維持しながら,この性能低下を回復するSkew-Compensated Sparse Pushアルゴリズムを提案する。

Current deep learning (DL) systems rely on a centralized computing paradigm which limits the amount of available training data, increases system latency, and adds privacy and security constraints. On-device learning, enabled by decentralized and distributed training of DL models over peer-to-peer wirelessly connected edge devices, not only alleviate the above limitations but also enable next-gen applications that need DL models to continuously interact and learn from their environment. However, this necessitates the development of novel training algorithms that train DL models over time-varying and directed peer-to-peer graph structures while minimizing the amount of communication between the devices and also being resilient to non-IID data distributions. In this work we propose, Sparse-Push, a communication efficient decentralized distributed training algorithm that supports training over peer-to-peer, directed, and time-varying graph topologies. The proposed algorithm enables 466x reduction in communication with only 1% degradation in performance when training various DL models such as ResNet-20 and VGG11 over the CIFAR-10 dataset. Further, we demonstrate how communication compression can lead to significant performance degradation in-case of non-IID datasets, and propose Skew-Compensated Sparse Push algorithm that recovers this performance drop while maintaining similar levels of communication compression.
翻訳日:2021-02-12 14:26:31 公開日:2021-02-10
# Derivative-Free Reinforcement Learning: レビュー

Derivative-Free Reinforcement Learning: A Review ( http://arxiv.org/abs/2102.05710v1 )

ライセンス: Link先を確認
Hong Qian and Yang Yu(参考訳) 強化学習とは、未知の環境で最良の連続的な決定を行うエージェントモデルを学ぶことです。 未知の環境では、エージェントは収集された情報を悪用しながら環境を探索する必要があります。 一方、デリバティブフリー最適化は高度な問題を解決することができる。 一般的にはサンプリング・アンド・アップディングのフレームワークを使用して、ソリューションを反復的に改善する。 したがって、デリバティブフリー最適化は強化学習と似た核となる問題に対処し、学習分類システムと神経進化/進化強化学習の名で強化学習アプローチに導入されている。 このような手法は数十年にわたって開発されてきたが、近年ではデリバティブフリーの強化学習が注目を集めている。 しかし、このトピックに関する最近の調査はまだ欠けています。 本稿では, パラメータ更新, モデル選択, 探索, 並列/分散手法などの側面において, 微分自由強化学習の手法を整理し, 手法を整理する。 さらに,現在の限界と今後の方向性についても論じるとともに,本論文がより注目され,新規かつ効率的なアプローチを開発する上での触媒となることを期待する。

Reinforcement learning is about learning agent models that make the best sequential decisions in unknown environments. In an unknown environment, the agent needs to explore the environment while exploiting the collected information, which usually forms a sophisticated problem to solve. Derivative-free optimization, meanwhile, is capable of solving sophisticated problems. It commonly uses a sampling-and-updatin g framework to iteratively improve the solution, where exploration and exploitation are also needed to be well balanced. Therefore, derivative-free optimization deals with a similar core issue as reinforcement learning, and has been introduced in reinforcement learning approaches, under the names of learning classifier systems and neuroevolution/evolu tionary reinforcement learning. Although such methods have been developed for decades, recently, derivative-free reinforcement learning exhibits attracting increasing attention. However, recent survey on this topic is still lacking. In this article, we summarize methods of derivative-free reinforcement learning to date, and organize the methods in aspects including parameter updating, model selection, exploration, and parallel/distributed methods. Moreover, we discuss some current limitations and possible future directions, hoping that this article could bring more attentions to this topic and serve as a catalyst for developing novel and efficient approaches.
翻訳日:2021-02-12 14:24:51 公開日:2021-02-10
# Latent Unified State Representationによる強化学習におけるドメイン適応

Domain Adaptation In Reinforcement Learning Via Latent Unified State Representation ( http://arxiv.org/abs/2102.05714v1 )

ライセンス: Link先を確認
Jinwei Xing, Takashi Nagata, Kexin Chen, Xinyun Zou, Emre Neftci, Jeffrey L. Krichmar(参考訳) 近年の深層強化学習(RL)の成功にもかかわらず、ドメイン適応は未解決の問題である。 RLエージェントの一般化能力はDeep RLの現実世界の適用性にとって重要ですが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は依然として困難な問題です。 そこで本研究では,第1段階で複数のドメインにまたがる遅延統一状態表現(LUSR)を学習する2段階のRLエージェントを提案し,第2段階ではLUSRをベースとした1つのソースドメインでRLトレーニングを行う。 LUSRのクロスドメイン一貫性により、ソースドメインから取得したポリシーは、追加のトレーニングなしで他のターゲットドメインに一般化できます。 まず、カスタマイズされた操作でCarRacingゲームにアプローチを実証し、さらにより複雑で現実的な視覚的観察が可能な自律走行シミュレータであるCARLAで検証する。 提案手法は,RLタスクにおける最先端のドメイン適応性能を実現し,潜在表現に基づくRLとイメージ・ツー・イメージの変換に基づく先行手法よりも優れていることを示す。

Despite the recent success of deep reinforcement learning (RL), domain adaptation remains an open problem. Although the generalization ability of RL agents is critical for the real-world applicability of Deep RL, zero-shot policy transfer is still a challenging problem since even minor visual changes could make the trained agent completely fail in the new task. To address this issue, we propose a two-stage RL agent that first learns a latent unified state representation (LUSR) which is consistent across multiple domains in the first stage, and then do RL training in one source domain based on LUSR in the second stage. The cross-domain consistency of LUSR allows the policy acquired from the source domain to generalize to other target domains without extra training. We first demonstrate our approach in variants of CarRacing games with customized manipulations, and then verify it in CARLA, an autonomous driving simulator with more complex and realistic visual observations. Our results show that this approach can achieve state-of-the-art domain adaptation performance in related RL tasks and outperforms prior approaches based on latent-representatio n based RL and image-to-image translation.
翻訳日:2021-02-12 14:24:34 公開日:2021-02-10
# リスク回避ベイズ適応強化学習

Risk-Averse Bayes-Adaptive Reinforcement Learning ( http://arxiv.org/abs/2102.05762v1 )

ライセンス: Link先を確認
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) 本稿では,リスク回避ベイズ適応強化学習について述べる。 我々は,bayes-adaptive markov decision process (mdps) におけるトータルリターンのリスク条件値(cvar)を最適化する問題を提起する。 本稿では,本設定におけるCVaRを最適化する政策は,MDPに対する事前分布によるパラメトリック不確実性と,MDPの固有の確率性による内部不確実性の両方に反するリスクであることを示す。 この問題を2人のプレイヤーによる確率ゲームとして再構成し,モンテカルロ木探索とベイズ最適化に基づく近似アルゴリズムを提案する。 実験により,本手法がこの問題に対するベースラインアプローチを大幅に上回ることを示した。

In this work, we address risk-averse Bayesadaptive reinforcement learning. We pose the problem of optimising the conditional value at risk (CVaR) of the total return in Bayes-adaptive Markov decision processes (MDPs). We show that a policy optimising CVaR in this setting is risk-averse to both the parametric uncertainty due to the prior distribution over MDPs, and the internal uncertainty due to the inherent stochasticity of MDPs. We reformulate the problem as a two-player stochastic game and propose an approximate algorithm based on Monte Carlo tree search and Bayesian optimisation. Our experiments demonstrate that our approach significantly outperforms baseline approaches for this problem.
翻訳日:2021-02-12 14:24:11 公開日:2021-02-10
# 強化学習における攻撃に対する防御

Defense Against Reward Poisoning Attacks in Reinforcement Learning ( http://arxiv.org/abs/2102.05776v1 )

ライセンス: Link先を確認
Kiarash Banihashem, Adish Singla, Goran Radanovic(参考訳) 強化学習における報酬中毒攻撃に対する防衛戦略について検討する。 脅威モデルとして,攻撃パラメータによって指定された最適性ギャップを用いて,攻撃者のターゲットポリシーを有毒報酬の下で一意に最適なものにするための報酬を最小に変更する攻撃を考察する。 当社の目標は,このような攻撃に対してロバストなエージェントを設計することです。 毒入りの報酬の下で 政策を計算しながら 真の無毒な報酬だ 本稿では,攻撃パラメータが知られ,不明な場合に,最適な防御方針を導出するための最適化フレームワークを提案する。 さらに,提案する最適化問題の解決策である防衛方針は,性能を保証することができることを示した。 特に、以下の制限は、真、不当、報奨に関するものである:a) 防衛政策の期待リターンに対する下限、b) これらの防衛政策が攻撃者の目標政策とどのように最適に比較されるかの上限である。 我々は、形式的な結果の背後にある直観を図示し、導出境界が非自明であることを示すことで、論文を締めくくった。

We study defense strategies against reward poisoning attacks in reinforcement learning. As a threat model, we consider attacks that minimally alter rewards to make the attacker's target policy uniquely optimal under the poisoned rewards, with the optimality gap specified by an attack parameter. Our goal is to design agents that are robust against such attacks in terms of the worst-case utility w.r.t. the true, unpoisoned, rewards while computing their policies under the poisoned rewards. We propose an optimization framework for deriving optimal defense policies, both when the attack parameter is known and unknown. Moreover, we show that defense policies that are solutions to the proposed optimization problems have provable performance guarantees. In particular, we provide the following bounds with respect to the true, unpoisoned, rewards: a) lower bounds on the expected return of the defense policies, and b) upper bounds on how suboptimal these defense policies are compared to the attacker's target policy. We conclude the paper by illustrating the intuitions behind our formal results, and showing that the derived bounds are non-trivial.
翻訳日:2021-02-12 14:24:01 公開日:2021-02-10
# 協調マルチエージェント強化学習におけるエージェント間の相互作用のモデル化

Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.06042v1 )

ライセンス: Link先を確認
Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Yang Jun(参考訳) 多エージェント強化学習(MARL)のバリューベース手法,特に値分解法は,様々な課題に対して実証されてきた。 しかし、現在の手法は、ゲームや実生活におけるチームワークに不可欠なエージェント間の相互作用にはほとんど注意を払わない。 これは、協調探索と値関数推定という2つの面で、値ベースのMARLアルゴリズムの効率を制限します。 本論文では,エージェントの相互作用を政策と価値関数の観点からモデル化する,対話型アクタークリティカル(IAC)という新たな協調的MARLアルゴリズムを提案する。 政策面では、エントロピー規則化された期待リターンを最大化する共同探索モジュールを採用することで、マルチエージェント共同確率ポリシーを導入する。 価値面では、チームメイトの影響を考慮して、各エージェントの価値関数を推定するために共通の注意メカニズムを使用します。 実装レベルでは、値分解法を連続制御タスクに拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。 実験結果から,本手法は最先端の手法よりも優れ,協調的な手法による性能の向上が期待できる。

Value-based methods of multi-agent reinforcement learning (MARL), especially the value decomposition methods, have been demonstrated on a range of challenging cooperative tasks. However, current methods pay little attention to the interaction between agents, which is essential to teamwork in games or real life. This limits the efficiency of value-based MARL algorithms in the two aspects: collaborative exploration and value function estimation. In this paper, we propose a novel cooperative MARL algorithm named as interactive actor-critic~(IAC), which models the interaction of agents from the perspectives of policy and value function. On the policy side, a multi-agent joint stochastic policy is introduced by adopting a collaborative exploration module, which is trained by maximizing the entropy-regularized expected return. On the value side, we use the shared attention mechanism to estimate the value function of each agent, which takes the impact of the teammates into consideration. At the implementation level, we extend the value decomposition methods to continuous control tasks and evaluate IAC on benchmark tasks including classic control and multi-agent particle environments. Experimental results indicate that our method outperforms the state-of-the-art approaches and achieves better performance in terms of cooperation.
翻訳日:2021-02-12 14:23:22 公開日:2021-02-10
# ネットワーク上の相互励起点過程の逐次変化点検出

Sequential change-point detection for mutually exciting point processes over networks ( http://arxiv.org/abs/2102.05724v1 )

ライセンス: Link先を確認
Haoyun Wang, Liyan Xie, Yao Xie, Alex Cuozzo, Simon Mak(参考訳) 自己および相互エキサイティングなプロセス,a.a.における変化点を逐次検出する新しいCUSUM手順を提案する。 離散イベントデータを用いたホークスネットワーク。 ホークスネットワークは、イベント間のタイミングが多くの情報を運ぶ不規則に観測されたデータをモデル化する能力があるため、統計と機械学習の一般的なモデルとなっている。 ホークスネットワークの突然の変化を検出する問題は、ニューロンイメージング、センサーネットワーク、ソーシャルネットワーク監視など、さまざまなアプリケーションから発生します。 これにもかかわらず、連続データからそのような変化を検出するための計算的およびメモリ効率のよいオンラインアルゴリズムは存在しない。 本稿では, 分散処理とメモリ効率の両面において, CUSUM の効率的なオンライン再帰的実装を行い, 新たな CUSUM 手法の理論的特性を確立する。 そこで提案したCUSUM法は,計算データに基づくShewhart手順,既存の文献における一般化確率比(GLR),標準スコア統計など,既存の手法よりも優れた性能を発揮できることを示した。 シミュレーション例と,ニューロンネットワークにおける集団コード変化検出への応用により,これを実証する。

We present a new CUSUM procedure for sequentially detecting change-point in the self and mutual exciting processes, a.k.a. Hawkes networks using discrete events data. Hawkes networks have become a popular model for statistics and machine learning due to their capability in modeling irregularly observed data where the timing between events carries a lot of information. The problem of detecting abrupt changes in Hawkes networks arises from various applications, including neuronal imaging, sensor network, and social network monitoring. Despite this, there has not been a computationally and memory-efficient online algorithm for detecting such changes from sequential data. We present an efficient online recursive implementation of the CUSUM statistic for Hawkes processes, both decentralized and memory-efficient, and establish the theoretical properties of this new CUSUM procedure. We then show that the proposed CUSUM method achieves better performance than existing methods, including the Shewhart procedure based on count data, the generalized likelihood ratio (GLR) in the existing literature, and the standard score statistic. We demonstrate this via a simulated example and an application to population code change-detection in neuronal networks.
翻訳日:2021-02-12 14:22:52 公開日:2021-02-10
# ワンショット音楽スタイル転送のための自己監督VQ-VAE

Self-Supervised VQ-VAE For One-Shot Music Style Transfer ( http://arxiv.org/abs/2102.05749v1 )

ライセンス: Link先を確認
Ond\v{r}ej C\'ifka, Alexey Ozerov, Umut \c{S}im\c{s}ekli, Ga\"el Richard(参考訳) ある画像の芸術的スタイルを別の画像に適用できるニューラルスタイル転送は、その導入後すぐに最も広く披露されたコンピュータビジョンアプリケーションの一つとなった。 対照的に、音楽オーディオ領域の関連タスクは、最近まで、ほとんど無攻撃のままでした。 音楽信号に合わせたスタイル変換手法がいくつか提案されているが、その多くは古典的な画像スタイル転送アルゴリズムの「ワンショット」能力に欠けている。 一方、音楽入力における既存のワンショットオーディオスタイル転送方式の結果は、それほど説得力に欠ける。 この研究では、我々は特にワンショットの音色転送の問題に興味があります。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張と,音色とピッチの異なる表現を得るために設計された,単純な自己監視型学習戦略に基づく新しい手法を提案する。 本手法は客観的指標のセットを用いて評価し,選択したベースラインを上回ることができることを示す。

Neural style transfer, allowing to apply the artistic style of one image to another, has become one of the most widely showcased computer vision applications shortly after its introduction. In contrast, related tasks in the music audio domain remained, until recently, largely untackled. While several style conversion methods tailored to musical signals have been proposed, most lack the 'one-shot' capability of classical image style transfer algorithms. On the other hand, the results of existing one-shot audio style transfer methods on musical inputs are not as compelling. In this work, we are specifically interested in the problem of one-shot timbre transfer. We present a novel method for this task, based on an extension of the vector-quantized variational autoencoder (VQ-VAE), along with a simple self-supervised learning strategy designed to obtain disentangled representations of timbre and pitch. We evaluate the method using a set of objective metrics and show that it is able to outperform selected baselines.
翻訳日:2021-02-12 14:19:19 公開日:2021-02-10
# 微分生成音韻論

Differentiable Generative Phonology ( http://arxiv.org/abs/2102.05717v1 )

ライセンス: Link先を確認
Shijie Wu and Edoardo Maria Ponti and Ryan Cotterell(参考訳) Chomsky and Halle (1968) によって定式化された生成音韻学の目標は、言語で証明された音韻の集合を説明する形式的なシステムを指定することである。 伝統的に、規則(あるいは最適性理論の場合の制約)と基礎形式(UF)の集合は、音韻弦を生成するためにタンデムで働くように仮定される。 しかし、具体的な実現に関するUFの抽象化の程度は議論の余地がある。 我々の研究の主な貢献は、規則や制約の集合ではなく、ニューラルモデルで識別可能なエンドツーエンドとして音韻生成システムを実装することである。 従来の音韻学とは対照的に、私たちのモデルでは UF は離散弦ではなく $\mathbb{R}^d$ の連続ベクトルである。 その結果、UFは言語学者によって提案されるのではなく自動的に発見され、モデルは現実的な語彙のサイズまでスケールすることができる。 さらに、生成過程のいくつかのモードを比較し、以下を考察する:i)形態素と表面形態(SFs)の間に根底にある表現の存在または不在;ii)SFに関するUFの条件依存または独立。 5言語と28言語をカバーする2つのデータセットにおいて,各モードが有意な音韻列を推定する能力を評価した。 結果は、生成音韻学の2つのテネットであるvizと相関する。 UF と SF からの独立の必要性。 一般的に、生成音声学のニューラルネットワークは、UFとSFの両方を自動的に、そして大規模に学習する。

The goal of generative phonology, as formulated by Chomsky and Halle (1968), is to specify a formal system that explains the set of attested phonological strings in a language. Traditionally, a collection of rules (or constraints, in the case of optimality theory) and underlying forms (UF) are posited to work in tandem to generate phonological strings. However, the degree of abstraction of UFs with respect to their concrete realizations is contentious. As the main contribution of our work, we implement the phonological generative system as a neural model differentiable end-to-end, rather than as a set of rules or constraints. Contrary to traditional phonology, in our model, UFs are continuous vectors in $\mathbb{R}^d$, rather than discrete strings. As a consequence, UFs are discovered automatically rather than posited by linguists, and the model can scale to the size of a realistic vocabulary. Moreover, we compare several modes of the generative process, contemplating: i) the presence or absence of an underlying representation in between morphemes and surface forms (SFs); and ii) the conditional dependence or independence of UFs with respect to SFs. We evaluate the ability of each mode to predict attested phonological strings on 2 datasets covering 5 and 28 languages, respectively. The results corroborate two tenets of generative phonology, viz. the necessity for UFs and their independence from SFs. In general, our neural model of generative phonology learns both UFs and SFs automatically and on a large-scale.
翻訳日:2021-02-12 14:17:09 公開日:2021-02-10
# AdaFuse: 効率的な行動認識のための適応型時間融合ネットワーク

AdaFuse: Adaptive Temporal Fusion Network for Efficient Action Recognition ( http://arxiv.org/abs/2102.05775v1 )

ライセンス: Link先を確認
Yue Meng, Rameswar Panda, Chung-Ching Lin, Prasanna Sattigeri, Leonid Karlinsky, Kate Saenko, Aude Oliva, Rogerio Feris(参考訳) 時間モデリングは、効率的なビデオアクション認識の鍵です。 時間的情報を理解することで動的動作の認識精度が向上する一方で、時間的冗長性を取り除き、過去の特徴を再利用することで、効率的な動作認識につながる計算を大幅に節約することができる。 本稿では,現在および過去の特徴地図からチャネルを動的に融合し,強い時間的モデリングを行う適応型時間的融合ネットワークadafuseを提案する。 具体的には、過去の畳み込み特徴マップから必要な情報を、現在の刈り込み特徴マップと融合させ、認識精度と効率を両立させる。 さらに,行動認識の計算コストをさらに削減するために,スキップ操作を用いる。 Something V1 & V2、Jester、Mini-Kineticsの広範な実験は、私たちのアプローチが最先端の方法と同等の精度で約40%の計算節約を達成できることを示しています。 プロジェクトページはhttps://mengyuest.gi thub.io/AdaFuse/にある。

Temporal modelling is the key for efficient video action recognition. While understanding temporal information can improve recognition accuracy for dynamic actions, removing temporal redundancy and reusing past features can significantly save computation leading to efficient action recognition. In this paper, we introduce an adaptive temporal fusion network, called AdaFuse, that dynamically fuses channels from current and past feature maps for strong temporal modelling. Specifically, the necessary information from the historical convolution feature maps is fused with current pruned feature maps with the goal of improving both recognition accuracy and efficiency. In addition, we use a skipping operation to further reduce the computation cost of action recognition. Extensive experiments on Something V1 & V2, Jester and Mini-Kinetics show that our approach can achieve about 40% computation savings with comparable accuracy to state-of-the-art methods. The project page can be found at https://mengyuest.gi thub.io/AdaFuse/
翻訳日:2021-02-12 14:15:59 公開日:2021-02-10
# Emojisがリモートワーカーのドロップアウトを予測 - GitHub上での絵文字利用に関する実証的研究

Emojis Predict Dropouts of Remote Workers: An Empirical Study of Emoji Usage on GitHub ( http://arxiv.org/abs/2102.05737v1 )

ライセンス: Link先を確認
Xuan Lu, Wei Ai, Zhenpeng Chen, Yanbin Cao, Xuanzhe Liu, Qiaozhu Mei(参考訳) 職場での感情は、仕事のモチベーション、ステータス、態度の重要なシグナルとして、そして様々な仕事関連の成果の予測因子として、長い間認識されてきた。 例えば、調和的な情熱は仕事のコミットメントを増加させるが、ストレスは持続可能性を減らし、バーンアウトにつながる。 リモートで働く従業員が増えれば、労働者の感情的および精神的健康的なシグナルは、日々の対面コミュニケーションを通して観察することが難しくなる。 職場でのコミュニケーションとコラボレーションのためのオンラインプラットフォームの使用は、労働者の感情を監視するための代替チャネルを提供します。 本稿では,オンラインコミュニケーションにおける非言語的手段としての絵文字の活用について検討する。 特に、GitHubの開発者は、作業関連の活動に絵文字を使用する方法について検討します。 開発者は絵文字の使用パターンが多様であることを示し、活動レベル、仕事の種類、コミュニケーションの種類、時間管理、その他の行動パターンなど、作業状況と高い相関性を示す。 絵文字を投稿で使っているデベロッパーは、オンラインワークプラットフォームから脱落する可能性が著しく低い。 意外なことに、絵文字を機能として使うだけで、標準的な機械学習モデルは、将来のデベロッパーのドロップアウトを十分な精度で予測できる。

Emotions at work have long been identified as critical signals of work motivations, status, and attitudes, and as predictors of various work-related outcomes. For example, harmonious passion increases commitment at work but stress reduces sustainability and leads to burnouts. When more and more employees work remotely, these emotional and mental health signals of workers become harder to observe through daily, face-to-face communications. The use of online platforms to communicate and collaborate at work provides an alternative channel to monitor the emotions of workers. This paper studies how emojis, as non-verbal cues in online communications, can be used for such purposes. In particular, we study how the developers on GitHub use emojis in their work-related activities. We show that developers have diverse patterns of emoji usage, which highly correlate to their working status including activity levels, types of work, types of communications, time management, and other behavioral patterns. Developers who use emojis in their posts are significantly less likely to dropout from the online work platform. Surprisingly, solely using emoji usage as features, standard machine learning models can predict future dropouts of developers at a satisfactory accuracy.
翻訳日:2021-02-12 14:13:21 公開日:2021-02-10
# 高速かつスケーラブルな時系列ハイパーパラメータチューニングのための自己監視学習

Self-supervised learning for fast and scalable time series hyper-parameter tuning ( http://arxiv.org/abs/2102.05740v1 )

ライセンス: Link先を確認
Peiyi Zhang, Xiaodong Jiang, Ginger M Holt, Nikolay Pavlovich Laptev, Caner Komurlu, Peng Gao, and Yang Yu(参考訳) 時系列モデルのハイパーパラメータは時系列分析において重要な役割を果たす。 ハイパーパラメータのわずかな違いは、与えられたモデルに対して非常に異なる予測結果をもたらす可能性があるため、優れたハイパーパラメータ値の選択は不可欠です。 Grid Search、Random Search、Bayesian Optimal Searchといった既存の一般的なハイパーパラメータチューニング手法のほとんどは、検索という一つの重要なコンポーネントに基づいているため、計算コストが高く、高速でスケーラブルな時系列ハイパーパラメータチューニング(HPT)には適用できない。 時系列特徴を入力として利用し,最適なハイパーパラメータを生成するHPT(SSL-HPT)の自己監視学習フレームワークを提案する。 SSL-HPTアルゴリズムは、他の検索ベースアルゴリズムに比べて6-20倍高速で、様々なアプリケーションで精度の高い予測結果を生成する。

Hyper-parameters of time series models play an important role in time series analysis. Slight differences in hyper-parameters might lead to very different forecast results for a given model, and therefore, selecting good hyper-parameter values is indispensable. Most of the existing generic hyper-parameter tuning methods, such as Grid Search, Random Search, Bayesian Optimal Search, are based on one key component - search, and thus they are computationally expensive and cannot be applied to fast and scalable time-series hyper-parameter tuning (HPT). We propose a self-supervised learning framework for HPT (SSL-HPT), which uses time series features as inputs and produces optimal hyper-parameters. SSL-HPT algorithm is 6-20x faster at getting hyper-parameters compared to other search based algorithms while producing comparable accurate forecasting results in various applications.
翻訳日:2021-02-12 14:13:00 公開日:2021-02-10
# ランダム森林分類に基づくリチウムイオン電池製造の特徴分析とモデル化

Feature Analyses and Modelling of Lithium-ion Batteries Manufacturing based on Random Forest Classification ( http://arxiv.org/abs/2102.06029v1 )

ライセンス: Link先を確認
Kailong Liu, Xiaosong Hu, Huiyu Zhou, Lei Tong, W. Dhammika Widanage, James Marco(参考訳) リチウムイオン電池製造は、強く結合した機能相互依存性を持つ非常に複雑なプロセスであり、製造チェーン内の特徴変数を分析し、信頼性の高い分類を実現するための実現可能なソリューションが必要である。 本稿では、OOB(Out of Bag)予測、Gini変化、およびPMOA(Predictive Measurement of Association)を用いて、電池製造特性の重要性と相関性および電極特性の分類への影響を効果的に定量化するランダムフォレスト(RF)ベースの分類フレームワークを提案する。 混合段階から3つの中間製品特性とコーティング段階から1つの製品パラメータを含む電池製造データは、設計RFフレームワークによって分析され、電池電極活性物質の質量負荷と多孔性の両方への影響を調べます。 その結果, rfフレームワークは電極特性の信頼性の高い分類を実現するだけでなく, 製造特性と相関性の両方を効果的に定量化できることがわかった。 非偏在性(FI)、改善性(FI)、PMOA(PMOA)を含む3つの様々な定量指標により、電池生産の重要度と相関を同時に定量化する体系的なRFフレームワークを初めて設計し、モデル次元の低減と電池製造の効率的な感度解析を行う有望なソリューションを提供します。

Lithium-ion battery manufacturing is a highly complicated process with strongly coupled feature interdependencies, a feasible solution that can analyse feature variables within manufacturing chain and achieve reliable classification is thus urgently needed. This article proposes a random forest (RF)-based classification framework, through using the out of bag (OOB) predictions, Gini changes as well as predictive measure of association (PMOA), for effectively quantifying the importance and correlations of battery manufacturing features and their effects on the classification of electrode properties. Battery manufacturing data containing three intermediate product features from the mixing stage and one product parameter from the coating stage are analysed by the designed RF framework to investigate their effects on both the battery electrode active material mass load and porosity. Illustrative results demonstrate that the proposed RF framework not only achieves the reliable classification of electrode properties but also leads to the effective quantification of both manufacturing feature importance and correlations. This is the first time to design a systematic RF framework for simultaneously quantifying battery production feature importance and correlations by three various quantitative indicators including the unbiased feature importance (FI), gain improvement FI and PMOA, paving a promising solution to reduce model dimension and conduct efficient sensitivity analysis of battery manufacturing.
翻訳日:2021-02-12 14:11:03 公開日:2021-02-10
# スマートグリッドにおける電気的盗難検出のための深部畳み込みニューラルネットワークモデル

An Ensemble Deep Convolutional Neural Network Model for Electricity Theft Detection in Smart Grids ( http://arxiv.org/abs/2102.06039v1 )

ライセンス: Link先を確認
Hossein Mohammadi Rouzbahani, Hadis Karimipour, Lei Lei(参考訳) スマートグリッドは情報通信技術(ict)とスマートメーターに依存しており、ネットワークの様々なパラメータを制御・管理している。 しかし、これらのインフラストラクチャを使用することで、スマートグリッドはサイバー脅威、特に電気盗難に対してより脆弱になります。 電力盗難検出(EDT)アルゴリズムは、この非技術損失(NTL)が電力システムの重要な課題につながる可能性があるため、通常、そのような目的のために使用されます。 本稿では,スマートグリッドにおけるETDのためのEnsemble Deep Convolutional Neural Network (EDCNN)アルゴリズムを提案する。 モデルの最初の層として、不均衡データを扱うためにランダムなアンダーバギング技術が適用され、その後、各サブセットにDeep Convolutional Neural Networks(DCNN)が利用される。 最後に、最後の部分に投票システムが組み込まれています。 評価結果は, 曲線下領域 (auc) , 精度, 再現率, f1-score および精度に基づいて, 文献中の既存の方法と比較して, 提案手法の有効性を検証した。

Smart grids extremely rely on Information and Communications Technology (ICT) and smart meters to control and manage numerous parameters of the network. However, using these infrastructures make smart grids more vulnerable to cyber threats especially electricity theft. Electricity Theft Detection (EDT) algorithms are typically used for such purpose since this Non-Technical Loss (NTL) may lead to significant challenges in the power system. In this paper, an Ensemble Deep Convolutional Neural Network (EDCNN) algorithm for ETD in smart grids has been proposed. As the first layer of the model, a random under bagging technique is applied to deal with the imbalance data, and then Deep Convolutional Neural Networks (DCNN) are utilized on each subset. Finally, a voting system is embedded, in the last part. The evaluation results based on the Area Under Curve (AUC), precision, recall, f1-score, and accuracy verify the efficiency of the proposed method compared to the existing method in the literature.
翻訳日:2021-02-12 14:10:36 公開日:2021-02-10
# コミュニケーションにおける人工知能が言語と社会的関係に与える影響

Artificial intelligence in communication impacts language and social relationships ( http://arxiv.org/abs/2102.05756v1 )

ライセンス: Link先を確認
Jess Hohenstein and Dominic DiFranzo and Rene F. Kizilcec and Zhila Aghajari and Hannah Mieczkowski and Karen Levy and Mor Naaman and Jeff Hancock and Malte Jung(参考訳) 人工知能(ai)は現在、社会的相互作用を促進するために広く使われているが、その社会的関係やコミュニケーションへの影響はよく分かっていない。 私たちは、最も普及しているAIアプリケーションの1つであるアルゴリズムによる応答提案("smart replies")の社会的影響を研究します。 2つのランダム化実験(n = 1036)は、商業的に展開されたAIが、人々が社会的および反社会的方法で相互に相互作用し、知覚する方法を変えるという証拠を提供する。 アルゴリズム応答を用いることで,コミュニケーション効率,ポジティブ感情言語の利用,コミュニケーションパートナーによる肯定評価が向上することがわかった。 しかし、AIの否定的含意に関する一般的な仮定と一致し、アルゴリズム的応答を疑う場合、人々はより否定的に評価される。 このように、AIはコミュニケーション効率を向上し、対人認識を改善することができるが、ユーザの言語生産の変化を危険にさらし、ネガティブな見方を継続する。

Artificial intelligence (AI) is now widely used to facilitate social interaction, but its impact on social relationships and communication is not well understood. We study the social consequences of one of the most pervasive AI applications: algorithmic response suggestions ("smart replies"). Two randomized experiments (n = 1036) provide evidence that a commercially-deploye d AI changes how people interact with and perceive one another in pro-social and anti-social ways. We find that using algorithmic responses increases communication efficiency, use of positive emotional language, and positive evaluations by communication partners. However, consistent with common assumptions about the negative implications of AI, people are evaluated more negatively if they are suspected to be using algorithmic responses. Thus, even though AI can increase communication efficiency and improve interpersonal perceptions, it risks changing users' language production and continues to be viewed negatively.
翻訳日:2021-02-12 14:08:45 公開日:2021-02-10
# 自動符号化衛星画像を用いたUAVローカライゼーション

UAV Localization Using Autoencoded Satellite Images ( http://arxiv.org/abs/2102.05692v1 )

ライセンス: Link先を確認
Mollie Bianchi and Timothy D. Barfoot(参考訳) 本研究では,無人航空機(UAV)のローカライズに衛星画像を用いる高速でロバストな手法を提案し,実証する。 衛星画像を用いたこれまでの作業は、ストレージと計算コストが大きく、リアルタイムに実行できない。 本研究では,所望の飛行経路に対してgoogle earth (ge) イメージをオフラインで収集し,これらの画像を低次元ベクトル表現に圧縮するようにオートエンコーダを訓練した。 このトレーニングされたオートエンコーダは、実際のUAVイメージを圧縮するために使用され、その後、内積カーネルを使用して、事前にコンパイルされた、近くの自動エンコーダGEイメージと比較される。 これは、対応するGE画像上の重みの分布をもたらし、不確実性を表す単一の局在化および関連する共分散を生成するために使用されます。 当社のローカライゼーションは現在の標準時の1%で計算され、実験で比較可能なrmseは3m未満で、1日当たりの照明条件から同じ衛星画像の地図まで、6回の走行でロバストに一致した。

We propose and demonstrate a fast, robust method for using satellite images to localize an Unmanned Aerial Vehicle (UAV). Previous work using satellite images has large storage and computation costs and is unable to run in real time. In this work, we collect Google Earth (GE) images for a desired flight path offline and an autoencoder is trained to compress these images to a low-dimensional vector representation while retaining the key features. This trained autoencoder is used to compress a real UAV image, which is then compared to the precollected, nearby, autoencoded GE images using an inner-product kernel. This results in a distribution of weights over the corresponding GE image poses and is used to generate a single localization and associated covariance to represent uncertainty. Our localization is computed in 1% of the time of the current standard and is able to achieve a comparable RMSE of less than 3m in our experiments, where we robustly matched UAV images from six runs spanning the lighting conditions of a single day to the same map of satellite images.
翻訳日:2021-02-12 14:06:33 公開日:2021-02-10
# 運動軌跡識別のためのトポロジカルアプローチ

A Topological Approach for Motion Track Discrimination ( http://arxiv.org/abs/2102.05705v1 )

ライセンス: Link先を確認
Tegan Emerson, Sarah Tymochko, George Stantchev, Jason A. Edelberg, Michael Wilson, and Colin C. Olson(参考訳) 対象物を含む画像サブ領域に存在する空間情報が不足し、相関に基づく手法によりシーンに存在する動的空間と区別されるため、範囲での小さなターゲットの検出は困難である。 さらに、この空間情報の欠如は、最先端のディープラーニングイメージベースの分類器の使用を損なう。 ここでは,ビデオシーケンスから抽出したターゲットトラックの特徴をデータとして用いて,関心の対象をコンフューザーと強く区別するトポロジカルな特徴を抽出する。 特に,広視野映像ストリームから抽出した動きトラックから算出した動的統計量の時間遅延埋め込みから持続的ホモロジーを計算する。 要するに、トポロジカル手法を用いて、分類や曖昧化に有用な目標運動ダイナミクスに関連する特徴を抽出し、確率の高い範囲で小目標を検出できることを示します。

Detecting small targets at range is difficult because there is not enough spatial information present in an image sub-region containing the target to use correlation-based methods to differentiate it from dynamic confusers present in the scene. Moreover, this lack of spatial information also disqualifies the use of most state-of-the-art deep learning image-based classifiers. Here, we use characteristics of target tracks extracted from video sequences as data from which to derive distinguishing topological features that help robustly differentiate targets of interest from confusers. In particular, we calculate persistent homology from time-delayed embeddings of dynamic statistics calculated from motion tracks extracted from a wide field-of-view video stream. In short, we use topological methods to extract features related to target motion dynamics that are useful for classification and disambiguation and show that small targets can be detected at range with high probability.
翻訳日:2021-02-12 14:06:13 公開日:2021-02-10
# 密制約行列に対する高速最大実現可能サブシステム解

Faster Maximum Feasible Subsystem Solutions for Dense Constraint Matrices ( http://arxiv.org/abs/2102.05744v1 )

ライセンス: Link先を確認
Fereshteh Fakhar Firouzeh, John W. Chinneck, Sreeraman Rajan(参考訳) 線形制約の不可能集合の最大のカーディナリティ実現可能なサブセットを見つけることは、最大実現可能なサブシステム問題(MAX FS)である。 この問題を解決することは、機械学習や圧縮センシングなど、幅広いアプリケーションにおいて不可欠である。 MAX FSはNPハードであるが、有用なヒューリスティックアルゴリズムが存在するが、大きな問題では遅い。 我々は,厳密な制約行列の場合の既存のヒューリスティックスを拡張し,解の品質を維持したり改善したりしながら,その速度を大幅に向上させる。 重み付き制約行列を持つ2つのアプリケーションで拡張アルゴリズムをテストする:バイナリ分類と圧縮センシングにおけるスパース回復。 どちらの場合も、精度を損なわずに速度が大幅に向上します。

Finding the largest cardinality feasible subset of an infeasible set of linear constraints is the Maximum Feasible Subsystem problem (MAX FS). Solving this problem is crucial in a wide range of applications such as machine learning and compressive sensing. Although MAX FS is NP-hard, useful heuristic algorithms exist, but these can be slow for large problems. We extend the existing heuristics for the case of dense constraint matrices to greatly increase their speed while preserving or improving solution quality. We test the extended algorithms on two applications that have dense constraint matrices: binary classification, and sparse recovery in compressive sensing. In both cases, speed is greatly increased with no loss of accuracy.
翻訳日:2021-02-12 14:05:00 公開日:2021-02-10
# プログラミングプロセスデータにおけるインタープリタブルパターンによる早期パフォーマンス予測

Early Performance Prediction using Interpretable Patterns in Programming Process Data ( http://arxiv.org/abs/2102.05765v1 )

ライセンス: Link先を確認
Ge Gao, Samiha Marwan and Thomas W. Price(参考訳) 教官は苦しむ学生を助けるための時間と資源が限られており、これらのリソースは最も必要とする生徒に向けられるべきである。 これを解決するため、研究者は学期早期に最終コースのパフォーマンスを予測できるモデルを構築した。 しかし、多くの予測モデルは静的および汎用的な学生機能に限られている(例)。 人口統計学 (gpa) は, 生徒の授業の進捗を評価する, コンピュータ固有のエビデンスである。 多くのプログラミング環境は、プログラミング中に学生のアクションをタイムスタンプで記録する。 この研究では、この豊富なきめ細かいログデータを利用して、学生のコース結果を予測するモデルを構築します。 ログデータから,差分シーケンスマイニングと呼ばれる手法を用いて,学生の成功を予測する行動パターンを抽出する。 ブロック型導入型プログラミングコースにおける106名の学生のデータセットに対するアプローチを評価した。 本手法から抽出したパターンは,2つのベースライン法を上回り,最初のプログラミング割り当てのみを用いて,79%の精度で最終的なプログラミング性能を予測できる。 さらに,これらのパターンは解釈可能であり,具体的かつ効果的で,非効率的なプログラミング動作に対応していることを示す。 また,これらのパターンとその授業における意味についても論じる。

Instructors have limited time and resources to help struggling students, and these resources should be directed to the students who most need them. To address this, researchers have constructed models that can predict students' final course performance early in a semester. However, many predictive models are limited to static and generic student features (e.g. demographics, GPA), rather than computing-specific evidence that assesses a student's progress in class. Many programming environments now capture complete time-stamped records of students' actions during programming. In this work, we leverage this rich, fine-grained log data to build a model to predict student course outcomes. From the log data, we extract patterns of behaviors that are predictive of students' success using an approach called differential sequence mining. We evaluate our approach on a dataset from 106 students in a block-based, introductory programming course. The patterns extracted from our approach can predict final programming performance with 79% accuracy using only the first programming assignment, outperforming two baseline methods. In addition, we show that the patterns are interpretable and correspond to concrete, effective -- and ineffective -- novice programming behaviors. We also discuss these patterns and their implications for classroom instruction.
翻訳日:2021-02-12 14:04:49 公開日:2021-02-10
# Top-N Recommendation (VASP) のためのShallow Parallel Path を用いた深部変分オートエンコーダ

Deep Variational Autoencoder with Shallow Parallel Path for Top-N Recommendation (VASP) ( http://arxiv.org/abs/2102.05774v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Van\v{c}ura and Pavel Kord\'ik(参考訳) 最近導入されたEASEアルゴリズムは単純でエレガントな方法であり、トップNレコメンデーションタスクの解決方法を示している。 本稿では,最新のニューラルネットワークのトレーニング技術を導入して,このアルゴリズムの性能向上を図るため,Neural EASEを提案する。 また、このタスクに可変オートエンコーダ(VAE)を利用するというリサイスコミュニティへの関心が高まっています。 情報ボトルネックのない複数の非線形層から恩恵を受ける深層オートエンコーダflveeを導入する。 Neural EASEと並行してFLVAEを学習し、MovieLens 20Mデータセットの最先端のパフォーマンスとNetflix Prizeデータセットの競争結果を達成する方法を紹介します。

Recently introduced EASE algorithm presents a simple and elegant way, how to solve the top-N recommendation task. In this paper, we introduce Neural EASE to further improve the performance of this algorithm by incorporating techniques for training modern neural networks. Also, there is a growing interest in the recsys community to utilize variational autoencoders (VAE) for this task. We introduce deep autoencoder FLVAE benefiting from multiple non-linear layers without an information bottleneck while not overfitting towards the identity. We show how to learn FLVAE in parallel with Neural EASE and achieve the state of the art performance on the MovieLens 20M dataset and competitive results on the Netflix Prize dataset.
翻訳日:2021-02-12 14:04:30 公開日:2021-02-10
# Amortized Neural Posterior Estimation を用いたローマ二元マイクロレンズのリアルタイム推定

Real-Time Likelihood-free Inference of Roman Binary Microlensing Events with Amortized Neural Posterior Estimation ( http://arxiv.org/abs/2102.05673v1 )

ライセンス: Link先を確認
Keming Zhang, Joshua S. Bloom, B. Scott Gaudi, Francois Lanusse, Casey Lam, Jessica Lu(参考訳) サンプリングに基づくベイズアルゴリズム(例えば、マルコフ連鎖モンテカルロ;mcmc)を用いた単一ソース(2l1s)マイクロレンズの高速かつ自動化された推論は、マイクロレンズシミュレーションコードによる精度評価の計算コストの高さと、負のlogに似た表面が狭く深い多数の局所的ミニマを含む病的パラメータ空間という2つの面において挑戦されている。 2L1Sイベントの分析は通常、後続サンプリングの前提条件として近似解を見つけるためにいくつかのパラメータをグリッドで探索する。 次世代の宇宙ベースのマイクロレンズサーベイであるRoman Space Telescopeは、数千のバイナリマイクロレンズイベントを生み出すことが予想されているため、新しい高速で自動化された方法が望ましい。 そこで本研究では,神経密度推定器(neural density estimator, nde)が全前空間での事前計算シミュレーションから,観測パラメータ付き条件付き確率分布として,suprogate posterior $\hat{p}(\theta|x)$を学習する,amortized neural posterior estimation(lfi)法を提案する。 291,012シミュレートされたローマライクな2l1sシミュレーションに基づいて訓練されたndeは、ループ内のドメインエキスパートを必要とせずに、事前サポート内の観察のために、秒以内に正確で正確な後方結果を生成する。 我々は、NDEが予期される後変性も捕捉していることを示した。 NDE後部は、最小限の燃焼工程を有する下流MCMCサンプリング装置で、正確な後部へと精製することができる。

Fast and automated inference of binary-lens, single-source (2L1S) microlensing events with sampling-based Bayesian algorithms (e.g., Markov Chain Monte Carlo; MCMC) is challenged on two fronts: high computational cost of likelihood evaluations with microlensing simulation codes, and a pathological parameter space where the negative-log-likelih ood surface can contain a multitude of local minima that are narrow and deep. Analysis of 2L1S events usually involves grid searches over some parameters to locate approximate solutions as a prerequisite to posterior sampling, an expensive process that often requires human-in-the-loop and domain expertise. As the next-generation, space-based microlensing survey with the Roman Space Telescope is expected to yield thousands of binary microlensing events, a new fast and automated method is desirable. Here, we present a likelihood-free inference (LFI) approach named amortized neural posterior estimation, where a neural density estimator (NDE) learns a surrogate posterior $\hat{p}(\theta|x)$ as an observation-parametr ized conditional probability distribution, from pre-computed simulations over the full prior space. Trained on 291,012 simulated Roman-like 2L1S simulations, the NDE produces accurate and precise posteriors within seconds for any observation within the prior support without requiring a domain expert in the loop, thus allowing for real-time and automated inference. We show that the NDE also captures expected posterior degeneracies. The NDE posterior could then be refined into the exact posterior with a downstream MCMC sampler with minimal burn-in steps.
翻訳日:2021-02-12 14:02:32 公開日:2021-02-10
# エッジ上でバイナリニューラルネットワークトレーニングを実現する

Enabling Binary Neural Network Training on the Edge ( http://arxiv.org/abs/2102.04270v2 )

ライセンス: Link先を確認
Erwei Wang, James J. Davis, Daniele Moro, Piotr Zielinski, Claudionor Coelho, Satrajit Chatterjee, Peter Y. K. Cheung, George A. Constantinides(参考訳) ますます複雑化する機械学習モデルの計算要求は、トレーニングに強力なクラウドベースのインフラストラクチャの使用をしばしば必要とします。 バイナリニューラルネットワークは、高精度な代替手段よりも極端な計算とメモリ節約のために、オンデバイス推論の有望な候補であることが知られている。 本稿では,これらが勾配量子化にも強く耐えられることを示し,現代のモデルのエッジ上でのトレーニングを現実的な現実にする。 本稿では,courbariaux & bengioの標準アプローチに対するメモリフットプリント低減と省エネを示す,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。 後者に対して、偶然のメモリ要件と2-6$\times$のエネルギー消費の低下は、人気のあるデータセットを分類するために訓練されたさまざまな小規模モデルにわたって、同等の時間で同様のテスト精度に達しています。 ResNetE-18のImageNetトレーニングも紹介し、前述の標準よりも3.12$\times$メモリ削減を実現しています。 このような節約は、不要なクラウドオフロードを回避し、レイテンシを低減し、エネルギー効率を高め、プライバシの保護を可能にする。

The ever-growing computational demands of increasingly complex machine learning models frequently necessitate the use of powerful cloud-based infrastructure for their training. Binary neural networks are known to be promising candidates for on-device inference due to their extreme compute and memory savings over higher-precision alternatives. In this paper, we demonstrate that they are also strongly robust to gradient quantization, thereby making the training of modern models on the edge a practical reality. We introduce a low-cost binary neural network training strategy exhibiting sizable memory footprint reductions and energy savings vs Courbariaux & Bengio's standard approach. Against the latter, we see coincident memory requirement and energy consumption drops of 2--6$\times$, while reaching similar test accuracy in comparable time, across a range of small-scale models trained to classify popular datasets. We also showcase ImageNet training of ResNetE-18, achieving a 3.12$\times$ memory reduction over the aforementioned standard. Such savings will allow for unnecessary cloud offloading to be avoided, reducing latency, increasing energy efficiency and safeguarding privacy.
翻訳日:2021-02-12 10:11:56 公開日:2021-02-10
# (参考訳) 深層畳み込みニューラルネットワークとシアムスネットワークを用いた長鎖非符号化RNA要素の分類 [全文訳有]

Classification of Long Noncoding RNA Elements Using Deep Convolutional Neural Networks and Siamese Networks ( http://arxiv.org/abs/2102.05582v1 )

ライセンス: CC0 1.0
Brian McClannahan, Cucong Zhong, Guanghui Wang(参考訳) 過去10年で、非コードRNA(ncRNA)の発見が爆発しました。 これらのncRNAの分類は、その機能の決定に必須である。 本論文は、ncrna配列を分類するための新しい手法である深層畳み込みニューラルネットワーク(cnns)を提案する。 そこで本論文ではまず,RNA配列を画像に変換する非効率的な手法を提案する。 その結果、CNNベースの分類モデルにより効率よく解決できる画像分類プロブレムに、クラスサイズRNA配列を変換する。 本研究では, NCRNA配列に加えて, NCRNAのフォールディングポテンシャルも考慮し, NCRNA配列のRFAMデータベースからベンチマーク画像分類データセットを生成する。 さらに,従来の3つのCNNモデルと3つのSiameseネットワークモデルを実装し,提案手法の性能と効率を比較検討した。 広範な実験結果から,rna分類に深層学習法を用いる可能性が示唆された。

In the last decade, the discovery of noncoding RNA(ncRNA) has exploded. Classifying these ncRNA is critical todetermining their function. This thesis proposes a new methodemploying deep convolutional neural networks (CNNs) to classifyncRNA sequences. To this end, this paper first proposes anefficient approach to convert the RNA sequences into imagescharacterizing their base-pairing probability. As a result, clas-sifying RNA sequences is converted to an image classificationproble m that can be efficiently solved by available CNN-basedclassificat ion models. This research also considers the foldingpotential of the ncRNAs in addition to their primary sequence.Based on the proposed approach, a benchmark image classifi-cation dataset is generated from the RFAM database of ncRNAsequences. In addition, three classical CNN models and threeSiamese network models have been implemented and comparedto demonstrate the superior performance and efficiency of theproposed approach. Extensive experimental results show thegreat potential of using deep learning approaches for RNAclassification.
翻訳日:2021-02-12 03:55:58 公開日:2021-02-10
# (参考訳) 文脈における語彙推論のための言語モデル [全文訳有]

Language Models for Lexical Inference in Context ( http://arxiv.org/abs/2102.05331v1 )

ライセンス: CC BY 4.0
Martin Schmitt and Hinrich Sch\"utze(参考訳) 文脈における語彙推論(LIiC)は、2つの非常に類似した文、すなわち1つの式でのみ異なる文間のテキスト関係を認識するタスクである。 したがって、これは語彙意味論に焦点を当てた自然言語推論タスクの変種と見なすことができる。 i) 数発のNLI分類器, (ii) 語彙推論のセマンティクスを表現した手作りパターンに基づく関係帰納的アプローチ, (iii) コーパスから自動的に抽出されたパターンの変種である (ii) である。 当社のすべてのアプローチは、LIiCのための事前訓練されたLMの可能性を示して、技術の以前の状態を上回ります。 広範な分析では、3つのアプローチの成功と失敗の要因を調査します。

Lexical inference in context (LIiC) is the task of recognizing textual entailment between two very similar sentences, i.e., sentences that only differ in one expression. It can therefore be seen as a variant of the natural language inference task that is focused on lexical semantics. We formulate and evaluate the first approaches based on pretrained language models (LMs) for this task: (i) a few-shot NLI classifier, (ii) a relation induction approach based on handcrafted patterns expressing the semantics of lexical inference, and (iii) a variant of (ii) with patterns that were automatically extracted from a corpus. All our approaches outperform the previous state of the art, showing the potential of pretrained LMs for LIiC. In an extensive analysis, we investigate factors of success and failure of our three approaches.
翻訳日:2021-02-12 03:17:41 公開日:2021-02-10
# (参考訳) 音声クローニング:転送学習に基づくマルチスピーカテキスト音声合成手法 [全文訳有]

Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based on Transfer Learning ( http://arxiv.org/abs/2102.05630v1 )

ライセンス: CC BY 4.0
Giuseppe Ruggiero, Enrico Zovato, Luigi Di Caro, Vincent Pollet(参考訳) ディープラーニングモデルは、機械学習の多くの分野で主流になりつつある。 テキストから人工音声を合成するTTS(Text-to-Speech)は例外ではない。 この目的のために、ディープニューラルネットワークは通常、単一のスピーカーから数時間の音声を録音するコーパスを使用して訓練される。 学習した話者以外の話者の声の生成は高価であり、新しいデータセットを記録してモデルを再トレーニングする必要があるため、多大な労力を要する。 これは、TSSモデルが通常単一のスピーカーである主な理由です。 提案されたアプローチは、マルチスピーカー音響空間をモデル化できるシステムを獲得しようとするこれらの制限を克服することを目的としている。 これにより、訓練期間中に観察されなかったとしても、異なるターゲット話者の声に似た音声を生成することができる。

Deep learning models are becoming predominant in many fields of machine learning. Text-to-Speech (TTS), the process of synthesizing artificial speech from text, is no exception. To this end, a deep neural network is usually trained using a corpus of several hours of recorded speech from a single speaker. Trying to produce the voice of a speaker other than the one learned is expensive and requires large effort since it is necessary to record a new dataset and retrain the model. This is the main reason why the TTS models are usually single speaker. The proposed approach has the goal to overcome these limitations trying to obtain a system which is able to model a multi-speaker acoustic space. This allows the generation of speech audio similar to the voice of different target speakers, even if they were not observed during the training phase.
翻訳日:2021-02-12 02:56:35 公開日:2021-02-10
# (参考訳) オフライン強化学習によるwebサービスのパーソナライズ [全文訳有]

Personalization for Web-based Services using Offline Reinforcement Learning ( http://arxiv.org/abs/2102.05612v1 )

ライセンス: CC BY 4.0
Pavlos Athanasios Apostolopoulos, Zehui Wang, Hanson Wang, Chad Zhou, Kittipat Virochsiri, Norm Zhou, Igor L. Markov(参考訳) 大規模Webベースのサービスは、観察されたユーザインタラクションに基づいてUIポリシーを改善する機会を提供する。 モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。 メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。 実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。

Large-scale Web-based services present opportunities for improving UI policies based on observed user interactions. We address challenges of learning such policies through model-free offline Reinforcement Learning (RL) with off-policy training. Deployed in a production system for user authentication in a major social network, it significantly improves long-term objectives. We articulate practical challenges, compare several ML techniques, provide insights on training and evaluation of RL models, and discuss generalizations.
翻訳日:2021-02-12 02:45:40 公開日:2021-02-10
# (参考訳) 機械シミュレーションにおける拡散方程式の解法のための深層学習手法 [全文訳有]

Deep learning approaches to surrogates for solving the diffusion equation for mechanistic real-world simulations ( http://arxiv.org/abs/2102.05527v1 )

ライセンス: CC BY 4.0
J. Quetzalc\'oatl Toledo-Mar\'in, Geoffrey Fox, James P. Sluka, James A. Glazier(参考訳) 多くの機械工学的医学的、生物学的、物理的および工学的時空間力学モデルにおいて、偏微分方程式(PDE)の数値解はシミュレーションを非現実的に遅くすることができる。 生物学的モデルは、数十種類の拡散化学種の濃度の空間変動の同時計算を必要とする。 このような複雑な数値問題に対する近似解を提供するために訓練されたニューラルネットワークである機械学習のサロゲートは、直接計算に比べて数桁のスピードアップを提供することが多い。 PDEサロゲートは、直接計算よりも大きなモデルの使用を可能にし、リアルタイムまたはほぼリアルタイムのワークフローでそのようなシミュレーションを含めることができます。 サロゲートを作成するには、トレーニングデータを生成してニューラルネットワークをトレーニングするために、数万回の直接計算を実行する必要がある。 畳み込みニューラルネットワークを用いて, 境界条件を吸収する2次元正方形領域内のランダムな位置に位置する2つの等径, 円, 定値源について, 拡散方程式の定常解を近似する。 学習中の収束性を改善するために,ロールバックを用いた学習手法を適用し,損失関数を増加させるネットワークの確率的変化を拒否する。 訓練されたニューラルネットワークの近似は、個々のレプリカの直接計算よりも約1e3速い。 異なるアプリケーションには許容できる近似精度の基準が異なるため、特定のアプリケーションに最適なネットワークを選択するのに役立つ様々な損失関数と精度推定器について議論する。

In many mechanistic medical, biological, physical and engineered spatiotemporal dynamic models the numerical solution of partial differential equations (PDEs) can make simulations impractically slow. Biological models require the simultaneous calculation of the spatial variation of concentration of dozens of diffusing chemical species. Machine learning surrogates, neural networks trained to provide approximate solutions to such complicated numerical problems, can often provide speed-ups of several orders of magnitude compared to direct calculation. PDE surrogates enable use of larger models than are possible with direct calculation and can make including such simulations in real-time or near-real time workflows practical. Creating a surrogate requires running the direct calculation tens of thousands of times to generate training data and then training the neural network, both of which are computationally expensive. We use a Convolutional Neural Network to approximate the stationary solution to the diffusion equation in the case of two equal-diameter, circular, constant-value sources located at random positions in a two-dimensional square domain with absorbing boundary conditions. To improve convergence during training, we apply a training approach that uses roll-back to reject stochastic changes to the network that increase the loss function. The trained neural network approximation is about 1e3 times faster than the direct calculation for individual replicas. Because different applications will have different criteria for acceptable approximation accuracy, we discuss a variety of loss functions and accuracy estimators that can help select the best network for a particular application.
翻訳日:2021-02-12 02:28:05 公開日:2021-02-10
# (参考訳) 微分可能拡張ラグランジアンを用いた適応確率列二次計画法

An Adaptive Stochastic Sequential Quadratic Programming with Differentiable Exact Augmented Lagrangians ( http://arxiv.org/abs/2102.05320v1 )

ライセンス: CC BY 4.0
Sen Na, Mihai Anitescu, Mladen Kolar(参考訳) 非線形最適化プログラムを確率的目的と決定論的等式制約で解く問題を考える。 関数の評価、勾配、およびヘッシアンがアクセスできないという目的を仮定し、その確率的推定は、例えばサブサンプリングによって計算できる。 本稿では,有理関数として微分可能な拡張ラグランジアンを用いた逐次二次計画法(SQP)に基づく確率的アルゴリズムを提案する。 アルゴリズムを動機付けるために、決定論的プログラム用に開発された古いSQPメソッドである \citep{Lucidi1990Recursive} を再検討する。 我々は,この手法を単純化し,確率アルゴリズムのスケルトンとして機能する適応型SQPを導出する。 導出アルゴリズムに基づいて, 勾配とヘッシアンを確率的推定に置き換えるが, ステップ化は決定論的かつ事前定式化される確率的目標を最適化するための非適応sqpを提案する。 最後に、最近の確率線探索手順 \citep{Paquette2020Stochast ic} を非適応確率SQPに組み込み、適応確率SQPに到達します。 我々の知る限り、提案アルゴリズムは、行探索手順を許容する最初の確率的SQPであり、また制約を許容する最初の確率的直線探索手順である。 提案されたSQPメソッドのグローバル収束が確立され、CUTEstテストセットの非線形問題に関する数値実験が提案されたアルゴリズムの優位性を示している。

We consider the problem of solving nonlinear optimization programs with stochastic objective and deterministic equality constraints. We assume for the objective that the function evaluation, the gradient, and the Hessian are inaccessible, while one can compute their stochastic estimates by, for example, subsampling. We propose a stochastic algorithm based on sequential quadratic programming (SQP) that uses a differentiable exact augmented Lagrangian as the merit function. To motivate our algorithm, we revisit an old SQP method \citep{Lucidi1990Recursive} developed for deterministic programs. We simplify that method and derive an adaptive SQP, which serves as the skeleton of our stochastic algorithm. Based on the derived algorithm, we then propose a non-adaptive SQP for optimizing stochastic objectives, where the gradient and the Hessian are replaced by stochastic estimates but the stepsize is deterministic and prespecified. Finally, we incorporate a recent stochastic line search procedure \citep{Paquette2020Stochast ic} into our non-adaptive stochastic SQP to arrive at an adaptive stochastic SQP. To our knowledge, the proposed algorithm is the first stochastic SQP that allows a line search procedure and the first stochastic line search procedure that allows the constraints. The global convergence for all proposed SQP methods is established, while numerical experiments on nonlinear problems in the CUTEst test set demonstrate the superiority of the proposed algorithm.
翻訳日:2021-02-12 01:59:20 公開日:2021-02-10
# (参考訳) グラフニューラルネットワークに対するノードレベルメンバーシップ推論攻撃 [全文訳有]

Node-Level Membership Inference Attacks Against Graph Neural Networks ( http://arxiv.org/abs/2102.05429v1 )

ライセンス: CC BY 4.0
Xinlei He and Rui Wen and Yixin Wu and Michael Backes and Yun Shen and Yang Zhang(参考訳) 多くの実世界のデータには、ソーシャルネットワークやタンパク質構造といったグラフの形式がある。 グラフデータに含まれる情報を最大限に活用するために、新しい機械学習(ML)モデル、すなわちグラフニューラルネットワーク(GNNs)が導入された。 これまでの研究では、機械学習モデルはプライバシー攻撃に弱いことが示されている。 しかし、現在の取り組みのほとんどは、画像やテキストのようなユークリッド空間からのデータに基づいて訓練されたMLモデルに集中している。 一方、GNNが引き起こすプライバシーリスクはほとんど調査されていない。 本稿では,GNNに対するノードレベルのメンバシップ推論攻撃を総合的に解析し,ギャップを埋める。 我々は,脅威モデルを体系的に定義し,敵の背景知識に基づく3つのノードレベルのメンバーシップ推論攻撃を提案する。 3つのGNN構造と4つのベンチマークデータセットに対する評価は、GNNが最小のバックグラウンド知識を持つ場合でも、ノードレベルのメンバシップ推定に弱いことを示している。 さらに,グラフ密度と特徴類似性が攻撃の成功に大きな影響を与えることを示した。 さらに,2つの防御機構を検証した結果,攻撃性能は低下するが,有効性は低下することが示された。

Many real-world data comes in the form of graphs, such as social networks and protein structure. To fully utilize the information contained in graph data, a new family of machine learning (ML) models, namely graph neural networks (GNNs), has been introduced. Previous studies have shown that machine learning models are vulnerable to privacy attacks. However, most of the current efforts concentrate on ML models trained on data from the Euclidean space, like images and texts. On the other hand, privacy risks stemming from GNNs remain largely unstudied. In this paper, we fill the gap by performing the first comprehensive analysis of node-level membership inference attacks against GNNs. We systematically define the threat models and propose three node-level membership inference attacks based on an adversary's background knowledge. Our evaluation on three GNN structures and four benchmark datasets shows that GNNs are vulnerable to node-level membership inference even when the adversary has minimal background knowledge. Besides, we show that graph density and feature similarity have a major impact on the attack's success. We further investigate two defense mechanisms and the empirical results indicate that these defenses can reduce the attack performance but with moderate utility loss.
翻訳日:2021-02-12 01:48:23 公開日:2021-02-10
# (参考訳) GuiltyWalker:Bitcoin ネットワークの不正なノードへの距離 [全文訳有]

GuiltyWalker: Distance to illicit nodes in the Bitcoin network ( http://arxiv.org/abs/2102.05373v1 )

ライセンス: CC BY 4.0
Catarina Oliveira, Jo\~ao Torres, Maria In\^es Silva, David Apar\'icio, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) マネーロンダリングは、幅広い社会的および経済的結果をもたらす世界的な現象です。 暗号通貨は、当局による制御の欠如と匿名性のため、特に影響を受けやすい。 したがって、不正な暗号通貨取引を検知・防止する新しい手法を開発することが重要である。 本研究では,資金洗浄を検出する機械学習手法の性能を高めるために,グラフと過去のラベルの構造に基づく新機能を提案する。 本手法は,bitcoinトランザクショングラフ上でランダムにウォークを行い,不正取引までの距離に基づいて特徴を計算する。 これらの新機能とWeberらが提案する機能を組み合わせています。 不正分類に関して 約5ppの改善を観察します 具体的には,Weberらによるアルゴリズムによるブラックマーケットシャットダウンにおいて,提案する機能が特に有用であることを示す。 パフォーマンスが低かったのです

Money laundering is a global phenomenon with wide-reaching social and economic consequences. Cryptocurrencies are particularly susceptible due to the lack of control by authorities and their anonymity. Thus, it is important to develop new techniques to detect and prevent illicit cryptocurrency transactions. In our work, we propose new features based on the structure of the graph and past labels to boost the performance of machine learning methods to detect money laundering. Our method, GuiltyWalker, performs random walks on the bitcoin transaction graph and computes features based on the distance to illicit transactions. We combine these new features with features proposed by Weber et al. and observe an improvement of about 5pp regarding illicit classification. Namely, we observe that our proposed features are particularly helpful during a black market shutdown, where the algorithm by Weber et al. was low performing.
翻訳日:2021-02-12 01:14:09 公開日:2021-02-10
# (参考訳) Certifiable Adversarial Robustness を用いたベイズ推論 [全文訳有]

Bayesian Inference with Certifiable Adversarial Robustness ( http://arxiv.org/abs/2102.05289v1 )

ライセンス: CC BY 4.0
Matthew Wicker, Luca Laurenti, Andrea Patane, Zhoutong Chen, Zheng Zhang, Marta Kwiatkowska(参考訳) 本稿では,ベイジアン学習のレンズによる深層ニューラルネットワークの対角トレーニングについて考察し,ベイジアンニューラルネットワーク(BNN)の対角トレーニングの原則的枠組みを提案する。 我々は,非凸最適化問題の制約緩和から標準クロスエントロピー誤差モデルを変更し,入力点まわりの$\epsilon$-ball における最悪の摂動に対して後方ロバスト性を強制する手法に依拠する。 本研究では, BNNの近似推論によく用いられる手法と, フレームワークがどのように組み合わせられるかを示す。 実験により,MNIST,FashionMNIST, CIFAR-10上での堅牢なモデルのトレーニングが可能であり,不確実性校正にも有用であることを示す。 本手法は,認証済みBNNを直接トレーニングする最初の方法であり,安全クリティカルなアプリケーションへのデプロイを容易にする。

We consider adversarial training of deep neural networks through the lens of Bayesian learning, and present a principled framework for adversarial training of Bayesian Neural Networks (BNNs) with certifiable guarantees. We rely on techniques from constraint relaxation of non-convex optimisation problems and modify the standard cross-entropy error model to enforce posterior robustness to worst-case perturbations in $\epsilon$-balls around input points. We illustrate how the resulting framework can be combined with methods commonly employed for approximate inference of BNNs. In an empirical investigation, we demonstrate that the presented approach enables training of certifiably robust models on MNIST, FashionMNIST and CIFAR-10 and can also be beneficial for uncertainty calibration. Our method is the first to directly train certifiable BNNs, thus facilitating their deployment in safety-critical applications.
翻訳日:2021-02-12 01:04:36 公開日:2021-02-10
# (参考訳) 攻撃適応アグリゲーションを用いたロバスト連合学習 [全文訳有]

Robust Federated Learning with Attack-Adaptive Aggregation ( http://arxiv.org/abs/2102.05257v1 )

ライセンス: CC BY 4.0
Ching Pui Wan, Qifeng Chen(参考訳) フェデレーション学習は、既存の防衛戦略が使用されている場合でも、モデル中毒やバックドア攻撃など、さまざまな攻撃に対して脆弱です。 この課題に対処するため,我々は,強固な連合学習に対する様々な攻撃から防御するための攻撃適応集約戦略を提案する。 提案されたアプローチは、考えられる一連の攻撃から連合学習モデルの脆弱性を学習する注意メカニズムを備えたニューラルネットワークを訓練することに基づいている。 私たちの知る限りでは、私たちの集約戦略は、データ駆動の方法でさまざまな攻撃から防御するために適応できる最初の戦略です。 画像およびテキストデータセットにおける連関学習タスクにおけるモデル中毒およびバックドア攻撃の防御において,我々のアプローチは競争的性能を達成した。

Federated learning is vulnerable to various attacks, such as model poisoning and backdoor attacks, even if some existing defense strategies are used. To address this challenge, we propose an attack-adaptive aggregation strategy to defend against various attacks for robust federated learning. The proposed approach is based on training a neural network with an attention mechanism that learns the vulnerability of federated learning models from a set of plausible attacks. To the best of our knowledge, our aggregation strategy is the first one that can be adapted to defend against various attacks in a data-driven fashion. Our approach has achieved competitive performance in defending model poisoning and backdoor attacks in federated learning tasks on image and text datasets.
翻訳日:2021-02-12 00:38:16 公開日:2021-02-10
# (参考訳) 知識追跡のためのLast Query Transformer RNN [全文訳有]

Last Query Transformer RNN for knowledge tracing ( http://arxiv.org/abs/2102.05038v1 )

ライセンス: CC BY 4.0
SeungKee Jeon(参考訳) 本稿では,過去の学習活動から生徒の回答の正確性を予測するための効率的なモデルを提案する。 基本的に、私は時系列入力にトランスフォーマーエンコーダとRNNの両方を使用します。 このモデルの斬新な点は、全てのシーケンスの代わりにトランスフォーマーエンコーダのクエリとして最後の入力のみを使用するため、トランスフォーマーエンコーダのQK行列乗法はO(L^2)ではなくO(L)時間複雑性を持つ。 モデルがより長いシーケンスを入力できるようにする。 このモデルを使って、私はriiidで1位を獲得しました! カグルで主催されている「正解予測」コンペティション。

This paper presents an efficient model to predict a student's answer correctness given his past learning activities. Basically, I use both transformer encoder and RNN to deal with time series input. The novel point of the model is that it only uses the last input as query in transformer encoder, instead of all sequence, which makes QK matrix multiplication in transformer Encoder to have O(L) time complexity, instead of O(L^2). It allows the model to input longer sequence. Using this model I achieved the 1st place in the 'Riiid! Answer Correctness Prediction' competition hosted on kaggle.
翻訳日:2021-02-12 00:04:57 公開日:2021-02-10
# (参考訳) データセンターアクセラレータにおける高速モデルファミリの探索 [全文訳有]

Searching for Fast Model Families on Datacenter Accelerators ( http://arxiv.org/abs/2102.05610v1 )

ライセンス: CC BY 4.0
Sheng Li, Mingxing Tan, Ruoming Pang, Andrew Li, Liqun Cheng, Quoc Le, Norman P. Jouppi(参考訳) ニューラルネットワークアーキテクチャ検索(NAS)とモデルスケーリングは、高精度で迅速な畳み込みアーキテクチャファミリーの設計において顕著な進歩を示した。 しかし、NASもモデルスケーリングもハードウェアアーキテクチャの詳細を十分に考慮していないため、新興データセンター(DC)アクセラレーターを十分に活用していない。 本稿では,DC加速器上での効率的な推論のための高速で正確なCNNモデルファミリを探索する。 まずdc加速器の解析を行い,既存のcnnが動作強度,並列性,実行効率に乏しいことを発見した。 これらの洞察により、空間から空間へ、空間からバッチへ、バニラと深さ方向の畳み込みとハイブリッドな畳み込み構造とブロック方向のアクティベーション機能を備えたDCアクセラレータ最適化された検索空間を作成できます。 当社のdcアクセラレータ最適化ニューラルアーキテクチャ検索空間に加えて,精度とレイテンシの両方を最適化した,最初の多目的複合スケーリング手法であるlacs( latency-aware compound scaling)も提案する。 私たちのLACSは、ネットワーク深度が画像サイズやネットワーク幅よりもはるかに速く成長するべきであることを発見しました。 新しいサーチスペースとLACSにより、データセンターアクセラレーターの検索とスケーリングにより、EfficientNet-Xという新しいモデルシリーズが生まれます。 EfficientNet-X は TPUv3 と GPUv100 で EfficientNet (FLOPs と精度に関する最先端のトレードオフを持つモデルシリーズ) よりも最大2倍高速で、精度は同等である。 EfficientNet-Xは、TPUv3とGPUv100のRegNetやResNeStよりも7倍高速である。

Neural Architecture Search (NAS), together with model scaling, has shown remarkable progress in designing high accuracy and fast convolutional architecture families. However, as neither NAS nor model scaling considers sufficient hardware architecture details, they do not take full advantage of the emerging datacenter (DC) accelerators. In this paper, we search for fast and accurate CNN model families for efficient inference on DC accelerators. We first analyze DC accelerators and find that existing CNNs suffer from insufficient operational intensity, parallelism, and execution efficiency. These insights let us create a DC-accelerator-optim ized search space, with space-to-depth, space-to-batch, hybrid fused convolution structures with vanilla and depthwise convolutions, and block-wise activation functions. On top of our DC accelerator optimized neural architecture search space, we further propose a latency-aware compound scaling (LACS), the first multi-objective compound scaling method optimizing both accuracy and latency. Our LACS discovers that network depth should grow much faster than image size and network width, which is quite different from previous compound scaling results. With the new search space and LACS, our search and scaling on datacenter accelerators results in a new model series named EfficientNet-X. EfficientNet-X is up to more than 2X faster than EfficientNet (a model series with state-of-the-art trade-off on FLOPs and accuracy) on TPUv3 and GPUv100, with comparable accuracy. EfficientNet-X is also up to 7X faster than recent RegNet and ResNeSt on TPUv3 and GPUv100.
翻訳日:2021-02-12 00:01:51 公開日:2021-02-10
# (参考訳) D2A U-Net:拡張畳み込みと二重注意機構を有するCTスライスからのCOVID-19病変の自動分割 [全文訳有]

D2A U-Net: Automatic Segmentation of COVID-19 Lesions from CT Slices with Dilated Convolution and Dual Attention Mechanism ( http://arxiv.org/abs/2102.05210v1 )

ライセンス: CC BY 4.0
Xiangyu Zhao, Peng Zhang, Fan Song, Guangda Fan, Yangyang Sun, Yujia Wang, Zheyuan Tian, Luqi Zhang, Guanglei Zhang(参考訳) 新型コロナウイルス(COVID-19)は大きな被害をもたらし、世界中で最も緊急な公衆衛生イベントになっています。 ct(ct)は、新型コロナウイルス感染の重要なスクリーニングツールであり、ct画像における肺感染症の自動分画は、患者の診断と健康管理に大いに役立つ。 しかし、新型コロナウイルス(COVID-19)の肺感染症の正確かつ自動的な分節化は依然として困難である。 本論文では、拡張畳み込みに基づくCTスライスにおけるCOVID-19病変分割のための拡張二重注意U-Net(D2A U-Net)と、上記の問題に対処するための新しい二重注意機構を提案する。 モデルデコーダに拡張畳み込みモジュールを導入し,デコード処理を洗練し,セグメンテーション精度に寄与する大きな受容場を実現する。 また、接続をスキップするために挿入される2つの注意モジュールとモデルデコーダで構成される2つの注意メカニズムを提示する。 デュアルアテンション機構は特徴マップを洗練し、モデルの異なるレベル間のセマンティックギャップを低減するために使用される。 提案手法は, オープンソースのデータセット上で評価され, セマンティクスセグメンテーションにおける切断エッジ法を上回っている。 提案するプリトレーニングエンコーダ付きd2a u-netは,0.7298のサイススコアと0.7071のリコールスコアを達成している。 さらに、プリトレーニングされたエンコーダを使わずに単純化されたD2A U-Netを構築し、スクラッチからトレーニングした他のモデルと比較し、Diceスコアが0.7047、リコールスコアが0.6626で人気の高いU-Netファミリーモデルを上回っています。 実験の結果,拡張畳み込みと二重注意機構の導入により,偽陽性の数が有意に減少し,covid-19病変に対する感受性が向上し,diceスコアが大幅に向上することが示された。

Coronavirus Disease 2019 (COVID-19) has caused great casualties and becomes almost the most urgent public health events worldwide. Computed tomography (CT) is a significant screening tool for COVID-19 infection, and automated segmentation of lung infection in COVID-19 CT images will greatly assist diagnosis and health care of patients. However, accurate and automatic segmentation of COVID-19 lung infections remains to be challenging. In this paper we propose a dilated dual attention U-Net (D2A U-Net) for COVID-19 lesion segmentation in CT slices based on dilated convolution and a novel dual attention mechanism to address the issues above. We introduce a dilated convolution module in model decoder to achieve large receptive field, which refines decoding process and contributes to segmentation accuracy. Also, we present a dual attention mechanism composed of two attention modules which are inserted to skip connection and model decoder respectively. The dual attention mechanism is utilized to refine feature maps and reduce semantic gap between different levels of the model. The proposed method has been evaluated on open-source dataset and outperforms cutting edges methods in semantic segmentation. Our proposed D2A U-Net with pretrained encoder achieves a Dice score of 0.7298 and recall score of 0.7071. Besides, we also build a simplified D2A U-Net without pretrained encoder to provide a fair comparison with other models trained from scratch, which still outperforms popular U-Net family models with a Dice score of 0.7047 and recall score of 0.6626. Our experiment results have shown that by introducing dilated convolution and dual attention mechanism, the number of false positives is significantly reduced, which improves sensitivity to COVID-19 lesions and subsequently brings significant increase to Dice score.
翻訳日:2021-02-11 23:38:16 公開日:2021-02-10
# (参考訳) ハイパーキューブをスライスするのは簡単ではありません [全文訳有]

Slicing the hypercube is not easy ( http://arxiv.org/abs/2102.05536v1 )

ライセンス: CC BY 4.0
Gal Yehuda and Amir Yehudayoff(参考訳) n$次元ハイパーキューブのすべてのエッジをスライスするには、少なくとも$\Omega(n^{0.51})$ハイパープレーンが必要であることを証明します。 私たちは、パリティの計算複雑さの低い境界と、スキュー超平面によるハイパーキューブのカバー番号の低い境界の2つのアプリケーションを提供します。

We prove that at least $\Omega(n^{0.51})$ hyperplanes are needed to slice all edges of the $n$-dimensional hypercube. We provide a couple of applications: lower bounds on the computational complexity of parity, and a lower bound on the cover number of the hypercube by skew hyperplanes.
翻訳日:2021-02-11 23:19:25 公開日:2021-02-10
# (参考訳) トランスフォーマ画像を用いた類似性保存ニューラルネットワークによるフライモーション検出回路の健全な特徴の再カプセル化 [全文訳有]

A Similarity-preservin g Neural Network Trained on Transformed Images Recapitulates Salient Features of the Fly Motion Detection Circuit ( http://arxiv.org/abs/2102.05503v1 )

ライセンス: CC BY 4.0
Yanis Bahroun and Anirvan M. Sengupta and Dmitri B. Chklovskii(参考訳) データからコンテンツに依存しない変換を検出するための学習は、生物と人工知能の中心的な問題のひとつだ。 そのような問題の例は、連続したビデオフレームのペアから視覚運動検出器の教師なし学習である。 RaoとRudermanは、画像再構成誤差を最小限に抑えることにより、無限小変換演算子(Lie Group Generators)の学習の観点からこの問題を定式化した。 残念なことに、彼らのモデルをローカル学習ルールで生物学的に実行可能なニューラルネットワーク(NN)にマッピングすることは困難です。 本稿では,生物学的に妥当な運動検出モデルを提案する。 トランスフォーメーション演算子のアプローチも採用していますが、リコンストラクションエラーの最小化ではなく、類似性保存目的関数から始めます。 そのような目的関数を最適化するオンラインアルゴリズムは、生物学的に妥当な学習ルールを持つNNに自然にマッピングする。 訓練されたNNは、飛行中のよく研究されたモーション検出器の主要な特徴を再カプセル化する。 特に、局所的な運動検出器が少なくとも3つの隣接するピクセルからの情報を結合しているという実験的な観測と一致している。

Learning to detect content-independent transformations from data is one of the central problems in biological and artificial intelligence. An example of such problem is unsupervised learning of a visual motion detector from pairs of consecutive video frames. Rao and Ruderman formulated this problem in terms of learning infinitesimal transformation operators (Lie group generators) via minimizing image reconstruction error. Unfortunately, it is difficult to map their model onto a biologically plausible neural network (NN) with local learning rules. Here we propose a biologically plausible model of motion detection. We also adopt the transformation-opera tor approach but, instead of reconstruction-error minimization, start with a similarity-preservin g objective function. An online algorithm that optimizes such an objective function naturally maps onto an NN with biologically plausible learning rules. The trained NN recapitulates major features of the well-studied motion detector in the fly. In particular, it is consistent with the experimental observation that local motion detectors combine information from at least three adjacent pixels, something that contradicts the celebrated Hassenstein-Reichard t model.
翻訳日:2021-02-11 23:05:05 公開日:2021-02-10
# (参考訳) 小部分空間解析のための局所学習規則付きニューラルネットワーク [全文訳有]

A Neural Network with Local Learning Rules for Minor Subspace Analysis ( http://arxiv.org/abs/2102.05501v1 )

ライセンス: CC BY 4.0
Yanis Bahroun and Dmitri B. Chklovskii(参考訳) 神経型ハードウェアの開発と生物学的ニューラルネットワークのモデリングには、局所学習ルールを備えたアルゴリズムが必要です。 局所学習規則を用いて主部分空間解析(PSA)とクラスタリングを行う人工ニューラルネットワークは、最近、原理化された目的関数から派生した。 しかし、基本的な信号処理タスクであるマイナー部分空間解析(MSA)には生物学的に妥当なネットワークは存在しない。 MSAは入力信号共分散行列の最低分散部分空間を抽出する。 本稿では,小部分空間,小部分空間類似性マッチング(MSSM)を抽出するための新しい類似性マッチング手法を提案する。 さらに,局所的な学習規則を持つニューラルネットワークに自然にマッピングする適応MSSMアルゴリズムを導出し,本手法が競合速度で収束することを示す数値結果を与える。

The development of neuromorphic hardware and modeling of biological neural networks requires algorithms with local learning rules. Artificial neural networks using local learning rules to perform principal subspace analysis (PSA) and clustering have recently been derived from principled objective functions. However, no biologically plausible networks exist for minor subspace analysis (MSA), a fundamental signal processing task. MSA extracts the lowest-variance subspace of the input signal covariance matrix. Here, we introduce a novel similarity matching objective for extracting the minor subspace, Minor Subspace Similarity Matching (MSSM). Moreover, we derive an adaptive MSSM algorithm that naturally maps onto a novel neural network with local learning rules and gives numerical results showing that our method converges at a competitive rate.
翻訳日:2021-02-11 22:45:41 公開日:2021-02-10
# (参考訳) 意思決定における人間とAIの関係--意思決定の正当化を支援するAIの説明 [全文訳有]

The human-AI relationship in decision-making: AI explanation to support people on justifying their decisions ( http://arxiv.org/abs/2102.05460v1 )

ライセンス: CC BY 4.0
Juliana Jansen Ferreira and Mateus Monteiro(参考訳) 人工知能(AI)に基づくシステムの説明次元は、ここ数年ホットな話題となっている。 異なるコミュニティは、人々の日常的なタスクにおけるAIの存在の増加と、それが人々の生活にどのように影響するかを懸念している。 通常、アルゴリズムと機械学習(ML)モデルに関連する説明可能なAI(XAI)の解釈可能性と透明性の概念に関する多くの研究があります。 しかし、意思決定のシナリオでは、AIがどのように機能し、そのシステムとの関係を構築するためにその結果をより認識する必要があります。 意思決定者は通常、その決定を異なる領域の他人に正当化する必要がある。 その判断がAIシステムの結果に基づいているか、または影響を受ける場合、AIがどのようにその結果に到達したかの説明は、意思決定シナリオにおいてAIと人間の間の信頼を築くための鍵となります。 本稿では、意思決定シナリオにおけるXAIの役割、ループ内のAIシステムを用いた意思決定のビジョンについて論じ、これらのシナリオにおいて人間とAIの関係を構築することの重要性を考慮して、XAIが意思決定にどう影響するかを文献から考察する。

The explanation dimension of Artificial Intelligence (AI) based system has been a hot topic for the past years. Different communities have raised concerns about the increasing presence of AI in people's everyday tasks and how it can affect people's lives. There is a lot of research addressing the interpretability and transparency concepts of explainable AI (XAI), which are usually related to algorithms and Machine Learning (ML) models. But in decision-making scenarios, people need more awareness of how AI works and its outcomes to build a relationship with that system. Decision-makers usually need to justify their decision to others in different domains. If that decision is somehow based on or influenced by an AI-system outcome, the explanation about how the AI reached that result is key to building trust between AI and humans in decision-making scenarios. In this position paper, we discuss the role of XAI in decision-making scenarios, our vision of Decision-Making with AI-system in the loop, and explore one case from the literature about how XAI can impact people justifying their decisions, considering the importance of building the human-AI relationship for those scenarios.
翻訳日:2021-02-11 22:35:28 公開日:2021-02-10
# (参考訳) 光記録昆虫信号のクラスタリングによる生物多様性の定量化のための動的$\beta$-VAEs [全文訳有]

Dynamic $\beta$-VAEs for quantifying biodiversity by clustering optically recorded insect signals ( http://arxiv.org/abs/2102.05526v1 )

ライセンス: CC BY 4.0
Klas Rydhmer, Raghavendra Selvan(参考訳) 昆虫は動物の最大かつ最も多様なグループであるが、caを構成する。 80%の種が知られているが,小ささと種間の類似性から研究が困難である。 従来の監視技術は、捕獲された昆虫の種、あるいは家族レベルを特定するために、熟練した専門家によるトラップ法や退屈な顕微鏡ベースの作業に依存する。 研究者や政策立案者は、昆虫数の急速な減少による生物多様性の保全と人間の食料生産の確保のために、スケーラブルな監視ツールを緊急に必要としています。 近年の研究では、検出対象の種を特定せずに、種多様性や種均等といった従来の生物多様性対策の指標として、教師なしクラスタリングを用いたより広範な分析が試みられている。 既存の昆虫群集法を改善するため,系統群によるデータのクラスタリングが可能な変分オートエンコーダ(VAE)の適応的変種を提案する。 提案された動的$\beta$-vae は、リコンストラクションのスケーリングと正規化損失項 (\beta$ value) を動的に適応させ、入力データの有用な潜在表現をもたらす。 本研究は,南スカンジナビア地域からの光学的記録された昆虫信号に対する動的$\beta$-vaeの有用性を実証する。 また,ラベル付きデータの小さなサブセットを用いて,半教師付き設定におけるクラスタリング性能の向上を示す。 これらの実験結果は、教師なしと半監督なしの両方で、動的に$\beta$-vaeが有望であり、近い将来、昆虫をモニターし、急速に減少する昆虫の生物多様性を保存できる。

While insects are the largest and most diverse group of animals, constituting ca. 80% of all known species, they are difficult to study due to their small size and similarity between species. Conventional monitoring techniques depend on time consuming trapping methods and tedious microscope-based work by skilled experts in order to identify the caught insect specimen at species, or even family, level. Researchers and policy makers are in urgent need of a scalable monitoring tool in order to conserve biodiversity and secure human food production due to the rapid decline in insect numbers. Recent work has aimed for a broader analysis using unsupervised clustering as a proxy for conventional biodiversity measures, such as species richness and species evenness, without actually identifying the species of the detected target. In order to improve upon existing insect clustering methods, we propose an adaptive variant of the variational autoencoder (VAE) which is capable of clustering data by phylogenetic groups. The proposed Dynamic $\beta$-VAE dynamically adapts the scaling of the reconstruction and regularization loss terms ($\beta$ value) yielding useful latent representations of the input data. We demonstrate the usefulness of the dynamic $\beta$-VAE on optically recorded insect signals from regions of southern Scandinavia to cluster unlabelled targets into possible species. We also demonstrate improved clustering performance in a semi-supervised setting using a small subset of labelled data. These experimental results, in both unsupervised- and semi-supervised settings, with the dynamic $\beta$-VAE are promising and, in the near future, can be deployed to monitor insects and conserve the rapidly declining insect biodiversity.
翻訳日:2021-02-11 22:26:23 公開日:2021-02-10
# (参考訳) リスク回避型オフライン強化学習 [全文訳有]

Risk-Averse Offline Reinforcement Learning ( http://arxiv.org/abs/2102.05371v1 )

ライセンス: CC BY 4.0
N\'uria Armengol Urp\'i, Sebastian Curi, Andreas Krause(参考訳) 高スループットアプリケーションにおける強化学習(rl)エージェントのトレーニングは、探索に関わるリスクのため、あまりにも禁止されすぎます。 これにより、エージェントは、安全ポリシーによって収集されたデータのみを使用できる。 従来の作業では,オフラインデータを用いた平均性能の最適化が検討されているが,リスク回避基準,すなわちcvarの最適化に重点を置いている。 特にO-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。 我々は,O-RAACがロボット制御タスクにおけるリスクニュートラルアプローチよりもCVaRの高いポリシーを学習していることを示す。 さらに、リスク-逆基準を考慮すると、特定の分布シフトに対する平均性能の分布ロバスト性を保証する。 我々は,自然分布シフトが存在する場合,O-RAACは平均性能のよいポリシーを学ぶことを実証的に実証した。

Training Reinforcement Learning (RL) agents in high-stakes applications might be too prohibitive due to the risk associated to exploration. Thus, the agent can only use data previously collected by safe policies. While previous work considers optimizing the average performance using offline data, we focus on optimizing a risk-averse criteria, namely the CVaR. In particular, we present the Offline Risk-Averse Actor-Critic (O-RAAC), a model-free RL algorithm that is able to learn risk-averse policies in a fully offline setting. We show that O-RAAC learns policies with higher CVaR than risk-neutral approaches in different robot control tasks. Furthermore, considering risk-averse criteria guarantees distributional robustness of the average performance with respect to particular distribution shifts. We demonstrate empirically that in the presence of natural distribution-shifts, O-RAAC learns policies with good average performance.
翻訳日:2021-02-11 22:10:48 公開日:2021-02-10
# (参考訳) 弾性距離の早期放棄と刈り取り [全文訳有]

Early Abandoning and Pruning for Elastic Distances ( http://arxiv.org/abs/2102.05221v1 )

ライセンス: CC BY 4.0
Matthieu Herrmann and Geoffrey I. Webb(参考訳) 弾性距離は時系列分析の重要なツールです。 簡単な実装では、o(n2)スペースと時間の複雑さが必要であり、多くのアプリケーションが長いシリーズにスケールするのを防ぐ。 これらのアプリケーションのスピードアップに費やす多くの作業は、主に下限の開発に費やされており、与えられたしきい値を超えるとコストのかかる距離計算を避けることができる。 このしきい値はまた、距離自体の計算を早期に放棄することができる。 DTW用に開発された別のアプローチは、計算の一部をプルークするものである。 これらの技法は互いに直交している。 本研究では,早期放棄とプルーニングを緊密に統合する新しい総合戦略である「EAPruned」を開発する。 提案手法をDTW, CDTW, WDTW, ERP, MSM, TWEに適用し, NN1のようなシナリオの大幅な高速化を示す。 プルーニングはまた、いくつかの距離に対してかなりのスピードアップを示し、すべてのペアワイズ距離が必要なクラスタリングのようなアプリケーションにより、早期放棄は適用されない。 時系列分類のための新しいC++ライブラリの一部として、使用しやすいPython/Numpyバインディングとともに実装をリリースします。

Elastic distances are key tools for time series analysis. Straightforward implementations require O(n2)space and time complexities, preventing many applications from scaling to long series. Much work hasbeen devoted in speeding up these applications, mostly with the development of lower bounds, allowing to avoid costly distance computations when a given threshold is exceeded. This threshold also allows to early abandon the computation of the distance itself. Another approach, developed for DTW, is to prune parts of the computation. All these techniques are orthogonal to each other. In this work, we develop a new generic strategy, "EAPruned", that tightly integrates pruning with early abandoning. We apply it to DTW, CDTW, WDTW, ERP, MSM and TWE, showing substantial speedup in NN1-like scenarios. Pruning also shows substantial speedup for some distances, benefiting applications such as clustering where all pairwise distances are required and hence early abandoning is not applicable. We release our implementation as part of a new C++ library for time series classification, along with easy to usePython/Numpy bindings.
翻訳日:2021-02-11 21:51:20 公開日:2021-02-10
# (参考訳) SensPick: Sense Picking for Word Sense Disambiguation [全文訳有]

SensPick: Sense Picking for Word Sense Disambiguation ( http://arxiv.org/abs/2102.05260v1 )

ライセンス: CC0 1.0
Sm Zobaed, Md Enamul Haque, Md Fazle Rabby, and Mohsen Amini Salehi(参考訳) 単語感覚の曖昧さ(WSD)メソッドは、特定の文脈におけるその単語の使用に関する単語の最も適切な意味を特定します。 ニューラルネットワークに基づくWSDアプローチは、語彙資源を使わないため、センスアノテートされたコーパスに依存している。 本研究では,単語とグルースの集合間の意味的関係をモデル化するために,対象単語の文脈情報と関連するグロス情報の両方を利用する。 We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task。 実験評価の結果,senspickは,f-1スコアの相対的に3.5%向上したベンチマークデータセットのほとんどにおいて,従来のモデルや最先端モデルよりも優れていた。 改善は重要ではないが、セマンティックな関係を組み込むことは、他と比較してSensPickを先導する。

Word sense disambiguation (WSD) methods identify the most suitable meaning of a word with respect to the usage of that word in a specific context. Neural network-based WSD approaches rely on a sense-annotated corpus since they do not utilize lexical resources. In this study, we utilize both context and related gloss information of a target word to model the semantic relationship between the word and the set of glosses. We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task. The experimental evaluation demonstrates that SensPick outperforms traditional and state-of-the-art models on most of the benchmark datasets with a relative improvement of 3.5% in F-1 score. While the improvement is not significant, incorporating semantic relationships brings SensPick in the leading position compared to others.
翻訳日:2021-02-11 20:43:49 公開日:2021-02-10
# (参考訳) ビデオの自動ラベリング: 確証による顔の識別 [全文訳有]

Automated Video Labelling: Identifying Faces by Corroborative Evidence ( http://arxiv.org/abs/2102.05645v1 )

ライセンス: CC BY 4.0
Andrew Brown, Ernesto Coto, Andrew Zisserman(参考訳) 本稿では,複数のエビデンスソースと複数のモダリティ(視覚とオーディオ)を組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。 効率的でスケーラブルなインデックス作成ソリューションでは、ユーザーが手動のアノテーションや監督を提供する必要がなくなるオンラインビデオアーカイブの継続的な増加の問題をターゲットにしています。 この目的のために我々は,(1)人物が有名であるか否かを画像検索エンジンを用いて判断する,新しい,シンプルな方法を提案する。 これにより、顔認識モデルを確実かつ堅牢に構築し、高精度な自動ラベリングに使用することが可能になり、(2)あまり有名でない人でも、画像検索エンジンを使用してシーンやスピーチに名前のついた顔を正確にラベル付けすることができること、(3)テレビ番組やニュースブロードキャストなど、さまざまなビデオドメインやテスト設定に対するアプローチの利点を定量的に実証します。 本手法は,明示的なドメイン適応を伴わない3つの異なるデータセットにまたがって動作し,すべての公開ベンチマークで新たな最新結果をセットする。

We present a method for automatically labelling all faces in video archives, such as TV broadcasts, by combining multiple evidence sources and multiple modalities (visual and audio). We target the problem of ever-growing online video archives, where an effective, scalable indexing solution cannot require a user to provide manual annotation or supervision. To this end, we make three key contributions: (1) We provide a novel, simple, method for determining if a person is famous or not using image-search engines. In turn this enables a face-identity model to be built reliably and robustly, and used for high precision automatic labelling; (2) We show that even for less-famous people, image-search engines can then be used for corroborative evidence to accurately label faces that are named in the scene or the speech; (3) Finally, we quantitatively demonstrate the benefits of our approach on different video domains and test settings, such as TV shows and news broadcasts. Our method works across three disparate datasets without any explicit domain adaptation, and sets new state-of-the-art results on all the public benchmarks.
翻訳日:2021-02-11 20:29:47 公開日:2021-02-10
# (参考訳) マスク検出タスクにおけるヨーロの応用 [全文訳有]

Application of Yolo on Mask Detection Task ( http://arxiv.org/abs/2102.05402v1 )

ライセンス: CC BY 4.0
Ren Liu, Ziang Ren(参考訳) 2020年は新型コロナウイルスのパンデミックによる一年だった。 この出来事は普通の生活の多くの側面に混乱をもたらした。 パンデミックの影響を減らすための重要な側面は、その広がりを制御することです。 研究によると、新型コロナウイルスの感染を減らす効果的な方法はマスクを着用することである。 厳格なマスク着用政策は、公的なセンセーションだけでなく、実用上の難しさも満たしている。 路上の全員が適切にマスクを着用しているかどうかを手作業で確認することは望めない。 マスクチェックを自動化する既存の技術は、リアルタイム監視カメラの映像にディープラーニングモデルを使用します。 リアルタイムマスク検出を行う現在の主流手法は、resnetをバックボーンとして mask-rcnn を使用する。 良好な検出結果を与える一方で,この手法は計算量が多く,リアルタイムマスク検出における効率は理想的ではない。 本研究では、マスク-R-CNNをより効率的なモデル「YOLO」に置き換えて、リアルタイムマスク検出の処理速度を向上させ、精度を損なわない新しいマスク検出手法を提案します。 さらに,マスク検出データセットの最小体積と極端不均衡を考慮し,数ショットの視覚的分類,単純なCNAPによる最新の進歩を取り入れて,分類性能を向上する。

2020 has been a year marked by the COVID-19 pandemic. This event has caused disruptions to many aspects of normal life. An important aspect in reducing the impact of the pandemic is to control its spread. Studies have shown that one effective method in reducing the transmission of COVID-19 is to wear masks. Strict mask-wearing policies have been met with not only public sensation but also practical difficulty. We cannot hope to manually check if everyone on a street is wearing a mask properly. Existing technology to help automate mask checking uses deep learning models on real-time surveillance camera footages. The current dominant method to perform real-time mask detection uses Mask-RCNN with ResNet as the backbone. While giving good detection results, this method is computationally intensive and its efficiency in real-time face mask detection is not ideal. Our research proposes a new approach to mask detection by replacing Mask-R-CNN with a more efficient model "YOLO" to increase the processing speed of real-time mask detection and not compromise on accuracy. Besides, given the small volume as well as extreme imbalance of the mask detection datasets, we adopt a latest progress made in few-shot visual classification, simple CNAPs, to improve the classification performance.
翻訳日:2021-02-11 19:49:50 公開日:2021-02-10
# (参考訳) 文化に触発されたマルチモーダルカラーパレットの生成と着色--中国青少年サブカルチャー事例 [全文訳有]

Culture-inspired Multi-modal Color Palette Generation and Colorization: A Chinese Youth Subculture Case ( http://arxiv.org/abs/2102.05231v1 )

ライセンス: CC BY 4.0
Yufan Li, Jinggang Zhuo, Ling Fan, Harry Jiannan Wang(参考訳) 色彩はグラフィックデザインの重要な要素であり、視覚的な要素としてだけでなく文化的意味合いも持つ。 しかし、アルゴリズムカラーパレットの生成とカラー化に関する既存の研究は、文化的側面をほとんど無視している。 本論文では、特にジーンZ集団にとって活気に満ちた流行の文化集団である中国青年サブカルチャー(CYS)という特定の文化にインスパイアされたユニークなカラーデータセットを最初に構築することによって、この研究のラインに貢献します。 CYSで使用される色は、一般的な色理論とは異なる特別な美的特徴と意味的特徴を有することを示す。 次に、CYSスタイルのカラーパレットを作成するための対話型マルチモーダル生成フレームワークを開発し、自動色付けモデルを用いてCYSツイストを画像に配置する。 私たちのフレームワークは、アルゴリズムに常にフィードバックを提供する、Human-in-the-loop原則で設計されたデモシステムを通じて説明されています。 また, ユーザ調査を行い, 評価を行った。

Color is an essential component of graphic design, acting not only as a visual factor but also carrying cultural implications. However, existing research on algorithmic color palette generation and colorization largely ignores the cultural aspect. In this paper, we contribute to this line of research by first constructing a unique color dataset inspired by a specific culture, i.e., Chinese Youth Subculture (CYS), which is an vibrant and trending cultural group especially for the Gen Z population. We show that the colors used in CYS have special aesthetic and semantic characteristics that are different from generic color theory. We then develop an interactive multi-modal generative framework to create CYS-styled color palettes, which can be used to put a CYS twist on images using our automatic colorization model. Our framework is illustrated via a demo system designed with the human-in-the-loop principle that constantly provides feedback to our algorithms. User studies are also conducted to evaluate our generation results.
翻訳日:2021-02-11 19:42:08 公開日:2021-02-10
# (参考訳) NUVA:失語症治療のためのネーミング発話検証器

NUVA: A Naming Utterance Verifier for Aphasia Treatment ( http://arxiv.org/abs/2102.05408v1 )

ライセンス: CC BY 4.0
David Sabate Barbera, Mark Huckvale, Victoria Fleming, Emily Upton, Henry Coley-Fisher, Catherine Doogan, Ian Shaw, William Latham, Alexander P. Leff, Jenny Crinion(参考訳) 失語症(アノミア、英: Anomia)は、脳卒中によって最も一般的に引き起こされる言語障害である。 失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両面において,画像命名タスクを用いた音声性能の評価が重要である。 現在,この評価は言語療法士(SLT)によって手作業で行われている。 驚くべきことに、自動音声認識(ASR)とディープラーニングのような技術による人工知能の進歩にもかかわらず、このタスクのための自動システムの開発の研究は少なかった。 本稿では,失語症患者に対する「正しい」対「正しくない」命名の試みを分類する深層学習要素を組み込んだ発話検証システムであるnuvaを提案する。 8つの英英会話pwaでテストしたところ、システムの性能は83.6%から93.6%で、10倍のクロスバリデーション平均は89.5%であった。 このパフォーマンスは、主要な商用ASR(Googleの音声テキストサービス)を使用して、この研究のために作成されたベースラインよりも大幅に向上しただけでなく、同じデータセットに対して2つの独立したSLTレーティングを持つケースでも同等であった。

Anomia (word-finding difficulties) is the hallmark of aphasia, an acquired language disorder most commonly caused by stroke. Assessment of speech performance using picture naming tasks is a key method for both diagnosis and monitoring of responses to treatment interventions by people with aphasia (PWA). Currently, this assessment is conducted manually by speech and language therapists (SLT). Surprisingly, despite advancements in automatic speech recognition (ASR) and artificial intelligence with technologies like deep learning, research on developing automated systems for this task has been scarce. Here we present NUVA, an utterance verification system incorporating a deep learning element that classifies 'correct' versus' incorrect' naming attempts from aphasic stroke patients. When tested on eight native British-English speaking PWA the system's performance accuracy ranged between 83.6% to 93.6%, with a 10-fold cross-validation mean of 89.5%. This performance was not only significantly better than a baseline created for this study using one of the leading commercially available ASRs (Google speech-to-text service) but also comparable in some instances with two independent SLT ratings for the same dataset.
翻訳日:2021-02-11 19:36:01 公開日:2021-02-10
# (参考訳) バイオメディカル質問への回答:包括的レビュー

Biomedical Question Answering: A Comprehensive Review ( http://arxiv.org/abs/2102.05281v1 )

ライセンス: CC BY 4.0
Qiao Jin, Zheng Yuan, Guangzhi Xiong, Qianlan Yu, Chuanqi Tan, Mosha Chen, Songfang Huang, Xiaozhong Liu, Sheng Yu(参考訳) 質問応答(QA)は、モデルが関連する文書、画像、知識ベース、質問応答ペアを使用して、与えられた質問の回答を予測するベンチマーク自然言語処理(NLP)タスクです。 自動QAは、検索エンジンやチャットボットなど、さまざまな分野に適用されている。 しかし、バイオメディシンのような特定のドメインでは、QAシステムは実際の環境では使われない。 バイオメディカルQA(BQA)は、新しいQAタスクとして、複雑なバイオメディカル知識を効果的に認識、アクセス、理解する革新的なアプリケーションを可能にします。 本稿では,BQAにおける最近の取り組みについて批判的なレビューを行う。 先行するbqaアプローチを,6つの主要な方法論(オープンドメイン,知識ベース,情報検索,機械読解,質問応答,視覚qa),4つの内容(科学的,臨床的,消費者健康,検査),5種類の形式(yes/no,抽出,生成,マルチチョイス,検索)に包括的に検討した。 最後に、BQAの重要な課題をいくつか取り上げ、今後の研究の方向性を探る。

Question Answering (QA) is a benchmark Natural Language Processing (NLP) task where models predict the answer for a given question using related documents, images, knowledge bases and question-answer pairs. Automatic QA has been successfully applied in various domains like search engines and chatbots. However, for specific domains like biomedicine, QA systems are still rarely used in real-life settings. Biomedical QA (BQA), as an emerging QA task, enables innovative applications to effectively perceive, access and understand complex biomedical knowledge. In this work, we provide a critical review of recent efforts in BQA. We comprehensively investigate prior BQA approaches, which are classified into 6 major methodologies (open-domain, knowledge base, information retrieval, machine reading comprehension, question entailment and visual QA), 4 topics of contents (scientific, clinical, consumer health and examination) and 5 types of formats (yes/no, extraction, generation, multi-choice and retrieval). In the end, we highlight several key challenges of BQA and explore potential directions for future works.
翻訳日:2021-02-11 19:34:04 公開日:2021-02-10
# (参考訳) マルチホップテラヘルツ通信における最適ビームトレーニングのための強化学習 [全文訳有]

Reinforcement Learning for Optimized Beam Training in Multi-Hop Terahertz Communications ( http://arxiv.org/abs/2102.05269v1 )

ライセンス: CC BY 4.0
Arian Ahmadi and Omid Semiari(参考訳) テラヘルツ(THz)周波数帯域での通信は、次世代無線ネットワークにおける非常に高いデータレートを実現する有望なソリューションです。 従来のTHz通信は、THz周波数での大気吸収が高いため、短距離無線用途に想定されているが、マルチホップ指向性伝送は通信範囲を拡張できる。 しかし,マルチホップthz通信を実現するためには,従来のビームトレーニング方式,例えば,一定数のトレーニングレベルを持つ全探索や階層的手法が,非常に大きなオーバーヘッドをもたらす可能性がある。 そこで本研究では,マルチホップTHzリンクの性能を最適化するために,動的トレーニングレベルを持つ新しい階層ビームトレーニング手法を提案する。 実際、全構成単一ホップリンクにわたってビームトレーニングレベル数を動的に選択することにより、マルチホップthzリンクの全体的なスペクトル効率を最大化する最適化問題を定式化する。 この問題を未知のチャネル状態情報、ノイズ、および経路損失の存在下で解決するために、マルチアームバンディット(MAB)に基づく新しい強化学習ソリューションを開発しました。 シミュレーション結果は,ランダムチャネルと雑音の存在下で提案手法の高速収束を示す。 また, 提案手法は, 従来の階層的ビームトレーニングに比べて, スペクトル効率の面で75%の性能向上が期待できることを示した。

Communication at terahertz (THz) frequency bands is a promising solution for achieving extremely high data rates in next-generation wireless networks. While the THz communication is conventionally envisioned for short-range wireless applications due to the high atmospheric absorption at THz frequencies, multi-hop directional transmissions can be enabled to extend the communication range. However, to realize multi-hop THz communications, conventional beam training schemes, such as exhaustive search or hierarchical methods with a fixed number of training levels, can lead to a very large time overhead. To address this challenge, in this paper, a novel hierarchical beam training scheme with dynamic training levels is proposed to optimize the performance of multi-hop THz links. In fact, an optimization problem is formulated to maximize the overall spectral efficiency of the multi-hop THz link by dynamically and jointly selecting the number of beam training levels across all the constituent single-hop links. To solve this problem in presence of unknown channel state information, noise, and path loss, a new reinforcement learning solution based on the multi-armed bandit (MAB) is developed. Simulation results show the fast convergence of the proposed scheme in presence of random channels and noise. The results also show that the proposed scheme can yield up to 75% performance gain, in terms of spectral efficiency, compared to the conventional hierarchical beam training with a fixed number of training levels.
翻訳日:2021-02-11 19:32:56 公開日:2021-02-10
# (参考訳) WSIのCNN解析による大腸ポリープのdysplasia grading [全文訳有]

Dysplasia grading of colorectal polyps through CNN analysis of WSI ( http://arxiv.org/abs/2102.05498v1 )

ライセンス: CC BY 4.0
Daniele Perlo, Enzo Tartaglione, Luca Bertero, Paola Cassoni, Marco Grangetto(参考訳) 大腸がんは、男性と女性の両方にとってがん死の主な原因です。 大腸ポリープの病理組織学的特徴は, 癌リスクを推察し, さらなる経過観察を導くため, 病理医にとって重要な指標である。 大腸ポリープの診断はポリープ型の評価を含み、さらに重要なのは異形成の程度である。 後者の評価は臨床経過において重要なステップである。 提案されたディープラーニングに基づく分類パイプラインは、最先端の畳み込みニューラルネットワークに基づいており、wsi高分解能と非常に不均衡なデータセットに取り組むための適切な対策を用いてトレーニングされている。 実験結果は、病理学者の一致に沿った70%の精度で腺腫性異形成の等級を首尾よく分類できることを示しています。

Colorectal cancer is a leading cause of cancer death for both men and women. For this reason, histopathological characterization of colorectal polyps is the major instrument for the pathologist in order to infer the actual risk for cancer and to guide further follow-up. Colorectal polyps diagnosis includes the evaluation of the polyp type, and more importantly, the grade of dysplasia. This latter evaluation represents a critical step for the clinical follow-up. The proposed deep learning-based classification pipeline is based on state-of-the-art convolutional neural network, trained using proper countermeasures to tackle WSI high resolution and very imbalanced dataset. The experimental results show that one can successfully classify adenomas dysplasia grade with 70% accuracy, which is in line with the pathologists' concordance.
翻訳日:2021-02-11 19:19:26 公開日:2021-02-10
# (参考訳) 磁気共鳴画像の単一画像超解像のための参照ベーステクスチャ転送 [全文訳有]

Reference-based Texture transfer for Single Image Super-resolution of Magnetic Resonance images ( http://arxiv.org/abs/2102.05450v1 )

ライセンス: CC BY-SA 4.0
Madhu Mithra K K, Sriprabha Ramanarayanan, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) MRI(Magic Resonance Imaging)は、感染、腫瘍、変性、骨折、ヘルニアに対する優れた特徴を持つ脊椎病理の貴重な臨床診断モードです。 しかし手術では、MRIスライス分解能が不十分なため、画像誘導脊椎手術は引き続きCTや蛍光検査に依存している。 我々は,最先端の単一画像超解像に基づいて,平面内および平面間MRI超解像を用いた深層学習のための参照ベース・アンペアマルチコントラストテクスチャ・トランスファー戦略を提案する。 画像パッチのテクスチャ特性と不対の参照画像パッチ、およびマルチコントラストテクスチャの損失項を関連付けるために、散乱変換を使用します。 提案手法を異なる超解像アーキテクチャに適用し,PSNRとSSIMの4倍超解像に対する改善を観察する。

Magnetic Resonance Imaging (MRI) is a valuable clinical diagnostic modality for spine pathologies with excellent characterization for infection, tumor, degenerations, fractures and herniations. However in surgery, image-guided spinal procedures continue to rely on CT and fluoroscopy, as MRI slice resolutions are typically insufficient. Building upon state-of-the-art single image super-resolution, we propose a reference-based, unpaired multi-contrast texture-transfer strategy for deep learning based in-plane and across-plane MRI super-resolution. We use the scattering transform to relate the texture features of image patches to unpaired reference image patches, and additionally a loss term for multi-contrast texture. We apply our scheme in different super-resolution architectures, observing improvement in PSNR and SSIM for 4x super-resolution in most of the cases.
翻訳日:2021-02-11 19:09:42 公開日:2021-02-10
# (参考訳) SGDの安定性:厚さ解析と改良境界 [全文訳有]

Stability of SGD: Tightness Analysis and Improved Bounds ( http://arxiv.org/abs/2102.05274v1 )

ライセンス: CC0 1.0
Yikai Zhang, Wenjia Zhang, Sammy Bald, Vamsi Pingali, Chao Chen, Mayank Goswami(参考訳) Stochastic Gradient Descent (SGD) に基づく手法は、大規模機械学習モデルの訓練に広く用いられており、実際もよく一般化されている。 この一般化性能についていくつかの説明がなされており、アルゴリズム安定性が顕著である[18]。 しかし、解析がタイトであることを示すような滑らかな損失関数の例は知られていない。 さらに、損失関数の性質とは別に、データ分布も一般化性能の重要な要因であることが示されている。 18] の安定解析は滑らかな関数に密接なものなのか、それともどのような損失関数やデータ分布について、安定性解析は改善できるのか? 本稿では,データ非依存設定における境界の厳密性に関するオープンな疑問を最初に解決する。一般的なデータセットでは,既存の凸および強凸損失関数の解析は厳密であるが,非凸損失関数では改善できることを示す。 次に,新たに改良されたデータ依存境界,すなわち,非無視正規化パラメータを持つ大規模凸正規化損失関数の安定性上限を示すとともに,非凸設定における既存のデータ依存境界を改善する。 我々は,非凸損失関数の下でのデータ依存的設定をより深く理解するためのさらなる取り組みを開始することを期待し,ディープネットワークの一般化能力の理解を深める。

Stochastic Gradient Descent (SGD) based methods have been widely used for training large-scale machine learning models that also generalize well in practice. Several explanations have been offered for this generalization performance, a prominent one being algorithmic stability [18]. However, there are no known examples of smooth loss functions for which the analysis can be shown to be tight. Furthermore, apart from the properties of the loss function, data distribution has also been shown to be an important factor in generalization performance. This raises the question: is the stability analysis of [18] tight for smooth functions, and if not, for what kind of loss functions and data distributions can the stability analysis be improved? In this paper we first settle open questions regarding tightness of bounds in the data-independent setting: we show that for general datasets, the existing analysis for convex and strongly-convex loss functions is tight, but it can be improved for non-convex loss functions. Next, we give a novel and improved data-dependent bounds: we show stability upper bounds for a large class of convex regularized loss functions, with negligible regularization parameters, and improve existing data-dependent bounds in the non-convex setting. We hope that our results will initiate further efforts to better understand the data-dependent setting under non-convex loss functions, leading to an improved understanding of the generalization abilities of deep networks.
翻訳日:2021-02-11 19:01:18 公開日:2021-02-10
# (参考訳) BRECQ:ブロック再構築による後量子化の限界を推し進める [全文訳有]

BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction ( http://arxiv.org/abs/2102.05426v1 )

ライセンス: CC BY-SA 4.0
Yuhang Li, Ruihao Gong, Xu Tan, Yang Yang, Peng Hu, Qi Zhang, Fengwei Yu, Wei Wang, Shi Gu(参考訳) エンド・ツー・エンドの再トレーニングを伴わないニューラルネットワーク量子化の課題をptq(post-training quantization)と呼ぶ。 PTQは通常、トレーニングデータの小さなサブセットを必要とするが、Quantization-Aware Training (QAT)よりも強力な量子化モデルを生成する。 本研究では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。 BRECQはニューラルネットワークの基本的なビルディングブロックを活用し、それらを1つずつ再構築します。 2次誤差の包括的理論的研究において、BRECQは層間依存性と一般化誤差のバランスが良好であることを示す。 また, 量子化のパワーをさらに活用するために, 層間感度と層内感度を近似して, 混合精度技術が組み込まれている。 画像分類と物体検出タスクにおいて,様々な手作りおよび探索型ニューラルネットワークの広範な実験を行った。 そして、初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明しました。 コードはhttps://github.com/y hhli/BRECQで入手できる。

We study the challenging task of neural network quantization without end-to-end retraining, called Post-training Quantization (PTQ). PTQ usually requires a small subset of training data but produces less powerful quantized models than Quantization-Aware Training (QAT). In this work, we propose a novel PTQ framework, dubbed BRECQ, which pushes the limits of bitwidth in PTQ down to INT2 for the first time. BRECQ leverages the basic building blocks in neural networks and reconstructs them one-by-one. In a comprehensive theoretical study of the second-order error, we show that BRECQ achieves a good balance between cross-layer dependency and generalization error. To further employ the power of quantization, the mixed precision technique is incorporated in our framework by approximating the inter-layer and intra-layer sensitivity. Extensive experiments on various handcrafted and searched neural architectures are conducted for both image classification and object detection tasks. And for the first time we prove that, without bells and whistles, PTQ can attain 4-bit ResNet and MobileNetV2 comparable with QAT and enjoy 240 times faster production of quantized models. Codes are available at https://github.com/y hhhli/BRECQ.
翻訳日:2021-02-11 18:00:49 公開日:2021-02-10
# (参考訳) Weston-Watkins SVMサブプロブレムの正確な解法

An exact solver for the Weston-Watkins SVM subproblem ( http://arxiv.org/abs/2102.05640v1 )

ライセンス: CC BY 4.0
Yutong Wang, Clayton D. Scott(参考訳) 最近の実証的な証拠は、Weston-WatkinsサポートベクターマシンがバイナリSVMの最も優れたマルチクラス拡張であることを示している。 現在の最先端ソルバは、反復戦略を用いて、特定の部分問題を繰り返し解決する。 本研究では,Weston-Watkins双対問題の新たな再パラメータ化を用いて,サブ問題を正確に解くアルゴリズムを提案する。 線形WW-SVMの場合、クラス数が大きければ最先端の解法よりも大幅に高速化される。 我々の正確なサブプロブレム解法はまた、全体解法の線形収束を証明できる。

Recent empirical evidence suggests that the Weston-Watkins support vector machine is among the best performing multiclass extensions of the binary SVM. Current state-of-the-art solvers repeatedly solve a particular subproblem approximately using an iterative strategy. In this work, we propose an algorithm that solves the subproblem exactly using a novel reparametrization of the Weston-Watkins dual problem. For linear WW-SVMs, our solver shows significant speed-up over the state-of-the-art solver when the number of classes is large. Our exact subproblem solver also allows us to prove linear convergence of the overall solver.
翻訳日:2021-02-11 17:29:34 公開日:2021-02-10
# (参考訳) NAST: 時系列予測のための非自動空間時空間変換器 [全文訳有]

NAST: Non-Autoregressive Spatial-Temporal Transformer for Time Series Forecasting ( http://arxiv.org/abs/2102.05624v1 )

ライセンス: CC BY 4.0
Kai Chen, Guang Chen, Dan Xu, Lijun Zhang, Yuyao Huang, Alois Knoll(参考訳) Transformerは、特に自然言語処理(NLP)の分野で画期的な成功を収めていますが、時系列予測に適用することは依然として大きな課題です。 時系列予測では、標準変圧器モデルの自己回帰復号は必然的に巨大な累積誤差をもたらす可能性がある。 これらの制約に対処するため、本研究は、時系列予測のための非自己回帰トランスフォーマーアーキテクチャを提案する最初の試みであり、標準変換器における時間遅延と累積誤差問題を克服することを目的としている。 さらに,空間的・時間的依存を一体的に処理できるように,空間的・時間的依存のギャップを埋めるために,学習した時間的影響マップによって橋を架ける新しい時間的注意機構を提案する。 実験的に,エゴ中心の将来のローカライゼーションデータセットの多様化に関するモデルを評価し,実時間と精度の両面で最先端の性能を示す。

Although Transformer has made breakthrough success in widespread domains especially in Natural Language Processing (NLP), applying it to time series forecasting is still a great challenge. In time series forecasting, the autoregressive decoding of canonical Transformer models could introduce huge accumulative errors inevitably. Besides, utilizing Transformer to deal with spatial-temporal dependencies in the problem still faces tough difficulties.~To tackle these limitations, this work is the first attempt to propose a Non-Autoregressive Transformer architecture for time series forecasting, aiming at overcoming the time delay and accumulative error issues in the canonical Transformer. Moreover, we present a novel spatial-temporal attention mechanism, building a bridge by a learned temporal influence map to fill the gaps between the spatial and temporal attention, so that spatial and temporal dependencies can be processed integrally. Empirically, we evaluate our model on diversified ego-centric future localization datasets and demonstrate state-of-the-art performance on both real-time and accuracy.
翻訳日:2021-02-11 17:28:24 公開日:2021-02-10
# (参考訳) 2サンプルテストのための最適証人関数 [全文訳有]

An Optimal Witness Function for Two-Sample Testing ( http://arxiv.org/abs/2102.05573v1 )

ライセンス: CC BY 4.0
Jonas M. K\"ubler, Wittawat Jitkrittum, Bernhard Sch\"olkopf, Krikamol Muandet(参考訳) 実例2サンプルテスト(WiTSテスト)と呼ばれる,1次元の目撃機能に基づくデータ依存型テスト統計を提案する。 まず, 漸近的テストパワー目標を最大化することで, 証人関数を最適化し, 2つのホールドアウトテストサンプルで評価された証人の手段の差をテスト統計として用いる。 witness関数が再生カーネルヒルベルト空間に属するとき、我々は閉じた形で計算するソリューションであるカーネルフィッシャー識別分析によって最適な目撃者が与えられることを示します。 我々は、特性カーネルに基づくWiTSテストが任意の固定代替品に対して一貫性があることを示した。 実験により,WiTSテストは,最適化カーネルを用いた既存の2サンプルテストよりも高いテストパワーを達成できることが示され,2サンプルテストでは,データの高次元あるいは無限次元表現の学習は不要である可能性が示唆された。 提案手法はカーネルメソッドを超えて動作し、実践者が好みの機械学習フレームワークにそれを適用できるようにする。

We propose data-dependent test statistics based on a one-dimensional witness function, which we call witness two-sample tests (WiTS tests). We first optimize the witness function by maximizing an asymptotic test-power objective and then use as the test statistic the difference in means of the witness evaluated on two held-out test samples. When the witness function belongs to a reproducing kernel Hilbert space, we show that the optimal witness is given via kernel Fisher discriminant analysis, whose solution we compute in closed form. We show that the WiTS test based on a characteristic kernel is consistent against any fixed alternative. Our experiments demonstrate that the WiTS test can achieve higher test power than existing two-sample tests with optimized kernels, suggesting that learning a high- or infinite-dimensional representation of the data may not be necessary for two-sample testing. The proposed procedure works beyond kernel methods, allowing practitioners to apply it within their preferred machine learning framework.
翻訳日:2021-02-11 17:10:39 公開日:2021-02-10
# (参考訳) 確率時系列生成のための注意ガウス過程 [全文訳有]

Attentive Gaussian processes for probabilistic time-series generation ( http://arxiv.org/abs/2102.05208v1 )

ライセンス: CC BY 4.0
Kuilin Chen, Chi-Guhn Lee(参考訳) シーケンスの変換は主に、計算上要求され、しばしば不確実性を過小評価する再帰的ネットワークによって行われてきた。 本論文では,ガウス過程回帰と組み合わせ,実数値シーケンスを生成する計算効率の高い注意ベースのネットワークを提案する。 提案モデルでは,反復と畳み込みを伴って学習効率を向上するだけでなく,ベイズ表現による因子化生成分布も学習する。 しかし、gpの存在はアテンションネットワークのトレーニングに一般的に使用されるミニバッチアプローチを妨げている。 そこで我々は,GPがフルバッチでトレーニングされている間,ネットワークのミニバッチトレーニングを可能にするブロックワイドトレーニングアルゴリズムを開発した。 このアルゴリズムは収束することが証明されており、見つかったソリューションの品質に匹敵するが、良くない。 アルゴリズムは特定のネットワークアーキテクチャを前提としないため、計算とメモリのリソース不足において、ニューラルネットワークやカーネルマシン層といった幅広いハイブリッドモデルで使用することができる。

The transduction of sequence has been mostly done by recurrent networks, which are computationally demanding and often underestimate uncertainty severely. We propose a computationally efficient attention-based network combined with the Gaussian process regression to generate real-valued sequence, which we call the Attentive-GP. The proposed model not only improves the training efficiency by dispensing recurrence and convolutions but also learns the factorized generative distribution with Bayesian representation. However, the presence of the GP precludes the commonly used mini-batch approach to the training of the attention network. Therefore, we develop a block-wise training algorithm to allow mini-batch training of the network while the GP is trained using full-batch, resulting in a scalable training method. The algorithm has been proved to converge and shows comparable, if not better, quality of the found solution. As the algorithm does not assume any specific network architecture, it can be used with a wide range of hybrid models such as neural networks with kernel machine layers in the scarcity of resources for computation and memory.
翻訳日:2021-02-11 16:38:20 公開日:2021-02-10
# Argmaxフローと多項拡散:非自己回帰言語モデルに向けて

Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive Language Models ( http://arxiv.org/abs/2102.05379v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Didrik Nielsen, Priyank Jaini, Patrick Forr\'e, Max Welling(参考訳) 言語モデリングの分野は主に自己回帰モデルによって支配されており、サンプリングは本質的に並列化が難しい。 本稿では,Argmax FlowsとMultinomial Diffusionという,言語やイメージセグメンテーションなどのカテゴリデータ生成モデルの2つの新しいクラスを紹介した。 Argmax Flowは(正規化フローのような)連続分布とargmax関数の合成によって定義される。 このモデルを最適化するために、分類データを連続空間に持ち上げるargmaxの確率的逆法を学習する。 多項拡散は拡散過程においてカテゴリーノイズを徐々に加え、生成的復調過程が学習される。 画像セグメンテーションマップの言語モデルとモデル上で,我々のモデルが競争力を発揮できることを実証する。

The field of language modelling has been largely dominated by autoregressive models, for which sampling is inherently difficult to parallelize. This paper introduces two new classes of generative models for categorical data such as language or image segmentation: Argmax Flows and Multinomial Diffusion. Argmax Flows are defined by a composition of a continuous distribution (such as a normalizing flow), and an argmax function. To optimize this model, we learn a probabilistic inverse for the argmax that lifts the categorical data to a continuous space. Multinomial Diffusion gradually adds categorical noise in a diffusion process, for which the generative denoising process is learned. We demonstrate that our models perform competitively on language modelling and modelling of image segmentation maps.
翻訳日:2021-02-11 14:54:29 公開日:2021-02-10
# 短期Horizonマルチアレイバンドの回帰オラクルと探索戦略

Regression Oracles and Exploration Strategies for Short-Horizon Multi-Armed Bandits ( http://arxiv.org/abs/2102.05263v1 )

ライセンス: Link先を確認
Robert C. Gray, Jichen Zhu, Santiago Onta\~n\'on(参考訳) 本稿は,マルチアーム・バンディット(MAB)戦略を極めて短い地平線シナリオ,すなわち,バンディット戦略が環境との相互作用をほとんど許さない場合に検討する。 これは、プレイヤーモデリングなどのゲームの文脈で多くのアプリケーションを持つMAB文学の学習されていない設定です。 具体的には3つの異なるアイデアを追求します まず,epsilon-greedyのような戦略で用いられる単純な平均を線形回帰モデルに置き換える回帰オラクルの利用について検討する。 第2に,強制探査フェーズなどの異なる探索パターンについて検討する。 最後に, 興味深い特性を持ち, 可変パラメータも持たない, ucbt と呼ばれる ucb1 戦略の新たな変種を紹介する。 プレイヤーの日常的なステップを最大化することを目的として,エクセルゲームに動機づけられた領域で実験結果を示す。 Epsilon-greedy と Epsilon-deducing と Regression oracles の組み合わせが, 短い地平線設定における他のすべてのテスト戦略を上回っていることを示した。

This paper explores multi-armed bandit (MAB) strategies in very short horizon scenarios, i.e., when the bandit strategy is only allowed very few interactions with the environment. This is an understudied setting in the MAB literature with many applications in the context of games, such as player modeling. Specifically, we pursue three different ideas. First, we explore the use of regression oracles, which replace the simple average used in strategies such as epsilon-greedy with linear regression models. Second, we examine different exploration patterns such as forced exploration phases. Finally, we introduce a new variant of the UCB1 strategy called UCBT that has interesting properties and no tunable parameters. We present experimental results in a domain motivated by exergames, where the goal is to maximize a player's daily steps. Our results show that the combination of epsilon-greedy or epsilon-decreasing with regression oracles outperforms all other tested strategies in the short horizon setting.
翻訳日:2021-02-11 14:54:01 公開日:2021-02-10
# 雑音ラベル学習におけるアンカーポイント代替としてのクラスタ性

Clusterability as an Alternative to Anchor Points When Learning with Noisy Labels ( http://arxiv.org/abs/2102.05291v1 )

ライセンス: Link先を確認
Zhaowei Zhu, Yiwen Song, Yang Liu(参考訳) ラベルノイズ遷移行列の知識は、誤って注釈付けされているトレーニングインスタンスの確率を特徴づけ、損失補正や損失軽減アプローチを含む騒々しいラベルで学習するための一般的なソリューションを設計するために重要です。 既存の仕事は、ほぼ確実に特定のクラスに属するインスタンスとして定義される「アンカーポイント」またはその近似の存在に大きく依存します。 それにもかかわらず、アンカーポイントの発見は非自明なタスクであり、推定精度は利用可能なアンカーポイントの数によってしばしば低下します。 本稿では,上記の課題に対する代替オプションを提案する。 我々の主な貢献は、クラスタ可能性条件に基づく効率的な推定手順の発見である。 特徴のクラスタ化可能な表現では,隣接表現間の雑音ラベルの最大3次コンセンサスを用いることで,一意的な遷移行列を推定できることを示す。 アンカーポイントを使った手法と比較して、我々のアプローチはより多くのインスタンスを使用し、より優れたサンプル複雑さの恩恵を受ける。 合成ノイズラベル(CIFAR-10/100)と実際の人間レベルのノイズラベル(Clothing1M)の両方を使用して推定の精度と利点を示します。

The knowledge of the label noise transition matrix, characterizing the probabilities of a training instance being wrongly annotated, is crucial to designing popular solutions to learning with noisy labels, including loss correction and loss reweighting approaches. Existing works heavily rely on the existence of "anchor points" or their approximates, defined as instances that belong to a particular class almost surely. Nonetheless, finding anchor points remains a non-trivial task, and the estimation accuracy is also often throttled by the number of available anchor points. In this paper, we propose an alternative option to the above task. Our main contribution is the discovery of an efficient estimation procedure based on a clusterability condition. We prove that with clusterable representations of features, using up to third-order consensuses of noisy labels among neighbor representations is sufficient to estimate a unique transition matrix. Compared with methods using anchor points, our approach uses substantially more instances and benefits from a much better sample complexity. We demonstrate the estimation accuracy and advantages of our estimates using both synthetic noisy labels (on CIFAR-10/100) and real human-level noisy labels (on Clothing1M and our self-collected human-annotated CIFAR-10).
翻訳日:2021-02-11 14:53:45 公開日:2021-02-10
# $\ell_\infty$-distne urnsを用いたニューラルネットワークによるロバストネスの証明に向けて

Towards Certifying $\ell_\infty$ Robustness using Neural Networks with $\ell_\infty$-dist Neurons ( http://arxiv.org/abs/2102.05363v1 )

ライセンス: Link先を確認
Bohang Zhang, Tianle Cai, Zhou Lu, Di He, Liwei Wang(参考訳) 標準的なニューラルネットワークは、高い分類精度でも、小さな$\ell_\infty$-norm境界逆摂動に弱いことはよく知られている。 多くの試みがなされているが、ほとんどの以前の作品では特定の攻撃方法に対する防御の実証的検証しかできないか、限定されたシナリオでモデルの堅牢性を保証することしかできない。 本稿では,$\ell_\infty$摂動に本質的に抵抗する理論原理のニューラルネットワークを開発するための新しいアプローチを提案する。 特に、$\ell_\infty$-distan ce を基本演算($\ell_\infty$-dist neuron と呼ぶ)として用いる新しいニューロンを設計し、$\ell_\infty$-dist neurons ($\ell_{\infty}$-dist net と呼ばれる)で構築されたニューラルネットワークが、$\ell_\infty$-norm に関して自然に 1-Lipschitz 関数であることを示します。 これにより、予測出力のマージンに基づいて認証された堅牢性が直接保証されます。 また、そのようなネットワークは、堅牢な一般化保証を持つ任意の1-Lipschitz関数を近似する十分な表現力を有することを証明します。 実験の結果,提案するネットワークは有望であることがわかった。 基本的な構成要素として$\ell_{\infty}$-distネットを使用し、一般的に使用されるデータセットで常に最先端のパフォーマンスを実現している: mnist (\epsilon=0.3$) 93.09%、ファッションmnist (\epsilon=0.1$) 79.23%、cifar-10 (\epsilon=8/255$) で35.10%である。

It is well-known that standard neural networks, even with a high classification accuracy, are vulnerable to small $\ell_\infty$-norm bounded adversarial perturbations. Although many attempts have been made, most previous works either can only provide empirical verification of the defense to a particular attack method, or can only develop a certified guarantee of the model robustness in limited scenarios. In this paper, we seek for a new approach to develop a theoretically principled neural network that inherently resists $\ell_\infty$ perturbations. In particular, we design a novel neuron that uses $\ell_\infty$-distan ce as its basic operation (which we call $\ell_\infty$-dist neuron), and show that any neural network constructed with $\ell_\infty$-dist neurons (called $\ell_{\infty}$-dist net) is naturally a 1-Lipschitz function with respect to $\ell_\infty$-norm. This directly provides a rigorous guarantee of the certified robustness based on the margin of prediction outputs. We also prove that such networks have enough expressive power to approximate any 1-Lipschitz function with robust generalization guarantee. Our experimental results show that the proposed network is promising. Using $\ell_{\infty}$-dist nets as the basic building blocks, we consistently achieve state-of-the-art performance on commonly used datasets: 93.09% certified accuracy on MNIST ($\epsilon=0.3$), 79.23% on Fashion MNIST ($\epsilon=0.1$) and 35.10% on CIFAR-10 ($\epsilon=8/255$).
翻訳日:2021-02-11 14:53:21 公開日:2021-02-10
# 多変量時系列における予測制御の系統的一般化

Systematic Generalization for Predictive Control in Multivariate Time Series ( http://arxiv.org/abs/2102.05602v1 )

ライセンス: Link先を確認
Hritik Bansal, Gantavya Bhatt, Pankaj Malhotra, Prathosh A.P(参考訳) 以前の研究は、人間の認知の本質的特性である既知のコンポーネントから新しい組み合わせを推論するニューラルネットワークの能力を評価することに焦点を当てていた。 本研究では、過去の状態の軌跡(依存変数)、過去および将来の行動(制御変数)に基づいて、動的システムの将来の状態軌跡を予測するための体系的な一般化を研究する。 私たちの文脈では、体系的な一般化は、良いモデルがすべてのアクションで訓練された後に、将来のアクションのすべての新しい組み合わせでうまく機能するべきであることを暗示します。 モデルが非表示のアクションコンビネーションに分散アウト・オブ・ディストリビューションを一般化するためには、状態と適用アクションとの関係を推論する必要がある。 筆者らは, 軌道を水平線まで予測し, 状態と制御の真の依存関係を, 合成装置を用いて把握し, 電動機からのデータをシミュレーションする, 有用な誘導バイアスの厳密な研究を行った。

Prior work has focused on evaluating the ability of neural networks to reason about novel combinations from known components, an intrinsic property of human cognition. In this work, we aim to study systematic generalization in predicting future state trajectories of a dynamical system, conditioned on past states' trajectory (dependent variables), past and future actions (control variables). In our context, systematic generalization implies that a good model should perform well on all new combinations of future actions after being trained on all of them, but only on a limited set of their combinations. For models to generalize out-of-distribution to unseen action combinations, they should reason about the states and their dependency relation with the applied actions. We conduct a rigorous study of useful inductive biases that learn to predict the trajectories up to large horizons well, and capture true dependency relations between the states and the controls through our synthetic setup, and simulated data from electric motors.
翻訳日:2021-02-11 14:52:38 公開日:2021-02-10
# CNNトポロジ進化のための2つの新しい性能改善

Two Novel Performance Improvements for Evolving CNN Topologies ( http://arxiv.org/abs/2102.05451v1 )

ライセンス: Link先を確認
Yaron Strauch (University of Southampton), Jo Grundy (University of Southampton)(参考訳) Convolutional Neural Networks(CNN)は、画像の処理のための最先端のアルゴリズムです。 しかし、これらのネットワークの構成とトレーニングは、深いドメイン知識、経験、多くの試行錯誤を必要とする複雑なタスクである。 遺伝的アルゴリズムを用いて、画像認識のための競合するCNNトポロジを任意の目的のために作成することができるが、以前の研究では計算コストが高い。 この研究では、複雑さとトレーニング時間の20%近く削減に効果的である2つの新しいアプローチがこれらのアルゴリズムの活用に提示されている。 これはトレーニング時間に直接規則化し、個々のアーキテクチャの早期ランキングを可能にするために部分トレーニングを使用することによって達成される。 どちらのアプローチもベンチマークCIFAR10データセットで検証され、精度が維持される。

Convolutional Neural Networks (CNNs) are the state-of-the-art algorithms for the processing of images. However the configuration and training of these networks is a complex task requiring deep domain knowledge, experience and much trial and error. Using genetic algorithms, competitive CNN topologies for image recognition can be produced for any specific purpose, however in previous work this has come at high computational cost. In this work two novel approaches are presented to the utilisation of these algorithms, effective in reducing complexity and training time by nearly 20%. This is accomplished via regularisation directly on training time, and the use of partial training to enable early ranking of individual architectures. Both approaches are validated on the benchmark CIFAR10 data set, and maintain accuracy.
翻訳日:2021-02-11 14:52:20 公開日:2021-02-10
# 3次元モデリング技術による現実世界の敵パッチの強化

Enhancing Real-World Adversarial Patches with 3D Modeling Techniques ( http://arxiv.org/abs/2102.05334v1 )

ライセンス: Link先を確認
Yael Mathov, Lior Rokach, Yuval Elovici(参考訳) 多くの研究が現実世界の敵の例を調査しているが、そのほとんどは攻撃シーンの2D写真に頼っているため、提案された攻撃は3Dオブジェクトや様々な条件で現実的な環境に対処できない。 3dオブジェクトを使用する研究は限られており、多くの場合、現実世界の評価プロセスは、他の研究者によって複製されず、他の人が結果を再現できない。 本研究では,既存の実世界のシーンに対して敵対的パッチを施す枠組みを提案する。 本手法では,実世界のシミュレーションとしてシーンの3次元ディジタル近似を用いる。 デジタルシーン内の任意の要素を追加および操作する機能により、アタッカーは実際の設定でパッチの堅牢性を向上させることができます。 このフレームワークを使用して、日々のシーンのパッチを作成し、デジタル空間と現実世界の両方で結果が再現可能であることを確認する新しい評価プロセスを使用してそのパフォーマンスを評価します。 評価結果は,現実世界の異なる環境に対して堅牢な逆パッチを生成できることを示す。

Although many studies have examined adversarial examples in the real world, most of them relied on 2D photos of the attack scene; thus, the attacks proposed cannot address realistic environments with 3D objects or varied conditions. Studies that use 3D objects are limited, and in many cases, the real-world evaluation process is not replicable by other researchers, preventing others from reproducing the results. In this study, we present a framework that crafts an adversarial patch for an existing real-world scene. Our approach uses a 3D digital approximation of the scene as a simulation of the real world. With the ability to add and manipulate any element in the digital scene, our framework enables the attacker to improve the patch's robustness in real-world settings. We use the framework to create a patch for an everyday scene and evaluate its performance using a novel evaluation process that ensures that our results are reproducible in both the digital space and the real world. Our evaluation results show that the framework can generate adversarial patches that are robust to different settings in the real world.
翻訳日:2021-02-11 14:52:08 公開日:2021-02-10
# ニューラルネットワークから見た入力類似性

Input Similarity from the Neural Network Perspective ( http://arxiv.org/abs/2102.05262v1 )

ライセンス: Link先を確認
Guillaume Charpiat, Nicolas Girard, Loris Felardos, Yuliya Tarabalka(参考訳) まず,ノイズラベル付きデータセット上でトレーニングされたニューラルネットワークが,ノイズ分散をはるかに超えてほぼ完全な精度に達するマルチモーダル画像登録タスクを示す。 この驚くべき自己消音現象は、同様の入力例のラベルに対するノイズ平均効果として説明できる。 この効果は理論的には類似した例の数で増大し、問題は例の類似性を定義して推定することである。 我々は、ニューラルネットワークの観点から、適切な類似性の定義を表現します。 機械学習の視点から見れば、$A$と$B$の2つの入力がいかに不可解であるかを定量化します。$A$の出力を変更するように設計されたパラメータの変動が$B$の出力にも影響しますか? この類似性尺度の数学的性質について検討し、ニューラルネットワークの新たなタイプの統計解析を可能にするために、トレーニングされたネットワーク上でサンプル密度を推定する方法を示す。 我々は,ネットワークが類似していると見なすサンプルを検索してデータを解析し,真のラベルを必要とせずにデノナイジング効果を定量化することができる。 また、トレーニング中は、類似した例がネットワークによって類似していると見なされるべきであることを強制し、特定のデータセットに対するスピードアップトレーニング効果に気付くように提案する。

We first exhibit a multimodal image registration task, for which a neural network trained on a dataset with noisy labels reaches almost perfect accuracy, far beyond noise variance. This surprising auto-denoising phenomenon can be explained as a noise averaging effect over the labels of similar input examples. This effect theoretically grows with the number of similar examples; the question is then to define and estimate the similarity of examples. We express a proper definition of similarity, from the neural network perspective, i.e. we quantify how undissociable two inputs $A$ and $B$ are, taking a machine learning viewpoint: how much a parameter variation designed to change the output for $A$ would impact the output for $B$ as well? We study the mathematical properties of this similarity measure, and show how to use it on a trained network to estimate sample density, in low complexity, enabling new types of statistical analysis for neural networks. We analyze data by retrieving samples perceived as similar by the network, and are able to quantify the denoising effect without requiring true labels. We also propose, during training, to enforce that examples known to be similar should also be seen as similar by the network, and notice speed-up training effects for certain datasets.
翻訳日:2021-02-11 14:51:50 公開日:2021-02-10
# Hyperbolic Generative Adversarial Network

Hyperbolic Generative Adversarial Network ( http://arxiv.org/abs/2102.05567v1 )

ライセンス: Link先を確認
Diego Lazcano, Nicol\'as Fredes and Werner Creixell(参考訳) 近年、非ユークリッド深層学習の文脈における双曲空間は、階層的データを表現する能力から人気が高まっている。 本稿では、GANアーキテクチャにおける双曲型ニューラルネットワークを用いて、画像に存在する階層的特徴を生かし得ることを提案する。 本研究は, HGAN, HCGAN, HWGANとよばれる, GAN, CGAN, WGANにおいて, 完全に結合した双曲層を用いた異なる構成の試験を行った。 結果は、MNIST データセットの Inception Score (IS) と Fr\'echet Inception Distance (FID) を用いて測定される。 構成や空間曲率によっては、提案された双曲型ごとにユークリッド型よりも良い結果が得られる。

Recently, Hyperbolic Spaces in the context of Non-Euclidean Deep Learning have gained popularity because of their ability to represent hierarchical data. We propose that it is possible to take advantage of the hierarchical characteristic present in the images by using hyperbolic neural networks in a GAN architecture. In this study, different configurations using fully connected hyperbolic layers in the GAN, CGAN, and WGAN are tested, in what we call the HGAN, HCGAN, and HWGAN, respectively. The results are measured using the Inception Score (IS) and the Fr\'echet Inception Distance (FID) on the MNIST dataset. Depending on the configuration and space curvature, better results are achieved for each proposed hyperbolic versions than their euclidean counterpart.
翻訳日:2021-02-11 14:51:29 公開日:2021-02-10
# 政策強化: 深層強化学習アルゴリズムのより高速な収束のための探索戦略

Policy Augmentation: An Exploration Strategy for Faster Convergence of Deep Reinforcement Learning Algorithms ( http://arxiv.org/abs/2102.05249v1 )

ライセンス: Link先を確認
Arash Mahyari(参考訳) 深層強化学習アルゴリズムの進歩にもかかわらず、効果的な探索戦略の開発はまだオープンな問題です。 既存の探索戦略の多くは単純なヒューリスティックに基づいているか、環境のモデルを必要とするか、想像力に富んだ経路を生成するために追加のディープニューラルネットワークを訓練する。 本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。 ポリシー強化は、新たに開発された誘導行列補完法に基づいています。 提案アルゴリズムは、未探索の状態-動作ペアの値を強化し、エージェントが初期エピソードにいる間に高い値を返すアクションをエージェントが取り出すのを助ける。 高値ロールアウトによる深層強化学習アルゴリズムのトレーニングは、深層強化学習アルゴリズムの迅速な収束につながります。 我々の実験は、政策強化の優れた性能を示している。 コードはhttps://github.com/a rashmahyari/PolicyAu gmentation.comで見ることができる。

Despite advancements in deep reinforcement learning algorithms, developing an effective exploration strategy is still an open problem. Most existing exploration strategies either are based on simple heuristics, or require the model of the environment, or train additional deep neural networks to generate imagination-augmente d paths. In this paper, a revolutionary algorithm, called Policy Augmentation, is introduced. Policy Augmentation is based on a newly developed inductive matrix completion method. The proposed algorithm augments the values of unexplored state-action pairs, helping the agent take actions that will result in high-value returns while the agent is in the early episodes. Training deep reinforcement learning algorithms with high-value rollouts leads to the faster convergence of deep reinforcement learning algorithms. Our experiments show the superior performance of Policy Augmentation. The code can be found at: https://github.com/a rashmahyari/PolicyAu gmentation.
翻訳日:2021-02-11 14:51:15 公開日:2021-02-10
# Pivot Turns によるマルチターン対話読解と知識

Multi-turn Dialogue Reading Comprehension with Pivot Turns and Knowledge ( http://arxiv.org/abs/2102.05474v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Junlong Li, Hai Zhao(参考訳) マルチターン対話読解は、機械に対話コンテキストを読み、応答選択や回答質問といったタスクを解くことを目的としている。 主な課題は、騒々しい歴史の文脈と特定の資料に見えない常識知識の特別な前提条件を含みます。 既存の作業は主にコンテキストとレスポンスマッチングのアプローチに重点を置いている。 本研究は,この2つの課題に初めて取り組む試みとして,実質的に重要なターンをピボット発話として抽出し,外部知識を活用して文脈表現の強化を図る。 対話理解のためのトランスフォーマー言語モデルの上に,ピボット指向のディープセレクションモデル(PoDS)を提案する。 詳細に、私たちのモデルはまず、候補者の応答や質問と一致するセマンティクスに応じて、会話履歴からピボット発話を選びます。 また、対話コンテキストに関連する知識項目を、外部知識として知識グラフから抽出する。 そして、ピボット発話と外部知識を、予測を精査するためのよく設計されたメカニズムと組み合わせる。 4つの対話理解ベンチマークタスクの実験結果から,提案モデルがベースラインの大幅な改善を達成できることが示された。 一連の経験的比較を行い、私たちの選択戦略と知識注入が結果にどのように影響するかを示した。

Multi-turn dialogue reading comprehension aims to teach machines to read dialogue contexts and solve tasks such as response selection and answering questions. The major challenges involve noisy history contexts and especial prerequisites of commonsense knowledge that is unseen in the given material. Existing works mainly focus on context and response matching approaches. This work thus makes the first attempt to tackle the above two challenges by extracting substantially important turns as pivot utterances and utilizing external knowledge to enhance the representation of context. We propose a pivot-oriented deep selection model (PoDS) on top of the Transformer-based language models for dialogue comprehension. In detail, our model first picks out the pivot utterances from the conversation history according to the semantic matching with the candidate response or question, if any. Besides, knowledge items related to the dialogue context are extracted from a knowledge graph as external knowledge. Then, the pivot utterances and the external knowledge are combined with a well-designed mechanism for refining predictions. Experimental results on four dialogue comprehension benchmark tasks show that our proposed model achieves great improvements on baselines. A series of empirical comparisons are conducted to show how our selection strategies and the extra knowledge injection influence the results.
翻訳日:2021-02-11 14:51:00 公開日:2021-02-10
# Doctor Imitator:手書きラジオグラフを用いたグラフベースの骨年齢評価フレームワーク

Doctor Imitator: A Graph-based Bone Age Assessment Framework Using Hand Radiographs ( http://arxiv.org/abs/2102.05424v1 )

ライセンス: Link先を確認
Jintai Chen, Bohan Yu, Biwen Lei, Ruiwei Feng, Danny Z. Chen, Jian Wu(参考訳) 骨年齢評価は, 複雑な骨年齢評価プロセスにより, 臨床実践において困難である。 現在の骨年齢自動評価法は診断ロジスティクスの稀な考慮のもとに設計されており、特定の解釈不能な隠れた状態と出力をもたらす可能性がある。 したがって、モデル予測の正確性を確認することが困難であるため、このようなモデルとの調和が困難である。 本研究では,手指のX線写真を用いた骨年齢評価のための新しいグラフベース深層学習フレームワーク,Doctor Imitator (DI)を提案する。 DIのアーキテクチャは、骨年齢評価のためにスコアリング法(例えばTanner-Whitehouse法)を使用して医師の診断ロジスティクスを学ぶように設計されている。 特に,diの畳み込みは手指x線写真上の解剖学的興味領域(rois)の局所的特徴を捉え,骨年齢予測のために要約した解剖学的グループ畳み込みによってroiスコアを予測した。 さらに、ROI機能に対する患者固有の注意とROIスコアに対するコンテキストの注意を計算するために、新しいデュアルグラフベースの注意モジュールを開発しました。 我々の知る限り、DIは完全教師付き手X線写真のないスコアリング法に続く最初の自動骨年齢評価フレームワークである。 骨年齢のみのx線写真による実験は、diがスパースパラメータで優れた性能を達成でき、より解釈性を提供できることを検証している。

Bone age assessment is challenging in clinical practice due to the complicated bone age assessment process. Current automatic bone age assessment methods were designed with rare consideration of the diagnostic logistics and thus may yield certain uninterpretable hidden states and outputs. Consequently, doctors can find it hard to cooperate with such models harmoniously because it is difficult to check the correctness of the model predictions. In this work, we propose a new graph-based deep learning framework for bone age assessment with hand radiographs, called Doctor Imitator (DI). The architecture of DI is designed to learn the diagnostic logistics of doctors using the scoring methods (e.g., the Tanner-Whitehouse method) for bone age assessment. Specifically, the convolutions of DI capture the local features of the anatomical regions of interest (ROIs) on hand radiographs and predict the ROI scores by our proposed Anatomy-based Group Convolution, summing up for bone age prediction. Besides, we develop a novel Dual Graph-based Attention module to compute patient-specific attention for ROI features and context attention for ROI scores. As far as we know, DI is the first automatic bone age assessment framework following the scoring methods without fully supervised hand radiographs. Experiments on hand radiographs with only bone age supervision verify that DI can achieve excellent performance with sparse parameters and provide more interpretability.
翻訳日:2021-02-11 14:50:43 公開日:2021-02-10
# 顔認識におけるアライメントの探索

Searching for Alignment in Face Recognition ( http://arxiv.org/abs/2102.05447v1 )

ライセンス: Link先を確認
Xiaqing Xu, Qiang Meng, Yunxiao Qin, Jianzhu Guo, Chenxu Zhao, Feng Zhou, and Zhen Lei(参考訳) 現在の顔認識フレームワークの標準的なパイプラインは、4つの個別のステップで構成される: 粗い境界ボックスといくつかの仮想ランドマークによる顔の特定、事前定義されたテンプレートによる顔画像の調整、表現の抽出と比較。 その中でも,顔検出,ランドマーク検出,表現学習が長年研究されてきたが,多くの研究が提案されている。 認識性能に大きな影響を与える重要なステップとして、アライメントステップはほとんど注目されていない。 本稿では,まず,異なるアライメントテンプレートが顔認識に与える影響を探索し,強調する。 そして、初めて、最適なテンプレートを自動的に検索しようとします。 テンプレート検索を作物サイズと垂直シフトに分解し、よく定義された検索空間を構築し、効率的なフェイスアライメントポリシー検索(FAPS)を提案します。 さらに,探索されたポリシーを評価するために,よく設計されたベンチマークが提案されている。 提案したベンチマーク実験は,顔認識性能向上のための手法の有効性を検証した。

A standard pipeline of current face recognition frameworks consists of four individual steps: locating a face with a rough bounding box and several fiducial landmarks, aligning the face image using a pre-defined template, extracting representations and comparing. Among them, face detection, landmark detection and representation learning have long been studied and a lot of works have been proposed. As an essential step with a significant impact on recognition performance, the alignment step has attracted little attention. In this paper, we first explore and highlight the effects of different alignment templates on face recognition. Then, for the first time, we try to search for the optimal template automatically. We construct a well-defined searching space by decomposing the template searching into the crop size and vertical shift, and propose an efficient method Face Alignment Policy Search (FAPS). Besides, a well-designed benchmark is proposed to evaluate the searched policy. Experiments on our proposed benchmark validate the effectiveness of our method to improve face recognition performance.
翻訳日:2021-02-11 14:50:17 公開日:2021-02-10
# AutoFocusを用いた物体検出のためのスケール正規化画像ピラミッド

Scale Normalized Image Pyramids with AutoFocus for Object Detection ( http://arxiv.org/abs/2102.05646v1 )

ライセンス: Link先を確認
Bharat Singh, Mahyar Najibi, Abhishek Sharma and Larry S. Davis(参考訳) オブジェクト検出を行うための効率的な葉っぱフレームワークを提案する。 スケール正規化画像ピラミッド(SNIP)は、人間のビジョンと同様に、異なるスケールで固定サイズの範囲内のオブジェクトにのみ出席する生成されます。 このようなトレーニング中のオブジェクトのサイズ制限により、オブジェクトに敏感なフィルタの学習が向上し、結果として精度が向上する。 しかし、画像ピラミッドの使用は計算コストを増加させます。 そこで本稿では,オブジェクトを含む可能性のある固定サイズの部分領域のみで動作する効率的な空間サブサンプリング方式を提案する。 その結果、効率的な再サンプリングまたはSNIPERを備えたスケール正規化画像ピラミッドと呼ばれるアプローチは、トレーニング中に最大3倍のスピードアップをもたらします。 残念ながら、推論中にオブジェクトの位置が不明であるため、画像ピラミッド全体はまだ処理が必要です。 この目的のために、我々は粗大なアプローチを採用し、画像ピラミッドの連続的なスケールで処理されるオブジェクトのような領域の位置と範囲を予測する。 直感的には、私たちのアクティブなヒューマンビジョンに似ていて、まず視野を越えて、さらなる処理のために興味深い領域を見つけ出し、正しい解像度でのみオブジェクトを認識する。 結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。

We present an efficient foveal framework to perform object detection. A scale normalized image pyramid (SNIP) is generated that, like human vision, only attends to objects within a fixed size range at different scales. Such a restriction of objects' size during training affords better learning of object-sensitive filters, and therefore, results in better accuracy. However, the use of an image pyramid increases the computational cost. Hence, we propose an efficient spatial sub-sampling scheme which only operates on fixed-size sub-regions likely to contain objects (as object locations are known during training). The resulting approach, referred to as Scale Normalized Image Pyramid with Efficient Resampling or SNIPER, yields up to 3 times speed-up during training. Unfortunately, as object locations are unknown during inference, the entire image pyramid still needs processing. To this end, we adopt a coarse-to-fine approach, and predict the locations and extent of object-like regions which will be processed in successive scales of the image pyramid. Intuitively, it's akin to our active human-vision that first skims over the field-of-view to spot interesting regions for further processing and only recognizes objects at the right resolution. The resulting algorithm is referred to as AutoFocus and results in a 2.5-5 times speed-up during inference when used with SNIP.
翻訳日:2021-02-11 14:50:01 公開日:2021-02-10
# より微細で信頼性の高いNLP性能予測に向けて

Towards More Fine-grained and Reliable NLP Performance Prediction ( http://arxiv.org/abs/2102.05486v1 )

ライセンス: Link先を確認
Zihuiwen Ye, Pengfei Liu, Jinlan Fu, Graham Neubig(参考訳) 実験をせずにシステムのパフォーマンスを推定するタスクであるパフォーマンス予測は、異なるデータセット、言語、タスク、モデルの組み合わせ爆発によって引き起こされる実験負荷を減らすことができます。 本稿では,NLPタスクの性能予測の改善に2つの貢献をする。 まず,F1 や BLEU のような総合的な精度測定だけでなく,個々のクラスに対する精度などの細かな性能測定も行う。 次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。 本稿では,4種類のnlpタスクの分析を行い,両タスクとも細粒度性能予測の実現可能性と性能予測手法の信頼性解析の必要性を実証する。 コードを公開します。 \url{https://github.com/n eulab/Reliable-NLPPP }

Performance prediction, the task of estimating a system's performance without performing experiments, allows us to reduce the experimental burden caused by the combinatorial explosion of different datasets, languages, tasks, and models. In this paper, we make two contributions to improving performance prediction for NLP tasks. First, we examine performance predictors not only for holistic measures of accuracy like F1 or BLEU but also fine-grained performance measures such as accuracy over individual classes of examples. Second, we propose methods to understand the reliability of a performance prediction model from two angles: confidence intervals and calibration. We perform an analysis of four types of NLP tasks, and both demonstrate the feasibility of fine-grained performance prediction and the necessity to perform reliability analysis for performance prediction methods in the future. We make our code publicly available: \url{https://github.com/n eulab/Reliable-NLPPP }
翻訳日:2021-02-11 14:49:39 公開日:2021-02-10
# メモリ関連差分学習

Memory-Associated Differential Learning ( http://arxiv.org/abs/2102.05246v1 )

ライセンス: Link先を確認
Yi Luo, Aiguo Chen, Bei Hui, Ke Yan(参考訳) 従来の教師付き学習アプローチは、入力特徴から出力ラベルへのマッピングに焦点を当てている。 トレーニング後、学習したモデルのみをテスト機能に適応させて、テストラベルを独立した形で予測し、トレーニングデータを無駄にし、関連性を無視する。 膨大なトレーニングデータとその関連性をフル活用するために,記憶関連差分学習(MAD)と呼ばれる新しい学習パラダイムを提案する。 まず、すべてのトレーニングデータを記憶するためのメモリという追加コンポーネントを紹介します。 次に,差分方程式といくつかのサンプリング法を組み合わせることで,ラベルの違いや特徴の関連性について学習する。 最後に,記憶された事実と学習した相違点および関連点を幾何学的に意味のある方法で参照することにより,未知のラベルを予測する。 我々は,この理論を無秩序な状況に優しく構築し,画像認識に適用し,それをバイナリな状況としてリンク予測に拡張し,3つの引用ネットワークとogbl-ddiデータセットにおいて,最先端のベースラインよりも優れる手法を提案する。

Conventional Supervised Learning approaches focus on the mapping from input features to output labels. After training, the learnt models alone are adapted onto testing features to predict testing labels in isolation, with training data wasted and their associations ignored. To take full advantage of the vast number of training data and their associations, we propose a novel learning paradigm called Memory-Associated Differential (MAD) Learning. We first introduce an additional component called Memory to memorize all the training data. Then we learn the differences of labels as well as the associations of features in the combination of a differential equation and some sampling methods. Finally, in the evaluating phase, we predict unknown labels by inferencing from the memorized facts plus the learnt differences and associations in a geometrically meaningful manner. We gently build this theory in unary situations and apply it on Image Recognition, then extend it into Link Prediction as a binary situation, in which our method outperforms strong state-of-the-art baselines on three citation networks and ogbl-ddi dataset.
翻訳日:2021-02-11 14:48:43 公開日:2021-02-10
# 単純エージェント・複雑環境:エージェント状態を用いた効率的な強化学習

Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent State ( http://arxiv.org/abs/2102.05261v1 )

ライセンス: Link先を確認
Shi Dong, Benjamin Van Roy, Zhengyuan Zhou(参考訳) 我々は,エージェント状態ダイナミクスと報酬関数のみの仕様により,任意の環境においてある程度の能力で動作可能な簡易強化学習エージェントを設計した。 エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。 時間差や探索を促進する楽観的なブーストに応じて、値関数はインクリメンタルに更新されます。 エージェントは、この値関数に関して欲張りなアクションを実行します。 エージェント状態とアクションの数において、最適に近い状態を達成するのに要する時間は多項式であり、また、エージェント状態を通してのみ履歴に依存するものからなる参照ポリシークラス内の最良のポリシーの報酬混合時間である。 特に、他の政策や歴史統計に関連付けられた環境状態の数や混合時間に、これ以上依存することはない。 その結果、高次元の相互作用履歴からコンパクトで関連性の高い特徴を抽出する能力を示した(深層)表現学習の潜在的な利点が明らかになった。

We design a simple reinforcement learning agent that, with a specification only of agent state dynamics and a reward function, can operate with some degree of competence in any environment. The agent maintains only visitation counts and value estimates for each agent-state-action pair. The value function is updated incrementally in response to temporal differences and optimistic boosts that encourage exploration. The agent executes actions that are greedy with respect to this value function. We establish a regret bound demonstrating convergence to near-optimal per-period performance, where the time taken to achieve near-optimality is polynomial in the number of agent states and actions, as well as the reward mixing time of the best policy within the reference policy class, which is comprised of those that depend on history only through agent state. Notably, there is no further dependence on the number of environment states or mixing times associated with other policies or statistics of history. Our result sheds light on the potential benefits of (deep) representation learning, which has demonstrated the capability to extract compact and relevant features from high-dimensional interaction histories.
翻訳日:2021-02-11 14:48:26 公開日:2021-02-10
# マルチアーマッドバンドを用いたプレイヤーモデリング

Player Modeling via Multi-Armed Bandits ( http://arxiv.org/abs/2102.05264v1 )

ライセンス: Link先を確認
Robert C. Gray, Jichen Zhu, Dannielle Arigo, Evan Forman and Santiago Onta\~n\'on(参考訳) 本稿では,アダプティブゲームにおけるプレイヤー行動のみからパーソナライズされたプレイヤーモデルを構築することに焦点を当てる。 1つ目は、マルチアームバンド(mabs)に基づくプレイヤーモデリングに対する新しいアプローチです。 このアプローチは,現在のプレーヤの関心特性をモデル化するためにデータ収集の問題と,このモデルに基づいてインタラクティブなエクスペリエンスを適用する問題の両方を同時にかつ原則的に解決する。 第2に,ユーザ調査でデータを生成する前に,これらのアルゴリズムを評価し,微調整する手法を提案する。 ユーザ研究は費用がかかり、労働集約的なプロセスであるため、事前にアルゴリズムを評価する能力は大量のリソースを節約できるため、これは重要な問題である。 我々は,プレイヤーの社会的比較傾向(SCO)をモデル化し,シミュレーションと実プレイヤーの両方から経験的な結果を示す。

This paper focuses on building personalized player models solely from player behavior in the context of adaptive games. We present two main contributions: The first is a novel approach to player modeling based on multi-armed bandits (MABs). This approach addresses, at the same time and in a principled way, both the problem of collecting data to model the characteristics of interest for the current player and the problem of adapting the interactive experience based on this model. Second, we present an approach to evaluating and fine-tuning these algorithms prior to generating data in a user study. This is an important problem, because conducting user studies is an expensive and labor-intensive process; therefore, an ability to evaluate the algorithms beforehand can save a significant amount of resources. We evaluate our approach in the context of modeling players' social comparison orientation (SCO) and present empirical results from both simulations and real players.
翻訳日:2021-02-11 14:48:06 公開日:2021-02-10
# 低レグレト率の確率的最短経路の発見 : 逆行性コストと未知遷移例

Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case ( http://arxiv.org/abs/2102.05284v1 )

ライセンス: Link先を確認
Liyu Chen and Haipeng Luo(参考訳) 逆境コストと未知の遷移を伴う確率的最短経路問題に向けて大きな進展を遂げる。 具体的には、$\widetilde{o}(\sqrt{s^2adt_\star k})$全情報設定に対する後悔と$\widetilde{o}(\sqrt{s^3a^2dt_\star k})$$d$が直径、$t_\star$が最適ポリシーの期待到達時間、$s$が状態数、$a$がアクション数、$k$がエピソード数であるバンディットフィードバック設定を後悔するアルゴリズムを開発する。 私たちの仕事は、完全な情報設定で(Rosenberg and Mansour, 2020)厳格に改善され、既知の遷移から未知の遷移へ(Chen et al., 2020)拡張され、また、最も難しい組み合わせとして、敵のコストによる盗聴フィードバックと未知の遷移を初めて検討する。 確率的に難解な対向を通して構築された上界と現在の最下界のギャップを補うために,この特別事例に対してほぼ最適に後悔するアルゴリズムを提案する。

We make significant progress toward the stochastic shortest path problem with adversarial costs and unknown transition. Specifically, we develop algorithms that achieve $\widetilde{O}(\sqrt{S^2ADT_\star K})$ regret for the full-information setting and $\widetilde{O}(\sqrt{S^3A^2DT_\star K})$ regret for the bandit feedback setting, where $D$ is the diameter, $T_\star$ is the expected hitting time of the optimal policy, $S$ is the number of states, $A$ is the number of actions, and $K$ is the number of episodes. Our work strictly improves (Rosenberg and Mansour, 2020) in the full information setting, extends (Chen et al., 2020) from known transition to unknown transition, and is also the first to consider the most challenging combination: bandit feedback with adversarial costs and unknown transition. To remedy the gap between our upper bounds and the current best lower bounds constructed via a stochastically oblivious adversary, we also propose algorithms with near-optimal regret for this special case.
翻訳日:2021-02-11 14:47:49 公開日:2021-02-10
# CIFS:Channel-wise importance-based feature selectionによるCNNの対比ロバスト性向上

CIFS: Improving Adversarial Robustness of CNNs via Channel-wise Importance-based Feature Selection ( http://arxiv.org/abs/2102.05311v1 )

ライセンス: Link先を確認
Hanshu Yan, Jingfeng Zhang, Gang Niu, Jiashi Feng, Vincent Y. F. Tan, Masashi Sugiyama(参考訳) CNNの対比ロバスト性についてチャネルワイズアクティベーションの視点から検討する。 また, 対人訓練(AT)は, 対人学習モデルと対人学習モデルを比較することにより, 対人学習(AT)がCNNを強固にし, 対人学習データのチャネルワイドなアクティベーションを自然なものと整合させることを観察する。 しかしながら、予測に対するtextit{ negatively-relevant} (NR) チャネルは、逆データを処理する際にはまだ過剰に活性化される。 さらに、ATが全てのクラスに対して同様の堅牢性をもたらすわけではないことも観察する。 ロバストなクラスでは、アクティベーションの大きさが大きいチャネルは通常、予測に対してより \textit{ positively-relevant} (pr) であるが、このアライメントはロバストでないクラスには成立しない。 これらの観測から、NRチャンネルの抑制とPRチャンネルの関連性との整合が、ATのCNNの堅牢性をさらに高めると仮定した。 この仮説を調べるために、新しいメカニズム、すなわち \underline{C}hannel-wise \underline{I}mportance-based \underline{F}eature \underline{S}election (CIFS) を導入する。 CIFSは、予測との関連性に基づいて、これらのチャネルに対する非負の乗算子を生成することによって、特定の層のチャネルの活性化を操作する。 CIFAR10やSVHNなどのベンチマークデータセットに関する広範な実験は、CNNの堅牢化の仮説とCIFSの有効性を明確に検証する。

We investigate the adversarial robustness of CNNs from the perspective of channel-wise activations. By comparing \textit{non-robust} (normally trained) and \textit{robustified} (adversarially trained) models, we observe that adversarial training (AT) robustifies CNNs by aligning the channel-wise activations of adversarial data with those of their natural counterparts. However, the channels that are \textit{negatively-relevant} (NR) to predictions are still over-activated when processing adversarial data. Besides, we also observe that AT does not result in similar robustness for all classes. For the robust classes, channels with larger activation magnitudes are usually more \textit{positively-relevant} (PR) to predictions, but this alignment does not hold for the non-robust classes. Given these observations, we hypothesize that suppressing NR channels and aligning PR ones with their relevances further enhances the robustness of CNNs under AT. To examine this hypothesis, we introduce a novel mechanism, i.e., \underline{C}hannel-wise \underline{I}mportance-based \underline{F}eature \underline{S}election (CIFS). The CIFS manipulates channels' activations of certain layers by generating non-negative multipliers to these channels based on their relevances to predictions. Extensive experiments on benchmark datasets including CIFAR10 and SVHN clearly verify the hypothesis and CIFS's effectiveness of robustifying CNNs.
翻訳日:2021-02-11 14:47:22 公開日:2021-02-10
# 分散演算子による絡み合いのトポロジ的欠陥への対処

Addressing the Topological Defects of Disentanglement via Distributed Operators ( http://arxiv.org/abs/2102.05623v1 )

ライセンス: Link先を確認
Diane Bouchacourt, Mark Ibrahim, St\'ephane Deny(参考訳) 機械学習における中核的な課題は、データの変動の自然要因を解き放つことである。 オブジェクト形状 vs. ポーズ)。 乱れに対する一般的なアプローチは、それぞれの因子をモデルの潜在表現の異なる部分空間にマッピングする学習である。 しかし、このアプローチは経験的な成功をこれまで限定的に示してきた。 ここでは、画像に作用する幅広い変換群において、回転や翻訳などの単純なアフィン変換を包含する、この非絡み合いへのアプローチが位相的欠陥をもたらすことを示します(すなわち)。 エンコーダ内の不連続)。 群表現理論の古典的結果に動機づけられて、分散潜在作用素に依存し、潜在的に潜在空間全体に作用する非絡み合いに対するオルタナティブでより柔軟なアプローチを検討する。 我々は,このアプローチがアフィン変換を不等角化させる効果を理論的に実証的に示す。 我々の研究は、分散演算子を用いた新しい世代のモデルの成功の理論的基礎を築き上げている。

A core challenge in Machine Learning is to learn to disentangle natural factors of variation in data (e.g. object shape vs. pose). A popular approach to disentanglement consists in learning to map each of these factors to distinct subspaces of a model's latent representation. However, this approach has shown limited empirical success to date. Here, we show that, for a broad family of transformations acting on images--encompassing simple affine transformations such as rotations and translations--this approach to disentanglement introduces topological defects (i.e. discontinuities in the encoder). Motivated by classical results from group representation theory, we study an alternative, more flexible approach to disentanglement which relies on distributed latent operators, potentially acting on the entire latent space. We theoretically and empirically demonstrate the effectiveness of this approach to disentangle affine transformations. Our work lays a theoretical foundation for the recent success of a new generation of models using distributed operators for disentanglement.
翻訳日:2021-02-11 14:46:44 公開日:2021-02-10
# ポリークラッパート平均ゼロ階確率勾配アルゴリズムの統計的推測

Statistical Inference for Polyak-Ruppert Averaged Zeroth-order Stochastic Gradient Algorithm ( http://arxiv.org/abs/2102.05198v1 )

ライセンス: Link先を確認
Yanhao Jin, Tesi Xiao, Krishnakumar Balasubramanian(参考訳) 機械学習モデルがクリティカルなアプリケーションにデプロイされるにつれて、モデルパラメータのポイント推定子(あるいはその後の予測)を提供するだけでなく、信頼セットを通じてモデルパラメータを推定する不確実性も定量化することが重要になる。 過去10年間で、いくつかの機械学習モデルにおける推定またはトレーニングは、確率勾配アルゴリズムの実行と同義語になっている。 しかし、いくつかの設定での確率勾配の計算は非常に高価か、時には不可能である。 これまで統計的機械学習文献で十分に対処されていない重要な質問は、ゼロ次確率勾配アルゴリズムを実用的だが厳格な推論能力を装備することである。 そこで本研究では、まず、ゼロ階設定におけるPolyak-Ruppert平均確率勾配アルゴリズムの中央極限定理を確立する。 次に、中心極限定理に現れる漸近共分散行列のオンライン推定を行い、ゼロ階の設定においてパラメータ推定(または予測)のための漸近的に有効な信頼集合(または区間)を構築するための実践的な手順を提供する。

As machine learning models are deployed in critical applications, it becomes important to not just provide point estimators of the model parameters (or subsequent predictions), but also quantify the uncertainty associated with estimating the model parameters via confidence sets. In the last decade, estimating or training in several machine learning models has become synonymous with running stochastic gradient algorithms. However, computing the stochastic gradients in several settings is highly expensive or even impossible at times. An important question which has thus far not been addressed sufficiently in the statistical machine learning literature is that of equipping zeroth-order stochastic gradient algorithms with practical yet rigorous inferential capabilities. Towards this, in this work, we first establish a central limit theorem for Polyak-Ruppert averaged stochastic gradient algorithm in the zeroth-order setting. We then provide online estimators of the asymptotic covariance matrix appearing in the central limit theorem, thereby providing a practical procedure for constructing asymptotically valid confidence sets (or intervals) for parameter estimation (or prediction) in the zeroth-order setting.
翻訳日:2021-02-11 14:45:57 公開日:2021-02-10
# パターン、予測、行動: 機械学習に関する物語

Patterns, predictions, and actions: A story about machine learning ( http://arxiv.org/abs/2102.05242v1 )

ライセンス: Link先を確認
Moritz Hardt and Benjamin Recht(参考訳) この機械学習に関する大学院教科書は、データのパターンが予測と連続的なアクションをどのようにサポートするかを物語っている。 意思決定の基礎から始まり、教師付き学習の構成要素として表現、最適化、一般化を扱います。 ベンチマークとしてのデータセットの章は、彼らの歴史と科学的基盤を調べます。 因果関係への自己完結型導入、因果推論の実践、逐次的意思決定、強化学習は、読者に行動とその影響を判断するための概念とツールを提供する。 この文章は歴史的文脈と社会的な影響について論じている。 我々はすべての背景から読者を招き、確率、微積分、線形代数の経験を積んだ。

This graduate textbook on machine learning tells a story of how patterns in data support predictions and consequential actions. Starting with the foundations of decision making, we cover representation, optimization, and generalization as the constituents of supervised learning. A chapter on datasets as benchmarks examines their histories and scientific bases. Self-contained introductions to causality, the practice of causal inference, sequential decision making, and reinforcement learning equip the reader with concepts and tools to reason about actions and their consequences. Throughout, the text discusses historical context and societal impact. We invite readers from all backgrounds; some experience with probability, calculus, and linear algebra suffices.
翻訳日:2021-02-11 14:45:38 公開日:2021-02-10
# 多変量時系列のインダクティブ・グランガー因果モデリング

Inductive Granger Causal Modeling for Multivariate Time Series ( http://arxiv.org/abs/2102.05298v1 )

ライセンス: Link先を確認
Yunfei Chu, Xiaowei Wang, Jianxin Ma, Kunyang Jia, Jingren Zhou, Hongxia Yang(参考訳) グランジャー因果関係モデリングは、多変量時系列データの背後にあるグランガー因果関係を明らかにすることができる新しいトピックである。 多くの実世界のシステムでは、異なる個人から収集された多変量時系列データと共通点を共有することが一般的である。 しかし、このような大規模複雑なシナリオにおけるGranger因果関係の適用性に関する懸念が進行中であり、Granger因果構造再構築の課題と機会が提示されている。 既存の手法は通常、非効率と過剰フィッティングの問題に苦しむ個人ごとに異なるモデルを訓練する。 このギャップを埋めるために,インダクティブ・グランジャー因果関係学習のためのインダクティブ・グラガーcAusalモデリング(InGRA)フレームワークを提案し,多変量時間系列上で共通因果構造を検出する。 特に,Granger因果構造が異なる個人に対して,プロトタイプGranger因果構造と呼ばれる新しい注意機構を用いて,グローバルモデル1つを訓練する。 このモデルは、異なる個体の共通因果構造を検出し、新しく到着した個体のグランガー因果構造を推定することができる。 広範な実験、および電子商業広告プラットフォーム上のオンラインA/Bテストは、InGRAの優れたパフォーマンスを示しています。

Granger causal modeling is an emerging topic that can uncover Granger causal relationship behind multivariate time series data. In many real-world systems, it is common to encounter a large amount of multivariate time series data collected from different individuals with sharing commonalities. However, there are ongoing concerns regarding Granger causality's applicability in such large scale complex scenarios, presenting both challenges and opportunities for Granger causal structure reconstruction. Existing methods usually train a distinct model for each individual, suffering from inefficiency and over-fitting issues. To bridge this gap, we propose an Inductive GRanger cAusal modeling (InGRA) framework for inductive Granger causality learning and common causal structure detection on multivariate time series, which exploits the shared commonalities underlying the different individuals. In particular, we train one global model for individuals with different Granger causal structures through a novel attention mechanism, called prototypical Granger causal attention. The model can detect common causal structures for different individuals and infer Granger causal structures for newly arrived individuals. Extensive experiments, as well as an online A/B test on an E-commercial advertising platform, demonstrate the superior performances of InGRA.
翻訳日:2021-02-11 14:45:27 公開日:2021-02-10
# Massart および Tsybakov ノイズを用いた効率的なアクティブ学習半空間のアルゴリズムの改善

Improved Algorithms for Efficient Active Learning Halfspaces with Massart and Tsybakov noise ( http://arxiv.org/abs/2102.05312v1 )

ライセンス: Link先を確認
Chicheng Zhang and Yinan Li(参考訳) 我々は,マッサートノイズ~\citep{massart2006risk} と tsybakov noise~\citep{tsybakov2004optimal} を許容する,次元一様半空間に対する計算効率の高いpac能動学習アルゴリズムを開発した。 このアルゴリズムは、$\eta$-Massartノイズ設定に特化し、$\tilde{O}\left( \frac{d}{(1-2\eta)^2} \mathrm{polylog}(\frac1\epsilon) \right)$の幅広いラベルなしデータ分布(特に、~\citet{diakonikolas2020poly nomial}で定義された「構造分布」のファミリー)の情報理論的最適ラベル複雑性を実現します。 より難解なツィバコフ雑音条件下では,提案アルゴリズムが計算効率を達成し,パッシブ学習アルゴリズムよりもラベルの複雑さを保証する2つのノイズ条件のサブファミリを同定する。

We develop a computationally-effi cient PAC active learning algorithm for $d$-dimensional homogeneous halfspaces that can tolerate Massart noise~\citep{massart2006risk} and Tsybakov noise~\citep{tsybakov2004optimal}. Specialized to the $\eta$-Massart noise setting, our algorithm achieves an information-theoreti c optimal label complexity of $\tilde{O}\left( \frac{d}{(1-2\eta)^2} \mathrm{polylog}(\frac1\epsilon) \right)$ under a wide range of unlabeled data distributions (specifically, the family of "structured distributions" defined in~\citet{diakonikolas2020poly nomial}). Under the more challenging Tsybakov noise condition, we identify two subfamilies of noise conditions, under which our algorithm achieves computational efficiency and provide label complexity guarantees strictly lower than passive learning algorithms.
翻訳日:2021-02-11 14:45:05 公開日:2021-02-10
# インスタンスレベルのノイズラベルの理解の重要性

The importance of understanding instance-level noisy labels ( http://arxiv.org/abs/2102.05336v1 )

ライセンス: Link先を確認
Yang Liu(参考訳) 本稿では,過度パラメータ化モデルの効果に対する理解を提供することを目的とする。 インスタンス依存のノイズラベルを記憶するディープニューラルネットワーク。 まず,試料分布の異なるスペクトルからノイズインスタンスを記憶することによる害を定量化する。 次に、騒々しいラベルで学習するためのいくつかの一般的なソリューションがインスタンスレベルでこの害を軽減する方法を分析します。 我々の分析では、これらのアプローチがいつ機能するかの新しい理解を明らかにし、以前に報告された経験的観察に対する理論的正当化を提供する。 分析の重要な側面は、各トレーニングインスタンスに焦点を当てることです。

This paper aims to provide understandings for the effect of an over-parameterized model, e.g. a deep neural network, memorizing instance-dependent noisy labels. We first quantify the harms caused by memorizing noisy instances from different spectra of the sample distribution. We then analyze how several popular solutions for learning with noisy labels mitigate this harm at the instance-level. Our analysis reveals new understandings for when these approaches work, and provides theoretical justifications for previously reported empirical observations. A key aspect of the analysis is its focus on each training instance.
翻訳日:2021-02-11 14:44:38 公開日:2021-02-10
# ミニバッチノイズ:離散時間SGD,過パラメトリゼーション,ベイズ

On Minibatch Noise: Discrete-Time SGD, Overparametrization, and Bayes ( http://arxiv.org/abs/2102.05375v1 )

ライセンス: Link先を確認
Liu Ziyin, Kangqiao Liu, Takashi Mori, Masahito Ueda(参考訳) 確率勾配降下(SGD)のノイズは, トレーニング効率と一般化能力の両立が極めて重要であるにもかかわらず, ほとんど理解されていない。 本研究では,SGDにおけるミニバッチノイズについて検討する。 ミニバッチサンプリングが必ずしも変動を引き起こすとは限らないという観測に感銘を受けて,ミニバッチノイズを発生させる条件を見出した。 まず,SGDノイズを理解するためによく用いられる近似と比較し,様々な条件下で線形回帰を解析的に解ける結果を得る。 SGDがノイズを「原因」にするために、モデルとデータの複雑さの間にある程度のミスマッチが必要であり、そのようなミスマッチは、入力、正規化の使用、または低パラメータ化におけるラベル内の静的ノイズの存在による可能性があることを示しています。 以上の結果から,より正確な定式化によるミニバッチ雑音の表現が可能となった。

The noise in stochastic gradient descent (SGD), caused by minibatch sampling, remains poorly understood despite its enormous practical importance in offering good training efficiency and generalization ability. In this work, we study the minibatch noise in SGD. Motivated by the observation that minibatch sampling does not always cause a fluctuation, we set out to find the conditions that cause minibatch noise to emerge. We first derive the analytically solvable results for linear regression under various settings, which are compared to the commonly used approximations that are used to understand SGD noise. We show that some degree of mismatch between model and data complexity is needed in order for SGD to "cause" a noise, and that such mismatch may be due to the existence of static noise in the labels, in the input, the use of regularization, or underparametrization . Our results motivate a more accurate general formulation to describe minibatch noise.
翻訳日:2021-02-11 14:44:31 公開日:2021-02-10
# 高次元トンプソンサンプリングの準最適性について

On the Suboptimality of Thompson Sampling in High Dimensions ( http://arxiv.org/abs/2102.05502v1 )

ライセンス: Link先を確認
Raymond Zhang and Richard Combes(参考訳) 本稿では,Thompson Sampling for combinatorial semi-banditsについて考察する。 我々は、おそらく驚くべきことに、トンプソンサンプリングは、その後悔が周囲の次元において指数関数的にスケールし、ミニマックスの後悔がほぼ線形にスケールするという意味で、この問題に対して最適であることを示した。 この現象は、非線形と線形の報酬関数を含む様々な仮定の下で起こる。 また、Thompson Samplingに一定の量の強制探査を含めることは問題を軽減するものではないことも示しています。 我々は理論結果を数値的な結果で補完し、実際にトンプソンサンプリングは高次元において非常に低性能であることを示す。

In this paper we consider Thompson Sampling for combinatorial semi-bandits. We demonstrate that, perhaps surprisingly, Thompson Sampling is sub-optimal for this problem in the sense that its regret scales exponentially in the ambient dimension, and its minimax regret scales almost linearly. This phenomenon occurs under a wide variety of assumptions including both non-linear and linear reward functions. We also show that including a fixed amount of forced exploration to Thompson Sampling does not alleviate the problem. We complement our theoretical results with numerical results and show that in practice Thompson Sampling indeed can perform very poorly in high dimensions.
翻訳日:2021-02-11 14:44:15 公開日:2021-02-10
# ガウス過程変分オートエンコーダの歪みについて

On Disentanglement in Gaussian Process Variational Autoencoders ( http://arxiv.org/abs/2102.05507v1 )

ライセンス: Link先を確認
Simon Bing, Vincent Fortuin, Gunnar R\"atsch(参考訳) 複雑な多変量時系列は、コンピュータビジョンからロボット工学や医学まで、多くの分野に現れる。 私たちはしばしば、観察している高次元データを生み出す独立した要因に興味を持っています。 このような不連続表現を学ぶために多くのモデルが導入されたが、シーケンシャルデータの構造を明示的に活用しようとする試みはごくわずかである。 時系列データ上の異なるタスクで成功している最近導入されたモデルのクラスであるガウス過程変分オートエンコーダの非絡み合い特性を検討する。 本モデルでは,各潜伏チャネルをGP前にモデル化し,時間内依存関係をキャプチャ可能な構造的変動分布を用いて,データの時間構造を利用する。 ベンチマークタスクにおける最先端の教師なしおよび弱教師付きアンタングル化手法に対する我々のアプローチの競争力を実証する。 さらに,実世界の医療時系列データから有意義な異種表現を学習できることを示す。

Complex multivariate time series arise in many fields, ranging from computer vision to robotics or medicine. Often we are interested in the independent underlying factors that give rise to the high-dimensional data we are observing. While many models have been introduced to learn such disentangled representations, only few attempt to explicitly exploit the structure of sequential data. We investigate the disentanglement properties of Gaussian process variational autoencoders, a class of models recently introduced that have been successful in different tasks on time series data. Our model exploits the temporal structure of the data by modeling each latent channel with a GP prior and employing a structured variational distribution that can capture dependencies in time. We demonstrate the competitiveness of our approach against state-of-the-art unsupervised and weakly-supervised disentanglement methods on a benchmark task. Moreover, we provide evidence that we can learn meaningful disentangled representations on real-world medical time series data.
翻訳日:2021-02-11 14:44:03 公開日:2021-02-10
# 生成モデル学習のための最適輸送勾配の存在について

On the Existence of Optimal Transport Gradient for Learning Generative Models ( http://arxiv.org/abs/2102.05542v1 )

ライセンス: Link先を確認
Antoine Houdard and Arthur Leclaire and Nicolas Papadakis and Julien Rabin(参考訳) Wasserstein Generative Adversarial Networks (WGAN) では, 生成モデル学習のための最適輸送コストの利用が普及している。 WGANの訓練は理論的な背景に依存します:生成モデルパラメータに関する最適な輸送コストの勾配の計算。 まず,そのような勾配が定義できないことを証明し,勾配に基づく最適化の際の数値不安定性を生ずる。 エントロピック正規化輸送の場合、有効な微分定理を述べ、存在が保証される条件を指定することでこの問題に対処する。 経験的データの離散的性質を利用して、半離散設定で勾配を定式化し、生成モデルパラメータの最適化のためのアルゴリズムを提案する。 最後に,提案フレームワークの利点を数値的に説明する。

The use of optimal transport cost for learning generative models has become popular with Wasserstein Generative Adversarial Networks (WGAN). Training of WGAN relies on a theoretical background: the calculation of the gradient of the optimal transport cost with respect to the generative model parameters. We first demonstrate that such gradient may not be defined, which can result in numerical instabilities during gradient-based optimization. We address this issue by stating a valid differentiation theorem in the case of entropic regularized transport and specify conditions under which existence is ensured. By exploiting the discrete nature of empirical data, we formulate the gradient in a semi-discrete setting and propose an algorithm for the optimization of the generative model parameters. Finally, we illustrate numerically the advantage of the proposed framework.
翻訳日:2021-02-11 14:43:46 公開日:2021-02-10
# 注意の規則性について

On the Regularity of Attention ( http://arxiv.org/abs/2102.05628v1 )

ライセンス: Link先を確認
James Vuckovic, Aristide Baratin, Remi Tachet des Combes(参考訳) 注意は、様々な領域にわたる現代のニューラルネットワークの強力なコンポーネントである。 本稿では,正則性(すなわち正則性)を定量化する。 注意操作の滑らかさの量)。 この目的を達成するために,測度理論と積分演算子を用いて注意をモデル化する新しい数学的枠組みを提案する。 このフレームワークは通常の定義と一致しており、注意の本質的な特性を捉えていることを示す。 次に、この枠組みを用いて、コンパクトな領域において注意操作がリプシッツ連続であることを証明し、そのリプシッツ定数を推定する。 さらに、特定の種類の注意に焦点を当てることで、これらのリプシッツ連続性結果を非コンパクト領域に拡張する。 また、NLPモデルに対する正則性の影響や、可逆・無限深度ネットワークへの応用についても論じる。

Attention is a powerful component of modern neural networks across a wide variety of domains. In this paper, we seek to quantify the regularity (i.e. the amount of smoothness) of the attention operation. To accomplish this goal, we propose a new mathematical framework that uses measure theory and integral operators to model attention. We show that this framework is consistent with the usual definition, and that it captures the essential properties of attention. Then we use this framework to prove that, on compact domains, the attention operation is Lipschitz continuous and provide an estimate of its Lipschitz constant. Additionally, by focusing on a specific type of attention, we extend these Lipschitz continuity results to non-compact domains. We also discuss the effects regularity can have on NLP models, and applications to invertible and infinitely-deep networks.
翻訳日:2021-02-11 14:43:35 公開日:2021-02-10
# FLOP: 部分ネットワークを用いた医療データセットのフェデレーション学習

FLOP: Federated Learning on Medical Datasets using Partial Networks ( http://arxiv.org/abs/2102.05218v1 )

ライセンス: Link先を確認
Qian Yang, Jianyi Zhang, Weituo Hao, Gregory Spell, Lawrence Carin(参考訳) 新型コロナウイルスによる新型コロナウイルスの流行により、医療資源が不足している。 診断プロセスを支援し、加速するために、ディープラーニングモデルによる新型コロナウイルスの自動診断が世界中で研究されている。 新型コロナウイルスの診断を軽減するために、さまざまなデータ駆動のディープラーニングモデルが開発されているが、患者のプライバシーに関する懸念のため、データ自体はまだ乏しい。 フェデレーションラーニング(FL)は、異なる組織が生データを共有せずに効果的なディープラーニングモデルを協力的に学ぶことができるため、自然なソリューションです。 しかし、最近の研究では、FLはまだプライバシー保護を欠いており、データ漏洩を引き起こす可能性があります。 この課題を,サーバとクライアント間の部分モデルのみを共有する \textbf{p}artial networks (flop) を用いた,単純かつ効果的なアルゴリズムである \textbf{f}ederated \textbf{l}earning \textbf{o}n medical datasetを提案することで検討する。 ベンチマークデータと現実世界の医療タスクに関する広範な実験から,プライバシとセキュリティのリスクを低減しつつ,同等あるいは優れたパフォーマンスを実現しています。 特に、COVID-19データセットで実験を行い、我々のFLOPアルゴリズムによって、地元の患者のデータを共有せずに、異なる病院が協力的かつ効果的に、部分的に共有されたモデルをトレーニングできることに気付きました。

The outbreak of COVID-19 Disease due to the novel coronavirus has caused a shortage of medical resources. To aid and accelerate the diagnosis process, automatic diagnosis of COVID-19 via deep learning models has recently been explored by researchers across the world. While different data-driven deep learning models have been developed to mitigate the diagnosis of COVID-19, the data itself is still scarce due to patient privacy concerns. Federated Learning (FL) is a natural solution because it allows different organizations to cooperatively learn an effective deep learning model without sharing raw data. However, recent studies show that FL still lacks privacy protection and may cause data leakage. We investigate this challenging problem by proposing a simple yet effective algorithm, named \textbf{F}ederated \textbf{L}earning \textbf{o}n Medical Datasets using \textbf{P}artial Networks (FLOP), that shares only a partial model between the server and clients. Extensive experiments on benchmark data and real-world healthcare tasks show that our approach achieves comparable or better performance while reducing the privacy and security risks. Of particular interest, we conduct experiments on the COVID-19 dataset and find that our FLOP algorithm can allow different hospitals to collaboratively and effectively train a partially shared model without sharing local patients' data.
翻訳日:2021-02-11 14:43:02 公開日:2021-02-10
# Driver2vec: 自動車データからのドライバ識別

Driver2vec: Driver Identification from Automotive Data ( http://arxiv.org/abs/2102.05234v1 )

ライセンス: Link先を確認
Jingbo Yang, Ruge Zhao, Meixian Zhu, David Hallac, Jaka Sodnik, Jure Leskovec(参考訳) プライバシー保護に重点を置くことで、バイオメトリック識別子を使わずに車両オペレーターを識別する代替方法が自動車データ分析の牽引力を得ています。 現代の車両に搭載された様々なセンサーは、自動運転を可能にし、事故を減らし、車両ハンドリングを改善する。 一方、これらのセンサーが収集するデータはドライバーの習慣を反映しています。 ドライバーのターンインジケータの使用、追従距離、加速率など。 彼らの行動やアイデンティティを表す 埋め込みに変換できるのです 本稿では,運転者の行動を表す埋め込み空間に,運転データの短い区間をマッピングし,運転者の識別を支援するディープラーニングアーキテクチャ(driver2vec)を開発した。 我々は,時間的畳み込みネットワークの性能向上,三重項損失の分離パワーの埋め込み,勾配ブースティング決定木の分類精度を活用するカスタムモデルを開発した。 nervtechが提供した51人のドライバーのデータセットに基づいてトレーニングされたdriver2vecは、短い10秒間隔のセンサーデータからドライバーを正確に識別することができ、この10秒間隔から平均83.1%のペアワイズドライバー識別精度を達成している。 次に、driver2vecのパフォーマンスを分析し、そのパフォーマンスがシナリオ間で一貫性があり、モデリングの選択が適切であることを示す。

With increasing focus on privacy protection, alternative methods to identify vehicle operator without the use of biometric identifiers have gained traction for automotive data analysis. The wide variety of sensors installed on modern vehicles enable autonomous driving, reduce accidents and improve vehicle handling. On the other hand, the data these sensors collect reflect drivers' habit. Drivers' use of turn indicators, following distance, rate of acceleration, etc. can be transformed to an embedding that is representative of their behavior and identity. In this paper, we develop a deep learning architecture (Driver2vec) to map a short interval of driving data into an embedding space that represents the driver's behavior to assist in driver identification. We develop a custom model that leverages performance gains of temporal convolutional networks, embedding separation power of triplet loss and classification accuracy of gradient boosting decision trees. Trained on a dataset of 51 drivers provided by Nervtech, Driver2vec is able to accurately identify the driver from a short 10-second interval of sensor data, achieving an average pairwise driver identification accuracy of 83.1% from this 10-second interval, which is remarkably higher than performance obtained in previous studies. We then analyzed performance of Driver2vec to show that its performance is consistent across scenarios and that modeling choices are sound.
翻訳日:2021-02-11 14:42:35 公開日:2021-02-10
# 物体検出のための圧縮ニューラルネットワークのロバスト性

Robustness in Compressed Neural Networks for Object Detection ( http://arxiv.org/abs/2102.05509v1 )

ライセンス: Link先を確認
Sebastian Cygert, Andrzej Czyzewski(参考訳) モデル圧縮技術により、ディープニューラルネットワークによるデータ処理に伴う計算コストを大幅に削減でき、平均精度がわずかに低下します。 同時に、モデルサイズの削減は、あまり頻度の低いクラスに属するノイズのあるケースやオブジェクトに大きな影響を与える可能性がある。 これは、特に本研究で考慮される自動運転設定における物体検出において、モデルの安全性の観点から重要な問題である。 本論文では, 異なる歪みタイプに対する圧縮モデルの感度は微妙であり, 劣化は圧縮法(つまり付加雑音)の影響を強く受けているものの, その他の(フラール効果)はわずかに影響を受けないことを示した。 モデルの堅牢性を改善する一般的な方法は、モデルの堅牢性に積極的に影響することが確認されたデータ拡張を使用することである。 さらに、データ不均衡法はベースラインモデルの精度をわずかに向上させた(圧縮なしでは)が、その影響は構造化プルーニングにおける高い圧縮速度でより顕著であった。 最後に、データアンバランスを処理する方法により、パウンドモデルの最悪検出クラスの精度が大幅に向上しました。

Model compression techniques allow to significantly reduce the computational cost associated with data processing by deep neural networks with only a minor decrease in average accuracy. Simultaneously, reducing the model size may have a large effect on noisy cases or objects belonging to less frequent classes. It is a crucial problem from the perspective of the models' safety, especially for object detection in the autonomous driving setting, which is considered in this work. It was shown in the paper that the sensitivity of compressed models to different distortion types is nuanced, and some of the corruptions are heavily impacted by the compression methods (i.e., additive noise), while others (blur effect) are only slightly affected. A common way to improve the robustness of models is to use data augmentation, which was confirmed to positively affect models' robustness, also for highly compressed models. It was further shown that while data imbalance methods brought only a slight increase in accuracy for the baseline model (without compression), the impact was more striking at higher compression rates for the structured pruning. Finally, methods for handling data imbalance brought a significant improvement of the pruned models' worst-detected class accuracy.
翻訳日:2021-02-11 14:42:13 公開日:2021-02-10
# ディープニューラルネットワークのトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャ

Hybrid In-memory Computing Architecture for the Training of Deep Neural Networks ( http://arxiv.org/abs/2102.05271v1 )

ライセンス: Link先を確認
Vinay Joshi, Wangxin He, Jae-sun Seo and Bipin Rajendran(参考訳) von-Neumannアーキテクチャ上のディープニューラルネットワーク(DNN)のトレーニングにかかるコストは、効率的なDNNトレーニングアクセラレータのための新しいソリューションの開発を動機づけています。 ハードウェアアクセラレータ上のDNNのトレーニングのためのハイブリッドインメモリコンピューティング(HIC)アーキテクチャを提案し、メモリ効率の高い推論とベンチマークタスクのベースラインソフトウェア精度を上回ります。 我々は,二値および多値相変化メモリ(pcm)デバイスの両方を利用する重み表現技術を導入することで,メモリ効率のよい推論アクセラレータを実現する。 従来のインメモリコンピューティングベースの実装とは異なり、少ない精度の更新アキュムレータを使用してメモリ節約を実現しています。 HICを用いてCIFAR-10画像を分類するためにResNet-32ネットワークを訓練した。 匹敵するモデルサイズのために、HICベースのトレーニングは、適切なネットワーク幅乗算器を利用して、浮動小数点32ビット(FP32)精度で訓練されたベースラインネットワークを上回っます。 さらに,hccに基づくトレーニングの結果,推定モデルサイズが約50%小さくなり,ベースラインに匹敵する精度が得られた。 また,PCM装置の時間的ドリフトが,長期(年)のトレーニング後の推測精度に無視できる影響があることが示唆された。 最後に、私たちのシミュレーションは、HICベースのトレーニングが、デバイスによって見られる書き込み消去サイクルの数がPCMの持久力制限のごく一部であることを自然に保証し、この分野で学習できるハードウェアプラットフォームの実現のためのこのアーキテクチャの実現性を示しています。

The cost involved in training deep neural networks (DNNs) on von-Neumann architectures has motivated the development of novel solutions for efficient DNN training accelerators. We propose a hybrid in-memory computing (HIC) architecture for the training of DNNs on hardware accelerators that results in memory-efficient inference and outperforms baseline software accuracy in benchmark tasks. We introduce a weight representation technique that exploits both binary and multi-level phase-change memory (PCM) devices, and this leads to a memory-efficient inference accelerator. Unlike previous in-memory computing-based implementations, we use a low precision weight update accumulator that results in more memory savings. We trained the ResNet-32 network to classify CIFAR-10 images using HIC. For a comparable model size, HIC-based training outperforms baseline network, trained in floating-point 32-bit (FP32) precision, by leveraging appropriate network width multiplier. Furthermore, we observe that HIC-based training results in about 50% less inference model size to achieve baseline comparable accuracy. We also show that the temporal drift in PCM devices has a negligible effect on post-training inference accuracy for extended periods (year). Finally, our simulations indicate HIC-based training naturally ensures that the number of write-erase cycles seen by the devices is a small fraction of the endurance limit of PCM, demonstrating the feasibility of this architecture for achieving hardware platforms that can learn in the field.
翻訳日:2021-02-11 14:41:55 公開日:2021-02-10
# 方程式定理の学習

Learning Equational Theorem Proving ( http://arxiv.org/abs/2102.05547v1 )

ライセンス: Link先を確認
Jelle Piepenbrock, Tom Heskes, Mikol\'a\v{s} Janota, Josef Urban(参考訳) 3SIL(Stratified Shortest Solution Imitation Learning)を開発して、深層強化学習(RL)設定で証明する方程式定理を学習します。 自己訓練モデルは、準群理論におけるトップオープン予想の1つであるAbelian Inner Mapping (AIM) 予想によって生じる問題を証明して、最先端のパフォーマンスを達成している。 提案手法の開発には,まず,木構造証明状態とAIM問題とのスパース報酬を共有可能な2つの簡単な算術書き換えタスクを使用する。 これらのタスクでは、3SILは、いくつかの確立されたRLおよび模倣学習方法を大幅に上回ることが示されている。 最終的なシステムは、AIM問題に関するスタンドアロンおよび協調モードで評価されます。 スタンドアロンの3SIL訓練システムは、複雑な手動のウォルドマイスターシステム(65.5%)よりも60秒間(70.2%)の定理を証明している。 協調モードでは、最終システムはProver9システムと組み合わせられ、2秒でスタンドアロンのProver9が60秒で証明できることが証明される。

We develop Stratified Shortest Solution Imitation Learning (3SIL) to learn equational theorem proving in a deep reinforcement learning (RL) setting. The self-trained models achieve state-of-the-art performance in proving problems generated by one of the top open conjectures in quasigroup theory, the Abelian Inner Mapping (AIM) Conjecture. To develop the methods, we first use two simpler arithmetic rewriting tasks that share tree-structured proof states and sparse rewards with the AIM problems. On these tasks, 3SIL is shown to significantly outperform several established RL and imitation learning methods. The final system is then evaluated in a standalone and cooperative mode on the AIM problems. The standalone 3SIL-trained system proves in 60 seconds more theorems (70.2%) than the complex, hand-engineered Waldmeister system (65.5%). In the cooperative mode, the final system is combined with the Prover9 system, proving in 2 seconds what standalone Prover9 proves in 60 seconds.
翻訳日:2021-02-11 14:41:28 公開日:2021-02-10
# コンテキストマルウェア脅威インテリジェンスのための知識グラフを用いた情報予測

Information Prediction using Knowledge Graphs for Contextual Malware Threat Intelligence ( http://arxiv.org/abs/2102.05571v1 )

ライセンス: Link先を確認
Nidhi Rastogi, Sharmishtha Dutta, Ryan Christian, Mohammad Zaki, Alex Gittens, Charu Aggarwal(参考訳) マルウェア攻撃に関する大量の脅威インテリジェンス情報は、異なる、典型的には構造化されていないフォーマットで利用できます。 知識グラフは、エンティティとリレーションで表現されたrdfトリプルを使用して、この情報とそのコンテキストをキャプチャできる。 しかし、スパースまたは不正確な脅威情報は、不完全または誤ったトリプルなどの課題につながります。 名前付きエンティティ認識(NER)と知識グラフを投入するために使用される関係抽出(RE)モデルは、完全にグアランティーの正確な情報検索ができず、この問題をさらに悪化させる。 本稿では,マルウェアの脅威知能に対する最初のオープンソース自動知識グラフであるMalKGという,マルウェア知識グラフをエンドツーエンドで生成する手法を提案する。 MT40K1と呼ばれるMalKGデータセットには、27,354のユニークなエンティティと34の関係から生成された約40,000のトリプルが含まれています。 知識グラフでマルウェアの脅威情報欠落を予測するMalKGinの適用を実証します。 MT3Kと呼ばれる知識グラフは、5,741個のユニークな実体と22個の関係から3,027個のトリプルを生成する。 最先端のエンティティ予測モデル(TuckER)によるエンティティ予測では、hips@10メトリック(知識グラフの不足エンティティの上位10オプションを予測)の80.4、MRR(平均相互ランク)の0.75を達成しています。 また,1,100件のマルウェア脅威情報報告およびcom-mon vulnerabilities and exposures(cve)データベースからの文レベルで,手作業と自動でrdfトリプルへの数千のエンティティとリレーションの抽出を自動化するフレームワークを提案する。

Large amounts of threat intelligence information about mal-ware attacks are available in disparate, typically unstructured, formats. Knowledge graphs can capture this information and its context using RDF triples represented by entities and relations. Sparse or inaccurate threat information, however, leads to challenges such as incomplete or erroneous triples. Named entity recognition (NER) and relation extraction (RE) models used to populate the knowledge graph cannot fully guaran-tee accurate information retrieval, further exacerbating this problem. This paper proposes an end-to-end approach to generate a Malware Knowledge Graph called MalKG, the first open-source automated knowledge graph for malware threat intelligence. MalKG dataset called MT40K1 contains approximately 40,000 triples generated from 27,354 unique entities and 34 relations. We demonstrate the application of MalKGin predicting missing malware threat intelligence information in the knowledge graph. For ground truth, we manually curate a knowledge graph called MT3K, with 3,027 triples generated from 5,741 unique entities and 22 relations. For entity prediction via a state-of-the-art entity prediction model(TuckER), our approach achieves 80.4 for the hits@10 metric (predicts the top 10 options for missing entities in the knowledge graph), and 0.75 for the MRR (mean reciprocal rank). We also propose a framework to automate the extraction of thousands of entities and relations into RDF triples, both manually and automatically, at the sentence level from1,100 malware threat intelligence reports and from the com-mon vulnerabilities and exposures (CVE) database.
翻訳日:2021-02-11 14:41:08 公開日:2021-02-10
# 線形力学系におけるタスク最適探索

Task-Optimal Exploration in Linear Dynamical Systems ( http://arxiv.org/abs/2102.05214v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Max Simchowitz, Kevin Jamieson(参考訳) 未知の環境での探索は強化学習と制御の基本的な問題です。 本研究では,タスク誘導探索について検討し,特定のタスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。 形式的には、線形2次調整問題を含むクラスである線形力学系の設定における幅広い意思決定問題について研究する。 関心のあるタスクの完了の難しさを明示的に定量化する、インスタンスおよびタスク依存の下限を提供する。 計算効率の高い実験設計に基づく探索アルゴリズムを提案します。 最適に環境を探索し、タスクの完了に必要な情報を正確に収集し、インスタンスとタスクの最適なサンプル複雑性を達成することを保証する有限時間境界を提供する。 LQR問題のいくつかの例を通して、タスク誘導探索は、興味のあるタスクを考慮していない探索計画において、確実に改善されることを示す。 その過程で、確実性同値決定はインスタンス最適化およびタスク最適化であり、インスタンス最適化である線形二次レギュレータ問題に対する最初のアルゴリズムを得る。 実践におけるアプローチの有効性を実証するいくつかの実験で締めくくった。

Exploration in unknown environments is a fundamental problem in reinforcement learning and control. In this work, we study task-guided exploration and determine what precisely an agent must learn about their environment in order to complete a particular task. Formally, we study a broad class of decision-making problems in the setting of linear dynamical systems, a class that includes the linear quadratic regulator problem. We provide instance- and task-dependent lower bounds which explicitly quantify the difficulty of completing a task of interest. Motivated by our lower bound, we propose a computationally efficient experiment-design based exploration algorithm. We show that it optimally explores the environment, collecting precisely the information needed to complete the task, and provide finite-time bounds guaranteeing that it achieves the instance- and task-optimal sample complexity, up to constant factors. Through several examples of the LQR problem, we show that performing task-guided exploration provably improves on exploration schemes which do not take into account the task of interest. Along the way, we establish that certainty equivalence decision making is instance- and task-optimal, and obtain the first algorithm for the linear quadratic regulator problem which is instance-optimal. We conclude with several experiments illustrating the effectiveness of our approach in practice.
翻訳日:2021-02-11 14:40:25 公開日:2021-02-10
# 時系列用条件付きeuler-based generators

Conditional Versus Adversarial Euler-based Generators For Time Series ( http://arxiv.org/abs/2102.05313v1 )

ライセンス: Link先を確認
Carl Remlinger, Joseph Mikael, Romuald Elie(参考訳) 事前定常化処理を必要としないオイラー離散に基づく時系列の新たな生成モデルを紹介します。 具体的には,Warsserstein GANs (Arjovsky et al., 2017) と DVD GANs (Clark et al., 2019b) の時系列化による2つのGANベースの手法を開発した。 あるいは、誘導条件密度間の距離を最小限に抑える条件付きオイラー発生器(CEGEN)を検討する。 it\^oプロセスの文脈では、理論的にこのアプローチを検証し、低損失レベルに達するとドリフトとボラティリティ項の両方の正確な推定が得られるというバーズ計量を用いて実演する。 単純なモデルのテストでは、オイラーの離散化とWasserstein距離の使用により、提案されたGANと(よりかなり)CEGENが、時間構造メトリクスで最先端のTime Series GAN生成(Yon et al., 2019b)を上回る方法を示しています。 より高次元では、CEGENが正しい共分散構造を得るのを観察する。 最後に、転送学習技術を使用して、私たちのモデルを低データコンテキストでモンテカルロシミュレータと組み合わせる方法を説明します。

We introduce new generative models for time series based on Euler discretization that do not require any pre-stationarization procedure. Specifically, we develop two GAN based methods, relying on the adaptation of Wasserstein GANs (Arjovsky et al., 2017) and DVD GANs (Clark et al., 2019b) to time series. Alternatively, we consider a conditional Euler Generator (CEGEN) minimizing a distance between the induced conditional densities. In the context of It\^o processes, we theoretically validate this approach and demonstrate using the Bures metric that reaching a low loss level provides accurate estimations for both the drift and the volatility terms of the underlying process. Tests on simple models show how the Euler discretization and the use of Wasserstein distance allow the proposed GANs and (more considerably) CEGEN to outperform state-of-the-art Time Series GAN generation( Yoon et al., 2019b) on time structure metrics. In higher dimensions we observe that CEGEN manages to get the correct covariance structures. Finally we illustrate how our model can be combined to a Monte Carlo simulator in a low data context by using a transfer learning technique
翻訳日:2021-02-11 14:40:06 公開日:2021-02-10
# SMM(Sliding Mask Method)とLCF(Latent Clustered Forecast)による非負の時系列予測

Forecasting Nonnegative Time Series via Sliding Mask Method (SMM) and Latent Clustered Forecast (LCF) ( http://arxiv.org/abs/2102.05314v1 )

ライセンス: Link先を確認
Yohann de Castro (ICJ, CERMICS), Luca Mencarelli (CERMICS)(参考訳) 非負の時系列予測フレームワークを検討する。 NMF(Nonnegative Matrix Factorization)とArchetypal Analysisの最近の進歩に基づいて、Sliding Mask Method(SMM)とLatent Clustered Forecast(LCF)と呼ばれる2つの手順を紹介します。 SMMは非負行列の補完を用いた時間窓予測に基づく単純かつ強力な手法である。 この新しい手順は、隠れた値を予測する低非負のランク分解とマトリックス補完を組み合わせたものです。 LCFは2つの段階である:それは時系列の次元の減少そして集りにarchetypal分析を利用し、次にクラスタ化された潜在表現の黒箱の監督された予測の解決器を使用します。 NMF補完型問題の解の特異性と堅牢性に関する理論的保証も初めて提供されています。 最後に,実世界および合成データを用いた数値実験により,両手法の予測精度が確認された。

We consider nonnegative time series forecasting framework. Based on recent advances in Nonnegative Matrix Factorization (NMF) and Archetypal Analysis, we introduce two procedures referred to as Sliding Mask Method (SMM) and Latent Clustered Forecast (LCF). SMM is a simple and powerful method based on time window prediction using Completion of Nonnegative Matrices. This new procedure combines low nonnegative rank decomposition and matrix completion where the hidden values are to be forecasted. LCF is two stage: it leverages archetypal analysis for dimension reduction and clustering of time series, then it uses any black-box supervised forecast solver on the clustered latent representation. Theoretical guarantees on uniqueness and robustness of the solution of NMF Completion-type problems are also provided for the first time. Finally, numerical experiments on real-world and synthetic data-set confirms forecasting accuracy for both the methodologies.
翻訳日:2021-02-11 14:39:43 公開日:2021-02-10
# 非対称DPPに対する簡便かつ近接最適MAP推論

Simple and Near-Optimal MAP Inference for Nonsymmetric DPPs ( http://arxiv.org/abs/2102.05347v1 )

ライセンス: Link先を確認
Nima Anari and Thuy-Duong Vuong(参考訳) 行列点過程(英: determinantal point process、dpps)は、アイテムのランダム部分集合の多様性を捉えるために機械学習で用いられる確率モデルである。 従来のDPPは対称性カーネル行列によって定義されるが、最近の研究では非対称性カーネルによって定義されるモデルのモデリング能力と適用性が大幅に増加している。 非対称な正半有限行列 (NDPPs) によって定義される決定的点過程に対する最大後微分(MAP)推論の問題は、カーネル行列 $L$ の最大 $k\times k$ 主マイナーを見つけることが目的である。 対称DPPに以前に適用された手法である局所探索を用いて、この問題に対する最初の乗算近似保証を得る。 我々の近似値である $k^{o(k)}$ はほぼタイトであり、理論上、実験上、欲欲の最大化に基づくこの問題に対する最先端の手法と比較することが好ましいことを示した。 改良された近似係数を実現できる大きな新しい洞察は、各繰り返しにおいて、局所探索がソリューションの最大2つの要素を更新できるようにすることである。

Determinantal point processes (DPPs) are widely popular probabilistic models used in machine learning to capture diversity in random subsets of items. While traditional DPPs are defined by a symmetric kernel matrix, recent work has shown a significant increase in the modeling power and applicability of models defined by nonsymmetric kernels, where the model can capture interactions that go beyond diversity. We study the problem of maximum a posteriori (MAP) inference for determinantal point processes defined by a nonsymmetric positive semidefinite matrix (NDPPs), where the goal is to find the maximum $k\times k$ principal minor of the kernel matrix $L$. We obtain the first multiplicative approximation guarantee for this problem using local search, a method that has been previously applied to symmetric DPPs. Our approximation factor of $k^{O(k)}$ is nearly tight, and we show theoretically and experimentally that it compares favorably to the state-of-the-art methods for this problem that are based on greedy maximization. The main new insight enabling our improved approximation factor is that we allow local search to update up to two elements of the solution in each iteration, and we show this is necessary to have any multiplicative approximation guarantee.
翻訳日:2021-02-11 14:39:27 公開日:2021-02-10
# 木構造モデルのロバスト推定

Robust estimation of tree structured models ( http://arxiv.org/abs/2102.05472v1 )

ライセンス: Link先を確認
Marta Casanellas, Marina Garrote-L\'opez and Piotr Zwiernik(参考訳) 破損したデータから木上で非指向のグラフィカルモデルを学ぶ問題を考える。 最近、katiyarら。 ノイズの多いバイナリーデータから、可能な木の小さな等価クラスまで、木を復元できることを示しました。 ガウスのケースに関する他の論文も同様のパターンに従っている。 これを特別な系統回復問題とすることで、我々はこの2つの設定を概ね一般化する。 線形潜在木モデルの枠組みを用いて,連続的腐敗モデルの下でのバイナリデータのツリー識別可能性について議論する。 Ising と Gaussian のツリーモデルに対しては、Chow-Liu アルゴリズムがノイズデータから根本木を一貫して学習する際の特徴付けも提供する。

Consider the problem of learning undirected graphical models on trees from corrupted data. Recently Katiyar et al. showed that it is possible to recover trees from noisy binary data up to a small equivalence class of possible trees. Their other paper on the Gaussian case follows a similar pattern. By framing this as a special phylogenetic recovery problem we largely generalize these two settings. Using the framework of linear latent tree models we discuss tree identifiability for binary data under a continuous corruption model. For the Ising and the Gaussian tree model we also provide a characterisation of when the Chow-Liu algorithm consistently learns the underlying tree from the noisy data.
翻訳日:2021-02-11 14:39:04 公開日:2021-02-10
# エネルギーハーベスト分散機械学習

Energy-Harvesting Distributed Machine Learning ( http://arxiv.org/abs/2102.05639v1 )

ライセンス: Link先を確認
Basak Guler, Aylin Yener(参考訳) 本稿では,分散ネットワークにおける持続的機械学習のためのエネルギー収穫の活用に関する最初の研究を行う。 本研究では,環境環境からエネルギーを回収可能な多数のデバイス上で機械学習モデルをトレーニングする分散学習セットアップを考察し,理論的収束を保証した実用的な学習フレームワークを開発する。 数値実験により,提案手法がエネルギー非依存のベンチマークを著しく上回ることを示した。 私たちのフレームワークはスケーラブルで、エネルギー統計の局所的な推定のみを必要とし、ワイヤレスネットワーク、エッジコンピューティング、およびモノのモバイルインターネットでの機械学習を含む、幅広い分散トレーニング設定に適用できます。

This paper provides a first study of utilizing energy harvesting for sustainable machine learning in distributed networks. We consider a distributed learning setup in which a machine learning model is trained over a large number of devices that can harvest energy from the ambient environment, and develop a practical learning framework with theoretical convergence guarantees. We demonstrate through numerical experiments that the proposed framework can significantly outperform energy-agnostic benchmarks. Our framework is scalable, requires only local estimation of the energy statistics, and can be applied to a wide range of distributed training settings, including machine learning in wireless networks, edge computing, and mobile internet of things.
翻訳日:2021-02-11 14:38:54 公開日:2021-02-10
# RoBIC: 分類器の堅牢性を評価するベンチマークスイート

RoBIC: A benchmark suite for assessing classifiers robustness ( http://arxiv.org/abs/2102.05368v1 )

ライセンス: Link先を確認
Thibault Maho, Beno\^it Bonnet, Teddy Furon, Erwan Le Merrer(参考訳) 敵の攻撃の進展により、多くの防衛が出現した。 モデルは客観的に評価する必要があります。 本稿では,RoBIC を用いた新しいパラメータフリーベンチマークを提案することにより,この問題を体系的に解決する。 RoBICは、新しい半歪み尺度を用いて画像分類器の堅牢性を評価する。 白黒ボックス攻撃に対するネットワークの堅牢さを、その正確性とは独立に測定する。 RoBICは他の利用可能なベンチマークよりも高速です。 本稿では,RoBICによる最近の16モデルのロバスト性に有意な差が認められた。

Many defenses have emerged with the development of adversarial attacks. Models must be objectively evaluated accordingly. This paper systematically tackles this concern by proposing a new parameter-free benchmark we coin RoBIC. RoBIC fairly evaluates the robustness of image classifiers using a new half-distortion measure. It gauges the robustness of the network against white and black box attacks, independently of its accuracy. RoBIC is faster than the other available benchmarks. We present the significant differences in the robustness of 16 recent models as assessed by RoBIC.
翻訳日:2021-02-11 14:38:27 公開日:2021-02-10
# ガウスマージナルによる半空間のアグノスティック・プロパーラーニング

Agnostic Proper Learning of Halfspaces under Gaussian Marginals ( http://arxiv.org/abs/2102.05629v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) ガウス分布の下での非定型学習半空間の問題を研究する。 私たちの主な結果は、サンプルの複雑さと計算の複雑さが最もよく知られた不適切な学習者のものと質的に一致するこの問題のための「最初の適切な」学習アルゴリズムです。 この結果に基づいて、同種半空間を不可知的に学習するための最初の固有多項式時間近似スキーム(PTAS)を得る。 私たちの技術は、他の非線形アクティベーションに関して線形モデルを無知に学習し、特にReLU回帰のための最初の適切な非検出アルゴリズムをもたらします。

We study the problem of agnostically learning halfspaces under the Gaussian distribution. Our main result is the {\em first proper} learning algorithm for this problem whose sample complexity and computational complexity qualitatively match those of the best known improper agnostic learner. Building on this result, we also obtain the first proper polynomial-time approximation scheme (PTAS) for agnostically learning homogeneous halfspaces. Our techniques naturally extend to agnostically learning linear models with respect to other non-linear activations, yielding in particular the first proper agnostic algorithm for ReLU regression.
翻訳日:2021-02-11 14:38:19 公開日:2021-02-10
# 因果推論手法の評価のための合成テキストデータの生成

Generating Synthetic Text Data to Evaluate Causal Inference Methods ( http://arxiv.org/abs/2102.05638v1 )

ライセンス: Link先を確認
Zach Wood-Doughty, Ilya Shpitser, Mark Dredze(参考訳) 観測データから因果的結論を引き出すには、真のデータ生成プロセスについて仮定する必要がある。 因果推論研究は一般に、構造化医療記録における分類学や数値学といった低次元のデータを考える。 自然言語などの高次元および非構造化データは因果推論法の評価を複雑にし、これらの評価は既知の因果効果を持つ合成データセットに依存する。 自然言語生成のモデルは広く研究され、経験的によく機能している。 しかし、既存の手法は、テキスト自体に対する因果効果を定量化できないため、因果評価のための合成データセットの作成に直ちには適用できない。 本研究では,既存の世代モデルに適応し,因果効果のある合成テキストデータセットを作成するためのフレームワークを開発する。 このフレームワークを用いて,テキストデータから因果効果を推定する4つの手法を実証的に比較した。 コードと合成データセットをリリースします。

Drawing causal conclusions from observational data requires making assumptions about the true data-generating process. Causal inference research typically considers low-dimensional data, such as categorical or numerical fields in structured medical records. High-dimensional and unstructured data such as natural language complicates the evaluation of causal inference methods; such evaluations rely on synthetic datasets with known causal effects. Models for natural language generation have been widely studied and perform well empirically. However, existing methods not immediately applicable to producing synthetic datasets for causal evaluations, as they do not allow for quantifying a causal effect on the text itself. In this work, we develop a framework for adapting existing generation models to produce synthetic text datasets with known causal effects. We use this framework to perform an empirical comparison of four recently-proposed methods for estimating causal effects from text data. We release our code and synthetic datasets.
翻訳日:2021-02-11 14:38:08 公開日:2021-02-10
# LIFT-CAM:クラスアクティベーションマッピングのより良い説明を目指して

LIFT-CAM: Towards Better Explanations for Class Activation Mapping ( http://arxiv.org/abs/2102.05228v1 )

ライセンス: Link先を確認
Hyungsik Jung and Youngrock Oh(参考訳) 畳み込みニューラルネットワーク(CNN)の内部動作を理解するための要求の増加は、説明方法の大幅な改善につながった。 特に,cnnからのアクティベーションマップの線形結合により視覚的説明マップを生成する複数のクラスアクティベーションマッピング(cam)ベースの手法が提案されている。 しかし、ほとんどの手法は重み付き線形係数の割り当て方法に関する理論的基礎を欠いている。 本稿では, CAM w.r.t の固有線型性を再考する。 アクティベーションマップ。 線形性に着目して,対応する活性化写像の存在を表す二項変数の線形関数として説明モデルを構築する。 このアプローチでは、説明モデルは、特徴の重要性の統一尺度としてshap値を採用する付加的特徴帰属メソッドのクラスによって決定できる。 次に,CAMの重量係数としてSHAP値の有効性を示す。 しかし、正確なSHAP値は計算できません。 そこで,LIFT-CAMと呼ばれる効率的な近似法を提案する。 DeepLIFTに基づいて,提案手法は真のSHAP値を迅速かつ正確に推定することができる。 さらに、他のCAMベースの方法よりも定性的および定量的な面で優れたパフォーマンスを実現します。

Increasing demands for understanding the internal behaviors of convolutional neural networks (CNNs) have led to remarkable improvements in explanation methods. Particularly, several class activation mapping (CAM) based methods, which generate visual explanation maps by a linear combination of activation maps from CNNs, have been proposed. However, the majority of the methods lack a theoretical basis in how to assign their weighted linear coefficients. In this paper, we revisit the intrinsic linearity of CAM w.r.t. the activation maps. Focusing on the linearity, we construct an explanation model as a linear function of binary variables which denote the existence of the corresponding activation maps. With this approach, the explanation model can be determined by the class of additive feature attribution methods which adopts SHAP values as a unified measure of feature importance. We then demonstrate the efficacy of the SHAP values as the weight coefficients for CAM. However, the exact SHAP values are incalculable. Hence, we introduce an efficient approximation method, referred to as LIFT-CAM. On the basis of DeepLIFT, our proposed method can estimate the true SHAP values quickly and accurately. Furthermore, it achieves better performances than the other previous CAM-based methods in qualitative and quantitative aspects.
翻訳日:2021-02-11 14:36:57 公開日:2021-02-10
# 局所的対向例の検出:臨界領域解析を用いたジェネリックアプローチ

Detecting Localized Adversarial Examples: A Generic Approach using Critical Region Analysis ( http://arxiv.org/abs/2102.05241v1 )

ライセンス: Link先を確認
Fengting Li, Xuankai Liu, Xiaoli Zhang, Qi Li, Kun Sun, Kang Li(参考訳) Deep neural networks (DNNs) have been applied in a wide range of applications,e.g.,fa ce recognition and image classification;however,they are vulnerable to adversarial examples.By adding a small amount of imperceptible perturbations,an attacker can easily manipulate the outputs of a DNN.Particularly,the localized adversarial examples only perturb a small and contiguous region of the target object,so that they are robust and effective in both digital and physical worlds.Although the localized adversarial examples have more severe real-world impacts than traditional pixel attacks,they have not been well addressed in the literature.In this paper,we propose a generic defense system called TaintRadar to accurately detect localized adversarial examples via analyzing critical regions that have been manipulated by attackers.The main idea is that when removing critical regions from input images,the ranking changes of adversarial labels will be larger than those of benign labels.Compared with existing defense solutions,TaintRadar can effectively capture sophisticated localized partial attacks, e.g.,the eye-glasses attack,while not requiring additional training or fine-tuning of the original model's structure.Comprehens ive experiments have been conducted in both digital and physical worlds to verify the effectiveness and robustness of our defense.

Deep neural networks (DNNs) have been applied in a wide range of applications,e.g.,fa ce recognition and image classification;however,they are vulnerable to adversarial examples.By adding a small amount of imperceptible perturbations,an attacker can easily manipulate the outputs of a DNN.Particularly,the localized adversarial examples only perturb a small and contiguous region of the target object,so that they are robust and effective in both digital and physical worlds.Although the localized adversarial examples have more severe real-world impacts than traditional pixel attacks,they have not been well addressed in the literature.In this paper,we propose a generic defense system called TaintRadar to accurately detect localized adversarial examples via analyzing critical regions that have been manipulated by attackers.The main idea is that when removing critical regions from input images,the ranking changes of adversarial labels will be larger than those of benign labels.Compared with existing defense solutions,TaintRadar can effectively capture sophisticated localized partial attacks, e.g.,the eye-glasses attack,while not requiring additional training or fine-tuning of the original model's structure.Comprehens ive experiments have been conducted in both digital and physical worlds to verify the effectiveness and robustness of our defense.
翻訳日:2021-02-11 14:36:41 公開日:2021-02-10
# ネットワーク幅探索のための局所自由重量共有

Locally Free Weight Sharing for Network Width Search ( http://arxiv.org/abs/2102.05258v1 )

ライセンス: Link先を確認
Xiu Su, Shan You, Tao Huang, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) ネットワーク幅の検索は、ハードウェア予算でディープニューラルネットワークをスリム化する効果的な方法です。 この目的のために、ワンショットスーパーネットは通常パフォーマンス評価器として利用され、パフォーマンス \wrt~ different width をランク付けする。 それにもかかわらず、現在の方法は、主に異なる幅のパフォーマンスギャップを区別するために制限されている手動固定重量共有パターンに従います。 本論文では,各幅をよりよく評価するために,局所自由重量共有戦略(CafeNet)を提案する。 カフェネットでは、重みはより自由に共有され、各幅は基本チャネルと自由チャネルによって共同で表示され、自由チャネルは各幅をより良く表現するためにローカルゾーンに自由に配置される。 さらに,フロッピー感応ビンを活用し,検索空間を更に縮小する手法を提案する。 その結果、CafeNetは確率的にトレーニングされ、最小限の戦略で最適化されます。 ImageNet、CIFAR-10、CelebA、MS COCOデータセットに関する広範な実験は、他の最先端のベースラインと比較して優位性を確認しています。 例えば,NASのベンチマークネットワークであるEfficientNet-B0を0.41\%増やすことで,その幅をより繊細に探索することができる。

Searching for network width is an effective way to slim deep neural networks with hardware budgets. With this aim, a one-shot supernet is usually leveraged as a performance evaluator to rank the performance \wrt~different width. Nevertheless, current methods mainly follow a manually fixed weight sharing pattern, which is limited to distinguish the performance gap of different width. In this paper, to better evaluate each width, we propose a locally free weight sharing strategy (CafeNet) accordingly. In CafeNet, weights are more freely shared, and each width is jointly indicated by its base channels and free channels, where free channels are supposed to locate freely in a local zone to better represent each width. Besides, we propose to further reduce the search space by leveraging our introduced FLOPs-sensitive bins. As a result, our CafeNet can be trained stochastically and get optimized within a min-min strategy. Extensive experiments on ImageNet, CIFAR-10, CelebA and MS COCO dataset have verified our superiority comparing to other state-of-the-art baselines. For example, our method can further boost the benchmark NAS network EfficientNet-B0 by 0.41\% via searching its width more delicately.
翻訳日:2021-02-11 14:36:27 公開日:2021-02-10
# ショートビデオのためのジェネリックオブジェクト再識別システム

A Generic Object Re-identification System for Short Videos ( http://arxiv.org/abs/2102.05275v1 )

ライセンス: Link先を確認
Tairu Qiu, Guanxian Chen, Zhongang Qi, Bin Li, Ying Shan, Xiangyang Xue(参考訳) TikTokやKwaiのような短いビデオアプリケーションは、最近大ヒットした。 需要の増大とショートビデオにおける視覚情報のフル活用のためには、各ショートビデオ内のオブジェクトの位置と分析を上流タスクとして行う必要がある。 このように、数百のカテゴリと複雑な視覚効果(VFX)を持つたくさんの短いビデオで、物体の検出、追跡、再識別の精度と堅牢性を改善する方法 - 質問が発生します。 そこで本研究では,検出モジュール,トラッキングモジュール,ジェネリックオブジェクト再識別モジュールから構成されるシステムを提案する。 特に、実用的ショートビデオアプリケーションにおける高効率な要求に対して、オブジェクト検出モジュールでは、同等の精度と最新のビデオオブジェクト検出器に対する時間の効率性を示すテンポラル情報融合ネットワーク(TIFN)が提案されています。 さらに,ショートビデオにおけるトラックレットのフラグメンテーション問題を軽減するため,視認モデルのロバスト性を高めるため,トラッキングモジュールにcpsn(cross-layer pointwise siamese network)を提案する。 さらに,提案システムを評価するために,実世界のショートビデオを含む2つのチャレンジデータセットを構築し,ビデオオブジェクトの軌跡抽出と汎用オブジェクトの再同定を行う。 全体として、各モジュールおよびシステム全体の広範な実験は私達のシステムの有効性そして効率を示します。

Short video applications like TikTok and Kwai have been a great hit recently. In order to meet the increasing demands and take full advantage of visual information in short videos, objects in each short video need to be located and analyzed as an upstream task. A question is thus raised -- how to improve the accuracy and robustness of object detection, tracking, and re-identification across tons of short videos with hundreds of categories and complicated visual effects (VFX). To this end, a system composed of a detection module, a tracking module and a generic object re-identification module, is proposed in this paper, which captures features of major objects from short videos. In particular, towards the high efficiency demands in practical short video application, a Temporal Information Fusion Network (TIFN) is proposed in the object detection module, which shows comparable accuracy and improved time efficiency to the state-of-the-art video object detector. Furthermore, in order to mitigate the fragmented issue of tracklets in short videos, a Cross-Layer Pointwise Siamese Network (CPSN) is proposed in the tracking module to enhance the robustness of the appearance model. Moreover, in order to evaluate the proposed system, two challenge datasets containing real-world short videos are built for video object trajectory extraction and generic object re-identification respectively. Overall, extensive experiments for each module and the whole system demonstrate the effectiveness and efficiency of our system.
翻訳日:2021-02-11 14:36:07 公開日:2021-02-10
# H3D:UAV LiDARとMulti-View-Stereoの高分解能3D点雲とテクスチャメッシュのセマンティックセグメンテーションに関するベンチマーク

H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo ( http://arxiv.org/abs/2102.05346v1 )

ライセンス: Link先を確認
Michael K\"olle, Dominik Laupheimer, Stefan Schmohl, Norbert Haala, Franz Rottensteiner, Jan Dirk Wegner, Hugo Ledoux(参考訳) 自動セマンティックセグメンテーションとオブジェクト検出は地理空間データ分析の領域において非常に重要である。 しかし、畳み込みニューラルネットワークのような教師付き機械学習システムは、大量の注釈付きトレーニングデータを必要とする。 特に地理空間領域では、このようなデータセットは極めて少ない。 本論文では,UAVレーザー走査点雲と導出した3Dテクスチャメッシュの両方から構成される,3つの方法でユニークなアノテーション付き3Dデータセットを導入することにより,この問題を軽減することを目的としている。 二 点雲は、平均点密度を約800pts/sqmとし、3dメッシュのテキスト作成に使用する斜め画像は、約2〜3cmの接地サンプリング距離を実現する。 これにより、きめ細かい構造の検出が可能となり、uavベースのマッピングにおける技術状態を表す。 iii) 両方のデータモダリティは、変更検出などのアプリケーションを可能にする3つのエポックにわたって公表される。 このデータセットは、H3Dと呼ばれるヘッシグハイム(ドイツ)の村を表しています。 一方、3Dデータ解析の分野での研究を推進し、その一方で、両方のデータモダリティのセマンティックセグメンテーションのための既存および新興アプローチを評価し、ランク付けするように設計されています。 H3Dは、確立されたISPRS Vaihingen 3D Semantic Labeling Challengeベンチマーク(V3D)と共に、新たなベンチマークデータセットになる予定である。 データセットはhttps://ifpwww.uni-s tuttgart.de/benchmar k/hessigheim/default .aspxから取得できる。

Automated semantic segmentation and object detection are of great importance in the domain of geospatial data analysis. However, supervised Machine Learning systems such as Convolutional Neural Networks require large corpora of annotated training data. Especially in the geospatial domain, such datasets are quite scarce. Within this paper, we aim to alleviate this issue by introducing a new annotated 3D dataset which is unique in three ways: i) The dataset consists of both an UAV Laserscanning point cloud and a derived 3D textured mesh. ii) The point cloud incorporates a mean point density of about 800 pts/sqm and the oblique imagery used for texturing the 3D mesh realizes a Ground Sampling Distance of about 2-3 cm. This enables detection of fine-grained structures and represents the state of the art in UAV-based mapping. iii) Both data modalities will be published for a total of three epochs allowing applications such as change detection. The dataset depicts the village of Hessigheim (Germany), henceforth referred to as H3D. It is designed for promoting research in the field of 3D data analysis on one hand and to evaluate and rank existing and emerging approaches for semantic segmentation of both data modalities on the other hand. Ultimatively, H3D is supposed to become a new benchmark dataset in company with the well-established ISPRS Vaihingen 3D Semantic Labeling Challenge benchmark (V3D). The dataset can be retrieved from https://ifpwww.ifp.u ni-stuttgart.de/benc hmark/hessigheim/def ault.aspx.
翻訳日:2021-02-11 14:35:42 公開日:2021-02-10
# RGB-Dジェスチャ認識のためのアーキテクチャ再構成3Dネットワークによる地域的配慮

Regional Attention with Architecture-Rebuilt 3D Network for RGB-D Gesture Recognition ( http://arxiv.org/abs/2102.05348v1 )

ライセンス: Link先を確認
Benjia Zhou, Yunan Li and Jun Wan(参考訳) 人間のジェスチャー認識はコンピュータビジョンの領域で多くの注目を集めている。 しかし、ジェスチャー認識のパフォーマンスは、芸人の背景や服装など、ジェスチャーと無関係な要素によって常に影響を受けている。 したがって、手/腕の領域に焦点を当てることは、ジェスチャー認識にとって重要です。 一方、より適応的なアーキテクチャで検索されたネットワーク構造は、ネットワークの異なる段階における機能の多様性を増すため、resnetのようなブロック固定型ネットワーク構造よりもパフォーマンスが良い。 本稿では、ジェスチャー認識のためのアーキテクチャリビルド3Dネットワーク(RAAR3DNet)による地域的注目を提案する。 我々は,ネットワークの初期,中期,後期における特徴の形状や表現能力が異なるため,ニューラルネットワーク検索 (nas) によって,固定型インセプションモジュールを自動再構築した構造に置き換える。 これにより、ネットワークは異なるレイヤで異なるレベルの特徴表現をより適応的に捉えることができる。 また,動的静的アテンション(dsa)と呼ばれるスタック可能な局所アテンションモジュールも設計した。これはガウスの誘導ヒートマップと動的モーションマップから,空間領域と時間領域における手/腕領域と動き情報をそれぞれ強調する。 最近の2つの大規模RGB-Dジェスチャデータセットに関する広範な実験は、提案手法の有効性を検証し、最新手法を上回っていることを示す。 このメソッドのコードは、https://github.com/z houbenjia/raar3dnetで利用可能です。

Human gesture recognition has drawn much attention in the area of computer vision. However, the performance of gesture recognition is always influenced by some gesture-irrelevant factors like the background and the clothes of performers. Therefore, focusing on the regions of hand/arm is important to the gesture recognition. Meanwhile, a more adaptive architecture-searche d network structure can also perform better than the block-fixed ones like Resnet since it increases the diversity of features in different stages of the network better. In this paper, we propose a regional attention with architecture-rebuilt 3D network (RAAR3DNet) for gesture recognition. We replace the fixed Inception modules with the automatically rebuilt structure through the network via Neural Architecture Search (NAS), owing to the different shape and representation ability of features in the early, middle, and late stage of the network. It enables the network to capture different levels of feature representations at different layers more adaptively. Meanwhile, we also design a stackable regional attention module called dynamic-static Attention (DSA), which derives a Gaussian guidance heatmap and dynamic motion map to highlight the hand/arm regions and the motion information in the spatial and temporal domains, respectively. Extensive experiments on two recent large-scale RGB-D gesture datasets validate the effectiveness of the proposed method and show it outperforms state-of-the-art methods. The codes of our method are available at: https://github.com/z houbenjia/RAAR3DNet.
翻訳日:2021-02-11 14:35:17 公開日:2021-02-10
# 自己監督型低照度化による暗黒大気中の空洞セグメンテーションの改善

Improving Aerial Instance Segmentation in the Dark with Self-Supervised Low Light Enhancement ( http://arxiv.org/abs/2102.05399v1 )

ライセンス: Link先を確認
Prateek Garg, Murari Mandal, Pratik Narang(参考訳) 空中画像における低光度条件は、複数の視覚ベースのアプリケーションの性能に悪影響を及ぼす。 低照度特性を効率的に除去し、キービジョンタスクのパフォーマンスを補助する手法が必要である。 本研究では,低照度イメージを自己監視方式で強化する新しい手法を提案し,検出とセグメンテーションのタスクをエンドツーエンドで順次適用する。 提案手法は当初のアルゴリズムよりもメモリと計算能力の点で非常に小さなオーバーヘッドを占め、優れた結果をもたらす。 さらに,GANを用いた低照度空中データセットを新たに作成し,類似の悪条件下での視覚ベースネットワークの評価に用いる。

Low light conditions in aerial images adversely affect the performance of several vision based applications. There is a need for methods that can efficiently remove the low light attributes and assist in the performance of key vision tasks. In this work, we propose a new method that is capable of enhancing the low light image in a self-supervised fashion, and sequentially apply detection and segmentation tasks in an end-to-end manner. The proposed method occupies a very small overhead in terms of memory and computational power over the original algorithm and delivers superior results. Additionally, we propose the generation of a new low light aerial dataset using GANs, which can be used to evaluate vision based networks for similar adverse conditions.
翻訳日:2021-02-11 14:34:55 公開日:2021-02-10
# モジュール型スパイクニューラルネットワークにおける強化学習による分類レベルの異なる物体認識効率の向上

Enhancing efficiency of object recognition in different categorization levels by reinforcement learning in modular spiking neural networks ( http://arxiv.org/abs/2102.05401v1 )

ライセンス: Link先を確認
Fatemeh Sharifizadeh, Mohammad Ganjtabesh, Abbas Nowzari-Dalini(参考訳) ヒトの視覚システムは、上位、基本、下位の分類レベルで視覚知覚に関与する階層的なモジュールのシーケンスを含んでいる。 過去数十年間、視覚野の階層的フィードフォワード処理を模倣する様々な計算モデルが提案されてきたが、実際の神経処理や学習メカニズムのような視覚系の多くの重要な特徴は無視されている。 生物学的なインスピレーションの行を基礎として, 各分類レベルでのモジュールとして, 強化学習ルールを備えたスパイクニューラルネットワークを用いた, 異なる分類レベルの物体認識のための計算モデルを提案する。 各モジュールは、クラス特異的ニューロンの最初期のスパイクのみに基づいて、外部分類器を使用せずに、各分類レベルでオブジェクト認識問題を解決する。 各分類レベルで必要な情報に応じて、関連する帯域通過フィルタ画像を利用する。 提案モデルの性能を3つのベンチマークデータセットを用いた評価基準で評価し,提案モデルの認識精度の大幅な向上を全実験で達成した。

The human visual system contains a hierarchical sequence of modules that take part in visual perception at superordinate, basic, and subordinate categorization levels. During the last decades, various computational models have been proposed to mimic the hierarchical feed-forward processing of visual cortex, but many critical characteristics of the visual system, such actual neural processing and learning mechanisms, are ignored. Pursuing the line of biological inspiration, we propose a computational model for object recognition in different categorization levels, in which a spiking neural network equipped with the reinforcement learning rule is used as a module at each categorization level. Each module solves the object recognition problem at each categorization level, solely based on the earliest spike of class-specific neurons at its last layer, without using any external classifier. According to the required information at each categorization level, the relevant band-pass filtered images are utilized. The performance of our proposed model is evaluated by various appraisal criteria with three benchmark datasets and significant improvement in recognition accuracy of our proposed model is achieved in all experiments.
翻訳日:2021-02-11 14:34:42 公開日:2021-02-10
# 部分輸血 : トランスファー学習におけるトレーニング可能なバッチ標準パラメータの表現的影響について

Partial transfusion: on the expressive influence of trainable batch norm parameters for transfer learning ( http://arxiv.org/abs/2102.05543v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Masayuki Tsuneki(参考訳) 医用画像にディープラーニングを適用する場合、ImageNetから学習を転送するアプローチです。 アプローチは、事前訓練されたモデルを微調整するか、特徴抽出器として使用するかのどちらかである。 ほとんどの現代的なアーキテクチャはバッチ正規化層を含み、そのような層でモデルを微調整するには、トレーニング可能な重みと訓練不能な重みで構成され、2つの操作モード(トレーニングと推論)を持つため、いくつかの注意が必要である。 転送学習における予期せぬ振る舞いやパフォーマンスの低下の主な原因であるため、推論中に使用される非トレーニング可能な重みに注意が払われます。 通常、トレーニングと推論の両方の間、推論モードで保持されるバッチ正規化層でモデルを微調整することが推奨される。 本稿では,バッチ正規化層の学習可能な重みに代えて注意を払うとともに,伝達学習の文脈における表現的影響について検討する。 バッチ正規化層の訓練可能な重み(スケールと中心)を微調整するだけで、すべての重みを微調整するのと同様のパフォーマンスが得られ、より高速な収束の利点が追加された。 4つの異なるモデルアーキテクチャを用いて、7つの医療用画像データセットでこれを実証した。

Transfer learning from ImageNet is the go-to approach when applying deep learning to medical images. The approach is either to fine-tune a pre-trained model or use it as a feature extractor. Most modern architecture contain batch normalisation layers, and fine-tuning a model with such layers requires taking a few precautions as they consist of trainable and non-trainable weights and have two operating modes: training and inference. Attention is primarily given to the non-trainable weights used during inference, as they are the primary source of unexpected behaviour or degradation in performance during transfer learning. It is typically recommended to fine-tune the model with the batch normalisation layers kept in inference mode during both training and inference. In this paper, we pay closer attention instead to the trainable weights of the batch normalisation layers, and we explore their expressive influence in the context of transfer learning. We find that only fine-tuning the trainable weights (scale and centre) of the batch normalisation layers leads to similar performance as to fine-tuning all of the weights, with the added benefit of faster convergence. We demonstrate this on a variety of seven publicly available medical imaging datasets, using four different model architectures.
翻訳日:2021-02-11 14:34:25 公開日:2021-02-10
# 野生生物モニタリングのための深度情報探索

Exploiting Depth Information for Wildlife Monitoring ( http://arxiv.org/abs/2102.05607v1 )

ライセンス: Link先を確認
Timm Haucke and Volker Steinhage(参考訳) カメラトラップは、生物学および特に生物多様性研究における実証済みのツールです。 しかし、シーンに関する貴重なコンテキストを提供し、以前の手作業による生態学的手法の自動化を容易にするにもかかわらず、深度推定を含むカメラトラップは広く展開されていない。 本研究では,深度推定を用いて動物を検出・同定するカメラトラップを用いた自動アプローチを提案する。 個々の動物を検出・同定するために,画像やビデオクリップに現れる関心のある個々の対象を検出・記述する深層学習に基づく手法であるインスタンスセグメンテーションのD-Mask R-CNN法を提案する。 実験評価の結果,画像情報のみに依存する標準手法と比較して,動物検出の平均精度スコアが向上した点において,奥行き推定の利点が示された。 この手法は、RGB-Dカメラトラップを用いた動物園シナリオにおける概念実証の観点からも評価された。

Camera traps are a proven tool in biology and specifically biodiversity research. However, camera traps including depth estimation are not widely deployed, despite providing valuable context about the scene and facilitating the automation of previously laborious manual ecological methods. In this study, we propose an automated camera trap-based approach to detect and identify animals using depth estimation. To detect and identify individual animals, we propose a novel method D-Mask R-CNN for the so-called instance segmentation which is a deep learning-based technique to detect and delineate each distinct object of interest appearing in an image or a video clip. An experimental evaluation shows the benefit of the additional depth estimation in terms of improved average precision scores of the animal detection compared to the standard approach that relies just on the image information. This novel approach was also evaluated in terms of a proof-of-concept in a zoo scenario using an RGB-D camera trap.
翻訳日:2021-02-11 14:34:02 公開日:2021-02-10
# 画像検索のためのトレーニングビジョントランスフォーマー

Training Vision Transformers for Image Retrieval ( http://arxiv.org/abs/2102.05644v1 )

ライセンス: Link先を確認
Alaaeldin El-Nouby, Natalia Neverova, Ivan Laptev, Herv\'e J\'egou(参考訳) トランスフォーマーは、自然言語理解と、最近では画像分類の優れた結果を示しています。 画像ディスクリプタを生成するビジョントランスの採用と、コントラスト損失と差分エントロピー正規化を組み合わせたメトリック学習目標によるモデルトレーニングを行います。 コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。 特に,本手法は,Stanford Online Product, In-Shop, CUB-200など,カテゴリレベルの検索のためのいくつかの公開ベンチマークにおいて,最先端の手法である。 さらに,roxford と rparis の実験では,特に短いベクトル表現と低解像度画像の処理において,トランスフォーマーが特定のオブジェクトの検索において競合していることを示した。

Transformers have shown outstanding results for natural language understanding and, more recently, for image classification. We here extend this work and propose a transformer-based approach for image retrieval: we adopt vision transformers for generating image descriptors and train the resulting model with a metric learning objective, which combines a contrastive loss with a differential entropy regularizer. Our results show consistent and significant improvements of transformers over convolution-based approaches. In particular, our method outperforms the state of the art on several public benchmarks for category-level retrieval, namely Stanford Online Product, In-Shop and CUB-200. Furthermore, our experiments on ROxford and RParis also show that, in comparable settings, transformers are competitive for particular object retrieval, especially in the regime of short vector representations and low-resolution images.
翻訳日:2021-02-11 14:33:48 公開日:2021-02-10
# 制約付き線形バンディットに対する効率的な悲観的最適アルゴリズム

An Efficient Pessimistic-Optimist ic Algorithm for Constrained Linear Bandits ( http://arxiv.org/abs/2102.05295v1 )

ライセンス: Link先を確認
Xin Liu, Bin Li, Pengyi Shi, Lei Ying(参考訳) 本稿では,一般制約付き確率線形帯域について考察する。 目的は、各ラウンド$\tau\leq T$における制約の集合の下の水平線上の期待累積報酬を最大化することである。 本論文では,この問題に対する悲観的最適化アルゴリズムを提案する。 まず、アルゴリズムは $\tilde{\cal O}\left(\left(\frac{K^{1.5}}{\delta^2}+d\right)\sqrt{\tau}\right)$ (pseudo) をラウンド $\tau\leq T,$ ここで $K$ は制約数、$d$ は報酬機能空間の次元、$\delta$ はスレーター定数、$\delta$ は任意のラウンド $\tau>\tau' におけるゼロ制約違反、$ $\tau'$ は水平 $T.$ から独立しており、アルゴリズムは計算的に効率的である。 アルゴリズムは最適化における原始双対アプローチに基づいており、2つの成分を含んでいる。 原始成分は、制約のない確率線形帯域(我々のアルゴリズムは線形上信頼境界アルゴリズム(LinUCB)を用いる)に類似している。 双対成分の計算の複雑さは制約の数に依存し、文脈空間、アクション空間、さらには特徴空間のサイズから独立している。 したがって、アルゴリズムの全体的な計算複雑性は、制約のない確率線形帯の線形UBBと類似している。

This paper considers stochastic linear bandits with general constraints. The objective is to maximize the expected cumulative reward over horizon $T$ subject to a set of constraints in each round $\tau\leq T$. We propose a pessimistic-optimist ic algorithm for this problem, which is efficient in two aspects. First, the algorithm yields $\tilde{\cal O}\left(\left(\frac{K^{1.5}}{\delta^2}+d\right)\sqrt{\tau}\right)$ (pseudo) regret in round $\tau\leq T,$ where $K$ is the number of constraints, $d$ is the dimension of the reward feature space, and $\delta$ is a Slater's constant; and zero constraint violation in any round $\tau>\tau',$ where $\tau'$ is independent of horizon $T.$ Second, the algorithm is computationally efficient. Our algorithm is based on the primal-dual approach in optimization, and includes two components. The primal component is similar to unconstrained stochastic linear bandits (our algorithm uses the linear upper confidence bound algorithm (LinUCB)). The computational complexity of the dual component depends on the number of constraints, and is independent of sizes of the contextual space, the action space, and even the feature space. So the overall computational complexity of our algorithm is similar to the linear UCB for unconstrained stochastic linear bandits.
翻訳日:2021-02-11 14:33:05 公開日:2021-02-10
# MAIN: Multihead-Attention Imputation Networks

MAIN: Multihead-Attention Imputation Networks ( http://arxiv.org/abs/2102.05428v1 )

ライセンス: Link先を確認
Spyridon Mouselinos, Kyriakos Polymenakos, Antonis Nikitakis, Konstantinos Kyriakopoulos(参考訳) データの欠落、通常不正確で競争標準のデータセットの問題は、業界アプリケーションで使用されるほとんどの機械学習モデルにとって不幸な現実です。 最近の研究は、そのような現象の性質と負の効果を理解することに集中し、識別的アプローチと生成的アプローチの両方を用いて、欠落したデータの最適計算のためのソリューションを考案している。 モデリングパイプラインのどの部分にも完全なデータセットを導入することなく、任意のモデルで楽に適用でき、より良い下流パフォーマンスを実現するマルチヘッドの注意に基づく新しいメカニズムを提案します。 本手法は,ダウンストリームタスクの性能を向上させるために入力データの欠落パターンを誘導的にモデル化する。 最後に、多数のデータセットのベースラインに対してこのメソッドを評価した結果、高い欠落のシナリオでパフォーマンスが向上する傾向にあった。

The problem of missing data, usually absent incurated and competition-standard datasets, is an unfortunate reality for most machine learning models used in industry applications. Recent work has focused on understanding the nature and the negative effects of such phenomena, while devising solutions for optimal imputation of the missing data, using both discriminative and generative approaches. We propose a novel mechanism based on multi-head attention which can be applied effortlessly in any model and achieves better downstream performance without the introduction of the full dataset in any part of the modeling pipeline. Our method inductively models patterns of missingness in the input data in order to increase the performance of the downstream task. Finally, after evaluating our method against baselines for a number of datasets, we found performance gains that tend to be larger in scenarios of high missingness.
翻訳日:2021-02-11 14:32:28 公開日:2021-02-10
# 自己スーパービジョンによる内部状態表現によるモデルベース強化学習の改善

Improving Model-Based Reinforcement Learning with Internal State Representations through Self-Supervision ( http://arxiv.org/abs/2102.05599v1 )

ライセンス: Link先を確認
Julien Scholz, Cornelius Weber, Muhammad Burhan Hafez and Stefan Wermter(参考訳) 環境のモデルを用いて、強化学習エージェントは将来の動きを計画し、チェス、ショギ、ゴなどのボードゲームで超人的なパフォーマンスを達成することができる。 muzeroアルゴリズムが示すように、環境モデルは動的に学習することもでき、エージェントをより多くのタスクに一般化し、同時に最先端のパフォーマンスを達成することができる。 特にMuZeroは、実際の環境状態から派生した内部状態表現を予測に使用します。 本稿では,モデルが予測した内部状態表現を,学習過程を安定させる制約として,独立して動作し,教師なしで動作する再構成モデル損失と簡易な一貫性損失という2つの用語によって,環境状態に結合する。 実験の結果,OpenAI Gym環境における再構成モデル損失と簡易な一貫性損失の新たな統合により,大幅な性能向上が期待できることがわかった。 我々の修正により、MuZeroの自己教師付き事前訓練も可能となり、目標が達成される前に、アルゴリズムは環境力学について学ぶことができる。

Using a model of the environment, reinforcement learning agents can plan their future moves and achieve superhuman performance in board games like Chess, Shogi, and Go, while remaining relatively sample-efficient. As demonstrated by the MuZero Algorithm, the environment model can even be learned dynamically, generalizing the agent to many more tasks while at the same time achieving state-of-the-art performance. Notably, MuZero uses internal state representations derived from real environment states for its predictions. In this paper, we bind the model's predicted internal state representation to the environment state via two additional terms: a reconstruction model loss and a simpler consistency loss, both of which work independently and unsupervised, acting as constraints to stabilize the learning process. Our experiments show that this new integration of reconstruction model loss and simpler consistency loss provide a significant performance increase in OpenAI Gym environments. Our modifications also enable self-supervised pretraining for MuZero, so the algorithm can learn about environment dynamics before a goal is made available.
翻訳日:2021-02-11 14:32:14 公開日:2021-02-10
# ハードウェアパフォーマンスカウンタによるCUDAコードオートチューニングスペースの検索:さまざまなGPUアーキテクチャ上で動作するベンチマークのデータ

Searching CUDA code autotuning spaces with hardware performance counters: data from benchmarks running on various GPU architectures ( http://arxiv.org/abs/2102.05299v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Filipovi\v{c} and Jana Hozzov\'a and Amin Nezarat and Jaroslav O\v{l}ha and Filip Petrovi\v{c}(参考訳) 我々は,性能関連ソースコードパラメータを考慮し,GPUアーキテクチャ上でのピークに近い性能を実現する,CUDAのいくつかの自動チューニングベンチマークを開発した。 我々は, [1] で提案された空間のチューニングのための新しい探索法の開発と評価に使用した。 当社のフレームワークカーネルチューニングツールキットはgithubで無料で利用可能で、5つのベンチマークの完全なチューニングスペースのために、いくつかのgpuで計算時間とハードウェアパフォーマンスカウンタを測定しました。 ここで提供されるこれらのデータは、GPUコードのチューニング空間の探索アルゴリズムの研究や、適用コード最適化、ハードウェアパフォーマンスカウンタ、GPUカーネルのパフォーマンスの関係の研究に役立ちます。 さらに,検索者の頑健な評価や,他者との比較に用いたスクリプトについても詳細に述べる。 特に、チューニングをシミュレートするスクリプト、すなわち、チューニングされたカーネルのコンパイルと実行を、測定したデータから計算時間の迅速な読み出しによって置き換えることにより、多くの実験でチューニング検索の収束を検査することができる。 これらのスクリプトは他のコードと自由に利用できるため、検索アルゴリズムを実験し、堅牢な方法で比較しやすくなります。 本研究では,ベンチマークのチューニングパラメータの値からパフォーマンスカウンタの値を予測するモデルを作成した。 ここでは、モデル自体を提供し、トレーニング用に実装したスクリプトを記述します。 これらのデータは、私たちの研究を再現または構築したい研究者に役立ちます。

We have developed several autotuning benchmarks in CUDA that take into account performance-relevant source-code parameters and reach near peak-performance on various GPU architectures. We have used them during the development and evaluation of a novel search method for tuning space proposed in [1]. With our framework Kernel Tuning Toolkit, freely available at Github, we measured computation times and hardware performance counters on several GPUs for the complete tuning spaces of five benchmarks. These data, which we provide here, might benefit research of search algorithms for the tuning spaces of GPU codes or research of relation between applied code optimization, hardware performance counters, and GPU kernels' performance. Moreover, we describe the scripts we used for robust evaluation of our searcher and comparison to others in detail. In particular, the script that simulates the tuning, i.e., replaces time-demanding compiling and executing the tuned kernels with a quick reading of the computation time from our measured data, makes it possible to inspect the convergence of tuning search over a large number of experiments. These scripts, freely available with our other codes, make it easier to experiment with search algorithms and compare them in a robust way. During our research, we generated models for predicting values of performance counters from values of tuning parameters of our benchmarks. Here, we provide the models themselves and describe the scripts we implemented for their training. These data might benefit researchers who want to reproduce or build on our research.
翻訳日:2021-02-11 14:31:55 公開日:2021-02-10
# DANTE: システムログのLSTMによるインサイダー脅威の予測

DANTE: Predicting Insider Threat using LSTM on system logs ( http://arxiv.org/abs/2102.05600v1 )

ライセンス: Link先を確認
Nidhi Rastogi, Qicheng Ma(参考訳) インサイダーの脅威は、インサイダーが入手できる信頼とアクセスのレベルが高いため、世界中の情報通信技術(ICT)に対する最も永続的な脅威ベクターの1つです。 この種の脅威は、悪意のあるユーザーだけでなく、企業秘密や企業情報、さらには悪性のプレイヤーへのアクセス情報などについて不注意に明かす悪質なユーザーにも起因します。 本論文では,システムログを用いて,特殊リカレントニューラルネットワーク(RNN)モデルを用いてインサイダー動作を検出する新しい手法を提案する。 基底真理はDANTEを用いて確立され、異常な振る舞いを識別するためのベースラインとして使用される。 このため、システムログは自然言語シーケンスとしてモデル化され、これらのシーケンスからパターンが抽出される。 自然言語の論理と制御フローに従う一連のアクションのワークフローを作成します。 これらのフローは、悪性または良性 - 行動のさまざまなカテゴリが割り当てられます。 これらの配列からの逸脱は脅威の存在を示す。 我々はさらに脅威をCERTインサイダー脅威データセットで提供される5つのカテゴリの1つに分類する。 実験評価により,提案モデルが99%の予測精度を達成できることを示した。

Insider threat is one of the most pernicious threat vectors to information and communication technologies (ICT)across the world due to the elevated level of trust and access that an insider is afforded. This type of threat can stem from both malicious users with a motive as well as negligent users who inadvertently reveal details about trade secrets, company information, or even access information to malignant players. In this paper, we propose a novel approach that uses system logs to detect insider behavior using a special recurrent neural network (RNN) model. Ground truth is established using DANTE and used as the baseline for identifying anomalous behavior. For this, system logs are modeled as a natural language sequence and patterns are extracted from these sequences. We create workflows of sequences of actions that follow a natural language logic and control flow. These flows are assigned various categories of behaviors - malignant or benign. Any deviation from these sequences indicates the presence of a threat. We further classify threats into one of the five categories provided in the CERT insider threat dataset. Through experimental evaluation, we show that the proposed model can achieve 99% prediction accuracy.
翻訳日:2021-02-11 14:31:31 公開日:2021-02-10
# 間欠的エネルギー供給によるモバイルエッジコンピューティングの適応プロセッサ周波数調整

Adaptive Processor Frequency Adjustment for Mobile Edge Computing with Intermittent Energy Supply ( http://arxiv.org/abs/2102.05449v1 )

ライセンス: Link先を確認
Tiansheng Huang, Weiwei Lin, Ying Li, Xiumin Wang, Qingbo Wu, Rui Li, Ching-Hsien Hsu, and Albert Y. Zomaya(参考訳) 驚異的なスピード、帯域幅、スケールで、モバイルエッジコンピューティング(MEC)は、次世代の接続性とサービス配信においてますます重要な役割を果たしています。 しかし、MECサーバーの大規模な展開に伴い、その後のエネルギー問題はますます緊急のアジェンダになっています。 現在の状況では、再生可能エネルギー供給のMECサーバーの大規模な展開は、おそらく来るエネルギー問題のための最も有望なソリューションです。 それにもかかわらず、電源の断続的な性質の結果として、これらの特別な設計MECサーバーは、サービス持続可能性とサービス標準を維持するために、エネルギー使用量をより慎重にする必要があります。 本稿では,単一サーバのMECシナリオ上での最適化を目標とし,適応型プロセッサ周波数調整ソリューションであるNAFAを提案し,サーバのエネルギー利用を効果的に計画する。 要求の到着とエネルギーの回収パターンを明らかにする履歴データから学習することにより、深層強化学習ベースのソリューションは、サーバのプロセッサ周波数をインテリジェントにスケジュールすることができ、サービス持続可能性とサービス品質のバランスが良好になる。 NAFAの優れた性能は実データに基づく実験によって実証され、NAFAは平均要求受入率を最大20%増加させ、平均要求処理時間を最大50%削減することを示した。

With astonishing speed, bandwidth, and scale, Mobile Edge Computing (MEC) has played an increasingly important role in the next generation of connectivity and service delivery. Yet, along with the massive deployment of MEC servers, the ensuing energy issue is now on an increasingly urgent agenda. In the current context, the large scale deployment of renewable-energy-sup plied MEC servers is perhaps the most promising solution for the incoming energy issue. Nonetheless, as a result of the intermittent nature of their power sources, these special design MEC server must be more cautious about their energy usage, in a bid to maintain their service sustainability as well as service standard. Targeting optimization on a single-server MEC scenario, we in this paper propose NAFA, an adaptive processor frequency adjustment solution, to enable an effective plan of the server's energy usage. By learning from the historical data revealing request arrival and energy harvest pattern, the deep reinforcement learning-based solution is capable of making intelligent schedules on the server's processor frequency, so as to strike a good balance between service sustainability and service quality. The superior performance of NAFA is substantiated by real-data-based experiments, wherein NAFA demonstrates up to 20% increase in average request acceptance ratio and up to 50% reduction in average request processing time.
翻訳日:2021-02-11 14:31:15 公開日:2021-02-10
# ガウス間のクールバック・ライバー拡散の性質について

On the Properties of Kullback-Leibler Divergence Between Gaussians ( http://arxiv.org/abs/2102.05485v1 )

ライセンス: Link先を確認
Yufeng Zhang, Wanwei Liu, Zhenbang Chen, Kenli Li, Ji Wang(参考訳) Kullback-Leibler (KL) の発散は確率分布間の最も重要な発散測度の一つである。 本稿では,ガウス間のKL拡散の性質について検討する。 まず、任意の 2 つの $n$-次元ガウス元 $\mathcal{N}_1$ と $\mathcal{N}_2$ に対して、$KL(\mathcal{N}_1|\mathcal{N}_2)$ が $\epsilon>0$ に対して $KL(\mathcal{N}_2|\mathcal{N}_1)\leq \epsilon$ の上限を求める。 これはガウス多様体間の小さなKL発散の近似対称性を明らかにする。 また、$KL(\mathcal{N}_1||\mathcal{N}_2)$の場合、$KL(\mathcal{N}_2||\mathcal{N}_1)\geq M$を$M>0$として見つける。 第二に、3つの$n$-次元ガウス元 $\mathcal{N}_1, \mathcal{N}_2$ と $\mathcal{N}_3$ に対して、$KL(\mathcal{N}_1||\mathcal{N}_3)$ と $KL(\mathcal{N}_1||\mathcal{N}_2)$ と $KL(\mathcal{N}_2||\mathcal{N}_3)$ のタイトな有界が有界である。 このことは、ガウス間のKLの発散が緩和された三角形の不等式に従うことを示している。 重要なことに、本論文で示される定理のすべての境界は次元 $n$ から独立である。

Kullback-Leibler (KL) divergence is one of the most important divergence measures between probability distributions. In this paper, we investigate the properties of KL divergence between Gaussians. Firstly, for any two $n$-dimensional Gaussians $\mathcal{N}_1$ and $\mathcal{N}_2$, we find the supremum of $KL(\mathcal{N}_1||\mathcal{N}_2)$ when $KL(\mathcal{N}_2||\mathcal{N}_1)\leq \epsilon$ for $\epsilon>0$. This reveals the approximate symmetry of small KL divergence between Gaussians. We also find the infimum of $KL(\mathcal{N}_1||\mathcal{N}_2)$ when $KL(\mathcal{N}_2||\mathcal{N}_1)\geq M$ for $M>0$. Secondly, for any three $n$-dimensional Gaussians $\mathcal{N}_1, \mathcal{N}_2$ and $\mathcal{N}_3$, we find a tight bound of $KL(\mathcal{N}_1||\mathcal{N}_3)$ if $KL(\mathcal{N}_1||\mathcal{N}_2)$ and $KL(\mathcal{N}_2||\mathcal{N}_3)$ are bounded. This reveals that the KL divergence between Gaussians follows a relaxed triangle inequality. Importantly, all the bounds in the theorems presented in this paper are independent of the dimension $n$.
翻訳日:2021-02-11 14:30:56 公開日:2021-02-10
# 相対深部前置法による偏光単眼密分布図

Polarimetric Monocular Dense Mapping Using Relative Deep Depth Prior ( http://arxiv.org/abs/2102.05212v1 )

ライセンス: Link先を確認
Moein Shakeri, Shing Yan Loo, Hong Zhang(参考訳) 本稿では,相対深度情報を用いた偏光カメラを用いたポラリメトリックな高密度地図の再構成について述べる。 一般に、偏光イメージングは方位角やゼニス角などの表面正常な情報を明らかにすることができ、特にテクスチャ・パウア領域における高密度再構成問題に対する解の開発を支援することができる。 しかし、2種類の偏光反射(スペック/ディフュース)のため、偏光形状の手がかりは曖昧である。 この問題に対処するための手法が提案されているが、それらはオフラインであり、ロボット工学の応用では実用的ではない。 本論文では,偏光カメラから得られる全極性キューを用いたオンライン再構成手法を提案する。 オンライン手法により,等深度輪郭と垂直方向のスパース深さ値の伝搬が可能となる。 本手法は,挑戦的な画像系列に関する総合的な実験を通じて,特にテクスチャの悪い領域において,深度マップの精度を著しく向上し,その密度を高めることができることを実証する。

This paper is concerned with polarimetric dense map reconstruction based on a polarization camera with the help of relative depth information as a prior. In general, polarization imaging is able to reveal information about surface normal such as azimuth and zenith angles, which can support the development of solutions to the problem of dense reconstruction, especially in texture-poor regions. However, polarimetric shape cues are ambiguous due to two types of polarized reflection (specular/diffuse). Although methods have been proposed to address this issue, they either are offline and therefore not practical in robotics applications, or use incomplete polarimetric cues, leading to sub-optimal performance. In this paper, we propose an online reconstruction method that uses full polarimetric cues available from the polarization camera. With our online method, we can propagate sparse depth values both along and perpendicular to iso-depth contours. Through comprehensive experiments on challenging image sequences, we demonstrate that our method is able to significantly improve the accuracy of the depthmap as well as increase its density, specially in regions of poor texture.
翻訳日:2021-02-11 14:29:39 公開日:2021-02-10
# ディープチャネルアテンションネットワークによる連続血管セグメンテーション

Sequential vessel segmentation via deep channel attention network ( http://arxiv.org/abs/2102.05229v1 )

ライセンス: Link先を確認
Dongdong Hao, Song Ding, Linwei Qiu, Yisong Lv, Baowei Fei, Yueqi Zhu, Binjie Qin(参考訳) 本論文では,現在のフレームを中心に2次元船舶マスクをセグメント化するスライディングウィンドウにおける2D+tシーケンシャル画像の複数のコンテキストフレームを利用する,新しいエンコーダデコーダディープネットワークアーキテクチャを開発した。 このアーキテクチャは、エンコーダ段階での時間空間的特徴抽出、スキップ接続層における特徴融合、デコーダ段階でのチャネルアテンション機構を備える。 エンコーダ段階では、時間空間的特徴を階層的に抽出するために一連の3次元畳み込み層が用いられる。 スキップ接続層はその後、時間空間の特徴マップを融合させ、対応するデコーダステージに配信する。 デコーダステージは、XCA画像の複雑でノイズの多い背景から船舶の特徴を効率的に識別するために、チャネルの注意ブロックを効果的に利用して、中間の特徴マップをスキップ接続層から洗練し、2D方法で洗練された特徴をデコードしてセグメント化された船舶マスクを生成する。 さらに,複雑なバックグラウンドアーティファクトの分布が広いため,XCAデータにおけるクラス不均衡問題に対処するために,提案したディープネットワークをトレーニングするためにDice損失関数を実装した。 本手法と最先端アルゴリズムとの比較による広範な実験により, 定量的指標と視覚的検証の観点から, 提案手法が他の手法よりも優れた性能を示す。 ソースコードはhttps://github.com/B injie-Qin/SVS-netにある。

This paper develops a novel encoder-decoder deep network architecture which exploits the several contextual frames of 2D+t sequential images in a sliding window centered at current frame to segment 2D vessel masks from the current frame. The architecture is equipped with temporal-spatial feature extraction in encoder stage, feature fusion in skip connection layers and channel attention mechanism in decoder stage. In the encoder stage, a series of 3D convolutional layers are employed to hierarchically extract temporal-spatial features. Skip connection layers subsequently fuse the temporal-spatial feature maps and deliver them to the corresponding decoder stages. To efficiently discriminate vessel features from the complex and noisy backgrounds in the XCA images, the decoder stage effectively utilizes channel attention blocks to refine the intermediate feature maps from skip connection layers for subsequently decoding the refined features in 2D ways to produce the segmented vessel masks. Furthermore, Dice loss function is implemented to train the proposed deep network in order to tackle the class imbalance problem in the XCA data due to the wide distribution of complex background artifacts. Extensive experiments by comparing our method with other state-of-the-art algorithms demonstrate the proposed method's superior performance over other methods in terms of the quantitative metrics and visual validation. The source codes are at https://github.com/B injie-Qin/SVS-net
翻訳日:2021-02-11 14:29:21 公開日:2021-02-10
# ハイパースペクトルドメインマッピングによる視覚的品質向上の学習

Learning to Enhance Visual Quality via Hyperspectral Domain Mapping ( http://arxiv.org/abs/2102.05418v1 )

ライセンス: Link先を確認
Harsh Sinha, Aditya Mehta, Murari Mandal, Pratik Narang(参考訳) 深層学習に基づく手法は画像復元と拡張において著しく成功したが、ほとんどの手法はrgb入力画像に依存している。 これらの手法は、自然画像の豊富なスペクトル分布を考慮に入れない。 スペクトルプロファイルを算出し,与えられた画像の画素方向のダイナミックレンジ調整を推定する深層アーキテクチャであるSpecNetを提案する。 まず,低照度入力画像からハイパースペクトル画像(hsi)を生成するために,非ペアリングなサイクル一貫性フレームワークを用いる。 HSIは、同じシーンの通常の光画像を生成するためにさらに使用される。 RGB画像から推定可能なHSIを推定するために、自己監督とスペクトルプロファイル正規化ネットワークを組み込む。 LOLデータセットの低照度条件下で、実画像と偽画像のスペクトルプロファイルを最適化する利点を評価する。

Deep learning based methods have achieved remarkable success in image restoration and enhancement, but most such methods rely on RGB input images. These methods fail to take into account the rich spectral distribution of natural images. We propose a deep architecture, SpecNet, which computes spectral profile to estimate pixel-wise dynamic range adjustment of a given image. First, we employ an unpaired cycle-consistent framework to generate hyperspectral images (HSI) from low-light input images. HSI is further used to generate a normal light image of the same scene. We incorporate a self-supervision and a spectral profile regularization network to infer a plausible HSI from an RGB image. We evaluate the benefits of optimizing the spectral profile for real and fake images in low-light conditions on the LOL Dataset.
翻訳日:2021-02-11 14:28:56 公開日:2021-02-10
# クロスドメイン変換学習によるテンプレートベースのSSVEP復号化

Boosting Template-based SSVEP Decoding by Cross-domain Transfer Learning ( http://arxiv.org/abs/2102.05194v1 )

ライセンス: Link先を確認
Kuan-Jung Chiang, Chun-Shu Wei, Masaki Nakanishi and Tzyy-Ping Jung(参考訳) 目的: クロスドメインデータ転送を利用した定常視覚誘発電位(ssvep)ベースの脳コンピューターインタフェース(bcis)の性能向上を目的とした汎用トランスファー学習フレームワークの構築を目標とする。 アプローチ: 最小二乗変換(LST)に基づく変換学習を取り入れて, 最先端のテンプレートベースのSSVEPデコーディングを強化し, 複数の領域(セッション, 主題, 脳波モンタージュ)にわたる校正データを活用する。 主な結果: 研究結果は, 既存データをドメイン間で転送する際のSSVEPの変動を抑える上で, LSTの有効性を検証した。 さらに, LST法は, 標準タスク関連成分分析(TRCA)法や非LSTネーブ変換学習法よりも, SSVEP復号精度が有意に向上した。 意義:本研究は,lstを用いたトランスファー・ラーニングによる既存データ活用の可能性を実証し,様々な状況における理論と行動について詳細に検討した。 提案手法は,キャリブレーションデータ制限時の標準trca法に比べてssvep復号精度が大幅に向上した。 キャリブレーション低減の性能は、プラグアンドプレイSSVEPベースのBCIと、さらに実用的なアプリケーションを容易にする。

Objective: This study aims to establish a generalized transfer-learning framework for boosting the performance of steady-state visual evoked potential (SSVEP)-based brain-computer interfaces (BCIs) by leveraging cross-domain data transferring. Approach: We enhanced the state-of-the-art template-based SSVEP decoding through incorporating a least-squares transformation (LST)-based transfer learning to leverage calibration data across multiple domains (sessions, subjects, and EEG montages). Main results: Study results verified the efficacy of LST in obviating the variability of SSVEPs when transferring existing data across domains. Furthermore, the LST-based method achieved significantly higher SSVEP-decoding accuracy than the standard task-related component analysis (TRCA)-based method and the non-LST naive transfer-learning method. Significance: This study demonstrated the capability of the LST-based transfer learning to leverage existing data across subjects and/or devices with an in-depth investigation of its rationale and behavior in various circumstances. The proposed framework significantly improved the SSVEP decoding accuracy over the standard TRCA approach when calibration data are limited. Its performance in calibration reduction could facilitate plug-and-play SSVEP-based BCIs and further practical applications.
翻訳日:2021-02-11 14:26:50 公開日:2021-02-10
# 進化的不確実性下における鉱石の高度最適化

Advanced Ore Mine Optimisation under Uncertainty Using Evolution ( http://arxiv.org/abs/2102.05235v1 )

ライセンス: Link先を確認
William Reid, Aneta Neumann, Simon Ratcliffe, Frank Neumann(参考訳) 本稿では,高度鉱業最適化における不確実性の影響について検討する。 ニューラルネットワークのアンサンブルによって得られた予測に基づいて,進化的計算手法に基づいて抽出シーケンスを最適化し,得られた解の不確かさを定量化する,maptekのソフトウェアシステム進化を考える。 さらに, 得られた最適化解に対するステージングの影響について検討し, この大規模確率最適化問題に対して, 高い収益性を維持しつつ, 鉱床の不確実性を緩和できる幅広い成分について検討する。

In this paper, we investigate the impact of uncertainty in advanced ore mine optimisation. We consider Maptek's software system Evolution which optimizes extraction sequences based on evolutionary computation techniques and quantify the uncertainty of the obtained solutions with respect to the ore deposit based on predictions obtained by ensembles of neural networks. Furthermore, we investigate the impact of staging on the obtained optimized solutions and discuss a wide range of components for this large scale stochastic optimisation problem which allow to mitigate the uncertainty in the ore deposit while maintaining high profitability.
翻訳日:2021-02-11 14:26:29 公開日:2021-02-10
# Bayesian Optimizationによる推論クエリの説明

Explaining Inference Queries with Bayesian Optimization ( http://arxiv.org/abs/2102.05308v1 )

ライセンス: Link先を確認
Brandon Lockhart, Jinglin Peng, Weiyuan Wu, Jiannan Wang, Eugene Wu(参考訳) sqlクエリ結果の説明を得ることで、分析エクスペリエンスの向上、データエラーの明確化、データに対する深い洞察が可能になる。 このようなクエリは、MLパイプラインのソース、トレーニング、または推論データから説明を得る必要があるため、説明が困難である。 本稿では,目的関数をブラックボックス関数としてモデル化し,ベイズ最適化(bo)を用いて推論クエリを説明する新しいフレームワークboexplainを提案する。 説明は入力タプルを定義する述語であり、興味のあるクエリ結果に大きく影響されるように削除されるべきである。 BO - ブラックボックス関数のグローバルな最適化を見つけるためのテクニックで、最良の述語を見つけるために使われる。 カテゴリ変数を扱うための2つの新しい手法(個別貢献エンコーディングとウォームスタート)を開発した。 BOExplainが発見した述語は、最先端の問合せ説明エンジンで見られるものよりも高い説明力を持つことを示す実験を行った。 また、BOExplainは、実世界の3つのデータセットのソースおよびトレーニングデータから推論クエリの説明を導き出すのにも有効であることを示す。

Obtaining an explanation for an SQL query result can enrich the analysis experience, reveal data errors, and provide deeper insight into the data. Inference query explanation seeks to explain unexpected aggregate query results on inference data; such queries are challenging to explain because an explanation may need to be derived from the source, training, or inference data in an ML pipeline. In this paper, we model an objective function as a black-box function and propose BOExplain, a novel framework for explaining inference queries using Bayesian optimization (BO). An explanation is a predicate defining the input tuples that should be removed so that the query result of interest is significantly affected. BO - a technique for finding the global optimum of a black-box function - is used to find the best predicate. We develop two new techniques (individual contribution encoding and warm start) to handle categorical variables. We perform experiments showing that the predicates found by BOExplain have a higher degree of explanation compared to those found by the state-of-the-art query explanation engines. We also show that BOExplain is effective at deriving explanations for inference queries from source and training data on three real-world datasets.
翻訳日:2021-02-11 14:26:20 公開日:2021-02-10
# von Mises-Fisherの密度推定器のPyTorch実装とその混合について

On PyTorch Implementation of Density Estimators for von Mises-Fisher and Its Mixture ( http://arxiv.org/abs/2102.05340v1 )

ライセンス: Link先を確認
Minyoung Kim(参考訳) von Mises-Fisher (vMF) は方向性ランダム変数のよく知られた密度モデルである。 近年,画像やテキストなどの高次元構造化データに対する深層埋め込み手法の急増により,高次指向性情報抽出が進み,vMFモデルがさらに普及している。 この記事では、vMFモデルとその混合をレビューし、Python/PyTorchで、最大の可能性推定者に焦点を当てて、モデルをトレーニングする方法の詳細なレシピを提供します。 特に,vmfの実装は,密度正規化器におけるベッセル関数評価の悪名高い数値的問題,特に次元が高い場合には問題となり,任意の精度をサポートするmpmathライブラリを用いてこの問題に対処する。 混合学習には,ミニバッチに基づく大規模SGD学習と,全バッチ推定器であるEMアルゴリズムの両方を提供する。 それぞれの推定器/手法について、我々は合成データ上で実装をテストすると同時に、より現実的な画像クラスタリングのシナリオでユースケースを実証する。 私たちのコードはhttps://github.com/m inyoungkim21/vmf-lib で公開しています。

The von Mises-Fisher (vMF) is a well-known density model for directional random variables. The recent surge of the deep embedding methodologies for high-dimensional structured data such as images or texts, aimed at extracting salient directional information, can make the vMF model even more popular. In this article, we will review the vMF model and its mixture, provide detailed recipes of how to train the models, focusing on the maximum likelihood estimators, in Python/PyTorch. In particular, implementation of vMF typically suffers from the notorious numerical issue of the Bessel function evaluation in the density normalizer, especially when the dimensionality is high, and we address the issue using the MPMath library that supports arbitrary precision. For the mixture learning, we provide both minibatch-based large-scale SGD learning, as well as the EM algorithm which is a full batch estimator. For each estimator/methodolog y, we test our implementation on some synthetic data, while we also demonstrate the use case in a more realistic scenario of image clustering. Our code is publicly available in https://github.com/m inyoungkim21/vmf-lib .
翻訳日:2021-02-11 14:26:00 公開日:2021-02-10
# 動的環境における分散マルチロボット動作計画のための学習対話認識軌道予測

Learning Interaction-Aware Trajectory Predictions for Decentralized Multi-Robot Motion Planning in Dynamic Environments ( http://arxiv.org/abs/2102.05382v1 )

ライセンス: Link先を確認
Hai Zhu, Francisco Martinez Claramunt, Bruno Brito and Javier Alonso-Mora(参考訳) 本稿では,動的環境におけるマルチロボット動作計画のためのデータ駆動分散軌道最適化手法を提案する。 共有空間をナビゲートする場合、各ロボットは衝突回避のために隣り合うロボットの正確な動き予測を必要とする。 これらの動き予測は、将来の計画された軌道をコミュニケーションを通じて共有することでロボット間で得ることができる。 しかし、実際にはそのようなコミュニケーションは利用できないし、信頼性も低い。 本稿では,集中型逐次プランナを用いた実演軌道から複数ロボット動作の挙動を学習可能な,リカレントニューラルネットワーク(RNN)に基づく新しい軌道予測モデルを提案する。 学習モデルは、各ロボットのためにオンラインで効率的に動作し、その履歴状態の観察に基づいて隣人の相互作用認識軌道予測を提供することができる。 次に,軌道予測モデルをマルチロボット衝突回避のための分散モデル予測制御(MPC)フレームワークに組み込む。 シミュレーションの結果,分散化アプローチは,多数のロボットに対してコミュニケーションフリーかつスケーラブルでありながら,集中型プランナーと同程度のパフォーマンスを実現することができることがわかった。 また、現実世界の実験ではクアッドローターのチームによるアプローチも検証しています。

This paper presents a data-driven decentralized trajectory optimization approach for multi-robot motion planning in dynamic environments. When navigating in a shared space, each robot needs accurate motion predictions of neighboring robots to achieve predictive collision avoidance. These motion predictions can be obtained among robots by sharing their future planned trajectories with each other via communication. However, such communication may not be available nor reliable in practice. In this paper, we introduce a novel trajectory prediction model based on recurrent neural networks (RNN) that can learn multi-robot motion behaviors from demonstrated trajectories generated using a centralized sequential planner. The learned model can run efficiently online for each robot and provide interaction-aware trajectory predictions of its neighbors based on observations of their history states. We then incorporate the trajectory prediction model into a decentralized model predictive control (MPC) framework for multi-robot collision avoidance. Simulation results show that our decentralized approach can achieve a comparable level of performance to a centralized planner while being communication-free and scalable to a large number of robots. We also validate our approach with a team of quadrotors in real-world experiments.
翻訳日:2021-02-11 14:25:39 公開日:2021-02-10
# 敵のロバスト性:お前の愚かさがあなたを強くする

Adversarial Robustness: What fools you makes you stronger ( http://arxiv.org/abs/2102.05475v1 )

ライセンス: Link先を確認
Grzegorz G{\l}uch, R\"udiger Urbanke(参考訳) 標準pac学習モデルと等価クエリ学習モデルのバージョン間のサンプル複雑性の指数関数的分離を証明した。 そして、この分離が敵対的堅牢性に興味深い意味を持つことを示す。 我々は、攻撃者の存在下で明らかに堅牢なモデルを計算する適応防御を設計するというビジョンを探ります。 特に,このビジョンを簡易な設定で実現する方法を示す。 そのため、強敵の概念を導入し、適用可能な摂動の種類に制限されないが、分類器で提示された場合、異なる逆の例を反復的に生成することができる。 この概念がなぜ研究に興味深いのかを説明し、以下のことを証明するために使用します。 すべての強逆元 $\mathbf{A}$ に対して、(a) が $\mathbf{A}$ によって強く攻撃されない、または (b) が最大$\epsilon$ の誤差を持つような、効率的な逆学習的なスキームが存在する。 どちらの場合も、我々のスキームは、PAC境界が必要とするものよりも指数関数的に($\epsilon$)少ないサンプルを使用する。

We prove an exponential separation for the sample complexity between the standard PAC-learning model and a version of the Equivalence-Query-le arning model. We then show that this separation has interesting implications for adversarial robustness. We explore a vision of designing an adaptive defense that in the presence of an attacker computes a model that is provably robust. In particular, we show how to realize this vision in a simplified setting. In order to do so, we introduce a notion of a strong adversary: he is not limited by the type of perturbations he can apply but when presented with a classifier can repetitively generate different adversarial examples. We explain why this notion is interesting to study and use it to prove the following. There exists an efficient adversarial-learning -like scheme such that for every strong adversary $\mathbf{A}$ it outputs a classifier that (a) cannot be strongly attacked by $\mathbf{A}$, or (b) has error at most $\epsilon$. In both cases our scheme uses exponentially (in $\epsilon$) fewer samples than what the PAC bound requires.
翻訳日:2021-02-11 14:25:22 公開日:2021-02-10
# 正のunlabelled learningによるシングルバイダーオークションにおける腐敗検出

Detecting corruption in single-bidder auctions via positive-unlabelled learning ( http://arxiv.org/abs/2102.05523v1 )

ライセンス: Link先を確認
Natalya Goryunova, Artem Baklanov, Egor Ianovski(参考訳) 研究と政策立案のガイドラインでは、シングルバイダーレートは公共調達における汚職の一般的な代理人であるが、ipso事実これは腐敗したオークションの証拠ではなく、競争的なオークションである。 競売は、不正な調達者が取引を隠そうとしたことによるものかもしれないが、地理的孤立、独占的存在、その他の構造的要因の結果でもある。 本稿では,ロシア連邦における公共調達オークションを,おそらく公正なオークションと疑わしいオークションに分けるために,肯定的でない分類を用いる。

In research and policy-making guidelines, the single-bidder rate is a commonly used proxy of corruption in public procurement used but ipso facto this is not evidence of a corrupt auction, but an uncompetitive auction. And while an uncompetitive auction could arise due to a corrupt procurer attempting to conceal the transaction, but it could also be a result of geographic isolation, monopolist presence, or other structural factors. In this paper we use positive-unlabelled classification to attempt to separate public procurement auctions in the Russian Federation into auctions that are probably fair, and those that are suspicious.
翻訳日:2021-02-11 14:25:02 公開日:2021-02-10
# ニューラルネットワークを用いた高速分類学習と音声認識と自動車運転支援のための概念

Fast Classification Learning with Neural Networks and Conceptors for Speech Recognition and Car Driving Maneuvers ( http://arxiv.org/abs/2102.05588v1 )

ライセンス: Link先を確認
Stefanie Krause, Oliver Otto, Frieder Stolzenburg(参考訳) リカレントニューラルネットワークは、多様なアプリケーションにおいて強力な手段です。 我々は,いわゆる概念家とともに,他の深層学習法とは対照的に,学習の高速化を図っている。 さらに、比較的少数の例は、高精度でニューラルネットワークを訓練するのに十分です。 音声認識と自動車運転操作の検出という2つの応用でこれを実証する。 音声認識には、周波数スペクトルのコンパクトな表現につながるメル周波数セプストラム係数を使用し、一般的な多項式補間なしに車の運転操作を検出することができます。

Recurrent neural networks are a powerful means in diverse applications. We show that, together with so-called conceptors, they also allow fast learning, in contrast to other deep learning methods. In addition, a relatively small number of examples suffices to train neural networks with high accuracy. We demonstrate this with two applications, namely speech recognition and detecting car driving maneuvers. We improve the state-of-the art by application-specific preparation techniques: For speech recognition, we use mel frequency cepstral coefficients leading to a compact representation of the frequency spectra, and detecting car driving maneuvers can be done without the commonly used polynomial interpolation, as our evaluation suggests.
翻訳日:2021-02-11 14:24:48 公開日:2021-02-10
# VINS: モバイルユーザインタフェース設計のためのビジュアル検索

VINS: Visual Search for Mobile User Interface Design ( http://arxiv.org/abs/2102.05216v1 )

ライセンス: Link先を確認
Sara Bunian, Kai Li, Chaima Jemmali, Casper Harteveld, Yun Fu, Magy Seif El-Nasr(参考訳) 相対的なモバイルユーザインターフェース(UI)設計例の検索は、インターフェース設計者がインスピレーションを得て、デザイン代替案を比較するのに役立つ。 しかし、現在の検索システムはテキストベースのクエリのみに依存しており、ui構造やコンテンツを考慮していないため、このような設計例を見つけるのは困難である。 本稿では、UIイメージ(ワイヤフレーム、高忠実度)を入力とし、視覚的に類似した設計例を検索するビジュアル検索フレームワークVINSを紹介する。 まず,インターフェース設計者を対象に,サンプル発見プロセスの理解を深める。 次に、インターフェースのビュー階層(すなわち、すべてのUIコンポーネントとその特定の場所)の正確な仕様を提供する大規模なUIデータセットを開発します。 このデータセットを利用して,uiコンテキストと階層構造をモデル化するオブジェクト検出ベースの画像検索フレームワークを提案する。 このフレームワークは、UI検出のための平均平均精度76.39\%を達成し、同様のUI設計のクエリにおいて高性能である。

Searching for relative mobile user interface (UI) design examples can aid interface designers in gaining inspiration and comparing design alternatives. However, finding such design examples is challenging, especially as current search systems rely on only text-based queries and do not consider the UI structure and content into account. This paper introduces VINS, a visual search framework, that takes as input a UI image (wireframe, high-fidelity) and retrieves visually similar design examples. We first survey interface designers to better understand their example finding process. We then develop a large-scale UI dataset that provides an accurate specification of the interface's view hierarchy (i.e., all the UI components and their specific location). By utilizing this dataset, we propose an object-detection based image retrieval framework that models the UI context and hierarchical structure. The framework achieves a mean Average Precision of 76.39\% for the UI detection and high performance in querying similar UI designs.
翻訳日:2021-02-11 14:24:38 公開日:2021-02-10
# GPUの自動収束を高速化するハードウェアパフォーマンスカウンタの使用

Using hardware performance counters to speed up autotuning convergence on GPUs ( http://arxiv.org/abs/2102.05297v1 )

ライセンス: Link先を確認
Ji\v{r}\'i Filipovi\v{c} and Jana Hozzov\'a and Amin Nezarat and Jaroslav O\v{l}ha and Filip Petrovi\v{c}(参考訳) 現在、gpuアクセラレータは様々なハードウェア上で汎用コンピューティングタスクを高速化するために一般的に使われている。 しかし、gpuアーキテクチャと処理データの多様性のため、特定の種類のハードウェアと特定のデータ特性のためのコードの最適化は極めて困難である。 パフォーマンス関連ソースコードパラメータの自動調整により、アプリケーションの自動最適化が可能になり、パフォーマンスをポータブルに保ちます。 i)チューニングスペースが膨大でパフォーマンスの悪い実装に満ちている場合、または(ii)処理データの変更や異なるハードウェアへの移行のために、自動調整プロセスを頻繁に繰り返す必要がある場合、チューニングスペースの検索は許容できないオーバーヘッドをもたらす可能性があります。 本稿では,チューニング空間を探索する新しい手法を提案する。 この方法は、経験的チューニング中にハードウェアパフォーマンスカウンタ(プロファイリングカウンタとも呼ばれる)を収集する。 これらのカウンタは、より高速な実装に向けて検索プロセスをナビゲートするために使用される。 この手法では、任意のGPU上でチューニングスペースをサンプリングする必要がある。 問題固有のモデルを構築し、さまざまな、あるいはこれまで見つからなかったインプットやgpuのオートチューニングに使用できる。 5つのベンチマークを用いて,アプリケーションが異なるハードウェアに移植する必要がある場合や,異なる特性を持つデータを処理する必要がある場合,自動チューニングを高速化できることを実験的に実証した。 また,本手法を最先端技術と比較し,探索ステップの数では優れ,収束時間では他の探索よりも優れていることを示す。

Nowadays, GPU accelerators are commonly used to speed up general-purpose computing tasks on a variety of hardware. However, due to the diversity of GPU architectures and processed data, optimization of codes for a particular type of hardware and specific data characteristics can be extremely challenging. The autotuning of performance-relevant source-code parameters allows for automatic optimization of applications and keeps their performance portable. Although the autotuning process typically results in code speed-up, searching the tuning space can bring unacceptable overhead if (i) the tuning space is vast and full of poorly-performing implementations, or (ii) the autotuning process has to be repeated frequently because of changes in processed data or migration to different hardware. In this paper, we introduce a novel method for searching tuning spaces. The method takes advantage of collecting hardware performance counters (also known as profiling counters) during empirical tuning. Those counters are used to navigate the searching process towards faster implementations. The method requires the tuning space to be sampled on any GPU. It builds a problem-specific model, which can be used during autotuning on various, even previously unseen inputs or GPUs. Using a set of five benchmarks, we experimentally demonstrate that our method can speed up autotuning when an application needs to be ported to different hardware or when it needs to process data with different characteristics. We also compared our method to state of the art and show that our method is superior in terms of the number of searching steps and typically outperforms other searches in terms of convergence time.
翻訳日:2021-02-11 14:23:40 公開日:2021-02-10
# Dompteur:Taming Audio Adversarialの例

Dompteur: Taming Audio Adversarial Examples ( http://arxiv.org/abs/2102.05431v1 )

ライセンス: Link先を確認
Thorsten Eisenhofer, Lea Sch\"onherr, Joel Frank, Lars Speckemeier, Dorothea Kolossa, Thorsten Holz(参考訳) 逆の例は避けられないようです。 これらの特別に作られた入力により、攻撃者は機械学習システムを任意に操作できる。 さらに悪いことに、彼らはしばしば人間の観察者に無害に見えます。 デジタル社会では、これは重大な脅威となる。 例えば、様々な種類のシステムに対するハンズフリーインタフェースとして機能する自動音声認識(ASR)システムは、人間の聞き手にとって理解不能な入力で攻撃することができる。 研究コミュニティはこの問題に取り組むためにいくつかのアプローチを試したが失敗に終わった。 本稿では、ASRシステムに対する逆例の存在を受け入れるが、人間のリスナーによって認識される必要があるという別の視点を提案する。 心理音響学の原理を適用することで、ASR入力から意味的に無関係な情報を除去し、人間の知覚によく似たモデルを訓練することができる。 このアイデアをdompteurというツールで実装し、修正されていないベースラインとは対照的に、当社の拡張現実が入力信号の知覚可能な範囲にうまく焦点を当てていることを示しました。 この変更は、最小の計算オーバーヘッドと良質な性能を維持しながら、逆の例を可聴範囲に強制する。 私たちのアプローチを評価するために、我々は積極的に私たちの増強を避け、この攻撃者からの敵対的な例が明らかに知覚可能であることを実証しようとする適応攻撃者を構築します。 最後に,クラウドソースのヒューマンリスナーによる補聴テストを行うことにより,我々の主張を裏付ける。

Adversarial examples seem to be inevitable. These specifically crafted inputs allow attackers to arbitrarily manipulate machine learning systems. Even worse, they often seem harmless to human observers. In our digital society, this poses a significant threat. For example, Automatic Speech Recognition (ASR) systems, which serve as hands-free interfaces to many kinds of systems, can be attacked with inputs incomprehensible for human listeners. The research community has unsuccessfully tried several approaches to tackle this problem. In this paper we propose a different perspective: We accept the presence of adversarial examples against ASR systems, but we require them to be perceivable by human listeners. By applying the principles of psychoacoustics, we can remove semantically irrelevant information from the ASR input and train a model that resembles human perception more closely. We implement our idea in a tool named Dompteur and demonstrate that our augmented system, in contrast to an unmodified baseline, successfully focuses on perceptible ranges of the input signal. This change forces adversarial examples into the audible range, while using minimal computational overhead and preserving benign performance. To evaluate our approach, we construct an adaptive attacker, which actively tries to avoid our augmentations and demonstrate that adversarial examples from this attacker remain clearly perceivable. Finally, we substantiate our claims by performing a hearing test with crowd-sourced human listeners.
翻訳日:2021-02-11 14:23:14 公開日:2021-02-10
# 非凸非平滑最適化のための慣性交互乗算器方向法の一構成法

A Framework of Inertial Alternating Direction Method of Multipliers for Non-Convex Non-Smooth Optimization ( http://arxiv.org/abs/2102.05433v1 )

ライセンス: Link先を確認
Le Thi Khanh Hien, Duy Nhat Phan, Nicolas Gillis(参考訳) 本論文では,非凸非平滑なマルチブロック合成最適化のクラスを線形制約で解くためのアルゴリズムフレームワークであるiADMM(inertial alternating direction method of multipliers)を提案する。 本フレームワークでは,変数の各ブロックを更新する汎用最小化行列化(MM)の原理を用いて,MMステップで特定の代理関数を使用する前のADMMの収束解析を統一するだけでなく,新しい効率的なADMMスキームを実現する。 私たちの知る限り、 \emph{nonconvex nonsmooth} 設定では、変数の各ブロックを更新するために MM の原則と組み合わせた ADMM とプライマリ変数の慣性用語を組み合わせた ADMM は文献では研究されていない。 標準的な仮定の下では、生成したイテレート列の次数収束とグローバル収束が証明される。 非凸な低ランク表現問題に対するiADMMの有効性について述べる。

In this paper, we propose an algorithmic framework dubbed inertial alternating direction methods of multipliers (iADMM), for solving a class of nonconvex nonsmooth multiblock composite optimization problems with linear constraints. Our framework employs the general minimization-majoriz ation (MM) principle to update each block of variables so as to not only unify the convergence analysis of previous ADMM that use specific surrogate functions in the MM step, but also lead to new efficient ADMM schemes. To the best of our knowledge, in the \emph{nonconvex nonsmooth} setting, ADMM used in combination with the MM principle to update each block of variables, and ADMM combined with inertial terms for the primal variables have not been studied in the literature. Under standard assumptions, we prove the subsequential convergence and global convergence for the generated sequence of iterates. We illustrate the effectiveness of iADMM on a class of nonconvex low-rank representation problems.
翻訳日:2021-02-11 14:22:45 公開日:2021-02-10
# メタフェデレーション学習

Meta Federated Learning ( http://arxiv.org/abs/2102.05561v1 )

ライセンス: Link先を確認
Omid Aramoon, Pin-Yu Chen, Gang Qu, Yuan Tian(参考訳) プライバシ保護機能を備えた分散方法論のため、フェデレートラーニング(FL)は、時間的敵攻撃のトレーニングに脆弱である。 本研究では,本研究の目的は,主学習タスクにおいて許容可能な性能を維持しつつ,敵の学習トリガに埋め込まれた入力に対して,目標の誤分類を引き起こすことにある。 連合学習におけるバックドア攻撃に対する現代の防御は、セキュアアグリゲーションが展開される最近のfl設定では実現不可能な個々のクライアントの更新に直接アクセスする必要がある。 本研究では,セキュアなアグリゲーションが実施されている場合,バックドアアタックを防御することは可能か,という問いに答える。 そこで本研究では,セキュアアグリゲーションプロトコルに適合するだけでなく,バックドア攻撃に対する防御も容易な,新しいフェデレーション学習であるmeta federated learning(meta-fl)を提案する。 SVHNとGTSRBの2つの分類データセットでMeta-FLの体系的な評価を行います。 その結果,Meta-FLは従来のFLよりも有効性が高いだけでなく,敵攻撃に対する堅牢性も向上していることがわかった。

Due to its distributed methodology alongside its privacy-preserving features, Federated Learning (FL) is vulnerable to training time adversarial attacks. In this study, our focus is on backdoor attacks in which the adversary's goal is to cause targeted misclassifications for inputs embedded with an adversarial trigger while maintaining an acceptable performance on the main learning task at hand. Contemporary defenses against backdoor attacks in federated learning require direct access to each individual client's update which is not feasible in recent FL settings where Secure Aggregation is deployed. In this study, we seek to answer the following question, Is it possible to defend against backdoor attacks when secure aggregation is in place?, a question that has not been addressed by prior arts. To this end, we propose Meta Federated Learning (Meta-FL), a novel variant of federated learning which not only is compatible with secure aggregation protocol but also facilitates defense against backdoor attacks. We perform a systematic evaluation of Meta-FL on two classification datasets: SVHN and GTSRB. The results show that Meta-FL not only achieves better utility than classic FL, but also enhances the performance of contemporary defenses in terms of robustness against adversarial attacks.
翻訳日:2021-02-11 14:22:28 公開日:2021-02-10
# (参考訳) 事前知識のない非定常強化学習: 最適ブラックボックスアプローチ

Non-stationary Reinforcement Learning without Prior Knowledge: An Optimal Black-box Approach ( http://arxiv.org/abs/2102.05406v1 )

ライセンス: CC0 1.0
Chen-Yu Wei, Haipeng Luo(参考訳) 本研究では,(近在)定常環境において最適な後悔を伴う強化学習アルゴリズムを,非定常環境において最適な動的後悔を持つ別のアルゴリズムに変換するブラックボックス低減法を提案する。 ブラックボックスに異なるアルゴリズムを組み込むことで、非常に特殊なアルゴリズムによって達成された(コンテキスト的な)マルチアームバンディットの最近の結果を復元するだけでなく、線形バンディット、エピソディックMDP、無限水平MDPの技術を様々な方法で大幅に改善することを示すサンプルのリストを提供する。 具体的には、ほとんどの場合、アルゴリズムは最適な動的後悔 $\widetilde{\mathcal{O}}(\min\{\sqrt{LT}, \Delta^{1/3}T^{2/3}\})$ を達成している。$T$はそれぞれラウンドの数であり、$L$と$\Delta$は世界の変化の数と量である。

We propose a black-box reduction that turns a certain reinforcement learning algorithm with optimal regret in a (near-)stationary environment into another algorithm with optimal dynamic regret in a non-stationary environment, importantly without any prior knowledge on the degree of non-stationarity. By plugging different algorithms into our black-box, we provide a list of examples showing that our approach not only recovers recent results for (contextual) multi-armed bandits achieved by very specialized algorithms, but also significantly improves the state of the art for linear bandits, episodic MDPs, and infinite-horizon MDPs in various ways. Specifically, in most cases our algorithm achieves the optimal dynamic regret $\widetilde{\mathcal{O}}(\min\{\sqrt{LT}, \Delta^{1/3}T^{2/3}\})$ where $T$ is the number of rounds and $L$ and $\Delta$ are the number and amount of changes of the world respectively, while previous works only obtain suboptimal bounds and/or require the knowledge of $L$ and $\Delta$.
翻訳日:2021-02-11 14:02:40 公開日:2021-02-10
# (参考訳) 高結合微分方程式の解を推定する理論訓練ニューラルネットワークについて [全文訳有]

On Theory-training Neural Networks to Infer the Solution of Highly Coupled Differential Equations ( http://arxiv.org/abs/2102.04890v2 )

ライセンス: CC BY 4.0
M. Torabi Rad, A. Viardin, and M. Apel(参考訳) 深層ニューラルネットワークは,コンピュータビジョンから計算医学まで幅広い分野を変革し,最近,固化問題 \cite{ttn} に対して理論訓練ニューラルネットワーク (ttns) を導入することで,相変化熱伝達の分野に応用を広げた。 本稿では,高結合微分方程式の解法を学ぶために,理論学習ネットワークに対する一般的,深く,経験的洞察を提案する。 振動損失の劣化がトレーニングデータポイントで方程式を満たすネットワークの能力、最終的なトレーニング損失によって測定される、および推論されたソリューションの精度に与える影響を分析します。 正規化を活用し,これらの振動を除去し,最終的なトレーニング損失を低減し,計算コストを増すことなく推定解の精度を向上させる理論学習手法を提案する。 そして、与えられた方程式の集合に対して最適なトレーニング時間と推論精度を有するネットワークを体系的に探索できるガイドラインを提案し、これらのガイドラインに従うと、その探索における退屈なトレーニングイテレーションの数を減らすことができる。 最後に、離散化を用いた従来の微分方程式の解法と理論学習の比較により、高次元の方程式集合に限らない理論訓練の利点が証明される。 この比較により、現在の理論訓練フレームワークの限界が明らかになり、極端な精度が必要なドメインへの適用が制限される可能性がある。

Deep neural networks are transforming fields ranging from computer vision to computational medicine, and we recently extended their application to the field of phase-change heat transfer by introducing theory-trained neural networks (TTNs) for a solidification problem \cite{TTN}. Here, we present general, in-depth, and empirical insights into theory-training networks for learning the solution of highly coupled differential equations. We analyze the deteriorating effects of the oscillating loss on the ability of a network to satisfy the equations at the training data points, measured by the final training loss, and on the accuracy of the inferred solution. We introduce a theory-training technique that, by leveraging regularization, eliminates those oscillations, decreases the final training loss, and improves the accuracy of the inferred solution, with no additional computational cost. Then, we present guidelines that allow a systematic search for the network that has the optimal training time and inference accuracy for a given set of equations; following these guidelines can reduce the number of tedious training iterations in that search. Finally, a comparison between theory-training and the rival, conventional method of solving differential equations using discretization attests to the advantages of theory-training not being necessarily limited to high-dimensional sets of equations. The comparison also reveals a limitation of the current theory-training framework that may limit its application in domains where extreme accuracies are necessary.
翻訳日:2021-02-11 12:29:52 公開日:2021-02-10
# 連続時間モデルに基づく強化学習

Continuous-Time Model-Based Reinforcement Learning ( http://arxiv.org/abs/2102.04764v2 )

ライセンス: Link先を確認
\c{C}a\u{g}atay Y{\i}ld{\i}z, Markus Heinonen, and Harri L\"ahdesm\"aki(参考訳) モデルベース強化学習(MBRL)アプローチは離散時間状態遷移モデルに依存しているが、物理的システムと制御タスクの大部分は連続時間で動作する。 プロセスの時間差分近似を避けるために,新しいアクター・クリティカルな手法に基づく連続時間MBRLフレームワークを提案する。 また, ベイズ型ニューラル常微分方程式 (ODE) と未知の状態進化差を推定し, てんかんの不確実性を考慮した。 我々は,連続時間制御システムを明示的に解決する新しいode-rlスイートの実装とテストを行う。 実験では, モデルが不規則でノイズの多いデータに対して頑健であり, サンプル効率が良く, 離散時間MBRL法に挑戦する制御問題を解くことができることを示した。

Model-based reinforcement learning (MBRL) approaches rely on discrete-time state transition models whereas physical systems and the vast majority of control tasks operate in continuous-time. To avoid time-discretization approximation of the underlying process, we propose a continuous-time MBRL framework based on a novel actor-critic method. Our approach also infers the unknown state evolution differentials with Bayesian neural ordinary differential equations (ODE) to account for epistemic uncertainty. We implement and test our method on a new ODE-RL suite that explicitly solves continuous-time control systems. Our experiments illustrate that the model is robust against irregular and noisy data, is sample-efficient, and can solve control problems which pose challenges to discrete-time MBRL methods.
翻訳日:2021-02-11 12:12:26 公開日:2021-02-10
# RECAST:インタラクティブ・ビジュアライゼーションによる毒性検出モデルのユーザ・リコースと解釈性の評価

RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization ( http://arxiv.org/abs/2102.04427v2 )

ライセンス: Link先を確認
Austin P Wright, Omar Shaikh, Haekyu Park, Will Epperson, Muhammed Ahmed, Stephane Pinel, Duen Horng Chau, Diyi Yang(参考訳) オンラインの有毒な言語の普及に伴い、プラットフォームは自然言語処理の進歩を利用して有毒なコメントを自動的にフラグ付けおよび削除する自動化システムを使用しています。 しかし、ほとんどの自動化システム -- 有毒な言語を検出してモデレートする場合 -- は、ユーザにフィードバックを提供しません。 我々はこれらのモデルの有害な予測を可視化するインタラクティブなオープンソースWebツールであるRECASTを紹介し、フラグ付き有毒な言語に対する代替提案を提供する。 当社の作業は,これらの自動モデレーションツールを使用するユーザに対して,新たなリコースのパスも提供します。 RECASTは毒性の分類に責任のあるテキストを強調し、ユーザーがインタラクティブに中立的な代替語で潜在的に有毒なフレーズを置き換えることができます。 2つの大規模ユーザ評価によるRECASTの効果を検討した結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。 ユーザーはブラックボックスモデルが使用する毒性基準をより深く理解し、透明性とリアクションを可能にした。 さらに、ユーザーが独自の判断ではなく、これらのモデルのための言語を最適化することに焦点を合わせると(自動モデルを展開するための暗黙のインセンティブと目標である)、これらのモデルは人間のアノテーションと比較して毒性の効果的な分類器になりません。 これにより、毒性検出モデルがどのように機能し、機能すべきか、およびオンライン談話の将来への影響についての議論が開かれます。

With the widespread use of toxic language online, platforms are increasingly using automated systems that leverage advances in natural language processing to automatically flag and remove toxic comments. However, most automated systems -- when detecting and moderating toxic language -- do not provide feedback to their users, let alone provide an avenue of recourse for these users to make actionable changes. We present our work, RECAST, an interactive, open-sourced web tool for visualizing these models' toxic predictions, while providing alternative suggestions for flagged toxic language. Our work also provides users with a new path of recourse when using these automated moderation tools. RECAST highlights text responsible for classifying toxicity, and allows users to interactively substitute potentially toxic phrases with neutral alternatives. We examined the effect of RECAST via two large-scale user evaluations, and found that RECAST was highly effective at helping users reduce toxicity as detected through the model. Users also gained a stronger understanding of the underlying toxicity criterion used by black-box models, enabling transparency and recourse. In addition, we found that when users focus on optimizing language for these models instead of their own judgement (which is the implied incentive and goal of deploying automated models), these models cease to be effective classifiers of toxicity compared to human annotations. This opens a discussion for how toxicity detection models work and should work, and their effect on the future of online discourse.
翻訳日:2021-02-11 12:11:43 公開日:2021-02-10
# 動的ニューラルネットワーク:調査

Dynamic Neural Networks: A Survey ( http://arxiv.org/abs/2102.04906v2 )

ライセンス: Link先を確認
Yizeng Han, Gao Huang, Shiji Song, Le Yang, Honghui Wang, Yulin Wang(参考訳) 動的ニューラルネットワークはディープラーニングにおける新たな研究テーマである。 推論段階で一定の計算グラフとパラメータを持つ静的モデルと比較して、動的ネットワークは構造やパラメータを異なる入力に適応することができ、精度、計算効率、適応性などの点で顕著な利点をもたらします。 In this survey, we comprehensively review this rapidly developing area by dividing dynamic networks into three main categories: 1) instance-wise dynamic models that process each instance with data-dependent architectures or parameters; 2) spatial-wise dynamic networks that conduct adaptive computation with respect to different spatial locations of image data and 3) temporal-wise dynamic models that perform adaptive inference along the temporal dimension for sequential data such as videos and texts. 動的ネットワークの重要な研究課題,例えばアーキテクチャ設計,意思決定手法,最適化技術,応用について体系的に検討する。 最後に,この分野のオープンな問題と,今後の興味深い研究の方向性について考察する。

Dynamic neural network is an emerging research topic in deep learning. Compared to static models which have fixed computational graphs and parameters at the inference stage, dynamic networks can adapt their structures or parameters to different inputs, leading to notable advantages in terms of accuracy, computational efficiency, adaptiveness, etc. In this survey, we comprehensively review this rapidly developing area by dividing dynamic networks into three main categories: 1) instance-wise dynamic models that process each instance with data-dependent architectures or parameters; 2) spatial-wise dynamic networks that conduct adaptive computation with respect to different spatial locations of image data and 3) temporal-wise dynamic models that perform adaptive inference along the temporal dimension for sequential data such as videos and texts. The important research problems of dynamic networks, e.g., architecture design, decision making scheme, optimization technique and applications, are reviewed systematically. Finally, we discuss the open problems in this field together with interesting future research directions.
翻訳日:2021-02-11 12:11:18 公開日:2021-02-10
# fNIRSを用いた高齢者のアクティブウォーキングタスクの機械学習に基づく分類

Machine Learning-based Classification of Active Walking Tasks in Older Adults using fNIRS ( http://arxiv.org/abs/2102.03987v2 )

ライセンス: Link先を確認
Dongning Ma, Meltem Izzetoglu, Roee Holtzer, Xun Jiao(参考訳) 歩行能力の低下は高齢者によく見られ、障害や死亡の指標である。 機能的近赤外分光法(fNIRS)によって測定された前頭前皮質における歩行の皮質制御は、二重タスク歩行中に年齢、性別、認知状態、および様々な年齢関連疾患条件によって緩和されることが示されている。 本研究では, FNIRS信号に基づく高齢者のアクティブ歩行タスクを, 単一タスク・ウォーク (STW) またはデュアルタスク・ウォーク (DTW) のどちらかの条件に分類する機械学習手法を用いた分類モデルを開発する。 本研究では, FNIRS信号に基づく高齢者のアクティブウォーキングタスクを, シングルタスクウォーキング (STW) またはデュアルタスクウォーキング (DTW) に分類する機械学習手法を用いた分類モデルを開発する。 fNIRS測定では,前頭前皮質 (PFC) から得られたオキシヘモグロビン (HbO2) とデオキシヘモグロビン (Hb) の信号が, 二次認知タスクの有無にかかわらず, 地上歩行タスクで実行された。 我々は,HbおよびHbo2信号の最小値,最大値,平均値,歪値,曲率を算出し,fNIRS関連特徴を抽出する。 次に、機能エンコーディングを使用して値をバイナリ空間にマッピングします。 これらの特徴を利用して、ロジスティック回帰(LR)、決定木(DT)、サポートベクターマシン(SVM)、k近傍(kNN)、多層パーセプトロン(MLP)、ランダムフォレスト(RF)など、さまざまな機械学習手法を適用し、評価します。 その結果、機械学習モデルが約97\%の分類精度を達成できることが示された。

Decline in gait features is common in older adults and an indicator of disability and mortality. Cortical control of gait, specifically in the pre-frontal cortex as measured by functional near infrared spectroscopy (fNIRS), during dual task walking has shown to be moderated by age, gender, cognitive status, and various age-related disease conditions. In this study, we develop classification models using machine learning methods to classify active walking tasks in older adults based on fNIRS signals into either Single-Task-Walk (STW) or Dual-Task-Walk (DTW) conditions. In this study, we develop classification models using machine learning methods to classify active walking tasks in older adults based on fNIRS signals into either single-task walking (STW) or dual-task walking (DTW). The fNIRS measurements included oxyhemoglobin (HbO2) and deoxyhemoglobin (Hb) signals obtained from prefrontal cortex (PFC) of the subject performing on the ground active walking tasks with or without a secondary cognitive task. We extract the fNIRS-related features by calculating the minimum, maximum, mean, skewness and kurtosis values of Hb and Hbo2 signals. We then use feature encoding to map the values into binary space. Using these features, we apply and evaluate various machine learning methods including logistic regression (LR), decision tree (DT), support vector machine (SVM), k-nearest neighbors (kNN), multilayer perceptron (MLP), and Random Forest (RF). Results showed that the machine learning models can achieve around 97\% classification accuracy.
翻訳日:2021-02-11 12:11:04 公開日:2021-02-10
# (参考訳) 広義のカリキュラムマッピング:自然言語処理と視覚支援コミュニケーションを用いて代表的プログラム計画体験を作成する [全文訳有]

Broader terms curriculum mapping: Using natural language processing and visual-supported communication to create representative program planning experiences ( http://arxiv.org/abs/2102.04811v2 )

ライセンス: CC BY 4.0
Rog\'erio Duarte, \^Angela Lacerda Nobre, Fernando Pimentel, Marc Jacquinet(参考訳) 認定機関は、学生、産業、大学教員、社会の視点を反映し、すべてのステークホルダーに開かれたカリキュラム開発プロセスを求めます。 しかし、学部と非学部のコミュニケーションの難しさは、途方もないコラボレーションの可能性を残します。 本論文では,学習目的,自然言語処理,データ可視化の分類を用いて,普遍的,自己説明的,権限のあるプログラム計画表現を提供する手法を提案する。 簡単な例として、この手法が代表的なプログラム計画経験にどのように寄与するかを示し、その方法の正確性と有用性を確認するためにケーススタディが使用される。

Accreditation bodies call for curriculum development processes open to all stakeholders, reflecting viewpoints of students, industry, university faculty and society. However, communication difficulties between faculty and non-faculty groups leave unexplored an immense collaboration potential. Using classification of learning objectives, natural language processing, and data visualization, this paper presents a method to deliver program plan representations that are universal, self-explanatory, and empowering. A simple example shows how the method contributes to representative program planning experiences and a case study is used to confirm the method's accuracy and utility.
翻訳日:2021-02-11 12:10:03 公開日:2021-02-10