このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201212となっている論文です。

PDF登録状況(公開日: 20201212)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) Mix and Match: 新しいFPGA中心のディープニューラルネットワーク量子化フレームワーク [全文訳有]

Mix and Match: A Novel FPGA-Centric Deep Neural Network Quantization Framework ( http://arxiv.org/abs/2012.04240v2 )

ライセンス: CC BY 4.0
Sung-En Chang, Yanyu Li, Mengshu Sun, Runbin Shi, Hayden K.-H. So, Xuehai Qian, Yanzhi Wang, Xue Lin(参考訳) ディープニューラルネットワーク(DNN)は、様々なアプリケーションドメインで素晴らしいパフォーマンスを実現している。 多様なDNNモデルをサポートするために, ASIC, FPGA, 組込みシステムなどのエッジコンピューティングプラットフォーム上でのDNN推論の効率的な実装について検討した。 モデルサイズと計算量が大きいため、モデル圧縮はDNNモデルをエッジデバイスにデプロイするための重要なステップである。 本稿では,重量量子化に着目し,重量計算を補完するハードウェアフレンドリーなモデル圧縮手法を提案する。 全ての重みに対して同じ量子化スキームを用いる既存の方法とは異なり、重み行列の異なる行に対して異なる量子化スキームを適用する最初の解を提案する。 1) 異なる列における重みの分布は同じではないこと,(2) 異種FPGAハードウェア資源のより良い利用を実現する可能性によって動機づけられる。 そこで本研究では,まず,論理シフト器と加算器に乗算演算を置き換え,FPGA LUTリソースの高効率な実装を可能にする,ガウス的な重み分布に適したハードウェアフレンドリな量子化手法を提案する。 対照的に、既存の不動点量子化は一様重み分布に適しており、dspにより効率的に実装できる。 そこで本研究では,提案するSP2と固定点スキームのアンサンブルを用いたFPGA中心の混合スキーム量子化(MSQ)を提案する。 2つのスキームを組み合わせることで、重量分布との整合性が向上し、精度が向上する。

Deep Neural Networks (DNNs) have achieved extraordinary performance in various application domains. To support diverse DNN models, efficient implementations of DNN inference on edge-computing platforms, e.g., ASICs, FPGAs, and embedded systems, are extensively investigated. Due to the huge model size and computation amount, model compression is a critical step to deploy DNN models on edge devices. This paper focuses on weight quantization, a hardware-friendly model compression approach that is complementary to weight pruning. Unlike existing methods that use the same quantization scheme for all weights, we propose the first solution that applies different quantization schemes for different rows of the weight matrix. It is motivated by (1) the distribution of the weights in the different rows are not the same; and (2) the potential of achieving better utilization of heterogeneous FPGA hardware resources. To achieve that, we first propose a hardware-friendly quantization scheme named sum-of-power-of-2 (SP2) suitable for Gaussian-like weight distribution, in which the multiplication arithmetic can be replaced with logic shifter and adder, thereby enabling highly efficient implementations with the FPGA LUT resources. In contrast, the existing fixed-point quantization is suitable for Uniform-like weight distribution and can be implemented efficiently by DSP. Then to fully explore the resources, we propose an FPGA-centric mixed scheme quantization (MSQ) with an ensemble of the proposed SP2 and the fixed-point schemes. Combining the two schemes can maintain, or even increase accuracy due to better matching with weight distributions.
翻訳日:2021-05-17 09:07:05 公開日:2020-12-12
# 相対的区間伝播による深部ニューラルネットワークの解釈 : 比較勾配と宿主活動の解析

Interpreting Deep Neural Networks with Relative Sectional Propagation by Analyzing Comparative Gradients and Hostile Activations ( http://arxiv.org/abs/2012.03434v2 )

ライセンス: Link先を確認
Woo-Jeoung Nam, Jaesik Choi, Seong-Whan Lee(参考訳) ディープニューラルネットワーク(DNN)の明確な透明性は、複雑な内部構造と深い階層に沿った非線形変換によって妨げられている。 本稿では,クラス判別的帰属特性と明瞭な対象性によって出力予測を完全に分解する新しい帰属法である相対的分節伝播(rsp)を提案する。 我々は,dnnの分解におけるトレードオフ関係であるバックプロパゲーションに基づく帰属手法の欠点を慎重に検討する。 我々は、敵性因子を標的の属性の発見を妨げる要素として定義し、活性ニューロンの非抑制的な性質を克服するために、それを区別可能な方法で伝達する。 その結果、目的(正)と敵(負)の属性のバイポーラ関連スコアを、重要度に応じて各属性を維持しながら割り当てることが可能となる。 また, チャネル帰属マップの競合ユニットを排除することにより, 目標の妥当性スコアと後方伝播時の敵対的帰属との差を減少させるのを防ぐために, パーシング手法を提案する。 そこで本手法では,従来の帰属法と比較して,クラス識別性と活性化ニューロンの詳細な解明により,dnnの予測を分解することができる。 実証実験環境では, (i) ポインティングゲーム, (ii) miou, (iii) モデルの感度をpascal voc 2007, ms coco 2014, imagenetデータセットを用いて評価した。 その結果,本手法は,特徴的かつ直感的な可視化を含む既存の後方分解法よりも優れていた。

The clear transparency of Deep Neural Networks (DNNs) is hampered by complex internal structures and nonlinear transformations along deep hierarchies. In this paper, we propose a new attribution method, Relative Sectional Propagation (RSP), for fully decomposing the output predictions with the characteristics of class-discriminative attributions and clear objectness. We carefully revisit some shortcomings of backpropagation-base d attribution methods, which are trade-off relations in decomposing DNNs. We define hostile factor as an element that interferes with finding the attributions of the target and propagate it in a distinguishable way to overcome the non-suppressed nature of activated neurons. As a result, it is possible to assign the bi-polar relevance scores of the target (positive) and hostile (negative) attributions while maintaining each attribution aligned with the importance. We also present the purging techniques to prevent the decrement of the gap between the relevance scores of the target and hostile attributions during backward propagation by eliminating the conflicting units to channel attribution map. Therefore, our method makes it possible to decompose the predictions of DNNs with clearer class-discriminative ness and detailed elucidations of activation neurons compared to the conventional attribution methods. In a verified experimental environment, we report the results of the assessments: (i) Pointing Game, (ii) mIoU, and (iii) Model Sensitivity with PASCAL VOC 2007, MS COCO 2014, and ImageNet datasets. The results demonstrate that our method outperforms existing backward decomposition methods, including distinctive and intuitive visualizations.
翻訳日:2021-05-16 21:25:27 公開日:2020-12-12
# ブラックボックス最適化アルゴリズムの最適アンサンブルのためのgpu高速化排他探索

GPU Accelerated Exhaustive Search for Optimal Ensemble of Black-Box Optimization Algorithms ( http://arxiv.org/abs/2012.04201v2 )

ライセンス: Link先を確認
Jiwei Liu, Bojan Tunguz, Gilberto Titericz(参考訳) ブラックボックス最適化は、理解するよりも実験しやすい複雑な機械学習アルゴリズムのチューニングに不可欠である。 本稿では,ブラックボックス最適化アルゴリズムの単純なアンサンブルが,いずれのアルゴリズムよりも優れていることを示す。 しかし、そのような最適なアンサンブルを探すには、多くの実験が必要となる。 我々は,複数の実験を並列に実行することで,ブラックボックス最適化アルゴリズムの最適アンサンブルのブラト力探索を高速化するマルチGPU最適化フレームワークを提案する。 軽量な最適化はCPUによって行われ、高価なモデルトレーニングと評価はGPUに割り当てられる。 我々は270万のモデルをトレーニングし、541,440の最適化を実行することで15の最適化器を評価する。 DGX-1では、2つの20コアCPUで10日以上から8GPUで24時間未満に短縮される。 GPUによる排他的検索による最適なアンサンブルによって、NeurIPS 2020ブラックボックス最適化の2位を獲得した。

Black-box optimization is essential for tuning complex machine learning algorithms which are easier to experiment with than to understand. In this paper, we show that a simple ensemble of black-box optimization algorithms can outperform any single one of them. However, searching for such an optimal ensemble requires a large number of experiments. We propose a Multi-GPU-optimized framework to accelerate a brute force search for the optimal ensemble of black-box optimization algorithms by running many experiments in parallel. The lightweight optimizations are performed by CPU while expensive model training and evaluations are assigned to GPUs. We evaluate 15 optimizers by training 2.7 million models and running 541,440 optimizations. On a DGX-1, the search time is reduced from more than 10 days on two 20-core CPUs to less than 24 hours on 8-GPUs. With the optimal ensemble found by GPU-accelerated exhaustive search, we won the 2nd place of NeurIPS 2020 black-box optimization challenge.
翻訳日:2021-05-16 21:05:20 公開日:2020-12-12
# 曖昧な音声感情認識のための多クラス対話型学習

Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition ( http://arxiv.org/abs/2012.05429v2 )

ライセンス: Link先を確認
Ying Zhou, Xuefeng Liang, Yu Gu, Yifei Yin, Longshan Yao(参考訳) 近年,音声感情認識技術は,コールセンターや社会ロボット,医療といった産業応用において非常に重要である。 音声認識と音声感情認識の組み合わせは、フィードバック効率とサービス品質を向上させることができる。 このように、音声感情認識は、産業と学術の両方で注目を集めている。 発話全体に存在する感情は様々な確率を持つため、音声の感情は曖昧になり、タスク認識に大きな課題が生じる可能性がある。 しかし、以前の研究では、特定の発話ごとに1つのラベルまたは複数ラベルを割り当てることが一般的であった。 したがって、それらのアルゴリズムは不適切な表現のために精度が低い。 最適相互作用理論に着想を得て,新しい多クラス対話型学習法(MCIL)を提案することで,あいまいな音声感情に対処する。 MCILでは、複数の異なる分類器がまず複数の個人を模倣し、不明瞭な感情の無矛盾な認識を持ち、新しい曖昧なラベル(感情の確率分布)を構築する。 すると、彼らは新しいラベルで再訓練され、認識と相互作用する。 この手順により、各分類器は、他人からあいまいなデータのより良い表現を学習でき、さらに認識能力を向上させることができる。 3つのベンチマークコーパス(MAS, IEMOCAP, FAU-AIBO)の実験は、MCILが各分類器の性能を向上するだけでなく、認識一貫性を中程度から実質的に向上させることを示した。

In recent years, speech emotion recognition technology is of great significance in industrial applications such as call centers, social robots and health care. The combination of speech recognition and speech emotion recognition can improve the feedback efficiency and the quality of service. Thus, the speech emotion recognition has been attracted much attention in both industry and academic. Since emotions existing in an entire utterance may have varied probabilities, speech emotion is likely to be ambiguous, which poses great challenges to recognition tasks. However, previous studies commonly assigned a single-label or multi-label to each utterance in certain. Therefore, their algorithms result in low accuracies because of the inappropriate representation. Inspired by the optimally interacting theory, we address the ambiguous speech emotions by proposing a novel multi-classifier interactive learning (MCIL) method. In MCIL, multiple different classifiers first mimic several individuals, who have inconsistent cognitions of ambiguous emotions, and construct new ambiguous labels (the emotion probability distribution). Then, they are retrained with the new labels to interact with their cognitions. This procedure enables each classifier to learn better representations of ambiguous data from others, and further improves the recognition ability. The experiments on three benchmark corpora (MAS, IEMOCAP, and FAU-AIBO) demonstrate that MCIL does not only improve each classifier's performance, but also raises their recognition consistency from moderate to substantial.
翻訳日:2021-05-15 06:15:26 公開日:2020-12-12
# (参考訳) talI:背骨トーション角を用いたタンパク質構造アライメント [全文訳有]

TALI: Protein Structure Alignment Using Backbone Torsion Angles ( http://arxiv.org/abs/2012.06697v1 )

ライセンス: CC BY 4.0
Xijiang Miao, Michael G. Bryson, Homayoun Valafar(参考訳) 本稿では,従来の距離行列ではなく,タンパク質背骨ねじれ角度に基づく新しいタンパク質構造アライメント法(tali)を提案する。 2つのタンパク質の構造的アライメントは2つの数列(バックボーンのねじれ角)の比較に基づいているため、スミス・ワーターマンやニードルマン・ウンシュのような多くのよく開発された手法を利用することができる。 本稿では, DALI, CE, SSM などの構造アライメント手法と PSI-BLAST に基づくシーケンスアライメント手法との比較を行った。 TALIは、挑戦的なタンパク質に応用する他の方法よりも大きな成功を収めた。 TALIはリモート構造ホモロジーの認識に成功している。 TALIはまた、内部ドメインが180$^\circ$に近い回転によって構造的差異が生じる2つのタンパク質間の構造的ホモロジーを同定する能力を示した。

This article introduces a novel protein structure alignment method (named TALI) based on the protein backbone torsion angle instead of the more traditional distance matrix. Because the structural alignment of the two proteins is based on the comparison of two sequences of numbers (backbone torsion angles), we can take advantage of a large number of well-developed methods such as Smith-Waterman or Needleman-Wunsch. Here we report the result of TALI in comparison to other structure alignment methods such as DALI, CE, and SSM ass well as sequence alignment based on PSI-BLAST. TALI demonstrated great success over all other methods in application to challenging proteins. TALI was more successful in recognizing remote structural homology. TALI also demonstrated an ability to identify structural homology between two proteins where the structural difference was due to a rotation of internal domains by nearly 180$^\circ$.
翻訳日:2021-05-10 11:55:15 公開日:2020-12-12
# (参考訳) 深い自己回帰ポリシーネットワークを用いたノイズロバストエンド・ツー・エンド量子制御 [全文訳有]

Noise-Robust End-to-End Quantum Control using Deep Autoregressive Policy Networks ( http://arxiv.org/abs/2012.06701v1 )

ライセンス: CC BY 4.0
Jiahao Yao, Paul K\"ottering, Hans Gundlach, Lin Lin, Marin Bukov(参考訳) 変分量子固有解法は、量子コンピューティングデバイスを使うことで、強相関量子多体系の基底エネルギーや基底状態などの複雑な問題に対する解を見つけることができるため、近年注目を集めている。 多くのアプリケーションでは、連続パラメータと離散パラメータの両方の最適化が大きな課題となる。 強化学習(rl)を用いて,連続的および離散的な自由度を不確実性-レジリエントな方法で同時に最適化できるハイブリッドポリシー勾配アルゴリズムを提案する。 ハイブリッドポリシは、因果関係を捉えるために、深い自己回帰ニューラルネットワークによってモデル化される。 一般化量子近似最適化 ansatz: rlエージェントは、事前定義された集合からユニタリの最適な配列を構成する離散的な組合せ問題を解くと同時に、これらユニタリが適用される連続持続時間を最適化する。 古典的, 量子的計測ノイズと制御単位時間における誤差の3つの不確実性源を考慮し, エージェントのノイズロス特性を実証する。 我々の研究は、強化学習と量子制御の相乗効果を示す。

Variational quantum eigensolvers have recently received increased attention, as they enable the use of quantum computing devices to find solutions to complex problems, such as the ground energy and ground state of strongly-correlated quantum many-body systems. In many applications, it is the optimization of both continuous and discrete parameters that poses a formidable challenge. Using reinforcement learning (RL), we present a hybrid policy gradient algorithm capable of simultaneously optimizing continuous and discrete degrees of freedom in an uncertainty-resilien t way. The hybrid policy is modeled by a deep autoregressive neural network to capture causality. We employ the algorithm to prepare the ground state of the nonintegrable quantum Ising model in a unitary process, parametrized by a generalized quantum approximate optimization ansatz: the RL agent solves the discrete combinatorial problem of constructing the optimal sequences of unitaries out of a predefined set and, at the same time, it optimizes the continuous durations for which these unitaries are applied. We demonstrate the noise-robust features of the agent by considering three sources of uncertainty: classical and quantum measurement noise, and errors in the control unitary durations. Our work exhibits the beneficial synergy between reinforcement learning and quantum control.
翻訳日:2021-05-10 11:42:21 公開日:2020-12-12
# (参考訳) 顔ランドマーク検出のためのマルチソース一貫性を用いた教師学習 [全文訳有]

Teacher-Student Asynchronous Learning with Multi-Source Consistency for Facial Landmark Detection ( http://arxiv.org/abs/2012.06711v1 )

ライセンス: CC BY 4.0
Rongye Meng, Sanping Zhou, Xingyu Wan, Mengliu Li, Jinjun Wang(参考訳) ビデオにおける大規模顔ランドマーク検出タスクのアノテーションコストが高いことから,高品質な擬似ラベルをマイニングしてトレーニングに参加するための半教師付きパラダイムが提案されている。 しかし、自己学習ベースの手法は、徐々に多くのサンプルを訓練することが多く、その性能は擬似ラベル付きサンプルの数によって大きく異なる。 本稿では,マルチソース・スーパーバイザリー・シグナル・一貫性基準に基づく教師教育型非同期学習(tsal)フレームワークを提案し,一貫性制約を通じて擬似ラベルを暗黙的にマイニングする。 具体的には、tsalフレームワークは、まったく同じ構造を持つ2つのモデルを含んでいる。 急進的な学生は、同じタスクからのマルチソース監視信号を使用してパラメータを更新し、穏やかな教師はパラメータを更新するためにシングルソース監視信号を使用する。 生徒の提案を合理的に吸収するために,教師のパラメータを再帰的平均フィルタリングにより更新する。 実験の結果,マルチソース監視信号のノイズを効果的にフィルタし,ネットワークパラメータ更新に重要な擬似ラベルをマイニングできることが判明した。 そして、300W、AFLW、300VWベンチマークに関する広範な実験は、TSALフレームワークが最先端のパフォーマンスを達成することを示している。

Due to the high annotation cost of large-scale facial landmark detection tasks in videos, a semi-supervised paradigm that uses self-training for mining high-quality pseudo-labels to participate in training has been proposed by researchers. However, self-training based methods often train with a gradually increasing number of samples, whose performances vary a lot depending on the number of pseudo-labeled samples added. In this paper, we propose a teacher-student asynchronous learning~(TSAL) framework based on the multi-source supervision signal consistency criterion, which implicitly mines pseudo-labels through consistency constraints. Specifically, the TSAL framework contains two models with exactly the same structure. The radical student uses multi-source supervision signals from the same task to update parameters, while the calm teacher uses a single-source supervision signal to update parameters. In order to reasonably absorb student's suggestions, teacher's parameters are updated again through recursive average filtering. The experimental results prove that asynchronous-learnin g framework can effectively filter noise in multi-source supervision signals, thereby mining the pseudo-labels which are more significant for network parameter updating. And extensive experiments on 300W, AFLW, and 300VW benchmarks show that the TSAL framework achieves state-of-the-art performance.
翻訳日:2021-05-10 11:07:08 公開日:2020-12-12
# (参考訳) 予測制約によるスパースデータからの一貫性深部生成モデルの学習 [全文訳有]

Learning Consistent Deep Generative Models from Sparse Data via Prediction Constraints ( http://arxiv.org/abs/2012.06718v1 )

ライセンス: CC BY 4.0
Gabriel Hope, Madina Abdrakhmanova, Xiaoyin Chen, Michael C. Hughes, Michael C. Hughes and Erik B. Sudderth(参考訳) 生成的および識別的目標のバランスをとる変分オートエンコーダやその他の深層生成モデルを学ぶための新しいフレームワークを開発する。 提案手法はモデルパラメータを最適化し、観測データの可能性の変動下限を最大化し、モデルの誤特定が不正確な予測につながるのを防ぐタスク固有の予測制約を課す。 さらに,生成モデルから自然に導出される一貫性制約を施行し,元のデータと一致させるために再構成されたデータの予測を要求できる。 この2つのコントリビューション – 予測制約と一貫性制約 – が,特にカテゴリラベルが疎外だがラベルなしデータが豊富である半教師付きシナリオにおいて,有望な画像分類性能につながることを示す。 提案手法は,空間変換をキャプチャする潜伏変数を持つ深層生成モデルを拡張することで,半教師付き分類性能を直接向上する。

We develop a new framework for learning variational autoencoders and other deep generative models that balances generative and discriminative goals. Our framework optimizes model parameters to maximize a variational lower bound on the likelihood of observed data, subject to a task-specific prediction constraint that prevents model misspecification from leading to inaccurate predictions. We further enforce a consistency constraint, derived naturally from the generative model, that requires predictions on reconstructed data to match those on the original data. We show that these two contributions -- prediction constraints and consistency constraints -- lead to promising image classification performance, especially in the semi-supervised scenario where category labels are sparse but unlabeled data is plentiful. Our approach enables advances in generative modeling to directly boost semi-supervised classification performance, an ability we demonstrate by augmenting deep generative models with latent variables capturing spatial transformations.
翻訳日:2021-05-10 10:51:24 公開日:2020-12-12
# (参考訳) ロボットとクラウドの連続学習のための学習データのサンプリング [全文訳有]

Sampling Training Data for Continual Learning Between Robots and the Cloud ( http://arxiv.org/abs/2012.06739v1 )

ライセンス: CC BY 4.0
Sandeep Chinchali, Evgenya Pergament, Manabu Nakanoya, Eyal Cidon, Edward Zhang, Dinesh Bharadia, Marco Pavone, and Sachin Katti(参考訳) 今日のロボット艦隊は、ロボットの知覚モデルを改善するために、道路建設現場の稀なシーンのような貴重なトレーニングデータのために採掘できる、高ボリュームのビデオとLIDARセンサーストリームをますます測定している。 しかしながら、中央の計算サーバ(あるいは"クラウド")におけるリッチなセンサデータの量の増加に対する認識モデルの再トレーニングは、ネットワーク転送、クラウドストレージ、ヒューマンアノテーション、クラウドコンピューティングリソースに膨大な時間とコスト負担を課します。 そこで我々は,ロボット上に駐在するインテリジェントサンプリングアルゴリズムであるHarvestNetを導入し,希少かつ有用なイベントを格納するだけでシステムのボトルネックを低減し,クラウドで再トレーニングされた知覚モデルを改善する。 HarvestNetは、新しい道路建設現場の機械学習モデル、自動運転車のフィールドテスト、およびストリーミング顔認識の精度を大幅に向上させ、クラウドストレージ、データセットアノテーション時間、クラウド計算時間を65.7~81.3%削減した。 さらに、ベースラインアルゴリズムよりも1.05-2.58倍正確であり、scalablyは組み込みディープラーニングハードウェア上で動作する。 我々は、Google Edge Tensor Processing Unit(TPU)のための計算効率の高い知覚モデルスイート、拡張技術レポート、そして https://sites.google .com/view/harvestnet で研究コミュニティに新しいビデオデータセットを提供する。

Today's robotic fleets are increasingly measuring high-volume video and LIDAR sensory streams, which can be mined for valuable training data, such as rare scenes of road construction sites, to steadily improve robotic perception models. However, re-training perception models on growing volumes of rich sensory data in central compute servers (or the "cloud") places an enormous time and cost burden on network transfer, cloud storage, human annotation, and cloud computing resources. Hence, we introduce HarvestNet, an intelligent sampling algorithm that resides on-board a robot and reduces system bottlenecks by only storing rare, useful events to steadily improve perception models re-trained in the cloud. HarvestNet significantly improves the accuracy of machine-learning models on our novel dataset of road construction sites, field testing of self-driving cars, and streaming face recognition, while reducing cloud storage, dataset annotation time, and cloud compute time by between 65.7-81.3%. Further, it is between 1.05-2.58x more accurate than baseline algorithms and scalably runs on embedded deep learning hardware. We provide a suite of compute-efficient perception models for the Google Edge Tensor Processing Unit (TPU), an extended technical report, and a novel video dataset to the research community at https://sites.google .com/view/harvestnet .
翻訳日:2021-05-10 10:23:30 公開日:2020-12-12
# (参考訳) 繰り返しネットワークにおける複数遅延ターゲットの効率的な組み込み [全文訳有]

Efficient Incorporation of Multiple Latency Targets in the Once-For-All Network ( http://arxiv.org/abs/2012.06748v1 )

ライセンス: CC BY 4.0
Vidhur Kumar and Andrew Szidon(参考訳) Neural Architecture Searchは、アーキテクチャエンジニアリングを自動化する効果的な方法として証明されている。 この分野の最近の取り組みは、異なるターゲットハードウェアに効率的にデプロイするために、精度やレイテンシなど、複数の目的のアーキテクチャを検討することである。 once-for-all (ofa) はトレーニングと検索を分離し、レイテンシー制約の異なる高性能ネットワークを見つけることができる。 しかし、検索フェーズは複数の遅延ターゲットを組み込むのに非効率である。 本稿では,複数の遅延目標をofaネットワークに効率的に組み込むために,ウォームスタートとランダムネットワークプルーニングを用いた2つの戦略(トップダウンとボトムアップ)を提案する。 我々はこれらの戦略を現在のOFA実装に対して評価し、我々の戦略が各レイテンシターゲットで見つかったサブネットワークの精度を犠牲にすることなく、実行時のパフォーマンスを大幅に向上させることを示した。 さらに、これらの性能向上はOFAネットワークが使用するすべての設計空間に一般化されることを示す。

Neural Architecture Search has proven an effective method of automating architecture engineering. Recent work in the field has been to look for architectures subject to multiple objectives such as accuracy and latency to efficiently deploy them on different target hardware. Once-for-All (OFA) is one such method that decouples training and search and is able to find high-performance networks for different latency constraints. However, the search phase is inefficient at incorporating multiple latency targets. In this paper, we introduce two strategies (Top-down and Bottom-up) that use warm starting and randomized network pruning for the efficient incorporation of multiple latency targets in the OFA network. We evaluate these strategies against the current OFA implementation and demonstrate that our strategies offer significant running time performance gains while not sacrificing the accuracy of the subnetworks that were found for each latency target. We further demonstrate that these performance gains are generalized to every design space used by the OFA network.
翻訳日:2021-05-10 09:41:32 公開日:2020-12-12
# (参考訳) SenSeNet: ドキュメント構造を備えたニューラルキーフレーズ生成 [全文訳有]

SenSeNet: Neural Keyphrase Generation with Document Structure ( http://arxiv.org/abs/2012.06754v1 )

ライセンス: CC BY 4.0
Yichao Luo, Zhengyan Li, Bingning Wang, Xiaoyu Xing, Qi Zhang, Xuanjing Huang(参考訳) キーフレーズ生成(英: keyphrase generation、kg)は、特定の文書や文学作品から中心的なトピックを生成するタスクであり、内容を理解するために必要な重要な情報をキャプチャする。 科学文献などの文書には、文書の論理的意味構造を表す豊富なメタ文情報が含まれている。 しかし、以前のアプローチでは、文書論理構造の制約を無視し、誤って重要でない文からキーフレーズを生成する。 そこで本研究では,メタセンス誘導バイアスをKGに組み込むSentence Selective Network(SenSeNet)を提案する。 SenSeNetでは、エンドツーエンドのトレーニングにストレートスルー推定器を使用し、文選択モジュールのトレーニングに弱い監督を組み込む。 実験結果から,SenSeNetは,構造情報の取得とKGタスクにおける文の意義の識別の有効性を示すセq2seqフレームワークに基づいて,主要なKGモデルの性能を一貫して向上させることができることがわかった。

Keyphrase Generation (KG) is the task of generating central topics from a given document or literary work, which captures the crucial information necessary to understand the content. Documents such as scientific literature contain rich meta-sentence information, which represents the logical-semantic structure of the documents. However, previous approaches ignore the constraints of document logical structure, and hence they mistakenly generate keyphrases from unimportant sentences. To address this problem, we propose a new method called Sentence Selective Network (SenSeNet) to incorporate the meta-sentence inductive bias into KG. In SenSeNet, we use a straight-through estimator for end-to-end training and incorporate weak supervision in the training of the sentence selection module. Experimental results show that SenSeNet can consistently improve the performance of major KG models based on seq2seq framework, which demonstrate the effectiveness of capturing structural information and distinguishing the significance of sentences in KG task.
翻訳日:2021-05-10 09:33:10 公開日:2020-12-12
# (参考訳) HI-Net:脳腫瘍分離のためのハイパーセンスインセプション3D UNet [全文訳有]

HI-Net: Hyperdense Inception 3D UNet for Brain Tumor Segmentation ( http://arxiv.org/abs/2012.06760v1 )

ライセンス: CC BY 4.0
Saqib Qamar, Parvez Ahmad, Linlin Shen(参考訳) 脳腫瘍セグメンテーションタスクは、組織を腫瘍全体(WT)、腫瘍コア(TC)、マルチモデルMRI画像を用いた腫瘍クラス(ET)に分類することを目的としている。 脳腫瘍の定量的解析は臨床意思決定に不可欠である。 手動セグメンテーションは退屈で時間がかかり、主観的だが、このタスクは自動セグメンテーションメソッドに対して非常に困難である。 強力な学習能力のおかげで、主に完全な畳み込みネットワークである畳み込みニューラルネットワーク(CNN)は、有望な脳腫瘍セグメンテーションを示している。 本稿では,脳腫瘍の3d重み付き畳み込み層を積み重ねてマルチスケール情報を取り込むhyperdense inception 3d unet (hi-net)を提案することで,脳腫瘍の分節性能をさらに向上させる。 因子化畳み込み層間の高密度接続を用いて、特徴の再利用性を利用して、よりコントラクショナルな情報を抽出する。 我々はダイス損失関数を用いてクラス不均衡に対処する。 提案アーキテクチャをbrats(multi-modal brain tumor segmentation challenge) 2020年テストデータセットで検証した。 提案手法により得られたBRATS 2020テストセットの予備結果から, ET, WT, TCのダイススコアは0.79457, 0.87494, 0.83712であった。

The brain tumor segmentation task aims to classify tissue into the whole tumor (WT), tumor core (TC), and enhancing tumor (ET) classes using multimodel MRI images. Quantitative analysis of brain tumors is critical for clinical decision making. While manual segmentation is tedious, time-consuming, and subjective, this task is at the same time very challenging to automatic segmentation methods. Thanks to the powerful learning ability, convolutional neural networks (CNNs), mainly fully convolutional networks, have shown promising brain tumor segmentation. This paper further boosts the performance of brain tumor segmentation by proposing hyperdense inception 3D UNet (HI-Net), which captures multi-scale information by stacking factorization of 3D weighted convolutional layers in the residual inception block. We use hyper dense connections among factorized convolutional layers to extract more contexual information, with the help of features reusability. We use a dice loss function to cope with class imbalances. We validate the proposed architecture on the multi-modal brain tumor segmentation challenges (BRATS) 2020 testing dataset. Preliminary results on the BRATS 2020 testing set show that achieved by our proposed approach, the dice (DSC) scores of ET, WT, and TC are 0.79457, 0.87494, and 0.83712, respectively.
翻訳日:2021-05-10 09:17:38 公開日:2020-12-12
# (参考訳) ベクトル量子化変分オートエンコーダを用いた潜時空間復元による異常検出 [全文訳有]

Anomaly detection through latent space restoration using vector-quantized variational autoencoders ( http://arxiv.org/abs/2012.06765v1 )

ライセンス: CC BY 4.0
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 本稿では,ベクトル量子化変分オートエンコーダ(vq-vaes)を用いた密度と復元に基づく手法を組み合わせた分散検出手法を提案する。 VQ-VAEモデルは、カテゴリの潜在空間で画像をエンコードすることを学ぶ。 潜在コードの事前分布は、オートリグレッシブ(ar)モデルを使用してモデル化される。 我々は,ARモデルにより推定される事前確率は,教師なし異常検出に有用であり,サンプル値と画素値の両方の異常スコアを推定できることを示した。 サンプルワイズスコアは、非常に不可能な符号を選択するしきい値の上の潜伏変数の負の対数類似度として定義される。 さらに、未実現の潜在コードを先行モデルからサンプルに置き換え、画素空間にデコードすることにより、配信外画像を配信内画像に復元する。 生成した復元と原画像の平均L1距離を画素ワイド異常スコアとする。 提案手法をMOODチャレンジデータセットで検証し,VAEを用いた標準的な再構築手法と比較して高い精度を報告した。

We propose an out-of-distribution detection method that combines density and restoration-based approaches using Vector-Quantized Variational Auto-Encoders (VQ-VAEs). The VQ-VAE model learns to encode images in a categorical latent space. The prior distribution of latent codes is then modelled using an Auto-Regressive (AR) model. We found that the prior probability estimated by the AR model can be useful for unsupervised anomaly detection and enables the estimation of both sample and pixel-wise anomaly scores. The sample-wise score is defined as the negative log-likelihood of the latent variables above a threshold selecting highly unlikely codes. Additionally, out-of-distribution images are restored into in-distribution images by replacing unlikely latent codes with samples from the prior model and decoding to pixel space. The average L1 distance between generated restorations and original image is used as pixel-wise anomaly score. We tested our approach on the MOOD challenge datasets, and report higher accuracies compared to a standard reconstruction-based approach with VAEs.
翻訳日:2021-05-10 09:09:08 公開日:2020-12-12
# (参考訳) 高分解能シーンモデリングのための距離とステレオデータの融合 [全文訳有]

Fusion of Range and Stereo Data for High-Resolution Scene-Modeling ( http://arxiv.org/abs/2012.06769v1 )

ライセンス: CC BY 4.0
Georgios D. Evangelidis, Miles Hansard, and Radu Horaud(参考訳) 本稿では,高分解能深度マップ構築におけるレンジステレオ融合の問題に対処する。 特に,低分解能深度データを高分解能ステレオデータと組み合わせ,最大後部(MAP)定式化を行う。 MRFオプティマイザ上に構築されている既存のスキームとは異なり、深度データから得られるスパースな初期格差を増大させることにより、階層的に解決される一連の局所エネルギー最小化問題から格差マップを推定する。 エネルギー関数のデータ項の3つの特性のため、この方法の精度は損なわれない。 第一に、サブピクセル補正を通じて、洗練された相関と格差を提供する新しい相関関数を組み込む。 第2に、相関スコアは、深度データに基づいて適応コスト集約ステップに依存する。 第3に、シーンテクスチャとカメラ形状に基づいてステレオと深度を適応的に融合させる。 これらの性質は、従来の種子育成法とは異なり、不正な格差を伝播する傾向を避けるため、より選択的な成長過程をもたらす。 提案手法は,標準的なデスクトップコンピュータ上で,2.0MP画像上で3FPSで動作可能なアルゴリズムを実現する。 新しい手法の強い性能は、最先端手法と定量的比較と、実深度ステレオデータを用いた定性比較によって確立される。

This paper addresses the problem of range-stereo fusion, for the construction of high-resolution depth maps. In particular, we combine low-resolution depth data with high-resolution stereo data, in a maximum a posteriori (MAP) formulation. Unlike existing schemes that build on MRF optimizers, we infer the disparity map from a series of local energy minimization problems that are solved hierarchically, by growing sparse initial disparities obtained from the depth data. The accuracy of the method is not compromised, owing to three properties of the data-term in the energy function. Firstly, it incorporates a new correlation function that is capable of providing refined correlations and disparities, via subpixel correction. Secondly, the correlation scores rely on an adaptive cost aggregation step, based on the depth data. Thirdly, the stereo and depth likelihoods are adaptively fused, based on the scene texture and camera geometry. These properties lead to a more selective growing process which, unlike previous seed-growing methods, avoids the tendency to propagate incorrect disparities. The proposed method gives rise to an intrinsically efficient algorithm, which runs at 3FPS on 2.0MP images on a standard desktop computer. The strong performance of the new method is established both by quantitative comparisons with state-of-the-art methods, and by qualitative comparisons using real depth-stereo data-sets.
翻訳日:2021-05-10 09:03:36 公開日:2020-12-12
# (参考訳) 自動ポリープセグメンテーションのための生成逆ネットワーク [全文訳有]

Generative Adversarial Networks for Automatic Polyp Segmentation ( http://arxiv.org/abs/2012.06771v1 )

ライセンス: CC BY 4.0
Awadelrahman M. A. Ali Ahmed (University of Oslo)(参考訳) 本稿では, 自動ポリプセグメンテーション問題のベンチマーキングに, 生成逆ネットワークフレームワークを用いて貢献することを目的とする。 画像から画像への変換タスクとして問題を認識し、条件生成対向ネットワークを用いて、画像によって条件付けられたマスクを入力として生成する。 ジェネレータと判別器はどちらも畳み込みニューラルネットワークである。 このモデルはジャカード指数0.4382、F2スコア0.611を達成した。

This paper aims to contribute in bench-marking the automatic polyp segmentation problem using generative adversarial networks framework. Perceiving the problem as an image-to-image translation task, conditional generative adversarial networks are utilized to generate masks conditioned by the images as inputs. Both generator and discriminator are convolution neural networks based. The model achieved 0.4382 on Jaccard index and 0.611 as F2 score.
翻訳日:2021-05-10 08:38:21 公開日:2020-12-12
# (参考訳) 飛行時間技術に基づく深度カメラとレンジスキャナの概要 [全文訳有]

An Overview of Depth Cameras and Range Scanners Based on Time-of-Flight Technologies ( http://arxiv.org/abs/2012.06772v1 )

ライセンス: CC BY 4.0
Radu Horaud, Miles Hansard, Georgios Evangelidis and Clement Menier(参考訳) time-of(tof)カメラは、シーンをレーザーやledソースで照らし、反射光を分析することで、シーンポイントの深さを計測できるセンサーである。 本稿では、まず、飛行時間カメラの基本的な測定原理について述べる。(i)光パルスがデバイスから物体へまた戻るのに要する時間を直接測定するパルス光カメラ、(ii)放出された信号と受信された信号の位相差を測定する連続波変調光カメラであり、それによって間接的に走行時間を得る。 プロトタイプや市販のデバイスを含む,既存の主要な設計についてレビューする。 また、関連するカメラキャリブレーションの原則や、TOFデバイスに適用される方法についてもレビューする。 最後に,TOFとカラーカメラの組み合わせによるメリットと課題について論じる。

Time-of-flight (TOF) cameras are sensors that can measure the depths of scene-points, by illuminating the scene with a controlled laser or LED source, and then analyzing the reflected light. In this paper, we will first describe the underlying measurement principles of time-of-flight cameras, including: (i) pulsed-light cameras, which measure directly the time taken for a light pulse to travel from the device to the object and back again, and (ii) continuous-wave modulated-light cameras, which measure the phase difference between the emitted and received signals, and hence obtain the travel time indirectly. We review the main existing designs, including prototypes as well as commercially available devices. We also review the relevant camera calibration principles, and how they are applied to TOF devices. Finally, we discuss the benefits and challenges of combined TOF and color camera systems.
翻訳日:2021-05-10 08:34:24 公開日:2020-12-12
# (参考訳) 狭義のデータセットを拡張して関連する課題を克服するためのランダムシャッフル法--心不全コホート例 [全文訳有]

A random shuffle method to expand a narrow dataset and overcome the associated challenges in a clinical study: a heart failure cohort example ( http://arxiv.org/abs/2012.06784v1 )

ライセンス: CC BY 4.0
Lorenzo Fassina, Alessandro Faragli, Francesco Paolo Lo Muzio, Sebastian Kelle, Carlo Campana, Burkert Pieske, Frank Edelmann, Alessio Alogna(参考訳) 心臓不全(HF)は世界中で少なくとも2600万人に影響を与えるため、HF患者の有害事象を予測することは臨床データ科学の主要なターゲットとなっている。 しかし、大規模なサンプルサイズを達成することは、患者募集の難しさや長時間のフォローアップが課題であり、欠落データの問題が増大することもある。 狭いデータセット濃度の問題(臨床データセットでは、そのデータセットの患者数を基数とする)を克服するには、人口増加アルゴリズムが不可欠である。 本研究の目的は,特定の仮説や回帰モデルを必要とせず,統計的に正当でありながら,HFデータセットの濃度を高めるランダムシャッフル法を設計することであった。 臨床症状と終点の予測における正当性について, ランダム反復測定法に対して, 基数向上を検証した。 特に、強化データセットの利点を強調するために、機械学習と回帰モデルが採用された。 提案したランダムシャッフル法は, データセット前処理前のHFデータセット濃度(データセット前処理前711例)を10回, 21回, ランダム反復測定アプローチで改善することができた。 このランダムシャッフル法は,欠落データや狭いデータセットの濃度が問題となる場合に,心血管領域や他のデータサイエンス問題に応用できると考えている。

Heart failure (HF) affects at least 26 million people worldwide, so predicting adverse events in HF patients represents a major target of clinical data science. However, achieving large sample sizes sometimes represents a challenge due to difficulties in patient recruiting and long follow-up times, increasing the problem of missing data. To overcome the issue of a narrow dataset cardinality (in a clinical dataset, the cardinality is the number of patients in that dataset), population-enhancing algorithms are therefore crucial. The aim of this study was to design a random shuffle method to enhance the cardinality of an HF dataset while it is statistically legitimate, without the need of specific hypotheses and regression models. The cardinality enhancement was validated against an established random repeated-measures method with regard to the correctness in predicting clinical conditions and endpoints. In particular, machine learning and regression models were employed to highlight the benefits of the enhanced datasets. The proposed random shuffle method was able to enhance the HF dataset cardinality (711 patients before dataset preprocessing) circa 10 times and circa 21 times when followed by a random repeated-measures approach. We believe that the random shuffle method could be used in the cardiovascular field and in other data science problems when missing data and the narrow dataset cardinality represent an issue.
翻訳日:2021-05-10 08:11:35 公開日:2020-12-12
# (参考訳) 深層学習におけるフィルタサイズ効果の解析 [全文訳有]

Analysis of Filter Size Effect In Deep Learning ( http://arxiv.org/abs/2101.01115v1 )

ライセンス: CC BY 4.0
Yunus Camg\"ozl\"u, Yakup Kutlu(参考訳) 多くの分野でディープラーニングを使うことによって、この技術を改善する方法や、より効果的に使用される構造を短時間で開発する方法は、この分野で働く多くの人々にとって関心のある問題である。 この課題に関して多くの研究が行われており、使用するモデルにおける変数、関数、データの変更による最良の結果を得るためを除いて、動作の持続時間と処理能力を低減することを目的としている。 本研究では,一定の背景を持つ葉画像からなるmendeleyデータセットを用いた葉分類において,決定されたモデルにおける畳み込み層のフィルタ寸法を除いて,モデル内の層数,反復数,層数,プーリング過程などの他の変数はすべて一定に保たれた。 3つの異なるフィルタサイズでの畳み込み層とそれに加えて、2つの異なる構造で得られた多くの結果が増加・減少し、3つの異なる画像サイズについて検討した。 文献では, プーリング層の利用方法の違い, 層数の増加や減少による変化, 使用するデータサイズの違い, パラメータの異なる多数の関数の結果を評価した。 CNNを用いて決定されたデータセットの葉柄分類において, コンボリューション層のフィルタサイズの変化と, フィルタの組み合わせの変化と, 画像サイズの違いに着目した。 データセットとデータ再生法を用いて,フィルタサイズと画像サイズの違いをより明確にすることを目的とした。 一定回数の反復、モデル、データセットを用いて、異なるフィルタサイズの影響が観測されている。

With the use of deep learning in many areas, how to improve this technology or how to develop the structure used more effectively and in a shorter time is an issue that is of interest to many people working in this field. Many studies are carried out on this subject, it is aimed to reduce the duration of the operation and the processing power required, except to obtain the best result with the changes made in the variables, functions and data in the models used. In this study, in the leaf classification made using Mendeley data set consisting of leaf images with a fixed background, all other variables such as layer number, iteration, number of layers in the model and pooling process were kept constant, except for the filter dimensions of the convolution layers in the determined model. Convolution layers in 3 different filter sizes and in addition to this, many results obtained in 2 different structures, increasing and decreasing, and 3 different image sizes were examined. In the literature, it is seen that different uses of pooling layers, changes due to increase or decrease in the number of layers, the difference in the size of the data used, and the results of many functions used with different parameters are evaluated. In the leaf classification of the determined data set with CNN, the change in the filter size of the convolution layer together with the change in different filter combinations and in different sized images was focused. Using the data set and data reproduction methods, it was aimed to make the differences in filter sizes and image sizes more distinct. Using the fixed number of iterations, model and data set, the effect of different filter sizes has been observed.
翻訳日:2021-05-10 07:44:37 公開日:2020-12-12
# (参考訳) 遅延差動ニューラルネットワーク [全文訳有]

Delay Differential Neural Networks ( http://arxiv.org/abs/2012.06800v1 )

ライセンス: CC BY 4.0
Srinivas Anumasa, P.K. Srijith(参考訳) ニューラル常微分方程式(NODE)は、中間特徴ベクトルの計算を、ニューラルネットワークによってパラメータ化された常微分方程式の軌跡として扱う。 本稿では,遅延微分方程式 (DDE) に着想を得た新しいモデルである遅延微分ニューラルネットワーク (DDNN) を提案する。 提案モデルは、隠れ特徴ベクトルの導出を、現在の特徴ベクトルと過去の特徴ベクトル(歴史)の関数として考える。 この関数はニューラルネットワークとしてモデル化され、その結果、最近の多くのresnet変種に対する継続的な深さの代替となる。 提案するDDNNアーキテクチャは,現在の特徴ベクトルと過去の特徴ベクトルの考え方によって異なる。 ddnnのトレーニングには,ネットワーク上での勾配計算とバックプロパゲーションを行うためのメモリ効率の良い随伴法を提案する。 DDNNは、一般化性能に影響を与えることなくパラメータ数をさらに減らし、NODEのデータ効率を改善する。 Cifar10やCifar100のような合成および実世界の画像分類データセットで行った実験は、提案モデルの有効性を示した。

Neural ordinary differential equations (NODEs) treat computation of intermediate feature vectors as trajectories of ordinary differential equation parameterized by a neural network. In this paper, we propose a novel model, delay differential neural networks (DDNN), inspired by delay differential equations (DDEs). The proposed model considers the derivative of the hidden feature vector as a function of the current feature vector and past feature vectors (history). The function is modelled as a neural network and consequently, it leads to continuous depth alternatives to many recent ResNet variants. We propose two different DDNN architectures, depending on the way current and past feature vectors are considered. For training DDNNs, we provide a memory-efficient adjoint method for computing gradients and back-propagate through the network. DDNN improves the data efficiency of NODE by further reducing the number of parameters without affecting the generalization performance. Experiments conducted on synthetic and real-world image classification datasets such as Cifar10 and Cifar100 show the effectiveness of the proposed models.
翻訳日:2021-05-10 07:37:51 公開日:2020-12-12
# (参考訳) 自然火災伝播のための物理インフォームド機械学習シミュレータ [全文訳有]

Physics-Informed Machine Learning Simulator for Wildfire Propagation ( http://arxiv.org/abs/2012.06825v1 )

ライセンス: CC BY 4.0
Luca Bottero, Francesco Calisto, Giovanni Graziano, Valerio Pagliarino, Martina Scauda, Sara Tiengo and Simone Azeglio(参考訳) 本研究の目的は,広範に使用されている気象研究・予測WRF-SFIREシミュレータのいくつかの重要な部分を再実装し,数値微分方程式を最先端物理インフォームド機械学習技術に置き換えてODEやPDEを解き、山火事拡散予測のためのリアルタイムシミュレータに変換する可能性を評価することである。 Juliaはコンパイルされた言語で、解釈された言語よりも優れたパーファマンスを提供し、最適化レベルが異なるJust in Time(JIT)コンパイルを提供する。 さらに、Juliaは数値計算や複雑な物理モデルの解法に特に適しており、構文やdifferialEquations.j lやModellingToolkit.jlのような特定のライブラリの存在も考慮している。

The aim of this work is to evaluate the feasibility of re-implementing some key parts of the widely used Weather Research and Forecasting WRF-SFIRE simulator by replacing its core differential equations numerical solvers with state-of-the-art physics-informed machine learning techniques to solve ODEs and PDEs, in order to transform it into a real-time simulator for wildfire spread prediction. The main programming language used is Julia, a compiled language which offers better perfomance than interpreted ones, providing Just in Time (JIT) compilation with different optimization levels. Moreover, Julia is particularly well suited for numerical computation and for the solution of complex physical models, both considering the syntax and the presence of some specific libraries such as DifferentialEquation s.jl and ModellingToolkit.jl.
翻訳日:2021-05-10 07:25:17 公開日:2020-12-12
# (参考訳) 非線形データ駆動プロセス監視のための確率的PCAの改良 [全文訳有]

An improved mixture of probabilistic PCA for nonlinear data-driven process monitoring ( http://arxiv.org/abs/2012.06830v1 )

ライセンス: CC BY 4.0
Jingxin Zhang, Hao Chen, Songhang Chen, and Xia Hong(参考訳) 本稿では, 非線形データ駆動型プロセス監視のために, 確率主成分分析(ppca)の改良を行った。 この目的を達成するために、確率的主成分分析器の混合手法を用いて、基礎となる非線形過程と局所的なPPCAモデルとのモデルを確立し、改良されたPPCAに基づく断層検出手法における2つのモニタリング統計の統合に基づいて、新しい複合監視統計量を提案する。 さらに、上記監視統計の重み付け平均は、潜在的な異常を検出する指標として利用される。 提案アルゴリズムの長所は,いくつかの教師なしアルゴリズムと比較して議論されてきた。 最後に,提案手法の有効性を示すために,テネシー・イーストマン法とオートスペンションモデルを用いた。

An improved mixture of probabilistic principal component analysis (PPCA) has been introduced for nonlinear data-driven process monitoring in this paper. To realize this purpose, the technique of a mixture of probabilistic principal component analysers is utilized to establish the model of the underlying nonlinear process with local PPCA models, where a novel composite monitoring statistic is proposed based on the integration of two monitoring statistics in modified PPCA-based fault detection approach. Besides, the weighted mean of the monitoring statistics aforementioned is utilised as a metrics to detect potential abnormalities. The virtues of the proposed algorithm have been discussed in comparison with several unsupervised algorithms. Finally, Tennessee Eastman process and an autosuspension model are employed to demonstrate the effectiveness of the proposed scheme further.
翻訳日:2021-05-10 07:05:12 公開日:2020-12-12
# (参考訳) 並列超低消費電力マイクロコントローラにおけるエネルギー効率のソースコード分類 [全文訳有]

Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers ( http://arxiv.org/abs/2012.06836v1 )

ライセンス: CC BY 4.0
Emanuele Parisi, Francesco Barchi, Andrea Bartolini, Giuseppe Tagliavini, Andrea Acquaviva(参考訳) 機械学習技術によるソースコードの分析は、現代のアーキテクチャを最大限に活用するためのソフトウェアツールチェーンの賢さ向上を目的とした、ますます検討されている研究テーマである。 低消費電力の並列組み込みアーキテクチャの場合、例えばコア数の観点から構成を見つけることを意味し、最小のエネルギー消費につながる。 実行すべきカーネルによっては、エネルギー最適スケーリング構成は自明ではない。 最近の研究は、コードやカーネルのスニペットの実行時間(例)で最高の実行目標を学習し、予測する汎用システムに焦点を当てている。 マルチコアCPUやGPUでOpenCLカーネルをオフロードする) この作業では、RISC-Vプロセッサのオンチップクラスタを特徴とする超低消費電力アーキテクチャであるPULPの最小エネルギー構成を予測できるかどうかを評価するために、静的コンパイル時機能に重点を置いている。 実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。

The analysis of source code through machine learning techniques is an increasingly explored research topic aiming at increasing smartness in the software toolchain to exploit modern architectures in the best possible way. In the case of low-power, parallel embedded architectures, this means finding the configuration, for instance in terms of the number of cores, leading to minimum energy consumption. Depending on the kernel to be executed, the energy optimal scaling configuration is not trivial. While recent work has focused on general-purpose systems to learn and predict the best execution target in terms of the execution time of a snippet of code or kernel (e.g. offload OpenCL kernel on multicore CPU or GPU), in this work we focus on static compile-time features to assess if they can be successfully used to predict the minimum energy configuration on PULP, an ultra-low-power architecture featuring an on-chip cluster of RISC-V processors. Experiments show that using machine learning models on the source code to select the best energy scaling configuration automatically is viable and has the potential to be used in the context of automatic system configuration for energy minimisation.
翻訳日:2021-05-10 06:47:35 公開日:2020-12-12
# (参考訳) 多項混合核とワッサースタイン生成逆損失を用いたスペクトルアンミックス [全文訳有]

Spectral Unmixing With Multinomial Mixture Kernel and Wasserstein Generative Adversarial Loss ( http://arxiv.org/abs/2012.06859v1 )

ライセンス: CC BY 4.0
Savas Ozkan, Gozde Bozdagi Akar(参考訳) 本研究では1次元畳み込みカーネルとスペクトル不確実性を用いたスペクトルアンミックスのための新しいフレームワークを提案する。 高レベル表現はデータから計算され、重度のスペクトル不確かさの下で分数を推定するために多項混合モデルでさらにモデル化される。 さらに、再構成工程において非線形ニューラルネットワークモデルに基づく新しいトレーニング可能な不確実性項を導入する。 すべての不確実性モデルはwasserstein generative adversarial network (wgan) によって最適化され、安定性が向上し不確実性が捕捉される。 実データと合成データの両方で実験を行う。 その結果,本手法は,特に実際のデータセットに対して,ベースラインと比較して最先端の性能が得られることを確認した。 プロジェクトページ: https://github.com/s avasozkan/dscn。

This study proposes a novel framework for spectral unmixing by using 1D convolution kernels and spectral uncertainty. High-level representations are computed from data, and they are further modeled with the Multinomial Mixture Model to estimate fractions under severe spectral uncertainty. Furthermore, a new trainable uncertainty term based on a nonlinear neural network model is introduced in the reconstruction step. All uncertainty models are optimized by Wasserstein Generative Adversarial Network (WGAN) to improve stability and capture uncertainty. Experiments are performed on both real and synthetic datasets. The results validate that the proposed method obtains state-of-the-art performance, especially for the real datasets compared to the baselines. Project page at: https://github.com/s avasozkan/dscn.
翻訳日:2021-05-10 06:37:29 公開日:2020-12-12
# (参考訳) VoxSRC 2020: 第二のVoxCeleb話者認識チャレンジ [全文訳有]

VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge ( http://arxiv.org/abs/2012.06867v1 )

ライセンス: CC BY 4.0
Arsha Nagrani, Joon Son Chung, Jaesung Huh, Andrew Brown, Ernesto Coto, Weidi Xie, Mitchell McLaren, Douglas A Reynolds and Andrew Zisserman(参考訳) 我々は、Interspeech 2020と共同でVoxCeleb Speaker Recognition Challengeの2回目の実施を行った。 この課題の目標は、現在の話者認識技術が、制約のない、あるいは“野生の”データで話者を分類し、認識できるかどうかを評価することである。 i)youtubeビデオから入手可能な話者認識とダイアリゼーションデータセット、および ground truth アノテーションと標準化された評価ソフトウェア、および (ii)interspeech 2020で開催される仮想パブリックチャレンジとワークショップ。 本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。 最後に,課題の最初のインストールに関する進捗状況に関する議論を締めくくった。

We held the second installment of the VoxCeleb Speaker Recognition Challenge in conjunction with Interspeech 2020. The goal of this challenge was to assess how well current speaker recognition technology is able to diarise and recognize speakers in unconstrained or `in the wild' data. It consisted of: (i) a publicly available speaker recognition and diarisation dataset from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2020. This paper outlines the challenge, and describes the baselines, methods used, and results. We conclude with a discussion of the progress over the first installment of the challenge.
翻訳日:2021-05-10 06:30:18 公開日:2020-12-12
# (参考訳) 測地線を横断するスポーリングネットワーク [全文訳有]

Sparsifying networks by traversing Geodesics ( http://arxiv.org/abs/2012.09605v1 )

ライセンス: CC BY 4.0
Guruprasad Raghavan, Matt Thomson(参考訳) 重み空間の幾何学とニューラルネットワークの関数多様体は、MLの複雑さを「理解」するために重要な役割を果たす。 本稿では、幾何のレンズを通してそれらを観察し、最終的にこれらの空間における同値な函数の点や経路の発見に関連付けることで、mlにおけるある種の問題を解くことを試みる。 本研究では,関数空間における測地線を評価するための数学的枠組みを提案し,高密度ネットワークからスパルサーネットワークへの高速経路を求める。 CIFAR-10 で訓練した VGG-11 と MNIST で訓練した MLP について検討した。 広範に、このフレームワークは一般的なものであり、スパシフィケーションから破滅的な忘れの軽減まで幅広い問題に適用可能であることを実証する。

The geometry of weight spaces and functional manifolds of neural networks play an important role towards 'understanding' the intricacies of ML. In this paper, we attempt to solve certain open questions in ML, by viewing them through the lens of geometry, ultimately relating it to the discovery of points or paths of equivalent function in these spaces. We propose a mathematical framework to evaluate geodesics in the functional space, to find high-performance paths from a dense network to its sparser counterpart. Our results are obtained on VGG-11 trained on CIFAR-10 and MLP's trained on MNIST. Broadly, we demonstrate that the framework is general, and can be applied to a wide variety of problems, ranging from sparsification to alleviating catastrophic forgetting.
翻訳日:2021-05-10 06:15:30 公開日:2020-12-12
# (参考訳) 物体認識におけるcnn色の重要性評価 [全文訳有]

Assessing The Importance Of Colours For CNNs In Object Recognition ( http://arxiv.org/abs/2012.06917v1 )

ライセンス: CC BY 4.0
Aditya Singh, Alessandro Bay and Andrea Mirabile(参考訳) 人間は物体認識の主要な手がかりとして形状に大きく依存している。 第二の手がかりとして、色やテクスチャも有用である。 生物学的ニューラルネットワークの模倣である畳み込みニューラルネットワーク(cnns)は、相反する特性を示すことが示されている。 いくつかの研究はcnnがテクスチャに偏っていることを示唆しているが、別の研究は分類タスクの形状バイアスを示唆している。 しかし、色の役割については議論せず、物体認識のタスクにおいてその謙虚な役割を暗示している。 本稿では,CNNにおける物体認識における色の重要性を実証的に検討する。 私たちは、CNNが予測しながら色情報に大きく依存していることを示すことができます。 その結果,色への依存度はデータセットによって異なる傾向にあることがわかった。 さらにネットワークは、スクラッチからトレーニングすれば色に依存する傾向がある。 事前トレーニングにより、モデルは色に依存しない。 これらの発見を容易にするために、人間の物体認識における色の役割を理解するためにしばしばデプロイされる枠組みに従う。 一致した画像(原色画像など)で訓練したモデルを評価する。 赤いイチゴ)コングルート、グレイスケール、不自然な画像(不自然な色の画像 eg。 イチゴ(イチゴ)。 これらの異なるスタイルで,ネットワークの予測性能(トップ1精度)を測定し,解析する。 我々は,教師付き画像分類ときめ細かい画像分類の標準データセットを実験で活用する。

Humans rely heavily on shapes as a primary cue for object recognition. As secondary cues, colours and textures are also beneficial in this regard. Convolutional neural networks (CNNs), an imitation of biological neural networks, have been shown to exhibit conflicting properties. Some studies indicate that CNNs are biased towards textures whereas, another set of studies suggests shape bias for a classification task. However, they do not discuss the role of colours, implying its possible humble role in the task of object recognition. In this paper, we empirically investigate the importance of colours in object recognition for CNNs. We are able to demonstrate that CNNs often rely heavily on colour information while making a prediction. Our results show that the degree of dependency on colours tend to vary from one dataset to another. Moreover, networks tend to rely more on colours if trained from scratch. Pre-training can allow the model to be less colour dependent. To facilitate these findings, we follow the framework often deployed in understanding role of colours in object recognition for humans. We evaluate a model trained with congruent images (images in original colours eg. red strawberries) on congruent, greyscale, and incongruent images (images in unnatural colours eg. blue strawberries). We measure and analyse network's predictive performance (top-1 accuracy) under these different stylisations. We utilise standard datasets of supervised image classification and fine-grained image classification in our experiments.
翻訳日:2021-05-10 06:09:08 公開日:2020-12-12
# (参考訳) 不確実性下におけるオフライン政策選択 [全文訳有]

Offline Policy Selection under Uncertainty ( http://arxiv.org/abs/2012.06919v1 )

ライセンス: CC BY 4.0
Mengjiao Yang, Bo Dai, Ofir Nachum, George Tucker, Dale Schuurmans(参考訳) 政策評価における不確実性の存在は、実環境における政策ランキングと選択の過程を著しく複雑にする。 我々は、オフラインポリシーの選択を、一定の経験データセットが与えられた政策予測のセットよりも学習の選好として公式に検討する。 政策値のポイント推定値や高信頼区間に基づいて政策を選択したり、ランク付けしたりできるが、政策値に対する信念の完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 本稿では,確率的制約から導かれる分布補正比の後方から,この信念分布を推定するためのベイズDICEを提案する。 ベイズDICEは、信頼区間推定における既存の最先端アプローチと非常に競争力がある。 さらに,BayesDICEが推定した信念分布が任意の下流政策選択指標に対する政策のランク付けにどのように用いられるかを示し,この選択手順が平均値や高信頼度下限値の推定値など,既存のアプローチを著しく上回っていることを実証的に示す。

The presence of uncertainty in policy evaluation significantly complicates the process of policy ranking and selection in real-world settings. We formally consider offline policy selection as learning preferences over a set of policy prospects given a fixed experience dataset. While one can select or rank policies based on point estimates of their policy values or high-confidence intervals, access to the full distribution over one's belief of the policy value enables more flexible selection algorithms under a wider range of downstream evaluation metrics. We propose BayesDICE for estimating this belief distribution in terms of posteriors of distribution correction ratios derived from stochastic constraints (as opposed to explicit likelihood, which is not available). Empirically, BayesDICE is highly competitive to existing state-of-the-art approaches in confidence interval estimation. More importantly, we show how the belief distribution estimated by BayesDICE may be used to rank policies with respect to any arbitrary downstream policy selection metric, and we empirically demonstrate that this selection procedure significantly outperforms existing approaches, such as ranking policies according to mean or high-confidence lower bound value estimates.
翻訳日:2021-05-10 05:58:29 公開日:2020-12-12
# PAIRS AutoGeo:大規模地理空間データのための機械学習フレームワーク

PAIRS AutoGeo: an Automated Machine Learning Framework for Massive Geospatial Data ( http://arxiv.org/abs/2012.06907v1 )

ライセンス: Link先を確認
Wang Zhou, Levente J. Klein, Siyuan Lu(参考訳) PAIRS AutoGeoと名付けられた地理空間データのための自動機械学習フレームワークは、IBM PAIRS Geoscopeのビッグデータと分析プラットフォームで導入された。 このフレームワークは、地理空間データを活用する産業用機械学習ソリューションの開発を単純化し、ユーザ入力を単にラベル付きGPS座標を含むテキストファイルに最小化する。 pairs autogeoは、必要なデータをロケーション座標で自動的に収集し、トレーニングデータを組み立て、品質チェックを行い、その後のデプロイメントのために複数の機械学習モデルをトレーニングする。 本フレームワークは,木種分類の現実的な産業利用事例を用いて検証した。 オープンソースの木種データは、航空画像に基づく10方向木種分類のためのランダム森林分類器と改良されたResNetモデルを訓練するための入力として使用され、それぞれ59.8\%$と81.4\%$の精度をもたらす。 このユースケースは、PAIRS AutoGeoがユーザーが広い地理空間の専門知識を使わずに機械学習を活用できるようにする方法を示している。

An automated machine learning framework for geospatial data named PAIRS AutoGeo is introduced on IBM PAIRS Geoscope big data and analytics platform. The framework simplifies the development of industrial machine learning solutions leveraging geospatial data to the extent that the user inputs are minimized to merely a text file containing labeled GPS coordinates. PAIRS AutoGeo automatically gathers required data at the location coordinates, assembles the training data, performs quality check, and trains multiple machine learning models for subsequent deployment. The framework is validated using a realistic industrial use case of tree species classification. Open-source tree species data are used as the input to train a random forest classifier and a modified ResNet model for 10-way tree species classification based on aerial imagery, which leads to an accuracy of $59.8\%$ and $81.4\%$, respectively. This use case exemplifies how PAIRS AutoGeo enables users to leverage machine learning without extensive geospatial expertise.
翻訳日:2021-05-10 05:27:33 公開日:2020-12-12
# GANトレーニングのモニタリング手段としての二重性ギャップについて

On Duality Gap as a Measure for Monitoring GAN Training ( http://arxiv.org/abs/2012.06723v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Aroof Aimen, Vineet Madan, Narayanan C. Krishnan(参考訳) generative adversarial network(gan)は、複雑なデータ分布を学習するための最も人気のあるディープラーニングモデルの一つである。 しかし、GANのトレーニングは難しい課題であることが知られている。 これはしばしば、訓練の進行とジェネレータの軌道と識別器の損失との相関の欠如と、GANの主観的評価の必要性によるものである。 ゲーム理論に触発された最近提案された双対性ギャップは、このギャップを橋渡しすることを目的としている。 しかし,本実験で示すように,双対性ギャップの能力は,その推定過程によって生じる制約により制約されている。 本稿では,この制限を理論的に理解し,双対性ギャップに対するより信頼性の高い推定法を提案する。 我々のアプローチの要点は、局所摂動はゼロサムゲームのエージェントが非ナッシュサドルポイントを効率的に逃がすのに役立つという考えである。 GANモデルとデータセットの総合的な実験を通じて、計算複雑性を最小限に抑えて、GANトレーニングの進捗を捉えるためのアプローチの有効性を確立する。 さらに、モデル収束/偏差を同定する能力を持つ推定法は、GANのハイパーパラメータを調整できる潜在的な性能指標であることを示す。

Generative adversarial network (GAN) is among the most popular deep learning models for learning complex data distributions. However, training a GAN is known to be a challenging task. This is often attributed to the lack of correlation between the training progress and the trajectory of the generator and discriminator losses and the need for the GAN's subjective evaluation. A recently proposed measure inspired by game theory - the duality gap, aims to bridge this gap. However, as we demonstrate, the duality gap's capability remains constrained due to limitations posed by its estimation process. This paper presents a theoretical understanding of this limitation and proposes a more dependable estimation process for the duality gap. At the crux of our approach is the idea that local perturbations can help agents in a zero-sum game escape non-Nash saddle points efficiently. Through exhaustive experimentation across GAN models and datasets, we establish the efficacy of our approach in capturing the GAN training progress with minimal increase to the computational complexity. Further, we show that our estimate, with its ability to identify model convergence/divergen ce, is a potential performance measure that can be used to tune the hyperparameters of a GAN.
翻訳日:2021-05-10 05:27:18 公開日:2020-12-12
# マルチタスク環境におけるグラフ表現学習のためのメタラーニング手法

A Meta-Learning Approach for Graph Representation Learning in Multi-Task Settings ( http://arxiv.org/abs/2012.06755v1 )

ライセンス: Link先を確認
Davide Buffelli, Fabio Vandin(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習のためのフレームワークであり、モデルが構造や特徴に関連する情報をカプセル化した低次元ノード埋め込みを生成することを学習する。 GNNは通常、エンドツーエンドでトレーニングされ、高度に専門化されたノードの埋め込みにつながる。 しかし、複数のタスク(シングルタスクモデルに匹敵するパフォーマンスを持つ)の実行に使用できるノード埋め込みの生成は、オープンな問題である。 本稿では,マルチタスクノード組込みが可能な新しいメタ学習戦略を提案する。 本手法は,複数のタスクを同時に実行することを学習する際に生じる困難を回避し,高速(即ち)に学習する。 勾配降下のいくつかのステップで)単調に複数のタスクに適応する。 また,本手法で生成した組込みは,従来のモデルと同等あるいは高い性能で複数のタスクを実行することができることを示した。 本手法はモデル非依存でタスク非依存であり,多様なマルチタスクドメインに適用できる。

Graph Neural Networks (GNNs) are a framework for graph representation learning, where a model learns to generate low dimensional node embeddings that encapsulate structural and feature-related information. GNNs are usually trained in an end-to-end fashion, leading to highly specialized node embeddings. However, generating node embeddings that can be used to perform multiple tasks (with performance comparable to single-task models) is an open problem. We propose a novel meta-learning strategy capable of producing multi-task node embeddings. Our method avoids the difficulties arising when learning to perform multiple tasks concurrently by, instead, learning to quickly (i.e. with a few steps of gradient descent) adapt to multiple tasks singularly. We show that the embeddings produced by our method can be used to perform multiple tasks with comparable or higher performance than classically trained models. Our method is model-agnostic and task-agnostic, thus applicable to a wide variety of multi-task domains.
翻訳日:2021-05-10 05:27:00 公開日:2020-12-12
# グラフ上のクエリフリーなブラックボックス攻撃

Query-free Black-box Adversarial Attacks on Graphs ( http://arxiv.org/abs/2012.06757v1 )

ライセンス: Link先を確認
Jiarong Xu, Yizhou Sun, Xin Jiang, Yanhao Wang, Yang Yang, Chunping Wang, Jiangang Lu(参考訳) 多くのグラフベースの機械学習モデルは、入力データに対する限られた摂動でさえ、劇的なパフォーマンス劣化を引き起こすような敵攻撃に弱いことが知られている。 既存の作品の多くは、攻撃者がモデル構造とパラメータ(ホワイトボックス)を認識するか、モデル情報を取得するためにクエリを送信できる中程度の設定に焦点を当てている。 本稿では,攻撃者が対象モデルについて知識を持っておらず,クエリアクセスができないグラフに対して,クエリフリーなブラックボックス攻撃を提案する。 グラフトポロジーの単なる観察により、提案された攻撃戦略は、グラフモデルを誤解させるための限られた数のリンクをひっくり返す。 対象モデルに対するフリップリンクの影響をスペクトル変化によって定量化できることを証明し,固有値摂動理論を用いて近似する。 そこで,提案する攻撃戦略を最適化問題としてモデル化し,反転するリンクを選択するための欲望アルゴリズムを採用する。 その単純さとスケーラビリティのため、提案モデルは様々なグラフベースモデルで一般的なだけでなく、異なる知識レベルがアクセス可能であれば容易に拡張できる。 様々な下流タスクにおける提案モデルの有効性と効率を示す広範な実験と、いくつかの異なるグラフベースの学習モデルが示されている。

Many graph-based machine learning models are known to be vulnerable to adversarial attacks, where even limited perturbations on input data can result in dramatic performance deterioration. Most existing works focus on moderate settings in which the attacker is either aware of the model structure and parameters (white-box), or able to send queries to fetch model information. In this paper, we propose a query-free black-box adversarial attack on graphs, in which the attacker has no knowledge of the target model and no query access to the model. With the mere observation of the graph topology, the proposed attack strategy flips a limited number of links to mislead the graph models. We prove that the impact of the flipped links on the target model can be quantified by spectral changes, and thus be approximated using the eigenvalue perturbation theory. Accordingly, we model the proposed attack strategy as an optimization problem, and adopt a greedy algorithm to select the links to be flipped. Due to its simplicity and scalability, the proposed model is not only generic in various graph-based models, but can be easily extended when different knowledge levels are accessible as well. Extensive experiments demonstrate the effectiveness and efficiency of the proposed model on various downstream tasks, as well as several different graph-based learning models.
翻訳日:2021-05-10 05:26:46 公開日:2020-12-12
# ニューラルネットワーク最適化問題の質的特徴付け」を再考

Revisiting "Qualitatively Characterizing Neural Network Optimization Problems" ( http://arxiv.org/abs/2012.06898v1 )

ライセンス: Link先を確認
Jonathan Frankle(参考訳) 我々はGoodfellowらの実験を再検討し、拡張する。 (2014) は、初期化と訓練された重みの間の線形経路に沿って「目的関数は単純でほぼ凸な形状」であることを示した。 CIFAR-10 や ImageNet 上の最新のネットワークでは,このような状況は見られない。 代わりに、この経路に沿って損失は概ね単調に増加しないが、最適に近づくまで高いままである。 さらに、損失バリアにより、トレーニングはすぐに最適から線形に分離される。 結論は、Goodfellowなどである。 のMNIST設定を記述しており、現代の設定では行動は質的に異なる。

We revisit and extend the experiments of Goodfellow et al. (2014), who showed that - for then state-of-the-art networks - "the objective function has a simple, approximately convex shape" along the linear path between initialization and the trained weights. We do not find this to be the case for modern networks on CIFAR-10 and ImageNet. Instead, although loss is roughly monotonically non-increasing along this path, it remains high until close to the optimum. In addition, training quickly becomes linearly separated from the optimum by loss barriers. We conclude that, although Goodfellow et al.'s findings describe the "relatively easy to optimize" MNIST setting, behavior is qualitatively different in modern settings.
翻訳日:2021-05-10 05:26:27 公開日:2020-12-12
# 連続時間勾配を用いたポリシー学習の高速化

Faster Policy Learning with Continuous-Time Gradients ( http://arxiv.org/abs/2012.06684v1 )

ライセンス: Link先を確認
Samuel Ainsworth and Kendall Lowrey and John Thickstun and Zaid Harchaoui and Siddhartha Srinivasa(参考訳) 既知のダイナミクスを有する連続時間システムにおけるポリシー勾配の推定について検討する。 ポリシー学習を連続的に行うことで、より効率的で正確な勾配推定器を構築できることを示す。 time estimator (bptt) による標準バックプロパゲーションは、連続時間系の粗離散化の正確な勾配を計算する。 対照的に,本システムでは連続時間勾配を近似する。 連続時間勾配を推定するという明確な目標により、適応的に判別し、より効率的なポリシー勾配推定器を構築することが可能であり、これを連続時間政策勾配(ctpg)と呼ぶ。 BPTTポリシー勾配をより効率的なCTPG推定に置き換えると、様々な制御タスクやシミュレータにおいて、より高速で堅牢な学習が得られることを示す。

We study the estimation of policy gradients for continuous-time systems with known dynamics. By reframing policy learning in continuous-time, we show that it is possible construct a more efficient and accurate gradient estimator. The standard back-propagation through time estimator (BPTT) computes exact gradients for a crude discretization of the continuous-time system. In contrast, we approximate continuous-time gradients in the original system. With the explicit goal of estimating continuous-time gradients, we are able to discretize adaptively and construct a more efficient policy gradient estimator which we call the Continuous-Time Policy Gradient (CTPG). We show that replacing BPTT policy gradients with more efficient CTPG estimates results in faster and more robust learning in a variety of control tasks and simulators.
翻訳日:2021-05-10 05:26:16 公開日:2020-12-12
# NP-ODE:有限要素解析の不確実性定量のためのニューラルプロセス支援正規微分方程式

NP-ODE: Neural Process Aided Ordinary Differential Equations for Uncertainty Quantification of Finite Element Analysis ( http://arxiv.org/abs/2012.06914v1 )

ライセンス: Link先を確認
Yinan Wang, Kaiwen Wang, Wenjun Cai, Xiaowei Yue(参考訳) 有限要素解析(FEA)は複素および非線形系のシミュレーションを生成するために広く用いられている。 その強さと正確さにもかかわらず、FAAの限界は2つの側面にまとめることができる: a) 忠実度の高いFAAを実行するには、しばしばかなりの計算コストが必要であり、大量の時間を消費する; b) FEAは、様々な種類の不確実性を持つ複雑なシステムのモデリングにおいて不確実性定量化(UQ)に不十分な決定論的手法である。 本稿では,feaシミュレーションをモデル化し,入力と出力の両方の不確かさをキャプチャするために,ニューラルプロセス支援常微分方程式(np-ode)と呼ばれる物理モデルを提案する。 提案したNP-ODEの利点を検証するため,与えられた常微分方程式から生成されたシミュレーションデータと実FEAプラットフォームから収集したデータの両方を用いてトライボコロージョン実験を行った。 提案するNP-ODEとベンチマーク手法の性能を比較した。 その結果,提案したNP-ODEはベンチマーク手法よりも優れていた。 NP-ODE法は、最小の予測誤差を実現するとともに、テストデータポイントに最高のカバレッジを有する最も合理的な信頼区間を生成する。

Finite element analysis (FEA) has been widely used to generate simulations of complex and nonlinear systems. Despite its strength and accuracy, the limitations of FEA can be summarized into two aspects: a) running high-fidelity FEA often requires significant computational cost and consumes a large amount of time; b) FEA is a deterministic method that is insufficient for uncertainty quantification (UQ) when modeling complex systems with various types of uncertainties. In this paper, a physics-informed data-driven surrogate model, named Neural Process Aided Ordinary Differential Equation (NP-ODE), is proposed to model the FEA simulations and capture both input and output uncertainties. To validate the advantages of the proposed NP-ODE, we conduct experiments on both the simulation data generated from a given ordinary differential equation and the data collected from a real FEA platform for tribocorrosion. The performances of the proposed NP-ODE and several benchmark methods are compared. The results show that the proposed NP-ODE outperforms benchmark methods. The NP-ODE method realizes the smallest predictive error as well as generates the most reasonable confidence interval having the best coverage on testing data points.
翻訳日:2021-05-10 05:26:05 公開日:2020-12-12
# スコアベクトルを用いた教師付き学習モデルの概念ドリフトモニタリングと診断

Concept Drift Monitoring and Diagnostics of Supervised Learning Models via Score Vectors ( http://arxiv.org/abs/2012.06916v1 )

ライセンス: Link先を確認
Kungang Zhang, Anh T. Bui, Daniel W. Apley(参考訳) 教師付き学習モデルは、モデルの最も基本的なクラスの1つである。 確率的視点から教師付き学習を見ることにより、モデルが適合する訓練データの集合は、通常定常分布に従うと仮定される。 しかし、この定常性の仮定は概念ドリフトと呼ばれる現象においてしばしば破られ、これは共変量 $\mathbf{X}$ と応答変数 $Y$ との予測関係における時間の経過とともに変化し、訓練されたモデルが最適でないあるいは時代遅れになることを意味する。 我々は,概念ドリフトの検出,監視,診断のための包括的かつ計算効率の高いフレームワークを開発した。 具体的には、多変量指数的に重み付けされた移動平均の形式を用いて、適合モデルの対数線勾配として定義されるフィッシャースコアベクトルを監視し、ランダムベクトルの平均の一般的な変化をモニターする。 一般的なエラーベース手法よりもパフォーマンス上のメリットは大きいが,従来は概念ドリフトモニタリングではスコアベースのアプローチが考慮されていなかった。 提案されたスコアベースのフレームワークの利点には、任意のパラメトリックモデルの適用性、理論や実験で示されているような変化のより強力な検出、変化の性質を識別するための固有の診断能力などがある。

Supervised learning models are one of the most fundamental classes of models. Viewing supervised learning from a probabilistic perspective, the set of training data to which the model is fitted is usually assumed to follow a stationary distribution. However, this stationarity assumption is often violated in a phenomenon called concept drift, which refers to changes over time in the predictive relationship between covariates $\mathbf{X}$ and a response variable $Y$ and can render trained models suboptimal or obsolete. We develop a comprehensive and computationally efficient framework for detecting, monitoring, and diagnosing concept drift. Specifically, we monitor the Fisher score vector, defined as the gradient of the log-likelihood for the fitted model, using a form of multivariate exponentially weighted moving average, which monitors for general changes in the mean of a random vector. In spite of the substantial performance advantages that we demonstrate over popular error-based methods, a score-based approach has not been previously considered for concept drift monitoring. Advantages of the proposed score-based framework include applicability to any parametric model, more powerful detection of changes as shown in theory and experiments, and inherent diagnostic capabilities for helping to identify the nature of the changes.
翻訳日:2021-05-10 05:25:41 公開日:2020-12-12
# LiveChess2FEN:CNNに基づいたチェスピースの分類フレームワーク

LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs ( http://arxiv.org/abs/2012.06858v1 )

ライセンス: Link先を確認
David Mallas\'en Quintana, Alberto Antonio del Barrio Garc\'ia and Manuel Prieto Mat\'ias(参考訳) コンピュータビジョンを用いたチェスゲームの自動デジタル化は重要な技術的課題である。 この問題はトーナメントのオーガナイザやアマチュアやプロの選手が、オンライン上でOTB(Over-the-board)ゲームを放送したり、チェスエンジンを使って分析したりすることに関心がある。 これまでの研究は有望な結果を示しているが、最先端技術の認識精度とレイテンシは、実用的で手頃なデプロイメントを可能にするためのさらなる強化が必要である。 Nvidia Jetson Nanoシングルボードコンピュータ上での実装方法について検討した。 最初の貢献はチェスボードの検出アルゴリズムの高速化です。 その後、チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。 特に,画像からチェスの位置を自動的に1秒未満でデジタイズする機能的フレームワークを実装した。

Automatic digitization of chess games using computer vision is a significant technological challenge. This problem is of much interest for tournament organizers and amateur or professional players to broadcast their over-the-board (OTB) games online or analyze them using chess engines. Previous work has shown promising results, but the recognition accuracy and the latency of state-of-the-art techniques still need further enhancements to allow their practical and affordable deployment. We have investigated how to implement them on an Nvidia Jetson Nano single-board computer effectively. Our first contribution has been accelerating the chessboard's detection algorithm. Subsequently, we have analyzed different Convolutional Neural Networks for chess piece classification and how to map them efficiently on our embedded platform. Notably, we have implemented a functional framework that automatically digitizes a chess position from an image in less than 1 second, with 92% accuracy when classifying the pieces and 95% when detecting the board.
翻訳日:2021-05-10 05:25:19 公開日:2020-12-12
# Yelpがレーティング予測をレビュー - マシンラーニングとディープラーニングモデル

Yelp Review Rating Prediction: Machine Learning and Deep Learning Models ( http://arxiv.org/abs/2012.06690v1 )

ライセンス: Link先を確認
Zefang Liu(参考訳) Yelp Open Datasetに基づいてYelpのレビューからレストランの格付けを予測する。 データ配布を示し、1つのバランスの取れたトレーニングデータセットを構築します。 特徴工学のために2つのベクトル化器が実験されている。 Naive Bayes、Logistic Regression、Random Forest、Linear Support Vector Machineを含む4つの機械学習モデルが実装されている。 また、BERT、DistilBERT、RoBERTa、XLNetを含む4つのトランスモデルを適用した。 モデル評価には精度、重み付きf1スコア、混乱行列が用いられる。 XLNetは5つ星分類の精度を64%のロジスティック回帰と比較すると70%の精度で達成している。

We predict restaurant ratings from Yelp reviews based on Yelp Open Dataset. Data distribution is presented, and one balanced training dataset is built. Two vectorizers are experimented for feature engineering. Four machine learning models including Naive Bayes, Logistic Regression, Random Forest, and Linear Support Vector Machine are implemented. Four transformer-based models containing BERT, DistilBERT, RoBERTa, and XLNet are also applied. Accuracy, weighted F1 score, and confusion matrix are used for model evaluation. XLNet achieves 70% accuracy for 5-star classification compared with Logistic Regression with 64% accuracy.
翻訳日:2021-05-10 05:25:03 公開日:2020-12-12
# Less is More: 限定ラベルコンテキストとパスマージによるRNN-Tデコードの改善

Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging ( http://arxiv.org/abs/2012.06749v1 )

ライセンス: Link先を確認
Rohit Prabhavalkar, Yanzhang He, David Rybach, Sean Campbell, Arun Narayanan, Trevor Strohman, Tara N. Sainath(参考訳) 従来の音声認識システム (ASR) の代替として, 前述したラベルの出力ラベル列を条件としたエンドツーエンドモデルが登場している。 ユニークなラベル履歴は異なるモデル状態に対応するため、そのようなモデルは仮説のツリーを生成する近似ビーム探索プロセスを用いて復号される。 本研究では,ラベルコンテキストの量がモデルの精度に及ぼす影響と,その復号処理の効率に与える影響について検討する。 我々は,学習中のリカレントニューラルネットワークトランスデューサ(rnn-t)のコンテキストを,フルコンテキストベースラインと比較して単語誤り率(wer)を低下させることなく,わずか4つのワードピースラベルに制限できることを見出した。 制限コンテキストはまた、アクティブビームからの冗長な経路を除去し、代わりに最終格子に保持することにより、デコード中のビーム探索プロセスの効率を改善する機会を提供する。 このパスマージスキームは、近似を通じてベースラインフルコンテキストモデルをデコードする場合にも適用できる。 全体として、提案されているパスマージスキームは、oracle werをベースラインよりも最大36%改善できる非常に効果的であると同時に、werを劣化させることなく、モデル評価を最大5.3%削減できることがわかった。

End-to-end models that condition the output label sequence on all previously predicted labels have emerged as popular alternatives to conventional systems for automatic speech recognition (ASR). Since unique label histories correspond to distinct models states, such models are decoded using an approximate beam-search process which produces a tree of hypotheses. In this work, we study the influence of the amount of label context on the model's accuracy, and its impact on the efficiency of the decoding process. We find that we can limit the context of the recurrent neural network transducer (RNN-T) during training to just four previous word-piece labels, without degrading word error rate (WER) relative to the full-context baseline. Limiting context also provides opportunities to improve the efficiency of the beam-search process during decoding by removing redundant paths from the active beam, and instead retaining them in the final lattice. This path-merging scheme can also be applied when decoding the baseline full-context model through an approximation. Overall, we find that the proposed path-merging scheme is extremely effective allowing us to improve oracle WERs by up to 36% over the baseline, while simultaneously reducing the number of model evaluations by up to 5.3% without any degradation in WER.
翻訳日:2021-05-10 05:24:56 公開日:2020-12-12
# 時空間データからの学習表現

Learning Representations from Temporally Smooth Data ( http://arxiv.org/abs/2012.06694v1 )

ライセンス: Link先を確認
Shima Rahimi Moghaddam, Fanjun Bu, Christopher J. Honey(参考訳) 実世界の出来事は、時間とともに近隣の点間で相関しており、この時間的にスムーズなデータから学ぶ必要がある。 しかし,ニューラルネットワークが単一項目の分類や再構成を行う場合,トレーニング項目の順序をランダムにすることが一般的である。 時間的平滑なトレーニングデータが学習効率に及ぼす影響について トレーニングデータのスムーズさがフィードフォワードネットのインクリメンタル学習に及ぼす影響を最初に検証したところ,スムーズなデータが学習を遅くすることがわかった。 さらに、時間的平滑さを最小化するためのサンプリングは、ランダムにサンプリングするよりも効率的な学習を生み出した。 滑らかさが一般的に漸進的な学習を損なう場合、トレーニングデータの滑らかさの恩恵を受けるために、ネットワークをどのように修正すればよいのか? 脳にインスパイアされた2つの単純なメカニズム、アクティベーションユニットのリークメモリとメモリゲーティングにより、スムーズなデータから有用な表現を素早く抽出できると仮定した。 あらゆるレベルのデータのスムーズさによって、これらの脳にインスパイアされたアーキテクチャは、フィードフォワードネットワークよりも効率的なカテゴリ学習を実現した。 この利点は、ゲーティング付きリークメモリネットワークがスムーズなデータでトレーニングされ、ランダムに順序付けされたデータでテストされたとしても継続した。 最後に,脳にインスパイアされたメカニズムがネットワークによって学習された内部表現をどのように変化させたかを検討した。 マルチスケールのリークメモリとメモリゲーティングを持つネットワークは、トレーニングサンプル間で高速で遅い時間スケールで異なる未混合データソースの内部表現を学習できることがわかった。 また、時間的スムーズなデータからニューラルネットワークをより早く学習し、トレーニング信号の時間スケールを分離する内部表現を生成するための単純なメカニズムを特定した。

Events in the real world are correlated across nearby points in time, and we must learn from this temporally smooth data. However, when neural networks are trained to categorize or reconstruct single items, the common practice is to randomize the order of training items. What are the effects of temporally smooth training data on the efficiency of learning? We first tested the effects of smoothness in training data on incremental learning in feedforward nets and found that smoother data slowed learning. Moreover, sampling so as to minimize temporal smoothness produced more efficient learning than sampling randomly. If smoothness generally impairs incremental learning, then how can networks be modified to benefit from smoothness in the training data? We hypothesized that two simple brain-inspired mechanisms, leaky memory in activation units and memory-gating, could enable networks to rapidly extract useful representations from smooth data. Across all levels of data smoothness, these brain-inspired architectures achieved more efficient category learning than feedforward networks. This advantage persisted, even when leaky memory networks with gating were trained on smooth data and tested on randomly-ordered data. Finally, we investigated how these brain-inspired mechanisms altered the internal representations learned by the networks. We found that networks with multi-scale leaky memory and memory-gating could learn internal representations that un-mixed data sources which vary on fast and slow timescales across training samples. Altogether, we identified simple mechanisms enabling neural networks to learn more quickly from temporally smooth data, and to generate internal representations that separate timescales in the training signal.
翻訳日:2021-05-10 05:24:32 公開日:2020-12-12
# PiRank: 差別化可能なソーティングでランク付けを学ぶ

PiRank: Learning To Rank via Differentiable Sorting ( http://arxiv.org/abs/2012.06731v1 )

ライセンス: Link先を確認
Robin Swezey, Aditya Grover, Bruno Charron, Stefano Ermon(参考訳) ランク付けのための機械学習アプローチの重要な課題は、関心のあるパフォーマンスメトリクスと、勾配ベースの方法で最適化できるサーロゲート損失関数の間のギャップである。 このギャップは、ランクメトリクスが典型的には微分不可能なソート操作を含むため生じる。 モデルパラメータ。 以前の研究では、ランク付けメトリクスや単純な平滑化バージョンと緩やかに関連のあるサロゲートを提案している。 分類演算子に連続的な温度制御緩和を施したランキングのための新しい分類可能なサロゲートであるpirankを提案する。 理論と実践の両方において,ピランクは所望の指標をゼロ温度の限界で正確に回収し,問題の大きさに好適なスケールを示す。 実証的に、PiRankは、インターネットスケールの学習とランクのベンチマークにおいて、既存のアプローチよりも大幅に改善されていることを実証した。

A key challenge with machine learning approaches for ranking is the gap between the performance metrics of interest and the surrogate loss functions that can be optimized with gradient-based methods. This gap arises because ranking metrics typically involve a sorting operation which is not differentiable w.r.t. the model parameters. Prior works have proposed surrogates that are loosely related to ranking metrics or simple smoothed versions thereof. We propose PiRank, a new class of differentiable surrogates for ranking, which employ a continuous, temperature-controll ed relaxation to the sorting operator. We show that PiRank exactly recovers the desired metrics in the limit of zero temperature and scales favorably with the problem size, both in theory and practice. Empirically, we demonstrate that PiRank significantly improves over existing approaches on publicly available internet-scale learning-to-rank benchmarks.
翻訳日:2021-05-10 05:24:05 公開日:2020-12-12
# 遠隔遠隔操作によるループ内模倣学習

Human-in-the-Loop Imitation Learning using Remote Teleoperation ( http://arxiv.org/abs/2012.06733v1 )

ライセンス: Link先を確認
Ajay Mandlekar, Danfei Xu, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習は、人間のデモから動作を再現することで複雑なロボット操作スキルを学ぶための有望なパラダイムである。 しかしながら、操作タスクには、コーヒーを作るためにポッドをコーヒーマシンに挿入するロボットなど、意味のある進歩を行うための一連の正確なアクションを必要とするボトルネック領域が含まれていることが多い。 訓練された政策は、行動のわずかな偏差が、デモの対象にならない状態に政策を導く可能性があるため、これらの地域では失敗する可能性がある。 インターベンションベースのポリシー学習は、この問題に対処できる代替手段であり、人間のオペレータは、トレーニングされたポリシーを監視し、障害に遭遇した時にコントロールを乗っ取ることができる。 本稿では,遠隔操作者が訓練されたポリシーを監視・介入できる,6-DoF操作設定に適したデータ収集システムを構築する。 我々は,システムによって収集された新たなデータに基づいて政策を反復的に訓練する,シンプルで効果的なアルゴリズムを開発した。 本手法は,介入型システムで収集されたデータに基づいて訓練されたエージェントと,非介入型デモ参加者が収集した等価数のサンプルで訓練されたアルゴリズムよりも優れたエージェントを示し,さらに,挑戦的なロボットスレッディングタスクとコーヒーメーキングタスクにおける人間の介入から学ぶための最先端のベースラインよりも優れることを示す。 さらなる結果とビデオはhttps://sites.google .com/stanford.edu/iw r にある。

Imitation Learning is a promising paradigm for learning complex robot manipulation skills by reproducing behavior from human demonstrations. However, manipulation tasks often contain bottleneck regions that require a sequence of precise actions to make meaningful progress, such as a robot inserting a pod into a coffee machine to make coffee. Trained policies can fail in these regions because small deviations in actions can lead the policy into states not covered by the demonstrations. Intervention-based policy learning is an alternative that can address this issue -- it allows human operators to monitor trained policies and take over control when they encounter failures. In this paper, we build a data collection system tailored to 6-DoF manipulation settings, that enables remote human operators to monitor and intervene on trained policies. We develop a simple and effective algorithm to train the policy iteratively on new data collected by the system that encourages the policy to learn how to traverse bottlenecks through the interventions. We demonstrate that agents trained on data collected by our intervention-based system and algorithm outperform agents trained on an equivalent number of samples collected by non-interventional demonstrators, and further show that our method outperforms multiple state-of-the-art baselines for learning from the human interventions on a challenging robot threading task and a coffee making task. Additional results and videos at https://sites.google .com/stanford.edu/iw r .
翻訳日:2021-05-10 05:23:47 公開日:2020-12-12
# 協調遠隔操作によるマルチアーム操作の学習

Learning Multi-Arm Manipulation Through Collaborative Teleoperation ( http://arxiv.org/abs/2012.06738v1 )

ライセンス: Link先を確認
Albert Tung, Josiah Wong, Ajay Mandlekar, Roberto Mart\'in-Mart\'in, Yuke Zhu, Li Fei-Fei, Silvio Savarese(参考訳) 模倣学習(il)は、遠隔操作によって収集された人間のデモンストレーションから学習できるようにロボットに操作タスクを実行するための強力なパラダイムであるが、ほとんどは単腕操作に限られている。 しかし、現実世界のタスクの多くは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。 残念なことに、ILを複数のロボットアーム操作タスクに適用することは困難であり、人間に複数のロボットアームを制御させることは、認知上の重荷を負う可能性がある。 これらの課題に対処するために、複数のリモートユーザが同時にロボットアームを遠隔操作し、マルチアームタスクのデモを収集できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。 MARTを用いて地理的に分離されたユーザの5つの新しい2と3つのアームタスクのデモを収集した。 ほとんどのマルチアームタスクは、その全期間を通してグローバルな調整を必要とせず、特定の瞬間にのみ必要としています。 これらのデータから学習することで,ロボット行動のモデル化を直接行なおうとする集中型エージェントの課題が浮かび上がり,タスクの集中レベルが変化するさまざまなポリシアーキテクチャを包括的に研究する。 最後に,マルチアーム操作に共通する混合協調設定に適合する基本残留ポリシーフレームワークを提案し,評価し,分散化された残差モデルにより強化された集中型ポリシーが,我々のベンチマークタスクにおいて他のすべてのモデルより優れていることを示す。 さらなる結果とビデオはhttps://roboturk.sta nford.edu/multiarm にある。

Imitation Learning (IL) is a powerful paradigm to teach robots to perform manipulation tasks by allowing them to learn from human demonstrations collected via teleoperation, but has mostly been limited to single-arm manipulation. However, many real-world tasks require multiple arms, such as lifting a heavy object or assembling a desk. Unfortunately, applying IL to multi-arm manipulation tasks has been challenging -- asking a human to control more than one robotic arm can impose significant cognitive burden and is often only possible for a maximum of two robot arms. To address these challenges, we present Multi-Arm RoboTurk (MART), a multi-user data collection platform that allows multiple remote users to simultaneously teleoperate a set of robotic arms and collect demonstrations for multi-arm tasks. Using MART, we collected demonstrations for five novel two and three-arm tasks from several geographically separated users. From our data we arrived at a critical insight: most multi-arm tasks do not require global coordination throughout its full duration, but only during specific moments. We show that learning from such data consequently presents challenges for centralized agents that directly attempt to model all robot actions simultaneously, and perform a comprehensive study of different policy architectures with varying levels of centralization on our tasks. Finally, we propose and evaluate a base-residual policy framework that allows trained policies to better adapt to the mixed coordination setting common in multi-arm manipulation, and show that a centralized policy augmented with a decentralized residual model outperforms all other models on our set of benchmark tasks. Additional results and videos at https://roboturk.sta nford.edu/multiarm .
翻訳日:2021-05-10 05:23:23 公開日:2020-12-12
# 正規化ラベル分布:校正、適応性、効率的なアクティベーションマップの学習に向けて

Normalized Label Distribution: Towards Learning Calibrated, Adaptable and Efficient Activation Maps ( http://arxiv.org/abs/2012.06876v1 )

ライセンス: Link先を確認
Utkarsh Uppal, Bharat Giddwani(参考訳) データ収差や敵対的攻撃に対するモデルの脆弱性は、異なるクラス境界を効率的に定義する能力に影響する。 ネットワークの信頼性と不確実性は、重み調整とそのような攻撃に対する認識の程度において重要な役割を果たす。 本稿では,分類ネットワークの精度とキャリブレーションポテンシャルのトレードオフについて述べる。 本研究では,最先端ネットワークの性能と汎用性に及ぼす地中分布変化の意義について検討し,提案手法の応答と予期せぬ攻撃との比較を行った。 さらに,正規化ソフトラベルの提案により特徴地図の校正性が向上し,一般化性と校正確率分布が向上する上で,ラベルスムーシング正規化と正規化が果たす役割を実証する。 その後,従来の畳み込みをパディングに基づく部分畳み込みに翻訳し,精度と収束率を向上する上で,補正の具体的な影響を確定する。 複数のデータセットの信頼性と再現性を調整するために,このようなバリエーションの意義をグラフィカルに解明する。

The vulnerability of models to data aberrations and adversarial attacks influences their ability to demarcate distinct class boundaries efficiently. The network's confidence and uncertainty play a pivotal role in weight adjustments and the extent of acknowledging such attacks. In this paper, we address the trade-off between the accuracy and calibration potential of a classification network. We study the significance of ground-truth distribution changes on the performance and generalizability of various state-of-the-art networks and compare the proposed method's response to unanticipated attacks. Furthermore, we demonstrate the role of label-smoothing regularization and normalization in yielding better generalizability and calibrated probability distribution by proposing normalized soft labels to enhance the calibration of feature maps. Subsequently, we substantiate our inference by translating conventional convolutions to padding based partial convolution to establish the tangible impact of corrections in reinforcing the performance and convergence rate. We graphically elucidate the implication of such variations with the critical purpose of corroborating the reliability and reproducibility for multiple datasets.
翻訳日:2021-05-10 05:22:54 公開日:2020-12-12
# オフライン強化学習のための半教師付き報酬学習

Semi-supervised reward learning for offline reinforcement learning ( http://arxiv.org/abs/2012.06899v1 )

ライセンス: Link先を確認
Ksenia Konyushkova, Konrad Zolna, Yusuf Aytar, Alexander Novikov, Scott Reed, Serkan Cabi, Nando de Freitas(参考訳) オフライン強化学習(RL)エージェントは、ログデータセットを使用してトレーニングされる。 医療やロボティクスといった環境との相互作用は高価か非倫理的であるため、現実のアプリケーションを攻撃する最も自然な道のようです。 トレーニングエージェントは通常、報酬機能を必要とするが、残念なことに、実際に報酬が利用できることはほとんどなく、そのエンジニアリングは困難で労力がかかる。 これを解決するために,人間報酬アノテーションの最小化による報酬学習について検討する。 我々は、タイムステップアノテーションとデモの2つのタイプの監督を考える。 限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。 シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。 さらに,報酬モデルの品質と最終方針との関係について検討する。 例えば、報奨モデルが役に立つポリシーを生み出すのに完璧である必要はないことに気付きました。

In offline reinforcement learning (RL) agents are trained using a logged dataset. It appears to be the most natural route to attack real-life applications because in domains such as healthcare and robotics interactions with the environment are either expensive or unethical. Training agents usually requires reward functions, but unfortunately, rewards are seldom available in practice and their engineering is challenging and laborious. To overcome this, we investigate reward learning under the constraint of minimizing human reward annotations. We consider two types of supervision: timestep annotations and demonstrations. We propose semi-supervised learning algorithms that learn from limited annotations and incorporate unlabelled data. In our experiments with a simulated robotic arm, we greatly improve upon behavioural cloning and closely approach the performance achieved with ground truth rewards. We further investigate the relationship between the quality of the reward model and the final policies. We notice, for example, that the reward models do not need to be perfect to result in useful policies.
翻訳日:2021-05-10 05:22:37 公開日:2020-12-12
# ロバスト顔認識のための高次局所方向パターンに基づくピラミッド多構造

High Order Local Directional Pattern Based Pyramidal Multi-structure for Robust Face Recognition ( http://arxiv.org/abs/2012.06838v1 )

ライセンス: Link先を確認
Almabrok Essa and Vijayan Asari(参考訳) 局所近傍におけるテクスチャの一般的な定義から導出され、局所方向パターン(ldp)は画素の小さな局所3x3近傍の方向情報を符号化するが、特に照明変化による入力画像の変化によって詳細な情報を抽出できない可能性がある。 そこで本稿では,n次方向変化パターンを計算した特徴抽出手法であるholdp(high order local directional pattern)を提案する。 提案したHOLDPは従来のLDPよりも詳細な識別情報を取得できる。 提案手法はldp演算子と異なり,ピラミッド型マルチストラクタ方式で画素の各近傍層から異なる空間関係を符号化することにより,n次局所情報を抽出する。 次に,各近傍層の特徴ベクトルを連結して最終HOLDP特徴ベクトルを形成する。 提案したHOLDPアルゴリズムの性能評価は, 利用可能な複数の顔データベース上で行われ, 極端照明条件下でのHOLDPの優位性を観察した。

Derived from a general definition of texture in a local neighborhood, local directional pattern (LDP) encodes the directional information in the small local 3x3 neighborhood of a pixel, which may fail to extract detailed information especially during changes in the input image due to illumination variations. Therefore, in this paper we introduce a novel feature extraction technique that calculates the nth order direction variation patterns, named high order local directional pattern (HOLDP). The proposed HOLDP can capture more detailed discriminative information than the conventional LDP. Unlike the LDP operator, our proposed technique extracts nth order local information by encoding various distinctive spatial relationships from each neighborhood layer of a pixel in the pyramidal multi-structure way. Then we concatenate the feature vector of each neighborhood layer to form the final HOLDP feature vector. The performance evaluation of the proposed HOLDP algorithm is conducted on several publicly available face databases and observed the superiority of HOLDP under extreme illumination conditions.
翻訳日:2021-05-10 05:21:40 公開日:2020-12-12
# 制御者検証のための逆乱の発生

Generating Adversarial Disturbances for Controller Verification ( http://arxiv.org/abs/2012.06695v1 )

ライセンス: Link先を確認
Udaya Ghai, David Snyder, Anirudha Majumdar, Elad Hazan(参考訳) ブラックボックスアクセスのみを前提として、所定のコントローラに対して最大対向障害を発生させる問題を考える。 本稿では,コントローラが選択した制御入力に基づいて適応的に外乱を生成するオンライン学習手法を提案する。 乱れ発生器の目標は、ベンチマーク乱れ発生ポリシークラスに対する後悔を最小限に抑えることであり、例えば、後ろ向きの最良の乱れ発生器(ベンチマークポリシークラスからの調味料)と比較して、コントローラが生み出すコストを可能な限り最大化することである。 動的に線形でコストが2次となる環境では,メモリのオンライン信頼領域(OTR)問題として問題を定式化し,この問題に対する新しいオンライン学習アルゴリズム(MOTR)を提案する。 本手法は, 線形動的外乱生成ポリシーを含むベンチマークポリシーの豊富なクラスから得られる) における最良の外乱発生器と競合することを示す。 本研究では, (i) 合成線形系と (ii) エアシムシミュレータで有名なPX4コントローラの風乱を発生させる2つの模擬例について実演する。 これらの例では、$h_{\infty}$外乱生成や勾配に基づく手法など、我々のアプローチがいくつかのベースラインアプローチを上回っていることを実証する。

We consider the problem of generating maximally adversarial disturbances for a given controller assuming only blackbox access to it. We propose an online learning approach to this problem that adaptively generates disturbances based on control inputs chosen by the controller. The goal of the disturbance generator is to minimize regret versus a benchmark disturbance-generati ng policy class, i.e., to maximize the cost incurred by the controller as well as possible compared to the best possible disturbance generator in hindsight (chosen from a benchmark policy class). In the setting where the dynamics are linear and the costs are quadratic, we formulate our problem as an online trust region (OTR) problem with memory and present a new online learning algorithm (MOTR) for this problem. We prove that this method competes with the best disturbance generator in hindsight (chosen from a rich class of benchmark policies that includes linear-dynamical disturbance generating policies). We demonstrate our approach on two simulated examples: (i) synthetically generated linear systems, and (ii) generating wind disturbances for the popular PX4 controller in the AirSim simulator. On these examples, we demonstrate that our approach outperforms several baseline approaches, including $H_{\infty}$ disturbance generation and gradient-based methods.
翻訳日:2021-05-10 05:20:43 公開日:2020-12-12
# GDPNet:関係抽出のための遅延マルチビューグラフの精細化

GDPNet: Refining Latent Multi-View Graph for Relation Extraction ( http://arxiv.org/abs/2012.06780v1 )

ライセンス: Link先を確認
Fuzhao Xue, Aixin Sun, Hao Zhang, Eng Siong Chng(参考訳) 関係抽出(Relation extract、RE)とは、文や対話などのテキストで言及される2つのエンティティの関係型を予測することである。 与えられたテキストが長ければ、関係予測のための指示語を特定することは困難である。 REタスクの最近の進歩は、BERTベースのシーケンスモデリングと、シーケンス内のトークン間の関係のグラフベースのモデリングである。 本稿では,トークン間の様々な関係を捉えるために,潜在多視点グラフを構築することを提案する。 次に,このグラフを改良して,関係予測のための重要な単語を選択する。 最後に、精製グラフの表現とBERTに基づくシーケンス表現を連結して関係抽出を行う。 具体的には,提案するgdpnet (gaussian dynamic time warping pooling net) において,gaussian graph generator (ggg) を用いて多視点グラフのエッジを生成する。 グラフは、Dynamic Time Warping Pooling (DTWPool)によって洗練される。 DialogRE と TACRED では,GDPNet が文レベル RE で最高のパフォーマンスを達成し,文レベル RE で最先端の処理性能を達成していることを示す。

Relation Extraction (RE) is to predict the relation type of two entities that are mentioned in a piece of text, e.g., a sentence or a dialogue. When the given text is long, it is challenging to identify indicative words for the relation prediction. Recent advances on RE task are from BERT-based sequence modeling and graph-based modeling of relationships among the tokens in the sequence. In this paper, we propose to construct a latent multi-view graph to capture various possible relationships among tokens. We then refine this graph to select important words for relation prediction. Finally, the representation of the refined graph and the BERT-based sequence representation are concatenated for relation extraction. Specifically, in our proposed GDPNet (Gaussian Dynamic Time Warping Pooling Net), we utilize Gaussian Graph Generator (GGG) to generate edges of the multi-view graph. The graph is then refined by Dynamic Time Warping Pooling (DTWPool). On DialogRE and TACRED, we show that GDPNet achieves the best performance on dialogue-level RE, and comparable performance with the state-of-the-arts on sentence-level RE.
翻訳日:2021-05-10 05:19:54 公開日:2020-12-12
# AffectON:Affectをダイアログ生成に組み込む

AffectON: Incorporating Affect Into Dialog Generation ( http://arxiv.org/abs/2012.06847v1 )

ライセンス: Link先を確認
Zana Bucinca, Yucel Yemez, Engin Erzin, Metin Sezgin(参考訳) その表現力のため、自然言語は人間間の明示的で暗黙的な情緒的状態コミュニケーションにおいて最重要である。 同じ言語調査(例えば、あなたはどうですか? 会話相手の情緒的状態や会話の文脈によって異なる感情を持った反応を誘発する可能性がある。 しかし,ほとんどの対話システムは応答生成の構成的側面には影響しない。 本稿では,推論中に感情応答を生成するアプローチであるimpactonを提案する。 言語を対象とする影響で生成するには,確率的言語モデルと情緒的空間を利用する。 affectonは言語モデルに依存しないため、任意の言語モデル(シーケンス-シーケンスモデル、ニューラルネットワークモデル、n-gramなど)によって生成された確率で動作する。 したがって、感情的ダイアログと感情的言語生成の両方に使用できる。 感情対話生成実験を行い, テキストを客観的・主観的に評価した。 評価の主観的な部分については,評価のためのカスタムユーザインタフェースをデザインし,それらのインターフェースの設計を推奨した。 その結果,主観的・客観的ともに,構文的コヒーレンスをほとんど犠牲にすることなく,生成した言語を対象とする感情に向かって引き出すことに成功した。

Due to its expressivity, natural language is paramount for explicit and implicit affective state communication among humans. The same linguistic inquiry (e.g., How are you?) might induce responses with different affects depending on the affective state of the conversational partner(s) and the context of the conversation. Yet, most dialog systems do not consider affect as constitutive aspect of response generation. In this paper, we introduce AffectON, an approach for generating affective responses during inference. For generating language in a targeted affect, our approach leverages a probabilistic language model and an affective space. AffectON is language model agnostic, since it can work with probabilities generated by any language model (e.g., sequence-to-sequence models, neural language models, n-grams). Hence, it can be employed for both affective dialog and affective language generation. We experimented with affective dialog generation and evaluated the generated text objectively and subjectively. For the subjective part of the evaluation, we designed a custom user interface for rating and provided recommendations for the design of such interfaces. The results, both subjective and objective demonstrate that our approach is successful in pulling the generated language toward the targeted affect, with little sacrifice in syntactic coherence.
翻訳日:2021-05-10 05:19:35 公開日:2020-12-12
# pop-net: 深度画像による多人数3次元ポーズ推定のための部品ネットワーク上のポーズ

PoP-Net: Pose over Parts Network for Multi-Person 3D Pose Estimation from a Depth Image ( http://arxiv.org/abs/2012.06734v1 )

ライセンス: Link先を確認
Yuliang Guo, Zhong Li, Zekun Li, Xiangyu Du, Shuxue Quan, Yi Xu(参考訳) 本稿では,深度画像から複数人物の3Dポーズを予測するために,PoP-Netと呼ばれるリアルタイム手法を提案する。 PoP-Netは、ボトムアップ部分検出マップとトップダウングローバルポーズを単発フレームワークで予測することを学ぶ。 大域的なポーズと部分検出を融合するために、単純で効果的な融合プロセスを適用する。 具体的には、Trncated Part Displacement Field (TPDF)と呼ばれる新しい部分レベルの表現を導入する。 これは、より正確な部分への低精度なグローバルなポーズを引きずり出し、重度のオクルージョンやトランケーションのケースに対処するグローバルなポーズの利点を維持している。 グローバルポーズと局所検出の競合を自動的に解消するモード選択スキームを開発した。 最後に,多人数の3Dポーズ推定手法の開発と評価のための高品質な深度データセットの欠如により,3Dポーズラベル付き総合深度データセットがリリースされた。 データセットは、開発モデルが制御されていない現実世界のマルチパーソンシナリオに対してより一般化できるように、効果的なマルチパーソンおよびバックグラウンドデータ拡張を可能にするように設計されている。 我々は、PoP-Netがマルチパーソン処理の効率において大きな利点があることを示し、リリースした課題データセットと広く使用されているITOPデータセットの両方で最先端の結果を達成する。

In this paper, a real-time method called PoP-Net is proposed to predict multi-person 3D poses from a depth image. PoP-Net learns to predict bottom-up part detection maps and top-down global poses in a single-shot framework. A simple and effective fusion process is applied to fuse the global poses and part detection. Specifically, a new part-level representation, called Truncated Part Displacement Field (TPDF), is introduced. It drags low-precision global poses towards more accurate part locations while maintaining the advantage of global poses in handling severe occlusion and truncation cases. A mode selection scheme is developed to automatically resolve the conflict between global poses and local detection. Finally, due to the lack of high-quality depth datasets for developing and evaluating multi-person 3D pose estimation methods, a comprehensive depth dataset with 3D pose labels is released. The dataset is designed to enable effective multi-person and background data augmentation such that the developed models are more generalizable towards uncontrolled real-world multi-person scenarios. We show that PoP-Net has significant advantages in efficiency for multi-person processing and achieves the state-of-the-art results both on the released challenging dataset and on the widely used ITOP dataset.
翻訳日:2021-05-10 05:19:03 公開日:2020-12-12
# コンピュータビジョンと正規化フローに基づく欠陥検出

Computer Vision and Normalizing Flow Based Defect Detection ( http://arxiv.org/abs/2012.06737v1 )

ライセンス: Link先を確認
Zijian Kuang and Xinran Tie(参考訳) 表面欠陥検出は、製造中の製品の品質を制御するために必要であり、必要である。 この複雑なタスクの課題は,1) 欠陥サンプルの収集とトレーニングのための手動ラベリングに時間を要すること,2) 欠陥の特徴を常に新しいタイプの欠陥が発生すると定義することが難しいこと,3) 現実の製品イメージには多くのバックグラウンドノイズが含まれていること,である。 本稿では,対象検出モデルであるyoloと正規化フローに基づく欠陥検出モデルの違いに基づく2段階の欠陥検出ネットワークを提案する。 本モデルは,生産ライン監視システムから撮影した実世界のビデオクリップを用いた欠陥検出において,高い堅牢性と性能を有する。 正規化フローベース異常検出モデルでは、トレーニング用のサンプルを少数必要とせず、YOLOによって検出された製品画像の欠陥検出を行う。 提案手法では,1)yoloを用いた2段階ネットワークと,製品欠陥検出を行う正規化フローベースモデル,2)yoloでトリミングされた製品画像の課題を解決するために,多段階画像変換が実装されている。 さらに、実世界の工場生産ラインから収集した新しいデータセットに関する広範な実験も行われている。 提案モデルでは,単一製品や複数製品の欠陥のない少数のサンプルを学習できることを実証する。 データセットも公開され、表面欠陥検出のさらなる研究と研究が促進される。

Surface defect detection is essential and necessary for controlling the qualities of the products during manufacturing. The challenges in this complex task include: 1) collecting defective samples and manually labeling for training is time-consuming; 2) the defects' characteristics are difficult to define as new types of defect can happen all the time; 3) and the real-world product images contain lots of background noise. In this paper, we present a two-stage defect detection network based on the object detection model YOLO, and the normalizing flow-based defect detection model DifferNet. Our model has high robustness and performance on defect detection using real-world video clips taken from a production line monitoring system. The normalizing flow-based anomaly detection model only requires a small number of good samples for training and then perform defect detection on the product images detected by YOLO. The model we invent employs two novel strategies: 1) a two-stage network using YOLO and a normalizing flow-based model to perform product defect detection, 2) multi-scale image transformations are implemented to solve the issue product image cropped by YOLO includes many background noise. Besides, extensive experiments are conducted on a new dataset collected from the real-world factory production line. We demonstrate that our proposed model can learn on a small number of defect-free samples of single or multiple product types. The dataset will also be made public to encourage further studies and research in surface defect detection.
翻訳日:2021-05-10 05:18:42 公開日:2020-12-12
# クロスモーダルな知識蒸留による野生埋め込み学習における周辺視

Periocular in the Wild Embedding Learning with Cross-Modal Consistent Knowledge Distillation ( http://arxiv.org/abs/2012.06746v1 )

ライセンス: Link先を確認
Yoon Gyo Jung, Jaewoo Park, Cheng Yaw Low, Leslie Ching Ow Tiong, Andrew Beng Jin Teoh(参考訳) 眼窩バイオメトリックス(periocular biometric)または眼の周辺領域( peripheral area of ocular)は、特に顔がオクルードされたりマスキングされたりした場合、顔の協調的な代替手段である。 実際には、単眼バイオメトリックは、特に野生環境では、クラス内コンパクト性やクラス間分散の問題に悩まされる、最も健康な顔の特徴を捉えている。 これらの問題に対処するために,我々は知識蒸留(KD)を用いて顔から有用な情報を伝達し,学習を組み込む。 しかしながら、ヘテロジニアスモダリティに直接典型的なkd手法を適用することは最適ではない。 本論文では, クロスモーダル一貫した知識蒸留 (CM-CKD) として開発された深層対近眼蒸留網について述べる。 CM-CKDの3つの主要成分は,(1)共有量ネットワーク,(2)一貫したバッチ正規化,(3)実効CKD損失による顔および眼周囲の双方向連続蒸留である。 より具体的には、顔のモダリティを眼周囲埋め込み学習に活用するが、識別や検証のタスクを狙うのは眼周囲画像のみである。 6つの制約付きおよび制約なしのperiocularデータセットに関する広範囲な実験により、cm-ckdがリードするperiocular embeddedは、顔とperiocularのベースラインに基づいて計算される相対的なパフォーマンスゲインの点で、識別と検証のパフォーマンスを50%向上させることが明らかになった。 実験により、CM-CKDで学習した近視機能により、主観的クラスタ分離が向上し、全体的な精度が向上することが明らかとなった。

Periocular biometric, or peripheral area of ocular, is a collaborative alternative to face, especially if a face is occluded or masked. In practice, sole periocular biometric captures least salient facial features, thereby suffering from intra-class compactness and inter-class dispersion issues particularly in the wild environment. To address these problems, we transfer useful information from face to support periocular modality by means of knowledge distillation (KD) for embedding learning. However, applying typical KD techniques to heterogeneous modalities directly is suboptimal. We put forward in this paper a deep face-to-periocular distillation networks, coined as cross-modal consistent knowledge distillation (CM-CKD) henceforward. The three key ingredients of CM-CKD are (1) shared-weight networks, (2) consistent batch normalization, and (3) a bidirectional consistency distillation for face and periocular through an effectual CKD loss. To be more specific, we leverage face modality for periocular embedding learning, but only periocular images are targeted for identification or verification tasks. Extensive experiments on six constrained and unconstrained periocular datasets disclose that the CM-CKD-learned periocular embeddings extend identification and verification performance by 50% in terms of relative performance gain computed based upon face and periocular baselines. The experiments also reveal that the CM-CKD-learned periocular features enjoy better subject-wise cluster separation, thereby refining the overall accuracy performance.
翻訳日:2021-05-10 05:18:18 公開日:2020-12-12
# カテゴリ記憶ネットワークによるきめ細かい分類

Fine-grained Classification via Categorical Memory Networks ( http://arxiv.org/abs/2012.06793v1 )

ライセンス: Link先を確認
Weijian Deng, Joshua Marsh, Stephen Gould, Liang Zheng(参考訳) クラス間で共有されるパターンを利用したいという願望に動機づけられ、きめ細かな機能学習のためのシンプルで効果的なクラス固有のメモリモジュールを提示する。 メモリモジュールは、各カテゴリの原型的特徴表現を移動平均として記憶する。 各々の圏に対する類似性の組み合わせは、それ自体が有用で差別的な手がかりであると仮定する。 これらの類似性を検出するため、クエリー機構として注目する。 各クラスプロトタイプに対する注目スコアは、加重和でプロトタイプを組み合わせる重みとして使用され、与えられた入力に対して一意に調整された応答特徴表現を生成する。 オリジナル機能とレスポンス機能を組み合わせて、分類のための拡張機能を生成する。 クラス固有のメモリモジュールを標準畳み込みニューラルネットワークに統合し、カテゴリメモリネットワークを生成します。 メモリモジュールは,CUB-200-2011,Stanfo rd Cars,FGVC Aircraft,NABirdsの4つのベンチマークにおいて,最先端の手法と競合する精度を実現する。

Motivated by the desire to exploit patterns shared across classes, we present a simple yet effective class-specific memory module for fine-grained feature learning. The memory module stores the prototypical feature representation for each category as a moving average. We hypothesize that the combination of similarities with respect to each category is itself a useful discriminative cue. To detect these similarities, we use attention as a querying mechanism. The attention scores with respect to each class prototype are used as weights to combine prototypes via weighted sum, producing a uniquely tailored response feature representation for a given input. The original and response features are combined to produce an augmented feature for classification. We integrate our class-specific memory module into a standard convolutional neural network, yielding a Categorical Memory Network. Our memory module significantly improves accuracy over baseline CNNs, achieving competitive accuracy with state-of-the-art methods on four benchmarks, including CUB-200-2011, Stanford Cars, FGVC Aircraft, and NABirds.
翻訳日:2021-05-10 05:17:33 公開日:2020-12-12
# rgb-infrared person re-identificationのためのコンパクト特徴学習を用いたマルチスケールカスケードネットワーク

Multi-Scale Cascading Network with Compact Feature Learning for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2012.06843v1 )

ライセンス: Link先を確認
Can Zhang, Hong Liu, Wei Guo, Mang Ye(参考訳) rgb-infrared person re-id(rgb-ir re-id)は、可視・熱カメラで撮影された異種画像から人物をマッチングすることを目的としている。 従来の単一モダリティや追加のモダリティ間不一致を含む複雑な分散において大きな課題に直面した既存のrgb-ir re-id法の多くは、画像レベル、特徴レベル、または両方のハイブリッドに制約を課すことを提案している。 ハイブリッド制約の優れたパフォーマンスにもかかわらず、それらは通常、重いネットワークアーキテクチャで実装される。 実際、以前の取り組みは、新しいクロスモーダルre-id領域における先駆的な作業として貢献し、改善のための大きなスペースを残している。 主な要因は,(1)訓練のための異なるモダリティから豊富な人物画像ペアが欠如していること,(2) 健全なモダリティ不変の特徴の欠如,(2) 効果的なマッチングのための粗い表現の欠如である。 これらの問題に対処するために,マルチスケールの細粒度の機能をカスケード方式で集約し,リッチで拡張されたセマンティクス機能を含む統一表現を実現することにより,新たなマルチスケール部分認識型カスケードフレームワーク(mspac)を策定する。 さらに、マージン指数中心(mecen)損失を導入し、モーダル内およびモーダル間例から混合分散を除去する。 したがって、相互モダリティ相関は、特徴的モダリティ不変特徴学習のためのサルエント特徴について効率的に研究することができる。 提案手法が最先端のすべての技術を大きなマージンで上回ることを示すために,広範な実験を行った。

RGB-Infrared person re-identification (RGB-IR Re-ID) aims to match persons from heterogeneous images captured by visible and thermal cameras, which is of great significance in the surveillance system under poor light conditions. Facing great challenges in complex variances including conventional single-modality and additional inter-modality discrepancies, most of the existing RGB-IR Re-ID methods propose to impose constraints in image level, feature level or a hybrid of both. Despite the better performance of hybrid constraints, they are usually implemented with heavy network architecture. As a matter of fact, previous efforts contribute more as pioneering works in new cross-modal Re-ID area while leaving large space for improvement. This can be mainly attributed to: (1) lack of abundant person image pairs from different modalities for training, and (2) scarcity of salient modality-invariant features especially on coarse representations for effective matching. To address these issues, a novel Multi-Scale Part-Aware Cascading framework (MSPAC) is formulated by aggregating multi-scale fine-grained features from part to global in a cascading manner, which results in a unified representation containing rich and enhanced semantic features. Furthermore, a marginal exponential centre (MeCen) loss is introduced to jointly eliminate mixed variances from intra- and inter-modal examples. Cross-modality correlations can thus be efficiently explored on salient features for distinctive modality-invariant feature learning. Extensive experiments are conducted to demonstrate that the proposed method outperforms all the state-of-the-art by a large margin.
翻訳日:2021-05-10 05:16:46 公開日:2020-12-12
# AMINN:多焦点肝転移の予後予測のためのオートエンコーダを用いたマルチインスタンスニューラルネットワーク

AMINN: Autoencoder-based Multiple Instance Neural Network for Outcome Prediction of Multifocal Liver Metastases ( http://arxiv.org/abs/2012.06875v1 )

ライセンス: Link先を確認
Jianan Chen, Helen M. C. Cheung, Laurent Milot, Anne L. Martel(参考訳) 大腸癌は最も一般的で致死的ながんの1つであり,大腸癌肝転移(CRLM)は大腸癌患者の主要な死因である。 多焦点性はCRLMで頻繁に起こるが、CRLMの結果予測では明らかにされていない。 既存の臨床および画像バイオマーカーのほとんどは、すべての多焦点病変のイメージング特徴を考慮に入れていない。 本稿では、造影MRIから抽出した放射能特徴を用いた多焦点CRLM患者の生存率を予測するために、エンドツーエンドの自己エンコーダベースマルチインスタンスニューラルネットワーク(AMINN)を提案する。 具体的には,入力特徴を再構成するオートエンコーダと,患者のすべての腫瘍病変から情報を集約して予測を行う複数インスタンスネットワークを共同で訓練する。 さらに, 2段階の正規化手法を組み込んで, 深層ニューラルネットワークの訓練を改良し, 放射能特徴の分布がほぼ常に著しく歪んでいることを観測した。 実験の結果,全病変の画像特徴を取り入れた多焦点癌の予後予測が改善するという仮説を実証的に検証した。 提案されたADMINNフレームワークは、基準法よりも19.5%高いLOC曲線(AUC)0.70の領域を達成した。 ネットワークの出力に基づいてリスクスコアを作成し,他の臨床・画像バイオマーカーと比較した。 多焦点CRLM患者のコホートにおける一変量および多変量コックス比例ハザードモデリングの統計的意義は,我々のリスクスコアのみである。 全病変を組み込んで2段階の正常化を施す効果は,一連のアブレーション研究によって実証された。 私たちのコードはピアレビュープロセス後にリリースされます。

Colorectal cancer is one of the most common and lethal cancers and colorectal cancer liver metastases (CRLM) is the major cause of death in patients with colorectal cancer. Multifocality occurs frequently in CRLM, but is relatively unexplored in CRLM outcome prediction. Most existing clinical and imaging biomarkers do not take the imaging features of all multifocal lesions into account. In this paper, we present an end-to-end autoencoder-based multiple instance neural network (AMINN) for the prediction of survival outcomes in multifocal CRLM patients using radiomic features extracted from contrast-enhanced MRIs. Specifically, we jointly train an autoencoder to reconstruct input features and a multiple instance network to make predictions by aggregating information from all tumour lesions of a patient. In addition, we incorporate a two-step normalization technique to improve the training of deep neural networks, built on the observation that the distributions of radiomic features are almost always severely skewed. Experimental results empirically validated our hypothesis that incorporating imaging features of all lesions improves outcome prediction for multifocal cancer. The proposed ADMINN framework achieved an area under the ROC curve (AUC) of 0.70, which is 19.5% higher than baseline methods. We built a risk score based on the outputs of our network and compared it to other clinical and imaging biomarkers. Our risk score is the only one that achieved statistical significance in univariate and multivariate cox proportional hazard modeling in our cohort of multifocal CRLM patients. The effectiveness of incorporating all lesions and applying two-step normalization is demonstrated by a series of ablation studies. Our code will be released after the peer-review process.
翻訳日:2021-05-10 05:16:15 公開日:2020-12-12
# Gumbel-Max方程式学習ネットワークによる記号表現の学習

Learning Symbolic Expressions via Gumbel-Max Equation Learner Network ( http://arxiv.org/abs/2012.06921v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) 現代の機械学習、特にディープラーニングは、科学的および工学的な研究で顕著な成功を収めているが、これらの最先端技術によって学習されたニューラルネットワーク(nns)のほとんどはブラックボックスモデルである。 科学と工学における機械学習の成功のためには、複雑なデータセットから高レベルの数学的知識を効果的に抽出する新しいNNアーキテクチャを開発することが重要である。 この研究の要求を満たすため,本論文は記号回帰問題に着目し,gumbel-max方程式学習ネットワーク (gmeql) と呼ばれる新しいnnアーキテクチャを開発した。 以前提案されたEQL(Equation Learner)ネットワークとは異なり、GMEQLはGumbel-Maxトリックを通じてネットワーク構造に継続的緩和を適用し、構造パラメータと回帰パラメータという2種類のトレーニング可能なパラメータを導入している。 本稿では,新しい2段階のトレーニングプロセスと,エリートリポジトリに基づくオンラインとオフラインの両設定における構造パラメータのトレーニング手法を提案する。 8つのベンチマークシンボリックレグレッション問題において、GMEQLは、シンボリックリグレッションのためのいくつかの最先端技術より優れていることを示した。

Although modern machine learning, in particular deep learning, has achieved outstanding success in scientific and engineering research, most of the neural networks (NNs) learned via these state-of-the-art techniques are black-box models. For a widespread success of machine learning in science and engineering, it is important to develop new NN architectures to effectively extract high-level mathematical knowledge from complex dataset. To meet this research demand, this paper focuses on the symbolic regression problem and develops a new NN architecture called the Gumbel-Max Equation Learner (GMEQL) network. Different from previously proposed Equation Learner (EQL) networks, GMEQL applies continuous relaxation to the network structure via the Gumbel-Max trick and introduces two types of trainable parameters: structure parameters and regression parameters. This paper also proposes a new two-stage training process and new techniques to train structure parameters in both the online and offline settings based on an elite repository. On 8 benchmark symbolic regression problems, GMEQL is experimentally shown to outperform several cutting-edge techniques for symbolic regression.
翻訳日:2021-05-10 05:15:48 公開日:2020-12-12
# ニューラルネットワークを描画する

Draw your Neural Networks ( http://arxiv.org/abs/2012.09609v1 )

ライセンス: Link先を確認
Jatin Sharma and Shobha Lata(参考訳) ディープニューラルネットワークは、現代の人工知能の基本的な構成要素である。 彼らは、データから直接学習する能力と、様々なタスクで優れた正確性によって、既存のソフトウェアシステムを置き換えたり強化したりしている。 既存のソフトウェア開発ライフサイクル(SDLC)方法論は、AI開発特有の能力と要件を表現できないため、人工知能開発ライフサイクル(AIDLC)方法論に置き換えられなければならない。 本稿では,複雑なコンピュータプログラミングの代わりに,ブロックやラインなどの直感的なGUI要素を描画するニューラルネットワークを開発するための,より自然なアプローチについて論じる。 我々は、このGUIベースのアプローチを使ってニューラルネットワークを設計、修正し、従来のフレームワークとの相互運用性を提供するSketchフレームワークを提案する。 このシステムは一般的なレイヤと操作を最初から提供し、サポート対象のトレーニング済みモデルをインポートすることで、複雑なニューラルネットワークの設計とトレーニングを高速化し、学習曲線を削除してAIを民主化する。

Deep Neural Networks are the basic building blocks of modern Artificial Intelligence. They are increasingly replacing or augmenting existing software systems due to their ability to learn directly from the data and superior accuracy on variety of tasks. Existing Software Development Life Cycle (SDLC) methodologies fall short on representing the unique capabilities and requirements of AI Development and must be replaced with Artificial Intelligence Development Life Cycle (AIDLC) methodologies. In this paper, we discuss an alternative and more natural approach to develop neural networks that involves intuitive GUI elements such as blocks and lines to draw them instead of complex computer programming. We present Sketch framework, that uses this GUI-based approach to design and modify the neural networks and provides interoperability with traditional frameworks. The system provides popular layers and operations out-of-the-box and could import any supported pre-trained model making it a faster method to design and train complex neural networks and ultimately democratizing the AI by removing the learning curve.
翻訳日:2021-05-10 05:15:27 公開日:2020-12-12
# フェデレーション学習システムにおけるセキュリティとプライバシの獲得:調査,研究課題,今後の方向性

Achieving Security and Privacy in Federated Learning Systems: Survey, Research Challenges and Future Directions ( http://arxiv.org/abs/2012.06810v1 )

ライセンス: Link先を確認
Alberto Blanco-Justicia, Josep Domingo-Ferrer, Sergio Mart\'inez, David S\'anchez, Adrian Flanagan and Kuan Eeik Tan(参考訳) フェデレーション・ラーニング(FL)は、サーバが機械学習(ML)モデルを学習し、複数の分散クライアントで独自のトレーニングデータをプライベートに格納することを可能にする。 集中型MLアプローチとは対照的に、FLは計算をサーバに保存し、クライアントがプライベートデータをサーバにアウトソースする必要がない。 しかし、FLには問題はない。 一方、各トレーニングエポックでクライアントが送信したモデル更新は、クライアントのプライベートデータに関する情報を漏洩させる可能性がある。 一方、サーバが学習したモデルは悪意のあるクライアントによる攻撃を受ける可能性がある。 本稿では,まずflに対するセキュリティとプライバシのアタックを調査し,各アタックを緩和するために文献で提案するソリューションを批判的に調査する。 その後,セキュリティとプライバシ保護を同時に達成することの難しさについて論じる。 最後に、このオープンな問題に対処し、セキュリティとプライバシの両方を達成する方法をスケッチします。

Federated learning (FL) allows a server to learn a machine learning (ML) model across multiple decentralized clients that privately store their own training data. In contrast with centralized ML approaches, FL saves computation to the server and does not require the clients to outsource their private data to the server. However, FL is not free of issues. On the one hand, the model updates sent by the clients at each training epoch might leak information on the clients' private data. On the other hand, the model learnt by the server may be subjected to attacks by malicious clients; these security attacks might poison the model or prevent it from converging. In this paper, we first examine security and privacy attacks to FL and critically survey solutions proposed in the literature to mitigate each attack. Afterwards, we discuss the difficulty of simultaneously achieving security and privacy protection. Finally, we sketch ways to tackle this open problem and attain both security and privacy.
翻訳日:2021-05-10 05:15:10 公開日:2020-12-12
# 2段階オフラインオンラインリソース割り当てのための統一モデル

A Unified Model for the Two-stage Offline-then-Online Resource Allocation ( http://arxiv.org/abs/2012.06845v1 )

ライセンス: Link先を確認
Yifan Xu, Pan Xu, Jianping Pan and Jun Tao(参考訳) インターネットの普及に伴い、従来のオフラインリソースアロケーションは、オンラインリソースアロケーションと呼ばれる新しい形式へと進化してきた。 システム内のエージェントのオンライン到着と、各オンラインエージェントの到着時のリアルタイム意思決定要件が特徴である。 オフラインとオンラインの両方のリソース割り当ては、ライドシェアリングからクラウドソーシングまで、さまざまな現実世界のマッチング市場で広く応用されている。 自転車シェアリングにおける再バランスや、ライドシェアリングにおけるトリップカーのディスパッチといった、2段階のリソース割り当てプロセスを含む新興アプリケーションもある。 プロセスはオフラインフェーズとシーケンシャルなオンラインフェーズで構成され、両方のフェーズは同じリソースセットで競います。 本稿では,オフラインとオンラインの両方のリソース割り当てを一つのフレームワークに組み込む統一モデルを提案する。 本モデルでは,オンラインエージェントの非一様かつ既知の到着分布を,歴史的なデータから学ぶことができる第2のオンラインフェーズに想定する。 本稿では,パラメータ化線形プログラミング(LP)に基づくアルゴリズムを提案する。 実データを用いた実験結果から,我々のLPベースアプローチは,ロバスト性と有効性の観点からLP非依存的ヒューリスティックスより優れていることが示された。

With the popularity of the Internet, traditional offline resource allocation has evolved into a new form, called online resource allocation. It features the online arrivals of agents in the system and the real-time decision-making requirement upon the arrival of each online agent. Both offline and online resource allocation have wide applications in various real-world matching markets ranging from ridesharing to crowdsourcing. There are some emerging applications such as rebalancing in bike sharing and trip-vehicle dispatching in ridesharing, which involve a two-stage resource allocation process. The process consists of an offline phase and another sequential online phase, and both phases compete for the same set of resources. In this paper, we propose a unified model which incorporates both offline and online resource allocation into a single framework. Our model assumes non-uniform and known arrival distributions for online agents in the second online phase, which can be learned from historical data. We propose a parameterized linear programming (LP)-based algorithm, which is shown to be at most a constant factor of $1/4$ from the optimal. Experimental results on the real dataset show that our LP-based approaches outperform the LP-agnostic heuristics in terms of robustness and effectiveness.
翻訳日:2021-05-10 05:14:26 公開日:2020-12-12
# 配車におけるドライバーの所得平等のためのシステム効率の取引

Trading the System Efficiency for the Income Equality of Drivers in Rideshare ( http://arxiv.org/abs/2012.06850v1 )

ライセンス: Link先を確認
Yifan Xu and Pan Xu(参考訳) いくつかの科学的研究は、性別、年齢、人種などの人口統計に基づくライドシェアドライバーの所得格差の存在を報告している。 本稿では,ライダーの差別的キャンセルによる配車者間の所得不平等と,システム効率(利益目標)による所得不平等(公正目標)のトレードオフについて検討する。 オンラインの2部マッチングモデルを提案し,事前の分布に追従して乗客の到着を想定した。 我々のモデルは、人口統計因子に基づいてタイプが定義されるドライバーライダタイプ間の受け入れ率の概念である。 特に、各ライダーが割り当てられたドライバーを受け入れたりキャンセルしたりすることができ、それぞれがライダータイプからドライバータイプへの受け入れ度を反映した一定の確率で発生すると仮定する。 有効なベンチマークとして2目的線形プログラムを構築し、2つのLPベースのパラメータ化オンラインアルゴリズムを提案する。 厳密なオンライン競争比分析は、対立する2つの目標、公正の促進と利益のバランスをとるオンラインアルゴリズムの柔軟性と効率を示すために提供されます。 実世界のデータセットに関する実験結果も提供され、理論的予測を確認します。

Several scientific studies have reported the existence of the income gap among rideshare drivers based on demographic factors such as gender, age, race, etc. In this paper, we study the income inequality among rideshare drivers due to discriminative cancellations from riders, and the tradeoff between the income inequality (called fairness objective) with the system efficiency (called profit objective). We proposed an online bipartite-matching model where riders are assumed to arrive sequentially following a distribution known in advance. The highlight of our model is the concept of acceptance rate between any pair of driver-rider types, where types are defined based on demographic factors. Specially, we assume each rider can accept or cancel the driver assigned to her, each occurs with a certain probability which reflects the acceptance degree from the rider type towards the driver type. We construct a bi-objective linear program as a valid benchmark and propose two LP-based parameterized online algorithms. Rigorous online competitive ratio analysis is offered to demonstrate the flexibility and efficiency of our online algorithms in balancing the two conflicting goals, promotions of fairness and profit. Experimental results on a real-world dataset are provided as well, which confirm our theoretical predictions.
翻訳日:2021-05-10 05:14:07 公開日:2020-12-12
# 正の無ラベルサンプリングによるGANに基づく勧告

GAN-based Recommendation with Positive-Unlabeled Sampling ( http://arxiv.org/abs/2012.06901v1 )

ライセンス: Link先を確認
Yao Zhou, Jianpeng Xu, Jun Wu, Zeinab Taghavi Nasrabadi, Evren Korpeoglu, Kannan Achan, Jingrui He(参考訳) Recommender システムは、様々なウェブアプリケーションやパーソナライズされた製品で情報検索タスクを行う一般的なツールである。 本研究では,正の未ラベルサンプリング戦略を用いたジェネレーティブ・アドバイサル・ネットワークに基づくレコメンデーション・フレームワークを提案する。 具体的には,各ユーザと各アイテムの関連性スコアを出力するバイナリ分類器を識別器として設計し,ユーザ-項目タプルの連続分布を学習するためにジェネレータを利用する。 一方、判別器の学習手順には正の未ラベルサンプリングが適用される。 正の未ラベルサンプリングと判別器とジェネレータの収束の最適性に関する理論的境界が提供される。 ランキングに基づく評価基準を8つ有する3つの公開データセットに対して, フレームワークの有効性と有効性を示し, 人気ベースライン13と比較した。

Recommender systems are popular tools for information retrieval tasks on a large variety of web applications and personalized products. In this work, we propose a Generative Adversarial Network based recommendation framework using a positive-unlabeled sampling strategy. Specifically, we utilize the generator to learn the continuous distribution of user-item tuples and design the discriminator to be a binary classifier that outputs the relevance score between each user and each item. Meanwhile, positive-unlabeled sampling is applied in the learning procedure of the discriminator. Theoretical bounds regarding positive-unlabeled sampling and optimalities of convergence for the discriminators and the generators are provided. We show the effectiveness and efficiency of our framework on three publicly accessible data sets with eight ranking-based evaluation metrics in comparison with thirteen popular baselines.
翻訳日:2021-05-10 05:13:48 公開日:2020-12-12
# マルチモーダルインベッドポースとブランケット下の形状推定

Multimodal In-bed Pose and Shape Estimation under the Blankets ( http://arxiv.org/abs/2012.06735v1 )

ライセンス: Link先を確認
Yu Yin, Joseph P. Robinson, Yun Fu(参考訳) 人間は生涯の約3分の1を平均してベッドで過ごす。 さらに、休息中の人間は多くの医療アプリケーションで不可欠です。 通常、人間は休んでいるときに毛布で覆われており、そこでは被写体を明らかにするためのマルチモーダルなアプローチを提案している。 本稿では,マルチモーダルセンサが捉えた知識を最大限活用するために,様々なモダリティを効果的に融合するピラミッド方式を提案する。 具体的には、最も情報性の高い2つのモード(すなわち深度と赤外画像)を最初に融合させ、優れた初期ポーズと形状推定を生成する。 そして、さらに圧力マップとrgb画像とを融合させ、被覆部に対する咬合不変情報と露出部に対する正確な形状情報とをそれぞれ提供して結果を洗練させる。 しかし、マルチモーダルデータであっても、身体の極端な閉塞のため、安静時に人体を検出する作業は依然として非常に困難である。 ブランケットからの閉塞による負の効果をさらに低減するため,我々は注意に基づく再構成モジュールを用いて未発見のモダリティを発生させ,サイクル方式で電流推定を更新する。 大規模な実験は、提案されたモデルが他よりも優れていることを検証する。

Humans spend vast hours in bed -- about one-third of the lifetime on average. Besides, a human at rest is vital in many healthcare applications. Typically, humans are covered by a blanket when resting, for which we propose a multimodal approach to uncover the subjects so their bodies at rest can be viewed without the occlusion of the blankets above. We propose a pyramid scheme to effectively fuse the different modalities in a way that best leverages the knowledge captured by the multimodal sensors. Specifically, the two most informative modalities (i.e., depth and infrared images) are first fused to generate good initial pose and shape estimation. Then pressure map and RGB images are further fused one by one to refine the result by providing occlusion-invariant information for the covered part, and accurate shape information for the uncovered part, respectively. However, even with multimodal data, the task of detecting human bodies at rest is still very challenging due to the extreme occlusion of bodies. To further reduce the negative effects of the occlusion from blankets, we employ an attention-based reconstruction module to generate uncovered modalities, which are further fused to update current estimation via a cyclic fashion. Extensive experiments validate the superiority of the proposed model over others.
翻訳日:2021-05-10 05:13:16 公開日:2020-12-12
# 3D-Fused Context Propagationを用いたインタラクティブ放射線治療

Interactive Radiotherapy Target Delineation with 3D-Fused Context Propagation ( http://arxiv.org/abs/2012.06873v1 )

ライセンス: Link先を確認
Chun-Hung Chao, Hsien-Tzu Cheng, Tsung-Ying Ho, Le Lu, and Min Sun(参考訳) 放射線治療計画と癌診断には,Gross tumor volume (GTV) delineation on tomography Medical imagingが重要である。 畳み込みニューラルネットワーク(CNN)は、放射線治療対象の3次元CTボリュームの設定を含む、自動的な3次元医療セグメンテーションタスクに優先されている。 cnnは有望な結果をもたらす可能性があるが、臨床シナリオでは、予期せぬ患者に対するcnnの一貫性の欠如により、専門家による二重チェックと予測の洗練が依然として必要である。 モデルを再トレーニングすることなくCNNの予測を効率的に修正する方法を提供するため,我々は3次元ボリューム全体に対して編集されたスライスを伝播する3Dフューズしたコンテキスト伝搬を提案する。 高レベルの特徴マップを考えると、放射線腫瘍学者は修正をガイドし、予測ボリューム全体を洗練するために、わずかなスライスを編集するしかなかった。 具体的には、バックプロパゲーションを利用したアクティベーション手法を用いて、ユーザ編集情報を潜在空間に後方に伝達し、更新された特徴とオリジナル機能に基づいて新たな予測を生成する。 相互作用の間,提案手法は既存の3次元CNNモデルアーキテクチャを変更せずに既存の特徴を再利用し,他の予測に対する摂動を回避する。 本手法は,鼻咽頭癌と食道癌に対する放射線治療標的2例について検討した。 実験の結果,提案手法は,oncologistの対話型入力により,異なるモデルアーキテクチャから既存のセグメンテーション予測をより効果的に改善できることがわかった。

Gross tumor volume (GTV) delineation on tomography medical imaging is crucial for radiotherapy planning and cancer diagnosis. Convolutional neural networks (CNNs) has been predominated on automatic 3D medical segmentation tasks, including contouring the radiotherapy target given 3D CT volume. While CNNs may provide feasible outcome, in clinical scenario, double-check and prediction refinement by experts is still necessary because of CNNs' inconsistent performance on unexpected patient cases. To provide experts an efficient way to modify the CNN predictions without retrain the model, we propose 3D-fused context propagation, which propagates any edited slice to the whole 3D volume. By considering the high-level feature maps, the radiation oncologists would only required to edit few slices to guide the correction and refine the whole prediction volume. Specifically, we leverage the backpropagation for activation technique to convey the user editing information backwardly to the latent space and generate new prediction based on the updated and original feature. During the interaction, our proposed approach reuses the extant extracted features and does not alter the existing 3D CNN model architectures, avoiding the perturbation on other predictions. The proposed method is evaluated on two published radiotherapy target contouring datasets of nasopharyngeal and esophageal cancer. The experimental results demonstrate that our proposed method is able to further effectively improve the existing segmentation prediction from different model architectures given oncologists' interactive inputs.
翻訳日:2021-05-10 05:12:56 公開日:2020-12-12
# Compensated Overlap-FedAvgを用いたコミュニケーション効率の良いフェデレーション学習

Communication-Effici ent Federated Learning with Compensated Overlap-FedAvg ( http://arxiv.org/abs/2012.06706v1 )

ライセンス: Link先を確認
Yuhao Zhou, Ye Qing, and Jiancheng Lv(参考訳) 新たなIoT(Internet of Things)によって、ペタバイト単位のデータが毎日生成されるが、データとプライバシリークの理解がMLの成長を著しく変えているため、マシンラーニング(ML)の目的で最終的に収集され、使用されるのはごくわずかである。 この問題を軽減するために、フェデレートラーニングはクラスタ内でデータセットを共有することなく、複数のクライアントの複合データによるモデルトレーニングを実行する。 それでも、フェデレーション学習は、各エポックにおける同期データのサイズがモデルと同じであるため、膨大な通信オーバーヘッドをもたらし、通信効率を低下させる。 そこで, 通信ラウンドの削減とデータ圧縮を主とする変種手法を提案し, 連合学習の通信オーバーヘッドを低減した。 本稿では,モデル学習フェーズとモデルアップロード・ダウンロードフェーズを並列化するフレームワークであるoverload-fedavgを提案する。 バニラFedAvgと比較して、Overlap-FedAvgは階層型コンピューティング戦略、データ補償機構、ネステロフ加速勾配〜(NAG)アルゴリズムでさらに開発されている。 さらに、Overlap-FedAvgは、クラスタの利用を最大化するために、他の多くの圧縮メソッドと直交している。 さらに,提案した Overlap-FedAvg フレームワークの収束性を証明する理論解析を行った。 複数のモデルとデータセットを用いた従来のタスクとリカレントタスクの両方に関する広範囲な実験により、提案手法が連合学習プロセスを大幅に促進することを示した。

Petabytes of data are generated each day by emerging Internet of Things (IoT), but only few of them can be finally collected and used for Machine Learning (ML) purposes due to the apprehension of data & privacy leakage, which seriously retarding ML's growth. To alleviate this problem, Federated learning is proposed to perform model training by multiple clients' combined data without the dataset sharing within the cluster. Nevertheless, federated learning introduces massive communication overhead as the synchronized data in each epoch is of the same size as the model, and thereby leading to a low communication efficiency. Consequently, variant methods mainly focusing on the communication rounds reduction and data compression are proposed to reduce the communication overhead of federated learning. In this paper, we propose Overlap-FedAvg, a framework that parallels the model training phase with model uploading & downloading phase, so that the latter phase can be totally covered by the former phase. Compared to vanilla FedAvg, Overlap-FedAvg is further developed with a hierarchical computing strategy, a data compensation mechanism and a nesterov accelerated gradients~(NAG) algorithm. Besides, Overlap-FedAvg is orthogonal to many other compression methods so that they can be applied together to maximize the utilization of the cluster. Furthermore, the theoretical analysis is provided to prove the convergence of the proposed Overlap-FedAvg framework. Extensive experiments on both conventional and recurrent tasks with multiple models and datasets also demonstrate that the proposed Overlap-FedAvg framework substantially boosts the federated learning process.
翻訳日:2021-05-10 05:12:32 公開日:2020-12-12
# オンラインディープラーニングを用いたラベルなしネットワークトラフィックデータからのddos攻撃のフィルタリング

Filtering DDoS Attacks from Unlabeled Network Traffic Data Using Online Deep Learning ( http://arxiv.org/abs/2012.06805v1 )

ライセンス: Link先を確認
Wesley Joon-Wie Tann, Jackie Tan Jin Wei, Joanna Purba, Ee-Chien Chang(参考訳) DDoS攻撃は単純で効果的であり、20年以上経っても大きな脅威となる。 最近の機械学習の成功を考えると、ディープラーニングを活用してアプリケーション層アタックリクエストをフィルタリングする方法を検討することは興味深い。 継続的に変化するプロファイル、ラベル付きデータの欠如、オンライン環境での制約など、ディープラーニングソリューションを採用する上での課題がある。 オフラインの教師なし学習手法は、通常の日当たりのトラフィック${\mathcal N}$から異常検出器$N$を学習することで、これらのハードルを回避できる。 しかし、異常検出は攻撃時に取得した情報を利用せず、その性能は一般的に満足できない。 本稿では,過去の${\mathcal N}$と,未ラベル要求からなる攻撃時に得られた${\mathcal M}$の混在を利用した2つのフレームワークを提案する。 また、${\mathcal N}$と${\mathcal M}$を使って攻撃を除去することを目的とした機械学習最適化問題も導入する。 まず,提案手法は統計的手法に触発され,教師なし異常検出器$n$を拡張し,推定条件付き確率分布を用いて解く。 我々は転送学習を採用して${\mathcal N}$と${\mathcal M}$を別々に効率的に適用し、その結果を組み合わせてオンライン学習者を得る。 第2に,深層学習に適した特定の損失関数を定式化し,オンライン環境での反復学習を用いて解く。 公開されているデータセットでは、オンライン学習者は、ベースライン検出法と比較して偽陽性率を99.3 %$改善する。 オフライン環境では、当社のアプローチはラベル付きデータでトレーニングされた分類器と競合する。

DDoS attacks are simple, effective, and still pose a significant threat even after more than two decades. Given the recent success in machine learning, it is interesting to investigate how we can leverage deep learning to filter out application layer attack requests. There are challenges in adopting deep learning solutions due to the ever-changing profiles, the lack of labeled data, and constraints in the online setting. Offline unsupervised learning methods can sidestep these hurdles by learning an anomaly detector $N$ from the normal-day traffic ${\mathcal N}$. However, anomaly detection does not exploit information acquired during attacks, and their performance typically is not satisfactory. In this paper, we propose two frameworks that utilize both the historic ${\mathcal N}$ and the mixture ${\mathcal M}$ traffic obtained during attacks, consisting of unlabeled requests. We also introduce a machine learning optimization problem that aims to sift out the attacks using ${\mathcal N}$ and ${\mathcal M}$. First, our proposed approach, inspired by statistical methods, extends an unsupervised anomaly detector $N$ to solve the problem using estimated conditional probability distributions. We adopt transfer learning to apply $N$ on ${\mathcal N}$ and ${\mathcal M}$ separately and efficiently, combining the results to obtain an online learner. Second, we formulate a specific loss function more suited for deep learning and use iterative training to solve it in the online setting. On publicly available datasets, our online learners achieve a $99.3\%$ improvement on false-positive rates compared to the baseline detection methods. In the offline setting, our approaches are competitive with classifiers trained on labeled data.
翻訳日:2021-05-10 05:11:40 公開日:2020-12-12
# クラスタリングに基づくマルチタスク特徴学習による脳波デコードの改善

Improving EEG Decoding via Clustering-based Multi-task Feature Learning ( http://arxiv.org/abs/2012.06813v1 )

ライセンス: Link先を確認
Yu Zhang, Tao Zhou, Wei Wu, Hua Xie, Hongru Zhu, Guoxu Zhou, Andrzej Cichocki(参考訳) 脳脳波(EEG)パターンデコーディングは脳-コンピュータインターフェース(BCI)の開発における重要なステップの1つであり、脳頭皮で収集された脳波の信号-雑音比がかなり低いため、非常に難しい。 機械学習は、より正確な復号化のためにEEGパターンを最適化する有望な技術を提供する。 しかし、既存のアルゴリズムは、真の脳波サンプル分布をキャプチャする基盤となるデータ構造を効果的に探索しないため、最適なデコード精度しか得られない。 そこで本研究では,脳波データの固有分布構造を明らかにするために,クラスタリングに基づくマルチタスク特徴学習アルゴリズムを提案する。 具体的には、各サブクラス(すなわちクラスタ)を探索するためにアフィニティ伝播に基づくクラスタリングを行い、各サブクラスに1対1の符号化戦略に基づいてユニークなラベルを割り当てる。 符号化ラベルマトリクスを用いて,検出されたサブクラスから脳波パターン特徴を協調的に最適化するために,サブクラス関係を利用した新しいマルチタスク学習アルゴリズムを考案する。 次に、EEGパターンデコーディングに最適化された機能を備えた線形サポートベクトルマシンを訓練する。 このアルゴリズムの有効性を検証するために,3つの脳波データセットについて,他の最先端手法との比較実験を行った。 改良された実験結果から,BCIアプリケーションにおける脳波パターン復号化の顕著な性能が示唆された。

Accurate electroencephalogram (EEG) pattern decoding for specific mental tasks is one of the key steps for the development of brain-computer interface (BCI), which is quite challenging due to the considerably low signal-to-noise ratio of EEG collected at the brain scalp. Machine learning provides a promising technique to optimize EEG patterns toward better decoding accuracy. However, existing algorithms do not effectively explore the underlying data structure capturing the true EEG sample distribution, and hence can only yield a suboptimal decoding accuracy. To uncover the intrinsic distribution structure of EEG data, we propose a clustering-based multi-task feature learning algorithm for improved EEG pattern decoding. Specifically, we perform affinity propagation-based clustering to explore the subclasses (i.e., clusters) in each of the original classes, and then assign each subclass a unique label based on a one-versus-all encoding strategy. With the encoded label matrix, we devise a novel multi-task learning algorithm by exploiting the subclass relationship to jointly optimize the EEG pattern features from the uncovered subclasses. We then train a linear support vector machine with the optimized features for EEG pattern decoding. Extensive experimental studies are conducted on three EEG datasets to validate the effectiveness of our algorithm in comparison with other state-of-the-art approaches. The improved experimental results demonstrate the outstanding superiority of our algorithm, suggesting its prominent performance for EEG pattern decoding in BCI applications.
翻訳日:2021-05-10 05:11:13 公開日:2020-12-12
# ロバストな推薦のための非推奨・推奨項目列による学習

Learning over no-Preferred and Preferred Sequence of items for Robust Recommendation ( http://arxiv.org/abs/2012.06910v1 )

ライセンス: Link先を確認
Aleksandra Burashnikova, Marianne Clausel, Charlotte Laclau, Frack Iutzeller, Yury Maximov, Massih-Reza Amini(参考訳) 本稿では,主にクリックの形で,暗黙的なフィードバックに基づいて大規模レコメンダシステム(rs)をトレーニングするための理論的に確立された逐次戦略を提案する。 提案手法は,非クリック項目の系列とクリック項目の各ユーザからなる連続項目のブロックに対して,対方向のランキングロスを最小化するものである。 本稿では,モーメント法と勾配法のいずれかを用いてモデルパラメータを更新する手法を提案する。 対象アイテム(主にボット)に対する異常なクリック数に対するパラメータの更新を防止するため,ユーザ毎のアップデート数に対して,上位と下位のしきい値を導入する。 これらの閾値は、トレーニングセット内のブロック数の分布に対して推定される。 閾値は、RSの決定に影響を及ぼし、ユーザに示されるアイテムの分布のシフトを示唆する。 さらに,両アルゴリズムの収束解析を行い,異なるランキング尺度と計算時間の両方に関して,6つの大規模コレクションに対して実効性を示す。

In this paper, we propose a theoretically founded sequential strategy for training large-scale Recommender Systems (RS) over implicit feedback, mainly in the form of clicks. The proposed approach consists in minimizing pairwise ranking loss over blocks of consecutive items constituted by a sequence of non-clicked items followed by a clicked one for each user. We present two variants of this strategy where model parameters are updated using either the momentum method or a gradient-based approach. To prevent from updating the parameters for an abnormally high number of clicks over some targeted items (mainly due to bots), we introduce an upper and a lower threshold on the number of updates for each user. These thresholds are estimated over the distribution of the number of blocks in the training set. The thresholds affect the decision of RS and imply a shift over the distribution of items that are shown to the users. Furthermore, we provide a convergence analysis of both algorithms and demonstrate their practical efficiency over six large-scale collections, both regarding different ranking measures and computational time.
翻訳日:2021-05-10 05:10:50 公開日:2020-12-12
# フィードバック制御による教師強化学習

Tutoring Reinforcement Learning via Feedback Control ( http://arxiv.org/abs/2012.06863v1 )

ライセンス: Link先を確認
Francesco De Lellis, Giovanni Russo, Mario di Bernardo(参考訳) 制御教師付き強化学習(CTRL)アルゴリズムを導入する。 このアイデアは、システムモデルの知識が限られた制御戦略を用いて、表型学習アルゴリズムを強化することである。 学習過程を学習することにより、学習率を大幅に削減することができる。 逆振り子を安定化する古典的な問題をベンチマークとして、そのアプローチの利点と欠点を数値的に示す。

We introduce a control-tutored reinforcement learning (CTRL) algorithm. The idea is to enhance tabular learning algorithms by means of a control strategy with limited knowledge of the system model. By tutoring the learning process, the learning rate can be substantially reduced. We use the classical problem of stabilizing an inverted pendulum as a benchmark to numerically illustrate the advantages and disadvantages of the approach.
翻訳日:2021-05-10 05:10:18 公開日:2020-12-12
# グラフと高速gフレーム変換を用いたデシメーテッドフレームレットシステム

Decimated Framelet System on Graphs and Fast G-Framelet Transforms ( http://arxiv.org/abs/2012.06922v1 )

ライセンス: Link先を確認
Xuebin Zheng, Bingxin Zhou, Yu Guang Wang, Xiaosheng Zhuang(参考訳) グラフ表現学習には、スーパーレゾリューションイメージング、3Dコンピュータビジョン、薬物再資源化、タンパク質分類、ソーシャルネットワーク分析など、多くの実世界の応用がある。 グラフ構造データに対する統計的あるいは機械学習モデルの学習性能には,グラフデータの適切な表現が不可欠である。 本稿では,グラフ上に局所化されたタイトフレームを形成するデシメーテッドフレームレットと呼ばれる,グラフデータのための新しいマルチスケール表現システムを提案する。 決定されたフレームレットシステムは、粗い粒度のチェーン上にグラフデータ表現を格納し、グラフデータを複数のスケールで処理し、各スケールでデータをサブグラフに格納する。 これに基づいて,構築的データ駆動フィルタバンクを用いた多分解能グラフデータの分解と再構成のためのGフレームレット変換を確立する。 グラフフレームレットは、高速グラフフーリエ変換をサポートするチェーンベースで構築される。 この結果から、サイズ n のグラフに対する線形計算複雑性 o(n) を持つデキメッド g-フレーム変換(英語版)(fgt) の高速アルゴリズムを与える。 この効果は、トラフィックネットワークのマルチレゾリューション分析やグラフ分類タスクのグラフニューラルネットワークなど、現実世界のアプリケーションで実証されている。

Graph representation learning has many real-world applications, from super-resolution imaging, 3D computer vision to drug repurposing, protein classification, social networks analysis. An adequate representation of graph data is vital to the learning performance of a statistical or machine learning model for graph-structured data. In this paper, we propose a novel multiscale representation system for graph data, called decimated framelets, which form a localized tight frame on the graph. The decimated framelet system allows storage of the graph data representation on a coarse-grained chain and processes the graph data at multi scales where at each scale, the data is stored at a subgraph. Based on this, we then establish decimated G-framelet transforms for the decomposition and reconstruction of the graph data at multi resolutions via a constructive data-driven filter bank. The graph framelets are built on a chain-based orthonormal basis that supports fast graph Fourier transforms. From this, we give a fast algorithm for the decimated G-framelet transforms, or FGT, that has linear computational complexity O(N) for a graph of size N. The theory of decimated framelets and FGT is verified with numerical examples for random graphs. The effectiveness is demonstrated by real-world applications, including multiresolution analysis for traffic network, and graph neural networks for graph classification tasks.
翻訳日:2021-05-10 05:09:55 公開日:2020-12-12