このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201209となっている論文です。

PDF登録状況(公開日: 20201209)

TitleAuthorsAbstract論文公表日・翻訳日
# siamese基底関数ネットワークによる欠陥分類

Siamese Basis Function Networks for Defect Classification ( http://arxiv.org/abs/2012.01338v4 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Faruk Yildirim, Benedikt Br\"uckner, J\"urgen Fleischer(参考訳) 金属表面の欠陥分類は、鉄鋼やその他の金属が日常的に製造産業によって処理されるため、重要な問題と考えられている。 筆者らは,samese基底関数ネットワーク(sbf-network)を構築するための基本関数ネットワークにおいて,いわゆるsiameseカーネルの利用を導入する新しいアプローチを提案する。 基本的な考え方は、類似度スコアを用いて分類することである。 この分類は、効率的な深層学習に基づく特徴抽出手法によって強化される。 まず、中央画像が各シームズカーネルに割り当てられる。 次にカーネルは、データセット内の他のイメージとセンターを区別する方法でエンコーディングを生成するように訓練される。 このアプローチを用いて、著者らはシームズ・カーネルの内部にある種のクラス認識を作成した。 与えられた画像を分類するために、各シームズカーネルはその中心と与えられた画像の特徴ベクトルを生成する。 これらのベクトルは、各画像の低次元空間における符号化を表す。 それぞれのエンコーディング間の距離は、放射基底関数と共に余弦距離を用いて計算される。 距離は、分類を行うために多層ニューラルネットワークに供給される。 このアプローチにより、著者らは art neu 表面欠陥データセットの状況において優れた結果を得た。

Defect classification on metallic surfaces is considered a critical issue since substantial quantities of steel and other metals are processed by the manufacturing industry on a daily basis. The authors propose a new approach where they introduce the usage of so called Siamese Kernels in a Basis Function Network to create the Siamese Basis Function Network (SBF-Network). The underlying idea is to classify by comparison using similarity scores. This classification is reinforced through efficient deep learning based feature extraction methods. First, a center image is assigned to each Siamese Kernel. The Kernels are then trained to generate encodings in a way that enables them to distinguish their center from other images in the dataset. Using this approach the authors created some kind of class-awareness inside the Siamese Kernels. To classify a given image, each Siamese Kernel generates a feature vector for its center as well as the given image. These vectors represent encodings of the respective images in a lower-dimensional space. The distance between each pair of encodings is then computed using the cosine distance together with radial basis functions. The distances are fed into a multilayer neural network to perform the classification. With this approach the authors achieved outstanding results on the state of the art NEU surface defect dataset.
翻訳日:2021-05-25 04:09:28 公開日:2020-12-09
# 部分グラフマッチングのための部分グロモフ・ワッサースタイン学習

Partial Gromov-Wasserstein Learning for Partial Graph Matching ( http://arxiv.org/abs/2012.01252v2 )

ライセンス: Link先を確認
Weijie Liu, Chao Zhang, Jiahao Xie, Zebang Shen, Hui Qian, Nenggan Zheng(参考訳) グラフマッチングは、2つのグラフにまたがるノードの対応を見つけ、グラフベースの機械学習の基本的なタスクである。 1つのグラフのすべてのノードをもう1つのグラフの1つのノードにマッチさせるが、2つのグラフは通常、多くの \realworld{} アプリケーションで部分的に重複する。 本稿では,部分的なGromov-Wasserstein 学習フレームワークを提案し,部分的なGromov-Wasserstein 距離と部分的なWasserstein 距離を目的として融合させ,部分的なトランスポートマップとノード埋め込みを交互に更新する。 提案したフレームワークは確率質量のごく一部を輸送し、2つのグラフに高い相対的類似性を持つノード対と一致する。 埋め込み学習法を取り入れた異種グラフも一致させることができる。 合成および実数式{}グラフの数値実験により、我々のフレームワークはF1スコアを少なくとも20\%$で、より多く改善できることを示した。

Graph matching finds the correspondence of nodes across two graphs and is a basic task in graph-based machine learning. Numerous existing methods match every node in one graph to one node in the other graph whereas two graphs usually overlap partially in many \realworld{} applications. In this paper, a partial Gromov-Wasserstein learning framework is proposed for partially matching two graphs, which fuses the partial Gromov-Wasserstein distance and the partial Wasserstein distance as the objective and updates the partial transport map and the node embedding in an alternating fashion. The proposed framework transports a fraction of the probability mass and matches node pairs with high relative similarities across the two graphs. Incorporating an embedding learning method, heterogeneous graphs can also be matched. Numerical experiments on both synthetic and \realworld{} graphs demonstrate that our framework can improve the F1 score by at least $20\%$ and often much more.
翻訳日:2021-05-25 03:51:51 公開日:2020-12-09
# 不均衡データセット上の重複細胞分離と分類を伴う赤血球分画

Red Blood Cell Segmentation with Overlapping Cell Separation and Classification on Imbalanced Dataset ( http://arxiv.org/abs/2012.01321v2 )

ライセンス: Link先を確認
Korranat Naruenatthanaset, Thanarat H. Chalidabhongse, Duangdao Palasuwan, Nantheera Anantrasirichai, Attakorn Palasuwan(参考訳) 血液スメア画像上の赤血球の自動分類は、血液学者がrbc検査結果を分析するのに役立つ。 重なり合う細胞は、分類する前に複数の単一のRBCに分離しなければならない誤った予測結果を引き起こす。 深層学習で複数のクラスを分類するには、正常標本が稀な疾患サンプルよりも常に高いため、医療画像では不均衡の問題が一般的である。 本稿では,血液スミア画像から赤血球を分離・分類する新しい手法を提案する。 重なり合う細胞分離に焦点をあてて、我々のセグメンテーションプロセスはまず赤血球を推定する。 この方法は凹点を検出し、有向楕円フィッティングを用いて楕円を求める。 精度は、20枚の血液スミア画像で0.889である。 分類にはバランスのとれたトレーニングデータセットが必要です。 しかし、RBCタイプは稀である。 不均衡比は12クラスで34.538で、赤血球サンプルは20,875個である。 不均衡データセットを用いたRBC分類における機械学習の利用は、他の多くのアプリケーションよりも困難である。 我々はこの問題に対処する技術を分析する。 最高の精度とf1スコアは、強化された efficientnet-b1 の 0.921 と 0.8679 である。 実験の結果,データ拡張によって分類性能が著しく向上する一方で,マイノリティクラスにおけるf1スコアを改善することにより,拡張を伴う重みバランス技術が不均衡問題に対処する可能性が示唆された。

Automated red blood cell classification on blood smear images helps hematologist to analyze RBC lab results in less time and cost. Overlapping cells can cause incorrect predicted results that have to separate into multiple single RBCs before classifying. To classify multiple classes with deep learning, imbalance problems are common in medical imaging because normal samples are always higher than rare disease samples. This paper presents a new method to segment and classify red blood cells from blood smear images, specifically to tackle cell overlapping and data imbalance problems. Focusing on overlapping cell separation, our segmentation process first estimates ellipses to represent red blood cells. The method detects the concave points and then finds the ellipses using directed ellipse fitting. The accuracy is 0.889 on 20 blood smear images. Classification requires balanced training datasets. However, some RBC types are rare. The imbalance ratio is 34.538 on 12 classes with 20,875 individual red blood cell samples. The use of machine learning for RBC classification with an imbalance dataset is hence more challenging than many other applications. We analyze techniques to deal with this problem. The best accuracy and f1 score are 0.921 and 0.8679 on EfficientNet-b1 with augmentation. Experimental results show that the weight balancing technique with augmentation has the potential to deal with imbalance problems by improving the f1 score on minority classes while data augmentation significantly improves the overall classification performance.
翻訳日:2021-05-25 03:46:08 公開日:2020-12-09
# NLPモデルを改善する自己説明構造

Self-Explaining Structures Improve NLP Models ( http://arxiv.org/abs/2012.01786v2 )

ライセンス: Link先を確認
Zijun Sun, Chun Fan, Qinghong Han, Xiaofei Sun, Yuxian Meng, Fei Wu and Jiwei Li(参考訳) Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs. この2つの問題に対処するため,本論文では,nlpにおけるディープラーニングモデルのための,単純かつ汎用的で効果的な自己説明フレームワークを提案する。 提案フレームワークの重要なポイントは、既存のnlpモデルの上に、解釈層によって呼び出される追加のレイヤを置くことである。 この層は各テキストスパンに関する情報を集約し、それを特定の重みに関連付け、その重み付けの組み合わせをソフトマックス関数に供給して最終的な予測を行う。 提案モデルは,(1)スパン重みを自己説明可能とし,解釈のための追加のプロビングモデルを必要としないこと,(2)提案モデルは一般的であり,nlpの既存の深層学習構造に適用可能であること,(3)各テキストスパンに関連する重みは,句や文などの高レベルテキスト単位に対する直接的な重要度スコアを提供する。 自己説明的特徴のニューラルモデルは、自己説明的性質を伴わずに、それよりも優れた性能を得ることができ、sst-5では59.1、snliでは92.3の新たなsota性能を達成する。

Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs. To deal with these two issues, in this paper, we propose a simple yet general and effective self-explaining framework for deep learning models in NLP. The key point of the proposed framework is to put an additional layer, as is called by the interpretation layer, on top of any existing NLP model. This layer aggregates the information for each text span, which is then associated with a specific weight, and their weighted combination is fed to the softmax function for the final prediction. The proposed model comes with the following merits: (1) span weights make the model self-explainable and do not require an additional probing model for interpretation; (2) the proposed model is general and can be adapted to any existing deep learning structures in NLP; (3) the weight associated with each text span provides direct importance scores for higher-level text units such as phrases and sentences. We for the first time show that interpretability does not come at the cost of performance: a neural model of self-explaining features obtains better performances than its counterpart without the self-explaining nature, achieving a new SOTA performance of 59.1 on SST-5 and a new SOTA performance of 92.3 on SNLI.
翻訳日:2021-05-23 15:00:35 公開日:2020-12-09
# (参考訳) バッチ群正規化 [全文訳有]

Batch Group Normalization ( http://arxiv.org/abs/2012.02782v2 )

ライセンス: CC BY 4.0
Xiao-Yun Zhou, Jiacheng Sun, Nanyang Ye, Xu Lan, Qijun Luo, Bo-Lin Lai, Pedro Esperanca, Guang-Zhong Yang, Zhenguo Li(参考訳) 深層畳み込みニューラルネットワーク(DCNN)は、トレーニングに難しく、時間を要する。 正規化は有効な解の1つである。 従来の正規化手法では、バッチ正規化(bn)は中規模および大規模バッチサイズで良好に動作し、複数のビジョンタスクの汎用性も高いが、小さなバッチサイズでは性能が著しく低下する。 本稿では、BNがワーカ当たり128の画像、すなわちGPUで非常に大きなバッチサイズで飽和していることと、BNの小型/極大バッチサイズでの劣化/飽和がノイズ/畳み込み統計計算によって引き起こされることを提案する。 したがって、新しいトレーニング可能なパラメータを追加せずに、複数層または多層情報を使用したり、余分な計算を導入したりすることなく、Batch Group Normalization (BGN) が提案され、チャネル、高さ、幅を補うことで、小/極大バッチサイズでのBNのノイズ/畳み込み統計計算を解くことができる。 グループ正規化(GN)におけるグループテクニックを使用し、統計計算に使用される特徴量の制御にハイパーパラメータGを用いるため、異なるバッチサイズに対してノイズや混乱した統計量を提供しない。 我々は,BGNがBN,インスタンス正規化(IN),レイヤ正規化(LN),GN,位置正規化(PN),画像分類,ニューラルアーキテクチャサーチ(NAS),対角学習,FSL(Few Shot Learning),非教師なしドメイン適応(Unsupervised Domain Adaptation,UDA)など,幅広い視覚タスクにおいて一貫して優れており,その優れた性能,バッチサイズに対する安定性,広範な一般化性を示す。 例えば、ImageNet上のResNet-50をバッチサイズ2でトレーニングする場合、BNは66.512%、BGNは76.096%の精度で改善した。

Deep Convolutional Neural Networks (DCNNs) are hard and time-consuming to train. Normalization is one of the effective solutions. Among previous normalization methods, Batch Normalization (BN) performs well at medium and large batch sizes and is with good generalizability to multiple vision tasks, while its performance degrades significantly at small batch sizes. In this paper, we find that BN saturates at extreme large batch sizes, i.e., 128 images per worker, i.e., GPU, as well and propose that the degradation/saturati on of BN at small/extreme large batch sizes is caused by noisy/confused statistic calculation. Hence without adding new trainable parameters, using multiple-layer or multi-iteration information, or introducing extra computation, Batch Group Normalization (BGN) is proposed to solve the noisy/confused statistic calculation of BN at small/extreme large batch sizes with introducing the channel, height and width dimension to compensate. The group technique in Group Normalization (GN) is used and a hyper-parameter G is used to control the number of feature instances used for statistic calculation, hence to offer neither noisy nor confused statistic for different batch sizes. We empirically demonstrate that BGN consistently outperforms BN, Instance Normalization (IN), Layer Normalization (LN), GN, and Positional Normalization (PN), across a wide spectrum of vision tasks, including image classification, Neural Architecture Search (NAS), adversarial learning, Few Shot Learning (FSL) and Unsupervised Domain Adaptation (UDA), indicating its good performance, robust stability to batch size and wide generalizability. For example, for training ResNet-50 on ImageNet with a batch size of 2, BN achieves Top1 accuracy of 66.512% while BGN achieves 76.096% with notable improvement.
翻訳日:2021-05-23 00:23:04 公開日:2020-12-09
# (参考訳) 適応的特徴選択を用いたスケール変動における物体検出の改善 [全文訳有]

Towards Better Object Detection in Scale Variation with Adaptive Feature Selection ( http://arxiv.org/abs/2012.03265v2 )

ライセンス: CC BY 4.0
Zehui Gong, Dong Li(参考訳) ピラミッド型特徴表現を利用して、オブジェクトインスタンスのスケール変動の問題に取り組むのが一般的である。 しかし、それらのほとんどは、単独または主にシングルレベルの表現に基づいて、一定の範囲のスケールでオブジェクトを予測し、検出性能が劣る。 そこで本研究では,チャネル次元におけるマルチレベル表現の融合をデータ駆動方式で自動学習する適応的特徴選択モジュール(afsm)を提案する。 これは特徴ピラミッド構造を持つ検出器の性能を大幅に改善し、ほとんど自由な推論オーバーヘッドを導入した。 さらに,各授業の統計特性に基づいて,各トレーニング画像に対するサンプリング比率を再重み付けすることにより,クラス不均衡問題に対処するためのクラス認識サンプリング機構(CASM)を提案する。 これはマイナークラスのパフォーマンスを改善するために重要です。 実験の結果,VOCデータセットでは83.04% mAPが15.96 FPS,VisDrone-DET検証サブセットでは39.48%,他の最先端検出器では39.48%であった。 コードはhttps://github.com/Z eHuiGong/AFSM.gitで入手できる。

It is a common practice to exploit pyramidal feature representation to tackle the problem of scale variation in object instances. However, most of them still predict the objects in a certain range of scales based solely or mainly on a single-level representation, yielding inferior detection performance. To this end, we propose a novel adaptive feature selection module (AFSM), to automatically learn the way to fuse multi-level representations in the channel dimension, in a data-driven manner. It significantly improves the performance of the detectors that have a feature pyramid structure, while introducing nearly free inference overhead. Moreover, a class-aware sampling mechanism (CASM) is proposed to tackle the class imbalance problem, by re-weighting the sampling ratio to each of the training images, based on the statistical characteristics of each class. This is crucial to improve the performance of the minor classes. Experimental results demonstrate the effectiveness of the proposed method, with 83.04% mAP at 15.96 FPS on the VOC dataset, and 39.48% AP on the VisDrone-DET validation subset, respectively, outperforming other state-of-the-art detectors considerably. The code is available at https://github.com/Z eHuiGong/AFSM.git.
翻訳日:2021-05-22 06:10:50 公開日:2020-12-09
# (参考訳) ディープラーニングの一般化

Generalization bounds for deep learning ( http://arxiv.org/abs/2012.04115v2 )

ライセンス: CC BY 4.0
Guillermo Valle-P\'erez, Ard A. Louis(参考訳) ディープラーニングの一般化は、近年の理論的および実証的研究のトピックである。 本稿では,教師あり学習における深層学習モデルの一般化誤差を予測する手法について紹介する。 このような予測は、1)データ複雑性で正しくスケールする、2) トレーニングセットのサイズで正しくスケールする、3) アーキテクチャ間の差異をキャプチャする、3) 最適化アルゴリズム間の差異をキャプチャする、4) 真のエラー(特に空でない)から遠くない、(6) 効率的に計算可能である、(7) 厳密である、といった予測である。 我々は, 一般化誤差上限に着目し, アルゴリズムとデータに対する仮定による境界の分類を導入する。 我々は、古典的なvc次元から最近のpac-ベイズ境界まで、幅広い既存のアプローチをレビューし、デシダラタに対するパフォーマンスについてコメントした。 次に関数ベースの画像を用いて、辺状のPAC-ベイジアン境界を導出する。 この境界は、1つの定義により、学習曲線が力の法則に従う限り、大きな訓練集合の漸近極限における乗法定数まで最適である。 広範囲にわたる実証分析により、我々の辺縁状のPAC-Bayes境界がdeiderata 1-3および5を満たすことが示された。 6と7の結果は有望だが、まだ完全には確定していない。 最後に、この関数ベースのバウンドが現在のパラメータベースのpac-bayesバウンドよりも著しく優れている理由についてコメントする。

Generalization in deep learning has been the topic of much recent theoretical and empirical research. Here we introduce desiderata for techniques that predict generalization errors for deep learning models in supervised learning. Such predictions should 1) scale correctly with data complexity; 2) scale correctly with training set size; 3) capture differences between architectures; 4) capture differences between optimization algorithms; 5) be quantitatively not too far from the true error (in particular, be non-vacuous); 6) be efficiently computable; and 7) be rigorous. We focus on generalization error upper bounds, and introduce a categorisation of bounds depending on assumptions on the algorithm and data. We review a wide range of existing approaches, from classical VC dimension to recent PAC-Bayesian bounds, commenting on how well they perform against the desiderata. We next use a function-based picture to derive a marginal-likelihood PAC-Bayesian bound. This bound is, by one definition, optimal up to a multiplicative constant in the asymptotic limit of large training sets, as long as the learning curve follows a power law, which is typically found in practice for deep learning problems. Extensive empirical analysis demonstrates that our marginal-likelihood PAC-Bayes bound fulfills desiderata 1-3 and 5. The results for 6 and 7 are promising, but not yet fully conclusive, while only desideratum 4 is currently beyond the scope of our bound. Finally, we comment on why this function-based bound performs significantly better than current parameter-based PAC-Bayes bounds.
翻訳日:2021-05-18 05:02:59 公開日:2020-12-09
# (参考訳) お気の毒に:スペクトルベースの音声距離はピッチが悪い [全文訳有]

I'm Sorry for Your Loss: Spectrally-Based Audio Distances Are Bad at Pitch ( http://arxiv.org/abs/2012.04572v2 )

ライセンス: CC BY 4.0
Joseph Turian, Max Henry(参考訳) 成長する研究は、合成失敗モードは一般化が不十分であることを示している。 本研究では,2つの定常正弦波間のピッチ距離を合成ベンチマークで比較した。 多くの人はピッチ方向の感覚が不十分です。 これらの欠点は単純な階数仮定を用いて明らかにされる。 我々の課題は人間にはやさしいが、これらの音声距離では難しいため、現在の損失を改善することで、自己教師型音声学習において大きな進歩が期待できる。

Growing research demonstrates that synthetic failure modes imply poor generalization. We compare commonly used audio-to-audio losses on a synthetic benchmark, measuring the pitch distance between two stationary sinusoids. The results are surprising: many have poor sense of pitch direction. These shortcomings are exposed using simple rank assumptions. Our task is trivial for humans but difficult for these audio distances, suggesting significant progress can be made in self-supervised audio learning by improving current losses.
翻訳日:2021-05-17 02:42:18 公開日:2020-12-09
# 効率的なロボット形態設計のための神経忠実性ウォーピング

Neural fidelity warping for efficient robot morphology design ( http://arxiv.org/abs/2012.04195v2 )

ライセンス: Link先を確認
Sha Hu, Zeshi Yang, Greg Mori(参考訳) 計算資源の制限の下で,ロボット形態を最適化して目標タスクの最高の性能を達成するという課題を考察する。 各形態素設計の評価プロセスは、かなりの時間と計算資源を消費できる設計のためのコントローラを学習することを含む。 高価なロボット形態評価の課題に対処するため,低忠実度評価による計算資源を効率的に活用する連続多忠実ベイズ最適化フレームワークを提案する。 忠実度空間上の非定常性の問題を特定する。 提案する忠実性ウォーピング機構は,学習時間とタスクの表現を学習し,連続的忠実性評価間の非定常共分散をモデル化する。 様々な実験により, ロボットの最適形態を効率的に探索するために低忠実度評価を活用できることが実証された。

We consider the problem of optimizing a robot morphology to achieve the best performance for a target task, under computational resource limitations. The evaluation process for each morphological design involves learning a controller for the design, which can consume substantial time and computational resources. To address the challenge of expensive robot morphology evaluation, we present a continuous multi-fidelity Bayesian Optimization framework that efficiently utilizes computational resources via low-fidelity evaluations. We identify the problem of non-stationarity over fidelity space. Our proposed fidelity warping mechanism can learn representations of learning epochs and tasks to model non-stationary covariances between continuous fidelity evaluations which prove challenging for off-the-shelf stationary kernels. Various experiments demonstrate that our method can utilize the low-fidelity evaluations to efficiently search for the optimal robot morphology, outperforming state-of-the-art methods.
翻訳日:2021-05-16 21:39:21 公開日:2020-12-09
# 文の袋から文書へ:機械読解による遠方の教師付き関係抽出

From Bag of Sentences to Document: Distantly Supervised Relation Extraction via Machine Reading Comprehension ( http://arxiv.org/abs/2012.04334v2 )

ライセンス: Link先を確認
Lingyong Yan, Xianpei Han, Le Sun, Fangchao Liu and Ning Bian(参考訳) 距離監督 (DS) は関係抽出において有望なアプローチであるが, しばしばノイズのあるラベル問題に悩まされる。 従来のDSメソッドは通常、エンティティペアを文の袋として表現し、マルチインスタンス学習技術を用いてラベルを識別する。 しかし、バッグベースのパラダイムは、文間レベルと関係抽出の実体レベル証拠の活用に失敗し、その認知アルゴリズムはしばしば特殊で複雑である。 本稿では,文書ベース機械読解(MRC)タスクとして関係抽出をモデル化した,新たなDSパラダイムである文書ベース遠隔監視を提案する。 エンティティに関するすべての文を文書として再編成し、関係性固有の質問で文書をクエリすることで関係を抽出することにより、文書ベースのDSパラダイムは、すべての文レベル、文間レベル、エンティティレベルの証拠を同時にエンコードして活用することができる。 さらに,$\langle$document, question, answer$\rangle$ tuples を用いてmrcモデルを効果的に訓練できる新しい損失関数-dsloss (distant supervisor loss) を設計した。 実験により,本手法が新たな最先端DS性能を実現することを示す。

Distant supervision (DS) is a promising approach for relation extraction but often suffers from the noisy label problem. Traditional DS methods usually represent an entity pair as a bag of sentences and denoise labels using multi-instance learning techniques. The bag-based paradigm, however, fails to leverage the inter-sentence-level and the entity-level evidence for relation extraction, and their denoising algorithms are often specialized and complicated. In this paper, we propose a new DS paradigm--document-b ased distant supervision, which models relation extraction as a document-based machine reading comprehension (MRC) task. By re-organizing all sentences about an entity as a document and extracting relations via querying the document with relation-specific questions, the document-based DS paradigm can simultaneously encode and exploit all sentence-level, inter-sentence-level , and entity-level evidence. Furthermore, we design a new loss function--DSLoss (distant supervision loss), which can effectively train MRC models using only $\langle$document, question, answer$\rangle$ tuples, therefore noisy label problem can be inherently resolved. Experiments show that our method achieves new state-of-the-art DS performance.
翻訳日:2021-05-16 21:29:11 公開日:2020-12-09
# unrealperson: コストのない人物再同定に向けた適応パイプライン

UnrealPerson: An Adaptive Pipeline towards Costless Person Re-identification ( http://arxiv.org/abs/2012.04268v2 )

ライセンス: Link先を確認
Tianyu Zhang and Lingxi Xie and Longhui Wei and Zijie Zhuang and Yongfei Zhang and Bo Li and Qi Tian(参考訳) 人物の再識別(ReID)の主な困難は、注釈付きデータを収集し、異なるドメイン間でモデルを転送することにある。 本稿では,非現実的な画像データをフル活用して,トレーニングとデプロイメントの段階のコストを削減する,新たなパイプラインUnrealPersonを提案する。 その基本的な部分は、高品質で制御可能な分布から合成画像を生成するシステムである。 インスタンスレベルのアノテーションは、合成されたデータに従い、ほぼ無料です。 画像合成に関するいくつかの詳細は、データ品質に大きく影響します。 3,000のIDと12万のインスタンスで、MSMT17に直接転送されると38.5%のランク-1精度が得られる。 合成データを用いて前回のレコードをほぼ2倍にし、実データを用いた以前の直接転送記録を上回ることさえある。 これにより、事前訓練されたモデルが最先端のアルゴリズムに容易に接続され、精度が向上する、教師なしのドメイン適応のよい基礎が得られます。 さらに、データ分散を柔軟に調整して、いくつかのコーナーリードシナリオに適合させ、パイプラインの適用範囲を広げることができます。 データ合成ツールキットと合成データをhttps://github.com/f lyhighest/unrealpers onに公開します。

The main difficulty of person re-identification (ReID) lies in collecting annotated data and transferring the model across different domains. This paper presents UnrealPerson, a novel pipeline that makes full use of unreal image data to decrease the costs in both the training and deployment stages. Its fundamental part is a system that can generate synthesized images of high-quality and from controllable distributions. Instance-level annotation goes with the synthesized data and is almost free. We point out some details in image synthesis that largely impact the data quality. With 3,000 IDs and 120,000 instances, our method achieves a 38.5% rank-1 accuracy when being directly transferred to MSMT17. It almost doubles the former record using synthesized data and even surpasses previous direct transfer records using real data. This offers a good basis for unsupervised domain adaption, where our pre-trained model is easily plugged into the state-of-the-art algorithms towards higher accuracy. In addition, the data distribution can be flexibly adjusted to fit some corner ReID scenarios, which widens the application of our pipeline. We will publish our data synthesis toolkit and synthesized data in https://github.com/F lyHighest/UnrealPers on.
翻訳日:2021-05-16 21:16:44 公開日:2020-12-09
# 局所的塩分コヒーレンスを用いた構造整合型弱教師付き塩分物体検出

Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence ( http://arxiv.org/abs/2012.04404v2 )

ライセンス: Link先を確認
Siyue Yu, Bingfeng Zhang, Jimin Xiao, Eng Gee Lim(参考訳) 近年、スパースレーベルが注目を集めている。 しかし、弱い教師と完全な教師付きオブジェクト検出方法のパフォーマンスギャップは巨大であり、以前の弱い教師付き作品の多くは、多くのベルとホイッスルを備えた複雑なトレーニング手法を採用している。 本研究では,事前処理操作や余分な監視データなしに,スクリブルアノテーションによる弱教師付きサルトオブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。 クリブルラベルは精細なサルエント領域を提供しないため,画像特徴と画素距離に基づいてラベルをラベルなし領域に伝播させる局所コヒーレンス損失を提案し,完全なオブジェクト構造を持つ積分サルエント領域を予測する。 モデル一般化能力を高めるための正規化手法とみなすことができる入力と同じ画像の異なるスケールで、一貫した相似性マップが予測されることを保証するための自己整合機構として、相似性構造整合損失を設計する。 さらに,高レベル機能,低レベル機能,グローバルコンテキスト情報を統合し,様々な情報を集約するためのアグリゲーションモジュール(aggm)を設計した。 6つのベンチマーク(例)において,本手法が新たな最先端性能を実現することを示す。 ecssdデータセット: f_\beta = 0.8995, e_\xi = 0.9079, mae = 0.0489$) 平均利得は f-measure で 4.60\%, e-measureで 2.05\%, mae で 1.88\% である。 ソースコードはhttp://github.com/si yueyu/SCWSSOD.comで入手できる。

Sparse labels have been attracting much attention in recent years. However, the performance gap between weakly supervised and fully supervised salient object detection methods is huge, and most previous weakly supervised works adopt complex training methods with many bells and whistles. In this work, we propose a one-round end-to-end training approach for weakly supervised salient object detection via scribble annotations without pre/post-processing operations or extra supervision data. Since scribble labels fail to offer detailed salient regions, we propose a local coherence loss to propagate the labels to unlabeled regions based on image features and pixel distance, so as to predict integral salient regions with complete object structures. We design a saliency structure consistency loss as self-consistent mechanism to ensure consistent saliency maps are predicted with different scales of the same image as input, which could be viewed as a regularization technique to enhance the model generalization ability. Additionally, we design an aggregation module (AGGM) to better integrate high-level features, low-level features and global context information for the decoder to aggregate various information. Extensive experiments show that our method achieves a new state-of-the-art performance on six benchmarks (e.g. for the ECSSD dataset: F_\beta = 0.8995, E_\xi = 0.9079 and MAE = 0.0489$), with an average gain of 4.60\% for F-measure, 2.05\% for E-measure and 1.88\% for MAE over the previous best method on this task. Source code is available at http://github.com/si yueyu/SCWSSOD.
翻訳日:2021-05-16 21:15:09 公開日:2020-12-09
# 4つの離散確率変数の条件付き独立構造:条件付きイングルトン不等式

Conditional independence structures over four discrete random variables revisited: conditional Ingleton inequalities ( http://arxiv.org/abs/2012.04092v2 )

ライセンス: Link先を確認
Milan Studeny(参考訳) 離散確率変数によって引き起こされるエントロピー関数に対して有効である条件付き線形情報不等式を扱う。 特に、いわゆる条件付きイングルトン不等式は興味の中心であり、これは確率変数の誘導に関する条件付き独立性の仮定の下で有効である。 このタイプの5つの不等式について検討し,そのうち4つが文献に早く現れている。 新しい5次不等式の証明に加えて、(いくつかの)以前の不等式に対するより単純な証明が提示される。 これら5つの情報不等式は、4つの離散確率変数によって誘導される条件付き独立構造を特徴づけるために用いられる。

The paper deals with conditional linear information inequalities valid for entropy functions induced by discrete random variables. Specifically, the so-called conditional Ingleton inequalities are in the center of interest: these are valid under conditional independence assumptions on the inducing random variables. We discuss five inequalities of this particular type, four of which has appeared earlier in the literature. Besides the proof of the new fifth inequality, simpler proofs of (some of) former inequalities are presented. These five information inequalities are used to characterize all conditional independence structures induced by four discrete random variables.
翻訳日:2021-05-16 21:01:25 公開日:2020-12-09
# (参考訳) 確率的公平性の統計試験 [全文訳有]

A Statistical Test for Probabilistic Fairness ( http://arxiv.org/abs/2012.04800v1 )

ライセンス: CC BY 4.0
Bahar Taskesen, Jose Blanchet, Daniel Kuhn, Viet Anh Nguyen(参考訳) 今やアルゴリズムは、人間の生活に影響を与える一連の決定を下すために日常的に使われている。 例えば、大学入学、医療介入、法執行などである。 アルゴリズムは大量のデータに隠されたすべての情報を活用するのに役立ちますが、利用可能なデータセットの既存のバイアスを必然的に増幅するかもしれません。 この懸念は、アルゴリズムによる差別の定量化と緩和を目的とした、公正な機械学習への関心の高まりを促した。 実際、機械学習モデルは大規模にデプロイされる前にアルゴリズムバイアスを検出するために集中的なテストを実施する必要がある。 本稿では,不公平な分類器を検出するための統計的仮説テストを提案するために,最適輸送理論のアイデアを用いる。 特徴空間の幾何学を活用し、テスト統計学はテストサンプルで支持される経験的分布と事前訓練された分類器を公平にする分布の多様体の距離を定量化する。 我々は,事前学習したロジスティック分類器の確率的公平性を評価するための厳密な仮説検定機構を開発し,理論上も経験的にも提案手法が漸近的に正しいことを示す。 さらに、提案手法は、与えられた分類器が公平になるようにデータの最も好ましい摂動を識別することで解釈可能性を提供する。

Algorithms are now routinely used to make consequential decisions that affect human lives. Examples include college admissions, medical interventions or law enforcement. While algorithms empower us to harness all information hidden in vast amounts of data, they may inadvertently amplify existing biases in the available datasets. This concern has sparked increasing interest in fair machine learning, which aims to quantify and mitigate algorithmic discrimination. Indeed, machine learning models should undergo intensive tests to detect algorithmic biases before being deployed at scale. In this paper, we use ideas from the theory of optimal transport to propose a statistical hypothesis test for detecting unfair classifiers. Leveraging the geometry of the feature space, the test statistic quantifies the distance of the empirical distribution supported on the test samples to the manifold of distributions that render a pre-trained classifier fair. We develop a rigorous hypothesis testing mechanism for assessing the probabilistic fairness of any pre-trained logistic classifier, and we show both theoretically as well as empirically that the proposed test is asymptotically correct. In addition, the proposed framework offers interpretability by identifying the most favorable perturbation of the data so that the given classifier becomes fair.
翻訳日:2021-05-16 16:12:05 公開日:2020-12-09
# (参考訳) Commonsense Reasoningのための知識グラフへのコンテキスト注入 [全文訳有]

Fusing Context Into Knowledge Graph for Commonsense Reasoning ( http://arxiv.org/abs/2012.04808v1 )

ライセンス: CC BY 4.0
Yichong Xu, Chenguang Zhu, Ruochen Xu, Yang Liu, Michael Zeng, Xuedong Huang(参考訳) コモンセンス推論は、言語理解を通じて世界出来事を推定するモデルを必要とする。 多くの手法は、言語モデリングとエンティティベースの関係学習の利点を組み合わせるために、事前訓練された言語モデルと知識グラフを結合する。 しかしながら、知識グラフには豊富な構造情報が含まれているが、概念と関係をより正確に理解するためのコンテキストが欠けている。 これは、知識グラフを言語モデリングに融合する際に、特にペアのテキスト知識データが不足するシナリオにおいてギャップを生じる。 本稿では,外部エンティティ記述を利用して,グラフエンティティのコンテキスト情報を提供する。 commonsenseqaタスクでは、まず質問と選択から概念を抽出し、その後、これらの概念の間に関連する三重項を見つけます。 次に、これらの概念の記述をWiktionaryから取り出し、プリトレーニング済みの言語モデルに追加のインプットとして、トリプルとともにフィードする。 結果として得られたモデルは、より効果的なコモンセンス推論能力を達成でき、公式のリーダーボード上で80.7%(シングルモデル)と83.3%(センスモデル)の精度でcommonsenseqaデータセットで最先端の結果が得られる。

Commonsense reasoning requires a model to make presumptions about world events via language understanding. Many methods couple pre-trained language models with knowledge graphs in order to combine the merits in language modeling and entity-based relational learning. However, although a knowledge graph contains rich structural information, it lacks the context to provide a more precise understanding of the concepts and relations. This creates a gap when fusing knowledge graphs into language modeling, especially in the scenario of insufficient paired text-knowledge data. In this paper, we propose to utilize external entity description to provide contextual information for graph entities. For the CommonsenseQA task, our model first extracts concepts from the question and choice, and then finds a related triple between these concepts. Next, it retrieves the descriptions of these concepts from Wiktionary and feed them as additional input to a pre-trained language model, together with the triple. The resulting model can attain much more effective commonsense reasoning capability, achieving state-of-the-art results in the CommonsenseQA dataset with an accuracy of 80.7% (single model) and 83.3% (ensemble model) on the official leaderboard.
翻訳日:2021-05-16 15:28:43 公開日:2020-12-09
# (参考訳) 知識グラフリンク予測を利用した関係抽出の改善 [全文訳有]

Improving Relation Extraction by Leveraging Knowledge Graph Link Prediction ( http://arxiv.org/abs/2012.04812v1 )

ライセンス: CC BY 4.0
George Stoica, Emmanouil Antonios Platanios, Barnab\'as P\'oczos(参考訳) 関係抽出(re)は文中の対象と対象の関係を予測することを目的としており、一方、知識グラフリンク予測(kglp)は対象と知識グラフから与えられた対象の集合oと関係を予測することを目的としている。 対象と対象oを含む文が与えられた場合、REモデルは対象と共にKGLPモデルで使用可能な関係を予測し、対象Oの集合を予測する。 したがって、オブジェクト o は set o にあると期待する。 本稿では,REとKGLPタスクを共同で学習することで,REモデルの性能を向上させるマルチタスク学習手法を提案する。 いくつかの既存のREモデルに適用することで、我々のアプローチの一般性を説明し、一貫性のあるパフォーマンス向上を実現するのにどのように役立つかを実証的に示す。

Relation extraction (RE) aims to predict a relation between a subject and an object in a sentence, while knowledge graph link prediction (KGLP) aims to predict a set of objects, O, given a subject and a relation from a knowledge graph. These two problems are closely related as their respective objectives are intertwined: given a sentence containing a subject and an object o, a RE model predicts a relation that can then be used by a KGLP model together with the subject, to predict a set of objects O. Thus, we expect object o to be in set O. In this paper, we leverage this insight by proposing a multi-task learning approach that improves the performance of RE models by jointly training on RE and KGLP tasks. We illustrate the generality of our approach by applying it on several existing RE models and empirically demonstrate how it helps them achieve consistent performance gains.
翻訳日:2021-05-16 15:19:56 公開日:2020-12-09
# (参考訳) シンプルか複雑か? ベンガルテキストの可読性予測のための学習 [全文訳有]

Simple or Complex? Learning to Predict Readability of Bengali Texts ( http://arxiv.org/abs/2012.07701v1 )

ライセンス: CC BY-SA 4.0
Susmoy Chakraborty, Mir Tafseer Nayeem, Wasi Uddin Ahmad(参考訳) テキストの可読性を決定することは、その単純化の第一歩である。 本稿では,ベンガル語で書かれたテキストを解析し,読みやすさと複雑さに関する詳細な情報を提供する可読性解析ツールを提案する。 2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。 ベンガル語の可読性に関する研究は、資源不足のため、狭く、時には欠陥があると見なすことができる。 そこで本研究では,米国の教育システムで伝統的に用いられている文書レベルの可読性式をベンガル語に正しく適用し,年齢と年齢の比較を行った。 大規模なコーパスが利用できないため、文書レベルのタスクを文レベルに分割し、ベンガル可読性予測の将来の作業のベースラインとなるニューラルアーキテクチャを実験する。 この過程では、12のグレードレベルを持つ618の文書からなる文書レベルデータセット、単純で複雑なラベルを持つ96K以上の文からなる大規模文レベルデータセット、そのアルゴリズムの有効性を検証するための子音接続数アルゴリズムと341ワードのコーパス、3,396単語のリスト、67K以上の単語を含む更新された発音辞書など、人称コーパスと辞書を提示する。 これらのリソースは、この低リソース言語の他のいくつかのタスクに役立ちます。 Code & Dataset を reproduciblity のために https://github.com/t afseer-nayeem/Bengal iReadability} で公開しています。

Determining the readability of a text is the first step to its simplification. In this paper, we present a readability analysis tool capable of analyzing text written in the Bengali language to provide in-depth information on its readability and complexity. Despite being the 7th most spoken language in the world with 230 million native speakers, Bengali suffers from a lack of fundamental resources for natural language processing. Readability related research of the Bengali language so far can be considered to be narrow and sometimes faulty due to the lack of resources. Therefore, we correctly adopt document-level readability formulas traditionally used for U.S. based education system to the Bengali language with a proper age-to-age comparison. Due to the unavailability of large-scale human-annotated corpora, we further divide the document-level task into sentence-level and experiment with neural architectures, which will serve as a baseline for the future works of Bengali readability prediction. During the process, we present several human-annotated corpora and dictionaries such as a document-level dataset comprising 618 documents with 12 different grade levels, a large-scale sentence-level dataset comprising more than 96K sentences with simple and complex labels, a consonant conjunct count algorithm and a corpus of 341 words to validate the effectiveness of the algorithm, a list of 3,396 easy words, and an updated pronunciation dictionary with more than 67K words. These resources can be useful for several other tasks of this low-resource language. We make our Code & Dataset publicly available at https://github.com/t afseer-nayeem/Bengal iReadability} for reproduciblity.
翻訳日:2021-05-16 15:07:01 公開日:2020-12-09
# (参考訳) 自己学習に基づくドメイン適応のための2相擬似ラベルデンシフィケーション [全文訳有]

Two-phase Pseudo Label Densification for Self-training based Domain Adaptation ( http://arxiv.org/abs/2012.04828v1 )

ライセンス: CC BY 4.0
Inkyu Shin, Sanghyun Woo, Fei Pan and InSo Kweon(参考訳) 近年、教師なし領域適応の強力な解決策として、深層自己学習アプローチが出現している。 自己トレーニング方式は、ターゲットデータの反復処理を伴い、ターゲットの擬似ラベルを生成し、ネットワークを再トレーニングする。 しかし、自信ある予測のみを擬似ラベルとみなすため、既存の自己学習アプローチは必然的にスパースな擬似ラベルを生成する。 結果としてトレーニング信号が不十分なため、最適でないエラーが発生しやすいモデルになるため、これは非常に重要です。 この問題に対処するために, TPLD と呼ばれる新しい2相Pseudo Label Densification フレームワークを提案する。 第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。 第2フェーズでは,信頼度に基づく容易な分類を行う。 簡単なサンプルには、完全な擬似ラベルを使用します。 その代わりに、難しい機能アライメントを強制するために、敵対的な学習を採用します。 トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。 提案するTPLDは,既存の自己学習型アプローチに容易に統合でき,性能が大幅に向上することを示す。 最近提案されたCRST自己学習フレームワークと組み合わせて、2つの標準UDAベンチマークで最新の結果を得る。

Recently, deep self-training approaches emerged as a powerful solution to the unsupervised domain adaptation. The self-training scheme involves iterative processing of target data; it generates target pseudo labels and retrains the network. However, since only the confident predictions are taken as pseudo labels, existing self-training approaches inevitably produce sparse pseudo labels in practice. We see this is critical because the resulting insufficient training-signals lead to a suboptimal, error-prone model. In order to tackle this problem, we propose a novel Two-phase Pseudo Label Densification framework, referred to as TPLD. In the first phase, we use sliding window voting to propagate the confident predictions, utilizing intrinsic spatial-correlations in the images. In the second phase, we perform a confidence-based easy-hard classification. For the easy samples, we now employ their full pseudo labels. For the hard ones, we instead adopt adversarial learning to enforce hard-to-easy feature alignment. To ease the training process and avoid noisy predictions, we introduce the bootstrapping mechanism to the original self-training loss. We show the proposed TPLD can be easily integrated into existing self-training based approaches and improves the performance significantly. Combined with the recently proposed CRST self-training framework, we achieve new state-of-the-art results on two standard UDA benchmarks.
翻訳日:2021-05-16 14:49:52 公開日:2020-12-09
# (参考訳) Scoring Predictionによるインスタンスセグメンテーションのための半教師付きアクティブラーニング [全文訳有]

Semi-supervised Active Learning for Instance Segmentation via Scoring Predictions ( http://arxiv.org/abs/2012.04829v1 )

ライセンス: CC BY 4.0
Jun Wang, Shaoguo Wen, Kaixing Chen, Jianghua Yu, Xin Zhou, Peng Gao, Changsheng Li, Guotong Xie(参考訳) アクティブラーニングは一般的に、画像分類やオブジェクト検出など、多くの分野で広く研究されている人間のラベル付けの最も代表的なサンプルを照会する。 しかしながら、アノテーションコストが比較的高い、より複雑なインスタンスセグメンテーションタスクでは、そのポテンシャルは検討されていない。 本稿では,インスタンスセグメンテーションのための新しい半教師付きアクティブラーニングフレームワークを提案する。 具体的には,クラス,バウンディングボックス,マスクの手がかりを明示的に評価するトリプレットスコア予測(tsp)という不確実性サンプリング戦略を提案する。 さらに、上述のTSPを半教師付き方式でプログレッシブな擬似ラベリング方式を考案し、ラベル付きデータとラベルなしデータの両方を利用して、インスタンスセグメンテーションの性能を最大化し、ラベル付け作業を最小化する。 医用画像データセットを用いた結果から,提案手法が有意義な方法で利用可能なデータから知識を具現化することを示す。 定量的および定性的な実験により,本手法は,最先端技術と比較して,注釈コストが著しく低い最高の性能モデルが得られることが示された。

Active learning generally involves querying the most representative samples for human labeling, which has been widely studied in many fields such as image classification and object detection. However, its potential has not been explored in the more complex instance segmentation task that usually has relatively higher annotation cost. In this paper, we propose a novel and principled semi-supervised active learning framework for instance segmentation. Specifically, we present an uncertainty sampling strategy named Triplet Scoring Predictions (TSP) to explicitly incorporate samples ranking clues from classes, bounding boxes and masks. Moreover, we devise a progressive pseudo labeling regime using the above TSP in semi-supervised manner, it can leverage both the labeled and unlabeled data to minimize labeling effort while maximize performance of instance segmentation. Results on medical images datasets demonstrate that the proposed method results in the embodiment of knowledge from available data in a meaningful way. The extensive quantitatively and qualitatively experiments show that, our method can yield the best-performing model with notable less annotation costs, compared with state-of-the-arts.
翻訳日:2021-05-16 14:37:05 公開日:2020-12-09
# (参考訳) 眼科画像モダリティの白内障分類とグレーディングのための機械学習:サーベイ [全文訳有]

Machine Learning for Cataract Classification and Grading on Ophthalmic Imaging Modalities: A Survey ( http://arxiv.org/abs/2012.04830v1 )

ライセンス: CC BY 4.0
Xiaoqing Zhang, JianSheng Fang, Yan Hu, Yanwu Xu, Risa Higashita and Jiang Liu(参考訳) 白内障は、世界規模で可逆的な視覚障害と盲目の原因の1つである。 長年にわたり、研究者たちは自動白内障分類とグレーディングのための最先端の人工知能技術の開発において大きな進歩を遂げてきた。 本稿では,眼科画像に基づく白内障分類と採点のための機械学習の最近の進歩に関する包括的調査を行う。 従来の機械学習技術とディープラーニング技術という2つの研究方向から既存の文献を要約する。 本稿では,既存作品のメリットと限界についても考察する。 さらに,機械学習手法に基づく白内障自動分類と採点の課題について検討し,今後の課題への解決策を提案する。

Cataract is one of the leading causes of reversible visual impairment and blindness globally. Over the years, researchers have achieved significant progress in developing state-of-the-art artificial intelligence techniques for automatic cataract classification and grading, helping clinicians prevent and treat cataract in time. This paper provides a comprehensive survey of recent advances in machine learning for cataract classification and grading based on ophthalmic images. We summarize existing literature from two research directions: conventional machine learning techniques and deep learning techniques. This paper also provides insights into existing works of both merits and limitations. In addition, we discuss several challenges of automatic cataract classification and grading based on machine learning techniques and present possible solutions to these challenges for future research.
翻訳日:2021-05-16 14:23:22 公開日:2020-12-09
# (参考訳) 深部教師なし画像異常検出:情報理論の枠組み [全文訳有]

Deep Unsupervised Image Anomaly Detection: An Information Theoretic Framework ( http://arxiv.org/abs/2012.04837v1 )

ライセンス: CC BY 4.0
Fei Ye, Huangjie Zheng, Chaoqin Huang, Ya Zhang(参考訳) 代用タスクベース手法は、最近、教師なし画像異常検出に大いに期待されている。 しかしながら、サロゲートタスクが異常検出と一貫した最適化方向を共有する保証はない。 本稿では,情報理論を用いた異常検出のための直接目的関数に回帰し,画像の同時分布とその表現の観点から,正規データと異常データとの間の距離を最大化する。 残念ながら、この目的関数はトレーニング中に異常データが提供されない教師なし設定では直接最適化できない。 上記の目的関数の数学的解析により、これを4つの成分に分解する。 非教師なしの方法で最適化するために、正規データと異常データの分布が潜在空間で分離可能であると仮定すると、その下限は相互情報とエントロピーの間のトレードオフを重み付ける関数と見なすことができる。 この目的関数は、サブロゲートタスクベース手法が異常検出に有効である理由を説明し、さらに改善の潜在的方向性を指摘することができる。 この対象関数に基づいて,教師なし画像異常検出のための新しい情報理論フレームワークを提案する。 広範な実験により、提案されたフレームワークが複数のベンチマークデータセットで最先端のものを大幅に上回っていることが示されている。

Surrogate task based methods have recently shown great promise for unsupervised image anomaly detection. However, there is no guarantee that the surrogate tasks share the consistent optimization direction with anomaly detection. In this paper, we return to a direct objective function for anomaly detection with information theory, which maximizes the distance between normal and anomalous data in terms of the joint distribution of images and their representation. Unfortunately, this objective function is not directly optimizable under the unsupervised setting where no anomalous data is provided during training. Through mathematical analysis of the above objective function, we manage to decompose it into four components. In order to optimize in an unsupervised fashion, we show that, under the assumption that distribution of the normal and anomalous data are separable in the latent space, its lower bound can be considered as a function which weights the trade-off between mutual information and entropy. This objective function is able to explain why the surrogate task based methods are effective for anomaly detection and further point out the potential direction of improvement. Based on this object function we introduce a novel information theoretic framework for unsupervised image anomaly detection. Extensive experiments have demonstrated that the proposed framework significantly outperforms several state-of-the-arts on multiple benchmark data sets.
翻訳日:2021-05-16 13:55:06 公開日:2020-12-09
# (参考訳) 自然言語理解のための共起モデルに向けて ディープラーニングとDeep Semanticsを一緒にする

Towards Coinductive Models for Natural Language Understanding. Bringing together Deep Learning and Deep Semantics ( http://arxiv.org/abs/2012.05715v1 )

ライセンス: CC BY 4.0
Wlodek W. Zadrozny(参考訳) 本稿では,自然言語理解の計算装置に造語を加えることを提案する。 これは、自然言語対話、構文、セマンティクスのより現実的で、計算的かつスケーラブルなモデルの基礎を提供する、と我々は主張する。 ボトムアップ、帰納的構築、意味論、構文構造が不安定であり、より長い文の意味や現実的な対話を適切に表現できないように見えることから、自然言語理解は新しい基礎が必要である。 トップダウン制約を使用するcoinductionは、オペレーティングシステムやプログラミング言語の設計でうまく使われている。 さらに、暗黙的にテキストマイニングや機械翻訳、インテンシティリティやモダリティをモデル化しようとする試みにも存在し、それが機能する証拠を提供している。 この記事では、そのような用途の高レベルな形式化を示す。 造語と帰納法は共存できるため、自然言語理解の研究のための共通言語と概念モデルを提供することができる。 特にこのような機会は、構成性の研究に現れつつあるようだ。 本稿では,自然言語処理における帰納と造語の組み合わせの例を示す。 帰納法と造語法という既知の個人的限界は、この2つの方法を組み合わせることで、経験的な設定で克服できると論じる。 共同使用の理論を提供する際には、オープンな問題がある。

This article contains a proposal to add coinduction to the computational apparatus of natural language understanding. This, we argue, will provide a basis for more realistic, computationally sound, and scalable models of natural language dialogue, syntax and semantics. Given that the bottom up, inductively constructed, semantic and syntactic structures are brittle, and seemingly incapable of adequately representing the meaning of longer sentences or realistic dialogues, natural language understanding is in need of a new foundation. Coinduction, which uses top down constraints, has been successfully used in the design of operating systems and programming languages. Moreover, implicitly it has been present in text mining, machine translation, and in some attempts to model intensionality and modalities, which provides evidence that it works. This article shows high level formalizations of some of such uses. Since coinduction and induction can coexist, they can provide a common language and a conceptual model for research in natural language understanding. In particular, such an opportunity seems to be emerging in research on compositionality. This article shows several examples of the joint appearance of induction and coinduction in natural language processing. We argue that the known individual limitations of induction and coinduction can be overcome in empirical settings by a combination of the the two methods. We see an open problem in providing a theory of their joint use.
翻訳日:2021-05-16 13:24:53 公開日:2020-12-09
# (参考訳) ピアツーピア蒸留によるロバストドメインランダム化強化学習 [全文訳有]

Robust Domain Randomised Reinforcement Learning through Peer-to-Peer Distillation ( http://arxiv.org/abs/2012.04839v1 )

ライセンス: CC BY 4.0
Chenyang Zhao, Timothy Hospedales(参考訳) 強化学習では、ドメインのランダム化は、デプロイ時のドメインシフトに堅牢な、より一般的なポリシーを学ぶための、ますます一般的なテクニックです。 しかし, ランダム化領域からの情報収集は, 勾配推定や不安定な学習過程において高いばらつきをもたらす可能性がある。 本稿では,複数の作業者がそれぞれ異なる環境に割り当てられ,kullback-leibler 発散に基づく相互正規化を通じて知識を交換する rl のp2pdrl におけるピアツーピアオンライン蒸留戦略を提案する。 P2PDRLはベースラインよりも広いランダム化分布をまたいだ堅牢な学習を可能にし,テスト時の新しい環境へのより堅牢な一般化を可能にした。

In reinforcement learning, domain randomisation is an increasingly popular technique for learning more general policies that are robust to domain-shifts at deployment. However, naively aggregating information from randomised domains may lead to high variance in gradient estimation and unstable learning process. To address this issue, we present a peer-to-peer online distillation strategy for RL termed P2PDRL, where multiple workers are each assigned to a different environment, and exchange knowledge through mutual regularisation based on Kullback-Leibler divergence. Our experiments on continuous control tasks show that P2PDRL enables robust learning across a wider randomisation distribution than baselines, and more robust generalisation to new environments at testing.
翻訳日:2021-05-16 13:23:52 公開日:2020-12-09
# (参考訳) SnapMix: きめ細かいデータを増やすための意味のある混合 [全文訳有]

SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained Data ( http://arxiv.org/abs/2012.04846v1 )

ライセンス: CC BY 4.0
Shaoli Huang, Xinchao Wang, Dacheng Tao(参考訳) データ混合強化は深層モデルのトレーニングに有効であることが証明された。 画像画素の混合比に基づいてラベルを混合する最近の手法である。 きめ細かい画像の主識別情報は、通常微妙な領域に存在するため、この線に沿った手法は、きめ細かい認識において重ラベルノイズを引き起こす。 本稿では,クラスアクティベーションマップ(CAM)を利用して,微粒データの拡張におけるラベルノイズを低減する,Semantically Proportional Mixing(SnapMix)と呼ばれる新しい手法を提案する。 SnapMixは、その固有の意味合成を推定して混合画像のターゲットラベルを生成し、非対称な混合操作を可能にし、合成画像とターゲットラベルのセマンティック対応を確保する。 実験により,提案手法は様々なデータセットおよび異なるネットワーク深度下で,既存の混合手法より一貫して優れていることが示された。 さらに、中間レベルの機能を組み込むことで、提案されたsnapmixはトップレベルのパフォーマンスを達成し、きめ細かな認識のための確固としたベースラインとして機能する可能性を示している。 私たちのコードはhttps://github.com/s haoli-huang/snapmix. gitで利用可能です。

Data mixing augmentation has proved effective in training deep models. Recent methods mix labels mainly based on the mixture proportion of image pixels. As the main discriminative information of a fine-grained image usually resides in subtle regions, methods along this line are prone to heavy label noise in fine-grained recognition. We propose in this paper a novel scheme, termed as Semantically Proportional Mixing (SnapMix), which exploits class activation map (CAM) to lessen the label noise in augmenting fine-grained data. SnapMix generates the target label for a mixed image by estimating its intrinsic semantic composition, and allows for asymmetric mixing operations and ensures semantic correspondence between synthetic images and target labels. Experiments show that our method consistently outperforms existing mixed-based approaches on various datasets and under different network depths. Furthermore, by incorporating the mid-level features, the proposed SnapMix achieves top-level performance, demonstrating its potential to serve as a solid baseline for fine-grained recognition. Our code is available at https://github.com/S haoli-Huang/SnapMix. git.
翻訳日:2021-05-16 12:54:51 公開日:2020-12-09
# (参考訳) 森林の孤立学習に基づくサイバー異常の効果的分類のための外部検出手法 [全文訳有]

An Isolation Forest Learning Based Outlier Detection Approach for Effectively Classifying Cyber Anomalies ( http://arxiv.org/abs/2101.03141v1 )

ライセンス: CC BY-SA 4.0
Rony Chowdhury Ripan, Iqbal H. Sarker, Md Musfique Anwar, Md. Hasan Furhad, Fazle Rahat, Mohammed Moshiul Hoque and Muhammad Sarfraz(参考訳) サイバーセキュリティは、最近、IoT(Internet-of-Thin gs)の人気、モバイルネットワークの大幅な成長、および多くの関連するアプリによって、今日のセキュリティ問題にかなりの関心を集めている。 したがって、ネットワーク内で多数のサイバー攻撃を検出し、効果的な侵入検知システムを構築することは、今日のセキュリティにおいて重要な役割を果たす。 本稿では,サイバー異常を効果的に分類するための孤立林学習に基づく異常検出モデルを提案する。 また,結果のアウトリア検出モデルの有効性を評価するために,ロジスティック回帰(LR),サポートベクトルマシン(SVM),AdaBoost分類器(ABC),ネイブベイズ(NB),K-Nearest Neighbor(KNN)など,従来の機械学習手法を用いた。 提案手法の有効性を,精度,リコール,f1-score,精度などの評価指標を用いたネットワーク侵入データセット実験により評価した。 実験の結果,異常値の除去によりサイバー異常の分類精度が向上した。

Cybersecurity has recently gained considerable interest in today's security issues because of the popularity of the Internet-of-Things (IoT), the considerable growth of mobile networks, and many related apps. Therefore, detecting numerous cyber-attacks in a network and creating an effective intrusion detection system plays a vital role in today's security. In this paper, we present an Isolation Forest Learning-Based Outlier Detection Model for effectively classifying cyber anomalies. In order to evaluate the efficacy of the resulting Outlier Detection model, we also use several conventional machine learning approaches, such as Logistic Regression (LR), Support Vector Machine (SVM), AdaBoost Classifier (ABC), Naive Bayes (NB), and K-Nearest Neighbor (KNN). The effectiveness of our proposed Outlier Detection model is evaluated by conducting experiments on Network Intrusion Dataset with evaluation metrics such as precision, recall, F1-score, and accuracy. Experimental results show that the classification accuracy of cyber anomalies has been improved after removing outliers.
翻訳日:2021-05-16 12:39:05 公開日:2020-12-09
# (参考訳) 機械学習による個人薬物乱用脆弱性の予測 [全文訳有]

Predicting Individual Substance Abuse Vulnerability using Machine Learning Techniques ( http://arxiv.org/abs/2101.03184v1 )

ライセンス: CC BY 4.0
Uwaise Ibna Islam, Iqbal H. Sarker, Enamul Haque and Mohammed Moshiul Hoque(参考訳) 物質乱用 (substance abuse) は、精神活性化学物質、無許可薬物、アルコールの非制限および有害使用である。 これらの物質の連続的な使用は、究極的には人間を破滅的な結果に導く。 再発率が高い患者の場合、早期の予防は効果的に抑制される。 そこで我々は,被験者の社会経済的環境を分析し,物質乱用に対する個人の現在の脆弱性を識別する二項分類器を提案する。 薬物乱用の背後にある一般的な要因を慎重に評価した上で作成したアンケートによってデータを収集した。 ピアソンのchi-squared test of independenceは、薬物乱用に影響を与える重要な特徴変数を特定するために用いられる。 その後、これらの変数の機械学習分類アルゴリズムを用いて予測分類器を構築する。 18の機能でトレーニングされたロジスティック回帰分類器は、最適な精度で個々の脆弱性を予測することができる。

Substance abuse is the unrestrained and detrimental use of psychoactive chemical substances, unauthorized drugs, and alcohol. Continuous use of these substances can ultimately lead a human to disastrous consequences. As patients display a high rate of relapse, prevention at an early stage can be an effective restraint. We therefore propose a binary classifier to identify any individual's present vulnerability towards substance abuse by analyzing subjects' socio-economic environment. We have collected data by a questionnaire which is created after carefully assessing the commonly involved factors behind substance abuse. Pearson's chi-squared test of independence is used to identify key feature variables influencing substance abuse. Later we build the predictive classifiers using machine learning classification algorithms on those variables. Logistic regression classifier trained with 18 features can predict individual vulnerability with the best accuracy.
翻訳日:2021-05-16 12:32:50 公開日:2020-12-09
# (参考訳) ESAD: エンドツーエンドの半教師付き異常検出 [全文訳有]

ESAD: End-to-end Deep Semi-supervised Anomaly Detection ( http://arxiv.org/abs/2012.04905v1 )

ライセンス: CC BY 4.0
Chaoqin Huang, Fei Ye, Ya Zhang, Yan-Feng Wang, Qi Tian(参考訳) 本稿では,ラベル付き外乱サンプルの小さなセットをトレーニング用未ラベルデータに加えて提供する,半教師付き異常検出のためのより実用的な設定である半教師付き異常検出について検討する。 異常検出の最適化目標を再検討し,正規データと異常データ間のkl分割を測定する新しい目的関数を提案し,データと潜在表現の相互情報と潜在表現のエントロピーの2つの因子が異常検出のための統合目的関数となることを証明した。 2つの要素を同時に最適化する際の矛盾を解決するため、第1エンコーダは相互情報の最適化に焦点を合わせ、第2エンコーダはエントロピーの最適化に焦点を合わせた新しいエンコーダ・デコーダ・エンコーダ構造を提案する。 2つのエンコーダは、類似のエンコーディングを、潜在表現に一貫した制約で共有するように強制される。 広範にわたる実験により,提案手法は診断や古典的異常検出ベンチマークなど,複数のベンチマークデータセットにおいて,最先端のいくつかのベンチマークを著しく上回ることがわかった。

This paper explores semi-supervised anomaly detection, a more practical setting for anomaly detection where a small set of labeled outlier samples are provided in addition to a large amount of unlabeled data for training. Rethinking the optimization target of anomaly detection, we propose a new objective function that measures the KL-divergence between normal and anomalous data, and prove that two factors: the mutual information between the data and latent representations, and the entropy of latent representations, constitute an integral objective function for anomaly detection. To resolve the contradiction in simultaneously optimizing the two factors, we propose a novel encoder-decoder-enco der structure, with the first encoder focusing on optimizing the mutual information and the second encoder focusing on optimizing the entropy. The two encoders are enforced to share similar encoding with a consistent constraint on their latent representations. Extensive experiments have revealed that the proposed method significantly outperforms several state-of-the-arts on multiple benchmark datasets, including medical diagnosis and several classic anomaly detection benchmarks.
翻訳日:2021-05-16 12:24:51 公開日:2020-12-09
# (参考訳) 画像-画像間翻訳における意味ロバスト性向上のためのリプシッツ正規化サイクルGAN [全文訳有]

Lipschitz Regularized CycleGAN for Improving Semantic Robustness in Unpaired Image-to-image Translation ( http://arxiv.org/abs/2012.04932v1 )

ライセンス: CC BY 4.0
Zhiwei Jia, Bodi Yuan, Kangkang Wang, Hong Wu, David Clifford, Zhiqiang Yuan, Hao Su(参考訳) 未ペア画像から画像への変換タスクでは、GANベースのアプローチはセマンティックフリップの影響を受けやすい。 これは、(1)ソースとターゲットドメイン間の意味統計の差異と(2)学習したジェネレータが損なわれないためである。 本稿では,意味的ロバスト性を改善し,意味的フリップ問題を緩和するための新しい手法であるlipschitz regularized cycleganを提案する。 トレーニング中に、ジェネレータに勾配ペナルティ損失を加え、意味的に一貫した変換を促進する。 我々は,複数の共通データセットに対するアプローチを評価し,既存のGANベースの手法と比較した。 定量的および視覚的結果は,意味的なフリップが少なく,堅牢な変換を実現する上でのアプローチの有効性とメリットを示唆している。

For unpaired image-to-image translation tasks, GAN-based approaches are susceptible to semantic flipping, i.e., contents are not preserved consistently. We argue that this is due to (1) the difference in semantic statistics between source and target domains and (2) the learned generators being non-robust. In this paper, we proposed a novel approach, Lipschitz regularized CycleGAN, for improving semantic robustness and thus alleviating the semantic flipping issue. During training, we add a gradient penalty loss to the generators, which encourages semantically consistent transformations. We evaluate our approach on multiple common datasets and compare with several existing GAN-based methods. Both quantitative and visual results suggest the effectiveness and advantage of our approach in producing robust transformations with fewer semantic flipping.
翻訳日:2021-05-16 11:43:39 公開日:2020-12-09
# (参考訳) マルチモーダルデータのクラスタリングのための共役混合モデル

Conjugate Mixture Models for Clustering Multimodal Data ( http://arxiv.org/abs/2012.04951v1 )

ライセンス: CC BY 4.0
Vasil Khalidov, Florence Forbes and Radu Horaud(参考訳) マルチモーダルクラスタリングの問題は、データが物理的に異なるセンサーで収集されるたびに発生する。 異なるモダリティからの観察は必ずしもある共通の空間でそれらを関連付けたり比較したりする明確な方法がないという意味で一致しているとは限らない。 ソリューションは、各モダリティに対して独立して複数のクラスタリングタスクを検討することで構成できる。 このようなアプローチの主な困難は、ユニモーダルクラスタリングが相互に一貫性があることを保証することである。 本稿では,マルチモーダルクラスタリングを新しいフレームワーク,すなわち共役混合モデルの中で扱うことができることを示す。 これらのモデルは、観測されていないパラメータ空間(オブジェクト)と観測空間(センサー)の間にしばしば利用できる明示的な変換を利用する。 この問題を最大化タスクとして定式化し,共役期待最大化アルゴリズムを導出する。 提案アルゴリズムの収束特性を徹底的に検討した。 収束速度を高めるために,いくつかの局所的・グローバル最適化手法が提案されている。 2つの初期化戦略を提案し比較する。 一貫性のあるモデル選択基準を提案する。 聴覚データと視覚データの両方を用いて,複数の話者の3次元位置推定タスクにおいて,アルゴリズムとその変種をテストし,評価した。

The problem of multimodal clustering arises whenever the data are gathered with several physically different sensors. Observations from different modalities are not necessarily aligned in the sense there there is no obvious way to associate or to compare them in some common space. A solution may consist in considering multiple clustering tasks independently for each modality. The main difficulty with such an approach is to guarantee that the unimodal clusterings are mutually consistent. In this paper we show that multimodal clustering can be addressed within a novel framework, namely conjugate mixture models. These models exploit the explicit transformations that are often available between an unobserved parameter space (objects) and each one of the observation spaces (sensors). We formulate the problem as a likelihood maximization task and we derive the associated conjugate expectation-maximiza tion algorithm. The convergence properties of the proposed algorithm are thoroughly investigated. Several local/global optimization techniques are proposed in order to increase its convergence speed. Two initialization strategies are proposed and compared. A consistent model-selection criterion is proposed. The algorithm and its variants are tested and evaluated within the task of 3D localization of several speakers using both auditory and visual data.
翻訳日:2021-05-16 10:58:32 公開日:2020-12-09
# (参考訳) 育種性を考慮した直接音声翻訳システム [全文訳有]

Breeding Gender-aware Direct Speech Translation Systems ( http://arxiv.org/abs/2012.04955v1 )

ライセンス: CC BY 4.0
Marco Gaido, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) 自動翻訳(st)では、分離された翻訳と翻訳ステップを含む従来のカスケードアプローチが、競争的でより堅牢な直接解の基盤となっている。 特に、中間転写なしで音声音声データを翻訳することにより、直接STモデルは入力(例えば、)に存在する必須情報を利用して保存することができる。 スピーカーの発声特性) さもなくばカスケードの枠組みで失われる。 このような能力は、性翻訳に有用であることが証明されているが、直接STは、そのカスケードと同様の性別バイアスや、機械翻訳や他の多くの自然言語処理アプリケーションの影響を受けている。 さらに、性別のキューとして音声バイオメトリック機能のみに依存する直接STシステムは、特定のユーザにとって不適当であり、潜在的に有害である可能性がある。 本稿では、音声信号を超えて、話者の性別について直接STモデルに通知するための異なるアプローチを比較し、英語からイタリア語とフランス語への性別翻訳を処理できる能力をテストする。 この目的のために,話者の性別情報を含む大規模データセットを手作業でアノテートし,様々な現実シナリオを反映する実験に用いた。 以上の結果から,性認識型stソリューションは強い-しかし性認識型stモデルを大きく上回ることが示された。 特に、ジェンダーマーク付き単語の翻訳は、全体的な翻訳品質を維持しながら、30ポイントまで精度を上げることができる。

In automatic speech translation (ST), traditional cascade approaches involving separate transcription and translation steps are giving ground to increasingly competitive and more robust direct solutions. In particular, by translating speech audio data without intermediate transcription, direct ST models are able to leverage and preserve essential information present in the input (e.g. speaker's vocal characteristics) that is otherwise lost in the cascade framework. Although such ability proved to be useful for gender translation, direct ST is nonetheless affected by gender bias just like its cascade counterpart, as well as machine translation and numerous other natural language processing applications. Moreover, direct ST systems that exclusively rely on vocal biometric features as a gender cue can be unsuitable and potentially harmful for certain users. Going beyond speech signals, in this paper we compare different approaches to inform direct ST models about the speaker's gender and test their ability to handle gender translation from English into Italian and French. To this aim, we manually annotated large datasets with speakers' gender information and used them for experiments reflecting different possible real-world scenarios. Our results show that gender-aware direct ST solutions can significantly outperform strong - but gender-unaware - direct ST models. In particular, the translation of gender-marked words can increase up to 30 points in accuracy while preserving overall translation quality.
翻訳日:2021-05-16 10:57:27 公開日:2020-12-09
# (参考訳) ストックポートフォリオ最適化のための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Stock Portfolio Optimization ( http://arxiv.org/abs/2012.06325v1 )

ライセンス: CC0 1.0
Le Trung Hieu(参考訳) 株式ポートフォリオの最適化は、様々な株式のプールに常に資金を再分配するプロセスである。 本稿では,タスクの強化学習を適切に適用できるように,問題を定式化する。 市場に関する現実的な仮定を維持するため、我々は取引コストとリスクファクターを州にも組み込む。 それに加えて、さまざまな最先端のDeep Reinforcement Learningアルゴリズムを比較に適用する。 アクション空間は連続であるため、現実的な定式化は、Deep Deterministic Policy Gradient (DDPG)、Generalized Deterministic Policy Gradient (GDPG)、Proximal Policy Optimization (PPO)という、最先端の継続的ポリシー勾配アルゴリズムのファミリーでテストされた。 次に、ストックサブセット選択のための最小分散ポートフォリオ理論と多周波データパターン抽出のためのウェーブレット変換を用いたタスクのエンドツーエンドソリューションを提案する。 結果と今後の研究方向性について,観測と仮説を議論した。

Stock portfolio optimization is the process of constant re-distribution of money to a pool of various stocks. In this paper, we will formulate the problem such that we can apply Reinforcement Learning for the task properly. To maintain a realistic assumption about the market, we will incorporate transaction cost and risk factor into the state as well. On top of that, we will apply various state-of-the-art Deep Reinforcement Learning algorithms for comparison. Since the action space is continuous, the realistic formulation were tested under a family of state-of-the-art continuous policy gradients algorithms: Deep Deterministic Policy Gradient (DDPG), Generalized Deterministic Policy Gradient (GDPG) and Proximal Policy Optimization (PPO), where the former two perform much better than the last one. Next, we will present the end-to-end solution for the task with Minimum Variance Portfolio Theory for stock subset selection, and Wavelet Transform for extracting multi-frequency data pattern. Observations and hypothesis were discussed about the results, as well as possible future research directions.1
翻訳日:2021-05-16 10:37:29 公開日:2020-12-09
# (参考訳) 複雑な細胞の微分モデル [全文訳有]

A Differential Model of the Complex Cell ( http://arxiv.org/abs/2012.09027v1 )

ライセンス: CC BY 4.0
Miles Hansard and Radu Horaud(参考訳) 視覚野における単純細胞の受容野は線形フィルタとして理解することができる。 これらのフィルタはガボル関数やガウス微分によってモデル化することができる。 ガボル関数は複雑な細胞応答の「エネルギーモデル」に結合することもできる。 本稿では、ガウス微分に基づく複素細胞の代替モデルを提案する。 画像の小さな変化に対する複雑な応答の不感性を考慮することが最も重要である。 新しいモデルは、最初の数個の導関数フィルタを1つの位置で線形結合して、最初の導関数フィルタを一連の隣接位置で近似する。 最大応答は、すべての位置にわたって、画像の小さなシフトに敏感な信号を与える。 このモデルは、以前のアプローチとは異なり、視覚処理のスケール空間理論に基づいている。 特に、複素セルは、画像の \twod\ 微分構造に応答するフィルタから構築される。 新しいモデルの計算的側面はガウス微分のステアビリティを用いて1次元と2次元で研究されている。 エッジやグレーティングなどの基本画像に対するモデルの応答は、正式に導出される。 自然画像に対する応答も、シフト感度の統計的尺度を用いて評価される。 本稿では,新しいモデルと皮質画像表現の関係について述べる。

The receptive fields of simple cells in the visual cortex can be understood as linear filters. These filters can be modelled by Gabor functions, or by Gaussian derivatives. Gabor functions can also be combined in an `energy model' of the complex cell response. This paper proposes an alternative model of the complex cell, based on Gaussian derivatives. It is most important to account for the insensitivity of the complex response to small shifts of the image. The new model uses a linear combination of the first few derivative filters, at a single position, to approximate the first derivative filter, at a series of adjacent positions. The maximum response, over all positions, gives a signal that is insensitive to small shifts of the image. This model, unlike previous approaches, is based on the scale space theory of visual processing. In particular, the complex cell is built from filters that respond to the \twod\ differential structure of the image. The computational aspects of the new model are studied in one and two dimensions, using the steerability of the Gaussian derivatives. The response of the model to basic images, such as edges and gratings, is derived formally. The response to natural images is also evaluated, using statistical measures of shift insensitivity. The relevance of the new model to the cortical image representation is discussed.
翻訳日:2021-05-16 10:26:24 公開日:2020-12-09
# (参考訳) 高次元ガウス模型における最適分散試験

Optimal distributed testing in high-dimensional Gaussian models ( http://arxiv.org/abs/2012.04957v1 )

ライセンス: CC BY 4.0
Botond Szabo, Lasse Vuursteen, Harry van Zanten(参考訳) 本稿では,分散環境におけるガウス雑音の信号検出問題について検討する。 我々は、信号が検出可能となるためには、信号が持つ必要がある大きさの低い境界を導出する。 さらに,より低いバウンダリを達成できる最適な分散テスト戦略を示す。

In this paper study the problem of signal detection in Gaussian noise in a distributed setting. We derive a lower bound on the size that the signal needs to have in order to be detectable. Moreover, we exhibit optimal distributed testing strategies that attain the lower bound.
翻訳日:2021-05-16 10:02:41 公開日:2020-12-09
# (参考訳) 直接音声翻訳のための知識蒸留について [全文訳有]

On Knowledge Distillation for Direct Speech Translation ( http://arxiv.org/abs/2012.04964v1 )

ライセンス: CC BY 4.0
Marco Gaido, Mattia A. Di Gangi, Matteo Negri, Marco Turchi(参考訳) 直接音声翻訳(ST)は、自動音声認識(ASR)と機械翻訳(MT)というサブタスクからの知識伝達を必要とする複雑なタスクであることが示されている。 MTにとって、知識を伝達する最も有望な手法の1つは知識蒸留である。 本稿では,stのようなシーケンスからシーケンスへのタスクにおいて,異なる解を蒸留知識と比較する。 さらに,本手法の問題点と,翻訳品質の面での便益の維持を緩和する方法について分析した。

Direct speech translation (ST) has shown to be a complex task requiring knowledge transfer from its sub-tasks: automatic speech recognition (ASR) and machine translation (MT). For MT, one of the most promising techniques to transfer knowledge is knowledge distillation. In this paper, we compare the different solutions to distill knowledge in a sequence-to-sequence task like ST. Moreover, we analyze eventual drawbacks of this approach and how to alleviate them maintaining the benefits in terms of translation quality.
翻訳日:2021-05-16 10:01:53 公開日:2020-12-09
# (参考訳) 協調フィルタリングのための表現抽出とディープニューラルレコメンデーション [全文訳有]

Representation Extraction and Deep Neural Recommendation for Collaborative Filtering ( http://arxiv.org/abs/2012.04979v1 )

ライセンス: CC BY 4.0
Arash Khoeini, Saman Haratizadeh, Ehsan Hoseinzade(参考訳) 多くのディープラーニングアプローチは、生の入力データから複雑な特徴を階層的に構築することで、複雑な分類と回帰問題を解決する。 レコメンデーション領域におけるディープニューラルネットワークの適用について、いくつかの研究で研究されているが、視覚情報やテキスト情報などの非構造化補助データを利用してエンティティの特徴を抽出することがほとんどであり、ユーザ・イット・レーティング・マトリックスを使用する場合、特徴抽出は行列分解を用いて行われる。 行列分解にはいくつかの制限があるため、それをディープニューラルネットワークに置き換える作業が行われている。 しかし、これらはアイテムのレビューやイメージのような構造化されていないデータを利用する必要があるか、暗黙のデータを使用するように特別に設計されており、ユーザイテム評価マトリックスを考慮していない。 本稿では,評価行列からユーザとアイテムの表現を抽出するための新しい表現学習アルゴリズムの利用について検討し,協調フィルタリングのためのディープニューラルネットワークを提供する。 提案手法は,Representation eXtraction と Deep Neural NETwork (RexNet) の2つの相からなるモジュラーアルゴリズムである。 RexNetで2つのジョイントニューラルネットワークと並列ニューラルネットワークを使用することで、各エンティティの機能階層を抽出して、ユーザからアイテムへの関心度を予測することが可能になる。 結果の予測は最終勧告に使用される。 他のディープラーニング推奨アプローチとは異なり、RexNetは視覚情報やテキスト情報などの構造化されていない補助データに依存しない。 我々はRexNetを,アートレコメンデーション手法の現状に対する広範な実験で評価した。 その結果、RexNetは密度の異なるさまざまなデータセットにおいて、ベースラインアルゴリズムを著しく上回ることがわかった。

Many Deep Learning approaches solve complicated classification and regression problems by hierarchically constructing complex features from the raw input data. Although a few works have investigated the application of deep neural networks in recommendation domain, they mostly extract entity features by exploiting unstructured auxiliary data such as visual and textual information, and when it comes to using user-item rating matrix, feature extraction is done by using matrix factorization. As matrix factorization has some limitations, some works have been done to replace it with deep neural network. but these works either need to exploit unstructured data such item's reviews or images, or are specially designed to use implicit data and don't take user-item rating matrix into account. In this paper, we investigate the usage of novel representation learning algorithms to extract users and items representations from rating matrix, and offer a deep neural network for Collaborative Filtering. Our proposed approach is a modular algorithm consisted of two main phases: REpresentation eXtraction and a deep neural NETwork (RexNet). Using two joint and parallel neural networks in RexNet enables it to extract a hierarchy of features for each entity in order to predict the degree of interest of users to items. The resulted predictions are then used for the final recommendation. Unlike other deep learning recommendation approaches, RexNet is not dependent to unstructured auxiliary data such as visual and textual information, instead, it uses only the user-item rate matrix as its input. We evaluated RexNet in an extensive set of experiments against state of the art recommendation methods. The results show that RexNet significantly outperforms the baseline algorithms in a variety of data sets with different degrees of density.
翻訳日:2021-05-16 09:50:24 公開日:2020-12-09
# (参考訳) 深部生成ネットワークを用いたスペクトルエネルギー分布の逆問題解法 [全文訳有]

Solving Inverse Problems for Spectral Energy Distributions with Deep Generative Networks ( http://arxiv.org/abs/2012.06331v1 )

ライセンス: CC BY 4.0
Agapi Rissaki, Orestis Pavlou, Dimitris Fotakis, Vicky Papadopoulou, Andreas Efstathiou(参考訳) 本稿では、複雑な天文学的信号のクラス、すなわちスペクトルエネルギー分布(SED)の逆問題に対するエンドツーエンドアプローチを提案する。 私たちのゴールは、そのような信号を不足や信頼性の低い測定から再構築することです。 我々は、学習した構造を深層生成ネットワークの形で活用することで実現した。 同様の方法は、暗黙的に悪用される有用な特性(局所性、周期性など)を表示する画像に対してのみテストされている。 しかし、SEDはそのような性質に欠けており、この問題をより困難にしている。 我々は、非常に少ないデータと破損したデータで訓練されたジェネレーティブ潜在最適化モデルを用いて、メソッドをSEDにうまく拡張することに成功した。

We propose an end-to-end approach for solving inverse problems for a class of complex astronomical signals, namely Spectral Energy Distributions (SEDs). Our goal is to reconstruct such signals from scarce and/or unreliable measurements. We achieve that by leveraging a learned structural prior in the form of a Deep Generative Network. Similar methods have been tested almost exclusively for images which display useful properties (e.g., locality, periodicity) that are implicitly exploited. However, SEDs lack such properties which make the problem more challenging. We manage to successfully extend the methods to SEDs using a Generative Latent Optimization model trained with significantly fewer and corrupted data.
翻訳日:2021-05-16 09:42:47 公開日:2020-12-09
# (参考訳) 弱教師付きセマンティクスセグメンテーションのためのグループ別セマンティクスマイニング [全文訳有]

Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2012.05007v1 )

ライセンス: CC BY 4.0
Xueyi Li, Tianfei Zhou, Jianwu Li, Yi Zhou, Zhaoxiang Zhang(参考訳) 深層視覚モデルのトレーニングに十分な地上監視を得ることは、深層学習の膨大な性質のため、長年にわたってボトルネックとなっている。 これは、ピクセルレベルのアノテーションを必要とするセマンティックセグメンテーションなど、いくつかの構造化予測タスクで悪化する。 この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目的として、弱教師付きセグメンテーション(WSSS)に対処する。 画像群における意味的依存関係を明示的にモデル化し,より正確なセグメンテーションモデルのトレーニングに使用可能な,より信頼性の高い擬似地下構造を推定する。 特に,入力画像をグラフノードとして表現し,対画像間の基礎関係を効率的なコアテンション機構によって特徴づけるグループ間意味マイニングのためのグラフニューラルネットワーク(gnn)を考案する。 さらに,モデルが共通意味論のみに過度に注意を払わないよう,さらにグラフドロップアウト層を提案し,モデルがより正確で完全なオブジェクト応答を学ぶように促す。 ネットワーク全体が反復的なメッセージパッシングによってエンドツーエンドのトレーニングが可能で、画像上のインタラクションキューを伝搬して、パフォーマンスが徐々に向上する。 PASCAL VOC 2012とCOCOベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。 私たちのコードは、https://github.com/l ixy1997/group-wsssで利用可能です。

Acquiring sufficient ground-truth supervision to train deep visual models has been a bottleneck over the years due to the data-hungry nature of deep learning. This is exacerbated in some structured prediction tasks, such as semantic segmentation, which requires pixel-level annotations. This work addresses weakly supervised semantic segmentation (WSSS), with the goal of bridging the gap between image-level annotations and pixel-level segmentation. We formulate WSSS as a novel group-wise learning task that explicitly models semantic dependencies in a group of images to estimate more reliable pseudo ground-truths, which can be used for training more accurate segmentation models. In particular, we devise a graph neural network (GNN) for group-wise semantic mining, wherein input images are represented as graph nodes, and the underlying relations between a pair of images are characterized by an efficient co-attention mechanism. Moreover, in order to prevent the model from paying excessive attention to common semantics only, we further propose a graph dropout layer, encouraging the model to learn more accurate and complete object responses. The whole network is end-to-end trainable by iterative message passing, which propagates interaction cues over the images to progressively improve the performance. We conduct experiments on the popular PASCAL VOC 2012 and COCO benchmarks, and our model yields state-of-the-art performance. Our code is available at: https://github.com/L ixy1997/Group-WSSS.
翻訳日:2021-05-16 09:36:01 公開日:2020-12-09
# (参考訳) ヒンドゥー教ヒマラヤにおける氷河モニタリングのための機械学習 [全文訳有]

Machine Learning for Glacier Monitoring in the Hindu Kush Himalaya ( http://arxiv.org/abs/2012.05013v1 )

ライセンス: CC BY 4.0
Shimaa Baraka, Benjamin Akera, Bibek Aryal, Tenzing Sherpa, Finu Shresta, Anthony Ortiz, Kris Sankaran, Juan Lavista Ferres, Mir Matin, Yoshua Bengio(参考訳) 氷河マッピングは、hkh領域における生態モニタリングの鍵となる。 気候変動は、氷河生態系の健康に依存している個人に危険をもたらす。 本研究では,氷河に焦点をあて,生態モニタリングを支援する機械学習に基づくアプローチを提案する。 本手法は,衛星画像からの半自動マッピングに基づく。 衛星画像から,簡易に利用可能なリモートセンシングデータを用いて,クリーンアイスとデブリに覆われた氷河を識別・概説するモデルを構築した。 また、氷河マッピングプロセスを加速する究極の目的として、データをリリースし、専門家がモデル予測を可視化し、修正できるwebツールの開発も行っています。

Glacier mapping is key to ecological monitoring in the hkh region. Climate change poses a risk to individuals whose livelihoods depend on the health of glacier ecosystems. In this work, we present a machine learning based approach to support ecological monitoring, with a focus on glaciers. Our approach is based on semi-automated mapping from satellite images. We utilize readily available remote sensing data to create a model to identify and outline both clean ice and debris-covered glaciers from satellite imagery. We also release data and develop a web tool that allows experts to visualize and correct model predictions, with the ultimate aim of accelerating the glacier mapping process.
翻訳日:2021-05-16 09:19:28 公開日:2020-12-09
# (参考訳) ニューラルネットワークにおける創発的量子性 [全文訳有]

Emergent Quantumness in Neural Networks ( http://arxiv.org/abs/2012.05082v1 )

ライセンス: CC BY 4.0
Mikhail I. Katsnelson, Vitaly Vanchurin(参考訳) 近年、マデルング方程式、すなわちシュル=オディンガー方程式の流体力学的形式は、量子位相が隠れた変数の自由エネルギーと同一視されたニューラルネットワークの正準アンサンブルから導かれることが示されている。 代わりに、補助的なサブシステムとニューロンの交換を許し、自由エネルギーを多値化する必要があることを示すことによって、ニューラルネットワークの大標準アンサンブルを考える。 自由エネルギーに多値性条件を課すことで、隠れた変数の化学ポテンシャルによって決定される「プランク定数」を持つシュレーディンガー方程式を導出する。 このことは、量子力学が学習平衡におけるニューラルネットワークの大標準アンサンブルのダイナミクスの正しい統計的記述を与えることを示している。 また,機械学習や基礎物理学,進化生物学における研究結果の意義についても考察した。

It was recently shown that the Madelung equations, that is, a hydrodynamic form of the Schr\"odinger equation, can be derived from a canonical ensemble of neural networks where the quantum phase was identified with the free energy of hidden variables. We consider instead a grand canonical ensemble of neural networks, by allowing an exchange of neurons with an auxiliary subsystem, to show that the free energy must also be multivalued. By imposing the multivaluedness condition on the free energy we derive the Schr\"odinger equation with "Planck's constant" determined by the chemical potential of hidden variables. This shows that quantum mechanics provides a correct statistical description of the dynamics of the grand canonical ensemble of neural networks at the learning equilibrium. We also discuss implications of the results for machine learning, fundamental physics and, in a more speculative way, evolutionary biology.
翻訳日:2021-05-16 09:12:54 公開日:2020-12-09
# (参考訳) explornn:ビジュアル探索によるリカレントニューラルネットワークの理解 [全文訳有]

exploRNN: Understanding Recurrent Neural Networks through Visual Exploration ( http://arxiv.org/abs/2012.06326v1 )

ライセンス: CC BY 4.0
Alex B\"auerle, Raphael St\"ork, and Timo Ropinski(参考訳) ディープラーニングの成功と、その成長する求人市場により、多くの分野の学生や研究者は、ディープラーニング技術について学ぼうとしている。 可視化は、この学習プロセスにおいて非常に役立つことが証明されていますが、現在の教育的な視覚化のほとんどは、特定のアーキテクチャやユースケースをターゲットにしています。 残念ながら、シーケンシャルなデータを処理できるrecurrent neural networks(rnn)は、テキストや関数分析といったシーケンシャルなデータのタスクがディープラーニング研究の最前線にあるにもかかわらず、まだカバーされていない。 そこで本研究では,RNNのための対話型学習可視化である ExploRNN を提案する。 exploRNNは、RNNとのインタラクティブな実験を可能にし、トレーニング中の機能や振る舞いに関する詳細な情報を提供する。 RNNの理解を目的とした教育目的を定義し、これらをビジュアルデザインプロセス全体を通してガイドラインとして使用することにより、Webブラウザ内でRNNの最も重要な概念を直接伝達するエクスプロRNNを設計した。 ExploRNNにより、粗いレベルでのRNNのトレーニングプロセスの概要を提供するとともに、LSTMセル内のデータフローの詳細な検査を可能にする。 本稿では,exploRNNの設計を動機付け,その実現を詳述するとともに,exploRNNのメリットを調査するユーザスタディの結果について考察する。

Due to the success of deep learning and its growing job market, students and researchers from many areas are getting interested in learning about deep learning technologies. Visualization has proven to be of great help during this learning process, while most current educational visualizations are targeted towards one specific architecture or use case. Unfortunately, recurrent neural networks (RNNs), which are capable of processing sequential data, are not covered yet, despite the fact that tasks on sequential data, such as text and function analysis, are at the forefront of deep learning research. Therefore, we propose exploRNN, the first interactively explorable, educational visualization for RNNs. exploRNN allows for interactive experimentation with RNNs, and provides in-depth information on their functionality and behavior during training. By defining educational objectives targeted towards understanding RNNs, and using these as guidelines throughout the visual design process, we have designed exploRNN to communicate the most important concepts of RNNs directly within a web browser. By means of exploRNN, we provide an overview of the training process of RNNs at a coarse level, while also allowing detailed inspection of the data-flow within LSTM cells. Within this paper, we motivate our design of exploRNN, detail its realization, and discuss the results of a user study investigating the benefits of exploRNN.
翻訳日:2021-05-16 08:59:31 公開日:2020-12-09
# (参考訳) 深層強化学習に基づく対話型検索 [全文訳有]

Interactive Search Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2012.06052v1 )

ライセンス: CC0 1.0
Yang Yu, Zhenhao Gu, Rong Tao, Jingtian Ge, Kenglun Chang(参考訳) 機械学習技術の継続的な開発により、主要なEコマースプラットフォームは、異なるニーズを持つ多数の顧客により効率的にサービスを提供するために、それに基づくレコメンデーションシステムを立ち上げた。 従来の教師付き学習と比較して、強化学習は意思決定プロセスにおけるユーザの状態遷移をよりよく捉え、ある時点におけるユーザの静的な特性だけでなく、一連のユーザアクションを考えることができる。 理論的には、長期的な視点を持ち、より効果的なレコメンデーションを生み出す。 データに対する強化学習の特別な要件は、トレーニングのためにオフラインの仮想システムに依存する必要がある。 本プロジェクトは,主にオフライントレーニングのための仮想ユーザ環境を構築している。 同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。

With the continuous development of machine learning technology, major e-commerce platforms have launched recommendation systems based on it to serve a large number of customers with different needs more efficiently. Compared with traditional supervised learning, reinforcement learning can better capture the user's state transition in the decision-making process, and consider a series of user actions, not just the static characteristics of the user at a certain moment. In theory, it will have a long-term perspective, producing a more effective recommendation. The special requirements of reinforcement learning for data make it need to rely on an offline virtual system for training. Our project mainly establishes a virtual user environment for offline training. At the same time, we tried to improve a reinforcement learning algorithm based on bi-clustering to expand the action space and recommended path space of the recommendation agent.
翻訳日:2021-05-16 08:41:21 公開日:2020-12-09
# (参考訳) ICA-GANによる電力系統状態推定のためのBad-Data Sequence Detection [全文訳有]

Bad-Data Sequence Detection for Power System State Estimation via ICA-GAN ( http://arxiv.org/abs/2012.05163v1 )

ライセンス: CC BY 4.0
Kursat Rasim Mestav, Lang Tong(参考訳) 電力系統における不良データ列検出のための深層学習手法を提案する。 悪いデータモデルは、任意の自然および逆データ異常を含む非パラメトリックである。 データ異常の歴史的なサンプルは仮定されていない。 異常のないシステム操作におけるデータの確率分布は、非パラメトリック、未知、歴史的トレーニングサンプルである。 独立成分分析(ICA)により測定シーケンスの独立成分を抽出するGAN(Generative Adversarial Network)に基づいて一様性試験を提案する。 ICA-GANと呼ばれるこの手法は、個々のセンサーレベルでも、システムレベルで共同でも、バッドデータシーケンス検出に応用できる。 EPFLスマートグリッドテストベッドのPMU測定値と合成北テキサスグリッドのPMU測定値を用いて, 各種悪いデータケースに対する最先端のソリューションよりも大幅に改善した。

A deep learning approach to the detection of bad-data sequences in power systems is proposed. The bad-data model is nonparametric that includes arbitrary natural and adversarial data anomalies. No historical samples of data anomaly are assumed. The probability distribution of data in anomaly-free system operations is also non-parametric, unknown, but with historical training samples. A uniformity test is proposed based on a generative adversarial network (GAN) that extracts independent components of the measurement sequence via independent component analysis (ICA). Referred to as ICA-GAN, the developed approach to bad-data sequence detection can be applied at the individual sensor level or jointly at the system level. Numerical results demonstrate significant improvement over the state-of-the-art solutions for a variety of bad-data cases using PMU measurements from the EPFL smart grid testbed and that from the synthetic Northern Texas grid.
翻訳日:2021-05-16 08:08:58 公開日:2020-12-09
# (参考訳) SongMASS:事前学習とアライメント制約による自動作曲 [全文訳有]

SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint ( http://arxiv.org/abs/2012.05168v1 )

ライセンス: CC BY 4.0
Zhonghao Sheng, Kaitao Song, Xu Tan, Yi Ren, Wei Ye, Shikun Zhang, Tao Qin(参考訳) 自動作曲は、機械による歌(歌詞やメロディ)の作曲を目的としており、これはアカデミックと産業の両方で興味深い話題である。 自動作曲では,歌詞からメロディへの生成とメロディ・メロディ・メロディ・メロディ・メロディ生成が2つの重要な課題である。1) 歌詞とメロディの相関が弱いため,ペアのトレーニングデータが多数必要であること,2) 特定のアライメントモデルに依存する歌詞とメロディ間の厳密なアライメントが要求される。 本稿では,これらの課題を解決するためにsongmassを提案する。songmassはマス・シーケンス・ト・シーケンス(mass)の事前学習と注意に基づくアライメント・モデリングを用いて,歌詞からメロディ、メロディから歌詞への生成を行う。 具体的には,原文レベルのMASS事前学習を歌レベルに拡張し,音楽の長い文脈情報をよりよく把握し,各モダリティ(歌詞やメロディ)に別個のエンコーダとデコーダを用い,トレーニング中に文レベルの注意マスクとトークンレベルの注意制約を活用し,歌詞とメロディの整合性を高める。 推論中は動的プログラミング戦略を用いて,歌詞中の各単語/音節とメロディ中の音節のアライメントを求める。 その結果,SongMASSがベースライン法に比べて,事前学習やアライメントの制約を伴わずに,主観的および主観的評価を行った結果,SongMASSは歌詞とメロディを生成できることがわかった。

Automatic song writing aims to compose a song (lyric and/or melody) by machine, which is an interesting topic in both academia and industry. In automatic song writing, lyric-to-melody generation and melody-to-lyric generation are two important tasks, both of which usually suffer from the following challenges: 1) the paired lyric and melody data are limited, which affects the generation quality of the two tasks, considering a lot of paired training data are needed due to the weak correlation between lyric and melody; 2) Strict alignments are required between lyric and melody, which relies on specific alignment modeling. In this paper, we propose SongMASS to address the above challenges, which leverages masked sequence to sequence (MASS) pre-training and attention based alignment modeling for lyric-to-melody and melody-to-lyric generation. Specifically, 1) we extend the original sentence-level MASS pre-training to song level to better capture long contextual information in music, and use a separate encoder and decoder for each modality (lyric or melody); 2) we leverage sentence-level attention mask and token-level attention constraint during training to enhance the alignment between lyric and melody. During inference, we use a dynamic programming strategy to obtain the alignment between each word/syllable in lyric and note in melody. We pre-train SongMASS on unpaired lyric and melody datasets, and both objective and subjective evaluations demonstrate that SongMASS generates lyric and melody with significantly better quality than the baseline method without pre-training or alignment constraint.
翻訳日:2021-05-16 07:53:43 公開日:2020-12-09
# (参考訳) 神経再建に伴う凸規則化 [全文訳有]

Convex Regularization Behind Neural Reconstruction ( http://arxiv.org/abs/2012.05169v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Morteza Mardani, Batu Ozturkler, Mert Pilanci, John Pauly(参考訳) ニューラルネットワークは、逆問題において高解像度画像を再構成する大きな可能性を示している。 しかし、ニューラルネットワークの非凸で不透明な性質は、医用画像などの感度の高い応用においてその有用性を妨げている。 この課題に対処するため、本論文では2層完全畳み込みreluデノイジングネットワークを凸最適化に応用可能な凸双対性フレームワークを提唱する。 convexデュアルネットワークは、convexソルバによる最適なトレーニングを提供するだけでなく、トレーニングと予測の解釈を容易にする。 特に、重み減衰正規化を伴うトレーニングニューラルネットワークは経路スパーシティを誘導するが、予測は分割線形フィルタリングである。 MNISTおよび高速MRIデータセットを用いた実験により、二重ネットワーク最適化問題の有効性が確認された。

Neural networks have shown tremendous potential for reconstructing high-resolution images in inverse problems. The non-convex and opaque nature of neural networks, however, hinders their utility in sensitive applications such as medical imaging. To cope with this challenge, this paper advocates a convex duality framework that makes a two-layer fully-convolutional ReLU denoising network amenable to convex optimization. The convex dual network not only offers the optimum training with convex solvers, but also facilitates interpreting training and prediction. In particular, it implies training neural networks with weight decay regularization induces path sparsity while the prediction is piecewise linear filtering. A range of experiments with MNIST and fastMRI datasets confirm the efficacy of the dual network optimization problem.
翻訳日:2021-05-16 07:35:33 公開日:2020-12-09
# (参考訳) 汎用抗スプーフィングのための物理誘導型spoofトレース異方性 [全文訳有]

Physics-Guided Spoof Trace Disentanglement for Generic Face Anti-Spoofing ( http://arxiv.org/abs/2012.05185v1 )

ライセンス: CC BY 4.0
Yaojie Liu and Xiaoming Liu(参考訳) 以前の研究では、スプーフ防止の鍵は「スプーフトレース」と呼ばれる微妙な画像パターン、例えば色歪、3dマスクエッジ、モワールパターンなどにあることが示されている。 これらのspoofトレースを推定するための汎用的なface anti-spoofingモデルの設計は、spoof検出の一般化だけでなく、モデルの決定の解釈可能性も改善できる。 しかし、これはspoof型の多様性とspoofトレースにおける基底的真理の欠如のため、難しい課題である。 本研究では,スプーフの顔がスプーフの痕跡と実物に絡み合うような,新たな逆学習フレームワークを設計する。 物理的性質により、spoof生成は加法工程と塗り込み工程の組み合わせとして表される。 加法プロセスでは、スプーフィングを余分なパターン(例えばmoireパターン)を導入するスプーフィング材料として記述している。 塗布プロセスでは、スプーフは特定の領域を完全に覆うスプーフ材料であり、これらの領域の生きた領域を「くっつける」必要がある。 3個の添加成分と1個の塗工成分を用いて異なる周波数帯域でのトレースを表現する。 この異方性spoofトレースは、適切な幾何補正後の現実的な新しいspoof顔の合成に利用することができ、合成spoofは、spoof検出のトレーニングおよび一般化に使用できる。 提案手法は,既知の攻撃,未知の攻撃,オープンセット攻撃という3つのテストシナリオにおいて,優れたspoof検出性能を示す。 一方、スプーフトレースの視覚的に収束する推定を提供する。 ソースコードと事前訓練されたモデルは、公開時に公開される。

Prior studies show that the key to face anti-spoofing lies in the subtle image pattern, termed "spoof trace", e.g., color distortion, 3D mask edge, Moire pattern, and many others. Designing a generic face anti-spoofing model to estimate those spoof traces can improve not only the generalization of the spoof detection, but also the interpretability of the model's decision. Yet, this is a challenging task due to the diversity of spoof types and the lack of ground truth in spoof traces. In this work, we design a novel adversarial learning framework to disentangle spoof faces into the spoof traces and the live counterparts. Guided by physical properties, the spoof generation is represented as a combination of additive process and inpainting process. Additive process describes spoofing as spoof material introducing extra patterns (e.g., moire pattern), where the live counterpart can be recovered by removing those patterns. Inpainting process describes spoofing as spoof material fully covering certain regions, where the live counterpart of those regions has to be "guessed". We use 3 additive components and 1 inpainting component to represent traces at different frequency bands. The disentangled spoof traces can be utilized to synthesize realistic new spoof faces after proper geometric correction, and the synthesized spoof can be used for training and improve the generalization of spoof detection. Our approach demonstrates superior spoof detection performance on 3 testing scenarios: known attacks, unknown attacks, and open-set attacks. Meanwhile, it provides a visually-convincing estimation of the spoof traces. Source code and pre-trained models will be publicly available upon publication.
翻訳日:2021-05-16 07:14:43 公開日:2020-12-09
# (参考訳) 期待条件最大化を伴う剛体および関節点登録 [全文訳有]

Rigid and Articulated Point Registration with Expectation Conditional Maximization ( http://arxiv.org/abs/2012.05191v1 )

ライセンス: CC BY 4.0
Radu Horaud, Florence Forbes, Manuel Yguel, Guillaume Dewaele, and Jian Zhang(参考訳) 本稿では,確率点登録による剛性と調音形状の整合の問題に対処する。 問題は、未知の対応が混合モデルによって処理される、欠落したデータフレームワークに再キャストされる。 極大極大原理を応用して,ポイント登録のための期待条件最大化(ECMPR)アルゴリズムという,革新的EMライクなアルゴリズムを導入する。 このアルゴリズムは混合モデル成分に対する一般共分散行列の使用を可能にし、等方共分散の場合よりも改善する。 登録パラメータの推定において関連する結果を詳細に分析し、半定値の正緩和に基づく回転パラメータと翻訳パラメータを推定する最適手法を提案する。 厳格登録を明示登録に拡張する。 ガウス混合モデルに一様成分を加えることにより、外れ値の検出と拒絶によってロバスト性を確保する。 提案手法の詳細な解析を行い,理論上も実験上も,他の頑健な点登録法と比較する。

This paper addresses the issue of matching rigid and articulated shapes through probabilistic point registration. The problem is recast into a missing data framework where unknown correspondences are handled via mixture models. Adopting a maximum likelihood principle, we introduce an innovative EM-like algorithm, namely the Expectation Conditional Maximization for Point Registration (ECMPR) algorithm. The algorithm allows the use of general covariance matrices for the mixture model components and improves over the isotropic covariance case. We analyse in detail the associated consequences in terms of estimation of the registration parameters, and we propose an optimal method for estimating the rotational and translational parameters based on semi-definite positive relaxation. We extend rigid registration to articulated registration. Robustness is ensured by detecting and rejecting outliers through the addition of a uniform component to the Gaussian mixture model at hand. We provide an in-depth analysis of our method and we compare it both theoretically and experimentally with other robust methods for point registration.
翻訳日:2021-05-16 06:40:29 公開日:2020-12-09
# (参考訳) ディープラーニングのためのコストベース予算アクティブラーニング [全文訳有]

Cost-Based Budget Active Learning for Deep Learning ( http://arxiv.org/abs/2012.05196v1 )

ライセンス: CC BY 4.0
Patrick K. Gikunda, Nicolas Jouandeau(参考訳) 古典的アクティブラーニング(AL)のアプローチは、典型的にはエントロピーやマージンといった統計理論を使って例の効用を計測するが、ラベルのないデータに含まれるデータ分布情報の取得には失敗する。 これにより、最終的に分類器はラベル付けする外れ値のインスタンスを選択することができる。 一方、典型的な分類タスクにおけるインスタンスの誤ラベルに関連する損失は、反対のエラーに関連する損失よりもはるかに大きい。 これらの課題に対処するために、予算に制約された人口の分類の不確実性と事例多様性を考慮したコストベースバグデットアクティブラーニング(CBAL)を提案する。 min-maxに基づく原理的なアプローチは、選択されたインスタンスのラベル付けと決定コストの両方を最小化すると考えられており、計算労力を大幅に削減してほぼ最適である。 広範な実験結果から,提案手法は,最先端のアクティブラーニング手法よりも優れていることが示された。

Majorly classical Active Learning (AL) approach usually uses statistical theory such as entropy and margin to measure instance utility, however it fails to capture the data distribution information contained in the unlabeled data. This can eventually cause the classifier to select outlier instances to label. Meanwhile, the loss associated with mislabeling an instance in a typical classification task is much higher than the loss associated with the opposite error. To address these challenges, we propose a Cost-Based Bugdet Active Learning (CBAL) which considers the classification uncertainty as well as instance diversity in a population constrained by a budget. A principled approach based on the min-max is considered to minimize both the labeling and decision cost of the selected instances, this ensures a near-optimal results with significantly less computational effort. Extensive experimental results show that the proposed approach outperforms several state-of -the-art active learning approaches.
翻訳日:2021-05-16 06:14:15 公開日:2020-12-09
# (参考訳) グラフに基づく時空間交通予測の不確かさ区間 [全文訳有]

Uncertainty Intervals for Graph-based Spatio-Temporal Traffic Prediction ( http://arxiv.org/abs/2012.05207v1 )

ライセンス: CC BY-SA 4.0
Tijs Maas, Peter Bloem(参考訳) 多くのトラフィック予測アプリケーションは平均予測ではなく不確実性推定に依存している。 統計トラフィック予測文献は不確実性モデリングに特化した完全なサブフィールドを持っているが、最近のディープラーニングトラフィック予測モデルは、この機能を欠いているか、その実用性を制限する特定の仮定をしている。 本稿では,前回の時間ステップの測定値から密度を推定するためにトレーニングされた時空間ニューラルネットワークであるquantile graph wavenetを提案する。 この密度推定法はニューラルネットワークによって完全にパラメータ化され, 内部では近似値を用いない。 量子損失関数は非対称であり、スキュード密度をモデル化することができる。 このアプローチはモンテカルロ・ドロップアウトのような推論中にサンプリングする必要がない不確実性推定を生成するため,本手法も効率的である。

Many traffic prediction applications rely on uncertainty estimates instead of the mean prediction. Statistical traffic prediction literature has a complete subfield devoted to uncertainty modelling, but recent deep learning traffic prediction models either lack this feature or make specific assumptions that restrict its practicality. We propose Quantile Graph Wavenet, a Spatio-Temporal neural network that is trained to estimate a density given the measurements of previous timesteps, conditioned on a quantile. Our method of density estimation is fully parameterised by our neural network and does not use a likelihood approximation internally. The quantile loss function is asymmetric and this makes it possible to model skewed densities. This approach produces uncertainty estimates without the need to sample during inference, such as in Monte Carlo Dropout, which makes our method also efficient.
翻訳日:2021-05-16 06:06:33 公開日:2020-12-09
# (参考訳) ニューラルネットワークにおける結合問題について

On the Binding Problem in Artificial Neural Networks ( http://arxiv.org/abs/2012.05208v1 )

ライセンス: CC BY-SA 4.0
Klaus Greff, Sjoerd van Steenkiste, J\"urgen Schmidhuber(参考訳) 現代のニューラルネットワークは、人間のレベルの一般化にはまだ不足しています。 本稿では,この欠点の根底にある原因として,ネットワーク全体に分散する情報を動的かつ柔軟に結合できないことを挙げる。 この結合問題は、シンボルのような実体(オブジェクトなど)の観点から世界の構成的理解を得る能力に影響を与え、予測可能で体系的な方法の一般化に不可欠である。 この問題に対処するため,非構造化感覚入力から有意義な実体を形成(分離)し,情報分離を表現レベル(表現)で維持し,それらの実体を用いて新たな推論,予測,行動(構成)を構築するための統合フレームワークを提案する。 我々の分析は神経科学と認知心理学の豊富な研究からインスピレーションを得ており、機械学習の文献から関連するメカニズムを調査し、ニューラルネットワークに象徴的な情報処理が自然に現れるように誘導バイアスの組み合わせを特定するのに役立つ。 我々は,人間レベルの一般化を実現する上で,AIに対する構成的アプローチが基本的重要性であると考えており,本論文が参照とインスピレーションとしてその目標に寄与することを願っている。

Contemporary neural networks still fall short of human-level generalization, which extends far beyond our direct experiences. In this paper, we argue that the underlying cause for this shortcoming is their inability to dynamically and flexibly bind information that is distributed throughout the network. This binding problem affects their capacity to acquire a compositional understanding of the world in terms of symbol-like entities (like objects), which is crucial for generalizing in predictable and systematic ways. To address this issue, we propose a unifying framework that revolves around forming meaningful entities from unstructured sensory inputs (segregation), maintaining this separation of information at a representational level (representation), and using these entities to construct new inferences, predictions, and behaviors (composition). Our analysis draws inspiration from a wealth of research in neuroscience and cognitive psychology, and surveys relevant mechanisms from the machine learning literature, to help identify a combination of inductive biases that allow symbolic information processing to emerge naturally in neural networks. We believe that a compositional approach to AI, in terms of grounded symbol-like representations, is of fundamental importance for realizing human-level generalization, and we hope that this paper may contribute towards that goal as a reference and inspiration.
翻訳日:2021-05-16 06:00:28 公開日:2020-12-09
# (参考訳) Sparse tropical matrix factorization によるデータの埋め込みと予測

Data embedding and prediction by sparse tropical matrix factorization ( http://arxiv.org/abs/2012.05210v1 )

ライセンス: CC BY-SA 4.0
Amra Omanovi\'c, Hilal Kazan, Polona Oblak and Toma\v{z} Curk(参考訳) 行列分解法は線形モデルであり、複素関係をモデル化する能力は限られている。 本研究では,熱帯セミリングを用いて行列分解モデルに非線形性を導入する。 本研究では,sparse tropical matrix factorization (stmf) という手法を提案する。 The Cancer Genome Atlas (TCGA)データベースからダウンロードした遺伝子発現測定の形式で、合成データと生物データの両方に対するSTMF法の効率を評価する。 その結果, STMF近似は非負行列分解 (NMF) よりも高い相関性を示し, パターンを効果的に回復できないことがわかった。 実データでは、stmfは9つの遺伝子発現データセットのうち6つでnmfを上回る。 NMFは正規分布を仮定し平均値に向かう傾向にあるが、STMFは極端な値や分布に適合する。 STMFはスパースデータに熱帯セミリングを用いた最初の研究である。 あるケースでは、半環は構造を考えるため有用であり、これは標準線型代数と異なる、より理解しやすい構造である。

Matrix factorization methods are linear models, with limited capability to model complex relations. In our work, we use tropical semiring to introduce non-linearity into matrix factorization models. We propose a method called Sparse Tropical Matrix Factorization (STMF) for the estimation of missing (unknown) values. We evaluate the efficiency of the STMF method on both synthetic data and biological data in the form of gene expression measurements downloaded from The Cancer Genome Atlas (TCGA) database. Tests on unique synthetic data showed that STMF approximation achieves a higher correlation than non-negative matrix factorization (NMF), which is unable to recover patterns effectively. On real data, STMF outperforms NMF on six out of nine gene expression datasets. While NMF assumes normal distribution and tends toward the mean value, STMF can better fit to extreme values and distributions. STMF is the first work that uses tropical semiring on sparse data. We show that in certain cases semirings are useful because they consider the structure, which is different and simpler to understand than it is with standard linear algebra.
翻訳日:2021-05-16 05:59:26 公開日:2020-12-09
# (参考訳) GANにおける空間誘導バイアスとしての位置符号化 [全文訳有]

Positional Encoding as Spatial Inductive Bias in GANs ( http://arxiv.org/abs/2012.05217v1 )

ライセンス: CC BY 4.0
Rui Xu, Xintao Wang, Kai Chen, Bolei Zhou, Chen Change Loy(参考訳) SinGANは、効果的な受容野が限られているにもかかわらず、内部パッチの分布を学習する能力を示す。 このような変換不変な畳み込み生成器が空間的i.d.で大域構造を捉えることができるのかを知ることに興味がある。 入力。 本研究は,SinGANとStyleGAN2を例として,発電機にゼロパディングを使用する場合の暗黙的な位置エンコーディングによって,その能力が大きく向上することを示す。 このような位置符号化は、忠実度の高い画像を生成するのに不可欠である。 同様の現象はDCGANやPGGANといった他の遺伝子構造でも見られる。 さらに, ゼロパディングは, 位置間のあいまいな関係で不均衡な空間バイアスをもたらすことを示す。 より優れた空間誘導バイアスを与えるために、代替位置エンコーディングを調査し、その効果を分析する。 より柔軟な位置符号化を明記した新しいマルチスケールトレーニング戦略を提案し,その効果を現状の無条件生成器stylegan2で実証する。 さらに、空間誘導バイアスにより、より汎用的な画像操作のためのSinGANが大幅に向上する。

SinGAN shows impressive capability in learning internal patch distribution despite its limited effective receptive field. We are interested in knowing how such a translation-invarian t convolutional generator could capture the global structure with just a spatially i.i.d. input. In this work, taking SinGAN and StyleGAN2 as examples, we show that such capability, to a large extent, is brought by the implicit positional encoding when using zero padding in the generators. Such positional encoding is indispensable for generating images with high fidelity. The same phenomenon is observed in other generative architectures such as DCGAN and PGGAN. We further show that zero padding leads to an unbalanced spatial bias with a vague relation between locations. To offer a better spatial inductive bias, we investigate alternative positional encodings and analyze their effects. Based on a more flexible positional encoding explicitly, we propose a new multi-scale training strategy and demonstrate its effectiveness in the state-of-the-art unconditional generator StyleGAN2. Besides, the explicit spatial inductive bias substantially improve SinGAN for more versatile image manipulation.
翻訳日:2021-05-16 05:58:27 公開日:2020-12-09
# (参考訳) 不完全データを用いたベイズネットワーク学習におけるハードとソフトem [全文訳有]

Hard and Soft EM in Bayesian Network Learning from Incomplete Data ( http://arxiv.org/abs/2012.05269v1 )

ライセンス: CC BY 4.0
Andrea Ruggieri, Francesco Stranieri, Fabio Stella and Marco Scutari(参考訳) 不完全データは、臨床試験から産業応用まで、多くの領域で一般的な特徴である。 ベイズネットワーク(BN)は、グラフィカルな解釈と因果的な解釈のため、これらの領域でよく使用される。 不完全データからのBNパラメータ学習は通常、信条伝搬を用いて関連する十分な統計量(ソフトEM)を計算する期待最大化アルゴリズム(EM)で実装される。 同様に、構造期待最大化アルゴリズム (Structural EM) は完全なデータ用に設計されたアルゴリズムを用いてBNのネットワーク構造を学習する。 しかし、パラメータと構造学習の実際的な実装は、実装の容易さと計算速度の両方のため、信念伝播を使う代わりに十分な統計を計算するために不足したデータ("hard em")を暗示することが多い。 本稿では,提案するBNの質に対する信念の伝播ではなく,インパルスの使用による影響について検討する。 合成データと参照bnsを用いたシミュレーション研究から,データの特徴に基づいた複数のシナリオにおいて,一方のアプローチを他方よりも推奨することが可能であることが判明した。 次に,この問題に最も適したemアルゴリズムの選択を実践者に指導するために,この情報を用いて簡単な決定木を構築する。

Incomplete data are a common feature in many domains, from clinical trials to industrial applications. Bayesian networks (BNs) are often used in these domains because of their graphical and causal interpretations. BN parameter learning from incomplete data is usually implemented with the Expectation-Maximisa tion algorithm (EM), which computes the relevant sufficient statistics ("soft EM") using belief propagation. Similarly, the Structural Expectation-Maximisa tion algorithm (Structural EM) learns the network structure of the BN from those sufficient statistics using algorithms designed for complete data. However, practical implementations of parameter and structure learning often impute missing data ("hard EM") to compute sufficient statistics instead of using belief propagation, for both ease of implementation and computational speed. In this paper, we investigate the question: what is the impact of using imputation instead of belief propagation on the quality of the resulting BNs? From a simulation study using synthetic data and reference BNs, we find that it is possible to recommend one approach over the other in several scenarios based on the characteristics of the data. We then use this information to build a simple decision tree to guide practitioners in choosing the EM algorithm best suited to their problem.
翻訳日:2021-05-16 05:35:09 公開日:2020-12-09
# (参考訳) 構文依存型mBERT埋め込みを用いた言語間単語センスの曖昧化 [全文訳有]

Cross-lingual Word Sense Disambiguation using mBERT Embeddings with Syntactic Dependencies ( http://arxiv.org/abs/2012.05300v1 )

ライセンス: CC BY 4.0
Xingran Zhu(参考訳) 言語間の単語感覚の曖昧さ (WSD) は、与えられた文脈にまたがるあいまいな単語の曖昧さに対処する。 事前学習されたBERT埋め込みモデルは、単語の文脈情報を抽出するのに有効であることが証明されており、多くの最先端のWSDシステムに機能として組み込まれている。 構文情報がbert組込みにどのように追加され、意味論と構文に組み込まれた単語組込みの両方をもたらすかを調べるため、本プロジェクトは、依存関係パースtresを生成し、単語の相対関係を入力組込みにエンコードすることで、連結組込みを提案する。 連結埋め込みのサイズを減らすための2つの方法も提案されている。 実験の結果,構文を組み込んだ組込みの高次元化が分類課題の障害となり,今後の研究でさらに対応する必要があることが示された。

Cross-lingual word sense disambiguation (WSD) tackles the challenge of disambiguating ambiguous words across languages given context. The pre-trained BERT embedding model has been proven to be effective in extracting contextual information of words, and have been incorporated as features into many state-of-the-art WSD systems. In order to investigate how syntactic information can be added into the BERT embeddings to result in both semantics- and syntax-incorporated word embeddings, this project proposes the concatenated embeddings by producing dependency parse tress and encoding the relative relationships of words into the input embeddings. Two methods are also proposed to reduce the size of the concatenated embeddings. The experimental results show that the high dimensionality of the syntax-incorporated embeddings constitute an obstacle for the classification task, which needs to be further addressed in future studies.
翻訳日:2021-05-16 05:20:09 公開日:2020-12-09
# (参考訳) データスパースNLUにおけるアノテーション付きデータ拡張のための生成逆ネットワーク [全文訳有]

Generative Adversarial Networks for Annotated Data Augmentation in Data Sparse NLU ( http://arxiv.org/abs/2012.05302v1 )

ライセンス: CC BY 4.0
Olga Golovneva and Charith Peris(参考訳) データ空間は自然言語理解(NLU)における対話エージェントのモデル開発に関連する重要な課題の1つである。 この課題は、教師付き学習に一般的に必要とされる高品質な注釈付き発話の要求によってより複雑にされ、通常、数週間の手動労働と高いコストをもたらす。 本稿では,GAN(Sequential Generative Adversarial Network)を用いたトレーニングデータ拡張によるNLUモデルの性能向上について述べる。 我々は、新しい言語のブートストラップと低リソース機能の処理という2つのタスクのコンテキストでデータ生成を探求する。 両方のタスクに対して,トークンレベルの報酬関数を備えたアーキテクチャ,トークンレベルのモンテカルロロールアウト報酬を独自に実装したアーキテクチャ,文レベルの報酬を持つアーキテクチャの3つについて検討する。 我々は,これらのフィードバックモデルの性能を複数のサンプリング手法で評価し,その結果を比較して,元のデータを同じスケールにアップサンプリングする。 我々は,事前学習した組込みの転送学習により,ganモデルの性能をさらに向上させる。 本実験により, 逐次生成逆数ネットワークを用いて生成した合成データにより, 複数の指標間で大きな性能向上が達成され, NLUタスクにとって大きなメリットとなることがわかった。

Data sparsity is one of the key challenges associated with model development in Natural Language Understanding (NLU) for conversational agents. The challenge is made more complex by the demand for high quality annotated utterances commonly required for supervised learning, usually resulting in weeks of manual labor and high cost. In this paper, we present our results on boosting NLU model performance through training data augmentation using a sequential generative adversarial network (GAN). We explore data generation in the context of two tasks, the bootstrapping of a new language and the handling of low resource features. For both tasks we explore three sequential GAN architectures, one with a token-level reward function, another with our own implementation of a token-level Monte Carlo rollout reward, and a third with sentence-level reward. We evaluate the performance of these feedback models across several sampling methodologies and compare our results to upsampling the original data to the same scale. We further improve the GAN model performance through the transfer learning of the pretrained embeddings. Our experiments reveal synthetic data generated using the sequential generative adversarial network provides significant performance boosts across multiple metrics and can be a major benefit to the NLU tasks.
翻訳日:2021-05-16 05:11:32 公開日:2020-12-09
# (参考訳) バレット分節に対する教師なし逆行性ドメイン適応 [全文訳有]

Unsupervised Adversarial Domain Adaptation For Barrett's Segmentation ( http://arxiv.org/abs/2012.05316v1 )

ライセンス: CC BY 4.0
Numan Celik, Soumya Gupta, Sharib Ali, Jens Rittscher(参考訳) バレット食道(barrett's oesophagus, be)は食道癌の早期発見例である。 BE患者をモニターし、そのリスクを最小化するためにアブレーション療法を行い、BE領域を正確に同定する。 自動セグメンテーションは臨床内科医がbe領域をより正確に評価し治療するのに役立つ。 BEの内視鏡像は、従来の白色光(WL)モードに加えて、複数のモードを含むことができる。 監視されたモデルは、トレーニングデータにすべてのデータ変数を組み込んだ大量の手動アノテーションを必要とする。 しかし、手動アノテーションを生成するのは面倒で面倒で退屈で労働集約的な作業になり、さらにモダリティ特有の専門知識が必要です。 本研究では,教師なしドメイン適応手法(UDA)を適用し,この問題を軽減することを目的とする。 ここで、udaは白色光内視鏡像をソースドメインとして訓練し、ターゲットドメインとして異なる撮像モード、すなわち狭帯域イメージングと、酢酸後wlイメージングのセグメンテーションを一般化するためによく適応している。 我々のデータセットは、ソースドメインとターゲットドメインの両方からなる合計851の画像で構成されています。 提案手法は従来の教師付きU-Netセグメンテーションよりも10%近く優れており,Diceの類似度係数と交叉オーバ・ユニオンの両面で優れていた。

Barrett's oesophagus (BE) is one of the early indicators of esophageal cancer. Patients with BE are monitored and undergo ablation therapies to minimise the risk, thereby making it eminent to identify the BE area precisely. Automated segmentation can help clinical endoscopists to assess and treat BE area more accurately. Endoscopy imaging of BE can include multiple modalities in addition to the conventional white light (WL) modality. Supervised models require large amount of manual annotations incorporating all data variability in the training data. However, it becomes cumbersome, tedious and labour intensive work to generate manual annotations, and additionally modality specific expertise is required. In this work, we aim to alleviate this problem by applying an unsupervised domain adaptation technique (UDA). Here, UDA is trained on white light endoscopy images as source domain and are well-adapted to generalise to produce segmentation on different imaging modalities as target domain, namely narrow band imaging and post acetic-acid WL imaging. Our dataset consists of a total of 871 images consisting of both source and target domains. Our results show that the UDA-based approach outperforms traditional supervised U-Net segmentation by nearly 10% on both Dice similarity coefficient and intersection-over-un ion.
翻訳日:2021-05-16 04:58:44 公開日:2020-12-09
# (参考訳) 原子分解相コントラスト透過電子顕微鏡像における複雑な特徴の深層学習分割 [全文訳有]

Deep Learning Segmentation of Complex Features in Atomic-Resolution Phase Contrast Transmission Electron Microscopy Images ( http://arxiv.org/abs/2012.05322v1 )

ライセンス: CC BY 4.0
Robbie Sadre, Colin Ophus, Anstasiia Butko, and Gunther H Weber(参考訳) 位相コントラスト透過電子顕微鏡(TEM)は材料の局所原子構造をイメージングするための強力なツールである。 TEMは、高線量効率のため単層グラフェンのような2次元材料の欠陥構造の研究に広く用いられている。 しかし、位相コントラストイメージングは弱い散乱サンプルであっても複雑な非線形コントラストを生成することができる。 したがって、従来の画像処理ツールを用いて位相コントラストTEM研究のための完全自動解析ルーチンを開発することは困難である。 グラフェンの大規模な試料領域の自動解析には、関心の構造と表面汚染層のような望ましくない構造との間のセグメンテーションが問題となる。 本研究では,従来のブラッグフィルタ法の性能を,U-Netアーキテクチャに基づくディープラーニングルーチンと比較する。 深層学習法は, より汎用的で, より簡単に適用でき, 従来のアルゴリズムよりも精度が高く, 頑健な結果が得られることを示す。 本稿では,全結果に適応可能なソースコードを提供し,完全自動TEM画像解析における深層学習の可能性について論じる。

Phase contrast transmission electron microscopy (TEM) is a powerful tool for imaging the local atomic structure of materials. TEM has been used heavily in studies of defect structures of 2D materials such as monolayer graphene due to its high dose efficiency. However, phase contrast imaging can produce complex nonlinear contrast, even for weakly-scattering samples. It is therefore difficult to develop fully-automated analysis routines for phase contrast TEM studies using conventional image processing tools. For automated analysis of large sample regions of graphene, one of the key problems is segmentation between the structure of interest and unwanted structures such as surface contaminant layers. In this study, we compare the performance of a conventional Bragg filtering method to a deep learning routine based on the U-Net architecture. We show that the deep learning method is more general, simpler to apply in practice, and produces more accurate and robust results than the conventional algorithm. We provide easily-adaptable source code for all results in this paper, and discuss potential applications for deep learning in fully-automated TEM image analysis.
翻訳日:2021-05-16 04:50:09 公開日:2020-12-09
# (参考訳) ランドマークと生成敵ネットワークからの顔形態攻撃の脆弱性解析 [全文訳有]

Vulnerability Analysis of Face Morphing Attacks from Landmarks and Generative Adversarial Networks ( http://arxiv.org/abs/2012.05344v1 )

ライセンス: CC BY 4.0
Eklavya Sarkar, Pavel Korshunov, Laurent Colbois, S\'ebastien Marcel(参考訳) モーフィング攻撃は生体認証システムにとって脅威であり、生体認証文書内の生体認証参照を変更することができる。 この種の攻撃は、境界セキュリティやアクセス制御といったIDドキュメントに依存するアプリケーションにおいて重要な問題となる。 顔変形攻撃検出の研究は急速に進んでいるが、いくつかの攻撃形態を持つデータセットは公開されていない。 本稿では, opencv, facemorpher, webmorph, and generative adversarial network (stylegan) に基づいて,3つの公開顔データセットから生成した顔画像を基にした,4種類のモーフィング攻撃を行う新たなデータセットを提供することで,このギャップを埋める。 また,facenet,vgg-face,ar cfaceなど,最先端の顔認識システムの脆弱性を評価するための広範な実験を行った。 実験により、VGG-FaceはFaceNetに比べて精度が低いが、モルヒネ攻撃に対する脆弱性も低いことが示された。 また,スタイルガンで生成したna\"ive morphsは大きな脅威をもたらさないことを観察した。

Morphing attacks is a threat to biometric systems where the biometric reference in an identity document can be altered. This form of attack presents an important issue in applications relying on identity documents such as border security or access control. Research in face morphing attack detection is developing rapidly, however very few datasets with several forms of attacks are publicly available. This paper bridges this gap by providing a new dataset with four different types of morphing attacks, based on OpenCV, FaceMorpher, WebMorph and a generative adversarial network (StyleGAN), generated with original face images from three public face datasets. We also conduct extensive experiments to assess the vulnerability of the state-of-the-art face recognition systems, notably FaceNet, VGG-Face, and ArcFace. The experiments demonstrate that VGG-Face, while being less accurate face recognition system compared to FaceNet, is also less vulnerable to morphing attacks. Also, we observed that na\"ive morphs generated with a StyleGAN do not pose a significant threat.
翻訳日:2021-05-16 03:20:06 公開日:2020-12-09
# (参考訳) data and its (dis)contents: 機械学習研究におけるデータセットの開発と利用に関する調査 [全文訳有]

Data and its (dis)contents: A survey of dataset development and use in machine learning research ( http://arxiv.org/abs/2012.05345v1 )

ライセンス: CC BY 4.0
Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily Denton, Alex Hanna(参考訳) データセットは機械学習研究の発展に基礎的な役割を果たしてきた。 それらは、私たちが設計しデプロイするモデルの基礎となり、ベンチマークと評価のための主要な媒体を形成します。 さらに、これらのデータセットを収集、構築、共有する方法は、フィールドが追求する問題の種類とアルゴリズム開発で探究した手法を知らせる。 しかし、近年の研究は、データセットの収集と利用における主要なプラクティスの限界を明らかにしている。 本稿では,機械学習におけるデータの収集と利用に関する多くの懸念を調査し,この分野の実用的,倫理的な問題に対処するためには,より慎重で徹底的なデータ理解が必要であることを提唱する。

Datasets have played a foundational role in the advancement of machine learning research. They form the basis for the models we design and deploy, as well as our primary medium for benchmarking and evaluation. Furthermore, the ways in which we collect, construct and share these datasets inform the kinds of problems the field pursues and the methods explored in algorithm development. However, recent work from a breadth of perspectives has revealed the limitations of predominant practices in dataset collection and use. In this paper, we survey the many concerns raised about the way we collect and use data in machine learning and advocate that a more cautious and thorough understanding of data is necessary to address several of the practical and ethical issues of the field.
翻訳日:2021-05-16 03:09:08 公開日:2020-12-09
# (参考訳) 多解像核融合を用いた深部畳み込みニューラルネットワークによる薄肉スミア画像からのマラリアの自動診断 [全文訳有]

Automatic Diagnosis of Malaria from Thin Blood Smear Images using Deep Convolutional Neural Network with Multi-Resolution Feature Fusion ( http://arxiv.org/abs/2012.05350v1 )

ライセンス: CC BY 4.0
Tanvir Mahmud and Shaikh Anowarul Fattah(参考訳) 致命的な病気であるマラリアは、毎年何百万人もの人に感染し、損傷が起こる前に適切な治療の早期診断を求める。 本稿では, 多様な受容領域から抽出した特徴の効率的な最適化を行うことにより, 薄型スミア画像からのマラリアの診断を高速化するエンド・ツー・エンドの深層学習手法を提案する。 第一に、DilationNetと呼ばれる効率的でスケーラブルなディープニューラルネットワークが提案され、異なる受容領域から特徴を抽出するために、畳み込みの拡散率の変化によって大きなスペクトルの特徴を取り入れている。 次に、画像の解像度の異なるディレーションネットの異なる形態を独立に最適化するために使用される受容領域のバリエーションを導入するために、生画像を様々な解像度に再サンプリングする。 その後、異なるレベルの観測に基づいて個別に訓練されたネットワークの特徴空間を最適化するために、提案したDeepFusionNetアーキテクチャで特徴融合方式が導入された。 画像の解像度の異なる空間的特徴を抽出するために最適化された各種DilationNetの畳み込み層を直接転送し、任意の画像から可変特徴空間を提供する。 その後、DeepFusionNetでこれらの空間的特徴の合同最適化を行い、サンプル画像の最も関連性の高い表現を抽出する。 このスキームは、観察レベルを変化させて特徴空間を広範囲に探索し、異常を正確に診断する機会を提供する。 公開データセットでの激しい実験は、他の最先端のアプローチよりも99.5%以上の精度で優れたパフォーマンスを示している。

Malaria, a life-threatening disease, infects millions of people every year throughout the world demanding faster diagnosis for proper treatment before any damages occur. In this paper, an end-to-end deep learning-based approach is proposed for faster diagnosis of malaria from thin blood smear images by making efficient optimizations of features extracted from diversified receptive fields. Firstly, an efficient, highly scalable deep neural network, named as DilationNet, is proposed that incorporates features from a large spectrum by varying dilation rates of convolutions to extract features from different receptive areas. Next, the raw images are resampled to various resolutions to introduce variations in the receptive fields that are used for independently optimizing different forms of DilationNet scaled for different resolutions of images. Afterward, a feature fusion scheme is introduced with the proposed DeepFusionNet architecture for jointly optimizing the feature space of these individually trained networks operating on different levels of observations. All the convolutional layers of various forms of DilationNets that are optimized to extract spatial features from different resolutions of images are directly transferred to provide a variegated feature space from any image. Later, joint optimization of these spatial features is carried out in the DeepFusionNet to extract the most relevant representation of the sample image. This scheme offers the opportunity to explore the feature space extensively by varying the observation level to accurately diagnose the abnormality. Intense experimentations on a publicly available dataset show outstanding performance with accuracy over 99.5% outperforming other state-of-the-art approaches.
翻訳日:2021-05-16 02:45:54 公開日:2020-12-09
# 視覚・言語ナビゲーションのためのトランスフォーマーによるトポロジカルプランニング

Topological Planning with Transformers for Vision-and-Language Navigation ( http://arxiv.org/abs/2012.05292v1 )

ライセンス: Link先を確認
Kevin Chen, Junshen K. Chen, Jo Chuang, Marynel V\'azquez, Silvio Savarese(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)への従来のアプローチはエンドツーエンドで訓練されているが、自由に移動可能な環境ではうまく機能しない。 ロボットコミュニティに触発されて,vln のトポロジカルマップを用いたモジュラーアプローチを提案する。 自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。 プランは低レベルのアクション(例)で実行される。 前方、回転) 頑丈なコントローラーを使って。 実験により,本手法は従来のエンドツーエンド手法よりも優れ,解釈可能なナビゲーション計画を生成し,バックトラッキングなどのインテリジェントな動作を示す。

Conventional approaches to vision-and-language navigation (VLN) are trained end-to-end but struggle to perform well in freely traversable environments. Inspired by the robotics community, we propose a modular approach to VLN using topological maps. Given a natural language instruction and topological map, our approach leverages attention mechanisms to predict a navigation plan in the map. The plan is then executed with low-level actions (e.g. forward, rotate) using a robust controller. Experiments show that our method outperforms previous end-to-end approaches, generates interpretable navigation plans, and exhibits intelligent behaviors such as backtracking.
翻訳日:2021-05-16 02:17:55 公開日:2020-12-09
# マルチレベル融合による運転行動説明

Driving Behavior Explanation with Multi-level Fusion ( http://arxiv.org/abs/2012.04983v1 )

ライセンス: Link先を確認
H\'edi Ben-Younes and \'Eloi Zablocki and Patrick P\'erez and Matthieu Cord(参考訳) 自動運転車の活発な開発の時代において、運転システムに彼らの決定を説明する能力を与えることが重要となる。 本研究は、車両の走行時に高レベル運転説明を生成することに焦点を当てる。 本稿では,軌道予測モデルの振る舞いを説明する深いアーキテクチャであるBehavior Explanation with Fusionについて,BEEFを提案する。 BEEFは、人間の運転判断の正当化のアノテーションによって監督され、複数のレベルから機能を融合することを学ぶ。 近年の多モード融合文献の進歩を活用して、BEEFは高レベル決定特徴と中レベル知覚特徴との相関を慎重にモデル化するように設計されている。 このアプローチの柔軟性と効率性は、HDDおよびBDD-Xデータセットに関する広範な実験によって検証される。

In this era of active development of autonomous vehicles, it becomes crucial to provide driving systems with the capacity to explain their decisions. In this work, we focus on generating high-level driving explanations as the vehicle drives. We present BEEF, for BEhavior Explanation with Fusion, a deep architecture which explains the behavior of a trajectory prediction model. Supervised by annotations of human driving decisions justifications, BEEF learns to fuse features from multiple levels. Leveraging recent advances in the multi-modal fusion literature, BEEF is carefully designed to model the correlations between high-level decisions features and mid-level perceptual features. The flexibility and efficiency of our approach are validated with extensive experiments on the HDD and BDD-X datasets.
翻訳日:2021-05-16 02:17:12 公開日:2020-12-09
# テキスト分類モデル強化のためのラベル混乱学習

Label Confusion Learning to Enhance Text Classification Models ( http://arxiv.org/abs/2012.04987v1 )

ライセンス: Link先を確認
Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu(参考訳) 真のラベルを1ホットベクトルとして表現することは、テキスト分類モデルのトレーニングにおいて一般的なプラクティスである。 しかし、一方のホット表現は、ラベルが完全に独立したものではなく、実際に複数のラベルに関連づけられるため、インスタンスとラベルの関係を適切に反映していない可能性がある。 特に混乱したデータセット(非常に類似したラベル付きデータセット)やノイズの多いデータセット(ラベル付きエラー付きデータセット)では、モデルに任意の予測とモデルオーバーフィットをもたらす可能性がある。 ラベル平滑化(ls)を用いたトレーニングモデルはこの問題をある程度緩和するが、ラベル間の現実的な関係を捉えられていない。 本稿では,現在普及しているテキスト分類モデルの強化要素として,新しいラベル融合モデル(LCM)を提案する。 LCMはラベルの混乱を学習し、トレーニング中にインスタンスとラベルの類似性を計算し、元の1ホットラベルベクトルを置き換えるためのより良いラベル分布を生成することにより、ラベル間のセマンティックオーバーラップを捉えることができる。 5つのテキスト分類ベンチマークデータセットの大規模な実験は、広く使われているディープラーニング分類モデルに対するLCMの有効性を明らかにする。 さらなる実験により、lcmは特に混乱または騒がしいデータセットに役立ち、ラベル平滑化法よりも優れていることが確かめられた。

Representing a true label as a one-hot vector is a common practice in training text classification models. However, the one-hot representation may not adequately reflect the relation between the instances and labels, as labels are often not completely independent and instances may relate to multiple labels in practice. The inadequate one-hot representations tend to train the model to be over-confident, which may result in arbitrary prediction and model overfitting, especially for confused datasets (datasets with very similar labels) or noisy datasets (datasets with labeling errors). While training models with label smoothing (LS) can ease this problem in some degree, it still fails to capture the realistic relation among labels. In this paper, we propose a novel Label Confusion Model (LCM) as an enhancement component to current popular text classification models. LCM can learn label confusion to capture semantic overlap among labels by calculating the similarity between instances and labels during training and generate a better label distribution to replace the original one-hot label vector, thus improving the final classification performance. Extensive experiments on five text classification benchmark datasets reveal the effectiveness of LCM for several widely used deep learning classification models. Further experiments also verify that LCM is especially helpful for confused or noisy datasets and superior to the label smoothing method.
翻訳日:2021-05-16 02:16:40 公開日:2020-12-09
# トラヒックビデオデータに基づくランプ計測のための深層強化学習手法

A Deep Reinforcement Learning Approach for Ramp Metering Based on Traffic Video Data ( http://arxiv.org/abs/2012.12104v1 )

ライセンス: Link先を確認
Bing Liu (1), Yu Tang (2), Yuxiong Ji (1), Yu Shen (1), and Yuchuan Du (1) ((1) Key Laboratory of Road and Traffic Engineering of the Ministry of Education, Tongji University, Shanghai, China, (2) Tandon School of Engineering, New York University, New York, USA)(参考訳) オンランプからの車両の流れを規制するために交通信号を使用するランプメータリングは、高速道路の車両移動性を改善するために広く実装されている。 従来の研究では、交通量や占有率などのポイント検出器によって収集された事前定義された交通手段に基づいて、信号タイミングをリアルタイムで更新する。 ポイント検出器と比較して、道路網にますます配備されている交通カメラは、より大きなエリアをカバーし、より詳細な交通情報を提供する。 本研究では,ランプメータリングの効率を向上させるために,トラヒックビデオデータの可能性を探究する深層強化学習(drl)手法を提案する。 提案手法は,交通映像フレームを入力とし,高次元視覚入力から直接最適な制御戦略を学習する。 実世界のケーススタディでは,提案手法と比較すると,1) メインラインでの走行時間の短縮,2) オンランプでの車列の短縮,3) マージ領域の下流での交通流の増大といった結果が得られた。 提案手法は,映像データから有用な情報を抽出し,ランプメータ制御を改善することができることを示唆する。

Ramp metering that uses traffic signals to regulate vehicle flows from the on-ramps has been widely implemented to improve vehicle mobility of the freeway. Previous studies generally update signal timings in real-time based on predefined traffic measures collected by point detectors, such as traffic volumes and occupancies. Comparing with point detectors, traffic cameras-which have been increasingly deployed on road networks-could cover larger areas and provide more detailed traffic information. In this work, we propose a deep reinforcement learning (DRL) method to explore the potential of traffic video data in improving the efficiency of ramp metering. The proposed method uses traffic video frames as inputs and learns the optimal control strategies directly from the high-dimensional visual inputs. A real-world case study demonstrates that, in comparison with a state-of-the-practic e method, the proposed DRL method results in 1) lower travel times in the mainline, 2) shorter vehicle queues at the on-ramp, and 3) higher traffic flows downstream of the merging area. The results suggest that the proposed method is able to extract useful information from the video data for better ramp metering controls.
翻訳日:2021-05-16 02:15:40 公開日:2020-12-09
# NSL: ノイズの多い生データによるハイブリッド解釈型学習

NSL: Hybrid Interpretable Learning From Noisy Raw Data ( http://arxiv.org/abs/2012.05023v1 )

ライセンス: Link先を確認
Daniel Cunnington, Alessandra Russo, Mark Law, Jorge Lobo, Lance Kaplan(参考訳) インダクティブ論理プログラミング(ILP)システムは、既存のバックグラウンド知識を利用したデータ効率のよいルールを一般化し、解釈する。 しかし、現在のilpシステムは、構造化論理形式で指定するトレーニングサンプルを必要とする。 ニューラルネットワークは非構造化データから学習するが、学習したモデルは解釈が難しく、実行時のデータ摂動に弱い可能性がある。 本稿では,ラベル付き非構造化データから解釈可能なルールを学習するNSLという,ハイブリッドなニューラルシンボリック学習フレームワークを提案する。 NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。 ニューラルコンポーネントによって抽出された特徴はラベル付きサンプルの構造的コンテキストを定義し、ニューラル予測の信頼性はサンプルのノイズレベルを決定する。 FastLASのスコアリング関数を用いて、NSLはそのようなノイズのある例を一般化する短い解釈可能な規則を探索する。 MNISTデータセットを生データとして,命題・一階分類タスクの枠組みを評価する。 具体的には、ニューラルネットワークやランダム森林ベースラインと比較して、より汎用的で解釈可能でありながら、NSLが摂動MNISTデータから堅牢なルールを学習し、同等または優れた精度を達成できることを実証する。

Inductive Logic Programming (ILP) systems learn generalised, interpretable rules in a data-efficient manner utilising existing background knowledge. However, current ILP systems require training examples to be specified in a structured logical format. Neural networks learn from unstructured data, although their learned models may be difficult to interpret and are vulnerable to data perturbations at run-time. This paper introduces a hybrid neural-symbolic learning framework, called NSL, that learns interpretable rules from labelled unstructured data. NSL combines pre-trained neural networks for feature extraction with FastLAS, a state-of-the-art ILP system for rule learning under the answer set semantics. Features extracted by the neural components define the structured context of labelled examples and the confidence of the neural predictions determines the level of noise of the examples. Using the scoring function of FastLAS, NSL searches for short, interpretable rules that generalise over such noisy examples. We evaluate our framework on propositional and first-order classification tasks using the MNIST dataset as raw data. Specifically, we demonstrate that NSL is able to learn robust rules from perturbed MNIST data and achieve comparable or superior accuracy when compared to neural network and random forest baselines whilst being more general and interpretable.
翻訳日:2021-05-16 02:14:45 公開日:2020-12-09
# 一段階計算によるKNN分類

KNN Classification with One-step Computation ( http://arxiv.org/abs/2012.06047v1 )

ライセンス: Link先を確認
Shichao Zhang and Jiaye Li(参考訳) KNN分類は、KNN分類の遅延部分を参照して、適切なK値を設定し、K近傍の隣人をトレーニングサンプル空間全体から検索するテストデータが予測された場合にのみ実行される、即興学習モードのクエリトリガである。 この遅延部分は、KNN分類を適用する際のボトルネック問題である。 本稿では,KNN分類の遅延部分を置き換える一段階計算を提案する。 1ステップの計算は、実際に遅延部分を以下の行列計算に変換する。 テストデータが与えられると、まずトレーニングサンプルを適用して、テストデータを最小二乗損失関数に適合させる。 そして、試験データへの影響に応じてすべてのトレーニングサンプルを重み付けして関係マトリックスを生成する。 最後に、関係行列のスパース学習を行うためにグループラッソを用いる。 このようにして、K値の設定とK近傍の探索はどちらも統一計算に統合される。 さらに,一段階のKNN分類の性能向上のために,新たな分類規則を提案する。 提案手法を実験的に評価し,一段階のKNN分類が効率的かつ有望であることを示した。

KNN classification is a query triggered yet improvisational learning mode, in which they are carried out only when a test data is predicted that set a suitable K value and search the K nearest neighbors from the whole training sample space, referred them to the lazy part of KNN classification. This lazy part has been the bottleneck problem of applying KNN classification. In this paper, a one-step computation is proposed to replace the lazy part of KNN classification. The one-step computation actually transforms the lazy part to a matrix computation as follows. Given a test data, training samples are first applied to fit the test data with the least squares loss function. And then, a relationship matrix is generated by weighting all training samples according to their influence on the test data. Finally, a group lasso is employed to perform sparse learning of the relationship matrix. In this way, setting K value and searching K nearest neighbors are both integrated to a unified computation. In addition, a new classification rule is proposed for improving the performance of one-step KNN classification. The proposed approach is experimentally evaluated, and demonstrated that the one-step KNN classification is efficient and promising.
翻訳日:2021-05-16 02:14:23 公開日:2020-12-09
# 長期水力発電スケジューリングのための深層強化学習

Deep Reinforcement Learning for Long Term Hydropower Production Scheduling ( http://arxiv.org/abs/2012.06312v1 )

ライセンス: Link先を確認
Signe Riemer-Sorensen, Gjert H. Rosenlund(参考訳) 我々は,水力発電の長期スケジューリングのための戦略を提供するため,深層強化学習の利用について検討する。 貯水池への毎週の流入と電力価格に対する年間収入を最適化することを目的としたユースケースを検討する。 課題は、電気のスポット価格での即時放水と、システムに制約があるため、後の発電のために水を未知の価格で保存することを決定することである。 我々は,北欧電力市場の歴史的データを用いて,簡易なシナリオでソフトアクター批判アルゴリズムのトレーニングに成功した。 提案モデルは,従来の最適化ツールを代替する準備ができていないが,データ豊富な水力スケジューリング分野における強化学習の補完的可能性を示す。

We explore the use of deep reinforcement learning to provide strategies for long term scheduling of hydropower production. We consider a use-case where the aim is to optimise the yearly revenue given week-by-week inflows to the reservoir and electricity prices. The challenge is to decide between immediate water release at the spot price of electricity and storing the water for later power production at an unknown price, given constraints on the system. We successfully train a soft actor-critic algorithm on a simplified scenario with historical data from the Nordic power market. The presented model is not ready to substitute traditional optimisation tools but demonstrates the complementary potential of reinforcement learning in the data-rich field of hydropower scheduling.
翻訳日:2021-05-16 02:14:07 公開日:2020-12-09
# リモートセンシング画像におけるカーネル異常変化検出

Kernel Anomalous Change Detection for Remote Sensing Imagery ( http://arxiv.org/abs/2012.04920v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on-Hidalgo and Valero Laparra and Nathan Longbotham and Gustau Camps-Valls(参考訳) 異常変化検出(ACD)はリモートセンシング画像処理において重要な問題である。 広汎性だけでなく、異常あるいは極端な変化の検出には、方法論が利用可能である多くの応用がある。 本稿では,異常変動検出器の完全ファミリーの非線形拡張を紹介する。 特に、ガウス分布と楕円型(ec)分布を利用したアルゴリズムに着目し、それらをカーネルのヒルベルト空間を再現する理論に基づいて非線形対応に拡張する。 本稿では,AVIRIS,Sentinel-2,W orldView-2,Quickbird などの多スペクトル・ハイパースペクトル画像における実・模擬変化を伴う広帯域およびACDの両問題で導入されたカーネル手法の性能について述べる。 干ばつ、山火事、都市化など、様々な状況が実例で研究されている。 線形定式化と比較して検出精度の面で優れた性能を達成し,検出精度の向上と偽アラーム率の低減を実現した。 結果は、EC仮定がヒルベルト空間でまだ有効であることを示している。 このアルゴリズムの実装と,実際のシナリオにおける自然な異常な変更のデータベースを提供する。

Anomalous change detection (ACD) is an important problem in remote sensing image processing. Detecting not only pervasive but also anomalous or extreme changes has many applications for which methodologies are available. This paper introduces a nonlinear extension of a full family of anomalous change detectors. In particular, we focus on algorithms that utilize Gaussian and elliptically contoured (EC) distribution and extend them to their nonlinear counterparts based on the theory of reproducing kernels' Hilbert space. We illustrate the performance of the kernel methods introduced in both pervasive and ACD problems with real and simulated changes in multispectral and hyperspectral imagery with different resolutions (AVIRIS, Sentinel-2, WorldView-2, and Quickbird). A wide range of situations is studied in real examples, including droughts, wildfires, and urbanization. Excellent performance in terms of detection accuracy compared to linear formulations is achieved, resulting in improved detection accuracy and reduced false-alarm rates. Results also reveal that the EC assumption may be still valid in Hilbert spaces. We provide an implementation of the algorithms as well as a database of natural anomalous changes in real scenarios http://isp.uv.es/kac d.html.
翻訳日:2021-05-16 02:13:55 公開日:2020-12-09
# 繰り返しアーキテクチャのスケーラブルなニューラルタンジェントカーネル

Scalable Neural Tangent Kernel of Recurrent Architectures ( http://arxiv.org/abs/2012.04859v1 )

ライセンス: Link先を確認
Sina Alemohammad, Randall Balestriero, Zichao Wang, Richard Baraniuk(参考訳) 無限幅のディープニューラルネットワーク(DNN)から派生したカーネルは、機械学習タスクの範囲におけるハイパフォーマンスだけでなく、DNNトレーニングダイナミクスと一般化に関する新たな理論的洞察を提供する。 本稿では、従来の単純なRNNのみに派生したリカレントニューラルネットワーク(RNN)に関連するカーネルのファミリーを、平均プーリングを備えた双方向のRNNおよびRNNであるより複雑なアーキテクチャに拡張する。 また、その完全な実用可能性を活用するために、高速GPU実装も開発しています。 通常、RNNは時系列データにのみ適用されるが、RNNベースのカーネルを用いた分類器は、UCIデータレポジトリから90の非時系列データセットのベースラインメソッドよりも優れていることを示す。

Kernels derived from deep neural networks (DNNs) in the infinite-width provide not only high performance in a range of machine learning tasks but also new theoretical insights into DNN training dynamics and generalization. In this paper, we extend the family of kernels associated with recurrent neural networks (RNNs), which were previously derived only for simple RNNs, to more complex architectures that are bidirectional RNNs and RNNs with average pooling. We also develop a fast GPU implementation to exploit its full practical potential. While RNNs are typically only applied to time-series data, we demonstrate that classifiers using RNN-based kernels outperform a range of baseline methods on 90 non-time-series datasets from the UCI data repository.
翻訳日:2021-05-16 02:13:41 公開日:2020-12-09
# ガウス過程モデルにおける不確かさと誤差の解消

Disentangling Derivatives, Uncertainty and Error in Gaussian Process Models ( http://arxiv.org/abs/2012.04947v1 )

ライセンス: Link先を確認
Juan Emmanuel Johnson and Valero Laparra and Gustau Camps-Valls(参考訳) ガウス過程(英: Gaussian Processes, GP)は、地球科学の応用において非常に有用なカーネル手法のクラスである。 それらは単純で柔軟であり、特にパラメータ検索において非線形問題に対して非常に正確な推定を提供するため、広く利用されている。 予測平均関数に加えて、GPには、予測に対する信頼区間を提供する予測分散関数という有用な性質が備わっている。 GPの定式化は、通常、トレーニングやテストポイントに入力ノイズが存在しないと仮定する。 しかし、機器エラーの正確な評価が通常可能である地球観測問題ではそうではないことが多い。 本稿では, 温度予測問題において, GPモデルの導関数を用いて, 解析的誤差伝搬の定式化を行い, 予測誤差と伝播誤差項を赤外音響データから解析する方法について述べる。

Gaussian Processes (GPs) are a class of kernel methods that have shown to be very useful in geoscience applications. They are widely used because they are simple, flexible and provide very accurate estimates for nonlinear problems, especially in parameter retrieval. An addition to a predictive mean function, GPs come equipped with a useful property: the predictive variance function which provides confidence intervals for the predictions. The GP formulation usually assumes that there is no input noise in the training and testing points, only in the observations. However, this is often not the case in Earth observation problems where an accurate assessment of the instrument error is usually available. In this paper, we showcase how the derivative of a GP model can be used to provide an analytical error propagation formulation and we analyze the predictive variance and the propagated error terms in a temperature prediction problem from infrared sounding data.
翻訳日:2021-05-16 02:13:29 公開日:2020-12-09
# 断面人口データによる確率力学系の推定

Inference of Stochastic Dynamical Systems from Cross-Sectional Population Data ( http://arxiv.org/abs/2012.05055v1 )

ライセンス: Link先を確認
Anastasios Tsourtis, Yannis Pantazis, Ioannis Tsamardinos(参考訳) 生物化学、疫学、金融数学、その他多くの科学分野において、個体群や時間経過データから力学系の駆動方程式を推測することは重要である。 軌道計測から力学を学習するアルゴリズムが存在するにもかかわらず、人口データから直接力学系を推測する試みはほとんどない。 本研究では,確率密度の変化を記述するフォッカー・プランク方程式を確率微分方程式に基づいて推定し,計算的に推定する。 そして、USDLアプローチに従って、Fokker-Planck方程式を適切なテスト関数の集合に投影し、方程式の線形系に変換する。 最後に,後者の系の解法にスパース推論法を適用し,力学系の駆動力を誘導する。 本手法は, 非線形, マルチモーダル確率微分方程式, 生化学的反応ネットワーク, 質量サイトメトリー生物学的測定など, 合成データと実データの両方で示される。

Inferring the driving equations of a dynamical system from population or time-course data is important in several scientific fields such as biochemistry, epidemiology, financial mathematics and many others. Despite the existence of algorithms that learn the dynamics from trajectorial measurements there are few attempts to infer the dynamical system straight from population data. In this work, we deduce and then computationally estimate the Fokker-Planck equation which describes the evolution of the population's probability density, based on stochastic differential equations. Then, following the USDL approach, we project the Fokker-Planck equation to a proper set of test functions, transforming it into a linear system of equations. Finally, we apply sparse inference methods to solve the latter system and thus induce the driving forces of the dynamical system. Our approach is illustrated in both synthetic and real data including non-linear, multimodal stochastic differential equations, biochemical reaction networks as well as mass cytometry biological measurements.
翻訳日:2021-05-16 02:13:13 公開日:2020-12-09
# ラベル雑音による学習のためのトポロジカルフィルタ

A Topological Filter for Learning with Label Noise ( http://arxiv.org/abs/2012.04835v1 )

ライセンス: Link先を確認
Pengxiang Wu, Songzhu Zheng, Mayank Goswami, Dimitris Metaxas, Chao Chen(参考訳) ノイズラベルはディープニューラルネットワークの性能を損なう可能性がある。 そこで本研究では,ラベルノイズをフィルタリングする新しい手法を提案する。 ノイズのある分類器の後方確率に依存する既存の手法とは異なり、潜在表現空間におけるデータのよりリッチな空間的挙動に焦点をあてる。 データの高次トポロジ情報を活用することで,クリーンなデータの大部分を収集し,高品質なモデルをトレーニングすることが可能になります。 理論的には、このトポロジカルアプローチは、高い確率でクリーンなデータを集めることが保証されている。 実験結果から,本手法は最先端技術より優れ,騒音の種類やレベルが広い範囲で高いことを示す。

Noisy labels can impair the performance of deep neural networks. To tackle this problem, in this paper, we propose a new method for filtering label noise. Unlike most existing methods relying on the posterior probability of a noisy classifier, we focus on the much richer spatial behavior of data in the latent representational space. By leveraging the high-order topological information of data, we are able to collect most of the clean data and train a high-quality model. Theoretically we prove that this topological approach is guaranteed to collect the clean data with high probability. Empirical results show that our method outperforms the state-of-the-arts and is robust to a broad spectrum of noise types and levels.
翻訳日:2021-05-16 02:12:39 公開日:2020-12-09
# 極性ganを用いたクラス不均衡の除去 : 不確実性サンプリングアプローチ

Removing Class Imbalance using Polarity-GAN: An Uncertainty Sampling Approach ( http://arxiv.org/abs/2012.04937v1 )

ライセンス: Link先を確認
Kumari Deepshikha and Anugunj Naman(参考訳) クラス不均衡は、従来のモデルと同様にディープラーニングモデルの実用的な分類問題において難しい問題である。 合成オーバーサンプリングのような伝統的に成功した対策は、深層学習モデルによって処理される複雑な構造化データに対して限定的に成功した。 本稿では,ジェネレータネットワークg,判別器ネットワークd,分類器ネットワークcを備えた生成型逆ネットワーク(gan)を用いて,視覚データセットのクラス不均衡を取り除くことを提案する。 ジェネレータネットワークはオートエンコーダで初期化して安定させる。 判別器Dは、G が不均衡クラスのクラス分布に従属することを保証する。 従来,min-maxゲームにおいてg生成器が判別器dと競合する手法では,元のネットワークにさらに分類器ネットワークを追加することを提案する。 現在、ジェネレータネットワークは、私たちが導入した新しい分類器と同様に、識別器とmin-maxゲームで競おうとしています。 生成ネットワークGに追加条件を適用して、所望の不均衡クラスの凸内包に点を生成する。 さらに、逆ゲームと分類器Cとの競合は、Gによって学習された条件分布を各クラスの周辺へ押し付け、クラス不均衡の問題を補償する。 実験的証拠は、この初期化がネットワークの安定したトレーニングをもたらすことを示している。 FashionMNIST, MNIST, SVHN, ExDark, MVTec 異常検出データセット, Chest X-Ray データセットなどにおいて, 極端視覚的分類タスクにおけるアートパフォーマンスの実態を報告する。

Class imbalance is a challenging issue in practical classification problems for deep learning models as well as for traditional models. Traditionally successful countermeasures such as synthetic over-sampling have had limited success with complex, structured data handled by deep learning models. In this work, we propose to use a Generative Adversarial Network (GAN) equipped with a generator network G, a discriminator network D and a classifier network C to remove the class-imbalance in visual data sets. The generator network is initialized with auto-encoder to make it stable. The discriminator D ensures that G adheres to class distribution of imbalanced class. In conventional methods, where Generator G competes with discriminator D in a min-max game, we propose to further add an additional classifier network to the original network. Now, the generator network tries to compete in a min-max game with Discriminator as well as the new classifier that we have introduced. An additional condition is enforced on generator network G to produce points in the convex hull of desired imbalanced class. Further the contention of adversarial game with classifier C, pushes conditional distribution learned by G towards the periphery of the respective class, compensating the problem of class imbalance. Experimental evidence shows that this initialization results in stable training of the network. We achieve state of the art performance on extreme visual classification task on the FashionMNIST, MNIST, SVHN, ExDark, MVTec Anomaly Detection dataset, Chest X-Ray dataset and others.
翻訳日:2021-05-16 02:12:27 公開日:2020-12-09
# 潜在空間中毒による配電敵攻撃の発生

Generating Out of Distribution Adversarial Attack using Latent Space Poisoning ( http://arxiv.org/abs/2012.05027v1 )

ライセンス: Link先を確認
Ujjwal Upadhyay and Prerana Mukherjee(参考訳) 従来の敵攻撃は、ネットワークの勾配によって生じる摂動に依存しており、一般的には勾配誘導探索によって保護される。 本稿では,実際の画像が破損せず,その潜在空間表現が,知覚的品質を損なうことなく画像の固有構造を改ざんし,正当なデータサンプルとして機能する,敵対的例を生成する新しいメカニズムを提案する。 勾配に基づく攻撃とは対照的に、潜伏空間中毒は分類器の傾きを利用して訓練データセットの独立かつ同一の分布をモデル化し、分布サンプルから生成することでそれを騙す。 乱れた変分オートエンコーダ (beta-vae) を訓練して潜在空間におけるデータをモデル化し, 対象ラベルに誤分類されるという制約の下で, クラス条件分布関数を用いた雑音摂動を潜在空間に付加する。 mnist,svhn,celebaデータセットを用いた実験結果から,ロバストなl_0,l_2,l_infノルム分類器がロバストな防御機構を用いて設計されていることを検証した。

Traditional adversarial attacks rely upon the perturbations generated by gradients from the network which are generally safeguarded by gradient guided search to provide an adversarial counterpart to the network. In this paper, we propose a novel mechanism of generating adversarial examples where the actual image is not corrupted rather its latent space representation is utilized to tamper with the inherent structure of the image while maintaining the perceptual quality intact and to act as legitimate data samples. As opposed to gradient-based attacks, the latent space poisoning exploits the inclination of classifiers to model the independent and identical distribution of the training dataset and tricks it by producing out of distribution samples. We train a disentangled variational autoencoder (beta-VAE) to model the data in latent space and then we add noise perturbations using a class-conditioned distribution function to the latent space under the constraint that it is misclassified to the target label. Our empirical results on MNIST, SVHN, and CelebA dataset validate that the generated adversarial examples can easily fool robust l_0, l_2, l_inf norm classifiers designed using provably robust defense mechanisms.
翻訳日:2021-05-16 02:12:04 公開日:2020-12-09
# MetaInfoNet: サンプル再重み付けのためのタスクガイド情報学習

MetaInfoNet: Learning Task-Guided Information for Sample Reweighting ( http://arxiv.org/abs/2012.05273v1 )

ライセンス: Link先を確認
Hongxin Wei, Lei Feng, Rundong Wang, Bo An(参考訳) ディープニューラルネットワークは、ラベルノイズやクラス不均衡を伴うバイアス付きトレーニングデータに容易に適合することが示されている。 メタ学習アルゴリズムは、サンプル重み付けの形でこの問題を緩和するために、トレーニング損失を入力として受け取り、サンプル重み付けを生成するメタ重み付けネットワークを学習することによって、一般的に設計されている。 本稿では,メタ重み付けネットワークの適切な入力を選択することが,特定のタスクにおいて望ましいサンプル重み付けに不可欠である一方で,トレーニング損失が必ずしも正しい答えではないことを主張する。 そこで本研究では,タスク関連情報を情報ボトルネック戦略で強調することにより,メタ重み付けネットワークの入力として効果的な表現を自動的に学習するメタ情報ネットを提案する。 ラベルノイズやクラス不均衡を伴うベンチマークデータセットの広範な実験の結果は、metainfonetが多くの最先端メソッドよりも優れていることを検証している。

Deep neural networks have been shown to easily overfit to biased training data with label noise or class imbalance. Meta-learning algorithms are commonly designed to alleviate this issue in the form of sample reweighting, by learning a meta weighting network that takes training losses as inputs to generate sample weights. In this paper, we advocate that choosing proper inputs for the meta weighting network is crucial for desired sample weights in a specific task, while training loss is not always the correct answer. In view of this, we propose a novel meta-learning algorithm, MetaInfoNet, which automatically learns effective representations as inputs for the meta weighting network by emphasizing task-related information with an information bottleneck strategy. Extensive experimental results on benchmark datasets with label noise or class imbalance validate that MetaInfoNet is superior to many state-of-the-art methods.
翻訳日:2021-05-16 02:11:45 公開日:2020-12-09
# 多スペクトル画像雲マスキングのための畳み込みニューラルネットワーク

Convolutional Neural Networks for Multispectral Image Cloud Masking ( http://arxiv.org/abs/2012.05325v1 )

ライセンス: Link先を確認
Gonzalo Mateo-Garc\'ia, Luis G\'omez-Chova, Gustau Camps-Valls(参考訳) 畳み込みニューラルネットワーク(CNN)は多くの画像分類タスクの最先端技術であることが証明されており、その利用はリモートセンシング問題において急速に増加している。 彼らの大きな強みの1つは、十分なデータが利用できる場合、CNNはカスタムフィーチャ抽出メソッドを必要とせずにエンドツーエンドの学習を実行することである。 本研究では,Proba-Vマルチスペクトル画像のクラウドマスキングにおける異なるCNNアーキテクチャの利用について検討する。 このような手法を,特徴抽出と教師付き分類に基づくより古典的な機械学習手法と比較する。 実験結果は、CNNがクラウドマスキング問題を解決するための有望な代替手段であることを示唆している。

Convolutional neural networks (CNN) have proven to be state of the art methods for many image classification tasks and their use is rapidly increasing in remote sensing problems. One of their major strengths is that, when enough data is available, CNN perform an end-to-end learning without the need of custom feature extraction methods. In this work, we study the use of different CNN architectures for cloud masking of Proba-V multispectral images. We compare such methods with the more classical machine learning approach based on feature extraction plus supervised classification. Experimental results suggest that CNN are a promising alternative for solving cloud masking problems.
翻訳日:2021-05-16 02:11:29 公開日:2020-12-09
# 模倣学習を用いたビデオ符号化のためのニューラルレート制御

Neural Rate Control for Video Encoding using Imitation Learning ( http://arxiv.org/abs/2012.05339v1 )

ライセンス: Link先を確認
Hongzi Mao, Chenjie Gu, Miaosen Wang, Angie Chen, Nevena Lazic, Nir Levine, Derek Pang, Rene Claus, Marisabel Hechtman, Ching-Han Chiang, Cheng Chen, Jingning Han(参考訳) 現代のビデオエンコーダでは、レート制御は重要なコンポーネントであり、非常に設計されている。 各フレームのエンコードに費やすビット数を決定し、全てのビデオフレームに対するレートゆがみのトレードオフを最適化する。 これは、異なるビデオフレームの決定とエピソードの最後に定義されたビットレートの制約の間の複雑な依存関係のため、困難な制約付き計画問題である。 我々は、このレート制御問題を部分観測可能なマルコフ決定プロセス(POMDP)として定式化し、模倣学習を適用してニューラルレート制御ポリシーを学習する。 進化戦略によって得られた最適なビデオ符号化軌跡から学習することにより,我々は学習したポリシーにより符号化効率が向上し,制約違反を最小限に抑えることを実証する。 最適行動の模倣に加えて, 追加の補助的損失, データの増大・縮小, 推論時の政策改善が, 良好な利率制御政策の学習に不可欠であることが判明した。 広範に採用されているオープンソースのVP9コーデックライブラリlibvpxの2パス可変ビットレート(VBR)モードにおいて、レート制御ポリシーに対する学習ポリシーを評価する。 実世界のビデオの多様なセットにおいて、学習方針はビデオ品質を犠牲にすることなく8.5%の中央値ビットレート削減を実現している。

In modern video encoders, rate control is a critical component and has been heavily engineered. It decides how many bits to spend to encode each frame, in order to optimize the rate-distortion trade-off over all video frames. This is a challenging constrained planning problem because of the complex dependency among decisions for different video frames and the bitrate constraint defined at the end of the episode. We formulate the rate control problem as a Partially Observable Markov Decision Process (POMDP), and apply imitation learning to learn a neural rate control policy. We demonstrate that by learning from optimal video encoding trajectories obtained through evolution strategies, our learned policy achieves better encoding efficiency and has minimal constraint violation. In addition to imitating the optimal actions, we find that additional auxiliary losses, data augmentation/refinem ent and inference-time policy improvements are critical for learning a good rate control policy. We evaluate the learned policy against the rate control policy in libvpx, a widely adopted open source VP9 codec library, in the two-pass variable bitrate (VBR) mode. We show that over a diverse set of real-world videos, our learned policy achieves 8.5% median bitrate reduction without sacrificing video quality.
翻訳日:2021-05-16 02:11:20 公開日:2020-12-09
# 意味セグメンテーションにおける外分布検出のためのエントロピー最大化とメタ分類

Entropy Maximization and Meta Classification for Out-Of-Distribution Detection in Semantic Segmentation ( http://arxiv.org/abs/2012.06575v1 )

ライセンス: Link先を確認
Robin Chan, Matthias Rottmann, Hanno Gottschalk(参考訳) イメージの意味セグメンテーションのためのディープニューラルネットワーク(dnn)は通常、事前に定義されたオブジェクトクラスのクローズドセットを操作するように訓練される。 これは、DNNがデプロイされる「オープンワールド」設定とは対照的である。 機能的安全性の観点からは、DNNのセマンティック空間外のオブジェクトであるいわゆる"out-of-distriion&quo t;(OoD)サンプルを検出する能力は、自動運転のような多くのアプリケーションにとって不可欠である。 ood検出に対する自然なベースラインアプローチは、ピクセル単位のソフトマックスエントロピーのしきい値である。 そのアプローチを大幅に改善する2段階の手順を提案する。 まず、COCOデータセットのサンプルをOoDプロキシとして利用し、これらのサンプルのソフトマックスエントロピーを最大化するための第2のトレーニング目標を導入する。 事前トレーニングされたセマンティックセグメンテーションネットワークから、異なる分散データセット上で多数のDNNを再トレーニングし、完全に非結合なOoDデータセットを評価する際に、改善されたOoD検出性能を継続的に観察する。 次に,「メタ分類」と呼ばれる偽陽性のoodサンプルを廃棄するための透明な後処理ステップを行う。 この目的のために、DNNのソフトマックス確率から導かれる手作りメトリクスの集合に線形モデルを適用する。 私たちの実験では、最良のベースラインと結果を比較する際に、検出エラーの数を最大52%削減することで、ood検出性能のさらなる向上を一貫して観察しています。 この改善は、オリジナルセグメンテーションのパフォーマンスにおいて、わずかに損なわれる。 そこで本手法は,より信頼性の高いシステム性能を持つDNNに寄与する。

Deep neural networks (DNNs) for the semantic segmentation of images are usually trained to operate on a predefined closed set of object classes. This is in contrast to the "open world" setting where DNNs are envisioned to be deployed to. From a functional safety point of view, the ability to detect so-called "out-of-distribution& quot; (OoD) samples, i.e., objects outside of a DNN's semantic space, is crucial for many applications such as automated driving. A natural baseline approach to OoD detection is to threshold on the pixel-wise softmax entropy. We present a two-step procedure that significantly improves that approach. Firstly, we utilize samples from the COCO dataset as OoD proxy and introduce a second training objective to maximize the softmax entropy on these samples. Starting from pretrained semantic segmentation networks we re-train a number of DNNs on different in-distribution datasets and consistently observe improved OoD detection performance when evaluating on completely disjoint OoD datasets. Secondly, we perform a transparent post-processing step to discard false positive OoD samples by so-called "meta classification". To this end, we apply linear models to a set of hand-crafted metrics derived from the DNN's softmax probabilities. In our experiments we consistently observe a clear additional gain in OoD detection performance, cutting down the number of detection errors by up to 52% when comparing the best baseline with our results. We achieve this improvement sacrificing only marginally in original segmentation performance. Therefore, our method contributes to safer DNNs with more reliable overall system performance.
翻訳日:2021-05-16 02:10:59 公開日:2020-12-09
# Sentinel-2 30mデータによる高分解能大域灌水予測

High-resolution global irrigation prediction with Sentinel-2 30m data ( http://arxiv.org/abs/2012.07658v1 )

ライセンス: Link先を確認
Weixin (Angela) Wu, Sonal Thakkar, Will Hawkins, Hossein Vahabi, Alberto Todeschini(参考訳) 地球規模の灌水利用の正確かつ正確な理解は、様々な気候科学の取り組みに不可欠である。 灌水は非常にエネルギー集約的であり、人口増加が現在のペースで進むにつれ、作物の需要と水利用の増加は気候変動に影響を及ぼすだろう。 精密灌水データは、特に発展途上国における水利用のモニタリングと農業収量最適化に役立つ。 降水データと連動した灌水データは、気候や気象のモデリングだけでなく、水収支の予測にも利用できる。 そこで本研究では,NDVI (Normalized Difference Vegetation Index) の時間的シグネチャの教師なしクラスタリングと降水ヒューリスティックを組み合わせて,1年ごとに各作物群集がピークとなる月をラベル付けした灌水予測モデルを構築した。 世界の作物の30m分解能灌水予測のための新しい灌水モデルとPythonパッケージ(Irrigation30)を開発した。 インドとオーストラリアに限って、NASAが出資したGFSAD30プロジェクトによって使用される資源のごく一部をクラウドソーシングした小規模の農地座標と灌水ラベルを用いて、我々のモデルは、小さなジオディバースランダムサンプリングテストセットにおいて、97 %以上の一貫性と92 %の精度で、一貫性のスコアを達成できた。

An accurate and precise understanding of global irrigation usage is crucial for a variety of climate science efforts. Irrigation is highly energy-intensive, and as population growth continues at its current pace, increases in crop need and water usage will have an impact on climate change. Precise irrigation data can help with monitoring water usage and optimizing agricultural yield, particularly in developing countries. Irrigation data, in tandem with precipitation data, can be used to predict water budgets as well as climate and weather modeling. With our research, we produce an irrigation prediction model that combines unsupervised clustering of Normalized Difference Vegetation Index (NDVI) temporal signatures with a precipitation heuristic to label the months that irrigation peaks for each cropland cluster in a given year. We have developed a novel irrigation model and Python package ("Irrigation30") to generate 30m resolution irrigation predictions of cropland worldwide. With a small crowdsourced test set of cropland coordinates and irrigation labels, using a fraction of the resources used by the state-of-the-art NASA-funded GFSAD30 project with irrigation data limited to India and Australia, our model was able to achieve consistency scores in excess of 97\% and an accuracy of 92\% in a small geo-diverse randomly sampled test set.
翻訳日:2021-05-16 02:10:31 公開日:2020-12-09
# リモートセンシングパラメータ推定と因果推論におけるワープガウス過程

Warped Gaussian Processes in Remote Sensing Parameter Estimation and Causal Inference ( http://arxiv.org/abs/2012.12105v1 )

ライセンス: Link先を確認
Anna Mateo-Sanchis, Jordi Mu\~noz-Mar\'i, Adri\'an P\'erez-Suay, Gustau Camps-Valls(参考訳) 本稿では,リモートセンシングアプリケーションにおけるガウス過程 (WGP) の回帰について述べる。 WGPモデルは、GPのパラメトリック非線形変換として観測を出力する。 このような事前モデルのパラメータは、標準最大確率を通じて学習される。 提案手法は,マルチスペクトルデータからの海洋クロロフィル含量の推定,高スペクトルデータからの植生パラメータ(葉緑素,葉面積指数,分画植生被覆),および28種の生物地球科学とリモートセンシング因果問題の収集における因果方向の検出において,優れた性能を示す。 このモデルは、精度と賢明な信頼区間の両方において、標準gpやより先進的なヘテロシドスティックgpモデルよりも一貫して優れた性能を発揮する。

This paper introduces warped Gaussian processes (WGP) regression in remote sensing applications. WGP models output observations as a parametric nonlinear transformation of a GP. The parameters of such prior model are then learned via standard maximum likelihood. We show the good performance of the proposed model for the estimation of oceanic chlorophyll content from multispectral data, vegetation parameters (chlorophyll, leaf area index, and fractional vegetation cover) from hyperspectral data, and in the detection of the causal direction in a collection of 28 bivariate geoscience and remote sensing causal problems. The model consistently performs better than the standard GP and the more advanced heteroscedastic GP model, both in terms of accuracy and more sensible confidence intervals.
翻訳日:2021-05-16 02:10:04 公開日:2020-12-09
# 雑音付き畳み込みニューラルネットワーク

Noise-Equipped Convolutional Neural Networks ( http://arxiv.org/abs/2012.12109v1 )

ライセンス: Link先を確認
Menghan Xia and Tien-Tsin Wong(参考訳) 一般的なモデリングツールとして、畳み込みニューラルネットワーク(CNN)は画像合成や翻訳タスクに広く利用されている。 しかし、cnnモデルに平坦な入力が供給されると、畳み込み核の空間的共有性のため、変換はスケーリング操作に分解される。 この本質的な問題は、アプリケーション制限としてほとんど研究されていない。 本稿では,このような畳み込み劣化が,フラット入力から出力される値変化を期待する特定の画像生成タスクを実際に妨げていることを指摘する。 我々はその背後にある原因を研究し、それに取り組むための汎用的な解決策を提案する。 私たちのキーとなるアイデアは、フラットな入力条件をプロキシ入力モジュールによって破り、入力データをノイズマップと対称に摂動させ、特徴領域で再組み立てすることです。 ノイズ付きcnnモデルと呼び、複数の分析を通してその挙動を研究する。 実験の結果,我々のモデルには劣化がなく,標準CNNモデルよりも優れた代替手段となることがわかった。 既存のアプリケーションにモデルを適用した場合のパフォーマンスも向上する。 セマンティックフォト合成とカラーエンコードグレースケール生成

As a generic modeling tool, Convolutional Neural Network (CNN) has been widely employed in image synthesis and translation tasks. However, when a CNN model is fed with a flat input, the transformation degrades into a scaling operation due to the spatial sharing nature of convolution kernels. This inherent problem has been barely studied nor raised as an application restriction. In this paper, we point out that such convolution degradation actually hinders some specific image generation tasks that expect value-variant output from a flat input. We study the cause behind it and propose a generic solution to tackle it. Our key idea is to break the flat input condition through a proxy input module that perturbs the input data symmetrically with a noise map and reassembles them in feature domain. We call it noise-equipped CNN model and study its behavior through multiple analysis. Our experiments show that our model is free of degradation and hence serves as a superior alternative to standard CNN models. We further demonstrate improved performances of applying our model to existing applications, e.g. semantic photo synthesis and color-encoded grayscale generation.
翻訳日:2021-05-16 02:09:52 公開日:2020-12-09
# 注意に基づくニューラルネットワークによる化学反応空間のマッピング

Mapping the Space of Chemical Reactions Using Attention-Based Neural Networks ( http://arxiv.org/abs/2012.06051v1 )

ライセンス: Link先を確認
Philippe Schwaller, Daniel Probst, Alain C. Vaucher, Vishnu H. Nair, David Kreutter, Teodoro Laino, Jean-Louis Reymond(参考訳) 有機反応は通常、類似の試薬と機構を持つ反応を含むクラスに割り当てられる。 反応クラスは複雑な概念の伝達と化学反応空間の効率的なナビゲーションを促進する。 しかし、分類プロセスは面倒な作業である。 これは反応中の分子の数、反応中心の数、反応剤と試薬の区別のアノテーションを通して対応する反応クラステンプレートを識別する必要がある。 本研究は, トランスフォーマトモデルが, 非注釈的, 単純な化学反応表現から反応クラスを推定できることを示した。 我々の最良のモデルは98.2%の分類精度に達する。 また, 従来の反応指紋よりも, 反応クラス間の細かな差異を捉えた反応指紋として, 学習された表現が利用できることを示した。 学習した指紋によって可能な化学反応空間の洞察は、視覚的クラスタリングと類似性探索を提供する対話的な反応アトラスによって示される。

Organic reactions are usually assigned to classes containing reactions with similar reagents and mechanisms. Reaction classes facilitate the communication of complex concepts and efficient navigation through chemical reaction space. However, the classification process is a tedious task. It requires the identification of the corresponding reaction class template via annotation of the number of molecules in the reactions, the reaction center, and the distinction between reactants and reagents. This work shows that transformer-based models can infer reaction classes from non-annotated, simple text-based representations of chemical reactions. Our best model reaches a classification accuracy of 98.2%. We also show that the learned representations can be used as reaction fingerprints that capture fine-grained differences between reaction classes better than traditional reaction fingerprints. The insights into chemical reaction space enabled by our learned fingerprints are illustrated by an interactive reaction atlas providing visual clustering and similarity searching.
翻訳日:2021-05-16 02:09:37 公開日:2020-12-09
# 遠隔観察による文書分類の自動化によるシステムレビューの効率化

Automating Document Classification with Distant Supervision to Increase the Efficiency of Systematic Reviews ( http://arxiv.org/abs/2012.07565v1 )

ライセンス: Link先を確認
Xiaoxiao Li, Rabah Al-Zaidy, Amy Zhang, Stefan Baral, Le Bao, C. Lee Giles(参考訳) 目的: 学術文献の体系的レビューは、しばしば研究問題に関連する文学の完全かつ徹底的な要約を提供する。 しかし、体系的なレビューは高価で、時間的需要があり、労働集約的です。 本稿では,文書のレビュー作業を大幅に削減する自動文書分類手法を提案する。 方法:まず,関連するトレーニングデータセットのキュレーションに使用する手作業による文書分類手順を記述し,次にキーワード案内法,クラスタ分析に基づく改良法,多数の特徴トークンを用いたランダムフォレストアプローチという3つの分類法を提案する。 例えば、このアプローチは、HIVまたは暴力に関連する内容を含むと思われる女性性労働者を研究する文書を特定するために用いられる。 我々は,3つの分類器の性能をクロスバリデーションで比較し,モデルのトレーニングに使用するデータ部分の感度解析を行う。 結果: ランダムフォレストアプローチは, 受信動作特性 (ROC) と精度/リコール (PR) の両面において, 曲線 (AUC) の下の最も高い領域を提供する。 精度とリコールの分析から、ランダムな森林は記事の20%を手作業でレビューし、関連する事例の80%は含んでいることが示唆された。 最後に,比較的小さなトレーニングサンプルサイズを用いて,優れた分類器を得ることができた。 結論: 要約すると、ここで提示される文書分類の自動化手順は、体系的なレビューの正確性と効率性の両方を改善し、レビューを定期的に更新するライブレビューを促進する。

Objective: Systematic reviews of scholarly documents often provide complete and exhaustive summaries of literature relevant to a research question. However, well-done systematic reviews are expensive, time-demanding, and labor-intensive. Here, we propose an automatic document classification approach to significantly reduce the effort in reviewing documents. Methods: We first describe a manual document classification procedure that is used to curate a pertinent training dataset and then propose three classifiers: a keyword-guided method, a cluster analysis-based refined method, and a random forest approach that utilizes a large set of feature tokens. As an example, this approach is used to identify documents studying female sex workers that are assumed to contain content relevant to either HIV or violence. We compare the performance of the three classifiers by cross-validation and conduct a sensitivity analysis on the portion of data utilized in training the model. Results: The random forest approach provides the highest area under the curve (AUC) for both receiver operating characteristic (ROC) and precision/recall (PR). Analyses of precision and recall suggest that random forest could facilitate manually reviewing 20\% of the articles while containing 80\% of the relevant cases. Finally, we found a good classifier could be obtained by using a relatively small training sample size. Conclusions: In sum, the automated procedure of document classification presented here could improve both the precision and efficiency of systematic reviews, as well as facilitating live reviews, where reviews are updated regularly.
翻訳日:2021-05-16 02:09:26 公開日:2020-12-09
# 概念測定の格子について

On the Lattice of Conceptual Measurements ( http://arxiv.org/abs/2012.05267v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) 本稿では,形式的な概念解析,すなわちクロージャシステム間の連続写像からスケール尺度に基づくデータセットスケーリングの新たな手法を提案し,正規表現を導出する。 さらに, スケール計測が閉包系に対して順序付けられたことを証明した。 これにより、ミートとジョイン操作を使用してスケール測定のセットを探索することができる。 さらに、スケール尺度の格子は、元のデータから生じるサブクロージャシステムの格子に同型であることを示す。 最後に,データ集合の特徴の観点で命題論理を用いた尺度の表現を提案する。 理論的知見は例によって考察する。

We present a novel approach for data set scaling based on scale-measures from formal concept analysis, i.e., continuous maps between closure systems, and derive a canonical representation. Moreover, we prove said scale-measures are lattice ordered with respect to the closure systems. This enables exploring the set of scale-measures through by the use of meet and join operations. Furthermore we show that the lattice of scale-measures is isomorphic to the lattice of sub-closure systems that arises from the original data. Finally, we provide another representation of scale-measures using propositional logic in terms of data set features. Our theoretical findings are discussed by means of examples.
翻訳日:2021-05-16 02:08:59 公開日:2020-12-09
# カーネル法による生体物理パラメータの連続回帰

Consistent regression of biophysical parameters with kernel methods ( http://arxiv.org/abs/2012.04922v1 )

ライセンス: Link先を確認
Emiliano D\'iaz, Adri\'an P\'erez-Suay, Valero Laparra, Gustau Camps-Valls(参考訳) 本稿では,一貫性制約を組み込むための新しい統計的回帰フレームワークを提案する。 線形および非線形(カーネルベース)な定式化が導入され、どちらも閉形式解析解である。 モデルは、補助的かつ保護された変数のセットから最大独立なまま、ドライバのセットからのすべての情報を利用する。 クロロフィル含量の推定における性能の解明に成功している。

This paper introduces a novel statistical regression framework that allows the incorporation of consistency constraints. A linear and nonlinear (kernel-based) formulation are introduced, and both imply closed-form analytical solutions. The models exploit all the information from a set of drivers while being maximally independent of a set of auxiliary, protected variables. We successfully illustrate the performance in the estimation of chlorophyll content.
翻訳日:2021-05-16 02:08:52 公開日:2020-12-09
# 航空画像における車両検出のための生成データ拡張

Generative Data Augmentation for Vehicle Detection in Aerial Images ( http://arxiv.org/abs/2012.04902v1 )

ライセンス: Link先を確認
Hilmi Kumdakc{\i}, Cihan \"Ong\"un, Alptekin Temizel(参考訳) トレーニングデータの不足は、大量のデータを必要とするディープネットワークの大きな問題の1つです。 データ拡張は、トレーニングサンプルの数とバリエーションを増やすために広く使われている方法である。 本稿では,航空画像における車両検出性能の向上に重点を置き,訓練データセットにおける車両オブジェクトのバウンディングボックスアノテーションよりも特別な監視を必要としない生成的拡張手法を提案する。 提案手法は,特に訓練インスタンス数が限られている場合に,検出器をより多くのインスタンスで訓練できるようにすることにより,車両検出性能を向上させる。 提案手法は,異なるジェネレータと統合できるという意味で汎用的である。 実験の結果, 数値計算とDeepFillを統合した場合, 平均精度は25.2%, 平均精度は25.7%向上した。

Scarcity of training data is one of the prominent problems for deep networks which require large amounts data. Data augmentation is a widely used method to increase the number of training samples and their variations. In this paper, we focus on improving vehicle detection performance in aerial images and propose a generative augmentation method which does not need any extra supervision than the bounding box annotations of the vehicle objects in the training dataset. The proposed method increases the performance of vehicle detection by allowing detectors to be trained with higher number of instances, especially when there are limited number of training instances. The proposed method is generic in the sense that it can be integrated with different generators. The experiments show that the method increases the Average Precision by up to 25.2% and 25.7% when integrated with Pluralistic and DeepFill respectively.
翻訳日:2021-05-16 02:08:07 公開日:2020-12-09
# unrolled highway expectation maximizationによる勾配流の改善

Improving Gradient Flow with Unrolled Highway Expectation Maximization ( http://arxiv.org/abs/2012.04926v1 )

ライセンス: Link先を確認
Chonghyuk Song, Eunseok Kim, Inwook Shim(参考訳) モデルベースの機械学習手法をディープニューラルネットワークアーキテクチャに統合することで、ディープニューラルネットワークの表現力と、モデルベースの方法がドメイン固有の知識を組み込む能力の両方を活用できる。 特に、多くの研究は期待最大化(EM)アルゴリズムを、バックボーンニューラルネットワークと共同でトレーニングされた、無転層構造として採用している。 しかし、消失する勾配問題に起因したEM繰り返しをバックプロパゲートすることで、バックボーンネットワークを識別的に訓練することは困難である。 この問題に対処するために,Newton-Rahpson法に基づく一般化EM(GEM)アルゴリズムのアンロールイテレーションからなるハイウェイ予測最大化ネットワーク(HEMNet)を提案する。 HEMNetは、非ロールアーキテクチャの深さに沿って、スケールされたスキップ接続またはハイウェイを特徴としているため、バックプロパゲーション時の勾配フローが改善され、標準の非ロールEMと比較して、無視できる計算量とメモリコストが増大する。 さらに、HEMNetは基礎となるEMプロシージャを保持し、元のEMアルゴリズムの収束特性を完全に保持する。 複数のセマンティクスセグメンテーションベンチマークで性能が大幅に向上し,ヘムネットが勾配減衰を効果的に緩和することを示す。

Integrating model-based machine learning methods into deep neural architectures allows one to leverage both the expressive power of deep neural nets and the ability of model-based methods to incorporate domain-specific knowledge. In particular, many works have employed the expectation maximization (EM) algorithm in the form of an unrolled layer-wise structure that is jointly trained with a backbone neural network. However, it is difficult to discriminatively train the backbone network by backpropagating through the EM iterations as they are prone to the vanishing gradient problem. To address this issue, we propose Highway Expectation Maximization Networks (HEMNet), which is comprised of unrolled iterations of the generalized EM (GEM) algorithm based on the Newton-Rahpson method. HEMNet features scaled skip connections, or highways, along the depths of the unrolled architecture, resulting in improved gradient flow during backpropagation while incurring negligible additional computation and memory costs compared to standard unrolled EM. Furthermore, HEMNet preserves the underlying EM procedure, thereby fully retaining the convergence properties of the original EM algorithm. We achieve significant improvement in performance on several semantic segmentation benchmarks and empirically show that HEMNet effectively alleviates gradient decay.
翻訳日:2021-05-16 02:07:56 公開日:2020-12-09
# AMVNet:LiDARセマンティックセグメンテーションのためのAssertion-based Multi-View Fusion Network

AMVNet: Assertion-based Multi-View Fusion Network for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2012.04934v1 )

ライセンス: Link先を確認
Venice Erin Liong, Thi Ngoc Tho Nguyen, Sergi Widjaja, Dhananjai Sharma, Zhuang Jie Chong(参考訳) 本稿では,遅延融合を用いた個々の投影型ネットワークの意味的特徴を集約したlidarセマンティクスセグメンテーションのためのアサーションに基づくマルチビュー融合ネットワーク(amvnet)を提案する。 異なるプロジェクションベースネットワークからのクラススコアが与えられた場合、スコア不一致に基づいてアサーション誘導ポイントサンプリングを行い、各サンプルポイントの一連の点レベル特徴を単純な点ヘッドに渡して予測を洗練させる。 このモジュラー・階層的遅延融合アプローチは、軽量ネットワークから小さなオーバーヘッドを持つ2つの独立したネットワークを持つ柔軟性を提供する。 このようなアプローチは、例えばロボットシステムに望ましい。 計算と記憶の資源が 限られている自動運転車です AMVNetはSemanticKITTIとnuScenesのベンチマークデータセットで最先端の結果が得られ,提案手法はプロジェクションベースネットワークのクラススコアを組み合わせるベースライン法よりも優れていることを示す。

In this paper, we present an Assertion-based Multi-View Fusion network (AMVNet) for LiDAR semantic segmentation which aggregates the semantic features of individual projection-based networks using late fusion. Given class scores from different projection-based networks, we perform assertion-guided point sampling on score disagreements and pass a set of point-level features for each sampled point to a simple point head which refines the predictions. This modular-and-hierarch ical late fusion approach provides the flexibility of having two independent networks with a minor overhead from a light-weight network. Such approaches are desirable for robotic systems, e.g. autonomous vehicles, for which the computational and memory resources are often limited. Extensive experiments show that AMVNet achieves state-of-the-art results in both the SemanticKITTI and nuScenes benchmark datasets and that our approach outperforms the baseline method of combining the class scores of the projection-based networks.
翻訳日:2021-05-16 02:07:34 公開日:2020-12-09
# 幾何学的接触レンダリングによる第1タッチによる触覚物体ポーズ推定

Tactile Object Pose Estimation from the First Touch with Geometric Contact Rendering ( http://arxiv.org/abs/2012.05205v1 )

ライセンス: Link先を確認
Maria Bauza, Eric Valls, Bryan Lim, Theo Sechopoulos, Alberto Rodriguez(参考訳) 本稿では,既知の物体に対する第1タッチからの触覚ポーズ推定手法を提案する。 まず、実際の触覚観測から接触形状への物体認識マップを作成する。 次に、既知の幾何を持つ新しい物体に対して、シミュレーションで完全に調整された知覚モデルを学ぶ。 そのために、センサに密集したオブジェクトのポーズが生じるような接触形状をシミュレートする。 そして,センサ出力から得られた新しい接触形状を,コントラスト学習を用いたシミュレーションにおいて純粋に学習した対象固有埋め込みを用いて,事前計算した集合と照合する。 これにより、単一の触覚観測から物体をローカライズできる知覚モデルが得られる。 また、他の知覚系や複数の接触から来る追加のポーズ制約を含む、ポーズ分布の推論も可能である。 4つの対象に対して定量的な結果を提供する。 提案手法は,異なる物体のポーズから生じる接触形状を考慮した姿勢分布を回帰しながら,触覚的観察から高精度なポーズ推定を行う。 我々は,複数の触覚センサが物体と同時に接触するマルチコンタクトシナリオにおいて,このアプローチをさらに拡張し,テストする。 Webサイト: http://mcube.mit.edu /research/tactile_lo c_first_touch.html

In this paper, we present an approach to tactile pose estimation from the first touch for known objects. First, we create an object-agnostic map from real tactile observations to contact shapes. Next, for a new object with known geometry, we learn a tailored perception model completely in simulation. To do so, we simulate the contact shapes that a dense set of object poses would produce on the sensor. Then, given a new contact shape obtained from the sensor output, we match it against the pre-computed set using the object-specific embedding learned purely in simulation using contrastive learning. This results in a perception model that can localize objects from a single tactile observation. It also allows reasoning over pose distributions and including additional pose constraints coming from other perception systems or multiple contacts. We provide quantitative results for four objects. Our approach provides high accuracy pose estimations from distinctive tactile observations while regressing pose distributions to account for those contact shapes that could result from different object poses. We further extend and test our approach in multi-contact scenarios where several tactile sensors are simultaneously in contact with the object. Website: http://mcube.mit.edu /research/tactile_lo c_first_touch.html
翻訳日:2021-05-16 02:07:15 公開日:2020-12-09
# 確率的マルチアーム帯域のストリーミングアルゴリズム

Streaming Algorithms for Stochastic Multi-armed Bandits ( http://arxiv.org/abs/2012.05142v1 )

ライセンス: Link先を確認
Arnab Maiti, Vishakha Patil, Arindam Khan(参考訳) 有界アームメモリにおける確率的マルチアームバンド問題について検討する。 この設定では、アームはストリームに到達し、いつでもメモリに格納できるアームの数は境界となる。 意思決定者は記憶にある腕だけを引っ張ることができます。 1) 後悔の最小化, 2) ベストアームの識別という2つの標準目標からこの問題に対処した。 後悔の最小化のために、我々はほとんど固い硬さを示すことで重要なオープンな疑問を解決した。 我々は、(n-1) のアームメモリサイズを期待して (Omega)(T^{2/3}) 累積後悔を示し、n はアームの数である。 ベストアーム識別には2つのアルゴリズムを検討する。 まず、o(r)アームメモリのrラウンド適応型ストリーミングアルゴリズムを示し、"epsilon}-best armを求める。 最良アーム識別のためのrラウンド適応ストリーミングアルゴリズムでは、各ラウンドのアームプルは、前ラウンドの観測結果に基づいて決定される。 最善の武器はrラウンドの終了時の出力である。 我々のアルゴリズムのサンプル複雑性の上限は、任意のrラウンド適応ストリーミングアルゴリズムの下位境界と一致する。 第2に,メモリに余分なアームを1つだけ格納することで,最適なサンプル複雑性を持つ「エプシロン」-ベストアームを見つけるヒューリスティックを提案する。

We study the Stochastic Multi-armed Bandit problem under bounded arm-memory. In this setting, the arms arrive in a stream, and the number of arms that can be stored in the memory at any time, is bounded. The decision-maker can only pull arms that are present in the memory. We address the problem from the perspective of two standard objectives: 1) regret minimization, and 2) best-arm identification. For regret minimization, we settle an important open question by showing an almost tight hardness. We show {\Omega}(T^{2/3}) cumulative regret in expectation for arm-memory size of (n-1), where n is the number of arms. For best-arm identification, we study two algorithms. First, we present an O(r) arm-memory r-round adaptive streaming algorithm to find an {\epsilon}-best arm. In r-round adaptive streaming algorithm for best-arm identification, the arm pulls in each round are decided based on the observed outcomes in the earlier rounds. The best-arm is the output at the end of r rounds. The upper bound on the sample complexity of our algorithm matches with the lower bound for any r-round adaptive streaming algorithm. Secondly, we present a heuristic to find the {\epsilon}-best arm with optimal sample complexity, by storing only one extra arm in the memory.
翻訳日:2021-05-16 02:06:59 公開日:2020-12-09
# 射影不動点方程式を解くための最適オラクル不等式

Optimal oracle inequalities for solving projected fixed-point equations ( http://arxiv.org/abs/2012.05299v1 )

ライセンス: Link先を確認
Wenlong Mou, Ashwin Pananjady, Martin J. Wainwright(参考訳) ヒルベルト空間における線形不動点方程式は、強化学習や微分方程式と積分方程式の解法を含む様々な設定で生じる。 ヒルベルト空間の既知の低次元部分空間を探索することにより、ランダムな観測の集合を用いて近似解を計算する方法を検討する。 まず,polyak-ruppert平均化を利用した線形確率近似スキームにおける平均二乗誤差のインスタンス依存上界を証明した。 この境界は、インスタンス依存近似係数を持つ近似誤差項と、低次元部分空間に投影されたときの雑音のインスタンス固有の複雑さを捉える統計的誤差項の2つの項からなる。 また,情報理論的な手法を用いて,これら2つの用語が再びインスタンス依存的な意味で改善できないことを示す下界を定式化する。 この特徴付けの具体的な結果は、この問題の最適近似係数が普遍定数よりもはるかに大きいことである。 本稿では,線形関数近似を用いた政策評価問題に対する時間差学習手法の誤差を正確に特徴付けし,その最適性を確立した。

Linear fixed point equations in Hilbert spaces arise in a variety of settings, including reinforcement learning, and computational methods for solving differential and integral equations. We study methods that use a collection of random observations to compute approximate solutions by searching over a known low-dimensional subspace of the Hilbert space. First, we prove an instance-dependent upper bound on the mean-squared error for a linear stochastic approximation scheme that exploits Polyak--Ruppert averaging. This bound consists of two terms: an approximation error term with an instance-dependent approximation factor, and a statistical error term that captures the instance-specific complexity of the noise when projected onto the low-dimensional subspace. Using information theoretic methods, we also establish lower bounds showing that both of these terms cannot be improved, again in an instance-dependent sense. A concrete consequence of our characterization is that the optimal approximation factor in this problem can be much larger than a universal constant. We show how our results precisely characterize the error of a class of temporal difference learning methods for the policy evaluation problem with linear function approximation, establishing their optimality.
翻訳日:2021-05-16 02:06:37 公開日:2020-12-09
# Burrows Delta 測定の未知のアンサーについて

On an Unknown Ancestor of Burrows' Delta Measure ( http://arxiv.org/abs/2012.04796v1 )

ライセンス: Link先を確認
Petr Plechac(参考訳) この記事では、Georgy Udny Yuleによる1944年の研究と、著者帰属への現代的なアプローチの驚くべき類似性を指摘している。

This article points out some surprising similarities between a 1944 study by Georgy Udny Yule and modern approaches to authorship attribution.
翻訳日:2021-05-16 02:06:19 公開日:2020-12-09
# 複雑な関係抽出:挑戦と機会

Complex Relation Extraction: Challenges and Opportunities ( http://arxiv.org/abs/2012.04821v1 )

ライセンス: Link先を確認
Haiyun Jiang, Qiaoben Bao, Qiao Cheng, Deqing Yang, Li Wang and Yanghua Xiao(参考訳) 関係抽出は、テキスト中のエンティティのターゲット関係を識別することを目的としている。 関係抽出は知識ベース構築とテキスト理解において非常に重要である。 従来の二項関係抽出は、教師付き、半教師付き、遠隔教師付きを含む広範囲に研究され、重要な結果が得られた。 近年,多くの複雑な関係抽出タスク,すなわち単純二項関係抽出の変種が,現実の複雑な応用を満たすために提案されている。 しかし、これらの複雑な関係抽出作業を完全に研究・要約する文献は存在しない。 本稿では,従来の単純な二項関係抽出の最近の進歩を最初に報告する。 次に,既存の複雑な関係抽出タスクを要約し,各タスクの定義,最近の進歩,課題,機会について述べる。

Relation extraction aims to identify the target relations of entities in texts. Relation extraction is very important for knowledge base construction and text understanding. Traditional binary relation extraction, including supervised, semi-supervised and distant supervised ones, has been extensively studied and significant results are achieved. In recent years, many complex relation extraction tasks, i.e., the variants of simple binary relation extraction, are proposed to meet the complex applications in practice. However, there is no literature to fully investigate and summarize these complex relation extraction works so far. In this paper, we first report the recent progress in traditional simple binary relation extraction. Then we summarize the existing complex relation extraction tasks and present the definition, recent progress, challenges and opportunities for each task.
翻訳日:2021-05-16 02:06:15 公開日:2020-12-09
# 感情対話生成のためのヘテロジニアスグラフニューラルネットワークを用いた多元知識の活用

Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional Conversation Generation ( http://arxiv.org/abs/2012.04882v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Ying Zhang, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) 感情会話システムの成功は、十分な知覚と感情の適切な表現に依存する。 実世界の会話では、まず対話履歴、表情、話者の個性などの多元的情報から感情を本能的に知覚し、その後、我々の個性に応じて適切な感情を表現するが、これらの多種類の情報は感情的な会話分野において不十分に活用される。 そこで本研究では,感情対話生成のための不均一グラフモデルを提案する。 具体的には、異種グラフニューラルネットワークを用いて会話内容(対話履歴、感情の流れ、表情、話者の個性)を表現し、フィードバックに適した感情を予測するための異種グラフベースエンコーダを設計する。 その後、エンコードされたグラフ表現、エンコーダからの予測された感情、現在の話者のパーソナリティを入力として、会話コンテキストだけでなく適切な感情にも関連した応答を生成するために感情パーソナリティ認識デコーダを用いる。 実験結果から,本モデルがマルチソース知識から感情を効果的に知覚し,満足な応答を生成できることが示唆された。

The success of emotional conversation systems depends on sufficient perception and appropriate expression of emotions. In a real-world conversation, we firstly instinctively perceive emotions from multi-source information, including the emotion flow of dialogue history, facial expressions, and personalities of speakers, and then express suitable emotions according to our personalities, but these multiple types of information are insufficiently exploited in emotional conversation fields. To address this issue, we propose a heterogeneous graph-based model for emotional conversation generation. Specifically, we design a Heterogeneous Graph-Based Encoder to represent the conversation content (i.e., the dialogue history, its emotion flow, facial expressions, and speakers' personalities) with a heterogeneous graph neural network, and then predict suitable emotions for feedback. After that, we employ an Emotion-Personality- Aware Decoder to generate a response not only relevant to the conversation context but also with appropriate emotions, by taking the encoded graph representations, the predicted emotions from the encoder and the personality of the current speaker as inputs. Experimental results show that our model can effectively perceive emotions from multi-source knowledge and generate a satisfactory response, which significantly outperforms previous state-of-the-art models.
翻訳日:2021-05-16 02:06:03 公開日:2020-12-09
# マルチターンテキスト-SQLセマンティックパーシングのためのトラッキングインタラクション状態

Tracking Interaction States for Multi-Turn Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2012.04995v1 )

ライセンス: Link先を確認
Run-Ze Wang, Zhen-Hua Ling, Jing-Bo Zhou, Yu Hu(参考訳) マルチターンテキストからSQLへのセマンティック解析のタスクは、対話中の自然言語の発話をSQLクエリに変換して、通常複数のテーブルスキーマを含むデータベースを使用して答えることを目的としている。 このタスクの以前の研究は、通常、文脈情報を利用して発話表現を豊かにし、復号プロセスにさらに影響を及ぼす。 履歴SQLクエリによって決定され、現在の発話の意図と関連する相互作用状態の記述と追跡は無視されている。 本稿では,スキーマ項目とsqlキーワードを分離して,2種類のインタラクション状態を定義する。 関係グラフニューラルネットワークと非線形層は、2つの状態の表現をそれぞれ更新するように設計されている。 動的スキーマ状態とSQL状態表現を使用して、現在の発話に対応するSQLクエリをデコードする。 cosqlデータセットに挑戦する実験結果は,提案手法の有効性を示し,タスクリーダボード上の他の公開手法よりも優れた性能を実現する。

The task of multi-turn text-to-SQL semantic parsing aims to translate natural language utterances in an interaction into SQL queries in order to answer them using a database which normally contains multiple table schemas. Previous studies on this task usually utilized contextual information to enrich utterance representations and to further influence the decoding process. While they ignored to describe and track the interaction states which are determined by history SQL queries and are related with the intent of current utterance. In this paper, two kinds of interaction states are defined based on schema items and SQL keywords separately. A relational graph neural network and a non-linear layer are designed to update the representations of these two states respectively. The dynamic schema-state and SQL-state representations are then utilized to decode the SQL query corresponding to current utterance. Experimental results on the challenging CoSQL dataset demonstrate the effectiveness of our proposed method, which achieves better performance than other published methods on the task leaderboard.
翻訳日:2021-05-16 02:05:41 公開日:2020-12-09
# フィンランドにおけるスウェーデン方言の正規化

Normalization of Different Swedish Dialects Spoken in Finland ( http://arxiv.org/abs/2012.05318v1 )

ライセンス: Link先を確認
Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar(参考訳) 本研究は,6地域にわたる異なるフィンランド語スウェーデン方言の方言正規化手法を提案する。 5つの異なるモデルをテストし、最良のモデルは単語誤り率を76.45から28.58に改善した。 フィンランドの方言に関する以前の研究で報告された結果とは対照的に、一度に一つの単語でモデルを訓練することは最良の結果となった。 これはモデルで利用可能なトレーニングデータのサイズによるものだと考えています。 私たちのモデルはPythonパッケージとしてアクセスできます。 この研究は、異なる文脈におけるこれらの手法の適応性に関する重要な情報を提供し、さらなる研究のための重要なベースラインを提供する。

Our study presents a dialect normalization method for different Finland Swedish dialects covering six regions. We tested 5 different models, and the best model improved the word error rate from 76.45 to 28.58. Contrary to results reported in earlier research on Finnish dialects, we found that training the model with one word at a time gave best results. We believe this is due to the size of the training data available for the model. Our models are accessible as a Python package. The study provides important information about the adaptability of these methods in different contexts, and gives important baselines for further study.
翻訳日:2021-05-16 02:05:26 公開日:2020-12-09
# 絶滅危惧言語と絶滅危惧言語に対する音声認識

Speech Recognition for Endangered and Extinct Samoyedic languages ( http://arxiv.org/abs/2012.05331v1 )

ライセンス: Link先を確認
Niko Partanen, Mika H\"am\"al\"ainen, Tiina Klooster(参考訳) 本研究は,シベリア北部と南部で話されている絶滅危惧・絶滅したサモイェド諸語を用いた音声認識実験である。 私たちの知る限りでは、機能的なASRシステムが絶滅した言語のために構築されたのはこれが初めてです。 kamas言語では15\%のラベル誤り率を達成し、この品質は既に洗練された人間の転写の出発点として非常に有用であると注意深いエラー分析によって結論づける。 関連言語であるNganasanの結果はより控えめであり,エラー率33\%の最良のモデルである。 しかしながら,Kamasのトレーニングデータが漸進的に拡大される実験を通して,Nganasanの結果は低リソース環境下で期待される結果と一致していることを示す。 これに基づいて、言語ドキュメントやアーカイブ処理アクティビティが現代的なasr技術から恩恵を受けるシナリオを推奨する。 すべてのトレーニングデータと処理スクリプトが、この重要なトピックにおけるさらなる作業を保証するために、明確なライセンス付きでZenodoに公開された。

Our study presents a series of experiments on speech recognition with endangered and extinct Samoyedic languages, spoken in Northern and Southern Siberia. To best of our knowledge, this is the first time a functional ASR system is built for an extinct language. We achieve with Kamas language a Label Error Rate of 15\%, and conclude through careful error analysis that this quality is already very useful as a starting point for refined human transcriptions. Our results with related Nganasan language are more modest, with best model having the error rate of 33\%. We show, however, through experiments where Kamas training data is enlarged incrementally, that Nganasan results are in line with what is expected under low-resource circumstances of the language. Based on this, we provide recommendations for scenarios in which further language documentation or archive processing activities could benefit from modern ASR technology. All training data and processing scripts haven been published on Zenodo with clear licences to ensure further work in this important topic.
翻訳日:2021-05-16 02:05:17 公開日:2020-12-09
# ds-net: 映像サルエント物体検出のための動的時空間ネットワーク

DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection ( http://arxiv.org/abs/2012.04886v1 )

ライセンス: Link先を確認
Yuting Su, Weikang Wang, Jing Liu, Peiguang Jing and Xiaokang Yang(参考訳) 移動物体は常に人間の目に注意を向けるので、時間的動機情報は常に空間情報と相補的に利用され、ビデオ内の有能な物体を検出する。 時間的モーメント情報を抽出するために,光学フローなどの効率的なツールが提案されているが,カメラの移動やサリアント物体の部分的移動による塩分濃度検出には困難が伴うことが多い。 本稿では,空間的および時間的情報の補完的役割について検討し,より効果的な時空間情報の融合のための新しい動的時空間ネットワーク(ds-net)を提案する。 空間的特徴と時間的特徴を明示的に抽出する対称2バイパスネットワークを構築した。 動的重み発生器(DWG)は、対応する唾液枝の信頼性を自動的に学習するように設計されている。 また,時空間特徴の動的相補的集約を容易にするために,トップダウンクロス注意集約(CAA)手順を設計した。 最後に,粗いサリエンシーマップの指導により空間的注意によって特徴を変更し,最終サリエンシーマップのデコーダ部分を通過する。 VOS,DAVIS,FBMS,SegTr ack-v2,ViSalの5つのベンチマークによる実験結果から,提案手法が最先端のアルゴリズムよりも優れた性能を実現することを示す。 ソースコードはhttps://github.com/T JUMMG/DS-Netで入手できる。

As moving objects always draw more attention of human eyes, the temporal motive information is always exploited complementarily with spatial information to detect salient objects in videos. Although efficient tools such as optical flow have been proposed to extract temporal motive information, it often encounters difficulties when used for saliency detection due to the movement of camera or the partial movement of salient objects. In this paper, we investigate the complimentary roles of spatial and temporal information and propose a novel dynamic spatiotemporal network (DS-Net) for more effective fusion of spatiotemporal information. We construct a symmetric two-bypass network to explicitly extract spatial and temporal features. A dynamic weight generator (DWG) is designed to automatically learn the reliability of corresponding saliency branch. And a top-down cross attentive aggregation (CAA) procedure is designed so as to facilitate dynamic complementary aggregation of spatiotemporal features. Finally, the features are modified by spatial attention with the guidance of coarse saliency map and then go through decoder part for final saliency map. Experimental results on five benchmarks VOS, DAVIS, FBMS, SegTrack-v2, and ViSal demonstrate that the proposed method achieves superior performance than state-of-the-art algorithms. The source code is available at https://github.com/T JUMMG/DS-Net.
翻訳日:2021-05-16 02:04:24 公開日:2020-12-09
# コンボリューションは、制約のない手書き文字認識のために既に廃止されているか?

Have convolutions already made recurrence obsolete for unconstrained handwritten text recognition ? ( http://arxiv.org/abs/2012.04954v1 )

ライセンス: Link先を確認
Denis Coquenet, Yann Soullard, Cl\'ement Chatelain, Thierry Paquet(参考訳) 制約のない手書き文字認識は、ディープニューラルネットワークにとって依然として重要な課題である。 この数年間、リカレントネットワークやより具体的にはロング短期記憶ネットワークがこの分野で最先端の性能を達成した。 それでも、多くのトレーニング可能なパラメータで構成されており、リカレントニューラルネットワークのトレーニングは並列性をサポートしていない。 これは、こうしたアーキテクチャのトレーニング時間に直接影響し、様々なアーキテクチャを探索するのに必要な時間に直接影響します。 近年, ゲート機構を備えた完全畳み込みネットワークのような再帰性のないアーキテクチャが, 競合的な結果を得るための一つの選択肢として提案されている。 本稿では,畳み込みアーキテクチャを探索し,CNN+BLSTMベースラインと比較する。 本稿では、rimesデータセットを用いたオフライン手書き認識タスクにおける異なるアーキテクチャに関する実験と、印刷されたグリッドであるノートブック背景による画像拡張による修正版を提案する。

Unconstrained handwritten text recognition remains an important challenge for deep neural networks. These last years, recurrent networks and more specifically Long Short-Term Memory networks have achieved state-of-the-art performance in this field. Nevertheless, they are made of a large number of trainable parameters and training recurrent neural networks does not support parallelism. This has a direct influence on the training time of such architectures, with also a direct consequence on the time required to explore various architectures. Recently, recurrence-free architectures such as Fully Convolutional Networks with gated mechanisms have been proposed as one possible alternative achieving competitive results. In this paper, we explore convolutional architectures and compare them to a CNN+BLSTM baseline. We propose an experimental study regarding different architectures on an offline handwriting recognition task using the RIMES dataset, and a modified version of it that consists of augmenting the images with notebook backgrounds that are printed grids.
翻訳日:2021-05-16 02:03:35 公開日:2020-12-09
# ゲート型完全畳み込みネットワークを用いた繰り返しなし無拘束手書き文字認識

Recurrence-free unconstrained handwritten text recognition using gated fully convolutional network ( http://arxiv.org/abs/2012.04961v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) 制約のない手書き文字認識は、ほとんどの文書分析タスクにおいて大きなステップである。 これは一般的にディープリカレントニューラルネットワークによって処理され、より具体的にはロング短期記憶細胞を用いて処理される。 これらのコンポーネントの主な欠点は、大量のパラメータと、トレーニングと予測中のシーケンシャルな実行である。 LSTMセルを使用する別の方法の1つは、操作を並列に実行し、パラメータを少なくする畳み込み層を多用することで、長期記憶損失を補うことである。 本稿では、よく知られたCNN+LSTMアーキテクチャに代わる再帰のないアーキテクチャであるGated Fully Convolutional Networkアーキテクチャを提案する。 我々のモデルはCTC損失をトレーニングし,RIMESおよびIAMデータセットの競合結果を示す。 実験を再現するためのすべてのコードをリリースします。 https://github.com/f actodeeplearning/lin epytorchocr。

Unconstrained handwritten text recognition is a major step in most document analysis tasks. This is generally processed by deep recurrent neural networks and more specifically with the use of Long Short-Term Memory cells. The main drawbacks of these components are the large number of parameters involved and their sequential execution during training and prediction. One alternative solution to using LSTM cells is to compensate the long time memory loss with an heavy use of convolutional layers whose operations can be executed in parallel and which imply fewer parameters. In this paper we present a Gated Fully Convolutional Network architecture that is a recurrence-free alternative to the well-known CNN+LSTM architectures. Our model is trained with the CTC loss and shows competitive results on both the RIMES and IAM datasets. We release all code to enable reproduction of our experiments: https://github.com/F actoDeepLearning/Lin ePytorchOCR.
翻訳日:2021-05-16 02:03:22 公開日:2020-12-09
# 相補的視覚・言語ネットワークによるヘイトフルミームの検出

Hateful Memes Detection via Complementary Visual and Linguistic Networks ( http://arxiv.org/abs/2012.04977v1 )

ライセンス: Link先を確認
Weibo Zhang, Guihua Liu, Zhuohua Li, Fuqing Zhu(参考訳) 憎しみのあるミームはソーシャルメディアに広がり、ネガティブな情報を伝える。 ヘイトフルミーム検出の主な課題は、表現的意味が単一のモダリティによって十分に認識できないことである。 モーダル情報をさらに統合するために,ヘイトフルミームチャレンジ2020において,相補的な視覚・言語ネットワークに基づく候補ソリューションについて検討する。 このようにして、マルチモダリティのより包括的な情報を詳細に探究することができる。 コンテクストレベルおよびセンシティブなオブジェクトレベルの情報は、複雑なマルチモーダルシナリオを定式化するために、視覚および言語埋め込みにおいて考慮される。 具体的には、予め訓練された分類器と物体検出器を用いて、入力から文脈的特徴と関心領域(roi)を取得し、視覚埋め込みのための位置表現融合を行う。 言語埋め込みは3つの構成要素、すなわち文語埋め込み、位置埋め込み、および対応するスペイシー埋め込み(Sembedding)から構成されるが、スペイシーはスペイシーによって抽出された語彙で表されるシンボルである。 視覚的および言語的埋め込みは、ハトフルミームの予測を生成するためにデザインされた補完的視覚言語(CVL)ネットワークに供給される。 Hateful Memes Challenge Datasetの実験結果から,CVLは良好な性能を示し,AUROCと精度の基準で78:48%,72:95%を生成することがわかった。 コードはhttps://github.com/w ebyfdt/hatefulで入手できる。

Hateful memes are widespread in social media and convey negative information. The main challenge of hateful memes detection is that the expressive meaning can not be well recognized by a single modality. In order to further integrate modal information, we investigate a candidate solution based on complementary visual and linguistic network in Hateful Memes Challenge 2020. In this way, more comprehensive information of the multi-modality could be explored in detail. Both contextual-level and sensitive object-level information are considered in visual and linguistic embedding to formulate the complex multi-modal scenarios. Specifically, a pre-trained classifier and object detector are utilized to obtain the contextual features and region-of-interests (RoIs) from the input, followed by the position representation fusion for visual embedding. While linguistic embedding is composed of three components, i.e., the sentence words embedding, position embedding and the corresponding Spacy embedding (Sembedding), which is a symbol represented by vocabulary extracted by Spacy. Both visual and linguistic embedding are fed into the designed Complementary Visual and Linguistic (CVL) networks to produce the prediction for hateful memes. Experimental results on Hateful Memes Challenge Dataset demonstrate that CVL provides a decent performance, and produces 78:48% and 72:95% on the criteria of AUROC and Accuracy. Code is available at https://github.com/w ebYFDT/hateful.
翻訳日:2021-05-16 02:03:06 公開日:2020-12-09
# 自己教師付き対応学習のためのコントラスト変換

Contrastive Transformation for Self-supervised Correspondence Learning ( http://arxiv.org/abs/2012.05057v1 )

ライセンス: Link先を確認
Ning Wang and Wengang Zhou and Houqiang Li(参考訳) 本稿では,無ラベルビデオを用いた視覚対応の自己教師あり学習に着目した。 本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。 ビデオ内学習は、フレーム対親和性を介して、単一のビデオ内のフレーム間で画像内容を変換する。 インスタンスレベルの分離のための識別表現を得るには、ビデオ内分析を超えて、異なるビデオ間のコントラスト変換を容易にするためにビデオ間親和性を構築する。 動画内レベルと動画間レベルの変換一貫性を強制することにより、微粒化対応関係を良好に保存し、インスタンスレベルの特徴識別を効果的に強化する。 我々の単純なフレームワークは、ビデオオブジェクトトラッキング(VOT)、ビデオオブジェクトセグメンテーション(VOS)、キーポイントトラッキング(Phy Keypoint Track)などの視覚的タスクにおいて、近年の自己監督対応手法よりも優れています。 この手法は完全教師付きアフィニティ表現(例えばresnet)をも上回っており、特定のタスク(例えばvotとvos)用に設計された最近の完全教師付きアルゴリズムと競合する。

In this paper, we focus on the self-supervised learning of visual correspondence using unlabeled videos in the wild. Our method simultaneously considers intra- and inter-video representation associations for reliable correspondence estimation. The intra-video learning transforms the image contents across frames within a single video via the frame pair-wise affinity. To obtain the discriminative representation for instance-level separation, we go beyond the intra-video analysis and construct the inter-video affinity to facilitate the contrastive transformation across different videos. By forcing the transformation consistency between intra- and inter-video levels, the fine-grained correspondence associations are well preserved and the instance-level feature discrimination is effectively reinforced. Our simple framework outperforms the recent self-supervised correspondence methods on a range of visual tasks including video object tracking (VOT), video object segmentation (VOS), pose keypoint tracking, etc. It is worth mentioning that our method also surpasses the fully-supervised affinity representation (e.g., ResNet) and performs competitively against the recent fully-supervised algorithms designed for the specific tasks (e.g., VOT and VOS).
翻訳日:2021-05-16 02:02:02 公開日:2020-12-09
# マルチビューコンセンサスによる自己教師付き人間検出とセグメンテーション

Self-supervised Human Detection and Segmentation via Multi-view Consensus ( http://arxiv.org/abs/2012.05119v1 )

ライセンス: Link先を確認
Isinsu Katircioglu, Helge Rhodin, J\"org Sp\"orri, Mathieu Salzmann, Pascal Fua(参考訳) 複雑なシーンにおけるフォアグラウンドオブジェクトの自己教師付き検出とセグメンテーションが注目されている。 しかし、既存の自己監督アプローチは、外観や動きに制限のある仮定に主に依存しており、非常にダイナミックな動きやカメラの動きを描写する場面での使用を妨げている。 この問題を解決するために,voxelグリッド内の粗い3次元位置推定と細粒度オフセット回帰によるトレーニング中に,幾何学的制約をマルチビュー一貫性の形で埋め込むマルチカメラフレームワークを提案する。 この方法で、複数のビューにわたる提案の共有分布を学習する。 推測時,本手法は単一のRGB画像で動作する。 本手法は,従来のヒト3.6mデータセットと同様に,標準ベンチマーク画像から視覚的に逸脱した画像に対して,最先端の自己教師付き人物検出とセグメンテーション技術よりも優れていることを示す。

Self-supervised detection and segmentation of foreground objects in complex scenes is gaining attention as their fully-supervised counterparts require overly large amounts of annotated data to deliver sufficient accuracy in domain-specific applications. However, existing self-supervised approaches predominantly rely on restrictive assumptions on appearance and motion, which precludes their use in scenes depicting highly dynamic activities or involve camera motion. To mitigate this problem, we propose using a multi-camera framework in which geometric constraints are embedded in the form of multi-view consistency during training via coarse 3D localization in a voxel grid and fine-grained offset regression. In this manner, we learn a joint distribution of proposals over multiple views. At inference time, our method operates on single RGB images. We show that our approach outperforms state-of-the-art self-supervised person detection and segmentation techniques on images that visually depart from those of standard benchmarks, as well as on those of the classical Human3.6M dataset.
翻訳日:2021-05-16 02:01:18 公開日:2020-12-09
# simpleは簡単ではない:textvqaとtextcapsのシンプルな強固なベースライン

Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps ( http://arxiv.org/abs/2012.05153v1 )

ライセンス: Link先を確認
Qi Zhu, Chenyu Gao, Peng Wang, Qi Wu(参考訳) OCR(Optical Character Recognition)ツールで認識できる日々のシーンに現れるテキストには、街路名、商品ブランド、価格などの重要な情報が含まれている。 テキストベースの視覚的質問応答と、既存の視覚言語アプリケーションからのテキスト拡張を含むテキストベースのイメージキャプションという2つのタスクが、急速に加速している。 これらの問題を解決するために、多くの洗練されたマルチモダリティエンコーディングフレームワーク(ヘテロジニアスグラフ構造など)が使用されている。 本稿では、単純な注意機構が、鐘や笛を使わずに、同じあるいはそれ以上の仕事をすることができると論じる。 このメカニズムでは、OCRトークンの特徴を視覚的および言語的意図の分岐に分割し、人気のあるTransformerデコーダに送信し、回答やキャプションを生成する。 驚くべきことに、この単純なベースラインモデルは、かなり強い -- 一般的なベンチマークであるTextVQAとST-VQAの3つのタスクにおいて、常に最先端(SOTA)モデルよりも優れていますが、これらのSOTAモデルははるかに複雑な符号化機構を使用します。 テキストベースの画像キャプションにそれを移すと、TextCaps Challenge 2020の勝者を超えます。 我々は、この2つのOCRテキスト関連アプリケーションの新しいベースラインを設定し、マルチモーダルエンコーダ設計の新しい考え方を刺激したいと考えている。 コードはhttps://github.com/Z ephyrZhuQi/ssbaselin eで入手できる。

Texts appearing in daily scenes that can be recognized by OCR (Optical Character Recognition) tools contain significant information, such as street name, product brand and prices. Two tasks -- text-based visual question answering and text-based image captioning, with a text extension from existing vision-language applications, are catching on rapidly. To address these problems, many sophisticated multi-modality encoding frameworks (such as heterogeneous graph structure) are being used. In this paper, we argue that a simple attention mechanism can do the same or even better job without any bells and whistles. Under this mechanism, we simply split OCR token features into separate visual- and linguistic-attention branches, and send them to a popular Transformer decoder to generate answers or captions. Surprisingly, we find this simple baseline model is rather strong -- it consistently outperforms state-of-the-art (SOTA) models on two popular benchmarks, TextVQA and all three tasks of ST-VQA, although these SOTA models use far more complex encoding mechanisms. Transferring it to text-based image captioning, we also surpass the TextCaps Challenge 2020 winner. We wish this work to set the new baseline for this two OCR text related applications and to inspire new thinking of multi-modality encoder design. Code is available at https://github.com/Z ephyrZhuQi/ssbaselin e
翻訳日:2021-05-16 02:00:59 公開日:2020-12-09
# ViP-DeepLab:depth-aw are Video Panoptic Segmentationによる視覚知覚学習

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation ( http://arxiv.org/abs/2012.05258v1 )

ライセンス: Link先を確認
Siyuan Qiao, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) 本稿では,視覚における長期的かつ難解な逆投影問題に取り組むための統一モデルであるvip-deeplabを提案する。 この問題を解決するには、3dポイントごとに空間的位置、意味クラス、時間的一貫性のあるインスタンスラベルを予測するビジョンモデルが必要である。 ViP-DeepLabはモノクロ深度推定とビデオパノプティックセグメンテーションを共同で行う。 我々はこの共同タスクをDepth-aware Video Panoptic Segmentationと名付け,2つの派生したデータセットとともに新たな評価基準を提案する。 個別のサブタスクでは、ViP-DeepLabは最先端の結果も達成し、Cityscapes-VPSで5.1%VPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位という過去の手法を上回った。 データセットと評価コードは公開されています。

In this paper, we present ViP-DeepLab, a unified model attempting to tackle the long-standing and challenging inverse projection problem in vision, which we model as restoring the point clouds from perspective image sequences while providing each point with instance-level semantic interpretations. Solving this problem requires the vision models to predict the spatial location, semantic class, and temporally consistent instance label for each 3D point. ViP-DeepLab approaches it by jointly performing monocular depth estimation and video panoptic segmentation. We name this joint task as Depth-aware Video Panoptic Segmentation, and propose a new evaluation metric along with two derived datasets for it, which will be made available to the public. On the individual sub-tasks, ViP-DeepLab also achieves state-of-the-art results, outperforming previous methods by 5.1% VPQ on Cityscapes-VPS, ranking 1st on the KITTI monocular depth estimation benchmark, and 1st on KITTI MOTS pedestrian. The datasets and the evaluation codes are made publicly available.
翻訳日:2021-05-16 01:59:55 公開日:2020-12-09
# ドメイン適応によるリアルタイムフォギーシーン理解のためのマルチタスク学習のための競争的単純性

Competitive Simplicity for Multi-Task Learning for Real-Time Foggy Scene Understanding via Domain Adaptation ( http://arxiv.org/abs/2012.05304v1 )

ライセンス: Link先を確認
Naif Alshammari, Samet Akcay, and Toby P. Breckon(参考訳) 悪天候条件下での自動車のシーン理解は、屋外のシーンの視界が悪くなることに起因する現実的で困難な問題を引き起こす。 霧の天気)。 しかし、ほとんどの現代のシーン理解アプローチは理想ウェザー条件下で適用されるため、極ウェザー理解に関する先駆的な洞察が確立された場合と比較して、そのようなアプローチは真に最適な性能を提供することはできない。 本稿では,近年の対向訓練とドメイン適応の進歩を活かし,霧の気候条件下でのリアルタイム意味理解と単眼深度推定を可能にする,複雑かつ競争性の高いマルチタスク学習手法を提案する。 エンド・ツー・エンドのパイプラインとして,ganモデルを用いて霧から正常に場面を移し,霧の気象条件における劣化した視認性を超える新しいソリューションを提供する。 セグメンテーションにおける最適性能のために,セグメンテーションネットワークにおけるRGBと相補的なソース情報として使用する深度を生成する。 2つのモデル(正常および霧)と共有重みを同時に訓練することにより、霧シーン理解のためのロバストな方法を提供する(各モデルは各気象条件で独立に訓練される)。 提案モデルでは,RGB色,深度,輝度を密接な接続と機能を有するエンコーダで表現し,スイッチ接続を利用して一貫した深度とセグメンテーション予測を行う。 このアーキテクチャの定式化と推論時の軽量な計算複雑性を用いることで、モデル全体の複雑さのごく一部で、現代の手法に匹敵する性能を達成できる。

Automotive scene understanding under adverse weather conditions raises a realistic and challenging problem attributable to poor outdoor scene visibility (e.g. foggy weather). However, because most contemporary scene understanding approaches are applied under ideal-weather conditions, such approaches may not provide genuinely optimal performance when compared to established a priori insights on extreme-weather understanding. In this paper, we propose a complex but competitive multi-task learning approach capable of performing in real-time semantic scene understanding and monocular depth estimation under foggy weather conditions by leveraging both recent advances in adversarial training and domain adaptation. As an end-to-end pipeline, our model provides a novel solution to surpass degraded visibility in foggy weather conditions by transferring scenes from foggy to normal using a GAN-based model. For optimal performance in semantic segmentation, our model generates depth to be used as complementary source information with RGB in the segmentation network. We provide a robust method for foggy scene understanding by training two models (normal and foggy) simultaneously with shared weights (each model is trained on each weather condition independently). Our model incorporates RGB colour, depth, and luminance images via distinct encoders with dense connectivity and features fusing, and leverages skip connections to produce consistent depth and segmentation predictions. Using this architectural formulation with light computational complexity at inference time, we are able to achieve comparable performance to contemporary approaches at a fraction of the overall model complexity.
翻訳日:2021-05-16 01:59:36 公開日:2020-12-09
# ドメイン適応によるリアルタイム自動車意味空間理解のためのマルチモデル学習

Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation ( http://arxiv.org/abs/2012.05320v1 )

ライセンス: Link先を確認
Naif Alshammari, Samet Akcay, and Toby P. Breckon(参考訳) 自動車用途におけるロバストなセマンティックシーンセグメンテーションは,(1)各シーンピクセルのラベル付け,(2)不安定な天候下でのタスクの実行,および(霧の天候など)照明変化による屋外シーンの視認性の低下という2つの重要な側面において難しい問題である。 このような可視性制限は、一般化されたディープ畳み込みニューラルネットワークに基づくセマンティックシーンセグメンテーションの非最適性能をもたらす。 本稿では,霧の気象条件に頑健な効率的な自動車意味場面理解手法を提案する。 エンドツーエンドのパイプラインとして,(1)ドメイン転送方式(可視性を損なう)による霧から晴れた気象条件への画像変換,(2)計算量(リアルタイム性能)の少ない競合エンコーダ・デコーダアーキテクチャを用いてシーンを意味的にセグメンテーションする手法を提案する。 本手法では,rgb色,奥行き,輝度画像を濃密に結合したエンコーダを介して取り込み,異なる入力からの情報を効果的に活用する機能融合を行い,モデル全体の最適な特徴表現に寄与する。 密接なスキップ接続を持つこのアーキテクチャの定式化を用いることで,モデル全体の複雑さのごく一部で,現代のアプローチに匹敵するパフォーマンスを実現します。

Robust semantic scene segmentation for automotive applications is a challenging problem in two key aspects: (1) labelling every individual scene pixel and (2) performing this task under unstable weather and illumination changes (e.g., foggy weather), which results in poor outdoor scene visibility. Such visibility limitations lead to non-optimal performance of generalised deep convolutional neural network-based semantic scene segmentation. In this paper, we propose an efficient end-to-end automotive semantic scene understanding approach that is robust to foggy weather conditions. As an end-to-end pipeline, our proposed approach provides: (1) the transformation of imagery from foggy to clear weather conditions using a domain transfer approach (correcting for poor visibility) and (2) semantically segmenting the scene using a competitive encoder-decoder architecture with low computational complexity (enabling real-time performance). Our approach incorporates RGB colour, depth and luminance images via distinct encoders with dense connectivity and features fusion to effectively exploit information from different inputs, which contributes to an optimal feature representation within the overall model. Using this architectural formulation with dense skip connections, our model achieves comparable performance to contemporary approaches at a fraction of the overall model complexity.
翻訳日:2021-05-16 01:59:09 公開日:2020-12-09
# LSTMリカレントニューラルネットワークを用いた状況認識のための航空機停止予測

LSTM recurrent neural network assisted aircraft stall prediction for enhanced situational awareness ( http://arxiv.org/abs/2012.04876v1 )

ライセンス: Link先を確認
Tahsin Sejat Saniat, Tahiat Goni, Shaikat M. Galib(参考訳) 人類の動力飛行導入の夜明け以来、航空機のストールに起因する複数の事件があった。 現代のほとんどの航空機は、パイロットに潜在的な停止を警告する高度な警告システムを備えており、パイロットは必要な回復措置を採用することができる。 しかし、これらの警告は、飛行機が実際にストールに入る前に短い窓を持ち、パイロットにそれを防ぐために迅速に行動するよう要求することが多い。 本稿では,停止警告の起動前であっても,事前予測を行うための深層学習に基づくアプローチを提案する。 本稿では,Long Short-term memory (LSTM) Recurrent Neural Network (RNN) の機能を活用し,シーケンシャルな飛行中のセンサデータから潜在的ストールを予測する新しいアプローチを提案する。 3つの異なるニューラルネットワークアーキテクチャが研究された。 26400秒のシミュレータフライトデータに基づいてトレーニングされたニューラルネットワークモデルは、ストールウォーニングトリガーの約10秒前に95%以上の精度で潜在的なストールを予測することができる。 これによりパイロットの予期せぬストールに対処する準備が大幅に強化され、従来のストール警告システムに追加の安全層が加えられる。

Since the dawn of mankind's introduction to powered flights, there have been multiple incidents which can be attributed to aircraft stalls. Most modern-day aircraft are equipped with advanced warning systems to warn the pilots about a potential stall, so that pilots may adopt the necessary recovery measures. But these warnings often have a short window before the aircraft actually enters a stall and require the pilots to act promptly to prevent it. In this paper, we propose a deep learning based approach to predict an Impending stall, well in advance, even before the stall-warning is triggered. We leverage the capabilities of long short-term memory (LSTM) recurrent neural networks (RNN) and propose a novel approach to predict potential stalls from the sequential in-flight sensor data. Three different neural network architectures were explored. The neural network models, trained on 26400 seconds of simulator flight data are able to predict a potential stall with > 95% accuracy, approximately 10 seconds in advance of the stall-warning trigger. This can significantly augment the Pilot's preparedness to handle an unexpected stall and will add an additional layer of safety to the traditional stall warning systems.
翻訳日:2021-05-16 01:58:04 公開日:2020-12-09
# 固有構造パラメータによる敵攻撃に対するディープスパイクニューラルネットワークの確保

Securing Deep Spiking Neural Networks against Adversarial Attacks through Inherent Structural Parameters ( http://arxiv.org/abs/2012.05321v1 )

ライセンス: Link先を確認
Rida El-Allami and Alberto Marchisio and Muhammad Shafique and Ihsen Alouani(参考訳) ディープラーニング(DL)アルゴリズムはその実用的な問題解決能力のために人気を集めている。 しかし、彼らは深刻な完全性の脅威、すなわち敵の攻撃に対する脆弱性に苦しんでいる。 DL信頼性の追求において、最近の研究は、これらの攻撃に対するスパイキングニューラルネットワーク(SNN)の本質的な堅牢性は、それらの構造的なスパイキングパラメータのばらつきを考慮せずに主張した。 本稿では,内部構造パラメータによるSNNのセキュリティ向上について検討する。 具体的には、ニューロンの発射電圧閾値と時間窓境界の値が異なる敵攻撃に対するSNNの堅牢性について検討する。 我々は、強いホワイトボックス設定で異なる敵攻撃の下でSNNのセキュリティを、異なるノイズ予算と異なるスパイクパラメータで徹底的に研究する。 その結果,SNNの安全性に対する構造パラメータの影響が大きく,従来の非喫煙型DLシステムよりも85%高い堅牢性を持つ信頼性の高いSNNの設計に期待できるスイートスポットが到達できた。 我々の知る限りでは、SNNにおける構造的パラメータが敵攻撃に対する堅牢性に与える影響を調査する最初の研究である。 提案された貢献と実験的なフレームワークは、再現可能な研究のためにコミュニティにオンラインで提供されている。

Deep Learning (DL) algorithms have gained popularity owing to their practical problem-solving capacity. However, they suffer from a serious integrity threat, i.e., their vulnerability to adversarial attacks. In the quest for DL trustworthiness, recent works claimed the inherent robustness of Spiking Neural Networks (SNNs) to these attacks, without considering the variability in their structural spiking parameters. This paper explores the security enhancement of SNNs through internal structural parameters. Specifically, we investigate the SNNs robustness to adversarial attacks with different values of the neuron's firing voltage thresholds and time window boundaries. We thoroughly study SNNs security under different adversarial attacks in the strong white-box setting, with different noise budgets and under variable spiking parameters. Our results show a significant impact of the structural parameters on the SNNs' security, and promising sweet spots can be reached to design trustworthy SNNs with 85% higher robustness than a traditional non-spiking DL system. To the best of our knowledge, this is the first work that investigates the impact of structural parameters on SNNs robustness to adversarial attacks. The proposed contributions and the experimental framework is available online to the community for reproducible research.
翻訳日:2021-05-16 01:57:45 公開日:2020-12-09
# 縦断観測データによる疾患進行軌跡のモデル化

Modeling Disease Progression Trajectories from Longitudinal Observational Data ( http://arxiv.org/abs/2012.05324v1 )

ライセンス: Link先を確認
Bum Chul Kwon, Peter Achenbach, Jessica L. Dunne, William Hagopian, Markus Lundgren, Kenney Ng, Riitta Veijola, Brigitte I. Frohnert, Vibha Anand, the T1DI Study Group(参考訳) 疾患進行パターンの分析は、多くの慢性疾患の進行過程に有用な洞察を与えることができる。 これらの分析は、予防治験のための採用や、被災者に対する治療の開発とパーソナライズに役立てることができる。 隠れマルコフモデル(HMM)を用いて疾患進行パターンを学習し,可視化手法を用いて異なる軌跡に抽出する。 本研究はT1DI研究グループによる縦断観察データを用いて1型糖尿病(T1D)の領域に適用した。 本手法は,最近報告された所見と相関する疾患進行軌跡を同定する。 本稿では,モデル開発における反復的プロセスについて述べる。 これらの方法は、時間とともに進化する他の慢性疾患にも適用できる。

Analyzing disease progression patterns can provide useful insights into the disease processes of many chronic conditions. These analyses may help inform recruitment for prevention trials or the development and personalization of treatments for those affected. We learn disease progression patterns using Hidden Markov Models (HMM) and distill them into distinct trajectories using visualization methods. We apply it to the domain of Type 1 Diabetes (T1D) using large longitudinal observational data from the T1DI study group. Our method discovers distinct disease progression trajectories that corroborate with recently published findings. In this paper, we describe the iterative process of developing the model. These methods may also be applied to other chronic conditions that evolve over time.
翻訳日:2021-05-16 01:57:26 公開日:2020-12-09
# 人間行動認識のためのコントラスト予測符号化

Contrastive Predictive Coding for Human Activity Recognition ( http://arxiv.org/abs/2012.05333v1 )

ライセンス: Link先を確認
Harish Haresamudram, Irfan Essa, Thomas Ploetz(参考訳) 身体運動センサを用いたヒト活動認識(HAR)には特徴抽出が不可欠である。 最近、学習した表現がうまく使われ、手動で設計した機能に代わる有望な代替手段を提供している。 本研究は,モバイルおよびユビキタスコンピューティングのシナリオで容易に収集可能な,少量のラベル付きデータの有効利用と,ラベルなしデータの機会的利用に焦点を当てる。 我々は,センサデータの時間性を表現レベルで明示的に考慮することが,困難なシナリオにおいて効果的なHARに重要な役割を果たすことを仮定し,実証する。 本稿では,センサデータストリームの長期的時間構造をキャプチャする人間行動認識にContrastive Predictive Coding(CPC)フレームワークを導入する。 実生活認識タスクに対する実験的な評価を通じて,HARの改善効果を実証する。 CPCベースの事前学習は自己管理され、得られた表現は標準のアクティビティチェーンに統合できる。 これにより,少量のラベル付きトレーニングデータしか利用できない場合の認識性能が大幅に向上し,本手法の実用的価値が示された。

Feature extraction is crucial for human activity recognition (HAR) using body-worn movement sensors. Recently, learned representations have been used successfully, offering promising alternatives to manually engineered features. Our work focuses on effective use of small amounts of labeled data and the opportunistic exploitation of unlabeled data that are straightforward to collect in mobile and ubiquitous computing scenarios. We hypothesize and demonstrate that explicitly considering the temporality of sensor data at representation level plays an important role for effective HAR in challenging scenarios. We introduce the Contrastive Predictive Coding (CPC) framework to human activity recognition, which captures the long-term temporal structure of sensor data streams. Through a range of experimental evaluations on real-life recognition tasks, we demonstrate its effectiveness for improved HAR. CPC-based pre-training is self-supervised, and the resulting learned representations can be integrated into standard activity chains. It leads to significantly improved recognition performance when only small amounts of labeled training data are available, thereby demonstrating the practical value of our approach.
翻訳日:2021-05-16 01:57:15 公開日:2020-12-09
# 構造トポロジー最適化のための物理一貫性深層学習

Physics-consistent deep learning for structural topology optimization ( http://arxiv.org/abs/2012.05359v1 )

ライセンス: Link先を確認
Jaydeep Rade, Aditya Balu, Ethan Herron, Jay Pathak, Rishikesh Ranade, Soumik Sarkar, Adarsh Krishnamurthy(参考訳) トポロジ最適化は、コンポーネントの設計を洗練し、性能を向上するための一般的なアプローチとして登場した。 しかし、現在最先端のトポロジー最適化フレームワークは計算集約的であり、主に最適化プロセス中のコンポーネントのパフォーマンスを評価するのに必要な複数の有限要素分析イテレーションが必要である。 近年,機械学習に基づくトポロジー最適化手法が研究者によって研究されている。 しかし、従来のアプローチは主に低分解能幾何を持つ単純な2次元の応用で実証されてきた。 さらに、現在のアプローチは、トレーニングに大規模なデータセットを必要とするエンドツーエンドの予測のための単一の機械学習モデルに基づいている。 これらの課題により、現在のアプローチをより高い解像度に拡張するのは非自明です。 本稿では,高分解能の3次元測地におけるトポロジ最適化のための深層学習に基づくフレームワークについて検討する。 複数のネットワークをトレーニングし、それぞれが全体的なトポロジ最適化手法の異なる側面を学ぼうとすることで、これを実現できるのです。 2次元および3次元ジオメトリにおける我々のフレームワークの適用例を示す。 その結果,提案手法は現在のMLベースのトポロジ最適化手法よりも,最終的な最適化設計をより良く予測できることがわかった。

Topology optimization has emerged as a popular approach to refine a component's design and increasing its performance. However, current state-of-the-art topology optimization frameworks are compute-intensive, mainly due to multiple finite element analysis iterations required to evaluate the component's performance during the optimization process. Recently, machine learning-based topology optimization methods have been explored by researchers to alleviate this issue. However, previous approaches have mainly been demonstrated on simple two-dimensional applications with low-resolution geometry. Further, current approaches are based on a single machine learning model for end-to-end prediction, which requires a large dataset for training. These challenges make it non-trivial to extend the current approaches to higher resolutions. In this paper, we explore a deep learning-based framework for performing topology optimization for three-dimensional geometries with a reasonably fine (high) resolution. We are able to achieve this by training multiple networks, each trying to learn a different aspect of the overall topology optimization methodology. We demonstrate the application of our framework on both 2D and 3D geometries. The results show that our approach predicts the final optimized design better than current ML-based topology optimization methods.
翻訳日:2021-05-16 01:56:59 公開日:2020-12-09
# 機械学習セキュリティのためのリスク管理フレームワーク

Risk Management Framework for Machine Learning Security ( http://arxiv.org/abs/2012.04884v1 )

ライセンス: Link先を確認
Jakub Breier and Adrian Baldwin and Helen Balinsky and Yang Liu(参考訳) 機械学習モデルに対する敵意攻撃は、学界と産業の両方で非常に研究されているトピックとなっている。 これらの攻撃は、従来のセキュリティ脅威とともに、機械学習モデルの使用に依存する組織の機密性、完全性、可用性を侵害する可能性がある。 時間とともに展開される可能性のある新たな攻撃のタイプを予測することは容易ではないが、マシンラーニングモデルの使用に伴うリスク評価や、これらのリスクを最小化するための設計措置が可能である。 本稿では,機械学習モデルに依存する組織に対して,リスク管理プロセスを導くための新しい枠組みを提案する。 まず、データドメイン、モデルドメイン、セキュリティコントロールドメインにおける評価係数(EF)のセットを定義します。 我々は,その資産とタスクを重要視する手法を開発し,EFの機密性,完全性,可用性への貢献の重みを設定し,EFの実装スコアに基づいて組織全体のセキュリティ状態を決定する。 この情報に基づいて、実装されたセキュリティ対策の弱いリンクを特定し、どの対策が完全に欠落しているかを突き止めることができる。 弊社のフレームワークは、組織における機械学習モデルの使用に関するセキュリティ問題に対処し、それらの資産を保護するための適切なセキュリティ対策に焦点を合わせるのに役立つと信じている。

Adversarial attacks for machine learning models have become a highly studied topic both in academia and industry. These attacks, along with traditional security threats, can compromise confidentiality, integrity, and availability of organization's assets that are dependent on the usage of machine learning models. While it is not easy to predict the types of new attacks that might be developed over time, it is possible to evaluate the risks connected to using machine learning models and design measures that help in minimizing these risks. In this paper, we outline a novel framework to guide the risk management process for organizations reliant on machine learning models. First, we define sets of evaluation factors (EFs) in the data domain, model domain, and security controls domain. We develop a method that takes the asset and task importance, sets the weights of EFs' contribution to confidentiality, integrity, and availability, and based on implementation scores of EFs, it determines the overall security state in the organization. Based on this information, it is possible to identify weak links in the implemented security measures and find out which measures might be missing completely. We believe our framework can help in addressing the security issues related to usage of machine learning models in organizations and guide them in focusing on the adequate security measures to protect their assets.
翻訳日:2021-05-16 01:56:43 公開日:2020-12-09
# プロジェクトグループによる参加予算

Participatory Budgeting with Project Groups ( http://arxiv.org/abs/2012.05213v1 )

ライセンス: Link先を確認
Pallavi Jain, Krzysztof Sornat, Nimrod Talmon, Meirav Zehavi(参考訳) 我々は,事前定義されたプロジェクトに対して,投票者が承認投票を行い,世界的な予算制限に加えて,各グループごとに予算制限を設けた標準承認型参加予算モデル(pb)の一般化について検討する。 予算制限を尊重しながら、投票者の満足度を最大化するプロジェクトバンドルを識別する計算複雑性について検討する。 この問題は一般に難解であり、グループ構造が階層的に近いグループやインスタンスが少ないインスタンスや効率的な近似アルゴリズムなど、いくつかの特別なケースで効率的な厳密アルゴリズムを記述することができる。 私たちの結果は、例えば自治体が、テーマ的に、地理的に包括的に、よりリッチなpbプロセスを持つことを可能にします。

We study a generalization of the standard approval-based model of participatory budgeting (PB), in which voters are providing approval ballots over a set of predefined projects and -- in addition to a global budget limit, there are several groupings of the projects, each group with its own budget limit. We study the computational complexity of identifying project bundles that maximize voter satisfaction while respecting all budget limits. We show that the problem is generally intractable and describe efficient exact algorithms for several special cases, including instances with only few groups and instances where the group structure is close to be hierarchical, as well as efficient approximation algorithms. Our results could allow, e.g., municipalities to hold richer PB processes that are thematically and geographically inclusive.
翻訳日:2021-05-16 01:55:53 公開日:2020-12-09
# アルゴリズムによるリスク評価は、高い状況下での人間の意思決定プロセスを変える

Algorithmic risk assessments can alter human decision-making processes in high-stakes government contexts ( http://arxiv.org/abs/2012.05370v1 )

ライセンス: Link先を確認
Ben Green, Yiling Chen(参考訳) 政府は、重要な決定を行う際にアルゴリズムによるリスクアセスメントに目を向け、これらのアルゴリズムが公務員の政策関連予測能力を向上させ、それによってよりインフォームドな決定につながると信じている。 しかし、多くの政策決定は、競合する社会的目標とリスク最小化のバランスをとる必要があるため、リスクアセスメントの影響を評価するには、これらのアルゴリズムがいかに正確に予測するよりも、政策決定を行う際に、公務員がどのようにリスク評価に影響されるかを考慮する必要がある。 2,140名からなるオンライン実験を通じて,リスクアセスメントが意思決定の要因としてリスクの塩分を増加させ,これらの変化が人種格差を悪化させる可能性があることを示す,最初の大規模証拠を提供する。 これらの結果から,アルゴリズムによる予測精度の向上は必ずしも人間の意思決定を改善するものではないことを示し,意思決定者による政府アルゴリズムの使用方法を実験的に検証する必要性を強調した。

Governments are increasingly turning to algorithmic risk assessments when making important decisions, believing that these algorithms will improve public servants' ability to make policy-relevant predictions and thereby lead to more informed decisions. Yet because many policy decisions require balancing risk-minimization with competing social goals, evaluating the impacts of risk assessments requires considering how public servants are influenced by risk assessments when making policy decisions rather than just how accurately these algorithms make predictions. Through an online experiment with 2,140 lay participants simulating two high-stakes government contexts, we provide the first large-scale evidence that risk assessments can systematically alter decision-making processes by increasing the salience of risk as a factor in decisions and that these shifts could exacerbate racial disparities. These results demonstrate that improving human prediction accuracy with algorithms does not necessarily improve human decisions and highlight the need to experimentally test how government algorithms are used by human decision-makers.
翻訳日:2021-05-16 01:55:41 公開日:2020-12-09
# 腫瘍画像解析のための臨床的意義のある形状特徴の発見

Discovering Clinically Meaningful Shape Features for the Analysis of Tumor Pathology Images ( http://arxiv.org/abs/2012.04878v1 )

ライセンス: Link先を確認
Esteban Fern\'andez Morales and Cong Zhang and Guanghua Xiao and Chul Moon and Qiwei Li(参考訳) 先端イメージング技術により,腫瘍組織スライドのデジタル病理イメージングは,癌診断のための日常的な臨床手順になりつつある。 このプロセスは、高分解能で組織学的詳細をキャプチャする大規模なイメージングデータを生成する。 近年のディープラーニング技術の進歩により,病理画像中の腫瘍領域を自動的に検出し,特徴付けることが可能になった。 同定された腫瘍領域から,その形状,形状,トポロジーを定量化した30個の明瞭なディスクリプタを抽出した。 全国肺スクリーニング試験 (n=143) の肺腺癌患者において, それらのディスクリプターの特徴が予後に与える影響を実証した。 また、がんゲノムアトラスプログラム(n=318)から独立した患者に対して、ディスクリプタベースの予後予測モデルを開発し、検証した。 本研究は,腫瘍の形状,幾何学的および位相的特徴と患者の予後との関係に関する新たな知見を提案する。 https://github.com/e stfernandez/Slide_Im age_Segmentation_and _Extraction。

With the advanced imaging technology, digital pathology imaging of tumor tissue slides is becoming a routine clinical procedure for cancer diagnosis. This process produces massive imaging data that capture histological details in high resolution. Recent developments in deep-learning methods have enabled us to automatically detect and characterize the tumor regions in pathology images at large scale. From each identified tumor region, we extracted 30 well-defined descriptors that quantify its shape, geometry, and topology. We demonstrated how those descriptor features were associated with patient survival outcome in lung adenocarcinoma patients from the National Lung Screening Trial (n=143). Besides, a descriptor-based prognostic model was developed and validated in an independent patient cohort from The Cancer Genome Atlas Program program (n=318). This study proposes new insights into the relationship between tumor shape, geometrical, and topological features and patient prognosis. We provide software in the form of R code on GitHub: https://github.com/e stfernandez/Slide_Im age_Segmentation_and _Extraction.
翻訳日:2021-05-16 01:55:23 公開日:2020-12-09
# JANUS: オブジェクトおよび異常検出ワークロードのための商用およびオープンソースクラウドおよびエッジプラットフォームベンチマーク

JANUS: Benchmarking Commercial and Open-Source Cloud and Edge Platforms for Object and Anomaly Detection Workloads ( http://arxiv.org/abs/2012.04880v1 )

ライセンス: Link先を確認
Karthick Shankar, Pengcheng Wang, Ran Xu, Ashraf Mahgoub, Somali Chaterji(参考訳) 多様なIoTワークロードでは、データが収集される場所に計算と分析を配置することがますます重要になっている。 私たちは、さまざまな利用可能なプラットフォームでIoTデータ上で分析を実行することのパフォーマンスとコストの影響を理解しようとしています。 これらのワークロードは、センサーデータの異常検出や、ドローンから取得したビデオフィードからのオブジェクト検出など、計算集約的な処理が可能だ。 計算軽量iotワークロードと計算集約型iotワークロードのパフォーマンス/コストと計算と通信コストを,janusという論文で検証した。 さらに、Faster R-CNN(FRCNN)のようなオープンソースおよびチューニング可能なソリューションとは対照的に、Amazon Rekognition、Google Vision、Azure Cognitive Servicesなど、プロプライエタリなディープラーニングオブジェクト検出パッケージの長所と短所についても検討しています。 AWS IoT Greengrassは、コンピューティングライトのアウトレイラ検出ワークロードにおいて、他のクラウドプラットフォームと比較して、少なくとも2倍のレイテンシと1.25倍のコストを提供する。 計算集約型のストリーミングビデオ分析タスクでは、クラウドvm上で動作するオブジェクト検出のオープンソースソリューションは、amazon、microsoft、googleが提供するプロプライエタリなソリューションに比べてドルコストを節約するが、レイテンシ(最大6倍)では失われる。 低消費電力のエッジデバイスで動作する場合、レイテンシは49倍以下になる。

With diverse IoT workloads, placing compute and analytics close to where data is collected is becoming increasingly important. We seek to understand what is the performance and the cost implication of running analytics on IoT data at the various available platforms. These workloads can be compute-light, such as outlier detection on sensor data, or compute-intensive, such as object detection from video feeds obtained from drones. In our paper, JANUS, we profile the performance/$ and the compute versus communication cost for a compute-light IoT workload and a compute-intensive IoT workload. In addition, we also look at the pros and cons of some of the proprietary deep-learning object detection packages, such as Amazon Rekognition, Google Vision, and Azure Cognitive Services, to contrast with open-source and tunable solutions, such as Faster R-CNN (FRCNN). We find that AWS IoT Greengrass delivers at least 2X lower latency and 1.25X lower cost compared to all other cloud platforms for the compute-light outlier detection workload. For the compute-intensive streaming video analytics task, an opensource solution to object detection running on cloud VMs saves on dollar costs compared to proprietary solutions provided by Amazon, Microsoft, and Google, but loses out on latency (up to 6X). If it runs on a low-powered edge device, the latency is up to 49X lower.
翻訳日:2021-05-16 01:55:09 公開日:2020-12-09
# クロスリンガル画像キャプションのアノテーションフリー化に向けて

Towards Annotation-Free Evaluation of Cross-Lingual Image Captioning ( http://arxiv.org/abs/2012.04925v1 )

ライセンス: Link先を確認
Aozhu Chen, Xinyi Huang, Hailan Lin, Xirong Li(参考訳) 英語以外のターゲット言語でラベルのない画像をキャプションできるクロスリンガル画像キャプションは、マルチメディア分野における新たなトピックである。 本稿では,対象言語毎の参照文の書き直しから貴重な人的資源を節約するために,言語横断画像キャプションの注釈なし評価に勇敢な試みを行う。 英語の参照が利用可能かどうかによっては,2つのシナリオが検討される。 参照可能な最初のシナリオでは、WMDRelとCLinRelの2つのメトリクスを提案する。 WMDRel は Word Mover's Distance を用いて、モデル生成キャプションと英語参照の機械翻訳のセマンティックな関連性を測定する。 両キャプションを深い視覚的特徴空間に投影することにより、CLinRelは視覚指向の言語間の関連度尺度である。 参照がゼロな第2のシナリオについては,clinrel が使用するのと同じ視覚特徴空間において,生成したキャプションと画像内容とのクロスメディア関係を計算するために cmedrel を提案する。 有望な結果は、対象言語での参照を必要としない評価のための新しい指標の可能性を示している。

Cross-lingual image captioning, with its ability to caption an unlabeled image in a target language other than English, is an emerging topic in the multimedia field. In order to save the precious human resource from re-writing reference sentences per target language, in this paper we make a brave attempt towards annotation-free evaluation of cross-lingual image captioning. Depending on whether we assume the availability of English references, two scenarios are investigated. For the first scenario with the references available, we propose two metrics, i.e., WMDRel and CLinRel. WMDRel measures the semantic relevance between a model-generated caption and machine translation of an English reference using their Word Mover's Distance. By projecting both captions into a deep visual feature space, CLinRel is a visual-oriented cross-lingual relevance measure. As for the second scenario, which has zero reference and is thus more challenging, we propose CMedRel to compute a cross-media relevance between the generated caption and the image content, in the same visual feature space as used by CLinRel. The promising results show high potential of the new metrics for evaluation with no need of references in the target language.
翻訳日:2021-05-16 01:54:44 公開日:2020-12-09
# vLPD-Net: 3Dポイントクラウドを用いた位置認識のための登録支援ドメイン適応ネットワーク

vLPD-Net: A Registration-aided Domain Adaptation Network for 3D Point Cloud Based Place Recognition ( http://arxiv.org/abs/2012.05018v1 )

ライセンス: Link先を確認
Zhijian Qiao, Hanjiang Hu, Siyuan Chen, Zhe Liu, Zhuowen Shen, Hesheng Wang(参考訳) 自律走行と移動ロボットのための大規模SLAMの分野では、3Dポイントのクラウドによる位置認識が、昼時間と天候の急激な変動を伴う環境の変化に対する堅牢性から、大きな研究の関心を喚起している。 しかし、高品質なクラウドデータと、実際の世界での登録と位置認識モデルのトレーニングの基盤を得るには、時間と労力がかかる。 この目的のために、ポイントクラウドに基づく位置認識のための新しい登録支援3Dドメイン適応ネットワークを提案する。 幾何特性から特徴を学習するために構造対応登録ネットワークを導入し、メトリック学習にはマッチングレートに基づく三重項損失が関与する。 このモデルは、GTA-Vによる新たな仮想LiDARデータセットを通じて、さまざまな天候と日中条件でトレーニングされ、局所的特徴とグローバルな特徴を整合させることで、現実のドメインにドメイン適応する。 構造認識登録ネットワークの有効性とドメイン適応性を検証するために,大規模な実験が行われた。 この結果は,実世界のoxford robotcarデータセットにおける最先端の3d位置認識ベースラインを上回り,仮想データセットの大規模登録を可視化した。

In the field of large-scale SLAM for autonomous driving and mobile robotics, 3D point cloud based place recognition has aroused significant research interest due to its robustness to changing environments with drastic daytime and weather variance. However, it is time-consuming and effort-costly to obtain high-quality point cloud data and groundtruth for registration and place recognition model training in the real world. To this end, a novel registration-aided 3D domain adaptation network for point cloud based place recognition is proposed. A structure-aware registration network is introduced to help learn feature from geometric properties and a matching rate based triplet loss is involved for metric learning. The model is trained through a new virtual LiDAR dataset through GTA-V with diverse weather and daytime conditions and domain adaptation is implemented to the real-world domain by aligning the local and global features. Extensive experiments have been conducted to validate the effectiveness of the structure-aware registration network and domain adaptation. Our results outperform state-of-the-art 3D place recognition baselines on the real-world Oxford RobotCar dataset with the visualization of large-scale registration on the virtual dataset.
翻訳日:2021-05-16 01:54:06 公開日:2020-12-09
# 織物の欠陥検出自動化のためのSylvester Matrixを用いた類似度推定法

Sylvester Matrix Based Similarity Estimation Method for Automation of Defect Detection in Textile Fabrics ( http://arxiv.org/abs/2012.05800v1 )

ライセンス: Link先を確認
R.M.L.N. Kumari, and G.A.C.T. Bandara, and Maheshi B. Dissanayake(参考訳) 布の欠陥検出は繊維製造業において重要な品質管理ステップである。 本稿では,Sylvester Matrix Based similarity Method(SMBSM)に基づくマシンビジョンシステムを提案し,欠陥検出プロセスを自動化する。 このアルゴリズムは6つの位相、すなわち解像度マッチング、ヒストグラム仕様とメディア平均に基づくサブ画像クラップしたヒストグラム等化を用いた画像強調、アライメントとヒステリシスプロセスによる画像登録、画像サブトラクション、エッジ検出、およびシルベスター行列のランクによる故障検出を含む。 実験の結果,提案手法は頑健であり,精度93.4%,精度95.8%,計算速度2275msであることがわかった。

Fabric defect detection is a crucial quality control step in the textile manufacturing industry. In this article, machine vision system based on the Sylvester Matrix Based Similarity Method (SMBSM) is proposed to automate the defect detection process. The algorithm involves six phases, namely resolution matching, image enhancement using Histogram Specification and Median-Mean Based Sub-Image-Clipped Histogram Equalization, image registration through alignment and hysteresis process, image subtraction, edge detection, and fault detection by means of the rank of the Sylvester matrix. The experimental results demonstrate that the proposed method is robust and yields an accuracy of 93.4%, precision of 95.8%, with 2275 ms computational speed.
翻訳日:2021-05-16 01:53:47 公開日:2020-12-09
# 観察からの学習のためのビデオキャプションに基づく行動系列の理解

Understanding Action Sequences based on Video Captioning for Learning-from-Observ ation ( http://arxiv.org/abs/2101.05061v1 )

ライセンス: Link先を確認
Iori Yanokura, Naoki Wake, Kazuhiro Sasabuchi, Katsushi Ikeuchi, Masayuki Inaba(参考訳) 人間のデモビデオからの学習アクションは、インテリジェントなロボットシステムにとって有望である。 人間の動きがロボットに貴重なヒントを与えるため、正確なセクションを抽出し、抽出したビデオセクションを詳細に再保存することは複雑なスキルを模倣するために重要である。 しかし,一般的な映像理解手法では,全体像の理解が重視され,正確な部分の抽出や人間の意図との整合性に配慮が欠如している。 本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。 分割は、人間の日常行動とロボットの動きを生成するのに必要な物体中心の顔接触遷移を一致させる手の動きの局所的最小点に基づいて行われる。 次に,我々の新しい日常行動ビデオデータセットから学習した映像キャプション技術を用いて,分割映像の動作記述を抽出する。 最後に,人間の意図を正しく理解し,映像内の意図しない動作を無視するために,動作記述と言語指示を一致させる。 手の速度に基づく動画分割の有効性を評価し,有効性を示す。 生活行動に着目した新しい映像キャプションデータセットの実験結果から,提案手法の有効性が示された。 ソースコード、トレーニングされたモデル、データセットが利用可能になる。

Learning actions from human demonstration video is promising for intelligent robotic systems. Extracting the exact section and re-observing the extracted video section in detail is important for imitating complex skills because human motions give valuable hints for robots. However, the general video understanding methods focus more on the understanding of the full frame,lacking consideration on extracting accurate sections and aligning them with the human's intent. We propose a Learning-from-Observ ation framework that splits and understands a video of a human demonstration with verbal instructions to extract accurate action sequences. The splitting is done based on local minimum points of the hand velocity, which align human daily-life actions with object-centered face contact transitions required for generating robot motion. Then, we extract a motion description on the split videos using video captioning techniques that are trained from our new daily-life action video dataset. Finally, we match the motion descriptions with the verbal instructions to understand the correct human intent and ignore the unintended actions inside the video. We evaluate the validity of hand velocity-based video splitting and demonstrate that it is effective. The experimental results on our new video captioning dataset focusing on daily-life human actions demonstrate the effectiveness of the proposed method. The source code, trained models, and the dataset will be made available.
翻訳日:2021-05-16 01:53:16 公開日:2020-12-09
# iidとコミュニケーション・アウェア・グルーピングによる正確で高速な連合学習

Accurate and Fast Federated Learning via IID and Communication-Aware Grouping ( http://arxiv.org/abs/2012.04857v1 )

ライセンス: Link先を確認
Jin-woo Lee, Jaehoon Oh, Yooju Shin, Jae-Gil Lee, Se-Young Yoon(参考訳) 連合学習は、協調機械学習の新しいパラダイムとして登場したが、非独立かつ同一分散(iid)データや高い通信コストといったいくつかの課題にも直面している。 そこで本研究では,データ分布と物理位置に基づいてノードをグループ化することで,精度と通信速度を同時に最大化する,iidと通信認識グループ連合学習の新たな枠組みを提案する。 さらに,FedAvg-ICと呼ばれる正規収束解析と効率的な最適化アルゴリズムを提案する。 実験の結果、最先端のアルゴリズムと比較して、FedAvg-ICはテストの精度を最大22.2%改善し、同時に通信時間を12%にまで短縮した。

Federated learning has emerged as a new paradigm of collaborative machine learning; however, it has also faced several challenges such as non-independent and identically distributed(IID) data and high communication cost. To this end, we propose a novel framework of IID and communication-aware group federated learning that simultaneously maximizes both accuracy and communication speed by grouping nodes based on data distributions and physical locations of the nodes. Furthermore, we provide a formal convergence analysis and an efficient optimization algorithm called FedAvg-IC. Experimental results show that, compared with the state-of-the-art algorithms, FedAvg-IC improved the test accuracy by up to 22.2% and simultaneously reduced the communication time to as small as 12%.
翻訳日:2021-05-16 01:52:58 公開日:2020-12-09
# グラフ近似を用いたグラフ畳み込みネットワークの分散学習

Distributed Training of Graph Convolutional Networks using Subgraph Approximation ( http://arxiv.org/abs/2012.04930v1 )

ライセンス: Link先を確認
Alexandra Angerd, Keshav Balasubramanian, Murali Annavaram(参考訳) 現代の機械学習技術は、グラフとしてモデル化されたデータにうまく適応している。 しかし、多くの現実世界のグラフは典型的には非常に大きく、記憶に合わないため、しばしば機械学習モデルのトレーニングが難解である。 分散トレーニングは、入力データが独立に同じ分散(すなわちd)であると仮定される機械学習領域におけるメモリ問題を緩和し、トレーニングを高速化するために成功している。 しかし、グラフ畳み込みネットワーク(GCN)でトレーニングインプットとして使用されるグラフのような非i.dデータのトレーニングは、グラフ分割境界で情報が失われるため、精度の問題を引き起こす。 本稿では,グラフの複数の分割にまたがる失われた情報をサブグラフ近似スキームによって緩和する学習戦略を提案する。 提案手法は,各サブグラフに,他のすべてのサブグラフから近似した少量のエッジと頂点情報を付加する。 サブグラフ近似アプローチは、メモリフットプリントを低く保ちつつ、マシン間の同期オーバーヘッドを最小化しながら、分散トレーニングシステムがシングルマシン精度で収束するのに役立つ。

Modern machine learning techniques are successfully being adapted to data modeled as graphs. However, many real-world graphs are typically very large and do not fit in memory, often making the problem of training machine learning models on them intractable. Distributed training has been successfully employed to alleviate memory problems and speed up training in machine learning domains in which the input data is assumed to be independently identical distributed (i.i.d). However, distributing the training of non i.i.d data such as graphs that are used as training inputs in Graph Convolutional Networks (GCNs) causes accuracy problems since information is lost at the graph partitioning boundaries. In this paper, we propose a training strategy that mitigates the lost information across multiple partitions of a graph through a subgraph approximation scheme. Our proposed approach augments each sub-graph with a small amount of edge and vertex information that is approximated from all other sub-graphs. The subgraph approximation approach helps the distributed training system converge at single-machine accuracy, while keeping the memory footprint low and minimizing synchronization overhead between the machines.
翻訳日:2021-05-16 01:52:45 公開日:2020-12-09
# 三相モチーフフィールドによる時系列異常検出と心房細動心電図分類への応用

Anomaly Detection in Time Series with Triadic Motif Fields and Application in Atrial Fibrillation ECG Classification ( http://arxiv.org/abs/2012.04936v1 )

ライセンス: Link先を確認
Yadong Zhang and Xin Chen(参考訳) 時系列分析では、時系列モチーフと時系列の順序パターンは、一般的な時間パターンと動的特徴を明らかにすることができる。 Triadic Motif Field (TMF) は3進時系列モチーフに基づく簡易かつ効果的な時系列画像符号化法である。 心電図 (ecg) 信号は、様々な心臓異常の診断に広く使用される時系列データである。 TMF画像は、正常および心房細動(AF)心電図信号の特徴を含む。 ECG信号の準周期特性を考慮すると、伝達学習事前学習畳み込みニューラルネットワーク(CNN)モデルを用いてTMF画像から動的特徴を抽出することができる。 抽出した特徴により、多層パーセプトロン(MLP)、ロジスティック回帰、ランダムフォレストといった単純な分類器を正確な異常検出に適用することができる。 PhysioNet Challenge 2017データベースのテストデータセットでは、VGG16転送学習モデルとMLP分類器を用いたTMF分類モデルは、AF分類における95.50%のROC-AUCと88.43%のF1スコアで最高のパフォーマンスを示している。 さらに、TMF分類モデルは、テストデータセット内のAF患者を高精度に識別することができる。 TMF画像から抽出した特徴ベクトルは, t-distributed Stochastic Neighbor Embedding 法により, 患者側のクラスタリングが明確であった。 とりわけtmf分類モデルは非常に優れた臨床解釈性を有する。 対称勾配重み付けクラスアクティベーションマッピングによって明らかになったパターンは、ビートとリズムレベルでの明確な臨床解釈を持っている。

In the time-series analysis, the time series motifs and the order patterns in time series can reveal general temporal patterns and dynamic features. Triadic Motif Field (TMF) is a simple and effective time-series image encoding method based on triadic time series motifs. Electrocardiography (ECG) signals are time-series data widely used to diagnose various cardiac anomalies. The TMF images contain the features characterizing the normal and Atrial Fibrillation (AF) ECG signals. Considering the quasi-periodic characteristics of ECG signals, the dynamic features can be extracted from the TMF images with the transfer learning pre-trained convolutional neural network (CNN) models. With the extracted features, the simple classifiers, such as the Multi-Layer Perceptron (MLP), the logistic regression, and the random forest, can be applied for accurate anomaly detection. With the test dataset of the PhysioNet Challenge 2017 database, the TMF classification model with the VGG16 transfer learning model and MLP classifier demonstrates the best performance with the 95.50% ROC-AUC and 88.43% F1 score in the AF classification. Besides, the TMF classification model can identify AF patients in the test dataset with high precision. The feature vectors extracted from the TMF images show clear patient-wise clustering with the t-distributed Stochastic Neighbor Embedding technique. Above all, the TMF classification model has very good clinical interpretability. The patterns revealed by symmetrized Gradient-weighted Class Activation Mapping have a clear clinical interpretation at the beat and rhythm levels.
翻訳日:2021-05-16 01:52:26 公開日:2020-12-09
# 事前学習による知識追跡の改善

Improving Knowledge Tracing via Pre-training Question Embeddings ( http://arxiv.org/abs/2012.05031v1 )

ライセンス: Link先を確認
Yunfei Liu, Yang Yang, Xianyu Chen, Jian Shen, Haifeng Zhang, Yong Yu(参考訳) 知識追跡(KT)は、学生が過去の回答に基づいて正しい質問に答えられるかどうかを予測するタスクを定義する。 質問情報の利用に多くの研究が費やされているが、質問やスキルの高度な情報は十分に抽出されていないため、以前の作業が適切に実行されることは困難である。 本稿では,豊富な側情報に対する各質問に対する埋め込みを事前学習し,得られた埋め込みに関する深いKTモデルを訓練することにより,KTに対する大きな利得を実現できることを示す。 具体的には、質問の難易度と、質問とスキルの間の二部グラフに含まれる3種類の関係を含む。 質問の埋め込みを事前学習するために,製品ベースのニューラルネットワークを用いて副次情報を復元することを提案する。 その結果、既存の深部KTモデルに事前トレーニングされた埋め込みを採用することで、3つの共通KTデータセットの最先端ベースラインを著しく上回る結果となった。

Knowledge tracing (KT) defines the task of predicting whether students can correctly answer questions based on their historical response. Although much research has been devoted to exploiting the question information, plentiful advanced information among questions and skills hasn't been well extracted, making it challenging for previous work to perform adequately. In this paper, we demonstrate that large gains on KT can be realized by pre-training embeddings for each question on abundant side information, followed by training deep KT models on the obtained embeddings. To be specific, the side information includes question difficulty and three kinds of relations contained in a bipartite graph between questions and skills. To pre-train the question embeddings, we propose to use product-based neural networks to recover the side information. As a result, adopting the pre-trained embeddings in existing deep KT models significantly outperforms state-of-the-art baselines on three common KT datasets.
翻訳日:2021-05-16 01:52:02 公開日:2020-12-09
# 信頼できない資源制約のセル無線ネットワークにおけるフェデレーション学習

Federated Learning in Unreliable and Resource-Constrained Cellular Wireless Networks ( http://arxiv.org/abs/2012.05137v1 )

ライセンス: Link先を確認
Mohammad Salehi and Ekram Hossain(参考訳) 近年、スマートデバイス数の増加とハードウェアの進歩により、データ駆動機械学習技術が注目されている。 しかし、プライバシーや通信上の問題により、このデータを集中した場所で収集することは不可能である。 フェデレーション・ラーニング(Federated Learning)とは、遠隔デバイス上で学習モデルをトレーニングする機械学習環境である。 フェデレーション学習アルゴリズムは、無線媒体の信頼性とリソース制約の無い性質を考慮しない限り、現実のシナリオでは採用できない。 本稿では,セルラー無線ネットワークに適したフェデレーション学習アルゴリズムを提案する。 収束性を証明し、収束率を最大化する最適なスケジューリングポリシーを提供する。 また,局所計算ステップと通信ステップが提案アルゴリズムの収束に与える影響についても検討した。 実際に,無線チャネルの信頼性が低い場合,フェデレートされた学習アルゴリズムは,彼らが採用したアルゴリズムとは異なる問題を解くことができることを示す。 最後に,実データと合成データに関する数多くの実験を通じて,提案アルゴリズムの収束を実証する。

With growth in the number of smart devices and advancements in their hardware, in recent years, data-driven machine learning techniques have drawn significant attention. However, due to privacy and communication issues, it is not possible to collect this data at a centralized location. Federated learning is a machine learning setting where the centralized location trains a learning model over remote devices. Federated learning algorithms cannot be employed in the real world scenarios unless they consider unreliable and resource-constrained nature of the wireless medium. In this paper, we propose a federated learning algorithm that is suitable for cellular wireless networks. We prove its convergence, and provide the optimal scheduling policy that maximizes the convergence rate. We also study the effect of local computation steps and communication steps on the convergence of the proposed algorithm. We prove, in practice, federated learning algorithms may solve a different problem than the one that they have been employed for if the unreliability of wireless channels is neglected. Finally, through numerous experiments on real and synthetic datasets, we demonstrate the convergence of our proposed algorithm.
翻訳日:2021-05-16 01:51:48 公開日:2020-12-09
# 生成ニューラルネットワークモデルにおける推論としてのバインディングとパースペクティブ

Binding and Perspective Taking as Inference in a Generative Neural Network Model ( http://arxiv.org/abs/2012.05152v1 )

ライセンス: Link先を確認
Mahdi Sadeghi, Fabian Schrodt, Sebastian Otte, Martin V. Butz(参考訳) 異なる視点から、機能をコヒーレントな全体へ柔軟に結合する能力は、認知と知性の要点である。 重要なことは、結合問題は視覚だけでなく、汎用知能、感覚運動統合、イベント処理、言語にも関係している。 様々なニューラルネットワークモデルが、動的ニューラルネットワークと関連するアプローチでこの問題に取り組んでいる。 ここでは,そのパースペクティブを適用し,振り返り推論によって特徴を結合する生成エンコーダ・デコーダアーキテクチャに焦点を当てる。 まず、動的生体運動や振り子などの調和運動パターンを十分に正確に生成するモデルを学ぶようにモデルを訓練する。 そして、入力をある程度スクランブルし、おそらくその視点を変えて、予測エラーを結合マトリックス、すなわち特徴結合を決定する隠れた神経状態へと伝播させます。 さらに、我々は、入力特徴を既知の参照フレームに回転させ、翻訳するニューロンを捉える視点に誤りをさらに伝播させる。 評価の結果、勾配に基づく推定プロセスは既知の生体運動パターンの視点と結合問題を解決し、基本的にゲシュタルト知覚機構をもたらすことが示された。 さらに、冗長な特徴特性と集団符号化は非常に有用であることが示されている。 生体運動パターンのアルゴリズムを評価するが、原理的アプローチは他の領域における結合およびゲシュタルト知覚問題に適用すべきである。

The ability to flexibly bind features into coherent wholes from different perspectives is a hallmark of cognition and intelligence. Importantly, the binding problem is not only relevant for vision but also for general intelligence, sensorimotor integration, event processing, and language. Various artificial neural network models have tackled this problem with dynamic neural fields and related approaches. Here we focus on a generative encoder-decoder architecture that adapts its perspective and binds features by means of retrospective inference. We first train a model to learn sufficiently accurate generative models of dynamic biological motion or other harmonic motion patterns, such as a pendulum. We then scramble the input to a certain extent, possibly vary the perspective onto it, and propagate the prediction error back onto a binding matrix, that is, hidden neural states that determine feature binding. Moreover, we propagate the error further back onto perspective taking neurons, which rotate and translate the input features onto a known frame of reference. Evaluations show that the resulting gradient-based inference process solves the perspective taking and binding problem for known biological motion patterns, essentially yielding a Gestalt perception mechanism. In addition, redundant feature properties and population encodings are shown to be highly useful. While we evaluate the algorithm on biological motion patterns, the principled approach should be applicable to binding and Gestalt perception problems in other domains.
翻訳日:2021-05-16 01:51:33 公開日:2020-12-09
# 余剰サブプロブレムを用いたパラメータフリーフランクウルフのエンハンシング

Enhancing Parameter-Free Frank Wolfe with an Extra Subproblem ( http://arxiv.org/abs/2012.05284v1 )

ライセンス: Link先を確認
Bingcong Li, Lingda Wang, Georgios B. Giannakis, Zhizhen Zhao(参考訳) 構造制約下での凸最適化を目指して,frank wolfe (fw) アルゴリズムの変種である extrafw を導入し,解析する。 extrafwの特徴は、決定変数が予測修正(prediction-correcti on, pc)形式で更新されるため、イテレーション毎に利用される勾配のペアである。 ステップサイズに問題依存パラメータが存在しないことから、一般凸問題に対するExtraFWの収束率は${\cal O}(\frac{1}{k})$と示される。 しかし、ExtraFWの利点は、機械学習問題のクラスにおいてより高速な${\cal O}\big(\frac{1}{k^2} \big)$である。 他のパラメータフリーなFW変種と比較すると、同じ問題でより高速なレートを持つが、ExtraFWはPCのアップデートによって速度ときめ細かい分析を改善している。 空間的制約の異なるバイナリ分類の数値実験により、ExtraFWの実証性能はFWよりも著しく優れており、Nesterovの加速度勾配よりも高速であることが示された。 行列完備化のために、ExtraFWはFWよりも小さい最適性ギャップと低いランクを享受する。

Aiming at convex optimization under structural constraints, this work introduces and analyzes a variant of the Frank Wolfe (FW) algorithm termed ExtraFW. The distinct feature of ExtraFW is the pair of gradients leveraged per iteration, thanks to which the decision variable is updated in a prediction-correctio n (PC) format. Relying on no problem dependent parameters in the step sizes, the convergence rate of ExtraFW for general convex problems is shown to be ${\cal O}(\frac{1}{k})$, which is optimal in the sense of matching the lower bound on the number of solved FW subproblems. However, the merit of ExtraFW is its faster rate ${\cal O}\big(\frac{1}{k^2} \big)$ on a class of machine learning problems. Compared with other parameter-free FW variants that have faster rates on the same problems, ExtraFW has improved rates and fine-grained analysis thanks to its PC update. Numerical tests on binary classification with different sparsity-promoting constraints demonstrate that the empirical performance of ExtraFW is significantly better than FW, and even faster than Nesterov's accelerated gradient on certain datasets. For matrix completion, ExtraFW enjoys smaller optimality gap, and lower rank than FW.
翻訳日:2021-05-16 01:50:46 公開日:2020-12-09
# 磁気共鳴イメージングにおける機械学習:画像再構成

Machine Learning in Magnetic Resonance Imaging: Image Reconstruction ( http://arxiv.org/abs/2012.05303v1 )

ライセンス: Link先を確認
Javier Montalt-Tordera, Vivek Muthurangu, Andreas Hauptmann, Jennifer Anne Steeden(参考訳) 磁気共鳴イメージング(MRI)は多くの疾患の診断、管理、モニタリングにおいて重要な役割を担っている。 しかし、これは本質的に遅い画像技術である。 過去20年間で、並列イメージング、テンポラリエンコーディング、圧縮センシングは、k空間データの欠落行を正確に回復することにより、MRIデータの取得においてかなりのスピードアップを可能にした。 しかし, 再建に要する時間的特性や不自然な画像から, 特に圧縮センシングにおいて, 急速に加速する買収の臨床的取り込みは限られている。 幅広い画像処理タスクにおける機械学習の成功に続いて、MRI画像再構成分野における機械学習の利用が爆発的に増えている。 k空間および/または画像空間に適用可能な幅広いアプローチが提案されている。 自然に見える画像と高速な計算を可能にする様々な手法により、結果が実証されている。 本稿では,MRI再建における現在の機械学習アプローチについて概説し,その欠点,臨床応用,現状について考察する。

Magnetic Resonance Imaging (MRI) plays a vital role in diagnosis, management and monitoring of many diseases. However, it is an inherently slow imaging technique. Over the last 20 years, parallel imaging, temporal encoding and compressed sensing have enabled substantial speed-ups in the acquisition of MRI data, by accurately recovering missing lines of k-space data. However, clinical uptake of vastly accelerated acquisitions has been limited, in particular in compressed sensing, due to the time-consuming nature of the reconstructions and unnatural looking images. Following the success of machine learning in a wide range of imaging tasks, there has been a recent explosion in the use of machine learning in the field of MRI image reconstruction. A wide range of approaches have been proposed, which can be applied in k-space and/or image-space. Promising results have been demonstrated from a range of methods, enabling natural looking images and rapid computation. In this review article we summarize the current machine learning approaches used in MRI reconstruction, discuss their drawbacks, clinical applications, and current trends.
翻訳日:2021-05-16 01:50:24 公開日:2020-12-09
# 効率的な反復型安全検証のための伝達学習

Transfer Learning for Efficient Iterative Safety Validation ( http://arxiv.org/abs/2012.05336v1 )

ライセンス: Link先を確認
Anthony Corso and Mykel J. Kochenderfer(参考訳) 安全性検証は、安全クリティカルな自律システムの開発において重要であるが、かなりの計算努力を要する。 既存のアルゴリズムは、テスト中のシステムが変更するたびにスクラッチから始まることが多い。 伝達学習を応用して、関連するシステムに適用した場合の強化学習に基づく安全性検証アルゴリズムの効率を向上させる。 従来の安全検証タスクからの知識はアクション値関数を通じて符号化され、学習された注意重みで将来のタスクに転送される。 学習状態と各ソースタスクに対するアクション値変換を含めると、システムにはかなり異なる障害モードがある場合でも、パフォーマンスが向上する。 グリッドワールドおよび自律走行シナリオにおける安全検証タスクの実験を行う。 転送学習は、検証アルゴリズムの初期および最終性能を改善し、トレーニングステップの数を削減できることを示す。

Safety validation is important during the development of safety-critical autonomous systems but can require significant computational effort. Existing algorithms often start from scratch each time the system under test changes. We apply transfer learning to improve the efficiency of reinforcement learning based safety validation algorithms when applied to related systems. Knowledge from previous safety validation tasks is encoded through the action value function and transferred to future tasks with a learned set of attention weights. Including a learned state and action value transformation for each source task can improve performance even when systems have substantially different failure modes. We conduct experiments on safety validation tasks in gridworld and autonomous driving scenarios. We show that transfer learning can improve the initial and final performance of validation algorithms and reduce the number of training steps.
翻訳日:2021-05-16 01:50:08 公開日:2020-12-09
# 赤外音源データによる空間雑音認識温度検索

Spatial noise-aware temperature retrieval from infrared sounder data ( http://arxiv.org/abs/2012.05839v1 )

ライセンス: Link先を確認
David Malmgren-Hansen and Valero Laparra and Allan Aasbjerg Nielsen and Gustau Camps-Valls(参考訳) 本稿では,赤外線観測機から大気プロファイルを検索するための統合戦略を提案する。 このアプローチは空間情報とノイズ依存次元化アプローチを考察する。 抽出した特徴は正準線形回帰に入力される。 主成分分析 (PCA) と最小雑音分解 (MNF) を比較し, 抽出した特徴量のコンパクト性と情報量について検討した。 結果の評価は、多くの空間的および時間的状況をカバーする大きなデータセット上で行われる。 PCAはこれらの目的で広く利用されているが,本分析により,MNFを用いた場合の誤差率を大幅に改善できることが示された。 また,回帰モデルにより多くのスペクトル成分と空間成分を含む場合の誤差率改善の関係について検討し,モデル複雑性と誤差率とのトレードオフを明らかにすることを目的とした。

In this paper we present a combined strategy for the retrieval of atmospheric profiles from infrared sounders. The approach considers the spatial information and a noise-dependent dimensionality reduction approach. The extracted features are fed into a canonical linear regression. We compare Principal Component Analysis (PCA) and Minimum Noise Fraction (MNF) for dimensionality reduction, and study the compactness and information content of the extracted features. Assessment of the results is done on a big dataset covering many spatial and temporal situations. PCA is widely used for these purposes but our analysis shows that one can gain significant improvements of the error rates when using MNF instead. In our analysis we also investigate the relationship between error rate improvements when including more spectral and spatial components in the regression model, aiming to uncover the trade-off between model complexity and error rates.
翻訳日:2021-05-16 01:49:44 公開日:2020-12-09
# 特徴保存型オートエンコーダと自己相似性を用いたFew-shot分類器の逆支援検出

Detection of Adversarial Supports in Few-shot Classifiers Using Feature Preserving Autoencoders and Self-Similarity ( http://arxiv.org/abs/2012.06330v1 )

ライセンス: Link先を確認
Yi Xiang Marcus Tan, Penny Chong, Jiamei Sun, Yuval Elovici, Alexander Binder(参考訳) 限定的なトレーニングサンプルの下では、少数ショットの分類器が優れているため、実世界のアプリケーションで有用である。 しかし、反対サンプルの出現はそのような分類器の有効性を脅かす。 信頼性を保つためには、そのような攻撃に対する防衛策を検討する必要がある。 しかし、先行文献への精査により、この分野に大きなギャップが明らかになる。 そこで本研究では,特定の対象のクラスに対する少数の分類器の理解を破壊することを目的とした,敵対的支援セットを強調する検出戦略を提案する。 我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。 そのため,本手法は攻撃に非依存であり,その知識を最大限に活用するために,数発の分類器の検出を初めて検討した。 提案手法を用いる場合, miniImagenet と CUB のデータセットに対する評価は楽観的であり,AUROC のスコアが高い。

Few-shot classifiers excel under limited training samples, making it useful in real world applications. However, the advent of adversarial samples threatens the efficacy of such classifiers. For them to remain reliable, defences against such attacks must be explored. However, closer examination to prior literature reveals a big gap in this domain. Hence, in this work, we propose a detection strategy to highlight adversarial support sets, aiming to destroy a few-shot classifier's understanding of a certain class of objects. We make use of feature preserving autoencoder filtering and also the concept of self-similarity of a support set to perform this detection. As such, our method is attack-agnostic and also the first to explore detection for few-shot classifiers to the best of our knowledge. Our evaluation on the miniImagenet and CUB datasets exhibit optimism when employing our proposed approach, showing high AUROC scores for detection in general.
翻訳日:2021-05-16 01:49:32 公開日:2020-12-09
# 極多ラベルランキングを用いたセッションアウェアクエリ自動補完

Session-Aware Query Auto-completion using Extreme Multi-label Ranking ( http://arxiv.org/abs/2012.07654v1 )

ライセンス: Link先を確認
Nishant Yadav, Rajat Sen, Daniel N. Hill, Arya Mazumdar, Inderjit S. Dhillon(参考訳) クエリの自動補完は検索エンジンの基本的な機能であり、検索バーで入力されたプレフィックスの適切な補完を提案するタスクである。 ユーザセッションの以前のクエリは、ユーザの意図に有用なコンテキストを提供し、ユーザのプレフィックスに固執しながらより関連性の高い自動補完を提案するために利用することができる。 このようなセッションアウェアなクエリの自動補完はシーケンスからシーケンスへのモデルによって生成されるが、これらの生成的アプローチは各ユーザキーストロークに応答する厳密なレイテンシ要件を満たさないことが多い。 さらに、生成的アプローチでは、非意味なクエリを示す危険性がある。 別の解決策は、関連するクエリの比較的小さなサブセットをプレコンパイルし、コンテキストに基づいてそれらをランク付けすることである。 しかし、現在のコンテキストに関する関連するクエリが事前に計算されたセットに存在しない場合、そのようなアプローチは失敗する。 本稿では,セッションアウェアな問合せ自動補完を,セッションの前の問合せと現在の接頭辞が入力であり,出力空間が近年ユーザが入力した数百万の問合せの集合である極端なマルチラベルランキング(xmr)問題としてモデル化する,新たな手法を提案する。 この目的のために、アルゴリズムの重要なステップにいくつかの変更を加えることで、人気のあるXMRアルゴリズムを適用する。 提案する修正により、公開検索ログデータセットにおけるベースラインxmrアプローチよりも平均相互ランクで230%改善される。 提案手法では,提案するセッション情報を活用しながら,自動補完システムの待ち時間要件を満たす。 特に,最大3文字の短いプレフィックスでは,レイテンシ要件を満たすベースラインに対して32%改善されている。

Query auto-completion is a fundamental feature in search engines where the task is to suggest plausible completions of a prefix typed in the search bar. Previous queries in the user session can provide useful context for the user's intent and can be leveraged to suggest auto-completions that are more relevant while adhering to the user's prefix. Such session-aware query auto-completions can be generated by sequence-to-sequence models; however, these generative approaches often do not meet the stringent latency requirements of responding to each user keystroke. Moreover, there is a danger of showing non-sensical queries in a generative approach. Another solution is to pre-compute a relatively small subset of relevant queries for common prefixes and rank them based on the context. However, such an approach would fail if no relevant queries for the current context are present in the pre-computed set. In this paper, we provide a solution to this problem: we take the novel approach of modeling session-aware query auto-completion as an eXtreme Multi-Label Ranking (XMR) problem where the input is the previous query in the session and the user's current prefix, while the output space is the set of millions of queries entered by users in the recent past. We adapt a popular XMR algorithm for this purpose by proposing several modifications to the key steps in the algorithm. The proposed modifications yield a 230% improvement in terms of Mean Reciprocal Rank over the baseline XMR approach on a public search logs dataset. Our approach meets the stringent latency requirements for auto-complete systems while leveraging session information in making suggestions. We show that session context leads to significant improvements in the quality of query auto-completions; in particular, for short prefixes with up to 3 characters, we see a 32% improvement over baselines that meet latency requirements.
翻訳日:2021-05-16 01:49:20 公開日:2020-12-09
# 多時期雲検出のための深層ネットワークアプローチ

A deep network approach to multitemporal cloud detection ( http://arxiv.org/abs/2012.10393v1 )

ライセンス: Link先を確認
Devis Tuia, Benjamin Kellenberger, Adrian P\'erez-Suay, Gustau Camps-Valls(参考訳) 本稿では,メテオサット第2世代(MSG)衛星に搭載されたセビリ撮像装置によって得られた画像時系列中の雲を検出するための時間記憶を用いた深層学習モデルを提案する。 このモデルは、関連する信頼度を持つピクセルレベルのクラウドマップを提供し、リカレントニューラルネットワーク構造を介して時間内に情報を伝搬する。 単一のモデルで、一年中、日中、夜の間、高い精度で雲を概説することができます。

We present a deep learning model with temporal memory to detect clouds in image time series acquired by the Seviri imager mounted on the Meteosat Second Generation (MSG) satellite. The model provides pixel-level cloud maps with related confidence and propagates information in time via a recurrent neural network structure. With a single model, we are able to outline clouds along all year and during day and night with high accuracy.
翻訳日:2021-05-16 01:48:52 公開日:2020-12-09
# 気候モデル出力統計の深層学習

Deep Learning for Climate Model Output Statistics ( http://arxiv.org/abs/2012.10394v1 )

ライセンス: Link先を確認
Michael Steininger, Daniel Abel, Katrin Ziegler, Anna Krause, Heiko Paeth, Andreas Hotho(参考訳) 気候モデルは将来的な気候変動の影響を評価する上で重要なツールであるが、特に降水量の体系的・表現的誤差に苦しむ。 モデル出力統計(MOS)は、モデル出力を観測データと機械学習に適合させてこれらの誤差を低減する。 本研究では,mos用畳み込みニューラルネットワーク(cnns)を用いた深層学習の実現可能性と可能性について検討する。 本稿では,気候モデル出力の誤差を低減するためのCNNアーキテクチャであるConvMOSを提案し,それを気候モデルREMOに適用する。 その結果,誤りが大幅に減少し,一般的に使用されている3つのmosアプローチに比べて性能が向上した。

Climate models are an important tool for the assessment of prospective climate change effects but they suffer from systematic and representation errors, especially for precipitation. Model output statistics (MOS) reduce these errors by fitting the model output to observational data with machine learning. In this work, we explore the feasibility and potential of deep learning with convolutional neural networks (CNNs) for MOS. We propose the CNN architecture ConvMOS specifically designed for reducing errors in climate model outputs and apply it to the climate model REMO. Our results show a considerable reduction of errors and mostly improved performance compared to three commonly used MOS approaches.
翻訳日:2021-05-16 01:48:45 公開日:2020-12-09
# 畳み込みネットワークを用いた大気パラメータ検索のための転送学習

Transfer Learning with Convolutional Networks for Atmospheric Parameter Retrieval ( http://arxiv.org/abs/2012.10395v1 )

ライセンス: Link先を確認
David Malmgren-Hansen and Allan Aasbjerg Nielsen and Valero Laparra and Gustau Camps- Valls(参考訳) MetOp衛星シリーズに搭載されている赤外線音波干渉計(IASI)は、数値気象予測(NWP)に重要な測定値を提供する。 IASIが提供する生データから正確な大気パラメータを取得することは大きな課題であるが、NWPモデルでデータを使用するには必要である。 統計的モデルの性能は、非常に高いスペクトル次元と、大気列をまたいで同時に予測すべき変数の多さによって損なわれる。 これらすべてが最適なモデルと処理スキームの選択と研究に挑戦する。 初期の研究では、カーネルメソッドやニューラルネットワークのような非線形モデルがこのタスクでうまく機能することを示したが、どちらのスキームも大量のデータに計算量重くなっている。 カーネルメソッドはトレーニングデータ数とうまくスケールせず、ニューラルネットワークは重要なハイパーパラメータを設定する必要がある。 本研究では、畳み込みニューラルネット(CNN)における伝達学習について研究し、関連する変数に対する以前に訓練されたモデルから得られたプロキシソリューション(特徴またはネットワーク)から逸脱することで、再学習コストを軽減する。 本研究では,iasiデータから抽出した特徴を,低い高度で異なる物理変数を予測するように設計された別の統計手法への入力として使用できることを示す。 さらに、学習したパラメータを別のCNNモデルに転送し、スクラッチからトレーニングされたCNNを使用する場合、微調整のみを必要とする結果が得られる。

The Infrared Atmospheric Sounding Interferometer (IASI) on board the MetOp satellite series provides important measurements for Numerical Weather Prediction (NWP). Retrieving accurate atmospheric parameters from the raw data provided by IASI is a large challenge, but necessary in order to use the data in NWP models. Statistical models performance is compromised because of the extremely high spectral dimensionality and the high number of variables to be predicted simultaneously across the atmospheric column. All this poses a challenge for selecting and studying optimal models and processing schemes. Earlier work has shown non-linear models such as kernel methods and neural networks perform well on this task, but both schemes are computationally heavy on large quantities of data. Kernel methods do not scale well with the number of training data, and neural networks require setting critical hyperparameters. In this work we follow an alternative pathway: we study transfer learning in convolutional neural nets (CNN s) to alleviate the retraining cost by departing from proxy solutions (either features or networks) obtained from previously trained models for related variables. We show how features extracted from the IASI data by a CNN trained to predict a physical variable can be used as inputs to another statistical method designed to predict a different physical variable at low altitude. In addition, the learned parameters can be transferred to another CNN model and obtain results equivalent to those obtained when using a CNN trained from scratch requiring only fine tuning.
翻訳日:2021-05-16 01:48:36 公開日:2020-12-09
# PROBA-Vのためのクラウド検出機械学習アルゴリズム

Cloud detection machine learning algorithms for PROBA-V ( http://arxiv.org/abs/2012.10396v1 )

ライセンス: Link先を確認
Luis G\'omez-Chova, Gonzalo Mateo-Garc\'ia, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls(参考訳) 本稿では,Proba-Vのためのクラウド検出アルゴリズムの開発と実装について述べる。 衛星シーンにおける雲の高精度かつ自動検出は、幅広いリモートセンシングアプリケーションにとって重要な課題である。 正確な雲のマスキングがないため、未検出の雲は海洋と陸両方の生物物理パラメーターの探索において最も重要なエラー源の1つである。 本論文で提示されるアルゴリズムの目的は,ピクセル当たりのクラウドフラグを正確に提示するクラウドを検出することである。 この目的のために、統計的機械学習技術を用いてproba-vの情報を活用し、proba-v製品に存在する雲を識別する。 提案手法の有効性を,多数の実proba-v画像を用いて検証した。

This paper presents the development and implementation of a cloud detection algorithm for Proba-V. Accurate and automatic detection of clouds in satellite scenes is a key issue for a wide range of remote sensing applications. With no accurate cloud masking, undetected clouds are one of the most significant sources of error in both sea and land cover biophysical parameter retrieval. The objective of the algorithms presented in this paper is to detect clouds accurately providing a cloud flag per pixel. For this purpose, the method exploits the information of Proba-V using statistical machine learning techniques to identify the clouds present in Proba-V products. The effectiveness of the proposed method is successfully illustrated using a large number of real Proba-V images.
翻訳日:2021-05-16 01:48:11 公開日:2020-12-09
# 顔の表情がパーキンソン病を検知する―オンラインビデオから予備的証拠

Facial expressions can detect Parkinson's disease: preliminary evidence from videos collected online ( http://arxiv.org/abs/2012.05373v1 )

ライセンス: Link先を確認
Mohammad Rafayet Ali, Taylor Myers, Ellen Wagner, Harshil Ratnu, E. Ray Dorsey, Ehsan Hoque(参考訳) パーキンソン病(PD)の症状の1つは低酸素症または表情低下である。 本稿では,マイクロ表現の研究を活かしたpd用デジタルバイオマーカーを提案する。 ウェブベースのツール(www.parktest.net)を用いて,604人(PDは61人,PDは533人,PDは63.9人,sd 7.8人)の顔行動単位(AU)をオンラインで収集した。 これらのビデオでは、参加者は3つの表情(笑顔、嫌悪感、驚きの顔)と中立的な顔を作るように求められた。 コンピュータビジョンと機械学習の手法を用いて,顔面筋運動の変動を客観的に測定し,PDの有無の識別に利用した。 顔面微小表現を用いた予測精度は運動症状を利用した手法と比較した。 ロジスティック回帰分析の結果,PD患者は非PD患者よりもAU6,AU12,AU4のばらつきが低かった。 サポートベクターマシンを用いた自動分類器を分散法で訓練し,95.6%の精度を得た。 PDのバイオマーカーとして顔表現を使用することは、物理的分離が必要な患者(例えば、新型コロナウイルスによる)や不活化患者にとって、潜在的にトランスフォーメーションをもたらす可能性がある。

One of the symptoms of Parkinson's disease (PD) is hypomimia or reduced facial expressions. In this paper, we present a digital biomarker for PD that utilizes the study of micro-expressions. We analyzed the facial action units (AU) from 1812 videos of 604 individuals (61 with PD and 543 without PD, mean age 63.9 yo, sd 7.8 ) collected online using a web-based tool (www.parktest.net). In these videos, participants were asked to make three facial expressions (a smiling, disgusted, and surprised face) followed by a neutral face. Using techniques from computer vision and machine learning, we objectively measured the variance of the facial muscle movements and used it to distinguish between individuals with and without PD. The prediction accuracy using the facial micro-expressions was comparable to those methodologies that utilize motor symptoms. Logistic regression analysis revealed that participants with PD had less variance in AU6 (cheek raiser), AU12 (lip corner puller), and AU4 (brow lowerer) than non-PD individuals. An automated classifier using Support Vector Machine was trained on the variances and achieved 95.6% accuracy. Using facial expressions as a biomarker for PD could be potentially transformative for patients in need of physical separation (e.g., due to COVID) or are immobile.
翻訳日:2021-05-16 01:48:02 公開日:2020-12-09
# フォグコンピューティング環境における分散分析の最適化コスト対精度

Optimising cost vs accuracy of decentralised analytics in fog computing environments ( http://arxiv.org/abs/2012.05266v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Andrea Passarella, Marco Conti(参考訳) インターネットの端におけるデバイスとデータの指数関数的な成長は、リモートクラウドプラットフォームのみに基づくアプローチに対するスケーラビリティとプライバシの懸念を高めている。 フォグコンピューティングの基本的な概念であるデータ重力は、データ分析のための計算の分散化を、これらの問題に対処するための実行可能な代替手段として挙げている。 複数の協力デバイス上のAIタスクの分散化は、完全な集中化(すなわち、単一のデバイス上のすべてのデータ)と完全な分散化(すなわち、ソース位置のデータ)の間の連続体において、最適な場所またはコレクションポイント(CP)を特定することを意味する。 本稿では,この連続体における最適動作点を見つけるための分析フレームワークを提案する。学習タスクの精度を,データ移動とCPでの分散トレーニングの実行に充てて,対応する \emph{network} と \emph{computational} のコストにリンクする。 シミュレーションにより、モデルが最適トレードオフを正確に予測できることを示し、完全集中化と完全分散化の間の \emph{intermediate} ポイントをしばしば示し、w.r.t.の大幅なコスト削減も示した。 2人とも 最後に、分析モデルはクローズドフォームまたは数値ソリューションを認め、パフォーマンス評価器だけでなく、デプロイ前に所定の分散学習タスクを最適に構成する設計ツールも提供する。

The exponential growth of devices and data at the edges of the Internet is rising scalability and privacy concerns on approaches based exclusively on remote cloud platforms. Data gravity, a fundamental concept in Fog Computing, points towards decentralisation of computation for data analysis, as a viable alternative to address those concerns. Decentralising AI tasks on several cooperative devices means identifying the optimal set of locations or Collection Points (CP for short) to use, in the continuum between full centralisation (i.e., all data on a single device) and full decentralisation (i.e., data on source locations). We propose an analytical framework able to find the optimal operating point in this continuum, linking the accuracy of the learning task with the corresponding \emph{network} and \emph{computational} cost for moving data and running the distributed training at the CPs. We show through simulations that the model accurately predicts the optimal trade-off, quite often an \emph{intermediate} point between full centralisation and full decentralisation, showing also a significant cost saving w.r.t. both of them. Finally, the analytical model admits closed-form or numeric solutions, making it not only a performance evaluation instrument but also a design tool to configure a given distributed learning task optimally before its deployment.
翻訳日:2021-05-16 01:46:50 公開日:2020-12-09
# 充電精度と充電プロファイル予測を考慮した電気自動車の残充電時間推定

Electric Vehicle Battery Remaining Charging Time Estimation Considering Charging Accuracy and Charging Profile Prediction ( http://arxiv.org/abs/2012.05352v1 )

ライセンス: Link先を確認
Junzhe Shi, Min Tian, Sangwoo Han, Tung-Yan Wu, Yifan Tang(参考訳) 近年、電気自動車(ev)の人気が急速に高まり、将来的なトレンドとなっている。 信頼性のあるevの残りの充電時間(rct)を知ることは、ユーザエクスペリエンスの重要な側面である。 しかし、現在のEV市場における車両のRCTを正確に推定するアルゴリズムを見つけることは困難である。 Tesla Model Xの最大RDT推定誤差は、直流(DC)を充電しながら、10%から99パーセントの充電(SOC)まで60分まで最大となる。 電気自動車の高精度なRTT推定アルゴリズムは需要が高く、EVがより普及するにつれて、今後も続くだろう。 現在、正確なRCT推定に到達するには2つの課題がある。 まず、ほとんどの商用充電器は、一定の電流(CC)の段階で要求される充電電流を供給できない。 第2に、定電圧(cv)段階における帯電電流プロファイルの予測が困難である。 そこで本研究では,過去の充電精度とリアルタイム充電精度データとの信頼区間を考慮し,ccステージにおける充電精度をオンラインに更新するrctアルゴリズムを提案する。 第2の問題を解決するために,ラジアル基底関数(rbf)ニューラルネットワーク(nn)を用いて,cvステージにおける充電電流プロファイルを予測するためのバッテリ抵抗予測モデルを提案する。 実験の結果,本研究で提案するrctアルゴリズムは,ccおよびcvの従来手法と比較して,73.6 %,84.4 %の誤差率向上を達成した。

Electric vehicles (EVs) have been growing rapidly in popularity in recent years and have become a future trend. It is an important aspect of user experience to know the Remaining Charging Time (RCT) of an EV with confidence. However, it is difficult to find an algorithm that accurately estimates the RCT for vehicles in the current EV market. The maximum RCT estimation error of the Tesla Model X can be as high as 60 minutes from a 10 % to 99 % state-of-charge (SOC) while charging at direct current (DC). A highly accurate RCT estimation algorithm for electric vehicles is in high demand and will continue to be as EVs become more popular. There are currently two challenges to arriving at an accurate RCT estimate. First, most commercial chargers cannot provide requested charging currents during a constant current (CC) stage. Second, it is hard to predict the charging current profile in a constant voltage (CV) stage. To address the first issue, this study proposes an RCT algorithm that updates the charging accuracy online in the CC stage by considering the confidence interval between the historical charging accuracy and real-time charging accuracy data. To solve the second issue, this study proposes a battery resistance prediction model to predict charging current profiles in the CV stage, using a Radial Basis Function (RBF) neural network (NN). The test results demonstrate that the RCT algorithm proposed in this study achieves an error rate improvement of 73.6 % and 84.4 % over the traditional method in the CC and CV stages, respectively.
翻訳日:2021-05-16 01:46:27 公開日:2020-12-09
# 量子格子ゲージ理論のためのゲージ等価ニューラルネットワーク

Gauge equivariant neural networks for quantum lattice gauge theories ( http://arxiv.org/abs/2012.05232v1 )

ライセンス: Link先を確認
Di Luo, Giuseppe Carleo, Bryan K. Clark, and James Stokes(参考訳) ゲージ対称性は、基本粒子の量子場理論や量子物質における創発的自由度といった領域に現れる物理学において重要な役割を果たす。 厳密な局所ゲージ不変量を持つ多体量子システムを効率的にシミュレートしたいという願望により、ゲージ同変ニューラルネットワーク量子状態が導入され、異なる幾何学上のzdゲージ群を持つ量子格子ゲージ理論の記述に必要な局所ヒルベルト空間の制約を正確に満たした。 周期的に特定された正方格子上のZ2ゲージ群の特別な場合に着目し、同変アーキテクチャは特別な場合としてループガス解を含むように解析的に示される。 ゲージ同変ニューラルネットワーク量子状態は、変分量子モンテカルロと組み合わせて、正確な可解極限からz2理論の基底状態波動関数のコンパクトな記述を得て、ウィルソンループ次数パラメータの閉じ込め/解解位相遷移を実証するために用いられる。

Gauge symmetries play a key role in physics appearing in areas such as quantum field theories of the fundamental particles and emergent degrees of freedom in quantum materials. Motivated by the desire to efficiently simulate many-body quantum systems with exact local gauge invariance, gauge equivariant neural-network quantum states are introduced, which exactly satisfy the local Hilbert space constraints necessary for the description of quantum lattice gauge theory with Zd gauge group on different geometries. Focusing on the special case of Z2 gauge group on a periodically identified square lattice, the equivariant architecture is analytically shown to contain the loop-gas solution as a special case. Gauge equivariant neural-network quantum states are used in combination with variational quantum Monte Carlo to obtain compact descriptions of the ground state wavefunction for the Z2 theory away from the exactly solvable limit, and to demonstrate the confining/deconfinin g phase transition of the Wilson loop order parameter.
翻訳日:2021-05-16 01:45:46 公開日:2020-12-09