このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200701となっている論文です。

PDF登録状況(公開日: 20200701)

TitleAuthorsAbstract論文公表日・翻訳日
# FP-Stereo: 組み込みアプリケーションのためのハードウェア効率の良いステレオビジョン

FP-Stereo: Hardware-Efficient Stereo Vision for Embedded Applications ( http://arxiv.org/abs/2006.03250v4 )

ライセンス: Link先を確認
Jieru Zhao, Tingyuan Liang, Liang Feng, Wenchao Ding, Sharad Sinha, Wei Zhang and Shaojie Shen(参考訳) 高速かつ正確な深度推定(ステレオマッチング)は組込みステレオビジョンシステムにおいて必須であり、精度、速度、ハードウェアコストの適切なバランスを達成するためにかなりの設計努力を必要とする。 設計の労力を削減し、適切なバランスを達成するため、FPGA上で高速なステレオマッチングパイプラインを自動構築するFP-Stereoを提案する。 FP-Stereoはオープンソースなハードウェア効率のライブラリで構成されており、デザイナは即座にその実装を入手することができる。 ステレオマッチングパイプラインの各ステージにおいて,多様な手法がライブラリでサポートされ,並列性を活用し,リソースオーバーヘッドを削減するための一連の手法が開発されている。 ユーザビリティを向上させるため、FP-StereoはFPGAアクセラレータの合成可能なCコードを自動的に生成する。 特定のアプリケーション要件を満たす適切な設計選択をユーザにガイドするために、ライブラリのさまざまな構成について詳細な比較を行い、精度/速度/コストトレードオフを調査します。 実験の結果、FP-Stereoは6.08%のエラー、2倍の高速化、2倍のリソース使用率、40%のエネルギー消費など、あらゆる面から最先端FPGA設計よりも優れていた。 GPU設計と比較して、FP-Stereoは競争速度で同じ精度を達成し、エネルギーをはるかに消費する。

Fast and accurate depth estimation, or stereo matching, is essential in embedded stereo vision systems, requiring substantial design effort to achieve an appropriate balance among accuracy, speed and hardware cost. To reduce the design effort and achieve the right balance, we propose FP-Stereo for building high-performance stereo matching pipelines on FPGAs automatically. FP-Stereo consists of an open-source hardware-efficient library, allowing designers to obtain the desired implementation instantly. Diverse methods are supported in our library for each stage of the stereo matching pipeline and a series of techniques are developed to exploit the parallelism and reduce the resource overhead. To improve the usability, FP-Stereo can generate synthesizable C code of the FPGA accelerator with our optimized HLS templates automatically. To guide users for the right design choice meeting specific application requirements, detailed comparisons are performed on various configurations of our library to investigate the accuracy/speed/cost trade-off. Experimental results also show that FP-Stereo outperforms the state-of-the-art FPGA design from all aspects, including 6.08% lower error, 2x faster speed, 30% less resource usage and 40% less energy consumption. Compared to GPU designs, FP-Stereo achieves the same accuracy at a competitive speed while consuming much less energy.
翻訳日:2022-11-25 04:38:24 公開日:2020-07-01
# 定量的ct画像を用いた深部学習に基づく大腿骨近位部の自動セグメンテーション法

A Deep Learning-Based Method for Automatic Segmentation of Proximal Femur from Quantitative Computed Tomography Images ( http://arxiv.org/abs/2006.05513v3 )

ライセンス: Link先を確認
Chen Zhao, Joyce H. Keyak, Jinshan Tang, Tadashi S. Kaneko, Sundeep Khosla, Shreyasee Amin, Elizabeth J. Atkinson, Lan-Juan Zhao, Michael J. Serou, Chaoyang Zhang, Hui Shen, Hong-Wen Deng, Weihua Zhou(参考訳) 目的: 定量的ctによる大腿骨近位画像解析は, 骨密度を定量化し, 骨粗しょう症および骨折の危険度を評価する方法である。 本研究の目的は, 深層学習に基づく大腿骨近位偏位自動分割法の開発である。 方法と材料: 終端から終端までの完全畳み込みニューラルネットワーク(CNN)であるV-Netに基づく3次元画像分割法を開発し, 大腿骨近位部QCT画像の自動抽出を行った。 提案するv-net手法では、ダイス損失とl2正規化子を含む複合損失関数を採用する。 提案手法の有効性を評価する実験を行った。 実験では, 被験者397名を含むQCTデータセットを用いた。 各被験者のQCT像では, 大腿骨近位部の真理はよく訓練された科学者によって明らかにされた。 コホート全体の実験では、被験者の90%が10倍のクロスバリデーションでトレーニングと内部検証を行い、提案モデルの最適パラメータを選定し、残りの被験者はモデルの性能評価に使用した。 結果: qct画像の大腿骨近位部におけるモデル予測と基底真理輪郭との間に高い一致を示した。 コホート全体において、提案されたモデルはディススコア 0.9815、感度 0.9852、特異度 0.9992 を達成した。 さらに, モデル予測による実測値と実測値を比較すると, 0.9956 (p<0.001) の R2 スコアが得られた。 結論: この方法は, 大腿骨近位部におけるQCTおよびQCTに基づく有限要素解析に臨床応用が期待できることを示す。

Purpose: Proximal femur image analyses based on quantitative computed tomography (QCT) provide a method to quantify the bone density and evaluate osteoporosis and risk of fracture. We aim to develop a deep-learning-based method for automatic proximal femur segmentation. Methods and Materials: We developed a 3D image segmentation method based on V-Net, an end-to-end fully convolutional neural network (CNN), to extract the proximal femur QCT images automatically. The proposed V-net methodology adopts a compound loss function, which includes a Dice loss and a L2 regularizer. We performed experiments to evaluate the effectiveness of the proposed segmentation method. In the experiments, a QCT dataset which included 397 QCT subjects was used. For the QCT image of each subject, the ground truth for the proximal femur was delineated by a well-trained scientist. During the experiments for the entire cohort then for male and female subjects separately, 90% of the subjects were used in 10-fold cross-validation for training and internal validation, and to select the optimal parameters of the proposed models; the rest of the subjects were used to evaluate the performance of models. Results: Visual comparison demonstrated high agreement between the model prediction and ground truth contours of the proximal femur portion of the QCT images. In the entire cohort, the proposed model achieved a Dice score of 0.9815, a sensitivity of 0.9852 and a specificity of 0.9992. In addition, an R2 score of 0.9956 (p<0.001) was obtained when comparing the volumes measured by our model prediction with the ground truth. Conclusion: This method shows a great promise for clinical application to QCT and QCT-based finite element analysis of the proximal femur for evaluating osteoporosis and hip fracture risk.
翻訳日:2022-11-23 15:46:58 公開日:2020-07-01
# ベイズ学習による信頼性分子教師あり学習のベンチマーク研究

A benchmark study on reliable molecular supervised learning via Bayesian learning ( http://arxiv.org/abs/2006.07021v2 )

ライセンス: Link先を確認
Doyeong Hwang, Grace Lee, Hanseok Jo, Seyoul Yoon, and Seongok Ryu(参考訳) 仮想スクリーニングは計算手法を用いて化学図書館から望ましい化合物を見つけることを目的としている。 この機械学習の目的のために、予測確率として解釈できるモデル出力は、高い予測スコアが高い正確性の確率に対応するという点で有益である。 本稿では,最近提案されたベイズ学習アルゴリズムを用いて学習したグラフニューラルネットワークの予測性能と信頼性について述べる。 ベイズ学習アルゴリズムは,様々なGNNアーキテクチャや分類タスクに対して,よく校正された予測を可能にする。 また,仮想スクリーニングにおける信頼性の高い予測が,ベイズ学習がヒット化合物の発見を成功させる可能性を示す。

Virtual screening aims to find desirable compounds from chemical library by using computational methods. For this purpose with machine learning, model outputs that can be interpreted as predictive probability will be beneficial, in that a high prediction score corresponds to high probability of correctness. In this work, we present a study on the prediction performance and reliability of graph neural networks trained with the recently proposed Bayesian learning algorithms. Our work shows that Bayesian learning algorithms allow well-calibrated predictions for various GNN architectures and classification tasks. Also, we show the implications of reliable predictions on virtual screening, where Bayesian learning may lead to higher success in finding hit compounds.
翻訳日:2022-11-22 02:41:17 公開日:2020-07-01
# アダプティブ郡レベルのcovid-19予測モデル:分析と改善

Adaptive County Level COVID-19 Forecast Models: Analysis and Improvement ( http://arxiv.org/abs/2006.12617v2 )

ライセンス: Link先を確認
Stewart W Doe, Tyler Russell Seekins, David Fitzpatrick, Dawsin Blanchard, Salimeh Yasaei Sekeh(参考訳) 医療資源の最適化には、郡レベルの感染者を正確に予測することが不可欠である。 多くの既存の予測技術が歴史的季節の傾向から学んでいるため、流行の予測は特に課題となる。 LSTM細胞をベースとしたリカレントニューラルネットワーク(RNN)は、時間力学を学習する能力のため、モデルの論理的な選択である。 本稿では,王らによって提案された州および郡レベルのインフルエンザモデルであるTDEFSI-LONLYを適応する。 全国および郡レベルのCOVID-19データに対する[l2020]。 このモデルが現在のパンデミックを予測できないことを示している。 我々はTDEFSI-LONLYモデルの2週間前の予測能力と正規化手法の組み合わせを分析した。 TDEFSI-LONLYモデルの効果的なトレーニングにはデータ拡張が必要であり、この課題を克服するために、SEIRモデルを使用し、このモデルに郡間混合拡張を行い、十分なトレーニングデータをシミュレートする。 さらに、低次元の時間パターンを学習するためにLSTMバックボーンを全国的に訓練し、時間分散密度層を用いて、各郡の個別のケース変化を2週間の予測で学習する、代替予測モデル {\it County Level Epidemiological Inference Recurrent Network} (\alg{})を提案する。 CLEIR-Netモデルを用いた最高の、最悪の、中央値の予測は、それぞれニューヨーク、サウスカロライナ、モンタナである。

Accurately forecasting county level COVID-19 confirmed cases is crucial to optimizing medical resources. Forecasting emerging outbreaks pose a particular challenge because many existing forecasting techniques learn from historical seasons trends. Recurrent neural networks (RNNs) with LSTM-based cells are a logical choice of model due to their ability to learn temporal dynamics. In this paper, we adapt the state and county level influenza model, TDEFSI-LONLY, proposed in Wang et a. [l2020] to national and county level COVID-19 data. We show that this model poorly forecasts the current pandemic. We analyze the two week ahead forecasting capabilities of the TDEFSI-LONLY model with combinations of regularization techniques. Effective training of the TDEFSI-LONLY model requires data augmentation, to overcome this challenge we utilize an SEIR model and present an inter-county mixing extension to this model to simulate sufficient training data. Further, we propose an alternate forecast model, {\it County Level Epidemiological Inference Recurrent Network} (\alg{}) that trains an LSTM backbone on national confirmed cases to learn a low dimensional time pattern and utilizes a time distributed dense layer to learn individual county confirmed case changes each day for a two weeks forecast. We show that the best, worst, and median state forecasts made using CLEIR-Net model are respectively New York, South Carolina, and Montana.
翻訳日:2022-11-20 20:40:18 公開日:2020-07-01
# オープンエンドビジュアルカウントのための統計的ショートカットの克服

Overcoming Statistical Shortcuts for Open-ended Visual Counting ( http://arxiv.org/abs/2006.10079v2 )

ライセンス: Link先を確認
Corentin Dancette and Remi Cadene and Xinlei Chen and Matthieu Cord(参考訳) 機械学習モデルは統計的ショートカットに過剰に依存する傾向がある。 これらの入力の一部と出力ラベルの間のスプリアス相関は、現実世界の設定では保持されない。 本課題は,統計的近道の研究に好適な最近オープンエンドビジュアルカウントタスクを対象とする。 出力ラベルに関係なく、カウントする適切なメカニズムを学ぶモデルを開発することを目指している。 まず,統計ショートカットに過度に依存するモデルをペナライズするmodifieding count distribution (mcd)プロトコルを提案する。 これはトレーニングセットとテストセットのペアに基づいており、奇数偶数集合のような同じカウントラベル分布に従わない。 直観的には、奇数にカウントする適切なメカニズムを学習したモデルは偶数に対してうまく機能する。 第2に、視覚分析と自然言語質問に基づく数え上げに特化した空間カウントネットワーク(SCN)を導入する。 本モデルでは, 画像領域を選択し, 融合と自己認識機構でスコアし, 最終的なカウントスコアを提供する。 このプロトコルを最近のデータセットであるTallyQAに適用し、最先端モデルと比較して優れた性能を示す。 また、モデルが画像にカウントする正しいインスタンスを選択する能力も示しています。 コードとデータセット: https://github.com/cdancette/spatial-counting-network

Machine learning models tend to over-rely on statistical shortcuts. These spurious correlations between parts of the input and the output labels does not hold in real-world settings. We target this issue on the recent open-ended visual counting task which is well suited to study statistical shortcuts. We aim to develop models that learn a proper mechanism of counting regardless of the output label. First, we propose the Modifying Count Distribution (MCD) protocol, which penalizes models that over-rely on statistical shortcuts. It is based on pairs of training and testing sets that do not follow the same count label distribution such as the odd-even sets. Intuitively, models that have learned a proper mechanism of counting on odd numbers should perform well on even numbers. Secondly, we introduce the Spatial Counting Network (SCN), which is dedicated to visual analysis and counting based on natural language questions. Our model selects relevant image regions, scores them with fusion and self-attention mechanisms, and provides a final counting score. We apply our protocol on the recent dataset, TallyQA, and show superior performances compared to state-of-the-art models. We also demonstrate the ability of our model to select the correct instances to count in the image. Code and datasets are available: https://github.com/cdancette/spatial-counting-network
翻訳日:2022-11-19 19:08:19 公開日:2020-07-01
# G像分割:ウェーブレット空間における空間情報制約と類似性保存ファジィC値

G-image Segmentation: Similarity-preserving Fuzzy C-Means with Spatial Information Constraint in Wavelet Space ( http://arxiv.org/abs/2006.11510v2 )

ライセンス: Link先を確認
Cong Wang and Witold Pedrycz and ZhiWu Li and MengChu Zhou and Shuzhi Sam Ge(参考訳) G画像は不規則なグラフ領域で定義された画像データを指す。 本研究は,g画像セグメンテーションのための類似性保存ファジィc-means (fcm)アルゴリズムを詳述し,g画像セグメンテーション手法とツールの開発を目的とする。 任意の画像画素とその近傍の会員類似性を維持するため、FCMの一部として、会員分割に関するクルバック・リーブラー分岐項を導入する。 その結果、画像画素の空間情報を堅牢性向上のために考慮し、類似性保存FCMを開発した。 ウェーブレット空間の特性が優れており、従来のFCMで使用されるユークリッドよりも高いロバスト性を確保するために提案したFCMが用いられる。 合成および実世界のG画像の実験は、最先端のFCMアルゴリズムよりも実際に高い堅牢性と性能を達成することを示した。 さらに、ほとんどの計算よりも少ない計算を必要とする。

G-images refer to image data defined on irregular graph domains. This work elaborates a similarity-preserving Fuzzy C-Means (FCM) algorithm for G-image segmentation and aims to develop techniques and tools for segmenting G-images. To preserve the membership similarity between an arbitrary image pixel and its neighbors, a Kullback-Leibler divergence term on membership partition is introduced as a part of FCM. As a result, similarity-preserving FCM is developed by considering spatial information of image pixels for its robustness enhancement. Due to superior characteristics of a wavelet space, the proposed FCM is performed in this space rather than Euclidean one used in conventional FCM to secure its high robustness. Experiments on synthetic and real-world G-images demonstrate that it indeed achieves higher robustness and performance than the state-of-the-art FCM algorithms. Moreover, it requires less computation than most of them.
翻訳日:2022-11-18 22:56:12 公開日:2020-07-01
# 公正なアクティブラーニング

Fair Active Learning ( http://arxiv.org/abs/2006.13025v2 )

ライセンス: Link先を確認
Hadis Anahideh and Abolfazl Asudeh and Saravanan Thirumuruganathan(参考訳) 機械学習(ML)は、社会に影響を及ぼす高度なアプリケーションでますます使われている。 したがって、MLモデルが差別を伝播しないことが重要である。 社会的なアプリケーションで正確なラベル付きデータの収集は困難でコストがかかる。 アクティブラーニングは、ラベリング予算内でoracleをインタラクティブにクエリすることで、正確な分類器を構築するための有望なアプローチである。 我々は、モデル精度と公平性のバランスをとるためにラベル付けすべきデータポイントを慎重に選択するフェアアクティブラーニングのためのアルゴリズムを設計する。 具体的には、人口統計学の公平性に焦点を当てます。 ベンチマークデータセットに関する広範囲な実験により,提案手法の有効性を実証した。

Machine learning (ML) is increasingly being used in high-stakes applications impacting society. Therefore, it is of critical importance that ML models do not propagate discrimination. Collecting accurate labeled data in societal applications is challenging and costly. Active learning is a promising approach to build an accurate classifier by interactively querying an oracle within a labeling budget. We design algorithms for fair active learning that carefully selects data points to be labeled so as to balance model accuracy and fairness. Specifically, we focus on demographic parity - a widely used measure of fairness. Extensive experiments over benchmark datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2022-11-18 22:19:49 公開日:2020-07-01
# hxtorch: PyTorch for BrainScaleS-2 -- アナログニューロモルフィックハードウェアの知覚

hxtorch: PyTorch for BrainScaleS-2 -- Perceptrons on Analog Neuromorphic Hardware ( http://arxiv.org/abs/2006.13138v3 )

ライセンス: Link先を確認
Philipp Spilger, Eric M\"uller, Arne Emmel, Aron Leibfried, Christian Mauch, Christian Pehle, Johannes Weis, Oliver Breitwieser, Sebastian Billaudelle, Sebastian Schmitt, Timo C. Wunderlich, Yannik Stradmann, Johannes Schemmel(参考訳) 本稿では,人工ニューラルネットワークの推論アクセラレータとしてBrainScaleS-2アナログニューロモルフィックハードウェアシステムを利用するソフトウェアを提案する。 アクセラレータハードウェアは、拡張インターフェースを使用して、PyTorch機械学習フレームワークに透過的に統合されている。 特に,ベクトル行列乗算と畳み込みのアクセラレータサポートを提供し,それに対応するソフトウェアベースのオートグレード機能は,ループ内ハードウェアトレーニングのために提供される。 ニューラルネットワークの1つまたは複数のアクセラレータチップへの自動パーティショニングがサポートされている。 我々は、トレーニング中の実行時のオーバーヘッドと推論を分析し、既存の設定を計測し、アクセラレーションハードウェア設計の限界の観点から結果を評価する。 導入したフレームワークの応用として,スマートフォンセンサデータを用いた日常生活活動の分類モデルを提案する。

We present software facilitating the usage of the BrainScaleS-2 analog neuromorphic hardware system as an inference accelerator for artificial neural networks. The accelerator hardware is transparently integrated into the PyTorch machine learning framework using its extension interface. In particular, we provide accelerator support for vector-matrix multiplications and convolutions; corresponding software-based autograd functionality is provided for hardware-in-the-loop training. Automatic partitioning of neural networks onto one or multiple accelerator chips is supported. We analyze implementation runtime overhead during training as well as inference, provide measurements for existing setups and evaluate the results in terms of the accelerator hardware design limitations. As an application of the introduced framework, we present a model that classifies activities of daily living with smartphone sensor data.
翻訳日:2022-11-17 22:25:18 公開日:2020-07-01
# アナログニューロモルフィックハードウェアを用いたニューラルネットワークによる推論

Inference with Artificial Neural Networks on Analog Neuromorphic Hardware ( http://arxiv.org/abs/2006.13177v3 )

ライセンス: Link先を確認
Johannes Weis, Philipp Spilger, Sebastian Billaudelle, Yannik Stradmann, Arne Emmel, Eric M\"uller, Oliver Breitwieser, Andreas Gr\"ubl, Joscha Ilmberger, Vitali Karasenko, Mitja Kleider, Christian Mauch, Korbinian Schreiber, Johannes Schemmel(参考訳) 神経型BrainScaleS-2ASICは、混合信号ニューロンとシナプス回路と、2つの汎用デジタルマイクロプロセッサからなる。 主にスパイクニューラルネットワークをエミュレートするために設計されたこのシステムは、人工ニューラルネットワークのベクトル行列乗算および蓄積モードでも動作することができる。 アナログ乗算はシナプス回路で行われ、その結果は神経細胞の膜コンデンサに蓄積される。 アナログのインメモリコンピューティングデバイスとして設計され、高エネルギー効率を実現する。 しかし、固定パターンノイズと試行錯誤の変動は、実装されたネットワークがある程度の摂動に対処する必要がある。 さらに、入力値(5ビット)、行列重み(6ビット)、ニューロン活性化(8ビット)のデジタル解像度によって、さらなる制限が課される。 本稿では,アナログ推論アクセラレーションとしてのbrainscales-2について論じ,最適化戦略とともに,ループ内のハードウェアによるトレーニングの利点を強調する。 その他のベンチマークでは、2次元畳み込みと2つの高密度層を用いてMNIST手書き桁データセットを分類する。 テスト精度は98.0%に達し、ソフトウェアで評価された同一ネットワークの性能と密に一致した。

The neuromorphic BrainScaleS-2 ASIC comprises mixed-signal neurons and synapse circuits as well as two versatile digital microprocessors. Primarily designed to emulate spiking neural networks, the system can also operate in a vector-matrix multiplication and accumulation mode for artificial neural networks. Analog multiplication is carried out in the synapse circuits, while the results are accumulated on the neurons' membrane capacitors. Designed as an analog, in-memory computing device, it promises high energy efficiency. Fixed-pattern noise and trial-to-trial variations, however, require the implemented networks to cope with a certain level of perturbations. Further limitations are imposed by the digital resolution of the input values (5 bit), matrix weights (6 bit) and resulting neuron activations (8 bit). In this paper, we discuss BrainScaleS-2 as an analog inference accelerator and present calibration as well as optimization strategies, highlighting the advantages of training with hardware in the loop. Among other benchmarks, we classify the MNIST handwritten digits dataset using a two-dimensional convolution and two dense layers. We reach 98.0% test accuracy, closely matching the performance of the same network evaluated in software.
翻訳日:2022-11-17 22:25:04 公開日:2020-07-01
# 変圧器を用いた条件セット生成

Conditional Set Generation with Transformers ( http://arxiv.org/abs/2006.16841v2 )

ライセンス: Link先を確認
Adam R Kosiorek, Hyunjik Kim, Danilo J Rezende(参考訳) セットは、ユニークな要素の無秩序なコレクションであり、セットを生成する多くの機械学習モデルは、暗黙的または明示的な順序付けを課している。 モデルの性能は順序の選択に依存するため、任意の順序付けが最適でない結果をもたらす可能性がある。 別の解決策は、順序付けを指定しない置換同変集合生成器を使用することである。 そのようなジェネレータの例として、DeepSet Prediction Network (DSPN)がある。 本稿では,dspnを合成し,予測された集合要素の品質と予測された大きさの精度において,dspnを上回ったモデルであるtspn(transformer set prediction network)について紹介する。 我々は,MNIST-as-point-clouds(SET-MNIST)とCLEVRでオブジェクト検出を行う。

A set is an unordered collection of unique elements--and yet many machine learning models that generate sets impose an implicit or explicit ordering. Since model performance can depend on the choice of order, any particular ordering can lead to sub-optimal results. An alternative solution is to use a permutation-equivariant set generator, which does not specify an order-ing. An example of such a generator is the DeepSet Prediction Network (DSPN). We introduce the Transformer Set Prediction Network (TSPN), a flexible permutation-equivariant model for set prediction based on the transformer, that builds upon and outperforms DSPN in the quality of predicted set elements and in the accuracy of their predicted sizes. We test our model on MNIST-as-point-clouds (SET-MNIST) for point-cloud generation and on CLEVR for object detection.
翻訳日:2022-11-16 21:21:16 公開日:2020-07-01
# 軍艦世界における顧客チャーン予測

Predicting Customer Churn in World of Warcraft ( http://arxiv.org/abs/2006.15735v2 )

ライセンス: Link先を確認
Sulman Khan(参考訳) World of Warcraft』(ワールド・オブ・ウォークラフト)は、2004年11月23日にブリザード・エンタテインメントから発売されたオンラインゲーム。 従来のゲームでは1回の事前料金しかプレイできないのに対し、wowはゲームをプレイするための月額サブスクリプションも持っている。 顧客サブスクリプションを念頭に置いて、チャーン予測を用いることで、顧客がサービスから未加入になるかどうかを予測するだけでなく、ユーザのプレイ行動を調べて、ユーザプレイパターンに関する洞察を得ることができます。 チャーン問題は、様々なサービスが様々な方法でチャーンを定義するため、1つのサイズを持たないという性質がすべてのソリューションに適合するため、やや複雑である。 本稿では,2008年1月1日から2008年12月31日までの1年間に焦点を当てたデータセットについて検討する。 機械学習は、生存分析と二項分類の2つの側面で使用される。 まず、Kaplan Meier推定器を用いてデータセットを探索し、顧客が混乱するまでの期間を予測し、最後に、ロジスティック回帰、サポートベクトルマシン、KNN分類器、ランダムフォレストといった従来の機械学習アルゴリズムを使用して、6ヶ月以内に人が混乱するかどうかを予測する。 生存率分析の結果から、wowの顧客はゲーム中毒性が固まるまで比較的長い期間を過ごしている。 最後に、最高のパフォーマンスアルゴリズムで実行されたバイナリ分類は、顧客が6ヶ月以内に混乱するかどうかを予測するために、ROC AUCスコアが96%である。

World of Warcraft is a massively multiplayer online video game released on November 23, 2004, by Blizzard Entertainment. In contrast with traditional games only having a single upfront fee to play, WoW also has a monthly subscription to play the game. With customer subscriptions in mind, we can apply the use of churn prediction to not only predict whether a customer will unsubscribe from the service but explore the user's playing behavior to obtain more insight into user playing patterns. The churn problem is somewhat complex due to the nature of not having a one size fits all solution, as different services define churn in a variety of ways. In this paper, we explore a dataset that focuses on one year from January 1, 2008, until December 31, 2008, as it highlights the release of a major content update in the game. Machine learning is used in two aspects of this paper: Survival Analysis and Binary Classification. Firstly, we explore the dataset using the Kaplan Meier estimator to predict the duration until a customer churns, and lastly predict whether a person will churn in six months using traditional machine learning algorithms such as Logistic Regression, Support Vector Machine, KNN Classifier, and Random Forests. From the survival analysis results, WoW customers have a relatively long duration until churn, which solidifies the addictiveness of the game. Lastly, the binary classification performed in the best performing algorithm having a 96% ROC AUC score in predicting whether a customer will churn in six months.
翻訳日:2022-11-16 03:08:12 公開日:2020-07-01
# 計算光学形状計測のためのディープニューラルネットワーク

Deep Neural Networks for Computational Optical Form Measurements ( http://arxiv.org/abs/2007.00319v1 )

ライセンス: Link先を確認
Lara Hoffmann and Clemens Elster(参考訳) ディープニューラルネットワークは、計算イメージング、医療、信号処理、自動運転など、さまざまな分野でうまく適用されている。 原理実証研究において,計算光学的形状測定が深層学習にも有用であることを実証する。 光学面の正確な測定における逆問題の解法として,データ駆動型機械学習手法を提案する。 この手法は、既知の基底真理を持つ仮想計測を用いて開発・試験される。

Deep neural networks have been successfully applied in many different fields like computational imaging, medical healthcare, signal processing, or autonomous driving. In a proof-of-principle study, we demonstrate that computational optical form measurement can also benefit from deep learning. A data-driven machine learning approach is explored to solve an inverse problem in the accurate measurement of optical surfaces. The approach is developed and tested using virtual measurements with known ground truth.
翻訳日:2022-11-15 00:03:37 公開日:2020-07-01
# マルウェア検出のためのandroidアプリの正確なラベリングに向けて

Towards Accurate Labeling of Android Apps for Reliable Malware Detection ( http://arxiv.org/abs/2007.00464v1 )

ライセンス: Link先を確認
Aleieldin Salem(参考訳) 新たに開発されたマルウェア検出方法をトレーニングする上で、研究者は、virustotalのようなオンラインプラットフォームが提供するスキャンレポートを解釈するしきい値ベースのラベリング戦略に依存している。 このプラットフォームの動的性は、これらのラベリング戦略を長期間にわたって持続不可能にし、不正確なラベルにつながる。 不正確なラベル付きアプリを使用してマルウェア検出手法をトレーニングし評価すると、結果の信頼性が著しく低下する。 手動分析による正確なラベル生成の不可能性と信頼できる代替手段の欠如により、研究者は、ラベルアプリに対してウイルストタルを使用する必要がある。 本稿では,この問題を2つの方法で取り組んだ。 まず, VirusTotalの動的性の側面としきい値に基づくラベル戦略への影響を明らかにするとともに, VirusTotalの動的性を確実に評価することで,これらのラベル戦略の活用方法に関する実用的な洞察を提供する。 次に、代替プラットフォームの実装を動機付けます。 (a)そのようなプラットフォームが避けるべき VirusTotal の制限を特定し、 (b) VirusTotal の制限を緩和するためにそのようなプラットフォームをどのように構築できるかというアーキテクチャを提案する。

In training their newly-developed malware detection methods, researchers rely on threshold-based labeling strategies that interpret the scan reports provided by online platforms, such as VirusTotal. The dynamicity of this platform renders those labeling strategies unsustainable over prolonged periods, which leads to inaccurate labels. Using inaccurately labeled apps to train and evaluate malware detection methods significantly undermines the reliability of their results, leading to either dismissing otherwise promising detection approaches or adopting intrinsically inadequate ones. The infeasibility of generating accurate labels via manual analysis and the lack of reliable alternatives force researchers to utilize VirusTotal to label apps. In the paper, we tackle this issue in two manners. Firstly, we reveal the aspects of VirusTotal's dynamicity and how they impact threshold-based labeling strategies and provide actionable insights on how to use these labeling strategies given VirusTotal's dynamicity reliably. Secondly, we motivate the implementation of alternative platforms by (a) identifying VirusTotal limitations that such platforms should avoid, and (b) proposing an architecture of how such platforms can be constructed to mitigate VirusTotal's limitations.
翻訳日:2022-11-15 00:03:30 公開日:2020-07-01
# Build2Vec: ベクトル空間での表現構築

Build2Vec: Building Representation in Vector Space ( http://arxiv.org/abs/2007.00740v1 )

ライセンス: Link先を確認
Mahmoud Abdelrahman, Adrian Chong, and Clayton Miller(参考訳) 本稿では,ビル情報モデル(BIM)から得られたラベル付きプロパティグラフを変換するグラフ埋め込みアルゴリズムの方法論について述べる。 インダストリアルファウンデーションクラス(Industrial Foundation Classes, IFC)は、ビルディングデータをグラフ表現に変換するために使用されるBIMの標準スキーマである。 我々はノード2Vecとランダムウォークを用いて、異なる構成要素間の意味的類似性を抽出し、多次元ベクトル空間でそれらを表現した。 シンガポール国立大学(sde4)にあるネットゼロエネルギービルで事例研究を実施した。 このアプローチは、異なるビルディングオブジェクトのセマンティックリレーションと類似性、特に空間的および時空間的データを取得するための、有望な機械学習応用を示す。

In this paper, we represent a methodology of a graph embeddings algorithm that is used to transform labeled property graphs obtained from a Building Information Model (BIM). Industrial Foundation Classes (IFC) is a standard schema for BIM, which is utilized to convert the building data into a graph representation. We used node2Vec with biased random walks to extract semantic similarities between different building components and represent them in a multi-dimensional vector space. A case study implementation is conducted on a net-zero-energy building located at the National University of Singapore (SDE4). This approach shows promising machine learning applications in capturing the semantic relations and similarities of different building objects, more specifically, spatial and spatio-temporal data.
翻訳日:2022-11-15 00:02:02 公開日:2020-07-01
# MR画像からのアンサンブル構造を用いたパーキンソン病の検出

Parkinson's Disease Detection Using Ensemble Architecture from MR Images ( http://arxiv.org/abs/2007.00682v1 )

ライセンス: Link先を確認
Tahjid Ashfaque Mostafa, Irene Cheng(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人に影響を与える神経系疾患の一つ。 PDは認知障害を引き起こすことがある。 本研究では,脳の磁気共鳴(mr)t1画像を用いたパーキンソン病の同定法について検討する。 我々は,ImageNet Large Scale Visual Recognition Challenge (ILSVRC) で勝利した畳み込みニューラルネットワークモデルを組み合わせたアンサンブルアーキテクチャを実験し,二つのアーキテクチャを提案する。 MR画像全体を使用せず,Gray Matter(GM)領域とWhite Matter(WM)領域に注目すると,検出精度が大幅に向上することがわかった。 平滑化gmおよびwm抽出と提案アーキテクチャの1つを用いて,平均94.7\%の精度を達成した。 また、オクルージョン分析を行い、アーキテクチャ決定プロセスにどの脳領域が関係しているかを決定する。

Parkinson's Disease(PD) is one of the major nervous system disorders that affect people over 60. PD can cause cognitive impairments. In this work, we explore various approaches to identify Parkinson's using Magnetic Resonance (MR) T1 images of the brain. We experiment with ensemble architectures combining some winning Convolutional Neural Network models of ImageNet Large Scale Visual Recognition Challenge (ILSVRC) and propose two architectures. We find that detection accuracy increases drastically when we focus on the Gray Matter (GM) and White Matter (WM) regions from the MR images instead of using whole MR images. We achieved an average accuracy of 94.7\% using smoothed GM and WM extracts and one of our proposed architectures. We also perform occlusion analysis and determine which brain areas are relevant in the architecture decision making process.
翻訳日:2022-11-14 23:57:45 公開日:2020-07-01
# グループ意思決定に基づくアンサンブル学習フレームワーク

An ensemble learning framework based on group decision making ( http://arxiv.org/abs/2007.01167v1 )

ライセンス: Link先を確認
Jingyi He, Xiaojun Zhou, Rundong Zhang, Chunhua Yang(参考訳) 分類問題は、特定の基準でデータをグループ化する方法を機械に教えることを目的とした機械学習において重要なトピックである。 本稿では,グループ意思決定(GDM)に基づくアンサンブル学習(EL)手法の枠組みを提案し,この問題を解決する。 この枠組みでは、基本学習者は意思決定者と見なすことができ、異なるカテゴリを代替と見なすことができ、多様な基礎学習者が獲得した分類結果を性能評価と見なすことができ、その精度、リコール、精度はGDMにおける意思決定者の重みを特定するために用いられる。 さらに、二分分類問題で定義される精度とリコールが、直接多分類問題で利用できないことを考慮し、各カテゴリのベース学習者の正確性とリコールを得るために、one vs rest (ovr) が提案されている。 実験の結果, gdmに基づくel法は, 提案手法の有効性を検証するため, 従来の6つの分類法よりも精度が高いことがわかった。

The classification problem is a significant topic in machine learning which aims to teach machines how to group together data by particular criteria. In this paper, a framework for the ensemble learning (EL) method based on group decision making (GDM) has been proposed to resolve this issue. In this framework, base learners can be considered as decision-makers, different categories can be seen as alternatives, classification results obtained by diverse base learners can be considered as performance ratings, and the precision, recall, and accuracy which can reflect the performances of the classification methods can be employed to identify the weights of decision-makers in GDM. Moreover, considering that the precision and recall defined in binary classification problems can not be used directly in the multi-classification problem, the One vs Rest (OvR) has been proposed to obtain the precision and recall of the base learner for each category. The experimental results demonstrate that the proposed EL method based on GDM has higher accuracy than other 6 current popular classification methods in most instances, which verifies the effectiveness of the proposed method.
翻訳日:2022-11-14 23:57:29 公開日:2020-07-01
# 非IIDレコメンダシステム:レコメンデーションパラダイムシフトのレビューとフレームワーク

Non-IID Recommender Systems: A Review and Framework of Recommendation Paradigm Shifting ( http://arxiv.org/abs/2007.07217v1 )

ライセンス: Link先を確認
Longbing Cao(参考訳) 推奨は生活、研究、仕事、エンターテイメントにおいてますます重要な役割を担っていますが、私たちが受け取る推奨は、無関係、重複、あるいは興味のない製品やサービスに対してしばしば行われます。 このような不適切なレコメンデーションの批判的な理由は、推奨ユーザとアイテムが既存の理論やシステムにおいて独立で同一の分散(IID)である、という本質的な仮定にある。 もう一つの現象は、ユーザーやアイテムの特定の側面をモデル化するための膨大な努力がなされているが、ユーザーとアイテムの全体的な特性と非IID性は見過ごされていることである。 本稿では, 推薦問題の本質的性質を深くかつ包括的に理解するために, カップリングと不均一性の観点から, 推薦問題の本質的性質を深く理解するための非アイド理論の枠組みについて論じる。 この非IIDレコメンデーション研究は、IIDから非IIDレコメンデーション研究へのパラダイムシフトを引き起こし、情報があり、関連性があり、パーソナライズされ、行動可能なレコメンデーションを提供することを期待している。 コールドスタート、スパースデータベース、クロスドメイン、グループベース、シリング攻撃関連の問題など、さまざまな複雑な問題に対処するための、エキサイティングな新しい方向と基本的なソリューションを生み出します。

While recommendation plays an increasingly critical role in our living, study, work, and entertainment, the recommendations we receive are often for irrelevant, duplicate, or uninteresting products and services. A critical reason for such bad recommendations lies in the intrinsic assumption that recommended users and items are independent and identically distributed (IID) in existing theories and systems. Another phenomenon is that, while tremendous efforts have been made to model specific aspects of users or items, the overall user and item characteristics and their non-IIDness have been overlooked. In this paper, the non-IID nature and characteristics of recommendation are discussed, followed by the non-IID theoretical framework in order to build a deep and comprehensive understanding of the intrinsic nature of recommendation problems, from the perspective of both couplings and heterogeneity. This non-IID recommendation research triggers the paradigm shift from IID to non-IID recommendation research and can hopefully deliver informed, relevant, personalized, and actionable recommendations. It creates exciting new directions and fundamental solutions to address various complexities including cold-start, sparse data-based, cross-domain, group-based, and shilling attack-related issues.
翻訳日:2022-11-14 23:57:09 公開日:2020-07-01
# 点雲における3次元物体検出のためのpointpillarsネットワークの最適化

Optimisation of the PointPillars network for 3D object detection in point clouds ( http://arxiv.org/abs/2007.00493v1 )

ライセンス: Link先を確認
Joanna Stanisz, Konrad Lis, Tomasz Kryjak, Marek Gorgon(参考訳) 本稿では,ポイントクラウドにおける3次元物体検出のための深層ニューラルネットワークの最適化について検討する。 BrevitasやPyTorchツールで利用可能な量子化やプルーニングといった技術が使用された。 我々は、検出精度と計算複雑性との間に合理的な妥協をもたらすPointPillarsネットワークの実験を行った。 本研究の目的は、FPGAデバイスで最終的に実装されるネットワークの変種を提案することである。 これにより、低消費電力でリアルタイムのLiDARデータ処理が可能になる。 その結果,32ビット浮動小数点から2ビット整数への有意な量子化であっても,検出精度は5%~9%低下し,モデルのサイズがほぼ16倍に減少した。

In this paper we present our research on the optimisation of a deep neural network for 3D object detection in a point cloud. Techniques like quantisation and pruning available in the Brevitas and PyTorch tools were used. We performed the experiments for the PointPillars network, which offers a reasonable compromise between detection accuracy and calculation complexity. The aim of this work was to propose a variant of the network which we will ultimately implement in an FPGA device. This will allow for real-time LiDAR data processing with low energy consumption. The obtained results indicate that even a significant quantisation from 32-bit floating point to 2-bit integer in the main part of the algorithm, results in 5%-9% decrease of the detection accuracy, while allowing for almost a 16-fold reduction in size of the model.
翻訳日:2022-11-14 23:56:37 公開日:2020-07-01
# 深層学習に基づくホログラフィック偏光顕微鏡

Deep learning-based holographic polarization microscopy ( http://arxiv.org/abs/2007.00741v1 )

ライセンス: Link先を確認
Tairan Liu, Kevin de Haan, Bijie Bai, Yair Rivenson, Yi Luo, Hongda Wang, David Karalli, Hongxiang Fu, Yibo Zhang, John FitzGerald, and Aydogan Ozcan(参考訳) 偏光顕微鏡は複屈折標本と高いコントラストを持ち、病理診断の手段として広く用いられている。 しかし、偏光顕微鏡システムは通常、2つ以上の光路から集められた画像を異なる偏光状態で分析することで動作し、比較的複雑な光学設計、高いシステムコスト、経験豊富な技術者が必要となる。 本稿では, 位相回復ホログラムから試料の定量的複屈折残差と配向情報を得られる深層学習型ホログラフィ偏光顕微鏡について, 既存のホログラフィイメージングシステムに1対の偏光器/アナライザーペアを追加するだけでよいことを示す。 深層ニューラルネットワークを用いて、単一の偏光状態から再構成されたホログラフィック画像を、単発計算偏光顕微鏡(scplm)で撮影した画像と等価な画像に変換することができる。 本分析により,訓練された深部ニューラルネットワークは,ホログラフィック振幅および位相分布だけでなく,サンプル特異な形態特徴を用いて複屈折情報を抽出できることがわかった。 本法の有効性を実証するために, モノゾジウムウレート (MSU) やトリアムシノロンアセトニド (TCA) 結晶などの種々の複屈折性試料を撮像し, 実験を行った。 本手法は, 定性的かつ定量的にscplmと類似した結果を得ることができ, 光学設計がシンプルで視野が大きく, 偏光顕微鏡へのアクセスが拡大する可能性があり, 限られた資源条件下での医療診断への応用が期待できる。

Polarized light microscopy provides high contrast to birefringent specimen and is widely used as a diagnostic tool in pathology. However, polarization microscopy systems typically operate by analyzing images collected from two or more light paths in different states of polarization, which lead to relatively complex optical designs, high system costs or experienced technicians being required. Here, we present a deep learning-based holographic polarization microscope that is capable of obtaining quantitative birefringence retardance and orientation information of specimen from a phase recovered hologram, while only requiring the addition of one polarizer/analyzer pair to an existing holographic imaging system. Using a deep neural network, the reconstructed holographic images from a single state of polarization can be transformed into images equivalent to those captured using a single-shot computational polarized light microscope (SCPLM). Our analysis shows that a trained deep neural network can extract the birefringence information using both the sample specific morphological features as well as the holographic amplitude and phase distribution. To demonstrate the efficacy of this method, we tested it by imaging various birefringent samples including e.g., monosodium urate (MSU) and triamcinolone acetonide (TCA) crystals. Our method achieves similar results to SCPLM both qualitatively and quantitatively, and due to its simpler optical design and significantly larger field-of-view, this method has the potential to expand the access to polarization microscopy and its use for medical diagnosis in resource limited settings.
翻訳日:2022-11-14 23:56:03 公開日:2020-07-01
# 二重盲検レビューにおけるarXivによる著者の匿名化

De-anonymization of authors through arXiv submissions during double-blind review ( http://arxiv.org/abs/2007.00177v1 )

ライセンス: Link先を確認
Homanga Bharadhwaj, Dylan Turpin, Animesh Garg, Ashton Anderson(参考訳) 本稿では, 二重盲検レビュープロセス中の論文のarXivプレプリントの公開効果について検討する。 特に、arxivプリプリントによる著者の匿名化と、(正に)二重盲検会場における研究論文の受理との関係について、質問する。 レビューフェーズの前にarXivで公開される論文と、そうでない論文の2つの条件の下で、著者の評判とレビュースコアと受理決定との相関について検討する。 ICLR 2020とICLR 2019の提出データ(n=5050)のデータセットを分析して、arXivで高い評価を得た論文とパーセンテージの受け入れと正の相関を示す統計的に有意な証拠を見出した。 この観察された関連をよりよく理解するために、レビュアーの自己特定信頼度スコアに基づく追加分析を行い、信頼性の低いレビュアーは、よく知られた著者の論文に高いレビュースコアを割り当て、あまり知られていない著者の論文に低いレビュースコアを割り当てる傾向が強いことを観察する。 私たちは前もって、結果が純粋に相関であり、因果関係を主張できないことを強調した。 論文とスクラップコードを添付したブログ記事がプロジェクトのWebサイトhttps://sites.google.com/view/deanon-arxiv/homeにリンクされる。

In this paper, we investigate the effects of releasing arXiv preprints of papers that are undergoing a double-blind review process. In particular, we ask the following research question: What is the relation between de-anonymization of authors through arXiv preprints and acceptance of a research paper at a (nominally) double-blind venue? Under two conditions: papers that are released on arXiv before the review phase and papers that are not, we examine the correlation between the reputation of their authors with the review scores and acceptance decisions. By analyzing a dataset of ICLR 2020 and ICLR 2019 submissions (n=5050), we find statistically significant evidence of positive correlation between percentage acceptance and papers with high reputation released on arXiv. In order to understand this observed association better, we perform additional analyses based on self-specified confidence scores of reviewers and observe that less confident reviewers are more likely to assign high review scores to papers with well known authors and low review scores to papers with less known authors, where reputation is quantified in terms of number of Google Scholar citations. We emphasize upfront that our results are purely correlational and we neither can nor intend to make any causal claims. A blog post accompanying the paper and our scraping code will be linked in the project website https://sites.google.com/view/deanon-arxiv/home
翻訳日:2022-11-14 23:55:36 公開日:2020-07-01
# 対人深層強化学習による補聴器圧縮のパーソナライズ

Personalization of Hearing Aid Compression by Human-In-Loop Deep Reinforcement Learning ( http://arxiv.org/abs/2007.00192v1 )

ライセンス: Link先を確認
Nasim Alamdari, Edward Lobarinas, and Nasser Kehtarnavaz(参考訳) 特定のユーザに対して必ずしも最適ではないユーザのグループからのゲイン平均に基づいて、補聴器の既存の規範的圧縮戦略を設計する。 補聴器使用者の半数近くは、通常定められた設定とは異なる設定を好む。 本稿では, 補聴器の圧縮をパーソナライズし, 補聴器の音質を向上する深層強化学習手法を提案する。 提案手法は、ユーザのフィードバックに基づいて圧縮を最適化するために、特定のユーザの聴取好みを学習するように設計されている。 開発したパーソナライズド圧縮の有効性を示すシミュレーションおよび被験者試験結果が報告された。

Existing prescriptive compression strategies used in hearing aid fitting are designed based on gain averages from a group of users which are not necessarily optimal for a specific user. Nearly half of hearing aid users prefer settings that differ from the commonly prescribed settings. This paper presents a human-in-loop deep reinforcement learning approach that personalizes hearing aid compression to achieve improved hearing perception. The developed approach is designed to learn a specific user's hearing preferences in order to optimize compression based on the user's feedbacks. Both simulation and subject testing results are reported which demonstrate the effectiveness of the developed personalized compression.
翻訳日:2022-11-14 23:54:50 公開日:2020-07-01
# 視覚物体追跡における運動予測

Motion Prediction in Visual Object Tracking ( http://arxiv.org/abs/2007.01120v1 )

ライセンス: Link先を確認
Jianren Wang, Yihui He(参考訳) 視覚オブジェクトトラッキング(VOT)は、自律運転や補助ロボットなど、多くのアプリケーションにとって不可欠なコンポーネントである。 しかし、最近の研究は、より計算コストの高い特徴抽出器に基づく正確なシステムを開発する傾向がある。 対照的に、この研究はVOTにおける動き予測の重要性に対処する。 既製の物体検出器を用いて,インスタンス境界ボックスを得る。 次に、状態推定にカメラモーション分離とカルマンフィルタの組み合わせを用いる。 我々のベースラインシステムは標準手法の直接的な組み合わせであるが、最先端の結果が得られる。 提案手法は,VOT(VOT-2016およびVOT-2018)上での最先端性能を確立する。 提案手法は,VOT-2016のEAOを0.472から0.505に改善し,VOT-2018の0.410から0.431に改善する。 一般化可能性を示すために,ビデオオブジェクトのセグメンテーション(VOS: DAVIS-2016, DAVIS-2017)についても検証し,一貫した改善を観察する。

Visual object tracking (VOT) is an essential component for many applications, such as autonomous driving or assistive robotics. However, recent works tend to develop accurate systems based on more computationally expensive feature extractors for better instance matching. In contrast, this work addresses the importance of motion prediction in VOT. We use an off-the-shelf object detector to obtain instance bounding boxes. Then, a combination of camera motion decouple and Kalman filter is used for state estimation. Although our baseline system is a straightforward combination of standard methods, we obtain state-of-the-art results. Our method establishes new state-of-the-art performance on VOT (VOT-2016 and VOT-2018). Our proposed method improves the EAO on VOT-2016 from 0.472 of prior art to 0.505, from 0.410 to 0.431 on VOT-2018. To show the generalizability, we also test our method on video object segmentation (VOS: DAVIS-2016 and DAVIS-2017) and observe consistent improvement.
翻訳日:2022-11-14 23:48:09 公開日:2020-07-01
# 都市環境における不確実性認識運動推定のための指向性プリミティブ

Directional Primitives for Uncertainty-Aware Motion Estimation in Urban Environments ( http://arxiv.org/abs/2007.00161v1 )

ライセンス: Link先を確認
Ransalu Senanayake, Maneekwan Toyungyernsub, Mingyu Wang, Mykel J. Kochenderfer, and Mac Schwager(参考訳) 長距離に収集された運転データから、道路の異なる地域での車両の挙動に関する豊富な情報を抽出することができる。 本稿では,道路網の事前情報を表現した指向性プリミティブの概念を提案する。 具体的には,von mises分布の混合とガンマ分布の関連速度を用いて方向の不確かさを表現する。 これらの位置依存プリミティブは、周囲の車両の運動情報と組み合わせて、将来の挙動を確率分布の形で予測することができる。 カルラシミュレーターにおけるハイウェイ、交差点、ラウンドアバウトの実験は、実際の都市運転データセットと同様に、プリミティブがより不確実性を考慮した運動推定につながることを示している。

We can use driving data collected over a long period of time to extract rich information about how vehicles behave in different areas of the roads. In this paper, we introduce the concept of directional primitives, which is a representation of prior information of road networks. Specifically, we represent the uncertainty of directions using a mixture of von Mises distributions and associated speeds using gamma distributions. These location-dependent primitives can be combined with motion information of surrounding vehicles to predict their future behavior in the form of probability distributions. Experiments conducted on highways, intersections, and roundabouts in the Carla simulator, as well as real-world urban driving datasets, indicate that primitives lead to better uncertainty-aware motion estimation.
翻訳日:2022-11-14 23:47:52 公開日:2020-07-01
# 超信頼性低レイテンシ通信におけるリンク適応の干渉分布予測

Interference Distribution Prediction for Link Adaptation in Ultra-Reliable Low-Latency Communications ( http://arxiv.org/abs/2007.00306v1 )

ライセンス: Link先を確認
Alessandro Brighente, Jafar Mohammadi, Paolo Baracca(参考訳) 超信頼性低遅延通信(URLLC)のユースケースの厳格なレイテンシと信頼性要件は、第5世代(5G)ネットワーク設計の主要な要因である。 リンク適応(LA)はURLLCを実現するボトルネックの一つと考えられている。 本稿では,laを増大させるために,ユーザの干渉に対する信号の予測と雑音比に着目した。 本研究は,URLLC使用事例のほとんどが半決定論的トラフィックによって特徴付けられているという事実から,次の送信における干渉電力の予測に要する有用な統計量を計算するために,干渉の時間相関を利用することを提案する。 この予測はLAの文脈で利用され、任意のレベルで信頼性を確保しながらスペクトル効率を最大化する。 LAにおける干渉予測技術の現状と数値計算結果を比較した。 干渉の時間相関の活用がurllcの重要な実現要因であることを示す。

The strict latency and reliability requirements of ultra-reliable low-latency communications (URLLC) use cases are among the main drivers in fifth generation (5G) network design. Link adaptation (LA) is considered to be one of the bottlenecks to realize URLLC. In this paper, we focus on predicting the signal to interference plus noise ratio at the user to enhance the LA. Motivated by the fact that most of the URLLC use cases with most extreme latency and reliability requirements are characterized by semi-deterministic traffic, we propose to exploit the time correlation of the interference to compute useful statistics needed to predict the interference power in the next transmission. This prediction is exploited in the LA context to maximize the spectral efficiency while guaranteeing reliability at an arbitrary level. Numerical results are compared with state of the art interference prediction techniques for LA. We show that exploiting time correlation of the interference is an important enabler of URLLC.
翻訳日:2022-11-14 23:47:19 公開日:2020-07-01
# モバイルボットネット検出:畳み込みニューラルネットワークを用いたディープラーニングアプローチ

Mobile Botnet Detection: A Deep Learning Approach Using Convolutional Neural Networks ( http://arxiv.org/abs/2007.00263v1 )

ライセンス: Link先を確認
Suleiman Y. Yerima and Mohammed K. Alzaylaee(参考訳) Androidは最も普及しているモバイルOSであり、マルウェアの標的になりつつある。 モバイルデバイスをより大きなボットネットを構成する可能性のあるボットに変える悪質なアプリは、非常に一般的なものとなり、深刻な脅威となっている。 これにより、Androidプラットフォーム上でボットネットを検出するより効果的な方法が求められている。 そこで本研究では,畳み込みニューラルネットワーク(CNN)に基づくAndroidボットネット検出のためのディープラーニング手法を提案する。 提案するbotnet検出システムは,cnnベースのモデルとして実装され,342の静的アプリ機能を用いてボットネットアプリと通常のアプリを区別する。 トレーニングされたボットネット検出モデルは、公開されているiscxボットネットデータセットから1,929ボットネットを含む6,802の実際のアプリケーションで評価された。 その結果、我々のCNNベースのアプローチは、他の一般的な機械学習分類器と比較して、全体的な予測精度が最も高かった。 さらに,我々のモデルから得られた性能は,機械学習ベースのAndroidボットネット検出に関する過去の研究よりも優れていた。

Android, being the most widespread mobile operating systems is increasingly becoming a target for malware. Malicious apps designed to turn mobile devices into bots that may form part of a larger botnet have become quite common, thus posing a serious threat. This calls for more effective methods to detect botnets on the Android platform. Hence, in this paper, we present a deep learning approach for Android botnet detection based on Convolutional Neural Networks (CNN). Our proposed botnet detection system is implemented as a CNN-based model that is trained on 342 static app features to distinguish between botnet apps and normal apps. The trained botnet detection model was evaluated on a set of 6,802 real applications containing 1,929 botnets from the publicly available ISCX botnet dataset. The results show that our CNN-based approach had the highest overall prediction accuracy compared to other popular machine learning classifiers. Furthermore, the performance results observed from our model were better than those reported in previous studies on machine learning based Android botnet detection.
翻訳日:2022-11-14 23:46:54 公開日:2020-07-01
# NXtを無に活用する:DGA検出分類器におけるクラス不均衡の影響

Making Use of NXt to Nothing: The Effect of Class Imbalances on DGA Detection Classifiers ( http://arxiv.org/abs/2007.00300v1 )

ライセンス: Link先を確認
Arthur Drichel, Ulrike Meyer, Samuel Sch\"uppen, Dominik Teubert(参考訳) 特定のドメイン名を生成するドメイン生成アルゴリズム(dga)を識別するマルチクラス分類においても、良性または悪質なドメイン名のバイナリ分類のために、多くの機械学習分類器が提案されている。 どちらの分類タスクも、DGA当たりのトレーニングサンプルの量が大きく異なるクラス不均衡の問題に対処する必要がある。 現在、トレーニングセットに少数のサンプルしか知られていないDGAの含有が、分類器全体の性能に有益か有害かは定かでない。 本稿では,両分類タスクにおけるクラス毎のトレーニングサンプル数種の高い価値を示す,コンテキストレスdga分類器の包括的解析を行う。 分類器は、以前は認識できない未認識のクラスを含めることで、様々なDGAを高い確率で検出できることを示した。 同時に、よく表現されたクラスの分類器の検出能力が低下しないことを示す。

Numerous machine learning classifiers have been proposed for binary classification of domain names as either benign or malicious, and even for multiclass classification to identify the domain generation algorithm (DGA) that generated a specific domain name. Both classification tasks have to deal with the class imbalance problem of strongly varying amounts of training samples per DGA. Currently, it is unclear whether the inclusion of DGAs for which only a few samples are known to the training sets is beneficial or harmful to the overall performance of the classifiers. In this paper, we perform a comprehensive analysis of various contextless DGA classifiers, which reveals the high value of a few training samples per class for both classification tasks. We demonstrate that the classifiers are able to detect various DGAs with high probability by including the underrepresented classes which were previously hardly recognizable. Simultaneously, we show that the classifiers' detection capabilities of well represented classes do not decrease.
翻訳日:2022-11-14 23:46:40 公開日:2020-07-01
# エネルギー分散を用いたスマートメータデータから視聴するテレビチャンネルの同定

Identification of TV Channel Watching from Smart Meter Data Using Energy Disaggregation ( http://arxiv.org/abs/2007.00326v1 )

ライセンス: Link先を確認
Pascal A. Schirmer, Iosif Mporas, Akbar Sheikh-Akbari(参考訳) スマートメーターは家庭のエネルギー消費を測定するために使われる。 具体的には、エネルギー消費タスクスマートメーター内では、負荷予測、消費税の削減、グリッド歪みの低減に使用されてきた。 エネルギー消費のスマートメータは、デバイスレベルでエネルギー消費を分解するために使用できる。 本研究では,家庭内の全作業機器から収集したエネルギー消費量を計測し,テレビやモニター装置で再生されるマルチメディアコンテンツの同定の可能性について検討する。 提案アーキテクチャは, 集積エネルギー信号フレームと20個の基準テレビチャンネル信号との弾性マッチングに基づく。 様々な弾力性マッチングアルゴリズムが用いられ、MVMアルゴリズムを用いて最高の映像コンテンツ識別精度は93.6%であった。

Smart meters are used to measure the energy consumption of households. Specifically, within the energy consumption task smart meter have been used for load forecasting, reduction of consumer bills as well as reduction of grid distortions. Except energy consumption smart meters can be used to disaggregate energy consumption on device level. In this paper we investigate the potential of identifying the multimedia content played by a TV or monitor device using the central house's smart meter measuring the aggregated energy consumption from all working appliances of the household. The proposed architecture is based on elastic matching of aggregated energy signal frames with 20 reference TV channel signals. Different elastic matching algorithms were used with the best achieved video content identification accuracy being 93.6% using the MVM algorithm.
翻訳日:2022-11-14 23:46:23 公開日:2020-07-01
# maat: 正確なラベリングと効果的なマルウェア検出のためのウイルストタルの自動分析

Maat: Automatically Analyzing VirusTotal for Accurate Labeling and Effective Malware Detection ( http://arxiv.org/abs/2007.00510v1 )

ライセンス: Link先を確認
Aleieldin Salem, Sebastian Banescu, Alexander Pretschner(参考訳) マルウェア分析と検出の研究コミュニティは、約60のアンチウイルススキャナーのスキャン結果に基づいて、Androidアプリをラベル付けするオンラインプラットフォームVirusTotalに依存している。 残念ながら、virustotalから取得したスキャン結果を最善に解釈する方法の基準はなく、異なるしきい値ベースのラベリング戦略(例えば、10以上のスキャナがアプリを悪質と判断した場合、悪意があると見なされる)を利用することになる。 利用されたしきい値のいくつかは、アプリの基本的な真実を正確に近似することができるが、ウイルスが使用するスキャナーのセットとバージョンを変更するという事実は、時間とともにそのようなしきい値が持続不可能になる。 我々は機械学習(ML)ベースのラベリングスキームを自動生成することで、標準化と持続可能性というこれらの課題に対処する手法Maatを実装した。 VirusTotalのレポートでは、1年間にわたる53万のAndroidアプリをスキャンし、しきい値ベースの戦略と比較することで、MaatのMLベースのラベリング戦略の適用性を評価した。 このようなMLベースの戦略は (a) VirusTotalのスキャンレポートに基づいてアプリを正確かつ一貫してラベル付けし、 b) 閾値ベースのアプリよりも,サンプル外アプリの分類に有効なMLベースの検出方法のトレーニングに寄与する。

The malware analysis and detection research community relies on the online platform VirusTotal to label Android apps based on the scan results of around 60 antiviral scanners. Unfortunately, there are no standards on how to best interpret the scan results acquired from VirusTotal, which leads to the utilization of different threshold-based labeling strategies (e.g., if ten or more scanners deem an app malicious, it is considered malicious). While some of the utilized thresholds may be able to accurately approximate the ground truths of apps, the fact that VirusTotal changes the set and versions of the scanners it uses makes such thresholds unsustainable over time. We implemented a method, Maat, that tackles these issues of standardization and sustainability by automatically generating a Machine Learning (ML)-based labeling scheme, which outperforms threshold-based labeling strategies. Using the VirusTotal scan reports of 53K Android apps that span one year, we evaluated the applicability of Maat's ML-based labeling strategies by comparing their performance against threshold-based strategies. We found that such ML-based strategies (a) can accurately and consistently label apps based on their VirusTotal scan reports, and (b) contribute to training ML-based detection methods that are more effective at classifying out-of-sample apps than their threshold-based counterparts.
翻訳日:2022-11-14 23:46:13 公開日:2020-07-01
# 分子潜在性宇宙シミュレータ

Molecular Latent Space Simulators ( http://arxiv.org/abs/2007.00728v1 )

ライセンス: Link先を確認
Hythem Sidky, Wei Chen, Andrew L. Ferguson(参考訳) 小さな積分時間ステップは分子動力学(MD)シミュレーションをミリ秒の時間スケールに制限する。 マルコフ状態モデル(MSM)と方程式自由アプローチは、状態空間の構成的あるいは動的粗粒化を行うことによりMDシミュレーションデータから低次元の運動モデルを学ぶ。 学習された運動モデルにより、mdによりアクセス可能な時間スケールよりも非常に長い時間スケールで動的軌道を効率的に生成することができるが、構成空間の離散化と分子配置を再構築する手段の欠如は、連続的な全原子分子軌道の生成を妨げる。 3つの深層学習ネットワークを訓練することにより、連続的な全原子シミュレーション軌道の運動モデルを学ぶための潜時空間シミュレータ(LSS)を提案する。 (i)分子系の遅い集団変数を学習する。 (ii)この遅い潜在空間内で系のダイナミクスを伝播させ、 (iii)分子構造を生成的に再構成する。 本稿では, Trp-cage ミニタンパク質を用いて全原子分子構造, 熱力学, 動力学をMDより6桁低いコストで正確に再現する, 新規な超長合成折りたたみ軌道を作製する手法を提案する。 トラジェクトリー生成の大幅なコスト削減により、推定熱力学平均と速度の統計的不確実性を大幅に低減できる。

Small integration time steps limit molecular dynamics (MD) simulations to millisecond time scales. Markov state models (MSMs) and equation-free approaches learn low-dimensional kinetic models from MD simulation data by performing configurational or dynamical coarse-graining of the state space. The learned kinetic models enable the efficient generation of dynamical trajectories over vastly longer time scales than are accessible by MD, but the discretization of configurational space and/or absence of a means to reconstruct molecular configurations precludes the generation of continuous all-atom molecular trajectories. We propose latent space simulators (LSS) to learn kinetic models for continuous all-atom simulation trajectories by training three deep learning networks to (i) learn the slow collective variables of the molecular system, (ii) propagate the system dynamics within this slow latent space, and (iii) generatively reconstruct molecular configurations. We demonstrate the approach in an application to Trp-cage miniprotein to produce novel ultra-long synthetic folding trajectories that accurately reproduce all-atom molecular structure, thermodynamics, and kinetics at six orders of magnitude lower cost than MD. The dramatically lower cost of trajectory generation enables greatly improved sampling and greatly reduced statistical uncertainties in estimated thermodynamic averages and kinetic rates.
翻訳日:2022-11-14 23:39:30 公開日:2020-07-01
# FlowControl:光フローに基づくビジュアルサーボ

FlowControl: Optical Flow Based Visual Servoing ( http://arxiv.org/abs/2007.00291v1 )

ライセンス: Link先を確認
Max Argus and Lukas Hermann and Jon Long and Thomas Brox(参考訳) ワンショット模倣(one-shot imitation)とは、コンピュータコードの退屈な構成ではなく、単一のデモンストレーションによるロボットプログラミングのビジョンである。 本稿では,リアルタイムな視覚サーボを行うために,現代の学習に基づく光学的フローを利用して,操作タスクのワンショット模倣を実現するための実践的手法を提案する。 FlowControlと呼ばれる私たちのアプローチは、特定のフォアグラウンドマスクを使用して、興味のあるオブジェクトに出席するデモビデオを継続的に追跡します。 RGB-D観測を使用して、FlowControlは3Dオブジェクトモデルを必要としないため、セットアップが容易である。 FlowControlは、光学フローにおける数十年の作業から視覚的な外観に非常に頑丈さを継承する。 我々は、非常に正確な動きを必要とするものや一般化する能力を必要とするものを含む、様々な問題に対してフロー制御を示す。

One-shot imitation is the vision of robot programming from a single demonstration, rather than by tedious construction of computer code. We present a practical method for realizing one-shot imitation for manipulation tasks, exploiting modern learning-based optical flow to perform real-time visual servoing. Our approach, which we call FlowControl, continuously tracks a demonstration video, using a specified foreground mask to attend to an object of interest. Using RGB-D observations, FlowControl requires no 3D object models, and is easy to set up. FlowControl inherits great robustness to visual appearance from decades of work in optical flow. We exhibit FlowControl on a range of problems, including ones requiring very precise motions, and ones requiring the ability to generalize.
翻訳日:2022-11-14 23:38:31 公開日:2020-07-01
# FVV Live:消費者電子ハードウェアを用いたリアルタイム自由視点ビデオシステム

FVV Live: A real-time free-viewpoint video system with consumer electronics hardware ( http://arxiv.org/abs/2007.00558v1 )

ライセンス: Link先を確認
Pablo Carballeira, Carlos Carmona, C\'esar D\'iaz, Daniel Berj\'on, Daniel Corregidor, Juli\'an Cabrera, Francisco Mor\'an, Carmen Doblado, Sergio Arnaldo, Mar\'ia del Mar Mart\'in, Narciso Garc\'ia(参考訳) FVV Liveは、市販のコンポーネントをベースとした、低コストでリアルタイムな操作のために設計された、新しいエンドツーエンドの無料視点ビデオシステムである。 このシステムは、コンシューマグレードのカメラとハードウェアを使って高品質なフリービュービデオを生成するように設計されており、低デプロイメントコストと没入型イベントブロードキャストやビデオ会議のインストールが容易である。 本稿では,複数のキャプチャサーバにおけるマルチビュープラス深度データの取得とエンコーディング,エッジサーバでの仮想ビュー合成など,システムのアーキテクチャについて述べる。 システムのすべてのブロックは、ハードウェアとネットワークによって課される制限を克服するために設計されており、深度データの正確さと仮想ビュー合成の品質に直接影響する。 FVV Liveの設計により、任意の数のカメラとキャプチャサーバが利用でき、この論文で示された結果は、9つのステレオベースディープカメラによる実装に対応する。 FVV Liveはスローモーション・ツー・フォトンとエンド・ツー・エンドの遅延を示し、シームレスな自由視点ナビゲーションと双方向の没入型通信を可能にする。 さらに,fvv liveの視覚的品質は,満足度の高い主観的評価により評価され,さらに,最新のdibr代替品よりも好ましいことが示された。

FVV Live is a novel end-to-end free-viewpoint video system, designed for low cost and real-time operation, based on off-the-shelf components. The system has been designed to yield high-quality free-viewpoint video using consumer-grade cameras and hardware, which enables low deployment costs and easy installation for immersive event-broadcasting or videoconferencing. The paper describes the architecture of the system, including acquisition and encoding of multiview plus depth data in several capture servers and virtual view synthesis on an edge server. All the blocks of the system have been designed to overcome the limitations imposed by hardware and network, which impact directly on the accuracy of depth data and thus on the quality of virtual view synthesis. The design of FVV Live allows for an arbitrary number of cameras and capture servers, and the results presented in this paper correspond to an implementation with nine stereo-based depth cameras. FVV Live presents low motion-to-photon and end-to-end delays, which enables seamless free-viewpoint navigation and bilateral immersive communications. Moreover, the visual quality of FVV Live has been assessed through subjective assessment with satisfactory results, and additional comparative tests show that it is preferred over state-of-the-art DIBR alternatives.
翻訳日:2022-11-14 23:37:56 公開日:2020-07-01
# 小型無人航空機の単眼視ナビゲーションのための仮想テストベッド

Virtual Testbed for Monocular Visual Navigation of Small Unmanned Aircraft Systems ( http://arxiv.org/abs/2007.00737v1 )

ライセンス: Link先を確認
Kyung Kim, Robert C. Leishman, and Scott L. Nykl(参考訳) 単眼の視覚ナビゲーション手法は過去10年間で大きな進歩を遂げており、最近はGPSを頼らずに小型無人航空機を自律的に航行するためのいくつかのリアルタイムソリューションを生み出している。 これは、GPS信号が劣化または否定される環境を含む軍事作戦にとって重要である。 しかし、ビジュアルデータの収集にはコストがかかるため、ビジュアルナビゲーションアルゴリズムのテストと比較は依然として課題である。 仮想環境での飛行テストの実行は、屋外テストにコミットする前に魅力的なソリューションです。 本研究は、実世界の地形上でシミュレーション飛行試験を行い、31Hzのビジュアルナビゲーションアルゴリズムのリアルタイム性能を解析するための仮想テストベッドを提案する。 このツールは最終的に、すべてのアルゴリズムが他のモダリティのために設計されているにもかかわらず、固定翼航空機のGPSによる航法研究に適した視覚計測アルゴリズムを見つけるために作られた。 このテストベッドは、固定翼プラットフォーム(Direct Sparse Odometry、Semi-Direct Visual Odometry、ORB-SLAM2、ループクロージャを無効にした)上で、最先端のオープンソースのモノクラービジュアルオドメトリーアルゴリズムを3つ評価するために使用された。

Monocular visual navigation methods have seen significant advances in the last decade, recently producing several real-time solutions for autonomously navigating small unmanned aircraft systems without relying on GPS. This is critical for military operations which may involve environments where GPS signals are degraded or denied. However, testing and comparing visual navigation algorithms remains a challenge since visual data is expensive to gather. Conducting flight tests in a virtual environment is an attractive solution prior to committing to outdoor testing. This work presents a virtual testbed for conducting simulated flight tests over real-world terrain and analyzing the real-time performance of visual navigation algorithms at 31 Hz. This tool was created to ultimately find a visual odometry algorithm appropriate for further GPS-denied navigation research on fixed-wing aircraft, even though all of the algorithms were designed for other modalities. This testbed was used to evaluate three current state-of-the-art, open-source monocular visual odometry algorithms on a fixed-wing platform: Direct Sparse Odometry, Semi-Direct Visual Odometry, and ORB-SLAM2 (with loop closures disabled).
翻訳日:2022-11-14 23:37:16 公開日:2020-07-01
# TiledSoilingNet:Coverage Metricを用いた自動車周囲カメラのタイルレベル土壌検出

TiledSoilingNet: Tile-level Soiling Detection on Automotive Surround-view Cameras Using Coverage Metric ( http://arxiv.org/abs/2007.00801v1 )

ライセンス: Link先を確認
Arindam Das, Pavel Krizek, Ganesh Sistu, Fabian Burger, Sankaralingam Madasamy, Michal Uricar, Varun Ravi Kumar, Senthil Yogamani(参考訳) 自動車用カメラ、特にサラウンドビューカメラは、泥や水、雪などで汚れる傾向がある。 高レベルな自動運転には、自動クリーニングシステムを起動する汚れ検出アルゴリズムが必要である。 画像中の汚れの局所的な検出はクリーニングシステムを制御するために必要である。 また, 未土壌地域における部分的な機能を実現するとともに, 土壌の信頼性を低下させる必要がある。 セマンティックセグメンテーションタスクを用いてこれを解くことができるが、低消費電力組み込みシステムにおけるデプロイをターゲットとしたより効率的なソリューションを探索する。 そこで本研究では, タイル内の各土型面積を直接後退させる新しい手法を提案する。 これをカバレッジと呼びます。 提案手法は,複数の土壌タイプがタイル内で一般的に発生するため,タイル内で支配的なクラスを学習するよりも優れている。 また、セグメンテーションタスクを引き起こす粗いポリゴンアノテーションを扱うという利点もある。 提案した土壌被覆デコーダは等価セグメンテーションデコーダよりも桁違いに高速である。 また,非同期バックプロパゲーションアルゴリズムを用いてオブジェクト検出とセマンティックセグメンテーションのマルチタスクモデルに統合した。 使用されるデータセットの一部は、さらなる研究を促進するために、WoodScapeデータセットの一部として公開されます。

Automotive cameras, particularly surround-view cameras, tend to get soiled by mud, water, snow, etc. For higher levels of autonomous driving, it is necessary to have a soiling detection algorithm which will trigger an automatic cleaning system. Localized detection of soiling in an image is necessary to control the cleaning system. It is also necessary to enable partial functionality in unsoiled areas while reducing confidence in soiled areas. Although this can be solved using a semantic segmentation task, we explore a more efficient solution targeting deployment in low power embedded system. We propose a novel method to regress the area of each soiling type within a tile directly. We refer to this as coverage. The proposed approach is better than learning the dominant class in a tile as multiple soiling types occur within a tile commonly. It also has the advantage of dealing with coarse polygon annotation, which will cause the segmentation task. The proposed soiling coverage decoder is an order of magnitude faster than an equivalent segmentation decoder. We also integrated it into an object detection and semantic segmentation multi-task model using an asynchronous back-propagation algorithm. A portion of the dataset used will be released publicly as part of our WoodScape dataset to encourage further research.
翻訳日:2022-11-14 23:36:55 公開日:2020-07-01
# 伝説: redditの民話

Legends: Folklore on Reddit ( http://arxiv.org/abs/2007.00750v1 )

ライセンス: Link先を確認
Caitrin Armstrong and Derek Ruths(参考訳) 本稿では、redditで有名になった古い投稿のコレクションであるreddit legendsを紹介します。 計算機科学・hci・民俗学におけるredditレジェンドの有用性を確立するために,(1)民俗学としてみなせるか,すなわち,一貫した形態,文化的意義を持ち,自発的伝達を行うか,(2)体系的に研究できるか,という2つの主課題を考察した。 タイポロジーの作成、Reddit伝説への言及の分析、参照行動のテキスト的特徴の検証など、いくつかのサブタスクを通じて、Reddit伝説は実際に民間伝承とみなすことができ、体系的なテキストベースのアプローチに修正可能であることを示す。 これらの結果がReddit上での民間伝承の分析にどのように役立つのかを論じ、サブレディット・ワイドおよび個人・ユーザー行動の追跡や、この行動と他の文化的指標との関係について論じる。

In this paper we introduce Reddit legends, a collection of venerated old posts that have become famous on Reddit. To establish the utility of Reddit legends for both computational science/HCI and folkloristics, we investigate two main questions: (1) whether they can be considered folklore, i.e. if they have consistent form, cultural significance, and undergo spontaneous transmission, and (2) whether they can be studied in a systematic manner. Through several subtasks, including the creation of a typology, an analysis of references to Reddit legends, and an examination of some of the textual characteristics of referencing behaviour, we show that Reddit legends can indeed be considered as folklore and that they are amendable to systematic text-based approaches. We discuss how these results will enable future analyses of folklore on Reddit, including tracking subreddit-wide and individual-user behaviour, and the relationship of this behaviour to other cultural markers.
翻訳日:2022-11-14 23:29:57 公開日:2020-07-01
# データ駆動による鉄筋コンクリート構造物の耐食性評価法

Data-Driven Method for Enhanced Corrosion Assessment of Reinforced Concrete Structures ( http://arxiv.org/abs/2007.01164v1 )

ライセンス: Link先を確認
Woubishet Zewdu Taffese(参考訳) 鉄筋コンクリート構造物の耐食性に影響を及ぼす主な問題である。 鉄筋コンクリート構造物の耐食・補修費は全世界で数十億米ドルである。 しばしば、コンクリートの細孔への二酸化炭素や塩化物の侵入によって引き起こされる。 従来モデルを用いた腐食要因の推定は,パラメータの複雑な相互作用を捉えることができないため,準最適評価となる。 熱水相互作用は鉄筋の腐食を増進させる役割も担っており、通常は表面保護システムの適用によって阻害される。 これらのシステムは保護の度合いが異なり、意図せず構造物の劣化を引き起こすこともある。 この論文の全体的な目的は、腐食制御因子の評価信頼性を高める枠組みを提供することである。 このフレームワークは、データ駆動炭酸化深度、塩化物プロファイルおよび温熱性能予測モデルの開発を通じて実現されている。 炭酸化深度予測モデルは、ニューラルネットワーク、決定木、強化およびバッジアンサンブル決定木を統合する。 アンサンブルツリーに基づく塩化物プロファイル予測モデルは,様々な観点から塩化物インレス制御変数の意義を評価する。 表面処理したコンクリート要素の腐食およびその他の予期せぬ劣化状況を評価するため,ニューラルネットワークを用いた熱水相互作用予測モデルを開発した。 3つの異なるフィールド実験から全モデルの長期データを得た。 開発した炭酸化深度予測モデルと従来モデルの性能比較により,データ駆動モデルの予測精度が確認された。 変数...

Corrosion is a major problem affecting the durability of reinforced concrete structures. Corrosion related maintenance and repair of reinforced concrete structures cost multibillion USD per annum globally. It is often triggered by the ingression of carbon dioxide and/or chloride into the pores of concrete. Estimation of these corrosion causing factors using the conventional models results in suboptimal assessment since they are incapable of capturing the complex interaction of parameters. Hygrothermal interaction also plays a role in aggravating the corrosion of reinforcement bar and this is usually counteracted by applying surface-protection systems. These systems have different degree of protection and they may even cause deterioration to the structure unintentionally. The overall objective of this dissertation is to provide a framework that enhances the assessment reliability of the corrosion controlling factors. The framework is realized through the development of data-driven carbonation depth, chloride profile and hygrothermal performance prediction models. The carbonation depth prediction model integrates neural network, decision tree, boosted and bagged ensemble decision trees. The ensemble tree based chloride profile prediction models evaluate the significance of chloride ingress controlling variables from various perspectives. The hygrothermal interaction prediction models are developed using neural networks to evaluate the status of corrosion and other unexpected deteriorations in surface-treated concrete elements. Long-term data for all models were obtained from three different field experiments. The performance comparison of the developed carbonation depth prediction model with the conventional one confirmed the prediction superiority of the data-driven model. The variable ...
翻訳日:2022-11-14 23:29:14 公開日:2020-07-01
# 文脈知識と影響図による推論

Reasoning with Contextual Knowledge and Influence Diagrams ( http://arxiv.org/abs/2007.00571v1 )

ライセンス: Link先を確認
Erman Acar and Rafael Pe\~naloza(参考訳) 影響図 (ids) は、ベイズネットワークを拡張して不確実性の下で決定状況をモデル化するよく知られた形式である。 決定論的ツールとして便利であるが、その知識表現能力は論理的一貫性など他の重要な概念を捉える際に制限される。 このような制限を克服するために、IDと軽量記述論理(DL)ELを補完する。 DL公理がいくつかの文脈で保持される設定を考えるが、実際の文脈は不確かである。 このフレームワークは、ドメイン知識表現言語としてDLを使用することの利便性と、コンテキスト不確実性の存在下でのコンテキストに関する決定を扱うためのIDのモデリング強度から恩恵を受ける。 関連する推論問題を定義し,計算複雑性を考察する。

Influence diagrams (IDs) are well-known formalisms extending Bayesian networks to model decision situations under uncertainty. Although they are convenient as a decision theoretic tool, their knowledge representation ability is limited in capturing other crucial notions such as logical consistency. We complement IDs with the light-weight description logic (DL) EL to overcome such limitations. We consider a setup where DL axioms hold in some contexts, yet the actual context is uncertain. The framework benefits from the convenience of using DL as a domain knowledge representation language and the modelling strength of IDs to deal with decisions over contexts in the presence of contextual uncertainty. We define related reasoning problems and study their computational complexity.
翻訳日:2022-11-14 23:28:53 公開日:2020-07-01
# タスク変種によるマルチロボットタスクの割り当て

Allocation of Multi-Robot Tasks with Task Variants ( http://arxiv.org/abs/2007.00777v1 )

ライセンス: Link先を確認
Zakk Giacometti and Yu Zhang(参考訳) タスク割り当てはよく研究された問題です。 ほとんどの事前問題定式化では、各タスクは一意なリソース要求のセットに関連付けられていると仮定される。 マルチロボットタスク割り当て問題の範囲では、これらの要件をロボットの連立によって満たすことができる。 本稿では,タスク要求のセットを指定するために複数のオプションを選択可能なマルチロボットタスク割り当て問題のより一般的な定式化を導入する。 我々は,タスク変量を伴うマルチロボットタスク割り当て問題として,この新しい問題を言及した。 まず、この拡張は幸運にもNP完全である複雑性クラスに影響を与えないことを示す。 解法では,タスク変数のないタスク割り当て問題に対して,従来の2つのグリージー手法を適用して,この問題を解き,その有効性を解析する。 特に、タスクの変種なしで問題に新しい問題を「フラット」し、フラット化問題を解くために以前の方法を変更し、境界が保たれていることを証明します。 最後に,これら2つの手法を無作為ベースラインとともに徹底的に評価し,新たな問題に対する有効性を示す。

Task allocation has been a well studied problem. In most prior problem formulations, it is assumed that each task is associated with a unique set of resource requirements. In the scope of multi-robot task allocation problem, these requirements can be satisfied by a coalition of robots. In this paper, we introduce a more general formulation of multi-robot task allocation problem that allows more than one option for specifying the set of task requirements--satisfying any one of the options will satisfy the task. We referred to this new problem as the multi-robot task allocation problem with task variants. First, we theoretically show that this extension fortunately does not impact the complexity class, which is still NP-complete. For solution methods, we adapt two previous greedy methods for the task allocation problem without task variants to solve this new problem and analyze their effectiveness. In particular, we "flatten" the new problem to the problem without task variants, modify the previous methods to solve the flattened problem, and prove that the bounds still hold. Finally, we thoroughly evaluate these two methods along with a random baseline to demonstrate their efficacy for the new problem.
翻訳日:2022-11-14 23:28:17 公開日:2020-07-01
# 対物関係を用いた境界と不等式制約の導出

Deriving Bounds and Inequality Constraints Using LogicalRelations Among Counterfactuals ( http://arxiv.org/abs/2007.00628v1 )

ライセンス: Link先を確認
Noam Finkelstein, Ilya Shpitser(参考訳) 因果パラメータは、観測されていない共起の存在下では特定できない。 しかし、境界の形で特定されていないパラメータに関する情報は、一部のケースでは観測データから回復する可能性がある。 確率の規則と因果モデルに含意される反事実の制約を用いて因果パラメータの境界を求める新しい一般的な方法を開発した。 さらに,このような因果モデルに含意される観測データ法の関数に対する不等式制約を与える。 我々のアプローチは、識別された事象と特定されていない事象の間の論理的関係が、しばしば特定されていない事象に関する情報をもたらすという観察によって動機づけられている。 このアプローチは、既知の鋭い境界と厳密な不等式制約を回復し、新しい境界と制約を導出するのに十分強力であることを示す。

Causal parameters may not be point identified in the presence of unobserved confounding. However, information about non-identified parameters, in the form of bounds, may still be recovered from the observed data in some cases. We develop a new general method for obtaining bounds on causal parameters using rules of probability and restrictions on counterfactuals implied by causal graphical models. We additionally provide inequality constraints on functionals of the observed data law implied by such causal models. Our approach is motivated by the observation that logical relations between identified and non-identified counterfactual events often yield information about non-identified events. We show that this approach is powerful enough to recover known sharp bounds and tight inequality constraints, and to derive novel bounds and constraints.
翻訳日:2022-11-14 23:27:58 公開日:2020-07-01
# IKEA ASMデータセット:アクション、オブジェクト、詩を通じて家具を組み立てる人々の理解

The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose ( http://arxiv.org/abs/2007.00394v1 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Xin Yu, Fatemeh Sadat Saleh, Dylan Campbell, Cristian Rodriguez-Opazo, Hongdong Li, Stephen Gould(参考訳) 大規模ラベル付きデータセットの可用性は、さまざまなコンピュータビジョンタスクを解決するためにディープラーニングメソッドを適用する上で重要な要件である。 人間の活動を理解するという文脈では、既存の公開データセットはサイズが大きいが、しばしば単一のrgbカメラに限定され、フレーム単位またはクリップ単位のアクションアノテーションのみを提供する。 ヒトの活動のより豊かな分析と理解を可能にするために,深度,原子作用,物体のセグメンテーション,人間のポーズを含む,300万フレーム,多視点,家具組立ビデオデータセットのIKEA ASMを導入する。 さらに,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定といった重要な手法をベンチマークする。 データセットは、マルチモーダルおよびマルチビューデータを統合して、これらのタスクをより良く実行する、総合的な方法の開発を可能にする。

The availability of a large labeled dataset is a key requirement for applying deep learning methods to solve various computer vision tasks. In the context of understanding human activities, existing public datasets, while large in size, are often limited to a single RGB camera and provide only per-frame or per-clip action annotations. To enable richer analysis and understanding of human activities, we introduce IKEA ASM---a three million frame, multi-view, furniture assembly video dataset that includes depth, atomic actions, object segmentation, and human pose. Additionally, we benchmark prominent methods for video action recognition, object segmentation and human pose estimation tasks on this challenging dataset. The dataset enables the development of holistic methods, which integrate multi-modal and multi-view data to better perform on these tasks.
翻訳日:2022-11-14 23:21:44 公開日:2020-07-01
# トランスダクティブ転送による非バイアスゼロショットセマンティックセグメンテーションネットワークの学習

Learning unbiased zero-shot semantic segmentation networks via transductive transfer ( http://arxiv.org/abs/2007.00515v1 )

ライセンス: Link先を確認
Haiyang Liu, Yichen Wang, Jiayi Zhao, Guowu Yang, Fengmao Lv(参考訳) 画像の詳細な理解を目的としたセマンティックセグメンテーションは,コンピュータビジョンにおいて重要な課題である。 しかし、実際的なシナリオでは、トレーニングのカテゴリとは異なる新しいカテゴリが通常現れます。 全てのカテゴリのラベル付きデータを収集するのは現実的ではないため、セグメンテーションにおけるゼロショット学習の実施は重要な課題である。 カテゴリーの属性埋め込みは、異なるカテゴリ間で効果的な知識伝達を促進することができるが、セグメンテーションネットワークの予測は、見るカテゴリーに対する明らかなバイアスを明らかにする。 本稿では,ゼロショットセマンティックセグメンテーションにおける予測バイアスを軽減するための,実装が容易なトランスダクティブ手法を提案する。 本手法は,全画素レベルのラベル付きソース画像とラベルなしターゲット画像の両方をトレーニング中に利用できると仮定する。 具体的に言うと、ソースイメージは視覚画像と意味埋め込みの関係を学習するために使用され、ターゲットイメージは見えるカテゴリに対する予測バイアスを緩和するために使用される。 PASCALデータセットの多種多様な分割について包括的実験を行った。 実験の結果,本手法の有効性が明らかとなった。

Semantic segmentation, which aims to acquire a detailed understanding of images, is an essential issue in computer vision. However, in practical scenarios, new categories that are different from the categories in training usually appear. Since it is impractical to collect labeled data for all categories, how to conduct zero-shot learning in semantic segmentation establishes an important problem. Although the attribute embedding of categories can promote effective knowledge transfer across different categories, the prediction of segmentation network reveals obvious bias to seen categories. In this paper, we propose an easy-to-implement transductive approach to alleviate the prediction bias in zero-shot semantic segmentation. Our method assumes that both the source images with full pixel-level labels and unlabeled target images are available during training. To be specific, the source images are used to learn the relationship between visual images and semantic embeddings, while the target images are used to alleviate the prediction bias towards seen categories. We conduct comprehensive experiments on diverse split s of the PASCAL dataset. The experimental results clearly demonstrate the effectiveness of our method.
翻訳日:2022-11-14 23:21:27 公開日:2020-07-01
# HACT-Net: 病理画像分類のための階層型細胞間グラフニューラルネットワーク

HACT-Net: A Hierarchical Cell-to-Tissue Graph Neural Network for Histopathological Image Classification ( http://arxiv.org/abs/2007.00584v1 )

ライセンス: Link先を確認
Pushpak Pati, Guillaume Jaume, Lauren Alisha Fernandes, Antonio Foncubierta, Florinda Feroce, Anna Maria Anniciello, Giosue Scognamiglio, Nadia Brancati, Daniel Riccio, Maurizio Do Bonito, Giuseppe De Pietro, Gerardo Botti, Orcun Goksel, Jean-Philippe Thiran, Maria Frucci, Maria Gabrani(参考訳) 癌診断,予後予測,治療応答予測は,病理組織構造と組織機能との関係に大きく影響される。 近年, 組織構造と機能の関係を認識したアプローチは, 細胞グラフによる組織構造と空間構造を腫瘍のグレードと結びつけている。 細胞組織は必須であるが、組織学的構造を完全に表すには不十分である。 本稿では,組織構造表現を改善するために,新しい階層型細胞間グラフ(hact)表現を提案する。 低レベルの細胞グラフ、細胞の形態と相互作用のキャプチャ、高レベルの組織グラフ、組織部位の形態と空間分布のキャプチャ、組織分布に関する細胞の相対的な空間分布をコードする細胞から細胞への階層で構成される。 さらに,HACT表現を病理組織学的乳癌サブタイプに効率的にマッピングするために,階層型グラフニューラルネットワーク(HACT-Net)を提案する。 本手法は,H&E染色乳癌全スライダから注目される組織領域のアノテートについて検討した。 提案手法は乳がんのマルチクラスサブタイピングにおいて,近年の畳み込みニューラルネットワークとグラフニューラルネットワークのアプローチより優れていた。 提案するエンティティベーストポロジカル分析は,組織病理診断法とよりインラインである。 組織モデリングをより指揮するので、タスク特異的な組織表現に病的優先事項を包含することを奨励する。

Cancer diagnosis, prognosis, and therapeutic response prediction are heavily influenced by the relationship between the histopathological structures and the function of the tissue. Recent approaches acknowledging the structure-function relationship, have linked the structural and spatial patterns of cell organization in tissue via cell-graphs to tumor grades. Though cell organization is imperative, it is insufficient to entirely represent the histopathological structure. We propose a novel hierarchical cell-to-tissue-graph (HACT) representation to improve the structural depiction of the tissue. It consists of a low-level cell-graph, capturing cell morphology and interactions, a high-level tissue-graph, capturing morphology and spatial distribution of tissue parts, and cells-to-tissue hierarchies, encoding the relative spatial distribution of the cells with respect to the tissue distribution. Further, a hierarchical graph neural network (HACT-Net) is proposed to efficiently map the HACT representations to histopathological breast cancer subtypes. We assess the methodology on a large set of annotated tissue regions of interest from H\&E stained breast carcinoma whole-slides. Upon evaluation, the proposed method outperformed recent convolutional neural network and graph neural network approaches for breast cancer multi-class subtyping. The proposed entity-based topological analysis is more inline with the pathological diagnostic procedure of the tissue. It provides more command over the tissue modelling, therefore encourages the further inclusion of pathological priors into task-specific tissue representation.
翻訳日:2022-11-14 23:20:54 公開日:2020-07-01
# 斜め単眼画像における地球中心オブジェクトの学習

Learning Geocentric Object Pose in Oblique Monocular Images ( http://arxiv.org/abs/2007.00729v1 )

ライセンス: Link先を確認
Gordon Christie, Rodrigo Rene Rai Munoz Abujder, Kevin Foster, Shea Hagstrom, Gregory D. Hager, Myron Z. Brown(参考訳) オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。 近距離視覚タスクでは、高さと向きはステレオ計算された深さから直接、最近ではディープネットワークによって予測される単分子深度から直接導かれる。 地球観測などの長距離視覚タスクでは、深度を単眼画像で確実に推定することはできない。 この課題に対処するための静止画像からの光学的流れ予測と単色高での最近の研究から着想を得て,この課題に対処するジオセントリックなポーズの符号化を開発し,その表現を高密度に計算する深層ネットワークの訓練を行った。 これらの特徴を利用して斜視像を補正し,観測対象視差を除去し,局所化の精度を劇的に向上させ,異なる斜視視点から撮影された複数の画像の正確なアライメントを可能にする。 衛星画像におけるセマンティクスセグメンテーションのための2つの大規模公開データセットを拡張することにより,このアプローチの価値を実証する。 すべてのデータとコードは公開されています。

An object's geocentric pose, defined as the height above ground and orientation with respect to gravity, is a powerful representation of real-world structure for object detection, segmentation, and localization tasks using RGBD images. For close-range vision tasks, height and orientation have been derived directly from stereo-computed depth and more recently from monocular depth predicted by deep networks. For long-range vision tasks such as Earth observation, depth cannot be reliably estimated with monocular images. Inspired by recent work in monocular height above ground prediction and optical flow prediction from static images, we develop an encoding of geocentric pose to address this challenge and train a deep network to compute the representation densely, supervised by publicly available airborne lidar. We exploit these attributes to rectify oblique images and remove observed object parallax to dramatically improve the accuracy of localization and to enable accurate alignment of multiple images taken from very different oblique viewpoints. We demonstrate the value of our approach by extending two large-scale public datasets for semantic segmentation in oblique satellite images. All of our data and code are publicly available.
翻訳日:2022-11-14 23:20:35 公開日:2020-07-01
# 胸部x線画像における疾患局在の弱教師付き分節化

Weakly-Supervised Segmentation for Disease Localization in Chest X-Ray Images ( http://arxiv.org/abs/2007.00748v1 )

ライセンス: Link先を確認
Ostap Viniavskyi, Mariia Dobko, Oles Dobosevych(参考訳) 深層畳み込みニューラルネットワークはセマンティックセグメンテーションの課題を解決するのに有効であることが証明されている。 しかし、その効率性は、特に医用画像において、取得するのに高価でしばしばドメインの専門知識を必要とするピクセルレベルのアノテーションに大きく依存している。 弱教師付きセマンティックセグメンテーションはこれらの問題を克服し、説明可能なディープラーニングモデルを提供する。 本稿では,画像レベルのクラスラベルのみを監督する医療用胸部x線画像の意味セグメンテーションに関する新しいアプローチを提案する。 3つのアプローチを連続するステップとして組み合わせることで、疾患の局在精度を向上させる。 まず,正規化処理により強化された教師付き分類モデルを用いて,訓練画像内の異常領域の擬似セグメンテーションラベルを生成する。 得られたアクティベーションマップは後処理され、第2の分類モデル-画素間関係ネットワークに伝播され、異なるオブジェクトクラスの境界が改善される。 最後に、提案した完全教師付きセグメンテーションモデルをトレーニングするために擬似ラベルが使用される。 提案手法のロバスト性を解析し,PASCAL VOC 2012 とSIIM-ACR Pneumothorax の2つの異なるデータセットで評価を行った。 画像レベルのアノテーションだけで両データセットのセグメンテーションにおいて有意な結果が得られる。 肺と胸壁の間の胸腔内の異常な空気量を検出するため,胸部X線検査に本手法が適用できることが示唆された。 私たちのコードは公開されています。

Deep Convolutional Neural Networks have proven effective in solving the task of semantic segmentation. However, their efficiency heavily relies on the pixel-level annotations that are expensive to get and often require domain expertise, especially in medical imaging. Weakly supervised semantic segmentation helps to overcome these issues and also provides explainable deep learning models. In this paper, we propose a novel approach to the semantic segmentation of medical chest X-ray images with only image-level class labels as supervision. We improve the disease localization accuracy by combining three approaches as consecutive steps. First, we generate pseudo segmentation labels of abnormal regions in the training images through a supervised classification model enhanced with a regularization procedure. The obtained activation maps are then post-processed and propagated into a second classification model-Inter-pixel Relation Network, which improves the boundaries between different object classes. Finally, the resulting pseudo-labels are used to train a proposed fully supervised segmentation model. We analyze the robustness of the presented method and test its performance on two distinct datasets: PASCAL VOC 2012 and SIIM-ACR Pneumothorax. We achieve significant results in the segmentation on both datasets using only image-level annotations. We show that this approach is applicable to chest X-rays for detecting an anomalous volume of air in the pleural space between the lung and the chest wall. Our code has been made publicly available.
翻訳日:2022-11-14 23:20:13 公開日:2020-07-01
# 複合テキスト文書の自己教師あり深層再構築

Self-supervised Deep Reconstruction of Mixed Strip-shredded Text Documents ( http://arxiv.org/abs/2007.00779v1 )

ライセンス: Link先を確認
Thiago M. Paix\~ao, Rodrigo F. Berriel, Maria C. S. Boeres, Alessandro L. Koerich, Claudine Badue, Alberto F. de Souza, Thiago Oliveira-Santos(参考訳) シュレッダード文書の復元は、元の文書を復元するために紙(シュレッダー)の断片をコヒーレントに並べて構成する。 計算再構成における大きな課題は、シャード間の互換性を適切に評価することである。 従来のピクセルベースのアプローチは実際の縮小には耐えられないが、より洗練されたソリューションは時間パフォーマンスを損なう。 本研究で提示した解法は,従来より現実的かつ複雑なシナリオである複数のシュレッダード文書を一度に再構築する深層学習法を拡張したものである。 本手法では,適合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。 モデルは、手動アノテーションを省略するシミュレートされた文書から抽出されたサンプルに対して、自己教師ありで訓練される。 この研究のために作成された100のストリップシェードドキュメントを含む3つのデータセットの実験結果は、提案手法が複雑なシナリオで競合する文書よりも優れており、90%以上の精度を達成していることを示している。

The reconstruction of shredded documents consists of coherently arranging fragments of paper (shreds) to recover the original document(s). A great challenge in computational reconstruction is to properly evaluate the compatibility between the shreds. While traditional pixel-based approaches are not robust to real shredding, more sophisticated solutions compromise significantly time performance. The solution presented in this work extends our previous deep learning method for single-page reconstruction to a more realistic/complex scenario: the reconstruction of several mixed shredded documents at once. In our approach, the compatibility evaluation is modeled as a two-class (valid or invalid) pattern recognition problem. The model is trained in a self-supervised manner on samples extracted from simulated-shredded documents, which obviates manual annotation. Experimental results on three datasets -- including a new collection of 100 strip-shredded documents produced for this work -- have shown that the proposed method outperforms the competing ones on complex scenarios, achieving accuracy superior to 90%.
翻訳日:2022-11-14 23:19:54 公開日:2020-07-01
# ペアワイズリコンストラクションを用いた教師なし意味ハッシュ

Unsupervised Semantic Hashing with Pairwise Reconstruction ( http://arxiv.org/abs/2007.00380v1 )

ライセンス: Link先を確認
Casper Hansen and Christian Hansen and Jakob Grue Simonsen and Stephen Alstrup and Christina Lioma(参考訳) セマンティック・ハッシュ(Semantic Hashing)は、大規模データセットにおける効率的な類似性探索手法のファミリーである。 意味ハッシュでは、文書は短いバイナリベクトル(すなわちハッシュ符号)として符号化され、ハミング距離を用いて意味的類似性を効率的に計算できる。 最近の最先端のアプローチでは、より優れたハッシュモデルのトレーニングに弱い監督を活用している。 そこで本研究では,離散的変分オートエンコーダに基づくハッシュモデルであるペアワイズ・リコンストラクション(pairrec)を用いた意味的ハッシュ方式を提案する。 PairRecは、まず弱い教師付きトレーニングペア(クエリドキュメントとセマンティックに類似したドキュメント)を2つのハッシュコードにエンコードし、その後、両方のハッシュコードから同じクエリドキュメントを再構築することを学ぶ。 このペアワイズ再構成により、デコーダから直接ハッシュコード内の局所的な近傍構造を符号化できる。 PairRecと従来の手法と最先端の手法を実験的に比較し,文書類似性検索のタスクにおいて大幅な性能向上を実現した。

Semantic Hashing is a popular family of methods for efficient similarity search in large-scale datasets. In Semantic Hashing, documents are encoded as short binary vectors (i.e., hash codes), such that semantic similarity can be efficiently computed using the Hamming distance. Recent state-of-the-art approaches have utilized weak supervision to train better performing hashing models. Inspired by this, we present Semantic Hashing with Pairwise Reconstruction (PairRec), which is a discrete variational autoencoder based hashing model. PairRec first encodes weakly supervised training pairs (a query document and a semantically similar document) into two hash codes, and then learns to reconstruct the same query document from both of these hash codes (i.e., pairwise reconstruction). This pairwise reconstruction enables our model to encode local neighbourhood structures within the hash code directly through the decoder. We experimentally compare PairRec to traditional and state-of-the-art approaches, and obtain significant performance improvements in the task of document similarity search.
翻訳日:2022-11-14 23:19:00 公開日:2020-07-01
# 識別的スパンアライメントによる反復的パラフレッシック増強

Iterative Paraphrastic Augmentation with Discriminative Span Alignment ( http://arxiv.org/abs/2007.00320v1 )

ライセンス: Link先を確認
Ryan Culkin, J. Edward Hu, Elias Stengel-Eskin, Guanghui Qin, Benjamin Van Durme(参考訳) 本稿では,文レベルの制約付き言い換えと識別的スパンアライメントに基づく新しい言い換え強化戦略を提案する。 我々のアプローチは、既存の資源を大規模に拡張したり、手動で生産された小さなシードコーパスから新しい資源を迅速に生成することを可能にする。 われわれのフレームワークは、20年以上にわたる人的労働にまたがる大規模な言語理解プロジェクトであるBerkeley FrameNetプロジェクトについて説明する。 約4日間のアライメントモデルのトレーニングデータ収集と,約1日間の並列計算に基づいて,コンテキストでアノテートされた495,300のユニークな(フレーム,トリガー)コンビネーションを,framenet v1.7の約50倍の拡張で自動生成する。

We introduce a novel paraphrastic augmentation strategy based on sentence-level lexically constrained paraphrasing and discriminative span alignment. Our approach allows for the large-scale expansion of existing resources, or the rapid creation of new resources from a small, manually-produced seed corpus. We illustrate our framework on the Berkeley FrameNet Project, a large-scale language understanding effort spanning more than two decades of human labor. Based on roughly four days of collecting training data for the alignment model and approximately one day of parallel compute, we automatically generate 495,300 unique (Frame, Trigger) combinations annotated in context, a roughly 50x expansion atop FrameNet v1.7.
翻訳日:2022-11-14 23:12:54 公開日:2020-07-01
# オンライン3次元ビンパッキングのための一般化強化学習アルゴリズム

A Generalized Reinforcement Learning Algorithm for Online 3D Bin-Packing ( http://arxiv.org/abs/2007.00463v1 )

ライセンス: Link先を確認
Richa Verma, Aniruddha Singhal, Harshad Khadilkar, Ansuma Basumatary, Siddharth Nayak, Harsh Vardhan Singh, Swagat Kumar, Rajesh Sinha(参考訳) 任意の数のビンと任意のビンサイズのオンライン3dビンパッキング問題を解決するための深層強化学習(deep rl)アルゴリズムを提案する。 その焦点は、そのコンセプトをテストするための実験室のプロトタイプであるロボットの積み込みアームによって物理的に実装できる意思決定を作ることにある。 本論文の問題点は2つの点で斬新である。 第一に、従来の3D bin パッケージング問題とは異なり、パッケージングされるオブジェクトの集合全体がプリオリではないと仮定する。 代わりに、固定された数のオブジェクトがロードシステムに表示され、到着順にロードされなければならない。 第二に、目標は、実現可能なパスを介してオブジェクトをあるポイントから別のポイントに移動するのではなく、bin(s)の全体的なパッキング効率を最大化する各オブジェクトの位置と方向を見つけることである。 最後に、学習モデルは、任意のサイズの問題インスタンスで再トレーニングすることなく動作するように設計されている。 シミュレーションの結果,rlベースの手法は,経験的競合比とボリューム効率の点で,最先端のオンラインビンパッキングヒューリスティックよりも優れていることがわかった。

We propose a Deep Reinforcement Learning (Deep RL) algorithm for solving the online 3D bin packing problem for an arbitrary number of bins and any bin size. The focus is on producing decisions that can be physically implemented by a robotic loading arm, a laboratory prototype used for testing the concept. The problem considered in this paper is novel in two ways. First, unlike the traditional 3D bin packing problem, we assume that the entire set of objects to be packed is not known a priori. Instead, a fixed number of upcoming objects is visible to the loading system, and they must be loaded in the order of arrival. Second, the goal is not to move objects from one point to another via a feasible path, but to find a location and orientation for each object that maximises the overall packing efficiency of the bin(s). Finally, the learnt model is designed to work with problem instances of arbitrary size without retraining. Simulation results show that the RL-based method outperforms state-of-the-art online bin packing heuristics in terms of empirical competitive ratio and volume efficiency.
翻訳日:2022-11-14 23:11:47 公開日:2020-07-01
# メタヒューリスティックなブラックボックス最適化のためのベンチマーク:展望とオープンチャレンジ

Benchmarking for Metaheuristic Black-Box Optimization: Perspectives and Open Challenges ( http://arxiv.org/abs/2007.00541v1 )

ライセンス: Link先を確認
Ramses Sala and Ralf M\"uller(参考訳) 新たな最適化アルゴリズムの研究は、そのようなアルゴリズムが現実世界および産業的に関係のある最適化課題に対処する能力を改善するという動機に基づいていることが多い。 様々な進化的およびメタヒューリスティック最適化アルゴリズムに加えて、グローバル、連続、ブラックボックス最適化の文脈において、アルゴリズムの比較評価のために多数のテスト問題とベンチマークスイートも開発され、使用されている。 一般的なベンチマーク問題や人工フィットネスのランドスケープには、アルゴリズムのパフォーマンス評価結果と技術的に関係のある実世界の最適化問題、あるいはその逆を関連付ける方法が存在しない。 また、理論的な観点からは、よく使われるベンチマーク問題やアプローチの多くは一般化値がほとんどないし全くない。 批判的なコメントやアドバイス、新しいアプローチを含む出版物のミニレビューに基づいて、このコミュニケーションは、ブラックボックス最適化のための体系的で一般化されたベンチマークに関連するいくつかのオープンチャレンジと今後の研究方向に関する建設的な視点を提供することを目的としている。

Research on new optimization algorithms is often funded based on the motivation that such algorithms might improve the capabilities to deal with real-world and industrially relevant optimization challenges. Besides a huge variety of different evolutionary and metaheuristic optimization algorithms, also a large number of test problems and benchmark suites have been developed and used for comparative assessments of algorithms, in the context of global, continuous, and black-box optimization. For many of the commonly used synthetic benchmark problems or artificial fitness landscapes, there are however, no methods available, to relate the resulting algorithm performance assessments to technologically relevant real-world optimization problems, or vice versa. Also, from a theoretical perspective, many of the commonly used benchmark problems and approaches have little to no generalization value. Based on a mini-review of publications with critical comments, advice, and new approaches, this communication aims to give a constructive perspective on several open challenges and prospective research directions related to systematic and generalizable benchmarking for black-box optimization.
翻訳日:2022-11-14 23:11:29 公開日:2020-07-01
# テキスト認識と深層埋め込みによる単語認識と検索の改善

Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval ( http://arxiv.org/abs/2007.00166v1 )

ライセンス: Link先を確認
Siddhant Bansal, Praveen Krishnan, C.V. Jawahar(参考訳) 大規模な文書コレクションからのテキストコンテンツの認識と検索は、文書画像分析コミュニティにとって強力なユースケースである。 しばしば、単語は認識と検索の基本的な単位である。 テキスト認識器(OCR)出力のみに依存するシステムは、歴史的文書やデジタル図書館のように、単語認識率が低い場合など、多くの状況において十分に堅牢ではない。 別の方法として、単語の全体的表現に基づいて単語を検索・マッチする単語スポッティング法がある。 本稿では,テキスト認識器のノイズ出力を,単語全体から派生した深い埋め込み表現と融合する。 検索の場合のランク付け結果を改善するために,平均値と最大値の融合を用いる。 我々はヒンディー語の文書のコレクションでその方法を検証する。 単語認識率を1.4、検索率を11.13改善した。

Recognition and retrieval of textual content from the large document collections have been a powerful use case for the document image analysis community. Often the word is the basic unit for recognition as well as retrieval. Systems that rely only on the text recogniser (OCR) output are not robust enough in many situations, especially when the word recognition rates are poor, as in the case of historic documents or digital libraries. An alternative has been word spotting based methods that retrieve/match words based on a holistic representation of the word. In this paper, we fuse the noisy output of text recogniser with a deep embeddings representation derived out of the entire word. We use average and max fusion for improving the ranked results in the case of retrieval. We validate our methods on a collection of Hindi documents. We improve word recognition rate by 1.4 and retrieval by 11.13 in the mAP.
翻訳日:2022-11-14 23:11:11 公開日:2020-07-01
# 近隣グラフを用いた多対象追跡における関連性強化

Enhancing the Association in Multi-Object Tracking via Neighbor Graph ( http://arxiv.org/abs/2007.00265v1 )

ライセンス: Link先を確認
Tianyi Liang, Long Lan, Zhigang Luo(参考訳) 現代のほとんどのマルチオブジェクトトラッキング (mot) システムは追跡・検出パラダイムに従っている。 まず興味のある対象をローカライズし、データアソナライズするために個々の外観特徴を抽出する。 しかし、個々の特徴は、オクルージョン、照明の変動、不正確な検出などの悪影響に影響を受けやすく、その結果、関連推論のミスマッチを引き起こす。 本研究では,近隣の情報をフル活用することでこの問題に対処することを提案する。 モチベーションは、人々がグループで動く傾向があるという観察から生まれます。 このように、個々のターゲットの外観が深刻な変化があったとしても、隣人の助けを借りて識別することができる。 この目的のために, 追跡自己が生成する時空間関係を用いて, ターゲットに対して適切な近傍を効率的に選択する。 その後、対象の隣接グラフを構築し、隣接グラフがグラフ畳み込みネットワーク(gcn)を使用してグラフの特徴を学習する。 我々の知る限りでは、MOTのGCNを介して近隣の手がかりを利用するのは初めてである。 最後に、MOTベンチマークのアプローチを検証し、オンライントラッキングにおける最先端のパフォーマンスを実現する。

Most modern multi-object tracking (MOT) systems follow the tracking-by-detection paradigm. It first localizes the objects of interest, then extracting their individual appearance features to make data association. The individual features, however, are susceptible to the negative effects as occlusions, illumination variations and inaccurate detections, thus resulting in the mismatch in the association inference. In this work, we propose to handle this problem via making full use of the neighboring information. Our motivations derive from the observations that people tend to move in a group. As such, when an individual target's appearance is seriously changed, we can still identify it with the help of its neighbors. To this end, we first utilize the spatio-temporal relations produced by the tracking self to efficiently select suitable neighbors for the targets. Subsequently, we construct neighbor graph of the target and neighbors then employ the graph convolution networks (GCN) to learn the graph features. To the best of our knowledge, it is the first time to exploit neighbor cues via GCN in MOT. Finally, we test our approach on the MOT benchmarks and achieve state-of-the-art performance in online tracking.
翻訳日:2022-11-14 23:10:59 公開日:2020-07-01
# デジタル病理における説明可能なグラフ表現を目指して

Towards Explainable Graph Representations in Digital Pathology ( http://arxiv.org/abs/2007.00311v1 )

ライセンス: Link先を確認
Guillaume Jaume, Pushpak Pati, Antonio Foncubierta-Rodriguez, Florinda Feroce, Giosue Scognamiglio, Anna Maria Anniciello, Jean-Philippe Thiran, Orcun Goksel, Maria Gabrani(参考訳) デジタル病理学(DP)における機械学習(ML)技術の説明可能性は非常に重要である。 近年,DP画像の表現と評価のために,関連生物学的実体をコードするグラフ技術が採用されている。 このようなパラダイムをピクセル単位からエンティティ単位にシフトすることで、概念表現をよりコントロールできるようになります。 本稿では,グラフ内の診断的に重要な要素を強調するコンパクトなパーインテンス説明を導出するポストホック説明器を提案する。 乳がんサブタイプにおける細胞および細胞間相互作用の解析に焦点をあてるが,提案法はDPの他のトポロジカル表現に拡張できるほど汎用的である。 定性的かつ定量的な分析は、包括的でコンパクトな説明を生成するための説明器の有効性を示す。

Explainability of machine learning (ML) techniques in digital pathology (DP) is of great significance to facilitate their wide adoption in clinics. Recently, graph techniques encoding relevant biological entities have been employed to represent and assess DP images. Such paradigm shift from pixel-wise to entity-wise analysis provides more control over concept representation. In this paper, we introduce a post-hoc explainer to derive compact per-instance explanations emphasizing diagnostically important entities in the graph. Although we focus our analyses to cells and cellular interactions in breast cancer subtyping, the proposed explainer is generic enough to be extended to other topological representations in DP. Qualitative and quantitative analyses demonstrate the efficacy of the explainer in generating comprehensive and compact explanations.
翻訳日:2022-11-14 23:10:42 公開日:2020-07-01
# 異種残差畳み込みニューラルネットワークを用いたJPEGデコーディングとアーチファクト抑圧

End-to-End JPEG Decoding and Artifacts Suppression Using Heterogeneous Residual Convolutional Neural Network ( http://arxiv.org/abs/2007.00639v1 )

ライセンス: Link先を確認
Jun Niu(参考訳) 既存のディープラーニングモデルは、デコードプロトコルからJPEGアーティファクトを独立したタスクとして分離する。 本研究では、スペクトル分解と異種再構成機構を備えた真のエンド・ツー・エンド異種残差畳み込みニューラルネットワーク(HR-CNN)を設計する。 完全なCNNアーキテクチャとGPUアクセラレーションにより、提案したモデルは再構成効率を大幅に改善する。 数値実験により、復号化速度は標準CPUJPEG復号プロトコルと同じ程度に達し、復号化処理と復号化処理の両方が同時に完了することが示された。 JPEGアーティファクト抑制タスクをデコードと画像詳細再構築のインタラクティブなプロセスとして定式化する。 異なるスペクトルチャネルの非相関性に特に対処するために、不均一で完全な畳み込み機構が提案されている。 k-spaceのjpegコードから直接スタートすると、ネットワークはまずスペクトルサンプルチャネルをチャネル毎に抽出し、スペクトルスナップショットを拡張スループットで復元する。 これらの中間スナップショットは不均一にデコードされ、ピクセル空間イメージにマージされる。 画像詳細をさらに高めるために、カスケード残差学習セグメントが設計されている。 実験により、JPEGアーティファクトの抑制において、そのモデルが優れた性能を発揮することを確認する一方、その完全な畳み込み操作とエレガントなネットワーク構造は、このトピックの他のディープラーニングモデルと比較して、実用的なオンライン利用に対して高い計算効率を提供する。

Existing deep learning models separate JPEG artifacts suppression from the decoding protocol as independent task. In this work, we take one step forward to design a true end-to-end heterogeneous residual convolutional neural network (HR-CNN) with spectrum decomposition and heterogeneous reconstruction mechanism. Benefitting from the full CNN architecture and GPU acceleration, the proposed model considerably improves the reconstruction efficiency. Numerical experiments show that the overall reconstruction speed reaches to the same magnitude of the standard CPU JPEG decoding protocol, while both decoding and artifacts suppression are completed together. We formulate the JPEG artifacts suppression task as an interactive process of decoding and image detail reconstructions. A heterogeneous, fully convolutional, mechanism is proposed to particularly address the uncorrelated nature of different spectral channels. Directly starting from the JPEG code in k-space, the network first extracts the spectral samples channel by channel, and restores the spectral snapshots with expanded throughput. These intermediate snapshots are then heterogeneously decoded and merged into the pixel space image. A cascaded residual learning segment is designed to further enhance the image details. Experiments verify that the model achieves outstanding performance in JPEG artifacts suppression, while its full convolutional operations and elegant network structure offers higher computational efficiency for practical online usage compared with other deep learning models on this topic.
翻訳日:2022-11-14 23:04:31 公開日:2020-07-01
# ConFoc: ニューラルネットワーク上のトロイの木馬攻撃に対するコンテンツフォーカス保護

ConFoc: Content-Focus Protection Against Trojan Attacks on Neural Networks ( http://arxiv.org/abs/2007.00711v1 )

ライセンス: Link先を確認
Miguel Villarreal-Vasquez and Bharat Bhargava(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンにうまく応用されている。 しかし、画像関連アプリケーションで広く採用されているのは、トロイの木馬攻撃に対する脆弱性によって脅かされている。 これらの攻撃は、推測やテスト時に悪用されるマークまたはトリガーのサンプルを使用して、トレーニング時にいくつかの誤った振る舞いを挿入する。 そこで本研究では,DNNが訓練時に学んだ特徴の構成を分析する。 挿入されたトリガに関連するものを含むそれらが、テスト時にDNNによって全体として認識されるコンテンツ(意味情報)とスタイル(テクスチャ情報)の両方を含むことを確認した。 そこで我々は,DNNが入力のスタイルを無視し,その内容に焦点を合わせ,分類中のトリガーの効果を緩和する,新たなトロイの木馬攻撃防御手法を提案する。 このアプローチの汎用的適用性は、交通標識と顔認識アプリケーションという文脈で実証されている。 それぞれが、さまざまなトリガーを持つ別の攻撃にさらされる。 その結果,本手法は,攻撃成功率を全攻撃において1%に低下させるとともに,良性データと逆性データの両方を処理する際のモデルの初期精度の向上も図っている。

Deep Neural Networks (DNNs) have been applied successfully in computer vision. However, their wide adoption in image-related applications is threatened by their vulnerability to trojan attacks. These attacks insert some misbehavior at training using samples with a mark or trigger, which is exploited at inference or testing time. In this work, we analyze the composition of the features learned by DNNs at training. We identify that they, including those related to the inserted triggers, contain both content (semantic information) and style (texture information), which are recognized as a whole by DNNs at testing time. We then propose a novel defensive technique against trojan attacks, in which DNNs are taught to disregard the styles of inputs and focus on their content only to mitigate the effect of triggers during the classification. The generic applicability of the approach is demonstrated in the context of a traffic sign and a face recognition application. Each of them is exposed to a different attack with a variety of triggers. Results show that the method reduces the attack success rate significantly to values < 1% in all the tested attacks while keeping as well as improving the initial accuracy of the models when processing both benign and adversarial data.
翻訳日:2022-11-14 23:03:27 公開日:2020-07-01
# 逆深層学習を用いたスナップショット構造光画像からの高速組織酸素マッピング

Rapid tissue oxygenation mapping from snapshot structured-light images with adversarial deep learning ( http://arxiv.org/abs/2007.00760v1 )

ライセンス: Link先を確認
Mason T. Chen and Nicholas J. Durr(参考訳) 空間周波数領域イメージング(SFDI)は、組織酸素飽和度を広い視野にマッピングする強力な技術である。 しかし、現在のsfdi法は、異なる照明パターンを持つ複数の画像のシーケンスを必要とするか、単一スナップショット光学特性(ssop)の場合、アーティファクトと犠牲精度をもたらす。 このトレードオフを回避するために、エンド・ツー・エンドのジェネレーティブな敵ネットワークを用いて、単一の構造化光画像から直接組織酸素化を推定するデータ駆動型コンテンツ認識手法であるoxyganを紹介する。 従来のsfdiは、in vivoのヒトエソファジ、in vivoの手で、そしてin vivoのブタの大腸サンプルの659 nmと851 nmの正弦波照明のための基底真理組織酸素化マップを得るのに使用される。 オキシガンをssopと比較し,従来開発してきた深層学習モデルを用いて光学特性を予測し,物理モデルを用いて組織酸素化を計算した2段階ハイブリッド手法と比較した。 ヒトの足で検査すると、OxyGANは96.5%の精度で組織酸素化をマッピングする。 人間の手やブタの大腸などトレーニングセットに含まれないサンプルタイプに適用すると、OxyGANは93.0%の精度で、様々な組織タイプに対して堅牢性を示す。 OxyGAN は平均して SSOP とハイブリッドモデルでそれぞれ 24.9% と 24.7% を推定している。 最後に、OxyGAN推論を最適化し、酸素化マップを従来よりも約10倍高速に計算し、ビデオレート、25Hzイメージングを可能にする。 迅速な取得と処理速度のため、OxyGANはリアルタイムで高忠実な組織酸素マッピングを可能にする可能性があり、多くの臨床応用に有用である。

Spatial frequency domain imaging (SFDI) is a powerful technique for mapping tissue oxygen saturation over a wide field of view. However, current SFDI methods either require a sequence of several images with different illumination patterns or, in the case of single snapshot optical properties (SSOP), introduce artifacts and sacrifice accuracy. To avoid this tradeoff, we introduce OxyGAN: a data-driven, content-aware method to estimate tissue oxygenation directly from single structured light images using end-to-end generative adversarial networks. Conventional SFDI is used to obtain ground truth tissue oxygenation maps for ex vivo human esophagi, in vivo hands and feet, and an in vivo pig colon sample under 659 nm and 851 nm sinusoidal illumination. We benchmark OxyGAN by comparing to SSOP and to a two-step hybrid technique that uses a previously-developed deep learning model to predict optical properties followed by a physical model to calculate tissue oxygenation. When tested on human feet, a cross-validated OxyGAN maps tissue oxygenation with an accuracy of 96.5%. When applied to sample types not included in the training set, such as human hands and pig colon, OxyGAN achieves a 93.0% accuracy, demonstrating robustness to various tissue types. On average, OxyGAN outperforms SSOP and a hybrid model in estimating tissue oxygenation by 24.9% and 24.7%, respectively. Lastly, we optimize OxyGAN inference so that oxygenation maps are computed ~10 times faster than previous work, enabling video-rate, 25Hz imaging. Due to its rapid acquisition and processing speed, OxyGAN has the potential to enable real-time, high-fidelity tissue oxygenation mapping that may be useful for many clinical applications.
翻訳日:2022-11-14 23:03:08 公開日:2020-07-01
# 分散K-FACを用いた畳み込みニューラルネットワークトレーニング

Convolutional Neural Network Training with Distributed K-FAC ( http://arxiv.org/abs/2007.00784v1 )

ライセンス: Link先を確認
J. Gregory Pauloski, Zhao Zhang, Lei Huang, Weijia Xu and Ian T. Foster(参考訳) 多くのプロセッサでニューラルネットワークをトレーニングすることで、解決までの時間を削減することができるが、大規模な収束と効率を維持することは困難である。 Kronecker-factored Approximate Curvature (K-FAC)は、自然勾配オプティマイザで使用できるFisher Information Matrixの近似として最近提案されている。 本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。 本研究では,階層配置戦略,逆フリーな2次勾配評価,動的K-FAC更新デカップリングなどの最適化手法について検討した。 我々は、CIFAR-10およびImageNet-1kデータセットに適用された残留ニューラルネットワーク(ResNet)を用いて、K-FAC勾配プレコンディショナーの正確性とスケーラビリティを評価する。 ImageNet-1kデータセット上のResNet-50により、分散K-FAC実装は、GPUクラスタ上のスケールにわたる古典的確率勾配降下(SGD)最適化よりも18~25%の時間で75.9%のMLPerfベースラインに収束する。

Training neural networks with many processors can reduce time-to-solution; however, it is challenging to maintain convergence and efficiency at large scales. The Kronecker-factored Approximate Curvature (K-FAC) was recently proposed as an approximation of the Fisher Information Matrix that can be used in natural gradient optimizers. We investigate here a scalable K-FAC design and its applicability in convolutional neural network (CNN) training at scale. We study optimization techniques such as layer-wise distribution strategies, inverse-free second-order gradient evaluation, and dynamic K-FAC update decoupling to reduce training time while preserving convergence. We use residual neural networks (ResNet) applied to the CIFAR-10 and ImageNet-1k datasets to evaluate the correctness and scalability of our K-FAC gradient preconditioner. With ResNet-50 on the ImageNet-1k dataset, our distributed K-FAC implementation converges to the 75.9% MLPerf baseline in 18-25% less time than does the classic stochastic gradient descent (SGD) optimizer across scales on a GPU cluster.
翻訳日:2022-11-14 22:54:56 公開日:2020-07-01
# 多変量空間予測のためのcokriging, neural networks, and spatial blind source separationについて

On Cokriging, Neural Networks, and Spatial Blind Source Separation for Multivariate Spatial Prediction ( http://arxiv.org/abs/2007.03747v1 )

ライセンス: Link先を確認
Christoph Muehlmann, Klaus Nordhausen, Mengxi Yi(参考訳) 不規則にサンプリングされた場所での多変量測定は、例えば土壌の地球化学的分析など、一般的なデータ形式である。 実際の考察では、観測されていない場所での測定の予測は非常に興味深い。 標準的な多変量空間予測法では、空間依存をモデル化するだけでなく、相互依存をモデル化する必要がある。 近年,空間データに対するブラインド音源分離手法が提案されている。 実際の空間予測に先立ってこの空間ブラインド音源分離法を用いる場合、空間クロス依存性のモデル化を回避し、空間予測タスクを大幅に単純化する。 本稿では,空間予測のための前処理ツールとしての空間ブラインド音源分離の利用について検討し,コリギングとニューラルネットワークによる予測との比較を行った。

Multivariate measurements taken at irregularly sampled locations are a common form of data, for example in geochemical analysis of soil. In practical considerations predictions of these measurements at unobserved locations are of great interest. For standard multivariate spatial prediction methods it is mandatory to not only model spatial dependencies but also cross-dependencies which makes it a demanding task. Recently, a blind source separation approach for spatial data was suggested. When using this spatial blind source separation method prior the actual spatial prediction, modelling of spatial cross-dependencies is avoided, which in turn simplifies the spatial prediction task significantly. In this paper we investigate the use of spatial blind source separation as a pre-processing tool for spatial prediction and compare it with predictions from Cokriging and neural networks in an extensive simulation study as well as a geochemical dataset.
翻訳日:2022-11-14 22:54:35 公開日:2020-07-01
# Stiefel Manifoldにおける共通高調波の学習 -脳ネットワーク解析のための新しい数学的アプローチ

Learning Common Harmonic Waves on Stiefel Manifold -- A New Mathematical Approach for Brain Network Analyses ( http://arxiv.org/abs/2007.13533v1 )

ライセンス: Link先を確認
Jiazhou Chen, Guoqiang Han, Hongmin Cai, Defu Yang, Paul J. Laurienti, Martin Styner, Guorong Wu, and Alzheimer's Disease Neuroimaging Initiative ADNI(参考訳) 収束した証拠は、病気に関連する脳の変化がランダムな脳の位置に現れず、その空間的パターンは大規模な脳ネットワークに従うことを示している。 この文脈では、数学的基礎を持つ強力なネットワーク分析アプローチは、脳全体に広がる神経病理学的事象のメカニズムを理解するのに不可欠である。 実際、各脳ネットワークのトポロジーは、根底にあるラプラシアン行列の固有系から導かれる直交基底からなるネイティブ調和波によって制御される。 そこで本研究では,脳障害に関連する周波数変化を検出することで,数学的洞察の強化を図るための新しいコネクトーム調和解析フレームワークを提案する。 我々のフレームワークのバックボーンは、不規則なデータ構造に古典的ユークリッド演算を用いることの制限を克服する調和波間の推論に適した新しい多様体代数である。 個々の調和差は、個々の固有系の集団から得られた共通の調和波の集合によって測定され、それぞれの固有固有系はスティーフェル多様体から引き出されたサンプルと見なされる。 特に、多様体最適化スキームは、スティーフェル多様体の中心に存在する共通の調和波を見つけるために調整される。 そのために、共通の調和波は、病気の進行を理解する新しい神経生物学的基盤を構成する。 それぞれの調和波は、脳ネットワークに広がる神経病理学的負担のユニークな伝播パターンを示す。 コネクトーム調和解析法(connectome harmonic analysis approach)の統計的パワーは、アルツハイマー病に関連する周波数に基づく変化を同定することで評価され、学習に基づく多様体的アプローチはユークリッド法と比較してより重要で再現可能なネットワーク障害パターンを発見できる。

Converging evidence shows that disease-relevant brain alterations do not appear in random brain locations, instead, its spatial pattern follows large scale brain networks. In this context, a powerful network analysis approach with a mathematical foundation is indispensable to understand the mechanism of neuropathological events spreading throughout the brain. Indeed, the topology of each brain network is governed by its native harmonic waves, which are a set of orthogonal bases derived from the Eigen-system of the underlying Laplacian matrix. To that end, we propose a novel connectome harmonic analysis framework to provide enhanced mathematical insights by detecting frequency-based alterations relevant to brain disorders. The backbone of our framework is a novel manifold algebra appropriate for inference across harmonic waves that overcomes the limitations of using classic Euclidean operations on irregular data structures. The individual harmonic difference is measured by a set of common harmonic waves learned from a population of individual Eigen systems, where each native Eigen-system is regarded as a sample drawn from the Stiefel manifold. Specifically, a manifold optimization scheme is tailored to find the common harmonic waves which reside at the center of Stiefel manifold. To that end, the common harmonic waves constitute the new neuro-biological bases to understand disease progression. Each harmonic wave exhibits a unique propagation pattern of neuro-pathological burdens spreading across brain networks. The statistical power of our novel connectome harmonic analysis approach is evaluated by identifying frequency-based alterations relevant to Alzheimer's disease, where our learning-based manifold approach discovers more significant and reproducible network dysfunction patterns compared to Euclidian methods.
翻訳日:2022-11-14 22:54:23 公開日:2020-07-01
# 業務マッピングのためのオンラインドメイン適応

Online Domain Adaptation for Occupancy Mapping ( http://arxiv.org/abs/2007.00164v1 )

ライセンス: Link先を確認
Anthony Tompkins, Ransalu Senanayake, and Fabio Ramos(参考訳) 不確実性を考慮した正確な空間表現を作ることは、自律ロボットが非構造環境を安全にナビゲートすることが重要である。 近年のLIDARベースのマッピング技術は、堅牢な占有率マップを生成することができるが、そのようなモデルのパラメータを学習するにはかなりの計算時間が必要であり、自律運転のようなリアルタイムおよび大規模アプリケーションでの使用を妨げている。 本稿では,様々な都市環境にまたがる実世界の構造が類似した幾何学的特徴を示すという事実を認識し,全ての幾何学的パラメータをスクラッチから学習することは冗長であると主張する。 そこで本研究では, モデルパラメータを適応させて環境変化を考慮し, トレーニングコストを大幅に減らし, 最適輸送理論に基づく理論的枠組みを提案する。 さらに,高忠実度運転シミュレータと実世界のデータセットを用いて,局所的な空間変化に応じて2次元および3次元占有マップのパラメータを自動的に適応できることを示す。 ドメイン間特徴伝達からシミュレーションから実世界の特徴伝達まで,さまざまな領域適応パラダイムを一連の実験で検証する。 実験は、パラメータを無視可能な計算とメモリコストで推定し、都市環境における大規模確率的マッピングを可能にする可能性を検証した。

Creating accurate spatial representations that take into account uncertainty is critical for autonomous robots to safely navigate in unstructured environments. Although recent LIDAR based mapping techniques can produce robust occupancy maps, learning the parameters of such models demand considerable computational time, discouraging them from being used in real-time and large-scale applications such as autonomous driving. Recognizing the fact that real-world structures exhibit similar geometric features across a variety of urban environments, in this paper, we argue that it is redundant to learn all geometry dependent parameters from scratch. Instead, we propose a theoretical framework building upon the theory of optimal transport to adapt model parameters to account for changes in the environment, significantly amortizing the training cost. Further, with the use of high-fidelity driving simulators and real-world datasets, we demonstrate how parameters of 2D and 3D occupancy maps can be automatically adapted to accord with local spatial changes. We validate various domain adaptation paradigms through a series of experiments, ranging from inter-domain feature transfer to simulation-to-real-world feature transfer. Experiments verified the possibility of estimating parameters with a negligible computational and memory cost, enabling large-scale probabilistic mapping in urban environments.
翻訳日:2022-11-14 22:53:57 公開日:2020-07-01
# 高速ビデオシーケンスセグメンテーションによる逆気象条件下でのロバストなセマンティックセグメンテーション

Robust Semantic Segmentation in Adverse Weather Conditions by means of Fast Video-Sequence Segmentation ( http://arxiv.org/abs/2007.00290v1 )

ライセンス: Link先を確認
Andreas Pfeuffer and Klaus Dietmayer(参考訳) セマンティックセグメンテーションのようなコンピュータビジョンタスクは、良好な天候条件下で非常によく機能するが、天候が悪くなると、これらの条件下でこの性能を達成するのに問題がある。 悪天候条件下でより堅牢で信頼性の高い結果を得る可能性の1つは、一般的に使用される単一画像分割法の代わりにビデオセグメンテーションアプローチを使用することである。 ビデオセグメンテーションアプローチは、現在の画像情報に加えて、前のビデオフレームの時間的情報をキャプチャするので、特にビデオシーケンスのほんの数フレームで発生する場合、外乱に対してより堅牢である。 しかし、再帰ニューラルネットワークに基づくビデオセグメンテーションアプローチは、ネットワーク内の再帰構造が計算コストが高いため、リアルタイムアプリケーションではもはや適用できない。 例えば、シングルセグメンテーションアプローチICNetにおいて、リカレントユニットを適切な位置に配置するLSTM-ICNetの推論時間は、基本的なICNetに比べて最大61%増加する。 これにより、LSTM-ICNetは、ネットワークの繰り返しユニットを変更して、再びリアルタイムに実行できるようにする。 異なるデータセットと様々な気象条件の実験では、これらの修正により推論時間が約23%減少し、LSTM-ICNetと同等の性能を示し、悪天候下ではシングルセグメンテーションのアプローチを大きく上回っている。

Computer vision tasks such as semantic segmentation perform very well in good weather conditions, but if the weather turns bad, they have problems to achieve this performance in these conditions. One possibility to obtain more robust and reliable results in adverse weather conditions is to use video-segmentation approaches instead of commonly used single-image segmentation methods. Video-segmentation approaches capture temporal information of the previous video-frames in addition to current image information, and hence, they are more robust against disturbances, especially if they occur in only a few frames of the video-sequence. However, video-segmentation approaches, which are often based on recurrent neural networks, cannot be applied in real-time applications anymore, since their recurrent structures in the network are computational expensive. For instance, the inference time of the LSTM-ICNet, in which recurrent units are placed at proper positions in the single-segmentation approach ICNet, increases up to 61 percent compared to the basic ICNet. Hence, in this work, the LSTM-ICNet is sped up by modifying the recurrent units of the network so that it becomes real-time capable again. Experiments on different datasets and various weather conditions show that the inference time can be decreased by about 23 percent by these modifications, while they achieve similar performance than the LSTM-ICNet and outperform the single-segmentation approach enormously in adverse weather conditions.
翻訳日:2022-11-14 22:53:16 公開日:2020-07-01
# エンコーダデコーダアーキテクチャを用いた道路舗装の自動き裂検出

Automatic Crack Detection on Road Pavements Using Encoder Decoder Architecture ( http://arxiv.org/abs/2007.00477v1 )

ライセンス: Link先を確認
Zhun Fan and Chong Li and Ying Chen and Jiahong Wei and Giuseppe Loprencipe and Xiaopeng Chen and Paola Di Mascio(参考訳) コンピュータビジョンとオブジェクト検出の深層学習の発展に触発され,提案アルゴリズムは階層的特徴学習と拡張畳み込みによるエンコーダ・デコーダアーキテクチャ(U-Hierarchical Dilated Network, U-HDN)を検討した。 複数のコンテキスト情報を有する亀裂特性を自動学習し、エンドツーエンドの亀裂検出を行う。 次に,エンコーダ-デコーダアーキテクチャに埋め込まれたマルチディレーションモジュールを提案する。 複数のコンテキストサイズのひび割れの特徴は、拡張率の異なる拡張畳み込みによってマルチディレーションモジュールに統合することができ、さらに多くのひび割れ情報を得ることができる。 最後に、階層型特徴学習モジュールは、高レベルから低レベルの畳み込み層から、画素単位のひび割れ検出を予測するために統合されたマルチスケール機能を得るように設計されている。 118枚の画像を用いた公開き裂データベース実験を行い, 得られた結果と同一画像上の他の手法との比較を行った。 その結果,U-HDN法は他のアルゴリズムと異なるコンテキストサイズと異なる特徴マップを抽出・融合できるため,高い性能が得られることがわかった。

Inspired by the development of deep learning in computer vision and object detection, the proposed algorithm considers an encoder-decoder architecture with hierarchical feature learning and dilated convolution, named U-Hierarchical Dilated Network (U-HDN), to perform crack detection in an end-to-end method. Crack characteristics with multiple context information are automatically able to learn and perform end-to-end crack detection. Then, a multi-dilation module embedded in an encoder-decoder architecture is proposed. The crack features of multiple context sizes can be integrated into the multi-dilation module by dilation convolution with different dilatation rates, which can obtain much more cracks information. Finally, the hierarchical feature learning module is designed to obtain a multi-scale features from the high to low-level convolutional layers, which are integrated to predict pixel-wise crack detection. Some experiments on public crack databases using 118 images were performed and the results were compared with those obtained with other methods on the same images. The results show that the proposed U-HDN method achieves high performance because it can extract and fuse different context sizes and different levels of feature maps than other algorithms.
翻訳日:2022-11-14 22:52:47 公開日:2020-07-01
# リアルタイムエネルギー効率の良い物体追跡のためのシームズニューラルネットワークの最適化

Optimisation of a Siamese Neural Network for Real-Time Energy Efficient Object Tracking ( http://arxiv.org/abs/2007.00491v1 )

ライセンス: Link先を確認
Dominika Przewlocka, Mateusz Wasala, Hubert Szolc, Krzysztof Blachut, Tomasz Kryjak(参考訳) 本稿では,組み込み視覚システムのためのシアムニューラルネットを用いた視覚物体追跡の最適化に関する研究について述べる。 この溶液はリアルタイムに動作し、好ましくは高分解能ビデオストリームで動作し、エネルギー消費量が最も低いと仮定された。 これらの要件を満たすために計算精度の低下や刈り取りなどの手法が検討された。 BrevitasはFPGA実装のためのニューラルネットワークの最適化と量子化に特化したツールである。 16ビットの整数一様量子化から3元ネットワーク、バイナリネットワークまで、さまざまなレベルの最適化で多くのトレーニングシナリオがテストされた。 次に,これらの最適化が追跡性能に及ぼす影響を評価した。 畳み込みフィルタのサイズは、元のネットワークに対して最大10倍まで小さくすることが可能であった。 得られた結果から,量子化を用いることで,正確な追跡が可能でありながら,提案するネットワークのメモリと計算の複雑さを著しく低減できることがわかった。 さらに、重みの定量化はオーバーフィッティングを減らしてネットワークトレーニングに肯定的な影響を与える。

In this paper the research on optimisation of visual object tracking using a Siamese neural network for embedded vision systems is presented. It was assumed that the solution shall operate in real-time, preferably for a high resolution video stream, with the lowest possible energy consumption. To meet these requirements, techniques such as the reduction of computational precision and pruning were considered. Brevitas, a tool dedicated for optimisation and quantisation of neural networks for FPGA implementation, was used. A number of training scenarios were tested with varying levels of optimisations - from integer uniform quantisation with 16 bits to ternary and binary networks. Next, the influence of these optimisations on the tracking performance was evaluated. It was possible to reduce the size of the convolutional filters up to 10 times in relation to the original network. The obtained results indicate that using quantisation can significantly reduce the memory and computational complexity of the proposed network while still enabling precise tracking, thus allow to use it in embedded vision systems. Moreover, quantisation of weights positively affects the network training by decreasing overfitting.
翻訳日:2022-11-14 22:52:25 公開日:2020-07-01
# ランダム特徴と分散勾配Descentを用いた分散学習

Decentralised Learning with Random Features and Distributed Gradient Descent ( http://arxiv.org/abs/2007.00360v1 )

ライセンス: Link先を確認
Dominic Richards, Patrick Rebeschini and Lorenzo Rosasco(参考訳) エージェントのネットワークが同じ未知の分布から独立してサンプリングされる同種環境において,不規則な正規化とランダムな特徴を持つ分散勾配の一般化性能について検討する。 メモリフットプリントの削減に加えて、ランダム機能は、分散カーネル回帰を実装する以前の困難を克服するエージェント間で共通のパラメータ化を提供するため、この設定で特に便利である。 標準ソースとキャパシティの仮定の下で,各エージェントの予測性能に対する高い確率境界を,ステップサイズ,イテレーション数,通信行列の逆スペクトルギャップ,ランダム特徴数の関数として定めている。 これらのパラメータをチューニングすることにより、ネットワーク内のサンプル総数に対して最小最適である統計量を得る。 このアルゴリズムは、メモリコストの単一マシン勾配降下に対する線形改善と、エージェントがネットワークサイズと逆スペクトルギャップに関して十分なデータを保持する場合、任意のネットワークトポロジーに対する計算ランタイムにおける線形速度アップを提供する。 本稿では,ランダムな特徴数,イテレーション数,サンプル数が予測性能に与える影響をシミュレーションで示す。

We investigate the generalisation performance of Distributed Gradient Descent with Implicit Regularisation and Random Features in the homogenous setting where a network of agents are given data sampled independently from the same unknown distribution. Along with reducing the memory footprint, Random Features are particularly convenient in this setting as they provide a common parameterisation across agents that allows to overcome previous difficulties in implementing Decentralised Kernel Regression. Under standard source and capacity assumptions, we establish high probability bounds on the predictive performance for each agent as a function of the step size, number of iterations, inverse spectral gap of the communication matrix and number of Random Features. By tuning these parameters, we obtain statistical rates that are minimax optimal with respect to the total number of samples in the network. The algorithm provides a linear improvement over single machine Gradient Descent in memory cost and, when agents hold enough data with respect to the network size and inverse spectral gap, a linear speed-up in computational runtime for any network topology. We present simulations that show how the number of Random Features, iterations and samples impact predictive performance.
翻訳日:2022-11-14 22:46:19 公開日:2020-07-01
# ベイズパラメータ推定における大域的最適化戦略はミオピック戦略を上回るか?

Can Global Optimization Strategy Outperform Myopic Strategy for Bayesian Parameter Estimation? ( http://arxiv.org/abs/2007.00373v1 )

ライセンス: Link先を確認
Juanping Zhu, Hairong Gu(参考訳) ベイズ適応推論は心理物理学において心理学的パラメータを推定するために広く用いられている。 ほとんどのアプリケーションは、直近のユーティリティのみを最適化する、ミオピックワンステップ戦略を使用していた。 ある地平線上で明示的に最適化するグローバル最適化戦略は、ミオピック戦略の性能を大幅に改善できると広く期待されている。 筋電図と世界戦略を比較する限られた研究で、期待は達成されず、研究者は依然としてグローバルな最適化に多大な投資をしている。 本当に価値があるのか? 本稿では,複数モデルのパラメータ推定におけるグローバル戦略とミオピック戦略の性能改善と計算負荷を比較する実験シミュレーションに基づく不明瞭な答えを提案する。 この発見は、グローバル戦略における新たな地平線が、最も直接的な次のステップ(近視的戦略)以外の最適なグローバルユーティリティの改善に欠かせない貢献をしていることを示している。 数学的な再帰は、各追加水平ステップの実用性向上の寄与が、そのステップが将来的に進むにつれて急速に減少することを示すために導かれる。

Bayesian adaptive inference is widely used in psychophysics to estimate psychometric parameters. Most applications used myopic one-step ahead strategy which only optimizes the immediate utility. The widely held expectation is that global optimization strategies that explicitly optimize over some horizon can largely improve the performance of the myopic strategy. With limited studies that compared myopic and global strategies, the expectation was not challenged and researchers are still investing heavily to achieve global optimization. Is that really worthwhile? This paper provides a discouraging answer based on experimental simulations comparing the performance improvement and computation burden between global and myopic strategies in parameter estimation of multiple models. The finding is that the added horizon in global strategies has negligible contributions to the improvement of optimal global utility other than the most immediate next steps (of myopic strategy). Mathematical recursion is derived to prove that the contribution of utility improvement of each added horizon step diminishes fast as that step moves further into the future.
翻訳日:2022-11-14 22:45:58 公開日:2020-07-01
# L1損失に対するSGDによるオンラインロバスト回帰

Online Robust Regression via SGD on the l1 loss ( http://arxiv.org/abs/2007.00399v1 )

ライセンス: Link先を確認
Scott Pesme and Nicolas Flammarion(参考訳) オンライン環境でのロバストな線形回帰問題を考えると、ストリーミング方式でデータにアクセスする場合、1つのデータポイントが次になる。 より具体的には、真のパラメータ $\theta^*$ に対して、崩壊したガウス線型モデル $y = \langle x , \ \theta^* \rangle + \varepsilon + b$ を考える。 我々は、この敵は、一貫性が可能である唯一の汚染モデルであるため、(データから独立して$b$)不可避であると考えている。 現在のアルゴリズムは、外れ値を特定し、取り除くためにデータ全体を手元に置いておくことに依存している。 対照的に、この研究において、$\ell_1$損失の確率勾配降下は、汚染された測定値に依存しない$\tilde{O}(1 / (1 - \eta)^2 n)$レートで真のパラメータベクトルに収束することを示した。 我々の証明は、ガウスデータによる非滑らかな$\ell_1$損失のエレガントな平滑化と、Polyak-Ruppert平均SGDの古典的非漸近解析に依存している。 さらに、この単純でスケーラブルなアルゴリズムの効率性を示す実験的な証拠を提供する。

We consider the robust linear regression problem in the online setting where we have access to the data in a streaming manner, one data point after the other. More specifically, for a true parameter $\theta^*$, we consider the corrupted Gaussian linear model $y = \langle x , \ \theta^* \rangle + \varepsilon + b$ where the adversarial noise $b$ can take any value with probability $\eta$ and equals zero otherwise. We consider this adversary to be oblivious (i.e., $b$ independent of the data) since this is the only contamination model under which consistency is possible. Current algorithms rely on having the whole data at hand in order to identify and remove the outliers. In contrast, we show in this work that stochastic gradient descent on the $\ell_1$ loss converges to the true parameter vector at a $\tilde{O}( 1 / (1 - \eta)^2 n )$ rate which is independent of the values of the contaminated measurements. Our proof relies on the elegant smoothing of the non-smooth $\ell_1$ loss by the Gaussian data and a classical non-asymptotic analysis of Polyak-Ruppert averaged SGD. In addition, we provide experimental evidence of the efficiency of this simple and highly scalable algorithm.
翻訳日:2022-11-14 22:45:44 公開日:2020-07-01
# reluネットワークの制限アイソメトリ:ノルム濃度による一般化

The Restricted Isometry of ReLU Networks: Generalization through Norm Concentration ( http://arxiv.org/abs/2007.00479v1 )

ライセンス: Link先を確認
Alex Goe{\ss}mann and Gitta Kutyniok(参考訳) 回帰タスクは入力空間全体の関係を補間することを目的としているが、限られた量のトレーニングデータで解決する必要があることが多い。 しかし、もし仮説関数がデータと共にうまくスケッチできるなら、一般化モデルを特定することが期待できる。 本稿では,ニューラル制限等長性(neural restricted isometry property,neurip)という一様濃度イベントを紹介し,すべての浅い$\mathrm{relu}$ネットワークを同じ品質でスケッチする。 NeuRIPを達成するためのサンプルの複雑さを導出するために、サブガウス計量におけるネットワークの被覆数と連鎖法を適用した。 neuripイベントの場合、私たちは、経験的リスクの任意のサブレベルセットのネットワークを保持する、期待されるリスクの境界を提供します。 十分に小さな経験的リスクを持つネットワークはすべて一様に一般化される。

While regression tasks aim at interpolating a relation on the entire input space, they often have to be solved with a limited amount of training data. Still, if the hypothesis functions can be sketched well with the data, one can hope for identifying a generalizing model. In this work, we introduce with the Neural Restricted Isometry Property (NeuRIP) a uniform concentration event, in which all shallow $\mathrm{ReLU}$ networks are sketched with the same quality. To derive the sample complexity for achieving NeuRIP, we bound the covering numbers of the networks in the Sub-Gaussian metric and apply chaining techniques. In case of the NeuRIP event, we then provide bounds on the expected risk, which hold for networks in any sublevel set of the empirical risk. We conclude that all networks with sufficiently small empirical risk generalize uniformly.
翻訳日:2022-11-14 22:44:56 公開日:2020-07-01
# 確率勾配の老化に対する収束診断に基づくステップサイズについて

On Convergence-Diagnostic based Step Sizes for Stochastic Gradient Descent ( http://arxiv.org/abs/2007.00534v1 )

ライセンス: Link先を確認
Scott Pesme, Aymeric Dieuleveut, Nicolas Flammarion(参考訳) 一定のステップサイズの確率勾配降下は2つの相を示す: 反復する過渡相は最適点に向かって高速に進行し、次に反復相が最適点付近で振動する定常相である。 本稿では,この遷移を効率的に検出し,ステップサイズを適切に小さくすることで,収束速度が速くなることを示す。 Pflug (1983) が提案した古典的統計テストは、連続確率勾配の間の内積に基づいて解析する。 目的関数が二次的である単純な場合でさえ、このテストは適切な収束診断につながることができない。 そこで我々は,静止度を正確に検出し,合成および実世界のデータセット上での最先端性能を示す実験結果を提案する。

Constant step-size Stochastic Gradient Descent exhibits two phases: a transient phase during which iterates make fast progress towards the optimum, followed by a stationary phase during which iterates oscillate around the optimal point. In this paper, we show that efficiently detecting this transition and appropriately decreasing the step size can lead to fast convergence rates. We analyse the classical statistical test proposed by Pflug (1983), based on the inner product between consecutive stochastic gradients. Even in the simple case where the objective function is quadratic we show that this test cannot lead to an adequate convergence diagnostic. We then propose a novel and simple statistical procedure that accurately detects stationarity and we provide experimental results showing state-of-the-art performance on synthetic and real-world datasets.
翻訳日:2022-11-14 22:44:40 公開日:2020-07-01
# 金融エンベディングのダイナミクスを経時的にナビゲートする

Navigating the Dynamics of Financial Embeddings over Time ( http://arxiv.org/abs/2007.00591v1 )

ライセンス: Link先を確認
Antonia Gogoglou, Brian Nguyen, Alan Salimov, Jonathan Rider, C. Bayan Bruss(参考訳) 金融取引はエンティティ間の接続を構成し、これらの接続を通じて大規模なヘテロジニアス重み付きグラフが定式化される。 継続的に更新されるこの相互作用のラビリンスには、金融システムのダイナミクスに関する洞察を提供する様々な類似性に基づくパターンが存在する。 本稿では,これらのパターンを有意義かつ堅牢な方法でキャプチャする手段として,グラフ表現学習をスケーラブルな動的環境で適用することを提案する。 我々は,提案した表現から現実の洞察を抽出し,その発展を経るにつれて,我々の知識が金融セクターにおけるその種の第一歩となるような,厳密な定性的分析を行う。 潜在分野の変化は、既知の経済現象、特に最近のコビッドウイルスのパンデミックが消費者パターンに与える影響に関連している。 このようなパターンをキャプチャすることは、潜在グラフ表現を組み込んだ金融モデリングに付加される価値を示す。

Financial transactions constitute connections between entities and through these connections a large scale heterogeneous weighted graph is formulated. In this labyrinth of interactions that are continuously updated, there exists a variety of similarity-based patterns that can provide insights into the dynamics of the financial system. With the current work, we propose the application of Graph Representation Learning in a scalable dynamic setting as a means of capturing these patterns in a meaningful and robust way. We proceed to perform a rigorous qualitative analysis of the latent trajectories to extract real world insights from the proposed representations and their evolution over time that is to our knowledge the first of its kind in the financial sector. Shifts in the latent space are associated with known economic events and in particular the impact of the recent Covid-19 pandemic to consumer patterns. Capturing such patterns indicates the value added to financial modeling through the incorporation of latent graph representations.
翻訳日:2022-11-14 22:44:01 公開日:2020-07-01
# エントロピー規則化MAP推論のための高速化メッセージパッシング

Accelerated Message Passing for Entropy-Regularized MAP Inference ( http://arxiv.org/abs/2007.00699v1 )

ライセンス: Link先を確認
Jonathan N. Lee, Aldo Pacchiano, Peter Bartlett, Michael I. Jordan(参考訳) 離散値マルコフ確率場における最大後続推定(MAP)は、分布が与えられた確率変数の最も可能性の高い構成を特定することを含む機械学習の基本的な問題である。 この組合せ問題の難しさから、線形プログラミング(LP)緩和は、双対LP上の座標降下としてしばしば解釈される特殊なメッセージパッシングアルゴリズムを導出するために一般的に用いられる。 より望ましい計算特性を達成するために、多くの手法がエントロピー項でLPを正規化し、収束保証付きスムーズなメッセージパッシングアルゴリズムのクラスを導いた。 本稿では,古典的加速度勾配法に基づく手法を用いて,これらのアルゴリズムを高速化するためのランダム化手法を提案する。 提案するアルゴリズムは、座標最小化ステップと見なすことができる標準スムースメッセージパッシングアルゴリズムの親しみやすいステップを取り入れている。 これらの高速化された変種は、非正規化問題の最適点$\epsilon$-optimal点を求めるためにより高速な速度を達成できることを示し、LPがきつい場合には、提案アルゴリズムが標準メッセージパッシングアルゴリズムよりも少ないイテレーションで真のMAP解を復元できることを証明した。

Maximum a posteriori (MAP) inference in discrete-valued Markov random fields is a fundamental problem in machine learning that involves identifying the most likely configuration of random variables given a distribution. Due to the difficulty of this combinatorial problem, linear programming (LP) relaxations are commonly used to derive specialized message passing algorithms that are often interpreted as coordinate descent on the dual LP. To achieve more desirable computational properties, a number of methods regularize the LP with an entropy term, leading to a class of smooth message passing algorithms with convergence guarantees. In this paper, we present randomized methods for accelerating these algorithms by leveraging techniques that underlie classical accelerated gradient methods. The proposed algorithms incorporate the familiar steps of standard smooth message passing algorithms, which can be viewed as coordinate minimization steps. We show that these accelerated variants achieve faster rates for finding $\epsilon$-optimal points of the unregularized problem, and, when the LP is tight, we prove that the proposed algorithms recover the true MAP solution in fewer iterations than standard message passing algorithms.
翻訳日:2022-11-14 22:43:44 公開日:2020-07-01
# 自発的bcisのタスクインフォーメーション信号選択と分類のためのrl支援深層学習フレームワーク

A Novel RL-assisted Deep Learning Framework for Task-informative Signals Selection and Classification for Spontaneous BCIs ( http://arxiv.org/abs/2007.00162v1 )

ライセンス: Link先を確認
Wonjun Ko, Eunjin Jeon, and Heung-Il Suk(参考訳) 本研究では,マルコフ決定プロセスの形で,単一の脳波試行からタスク関連時間信号セグメントを推定・選択する問題を定式化し,既存の深層学習に基づくBCI手法と組み合わせることができる新しい強化学習機構を提案する。 具体的には,ある試行において意図的特徴を構成する際に,エージェントがどのタイムポイントを使用するべきか(非形式的)、あるいは(非形式的)に判定し,意図的識別性能を向上させるようにアクタ批判ネットワークを考案する。 提案手法の有効性を検証するために,公開されているbig miデータセットを用いて実験を行い,mi分類用に設計された最近の様々なディープラーニングアーキテクチャに適用した。 実験の結果,提案手法が統計的に有意な性能向上に寄与したことがわかった。

In this work, we formulate the problem of estimating and selecting task-relevant temporal signal segments from a single EEG trial in the form of a Markov decision process and propose a novel reinforcement-learning mechanism that can be combined with the existing deep-learning based BCI methods. To be specific, we devise an actor-critic network such that an agent can determine which timepoints need to be used (informative) or discarded (uninformative) in composing the intention-related features in a given trial, and thus enhancing the intention identification performance. To validate the effectiveness of our proposed method, we conducted experiments with a publicly available big MI dataset and applied our novel mechanism to various recent deep-learning architectures designed for MI classification. Based on the exhaustive experiments, we observed that our proposed method helped achieve statistically significant improvements in performance.
翻訳日:2022-11-14 22:36:54 公開日:2020-07-01
# 複雑相互作用のカップリング学習

Coupling Learning of Complex Interactions ( http://arxiv.org/abs/2007.13534v1 )

ライセンス: Link先を確認
Longbing Cao(参考訳) ビッグデータ分析のような複雑なアプリケーションでは、技術的、ビジネス(ドメイン固有)、環境(社会文化的、経済的)に関連する要素間の相互作用を反映する様々な結合関係が関係する。 貧弱な構造と非構造なデータに埋め込まれた様々な結合形式がある。 このような結合は、ユビキタス、暗黙的および/または明示的、客観的および/または主観的、不均一および/または均質であり、統計、数学、コンピュータ科学における既存の学習システム、例えば典型的な依存、関連、相関関係の複雑さを示す。 このような結合のモデル化と学習は基本的だが難しい。 本稿では,学習システムにおける結合関係の関与に着目し,結合学習の概念について述べる。 学習の結合は、ビジネス上の問題の本質を深く理解し、既存の学習理論やツールでうまく対処されていない課題に対処する上で大きな可能性を秘めている。 この議論は、カップリング学習に関するいくつかのケーススタディによって検証され、例えば、リコメンダシステムにおけるカップリングの扱い、結合クラスタリング、カップリングドキュメントクラスタリング、結合レコメンダアルゴリズム、グループに対する結合挙動解析などである。

Complex applications such as big data analytics involve different forms of coupling relationships that reflect interactions between factors related to technical, business (domain-specific) and environmental (including socio-cultural and economic) aspects. There are diverse forms of couplings embedded in poor-structured and ill-structured data. Such couplings are ubiquitous, implicit and/or explicit, objective and/or subjective, heterogeneous and/or homogeneous, presenting complexities to existing learning systems in statistics, mathematics and computer sciences, such as typical dependency, association and correlation relationships. Modeling and learning such couplings thus is fundamental but challenging. This paper discusses the concept of coupling learning, focusing on the involvement of coupling relationships in learning systems. Coupling learning has great potential for building a deep understanding of the essence of business problems and handling challenges that have not been addressed well by existing learning theories and tools. This argument is verified by several case studies on coupling learning, including handling coupling in recommender systems, incorporating couplings into coupled clustering, coupling document clustering, coupled recommender algorithms and coupled behavior analysis for groups.
翻訳日:2022-11-14 22:36:15 公開日:2020-07-01
# NTT DCASE2020 Challenge Task 6 System: キーワードと文長推定による自動音声キャプション

The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation ( http://arxiv.org/abs/2007.00225v1 )

ライセンス: Link先を確認
Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino(参考訳) 本技術報告では,音響シーン・イベントの検出・分類(DCASE)2020 Challenge, Task 6: 自動音声キャプションを行うシステムについて述べる。 提案手法は,音声キャプションの自動生成における2つの不確定性問題を解決することに焦点を当てている。 マルチタスク学習によってキーワードや文長を推定することにより,主字幕生成と下位不確定問題を同時に解決する。 開発テストデータセットを用いて,提案モデルの簡易化を試みた。 ベースラインシステムのスコアが5.4の20.7 SPIDErを達成した。

This technical report describes the system participating to the Detection and Classification of Acoustic Scenes and Events (DCASE) 2020 Challenge, Task 6: automated audio captioning. Our submission focuses on solving two indeterminacy problems in automated audio captioning: word selection indeterminacy and sentence length indeterminacy. We simultaneously solve the main caption generation and sub indeterminacy problems by estimating keywords and sentence length through multi-task learning. We tested a simplified model of our submission using the development-testing dataset. Our model achieved 20.7 SPIDEr score where that of the baseline system was 5.4.
翻訳日:2022-11-14 22:35:11 公開日:2020-07-01
# 長期記憶ネットワークを用いた単変量株価信号の信頼区間構築

Construction of confidence interval for a univariate stock price signal predicted through Long Short Term Memory Network ( http://arxiv.org/abs/2007.00254v1 )

ライセンス: Link先を確認
Shankhyajyoti De, Arabin Kumar Dey, and Deepak Gauda(参考訳) 本稿では、一変量LSTMモデルに基づいて推定された信号のブートストラップ信頼区間を構築する革新的な方法を示す。 依存セットアップには3つの異なるタイプのブートストラップメソッドを採用しています。 サンプルのブートストラップの実行中に最適なブロック長を選択するための有用な提案をいくつか提案する。 また,異なるブートストラップ戦略で測定された信頼区間を比較するベンチマークも提案する。 いくつかの株価データセットによる実験結果について説明する。

In this paper, we show an innovative way to construct bootstrap confidence interval of a signal estimated based on a univariate LSTM model. We take three different types of bootstrap methods for dependent set up. We prescribe some useful suggestions to select the optimal block length while performing the bootstrapping of the sample. We also propose a benchmark to compare the confidence interval measured through different bootstrap strategies. We illustrate the experimental results through some stock price data set.
翻訳日:2022-11-14 22:34:48 公開日:2020-07-01
# M3d-CAM:医療深層学習のための3Dデータアテンションマップを生成するPyTorchライブラリ

M3d-CAM: A PyTorch library to generate 3D data attention maps for medical deep learning ( http://arxiv.org/abs/2007.00453v1 )

ライセンス: Link先を確認
Karol Gotkowski, Camila Gonzalez, Andreas Bucher, Anirban Mukhopadhyay(参考訳) M3d-CAMは、CNNベースのPyTorchモデルのアテンションマップを生成するための使いやすいライブラリである。 注意マップは Guided Backproagation, Grad-CAM, Guided Grad-CAM, Grad-CAM++ など,複数のメソッドで生成することができる。 これらの注意マップは、ある層においてモデル予測に最も影響した入力データ内の領域を視覚化する。 さらに、M3d-CAMは2次元データと3次元データをサポートし、分類やセグメンテーションを行う。 重要な特徴は、M3d-CAMを基本的にプラグアンドプレイするモデルのためのアテンションマップを生成するために、ほとんどの場合、1行のコードしか必要としないことである。

M3d-CAM is an easy to use library for generating attention maps of CNN-based PyTorch models improving the interpretability of model predictions for humans. The attention maps can be generated with multiple methods like Guided Backpropagation, Grad-CAM, Guided Grad-CAM and Grad-CAM++. These attention maps visualize the regions in the input data that influenced the model prediction the most at a certain layer. Furthermore, M3d-CAM supports 2D and 3D data for the task of classification as well as for segmentation. A key feature is also that in most cases only a single line of code is required for generating attention maps for a model making M3d-CAM basically plug and play.
翻訳日:2022-11-14 22:27:26 公開日:2020-07-01
# ログの爆発:共同手話認識とスペル補正

Exploiting the Logits: Joint Sign Language Recognition and Spell-Correction ( http://arxiv.org/abs/2007.00603v1 )

ライセンス: Link先を確認
Christina Runkel, Stefan Dorenkamp, Hartmut Bauermeister, Michael Moeller(参考訳) 機械学習技術は画像の自動意味解析に優れており、挑戦するベンチマーク上で人間レベルのパフォーマンスに達する。 しかし,映像の意味分析は,入力データの次元が著しく高く,注釈付き学習例の必要性が著しく高いため,依然として課題となっている。 ドイツ語手話ビデオの自動認識について検討した結果,2.800ビデオの比較的少ない訓練データでは,映像解析のための最新のディープラーニングアーキテクチャ(resnextなど)と,大規模なジェスチャー認識タスクにおけるトランスファー学習が約75%の精度を達成できることが示されている。 5文字の単語が正しく綴られる確率が25%未満であることを考えると、スペル補正システムは読みやすい出力を生成するために不可欠である。 本稿では,文字認識ネットワークのソフトマックス出力を入力として期待する,スペル訂正のための畳み込みニューラルネットワークを提案する。 ネットワークが入力を心で学習すると,ソフトマックス入力と不足トレーニングデータとを組み合わせて純粋に学習すると過度に適合することを示す。 対照的に、ネットワークを分類出力のロジットのいくつかの変種、すなわち、一定の因子によるスケーリング、ランダムノイズの追加、ソフトマックスとハードマックスの入力の混合、またはハードマックス入力の純粋にトレーニングなどにより、これらの出力に隠された重要な情報(トップ5の精度98%)を享受しながら、より汎用性が向上し、読みやすいテキストが得られる。

Machine learning techniques have excelled in the automatic semantic analysis of images, reaching human-level performances on challenging benchmarks. Yet, the semantic analysis of videos remains challenging due to the significantly higher dimensionality of the input data, respectively, the significantly higher need for annotated training examples. By studying the automatic recognition of German sign language videos, we demonstrate that on the relatively scarce training data of 2.800 videos, modern deep learning architectures for video analysis (such as ResNeXt) along with transfer learning on large gesture recognition tasks, can achieve about 75% character accuracy. Considering that this leaves us with a probability of under 25% that a 5 letter word is spelled correctly, spell-correction systems are crucial for producing readable outputs. The contribution of this paper is to propose a convolutional neural network for spell-correction that expects the softmax outputs of the character recognition network (instead of a misspelled word) as an input. We demonstrate that purely learning on softmax inputs in combination with scarce training data yields overfitting as the network learns the inputs by heart. In contrast, training the network on several variants of the logits of the classification output i.e. scaling by a constant factor, adding of random noise, mixing of softmax and hardmax inputs or purely training on hardmax inputs, leads to better generalization while benefitting from the significant information hidden in these outputs (that have 98% top-5 accuracy), yielding a readable text despite the comparably low character accuracy.
翻訳日:2022-11-14 22:27:01 公開日:2020-07-01
# グループアンサンブル:単一のConvNetでConvNetのアンサンブルを学ぶ

Group Ensemble: Learning an Ensemble of ConvNets in a single ConvNet ( http://arxiv.org/abs/2007.00649v1 )

ライセンス: Link先を確認
Hao Chen, Abhinav Shrivastava(参考訳) アンサンブル学習は、機械学習の精度を向上させる一般的なテクニックである。 しかし、ConvNetsアンサンブルの重い計算は、ディープラーニングにおける使用を制限する。 本稿では,単一の ConvNet に ConvNet のアンサンブルを組み込んだアーキテクチャである Group Ensemble Network (GENet) を提案する。 共有ベースとマルチヘッド構造により、genetは複数のグループに分けられ、単一のConvNetで明示的なアンサンブル学習を可能にする。 グループ畳み込みと共有ベースにより、genetは単一のConvNetと同じ計算を維持しながら、明示的なアンサンブル学習の利点を完全に活用することができる。 さらに,グループ平均化,グループワッギング,グループブースティングを,これらアンサンブルメンバを集約するための3つの異なる戦略として提示する。 最後に、genetはより大きなシングルネットワーク、より小さなネットワークの標準アンサンブル、CIFARとImageNetの最近の最先端メソッドよりも優れています。 具体的には、グループアンサンブルはImageNet上のResNeXt-50でトップ1エラーを1.83%削減する。 また,行動認識および物体検出タスクにおいてその効果を示す。

Ensemble learning is a general technique to improve accuracy in machine learning. However, the heavy computation of a ConvNets ensemble limits its usage in deep learning. In this paper, we present Group Ensemble Network (GENet), an architecture incorporating an ensemble of ConvNets in a single ConvNet. Through a shared-base and multi-head structure, GENet is divided into several groups to make explicit ensemble learning possible in a single ConvNet. Owing to group convolution and the shared-base, GENet can fully leverage the advantage of explicit ensemble learning while retaining the same computation as a single ConvNet. Additionally, we present Group Averaging, Group Wagging and Group Boosting as three different strategies to aggregate these ensemble members. Finally, GENet outperforms larger single networks, standard ensembles of smaller networks, and other recent state-of-the-art methods on CIFAR and ImageNet. Specifically, group ensemble reduces the top-1 error by 1.83% for ResNeXt-50 on ImageNet. We also demonstrate its effectiveness on action recognition and object detection tasks.
翻訳日:2022-11-14 22:26:29 公開日:2020-07-01
# ドメイン適応における最大平均差の再考

Rethink Maximum Mean Discrepancy for Domain Adaptation ( http://arxiv.org/abs/2007.00689v1 )

ライセンス: Link先を確認
Wei Wang and Haojie Li and Zhengming Ding and Zhihui Wang(参考訳) 既存のドメイン適応手法は、最大平均離散性(MMD)と識別距離を確立することにより、ソースとターゲットドメイン間の分布差を減らし、特定の識別情報を尊重することを目的としている。 しかし、これらの統計を考察するために蓄積され、パラメータを盲目的に推定することで関係に対処する。 この論文は理論的に2つの重要な事実を証明している。 1)MDDの最小化は,それぞれソースとクラス内距離を最大化するが,その分散を暗黙の重みと共同で最小化し,特徴識別性は低下する。 2) クラス内距離とクラス間距離の関係は, 転倒するにつれて上昇する。 そこで我々は,新しい差別的MDDを提案する。 一方,クラス内距離とクラス間距離は冗長パラメータを除去するためにのみ考慮し,得られた重みは近似最適範囲を提供する。 一方、特徴識別性を高めるための2つの異なる戦略を設計します。 1) mmd内の暗黙のクラス内距離に対して直接トレードオフパラメータを課し,その変化を規制する。 2) クラス間距離でMDDで示される類似の重みを最大化し, 特徴伝達可能性とその識別可能性の相対的重要性を定量的に活用するためにバランス係数を導入することができた。 いくつかのベンチマークデータセットにおける実験は、理論的な結果の妥当性を証明するだけでなく、我々のアプローチが比較最先端の手法よりも効果的であることを示すものである。

Existing domain adaptation methods aim to reduce the distributional difference between the source and target domains and respect their specific discriminative information, by establishing the Maximum Mean Discrepancy (MMD) and the discriminative distances. However, they usually accumulate to consider those statistics and deal with their relationships by estimating parameters blindly. This paper theoretically proves two essential facts: 1) minimizing the MMD equals to maximize the source and target intra-class distances respectively but jointly minimize their variance with some implicit weights, so that the feature discriminability degrades; 2) the relationship between the intra-class and inter-class distances is as one falls, another rises. Based on this, we propose a novel discriminative MMD. On one hand, we consider the intra-class and inter-class distances alone to remove a redundant parameter, and the revealed weights provide their approximate optimal ranges. On the other hand, we design two different strategies to boost the feature discriminability: 1) we directly impose a trade-off parameter on the implicit intra-class distance in MMD to regulate its change; 2) we impose the similar weights revealed in MMD on inter-class distance and maximize it, then a balanced factor could be introduced to quantitatively leverage the relative importance between the feature transferability and its discriminability. The experiments on several benchmark datasets not only prove the validity of theoretical results but also demonstrate that our approach could perform better than the comparative state-of-art methods substantially.
翻訳日:2022-11-14 22:18:54 公開日:2020-07-01
# 生成モデルを用いた強化学習における逐次伝達

Sequential Transfer in Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2007.00722v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Riccardo Poiani, Marcello Restelli(参考訳) 我々は,従来の課題から知識を移譲することで,新たな課題を学習するためのサンプルの複雑さを確実に低減する強化学習エージェントの設計に興味を持っている。 関連する問題に対するソリューションの可用性は基本的なトレードオフとなり、新しいタスクで高い(最適でない)パフォーマンスを達成すると期待されるポリシーを探すか、あるいは最適なソリューションを迅速に特定するための情報を求めるか、潜在的に初期動作の悪いコストで。 本研究では,エージェントが状態-作用ペアの生成モデルにアクセスできる場合の2番目の目的に焦点を当てる。 まず、対象の近似を含む一組の問題解決タスクを考慮し、この目的に最も有益である状態-作用対を求めることにより、正確な解を迅速に特定するアルゴリズムを設計する。 この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。 次に,隠れマルコフモデルに転送設定を縮小し,スペクトル法を用いてパラメータを復元することにより,これらの近似タスクを逐次学習する方法を示す。 最後に,単純なシミュレート領域において,理論的な知見を実証的に検証する。

We are interested in how to design reinforcement learning agents that provably reduce the sample complexity for learning new tasks by transferring knowledge from previously-solved ones. The availability of solutions to related problems poses a fundamental trade-off: whether to seek policies that are expected to achieve high (yet sub-optimal) performance in the new task immediately or whether to seek information to quickly identify an optimal solution, potentially at the cost of poor initial behavior. In this work, we focus on the second objective when the agent has access to a generative model of state-action pairs. First, given a set of solved tasks containing an approximation of the target one, we design an algorithm that quickly identifies an accurate solution by seeking the state-action pairs that are most informative for this purpose. We derive PAC bounds on its sample complexity which clearly demonstrate the benefits of using this kind of prior knowledge. Then, we show how to learn these approximate tasks sequentially by reducing our transfer setting to a hidden Markov model and employing spectral methods to recover its parameters. Finally, we empirically verify our theoretical findings in simple simulated domains.
翻訳日:2022-11-14 22:18:10 公開日:2020-07-01
# バンディット線形制御

Bandit Linear Control ( http://arxiv.org/abs/2007.00759v1 )

ライセンス: Link先を確認
Asaf Cassel (1), Tomer Koren ((1) School of Computer Science, Tel Aviv University)(参考訳) 本稿では,確率的雑音下での既知の線形力学系制御の問題,逆選択コスト,帯域フィードバックについて考察する。 決定後、全コスト関数が明らかにされる完全なフィードバック設定とは異なり、ここでは学習者によるコストのみを観測する。 我々は, 強い凸と滑らかなコストのために, 時間的地平線の平方根で成長する後悔を得る, 新たな効率的アルゴリズムを提案する。 また、この結果を一般凸、おそらく非滑らかなコスト、非確率的なシステムノイズにも拡張する。 このアルゴリズムの重要な要素は,記憶を伴う損失関数のバンドイット最適化に対処する新しい手法である。

We consider the problem of controlling a known linear dynamical system under stochastic noise, adversarially chosen costs, and bandit feedback. Unlike the full feedback setting where the entire cost function is revealed after each decision, here only the cost incurred by the learner is observed. We present a new and efficient algorithm that, for strongly convex and smooth costs, obtains regret that grows with the square root of the time horizon $T$. We also give extensions of this result to general convex, possibly non-smooth costs, and to non-stochastic system noise. A key component of our algorithm is a new technique for addressing bandit optimization of loss functions with memory.
翻訳日:2022-11-14 22:17:42 公開日:2020-07-01
# ニューラルネットワークにおけるシーケンス転送学習のための自己教師付き事前学習に関する調査

A Survey on Self-supervised Pre-training for Sequential Transfer Learning in Neural Networks ( http://arxiv.org/abs/2007.00800v1 )

ライセンス: Link先を確認
Huanru Henry Mao(参考訳) ディープニューラルネットワークは通常、ラベル付きデータを使用してモデルが単一のタスクを学習する教師付き学習フレームワークの下でトレーニングされる。 ラベル付きデータのみに頼るのではなく、ラベルなしのデータや関連するデータをモデルパフォーマンスを改善するために利用することができる。 転送学習のための自己教師付き事前学習は,ラベルなしデータを用いた最先端の成果を改善するための技術として,ますます人気が高まっている。 まず、大量のラベルのないデータ上でモデルを事前トレーニングし、次に関心のあるタスクをターゲットにモデルを適用する。 本稿では,シーケンシャルトランスファー学習フレームワークにおける自己指導型学習手法とその応用について検討する。 本稿では,自己教師あり学習と転校学習の分類法の概要を述べるとともに,各領域にまたがる事前学習タスクの設計方法について紹介する。 最後に,近年の動向を論じ,今後の調査分野を提案する。

Deep neural networks are typically trained under a supervised learning framework where a model learns a single task using labeled data. Instead of relying solely on labeled data, practitioners can harness unlabeled or related data to improve model performance, which is often more accessible and ubiquitous. Self-supervised pre-training for transfer learning is becoming an increasingly popular technique to improve state-of-the-art results using unlabeled data. It involves first pre-training a model on a large amount of unlabeled data, then adapting the model to target tasks of interest. In this review, we survey self-supervised learning methods and their applications within the sequential transfer learning framework. We provide an overview of the taxonomy for self-supervised learning and transfer learning, and highlight some prominent methods for designing pre-training tasks across different domains. Finally, we discuss recent trends and suggest areas for future investigation.
翻訳日:2022-11-14 22:17:10 公開日:2020-07-01
# 信念伝達ニューラルネットワーク

Belief Propagation Neural Networks ( http://arxiv.org/abs/2007.00295v1 )

ライセンス: Link先を確認
Jonathan Kuck, Shuvam Chakraborty, Hao Tang, Rachel Luo, Jiaming Song, Ashish Sabharwal, Stefano Ermon(参考訳) 学習されたニューラルソルバは、組合せ最適化と決定問題の解決に成功している。 しかし、これらの問題のより一般的な計数型は、まだ手作りの解法でほとんど解決されている。 このギャップを埋めるため,我々は,因子グラフ上で動作し,信念伝播(bp)を一般化するパラメータ化演算子のクラスである,信念伝達ニューラルネットワーク(bpnns)を導入する。 最も厳密な形式では、BPNN層(BPNN-D)は、パラメータの選択に対してBPの望ましい特性の多くを確実に維持する学習反復作用素である。 実験により,BPNN-D のトレーニングにより,従来の BP の1.7 倍の高速化を実現し,より厳密なバウンダリを提供する。 挑戦的なモデルカウント問題では、BPNNは最先端の手作り手法の100倍の速さで推定し、同等の品質の見積を返す。

Learned neural solvers have successfully been used to solve combinatorial optimization and decision problems. More general counting variants of these problems, however, are still largely solved with hand-crafted solvers. To bridge this gap, we introduce belief propagation neural networks (BPNNs), a class of parameterized operators that operate on factor graphs and generalize Belief Propagation (BP). In its strictest form, a BPNN layer (BPNN-D) is a learned iterative operator that provably maintains many of the desirable properties of BP for any choice of the parameters. Empirically, we show that by training BPNN-D learns to perform the task better than the original BP: it converges 1.7x faster on Ising models while providing tighter bounds. On challenging model counting problems, BPNNs compute estimates 100's of times faster than state-of-the-art handcrafted methods, while returning an estimate of comparable quality.
翻訳日:2022-11-14 22:09:54 公開日:2020-07-01
# 条件付き生成逆ネットワークによる不確実性の推定

Estimation with Uncertainty via Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2007.00334v1 )

ライセンス: Link先を確認
Minhyeok Lee, Junhee Seok(参考訳) 従来の予測ニューラルネットワーク(ANN)では、決定論的重み行列が一般的であり、その予測はポイント推定である。 このようなANNにおける決定論的性質は、医学診断、法律問題、ポートフォリオ管理にANNを使用することの限界を引き起こし、予測だけでなく、予測の不確実性も本質的に必要である。 このような問題に対処するために,条件付きサンプル生成に日常的に使用される条件付き生成逆逆ネットワーク(cgan)において,ジェネレータを使用する異なる方法に対応する予測確率的ニューラルネットワークモデルを提案する。 通常のcGANの入力と出力を反転させることで、モデルを予測モデルとしてうまく利用することができる。 さらに,予測の不確実性を測定するために,回帰問題と分類問題に対するエントロピーと相対エントロピーを導入する。 提案手法は,ストックマーケットデータと画像分類タスクに適用される。 その結果,提案手法は,特にノイズデータにおいて優れた推定性能を示し,また,提案手法が予測の不確かさを適切に推定できることを示した。

Conventional predictive Artificial Neural Networks (ANNs) commonly employ deterministic weight matrices; therefore, their prediction is a point estimate. Such a deterministic nature in ANNs causes the limitations of using ANNs for medical diagnosis, law problems, and portfolio management, in which discovering not only the prediction but also the uncertainty of the prediction is essentially required. To address such a problem, we propose a predictive probabilistic neural network model, which corresponds to a different manner of using the generator in conditional Generative Adversarial Network (cGAN) that has been routinely used for conditional sample generation. By reversing the input and output of ordinary cGAN, the model can be successfully used as a predictive model; besides, the model is robust against noises since adversarial training is employed. In addition, to measure the uncertainty of predictions, we introduce the entropy and relative entropy for regression problems and classification problems, respectively. The proposed framework is applied to stock market data and an image classification task. As a result, the proposed framework shows superior estimation performance, especially on noisy data; moreover, it is demonstrated that the proposed framework can properly estimate the uncertainty of predictions.
翻訳日:2022-11-14 22:09:37 公開日:2020-07-01
# トレーニング前の単一ショット構造化プルーニング

Single Shot Structured Pruning Before Training ( http://arxiv.org/abs/2007.00389v1 )

ライセンス: Link先を確認
Joost van Amersfoort, Milad Alizadeh, Sebastian Farquhar, Nicholas Lane, Yarin Gal(参考訳) 本稿では,トレーニング前の構造的プルーニングを用いた深層ニューラルネットワークにおいて,トレーニングを2倍高速化し,推論を3倍高速化する手法を提案する。 従来のトレーニング前の刈り取り作業とは違って、トレーニングと推論をスピードアップする目的で、チャネル全体と隠れたユニットを除去する手法を開発しました。 FLOPあたりの感度の単位をプラニングすることで、より高速なアップを可能にする計算対応スコアリング機構を導入する。 我々の手法は高速で実装が簡単で、トレーニングが始まる前に1つのデータに1つの前方/後方パスだけでプルーニングが完了する。

We introduce a method to speed up training by 2x and inference by 3x in deep neural networks using structured pruning applied before training. Unlike previous works on pruning before training which prune individual weights, our work develops a methodology to remove entire channels and hidden units with the explicit aim of speeding up training and inference. We introduce a compute-aware scoring mechanism which enables pruning in units of sensitivity per FLOP removed, allowing even greater speed ups. Our method is fast, easy to implement, and needs just one forward/backward pass on a single batch of data to complete pruning before training begins.
翻訳日:2022-11-14 22:08:42 公開日:2020-07-01
# Tsallis分枝規則化によるスパースランダム化最短経路ルーティング

Sparse Randomized Shortest Paths Routing with Tsallis Divergence Regularization ( http://arxiv.org/abs/2007.00419v1 )

ライセンス: Link先を確認
Pierre Leleux, Sylvain Courtain, Guillaume Guex and Marco Saerens(参考訳) This work elaborates on the important problem of (1) designing optimal randomized routing policies for reaching a target node t from a source note s on a weighted directed graph G and (2) defining distance measures between nodes interpolating between the least cost (based on optimal movements) and the commute-cost (based on a random walk on G), depending on a temperature parameter T. To this end, the randomized shortest path formalism (RSP, [2,99,124]) is rephrased in terms of Tsallis divergence regularization, instead of Kullback-Leibler divergence. この変化の主な結果は、t が減少すると経路ポリシー(局所遷移確率)がスパーザーとなるため、t が 0 になると最小コストの有向非巡回グラフに収束する g 上のスパースランダムウォークを誘導する。 ノードクラスタリングと半教師付き分類タスクの実験的比較により,予測されるルーティングコストに基づく導出相似度測定が最先端の結果をもたらすことが示された。 したがってスパース rsp はグラフ上の動きの有望なモデルであり、スパース搾取と探索を最適な方法でバランスさせる。

This work elaborates on the important problem of (1) designing optimal randomized routing policies for reaching a target node t from a source note s on a weighted directed graph G and (2) defining distance measures between nodes interpolating between the least cost (based on optimal movements) and the commute-cost (based on a random walk on G), depending on a temperature parameter T. To this end, the randomized shortest path formalism (RSP, [2,99,124]) is rephrased in terms of Tsallis divergence regularization, instead of Kullback-Leibler divergence. The main consequence of this change is that the resulting routing policy (local transition probabilities) becomes sparser when T decreases, therefore inducing a sparse random walk on G converging to the least-cost directed acyclic graph when T tends to 0. Experimental comparisons on node clustering and semi-supervised classification tasks show that the derived dissimilarity measures based on expected routing costs provide state-of-the-art results. The sparse RSP is therefore a promising model of movements on a graph, balancing sparse exploitation and exploration in an optimal way.
翻訳日:2022-11-14 22:08:30 公開日:2020-07-01
# インタラクション限定逆強化学習

Interaction-limited Inverse Reinforcement Learning ( http://arxiv.org/abs/2007.00425v1 )

ライセンス: Link先を確認
Martin Troussard, Emmanuel Pignat, Parameswaran Kamalaruban, Sylvain Calinon, Volkan Cevher(参考訳) 本稿では,学習者-教師 \textit{interaction} がトレーニング中に \textit{limited} である場合の学習を高速化する逆強化学習(irl)フレームワークを提案する。 私たちの設定は、有用な教師がいないり、教師が生徒の学習ダイナミクスにアクセスできないような現実的なシナリオに動機づけられています。 本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。 シミュレーション実験と実ロボットによる実験を用いて,人間の実演者からタスクを学習し,学習戦略がcirlの無作為教師やspirlのバッチ学習者よりも高速に学習できることを示す。

This paper proposes an inverse reinforcement learning (IRL) framework to accelerate learning when the learner-teacher \textit{interaction} is \textit{limited} during training. Our setting is motivated by the realistic scenarios where a helpful teacher is not available or when the teacher cannot access the learning dynamics of the student. We present two different training strategies: Curriculum Inverse Reinforcement Learning (CIRL) covering the teacher's perspective, and Self-Paced Inverse Reinforcement Learning (SPIRL) focusing on the learner's perspective. Using experiments in simulations and experiments with a real robot learning a task from a human demonstrator, we show that our training strategies can allow a faster training than a random teacher for CIRL and than a batch learner for SPIRL.
翻訳日:2022-11-14 22:08:09 公開日:2020-07-01
# HydroNets: 河川構造を利用した水文モデリング

HydroNets: Leveraging River Structure for Hydrologic Modeling ( http://arxiv.org/abs/2007.00595v1 )

ライセンス: Link先を確認
Zach Moshe (1), Asher Metzger (1), Gal Elidan (1 and 2), Frederik Kratzert (4), Sella Nevo (1), Ran El-Yaniv (1 and 3) ((1) Google Research, (2) The Hebrew University of Jerusalem, (3) Technion - Israel Institute of Technology, (4) LIT AI Lab & Institute for Machine Learning, Johannes Kepler University Linz)(参考訳) 水資源管理からタイムリーな洪水警報まで、いくつかの重要な応用において、正確でスケーラブルな水理モデルが不可欠である。 しかし、気候変動によって降雨と降雨・流出パターンの変動が極端になり、その結果の分布変化を考慮できる正確なトレーニングデータがより少なくなる。 本研究では,河川網構造を利用した新しい水文モデルであるハイドロネットについて述べる。 ハイドロネットは、盆地固有の降雨信号と上流のネットワークダイナミクスの両方を利用するように設計されたディープニューラルネットワークモデルである。 河川構造の事前知識の注入はサンプルの複雑さを減少させ、数年のデータでもスケーラブルで正確な水文学モデリングを可能にする。 インドにおける2つの大きな盆地に関する実証的研究を行い、提案モデルとその利点を確実に支持する。

Accurate and scalable hydrologic models are essential building blocks of several important applications, from water resource management to timely flood warnings. However, as the climate changes, precipitation and rainfall-runoff pattern variations become more extreme, and accurate training data that can account for the resulting distributional shifts become more scarce. In this work we present a novel family of hydrologic models, called HydroNets, which leverages river network structure. HydroNets are deep neural network models designed to exploit both basin specific rainfall-runoff signals, and upstream network dynamics, which can lead to improved predictions at longer horizons. The injection of the river structure prior knowledge reduces sample complexity and allows for scalable and more accurate hydrologic modeling even with only a few years of data. We present an empirical study over two large basins in India that convincingly support the proposed model and its advantages.
翻訳日:2022-11-14 22:07:53 公開日:2020-07-01
# 指数族のすべて:熱力学的変動推論におけるブレグマン双対性

All in the Exponential Family: Bregman Duality in Thermodynamic Variational Inference ( http://arxiv.org/abs/2007.00642v1 )

ライセンス: Link先を確認
Rob Brekelmans, Vaden Masrani, Frank Wood, Greg Ver Steeg, Aram Galstyan(参考訳) 最近提案された熱力学的変動オブジェクト(TVO)は、熱力学的統合を利用して、ユビキタス・エビデンス・ロウアー・バウンド(ELBO)を厳密かつ一般化した変分推論対象の族を提供する。 しかし、TVO境界の厳密さは以前は知られておらず、中間分布の「スケジュール」を選択するために高価なグリッド探索が用いられ、モデル学習は目に見えるほど厳密な境界に悩まされた。 そこで本研究では,TVO と様々な経路サンプリング法を基礎とした幾何学的混合曲線の指数関数的家族解釈を提案し,KL の相違点の和として TVO の誤差を特徴付ける。 本研究では,グリッド探索性能に適合し,トレーニングの過程でスケジュールを適応的に更新できる指数関数型ファミリのモーメントパラメータにおいて,等間隔を用いた中間分布を選択することを提案する。 最後に、モデル学習を改善し、TVOがより洗練されたバウンダリの恩恵を受けることができる2つのパラメータ化勾配推定器を導出する。 コンテクストをさらに文脈化するために、テイラー級数残差を用いた熱力学積分とTVOを理解するための統一的なフレームワークを提供する。

The recently proposed Thermodynamic Variational Objective (TVO) leverages thermodynamic integration to provide a family of variational inference objectives, which both tighten and generalize the ubiquitous Evidence Lower Bound (ELBO). However, the tightness of TVO bounds was not previously known, an expensive grid search was used to choose a "schedule" of intermediate distributions, and model learning suffered with ostensibly tighter bounds. In this work, we propose an exponential family interpretation of the geometric mixture curve underlying the TVO and various path sampling methods, which allows us to characterize the gap in TVO likelihood bounds as a sum of KL divergences. We propose to choose intermediate distributions using equal spacing in the moment parameters of our exponential family, which matches grid search performance and allows the schedule to adaptively update over the course of training. Finally, we derive a doubly reparameterized gradient estimator which improves model learning and allows the TVO to benefit from more refined bounds. To further contextualize our contributions, we provide a unified framework for understanding thermodynamic integration and the TVO using Taylor series remainders.
翻訳日:2022-11-14 22:07:38 公開日:2020-07-01
# 規則的に更新された決定論的ポリシー勾配アルゴリズム

Regularly Updated Deterministic Policy Gradient Algorithm ( http://arxiv.org/abs/2007.00169v1 )

ライセンス: Link先を確認
Shuai Han and Wenbo Zhou and Shuai L\"u and Jiayu Yu(参考訳) DDPG(Deep Deterministic Policy Gradient)アルゴリズムは、最もよく知られた強化学習手法の1つである。 しかし、この方法は実用上は非効率で不安定である。 一方,目標関数におけるq推定の偏りやばらつきは制御が難しい場合がある。 本稿では,これらの問題に対する規則更新決定性(RUD)ポリシー勾配アルゴリズムを提案する。 本稿では,rudを用いた学習手法が,従来の手法よりも新しいデータをリプレイバッファで活用できることを理論的に証明する。 さらに、RUDにおけるQ値の低分散は、現在のClipped Double Q-learning戦略により適している。 本稿では,従来の手法との比較実験,ddpgによるアブレーション実験,ムジョコ環境における他の解析実験について述べる。 実験の結果, RUDの有効性と優位性を示した。

Deep Deterministic Policy Gradient (DDPG) algorithm is one of the most well-known reinforcement learning methods. However, this method is inefficient and unstable in practical applications. On the other hand, the bias and variance of the Q estimation in the target function are sometimes difficult to control. This paper proposes a Regularly Updated Deterministic (RUD) policy gradient algorithm for these problems. This paper theoretically proves that the learning procedure with RUD can make better use of new data in replay buffer than the traditional procedure. In addition, the low variance of the Q value in RUD is more suitable for the current Clipped Double Q-learning strategy. This paper has designed a comparison experiment against previous methods, an ablation experiment with the original DDPG, and other analytical experiments in Mujoco environments. The experimental results demonstrate the effectiveness and superiority of RUD.
翻訳日:2022-11-14 22:00:46 公開日:2020-07-01
# 多段階タスクのための協調政策の開発

Developing cooperative policies for multi-stage tasks ( http://arxiv.org/abs/2007.00203v1 )

ライセンス: Link先を確認
Jordan Erskine, Chris Lehnert(参考訳) 本稿では,連続強化学習エージェントによる多段階多段階課題の協調的解決を可能にする協調的ソフトアクタ・レビュー(csac)手法を提案する。 この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。 各エージェントの批判を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。 この手法をマルチルームの迷路ドメインで使用することにより,協調政策は非協力的な方針と,ドメイン全体で訓練された1つのエージェントを上回ることを可能にした。 CSACは非協調的な政策よりも少なくとも20倍高い成功率を達成し、単一エージェントの少なくとも4倍の速さで解に収束した。

This paper proposes the Cooperative Soft Actor Critic (CSAC) method of enabling consecutive reinforcement learning agents to cooperatively solve a long time horizon multi-stage task. This method is achieved by modifying the policy of each agent to maximise both the current and next agent's critic. Cooperatively maximising each agent's critic allows each agent to take actions that are beneficial for its task as well as subsequent tasks. Using this method in a multi-room maze domain, the cooperative policies were able to outperform both uncooperative policies as well as a single agent trained across the entire domain. CSAC achieved a success rate of at least 20\% higher than the uncooperative policies, and converged on a solution at least 4 times faster than the single agent.
翻訳日:2022-11-14 22:00:28 公開日:2020-07-01
# 公正制約は構造化予測における正確な推論に役立つ

Fairness constraints can help exact inference in structured prediction ( http://arxiv.org/abs/2007.00218v1 )

ライセンス: Link先を確認
Kevin Bello and Jean Honorio(参考訳) 構造化予測における多くの推論問題はラベル空間上のスコア関数を最大化するものとしてモデル化することができ、グラフは総スコアをユニタリ(ノード)とペアワイズ(エッジ)の合計に分解する自然な表現である。 有向連結グラフ $g$ とバイナリラベルの真のベクトルを持つ生成モデルが与えられたとき、以前、$g$ が完全グラフや$d$-正規展開器のような良好な拡張特性を持つとき、(高い確率と多項式時間で)真のラベルを各エッジとノードの単一のノイズ観測から正確に回復できることが示されている。 我々はGlobersonらによる以前に研究された生成モデル(2015)を統計的パリティの概念の下で解析した。 すなわち、公正なバイナリノードラベルが与えられた場合、単一エッジとノードの観測から、高い確率と多項式時間で公平な割り当てを回復できるかどうかを問う。 フェアネスとモデル性能の間の既知のトレードオフとは対照的に、フェアネス制約の追加は正確なリカバリの確率を向上させる。 この現象を効果的に説明し、グリッドのような拡張性に乏しいグラフが、高い確率で正確な回復を達成できることを実証的に示す。 最後に、分析の副産物として、ワイルの不等式よりも強い最小固有値が与えられる。

Many inference problems in structured prediction can be modeled as maximizing a score function on a space of labels, where graphs are a natural representation to decompose the total score into a sum of unary (nodes) and pairwise (edges) scores. Given a generative model with an undirected connected graph $G$ and true vector of binary labels, it has been previously shown that when $G$ has good expansion properties, such as complete graphs or $d$-regular expanders, one can exactly recover the true labels (with high probability and in polynomial time) from a single noisy observation of each edge and node. We analyze the previously studied generative model by Globerson et al. (2015) under a notion of statistical parity. That is, given a fair binary node labeling, we ask the question whether it is possible to recover the fair assignment, with high probability and in polynomial time, from single edge and node observations. We find that, in contrast to the known trade-offs between fairness and model performance, the addition of the fairness constraint improves the probability of exact recovery. We effectively explain this phenomenon and empirically show how graphs with poor expansion properties, such as grids, are now capable to achieve exact recovery with high probability. Finally, as a byproduct of our analysis, we provide a tighter minimum-eigenvalue bound than that of Weyl's inequality.
翻訳日:2022-11-14 22:00:05 公開日:2020-07-01
# 失語ラベルを用いた極端分類のための失語機能

Unbiased Loss Functions for Extreme Classification With Missing Labels ( http://arxiv.org/abs/2007.00237v1 )

ライセンス: Link先を確認
Erik Schultheis, Mohammadreza Qaraei, Priyanshu Gupta, and Rohit Babbar(参考訳) 極端なマルチラベル分類(XMC)の目標は、非常に大きなラベルのセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けすることである。 多くのトレーニングインスタンス、特徴、ラベルから生じる計算負担に加えて、XMCの問題は2つの統計的課題に直面している。 (i)多数の「尾ラベル」 --非常に稀に発生するもの、及び (ii)すべての関連するラベルをインスタンスに手動で割り当てることは事実上不可能である。 本研究では,ラベルを分解した損失関数の一般定式化のための非バイアス推定器を導出し,ヒンジ・ヒンジ・ロスや二乗クロスエントロピー損失などの一般的な損失関数の形式を推定する。 そこで本研究では,適切な重み付け係数の形で導出非偏り推定器を極端に分類するための最先端アルゴリズムに容易に組み込むことができ,数十万ラベルのデータセットにスケールできることを示す。 しかし、実験的に見れば、テールラベルに対する相対的な重み付けをより良くする、わずかに変更されたバージョンが見つかる。 我々は、データセットのラベルの不均衡が原因であり、理論的に導出された推定器によって明示的に対処されていないと推測する。 提案された損失関数の最小化は、XMCのベンチマークデータセット上の既存のメソッド(場合によっては20%)よりも大幅に改善される。

The goal in extreme multi-label classification (XMC) is to tag an instance with a small subset of relevant labels from an extremely large set of possible labels. In addition to the computational burden arising from large number of training instances, features and labels, problems in XMC are faced with two statistical challenges, (i) large number of 'tail-labels' -- those which occur very infrequently, and (ii) missing labels as it is virtually impossible to manually assign every relevant label to an instance. In this work, we derive an unbiased estimator for general formulation of loss functions which decompose over labels, and then infer the forms for commonly used loss functions such as hinge- and squared-hinge-loss and binary cross-entropy loss. We show that the derived unbiased estimators, in the form of appropriate weighting factors, can be easily incorporated in state-of-the-art algorithms for extreme classification, thereby scaling to datasets with hundreds of thousand labels. However, empirically, we find a slightly altered version that gives more relative weight to tail labels to perform even better. We suspect is due to the label imbalance in the dataset, which is not explicitly addressed by our theoretically derived estimator. Minimizing the proposed loss functions leads to significant improvement over existing methods (up to 20% in some cases) on benchmark datasets in XMC.
翻訳日:2022-11-14 21:59:27 公開日:2020-07-01
# ロバスト雑音ラベル学習のための時間校正正規化

Temporal Calibrated Regularization for Robust Noisy Label Learning ( http://arxiv.org/abs/2007.00240v1 )

ライセンス: Link先を確認
Dongxian Wu, Yisen Wang, Zhuobin Zheng, Shu-tao Xia(参考訳) ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。 しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質(ノイズのあるラベルを持つ)を保証することは困難である。 これらのノイズラベル付きデータセットのトレーニングは、一般化性能を悪化させる可能性がある。 既存のメソッドは複雑なトレーニングステージ分割に依存するか、限界性能改善のために過剰な計算をもたらすかのどちらかだ。 本稿では,DNNが学習した単純なパターンをほとんどオーバーヘッドなく継承できるように,元のラベルと以前のエポックの予測を併用した時間校正正規化(TCR)を提案する。 我々は,様々なニューラルネットワークアーキテクチャとデータセットについて広範な実験を行い,dnnの雑音に対するロバスト性が一貫して向上することを示す。

Deep neural networks (DNNs) exhibit great success on many tasks with the help of large-scale well annotated datasets. However, labeling large-scale data can be very costly and error-prone so that it is difficult to guarantee the annotation quality (i.e., having noisy labels). Training on these noisy labeled datasets may adversely deteriorate their generalization performance. Existing methods either rely on complex training stage division or bring too much computation for marginal performance improvement. In this paper, we propose a Temporal Calibrated Regularization (TCR), in which we utilize the original labels and the predictions in the previous epoch together to make DNN inherit the simple pattern it has learned with little overhead. We conduct extensive experiments on various neural network architectures and datasets, and find that it consistently enhances the robustness of DNNs to label noise.
翻訳日:2022-11-14 21:59:04 公開日:2020-07-01
# transint: 線形部分空間の同型交叉を持つ知識グラフにおける含意規則の埋め込み

TransINT: Embedding Implication Rules in Knowledge Graphs with Isomorphic Intersections of Linear Subspaces ( http://arxiv.org/abs/2007.00271v1 )

ライセンス: Link先を確認
So Yeon Min, Preethi Raghavan and Peter Szolovits(参考訳) 知識グラフ(kg)は、実体と関係で構成され、知識の構造化表現を提供する。 リレーショナルデータに対する統計的アプローチに容易にアクセスするために、KGをf(KG)$\in$ R^dに埋め込む複数の方法が導入された。 埋め込み空間における関係性間の関係を同型に保存する新規かつ解釈可能なKG埋め込み手法であるTransINTを提案する。 含意規則が与えられた場合、TransINT は(関係によって成される)実体の集合を、関係含意が同型である連続ベクトルの集合に写像する。 新たなパラメータ共有方式により、TransINTはルールを根拠にすることなく、行方不明だが暗黙の事実を自動訓練できる。 ベンチマークデータセットでは、リンク予測とトリプル分類において有意なマージンを持つ最先端のルール統合埋め込み手法より優れている。 TransINTによって埋め込まれた連続集合間の角度は、関係間の意味的関連性や含意規則を掘り下げるための解釈可能な方法を提供する。

Knowledge Graphs (KG), composed of entities and relations, provide a structured representation of knowledge. For easy access to statistical approaches on relational data, multiple methods to embed a KG into f(KG) $\in$ R^d have been introduced. We propose TransINT, a novel and interpretable KG embedding method that isomorphically preserves the implication ordering among relations in the embedding space. Given implication rules, TransINT maps set of entities (tied by a relation) to continuous sets of vectors that are inclusion-ordered isomorphically to relation implications. With a novel parameter sharing scheme, TransINT enables automatic training on missing but implied facts without rule grounding. On a benchmark dataset, we outperform the best existing state-of-the-art rule integration embedding methods with significant margins in link Prediction and triple Classification. The angles between the continuous sets embedded by TransINT provide an interpretable way to mine semantic relatedness and implication rules among relations.
翻訳日:2022-11-14 21:58:51 公開日:2020-07-01
# 強化学習による学生・教師のカリキュラム学習:入院場所の予測

Student-Teacher Curriculum Learning via Reinforcement Learning: Predicting Hospital Inpatient Admission Location ( http://arxiv.org/abs/2007.01135v1 )

ライセンス: Link先を確認
Rasheed el-Bouri, David Eyre, Peter Watkinson, Tingting Zhu, David Clifton(参考訳) 病院の入院場所の正確かつ確実な予測は、特に救急部から来院した患者を扱う場合、臨床現場における資源制約や空間利用の制限により重要である。 本研究では,この問題に対処するために,強化学習を用いた教員ネットワークを提案する。 生徒ネットワークの重みの表現を状態として処理し、教師ネットワークへの入力として供給する。 教師ネットワークの行動は、エントロピーに応じてソートされたトレーニングセットから、生徒ネットワークをトレーニングするための最も適切なデータのバッチを選択することである。 3つのデータセットを検証することで,本手法が表データにおける最先端手法よりも優れており,画像認識に競争力があることを示すだけでなく,教師ネットワークによって新たなカリキュラムが学習されることを示した。 教師ネットワークが学生ネットワークについて積極的に学習し、単独で訓練した場合よりも優れたパフォーマンスを達成するために指導できることを実験的に実証する。

Accurate and reliable prediction of hospital admission location is important due to resource-constraints and space availability in a clinical setting, particularly when dealing with patients who come from the emergency department. In this work we propose a student-teacher network via reinforcement learning to deal with this specific problem. A representation of the weights of the student network is treated as the state and is fed as an input to the teacher network. The teacher network's action is to select the most appropriate batch of data to train the student network on from a training set sorted according to entropy. By validating on three datasets, not only do we show that our approach outperforms state-of-the-art methods on tabular data and performs competitively on image recognition, but also that novel curricula are learned by the teacher network. We demonstrate experimentally that the teacher network can actively learn about the student network and guide it to achieve better performance than if trained alone.
翻訳日:2022-11-14 21:52:46 公開日:2020-07-01
# 強化学習による近速運転の模倣政策の制御

Reinforcement Learning based Control of Imitative Policies for Near-Accident Driving ( http://arxiv.org/abs/2007.00178v1 )

ライセンス: Link先を確認
Zhangjie Cao, Erdem B{\i}y{\i}k, Woodrow Z. Wang, Allan Raventos, Adrien Gaidon, Guy Rosman, Dorsa Sadigh(参考訳) 自動運転は近年大きな進歩を遂げているが、自動運転車は事故の可能性の高い高リスクの状況にはまだ対応できない。 このようなほぼ事故のシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。 事故に近いシナリオでは、安全でないアクションを避けるために、環境を完全に調査する必要があります。 しかし、広く使われている2つの政策学習手法である強化学習(RL)と模倣学習(IL)は、急激な位相遷移をモデル化できず、全ての状態を完全にカバーできない。 ほぼ事故時の運転に対処するために,ILが個別運転モードで学んだ低レベルポリシーと,異なる運転モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化・模倣学習(H-ReIL)アプローチを提案する。 我々のアプローチは、ILとRLの両方の利点を利用して、それらを統一的な学習フレームワークに統合する。 実験結果とユーザスタディにより,本手法は他の手法と比較して高い効率と安全性が得られた。 政策分析の結果, 運転状況において, 異なる低水準政策を適切に切り替える傾向が示された。

Autonomous driving has achieved significant progress in recent years, but autonomous cars are still unable to tackle high-risk situations where a potential accident is likely. In such near-accident scenarios, even a minor change in the vehicle's actions may result in drastically different consequences. To avoid unsafe actions in near-accident scenarios, we need to fully explore the environment. However, reinforcement learning (RL) and imitation learning (IL), two widely-used policy learning methods, cannot model rapid phase transitions and are not scalable to fully cover all the states. To address driving in near-accident scenarios, we propose a hierarchical reinforcement and imitation learning (H-ReIL) approach that consists of low-level policies learned by IL for discrete driving modes, and a high-level policy learned by RL that switches between different driving modes. Our approach exploits the advantages of both IL and RL by integrating them into a unified learning framework. Experimental results and user studies suggest our approach can achieve higher efficiency and safety compared to other methods. Analyses of the policies demonstrate our high-level policy appropriately switches between different low-level policies in near-accident driving situations.
翻訳日:2022-11-14 21:51:12 公開日:2020-07-01
# PrototypeML: ニューラルネットワークの統合設計と開発環境

PrototypeML: A Neural Network Integrated Design and Development Environment ( http://arxiv.org/abs/2007.01097v1 )

ライセンス: Link先を確認
Daniel Reiss Harris(参考訳) ニューラルネットワークアーキテクチャは、概念的に設計され、視覚的に記述されることが多いが、エラーやすいコードを書くことで実装される。 PrototypeMLは、設計と開発プロセス間の二分法をブリッジする機械学習開発環境である。PyTorchディープラーニングフレームワークの全機能をサポートする(抽象的な)非常に直感的なビジュアルニューラルネットワーク設計インターフェースを提供し、モデル設計と開発時間を短縮し、デバッグを容易にし、多くのフレームワークとコードの記述を自動化する。 本稿では,PrototypeMLの実装を推進したディープラーニング開発欠陥について詳述し,ネットワーク表現性やコード品質の低下を抑えることなく,これらの問題を解決するためのハイブリッドアプローチを提案する。 我々は、研究、産業、教育のためのニューラルネットワーク設計に対する視覚的アプローチの現実世界の利点を実証する。 https://PrototypeML.comで入手できる。

Neural network architectures are most often conceptually designed and described in visual terms, but are implemented by writing error-prone code. PrototypeML is a machine learning development environment that bridges the dichotomy between the design and development processes: it provides a highly intuitive visual neural network design interface that supports (yet abstracts) the full capabilities of the PyTorch deep learning framework, reduces model design and development time, makes debugging easier, and automates many framework and code writing idiosyncrasies. In this paper, we detail the deep learning development deficiencies that drove the implementation of PrototypeML, and propose a hybrid approach to resolve these issues without limiting network expressiveness or reducing code quality. We demonstrate the real-world benefits of a visual approach to neural network design for research, industry and teaching. Available at https://PrototypeML.com
翻訳日:2022-11-14 21:41:57 公開日:2020-07-01
# グループ同変深層強化学習

Group Equivariant Deep Reinforcement Learning ( http://arxiv.org/abs/2007.03437v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Pratheeksha Nair, Kaleem Siddiqi(参考訳) 強化学習(rl)において、畳み込みニューラルネットワーク(cnns)は、様々な環境でアクション値関数とポリシーを学習しようとするディープq学習アルゴリズムにおいて、関数近似としてうまく適用されている。 しかし、これまでは入力環境状態の対称性変換同変表現の学習についてはほとんど研究されていない。 本稿では,RLエージェントの学習に同変CNNを用い,その帰納バイアスを変換同変Q値近似に用いることを提案する。 我々は,RLエージェントの性能と試料効率を,パラメータの少ない高対称性環境下で劇的に向上させることができることを示した。 さらに,アフィン変換による環境変化に対して頑健であることを示す。

In Reinforcement Learning (RL), Convolutional Neural Networks(CNNs) have been successfully applied as function approximators in Deep Q-Learning algorithms, which seek to learn action-value functions and policies in various environments. However, to date, there has been little work on the learning of symmetry-transformation equivariant representations of the input environment state. In this paper, we propose the use of Equivariant CNNs to train RL agents and study their inductive bias for transformation equivariant Q-value approximation. We demonstrate that equivariant architectures can dramatically enhance the performance and sample efficiency of RL agents in a highly symmetric environment while requiring fewer parameters. Additionally, we show that they are robust to changes in the environment caused by affine transformations.
翻訳日:2022-11-14 21:41:41 公開日:2020-07-01