このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210509となっている論文です。

PDF登録状況(公開日: 20210509)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチソース知識の伝達による教師なし感性分析

Unsupervised Sentiment Analysis by Transferring Multi-source Knowledge ( http://arxiv.org/abs/2105.11902v1 )

ライセンス: Link先を確認
Yong Dai and Jian Liu and Jian Zhang and Hongguang Fu and Zenglin Xu(参考訳) 感情分析(SA)は認知計算における重要な研究領域であり、感情分析のパターンの詳細な研究が必要である。 現在、豊富なリソースデータベースのSAがよく開発されており、より困難で実用的なマルチソースの非管理SA(すなわち、SA)が開発されている。 複数のソースドメインから転送されるターゲットドメインsaは、ほとんど研究されない。 この問題の背景にある課題は、主に監視情報の欠如、ドメイン間の意味的ギャップ(ドメインシフト)、知識の喪失である。 しかし、既存の手法はドメイン間のセマンティックギャップの識別能力に欠けるか、プライベートな知識を失うかのいずれかである。 これらの問題を解決するために,二段階適応フレームワークを提案する。 第1段階では、マルチタスク方法論に基づく共有プライベートアーキテクチャを使用して、ラベル付きソースドメインのドメイン共通機能とドメイン固有機能を明確にモデル化する。 第2段階では、複数のソースドメインから知識を転送するために、共有プライベートアーキテクチャに2つの精巧なメカニズムが組み込まれている。 第1のメカニズムは選択的ドメイン適応(SDA)法であり、最も近いソースドメインから知識を伝達する。 第2のメカニズムはターゲット指向アンサンブル(toe)メソッドで、よく設計されたアンサンブルメソッドを通じて知識を転送する。 大規模な実験評価により,提案フレームワークの性能は,教師なしの最先端の競争相手よりも優れていたことが確認された。 実験から結論付けることができるのは、非常に異なる分散ソースドメインからの転送はターゲットドメインのパフォーマンスを低下させ、転送する適切なソースドメインを選択することが不可欠であるということだ。

Sentiment analysis (SA) is an important research area in cognitive computation-thus in-depth studies of patterns of sentiment analysis are necessary. At present, rich resource data-based SA has been well developed, while the more challenging and practical multi-source unsupervised SA (i.e. a target domain SA by transferring from multiple source domains) is seldom studied. The challenges behind this problem mainly locate in the lack of supervision information, the semantic gaps among domains (i.e., domain shifts), and the loss of knowledge. However, existing methods either lack the distinguishable capacity of the semantic gaps among domains or lose private knowledge. To alleviate these problems, we propose a two-stage domain adaptation framework. In the first stage, a multi-task methodology-based shared-private architecture is employed to explicitly model the domain common features and the domain-specific features for the labeled source domains. In the second stage, two elaborate mechanisms are embedded in the shared private architecture to transfer knowledge from multiple source domains. The first mechanism is a selective domain adaptation (SDA) method, which transfers knowledge from the closest source domain. And the second mechanism is a target-oriented ensemble (TOE) method, in which knowledge is transferred through a well-designed ensemble method. Extensive experiment evaluations verify that the performance of the proposed framework outperforms unsupervised state-of-the-art competitors. What can be concluded from the experiments is that transferring from very different distributed source domains may degrade the target-domain performance, and it is crucial to choose the proper source domains to transfer from.
翻訳日:2021-06-06 08:49:54 公開日:2021-05-09
# 類似性に基づくベイズ・ミックス・オブ・エキスパートズモデル

A similarity-based Bayesian mixture-of-experts model ( http://arxiv.org/abs/2012.02130v2 )

ライセンス: Link先を確認
Tianfang Zhang and Rasmus Bokrantz and Jimmy Olsson(参考訳) 確率的$k$-nearest 隣り合うアルゴリズムに着想を得た,多変量回帰問題に対する新しい非パラメトリック混合実験モデルを提案する。 条件付き指定モデルを用いて、サンプル外入力の予測は各観測データ点との類似性に基づいて、ガウス混合で表される予測分布を生成する。 確率的勾配に基づく最適化手順を伴う平均場変動ベイズアルゴリズムを用いて、混合成分のパラメータと距離メトリックについて後方推定を行う。 提案手法は,入力がデータサイズに比べて比較的高次元である場合,入力-出力関係が複雑である場合,予測分布が歪んだ場合,あるいはマルチモーダルの場合,特に有利である。 放射線治療計画の線量統計を含む2つの合成データセットと1つのデータセットに関する計算的研究から,本手法は条件付きディリクレプロセス混合モデルよりも,検証基準と視覚検査の両方において,同等かそれ以上の性能を発揮することが示された。

We present a new nonparametric mixture-of-experts model for multivariate regression problems, inspired by the probabilistic $k$-nearest neighbors algorithm. Using a conditionally specified model, predictions for out-of-sample inputs are based on similarities to each observed data point, yielding predictive distributions represented by Gaussian mixtures. Posterior inference is performed on the parameters of the mixture components as well as the distance metric using a mean-field variational Bayes algorithm accompanied with a stochastic gradient-based optimization procedure. The proposed method is especially advantageous in settings where inputs are of relatively high dimension in comparison to the data size, where input--output relationships are complex, and where predictive distributions may be skewed or multimodal. Computational studies on two synthetic datasets and one dataset comprising dose statistics of radiation therapy treatment plans show that our mixture-of-experts method performs similarly or better than a conditional Dirichlet process mixture model both in terms of validation metrics and visual inspection.
翻訳日:2021-05-23 15:03:29 公開日:2021-05-09
# ブートストラップ学習によるモデルなしニューラルカウンターファクトレグレスト最小化

Model-free Neural Counterfactual Regret Minimization with Bootstrap Learning ( http://arxiv.org/abs/2012.01870v2 )

ライセンス: Link先を確認
Weiming Liu, Bin Li, Julian Togelius(参考訳) 大規模不完全情報ゲーム(IIG)の解法として,CFR(Counterfactual Regret Minimization)が注目されている。 ニューラルCFRは、類似状態間の決定情報を一般化することにより、計算とメモリ消費を効果的に削減できる有望な手法の1つである。 しかし、現在のニューラルcfrアルゴリズムは、ニューラルネットワークによる累積後悔を近似する必要がある。 これは通常、異なる反復からの後悔は非常に異なる可能性があるため、高分散近似をもたらす。 この問題は、モデルフリーなアルゴリズムに必要となる重要サンプリングを使用する場合、さらに悪化する可能性がある。 本稿では,反復間で再帰的に定義され,独立に計算される再帰的代用値(rsvs)によって累積的後悔を回収する新しいcfr変種である再帰的cfrを提案する。 新しい再帰的CFRはナッシュ平衡に収束することが証明されている。 Recursive CFRに基づいて、ブートストラップ学習を用いたモデルなしニューラルCFRアルゴリズムを提案する。 実験の結果、新しいアルゴリズムは最先端のニューラルネットワークcfrアルゴリズムにマッチするが、トレーニングオーバーヘッドは少ないことがわかった。

Counterfactual Regret Minimization (CFR) has achieved many fascinating results in solving large-scale Imperfect Information Games (IIGs). Neural CFR is one of the promising techniques that can effectively reduce computation and memory consumption by generalizing decision information between similar states. However, current neural CFR algorithms have to approximate the cumulative regrets with neural networks. This usually results in high-variance approximation because regrets from different iterations could be very different. The problem can be even worse when importance sampling is used, which is required for model-free algorithms. In this paper, a new CFR variant, Recursive CFR, is proposed, in which the cumulative regrets are recovered by Recursive Substitute Values (RSVs) that are recursively defined and independently calculated between iterations. It is proved the new Recursive CFR converges to a Nash equilibrium. Based on Recursive CFR, a new model-free neural CFR algorithm with bootstrap learning is proposed. Experimental results show that the new algorithm can match the state-of-the-art neural CFR algorithms but with less training overhead.
翻訳日:2021-05-23 14:41:51 公開日:2021-05-09
# 高度不均衡データを用いた鉛直軌道不規則性予測法

Learn to Predict Vertical Track Irregularity with Extremely Imbalanced Data ( http://arxiv.org/abs/2012.03062v2 )

ライセンス: Link先を確認
Yutao Chen, Yu Zhang, Fei Yang(参考訳) 鉄道システムは定期的な手動のメンテナンスを必要としており、その大部分は線路の変形を検査するためのものである。 このような変形は列車のランタイムのセキュリティに深刻な影響を及ぼす可能性があるが、こうした検査は財政と人的資源の両方に費用がかかる。 したがって、鉄道線路の変形を検出するためのより正確かつ効率的なアプローチが急務である。 本稿では,中国の複数の鉄道事業者が運用する実世界の大規模データセットに基づいて,垂直軌道の不規則性を予測するためのアプリケーションフレームワークを提案する。 各種機械学習およびアンサンブル学習アルゴリズムについて,不規則性を捕捉するモデルの能力を最大化するために,広範な実験を行った。 また,適応的なデータサンプリングとペナルティ付き損失を伴う多変量時系列予測タスクにおいて,不均衡データを扱う新しい手法を提案する。 このようなアプローチは、不均衡なターゲット領域に対するモデルの感度を低下させることが証明され、希少な極端な値を予測する際の性能が向上した。

Railway systems require regular manual maintenance, a large part of which is dedicated to inspecting track deformation. Such deformation might severely impact trains' runtime security, whereas such inspections remain costly for both finance and human resources. Therefore, a more precise and efficient approach to detect railway track deformation is in urgent need. In this paper, we showcase an application framework for predicting vertical track irregularity, based on a real-world, large-scale dataset produced by several operating railways in China. We have conducted extensive experiments on various machine learning & ensemble learning algorithms in an effort to maximize the model's capability in capturing any irregularity. We also proposed a novel approach for handling imbalanced data in multivariate time series prediction tasks with adaptive data sampling and penalized loss. Such an approach has proven to reduce models' sensitivity to the imbalanced target domain, thus improving its performance in predicting rare extreme values.
翻訳日:2021-05-22 12:03:34 公開日:2021-05-09
# 商業規模地質炭素貯蔵のための深層学習加速データ同化予測ワークフロー

A Deep Learning-Accelerated Data Assimilation and Forecasting Workflow for Commercial-Scale Geologic Carbon Storage ( http://arxiv.org/abs/2105.09468v1 )

ライセンス: Link先を確認
Hewei Tang, Pengcheng Fu, Christopher S. Sherman, Jize Zhang, Xin Ju, Fran\c{c}ois Hamon, Nicholas A. Azzolina, Matthew Burton-Kelly, and Joseph P. Morris(参考訳) 地質学的不確実性下での圧力上昇と二酸化炭素(co2)排出の予測を更新するためのモニタリングデータの迅速な同化は、地質炭素貯蔵における困難な問題である。 高次元パラメータ空間とデータ同化の計算コストは、商業規模の貯水池管理における高速な意思決定を妨げる。 本稿では,多孔質中流挙動の物理的理解を深層学習手法を用いて活用し,高速履歴マッチング・保存応答予測ワークフローを開発することを提案する。 Ensemble Smoother Multiple Data Assimilationフレームワークを用いることで、地質特性を更新し、圧力履歴からの定量的不確かさと地震インバージョンを通して解釈されたCO2配管による貯水池性能を予測する。 このようなワークフローで最も計算コストの高いコンポーネントは貯留層シミュレーションであり,マルチウェルインジェクション下での動的圧力とco2プルーム範囲を予測するためのサロゲートモデルを開発した。 サーロゲートモデルは深い畳み込みニューラルネットワーク、特に広い残差ネットワークと残差u-netを使用している。 このワークフローは砕氷棚堆積環境を代表する平坦な3次元貯留層モデルに対して検証される。 真の3次元貯水池モデルと単層貯水池モデルとの橋渡しにインテリジェントな処理を適用した。 ワークフローは、メインのパーソナルワークステーション上で、1時間以内に不確実性定量化を伴う履歴マッチングと貯水池予測を完了することができる。

Fast assimilation of monitoring data to update forecasts of pressure buildup and carbon dioxide (CO2) plume migration under geologic uncertainties is a challenging problem in geologic carbon storage. The high computational cost of data assimilation with a high-dimensional parameter space impedes fast decision-making for commercial-scale reservoir management. We propose to leverage physical understandings of porous medium flow behavior with deep learning techniques to develop a fast history matching-reservoir response forecasting workflow. Applying an Ensemble Smoother Multiple Data Assimilation framework, the workflow updates geologic properties and predicts reservoir performance with quantified uncertainty from pressure history and CO2 plumes interpreted through seismic inversion. As the most computationally expensive component in such a workflow is reservoir simulation, we developed surrogate models to predict dynamic pressure and CO2 plume extents under multi-well injection. The surrogate models employ deep convolutional neural networks, specifically, a wide residual network and a residual U-Net. The workflow is validated against a flat three-dimensional reservoir model representative of a clastic shelf depositional environment. Intelligent treatments are applied to bridge between quantities in a true-3D reservoir model and those in a single-layer reservoir model. The workflow can complete history matching and reservoir forecasting with uncertainty quantification in less than one hour on a mainstream personal workstation.
翻訳日:2021-05-21 19:18:12 公開日:2021-05-09
# 時系列予測のためのRNNモデルに対する正規化の効果:Covid-19を例として

The effects of regularisation on RNN models for time series forecasting: Covid-19 as an example ( http://arxiv.org/abs/2105.05932v1 )

ライセンス: Link先を確認
Marcus Carpenter, Chunbo Luo, Xiao-Si Wang(参考訳) 新型コロナウイルスのパンデミックの進行を予測するモデルを提案する多くの研究論文は、手作りの統計モデルまたは大きなニューラルネットワークを使用している。 大きなニューラルネットワークは単純な統計モデルよりも強力ですが、特に小さなデータセットでトレーニングするのは困難です。 本稿では,提案するニューラルネットワークよりもフレキシブルなモデルを示すだけでなく,より小さなデータセットに対して有効であるモデルを提案する。 小型データの性能向上のため,6つの正則化法が試験された。 その結果、GRUと20%のDropoutを組み合わせた結果、最低のRMSEスコアが得られた。 主な発見は、データへのアクセスが少ないモデルは正規化に頼っていることだ。 わずか28日間のデータでトレーニングされたGRUモデルにDropoutを適用することで、RMSEは23%削減された。

Many research papers that propose models to predict the course of the COVID-19 pandemic either use handcrafted statistical models or large neural networks. Even though large neural networks are more powerful than simpler statistical models, they are especially hard to train on small datasets. This paper not only presents a model with grater flexibility than the other proposed neural networks, but also presents a model that is effective on smaller datasets. To improve performance on small data, six regularisation methods were tested. The results show that the GRU combined with 20% Dropout achieved the lowest RMSE scores. The main finding was that models with less access to data relied more on the regulariser. Applying Dropout to a GRU model trained on only 28 days of data reduced the RMSE by 23%.
翻訳日:2021-05-14 14:09:18 公開日:2021-05-09
# (参考訳) 最先端自動音声認識システムにおける英語アクセントの精度解析 [全文訳有]

English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech Recognition System ( http://arxiv.org/abs/2105.05041v1 )

ライセンス: CC BY 4.0
Guillermo C\'ambara, Alex Peir\'o-Lilja, Mireia Farr\'us, Jordi Luque(参考訳) 最近は、何千もの録音時間を含むパブリックドメインコーパスによって、音声技術の研究が盛んに行われている。 これらの大量のデータは、ディープラーニング技術に基づく新しい複雑なモデルのトレーニングに非常に役立ちます。 しかし、コーパスにおける方言の多様性の欠如は、主に表現不足の方言に対して、音声システムのパフォーマンスバイアスを引き起こすことが知られている。 本研究では,世界中の異なる国からの多様なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識(asr)深層学習モデルを評価することを提案する。 このモデルは、Multilingual LibriSpeechと呼ばれるオープンアクセスコーパスから44.5Kの英語音声で訓練されており、人気のあるベンチマークで顕著な結果を示している。 このようなASRの精度を、連続的に成長している他の公共コーパスから抽出したサンプルであるCommon Voiceデータセットと比較する。 そして,それぞれの英語を含むアクセントの単語誤り率について,その正確さを図式的に示すとともに,アクセントの多様さに関して,精度の偏りがあることを示し,トレーニングコーパスで最も多いアクセントを好んだ。

Nowadays, research in speech technologies has gotten a lot out thanks to recently created public domain corpora that contain thousands of recording hours. These large amounts of data are very helpful for training the new complex models based on deep learning technologies. However, the lack of dialectal diversity in a corpus is known to cause performance biases in speech systems, mainly for underrepresented dialects. In this work, we propose to evaluate a state-of-the-art automatic speech recognition (ASR) deep learning-based model, using unseen data from a corpus with a wide variety of labeled English accents from different countries around the world. The model has been trained with 44.5K hours of English speech from an open access corpus called Multilingual LibriSpeech, showing remarkable results in popular benchmarks. We test the accuracy of such ASR against samples extracted from another public corpus that is continuously growing, the Common Voice dataset. Then, we present graphically the accuracy in terms of Word Error Rate of each of the different English included accents, showing that there is indeed an accuracy bias in terms of accentual variety, favoring the accents most prevalent in the training corpus.
翻訳日:2021-05-13 09:17:31 公開日:2021-05-09
# 機械学習(ML)によるクラウドコンピューティングのリソース管理 - 展望と今後の方向性

Machine Learning (ML)-Centric Resource Management in Cloud Computing: A Review and Future Directions ( http://arxiv.org/abs/2105.05079v1 )

ライセンス: Link先を確認
Tahseen Khan, Wenhong Tian, Rajkumar Buyya(参考訳) クラウドコンピューティングはインターネットベースのユーティリティコンピューティングサービスを提供するモデルとして急速に現れてきた。 クラウドコンピューティングでは、IaaS(Infrastructure as a Service)が最も重要で急速に成長している分野の1つです。 クラウドプロバイダはこのサービスモデルで、仮想マシン、生(ブロック)ストレージ、ファイアウォール、ロードバランサ、ネットワークデバイスなどのユーザ/マシンリソースを提供する。 IaaSにおけるクラウドコンピューティングの最も重要な側面の1つは、リソース管理である。 スケーラビリティ、サービス品質、最適ユーティリティ、オーバーヘッドの削減、スループットの向上、レイテンシの削減、特殊化環境、コスト効率、および合理化インターフェースは、クラウドコンピューティングにおけるIaaSのリソース管理の利点の1つである。 伝統的に、リソース管理は静的ポリシを通じて行われており、さまざまな動的シナリオに一定の制限が課され、クラウドサービスプロバイダがデータ駆動の機械学習ベースのアプローチを採用するように促されている。 機械学習は、ワークロード推定、タスクスケジューリング、VMの統合、リソース最適化、エネルギー最適化など、さまざまなリソース管理タスクを処理するために使用されている。 本稿では,最近の研究におけるmlベースのリソース管理の課題と,これらの課題を解決する現在のアプローチ,そのメリットと限界について,詳細なレビューを行う。 最後に,現在の研究における課題と限界に基づいた今後の研究方向性を提案する。

Cloud computing has rapidly emerged as model for delivering Internet-based utility computing services. In cloud computing, Infrastructure as a Service (IaaS) is one of the most important and rapidly growing fields. Cloud providers provide users/machines resources such as virtual machines, raw (block) storage, firewalls, load balancers, and network devices in this service model. One of the most important aspects of cloud computing for IaaS is resource management. Scalability, quality of service, optimum utility, reduced overheads, increased throughput, reduced latency, specialised environment, cost effectiveness, and a streamlined interface are some of the advantages of resource management for IaaS in cloud computing. Traditionally, resource management has been done through static policies, which impose certain limitations in various dynamic scenarios, prompting cloud service providers to adopt data-driven, machine-learning-bas ed approaches. Machine learning is being used to handle a variety of resource management tasks, including workload estimation, task scheduling, VM consolidation, resource optimization, and energy optimization, among others. This paper provides a detailed review of challenges in ML-based resource management in current research, as well as current approaches to resolve these challenges, as well as their advantages and limitations. Finally, we propose potential future research directions based on identified challenges and limitations in current research.
翻訳日:2021-05-12 13:45:30 公開日:2021-05-09
# (参考訳) スラッシュまたはバーン:森林火災防止のための電力線および植生分類 [全文訳有]

Slash or burn: Power line and vegetation classification for wildfire prevention ( http://arxiv.org/abs/2105.03804v1 )

ライセンス: CC BY 4.0
Austin Park, Farzaneh Rajabi, Ross Weber(参考訳) 電力事業者は、暑く乾燥した気候で山火事のリスクを増大させるのに苦労している。 送電線や配電線は、周囲の植生と接触する際に定期的に破壊的な火災を発生させる。 有用資産からの分離を維持するために植生を刈り取ることは、安全性にとって困難であると同時に重要である。 それぞれのユーティリティには数万マイルの線形走行距離があり、それらの資産の所在に関する知識が乏しく、トリミングを優先する方法がない。 特徴強化畳み込みニューラルネットワーク(cnns)はこの問題空間において有効であることが証明されている。 配向勾配(HOG)とハフ変換のヒストグラムは、電力線や極のような線形構造のサリエンスを高めるために用いられる。 データは頻繁にドローンや衛星映像から撮影されるが、Googleストリートビューはよりスケーラブルで低コストなソリューションを提供する。 本論文は,1,320ドルの画像をストリートビューから抽出し,人気のあるCNN上での移動学習と特徴工学を用いて,(1)ユーティリティシステムなし,(2)過剰植生のないユーティリティシステム,(3)過剰植生を有するユーティリティシステムのうちの1つにイメージを配置する。 したがって、cnn出力は優先順位付けされた植生管理システムを生成し、副産物としてユーティリティ資産のジオタグマップを作成する。 トレーニングされた第1層と分類器を備えたvgg11を使用して、テストセットの精度を80.15\%$に設定し、リスクの高い植生の過剰な画像の8.88\%を正しく分類した。

Electric utilities are struggling to manage increasing wildfire risk in a hotter and drier climate. Utility transmission and distribution lines regularly ignite destructive fires when they make contact with surrounding vegetation. Trimming vegetation to maintain the separation from utility assets is as critical to safety as it is difficult. Each utility has tens of thousands of linear miles to manage, poor knowledge of where those assets are located, and no way to prioritize trimming. Feature-enhanced convolutional neural networks (CNNs) have proven effective in this problem space. Histograms of oriented gradients (HOG) and Hough transforms are used to increase the salience of the linear structures like power lines and poles. Data is frequently taken from drone or satellite footage, but Google Street View offers an even more scalable and lower cost solution. This paper uses $1,320$ images scraped from Street View, transfer learning on popular CNNs, and feature engineering to place images in one of three classes: (1) no utility systems, (2) utility systems with no overgrown vegetation, or (3) utility systems with overgrown vegetation. The CNN output thus yields a prioritized vegetation management system and creates a geotagged map of utility assets as a byproduct. Test set accuracy with reached $80.15\%$ using VGG11 with a trained first layer and classifier, and a model ensemble correctly classified $88.88\%$ of images with risky vegetation overgrowth.
翻訳日:2021-05-12 10:13:09 公開日:2021-05-09
# (参考訳) 事前知識を用いた3次元ポーズ推定 [全文訳有]

Estimation of 3D Human Pose Using Prior Knowledge ( http://arxiv.org/abs/2105.03807v1 )

ライセンス: CC BY 4.0
Shu Chen, Lei Zhang and Beiji Zou(参考訳) Estimating three-dimensional human poses from the positions of two-dimensional joints has shown promising results.However, using two-dimensional joint coordinates as input loses more information than image-based approaches and results in ambiguity.In order to overcome this problem, we combine bone length and camera parameters with two-dimensional joint coordinates for input.This combination is more discriminative than the two-dimensional joint coordinates in that it can improve the accuracy of the model's prediction depth and alleviate the ambiguity that comes from projecting three-dimensional coordinates into two-dimensional space. さらに,本論文では,基礎的真理と提案モデルの出力との差をよりよく測定できる方向制約を導入する。 h36m実験の結果, 従来の3次元姿勢推定法よりも良好な結果が得られた。

Estimating three-dimensional human poses from the positions of two-dimensional joints has shown promising results.However, using two-dimensional joint coordinates as input loses more information than image-based approaches and results in ambiguity.In order to overcome this problem, we combine bone length and camera parameters with two-dimensional joint coordinates for input.This combination is more discriminative than the two-dimensional joint coordinates in that it can improve the accuracy of the model's prediction depth and alleviate the ambiguity that comes from projecting three-dimensional coordinates into two-dimensional space. Furthermore, we introduce direction constraints which can better measure the difference between the ground truth and the output of the proposed model. The experimental results on the H36M show that the method performed better than other state-of-the-art three-dimensional human pose estimation approaches.
翻訳日:2021-05-12 10:02:32 公開日:2021-05-09
# (参考訳) ネットワーク干渉による因果推論の局所的アプローチ

The Local Approach to Causal Inference under Network Interference ( http://arxiv.org/abs/2105.03810v1 )

ライセンス: CC BY 4.0
Eric Auerbach and Max Tabord-Meehan(参考訳) 因果推論のための新しい統一フレームワークを提案する。結果がエージェントが社会や経済ネットワークでどのようにリンクされているかに依存する場合である。 このようなネットワーク干渉は、治療の流出、社会的相互作用、社会学習、情報拡散、社会資本形成などに関する多くの文献を記述している。 提案手法では, エージェントがネットワーク内でどのようにリンクされているかを, 経路距離で測定した他のエージェントと近傍の接続の設定を用いて特徴付ける。 ポリシーや治療課題の影響は、同様に構成されたエージェント間で結果データをプールすることで学習される。 本稿では,新しい非パラメトリックモデリング手法を提案し,因果推論の2つの応用について検討する。 最初のアプリケーションは、治療効果の無関係/無影響のポリシーをテストすることである。 第2のアプリケーションは、政策効果/処理応答の推定である。 シミュレーションによる推定と推論手順の有限サンプル特性の評価により結論づける。

We propose a new unified framework for causal inference when outcomes depend on how agents are linked in a social or economic network. Such network interference describes a large literature on treatment spillovers, social interactions, social learning, information diffusion, social capital formation, and more. Our approach works by first characterizing how an agent is linked in the network using the configuration of other agents and connections nearby as measured by path distance. The impact of a policy or treatment assignment is then learned by pooling outcome data across similarly configured agents. In the paper, we propose a new nonparametric modeling approach and consider two applications to causal inference. The first application is to testing policy irrelevance/no treatment effects. The second application is to estimating policy effects/treatment response. We conclude by evaluating the finite-sample properties of our estimation and inference procedures via simulation.
翻訳日:2021-05-12 09:57:05 公開日:2021-05-09
# (参考訳) グラフニューラルネットワークとオンライン学習によるクリックスルー率予測 [全文訳有]

Click-Through Rate Prediction Using Graph Neural Networks and Online Learning ( http://arxiv.org/abs/2105.03811v1 )

ライセンス: CC BY 4.0
Farzaneh Rajabi, Jack Siyuan He(参考訳) レコメンデーションシステムは過去に多くの文献で広く研究され、オンライン広告、ショッピング業界/eコマース、検索エンジンでのクエリ提案、ソーシャルネットワークでのフレンドレコメンデーションなどに広く使われている。 さらに、レストラン/音楽/製品/ムージー/アプリレコメンデーションは、レコメンデーションシステムの応用のごく一部にすぎない。 CTR予測精度の小さな改善は、広告業界に何百万ドルもの収益をもたらすと言及されている。 CTR(Click-Through-Ra te)予測(Click-Through-Rate) は、ユーザーが推奨アイテムをクリックするかどうかを予測するレコメンデーションシステムの特別なバージョンである。 コンテンツベースのレコメンデーションアプローチは、ユーザの行動の過去の履歴、すなわちその動作を考慮に入れる。 推奨製品とユーザに反応する。 したがって、適切なアイテムを適切なタイミングで適切なユーザに推奨するパーソナライズされたモデルが、そのようなモデルを構築するための鍵となります。 一方、コラボレーティブフィルタリング手法は、特定のユーザと非常によく似たユーザのクリック履歴を取り入れており、ユーザのネットワークで自分の好みを共有するユーザのより広い知識を活用することで、推奨者が特定のユーザに対してより自信を持って予測するのに役立つ。 本稿では,このような動的相互作用をモデル化するオンライン学習アルゴリズムを補完するグラフニューラルネットワークを用いたCTR予測器の構築に関心がある。 この問題をバイナリ分類タスクとして評価することにより,テストAUCが0.7417のオフラインモデル(GNN,Deep Factorization Machines)と,テストAUCが0.7585のオンライン学習モデルの両方で,10,000のデータポイントからなるCriteo公開データセットのサブサンプルバージョンを用いて評価を行った。

Recommendation systems have been extensively studied by many literature in the past and are ubiquitous in online advertisement, shopping industry/e-commerce, query suggestions in search engines, and friend recommendation in social networks. Moreover, restaurant/music/pro duct/movie/news/app recommendations are only a few of the applications of a recommender system. A small percent improvement on the CTR prediction accuracy has been mentioned to add millions of dollars of revenue to the advertisement industry. Click-Through-Rate (CTR) prediction is a special version of recommender system in which the goal is predicting whether or not a user is going to click on a recommended item. A content-based recommendation approach takes into account the past history of the user's behavior, i.e. the recommended products and the users reaction to them. So, a personalized model that recommends the right item to the right user at the right time is the key to building such a model. On the other hand, the so-called collaborative filtering approach incorporates the click history of the users who are very similar to a particular user, thereby helping the recommender to come up with a more confident prediction for that particular user by leveraging the wider knowledge of users who share their taste in a connected network of users. In this project, we are interested in building a CTR predictor using Graph Neural Networks complemented by an online learning algorithm that models such dynamic interactions. By framing the problem as a binary classification task, we have evaluated this system both on the offline models (GNN, Deep Factorization Machines) with test-AUC of 0.7417 and on the online learning model with test-AUC of 0.7585 using a sub-sampled version of Criteo public dataset consisting of 10,000 data points.
翻訳日:2021-05-12 09:56:10 公開日:2021-05-09
# (参考訳) 交通異常検出のためのグッドプラクティスと強力なベースライン [全文訳有]

Good Practices and A Strong Baseline for Traffic Anomaly Detection ( http://arxiv.org/abs/2105.03827v1 )

ライセンス: CC BY 4.0
Yuxiang Zhao, Wenhao Wu, Yue He, Yingying Li, Xiao Tan, Shifeng Chen(参考訳) 交通異常の検出は、インテリジェントシティ交通管理システムの重要な構成要素である。 従来,様々な重要な知見が提案されてきたが,複雑な交通環境への対処は依然として課題である。 さらに、高品質なデータの欠如と交通シーンの複雑さは、この問題を手作りの観点から研究する動機となっている。 本稿では,前処理,動的トラックモジュール,後処理を含む,単純で効率的なフレームワークを提案する。 ビデオの安定化、背景モデリング、車両検出により、プロプロセスフェーズは候補異常の生成を目指している。 動的トラッキングモジュールは、車両の動作パターンと時空間状態を利用して異常の開始時刻を求め、特定する。 最後に、後処理を用いて異常の時間境界を微調整する。 予想されていたフレームワークは、nvidia ai city 2021 leaderboard for traffic anomaly detectionで1,^{st}$でランク付けされました。 https://github.com/e ndeavour10020/aicity 2021-anomaly-detecti on。

The detection of traffic anomalies is a critical component of the intelligent city transportation management system. Previous works have proposed a variety of notable insights and taken a step forward in this field, however, dealing with the complex traffic environment remains a challenge. Moreover, the lack of high-quality data and the complexity of the traffic scene, motivate us to study this problem from a hand-crafted perspective. In this paper, we propose a straightforward and efficient framework that includes pre-processing, a dynamic track module, and post-processing. With video stabilization, background modeling, and vehicle detection, the pro-processing phase aims to generate candidate anomalies. The dynamic tracking module seeks and locates the start time of anomalies by utilizing vehicle motion patterns and spatiotemporal status. Finally, we use post-processing to fine-tune the temporal boundary of anomalies. Not surprisingly, our proposed framework was ranked $1^{st}$ in the NVIDIA AI CITY 2021 leaderboard for traffic anomaly detection. The code is available at: https://github.com/E ndeavour10020/AICity 2021-Anomaly-Detecti on .
翻訳日:2021-05-12 09:45:02 公開日:2021-05-09
# (参考訳) モデルRBの超解法 [全文訳有]

Super Solutions of the Model RB ( http://arxiv.org/abs/2105.03831v1 )

ライセンス: CC BY 4.0
Guangyan Zhou, Wei Xu(参考訳) 超解の概念は、ある種の強靭性と安定性を持つ特殊タイプの一般化解である。 本稿では,モデル rb の $(1,1)$-super 解を考える。 第1モーメント法を用いて、制約密度がこの値を超えたとき、期待される$(1,1)$-super 解の数が 0$ から infinity になるような「threshold 」を確立した。

The concept of super solution is a special type of generalized solutions with certain degree of robustness and stability. In this paper we consider the $(1,1)$-super solutions of the model RB. Using the first moment method, we establish a "threshold" such that as the constraint density crosses this value, the expected number of $(1,1)$-super solutions goes from $0$ to infinity.
翻訳日:2021-05-12 09:34:53 公開日:2021-05-09
# (参考訳) プラム検出とロボット収穫のためのディープラーニングアーキテクチャのデータセットと性能比較 [全文訳有]

Dataset and Performance Comparison of Deep Learning Architectures for Plum Detection and Robotic Harvesting ( http://arxiv.org/abs/2105.03832v1 )

ライセンス: CC BY 4.0
Jasper Brown, Salah Sukkarieh(参考訳) 雑草や植物計数などの農業における多くの自動化された操作は、堅牢で正確な物体検出器を必要とする。 ロボットによる果樹収穫は、その1つであり、樹木栽培者による労働不足と不確実性に対処するための重要な技術である。 アイ・イン・ハンド・センシング・セットアップは、収穫システムで一般的に使われ、精度と柔軟性を感知する利点を提供する。 しかし、手とカメラがトレリス全体を見ることから特定の果実を摘むことに移行すると、照明、色、ぼけ、露出が大きく変化する。 収穫に使用されるオブジェクト検出アルゴリズムはこれらの課題に対して堅牢であるべきですが、現在それを評価するデータセットはほとんどありません。 本研究では,実際のロボット梅収穫システムの昼夜動作中に2つの新しいデータセットを収集する。 これらに対して、現在の世代のディープラーニングオブジェクト検出器をベンチマークする。 さらに,検出性能に影響を及ぼすため,深度と画像情報を融合する2つの方法が試験された。 異なる検出器の昼夜の精度に重要な違いが見出され、転送学習はすべてのケースにおいて必須であり、深度情報融合はわずかに有効であると評価される。 データセットとベンチマークモデルはオンラインで利用可能である。

Many automated operations in agriculture, such as weeding and plant counting, require robust and accurate object detectors. Robotic fruit harvesting is one of these, and is an important technology to address the increasing labour shortages and uncertainty suffered by tree crop growers. An eye-in-hand sensing setup is commonly used in harvesting systems and provides benefits to sensing accuracy and flexibility. However, as the hand and camera move from viewing the entire trellis to picking a specific fruit, large changes in lighting, colour, obscuration and exposure occur. Object detection algorithms used in harvesting should be robust to these challenges, but few datasets for assessing this currently exist. In this work, two new datasets are gathered during day and night operation of an actual robotic plum harvesting system. A range of current generation deep learning object detectors are benchmarked against these. Additionally, two methods for fusing depth and image information are tested for their impact on detector performance. Significant differences between day and night accuracy of different detectors is found, transfer learning is identified as essential in all cases, and depth information fusion is assessed as only marginally effective. The dataset and benchmark models are made available online.
翻訳日:2021-05-12 09:25:48 公開日:2021-05-09
# (参考訳) マルチグリッド型ニューラルネットワークアーキテクチャによる流体力学の代理モデリング [全文訳有]

Surrogate Modeling of Fluid Dynamics with a Multigrid Inspired Neural Network Architecture ( http://arxiv.org/abs/2105.03854v1 )

ライセンス: CC BY-SA 4.0
Quang Tuyen Le, Chin Chun Ooi(参考訳) 代数的あるいは幾何学的マルチグリッド法は、複数のスケールで問題を扱うことができるマルチレゾリューション法であるため、数値解法で一般的に用いられる。 本稿では、U-Net-MGと呼ばれるマルチグリッド手法の原理に着想を得た、一般的なU-Netニューラルネットワークアーキテクチャの修正を提案する。この提案されたU-Net-MGアーキテクチャは、流体力学問題の集合をモデル化する際に、従来のU-Netアーキテクチャと比較してテスト予測誤差をうまく低減できることを示す。 以上より, 定常シリンダを過ぎる流れ, 相外運動で2シリンダを過ぎる流れ, 推進モードとエネルギー収穫モードの両方で振動翼を通過する流れの, 標準流体力学の速度と圧力場の推定精度が向上することを示す。 一般に、U-NetモデルとU-Net-MGモデルの両方が、テストRMSEを1%未満でうまくモデル化できるが、U-Net-MGアーキテクチャを使うことで、RMSEをさらに20%から70%削減することができる。

Algebraic or geometric multigrid methods are commonly used in numerical solvers as they are a multi-resolution method able to handle problems with multiple scales. In this work, we propose a modification to the commonly-used U-Net neural network architecture that is inspired by the principles of multigrid methods, referred to here as U-Net-MG. We then demonstrate that this proposed U-Net-MG architecture can successfully reduce the test prediction errors relative to the conventional U-Net architecture when modeling a set of fluid dynamic problems. In total, we demonstrate an improvement in the prediction of velocity and pressure fields for the canonical fluid dynamics cases of flow past a stationary cylinder, flow past 2 cylinders in out-of-phase motion, and flow past an oscillating airfoil in both the propulsion and energy harvesting modes. In general, while both the U-Net and U-Net-MG models can model the systems well with test RMSEs of less than 1%, the use of the U-Net-MG architecture can further reduce RMSEs by between 20% and 70%.
翻訳日:2021-05-12 09:15:45 公開日:2021-05-09
# (参考訳) gmote:gaussian based minor oversampling technique for unbalanced classification adapting tail probability of outliers [全文訳有]

GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers ( http://arxiv.org/abs/2105.03855v1 )

ライセンス: CC BY 4.0
Seung Jee Yang, Kyung Joon Cha(参考訳) 不均衡データの分類は、最近のデータマイニングにおける一般的な問題の1つである。 不均衡データは標準分類モデルの性能に大きく影響する。 データレベルのアプローチは、主に、合成的マイノリティオーバーサンプリング技術(smote:synthetic minor oversampling technique)など、問題を解決するためにオーバーサンプリング手法を使用する。 しかし、SMOTEのような手法は線形補間によってインスタンスを生成するため、合成データ空間は多角形に見える。 また、オーバーサンプリング手法はマイノリティクラスの外れ値を生成する。 本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。 線形補間を回避し,外れ値を考えるため,提案手法はガウス混合モデルを用いてインスタンスを生成する。 クラスタリングに基づく多変量gaussian outlier score (cmgos) に動機づけられ,マハラノビス距離を通じてインスタンスのテール確率を適応させ,局所アウトリアーを考える。 実験は、ベンチマークデータセットの代表セットで実施された。 GMOTEの性能はSMOTEなどの他の手法と比較される。 GMOTEを分類回帰木(CART)やサポートベクトルマシン(SVM)と組み合わせると、精度とF1スコアが向上する。 実験結果はロバストな性能を示す。

Classification of imbalanced data is one of the common problems in the recent field of data mining. Imbalanced data substantially affects the performance of standard classification models. Data-level approaches mainly use the oversampling methods to solve the problem, such as synthetic minority oversampling Technique (SMOTE). However, since the methods such as SMOTE generate instances by linear interpolation, synthetic data space may look like a polygonal. Also, the oversampling methods generate outliers of the minority class. In this paper, we proposed Gaussian based minority oversampling technique (GMOTE) with a statistical perspective for imbalanced datasets. To avoid linear interpolation and to consider outliers, this proposed method generates instances by the Gaussian Mixture Model. Motivated by clustering-based multivariate Gaussian outlier score (CMGOS), we propose to adapt tail probability of instances through the Mahalanobis distance to consider local outliers. The experiment was carried out on a representative set of benchmark datasets. The performance of the GMOTE is compared with other methods such as SMOTE. When the GMOTE is combined with classification and regression tree (CART) or support vector machine (SVM), it shows better accuracy and F1-Score. Experimental results demonstrate the robust performance.
翻訳日:2021-05-12 08:59:21 公開日:2021-05-09
# (参考訳) JPEGドメイン知識の爆発によるJPEGステレオグラフィのコスト学習の改善 [全文訳有]

Improving Cost Learning for JPEG Steganography by Exploiting JPEG Domain Knowledge ( http://arxiv.org/abs/2105.03867v1 )

ライセンス: CC BY 4.0
Weixuan Tang, Bin Li, Mauro Barni, Jin Li, Jiwu Huang(参考訳) 近年、ステガノグラフィーコストの自動学習の著しい進歩が達成されているが、空間画像のための既存の手法は、日常生活でより一般的なメディアであるjpeg画像にはあまり適用できない。 マイグレーションの難しさは、主に8x8 DCTモード構造によって引き起こされる、ユニークで複雑なJPEG特性にある。 そこで本稿では,既存のJPEGの自動コスト学習方式を拡張し,JEC-RL(JPEG Embedding Cost with Reinforcement Learning)と呼ばれる提案手法をJPEG DCT構造を最適化するために明示的に設計する。 環境ネットワークが提供する報酬を最大化することにより、ポリシーネットワークが最適な埋め込みポリシーを学習する強化学習下での埋め込み動作サンプリング機構で動作する。 ポリシネットワークは,ピクセルレベルのテクスチャの複雑性評価,DCT特徴抽出,モードワイド再構成を含む3つのモジュールが提案されるドメイン遷移設計パラダイムに従って構築される。 これらのモジュールはシリアルで動作し、圧縮されたJPEG画像から有用な特徴を徐々に抽出し、ブロック間およびブロック内相関を含むJPEG特性を同時に考慮しながら、DCT要素の埋め込みポリシーに変換する。 環境ネットワークは、8x8 dct基底フィルタを備えた固定前処理層を備えた広いアーキテクチャを用いて、安定した報奨値を提供するために設計されている。 提案手法は,高度な特徴ベースと最新のCNNベースのステガナライザーの両方に対して,JPEG画像に対する優れたセキュリティ性能を実現することができることを示す。

Although significant progress in automatic learning of steganographic cost has been achieved recently, existing methods designed for spatial images are not well applicable to JPEG images which are more common media in daily life. The difficulties of migration mostly lie in the unique and complicated JPEG characteristics caused by 8x8 DCT mode structure. To address the issue, in this paper we extend an existing automatic cost learning scheme to JPEG, where the proposed scheme called JEC-RL (JPEG Embedding Cost with Reinforcement Learning) is explicitly designed to tailor the JPEG DCT structure. It works with the embedding action sampling mechanism under reinforcement learning, where a policy network learns the optimal embedding policies via maximizing the rewards provided by an environment network. The policy network is constructed following a domain-transition design paradigm, where three modules including pixel-level texture complexity evaluation, DCT feature extraction, and mode-wise rearrangement, are proposed. These modules operate in serial, gradually extracting useful features from a decompressed JPEG image and converting them into embedding policies for DCT elements, while considering JPEG characteristics including inter-block and intra-block correlations simultaneously. The environment network is designed in a gradient-oriented way to provide stable reward values by using a wide architecture equipped with a fixed preprocessing layer with 8x8 DCT basis filters. Extensive experiments and ablation studies demonstrate that the proposed method can achieve good security performance for JPEG images against both advanced feature based and modern CNN based steganalyzers.
翻訳日:2021-05-12 08:46:20 公開日:2021-05-09
# (参考訳) 仮説検定に基づく選択的確率的分類器 [全文訳有]

Selective Probabilistic Classifier Based on Hypothesis Testing ( http://arxiv.org/abs/2105.03876v1 )

ライセンス: CC BY 4.0
Saeed Bakhshi Germi and Esa Rahtu and Heikki Huttunen(参考訳) 本稿では,分類器に対するクローズドワールド仮定の違反に対処するための,単純かつ効果的な手法を提案する。 先行研究は、仮定に違反した入力を拒絶する分類スコアまたは損失関数にしきい値を適用する傾向がある。 しかし、これらの手法は安全適用に必要な低偽陽性率(fpr)を達成できない。 提案手法は確率的ネットワークを用いた仮説テストに基づく拒絶オプションである。 確率的ネットワークでは、単一の出力ではなく結果の分布を推定することができる。 各クラスの平均偏差と標準偏差にZ-testを適用することにより,ネットワークの確実性の統計的意義を推定し,不確実な出力を補正することができる。 提案手法はCOCOデータセットとCIFARデータセットの異なる構成で実験した。 提案手法の性能は,既知のトップパフォーマンス法であるsoftmax応答と比較した。 その結果,提案手法はより広い範囲の操作が可能であり,FPRの低減が可能であることがわかった。

In this paper, we propose a simple yet effective method to deal with the violation of the Closed-World Assumption for a classifier. Previous works tend to apply a threshold either on the classification scores or the loss function to reject the inputs that violate the assumption. However, these methods cannot achieve the low False Positive Ratio (FPR) required in safety applications. The proposed method is a rejection option based on hypothesis testing with probabilistic networks. With probabilistic networks, it is possible to estimate the distribution of outcomes instead of a single output. By utilizing Z-test over the mean and standard deviation for each class, the proposed method can estimate the statistical significance of the network certainty and reject uncertain outputs. The proposed method was experimented on with different configurations of the COCO and CIFAR datasets. The performance of the proposed method is compared with the Softmax Response, which is a known top-performing method. It is shown that the proposed method can achieve a broader range of operation and cover a lower FPR than the alternative.
翻訳日:2021-05-12 08:16:19 公開日:2021-05-09
# (参考訳) Conformer: 視覚認識のためのグローバル表現を結合するローカル機能 [全文訳有]

Conformer: Local Features Coupling Global Representations for Visual Recognition ( http://arxiv.org/abs/2105.03889v1 )

ライセンス: CC BY 4.0
Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, Jianbin Jiao, Qixiang Ye(参考訳) 畳み込みニューラルネットワーク(CNN)では、畳み込み操作は局所的な特徴の抽出に適しているが、グローバルな表現を捉えるのが困難である。 視覚変換器内では、カスケードされた自己アテンションモジュールは長距離機能依存をキャプチャできるが、残念ながらローカル機能の詳細を劣化させる。 本稿では,畳み込み操作と自己アテンション機構を活用し,拡張表現学習のためのハイブリッドネットワーク構造であるconformerを提案する。 コンフォーマーはFCU(Feature Coupling Unit)のルーツであり、インタラクティブな方法で異なる解像度で局所的な特徴とグローバルな表現を融合させる。 Conformerは、ローカル特徴とグローバル表現が最大限に維持されるように、並列構造を採用する。 実験によると、Conformerはパラメータの複雑さに比較して、ImageNetで視覚変換器(DeiT-B)を2.3%上回っている。 MSCOCOでは、ResNet-101を3.7%、オブジェクト検出とインスタンスセグメンテーションの3.6%で上回り、一般的なバックボーンネットワークになる可能性を示している。 コードはhttps://github.com/p engzhiliang/conforme rで入手できる。

Within Convolutional Neural Network (CNN), the convolution operations are good at extracting local features but experience difficulty to capture global representations. Within visual transformer, the cascaded self-attention modules can capture long-distance feature dependencies but unfortunately deteriorate local feature details. In this paper, we propose a hybrid network structure, termed Conformer, to take advantage of convolutional operations and self-attention mechanisms for enhanced representation learning. Conformer roots in the Feature Coupling Unit (FCU), which fuses local features and global representations under different resolutions in an interactive fashion. Conformer adopts a concurrent structure so that local features and global representations are retained to the maximum extent. Experiments show that Conformer, under the comparable parameter complexity, outperforms the visual transformer (DeiT-B) by 2.3% on ImageNet. On MSCOCO, it outperforms ResNet-101 by 3.7% and 3.6% mAPs for object detection and instance segmentation, respectively, demonstrating the great potential to be a general backbone network. Code is available at https://github.com/p engzhiliang/Conforme r.
翻訳日:2021-05-12 08:08:28 公開日:2021-05-09
# (参考訳) 車両と危険道路利用者のインタラクション検出:注意を伴う深部生成的アプローチ [全文訳有]

Interaction Detection Between Vehicles and Vulnerable Road Users: A Deep Generative Approach with Attention ( http://arxiv.org/abs/2105.03891v1 )

ライセンス: CC BY 4.0
Hao Cheng, Li Feng, Hailong Liu, Takatsugu Hirayama, Hiroshi Murase and Monika Sester(参考訳) 歩行者やサイクリストのような脆弱な道路利用者(vrus)との交差点は、道路利用者の行動を自動的に正確に認識するために最も難しい場所の1つだ。 本稿では,そのような場所でのインタラクション検出のための条件付き生成モデルを提案する。 道路利用者の行動の連続性に関する膨大なビデオデータを自動的に分析することを目的としている。 このタスクは、道路利用者の移動の理解に依存する交通安全制御や自動運転車など、多くのインテリジェント交通システムにとって不可欠である。 ガウス型潜伏変数を用いた条件変分自動エンコーダモデルを用いて,道路利用者の挙動を符号化し,対話の確率的・多様な予測を行う。 このモデルは、深層学習オブジェクト検出器によって自動的に抽出された道路利用者のタイプ、位置、動きの情報とビデオからの光学的流れを入力とし、回転車と関連するVRU間の相互作用のダイナミクスを表すフレームワイズ確率を生成する。 このモデルの有効性は、2つの異なる交差点から取得した実世界のデータセットをテストすることによって検証された。 ドイツでは右旋回交差点で0.96点、日本では左旋回交差点で0.89点のF1スコアを達成した。

Intersections where vehicles are permitted to turn and interact with vulnerable road users (VRUs) like pedestrians and cyclists are among some of the most challenging locations for automated and accurate recognition of road users' behavior. In this paper, we propose a deep conditional generative model for interaction detection at such locations. It aims to automatically analyze massive video data about the continuity of road users' behavior. This task is essential for many intelligent transportation systems such as traffic safety control and self-driving cars that depend on the understanding of road users' locomotion. A Conditional Variational Auto-Encoder based model with Gaussian latent variables is trained to encode road users' behavior and perform probabilistic and diverse predictions of interactions. The model takes as input the information of road users' type, position and motion automatically extracted by a deep learning object detector and optical flow from videos, and generates frame-wise probabilities that represent the dynamics of interactions between a turning vehicle and any VRUs involved. The model's efficacy was validated by testing on real--world datasets acquired from two different intersections. It achieved an F1-score above 0.96 at a right--turn intersection in Germany and 0.89 at a left--turn intersection in Japan, both with very busy traffic flows.
翻訳日:2021-05-12 07:48:44 公開日:2021-05-09
# (参考訳) 遷移正規化項を持つ二元化重みネットワーク [全文訳有]

Binarized Weight Error Networks With a Transition Regularization Term ( http://arxiv.org/abs/2105.03897v1 )

ライセンス: CC BY 4.0
Savas Ozkan, Gozde Bozdagi Akar(参考訳) 本稿では,資源効率の高いニューラルネットワークのための新しい二項化重みネットワーク(BT)を提案する。 提案モデルでは, 近似誤差を考慮した重みの2値表現を, 追加項で推定する。 このモデルは、特に浅層ネットワークにおける表現能力と安定性を高め、計算負荷は理論的に減少する。 さらに、しきい値に基づく二項精度ネットワークに適合する新しい正規化項が導入された。 この用語は、二項遷移が起こるしきい値から遠く離れた訓練可能なパラメータを罰する。 このステップは、列車時のバイナリ精度応答の迅速な修正を促進する。 視覚的分類と視覚的逆問題という2つの課題に対して実験を行った。 cifar10、svhn、 fashion、imagenet2012、set5、set14、urban、bsd100のデータセットのベンチマークは、この手法がバイナリ精度で全てのデータセットを上回ることを示している。

This paper proposes a novel binarized weight network (BT) for a resource-efficient neural structure. The proposed model estimates a binary representation of weights by taking into account the approximation error with an additional term. This model increases representation capacity and stability, particularly for shallow networks, while the computation load is theoretically reduced. In addition, a novel regularization term is introduced that is suitable for all threshold-based binary precision networks. This term penalizes the trainable parameters that are far from the thresholds at which binary transitions occur. This step promotes a swift modification for binary-precision responses at train time. The experimental results are carried out for two sets of tasks: visual classification and visual inverse problems. Benchmarks for Cifar10, SVHN, Fashion, ImageNet2012, Set5, Set14, Urban and BSD100 datasets show that our method outperforms all counterparts with binary precision.
翻訳日:2021-05-12 07:20:45 公開日:2021-05-09
# (参考訳) TextAdaIN:ロバストテキスト認識のためのファイングラインドAdaIN [全文訳有]

TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition ( http://arxiv.org/abs/2105.03906v1 )

ライセンス: CC BY 4.0
Oren Nuriel, Sharon Fogel, Ron Litman(参考訳) 畳み込み層の特性を利用すると、画像分類器は非常に効果的である。 しかし,近年の研究では,画像のセマンティクスを保ちながら操作が容易なグローバルな画像統計に頼っているケースが多い。 テキスト認識では,ネットワークが過度に依存する局所的な画像統計量であることが明らかとなった。 そこで本研究では,テキスト認識性能を向上させる局所統計への依存度を規制する手法を提案する。 提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生成し,ネットワークが局所統計に過度に適合しないようにする。 これは、ミニバッチ内のサンプル間で詳細な特徴統計を意図的にミスマッチすることで実現している。 TextAdaINの単純さにもかかわらず、他のより複雑な方法と比較して、広範な実験が効果を示している。 TextAdaINは、標準的な手書きテキスト認識ベンチマークで最先端の結果を達成する。 さらに、複数のアーキテクチャやシーンテキスト認識の領域に一般化する。 さらに,TextAdaINの統合により画像の破損に対する堅牢性が向上することを示す。

Leveraging the characteristics of convolutional layers, image classifiers are extremely effective. However, recent works have exposed that in many cases they immoderately rely on global image statistics that are easy to manipulate while preserving image semantics. In text recognition, we reveal that it is rather the local image statistics which the networks overly depend on. Motivated by this, we suggest an approach to regulate the reliance on local statistics that improves overall text recognition performance. Our method, termed TextAdaIN, creates local distortions in the feature map which prevent the network from overfitting to the local statistics. It does so by deliberately mismatching fine-grained feature statistics between samples in a mini-batch. Despite TextAdaIN's simplicity, extensive experiments show its effectiveness compared to other, more complicated methods. TextAdaIN achieves state-of-the-art results on standard handwritten text recognition benchmarks. Additionally, it generalizes to multiple architectures and to the domain of scene text recognition. Furthermore, we demonstrate that integrating TextAdaIN improves robustness towards image corruptions.
翻訳日:2021-05-12 07:11:55 公開日:2021-05-09
# (参考訳) どのトランスフォーマーアーキテクチャが私のデータに合うのか? 自己注意における語彙ボトルネック [全文訳有]

Which transformer architecture fits my data? A vocabulary bottleneck in self-attention ( http://arxiv.org/abs/2105.03928v1 )

ライセンス: CC BY 4.0
Noam Wies, Yoav Levine, Daniel Jannai, Amnon Shashua(参考訳) 自然言語処理で成功を収めた後、Transformerアーキテクチャは今や多くのドメインでデファクトスタンダードになりつつある。 最適な深さと幅の比率は、データタイプによって劇的に異なる(例えば、言語よりも画像の方が10$x大きい)ことが示されている。 理論上,自己付着幅の寄与を制限する埋め込みランクボトルネックの存在をトランスフォーマクション表現率に理論的に予測する。 したがって,小語彙サイズやランクが幅に対して深さの利点を与えるため,入力語彙サイズとランクを最適な深さ対幅比に直接結びつける。 我々は、このボトルネックの存在とトランスフォーマーアーキテクチャの深さから幅への相互作用との関係を実証的に示し、ドメイン間のアーキテクチャの変動性と、異なる語彙サイズや異なるドメインへの埋め込みランクのしばしば光沢のある利用を結びつける。 さらなるメリットとして、ALBERTやT5といった主要なNLPモデルにおいて、ランクボトルネックフレームワークにより、サイズ冗長度が25\%-50\%$の識別が可能になる。

After their successful debut in natural language processing, Transformer architectures are now becoming the de-facto standard in many domains. An obstacle for their deployment over new modalities is the architectural configuration: the optimal depth-to-width ratio has been shown to dramatically vary across data types (e.g., $10$x larger over images than over language). We theoretically predict the existence of an embedding rank bottleneck that limits the contribution of self-attention width to the Transformer expressivity. We thus directly tie the input vocabulary size and rank to the optimal depth-to-width ratio, since a small vocabulary size or rank dictates an added advantage of depth over width. We empirically demonstrate the existence of this bottleneck and its implications on the depth-to-width interplay of Transformer architectures, linking the architecture variability across domains to the often glossed-over usage of different vocabulary sizes or embedding ranks in different domains. As an additional benefit, our rank bottlenecking framework allows us to identify size redundancies of $25\%-50\%$ in leading NLP models such as ALBERT and T5.
翻訳日:2021-05-12 06:53:01 公開日:2021-05-09
# (参考訳) 階層的・微分可能なニューラルアーキテクチャ探索による軽量画像超解法 [全文訳有]

Lightweight Image Super-Resolution with Hierarchical and Differentiable Neural Architecture Search ( http://arxiv.org/abs/2105.03939v1 )

ライセンス: CC BY 4.0
Han Huang, Li Shen, Chaoyang He, Weisheng Dong, Haozhi Huang, Guangming Shi(参考訳) SISR(Single Image Super-Resolution)タスクは、ディープニューラルネットワークで大きなパフォーマンスを実現している。 しかしながら、cnnベースのsisrタスクの多くのパラメーターは重い計算を必要とする。 近年、いくつかの効率的なSISRモデルが提案されているが、そのほとんどは手作りであり、柔軟性に欠ける。 本稿では,セルレベルとネットワークレベルの両方において,軽量なsisrモデルを探すための新しい微分可能なニューラルネットワーク探索(nas)手法を提案する。 具体的には、セルレベルの探索空間は情報蒸留機構に基づいて設計されており、軽量操作の組み合わせに焦点を当て、より軽量で正確なsr構造の構築を目指している。 ネットワークレベルの検索空間は、セル間の機能接続を考慮し、パフォーマンス向上に最も役立つ情報フローを見つけることを目的としている。 SISRタスクのための既存のReinforcement Learning (RL) や Evolutionary Algorithm (EA) ベースのNASメソッドとは異なり、我々の探索パイプラインは完全に微分可能であり、軽量なSISRモデルは単一のGPU上でセルレベルとネットワークレベルの両方で効率的に探索することができる。 実験の結果,PSNR, SSIM, モデル複雑性の観点から,PSNR, SSIM, 68G Multi-Adds for $\times 2$および18G Multi-Adds for $\times 4$ SRタスクで, ベンチマークデータセットの最先端性能を達成できることが確認された。 コードは \url{https://github.com/D awnHH/DLSR-PyTorch} で入手できる。

Single Image Super-Resolution (SISR) tasks have achieved significant performance with deep neural networks. However, the large number of parameters in CNN-based methods for SISR tasks require heavy computations. Although several efficient SISR models have been recently proposed, most are handcrafted and thus lack flexibility. In this work, we propose a novel differentiable Neural Architecture Search (NAS) approach on both the cell-level and network-level to search for lightweight SISR models. Specifically, the cell-level search space is designed based on an information distillation mechanism, focusing on the combinations of lightweight operations and aiming to build a more lightweight and accurate SR structure. The network-level search space is designed to consider the feature connections among the cells and aims to find which information flow benefits the cell most to boost the performance. Unlike the existing Reinforcement Learning (RL) or Evolutionary Algorithm (EA) based NAS methods for SISR tasks, our search pipeline is fully differentiable, and the lightweight SISR models can be efficiently searched on both the cell-level and network-level jointly on a single GPU. Experiments show that our methods can achieve state-of-the-art performance on the benchmark datasets in terms of PSNR, SSIM, and model complexity with merely 68G Multi-Adds for $\times 2$ and 18G Multi-Adds for $\times 4$ SR tasks. Code will be available at \url{https://github.com/D awnHH/DLSR-PyTorch}.
翻訳日:2021-05-12 06:05:07 公開日:2021-05-09
# (参考訳) gComm: 接地言語習得における一般化調査環境 [全文訳有]

gComm: An environment for investigating generalization in Grounded Language Acquisition ( http://arxiv.org/abs/2105.03943v1 )

ライセンス: CC BY-SA 4.0
Rishi Hazra and Sonu Dixit(参考訳) gCommは、より困難で現実的な環境で、基礎言語獲得の研究を促進する堅牢なプラットフォームを開発するためのステップである。 エージェントのセット(静止スピーカーと通信チャネルを介して接続される移動リスナ)を部分的に観察可能な設定で連続したタスクの配列に露呈する2次元グリッド環境を含む。 これらの課題を解決する鍵は、言語能力を開発し、それらを効率的に環境を探索するために利用するエージェントにある。 スピーカ及びリスナーは、異なるモードで提供される情報、すなわち、アクセスすることができる。 話者の入力は、ターゲットとタスク仕様を含む自然言語命令であり、リスナーの入力はそのグリッドビューである。 それぞれが割り当てられたタスクを完了するために互いに頼らなければならないが、同じことができる唯一の方法は、何らかの通信形態を開発し使用することである。 gCommは様々な形態のコミュニケーションを研究し、それらの一般化を評価するためのツールを提供している。

gComm is a step towards developing a robust platform to foster research in grounded language acquisition in a more challenging and realistic setting. It comprises a 2-d grid environment with a set of agents (a stationary speaker and a mobile listener connected via a communication channel) exposed to a continuous array of tasks in a partially observable setting. The key to solving these tasks lies in agents developing linguistic abilities and utilizing them for efficiently exploring the environment. The speaker and listener have access to information provided in different modalities, i.e. the speaker's input is a natural language instruction that contains the target and task specifications and the listener's input is its grid-view. Each must rely on the other to complete the assigned task, however, the only way they can achieve the same, is to develop and use some form of communication. gComm provides several tools for studying different forms of communication and assessing their generalization.
翻訳日:2021-05-12 05:50:24 公開日:2021-05-09
# (参考訳) ヒューマンモーション感情認識におけるプライバシ保護 [全文訳有]

Preserving Privacy in Human-Motion Affect Recognition ( http://arxiv.org/abs/2105.03958v1 )

ライセンス: CC BY 4.0
Matthew Malek-Podjaski, Fani Deligianni(参考訳) ヒトの運動は、神経疾患や気分障害の進行を監視するために臨床分析で広く使用されるバイオマーカーである。 感情の知覚は身体の姿勢や運動と連動するので、人間の歩行からの感情認識は、しばしば神経疾患と関連する気分変化を定量的に監視するために用いられる。 既存のソリューションの多くは、生の位置データの浅い機械学習モデルや手動で抽出した特徴を使ってこれを実現する。 しかし、歩留まりは、人間の対象を特定するのに使える多くの非常に表現力のある特徴で構成されており、ほとんどのソリューションは、被験者のプライバシーを無視して、この問題に対処することができない。 本研究は,3次元の時間的関節信号と手動抽出特徴を用いた感情認識における既存手法の有効性を評価する。 また,このデータは,被検者の身元を露呈するために容易に活用できることを示す。 そこで本研究では,マルチエンコーダ・オートエンコーダ・ディープニューラルネットワークを訓練し,人間の動作特徴の非絡み合った潜在表現を学習するためのクロスオブジェクトトランスファー学習手法を提案する。 歩行データから対象バイオメトリックスを分離することで,対象のプライバシが保持され,影響認識性能が従来の手法を上回っていることを示す。

Human motion is a biomarker used extensively in clinical analysis to monitor the progression of neurological diseases and mood disorders. Since perceptions of emotions are also interleaved with body posture and movements, emotion recognition from human gait can be used to quantitatively monitor mood changes that are often related to neurological disorders. Many existing solutions often use shallow machine learning models with raw positional data or manually extracted features to achieve this. However, gait is composed of many highly expressive characteristics that can be used to identify human subjects, and most solutions fail to address this, disregarding the subject's privacy. This work evaluates the effectiveness of existing methods at recognising emotions using both 3D temporal joint signals and manually extracted features. We also show that this data can easily be exploited to expose a subject's identity. Therefore to this end, we propose a cross-subject transfer learning technique for training a multi-encoder autoencoder deep neural network to learn disentangled latent representations of human motion features. By disentangling subject biometrics from the gait data, we show that the subjects privacy is preserved while the affect recognition performance outperforms traditional methods.
翻訳日:2021-05-12 05:41:26 公開日:2021-05-09
# (参考訳) 制御変数を持つ確率的多関節帯域 [全文訳有]

Stochastic Multi-Armed Bandits with Control Variates ( http://arxiv.org/abs/2105.03962v1 )

ライセンス: CC BY 4.0
Arun Verma, Manjesh K. Hanawal(参考訳) 本稿では,学習者が腕に関する補助情報にアクセスできる確率的多腕バンディット問題の新しい変種について検討する。 補助情報は、制御変数として扱う腕の報酬と相関する。 多くの応用において、アーム報酬はいくつかの外因性値の関数であり、平均値は過去のデータから先行して知られ、従って制御変数として使うことができる。 制御変数を用いて、より小さな分散とより厳密な信頼境界を持つ平均推定値を得る。 次に,推定精度を向上させるアルゴリズムucb-cvを開発した。 我々は,報奨と制御変数の相関の観点から,後悔の限界を特徴付ける。 合成データに関する実験は,提案アルゴリズムの性能保証を検証する。

This paper studies a new variant of the stochastic multi-armed bandits problem, where the learner has access to auxiliary information about the arms. The auxiliary information is correlated with the arm rewards, which we treat as control variates. In many applications, the arm rewards are a function of some exogenous values, whose mean value is known a priori from historical data and hence can be used as control variates. We use the control variates to obtain mean estimates with smaller variance and tighter confidence bounds. We then develop an algorithm named UCB-CV that uses improved estimates. We characterize the regret bounds in terms of the correlation between the rewards and control variates. The experiments on synthetic data validate the performance guarantees of our proposed algorithm.
翻訳日:2021-05-12 05:33:22 公開日:2021-05-09
# (参考訳) 複素双曲空間における階層埋め込みの単位球モデル [全文訳有]

Unit Ball Model for Hierarchical Embeddings in Complex Hyperbolic Space ( http://arxiv.org/abs/2105.03966v1 )

ライセンス: CC BY 4.0
Huiru Xiao, Caigao Jiang, Yangqiu Song, James Zhang, Junwu Xiong(参考訳) 双曲空間における階層構造を持つデータの表現を学ぶことは近年注目を集めている。 定数負の曲率のため、双曲空間は木メトリックスに似ており、階層グラフの木のような特性を自然に捉えるので、双曲埋め込みは従来のユークリッドモデルよりも改善することができる。 しかし、ほとんどのグラフデータ、階層構造を持つデータでさえ木ではなく、通常、双曲空間の定数曲率特性とユビキタスに一致しない。 このような双曲埋め込みの制限に対処するため、表現学習のための可変負曲率を持つ複素双曲空間を探索する。 具体的には,複素双曲空間の単位球モデルにおけるグラフ埋め込みを学習することを提案する。 単位球モデルに基づく埋め込みは、様々な階層グラフ構造をキャプチャするより強力な表現能力を持つ。 合成データおよび実世界データを用いた実験により, 双曲的埋め込みモデルに対して, 提案手法が大幅に改善することを示す。

Learning the representation of data with hierarchical structures in the hyperbolic space attracts increasing attention in recent years. Due to the constant negative curvature, the hyperbolic space resembles tree metrics and captures the tree-like properties of hierarchical graphs naturally, which enables the hyperbolic embeddings to improve over traditional Euclidean models. However, most graph data, even the data with hierarchical structures are not trees and they usually do not ubiquitously match the constant curvature property of the hyperbolic space. To address this limitation of hyperbolic embeddings, we explore the complex hyperbolic space, which has the variable negative curvature, for representation learning. Specifically, we propose to learn the graph embeddings in the unit ball model of the complex hyperbolic space. The unit ball model based embeddings have a more powerful representation capacity to capture a variety of hierarchical graph structures. Through experiments on synthetic and real-world data, we show that our approach improves over the hyperbolic embedding models significantly.
翻訳日:2021-05-12 04:59:25 公開日:2021-05-09
# (参考訳) トランスを用いた特許マイニングと関連分類の改善 [全文訳有]

Improving Patent Mining and Relevance Classification using Transformers ( http://arxiv.org/abs/2105.03979v1 )

ライセンス: CC BY 4.0
Th\'eo Ding and Walter Vermeiren and Sylvie Ranwez and Binbin Xu(参考訳) 特許分析とマイニングは、企業にとって時間とコストのかかるプロセスであるが、競争力を維持するためには必要不可欠である。 多くの特許によって引き起こされる過負荷に対処するため、このアイデアは自動的にフィルタし、専門家が読むものはほとんどない。 本稿では,事前訓練した深層自然言語処理モデルにおける微調整と再訓練の成果を特許分類に適用する。 私たちが提案するソリューションは、リコールと正確なメトリクスを保ちながら、ワークロードを削減するという、最先端の処理を組み合わせることで目標を達成します。

Patent analysis and mining are time-consuming and costly processes for companies, but nevertheless essential if they are willing to remain competitive. To face the overload induced by numerous patents, the idea is to automatically filter them, bringing only few to read to experts. This paper reports a successful application of fine-tuning and retraining on pre-trained deep Natural Language Processing models on patent classification. The solution that we propose combines several state-of-the-art treatments to achieve our goal - decrease the workload while preserving recall and precision metrics.
翻訳日:2021-05-12 04:45:46 公開日:2021-05-09
# (参考訳) つぶやきからの感情検出における影響次元の役割を理解する:マルチタスクアプローチ [全文訳有]

Understanding the Role of Affect Dimensions in Detecting Emotions from Tweets: A Multi-task Approach ( http://arxiv.org/abs/2105.03983v1 )

ライセンス: CC BY 4.0
Rajdeep Mukherjee, Atharva Naik, Sriyash Poddar, Soham Dasgupta, Niloy Ganguly(参考訳) 本研究では,感情表現のカテゴリーモデルと次元モデルの相関を利用して主観分析を行うマルチタスクフレームワークvadecを提案する。 つぶやきから感情を効果的に検出することに着目し,マルチラベル感情分類と多次元感情回帰を共同で学習し,タスク間の相互関連性を活用する。 aitデータセット上では,jaccard精度,マクロf1,マイクロf1スコアがそれぞれ3.4%,11%,3.9%と,最強のベースラインを上回っているため,コトレーニングは特に分類タスクのパフォーマンス向上に寄与する。 また、センウェーブデータセット上の6つの異なるメトリクスに対して平均11.3%の利益が得られた。 回帰タスクでは、VADECがSenWaveでトレーニングすると、ピアソン相関スコアの7.6%と16.5%が、EMOBANKデータセットにおけるValence(V)とDominance(D)のそれぞれに影響を及ぼす。 われわれは、インド人が投稿した新型コロナウイルス(covid-19)のツイートに関するケーススタディで締めくくった。

We propose VADEC, a multi-task framework that exploits the correlation between the categorical and dimensional models of emotion representation for better subjectivity analysis. Focusing primarily on the effective detection of emotions from tweets, we jointly train multi-label emotion classification and multi-dimensional emotion regression, thereby utilizing the inter-relatedness between the tasks. Co-training especially helps in improving the performance of the classification task as we outperform the strongest baselines with 3.4%, 11%, and 3.9% gains in Jaccard Accuracy, Macro-F1, and Micro-F1 scores respectively on the AIT dataset. We also achieve state-of-the-art results with 11.3% gains averaged over six different metrics on the SenWave dataset. For the regression task, VADEC, when trained with SenWave, achieves 7.6% and 16.5% gains in Pearson Correlation scores over the current state-of-the-art on the EMOBANK dataset for the Valence (V) and Dominance (D) affect dimensions respectively. We conclude our work with a case study on COVID-19 tweets posted by Indians that further helps in establishing the efficacy of our proposed solution.
翻訳日:2021-05-12 04:17:51 公開日:2021-05-09
# (参考訳) サービス提供ライブチャットオペレータのアドバイザリングエージェント [全文訳有]

Advising Agent for Service-Providing Live-Chat Operators ( http://arxiv.org/abs/2105.03986v1 )

ライセンス: CC BY 4.0
Aviram Aviv, Yaniv Oshrat, Samuel A. Assefa, Tobi Mustapha, Daniel Borrajo, Manuela Veloso, Sarit Kraus(参考訳) ヒューマンオペレーターがテキストチャットを使ってクライアントに出席するコールセンターは、現代のeコマースで非常に一般的である。 優れたサービスを提供することができる十分な熟練したオペレータのトレーニングは難しい。 クライアントに出席中にオペレーターにオンラインアドバイスを提供する補助エージェントを訓練し実装するためのアルゴリズムと手法を提案する。 エージェントはドメインに依存しず、専門分野の構造的知識を設計、訓練、組織化することなしに新しいドメインに導入することができる。 本研究では,特定のドメイン上での全ライフサイクルを実現し,その機能を分析する実験において,システムの適用性を示す。

Call centers, in which human operators attend clients using textual chat, are very common in modern e-commerce. Training enough skilled operators who are able to provide good service is a challenge. We suggest an algorithm and a method to train and implement an assisting agent that provides on-line advice to operators while they attend clients. The agent is domain-independent and can be introduced to new domains without major efforts in design, training and organizing structured knowledge of the professional discipline. We demonstrate the applicability of the system in an experiment that realizes its full life-cycle on a specific domain and analyze its capabilities.
翻訳日:2021-05-12 04:07:30 公開日:2021-05-09
# (参考訳) Dispatcher: 言語モデリングに対するメッセージパッシングアプローチ [全文訳有]

Dispatcher: A Message-Passing Approach To Language Modelling ( http://arxiv.org/abs/2105.03994v1 )

ライセンス: CC BY 4.0
Alberto Cetoli(参考訳) 本稿では,言語モデリングのためのメッセージパッシング機構を提案する。 自己注意の代替を目的とした新しいレイヤタイプが導入されている。 nトークンが与えられたとき、計算の複雑さはo(n log n)であり、メモリの複雑さは合理的な仮定の下でo(n)である。 最終的に、Dispatcher層は、より効率的でありながら、以前の結果と同等のパープレキシティを実現することができる。

This paper proposes a message-passing mechanism to address language modelling. A new layer type is introduced that aims to substitute self-attention. The system is shown to be competitive with existing methods: Given N tokens, the computational complexity is O(N log N) and the memory complexity is O(N) under reasonable assumptions. In the end, the Dispatcher layer is seen to achieve comparable perplexity to prior results while being more efficient
翻訳日:2021-05-12 03:56:17 公開日:2021-05-09
# (参考訳) 畳み込みニューラルネットワークを用いた顕微鏡画像からの急性リンパ性白血病の検出

Acute Lymphoblastic Leukemia Detection from Microscopic Images Using Weighted Ensemble of Convolutional Neural Networks ( http://arxiv.org/abs/2105.03995v1 )

ライセンス: CC BY 4.0
Chayan Mondal, Md. Kamrul Hasan, Md. Tasnim Jawad, Aishwariya Dutta, Md.Rabiul Islam, Md. Abdul Awal, Mohiuddin Ahmad(参考訳) 急性リンパ芽球性白血病(ALL)は、多くの未熟なリンパ球を特徴とする細胞癌である。 all prognosisの自動化は癌診断の重要な側面であるが,悪性細胞と正常細胞の形態的相関が原因で困難である。 従来の全ての分類戦略では、経験豊富な病理学者が細胞像を注意深く読み取る必要がある。 本稿では、深層畳み込みニューラルネットワーク(CNN)を用いて、顕微鏡セル画像からのall検出タスクを自動化した。 異なる深層CNNの重み付けアンサンブルを探索し、より優れたall細胞分類器を推奨する。 アンサンブル候補モデルの重みは、精度、f1-score、auc、kappa値といった対応する指標から推定される。 ネットワークのより優れた一般化を達成するために、様々なデータ拡張と前処理が組み込まれている。 利用可能なC-NMC-2019 ALLデータセットを用いて、包括的な実験を行う。 提案する重み付きアンサンブルモデルでは, アンサンブル候補のカッパ値を重みとして, 重み付きF1スコア88.6 %, バランス付き精度86.2 %, 予備試験セットのAUC0.941を出力した。 グラデーションクラスアクティベーションマップを表示する質的結果から,導入されたモデルが集中学習領域を持つことが確認された。 対照的に、Xception、VGG-16、DenseNet-121、MobileNet、InceptionResNet-V2といったアンサンブル候補モデルは、ほとんどの例で粗い領域と散在した領域を別々に生成する。 提案するkappa値に基づく重み付きアンサンブルは,本論文の課題に対してよりよい結果をもたらすため,他の医療診断分野においても実験が可能である。

Acute Lymphoblastic Leukemia (ALL) is a blood cell cancer characterized by numerous immature lymphocytes. Even though automation in ALL prognosis is an essential aspect of cancer diagnosis, it is challenging due to the morphological correlation between malignant and normal cells. The traditional ALL classification strategy demands experienced pathologists to carefully read the cell images, which is arduous, time-consuming, and often suffers inter-observer variations. This article has automated the ALL detection task from microscopic cell images, employing deep Convolutional Neural Networks (CNNs). We explore the weighted ensemble of different deep CNNs to recommend a better ALL cell classifier. The weights for the ensemble candidate models are estimated from their corresponding metrics, such as accuracy, F1-score, AUC, and kappa values. Various data augmentations and pre-processing are incorporated for achieving a better generalization of the network. We utilize the publicly available C-NMC-2019 ALL dataset to conduct all the comprehensive experiments. Our proposed weighted ensemble model, using the kappa values of the ensemble candidates as their weights, has outputted a weighted F1-score of 88.6 %, a balanced accuracy of 86.2 %, and an AUC of 0.941 in the preliminary test set. The qualitative results displaying the gradient class activation maps confirm that the introduced model has a concentrated learned region. In contrast, the ensemble candidate models, such as Xception, VGG-16, DenseNet-121, MobileNet, and InceptionResNet-V2, separately produce coarse and scatter learned areas for most example cases. Since the proposed kappa value-based weighted ensemble yields a better result for the aimed task in this article, it can experiment in other domains of medical diagnostic applications.
翻訳日:2021-05-12 03:45:38 公開日:2021-05-09
# (参考訳) DocSCAN:隣人からの学習による教師なしテキスト分類 [全文訳有]

DocSCAN: Unsupervised Text Classification via Learning from Neighbors ( http://arxiv.org/abs/2105.04024v1 )

ライセンス: CC BY 4.0
Dominik Stammbach, Elliott Ash(参考訳) 本稿では, 近近隣者(SCAN)によるセマンティッククラスタリングを用いた, 完全に教師なしのテキスト分類手法であるDocSCANを紹介する。 各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。 類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。 学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。 提案手法では,基底構造ラベルを付与することなく,クラスをデータセット全体に割り当てることを学ぶ。 5つのトピック分類ベンチマークにおいて、教師なしベースラインを大きなマージンで改善する。 比較的少数でバランスの取れた結果クラスを持つデータセットでは、DocSCANは教師付き分類のパフォーマンスにアプローチする。 この方法は、感情分析のような他のタイプの分類では失敗し、画像とテキストを分類する重要な概念的および実践的な違いを示している。

We introduce DocSCAN, a completely unsupervised text classification approach using Semantic Clustering by Adopting Nearest-Neighbors (SCAN). For each document, we obtain semantically informative vectors from a large pre-trained language model. Similar documents have proximate vectors, so neighbors in the representation space tend to share topic labels. Our learnable clustering approach uses pairs of neighboring datapoints as a weak learning signal. The proposed approach learns to assign classes to the whole dataset without provided ground-truth labels. On five topic classification benchmarks, we improve on various unsupervised baselines by a large margin. In datasets with relatively few and balanced outcome classes, DocSCAN approaches the performance of supervised classification. The method fails for other types of classification, such as sentiment analysis, pointing to important conceptual and practical differences between classifying images and texts.
翻訳日:2021-05-12 03:44:21 公開日:2021-05-09
# (参考訳) もう少しベイズ的:不確実性を伴うドメイン不変学習 [全文訳有]

A Bit More Bayesian: Domain-Invariant Learning with Uncertainty ( http://arxiv.org/abs/2105.04030v1 )

ライセンス: CC BY 4.0
Zehao Xiao, Jiayi Shen, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) ドメインの一般化は、ドメインシフトと、ターゲットのドメインデータのアクセス不能に起因する不確実性のために困難である。 本稿では,ニューラルネットワークの重み付けに不確かさを組み込むことにより,変分ベイズ推定に基づく確率的枠組みによる両課題に対処する。 我々は、変分ベイズ推論を伴う確率式で領域不変性を結合する。 これにより、原則的にドメイン不変学習を探求することができる。 具体的にはドメイン不変表現と分類器を導出し、2層ベイズニューラルネットワークで共同で構築する。 広範に使用されている4つのドメイン間視覚認識ベンチマークにおいて,提案手法の有効性を実証的に実証した。 アブレーション研究は、ドメイン一般化のためのドメイン不変表現と分類器を共同学習する場合、ベイズ処理の相乗効果を検証する。 さらに,本手法はすべてのベンチマークに対して常に最先端の平均精度を提供する。

Domain generalization is challenging due to the domain shift and the uncertainty caused by the inaccessibility of target domain data. In this paper, we address both challenges with a probabilistic framework based on variational Bayesian inference, by incorporating uncertainty into neural network weights. We couple domain invariance in a probabilistic formula with the variational Bayesian inference. This enables us to explore domain-invariant learning in a principled way. Specifically, we derive domain-invariant representations and classifiers, which are jointly established in a two-layer Bayesian neural network. We empirically demonstrate the effectiveness of our proposal on four widely used cross-domain visual recognition benchmarks. Ablation studies validate the synergistic benefits of our Bayesian treatment when jointly learning domain-invariant representations and classifiers for domain generalization. Further, our method consistently delivers state-of-the-art mean accuracy on all benchmarks.
翻訳日:2021-05-12 03:32:57 公開日:2021-05-09
# (参考訳) Swarm Differential Privacy for Purpose Driven Data-Information-Kno wledge-Wisdom Architecture [全文訳有]

Swarm Differential Privacy for Purpose Driven Data-Information-Kno wledge-Wisdom Architecture ( http://arxiv.org/abs/2105.04045v1 )

ライセンス: CC BY 4.0
Yingbo Li, Yucong Duan, Zakaria Maama, Haoyang Che, Anamaria-Beatrice Spulber, Stelios Fuentes(参考訳) プライバシー保護は最近、学術と産業の両方の注目を集めている。 社会は複雑な法的枠組みを通じて個々のデータのプライバシーを保護する。 これは、ユビキタスなデータ応用への高い需要を生み出したデータサイエンスと人工知能の応用が増加していることへの関心の的になっている。 次世代情報組織であるDIKW(Data-Informatio nKnowledge-Wisdom)ランドスケープのプライバシー保護は、あまり注目されていない。 次に、人気のあるswarmインテリジェンスとディファレンシャルプライバシのアプリケーションを通じてdikwアーキテクチャを探求する。 差分プライバシーは効果的なデータプライバシーアプローチであると証明されたので、DIKWドメインの観点から見ていく。 Swarm Intelligenceは、差分プライバシーに使用されるDIKWの項目数を効果的に最適化し、削減することができる。 提案手法は、オープンサースIRISデータセットに基づくパーソナライズされたデータの適用によって証明される。 この実験は、計算の複雑さを減らすためのスワーミングインテリジェンスの効率を示す。

Privacy protection has recently attracted the attention of both academics and industries. Society protects individual data privacy through complex legal frameworks. This has become a topic of interest with the increasing applications of data science and artificial intelligence that have created a higher demand to the ubiquitous application of the data. The privacy protection of the broad Data-InformationKnow ledge-Wisdom (DIKW) landscape, the next generation of information organization, has not been in the limelight. Next, we will explore DIKW architecture through the applications of popular swarm intelligence and differential privacy. As differential privacy proved to be an effective data privacy approach, we will look at it from a DIKW domain perspective. Swarm Intelligence could effectively optimize and reduce the number of items in DIKW used in differential privacy, this way accelerating both the effectiveness and the efficiency of differential privacy for crossing multiple modals of conceptual DIKW. The proposed approach is proved through the application of personalized data that is based on the open-sourse IRIS dataset. This experiment demonstrates the efficiency of Swarm Intelligence in reducing computing complexity.
翻訳日:2021-05-12 03:14:31 公開日:2021-05-09
# (参考訳) オンライン政治広告の分析 [全文訳有]

Analyzing Online Political Advertisements ( http://arxiv.org/abs/2105.04047v1 )

ライセンス: CC BY 4.0
Danae S\'anchez Villegas, Saeid Mokaram, Nikolaos Aletras(参考訳) オンライン政治広告は、世論に影響を及ぼす近代選挙運動の中心的側面である。 政治広告の計算分析は、デジタルキャンペーンの特徴を理解するために政治科学において最も重要である。 計算言語学においても、政治的談話やコミュニケーションの特徴を大規模に研究することが重要である。 本研究では,(1)広告スポンサーの政治的イデオロギーを推測し,(2)スポンサーが公式な政党か第三者組織かを特定することを目的とした,オンライン政治広告に関する最初の計算的研究を提案する。 米国からの広告からなる2つのタスクのための2つの新しい大規模データセットを開発する。 評価の結果,事前学習したニューラルモデルからのテキスト情報と視覚情報を組み合わせる手法は,一般商用広告分類の最先端手法よりも優れていることがわかった。 最後に, ベストパフォーマンスモデルの限界を深く分析し, 言語学的分析を行い, 政治広告の談話の特徴について考察した。

Online political advertising is a central aspect of modern election campaigning for influencing public opinion. Computational analysis of political ads is of utmost importance in political science to understand characteristics of digital campaigning. It is also important in computational linguistics to study features of political discourse and communication on a large scale. In this work, we present the first computational study on online political ads with the aim to (1) infer the political ideology of an ad sponsor; and (2) identify whether the sponsor is an official political party or a third-party organization. We develop two new large datasets for the two tasks consisting of ads from the U.S.. Evaluation results show that our approach that combines textual and visual information from pre-trained neural models outperforms a state-of-the-art method for generic commercial ad classification. Finally, we provide an in-depth analysis of the limitations of our best performing models and a linguistic analysis to study the characteristics of political ads discourse.
翻訳日:2021-05-12 02:59:32 公開日:2021-05-09
# (参考訳) 複数のターゲットシフトソースからの集約 [全文訳有]

Aggregating From Multiple Target-Shifted Sources ( http://arxiv.org/abs/2105.04051v1 )

ライセンス: CC BY 4.0
Changjian Shui, Zijian Li, Jiaqi Li, Christian Gagn\'e, Charles Ling, Boyu Wang(参考訳) マルチソースドメイン適応は、複数のタスクからの知識を活用して関連するターゲットドメインを予測することを目的としている。 したがって、重要な側面は、それらの関係に基づいて異なるソースを適切に組み合わせることである。 本稿では,近年のソース選択アプローチが失敗している異なるラベル分布のソースドメインを集約する問題を分析した。 提案手法は従来の手法と大きく異なる: モデルは主に境界分布ではなく, 意味条件分布の類似性を通じて複数のソースを集約する; モデルでは, 3つの一般的なシナリオ,すなわち, 対象領域に限定ラベルを持つドメイン適応, 教師なしドメイン適応, ラベル付き部分教師なしドメイン適応を選択するための, \emph{unified} フレームワークを提案する。 提案手法を広範囲な実験により評価する。 実験結果がベースラインを大きく上回った。

Multi-source domain adaptation aims at leveraging the knowledge from multiple tasks for predicting a related target domain. Hence, a crucial aspect is to properly combine different sources based on their relations. In this paper, we analyzed the problem for aggregating source domains with different label distributions, where most recent source selection approaches fail. Our proposed algorithm differs from previous approaches in two key ways: the model aggregates multiple sources mainly through the similarity of semantic conditional distribution rather than marginal distribution; the model proposes a \emph{unified} framework to select relevant sources for three popular scenarios, i.e., domain adaptation with limited label on target domain, unsupervised domain adaptation and label partial unsupervised domain adaption. We evaluate the proposed method through extensive experiments. The empirical results significantly outperform the baselines.
翻訳日:2021-05-12 02:43:36 公開日:2021-05-09
# 極低出力ニューラルマシン翻訳のための連続混合言語事前学習

Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2105.03953v1 )

ライセンス: Link先を確認
Zihan Liu, Genta Indra Winata, Pascale Fung(参考訳) 低リソース言語のデータの不足は、堅牢なニューラルネットワーク翻訳システム構築のボトルネックとなっている。 翻訳タスクにおける多言語事前訓練モデル(例えば、mBART (Liu et al., 2020))の微調整は、低リソース言語には良いアプローチであるが、翻訳ペアに見知らぬ言語が存在する場合、その性能は大幅に制限される。 本稿では,mBARTにCPT(Continuous Pre-Training)フレームワークを導入し,未知の言語に効果的に適用する。 まず,対象言語の単言語コーパスから雑音の多い混合言語テキストを翻訳ペアに構築し,原文と対象言語の両方をカバーし,mBARTを事前学習し,元の単言語テキストを再構築する。 その結果,本手法は,未使用言語を含むすべての低リソース翻訳ペアにおいて,mbartベースラインおよび他の強力なベースライン上での微調整性能を一貫して向上できることがわかった。 さらに,本手法により,元のmBARTの事前学習で両言語が見られる翻訳ペアの性能も向上する。 コードはhttps://github.com/z liucr/cpt-nmtで入手できる。

The data scarcity in low-resource languages has become a bottleneck to building robust neural machine translation systems. Fine-tuning a multilingual pre-trained model (e.g., mBART (Liu et al., 2020)) on the translation task is a good approach for low-resource languages; however, its performance will be greatly limited when there are unseen languages in the translation pairs. In this paper, we present a continual pre-training (CPT) framework on mBART to effectively adapt it to unseen languages. We first construct noisy mixed-language text from the monolingual corpus of the target language in the translation pair to cover both the source and target languages, and then, we continue pre-training mBART to reconstruct the original monolingual text. Results show that our method can consistently improve the fine-tuning performance upon the mBART baseline, as well as other strong baselines, across all tested low-resource translation pairs containing unseen languages. Furthermore, our approach also boosts the performance on translation pairs where both languages are seen in the original mBART's pre-training. The code is available at https://github.com/z liucr/cpt-nmt.
翻訳日:2021-05-11 15:21:36 公開日:2021-05-09
# FNet: トークンとフーリエ変換の混合

FNet: Mixing Tokens with Fourier Transforms ( http://arxiv.org/abs/2105.03824v1 )

ライセンス: Link先を確認
James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon(参考訳) トランスフォーマーエンコーダのアーキテクチャは,入力トークンを"混合"する単純な線形変換に自己付着部分層を置き換えることで,少ない精度で大規模に高速化できることを示す。 これらの線形変換はフィードフォワード層の単純な非線形性とともに、いくつかのテキスト分類タスクで意味関係をモデル化するのに十分である。 おそらく最も驚くべきことに、Transformerエンコーダの自己注意サブレイヤを標準の非パラメータ化フーリエ変換に置き換えると、GLUEベンチマークではBERTの精度は92%になるが、GPUでは7倍高速で、TPUでは2倍高速である。 FNetと呼ばれる結果のモデルは、Long Range Arenaベンチマークの最も正確な"効率的な"変換器の精度と非常に効率的にスケールするが、GPU上のすべてのシーケンス長とTPU上の比較的短いシーケンス長のトレーニングと実行は高速である。 最後に、FNetは軽量メモリのフットプリントを持ち、特に小さなモデルサイズで効率的である: 固定速度と精度の予算のために、小さなFNetモデルはTransformerよりも優れている。

We show that Transformer encoder architectures can be massively sped up, with limited accuracy costs, by replacing the self-attention sublayers with simple linear transformations that "mix" input tokens. These linear transformations, along with simple nonlinearities in feed-forward layers, are sufficient to model semantic relationships in several text classification tasks. Perhaps most surprisingly, we find that replacing the self-attention sublayer in a Transformer encoder with a standard, unparameterized Fourier Transform achieves 92% of the accuracy of BERT on the GLUE benchmark, but pre-trains and runs up to seven times faster on GPUs and twice as fast on TPUs. The resulting model, which we name FNet, scales very efficiently to long inputs, matching the accuracy of the most accurate "efficient" Transformers on the Long Range Arena benchmark, but training and running faster across all sequence lengths on GPUs and relatively shorter sequence lengths on TPUs. Finally, FNet has a light memory footprint and is particularly efficient at smaller model sizes: for a fixed speed and accuracy budget, small FNet models outperform Transformer counterparts.
翻訳日:2021-05-11 15:19:44 公開日:2021-05-09
# アンカー型グラフニューラルネットワークにおける経路情報の利用

Exploiting Path Information for Anchor Based Graph Neural Network ( http://arxiv.org/abs/2105.03821v1 )

ライセンス: Link先を確認
Yuheng Lu, ChuXiong Sun, Jie Hu(参考訳) グラフ構造から情報を取り込むノード表現の学習は、グラフ上の幅広いタスクに役立つ。 既存のグラフニューラルネットワーク(GNN)の大部分は、特定のノードの位置情報をキャプチャする能力に制限がある。 選択されたアンカーを持つノードの位置決めは、主に距離情報の明示的なラベル付けに依存している。 本稿では、各ノードのアンカーに関連する経路情報をエンコードするアンカーベースGNNであるグラフ推論表現(GIR)を提案する。 位置認識の埋め込み能力は、GIRとそのコアバリアントに対して理論的および実験的に研究されている。 さらに、GIRと典型的なGNNの埋め込みの相補的特性を示す。 我々は、GIRが位置認識のシナリオよりも優れており、GIRを埋め込むことで、GNNの結果を改善することができることを示した。

Learning node representation that incorporating information from graph structure benefits wide range of tasks on graph. Majority of existing graph neural networks (GNNs) have limited power in capturing position information for a given node. The idea of positioning nodes with selected anchors has been exploit, yet mainly rely on explicit labeling of distance information. Here we propose Graph Inference Representation (GIR), an anchor based GNN encoding path information related to anchors for each node. Abilities to get position-aware embedding are theoretically and experimentally investigated on GIRs and its core variants. Further, the complementary characteristic of GIRs and typical GNNs embeddings are demonstrated. We show that GIRs get outperformed results on position-aware scenario, and could improve GNNs results by fuse GIRs embedding.
翻訳日:2021-05-11 15:18:52 公開日:2021-05-09
# CASA-B: モデルレス強化学習の統一フレームワーク

CASA-B: A Unified Framework of Model-Free Reinforcement Learning ( http://arxiv.org/abs/2105.03923v1 )

ライセンス: Link先を確認
Changnan Xiao, Haosen Shi, Jiajun Fan, Shihong Deng(参考訳) 本稿では、強化学習のブレークスルーに基づいて、モデルフリー強化学習の統一フレームワークであるCASA-B, Critic AS an Actor with Bandits Vote Algorithmを紹介する。 CASA-Bはアクタークリティカルなフレームワークで、状態-値、状態-アクション-値、ポリシーを推定する。 コンバージェンス特性が保証される状態-値と状態-アクション-値を学ぶために、期待正しいDouubly Robust Traceが導入された。 我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。 政策評価は、関数近似誤差を軽減する補償政策改善と等価であり、また、エントロピー規則化された政策改善と等価であり、政策が最適以下の解に崩壊することを防ぐ。 この設計に基づいて、「行動方針のエントロピー」と目標方針のアントロピーが歪められているのが分かる。 この観察に基づいて,行動ポリシーの任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。 実験の結果, CASAB は高効率であり, アーケード学習環境における State-Of-The-Art を実現することがわかった。 我々の平均的人間正規化スコアは6456.63%であり、中央値の人間正規化スコアは477.17%である。

Building on the breakthrough of reinforcement learning, this paper introduces a unified framework of model-free reinforcement learning, CASA-B, Critic AS an Actor with Bandits Vote Algorithm. CASA-B is an actor-critic framework that estimates state-value, state-action-value and policy. An expectation-correct Doubly Robust Trace is introduced to learn state-value and state-action-value, whose convergence properties are guaranteed. We prove that CASA-B integrates a consistent path for the policy evaluation and the policy improvement. The policy evaluation is equivalent to a compensational policy improvement, which alleviates the function approximation error, and is also equivalent to an entropy-regularized policy improvement, which prevents the policy from collapsing to a suboptimal solution. Building on this design, we find the entropy of the behavior policies' and the target policy's are disentangled. Based on this observation, we propose a progressive closed-form entropy control mechanism, which explicitly controls the behavior policies' entropy to arbitrary range. Our experiments show that CASAB is super sample efficient and achieves State-Of-The-Art on Arcade Learning Environment. Our mean Human Normalized Score is 6456.63% and our median Human Normalized Score is 477.17%, under 200M training scale.
翻訳日:2021-05-11 15:18:42 公開日:2021-05-09
# ロバストマルコフ決定プロセスの非漸近的性能

Non-asymptotic Performances of Robust Markov Decision Processes ( http://arxiv.org/abs/2105.03863v1 )

ライセンス: Link先を確認
Wenhao Yang, Zhihua Zhang(参考訳) 本稿では,真の遷移ダイナミクスを持つロバスト値関数に対する最適ポリシーの非漸近的性能について検討する。 最適なロバストポリシは、真の遷移ダイナミクスにアクセスせずに生成モデルやオフラインデータセットから解決される。 特に、$(s,a)$-rectangular と $s$-rectangular の両方において、$l_1$、$\chi^2$、kl 球を含む3つの異なる不確実性集合を考える。 我々の結果は、不確実性集合上で$(s,a)$-rectangularを仮定すると、サンプルの複雑さは約$\widetilde{O}\left(\frac{|\mathcal{S}|^2|\mathcal{A}|}{\varepsilon^2\rho^2(1-\gamma)^4}\right)$および$\widetilde{O}\left(\frac{|\mathcal{S}|}{\nu_{\min}\varepsilon^2\rho^2(1-\gamma)^4}\right)$であることを示している。 非漸近的パフォーマンスに関する先行研究は、klボールと$(s,a)$-rectangular の仮定で制限されているが、より一般的な $s$-rectangular の仮定にも拡張し、$(s,a)$-rectangular の仮定よりも大きなサンプルの複雑さをもたらす。

In this paper, we study the non-asymptotic performance of optimal policy on robust value function with true transition dynamics. The optimal robust policy is solved from a generative model or offline dataset without access to true transition dynamics. In particular, we consider three different uncertainty sets including the $L_1$, $\chi^2$ and KL balls in both $(s,a)$-rectangular and $s$-rectangular assumptions. Our results show that when we assume $(s,a)$-rectangular on uncertainty sets, the sample complexity is about $\widetilde{O}\left(\frac{|\mathcal{S}|^2|\mathcal{A}|}{\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the generative model setting and $\widetilde{O}\left(\frac{|\mathcal{S}|}{\nu_{\min}\varepsilon^2\rho^2(1-\gamma)^4}\right)$ in the offline dataset setting. While prior works on non-asymptotic performances are restricted with the KL ball and $(s,a)$-rectangular assumption, we also extend our results to a more general $s$-rectangular assumption, which leads to a larger sample complexity than the $(s,a)$-rectangular assumption.
翻訳日:2021-05-11 15:16:54 公開日:2021-05-09
# 球対称分布下における方向収束解析

Directional Convergence Analysis under Spherically Symmetric Distribution ( http://arxiv.org/abs/2105.03879v1 )

ライセンス: Link先を確認
Dachao Lin, Zhihua Zhang(参考訳) 勾配流や勾配降下を伴うニューラルネットワークを用いた線形予測子(すなわち、ゼロマージンの分離可能なデータセット)の学習に関する基礎的な問題を考える。 球対称なデータ分布を仮定すると、2つの隠れノードを持つ2層非線形ネットワークと(ディープ)線形ネットワークの正確な収束率で方向収束保証を示す。 さらに,先行研究とは対照的に,初期損失と完全分類制約を伴わずに初期化から動的に発見する。 結果をさらに強化し、一般化する上での課題についても指摘し、検討する。

We consider the fundamental problem of learning linear predictors (i.e., separable datasets with zero margin) using neural networks with gradient flow or gradient descent. Under the assumption of spherically symmetric data distribution, we show directional convergence guarantees with exact convergence rate for two-layer non-linear networks with only two hidden nodes, and (deep) linear networks. Moreover, our discovery is built on dynamic from the initialization without both initial loss and perfect classification constraint in contrast to previous works. We also point out and study the challenges in further strengthening and generalizing our results.
翻訳日:2021-05-11 15:16:16 公開日:2021-05-09
# 混合型変数を持つ(In)依存性のベイズカーネル化試験

Bayesian Kernelised Test of (In)dependence with Mixed-type Variables ( http://arxiv.org/abs/2105.04001v1 )

ライセンス: Link先を確認
Alessio Benavoli and Cassio de Campos(参考訳) AIの基本課題は、混合型変数(テキスト、画像、音声)間の(独立性)を評価することである。 本稿では,ディリクレ過程モデルを用いた(in)依存性のベイズ核化相関テストを提案する。 データに基づいて、(混合型)変数は独立しているか? 依存/依存の確率はどのくらいか? 2つの混合型変数が単に弱依存以上である確率はどのくらい高いか? 理論的には,提案手法の特性と,それを用いた高速計算アルゴリズムを示す。 提案手法の有効性を,その性能を解析し,混合型変数を用いたデータセットやタスクについて,他の頻度主義的手法やベイズ的手法と比較することにより実証的に実証する。

A fundamental task in AI is to assess (in)dependence between mixed-type variables (text, image, sound). We propose a Bayesian kernelised correlation test of (in)dependence using a Dirichlet process model. The new measure of (in)dependence allows us to answer some fundamental questions: Based on data, are (mixed-type) variables independent? How likely is dependence/independe nce to hold? How high is the probability that two mixed-type variables are more than just weakly dependent? We theoretically show the properties of the approach, as well as algorithms for fast computation with it. We empirically demonstrate the effectiveness of the proposed method by analysing its performance and by comparing it with other frequentist and Bayesian approaches on a range of datasets and tasks with mixed-type variables.
翻訳日:2021-05-11 15:16:06 公開日:2021-05-09
# ディープラーニングの現代数学

The Modern Mathematics of Deep Learning ( http://arxiv.org/abs/2105.04026v1 )

ライセンス: Link先を確認
Julius Berner, Philipp Grohs, Gitta Kutyniok, Philipp Petersen(参考訳) 深層学習の数学的解析の新しい分野について述べる。 この分野は、古典的学習理論の枠組みでは答えられていない研究質問のリストを中心に出現した。 過剰パラメータ化されたニューラルネットワークの卓越した一般化能力、深層アーキテクチャにおける奥行きの役割、次元の呪いの明らかな欠如、問題の非凸性にも拘わらず驚くほどの最適化性能、どの特徴が学習されているかを理解し、なぜ深いアーキテクチャが物理的問題において異常によく機能するのか、アーキテクチャの微妙な側面が学習タスクの振る舞いにどのような影響を及ぼすのか、といった疑問である。 これらの疑問に部分的に答える近代的アプローチの概要を述べる。 選択されたアプローチに対しては、主要なアイデアをより詳細に記述する。

We describe the new field of mathematical analysis of deep learning. This field emerged around a list of research questions that were not answered within the classical framework of learning theory. These questions concern: the outstanding generalization power of overparametrized neural networks, the role of depth in deep architectures, the apparent absence of the curse of dimensionality, the surprisingly successful optimization performance despite the non-convexity of the problem, understanding what features are learned, why deep architectures perform exceptionally well in physical problems, and which fine aspects of an architecture affect the behavior of a learning task in which way. We present an overview of modern approaches that yield partial answers to these questions. For selected approaches, we describe the main ideas in more detail.
翻訳日:2021-05-11 15:15:54 公開日:2021-05-09
# 深部生成モデルを用いた特異分布の非パラメトリック推定への可能性

A likelihood approach to nonparametric estimation of a singular distribution using deep generative models ( http://arxiv.org/abs/2105.04046v1 )

ライセンス: Link先を確認
Minwoo Chae, Dongha Kim, Yongdai Kim, Lizhen Lin(参考訳) 深部生成モデルを用いた特異分布の非パラメトリック推定に対する確率的アプローチの統計的特性について検討する。 より具体的には、ある低次元構造の周りに集中すると仮定される高次元データをモデル化するために、深い生成モデルが用いられる。 低次元多様体のようなこの低次元構造に支持される分布を推定することは、その特異性から周囲空間のルベーグ測度に関して難しい。 検討されたモデルでは、通常の確率的アプローチは特異性のために目標分布を常に推定できない。 そこで,本論文では,データに最適な収束率で基礎となる分布を一貫した推定をもたらすインスタンスノイズを摂動することで,新しい効率的な解が存在することを示す。 また,深層生成モデルを用いて効率的に推定できる分布のクラスを特徴付ける。 このクラスは、積分布、古典的に滑らかな分布、低次元多様体上で支持される分布といった様々な構造化分布を含むのに十分一般的である。 本解析は,非パラメトリック分布推定における次元の呪いを避けるための深い生成モデルに関する知見を与える。 提案手法が推定性能を大幅に向上することを示すために,詳細なシミュレーション研究と実データ解析を行い,実データ解析を行った。

We investigate statistical properties of a likelihood approach to nonparametric estimation of a singular distribution using deep generative models. More specifically, a deep generative model is used to model high-dimensional data that are assumed to concentrate around some low-dimensional structure. Estimating the distribution supported on this low-dimensional structure such as a low-dimensional manifold is challenging due to its singularity with respect to the Lebesgue measure in the ambient space. In the considered model, a usual likelihood approach can fail to estimate the target distribution consistently due to the singularity. We prove that a novel and effective solution exists by perturbing the data with an instance noise which leads to consistent estimation of the underlying distribution with desirable convergence rates. We also characterize the class of distributions that can be efficiently estimated via deep generative models. This class is sufficiently general to contain various structured distributions such as product distributions, classically smooth distributions and distributions supported on a low-dimensional manifold. Our analysis provides some insights on how deep generative models can avoid the curse of dimensionality for nonparametric distribution estimation. We conduct thorough simulation study and real data analysis to empirically demonstrate that the proposed data perturbation technique improves the estimation performance significantly.
翻訳日:2021-05-11 15:15:40 公開日:2021-05-09
# 画像ベース機械学習を用いた養殖における魚病検出

Fish Disease Detection Using Image Based Machine Learning Technique in Aquaculture ( http://arxiv.org/abs/2105.03934v1 )

ライセンス: Link先を確認
Md Shoaib Ahmed, Tanjim Taharat Aurpa, Md. Abul Kalam Azad(参考訳) 養殖における魚の病気は栄養の安全にとって重大な危険である。 養殖場における感染した魚類の同定は、必要なインフラの確保のため、早期発見が困難である。 感染した魚をタイムリーに識別することは、病気の拡散を防ぐための義務である。 本研究は,サケの養殖が世界最速の食品生産システムであり,市場の70%(250万トン)を占めることから,養殖におけるサケの病気の解明を目指すものである。 欠陥のない画像処理と機械学習機構の連携により,様々な病原体によって引き起こされる感染した魚類を同定した。 この仕事は2つの部分に分けられる。 ルーディメンタリー部では、画像の前処理とセグメンテーションを適用してノイズを低減し、画像を誇張している。 第2部では,カーネル機能を持つ機械学習のsvm( support vector machine)アルゴリズムの助けを借りて,疾患を分類するための関連する特徴を抽出する。 最初の部分の処理されたイメージはこの(SVM)モデルを通過した。 そこで本研究では,サケ画像データセットを用いて魚の病気を調査する手法と組み合わせた総合実験を行った。 我々は、画像拡張の有無に関わらず、この作業を新しいデータセットで伝達した。 その結果, 適用したSVMの精度は91.42と94.12%で, 増補および無増補による評価が得られた。

Fish diseases in aquaculture constitute a significant hazard to nutriment security. Identification of infected fishes in aquaculture remains challenging to find out at the early stage due to the dearth of necessary infrastructure. The identification of infected fish timely is an obligatory step to thwart from spreading disease. In this work, we want to find out the salmon fish disease in aquaculture, as salmon aquaculture is the fastest-growing food production system globally, accounting for 70 percent (2.5 million tons) of the market. In the alliance of flawless image processing and machine learning mechanism, we identify the infected fishes caused by the various pathogen. This work divides into two portions. In the rudimentary portion, image pre-processing and segmentation have been applied to reduce noise and exaggerate the image, respectively. In the second portion, we extract the involved features to classify the diseases with the help of the Support Vector Machine (SVM) algorithm of machine learning with a kernel function. The processed images of the first portion have passed through this (SVM) model. Then we harmonize a comprehensive experiment with the proposed combination of techniques on the salmon fish image dataset used to examine the fish disease. We have conveyed this work on a novel dataset compromising with and without image augmentation. The results have bought a judgment of our applied SVM performs notably with 91.42 and 94.12 percent of accuracy, respectively, with and without augmentation.
翻訳日:2021-05-11 15:13:43 公開日:2021-05-09
# FastCorrect: 自動音声認識のための編集アライメントによる誤り訂正

FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition ( http://arxiv.org/abs/2105.03842v1 )

ライセンス: Link先を確認
Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu, Tao Qin, Xiang-Yang Li, Ed Lin, Tie-Yan Liu(参考訳) 誤り訂正技術は、自動音声認識(ASR)モデルから出力文を洗練させ、元のASR出力よりも低い単語誤り率(WER)を達成するために用いられている。 従来の著作では、asr出力文を自己回帰的に修正するシーケンシャル・ツー・シーケンス・モデルを使用しており、これは大きなレイテンシを引き起こし、オンラインasrサービスではデプロイできない。 非自己回帰型(nar)ニューラルマシン翻訳にインスパイアされたレイテンシを削減するための簡単な解決策は、asrエラー訂正にnarシーケンス生成モデルを使用することだが、asrエラー率を大幅に増加させるコストがかかる。 本稿では,ASRにおける独特の誤りパターンと修正操作(挿入,削除,置換)を観察し,編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。 トレーニングにおいて、FastCorrectは、ソースとターゲット文間の編集距離に基づいて、ASR出力文から各ソーストークンを対応する接頭辞からターゲットトークンに調整し、エディション/修正時に各ソーストークンに対応するターゲットトークン数を抽出し、長さ予測器をトレーニングし、ソーストークンを調整して、ターゲット文の長さを並列生成する。 推論において、長さ予測器によって予測されるトークン番号は、ターゲットシーケンス生成のソーストークンを調整するために使用される。 一般のAISHELL-1データセットと産業規模のASRデータセットを用いた実験では,ASR誤り訂正のためのFastCorrectの有効性が示された。1) 推論を6~9倍に高速化し,自己回帰補正モデルと比較して精度(8~14% WER削減)を維持し,2) ニューラルネットワーク翻訳で採用される一般的なNARモデルの精度を大きなマージンで上回る。

Error correction techniques have been used to refine the output sentences from automatic speech recognition (ASR) models and achieve a lower word error rate (WER) than original ASR outputs. Previous works usually use a sequence-to-sequence model to correct an ASR output sentence autoregressively, which causes large latency and cannot be deployed in online ASR services. A straightforward solution to reduce latency, inspired by non-autoregressive (NAR) neural machine translation, is to use an NAR sequence generation model for ASR error correction, which, however, comes at the cost of significantly increased ASR error rate. In this paper, observing distinctive error patterns and correction operations (i.e., insertion, deletion, and substitution) in ASR, we propose FastCorrect, a novel NAR error correction model based on edit alignment. In training, FastCorrect aligns each source token from an ASR output sentence to the target tokens from the corresponding ground-truth sentence based on the edit distance between the source and target sentences, and extracts the number of target tokens corresponding to each source token during edition/correction, which is then used to train a length predictor and to adjust the source tokens to match the length of the target sentence for parallel generation. In inference, the token number predicted by the length predictor is used to adjust the source tokens for target sequence generation. Experiments on the public AISHELL-1 dataset and an internal industrial-scale ASR dataset show the effectiveness of FastCorrect for ASR error correction: 1) it speeds up the inference by 6-9 times and maintains the accuracy (8-14% WER reduction) compared with the autoregressive correction model; and 2) it outperforms the accuracy of popular NAR models adopted in neural machine translation by a large margin.
翻訳日:2021-05-11 15:12:29 公開日:2021-05-09
# 量的トレーディングのためのエキスパート軌道を用いた強化学習

Reinforcement Learning with Expert Trajectory For Quantitative Trading ( http://arxiv.org/abs/2105.03844v1 )

ライセンス: Link先を確認
Sihang Chen, Weiqi Luo and Chao Yu(参考訳) 近年、定量的な投資手法と人工知能が組み合わさって、投資家や研究者の注目を集めている。 教師付き学習に基づく既存の手法は、将来的な取引における長期的な目標と遅延報酬の学習にはあまり適していない。 そこで本稿では,価格予測問題をマルコフ決定過程(MDP)としてモデル化し,専門家軌道による強化学習により最適化する。 提案手法では,MDPの状態を記述するための既存手法において,価格・ボリューム・技術的要因の代わりに,100以上の短期的アルファ因子を用いる。 さらに, DQN (Deep Q-learning) やBC (Behavior cloning) と異なり, 訓練段階のエキスパート体験を導入し, 専門家-環境相互作用とエージェント-環境相互作用の両方を考慮し, 時間差誤差を設計し, エージェントが金融データの避けられないノイズに適応できるようにした。 IF (CSI 300) とIC (CSI 500) を含む中国における株価指数の将来を実験的に評価した結果, 提案手法の利点が3つの典型的な技術分析と2つの深い傾きに基づく手法と比較された。

In recent years, quantitative investment methods combined with artificial intelligence have attracted more and more attention from investors and researchers. Existing related methods based on the supervised learning are not very suitable for learning problems with long-term goals and delayed rewards in real futures trading. In this paper, therefore, we model the price prediction problem as a Markov decision process (MDP), and optimize it by reinforcement learning with expert trajectory. In the proposed method, we employ more than 100 short-term alpha factors instead of price, volume and several technical factors in used existing methods to describe the states of MDP. Furthermore, unlike DQN (deep Q-learning) and BC (behavior cloning) in related methods, we introduce expert experience in training stage, and consider both the expert-environment interaction and the agent-environment interaction to design the temporal difference error so that the agents are more adaptable for inevitable noise in financial data. Experimental results evaluated on share price index futures in China, including IF (CSI 300) and IC (CSI 500), show that the advantages of the proposed method compared with three typical technical analysis and two deep leaning based methods.
翻訳日:2021-05-11 15:10:59 公開日:2021-05-09
# MS MARCO: 大規模データレジームにおけるランキングモデルのベンチマーク

MS MARCO: Benchmarking Ranking Models in the Large-Data Regime ( http://arxiv.org/abs/2105.04021v1 )

ライセンス: Link先を確認
Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos and Jimmy Lin(参考訳) TREC,CLEF,NTCIR,FIRE などの評価活動とMS MARCOのような公共のリーダーボードは,研究の促進と進捗の追跡を目的としており,我々の分野における大きな疑問に対処している。 しかし、ゴールは単にどのランがベストかを特定することではなく、トップスコアを達成することである。 目標は、さまざまな環境で機能し、研究や実践で採用される、新しい堅牢な技術を開発することによって、分野を前進させることだ。 本稿では,MS MARCO と TREC Deep Learning Track を事例として,1990年代の TREC アドホックランキングと比較した。 評価の取り組みのデザインは、ある成果を奨励または阻止し、結果の内部的および外部的妥当性に関する疑問を提起する。 我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。 これまでの取り組みの進捗状況を要約し、望まれる“ロバストな有用性”の最後状態と、私たちをそこに導くために必要なステップについて説明する。

Evaluation efforts such as TREC, CLEF, NTCIR and FIRE, alongside public leaderboard such as MS MARCO, are intended to encourage research and track our progress, addressing big questions in our field. However, the goal is not simply to identify which run is "best", achieving the top score. The goal is to move the field forward by developing new robust techniques, that work in many different settings, and are adopted in research and practice. This paper uses the MS MARCO and TREC Deep Learning Track as our case study, comparing it to the case of TREC ad hoc ranking in the 1990s. We show how the design of the evaluation effort can encourage or discourage certain outcomes, and raising questions about internal and external validity of results. We provide some analysis of certain pitfalls, and a statement of best practices for avoiding such pitfalls. We summarize the progress of the effort so far, and describe our desired end state of "robust usefulness", along with steps that might be required to get us there.
翻訳日:2021-05-11 15:10:36 公開日:2021-05-09
# 機械学習におけるバウンディング情報漏洩

Bounding Information Leakage in Machine Learning ( http://arxiv.org/abs/2105.03875v1 )

ライセンス: Link先を確認
Ganesh Del Grosso, Georg Pichler, Catuscia Palamidessi, Pablo Piantanida(参考訳) 機械学習サービスは、アルゴリズムと/またはモデルを使用して敵が機密データにアクセスしやすいように、広範囲のアプリケーションにデプロイされている。 本稿では,情報漏洩の基本的な境界について検討する。 まず、最悪の場合のメンバシップ推論攻撃の成功率を特定し、それをターゲットモデルの一般化エラーに結びつける。 第2に,トレーニングセットに関するアルゴリズムがどれだけの機密情報を格納しているかという問題について検討し,機密属性とモデルパラメータの相互情報の境界を導出する。 我々の貢献はほとんどが理論的な性質であるが、境界と関連する概念は実際的妥当性がある。 理論解析に触発されて,線形回帰モデルとdnnモデルを用いて,mlモデルのプライバシ保証を評価する手法について検討した。

Machine Learning services are being deployed in a large range of applications that make it easy for an adversary, using the algorithm and/or the model, to gain access to sensitive data. This paper investigates fundamental bounds on information leakage. First, we identify and bound the success rate of the worst-case membership inference attack, connecting it to the generalization error of the target model. Second, we study the question of how much sensitive information is stored by the algorithm about the training set and we derive bounds on the mutual information between the sensitive attributes and model parameters. Although our contributions are mostly of theoretical nature, the bounds and involved concepts are of practical relevance. Inspired by our theoretical analysis, we study linear regression and DNN models to illustrate how these bounds can be used to assess the privacy guarantees of ML models.
翻訳日:2021-05-11 15:08:12 公開日:2021-05-09
# 視覚誘導型自動運転車への学習イメージアタック

Learning Image Attacks toward Vision Guided Autonomous Vehicles ( http://arxiv.org/abs/2105.03834v1 )

ライセンス: Link先を確認
Hyung-Jin Yoon, Hamid Jafarnejad Sani, Petros Voulgaris(参考訳) 対向ニューラルネットワークは静的な画像攻撃で成功したことが示されているが、自動運転車の基盤となる物理的ダイナミクス、そのミッション、環境を考慮して、オンライン画像ストリームを攻撃するためのアプローチはごく少数である。 本稿では,自動運転車のミッションを効果的に誤ることのできる,オンライン対向機械学習フレームワークを提案する。 自動運転車向けに開発された既存の画像攻撃手法では、各画像フレームに対して最適化ステップが繰り返される。 このフレームワークは、リアルタイムでイメージアタックを実現するために、各フレームで完全に収束した最適化の必要性を取り除く。 強化学習を用いて、生成ニューラルネットワークは一連の画像フレーム上でトレーニングされ、動的で不確実な環境に対してより堅牢な攻撃ポリシーを得る。 画像ストリームを処理するための状態推定器を導入し、未知の位置や速度などの物理変数に対する攻撃ポリシーの感度を低下させる。 結果を検証するためのシミュレーション研究が提供されている。

While adversarial neural networks have been shown successful for static image attacks, very few approaches have been developed for attacking online image streams while taking into account the underlying physical dynamics of autonomous vehicles, their mission, and environment. This paper presents an online adversarial machine learning framework that can effectively misguide autonomous vehicles' missions. In the existing image attack methods devised toward autonomous vehicles, optimization steps are repeated for every image frame. This framework removes the need for fully converged optimization at every frame to realize image attacks in real-time. Using reinforcement learning, a generative neural network is trained over a set of image frames to obtain an attack policy that is more robust to dynamic and uncertain environments. A state estimator is introduced for processing image streams to reduce the attack policy's sensitivity to physical variables such as unknown position and velocity. A simulation study is provided to validate the results.
翻訳日:2021-05-11 15:07:10 公開日:2021-05-09
# DiagSet:前立腺癌組織像分類のためのデータセット

DiagSet: a dataset for prostate cancer histopathological image classification ( http://arxiv.org/abs/2105.04014v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski, Bogus{\l}aw Cyganek, Bogus{\l}aw Olborski, Zbigniew Antosz, Marcin \.Zydak, Bogdan Kwolek, Pawe{\l} W\k{a}sowicz, Andrzej Buka{\l}a, Jakub Swad\'zba, Piotr Sitkowski(参考訳) がん疾患は最も重要な社会的課題の1つである。 本稿では前立腺癌検出のための新しい病理組織学的データセットを提案する。 提案したデータセットは、430件の完全アノテートスキャンから抽出された260万以上の組織パッチ、4675件のバイナリ診断によるスキャン、46件の組織病理学者グループによる診断によるスキャンからなり、https://ai-econsilio .diag.plで見ることができる。 さらに,癌組織領域の検出とスキャンレベルの診断の予測を行う機械学習フレームワークを提案する。 実験評価の結果,ラベルノイズの存在,データ不均衡,データ量など,検討モデルの性能に悪影響を及ぼす要因がいくつか見いだされ,さらなる研究の基盤となる。 提案手法は、異なるスケールの組織学的スキャンで動作するディープニューラルネットワークのアンサンブルで構成され、パッチレベルの認識において94.6%の精度を達成し、9人の病理学者とスキャンレベルの診断で比較される。

Cancer diseases constitute one of the most significant societal challenges. In this paper we introduce a novel histopathological dataset for prostate cancer detection. The proposed dataset, consisting of over 2.6 million tissue patches extracted from 430 fully annotated scans, 4675 scans with assigned binary diagnosis, and 46 scans with diagnosis given independently by a group of histopathologists, can be found at https://ai-econsilio .diag.pl. Furthermore, we propose a machine learning framework for detection of cancerous tissue regions and prediction of scan-level diagnosis, utilizing thresholding and statistical analysis to abstain from the decision in uncertain cases. During the experimental evaluation we identify several factors negatively affecting the performance of considered models, such as presence of label noise, data imbalance, and quantity of data, that can serve as a basis for further research. The proposed approach, composed of ensembles of deep neural networks operating on the histopathological scans at different scales, achieves 94.6% accuracy in patch-level recognition, and is compared in a scan-level diagnosis with 9 human histopathologists.
翻訳日:2021-05-11 15:06:56 公開日:2021-05-09
# コヒーレンス強化テキストプランニングによる知識ベースレビュー生成

Knowledge-based Review Generation by Coherence Enhanced Text Planning ( http://arxiv.org/abs/2105.03815v1 )

ライセンス: Link先を確認
Junyi Li, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan and Ji-Rong Wen(参考訳) 自然言語生成タスクとして、情報的かつ一貫性のあるレビューテキストを生成することは困難である。 生成されたテキストの情報性を高めるために、既存のソリューションは通常、知識グラフ(KG)からエンティティやトリプルをコピーすることを学ぶ。 しかし,テキストの一貫性を損なう傾向にある包括的知識の選択と整理は,全体として考慮されていない。 上記の課題に対処するため、我々は、KGのセマンティック構造を活用して、生成したレビューのエンティティ中心のコヒーレンスを改善することに重点を置いている。 本稿では,知識グラフ(KG)に基づく新しいコヒーレンス拡張テキスト計画モデル(CETP)を提案し,レビュー生成におけるグローバルおよびローカルのコヒーレンスを改善する。 提案モデルは文書を生成するための2段階のテキストプランを学習する:(1)文書プランは文計画の順序としてモデル化され、(2)文プランはkgからエンティティベースのサブグラフとしてモデル化される。 局所コヒーレンスをKGサブグラフによって自然に強制することができる。 グローバルコヒーレンスのために,サブグラフとノードレベルの双方に注意を払って,サブグラフ間の相関性を高める階層的自己意図アーキテクチャを設計する。 我々の知る限り、我々はレビュー生成のためのテキストコヒーレンスを高めるためにKGベースのテキストプランニングモデルを利用した最初の人です。 3つのデータセットに関する広範囲な実験により,生成されたテキストのコンテントコヒーレンス向上におけるモデルの有効性を確認した。

As a natural language generation task, it is challenging to generate informative and coherent review text. In order to enhance the informativeness of the generated text, existing solutions typically learn to copy entities or triples from knowledge graphs (KGs). However, they lack overall consideration to select and arrange the incorporated knowledge, which tends to cause text incoherence. To address the above issue, we focus on improving entity-centric coherence of the generated reviews by leveraging the semantic structure of KGs. In this paper, we propose a novel Coherence Enhanced Text Planning model (CETP) based on knowledge graphs (KGs) to improve both global and local coherence for review generation. The proposed model learns a two-level text plan for generating a document: (1) the document plan is modeled as a sequence of sentence plans in order, and (2) the sentence plan is modeled as an entity-based subgraph from KG. Local coherence can be naturally enforced by KG subgraphs through intra-sentence correlations between entities. For global coherence, we design a hierarchical self-attentive architecture with both subgraph- and node-level attention to enhance the correlations between subgraphs. To our knowledge, we are the first to utilize a KG-based text planning model to enhance text coherence for review generation. Extensive experiments on three datasets confirm the effectiveness of our model on improving the content coherence of generated texts.
翻訳日:2021-05-11 15:03:24 公開日:2021-05-09
# ローフォーマー:中国の法律文書のための事前訓練された言語モデル

Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents ( http://arxiv.org/abs/2105.03887v1 )

ライセンス: Link先を確認
Chaojun Xiao, Xueyu Hu, Zhiyuan Liu, Cunchao Tu, Maosong Sun(参考訳) 法律人工知能(LegalAI)は、人工知能、特に自然言語処理(NLP)の技術により、法体系の恩恵を受けることを目的としている。 近年、ジェネリックドメインにおける事前学習言語モデル(PLM)の成功に触発されて、多くの LegalAI 研究者が法的タスクに PLM を適用する取り組みに取り組んだ。 しかし、法律文書は通常数千のトークンで構成されており、主流のplmが処理できる期間よりもはるかに長いため、plmを法的タスクに利用することは依然として困難である。 本稿では,中国法定長文理解のためのLongformer-based pre-trained language model,Lawformer をリリースする。 判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。 実験結果から,本モデルでは,長い文書を入力としてタスクに対して有望な改善を達成できることが示された。

Legal artificial intelligence (LegalAI) aims to benefit legal systems with the technology of artificial intelligence, especially natural language processing (NLP). Recently, inspired by the success of pre-trained language models (PLMs) in the generic domain, many LegalAI researchers devote their effort to apply PLMs to legal tasks. However, utilizing PLMs to address legal tasks is still challenging, as the legal documents usually consist of thousands of tokens, which is far longer than the length that mainstream PLMs can process. In this paper, we release the Longformer-based pre-trained language model, named as Lawformer, for Chinese legal long documents understanding. We evaluate Lawformer on a variety of LegalAI tasks, including judgment prediction, similar case retrieval, legal reading comprehension, and legal question answering. The experimental results demonstrate that our model can achieve promising improvement on tasks with long documents as inputs.
翻訳日:2021-05-11 15:03:00 公開日:2021-05-09
# 局所特徴記述子に対するリバースエンジニアリングアタックの解析と軽減

Analysis and Mitigations of Reverse Engineering Attacks on Local Feature Descriptors ( http://arxiv.org/abs/2105.03812v1 )

ライセンス: Link先を確認
Deeksha Dangwal, Vincent T. Lee, Hyo Jin Kim, Tianwei Shen, Meghan Cowan, Rajvi Shah, Caroline Trippel, Brandon Reagen, Timothy Sherwood, Vasileios Balntas, Armin Alaghi, Eddy Ilg(参考訳) 自動運転と拡張現実が進化するにつれ、実際の懸念はデータのプライバシーである。 特に、これらのアプリケーションはユーザイメージに基づくローカライズに依存している。 広く採用されている技術は、画像から派生したローカルな特徴記述子を使用しており、戻せないと長年考えられてきた。 しかし、最近の研究は、ある条件下ではリバースエンジニアリング攻撃が可能であり、敵がRGB画像を再構築できることを示した。 これはユーザプライバシに潜在的なリスクをもたらす。 これを一歩進めて、潜在的な敵をプライバシー脅威モデルを使ってモデル化する。 制御条件下では,スパース特徴マップに対するリバースエンジニアリング攻撃を行い,FREAK,SIFT,SOSNetなどの一般的な記述子の脆弱性を分析する。 最後に,画像マッチングの精度を保ちつつ,プライバシ再構築のリスクを慎重にバランスさせるために,記述子のサブセットを選択する潜在的な緩和手法を評価する。

As autonomous driving and augmented reality evolve, a practical concern is data privacy. In particular, these applications rely on localization based on user images. The widely adopted technology uses local feature descriptors, which are derived from the images and it was long thought that they could not be reverted back. However, recent work has demonstrated that under certain conditions reverse engineering attacks are possible and allow an adversary to reconstruct RGB images. This poses a potential risk to user privacy. We take this a step further and model potential adversaries using a privacy threat model. Subsequently, we show under controlled conditions a reverse engineering attack on sparse feature maps and analyze the vulnerability of popular descriptors including FREAK, SIFT and SOSNet. Finally, we evaluate potential mitigation techniques that select a subset of descriptors to carefully balance privacy reconstruction risk while preserving image matching accuracy; our results show that similar accuracy can be obtained when revealing less information.
翻訳日:2021-05-11 14:56:20 公開日:2021-05-09
# TrTr: Transformerを使ったビジュアルトラッキング

TrTr: Visual Tracking with Transformer ( http://arxiv.org/abs/2105.03817v1 )

ライセンス: Link先を確認
Moju Zhao and Kei Okada and Masayuki Inaba(参考訳) テンプレートベースの識別トラッカーは、その頑健さと精度から現在主流のトラッキング手法であり、テンプレートと検索画像から抽出した特徴間の相互相関操作に依存するシームズネットワークベースの手法は、最先端のトラッキング性能を示している。 しかし、一般相関演算は2つの特徴写像における局所パッチ間の関係しか得られない。 本稿では,トランスコーダ・デコーダアーキテクチャと呼ばれる強力な注意機構に基づく新しいトラッカネットワークを提案する。 本発明の新しいアーキテクチャでは、テンプレート画像の特徴をエンコーダ部の自己保持モジュールで処理し、強いコンテキスト情報を学び、デコーダ部に送信して、他の自己保持モジュールによって処理された検索画像特徴との相互注意を算出する。 さらに,形状非依存アンカーに基づいてターゲットをローカライズするトランスの出力を用いて,分類と回帰ヘッドを設計する。 トラッカーTrTrTr, VOT2018, VOT2019, OTB-100, UAV, NfS, TrackingNet, LaSOTベンチマークを広範囲に評価した。 トレーニングコードと事前トレーニングされたモデルは、https://github.com/t ongtybj/trtr.comで入手できる。

Template-based discriminative trackers are currently the dominant tracking methods due to their robustness and accuracy, and the Siamese-network-base d methods that depend on cross-correlation operation between features extracted from template and search images show the state-of-the-art tracking performance. However, general cross-correlation operation can only obtain relationship between local patches in two feature maps. In this paper, we propose a novel tracker network based on a powerful attention mechanism called Transformer encoder-decoder architecture to gain global and rich contextual interdependencies. In this new architecture, features of the template image is processed by a self-attention module in the encoder part to learn strong context information, which is then sent to the decoder part to compute cross-attention with the search image features processed by another self-attention module. In addition, we design the classification and regression heads using the output of Transformer to localize target based on shape-agnostic anchor. We extensively evaluate our tracker TrTr, on VOT2018, VOT2019, OTB-100, UAV, NfS, TrackingNet, and LaSOT benchmarks and our method performs favorably against state-of-the-art algorithms. Training code and pretrained models are available at https://github.com/t ongtybj/TrTr.
翻訳日:2021-05-11 14:56:05 公開日:2021-05-09
# 画像キャプションのためのニューラル画像キャプションとk-nearest近傍アプローチを組み合わせたハイブリッドモデル

A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor Approach for Image Captioning ( http://arxiv.org/abs/2105.03826v1 )

ライセンス: Link先を確認
Kartik Arora, Ajul Raj, Arun Goel, Seba Susan(参考訳) 画像の内容を記述するテキストベースの要約を生成するために,2つの一般的な画像キャプション手法を統合するハイブリッドモデルを提案する。 2つの画像キャプションモデルは、Neural Image Caption (NIC) と k-nearest 隣のアプローチである。 これらは個別にトレーニングセットでトレーニングされる。 検証セットから,ロジスティック回帰分類器の学習に使用される2つのモデルの結果を評価するための5つの特徴セットを抽出する。 2つのモデルのbleu-4スコアを比較し、ロジスティック回帰分類器の2値基底真理を生成する。 テストセットでは、入力画像はまず2つのモデルに別々に渡され、個々のキャプションを生成する。 2つのモデルから抽出された5次元特徴セットをロジスティック回帰分類器に渡して、モデルが生成した2つのキャプションのうちベストである最終キャプションについて決定する。 k-アネレスト隣接モデルの実装はBLEU-4スコアが15.95であり、NICモデルはベンチマークFlickr8kデータセット上でBLEU-4スコアが16.01である。 提案したハイブリッドモデルでは, BLEU-4スコアの18.20を達成でき, 提案手法の有効性を証明できる。

A hybrid model is proposed that integrates two popular image captioning methods to generate a text-based summary describing the contents of the image. The two image captioning models are the Neural Image Caption (NIC) and the k-nearest neighbor approach. These are trained individually on the training set. We extract a set of five features, from the validation set, for evaluating the results of the two models that in turn is used to train a logistic regression classifier. The BLEU-4 scores of the two models are compared for generating the binary-value ground truth for the logistic regression classifier. For the test set, the input images are first passed separately through the two models to generate the individual captions. The five-dimensional feature set extracted from the two models is passed to the logistic regression classifier to take a decision regarding the final caption generated which is the best of two captions generated by the models. Our implementation of the k-nearest neighbor model achieves a BLEU-4 score of 15.95 and the NIC model achieves a BLEU-4 score of 16.01, on the benchmark Flickr8k dataset. The proposed hybrid model is able to achieve a BLEU-4 score of 18.20 proving the validity of our approach.
翻訳日:2021-05-11 14:55:43 公開日:2021-05-09
# 単眼的デラリングを超えて--semantic priorによる並列ステレオデラリングネットワーク

Beyond Monocular Deraining: Parallel Stereo Deraining Network Via Semantic Prior ( http://arxiv.org/abs/2105.03830v1 )

ライセンス: Link先を確認
Kaihao Zhang, Wenhan Luo, Yanjiang Yu, Wenqi Ren, Fang Zhao, Changsheng Li, Lin Ma, Wei Liu, Hongdong Li(参考訳) 雨は一般的な自然現象である。 しかし、雨の中で画像を取ると画像の品質が劣化し、多くのコンピュータビジョンシステムの性能が損なわれる。 既存のデレインアルゴリズムの多くは単一の入力画像のみを使用し、クリーンな画像を復元することを目指している。 ステレオ画像を利用した作品はほとんどない。 さらに、単一の画像ベースの単眼微分であっても、多くの現在の方法では、ピクセル損失関数に多く依存し、意味情報を無視するため、タスクを満足に完了できない。 本稿では,ステレオ画像と意味情報の両方を活用するPaired Rain removal Network(PRRNet)を提案する。 具体的には,シーンのセマンティクスセグメンテーションとデランシングの課題を解決するセマンティクスアウェア・デランシングモジュール(sadm)と,セマンティクス情報とマルチビュー情報をそれぞれ融合するセマンティクス・フュージョン・ネットワーク(sfnet)とビュー・フュージョン・ネットワーク(vfnet)を開発する。 また,ステレオ画像からの雨裂除去に先立って意味を活用したペア雨除去ネットワーク (eprrnet) も導入した。 まず, 入力画像の降雨量を削減するために粗いデラインネットワークを使用し, そして, 粗いデライン画像から意味的特徴を抽出するために, 事前学習されたセマンティックセグメンテーションネットワークを採用する。 最後に、並列ステレオデラミニングネットワークは、セマンティックとマルチビュー情報を融合してより微細な結果を復元する。 また,ベンチマークのためのステレオベース雨季データセットを提案する。 単分子および新たに提案したステレオ降雨データセットの両方の実験により,提案手法が最先端の性能を達成することを示す。

Rain is a common natural phenomenon. Taking images in the rain however often results in degraded quality of images, thus compromises the performance of many computer vision systems. Most existing de-rain algorithms use only one single input image and aim to recover a clean image. Few work has exploited stereo images. Moreover, even for single image based monocular deraining, many current methods fail to complete the task satisfactorily because they mostly rely on per pixel loss functions and ignore semantic information. In this paper, we present a Paired Rain Removal Network (PRRNet), which exploits both stereo images and semantic information. Specifically, we develop a Semantic-Aware Deraining Module (SADM) which solves both tasks of semantic segmentation and deraining of scenes, and a Semantic-Fusion Network (SFNet) and a View-Fusion Network (VFNet) which fuse semantic information and multi-view information respectively. In addition, we also introduce an Enhanced Paired Rain Removal Network (EPRRNet) which exploits semantic prior to remove rain streaks from stereo images. We first use a coarse deraining network to reduce the rain streaks on the input images, and then adopt a pre-trained semantic segmentation network to extract semantic features from the coarse derained image. Finally, a parallel stereo deraining network fuses semantic and multi-view information to restore finer results. We also propose new stereo based rainy datasets for benchmarking. Experiments on both monocular and the newly proposed stereo rainy datasets demonstrate that the proposed method achieves the state-of-the-art performance.
翻訳日:2021-05-11 14:55:20 公開日:2021-05-09
# 不均一リスク最小化

Heterogeneous Risk Minimization ( http://arxiv.org/abs/2105.03818v1 )

ライセンス: Link先を確認
Jiashuo Liu, Zheyuan Hu, Peng Cui, Bo Li, Zheyan Shen(参考訳) 経験的リスク最小化を伴う機械学習アルゴリズムは、通常、分散シフト下では安定しないトレーニングデータ間の相関関係の厳密な利用による一般化性能の低下に悩まされる。 近年,複数の学習環境を用いて不変関係を見出すことで,out-of-distribution (ood)一般化のための不変学習手法が提案されている。 しかし、現代のデータセットは、明示的なソースラベルなしで複数のソースからのデータをマージすることで、しばしば組み立てられる。 結果として観測されない不均一性は、多くの不変学習法を適用不能にする。 本稿では,データ間の不均一性の連成学習を実現するための不均一リスク最小化(HRM)フレームワークを提案する。 我々は、不変学習における環境ラベルの役割を理論的に特徴づけ、新たに提案したHRMフレームワークを正当化する。 HRMフレームワークの有効性を実験的に検証した。

Machine learning algorithms with empirical risk minimization usually suffer from poor generalization performance due to the greedy exploitation of correlations among the training data, which are not stable under distributional shifts. Recently, some invariant learning methods for out-of-distribution (OOD) generalization have been proposed by leveraging multiple training environments to find invariant relationships. However, modern datasets are frequently assembled by merging data from multiple sources without explicit source labels. The resultant unobserved heterogeneity renders many invariant learning methods inapplicable. In this paper, we propose Heterogeneous Risk Minimization (HRM) framework to achieve joint learning of latent heterogeneity among the data and invariant relationship, which leads to stable prediction despite distributional shifts. We theoretically characterize the roles of the environment labels in invariant learning and justify our newly proposed HRM framework. Extensive experimental results validate the effectiveness of our HRM framework.
翻訳日:2021-05-11 14:47:47 公開日:2021-05-09
# 多数決cumメタラーニング方式によるディープニューラルネットワークアンサンブルの評価

Evaluating Deep Neural Network Ensembles by Majority Voting cum Meta-Learning scheme ( http://arxiv.org/abs/2105.03819v1 )

ライセンス: Link先を確認
Anmol Jain, Aishwary Kumar, Seba Susan(参考訳) ディープニューラルネットワーク(DNN)は過度に適合する傾向があるため、高いばらつきがある。 オーバーフィットしたネットワークは、新しいデータインスタンスではうまく機能しない。 そこで、1つのDNNを分類器として使用する代わりに、これらのDNNへの入力のみをアーキテクチャと固有の特性を同一に保つことで、7つの独立したDNN学習者のアンサンブルを提案する。 トレーニング入力のバラツキを誘導するため、7つのDNN毎に、残りのサンプルからのブートストラップサンプリングによりデータの7分の1を削除して補充する。 我々は,このアンサンブルにおけるDNN学習者の予測を組み合わせた新しい手法を提案する。 提案手法は,最終クラスラベルを割り当てる前に,2段階のコンフィデンスチェックを実行するメタラーナーと組み合わさって,多数決による事前フィルタリングと呼ばれる。 この論文のアルゴリズムはすべて、名前付き、人的活動認識(har)、ガスセンサアレイドリフト、isolet、スパムベース、インターネット広告の5つのベンチマークデータセットでテストされている。 我々のアンサンブルアプローチは,1つのDNNと1つのDNNの平均的精度,および複数の投票・メタ学習のベースラインアプローチよりも高い精度を達成する。

Deep Neural Networks (DNNs) are prone to overfitting and hence have high variance. Overfitted networks do not perform well for a new data instance. So instead of using a single DNN as classifier we propose an ensemble of seven independent DNN learners by varying only the input to these DNNs keeping their architecture and intrinsic properties same. To induce variety in the training input, for each of the seven DNNs, one-seventh of the data is deleted and replenished by bootstrap sampling from the remaining samples. We have proposed a novel technique for combining the prediction of the DNN learners in the ensemble. Our method is called pre-filtering by majority voting coupled with stacked meta-learner which performs a two-step confi-dence check for the predictions before assigning the final class labels. All the algorithms in this paper have been tested on five benchmark datasets name-ly, Human Activity Recognition (HAR), Gas sensor array drift, Isolet, Spam-base and Internet advertisements. Our ensemble approach achieves higher accuracy than a single DNN and the average individual accuracies of DNNs in the ensemble, as well as the baseline approaches of plurality voting and meta-learning.
翻訳日:2021-05-11 14:47:32 公開日:2021-05-09
# 潜在ODEを用いたハイブリッド軌道の分割

Segmenting Hybrid Trajectories using Latent ODEs ( http://arxiv.org/abs/2105.03835v1 )

ライセンス: Link先を確認
Ruian Shi, Quaid Morris(参考訳) 不連続によって中断される滑らかなダイナミクスはハイブリッドシステムと呼ばれ、自然界で一般的に発生する。 遅延ODEは、不規則にサンプリングされた時系列の強力な表現を可能にするが、ハイブリッドシステムから発生する軌跡を捉えるように設計されていない。 本稿では、ラテントODEを用いて、ジャンプ不連続性や動的モードの切り替えを含むハイブリッドトラジェクトリ内の再構成と変更点検出を行うラテントセグメンテッドODE(LatSegODE)を提案する。 非連続性間のスムーズな動的流れについて遅延ODEを訓練することが可能な場合、pruned exact linear time (PELT)アルゴリズムを適用して、潜時力学が再起動する変化点を検出し、断片的連続潜時力学表現の結合確率を最大化する。 モデル複雑性に基づくペナリゼーションの必要性を回避し,peltのスコア関数としての限界可能性の利用を提案する。 latsegodeは、正弦波の合成データセット、ロトカ・ボルテラダイナミクス、uci文字軌道を含む再構成およびセグメンテーションタスクのベースラインを上回っている。

Smooth dynamics interrupted by discontinuities are known as hybrid systems and arise commonly in nature. Latent ODEs allow for powerful representation of irregularly sampled time series but are not designed to capture trajectories arising from hybrid systems. Here, we propose the Latent Segmented ODE (LatSegODE), which uses Latent ODEs to perform reconstruction and changepoint detection within hybrid trajectories featuring jump discontinuities and switching dynamical modes. Where it is possible to train a Latent ODE on the smooth dynamical flows between discontinuities, we apply the pruned exact linear time (PELT) algorithm to detect changepoints where latent dynamics restart, thereby maximizing the joint probability of a piece-wise continuous latent dynamical representation. We propose usage of the marginal likelihood as a score function for PELT, circumventing the need for model complexity-based penalization. The LatSegODE outperforms baselines in reconstructive and segmentation tasks including synthetic data sets of sine waves, Lotka Volterra dynamics, and UCI Character Trajectories.
翻訳日:2021-05-11 14:47:10 公開日:2021-05-09
# 時系列分類のための時間辞書アンサンブル(TDE)分類器

The Temporal Dictionary Ensemble (TDE) Classifier for Time Series Classification ( http://arxiv.org/abs/2105.03841v1 )

ライセンス: Link先を確認
Matthew Middlehurst, James Large, Gavin Cawley, Anthony Bagnall(参考訳) 時系列の言葉表現の袋を使うことは、時系列分類の一般的なアプローチである。 これらのアルゴリズムは、一連のウィンドウを近似して識別して単語を生成し、与えられた辞書上で単語を数える。 単語数の結果のヒストグラムに基づいて分類器を構築する。 2017年の時系列分類器の評価では、記号-フーリエ近似記号 (BOSS) の袋が辞書ベースの分類器の最も良い部分であることがわかった。 これは、現在の芸術の状況を表す変換ベースのアンサンブル(hive-cote)の階層的な投票集合の構成要素の1つである。 それ以来、bossよりも正確でスケーラブル(あるいは両方)な辞書ベースのアルゴリズムがいくつか提案されている。 本稿では,パラメータ空間の適応ガウス過程モデルに基づくアンサンブル部材構築のための新しい手法と,他の要素の最良の要素を組み合わせた辞書に基づく分類器の拡張を提案する。 時間辞書アンサンブル(TDE)は他の辞書ベース手法よりも正確であることを示す。 さらに、他の分類器とは異なり、HIVE-COTEのBOSSをTDEに置き換える場合、HIVE-COTEの方がはるかに正確である。 また、このHIVE-COTEの新バージョンは、現在の最良のディープラーニングアプローチ、最近提案されたハイブリッドツリーアンサンブル、そして高度にランダム化された畳み込みカーネルを用いた競合型分類器よりもはるかに正確であることを示す。 この進歩は、時系列分類のための新しい最先端技術である。

Using bag of words representations of time series is a popular approach to time series classification. These algorithms involve approximating and discretising windows over a series to form words, then forming a count of words over a given dictionary. Classifiers are constructed on the resulting histograms of word counts. A 2017 evaluation of a range of time series classifiers found the bag of symbolic-fourier approximation symbols (BOSS) ensemble the best of the dictionary based classifiers. It forms one of the components of hierarchical vote collective of transformation-based ensembles (HIVE-COTE), which represents the current state of the art. Since then, several new dictionary based algorithms have been proposed that are more accurate or more scalable (or both) than BOSS. We propose a further extension of these dictionary based classifiers that combines the best elements of the others combined with a novel approach to constructing ensemble members based on an adaptive Gaussian process model of the parameter space. We demonstrate that the temporal dictionary ensemble (TDE) is more accurate than other dictionary based approaches. Furthermore, unlike the other classifiers, if we replace BOSS in HIVE-COTE with TDE, HIVE-COTE is significantly more accurate. We also show this new version of HIVE-COTE is significantly more accurate than the current best deep learning approach, a recently proposed hybrid tree ensemble and a recently introduced competitive classifier making use of highly randomised convolutional kernels. This advance represents a new state of the art for time series classification.
翻訳日:2021-05-11 14:46:50 公開日:2021-05-09
# 新事業設立におけるバンキング顧客支援に配慮した動的特徴選択

Towards Dynamic Feature Selection with Attention to Assist Banking Customers in Establishing a New Business ( http://arxiv.org/abs/2105.03852v1 )

ライセンス: Link先を確認
Mohammad Amin Edrisi(参考訳) 新しいビジネスを確立するには、個人からビジネス、マーケティングのソースまで、さまざまな分野の知識獲得が必要かもしれない。 この課題は、購入行動、消費者購買信号、異なる場所の人口統計学的、社会経済的属性といった隠れたパターンや未知の相関を明らかにするために、様々なデータ島を調べる必要があるため、難しい。 本稿では,銀行や非銀行のデータソースから重要な特徴を抽出し,特定するための新しい枠組みを提案する。 我々は,新しいビジネスの確立に関する顧客の問い合わせに最も寄与する重要かつ関連する機能を選択するために,注意に基づく教師付き特徴選択手法を提案する。 本稿では,Kaggle と UCI 機械学習レポジトリから作成したオープンソースデータセットについて報告する。

Establishing a new business may involve Knowledge acquisition in various areas, from personal to business and marketing sources. This task is challenging as it requires examining various data islands to uncover hidden patterns and unknown correlations such as purchasing behavior, consumer buying signals, and demographic and socioeconomic attributes of different locations. This paper introduces a novel framework for extracting and identifying important features from banking and non-banking data sources to address this challenge. We present an attention-based supervised feature selection approach to select important and relevant features which contribute most to the customer's query regarding establishing a new business. We report on the experiment conducted on an openly available dataset created from Kaggle and the UCI machine learning repositories.
翻訳日:2021-05-11 14:46:26 公開日:2021-05-09
# 非再帰グラフ畳み込みネットワーク

Non-Recursive Graph Convolutional Networks ( http://arxiv.org/abs/2105.03868v1 )

ライセンス: Link先を確認
Hao Chen, Zengde Deng, Yue Xu, Zhoujun Li(参考訳) グラフ畳み込みネットワーク(GCN)はノード表現学習タスクのための強力なモデルである。 しかし、既存のgcnモデルにおけるノード表現は、特定のサンプリング法で複数のグラフ畳み込み層をまたいで再帰的な近傍アグリゲーションを行い、冗長な特徴混合、不要な情報損失、広範囲な計算に繋がる。 そこで本稿では,ノード分類の文脈におけるGCNの学習効率と学習性能の両立を図るため,Non-Recursive Graph Convolutional Network (NRGCN) という新しいアーキテクチャを提案する。 具体的には、NRGCNは、内部層凝集と層非依存サンプリングに基づいて、各ノードの隣人の異なるホップを表現することを提案する。 このようにして、隣接ノードの各ホップから独立して抽出された情報を連結することで、各ノードを直接表現することができ、レイヤ間の再帰的な近傍拡大を回避することができる。 さらに、モデルトレーニングの前に、層非依存のサンプリングとアグリゲーションをプリ計算し、トレーニングプロセスを大幅に高速化することができる。 ベンチマークデータセットの大規模な実験により、NRGCNはノード分類性能と信頼性の観点から、最先端のGCNモデルより優れていることが確認された。

Graph Convolutional Networks (GCNs) are powerful models for node representation learning tasks. However, the node representation in existing GCN models is usually generated by performing recursive neighborhood aggregation across multiple graph convolutional layers with certain sampling methods, which may lead to redundant feature mixing, needless information loss, and extensive computations. Therefore, in this paper, we propose a novel architecture named Non-Recursive Graph Convolutional Network (NRGCN) to improve both the training efficiency and the learning performance of GCNs in the context of node classification. Specifically, NRGCN proposes to represent different hops of neighbors for each node based on inner-layer aggregation and layer-independent sampling. In this way, each node can be directly represented by concatenating the information extracted independently from each hop of its neighbors thereby avoiding the recursive neighborhood expansion across layers. Moreover, the layer-independent sampling and aggregation can be precomputed before the model training, thus the training process can be accelerated considerably. Extensive experiments on benchmark datasets verify that our NRGCN outperforms the state-of-the-art GCN models, in terms of the node classification performance and reliability.
翻訳日:2021-05-11 14:46:13 公開日:2021-05-09
# RB-CCR:不均衡データ分類のための放射型複合洗浄・再サンプリングアルゴリズム

RB-CCR: Radial-Based Combined Cleaning and Resampling algorithm for imbalanced data classification ( http://arxiv.org/abs/2105.04009v1 )

ライセンス: Link先を確認
Micha{\l} Koziarski, Colin Bellinger, Micha{\l} Wo\'zniak(参考訳) 医学、健康、安全、金融といった現実世界の分類ドメインは、しばしば不均衡なクラス優先を示し、非同期な誤分類コストを持つ。 このような場合、分類モデルは精度に大きな影響を及ぼすことなく高いリコールを達成する必要がある。 トレーニングデータのサンプル化は、不均衡バイナリデータの分類性能を改善するための標準的なアプローチである。 しかし、最先端の手法はデータの局所的な関節分布を無視したり、後処理のステップとして修正する。 これにより、特にターゲットデータ分布が複雑である場合に、トレーニング分布が最適にシフトする可能性がある。 本稿では,放射型複合洗浄・リサイクル(RB-CCR)を提案する。 RB-CCRはクラスポテンシャルの概念を用いて、CCRのエネルギーベースの再サンプリングアプローチを洗練させる。 特に、RB-CCRはクラスポテンシャルを利用して、合成オーバーサンプリングのためのデータ空間のサブリージョンを正確に見つける。 オーバーサンプリングのためのカテゴリサブリージョンは、ドメイン固有のニーズを満たす入力パラメータとして指定するか、クロスバリデーションによって自動的に選択することができる。 57のベンチマークバイナリデータセットを9つの分類器でクロスバリデーションした結果、RB-CCRはCCRよりも精度の高いリコールトレードオフを実現しており、一般的にAUCとG-meanの点で最先端のリサンプリング手法よりも優れています。

Real-world classification domains, such as medicine, health and safety, and finance, often exhibit imbalanced class priors and have asynchronous misclassification costs. In such cases, the classification model must achieve a high recall without significantly impacting precision. Resampling the training data is the standard approach to improving classification performance on imbalanced binary data. However, the state-of-the-art methods ignore the local joint distribution of the data or correct it as a post-processing step. This can causes sub-optimal shifts in the training distribution, particularly when the target data distribution is complex. In this paper, we propose Radial-Based Combined Cleaning and Resampling (RB-CCR). RB-CCR utilizes the concept of class potential to refine the energy-based resampling approach of CCR. In particular, RB-CCR exploits the class potential to accurately locate sub-regions of the data-space for synthetic oversampling. The category sub-region for oversampling can be specified as an input parameter to meet domain-specific needs or be automatically selected via cross-validation. Our $5\times2$ cross-validated results on 57 benchmark binary datasets with 9 classifiers show that RB-CCR achieves a better precision-recall trade-off than CCR and generally out-performs the state-of-the-art resampling methods in terms of AUC and G-mean.
翻訳日:2021-05-11 14:45:53 公開日:2021-05-09
# 位置埋め込みを用いたグラフ注意ネットワーク

Graph Attention Networks with Positional Embeddings ( http://arxiv.org/abs/2105.04037v1 )

ライセンス: Link先を確認
Liheng Ma, Reihaneh Rabbany, Adriana Romero-Soriano(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類タスクにおける芸術的パフォーマンスの現在の状態を提供するディープラーニング手法である。 GNNは、しばしばホモフィリー(類似した特徴やラベルを持つ隣接ノード)を仮定するので、非ホモフィリックグラフを扱う場合、その潜在能力は十分ではない。 本稿では,この制限に対処することに集中し,GNN の一般的な変種である Graph Attention Networks (GAT) を用いて,各グラフの局所性の内部構造情報を探索する。 トランスフォーマーにおける位置エンコーディングに触発されて,位置埋め込みを用いたグラフ注意ネットワーク(GAT-POS)と呼ばれるフレームワークを提案し,グラフ内のノードの構造的および位置的情報をキャプチャする位置埋め込みを用いてGATを強化する。 このフレームワークでは、グラフコンテキストのモデル予測によって位置埋め込みが学習され、拡張されたgatアーキテクチャにプラグインされ、各ノードの位置情報とコンテンツ情報の両方を活用できる。 このモデルは、ノード分類のタスクとグラフコンテキストの予測のタスクを最適化するために、共同でトレーニングされる。 実験結果から, GAT-POSは強いGNNベースラインや非親和性グラフ上の最近の構造埋め込み強化GNNに比べて顕著な改善を示した。

Graph Neural Networks (GNNs) are deep learning methods which provide the current state of the art performance in node classification tasks. GNNs often assume homophily -- neighboring nodes having similar features and labels--, and therefore may not be at their full potential when dealing with non-homophilic graphs. In this work, we focus on addressing this limitation and enable Graph Attention Networks (GAT), a commonly used variant of GNNs, to explore the structural information within each graph locality. Inspired by the positional encoding in the Transformers, we propose a framework, termed Graph Attentional Networks with Positional Embeddings (GAT-POS), to enhance GATs with positional embeddings which capture structural and positional information of the nodes in the graph. In this framework, the positional embeddings are learned by a model predictive of the graph context, plugged into an enhanced GAT architecture, which is able to leverage both the positional and content information of each node. The model is trained jointly to optimize for the task of node classification as well as the task of predicting graph context. Experimental results show that GAT-POS reaches remarkable improvement compared to strong GNN baselines and recent structural embedding enhanced GNNs on non-homophilic graphs.
翻訳日:2021-05-11 14:45:26 公開日:2021-05-09
# コンテンツ推定学習によるマルチエージェントコーディネーションの改善

Improving Multi-agent Coordination by Learning to Estimate Contention ( http://arxiv.org/abs/2105.04027v1 )

ライセンス: Link先を確認
Panayiotis Danassis, Florian Wiedemair, Boi Faltings(参考訳) 大規模システムにおける効率的かつ公平なアロケーションのためのマルチエージェント学習アルゴリズムALMA-Learningを提案する。 各ステージゲームにおける協調機構としてALMAヒューリスティックに依存することにより,マルチエージェント学習の伝統的な落とし穴(移動対象問題,次元の呪い,相互に一貫した行動の必要性など)を回避する。 ALMA-Learningは分散化され、独自のアクション/リワードペアのみを観察し、エージェント間通信を必要としない。 軽量な性質と高速学習は、デバイス上でのデプロイメントに理想的なALMA学習である。

We present a multi-agent learning algorithm, ALMA-Learning, for efficient and fair allocations in large-scale systems. We circumvent the traditional pitfalls of multi-agent learning (e.g., the moving target problem, the curse of dimensionality, or the need for mutually consistent actions) by relying on the ALMA heuristic as a coordination mechanism for each stage game. ALMA-Learning is decentralized, observes only own action/reward pairs, requires no inter-agent communication, and achieves near-optimal (<5% loss) and fair coordination in a variety of synthetic scenarios and a real-world meeting scheduling problem. The lightweight nature and fast learning constitute ALMA-Learning ideal for on-device deployment.
翻訳日:2021-05-11 14:41:51 公開日:2021-05-09
# 多重ディスパッチによる高性能シンボリック数値

High-performance symbolic-numerics via multiple dispatch ( http://arxiv.org/abs/2105.03949v1 )

ライセンス: Link先を確認
Shashi Gowda, Yingbo Ma, Alessandro Cheli, Maja Gwozdz, Viral B. Shah, Christopher Rackauckas(参考訳) 数学コンピューティングが高レベル言語でより民主化されるにつれて、ドメイン科学者やエンジニアがコード最適化の知識を必要とせずに最高のパフォーマンスをマシンから得るためには、高性能なシンボリック数値システムが必要である。 もちろん、ユーザは異なる代数的特性を持つために、あるいは効率的なデータ構造を使用するために、異なる用語タイプが必要です。 そこで我々は,動的多重ディスパッチを用いた拡張可能なシンボルシステムであるSymbolics.jlを開発した。 本研究では, 一般性を犠牲にすることなく, 速度を向上できる抽象用語インタフェースについて詳述する。 実装に依存しないアクションでジェネリックapiを定式化することで、既存の項書き換え子を変更することなく、システムに最適化されたデータ構造を遡及的に追加できることを示します。 一般記号変換において項構成を最適化し,113倍の加速度を与える方法を示す。 さらに、このような汎用APIは、補完的な項書き換えの実装を可能にすることを示す。 従来の項書き換え単純化子とe-graphに基づく項書き換え単純化子を交換する能力を示す。 本稿では,表現評価中のCPUサイクル数を最小化する電子グラフ規則を提示し,実世界のリアクションネットワークシミュレーションを単純化してランタイムを半減させる方法を示す。 さらに,多重ディスパッチトレーシングによって自動的に記号表現に変換可能な反応拡散型偏微分方程式ソルバを示し,その高速化と並列化を行い,157倍のシミュレーション高速化を実現する。 モデリングとシミュレーションに特化した次世代シンボリック数値計算環境としてsymbols.jlを提案する。

As mathematical computing becomes more democratized in high-level languages, high-performance symbolic-numeric systems are necessary for domain scientists and engineers to get the best performance out of their machine without deep knowledge of code optimization. Naturally, users need different term types either to have different algebraic properties for them, or to use efficient data structures. To this end, we developed Symbolics.jl, an extendable symbolic system which uses dynamic multiple dispatch to change behavior depending on the domain needs. In this work we detail an underlying abstract term interface which allows for speed without sacrificing generality. We show that by formalizing a generic API on actions independent of implementation, we can retroactively add optimized data structures to our system without changing the pre-existing term rewriters. We showcase how this can be used to optimize term construction and give a 113x acceleration on general symbolic transformations. Further, we show that such a generic API allows for complementary term-rewriting implementations. We demonstrate the ability to swap between classical term-rewriting simplifiers and e-graph-based term-rewriting simplifiers. We showcase an e-graph ruleset which minimizes the number of CPU cycles during expression evaluation, and demonstrate how it simplifies a real-world reaction-network simulation to halve the runtime. Additionally, we show a reaction-diffusion partial differential equation solver which is able to be automatically converted into symbolic expressions via multiple dispatch tracing, which is subsequently accelerated and parallelized to give a 157x simulation speedup. Together, this presents Symbolics.jl as a next-generation symbolic-numeric computing environment geared towards modeling and simulation.
翻訳日:2021-05-11 14:40:32 公開日:2021-05-09
# Stacked Hourglass Network を用いた超音波脊椎画像における椎体特徴の自動分割

Automatic segmentation of vertebral features on ultrasound spine images using Stacked Hourglass Network ( http://arxiv.org/abs/2105.03847v1 )

ライセンス: Link先を確認
Hong-Ye Zeng, Song-Han Ge, Yu-Chong Gao, De-Sen Zhou, Kang Zhou, Xu-Ming He, Rui Zheng(参考訳) 目的:spa(sspirous process angle)は、脊椎の三次元(3次元)変形を示す重要なパラメータの1つである。 そこで本研究では, 超音波(US)の脊椎画像からSPAを抽出し, SPAを測定するために, Stacked Hourglass Network (SHN) を用いた自動セグメンテーション法を提案する。 方法: このネットワークは1200個の超音波横画像の5つのランドマークとして脊椎のSPとラミナエを検出できるように訓練され、100枚の画像で検証された。 強調したSP像とラミナエ像を3次元画像ボリュームに再構成し, 投射した冠動脈画像からSPAを測定した。 訓練されたネットワークは400の画像に対して正解点率(pck)を算出し,us画像とx線写真との比較により50名のスコリオティック被験者を対象にspa測定を行った。 結果: 訓練されたネットワークは, テストデータセット上で平均pck (86.8%) を達成し, 特にsp検出のpckは90.3%であった。 当院および放射線検査で測定したspaは有意な相関を示し (r>0.85) , 2形態間の平均絶対差 (mad) は3.3{\deg} であり, 臨床受理誤差 (5{\deg}) 以下であった。 結論: 椎骨の特徴は, SHNを用いたUS脊椎画像で正確に分類でき, SPAの測定結果は, ラジオグラフィーによる金標準値と同等であった。

Objective: The spinous process angle (SPA) is one of the essential parameters to denote three-dimensional (3-D) deformity of spine. We propose an automatic segmentation method based on Stacked Hourglass Network (SHN) to detect the spinous processes (SP) on ultrasound (US) spine images and to measure the SPAs of clinical scoliotic subjects. Methods: The network was trained to detect vertebral SP and laminae as five landmarks on 1200 ultrasound transverse images and validated on 100 images. All the processed transverse images with highlighted SP and laminae were reconstructed into a 3D image volume, and the SPAs were measured on the projected coronal images. The trained network was tested on 400 images by calculating the percentage of correct keypoints (PCK); and the SPA measurements were evaluated on 50 scoliotic subjects by comparing the results from US images and radiographs. Results: The trained network achieved a high average PCK (86.8%) on the test datasets, particularly the PCK of SP detection was 90.3%. The SPAs measured from US and radiographic methods showed good correlation (r>0.85), and the mean absolute differences (MAD) between two modalities were 3.3{\deg}, which was less than the clinical acceptance error (5{\deg}). Conclusion: The vertebral features can be accurately segmented on US spine images using SHN, and the measurement results of SPA from US data was comparable to the gold standard from radiography.
翻訳日:2021-05-11 14:38:39 公開日:2021-05-09
# 2次元スライスラベルによる3次元CNN訓練による地震断層分割

Seismic Fault Segmentation via 3D-CNN Training by a Few 2D Slices Labels ( http://arxiv.org/abs/2105.03857v1 )

ライセンス: Link先を確認
YiMin Dou, Kewen Li, Jianbing Zhu, Xiao Li, Yingjie Xi(参考訳) 地震データ中の検出障害は, 構造解釈, 貯留層特性, 井戸配置に重要なステップであり, 課題に満ちている。 最近の研究では、障害検出を画像分割タスクとしている。 画像セグメンテーションのタスクには大量のデータラベル、特に複雑な構造と多くのノイズを持つ3次元地震データが必要である。 したがって、アノテーションはエキスパートエクスペリエンスを必要とし、巨大なワークロード、誤ったラベル付け、欠落したラベル付けはモデルのセグメンテーション性能に影響する。 本研究では,3次元地震データから2次元スライスをサンプリングして3次元cnnを効果的に訓練し,数枚の2次元スライスから3次元地震データのセグメンテーションを学習できるように,新しい2次元クロスエントロピーと滑らかなl1ロス({\lambda}-bceと {\lambda}-smooth l1)を提案する。 限られた低次元データから情報を完全に抽出し,地震騒音を抑制するため,アクティブな監視訓練(Active Attention Module, AAM)に使用可能なアテンションモジュールを提案する。 トレーニング中、アテンションヒートマップターゲットは元のバイナリラベルによって生成され、.lambda}-smooth L1ロスを使用してアテンションモジュールを監督する。 定性的実験により,本手法は実データから2次元スライスラベルから3次元地震特性を抽出し,断層容積を分割できることを示した。 可視化により、セグメンテーション効果は最先端を達成する。 合成データの定量的実験により,トレーニング手法とアテンションモジュールの有効性が証明された。 実験により、30フレームごとに1枚の2dスライスを少なくとも3.3%のラベルでラベル付けすることで、3dラベルと同様のセグメンテーション性能が得られることを示した。

Detection faults in seismic data is a crucial step for seismic structural interpretation, reservoir characterization and well placement, and it is full of challenges. Some recent works regard fault detection as an image segmentation task. The task of image segmentation requires a large amount of data labels, especially 3D seismic data, which has a complex structure and a lot of noise. Therefore, its annotation requires expert experience and a huge workload, wrong labeling and missing labeling will affect the segmentation performance of the model. In this study, we present a new binary cross-entropy and smooth L1 loss ({\lambda}-BCE and {\lambda}-smooth L1) to effectively train 3D-CNN by sampling some 2D slices from 3D seismic data, so that the model can learn the segmentation of 3D seismic data from a few 2D slices. In order to fully extract information from limited and low-dimensional data and suppress seismic noise, we propose an attention module that can be used for active supervision training (Active Attention Module, AAM) and embedded in the network to participate in the differentiation and optimization of the model. During training, the attention heatmap target is generated by the original binary label, and letting it supervise the attention module using the {\lambda}-smooth L1 loss. Qualitative experiments show that our method can extract 3D seismic features from a few 2D slices labels on real data, to segment a complete fault volume. Through visualization, the segmentation effect achieves state-of-the-art. Quantitative experiments on synthetic data prove the effectiveness of our training method and attention module. Experiments show that using our method, labeling one 2D slice every 30 frames at least (3.3% of the original label), the model can achieve a segmentation performance similar to that of a 3D label.
翻訳日:2021-05-11 14:38:07 公開日:2021-05-09
# 地形マップを用いた自動運転の軌道予測

Trajectory Prediction for Autonomous Driving with Topometric Map ( http://arxiv.org/abs/2105.03869v1 )

ライセンス: Link先を確認
Jiaolong Xu, Liang Xiao, Dawei Zhao, Yiming Nie, Bin Dai(参考訳) 最先端の自動運転システムは、ローカライゼーションとナビゲーションのための高定義(HD)マップに依存している。 しかし、HDマップの構築とメンテナンスには時間と費用がかかる。 さらにhdマップは、農村部では存在していない主要道路や車線の存在などの構造環境を想定している。 本研究では,マップレス自動運転のためのエンドツーエンドトランスフォーマーネットワークを提案する。 提案モデルでは, 生のLiDARデータとノイズトポロジカルマップを入力として, ナビゲーションのための正確な局所軌道を生成する。 都市部と農村部を含む実世界の運転データにおいて,本手法の有効性を示す。 実験の結果,提案手法は最先端のマルチモーダル手法よりも優れており,地形図の摂動に頑健であることがわかった。 提案手法のコードは \url{https://github.com/J iaolong/trajectory-p rediction} で公開されている。

State-of-the-art autonomous driving systems rely on high definition (HD) maps for localization and navigation. However, building and maintaining HD maps is time-consuming and expensive. Furthermore, the HD maps assume structured environment such as the existence of major road and lanes, which are not present in rural areas. In this work, we propose an end-to-end transformer networks based approach for map-less autonomous driving. The proposed model takes raw LiDAR data and noisy topometric map as input and produces precise local trajectory for navigation. We demonstrate the effectiveness of our method in real-world driving data, including both urban and rural areas. The experimental results show that the proposed method outperforms state-of-the-art multimodal methods and is robust to the perturbations of the topometric map. The code of the proposed method is publicly available at \url{https://github.com/J iaolong/trajectory-p rediction}.
翻訳日:2021-05-11 14:37:28 公開日:2021-05-09
# ベンガル語手書き単語のエンドツーエンド光文字認識

End-to-End Optical Character Recognition for Bengali Handwritten Words ( http://arxiv.org/abs/2105.04020v1 )

ライセンス: Link先を確認
Farisa Benta Safir, Abu Quwsar Ohi, M.F. Mridha, Muhammad Mostafa Monowar, Md. Abdul Hamid(参考訳) 光文字認識(OCR)は、アナログ文書を文書画像を用いてデジタルに変換するプロセスである。 現在、多くの商用および非商用のOCRシステムは、異なる言語用の手書きと印刷の両方に存在している。 それにもかかわらず、ベンガル語を認識できる作品はほとんどない。 作品の多くはベンガル文字のOCRに焦点を当てている。 本稿ではベンガル語のためのエンドツーエンドOCRシステムを提案する。 提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。 我々は、DenseNet、Xception、NASNet、MobileNetなどの一般的な畳み込みニューラルネットワーク(CNN)アーキテクチャで実験を行い、OCRアーキテクチャを構築しました。 さらに,2つの異なるリカレントニューラルネットワーク(RNN)手法,LSTMとGRUを実験した。 本稿では,Bengaliの手書き画像データセットであるBanglaWrittingデータセットを用いて,提案アーキテクチャの評価を行う。 提案手法は,GRU再帰層を用いたDenseNet121モデルを用いて,0.091文字誤り率と0.273単語誤り率を実現する。

Optical character recognition (OCR) is a process of converting analogue documents into digital using document images. Currently, many commercial and non-commercial OCR systems exist for both handwritten and printed copies for different languages. Despite this, very few works are available in case of recognising Bengali words. Among them, most of the works focused on OCR of printed Bengali characters. This paper introduces an end-to-end OCR system for Bengali language. The proposed architecture implements an end to end strategy that recognises handwritten Bengali words from handwritten word images. We experiment with popular convolutional neural network (CNN) architectures, including DenseNet, Xception, NASNet, and MobileNet to build the OCR architecture. Further, we experiment with two different recurrent neural networks (RNN) methods, LSTM and GRU. We evaluate the proposed architecture using BanglaWritting dataset, which is a peer-reviewed Bengali handwritten image dataset. The proposed method achieves 0.091 character error rate and 0.273 word error rate performed using DenseNet121 model with GRU recurrent layer.
翻訳日:2021-05-11 14:37:11 公開日:2021-05-09
# 適応型多相アップサンプリングを用いた完全シフト同変畳み込みニューラルネットワーク

Truly shift-equivariant convolutional neural networks with adaptive polyphase upsampling ( http://arxiv.org/abs/2105.04040v1 )

ライセンス: Link先を確認
Anadi Chaman and Ivan Dokmani\'c(参考訳) 畳み込みニューラルネットワークは、ダウンサンプリング層の存在によるシフト等価性が欠如している。 画像分類において、適応型多相ダウンサンプリング(APS-D)はCNNを完全に不変にするために最近提案されている。 しかし、画像再構成作業に使用されるネットワークでは、それ自体はシフト等分を復元することはできない。 本稿では,従来のアップサンプリングの非線形拡張であるaps-u(adaptive polyphase upsampling)を提案することで,cnnが完全シフト同分散を示すことができる。 MRIとCTの再構成実験により, APS-D/U層を含むネットワークは, 画像再構成の品質を犠牲にすることなく, 同等性能を示すことを示した。 さらに、データ拡張やアンチエイリアス化といった従来の手法とは異なり、APS-D/Uから得られる等分散の利得はトレーニング分布外の画像にも及んでいる。

Convolutional neural networks lack shift equivariance due to the presence of downsampling layers. In image classification, adaptive polyphase downsampling (APS-D) was recently proposed to make CNNs perfectly shift invariant. However, in networks used for image reconstruction tasks, it can not by itself restore shift equivariance. We address this problem by proposing adaptive polyphase upsampling (APS-U), a non-linear extension of conventional upsampling, which allows CNNs to exhibit perfect shift equivariance. With MRI and CT reconstruction experiments, we show that networks containing APS-D/U layers exhibit state of the art equivariance performance without sacrificing on image reconstruction quality. In addition, unlike prior methods like data augmentation and anti-aliasing, the gains in equivariance obtained from APS-D/U also extend to images outside the training distribution.
翻訳日:2021-05-11 14:36:56 公開日:2021-05-09
# RBNN:モノのインターネットのためのIP保護を備えたメモリ効率の良い再構成可能なディープバイナリニューラルネットワーク

RBNN: Memory-Efficient Reconfigurable Deep Binary Neural Network with IP Protection for Internet of Things ( http://arxiv.org/abs/2105.03822v1 )

ライセンス: Link先を確認
Huming Qiu, Hua Ma, Zhi Zhang, Yifeng Zheng, Anmin Fu, Pan Zhou, Yansong Gao, Derek Abbott(参考訳) ディープニューラルネットワークモデルは、さまざまなアプリケーションに優れたパフォーマンスを示すが、その大きなモデルサイズと広範な浮動小数点演算により、モバイルコンピューティングプラットフォームへのデプロイメントは大きな課題であり、特にIoTデバイス上では特にそうだ。 魅力的なソリューションの1つはモデル量子化であり、モデルサイズを小さくし、マイクロコントローラで一般的にサポートされている整数演算を使用する。 この目的のために、1ビット量子化DNNモデルまたはディープバイナリニューラルネットワークは、BNNモデルの各パラメータが1ビットしか持たないメモリ効率を最大化する。 本稿では,資源制約型IoTデバイスのメモリ効率をさらに向上するために,再構成可能なBNN(RBNN)を提案する。 一般に、RBNNは要求に応じて再構成され、同じパラメータセットを持つM(M>1)の異なるタスクのいずれかを達成することができるため、単一のタスクのみがメモリ要求を決定する。 われわれの広範な実験では、7つの一般的なタスクが共存できることが一致している(mの値はより大きい可能性がある)。 クラス数が異なるこれらのタスクは、VGG、ResNet、ReActNetを含む3つのバイナライズされたDNNアーキテクチャにおいて、まったくあるいは無視できる精度の低下がない。 タスクは、コンピュータビジョンやオーディオドメインなどの様々な領域にまたがっており、モデルアーキテクチャがこれらのクロスドメインタスクに役立てることができるという前提条件がある。 RBNNモデルの知的特性を保護するため、固有のハードウェア指紋によって生成されるユーザキーとデバイス固有のルートキーの両方で再構成を制御することができる。 これにより、RBNNモデルは認証されたデバイス当たりの有償ユーザに対してのみ使用できるため、ユーザとモデルプロバイダの両方にとってメリットがある。

Though deep neural network models exhibit outstanding performance for various applications, their large model size and extensive floating-point operations render deployment on mobile computing platforms a major challenge, and, in particular, on Internet of Things devices. One appealing solution is model quantization that reduces the model size and uses integer operations commonly supported by microcontrollers . To this end, a 1-bit quantized DNN model or deep binary neural network maximizes the memory efficiency, where each parameter in a BNN model has only 1-bit. In this paper, we propose a reconfigurable BNN (RBNN) to further amplify the memory efficiency for resource-constrained IoT devices. Generally, the RBNN can be reconfigured on demand to achieve any one of M (M>1) distinct tasks with the same parameter set, thus only a single task determines the memory requirements. In other words, the memory utilization is improved by times M. Our extensive experiments corroborate that up to seven commonly used tasks can co-exist (the value of M can be larger). These tasks with a varying number of classes have no or negligible accuracy drop-off on three binarized popular DNN architectures including VGG, ResNet, and ReActNet. The tasks span across different domains, e.g., computer vision and audio domains validated herein, with the prerequisite that the model architecture can serve those cross-domain tasks. To protect the intellectual property of an RBNN model, the reconfiguration can be controlled by both a user key and a device-unique root key generated by the intrinsic hardware fingerprint. By doing so, an RBNN model can only be used per paid user per authorized device, thus benefiting both the user and the model provider.
翻訳日:2021-05-11 14:32:57 公開日:2021-05-09
# 自動決定に基づく敵攻撃

Automated Decision-based Adversarial Attacks ( http://arxiv.org/abs/2105.03931v1 )

ライセンス: Link先を確認
Qi-An Fu, Yinpeng Dong, Hang Su, Jun Zhu(参考訳) 深層学習モデルは敵の例に弱いため、自然の例に知覚不可能な摂動を課すことで、対象の分類器を騙すことができる。 本研究では,モデルの詳細にアクセスせずに対象モデルに問い合わせることで,最終分類ラベルのみを取得することが可能な,実用的で挑戦的な意思決定ベースのブラックボックス敵設定を考える。 この設定下では、既存の作品はしばしばヒューリスティックに依存し、不十分なパフォーマンスを示す。 これらのヒューリスティックスの合理性と既存手法の限界をよりよく理解するために,意思決定に基づく敵攻撃アルゴリズムの自動発見を提案する。 本手法では,基本的な数学的操作を構成要素として探索空間を構築し,プログラム合成に触発された複数のプルーニング手法と直感的な事前処理を組み込んだランダム探索アルゴリズムを開発した。 探索中に攻撃アルゴリズムを効率的に評価するために,小型で高速なモデルを用いるが,cifar-10およびimagenetデータセット上の大きな正規モデルおよび防御モデルに転送した場合,検出アルゴリズムは単純かつクエリ効率が高いことが実証された。 最新の意思決定ベースのアタックメソッドと同等あるいは優れたパフォーマンスを実現している。

Deep learning models are vulnerable to adversarial examples, which can fool a target classifier by imposing imperceptible perturbations onto natural examples. In this work, we consider the practical and challenging decision-based black-box adversarial setting, where the attacker can only acquire the final classification labels by querying the target model without access to the model's details. Under this setting, existing works often rely on heuristics and exhibit unsatisfactory performance. To better understand the rationality of these heuristics and the limitations of existing methods, we propose to automatically discover decision-based adversarial attack algorithms. In our approach, we construct a search space using basic mathematical operations as building blocks and develop a random search algorithm to efficiently explore this space by incorporating several pruning techniques and intuitive priors inspired by program synthesis works. Although we use a small and fast model to efficiently evaluate attack algorithms during the search, extensive experiments demonstrate that the discovered algorithms are simple yet query-efficient when transferred to larger normal and defensive models on the CIFAR-10 and ImageNet datasets. They achieve comparable or better performance than the state-of-the-art decision-based attack methods consistently.
翻訳日:2021-05-11 14:32:28 公開日:2021-05-09
# 逆ロバストニューラルネットワークの効率駆動型ハードウェア最適化

Efficiency-driven Hardware Optimization for Adversarially Robust Neural Networks ( http://arxiv.org/abs/2105.04003v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Abhishek Moitra and Priyadarshini Panda(参考訳) IoT(Internet of Things)時代に組み込みデバイスでインテリジェンスを実現する必要性が高まっているため、Deep Neural Networks(DNN)のセキュアなハードウェア実装が必須になっている。 我々は、効率駆動ハードウェア最適化を通じて、DNNの対角的堅牢性に対処する方法に焦点をあてる。 メモリ(特にドット生成操作)はDNNにとって重要なエネルギー供給コンポーネントであるため、ハードウェアのアプローチではメモリの最適化に重点を置いてきた。 このようなアプローチの1つは、ハイブリッド6T-8T SRAMセルと近似的なデジタルCMOSメモリであり、6Tセルで発生した読み書き障害による性能に大きな影響を及ぼすことなく、低消費電力動作を実現するサプライ電圧(Vdd)スケーリングを可能にする。 本稿では,ハイブリッド6T-8Tメモリの6Tセルにおけるビットエラーが,DNNの対向摂動を最小化することを示す。 本質的に、8T-6T比とスケールドVdd演算の異なる構成の場合、ハイブリッドメモリアーキテクチャで発生するノイズは、特定の制限の範囲内にある。 このハードウェアノイズは、堅牢性をもたらすDNNの敵攻撃の発生を妨げる可能性がある。 別のメモリ最適化アプローチでは、低エネルギーと領域要求でマトリックスベクトル乗算(mvm)を効率的に実行するアナログのmemristive crossbarsを使用する。 しかし、クロスバーは通常、MVMの実行時にエラーを引き起こす固有の非イデオロギーに悩まされ、DNNの精度が低下する。 クロスバーな非理想性によって生じる本質的なハードウェアの変動が、追加の最適化なしにマップ化されたDNNに対して逆の堅牢性をもたらすことを示す。

With a growing need to enable intelligence in embedded devices in the Internet of Things (IoT) era, secure hardware implementation of Deep Neural Networks (DNNs) has become imperative. We will focus on how to address adversarial robustness for DNNs through efficiency-driven hardware optimizations. Since memory (specifically, dot-product operations) is a key energy-spending component for DNNs, hardware approaches in the past have focused on optimizing the memory. One such approach is approximate digital CMOS memories with hybrid 6T-8T SRAM cells that enable supply voltage (Vdd) scaling yielding low-power operation, without significantly affecting the performance due to read/write failures incurred in the 6T cells. In this paper, we show how the bit-errors in the 6T cells of hybrid 6T-8T memories minimize the adversarial perturbations in a DNN. Essentially, we find that for different configurations of 8T-6T ratios and scaledVdd operation, noise incurred in the hybrid memory architectures is bound within specific limits. This hardware noise can potentially interfere in the creation of adversarial attacks in DNNs yielding robustness. Another memory optimization approach involves using analog memristive crossbars that perform Matrix-Vector-Multip lications (MVMs) efficiently with low energy and area requirements. However, crossbars generally suffer from intrinsic non-idealities that cause errors in performing MVMs, leading to degradation in the accuracy of the DNNs. We will show how the intrinsic hardware variations manifested through crossbar non-idealities yield adversarial robustness to the mapped DNNs without any additional optimization.
翻訳日:2021-05-11 14:32:08 公開日:2021-05-09
# スケーラブルなソートとランキング管理のための微分可能なソートネットワーク

Differentiable Sorting Networks for Scalable Sorting and Ranking Supervision ( http://arxiv.org/abs/2105.04019v1 )

ライセンス: Link先を確認
Felix Petersen, Christian Borgelt, Hilde Kuehne, Oliver Deussen(参考訳) ソーティングとランキング管理は、注文制約に基づいてニューラルネットワークをエンドツーエンドにトレーニングする方法である。 すなわち、サンプルの集合の基底真順序は知られており、その絶対値は教師なしのままである。 そこで我々は,ペアワイズ条件付きスワップ操作を緩和することで,微分可能なソートネットワークを提案する。 多数の層で生じる勾配の消失と広範囲なぼかしの問題に対処するため,適度な勾配を持つ領域への写像活性化を提案する。 我々はオッズ偶数とビトニックソートネットワークを考慮し,既存のソート操作の緩和を上回っている。 ビトニックソートネットワークは,最大1024要素の大規模入力セットに対して安定したトレーニングを実現することができる。

Sorting and ranking supervision is a method for training neural networks end-to-end based on ordering constraints. That is, the ground truth order of sets of samples is known, while their absolute values remain unsupervised. For that, we propose differentiable sorting networks by relaxing their pairwise conditional swap operations. To address the problems of vanishing gradients and extensive blurring that arise with larger numbers of layers, we propose mapping activations to regions with moderate gradients. We consider odd-even as well as bitonic sorting networks, which outperform existing relaxations of the sorting operation. We show that bitonic sorting networks can achieve stable training on large input sets of up to 1024 elements.
翻訳日:2021-05-11 14:31:40 公開日:2021-05-09
# アンテナアレイ設計のためのHyperHyperNetworks

HyperHyperNetworks for the Design of Antenna Arrays ( http://arxiv.org/abs/2105.03838v1 )

ライセンス: Link先を確認
Shahar Lutati, Lior Wolf(参考訳) アレイ設計のための深層学習手法と小型アンテナの単一インスタンスについて述べる。 各設計インスタンスはターゲットの放射パターンに基づいて構成されており、特定の空間次元に適合し、その金属構造の一部として所定の位置を含む必要がある。 このソリューションは、単一のアンテナの場合、シミュレーションネットワーク、ハイパーネットワーク、リファインメントネットワークを組み合わせた複合ニューラルネットワークに基づいている。 アンテナアレイの設計では、追加の設計レベルを追加し、ハイパーネットワーク内のハイパーネットワークを採用します。 学習目的は、得られた放射パターンと所望の放射パターンの類似度を測定することに基づく。 実験により,提案手法は,設計要件に準拠した新しいアンテナとアンテナアレイを,ベースライン法よりもかなり優れた設計が可能であることを実証した。 提案手法で得られた解と既存設計との比較を行い,高い重なり合いを示す。 携帯電話のアンテナアレイを設計する際、得られたソリューションは既存のアンテナよりも改善された特性を示す。

We present deep learning methods for the design of arrays and single instances of small antennas. Each design instance is conditioned on a target radiation pattern and is required to conform to specific spatial dimensions and to include, as part of its metallic structure, a set of predetermined locations. The solution, in the case of a single antenna, is based on a composite neural network that combines a simulation network, a hypernetwork, and a refinement network. In the design of the antenna array, we add an additional design level and employ a hypernetwork within a hypernetwork. The learning objective is based on measuring the similarity of the obtained radiation pattern to the desired one. Our experiments demonstrate that our approach is able to design novel antennas and antenna arrays that are compliant with the design requirements, considerably better than the baseline methods. We compare the solutions obtained by our method to existing designs and demonstrate a high level of overlap. When designing the antenna array of a cellular phone, the obtained solution displays improved properties over the existing one.
翻訳日:2021-05-11 14:26:54 公開日:2021-05-09
# 分子コンフォメーション生成のための学習勾配場

Learning Gradient Fields for Molecular Conformation Generation ( http://arxiv.org/abs/2105.03902v1 )

ライセンス: Link先を確認
Chence Shi, Shitong Luo, Minkai Xu, Jian Tang(参考訳) 2次元分子グラフから安定な3次元構造を予測し,分子配座生成と呼ばれる計算化学の基本的な問題について検討する。 既存の機械学習アプローチは通常、まず原子間の距離を予測し、それから距離を満たす3D構造を生成する。 本稿では,分子動力学シミュレーションの従来の力場法にヒントを得て,原子座標のログ密度の勾配場を直接推定してConfGFと呼ばれる新しい手法を提案する。 推定勾配場はランジュバンダイナミクスを介して直接安定な配座を生成することができる。 しかし、勾配場はロート変換同変であるため、この問題は非常に難しい。 我々は,原子座標の勾配場を推定することで原子間距離の勾配場を推定できることに気付き,これらの勾配を効果的に推定するための最近のスコアベース生成モデルに基づく新しいアルゴリズムを開発した。 複数のタスクにまたがる実験結果から、ConfGFは従来の最先端のベースラインよりも大幅に優れていた。

We study a fundamental problem in computational chemistry known as molecular conformation generation, trying to predict stable 3D structures from 2D molecular graphs. Existing machine learning approaches usually first predict distances between atoms and then generate a 3D structure satisfying the distances, where noise in predicted distances may induce extra errors during 3D coordinate generation. Inspired by the traditional force field methods for molecular dynamics simulation, in this paper, we propose a novel approach called ConfGF by directly estimating the gradient fields of the log density of atomic coordinates. The estimated gradient fields allow directly generating stable conformations via Langevin dynamics. However, the problem is very challenging as the gradient fields are roto-translation equivariant. We notice that estimating the gradient fields of atomic coordinates can be translated to estimating the gradient fields of interatomic distances, and hence develop a novel algorithm based on recent score-based generative models to effectively estimate these gradients. Experimental results across multiple tasks show that ConfGF outperforms previous state-of-the-art baselines by a significant margin.
翻訳日:2021-05-11 14:26:40 公開日:2021-05-09
# mm波ビーム予測における6Gネットワークの機械学習ソリューションに関するセキュリティ問題

Security Concerns on Machine Learning Solutions for 6G Networks in mmWave Beam Prediction ( http://arxiv.org/abs/2105.03905v1 )

ライセンス: Link先を確認
Ferhat Ozgur Catak, Evren Catak, Murat Kuzlu, Umit Cali(参考訳) 6g(第6世代)は現在、無線通信システム向けに開発中の最新セルラー技術である。 近年,医療,交通,エネルギー,自動運転車など,さまざまな分野で機械学習アルゴリズムが広く採用されている。 これらのアルゴリズムは通信技術にも使われており、周波数スペクトルの使用頻度、レイテンシ、セキュリティの観点からシステム性能が改善されている。 機械学習技術の急速な発展、特にディープラーニングでは、アルゴリズムを適用する際にセキュリティ上の懸念を考慮することが重要である。 機械学習アルゴリズムは6Gネットワークに大きな利点をもたらすが、AI(Artificial Intelligent)モデルに対するセキュリティ上の懸念は通常、科学コミュニティによって無視されている。 しかし、セキュリティもまたAIアルゴリズムの重要な部分であり、これはAIモデル自体が攻撃者によって毒される可能性があるためである。 本稿では, 逆方向学習を用いたミリ波ビーム予測のための6G機械学習モデルに対する逆方向攻撃の軽減手法を提案する。 機械学習モデルに対する敵対的攻撃の背後にある主なアイデアは、mm波ビーム予測のための6gアプリケーションのために訓練されたディープラーニングモデルを操作することによって、誤った結果を生み出すことである。 また,高速な勾配符号法攻撃を伴うmm波ビーム予測アプリケーションにおいて,6gセキュリティのための逆学習緩和手法の性能を示す。 攻撃中の防御されたモデルの平均平方誤差(mse)は、攻撃のない無防備なモデルと非常に近い。

6G -- sixth generation -- is the latest cellular technology currently under development for wireless communication systems. In recent years, machine learning algorithms have been applied widely in various fields, such as healthcare, transportation, energy, autonomous car, and many more. Those algorithms have been also using in communication technologies to improve the system performance in terms of frequency spectrum usage, latency, and security. With the rapid developments of machine learning techniques, especially deep learning, it is critical to take the security concern into account when applying the algorithms. While machine learning algorithms offer significant advantages for 6G networks, security concerns on Artificial Intelligent (AI) models is typically ignored by the scientific community so far. However, security is also a vital part of the AI algorithms, this is because the AI model itself can be poisoned by attackers. This paper proposes a mitigation method for adversarial attacks against proposed 6G machine learning models for the millimeter-wave (mmWave) beam prediction using adversarial learning. The main idea behind adversarial attacks against machine learning models is to produce faulty results by manipulating trained deep learning models for 6G applications for mmWave beam prediction. We also present the adversarial learning mitigation method's performance for 6G security in mmWave beam prediction application with fast gradient sign method attack. The mean square errors (MSE) of the defended model under attack are very close to the undefended model without attack.
翻訳日:2021-05-11 14:26:22 公開日:2021-05-09
# ブラックボックスを開く:内部解法ヒューリスティックスを正則化することで、神経微分方程式を加速する

Opening the Blackbox: Accelerating Neural Differential Equations by Regularizing Internal Solver Heuristics ( http://arxiv.org/abs/2105.03918v1 )

ライセンス: Link先を確認
Avik Pal, Yingbo Ma, Viral Shah, Christopher Rackauckas(参考訳) 機械学習の民主化は、新しい問題に自動的に適応するアーキテクチャを必要とする。 NDE(Neural Differential Equations)は、ML実践者が反復モデル内のレイヤ数を選択する必要をなくすことによって、一般的なモデリングフレームワークとして登場した。 標準アーキテクチャのレイヤ数を選択することで計算コストを制御できるが、NDEでは、フォワードパスに対するニューラルネットワーク評価の回数は、適応ODEソルバのステップ数に依存することができる。 しかし、トレーニングコストを増やさなくても、最小のステップでNDEにバージョンを学ぶように強制することはできますか? スロー予測を克服するための現在の戦略は、高階の自動微分を必要とするため、トレーニング時間が大幅に向上する。 本稿では, 適応微分方程式解法の内部コストヒューリスティックスと離散随伴感性を組み合わせることで, 解き易いNDEを学習するための学習プロセスを導出する新たな正規化手法について述べる。 このアプローチは微分方程式解法の背後にあるブラックボックスの数値解析を開放し、その局所誤差推定と剛性ヒューリスティックを安価で正確なコスト推定として直接利用する。 基礎となるNDEフレームワークの変更を伴わずに本手法を組み込んで,ニューラル確率微分方程式に対応するために,正規微分方程式を超えて拡張することを示す。 我々は,我々のアプローチが予測時間を半減できることを示すとともに,トレーニング時間を桁違いに増やす他の手法とは異なり,同様のトレーニング時間を短縮できることを実証する。 このことは、最先端の方程式解法に埋め込まれた知識がどのように機械学習を強化するかを示す。

Democratization of machine learning requires architectures that automatically adapt to new problems. Neural Differential Equations (NDEs) have emerged as a popular modeling framework by removing the need for ML practitioners to choose the number of layers in a recurrent model. While we can control the computational cost by choosing the number of layers in standard architectures, in NDEs the number of neural network evaluations for a forward pass can depend on the number of steps of the adaptive ODE solver. But, can we force the NDE to learn the version with the least steps while not increasing the training cost? Current strategies to overcome slow prediction require high order automatic differentiation, leading to significantly higher training time. We describe a novel regularization method that uses the internal cost heuristics of adaptive differential equation solvers combined with discrete adjoint sensitivities to guide the training process towards learning NDEs that are easier to solve. This approach opens up the blackbox numerical analysis behind the differential equation solver's algorithm and directly uses its local error estimates and stiffness heuristics as cheap and accurate cost estimates. We incorporate our method without any change in the underlying NDE framework and show that our method extends beyond Ordinary Differential Equations to accommodate Neural Stochastic Differential Equations. We demonstrate how our approach can halve the prediction time and, unlike other methods which can increase the training time by an order of magnitude, we demonstrate similar reduction in training times. Together this showcases how the knowledge embedded within state-of-the-art equation solvers can be used to enhance machine learning.
翻訳日:2021-05-11 14:26:02 公開日:2021-05-09
# 暗黙的フィードバックを用いた連帯協調フィルタリングにおけるプライバシーの強化

Stronger Privacy for Federated Collaborative Filtering with Implicit Feedback ( http://arxiv.org/abs/2105.03941v1 )

ライセンス: Link先を確認
Lorenzo Minto, Moritz Haller, Hammed Haddadi, Benjamin Livshits(参考訳) レコメンダシステムは一般的に、ビューやクリックなどの集中的に収集されたユーザーインタラクションデータに基づいてトレーニングされる。 しかしこのプラクティスは、レコメンダの収集と潜在的に機密性の高いデータの処理に関して、重大なプライバシー上の懸念を引き起こす。 近年の文献では,プライバシを意識したレコメンダシステムがいくつか提案されているが,暗黙的なフィードバックとプライバシの交点では,比較的注目されていない。 この欠点に対処するために,ユーザレベルのローカルディファレンシャルプライバシー(ldp)下での暗黙のデータに対して,実用的なフェデレーションレコメンダシステムを提案する。 プライバシとユーティリティのトレードオフはパラメータ$\epsilon$と$k$で制御され、更新されたプライバシ予算と各ユーザが送信する$\epsilon$-LDPグラデーションの更新数を規制する。 ユーザのプライバシーをさらに保護するために,レコメンダに転送する前にレポートを匿名化・シャッフルすることで指紋認証面を低減するプロキシネットワークを導入する。 5k項目の50kユーザに対して,K=10(HR@10)0.68でHit Ratioを達成し,MovieLensデータセット上でフレームワークの有効性を実証的に実証した。 完全なデータセットであっても、ユーザのプライバシを損なうことなく、HR@10>0.5で妥当なユーティリティを実現できることを示す。

Recommender systems are commonly trained on centrally collected user interaction data like views or clicks. This practice however raises serious privacy concerns regarding the recommender's collection and handling of potentially sensitive data. Several privacy-aware recommender systems have been proposed in recent literature, but comparatively little attention has been given to systems at the intersection of implicit feedback and privacy. To address this shortcoming, we propose a practical federated recommender system for implicit data under user-level local differential privacy (LDP). The privacy-utility trade-off is controlled by parameters $\epsilon$ and $k$, regulating the per-update privacy budget and the number of $\epsilon$-LDP gradient updates sent by each user respectively. To further protect the user's privacy, we introduce a proxy network to reduce the fingerprinting surface by anonymizing and shuffling the reports before forwarding them to the recommender. We empirically demonstrate the effectiveness of our framework on the MovieLens dataset, achieving up to Hit Ratio with K=10 (HR@10) 0.68 on 50k users with 5k items. Even on the full dataset, we show that it is possible to achieve reasonable utility with HR@10>0.5 without compromising user privacy.
翻訳日:2021-05-11 14:25:34 公開日:2021-05-09
# 遅延耐性OCOとネットワークリソース割り当てへの応用

Delay-Tolerant Constrained OCO with Application to Network Resource Allocation ( http://arxiv.org/abs/2105.04005v1 )

ライセンス: Link先を確認
Juncheng Wang, Ben Liang, Min Dong, Gary Boudreau, and Hatem Abou-zeid(参考訳) 我々は,複数スロットのフィードバック遅延を伴うオンライン凸最適化(OCO)を考察し,エージェントが時間変化のある凸損失関数の蓄積を最小限に抑えるために一連のオンライン決定を行う。 現在の凸損失関数と長期制約関数は、決定が下された後のみエージェントに明らかにされ、複数のタイムスロットで遅延する可能性がある。 OCOに関するこれまでの作業は、オンライン決定シーケンスとオフラインベンチマークの間の損失のギャップを計測する静的な後悔に焦点を当てており、時間とともに修正されている。 本研究では、静的な後悔とより実践的に意味のあるダイナミックな後悔の両方を考慮し、ベンチマークはスロットごとの最適化の時間変化シーケンスである。 我々は,情報フィードバックと意思決定更新の同期に対処するために,新たな制約ペナルティと二重正規化を用いた効率的なアルゴリズムDTC-OCO(Delay-Tolera nt Constrained-OCO)を提案する。 我々は、その動的後悔、静的後悔、および制約違反の上限を導出し、穏やかな条件下では劣線型であることを証明する。 さらにDTC-OCOを,データネットワークやクラウドコンピューティングなど多くのシステムで発生する一般的なネットワークリソース割り当て問題に適用する。 シミュレーションの結果, DTC-OCOは, 既知の最良の代替品よりもかなり高い性能を示した。

We consider online convex optimization (OCO) with multi-slot feedback delay, where an agent makes a sequence of online decisions to minimize the accumulation of time-varying convex loss functions, subject to short-term and long-term constraints that are possibly time-varying. The current convex loss function and the long-term constraint function are revealed to the agent only after the decision is made, and they may be delayed for multiple time slots. Existing work on OCO under this general setting has focused on the static regret, which measures the gap of losses between the online decision sequence and an offline benchmark that is fixed over time. In this work, we consider both the static regret and the more practically meaningful dynamic regret, where the benchmark is a time-varying sequence of per-slot optimizers. We propose an efficient algorithm, termed Delay-Tolerant Constrained-OCO (DTC-OCO), which uses a novel constraint penalty with double regularization to tackle the asynchrony between information feedback and decision updates. We derive upper bounds on its dynamic regret, static regret, and constraint violation, proving them to be sublinear under mild conditions. We further apply DTC-OCO to a general network resource allocation problem, which arises in many systems such as data networks and cloud computing. Simulation results demonstrate substantial performance gain of DTC-OCO over the known best alternative.
翻訳日:2021-05-11 14:25:09 公開日:2021-05-09
# 双方向学習トランスフォーマによる手書き数式認識

Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer ( http://arxiv.org/abs/2105.02412v2 )

ライセンス: Link先を確認
Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, Ziyin Zhang(参考訳) エンコーダ・デコーダモデルは最近手書き数式認識に大きな進歩を遂げている。 しかし,既存の手法では画像特徴に正確に注意を向けることが課題である。 さらに、これらのエンコーダデコーダモデルは、通常、デコーダ部でRNNベースのモデルを採用するため、長い$\LaTeX{}$シーケンスを処理するのに非効率である。 本稿では、rnnベースのデコーダをトランスフォーマベースのデコーダで置き換えることにより、モデルアーキテクチャ全体を非常に簡潔にする。 さらに、双方向言語モデリングにおけるトランスフォーマーの可能性を完全に活用するために、新しいトレーニング戦略を導入する。 データ拡張を使用しないいくつかの手法と比較して、我々のモデルはCROHME 2014における現在の最先端手法のExpRateを2.23%改善することを示した。 同様に、CROHME 2016とCROHME 2019では、ExpRateをそれぞれ1.92%と2.28%改善しています。

Encoder-decoder models have made great progress on handwritten mathematical expression recognition recently. However, it is still a challenge for existing methods to assign attention to image features accurately. Moreover, those encoder-decoder models usually adopt RNN-based models in their decoder part, which makes them inefficient in processing long $\LaTeX{}$ sequences. In this paper, a transformer-based decoder is employed to replace RNN-based ones, which makes the whole model architecture very concise. Furthermore, a novel training strategy is introduced to fully exploit the potential of the transformer in bidirectional language modeling. Compared to several methods that do not use data augmentation, experiments demonstrate that our model improves the ExpRate of current state-of-the-art methods on CROHME 2014 by 2.23%. Similarly, on CROHME 2016 and CROHME 2019, we improve the ExpRate by 1.92% and 2.28% respectively.
翻訳日:2021-05-11 11:27:38 公開日:2021-05-09
# mcmc-driven importance sampler

MCMC-driven importance samplers ( http://arxiv.org/abs/2105.02579v2 )

ライセンス: Link先を確認
F. Llorente, E. Curbelo, L. Martino, V. Elvira, D. Delgado(参考訳) モンテカルロ法は多次元ベイズ分布の複素積分を推定する標準的な方法である。 本研究では,マルコフ連鎖モンテカルロ (MCMC) アルゴリズムを基礎となる多重重要サンプリング (IS) スキームを駆動する適応型重要サンプリング器のクラスであるLAISに着目した。 上層層はMCMCアルゴリズムによって提案密度を推定し、下層は最終的な推定値を計算するために複数のISスキームを処理する。 LAISのモジュラー性は、上層と下層の異なる選択を可能にし、パフォーマンスと計算コストが異なる。 本研究では,上層と下層の両方において,効率の向上と計算コストの低減を図るために,異なる拡張を提案する。 異なる変種は、高度に集中した後続分布(大量のデータなど)など、現実世界のアプリケーションで発生する計算上の課題に対処するために必要不可欠である。 ハミルトン駆動の重要サンプルが提示され、テストされる。 さらに, 上層で生成した試料を, 下層で生成した最終推定器で再利用するなど, より安価なスキームを設計するための様々な戦略を導入する。 数値実験により提案手法の利点がLAISや他のベンチマーク手法のバニラバージョンと比較された。

Monte Carlo methods are the standard procedure for estimating complicated integrals of multidimensional Bayesian posterior distributions. In this work, we focus on LAIS, a class of adaptive importance samplers where Markov chain Monte Carlo (MCMC) algorithms are employed to drive an underlying multiple importance sampling (IS) scheme. Its power lies in the simplicity of the layered framework: the upper layer locates proposal densities by means of MCMC algorithms; while the lower layer handles the multiple IS scheme, in order to compute the final estimators. The modular nature of LAIS allows for different possible choices in the upper and lower layers, that will have different performance and computational costs. In this work, we propose different enhancements in order to increase the efficiency and reduce the computational cost, of both upper and lower layers. The different variants are essential if we aim to address computational challenges arising in real-world applications, such as highly concentrated posterior distributions (due to large amounts of data, etc.). Hamiltonian-driven importance samplers are presented and tested. Furthermore, we introduce different strategies for designing cheaper schemes, for instance, recycling samples generated in the upper layer and using them in the final estimators in the lower layer. Numerical experiments show the benefits of the proposed schemes as compared to the vanilla version of LAIS and other benchmark methods.
翻訳日:2021-05-11 11:26:39 公開日:2021-05-09